Ricerca

Pubblicazioni

Articoli peer-reviewed del team tusKANNy, dedicati alla approximate nearest neighbor search su rappresentazioni dense, sparse e multi-vettore.

2026

SIGIR 2026Multivector RetrievalLate-InteractionClustering

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Propone TACHIOM, un sistema di retrieval multi-vettore che utilizza il Token-Aware Clustering (TAC) per un clustering dei token accurato e scalabile. Combinando l'indicizzazione gerarchica con un layout di Product Quantization ottimizzato per MaxSim, TACHIOM offre un clustering fino a 247x più veloce rispetto al k-means standard e offre una velocità di retrieval fino a 9.8x superiore rispetto allo stato dell'arte.

Leggi il PDF

SIGIR 2026Sparse RetrievalScalability

Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

Thong Nguyen, Cosimo Rulli, Franco Maria Nardini, Rossano Venturini, Andrew Yates

Sparton è un kernel Triton per la testa del Language Model nei modelli di Learned Sparse Retrieval che fonde moltiplicazione tra matrici tiled, ReLU, log1p e max-reduction in un singolo kernel GPU, ottenendo fino a 4.8x di speedup e una riduzione di un ordine di grandezza del picco di memoria rispetto alle baseline PyTorch.

Leggi il PDF

ECIR 2026Sparse RetrievalCompression

Forward Index Compression for Learned Sparse Retrieval

Sebastian Bruch, Martino Fontana, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce DotVByte, una tecnica di compressione ottimizzata per il calcolo del prodotto interno che riduce significativamente lo spazio mantenendo l'efficienza del retrieval sparse.

Leggi il PDF

ECIR 2026Multi-vectorReranking

Multivector Reranking in the Era of Strong First-Stage Retrievers

Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Dimostra che sostituire le fasi gatherer a livello di token con learned sparse retrieval consente oltre 24x di speedup rispetto ai sistemi di retrieval multi-vettore allo stato dell'arte.

Leggi il PDF

2025

In revisione al Journal of the ACMSparse RetrievalSketchingInverted Index

Efficient Sketching and Nearest Neighbor Search Algorithms for Sparse Vector Sets

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce un algoritmo di sketching fondato teoricamente per ridurre la dimensionalità effettiva preservando i rank indotti dal prodotto interno, e mostra il suo legame con la struttura dati Seismic.

Leggi il PDF

ECIR 2025DenseSparseLibrary

kANNolo: Sweet and Smooth Approximate k-Nearest Neighbors Search

Leonardo Delfino, Domenico Erriquez, Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Una libreria di ricerca ANN basata su Rust che combina indicizzazione allo stato dell'arte per vettori densi e sparsi con quantizzazione vettoriale, progettata per una prototipazione semplice.

Leggi il PDF

ECIR 2025Sparse RetrievalScalability

Investigating the Scalability of Approximate Sparse Retrieval Algorithms to Massive Datasets

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini, Leonardo Venuta

Confronta metodi di retrieval sparse basati su grafi e su indici invertiti sul dataset MS MARCO v2 da 138 milioni di passaggi, evidenziando sfide di scalabilità e compromessi di efficienza.

Leggi il PDF

SIGIR 2025Sparse RetrievalInference-Free

Effective Inference-Free Retrieval for Learned Sparse Representations

Franco Maria Nardini, Thong Nguyen, Cosimo Rulli, Rossano Venturini, Andrew Yates

Propone Li-LSR, che sostituisce il query encoder con una lookup table veloce apprendendo in training un punteggio di rilevanza statico per token, raggiungendo retrieval sparse inference-free allo stato dell'arte e superando SPLADE-v3-Doc di 1 punto mRR@10 su MsMarco e 1.8 punti nDCG@10 su BEIR.

Leggi il PDF

2024

CIKM 2024Sparse Retrievalk-NN Graph

Pairing Clustered Inverted Indexes with k-NN Graphs for Fast Approximate Retrieval over Learned Sparse Representations

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Migliora Seismic con l'integrazione di grafi k-NN e un'ipotesi di clustering, ottenendo quasi 2.2x di speedup rispetto a Seismic standard mantenendo l'accuratezza.

Leggi il PDF

SIGIR 2024Sparse RetrievalInverted Index

Efficient Inverted Indexes for Approximate Retrieval over Learned Sparse Representations

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Presenta Seismic, una nuova organizzazione di indice invertito che abilita retrieval veloce su embedding sparso appreso, competitiva con il retrieval denso sui benchmark BigANN.

Leggi il PDF