Team di Ricerca · Toscana, Italia

Approximate Nearest
Neighbor Search

TusKANNy è un team di ricerca che sviluppa algoritmi e strumenti open-source allo stato dell'arte per la ricerca ANN su rappresentazioni neurali dense, sparse, e multi-vettore .

Embedding denso

Indici a grafo ad alte prestazioni e tecniche di quantizzazione per una ricerca efficiente su embedding denso.

Embedding sparso

Strutture efficienti basate su indici invertiti e grafi per embedding sparso appreso, con accuratezza quasi esatta in un centinaio di microsecondi.

Embedding multi-vettore

Pipeline di retrieval allo stato dell'arte che gestiscono rappresentazioni multi-vettore senza compromettere la velocità.

Open Source

Il Nostro Software

Vedi tutto →

TACHIOM

Retrieval multi-vettore late-interaction veloce e scalabile

Rust

TACHIOM è una struttura dati veloce e scalabile per il retrieval multi-vettore late-interaction, scritto in Rust con binding Python. Consente di raggruppare centinaia di milioni di vettori in pochi minuti e di recuperare dati da grandi collezioni multi-vettore in meno di 10 ms.

late-interactionmulti-vectorclustering
Vedi su GitHub

Seismic

Retrieval approssimato veloce su embedding sparsi appresi

Rust

Un motore di ricerca superluminale per rappresentazioni sparse apprese, scritto in Rust con binding Python. Seismic indicizza collezioni di vettori sparsi e recupera risultati in microsecondi mantenendo un'accuratezza quasi esatta.

SparseLSRInverted Index
Vedi su GitHub

kANNolo

Libreria ANN veloce per embedding densi, sparsi e multi-vettore

Rust

Una libreria Rust flessibile che combina tecniche di indicizzazione allo stato dell'arte per embedding densi, sparsi e multi-vettore. Progettata per rendere rapida ed ergonomica la prototipazione di nuovi algoritmi ANN.

DenseSparseMulti-VectorHNSWQuantization
Vedi su GitHub

Vectorium

Base unificata per storage e compressione di embedding

Rust

Una libreria Rust per archiviare, accedere e comprimere dataset di embedding densi, sparsi e multi-vettore. Fornisce un'interfaccia unificata dataset/encoder condivisa tra i crate di indicizzazione e ricerca di TusKANNy. Include un'API di ricerca esaustiva e uno strumento CLI per il calcolo del ground truth.

DenseSparseMulti-VectorQuantization
Vedi su GitHub

Community

Risorse

Vedi tutto →

Ricerca

Pubblicazioni Recenti

Vedi tutto →
SIGIR 2026Multivector RetrievalLate-InteractionClustering

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Propone TACHIOM, un sistema di retrieval multi-vettore che utilizza il Token-Aware Clustering (TAC) per un clustering dei token accurato e scalabile. Combinando l'indicizzazione gerarchica con un layout di Product Quantization ottimizzato per MaxSim, TACHIOM offre un clustering fino a 247x più veloce rispetto al k-means standard e offre una velocità di retrieval fino a 9.8x superiore rispetto allo stato dell'arte.

Leggi il PDF
SIGIR 2026Sparse RetrievalScalability

Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

Thong Nguyen, Cosimo Rulli, Franco Maria Nardini, Rossano Venturini, Andrew Yates

Sparton è un kernel Triton per la testa del Language Model nei modelli di Learned Sparse Retrieval che fonde moltiplicazione tra matrici tiled, ReLU, log1p e max-reduction in un singolo kernel GPU, ottenendo fino a 4.8x di speedup e una riduzione di un ordine di grandezza del picco di memoria rispetto alle baseline PyTorch.

Leggi il PDF
In revisione al Journal of the ACMSparse RetrievalSketchingInverted Index

Efficient Sketching and Nearest Neighbor Search Algorithms for Sparse Vector Sets

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce un algoritmo di sketching fondato teoricamente per ridurre la dimensionalità effettiva preservando i rank indotti dal prodotto interno, e mostra il suo legame con la struttura dati Seismic.

Leggi il PDF
ECIR 2026Sparse RetrievalCompression

Forward Index Compression for Learned Sparse Retrieval

Sebastian Bruch, Martino Fontana, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce DotVByte, una tecnica di compressione ottimizzata per il calcolo del prodotto interno che riduce significativamente lo spazio mantenendo l'efficienza del retrieval sparse.

Leggi il PDF

Integrazioni

Usato dagli strumenti che già utilizzi

Dove Trovarci

Vieni a Trovarci

Siamo a Pisa, una delle città universitarie più storiche d'Italia. Il nostro team lavora tra l' Università di Pisa and the Consiglio Nazionale delle Ricerche.

Che tu sia un ricercatore interessato all'ANN, un professionista in cerca di collaborazione o un'azienda che cerca soluzioni su misura, ci farà piacere sentirti. Le nostre porte a Pisa sono sempre aperte.

info [AT] tuskanny [DOT] com