Team di Ricerca · Toscana, Italia

Approximate Nearest
Neighbor Search

tusKANNy è un team di ricerca che sviluppa algoritmi e strumenti open-source allo stato dell'arte per la ricerca ANN su rappresentazioni neurali dense, sparse, e multi-vettore .

Esplora Software Scopri le Pubblicazioni

Embedding denso

Indici a grafo ad alte prestazioni e tecniche di quantizzazione per una ricerca efficiente su embedding denso.

Embedding sparso

Strutture efficienti basate su indici invertiti e grafi per embedding sparso appreso, con accuratezza quasi esatta in un centinaio di microsecondi.

Embedding multi-vettore

Pipeline di retrieval allo stato dell'arte che gestiscono rappresentazioni multi-vettore senza compromettere la velocità.

Open Source

Il Nostro Software

Vedi tutto →

TACHIOM

Retrieval multi-vettore late-interaction veloce e scalabile

Rust

TACHIOM è una struttura dati veloce e scalabile per il retrieval multi-vettore late-interaction, scritto in Rust con binding Python. Consente di raggruppare centinaia di milioni di vettori in pochi minuti e di recuperare dati da grandi collezioni multi-vettore in meno di 10 ms.

late-interactionmulti-vectorclustering

Vedi su GitHub

Seismic

Retrieval approssimato veloce su embedding sparsi appresi

Rust

Un motore di ricerca superluminale per rappresentazioni sparse apprese, scritto in Rust con binding Python. Seismic indicizza collezioni di vettori sparsi e recupera risultati in microsecondi mantenendo un'accuratezza quasi esatta.

SparseLSRInverted Index

Vedi su GitHub

kANNolo

Libreria ANN veloce per embedding densi, sparsi e multi-vettore

Rust

Una libreria Rust flessibile che combina tecniche di indicizzazione allo stato dell'arte per embedding densi, sparsi e multi-vettore. Progettata per rendere rapida ed ergonomica la prototipazione di nuovi algoritmi ANN.

DenseSparseMulti-VectorHNSWQuantization

Vedi su GitHub

Vectorium

Base unificata per storage e compressione di embedding

Rust

Una libreria Rust per archiviare, accedere e comprimere dataset di embedding densi, sparsi e multi-vettore. Fornisce un'interfaccia unificata dataset/encoder condivisa tra i crate di indicizzazione e ricerca di tusKANNy. Include un'API di ricerca esaustiva e uno strumento CLI per il calcolo del ground truth.

DenseSparseMulti-VectorQuantization

Vedi su GitHub

Community

Risorse

Vedi tutto →

Awesome Learned Sparse Retrieval

Lista Awesome

Una lista curata di articoli, librerie, benchmark e strumenti per il Learned Sparse Retrieval, con modelli, strutture di indicizzazione e risorse di valutazione.

Sparse RetrievalSurveyReading List

Apri risorsa

Awesome Multivector Retrieval

Lista Awesome

Una lista curata di articoli, codice, modelli e dataset per il retrieval late-interaction multi-vettore - copre modelli stile ColBERT, tecniche di indicizzazione, librerie software e benchmark.

Multivector RetrievalLate InteractionSurveyReading List

Apri risorsa

tusKANNy on Hugging Face

Hugging Face

Organizzazione ufficiale tusKANNy su Hugging Face, che ospita modelli e dataset rilasciati insieme alla nostra ricerca.

ModelsDatasets

Apri risorsa

Ricerca

Pubblicazioni Recenti

Vedi tutto →

SIGIR 2026Multivector RetrievalLate-InteractionClustering

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Silvio Martinico, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Propone TACHIOM, un sistema di retrieval multi-vettore che utilizza il Token-Aware Clustering (TAC) per un clustering dei token accurato e scalabile. Combinando l'indicizzazione gerarchica con un layout di Product Quantization ottimizzato per MaxSim, TACHIOM offre un clustering fino a 247x più veloce rispetto al k-means standard e offre una velocità di retrieval fino a 9.8x superiore rispetto allo stato dell'arte.

Leggi il PDF

SIGIR 2026Sparse RetrievalScalability

Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

Thong Nguyen, Cosimo Rulli, Franco Maria Nardini, Rossano Venturini, Andrew Yates

Sparton è un kernel Triton per la testa del Language Model nei modelli di Learned Sparse Retrieval che fonde moltiplicazione tra matrici tiled, ReLU, log1p e max-reduction in un singolo kernel GPU, ottenendo fino a 4.8x di speedup e una riduzione di un ordine di grandezza del picco di memoria rispetto alle baseline PyTorch.

Leggi il PDF

In revisione al Journal of the ACMSparse RetrievalSketchingInverted Index

Efficient Sketching and Nearest Neighbor Search Algorithms for Sparse Vector Sets

Sebastian Bruch, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce un algoritmo di sketching fondato teoricamente per ridurre la dimensionalità effettiva preservando i rank indotti dal prodotto interno, e mostra il suo legame con la struttura dati Seismic.

Leggi il PDF

ECIR 2026Sparse RetrievalCompression

Forward Index Compression for Learned Sparse Retrieval

Sebastian Bruch, Martino Fontana, Franco Maria Nardini, Cosimo Rulli, Rossano Venturini

Introduce DotVByte, una tecnica di compressione ottimizzata per il calcolo del prodotto interno che riduce significativamente lo spazio mantenendo l'efficienza del retrieval sparse.

Leggi il PDF

Integrazioni

Usato dagli strumenti che già utilizzi

FlashRAG

Dove Trovarci

Vieni a Trovarci

Siamo a Pisa, una delle città universitarie più storiche d'Italia. Il nostro team lavora tra l' Università di Pisa and the Consiglio Nazionale delle Ricerche.

Che tu sia un ricercatore interessato all'ANN, un professionista in cerca di collaborazione o un'azienda che cerca soluzioni su misura, ci farà piacere sentirti. Le nostre porte a Pisa sono sempre aperte.

info [AT] tuskanny [DOT] com

Consiglio Nazionale delle Ricerche

Istituto di Scienza e Tecnologie dell'Informazione "Alessandro Faedo" (ISTI-CNR)

Via G. Moruzzi 1, 56124 Pisa, Italia

Università di Pisa

Dipartimento di Informatica

Largo B. Pontecorvo 3, 56127 Pisa, Italia

Approximate NearestNeighbor Search

Embedding denso

Embedding sparso

Embedding multi-vettore

Il Nostro Software

TACHIOM

Seismic

kANNolo

Vectorium

Risorse

Awesome Learned Sparse Retrieval

Awesome Multivector Retrieval

tusKANNy on Hugging Face

Pubblicazioni Recenti

Efficient Multivector Retrieval with Token-Aware Clustering and Hierarchical Indexing

Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval

Efficient Sketching and Nearest Neighbor Search Algorithms for Sparse Vector Sets

Forward Index Compression for Learned Sparse Retrieval

Integrazioni

Vieni a Trovarci

Approximate Nearest
Neighbor Search