Condividi tramite


Incorporamenti vettoriali in Azure Cosmos DB

I vettori, noti anche come incorporamenti o incorporamenti vettoriali, sono rappresentazioni matematiche dei dati in uno spazio altamente dimensionale. Rappresentano vari tipi di informazioni, ossia testo, immagini, audio, in un formato che i modelli di Machine Learning possono elaborare. Quando un modello di intelligenza artificiale riceve l'input di testo, per prima cosa trasforma il testo in token. Ogni token viene quindi convertito nel corrispondente incorporamento. Questo processo di conversione può essere eseguito usando un modello di generazione di incorporamento, ad esempio Incorporamenti di Azure OpenAI o Hugging Face in Azure. Il modello elabora questi incorporamenti attraverso più livelli, acquisendo modelli complessi e relazioni all'interno del testo. Gli incorporamenti di output possono quindi essere riconvertiti in token, se necessario, generando testo leggibile.

Vettori

Ogni incorporamento è un vettore di numeri a virgola mobile, in modo che la distanza tra due incorporamenti nello spazio vettoriale sia correlata alla somiglianza semantica tra due input nel formato originale. Ad esempio, se due testi sono simili, anche le rappresentazioni vettoriali dovrebbero essere simili. Queste rappresentazioni altamente dimensionali acquisiscono il significato semantico, semplificando l'esecuzione di attività come la ricerca, il clustering e la classificazione.

Ecco due esempi di testi rappresentati come vettori:

Screenshot degli esempi di vettori in Azure Cosmos DB.

Origine immagine: OpenAI

Dimensioni e vicinanza

Ogni casella contenente numeri a virgola mobile corrisponde a una dimensione e ogni dimensione corrisponde a una funzionalità o a un attributo che potrebbe anche non essere comprensibile per gli esseri umani. Gli incorporamenti di testo del modello linguistico di grandi dimensioni hanno in genere poche migliaia di dimensioni, mentre i modelli di dati più complessi possono avere decine di migliaia di dimensioni.

Tra i due vettori nell'esempio precedente alcune dimensioni sono simili, mentre altre sono diverse, a causa delle analogie e delle differenze nel significato delle due frasi.

Questa immagine mostra la vicinanza spaziale di vettori simili e il contrasto tra vettori drasticamente diversi:

Screenshot della prossimità del vettore in Azure Cosmos DB.

Origine immagine: OpenAI

Esempi

In questo visualizzazione interattiva è possibile visualizzare altri esempi che trasformano i dati in uno spazio tridimensionale.