Compartir a través de


Incrustaciones vectoriales en Azure Cosmos DB

Los vectores, también conocidos como inserciones o inserciones vectoriales, son representaciones matemáticas de datos en un espacio dimensional. Representan varios tipos de información (texto, imágenes, audio) en un formato que los modelos de aprendizaje automático pueden procesar. Cuando un modelo de IA recibe la entrada de texto, primero lo convierte en tokens. A continuación, cada token se convierte en su inserción correspondiente. Este proceso de conversión se puede realizar mediante un modelo de generación de inserción, como Inserciones de Azure OpenAI o Hugging Face en Azure. El modelo procesa estas inserciones a través de varias capas, capturando patrones complejos y relaciones dentro del texto. Las inserciones de salida se pueden convertir a continuación en tokens si es necesario, generando texto legible.

Vectores

Cada incrustración es un vector de números de punto flotante, de modo que la distancia entre dos incrustraciones en el espacio vectorial está correlacionada con la similitud semántica entre dos entradas en el formato original. Por ejemplo, si hay dos textos similares, sus representaciones vectoriales también deberían ser similares. Estas representaciones multidimensionales capturan el significado semántico, lo que facilita la realización de tareas como la búsqueda, la agrupación en clústeres y la clasificación.

Estos son dos ejemplos de textos representados como vectores:

Captura de pantalla de ejemplos de vectores en Azure Cosmos DB.

Origen de la imagen: OpenAI

Dimensiones y proximidad

Cada cuadro que contiene números en punto flotante corresponde a una dimensión y cada dimensión corresponde a una característica o atributo que puede o no ser comprensible para los seres humanos. Las inserciones de texto del modelo de lenguaje grande suelen tener algunas miles de dimensiones, mientras que los modelos de datos más complejos pueden tener decenas de miles de dimensiones.

Entre los dos vectores del ejemplo anterior, algunas dimensiones son similares mientras que otras son diferentes, lo que se debe a las similitudes y diferencias en el significado de las dos frases.

En esta imagen se muestra la proximidad espacial de los vectores similares, que contrastan los vectores que son drásticamente diferentes:

Captura de pantalla de proximidad de vectores en Azure Cosmos DB.

Origen de la imagen: OpenAI

Ejemplos

Puede ver más ejemplos en esta visualización interactiva que transforma los datos en un espacio tridimensional.