Partilhar via


Incorporações vetoriais no Azure Cosmos DB

Vetores, também conhecidos como incorporações ou incorporações vetoriais, são representações matemáticas de dados em um espaço de alta dimensão. Eles representam vários tipos de informação – texto, imagens, áudio – um formato que os modelos de aprendizado de máquina podem processar. Quando um modelo de IA recebe entrada de texto, ele primeiro tokeniza o texto em tokens. Cada token é então convertido em sua incorporação correspondente. Esse processo de conversão pode ser feito usando um modelo de geração de incorporação, como o Azure OpenAI Embeddings ou o Hugging Face on Azure. O modelo processa essas incorporações através de várias camadas, capturando padrões e relações complexas dentro do texto. As incorporações de saída podem ser convertidas novamente em tokens, se necessário, gerando texto legível.

Vetores

Cada incorporação é um vetor de números de vírgula flutuante, de tal forma que a distância entre duas incorporações no espaço vetorial está correlacionada com a semelhança semântica entre duas entradas no formato original. Por exemplo, se dois textos são semelhantes, então suas representações vetoriais também devem ser semelhantes. Essas representações de alta dimensão capturam significado semântico, facilitando a execução de tarefas como pesquisar, agrupar e classificar.

Aqui estão dois exemplos de textos representados como vetores:

Captura de ecrã de exemplos vetoriais no Azure Cosmos DB.

Fonte da imagem: OpenAI

Dimensões e proximidade

Cada caixa contendo números de vírgula flutuante corresponde a uma dimensão, e cada dimensão corresponde a uma característica ou atributo que pode ou não ser compreensível para os seres humanos. As incorporações de texto de modelo de linguagem grande normalmente têm alguns milhares de dimensões, enquanto os modelos de dados mais complexos podem ter dezenas de milhares de dimensões.

Entre os dois vetores no exemplo acima, algumas dimensões são semelhantes, enquanto outras dimensões são diferentes, o que se deve às semelhanças e diferenças no significado das duas frases.

Esta imagem mostra a proximidade espacial de vetores que são semelhantes, contrastando vetores que são drasticamente diferentes:

Captura de ecrã da proximidade do vetor no Azure Cosmos DB.

Fonte da imagem: OpenAI

Exemplos

Você pode ver mais exemplos nesta visualização interativa que transforma dados em um espaço tridimensional.