Compartilhar via


Inserções de vetor no Azure Cosmos DB

Os vetores, também conhecidos como incorporações ou incorporações vetoriais, são representações matemáticas de dados em um espaço de alta dimensionalidade. Eles representam vários tipos de informações — texto, imagens, áudio — um formato que os modelos de aprendizado de máquina podem processar. Quando um modelo de IA recebe entrada de texto, ele primeiro transforma o texto em tokens. Cada token é convertido em sua incorporação correspondente. Esse processo de conversão pode ser feito usando um modelo de geração de incorporação, como o Incorporações do Serviço OpenAI do Azure ou o Hugging Face no Azure. O modelo processa essas incorporações por meio de várias camadas, capturando padrões complexos e relações dentro do texto. As incorporações de saída podem ser convertidas novamente em tokens, se necessário, gerando um texto legível.

Vetores

Cada inserção é um vetor de números de ponto flutuante, de modo que a distância entre duas inserções no espaço do vetor esteja correlacionada com a similaridade semântica entre duas entradas no formato original. Por exemplo, se dois textos forem semelhantes, suas representações de vetor também deverão ser semelhantes. Essas representações de alta dimensionalidade capturam o significado semântico, facilitando a execução de tarefas como pesquisa, clustering e classificação.

Aqui estão dois exemplos de textos representados como vetores:

Captura de tela de exemplos de vetor no Azure Cosmos DB.

Fonte da imagem: OpenAI

Dimensões e proximidade

Cada caixa que contém números de ponto flutuante corresponde a uma dimensão, e cada dimensão corresponde a um recurso ou atributo que pode ou não ser compreensível para humanos. As incorporações de texto de grandes modelos de linguagem geralmente têm algumas milhares de dimensões, enquanto modelos de dados mais complexos podem ter dezenas de milhares de dimensões.

Entre os dois vetores no exemplo acima, algumas dimensões são semelhantes, enquanto outras são diferentes, refletindo as semelhanças e diferenças no significado das duas frases.

Esta imagem mostra a proximidade espacial de vetores semelhantes, contrastando com vetores que são drasticamente diferentes:

Captura de tela da proximidade do vetor no Azure Cosmos DB.

Fonte da imagem: OpenAI

Exemplos

Você pode ver mais exemplos nessa visualização interativa que transforma dados em um espaço 3D.