Partilhar via


Compreender as incorporações no Serviço OpenAI do Azure

Uma incorporação é um formato especial de representação de dados que modelos e algoritmos de aprendizado de máquina podem usar facilmente. A incorporação é uma representação densa de informação do significado semântico de um pedaço de texto. Cada incorporação é um vetor de números de vírgula flutuante, de tal forma que a distância entre duas incorporações no espaço vetorial está correlacionada com a semelhança semântica entre duas entradas no formato original. Por exemplo, se dois textos são semelhantes, então suas representações vetoriais também devem ser semelhantes. Incorpora a pesquisa de semelhança de vetor de energia em sistemas de recuperação, como o Azure AI Search (recomendado), e em bancos de dados do Azure, como Azure Cosmos DB para MongoDB vCore , Banco de Dados SQL do Azure e Banco de Dados do Azure para PostgreSQL - Servidor Flexível.

Incorporação de modelos

As incorporações facilitam o aprendizado de máquina em grandes entradas que representam palavras, capturando as semelhanças semânticas em um espaço vetorial. Portanto, você pode usar incorporações para determinar se dois blocos de texto são semanticamente relacionados ou semelhantes e fornecer uma pontuação para avaliar a semelhança.

Semelhança de cosseno

As incorporações do Azure OpenAI geralmente dependem da semelhança cosseno para calcular a semelhança entre documentos e uma consulta.

De uma perspetiva matemática, a semelhança cosseno mede o cosseno do ângulo entre dois vetores projetados em um espaço multidimensional. Esta medida é benéfica, porque se dois documentos estão distantes pela distância euclidiana por causa do tamanho, eles ainda podem ter um ângulo menor entre eles e, portanto, maior semelhança de cosseno. Para obter mais informações sobre equações de semelhança cosseno, consulte Semelhança cosseno.

Um método alternativo de identificação de documentos semelhantes é contar o número de palavras comuns entre documentos. Essa abordagem não é dimensionada, uma vez que uma expansão no tamanho do documento provavelmente levará a um maior número de palavras comuns detetadas, mesmo entre tópicos diferentes. Por esta razão, a semelhança do cosseno pode oferecer uma alternativa mais eficaz.

Próximos passos