Azure OpenAI Service의 포함 이해
포함은 기계 학습 모델과 알고리즘이 쉽게 사용할 수 있는 특수한 데이터 표현 형식입니다. 포함은 텍스트 조각의 의미 체계적 의미에 대한 조밀한 정보 표현입니다. 각 포함은 부동 소수점 숫자의 벡터입니다. 따라서 벡터 공간의 두 포함 사이의 거리는 원래 형식의 두 입력 간의 의미 체계 유사성과 상관 관계가 있습니다. 예를 들어 두 텍스트가 비슷한 경우 벡터 표현도 유사해야 합니다. Azure AI Search(권장)와 같은 검색 시스템 및 Azure Cosmos DB for MongoDB vCore, Azure SQL Database 및 Azure Database for PostgreSQL - 유연한 서버와 같은 Azure 데이터베이스에 전원 벡터 유사성 검색을 포함합니다.
모델 포함
포함을 사용하면 벡터 공간에서 의미 체계 유사성을 캡처하여 단어를 나타내는 큰 입력에서 기계 학습을 더 쉽게 수행할 수 있습니다. 따라서 포함을 사용하여 두 텍스트 청크가 의미 체계적으로 관련되어 있는지 또는 유사한지 확인하고 유사성을 평가하는 점수를 제공할 수 있습니다.
코사인 유사성
Azure OpenAI 포함은 종종 문서와 쿼리 간의 컴퓨팅 유사성을 계산하기 위해 코사인 유사성을 사용합니다.
수학 관점에서 코사인 유사성은 다차원 공간에 투영된 두 벡터 사이의 각도 코사인을 측정합니다. 이 측정은 두 문서가 크기 때문에 유클리드 거리만큼 멀리 떨어져 있는 경우에도 여전히 두 문서 사이의 각도는 더 작아 보다 높은 코사인 유사성을 가질 수 있기 때문에 유용합니다. 코사인 유사성 방정식에 대한 자세한 내용은 코사인 유사성을 참조하세요.
유사한 문서를 식별하는 또 다른 방법은 문서 간의 공통 단어 수를 계산하는 것입니다. 문서 크기가 크기 조정되면 서로 다른 항목 간에도 더 많은 수의 공통 단어가 검색될 가능성이 높기 때문에 이 방식은 크기 조정되지 않습니다. 이러한 이유로 코사인 유사성은 보다 효과적인 대안을 제공할 수 있습니다.
다음 단계
- Azure OpenAI 및 포함을 사용하여 포함 자습서로 문서 검색을 수행하는 방법에 대해 자세히 알아봅니다.
- Azure Cosmos DB for MongoDB vCore, Azure Cosmos DB for NoSQL, Azure SQL Database 또는 Azure Database for PostgreSQL - 유연한 서버를 사용하여 포함을 저장하고 벡터(유사성) 검색을 수행합니다.
- Microsoft Fabric의 실시간 인텔리전스에서 Eventhouse를 벡터 데이터베이스로 사용
- 유사성 검색에는 series_cosine_similarity 함수를 사용합니다.