포함 이해
포함은 기계 학습 모델에서 사용되는 데이터 표현 형식입니다. 포함은 텍스트의 유의적 의미를 나타냅니다. 포함을 숫자 배열로 시각화할 수 있으며, 두 포함 사이의 수치적 거리는 의미 체계 유사성을 나타냅니다. 예를 들어, 두 텍스트가 유사하다면 그 표현도 유사해야 합니다.
모델 포함
검색 결과가 얼마나 효과적인지는 포함된 모델의 효율성과 직접적인 상관 관계가 있습니다.
특정 작업을 잘 수행하기 위해 특별히 만들어진 모델이 있습니다. 유사성 검색 포함을 사용하여 텍스트 간의 의미 체계 유사성을 캡처합니다. 텍스트 검색 포함은 긴 문서와 짧은 쿼리의 관련성을 확인할 수 있습니다. 코드 쿼리 포함을 사용하여 포함 코드 조각과 자연어 검색을 사용합니다.
사용자는 텍스트 포함을 생성하기 위해 text-embedding-ada-002 모델 등을 사용하여 텍스트를 벡터로 변환하는 포함 모델에 대한 쿼리에 입력을 제공합니다.
결과는 검색 인덱스에 포함된 쿼리와 일치하는 모든 문서입니다. 벡터 필드가 있는 포함을 가진 문서는 검색 인덱스에 있어야 하며 동일한 모델을 인덱싱 및 쿼리에 사용해야 합니다.
포함 공간
포함 공간은 동일한 포함 모델의 모든 벡터 필드로 구성된 벡터 쿼리의 핵심입니다. 이는 동일한 모델을 사용하여 채워진 모든 벡터 필드로 구성됩니다.
이 포함 공간에는 유사한 항목이 서로 가까이 위치하고, 서로 다른 항목이 더 멀리 위치합니다.
예를 들어, 워터파크가 있는 호텔에 관한 문서는 포함 공간에서 가깝게 배치되지만, 이러한 시설이 없는 호텔은 호텔 근처에 있으면서도 멀리 떨어져 있습니다. 레스토랑과 같은 서로 다른 개념은 아직 더 멀리 떨어져 있을 것입니다. 실제로 포함 공간은 추상적이고 사람이 이해할 수 있는 잘 정의된 의미가 없지만 핵심 아이디어는 동일하게 유지됩니다.