언어 검색

완료됨

Azure AI 언어 감지 API는 텍스트 입력을 평가하고, 제출된 각 문서에 대해 분석 강도를 나타내는 점수가 있는 언어 식별자를 반환합니다.

이 기능은 언어를 알 수 없는 임의의 텍스트를 수집하는 콘텐츠 저장소에 유용합니다. 또 다른 시나리오에는 채팅 봇이 포함될 수 있습니다. 사용자가 챗봇으로 세션을 시작하는 경우 언어 감지를 사용하여 사용 중인 언어를 확인하고 적절한 언어로 봇 응답을 구성할 수 있습니다.

이 분석 결과를 구문 분석하여 입력 문서에서 사용되는 언어를 확인할 수 있습니다. 또한 응답은 모델의 신뢰도(0에서 1 사이의 값)를 반영하는 점수를 반환합니다.

언어 감지는 문서 또는 단일 구에서 작동할 수 있습니다. 문서 크기는 5,120자 미만이어야 합니다. 크기 제한은 문서당이며 각 컬렉션은 1,000개 항목(ID)으로 제한됩니다. 요청 본문의 서비스에 제출할 수 있는 적절한 형식의 JSON 페이로드 샘플은 각각 고유한 ID 및 분석할 텍스트 포함하는 문서컬렉션을 포함하여 여기에 표시됩니다. 필요에 따라 countryHint 제공하여 예측 성능을 향상시킬 수 있습니다.

{
    "kind": "LanguageDetection",
    "parameters": {
        "modelVersion": "latest"
    },
    "analysisInput":{
        "documents":[
              {
                "id": "1",
                "text": "Hello world",
                "countryHint": "US"
              },
              {
                "id": "2",
                "text": "Bonjour tout le monde"
              }
        ]
    }
}

서비스는 예측 언어 및 예측의 신뢰도 수준을 나타내는 값을 포함하여 요청 본문에 문서에 대한 결과를 포함하는 JSON 응답을 반환합니다. 신뢰도 수준은 0에서 1 사이의 값이며 값이 1에 가까울수록 신뢰 수준이 높습니다. 다음은 위의 요청 JSON에 매핑되는 표준 JSON 응답의 예입니다.

{   "kind": "LanguageDetectionResults",
    "results": {
        "documents": [
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "en",
              "name": "English"
            },
            "id": "1",
            "warnings": []
          },
          {
            "detectedLanguage": {
              "confidenceScore": 1,
              "iso6391Name": "fr",
              "name": "French"
            },
            "id": "2",
            "warnings": []
          }
        ],
        "errors": [],
        "modelVersion": "2022-10-01"
    }
}

이 샘플에서는 텍스트가 비교적 간단하고 언어를 식별하기 쉽기 때문에 모든 언어가 1의 신뢰도를 표시합니다.

다국어 콘텐츠가 있는 문서를 전달하면 서비스가 약간 다르게 동작합니다. 동일한 문서 내의 혼합 언어 콘텐츠는 콘텐츠에서 가장 큰 표현을 가진 언어를 반환하지만 긍정 등급은 낮으며 해당 평가의 한계 강도를 반영합니다. 다음 예제에서 입력은 영어, 스페인어 및 프랑스어의 혼합입니다. 분석기는 텍스트의 통계 분석을 사용하여 주요 언어를 확인합니다.

{
  "documents": [
    {
      "id": "1",
      "text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
    }
  ]
}

다음 샘플에서는 이 다 언어 예제에 대한 응답을 보여줍니다.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "Spanish",
                "iso6391Name": "es",
                "confidenceScore": 0.9375
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}

고려해야 할 마지막 조건은 언어 콘텐츠에 대한 모호성이 있는 경우입니다. 예를 들어 텍스트를 문자열 변수로 변환할 때 문자 인코딩 문제로 인해 분석기에서 구문 분석할 수 없는 텍스트 콘텐츠를 제출하는 경우 시나리오가 발생할 수 있습니다. 결과적으로 언어 이름 및 ISO 코드에 대한 응답은 (알 수 없음)을 나타내고 점수 값은 0반환됩니다. 다음 예제에서는 응답이 어떻게 표시되는지 보여 있습니다.

{
    "documents": [
        {
            "id": "1",
            "detectedLanguage": {
                "name": "(Unknown)",
                "iso6391Name": "(Unknown)",
                "confidenceScore": 0.0
            },
            "warnings": []
        }
    ],
    "errors": [],
    "modelVersion": "2022-10-01"
}