언어 검색
Azure AI 언어 감지 API는 텍스트 입력을 평가하고 제출된 각 문서에 대해 분석의 강도를 나타내는 점수와 함께 언어 식별자를 반환합니다.
이 기능은 알 수 없는 언어로 된 임의의 텍스트를 수집하는 콘텐츠 저장소에 유용합니다. 다른 시나리오에는 채팅 봇이 포함될 수 있습니다. 사용자가 채팅 봇으로 세션을 시작하면 언어 감지를 사용하여 사용 중인 언어를 확인하고 적절한 언어로 봇 응답을 구성할 수 있습니다.
이 분석의 결과를 구문 분석하여 입력 문서에서 사용된 언어를 판별할 수 있습니다. 또한 응답에서는 모델의 신뢰도가 반영된 점수(0과 1 사이의 값)를 반환합니다.
언어 감지는 문서 또는 단일 구문에서 작동할 수 있습니다. 문서 크기는 5120자 미만이어야 한다는 점에 유의하세요. 크기 제한은 문서당 지정되며 각 컬렉션은 1,000개의 항목(ID)으로 제한됩니다. 요청 본문의 서비스에 제출할 수 있는 올바른 형식의 JSON 페이로드 샘플은 각각 고유한 ID와 분석할 텍스트를 포함하는 문서컬렉션을 포함하여 여기에 표시됩니다. 필요에 따라 countryHint를 제공하여 예측 성능을 향상시킬 수 있습니다.
{
"kind": "LanguageDetection",
"parameters": {
"modelVersion": "latest"
},
"analysisInput":{
"documents":[
{
"id": "1",
"text": "Hello world",
"countryHint": "US"
},
{
"id": "2",
"text": "Bonjour tout le monde"
}
]
}
}
서비스는 예측 언어 및 예측의 신뢰도 수준을 나타내는 값을 포함하여 요청 본문의 각 문서에 대한 결과를 포함하는 JSON 응답을 반환합니다. 신뢰 수준은 0에서 1 사이의 값이며 1에 가까운 값이 신뢰 수준이 높습니다. 다음은 위의 요청 JSON에 매핑되는 표준 JSON 응답의 예입니다.
{ "kind": "LanguageDetectionResults",
"results": {
"documents": [
{
"detectedLanguage": {
"confidenceScore": 1,
"iso6391Name": "en",
"name": "English"
},
"id": "1",
"warnings": []
},
{
"detectedLanguage": {
"confidenceScore": 1,
"iso6391Name": "fr",
"name": "French"
},
"id": "2",
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}
}
이 샘플에서는 텍스트가 비교적 간단하고 언어를 쉽게 식별할 수 있기 때문에 모든 언어는 대부분 신뢰도 1을 표시합니다.
다국어 콘텐츠가 있는 문서를 전달하면 서비스가 약간 다르게 작동합니다. 동일한 문서 내에서 혼합된 언어 콘텐츠는 콘텐츠에서 가장 많은 표현이 있는 언어를 반환하지만, 더 낮은 긍정적 등급으로 인해 해당 평가의 한계 강도가 반영됩니다. 다음 예제의 입력에는 영어, 스페인어 및 프랑스어가 혼합되어 있습니다. 분석기는 텍스트의 통계 분석을 사용하여 지배적 언어를 결정합니다.
{
"documents": [
{
"id": "1",
"text": "Hello, I would like to take a class at your University. ¿Se ofrecen clases en español? Es mi primera lengua y más fácil para escribir. Que diriez-vous des cours en français?"
}
]
}
다음 샘플에서는 이 다국어 예제에 대한 응답을 보여 줍니다.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "Spanish",
"iso6391Name": "es",
"confidenceScore": 0.9375
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}
고려해야 할 마지막 조건은 언어 콘텐츠에 모호성이 있는 경우입니다. 예를 들어 텍스트를 문자열 변수로 변환할 때 문자 인코딩 문제로 인해 분석기에서 구문 분석할 수 없는 텍스트 콘텐츠를 제출하는 경우의 시나리오가 발생할 수 있습니다. 결과적으로 언어 이름 및 ISO 코드에 대한 응답은 (알 수 없음)을 나타내고 점수 값은 0
으로 반환됩니다. 다음 예에서는 응답이 어떻게 표시되는지 보여 줍니다.
{
"documents": [
{
"id": "1",
"detectedLanguage": {
"name": "(Unknown)",
"iso6391Name": "(Unknown)",
"confidenceScore": 0.0
},
"warnings": []
}
],
"errors": [],
"modelVersion": "2022-10-01"
}