언어 감지
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
입력 파일에서 각 줄의 언어를 검색합니다.
범주: Text Analytics
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)의 언어 검색 모듈을 사용하여 텍스트 입력을 분석하고 입력의 각 레코드와 연결된 언어를 식별하는 방법을 설명합니다.
언어 감지 알고리즘은 다양한 언어를 식별할 수 있습니다. 분석할 문자열 열과 검색할 총 언어 수를 지정하기만 하면 됩니다. 알고리즘은 각 텍스트 행을 분석하고 각 언어에 대한 확률 점수를 할당합니다. 첫 번째 결과 열의 언어는 점수가 가장 높은 언어입니다.
언어 검색을 구성하는 방법
분석하려는 텍스트가 포함된 데이터 세트를 Machine Learning Studio(클래식)의 실험에 추가합니다. 분석할 텍스트가 있는 열은 문자열 데이터 형식이어야 합니다.
datset에는 레이블 열이 필요하지 않습니다. 언어 감지 알고리즘은 지원되는 언어의 언어 기능에만 적용됩니다.
새 데이터를 가져오는 경우 데이터가 UTF-8 형식으로 저장되어 있는지 확인합니다. 다른 유니코드 형식은 지원되지 않습니다.
실험에 언어 검색 모듈을 추가하고 언어 감지를 위해 텍스트와 데이터 세트를 연결합니다.
텍스트 열의 경우 분석할 열을 선택합니다.
검색할 언어 수의 상한에 대해 검색할 최대 언어 수를 나타냅니다.
언어 수에 상한을 설정하면 성능이 향상될 수 있습니다.
실험을 실행합니다.
결과
언어 감지 모듈은 각 행에 대한 언어 식별자와 점수를 출력합니다.
예를 들어 다음 표에는 테스트 데이터에 대한 샘플 분석이 포함되어 있습니다.
처음 두 열 col1 및 언어 레이블 은 입력 데이터 세트에서 전달되는 열입니다. 이 예제에서는 입력 데이터 세트가 모듈 테스트를 위해 설계되었기 때문에 예상 언어가 이미 알려져 있으며 레이블 열에 제공됩니다.
나머지 열은 언어 검색 모듈에 의해 생성됩니다. 동등 가능한 언어 일치 항목이 있는 경우 각 언어에 대한 점수와 함께 여러 언어가 나열될 수 있습니다. 이 경우 모듈은 해당 언어의 확률 점수와 함께 각 행에 대해 하나의 언어만 예측합니다.
모듈이 충분히 높은 점수를 가진 언어를 검색하지 못하면 점수가 0인 (알 수 없음)의 결과가 출력됩니다. 그러나 API가 업데이트되면 시간이 지남에 따라 모듈에서 지원하는 언어가 변경 될 수 있습니다.
Col1 | 언어 레이블 | Col1 언어 | Col1 Iso6391 언어 | Col1 Iso6391 언어 점수 |
---|---|---|---|---|
그것은 친절한 직원과 좋은 서비스를 갖춘 멋진 호텔이었습니다. | 영어 | 영어 | en | 100 |
Es war ein wunderbares Hotel mit freundlichem Personal und guter service | 독일어 | 독일어 | de | 100 |
C'est un magnifique hôtel avec un personnel sympathique et un service de qualité | 프랑스어 | 프랑스어 | fr | 100 |
Det var et dejligt hotel med et venligt personale og god service | 덴마크어 | 덴마크어 | nl | 100 |
Va ser un magnífic hotel amb un personal amable i bon servei | 카탈로니아어 | 카탈로니아어 | ca | 92.30769348 |
とても素敵なホテルで、スタッフは親切で、サービスもよかった | 일본어 | (알 수 없음) | 0 | |
qu mebpa'mey naQfriendly QaQ chavmoH je | 클링곤어 | 프랑스어 | fr | 77.5 |
예
실험에서 언어 검색 모듈을 사용하는 방법에 대한 예제는 Azure AI 갤러리를 참조하세요.
- 언어별 영화 제목 필터링: 영화 이름에 사용되는 언어를 검색한 다음 언어 식별자를 사용하여 데이터 세트를 영어와 영어 이외의 영화로 분할합니다.
기술 정보
잠재적으로 검색할 수 있는 언어에 대한 일반적인 개념은 Bing 번역기 참조하세요.
현재 고급 텍스트 분석을 지원하는 Machine Learning 언어보다 더 많은 언어를 검색할 수 있습니다. 언어 검색 결과를 사용하여 언어별 처리가 필요한 다른 모듈로 보내는 결과를 필터링하는 것이 좋습니다.
기본 언어 서비스는 Azure Cognitive Services의 Text Analytics 서비스에서도 사용됩니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
데이터 세트 | 데이터 테이블 | 입력 입니다. |
모듈 매개 변수
Name | Type | 범위 | Optional | 기본값 | 설명 |
---|---|---|---|---|---|
검색할 언어 수의 상한 | 정수 | [1;184] | 필수 | 1 | 검색할 언어 수의 상한입니다. |
텍스트 열 | ColumnSelection | 필수 | 텍스트 열의 이름 또는 1 기반 인덱스입니다. |
출력
Name | 유형 | 설명 |
---|---|---|
결과 데이터 집합 | 데이터 테이블 | 결과 |
예외
예외 | 설명 |
---|---|
오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0010 | 입력 데이터 세트에서 일치해야 할 열 이름이 일치하지 않을 경우, 예외가 발생합니다. |
오류 0016 | 모듈에 전달된 입력 데이터 세트의 열 형식이 호환되어야 함에도 실제로 호환되지 않을 경우, 예외가 발생합니다. |
오류 0008 | 매개 변수가 범위 내에 있지 않으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.