텍스트 분석 시작

완료됨

Azure AI 언어는 구조화되지 않은 텍스트에 대해 고급 자연어 처리를 수행할 수 있는 Azure AI 서비스 제품의 일부입니다. Azure AI 언어의 텍스트 분석 기능은 다음을 포함합니다.

  • 명명된 엔터티 인식은 사람, 장소, 이벤트 등을 식별합니다. 사용자 지정 범주를 추출하도록 이 기능을 사용자 지정할 수도 있습니다.
  • 엔터티 링크 설정은 Wikipedia에 대한 링크와 함께 알려진 엔터티를 식별합니다.
  • PII(개인 식별 정보) 검색은 개인 건강 정보(PHI)를 포함하여 개인적으로 중요한 정보를 식별합니다.
  • 언어 감지는 텍스트의 언어를 식별하고 언어 코드(예: 영어의 경우 "en")를 반환합니다.
  • 감정 분석 및 오피니언 마이닝은 텍스트가 긍정적인지 부정적인지 여부를 식별합니다.
  • 요약은 가장 중요한 정보를 식별하여 텍스트를 요약합니다.
  • 핵심 구 추출은 구조화되지 않은 텍스트의 주요 개념을 나열합니다.

엔터티 인식 및 연결

Azure AI 언어에 구조화되지 않은 텍스트를 제공하면 인식되는 텍스트에 엔터티 목록이 반환됩니다. 엔터티는 특정 유형 또는 범주의 항목입니다. 경우에 따라 다음 표에 나온 것과 같은 하위 유형이 있습니다.

Type 하위 유형
사람 “빌 게이츠”, “존”
위치 “파리”, “뉴욕”
조직 “Microsoft”
수량 숫자 “6” 또는 “여섯”
수량 백분율 “25%” 또는 “오십 퍼센트”
수량 서수 “1st” 또는 “첫 번째”
수량 나이 “생후 90일” 또는 “30세”
수량 통화 “10.99”
수량 차원 “10마일”, “40cm”
수량 온도 “45도”
DateTime “2012년 2월 4일, 오후 6:30”
DateTime 날짜 “2017년 5월 2일” 또는 “2017/05/02”
DateTime 시간 “8am” 또는 “8:00”
DateTime DateRange “5월 2일~5월 5일”
DateTime TimeRange “오후 6시부터 오후 7시”
DateTime 기간 “1분 45초”
DateTime 설정 “매주 화요일”
URL "https://www.bing.com"
메일 "support@microsoft.com"
미국 국내 전화 번호 “(312) 555-0176”
IP 주소 “10.0.1.125”

Azure AI 언어는 또한 특정 참조에 연결하여 엔터티를 명확하게 하는 데 도움이 되는 엔터티 연결을 지원합니다. 인식된 엔터티에 대해 서비스는 관련 ‘Wikipedia’ 문서 URL을 반환합니다.

예를 들어 Azure AI 언어를 사용하여 다음 레스토랑 리뷰 추출에서 엔터티를 검색한다고 가정합니다.

“지난주에 시애틀에 있는 레스토랑에서 식사했습니다.”

엔터티 유형 하위 유형 Wikipedia URL
시애틀 위치 https://en.wikipedia.org/wiki/Seattle
지난주 DateTime DateRange

언어 감지

Azure AI 언어의 언어 감지 기능을 사용하여 텍스트가 작성된 언어를 식별합니다. 분석을 위해 한 번에 여러 문서를 제출할 수 있습니다. 제출된 각 문서에 대해 서비스는 다음을 검색합니다.

  • 언어 이름(예: “영어”)
  • ISO 639-1 언어 코드(예: “en”).
  • 언어 감지에 대한 신뢰 수준을 나타내는 점수

예를 들어 고객이 설문조사를 완료하고 음식, 서비스, 직원 등에 대한 피드백을 제공할 수 있는 레스토랑을 소유하고 운영하고 있다는 시나리오를 생각해 보겠습니다. 고객으로부터 다음과 같은 리뷰를 받았다고 가정해 봅시다.

리뷰 1: “A fantastic place for lunch. The soup was delicious.

리뷰 2: “Comida maravillosa y gran servicio.

리뷰 3: “The croque monsieur avec frites was terrific. Bon appetit!

Azure AI 언어의 텍스트 분석 기능을 사용하여 각 리뷰에 대한 언어를 감지할 수 있습니다. 다음 결과로 응답할 수 있습니다.

문서 언어 이름 ISO 6391 코드 점수
리뷰 1 영어 en 1.0
리뷰 2 스페인어 es 1.0
리뷰 3 영어 en 0.9

영어와 프랑스어가 혼합된 텍스트이지만 리뷰 3에서 감지된 언어는 영어입니다. 언어 감지 서비스는 텍스트에서 지배적 언어에 중점을 둡니다. 이 서비스는 알고리즘을 사용하여 텍스트의 다른 언어와 비교하고 언어에 대한 구 길이 또는 총 텍스트 양과 같은 지배적 언어를 결정합니다. 지배적 언어는 언어 코드와 함께 값이 반환됩니다. 혼합 언어 텍스트의 결과로 신뢰도 점수가 1 미만일 수 있습니다.

속성이 모호하거나 언어 콘텐츠가 혼합된 텍스트가 있을 수 있습니다. 이러한 상황은 어려움을 초래할 수 있습니다. 모호한 콘텐츠의 예로는 문서에 제한된 텍스트 또는 문장 부호만 포함하는 경우를 들 수 있습니다. 예를 들어 Azure AI 언어를 사용하여 ":-)" 텍스트를 분석하면 언어 이름과 언어 식별자에 대한 값이 알 수 없음이고 점수는 NaN입니다(이는 숫자가 아님을 나타내는 데 사용됩니다).

감정 분석 및 오피니언 마이닝

Azure AI 언어의 텍스트 분석 기능은 텍스트를 평가하고 각 문장에 대한 감정 점수와 레이블을 반환할 수 있습니다. 이 기능은 소셜 미디어, 고객 리뷰, 토론 포럼 등에서 긍정적이고 부정적인 감정을 감지하는 데 유용합니다.

Azure AI 언어는 미리 빌드된 기계 학습 분류 모델을 사용하여 텍스트를 평가합니다. 서비스는 긍정, 중립 및 부정의 세 가지 범주로 감정 점수를 반환합니다. 각 범주에서 0에서 1 사이의 점수가 제공됩니다. 점수는 제공된 텍스트가 특정 감정일 가능성이 얼마나 되는지 나타냅니다. 하나의 문서 감정도 제공됩니다.

예를 들어 다음 두 레스토랑 리뷰에서 감정을 분석할 수 있습니다.

리뷰 1: “어젯밤 이 레스토랑에서 저녁 식사를 했으며 직원들의 정중한 태도가 첫눈에 들어왔습니다. 직원들은 우리에게 친절한 태도로 인사를 하고 테이블로 곧장 안내했습니다. 테이블은 깨끗했고, 의자는 편안했으며, 음식은 정말 맛있었습니다.”

리뷰 2: “이 레스토랑에서 경험한 저녁 식사는 최악 중 하나였습니다. 서비스가 느렸고 음식은 형편없었습니다. 다시는 여기에서 식사하지 않을 것입니다.”

첫 번째 검토의 감정 점수는 다음과 같습니다. 문서 감정: 긍정적 긍정 점수: .90 중립 점수: .10 부정 점수: .00

두 번째 검토는 다음 응답을 반환할 수 있습니다. 문서 감정: 부정적 긍정 점수: .00 중립 점수: .00 부정 점수: .99

핵심 구 추출

핵심 구 추출은 텍스트의 주요 포인트를 파악합니다. 앞서 설명한 레스토랑의 시나리오를 생각해보겠습니다. 설문 조사가 많은 경우 검토를 읽는 데 시간이 오래 걸릴 수 있습니다. 그 대신 언어 서비스의 핵심 구 추출 기능을 사용해서 주요 논점을 요약할 수 있습니다.

다음과 같은 리뷰를 받을 수 있습니다.

“여기서 생일 축하를 위해 저녁 식사를 했고 환상적인 경험이었습니다. 친절한 여주인이 우리에게 인사를 하고 바로 테이블로 데려갔습니다. 분위기는 편안했고, 음식은 훌륭했으며, 서비스 또한 뛰어났습니다. 훌륭한 음식과 세심한 서비스를 원한다면 이 장소를 추천합니다.”

핵심 구 추출은 다음과 같은 구를 추출하여 이 리뷰에 몇 가지 컨텍스트를 제공할 수 있습니다.

  • 생일 축하
  • 환상적인 경험
  • 친절한 여주인
  • 훌륭한 음식
  • 세심한 서비스
  • 저녁 식사
  • table
  • 분위기
  • 장소

감정 분석을 사용하여 긍정적인 검토임을 확인할 뿐만 아니라 핵심 구 서비스를 사용하여 검토의 중요한 요소를 파악할 수도 있습니다.

Azure AI 언어에 대한 리소스 만들기

애플리케이션에서 Azure AI 언어를 사용하려면 Azure 구독에서 적절한 리소스를 프로비전해야 합니다. 다음 리소스 유형 중 하나를 선택할 수 있습니다.

  • 언어 리소스 - Azure AI 언어 서비스를 사용하려는 경우 또는 다른 서비스와 별도로 리소스에 대한 액세스 및 청구를 관리하려는 경우 이 리소스 종류를 선택합니다.
  • Azure AI 서비스 리소스 - 다른 Azure AI 서비스와 함께 Azure AI 언어를 사용할 계획이고 이러한 서비스에 대한 액세스 및 청구를 함께 관리하려는 경우 이 리소스 유형을 선택합니다.