Начало работы с анализом текста

Завершено

Язык ИИ Azure является частью предложений служб ИИ Azure, которые могут выполнять расширенную обработку естественного языка по неструктурированному тексту. Функции анализа текста языка ИИ Azure включают:

  • Распознавание именованных сущностей определяет людей, места, события и многое другое. Эту функцию также можно настроить для извлечения пользовательских категорий.
  • Связывание сущностей определяет известные сущности вместе со ссылкой на Википедию.
  • Обнаружение персональных идентификаций (PII) определяет личную конфиденциальную информацию, включая личную информацию о работоспособности (PHI).
  • Обнаружение языка определяет язык текста и возвращает код языка, например en для английского языка.
  • Анализ тональности и интеллектуальный анализ мнений определяет, является ли текст положительным или отрицательным.
  • Сводка суммирует текст, определяя наиболее важные сведения.
  • Извлечение ключевых фраз содержит основные понятия из неструктурированного текста.

Распознавание сущностей и связывание

Вы можете предоставить язык ИИ Azure с неструктурированным текстом, и он вернет список сущностей в тексте, который он распознает. Сущность — это элемент определенного типа или категории; в некоторых случаях подтип, например такие, как показано в следующей таблице.

Тип Подтип Пример
Лицо "Билл Гейтс", "Андрей"
Расположение "Париж", "Нью-Йорк"
Организация "Майкрософт"
Количество Число "6" или "шесть"
Количество Процентное отношение "25 %" или "пятьдесят процентов"
Количество Порядковый "1-й" или "первый"
Количество Возраст "90 дней" или "30 лет"
Количество Валюта. "10,99"
Количество Аналитика "10 км", "40 см"
Количество Температура "45 градусов"
Дата и время "18:30 4 февраля 2012 г."
Дата и время Дата "2 мая 2017 г." или "02.05.2017"
Дата и время Время "8" или "8:00"
Дата и время Диапазон дат "Со 2 мая по 5 мая"
Дата и время Диапазон времени "с 18:00 до 19:00"
Дата и время Длительность "1 минута 45 секунд"
Дата и время Set "каждый вторник"
URL-адрес "https://www.bing.com"
Адрес электронной почты "support@microsoft.com"
Номер телефона "(312) 555-0176"
IP-адрес "10.0.1.125"

Язык искусственного интеллекта Azure также поддерживает связывание сущностей, чтобы помочь диамбигуировать сущности путем связывания с определенной ссылкой. Для распознанных сущностей служба возвращает URL-адрес соответствующей статьи в Википедии.

Например, предположим, что вы используете язык ИИ Azure для обнаружения сущностей в следующем извлечении проверки ресторана:

"На прошлой неделе я обедал в ресторане в Саратове".

Сущность Тип Подтип URL-адрес Википедии
Seattle Расположение https://en.wikipedia.org/wiki/Seattle
прошлая неделя Дата и время Диапазон дат

Распознавание языка

Используйте функцию обнаружения языка ИИ Azure, чтобы определить язык, на котором написан текст. На анализ можно отправить сразу несколько документов. Для каждого документа, отправленного службой, будет обнаружено:

  • название языка (например, "английский");
  • Код языка ISO 639-1 (например, en).
  • оценка, указывающая уровень достоверности при определении языка.

Например, рассмотрим такую ситуацию: вы владеете рестораном и предоставляете клиентам возможность пройти опрос и дать отзыв о блюдах, обслуживании, персонале и т. д. Предположим, вы получили следующие отзывы от клиентов:

Обзор 1: "Фантастическое место для обеда. Суп был вкусным.

Обзор 2: "Comida maravillosa y gran servicio".

Обзор 3: "Крок монсиер avec frites был потрясающим. Бонс апети!"

Вы можете использовать возможности анализа текста на языке ИИ Azure, чтобы определить языковой элемент для этих проверок; и он может реагировать на следующие результаты:

Документ Название языка Код по ISO 6391 Балл
Отзыв 1 English en 1.0
Отзыв 2 Испанский es 1.0
Отзыв 3 English en 0,9

Обратите внимание, что для отзыва 3 определен русский язык, хотя текст содержит слова как на русском, так и на французском языке. Служба распознавания языка сосредоточится на преобладающем языке в тексте. Он определяется исходя из длины фраз или общего объема текста на данном языке по сравнению с другими языками. В результате возвращается именно преобладающий язык и его код. Оценка достоверности может быть меньше 1 в результате текста смешанного языка.

Может быть текст, неоднозначный в природе или имеющий смешанное содержимое языка. Эти ситуации могут представлять проблему. Примером неоднозначного содержимого является наличие в документе неполного текста или только знаков препинания. Например, использование языка ИИ Azure для анализа текста ":-)" приводит к значению неизвестного имени языка и идентификатора языка, а также оценку NaN (которая используется для указания не числа).

Анализ тональности и интеллектуальный анализ мнений

Возможности анализа текста на языке ИИ Azure могут оценивать текст и возвращать оценки тональности и метки для каждого предложения. Эта возможность полезна для выявления положительной и отрицательной тональности в социальных сетях, отзывах клиентов, на форумах и в других местах.

Язык ИИ Azure использует предварительно созданную модель классификации машинного обучения для оценки текста. Служба возвращает оценки тональности в трех категориях: положительные, нейтральные и отрицательные. В каждой из категорий предоставляется оценка от 0 до 1. Оценки указывают, насколько вероятно предоставленный текст является определенным тональностью. Также предоставляется одно тональность документа.

Например, можно проанализировать тональность следующих двух отзывов о ресторане:

Обзор 1: "У нас был ужин в этом ресторане вчера вечером, и первое, что я заметил, было как вежливый персонал был. Мы были встречены в дружественных манерах и доставлены в нашу таблицу сразу же. Стол был чистым, стулья были удобны, и еда была удивительной".

и

Обзор 2: "Наш опыт столовой в этом ресторане был одним из худших я когда-либо был. Служба была медленной, и еда была ужасной. Я никогда не буду есть на этом заведении снова".

Оценка тональности для первого обзора может быть: тональность документа: положительный результат: 90 Нейтральный показатель: .10 Отрицательный показатель: .00

Второй обзор может вернуть ответ: тональность документа: отрицательный положительный результат: .00 Нейтральный показатель: .00 Отрицательный показатель: .99

Извлечение ключевых фраз

Извлечение ключевых фраз определяет основные моменты из текста. Вернемся к приведенному ранее сценарию с рестораном. Если у вас большое количество опросов, это может занять много времени, чтобы прочитать отзывы. Вместо этого можно использовать возможности извлечения ключевых фраз, предлагаемые языковой службой, чтобы обобщить основные тезисы.

Например, вы получили такой отзыв:

"У нас был ужин здесь на празднование дня рождения и был фантастический опыт. Мы были встречены дружественными хозяйками и доставлены в наш стол сразу. Атмосфера была расслаблена, еда была удивительной, и обслуживание было потрясающим. Если вам нравится большая еда и внимательное обслуживание, вы должны попробовать это место".

Извлечение ключевых фраз может дать некоторое представление об этом отзыве благодаря извлечению следующих фраз:

  • празднование дня рождения
  • потрясающе
  • дружелюбная распорядительница
  • вкусная еда
  • внимательное обслуживание
  • обед
  • table
  • атмосфера
  • место

А также использование анализа тональности для определения того, что это положительный обзор, можно также использовать службу ключевых фраз для выявления важных элементов проверки.

Создание ресурса для языка искусственного интеллекта Azure

Чтобы использовать язык ИИ Azure в приложении, необходимо подготовить соответствующий ресурс в подписке Azure. Вы можете выбрать любой из следующих типов ресурсов:

  • Ресурс языка — выберите этот тип ресурса, если вы планируете использовать службы языка ИИ Azure, или если вы хотите управлять доступом и выставлением счетов за ресурс отдельно от других служб.
  • Ресурс служб искусственного интеллекта Azure — выберите этот тип ресурса, если вы планируете использовать язык ИИ Azure в сочетании с другими службами ИИ Azure, и вы хотите совместно управлять доступом и выставлением счетов для этих служб.