Поделиться через


Выбор технологии обработки целевого языка для Искусственного интеллекта Azure

Службы искусственного интеллекта Azure помогают разработчикам и организациям быстро создавать интеллектуальные, передовые, готовые к рынкам и ответственные приложения с готовыми и предварительно созданными и настраиваемыми API и моделями.

В этой статье рассматриваются службы ИИ Azure, которые предлагают целевые возможности обработки языка, такие как обработка естественного языка (NLP), анализ текста, распознавание речи, перевод и извлечение данных документов. Язык ИИ Azure является одной из самых широких категорий в службах ИИ Azure. API в рабочей нагрузке можно использовать для включения функций языка, таких как распознавание именованных сущностей, анализ тональности, обнаружение языка и суммирование текста.

Службы

Следующие службы предоставляют целевые возможности обработки языка для служб ИИ Azure:

  • Язык ИИ Azure предоставляет обработку естественного языка для анализа текста.

    • Используйте службу языка ИИ Azure, если необходимо работать со структурированными или неструктурированными документами для широкого спектра описанных задач, связанных с языком.
    • Не используйте языковую службу, если вам нужно искать документы в чате, проверять их безопасность содержимого или переводить их.
  • Azure AI Translator — это служба машинного перевода. Он может выполнять перевод текста в режиме реального времени, пакетный и один файловый перевод, а также пользовательские переводы , которые позволяют внедрять специализированную терминологию или язык для конкретной отрасли для вашего сценария. Он поддерживает множество языков.

    • Используйте службу Переводчика, если необходимо специально выполнить перевод. Хотя вы можете использовать другие базовые языковые модели общего назначения для перевода, используя переводчик для своей специализированной цели, может оказаться более надежным и может оказаться более экономичным с помощью целевых моделей перевода.
    • Не используйте службу переводчика, если вам нужно взаимодействовать с чатом, анализировать содержимое для тональности или для con режим палатки ration. Для анализа тональности используйте вместо этого службу языка. Для con режим палатки ration используйте службу безопасности содержимого.
  • Azure AI Document Intelligence — это служба, которая может преобразовать изображения непосредственно в электронные формы. Вы можете указать ожидаемые поля, а затем выполнять поиск изображений, которые вы предоставляете для записи этих полей без вмешательства человека. Служба размещает множество предварительно созданных моделей, а также позволяет создавать собственные модели пользовательских форм.

    • Используйте службу аналитики документов, если вы точно знаете, какие поля необходимо извлечь из отсканированных документов, чтобы заполнить электронные формы соответствующим образом.
    • Используйте аналитику документов для выявления ключевых структур (верхних колонтитулов, разрывов глав и т. д.) в различных корпусах документов для дальнейшего программного взаимодействия с документом, например в реализации расширенного поколения (RAG).
    • Не используйте службу аналитики документов в качестве API поиска в режиме реального времени.

Язык ИИ Azure

Язык ИИ Azure — это облачная служба, которая предоставляет функции обработки естественного языка (NLP) для понимания и анализа текста. Используйте эту службу для создания интеллектуальных приложений, использующих Language Studio на основе веб-интерфейса, REST API и клиентские библиотеки.

Возможности

В следующей таблице приведен список возможностей, доступных в службе языка искусственного интеллекта Azure.

Возможность Description
Настраиваемые ответы на вопросы Находит наиболее подходящий ответ на входные данные пользователей и часто используется для создания клиентских приложений беседы, таких как приложения социальных сетей, боты чата и классические приложения с поддержкой речи.
Настраиваемая классификация текста Используется для создания пользовательских моделей ИИ для классификации неструктурированных текстовых документов в настраиваемые классы, которые вы определяете.
Распознавание речи (CLU) Используется для создания пользовательских моделей распознавания естественного языка для прогнозирования общего намерения входящего речевых фрагментов и извлечения важных сведений из него.
Связывание сущностей Диамбигирует личность сущностей (слов или фраз), найденных в неструктурированном тексте, и возвращает ссылки на Википедию.
Распознавание языка Обнаруживает язык, на который написан документ, и возвращает код языка для широкого спектра языков, вариантов, диалектов и некоторых региональных или культурных языков.
Извлечение ключевых фраз Вычисляет и возвращает основные понятия в неструктурированном тексте и возвращает их в виде списка.
Распознавание именованных сущностей (NER) Классифицирует сущности (слова или фразы) в неструктурированном тексте в нескольких предопределенных группах категорий. Например: люди, события, места, даты и другое.
Рабочий процесс оркестрации Используется для подключения беседных Распознавание речи (CLU).
Личное определение (PII) и обнаружение сведений о работоспособности (PHI) Определяет, классифицирует и редактирует конфиденциальную информацию как в неструктурированных текстовых документах, так и в расшифровках бесед. Например: номера телефонов, адреса электронной почты, удостоверения личности и другое.
Анализ тональности и интеллектуальный анализ мнений Помогите узнать, что люди думают о бренде или теме по тексту интеллектуального анализа информации о положительных или отрицательных настроениях, и могут связать их с конкретными аспектами текста.
Уплотнения Использует извлечение текста для создания сводки документов и транскрибирования бесед. Она извлекает предложения, в сочетании содержащие наиболее важную или релевантную информацию из исходного содержимого.
Анализ текста для работоспособности Извлекает и наклеивает соответствующую медицинскую информацию из неструктурированных текстов, таких как заметки врача, сводки, клинические документы и электронные медицинские записи. При проектировании рабочей нагрузки оцените расположение обработки и расположение данных этой облачной функции, чтобы обеспечить соответствие требованиям. Некоторые рабочие нагрузки могут быть ограничены в их емкости для отправки данных здравоохранения на облачную платформу. Этот API можно использовать в качестве контейнера Docker для размещения в собственных вычислительных ресурсах в облаке или локальной среде, что может помочь решить проблемы соответствия требованиям, связанные с PaaS. Дополнительные сведения см. в разделе "Использование Анализ текста для контейнеров работоспособности"

Случаи использования

В следующей таблице приведен список возможных вариантов использования службы языка ИИ Azure.

Вариант использования Настраиваемые*
Прогнозирование намерения входных данных пользователей и извлечение информации из них. Да
Определите и/или редактируйте конфиденциальную информацию, например PII.
Определите язык, на который был написан текст.
Извлечение медицинской информации из клинических или медицинских документов без создания модели
Извлеките медицинскую информацию из клинических или медицинских документов с помощью модели, которая обучается на ваших данных. Да
Извлеките категории сведений без создания пользовательской модели.
Извлеките категории сведений с помощью модели, конкретной для ваших данных. Да
Извлеките основные темы и важные фразы.
Сводка документа
Классификация текста с помощью анализа тональности. Да
Классификация текста с помощью пользовательских классов. Да
Классифицируйте элементы в категории, предоставляемые во время вывода.
Связывание сущности с база знаний статьями.
Ознакомьтесь с вопросами и ответами (универсальными) Да
Создайте беседное приложение, которое отвечает на входные данные пользователей.
Подключение приложений из общения и ответов на вопросы. Да

*Если функция настраивается, вы можете обучить модель ИИ с помощью наших инструментов, чтобы точно соответствовать вашим данным. В противном случае функция предварительно настроена, то есть модели ИИ, которые он использует, нельзя изменить. Вы просто отправляете свои данные и используете выходные данные компонента в своих приложениях.

Azure AI Translator

Azure AI Translator — это служба машинного перевода, которая входит в семейство служб ИИ Azure. Переводчик выполняет много продуктов и служб Майкрософт.

Возможности

В следующей таблице приведен список возможностей, доступных в службе Azure AI Translator.

Возможность Description
Перевод текста Выполнение перевода текста с поддерживаемых исходных языков на целевые языки в режиме реального времени. Создайте динамический словарь и узнайте, как запретить перевод с помощью API переводчика.
Перевод документов Асинхронный пакетный перевод: перевод пакетных и сложных файлов при сохранении структуры и формата исходных документов. Для процесса пакетного перевода требуется учетная запись хранения BLOB-объектов Azure с контейнерами для исходных и переведенных документов.
Синхронный перевод одного файла: перевод одного файла документа отдельно или с глоссарийным файлом при сохранении структуры и формата исходного документа. Процесс перевода файлов не требует учетной записи хранения BLOB-объектов Azure. Окончательный ответ содержит переведенный документ и возвращается непосредственно вызывающому клиенту.
Custom Translator Создавайте настраиваемые модели для перевода специального языка для домена и отрасли, терминологии и стиля. Создайте словарь (фразу или предложение) для пользовательских переводов.

Случаи использования

В следующей таблице приведен список возможных вариантов использования службы Azure AI Translator.

Вариант использования Документация
Перевод текста для конкретной отрасли. Пользовательский переводчик служб ИИ
Перевод универсального текста, не относящееся к отрасли. Что такое перевод текста Azure

Аналитика документов ИИ Azure

Язык ИИ Azure — это облачная служба, которая предоставляет функции обработки естественного языка (NLP) для понимания и анализа текста. Используйте эту службу для создания интеллектуальных приложений, использующих Language Studio на основе веб-интерфейса, REST API и клиентские библиотеки.

Возможности

В следующей таблице приведен список некоторых возможностей, доступных в службе аналитики документов ИИ.

Возможность Description
Извлечение визитных карточек Модель бизнес-карты аналитики документов объединяет возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из изображений визитных карточек. API анализирует печатные визитные карточки; извлекает ключевые сведения, такие как имя, фамилия, имя компании, адрес электронной почты и номер телефона; и возвращает структурированное представление данных JSON.
Извлечение модели контракта Модель контракта аналитики документов использует возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из группы важных сущностей контракта. Контракты могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как стороны, юрисдикции, идентификатор контракта и название; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.
Извлечение кредитной карты Модель кредитной и дебетовой карты аналитики документов использует возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей из кредитных и дебетовых карт. Кредитные карты и дебетовые карты могут иметь различные форматы и качество, включая изображения, захваченные телефоном, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как номер карты, выдача банка и дата окончания срока действия; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает форматы документов на английском языке.
Извлечение карты медицинского страхования Модель карты медицинского страхования аналитики документов объединяет возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения ключевых сведений из карт медицинского страхования США. Карточка медицинского страхования является ключевым документом для обработки ухода и может быть цифрово проанализирована для подключения пациентов, финансовой информации покрытия, безналичных платежей и обработки страховых претензий. Модель карты медицинского страхования анализирует изображения медицинских карт; извлекает ключевые сведения, такие как страховщик, член, рецепт и номер группы; и возвращает структурированное представление JSON. Карточки медицинского страхования можно представить в различных форматах и качествах, включая изображения, захваченные телефоном, сканированные документы и цифровые PDF-файлы.
Извлечение налоговых документов США Модель контракта аналитики документов использует возможности оптического распознавания символов (OCR) для анализа и извлечения ключевых полей и элементов строки из выбранной группы налоговых документов. Налоговые документы могут быть различными форматами и качеством, включая захваченные телефоном изображения, сканированные документы и цифровые PDF-файлы. API анализирует текст документа; извлекает ключевые сведения, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма; и возвращает структурированное представление данных JSON. В настоящее время модель поддерживает определенные форматы документов на английском языке.
Многое другое... Azure AI Document Intelligence поддерживает широкий спектр моделей, позволяющих добавлять интеллектуальную обработку документов в приложения и потоки. Вы можете использовать предварительно созданную модель для конкретного домена или обучить пользовательскую модель, адаптированную к конкретным бизнес-потребностям и вариантам использования. Аналитика документов может использоваться с клиентскими библиотеками REST API или Python, C#, Java и JavaScript.

Чтобы узнать больше о том, как выбрать модель, которая работает для вашего сценария, см. статью о том, какую модель следует выбрать?

Следующие шаги