Часто задаваемые вопросы по Аналитике компьютеров

Это содержимое относится к: флажок версии 4.0 (GA) версии 3.1 (GA) флажок версии 3.0 (GA) флажок версии 2.1 (GA) флажок

Azure AI Document Intelligence — это облачная служба, использующая модели машинного обучения для извлечения пар ключей и значений, текста и таблиц из документов. Возвращаемый результат представляет собой структурированные выходные данные JSON. Варианты использования аналитики документов включают автоматическую обработку данных, расширенные стратегии на основе данных и расширенные возможности поиска документов.

Обзор

Azure AI Document Intelligence и Azure AI Распознаватель документов одной и той же службе?

Да.

Аналитика документов Azure и Azure AI Распознаватель документов являются одной и той же службой. Служба была переименована из Azure AI Распознаватель документов в Azure AI Document Intelligence в июле 2023 года. Служба предоставляет те же возможности и функции, что и перед переименованием.

  • Изменения в ценах: нет изменений в ценах. Имена Cognitive Services и примененных служб ИИ продолжают использоваться в выставлении счетов Azure, анализе затрат, прайс-списках и API цен.

  • Критические изменения: не существует критических изменений в API или клиентских библиотеках.

Интегрируется ли аналитика документов с другими службы Майкрософт?

Да.

Аналитика документов интегрируется со следующими службами:

Возможности ИИ

Можно ли использовать аналитику документов с генерируемым ИИ для обработки документов?

Да.

Вы также можете использовать решение искусственного интеллекта для создания документа для чата с документами (RAG), создания содержимого из этих документов и доступа к моделям Службы OpenAI Azure в данных.

  • С помощью Azure AI Document Intelligence и Azure OpenAI в сочетании вы можете создать корпоративное приложение, чтобы легко взаимодействовать с документами с помощью естественного языка. Вы можете легко найти ответы, получить ценные сведения и создать новое и привлекательное содержимое из существующих документов.

  • Дополнительные сведения о шаблоне получения дополненного поколения см. здесь.

Может ли аналитика документов помочь с семантической фрагментированием в документах для получения дополненного поколения?

Да.

Аналитика документов может предоставить стандартные блоки для включения семантического фрагментирования. Семантическая блокирование — это ключевой шаг в получении дополненного поколения (RAG), чтобы обеспечить улучшение контекста с плотными блоками и релевантностью.

  • Аналитика документов предоставляет модель макета, которая обеспечивает визуальное разложение документа на строки, абзацы, разделы, верхние и нижние колонтитулы.

  • Затем можно получить результаты в формате markdown, чтобы дополнительно фрагментировать документ по границам раздела или абзаца.

Дополнительные сведения см. в обзоре RAG в аналитике документов

Document Intelligence Studio

Требуются ли определенные разрешения для доступа к Document Intelligence Studio?

Да.

Для доступа к Document Intelligence Studio требуется активная учетная запись Azure и подписка с по крайней мере ролью читателя.

Для анализа документов и предварительно созданных моделей ниже приведены требования к роли для пользовательских сценариев:

  • Базовая

  • Расширенные

    • Участник. Эта роль необходима для создания группы ресурсов или ресурса аналитики документов.

Для проектов пользовательской модели ниже приведены требования к роли для пользовательских сценариев:

  • Базовая

    • Пользователь Cognitive Services. Эта роль необходима для ресурса аналитики документов или нескольких служб Cognitive Services для обучения пользовательской модели или анализа с помощью обученных моделей.

    • Участник данных BLOB-объектов хранилища. Эта роль необходима для создания данных проекта и меток учетной записи хранения.

  • Расширенные

    • Участник учетной записи хранения. Эта роль необходима для настройки параметров общего доступа к ресурсам (CORS) для учетной записи хранения. Это однократная попытка, если вы повторно используете ту же учетную запись хранения.

    • Участник. Для создания группы ресурсов и ресурсов требуется эта роль. Роль участника или участника учетной записи хранения не предоставляет доступ к использованию ресурса аналитики документов или учетной записи хранения, если локальная проверка подлинности (на основе ключей) отключена. Для использования функций в Document Intelligence Studio по-прежнему требуются основные роли (участник blob-объектов пользователей и данных хранилища Cognitive Services).

Дополнительные сведения см. в статьях о встроенных ролях Microsoft Entra и разделах о назначениях ролей Azure в кратком руководстве по Document Intelligence Studio.

Можно ли обрабатывать документы с более чем двумя страницами в Document Intelligence Studio?

Да, для платных ресурсов.

Нет, для ресурсов уровня "Бесплатный".

  • Для ресурсов уровня "Бесплатный" (F0) анализируются только первые две страницы , используются ли вы Document Intelligence Studio, REST API или клиентские библиотеки.

  • Если вы хотите проанализировать все страницы в документе, перейдите на платный ресурс (S0). В Document Intelligence Studio нажмите кнопку "Параметры (шестеренка"), перейдите на вкладку "Ресурсы " и проверьте ценовую категорию для анализа документов.

Можно ли изменить каталоги или подписки в Document Intelligence Studio?

Да.

  • Чтобы изменить каталог в Document Intelligence Studio, нажмите кнопку "Параметры (шестеренка"). В разделе "Каталог" выберите каталог из списка и выберите пункт "Переключить каталог". Снова войдите после переключения каталога.

  • Чтобы изменить подписку или ресурс, перейдите на вкладку "Ресурс " в разделе "Параметры".

Можно ли использовать Document Intelligence Studio с ресурсом, настроенным с брандмауэром или виртуальной сетью?

Да.

Если ресурс аналитики документов настроен брандмауэром или виртуальной сетью, необходимо добавить выделенный IP-адрес 20.3.165.95 в список разрешений брандмауэра для ресурса аналитики документов. Некоторые функции в пользовательских проектах (например, автоклабель, управление проектами и человек в цикле) не работают, если доступ к общедоступной сети отключен.

Когда я отправляю файл в Document Intelligence Studio с помощью функции "Извлечение из URL-адреса", можно ли использовать URL-адрес из хранилища BLOB-объектов?

Да.

Если URL-адрес хранилища BLOB-объектов Azure включает маркер SAS и доступен из общедоступных сетей. Вы не можете использовать функцию получения для учетных записей хранения, где доступ к ключу отключен или за брандмауэром или виртуальной сетью.

Можно ли повторно использовать или настраивать возможности маркировки из Document Intelligence Studio и создавать их в собственном приложении?

Да.

Интерфейс маркировки из Document Intelligence Studio открытый код в репозитории набора средств.

Существуют ли отдельные конечные точки URL-адресов для национальных облачных регионов Аналитики документов?

Да.

Document Intelligence Studio имеет отдельные конечные точки URL-адресов для национальных облачных регионов:

Разработка приложений

Можно ли разрабатывать приложения с помощью Azure AI Document Intelligence с помощью последних вариантов разработки?

Да.

Аналитика документов предлагает последние варианты разработки на следующих платформах:

Можно ли перенести приложение в последнюю версию аналитики документов?

Да.

В следующей таблице приведены ссылки на подробные инструкции по миграции в последнюю версию аналитики документов:

Язык или API Руководство по миграции
REST API версия 3
C#/.NET 4.0.0
Java 4.0.0
JavaScript 4.0.0
Python 3.2.0

Можно ли указать диапазон страниц для анализа в документе?

Да.

pages Используйте параметр (поддерживается в версии 2.1, версии 3.0 и более поздних версиях REST API) и укажите страницы для документов PDF и TIFF. В качестве входных данных могут указываться следующие диапазоны:

  • Отдельные страницы. Например, если указать 1, 2, обрабатываются страницы 1 и 2.
  • Конечные диапазоны. Например, если указать 2-5, обрабатываются страницы 2–5.
  • Открытые диапазоны. Например, если указать 5-, обрабатываются все страницы со страницы 5. При указании -10обрабатываются страницы 1–10.

Эти параметры можно смешивать вместе, а диапазоны могут перекрываться. Например, если указать -5, 1, 3, 5-10, обрабатываются страницы 1–10.

Служба принимает запрос, если он может обрабатывать по крайней мере одну страницу документа. Например, использование 5-100 на пятистраничном документе является допустимым вводом, который означает, что страница 5 обрабатывается.

Если вы не предоставляете диапазон страниц, весь документ обрабатывается.

Рекомендуется ли использовать Document Intelligence Studio, а не средство FOTT Sample Labeling для моего проекта?

Да.

Мы рекомендуем Document Intelligence Studio большую часть времени, так как это может сократить время настройки ресурсов аналитики документов и служб хранилища.

Для следующих сценариев рекомендуется использовать средство тестирования форм (FOTT).

  • Данные должны оставаться в пределах одного компьютера. Используйте средство FOTT Sample Labeling и контейнер аналитики документов.

  • Проект очень зависит от api аналитики документов версии 2.1, и вы хотите продолжать использовать API версии 2.1.

Существуют ли рекомендации по устранению регулирования?

Да.

Аналитика документов использует автомасштабирование для предоставления необходимых вычислительных ресурсов по требованию, при этом затраты клиентов не требуются. Для снижения регулирования во время автоматического масштабирования рекомендуется использовать следующий подход:

  • Реализуйте в приложении логику повторных попыток.

  • Если вы обнаружите, что вы регулируете количество запросов, рассмотрите возможность добавления задержки POST между запросами.

  • Увеличивайте рабочую нагрузку постепенно. Избегайте резких изменений.

  • Создайте запрос на поддержку для увеличения лимита транзакций в секунду (TPS).

Дополнительные сведения о квотах и ограничениях службы аналитики документов.

Пользовательские модели

Можно ли улучшить оценку точности для пользовательской модели?

Да.

Дисперсии в визуальной структуре документов могут влиять на точность модели. Ниже приведено несколько советов.

  • Включите все варианты документа в обучающий набор данных. Варианты включают различные форматы; например, цифровые и сканированные PDF-файлы.

  • Разделите визуально отличающиеся типы документов и обучите разные модели.

  • Убедитесь, что у вас нет лишних меток.

  • При маркировке подписей и областей не включайте окружающий текст.

Дополнительные сведения см. в разделе "Точность и оценка достоверности".

Можно ли повторно обучить пользовательскую модель?

Нет.

  • Аналитика документов не имеет явной операции переобучения. Каждая операция обучения создает новую модель.

  • Если вы обнаружите, что модель должна переобучение, вы можете добавить дополнительные примеры в набор данных обучения и обучить новую модель.

  • Вы также можете создать новую модель для создания исходной модели следующим образом:

    1. Создайте набор данных для нового шаблона.

    2. Выполните маркировку и обучение новой модели.

    3. Убедитесь, что новая модель хорошо работает для используемых типов документов.

    4. Объедините новую модель и существующую модель в одну конечную точку. Затем аналитика документов может определить лучшую модель для каждого документа, который необходимо проанализировать.

    Дополнительные сведения см. в статье о составных моделях.

Можно ли переместить обученные модели из одной среды (например, бета-версии) в другую (например, рабочую среду)?

Да.

API копирования можно использовать для копирования пользовательских моделей из одной учетной записи аналитики документов в другие, которые существуют в любом поддерживаемом географическом регионе. Подробные инструкции см. в разделе "Аварийное восстановление".

Операция копирования ограничена копированием моделей в конкретной облачной среде, в которой вы обучили модель. Например, копирование моделей из общедоступного облака в облако Azure для государственных организаций не поддерживается.

Взимается ли плата при обучении пользовательских моделей?

Да.

Для v4.0 11-30-2024 (GA) пользовательских нейронных моделей можно бесплатно обучать не более 10 часов. Если вы обучаете одну модель в течение 10 часов или обучаете несколько моделей в течение 10 часов, плата за первые 10 часов не взимается. После использования бесплатного 10 часов вы автоматически взимаете плату за дополнительный час обучения. Дополнительные сведения о ценах см. на странице цен. Эта новая функция платного обучения позволяет модели обучения в течение длительного времени обрабатывать более крупные документы. Дополнительные сведения об этой платной функции обучения см . в разделе выставления счетов для пользовательской нейронной модели.

Для v3.0 2022-08-31 или v3.1 2023-07-31, пользовательские нейронные модели могут быть обучены бесплатно для не более 20 обучающих сеансов, причем каждый сеанс ограничен 30 минутами обучения. После использования всех 20 обучающих сессий вы можете отправить поддержка Azure билет, чтобы увеличить ограничение на обучение. Чтобы увеличить ограничение, две тренировки считаются одним учебным часом, и плата взимается за два сеанса / один учебный час. Дополнительные сведения о ценах см. на [странице цен]. Дополнительные сведения о способах увеличения предела см . в разделе выставления счетов пользовательской нейронной модели. Для v3.0 и v3.1, платная функция обучения недоступна. Функция платного обучения для пользовательской нейронной модели доступна только в v4.0.

Storage account

Существует ли время истечения срока действия маркера подписанного URL-адреса (SAS), который я для проверки подлинности учетной записи хранения?

Да.

При создании подписанного URL-адреса (SAS) длительность по умолчанию составляет 48 часов. Через 48 часов необходимо создать новый маркер.

Рекомендуется задать длительный период времени использования учетной записи хранения с аналитикой документов.

Может ли аналитика документов получить доступ к данным в учетной записи хранения, если она находится за виртуальной сетью или брандмауэром?

Нет, а не напрямую.

Аналитика документов не может получить доступ к учетной записи хранения, если она защищена виртуальной сетью или брандмауэром.

Однако частный доступ к учетной записи хранения Azure и проверка подлинности поддерживают управляемые удостоверения для ресурсов Azure. При использовании управляемого удостоверения служба аналитики документов может получить доступ к учетной записи хранения с помощью назначенных учетных данных.

Если вы планируете проанализировать данные частной учетной записи хранения с помощью FOTT, необходимо развернуть средство за виртуальной сетью или брандмауэром.

Узнайте, как создать и использовать управляемое удостоверение для ресурса Аналитики документов.

Контейнеры

Существует ли разница между отключенными и подключенными контейнерами?

Да.

Хотя возможности модели одинаковы для подключенных и отключенных контейнеров, методы выставления счетов и подключений отличаются:

  • Подключенные контейнеры отправляют сведения о выставлении счетов в Azure с помощью ресурса Аналитики документов в учетной записи Azure. В подключенных контейнерах для отправки сведений о выставлении счетов в Azure требуется подключение к Интернету. Подключенные контейнеры аналитики документов отправляют сведения о выставлении счетов в Azure с помощью ресурса аналитики документов в учетной записи Azure. Подключенные контейнеры не отправляют в корпорацию Майкрософт данные клиента, например, анализируемые изображения или текст. Пример сведений о том, что подключенные контейнеры отправляются в Корпорацию Майкрософт для выставления счетов, см. в разделе часто задаваемые вопросы о контейнере ИИ Azure.

  • Отключенные контейнеры позволяют использовать API, которые отключены от Интернета. Сведения о выставлении счетов не отправляются через Интернет. Вместо этого плата основана на приобретенном уровне обязательств. В настоящее время отключенное использование контейнера доступно для пользовательских моделей аналитики документов и счетов.

Можно ли использовать локальное хранилище для контейнера средства метки для аналитики документов (FOTT)?

Да.

Существует версия средства FOTT, которая использует локальное хранилище. Эту версию необходимо установить на компьютере Windows. Его можно установить из этого расположения.

На странице проекта укажите URI папки меток как /shared или /shared/sub-dir, если файлы меток находятся в подкаталоге. Все остальные действия средства аналитики примеров документов совпадают с поведением размещенной службы.

Рекомендуется ли увеличить масштаб?

Да.

Для асинхронных вызовов можно запускать несколько контейнеров с общим хранилищем. Контейнер, обрабатывающий POST вызов анализа, сохраняет выходные данные в хранилище. Затем любой другой контейнер может получить результаты из хранилища и обслуживать GET вызовы. Идентификатор запроса не привязан к контейнеру.

Для синхронных вызовов можно запускать несколько контейнеров, но только один контейнер обслуживает запрос. Так как это блокирующий вызов, любой контейнер из пула может обслуживать запрос и отправлять ответ. Здесь только один контейнер привязан к запросу за раз, и опрос не требуется.

Можно ли настроить контейнеры с общим хранилищем?

Да.

Контейнеры используют Mounts: Shared свойство при запуске для указания общего хранилища для хранения файлов обработки. Сведения об использовании этого свойства см . в документации по контейнерам.

Безопасность и конфиденциальность

Хранит ли данные аналитика документов?

Да, кратко.

Для всех функций Аналитика документов временно сохраняет данные и приводит к служба хранилища Azure в том же регионе, что и запрос. Затем данные удаляются в течение 24 часов с момента отправки запроса на анализ.

Дополнительные сведения о данных, конфиденциальности и безопасности для аналитики документов.

Для обученных пользовательских моделей промежуточные выходные данные после анализа и маркировки хранятся в том же служба хранилища Azure расположении, где хранятся данные обучения. Обученные пользовательские модели хранятся в служба хранилища Azure в одном регионе и логически изолированы с помощью подписки Azure и учетных данных API.

Дополнительная помощь и поддержка

Доступны ли другие ресурсы для предоставления решений по вопросам аналитики документов ИИ Azure?

Да.

Microsoft Q и A является домом для технических вопросов и ответов в Корпорации Майкрософт. Вы можете фильтровать запросы, относящиеся к аналитике документов.

Можно ли предоставить прямую обратную связь, если служба не распознает определенный текст или неправильно распознает его, когда я подписываю документы?

Да.

Мы постоянно обновляем и совершенствуем модели аналитики документов. Вы можете отправить сообщение группе аналитики документов. Если возможно, приложите пример документа с описанием проблемы.