Новые возможности аналитики документов ВИ Azure
Это содержимое относится к: версии 4.0 (GA) версии 3.1 (GA) версии 3.0 (GA) версии 2.1 (GA)
Служба аналитики документов обновляется на постоянной основе. Закладыв эту страницу, чтобы оставаться в курсе заметок о выпуске, усовершенствованиях функций и самой новой документации.
Внимание
Предварительные версии API удаляются после выпуска ОБЩЕДОСТУПНОго API. Версия API 2023-02-28-preview прекращается. Если вы по-прежнему используете API предварительной версии или связанные версии пакета SDK, обновите код, чтобы нацелиться на последнюю версию 2024-11-30 (GA)
API.
Декабрь 2024 г.
Пакеты SDK для языка программирования для аналитики документов версии 4.0 теперь доступны в общедоступной версии 4.0.
Последние клиентские библиотеки по умолчанию соответствуют версии [2024-11-30 REST API (GA)](/rest/api/aiservices/operation-groups?view=rest-aiservices-v4.0%20(2024-11-30&preserve-view=true).
Дополнительные сведения см . в клиентских библиотеках для следующих поддерживаемых языков программирования:
Ноябрь 2024 г.
REST API аналитики документов версии 4.0: 2024-11-30 REST API (GA) теперь общедоступен (GA)! REST API версии 4.0 включает следующие изменения:
-
- Api пакетной службы теперь поддерживает все модели, включая все модели чтения, макета, предварительно созданные вертикали и пользовательские модели.
- Пакетный API поддерживает функцию LIST, чтобы пользователи могли перечислять пакетные задания за последние семь дней.
- Пакетный API поддерживает функцию DELETE для явного удаления пакетного задания для GDPR и соответствия конфиденциальности.
- GetAnalyzeBatchResult поддерживает resultId в ответ на list all resultIds.
🆕 Доступный для поиска PDF-файл. Предварительно созданная модель чтения теперь поддерживает форматы изображений (JPEG/JPG, PNG, BMP, TIFF, HEIF) и расширение языка, включая китайский, японский и корейский для выходных данных PDF.
Пользовательская модель классификации
- Пользовательская модель классификации поддерживает добавочное обучение. Вы можете добавить новые примеры в существующие классы или добавить новые классы, ссылаясь на существующий классификатор.
- При использовании версии 4.0 пользовательская модель классификации не разделяет документы по умолчанию во время анализа. Чтобы сохранить старое поведение, необходимо явно задать свойство splitMode.
- Пользовательская модель классификации теперь поддерживает 25 000 страниц в качестве нового ограничения на страницу обучения.
Пользовательская нейронная модель
- Настраиваемая нейронная модель теперь поддерживает обнаружение подписей.
- Пользовательские нейронные модели поддерживают платное обучение в течение длительной длительности, когда необходимо обучить модель с большим набором данных с меткой. Первые 20 обучающих запусков в календарном месяце продолжают быть бесплатными. Все операции обучения более 20 на платном уровне. Дополнительные сведения о выставлении счетов.
-
- Модель банковских инструкций США теперь поддерживает извлечение таблиц с проверкой.
-
- Поддерживает извлечение подписи payer
-
- Модель ипотеки теперь поддерживает обнаружение подписей для форм 1003, 1004, 1005 и закрытия раскрытия.
-
- Модель квитанций теперь поддерживает больше полей, включая ReceiptType, налоговую ставку, CountryRegion, чистую сумму и описание.
-
- Новые предварительно созданные налоговые модели добавлены для 1095A, 1095C, 1099SSA и W4.
API версии 4.0 включает накопительные обновления из предварительных выпусков, как указано ниже.
Август 2024 г.
Теперь доступен REST API аналитики документов 2024-07-31-preview . Этот API предварительной версии предоставляет новые и обновленные возможности:
Общедоступная предварительная версия 2024-07-31-preview в настоящее время доступна только в следующих регионах Azure. Новая модель извлечения полей документов на портале Azure AI Foundry доступна только в регионе "Северная часть США":
Восточная часть США
Западная часть США2
Западная Европа
Северная часть США
🆕 Создание модели с пользовательскими классификаторами
- Аналитика документов теперь добавляет поддержку создания модели с явной пользовательской моделью классификации. Узнайте больше о преимуществах использования новой возможности создания.
Пользовательская модель классификации
- Пользовательская модель классификации теперь поддерживает обновление модели на месте.
- Пользовательская модель классификации добавляет поддержку операции копирования моделей для включения резервного копирования и аварийного восстановления.
- Пользовательская модель классификации теперь поддерживает явное указание страниц для классификации из входного документа.
-
- Извлечение информации из оценки (форма 1004).
- Извлеките сведения из проверки занятости (форма 1005).
-
- Извлечение выплат, суммы, даты и других соответствующих сведений из проверок.
-
- Новые предварительно созданные для обработки заглушки заработной платы для извлечения заработной платы, часов, вычетов, чистой заработной платы и многое другое.
🆕 Модель банковских инструкций
- Новая предварительно созданная для извлечения сведений о счете, включая начальные и конечные балансы, сведения о транзакциях из банковских инструкций.
-
- Новая единая налоговая модель США, которая может извлекать из форм, таких как W-2, 1098, 1099 и 1040.
🆕 Доступный для поиска PDF-файл. Предварительно созданная модель чтения теперь поддерживает выходные данные PDF для скачивания PDF-файлов с внедренным текстом из результатов извлечения, что позволяет использовать PDF в таких сценариях, как копия содержимого поиска.
Модель макета теперь поддерживает улучшенное обнаружение фигур, где фигуры из документов теперь можно скачать в виде файла изображения, который будет использоваться для дальнейшего понимания рисунков. Модель макета также содержит улучшения модели OCR для улучшения отсканированного текста для отдельных символов, поля и плотных текстовых документов.
-
- Аналитика документов теперь добавляет поддержку пакетного анализа для поддержки анализа набора документов для упрощения работы разработчика и повышения эффективности.
-
- Качество извлечения полей запросов улучшается с помощью последней модели.
Май 2024 г.
Служба Document Intelligence Studio добавляет поддержку проверки подлинности Microsoft Entra (прежнее название — Azure Active Directory). Дополнительные сведения см. в разделе "Проверка подлинности" в Studio Document Intelligence.
Февраль 2024 г.
Теперь доступен REST API аналитики документов 2024-07-31-preview . Этот API предварительной версии предоставляет новые и обновленные возможности:
Общедоступная предварительная версия 2024-07-31-preview в настоящее время доступна только в следующих регионах Azure:
- Восточная часть США
- Западная часть США2
- Западная Европа
Модель макета теперь поддерживает обнаружение фигур и анализ структуры иерархических документов (разделы и подразделы). Кроме того, улучшается качество чтения и обнаружения логических ролей.
Пользовательские модели извлечения
- Пользовательские модели извлечения теперь поддерживают оценки достоверности ячеек, строк и таблиц. Дополнительные сведения о таблице, строке и достоверности ячеек.
- Пользовательские модели извлечения имеют улучшения качества ИИ для извлечения полей.
- Пользовательская модель извлечения шаблонов теперь поддерживает извлечение перекрывающихся полей. Узнайте больше о перекрывающихся полях и их использовании.
Пользовательская модель классификации
- Пользовательская модель классификации теперь поддерживает добавочное обучение для сценариев, где необходимо обновить модель классификатора с добавленными примерами или классами. Дополнительные сведения о добавочном обучении.
- Пользовательская модель классификации добавляет поддержку типов документов Office (.docx, .pptx и .xls). Дополнительные сведения о поддержке расширенного типа документа.
-
- Поддержка новых языковых стандартов:
Локаль Код Арабский ( ar
)Болгарский ( bg
)Греческий ( el
)Иврит ( he
)Macedonian ( mk
)Русский ( ru
)Сербский кириллица ( sr-cyrl
)Украинский ( uk
)Тайский ( th
)Турецкий ( tr
)Вьетнамский ( vi
)- Поддержка новых кодов валют:
Валюта Локаль Код BAM
Боснийский преобразуемый марк ( ba
)BGN
Болгарский Лев ( bg
)ILS
Израильский Новый Шекель ( il
)MKD
Македонский Денар ( mk
)RUB
Российский рубль ( ru
)THB
Тайский Бат ( th
)TRY
Турецкая Лира ( tr
)UAH
Украинка ( ua
)VND
Вьетнамский Донг ( vn
)- Налоговые товары поддерживают расширение для Германии (), Испании (
de
), Португалии (es
pt
), английского Канадыen-CA
.
-
- Расширенная поддержка полей для идентификаторов и водительских лицензий Европейского союза.
-
- Извлеките сведения из универсального приложения жилищного кредита (форма 1003).
- Извлеките сведения из универсального подзаписи и передачи сводки или формы 1008.
- Извлеките информацию из раскрытия ипотечных кредитов.
🆕 Модель кредитной и дебетовой карты
- Извлечение сведений из банковских карт.
-
- Новая предварительно созданная для извлечения информации из сертификатов о браке.
Декабрь 2023 г.
Клиентские библиотеки аналитики документов, предназначенные для REST API 2023-10-31-preview , теперь доступны для использования!
Ноябрь 2023 г.
Теперь доступен REST API аналитики документов 2023-10-31-preview . Этот API предварительной версии предоставляет новые и обновленные возможности:
Общедоступная предварительная версия 2023-10-31-preview в настоящее время доступна только в следующих регионах Azure:
- Восточная часть США
- Западная часть США2
- Западная Европа
-
- Расширение языка для рукописного ввода: русский(), арабский(
ru
ar
), тайский(th
). - Соответствие кибер-исполнительного указа (EO).
- Расширение языка для рукописного ввода: русский(), арабский(
-
- Поддержка office и HTML-файлов.
- Поддержка выходных данных Markdown.
- Улучшения обнаружения заголовков заголовков таблиц, порядка чтения и раздела.
- При использовании аналитики документов 2023-10-31-preview общая модель документов (предварительно созданная версия документа) устарела. Чтобы извлечь пары "ключ-значение" из документов, используйте
prebuilt-layout
модель с включенным необязательным параметромfeatures=keyValuePairs
строки запроса.
-
- Теперь извлекает валюту для всех полей, связанных с ценами.
Модель карты медицинского страхования
- Новая поддержка полей для сведений Medicare и Medicaid.
Модели налогового документа США
- Новая модель налогообложения 1099 года. Поддерживает базовую форму 1099 и следующие варианты: A, B, C, CAP, DIV, G, INT, K, LS, LTC, MISC, NEC, OID, PATR, Q, Q, R, S, SA, SB.
-
KVK
Поддержка поля.BPAY
Поддержка поля.- Многочисленные уточнения полей.
-
- Поддержка многоязычных документов.
- Новые параметры разделения страниц: autosplit, всегда разделенные по страницам, без разделения.
-
- Поля запросов доступны в выпуске
2023-10-31-preview
. - Возможности надстройки доступны во всех моделях, за исключением модели чтения.
- Поля запросов доступны в выпуске
Примечание.
При выпуске общедоступной версии API 2022-08-31 не рекомендуется использовать связанные api предварительной версии. Если вы используете версии API 2021-09-30-preview, 2022-01-30-preview или 2022-06-30-preview API, обновите приложения для целевой версии API 2022-08-31. Дополнительные сведения см . в руководстве по миграции.
Июль 2023 г.
Примечание.
Распознаватель документов сейчас Аналитика документов ИИ Azure!
- Нет изменений в ценах.
- Имена Cognitive Services и приложение Azure lied AI продолжают использоваться в выставлении счетов Azure, анализе затрат, прайс-листе и API цен.
- Критические изменения в интерфейсах программирования приложений (API) или клиентских библиотеках отсутствуют.
- Некоторые платформы по-прежнему ожидают переименования обновления. Все упоминания о Распознаватель документов или аналитике документов в нашей документации относятся к одной службе Azure.
Аналитика документов версии 3.1 (GA)
API аналитики документов версии 3.1 теперь общедоступен (GA)! Версия API соответствует 2023-07-31
.
API версии 3.1 предоставляет новые и обновленные возможности:
- API аналитики документов теперь являются более модульными и поддерживают дополнительные функции. Теперь вы можете настроить выходные данные для конкретного включения необходимых функций. Дополнительные сведения о необязательных параметрах.
- API классификации документов для разделения одного файла на отдельные документы. Дополнительные сведения о классификации документов.
- Предварительно созданная модель контракта.
- Предварительно созданная модель налоговой формы США 1098.
- Поддержка типов файлов Office с помощью API чтения.
- Распознавание штрихкодов в документах.
- Возможность распознавания формул.
- Возможность распознавания шрифтов.
- Поддержка документов с высоким разрешением.
- Теперь для обучения пользовательских нейронных моделей требуется один помеченный пример.
- Расширение языка пользовательских нейронных моделей. Обучение нейронной модели для документов на 30 языках. Полный список поддерживаемых языков см . в поддержке языков.
- 🆕 Предварительно созданная модель карты медицинского страхования.
- Предварительно созданное расширение языкового стандарта модели счета.
- Предварительно создан язык модели квитанций и расширение языкового стандарта с более чем 100 поддерживаемыми языками.
- Предварительно созданная модель идентификаторов теперь поддерживает европейские идентификаторы.
Обновления пользовательского интерфейса Visual Studio для Document Intelligence Studio
✔️ Параметры анализа
Аналитика документов теперь поддерживает более сложные возможности анализа, и Студия позволяет использовать одну точку входа (кнопку "Анализ параметров") для настройки возможностей надстройки с легкостью.
В зависимости от сценария извлечения документов настройте диапазон анализа, диапазон страниц документов, необязательные функции обнаружения и обнаружения premium.
Примечание.
Извлечение шрифтов не визуализировано в Studio Document Intelligence. Однако можно проверить раздел стилей выходных данных JSON для результатов обнаружения шрифтов.
✔️ Автоматическая маркировка документов с предварительно созданными моделями или одной из собственных моделей
На странице маркировки пользовательской модели извлечения теперь можно автоматически пометить документы с помощью одной из предварительно созданных моделей или моделей интеллектуальной службы документов, которые вы ранее обучили.
Для некоторых документов можно дублировать метки после запуска автоматической метки. Обязательно измените метки таким образом, чтобы на странице маркировки не было повторяющихся меток.
✔️ Таблицы автоматической маркировки
На странице маркировки пользовательской модели извлечения теперь можно автоматически пометить таблицы в документе без необходимости пометить таблицы вручную.
✔️ Добавление тестовых файлов непосредственно в обучающий набор данных
Обучив пользовательскую модель извлечения, используйте тестовую страницу для улучшения качества модели, отправив тестовые документы в обучающий набор данных при необходимости.
Если для некоторых меток возвращается низкая оценка достоверности, убедитесь, что метки верны. Если нет, добавьте их в набор данных обучения и перенастройте их для улучшения качества модели.
✔️ Использование параметров списка документов и фильтров в пользовательских проектах
Используйте страницу меток модели пользовательского извлечения. Теперь вы можете легко перемещаться по учебным документам, используя поиск, фильтрацию и сортировку по функциям.
Используйте представление сетки для предварительного просмотра документов или используйте представление списка для упрощения прокрутки документов.
✔️ Общий доступ к проекту
- Удобно использовать пользовательские проекты извлечения. Дополнительные сведения см. в разделе "Общий доступ к проекту" с пользовательскими моделями.
Май 2023 г .
Введение обновленной документации по сборке 2023
🆕 Обзор расширенной навигации, структурированных точек доступа и обогащенных изображений.
🆕 Выбор модели аналитики документов предоставляет рекомендации по выбору оптимального решения аналитики документов для проектов и рабочих процессов.
Апрель 2023 г.
Объявление о последнем выпуске общедоступной предварительной версии клиентской библиотеки Аналитики документов
REST API аналитики документов версии 2023-02-28-preview поддерживает клиентские библиотеки общедоступной предварительной версии. Этот выпуск включает следующие новые функции и возможности, доступные для .NET/C# (4.1.0-beta-1), Java (4.1.0-beta-1), JavaScript (4.1.0-beta-1) и клиентских библиотек Python (3.3.0b.1):
Дополнительные сведения см. в заметках о выпуске пакета SDK для аналитики документов (общедоступная предварительная версия) и заметках о выпуске за март 2023 г.
Март 2023 г.
Внимание
2023-02-28-preview
Возможности в настоящее время доступны только в следующих регионах:
- Западная Европа
- западная часть США 2
- Восточная часть США
- Пользовательская модель классификации — это новая возможность в аналитике документов, начиная с
2023-02-28-preview
API. - Возможности полей запросов, добавленные в модель общего документа, используют модели Azure OpenAI для извлечения определенных полей из документов. Попробуйте использовать общие документы с функциями полей запросов с помощью Studio Document Intelligence. Поля запросов в настоящее время активны только для ресурсов в регионе
East US
. - Возможности надстройки:
- Извлечение шрифтов
2023-02-28-preview
теперь распознается с помощью API. - Извлечение формул теперь распознается с помощью
2023-02-28-preview
API. - Извлечение высокого разрешения теперь распознается с помощью
2023-02-28-preview
API.
- Извлечение шрифтов
- Обновления пользовательской модели извлечения:
- Пользовательская нейронная модель теперь поддерживает добавленные языки для обучения и анализа. Обучение нейронных моделей для голландских, французских, немецких, итальянских и испанских.
- Пользовательская модель шаблона теперь имеет улучшенную возможность обнаружения подписей.
- Обновления Document Intelligence Studio :
- Помимо поддержки всех новых функций, таких как классификация и поля запросов, Студия теперь обеспечивает общий доступ к проектам проектов для пользовательских проектов модели.
- Новые дополнения модели в закрытой предварительной версии: карточки вакцинации, контракты, налог США 1098, налог США 1098-E и налог США 1098-T. Чтобы запросить доступ к закрытым моделям предварительной версии, заполните и отправьте форму запроса частной предварительной версии аналитики документов.
- Обновления модели квитанций:
- Модель квитанций добавляет поддержку тепловых квитанций.
- Модель квитанций теперь добавляет поддержку языка для 18 языков и трех региональных языков (английский, французский, португальский).
- Модель квитанций теперь поддерживает
TaxDetails
извлечение.
- Модель макета теперь улучшает распознавание таблиц.
- Теперь модель чтения добавляет улучшение для распознавания однозначных символов.
2023 февраля
Теперь доступны контейнеры аналитики документов для версии 3.0!
В настоящее время доступны контейнеры Layout версии 3.0 и Layout версии 3.0.
Дополнительные сведения см. в разделе "Установка и запуск контейнеров аналитики документов".
2023 января
Предварительно созданная модель квитанции — добавленные языки, поддерживаемые. Модель квитанций теперь поддерживает эти добавленные языки и языковые стандарта.
- Японский - Япония (ja-JP)
- Французский - Канада (fr-CA)
- Голландский - Нидерланды (nl-NL)
- Английский - Объединенные Арабские Эмираты (en-AE)
- Португальский - Бразилия (pt-BR)
Предварительно созданная модель счета — добавленные языки, поддерживаемые. Модель счета теперь поддерживает эти добавленные языки и языковые стандарты.
- Английский - США (en-US), Австралия (en-AU), Канада (en-CA), Соединенное Королевство (en-UK), Индия (en-IN)
- Испанский - Испания (es-ES)
- Французский - Франция (fr-FR)
- Итальянский - Италия (it-IT)
- Португальский - Португалия (pt-PT)
- Голландский - Нидерланды (nl-NL)
Предварительно созданная модель счета — добавлены поля, распознанные. Модель счета теперь распознает эти добавленные поля
- Код валюты
- Варианты оплаты
- Итоговая скидка
- Налоговые элементы (только для en-IN)
Предварительно созданная модель идентификатора — добавленные типы документов, поддерживаемые. Модель идентификаторов теперь поддерживает эти добавленные типы документов
- Военный идентификатор США
Совет
Все обновления за январь 2023 г. доступны в REST API версии 2022-08-31 (GA).
Предварительно созданная модель квитанции — дополнительная поддержка языка:
Предварительно созданная модель квитанции добавляет поддержку следующих языков:
- Английский - Объединенные Арабские Эмираты (en-AE)
- Голландский - Нидерланды (nl-NL)
- Французский - Канада (fr-CA)
- Немецкий - (de-DE)
- Итальянский - (it-IT)
- Японский - Япония (ja-JP)
- Португальский - Бразилия (pt-BR)
Предварительно созданная модель счета— дополнительная поддержка языка и извлечение полей
Предварительно созданная модель счета добавляет поддержку следующих языков:
- Английский - Австралия (en-AU), Канада (en-CA), Соединенное Королевство (en-UK), Индия (en-IN)
- Португальский - Бразилия (pt-BR)
Предварительно созданная модель счета теперь добавляет поддержку для следующих извлечений полей:
- Код валюты
- Варианты оплаты
- Итоговая скидка
- Налоговые элементы (только для en-IN)
Предварительно созданная модель документа идентификатора — поддержка дополнительных типов документов
Предварительно созданная модель документов идентификатора теперь добавляет поддержку для следующих типов документов:
- Расширение лицензии водителя, поддерживающее Индию, Канаду, Соединенное Королевство и Австралию
- Американские военные идентификаторы и документы
- Карточки и документы Индии (PAN и Aadhaar)
- Карточки и документы Австралии (фотокарта, идентификатор ключа)
- Идентификаторы и документы Канады (идентификационные карточки, карта Maple)
- Карточки и документы Соединенного Королевства (национальный/региональный удостоверения)
Декабрь 2022 г.
Обновления Document Intelligence Studio
Декабрьский выпуск Document Intelligence Studio включает последние обновления в Document Intelligence Studio. Существует значительное улучшение взаимодействия с пользователем, в первую очередь с поддержкой пользовательских меток моделей.
Диапазон страниц. Теперь Студия поддерживает анализ указанных страниц из документа.
Метка пользовательской модели:
Автоматически запустите API макета. Вы можете автоматически запустить API макета для всех документов в хранилище BLOB-объектов во время настройки пользовательской модели.
Поиск. Теперь Студия включает функции поиска для поиска слов в документе. Это улучшение позволяет упростить навигацию во время маркировки.
Навигация. Вы можете выбрать метки для целевых слов, помеченных в документе.
Автоматическая маркировка таблиц. Выбрав значок таблицы в документе, вы можете выбрать автоматическую метку извлеченной таблицы в представлении меток.
Подтипы меток и подтипы второго уровня в Студии теперь поддерживают подтипы для столбцов таблиц, строк таблицы и подтипов второго уровня для таких типов, как даты и числа.
Создание пользовательских нейронных моделей теперь поддерживается в регионе Us Gov Вирджинии.
Предварительная версия
2022-01-30-preview
API и2021-09-30-preview
будет прекращена 31 января 2023 г.2022-08-31
Обновите версию API, чтобы избежать сбоев служб.
Ноябрь 2022 г.
- Объявление о последнем стабильном выпуске библиотек Аналитики документов Azure
- Этот выпуск включает важные изменения и обновления для клиентских библиотек .NET, Java, JavaScript и Python. Дополнительные сведения см. в статье Azure SDK DevBlog.
- Наиболее значительными улучшениями являются введение двух новых клиентов,
DocumentAnalysisClient
а такжеDocumentModelAdministrationClient
.
Октябрь 2022
Содержимое с версиями аналитики документов
Документация по аналитике документов обновлена, чтобы представить версию интерфейса. Теперь вы можете просмотреть содержимое, ориентированное
v3.0 GA
на интерфейс илиv2.1 GA
интерфейс. По умолчанию используется интерфейс версии 3.0.
Пример кода Document Intelligence Studio
- Пример кода для интерфейса маркировки Document Intelligence Studio теперь доступен на сайте GitHub. Клиенты могут разрабатывать и интегрировать Аналитику документов в собственный интерфейс или создавать собственный ПОЛЬЗОВАТЕЛЬСКИЙ интерфейс с помощью примера кода Document Intelligence Studio.
Расширение языка
- С помощью последней предварительной версии модели чтения документов (OCR), макета и пользовательских шаблонов поддерживаются 134 новых языков. Эти дополнения языка включают греческий, латышский, сербский, тайский, украинский и вьетнамский, а также несколько латинских и кириллических языков. Аналитика документов теперь имеет в общей сложности 299 поддерживаемых языков в последних общедоступной версии и новых предварительных версий. Ознакомьтесь со страницами поддерживаемых языков, чтобы просмотреть все поддерживаемые языки.
- Используйте параметр
api-version=2022-06-30-preview
REST API при использовании API или соответствующего пакета SDK для поддержки новых языков в приложениях.
Новая предварительно созданная модель контракта
Расширение региона для обучения пользовательских нейронных моделей
- Обучение пользовательских нейронных моделей теперь поддерживается в добавленных регионах.
- Восточная часть США
- восточная часть США 2
- US Gov (Аризона)
- Обучение пользовательских нейронных моделей теперь поддерживается в добавленных регионах.
2022 сентября
Примечание.
Начиная с версии 4.0.0, новый набор клиентов представлен для применения новейших функций службы аналитики документов.
Выпуск пакета SDK версии 4.0.0.0 GA включает следующие обновления:
- Версия 4.0.0 — общедоступная (09.08.2022)
- Поддерживает клиенты REST API версии 3.0 и 2.0
Расширение региона для обучения пользовательских нейронных моделей теперь поддерживается в шести новых регионах
- Восточная Австралия
- Центральная часть США
- Восточная Азия
- Центральная Франция
- южная часть Соединенного Королевства
- западная часть США 2
Полный список регионов, где поддерживается обучение, см. в разделе пользовательских нейронных моделях.
Выпуск пакета SDK для аналитики
4.0.0 GA
документов:- Клиентские библиотеки аналитики документов версии 4.0.0 (.NET/C#, Java, JavaScript) и версии 3.2.0 (Python) являются общедоступными и готовыми для использования в рабочих приложениях!.
- Дополнительные сведения о клиентских библиотеках аналитики документов см. в обзоре пакета SDK.
- Обновите приложения с помощью руководства по миграции языка программирования.
Август 2022 г.
Предварительная версия пакета SDK для аналитики документов за август 2022 г. включает следующие обновления:
Версия 4.0.0-beta.5 (09.08.2022)
Общедоступная аналитика документов версии 3.0
- REST API аналитики документов версии 3.0 теперь общедоступен и готов к использованию в рабочих приложениях! Обновите приложения с помощью REST API версии 2022-08-31.
Обновления Document Intelligence Studio
- Дальнейшие действия. Теперь на каждой странице модели в Студии есть раздел с дальнейшими действиями. Пользователи могут быстро ссылаться на пример кода, рекомендации по устранению неполадок и сведения о ценах.
- Настраиваемые модели. Теперь Студия включает возможность переупорядочения меток в проектах пользовательской модели для повышения эффективности маркировки.
- Пользовательские модели копирования можно копировать в службах аналитики документов из студии. Эта операция обеспечивает повышение уровня обученной модели в других средах и регионах.
- Удаление документов. Теперь Студия поддерживает удаление документов из помеченного набора данных в пользовательских проектах.
Обновления службы аналитики документов
- prebuilt-read. Модель OCR теперь доступна в аналитике документов с абзацами и обнаружением языка в качестве двух новых функций. Аналитика документов предназначена для расширенных сценариев документов, согласованных с более широкими возможностями аналитики документов в аналитике документов.
- prebuilt-layout. Модель Layout (Структура) извлекает абзацы и определяет, являются ли они простыми абзацами, заголовками, подзаголовками, сносками, колонтитулами или номерами страниц.
- prebuilt-invoice. Поля TotalVAT и Line/VAT теперь разрешаются в существующих полях TotalTax и Line/Tax соответственно.
- prebuilt-idDocument. Поддержка извлечения данных идентификатора штата США, сведений о социальном обеспечении и зеленых картах. Поддержка информации о визах в паспорте.
- prebuilt-receipt. Расширенная поддержка языкового стандарта для французского (fr-FR), испанского (es-ES), португальского (pt-PT), итальянского (it-IT) и немецкого (de-DE) языков.
- prebuilt-businessCard. Поддержка синтаксического анализа адресов для извлечения подфилдов для таких компонентов адресов, как адрес, город, штат, страна или регион и почтовый индекс.
Улучшения качества искусственного интеллекта
- prebuilt-read. Улучшенная поддержка отдельных символов, рукописных дат, сумм, имен, других ключевых данных, часто найденных в квитанциях и счетах, а также улучшенная обработка цифровых PDF-документов.
- prebuilt-layout. Поддержка лучшего обнаружения обрезанных таблиц, таблиц без границ и улучшенного распознавания длинных ячеек.
- prebuilt-document. Улучшено определение значений и флажков.
- custom-neural. Улучшенная точность обнаружения и извлечения таблиц.
Июнь 2022 г.
- Бета-версия пакета SDK для Аналитики документов за июнь 2022 г. включает следующие обновления:
Версия 4.0.0 — бета-версия 4 (8 июня 2022 г.)
Выпуск Document Intelligence Studio июня является последним обновлением в Studio Document Intelligence Studio. В этом обновлении представлены значительные улучшения взаимодействия с пользователем и доступа:
- Пример кода для JavaScript и C#. На вкладке "Код студии" теперь можно добавить примеры кода Javascript и C# в дополнение к существующему Python.
- Пользовательский интерфейс отправки нового документа. Теперь Studio поддерживает отправку документа с перетаскиванием в новый пользовательский интерфейс отправки.
- Новая функция для пользовательских проектов. Пользовательские проекты теперь поддерживают создание учетных записей хранения и BLOB-объектов при настройке проекта. Кроме того, пользовательский проект теперь поддерживает отправку обучающих файлов непосредственно в студию и копирование существующей пользовательской модели.
Предварительная версия аналитики документов версии 3.0 2022-06-30-preview предоставляет обширные обновления в API компонентов:
- Извлечение элементов структуры расширений макета. Теперь макет включает дополнительные элементы структуры, включая разделы, заголовки разделов и абзацы. Это обновление обеспечивает более точные сценарии сегментации документов. Полный список определенных элементов структуры см. в расширенной структуре.
- Поддержка табличных полей пользовательской нейронной модели. Пользовательские модели документов теперь поддерживают табличные поля. Табличные поля по умолчанию также содержат несколько страниц. Дополнительные сведения о табличных полях в пользовательских нейронных моделях см. в табличных полях.
- Табличные поля пользовательской модели шаблонов поддерживаются для таблиц на разных страницах. Пользовательские модели форм теперь поддерживают табличные поля на разных страницах. Дополнительные сведения о табличных полях в пользовательских моделях шаблонов см. в табличных полях.
- Выходные данные модели счета теперь включают пары ключ — значение документа общего назначения. Если счета содержат обязательные поля, кроме полей, включенных в предварительно созданную модель, модель общих документов дополняет выходные данные парами "ключ-значение". См. пары значений ключей.
- Расширение языков счетов. Модель счета включает расширенную языковую поддержку. См. поддерживаемые языки.
- Предварительно созданная визитная карточка теперь включает поддержку японского языка. См. поддерживаемые языки.
- Предварительно созданная модель документа, удостоверяющего личность. Модель документа, удостоверяющего личность, теперь извлекает свойства DateOfIssue, Height, Weight, EyeColor, HairColor и DocumentDiscriminator из водительских удостоверений США. См. извлечение полей.
- Модель чтения теперь поддерживает распространенные типы документов Microsoft Office. Типы документов, такие как Word (docx), Excel (xlsx) и PowerPoint (pptx), теперь поддерживаются в API чтения. См. статью "Чтение извлечения данных".
2022 февраля
Версия 4.0.0 — бета-версия 3 (2022-02-10)
Предварительная версия аналитики документов версии 3.0 содержит несколько новых функций, возможностей и улучшений:
- Пользовательская нейронная модель или пользовательская модель документов — это новая пользовательская модель для извлечения текстовых и выделенных меток из структурированных форм, полуструктурированных и неструктурированных документов.
- Предварительно созданная модель W-2 — это новая предварительно созданная модель для извлечения полей из форм W-2 для налоговой отчетности и сценариев проверки доходов.
- API чтения извлекает напечатанные строки текста, слова, расположения текстов, обнаруженные языки и рукописный текст при обнаружении.
- Общая предварительно обученная модель документа теперь обновляется для поддержки меток выделения в дополнение к тексту, таблицам, таблицам, структурам и парам "ключ-значение" из форм и документов.
- API счета Предварительно созданная модель накладных расширяет поддержку испанских счетов.
- Document Intelligence Studio добавляет новые демонстрации для read, W2, Hotel receipt samples и поддержку обучения новых пользовательских нейронных моделей.
- Средства чтения, макета и пользовательской формы расширения языка поддерживают 42 новых языков, включая арабский, хинди и другие языки с помощью скриптов арабских и devanagari для расширения охвата до 164 языков. Поддержка рукописного текста теперь включает японский и корейский языки.
Начало работы с новым API предварительной версии 3.0.
Извлечение данных модели аналитики документов:
Модель Извлечение текста Пары "ключ-значение" Метки выделения Таблицы Сигнатуры Читать ✓ Документ общего назначения ✓ ✓ ✓ ✓ Макет ✓ ✓ ✓ Счет ✓ ✓ ✓ ✓ Получение ✓ ✓ ✓ Удостоверение ✓ ✓ Визитная карточка ✓ ✓ Пользовательский шаблон ✓ ✓ ✓ ✓ ✓ Настраиваемая нейронная модель ✓ ✓ ✓ ✓ Бета-версия пакета SDK для Аналитики документов включает следующие обновления:
Пользовательские модели документов и режимы:
- Пользовательский шаблон (ранее настраиваемая форма).
- Настраиваемая нейронная модель.
- Настраиваемая модель — режим сборки.
Предварительно созданная модель W-2 (prebuilt-tax.us.w2).
Предварительно созданная модель для чтения (prebuilt-read).
Предварительно созданная модель для счетов (испанский) (prebuilt-invoice).
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.