Модель визитной карточки аналитики документов
Внимание
Начиная с Document Intelligence версии 4.0 (предварительная версия) и идя вперед, модель визитной карточки (предварительно созданная бизнес-карта) устарела. Чтобы извлечь данные из форматов визитных карточек, используйте следующее:
Функция | версия | Model ID |
---|---|---|
Модель визитных карточек | • v3.1:2023-07-31 (GA)• v3.0:2022-08-31 (GA) • версии 2.1 (GA) |
prebuilt-businessCard |
Это содержимое относится к: версии 3.1 (GA) | Предыдущие версии: версии 3.0 версии 2.1
Это содержимое относится к: версия 3.0 (GA) | Последние версии: v4.0 (предварительная версия) версии 3.1 | Предыдущая версия: версия 2.1
[! INCLUDE [относится к версии 2.1].. /(includes/applies-to-v21.md)]
Модель бизнес-карты аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из образов визитных карточек. API анализирует печатные визитные карточки; извлекает ключевые сведения, такие как имя, фамилия, имя компании, адрес электронной почты и номер телефона; и возвращает структурированное представление данных JSON.
Извлечение данных визитной карточки
Визитные карточки — отличный способ представить бизнес или профессионала. Логотип компании, шрифты и фоновые изображения, найденные в визитных карточках, помогают повысить фирменную символику компании и отличить его от других. Применение методов OCR и машинного обучения для автоматизации сканирования визитных карточек — это распространенный сценарий обработки изображений. Корпоративные системы, используемые группами продаж и маркетинга, обычно имеют возможность извлечения данных визитной карточки в пользу своих пользователей.
Пример визитной карточки, обработанной с помощью Document Intelligence Studio
Пример бизнес-процессов, обработанный с помощью средства аналитики документов
Варианты разработки
Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модель визитных карточек | • Document Intelligence Studio • REST API • Пакет SDK для C# • Пакет SDK для Python • Пакет SDK для Java • Пакет SDK для JavaScript |
prebuilt-businessCard |
Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы | Model ID |
---|---|---|
Модель визитных карточек | • Document Intelligence Studio • REST API • Пакет SDK для C# • Пакет SDK для Python • Пакет SDK для Java • Пакет SDK для JavaScript |
prebuilt-businessCard |
Аналитика документов версии 2.1 (GA) поддерживает следующие средства, приложения и библиотеки:
Функция | Ресурсы |
---|---|
Модель визитных карточек | • Средство маркировки аналитики документов • REST API • Пакет SDK для клиентской библиотеки • Контейнер Docker аналитики документов |
Попробуйте извлечь данные визитной карточки
Узнайте, как данные, включая имя, название задания, адрес, электронную почту и название компании, извлекаются из визитных карточек. Вам потребуются следующие ресурсы:
Подписка Azure — создайте бесплатную учетную запись
Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (
F0
), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.
Document Intelligence Studio
Примечание.
Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.
На домашней странице Document Intelligence Studio выберите визитные карточки.
Вы можете проанализировать образец визитной карточки или отправить собственные файлы.
Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:
Средство разработки меток аналитики документов
Перейдите к инструменту аналитики документов.
На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .
Выберите тип формы для анализа из раскрывающегося меню.
Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:
В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.
В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.
В поле ключа вставьте ключ, полученный из ресурса аналитики документов.
Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.
Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.
Примечание.
Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.
Требования к входным данным
Поддерживаемые форматы файлов:
Модель PDF Изображение: JPEG/JPG
, ,BMP
PNG
TIFF
HEIF
Microsoft Office:
Word (), Excel (XLSX
DOCX
), PowerPoint (PPTX
), HTMLЧитать ✔ ✔ ✔ Макет ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview, 2023-10-31-preview) Документ общего назначения ✔ ✔ Готовое ✔ ✔ Настраиваемая функция извлечения ✔ ✔ Настраиваемая классификация ✔ ✔ ✔ (2024-07-31-preview, 2024-02-29-preview) Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.
Для PDF и TIFF можно обрабатывать до 2000 страниц (с подпиской на бесплатный уровень только первые две страницы обрабатываются).
Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и
4
МБ для бесплатного уровня (F0).Размеры изображения должны составлять от 50 пикселей до 50 пикселей и 10 000 пикселей x 10 000 пикселей.
Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.
Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту
8
точки в 150 точек на дюйм (DPI).Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.
Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и
1
ГБ для нейронной модели.Для обучения пользовательской модели классификации общий размер обучающих данных составляет
1
ГБ не более 10 000 страниц. Для 2024-07-31-preview и более поздних версий общий размер обучающих данных составляет2
ГБ с максимальным количеством 10 000 страниц.
- Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF
- Pdf и TIFF обрабатываются до 2000 страниц. Для подписчиков уровня "Бесплатный" обрабатываются только две первые страницы.
- Размер файла должен быть меньше 50 МБ и размер по крайней мере 50 x 50 пикселей и не более 10 000 x 10 000 пикселей.
Поддерживаемые языки и языковые стандарты
Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.
Извлечение полей
Сведения о поддерживаемых полях извлечения документов см. на странице схемы модели визитных карточек в нашем примере репозитория GitHub.
Извлеченные поля
Имя. | Тип | Описание | Текст |
---|---|---|---|
ContactNames | массив объектов | Имя контакта, извлеченное из визитной карточки | [{ "FirstName": "John" "LastName", : "Doe" }] |
FirstName | строка | Имя контакта | "John" |
LastName | строка | Фамилия контакта | "Doe" |
CompanyNames | массив строк | Название компании, извлеченное из визитной карточки | ["Contoso"] |
Отделы | массив строк | Отдел или организация контакта | ["R&D"] |
JobTitles | массив строк | Должность контакта | ["Software Engineer"] |
Сообщения электронной почты | массив строк | Контактная электронная почта, извлеченная из визитной карточки | ["johndoe@contoso.com"] |
Веб-сайты | массив строк | Веб-сайт извлеченный из визитной карточки | ["https://www.contoso.com"] |
Адреса | массив строк | Адрес, извлеченный из визитной карточки | ["123 Main Street, Редмонд, Вашингтон 98052"] |
MobilePhones | Массив номеров телефонов | Номер мобильного телефона, извлеченный из визитной карточки | ["+19876543210"] |
Факсы | Массив номеров телефонов | Номер телефона факса, извлеченный из визитной карточки | ["+19876543211"] |
WorkPhones | Массив номеров телефонов | Номер служебного телефона, извлеченный из визитной карточки | ["+19876543231"] |
OtherPhones | Массив номеров телефонов | Другой номер телефона, извлеченный с визитной карточки | ["+19876543233"] |
Поддерживаемые языковые стандарты
Предварительно созданные визитные карточки версии 2.1 поддерживают следующие языковые стандарты:
- en-us
- en-au
- en-ca
- en-gb
- en-in
Руководство по миграции и REST API версии 3.1
- Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.
Следующие шаги
Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.
Попробуйте обработать собственные формы и документы с помощью средства разработки примеров меток для анализа документов
Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.