Поделиться через


Свойства метаданных содержимого, используемые в поиске ИИ Azure

Несколько поддерживаемых индексатором источников данных, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения и SharePoint, содержат автономные файлы или внедренные объекты различных типов контента. Многие из этих типов контента имеют свойства метаданных, которые могут быть полезны для индексирования. Так же, как можно создать поля поиска для стандартных свойств metadata_storage_nameBLOB-объектов, можно создать поля в индексе поиска для свойств метаданных, относящихся к формату документа.

Поддерживаемые форматы документов

Поиск ИИ Azure поддерживает индексирование БОЛЬШИХ двоичных объектов и индексирование документов SharePoint для следующих форматов документов:

Свойства формата документа

В следующей таблице приведены сведения об обработке для каждого формата документа и описываются свойства метаданных, извлеченные индексатором BLOB-объектов и индексатором SharePoint Online.

Формат документа или тип содержимого Извлекаемые метаданные Сведения об обработке
CSV (text/csv) metadata_content_type
metadata_content_encoding
Извлечение текста
ПРИМЕЧАНИЕ. Если требуется извлечь несколько полей документа из БОЛЬШОго двоичного объекта CSV, см. раздел "Индекс CSV-BLOB-объектов"
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Извлечение текста, включая вложения
EPUB (application/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Извлечение текста из всех документов в архиве
GZ (application/gzip) metadata_content_type Извлечение текста из всех документов в архиве
HTML (text/html или application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Полоса HTML-элементов и извлечение текста
JSON (application/json) metadata_content_type
metadata_content_encoding
Извлечение текста
ПРИМЕЧАНИЕ. Если необходимо извлечь несколько полей документа из БОЛЬШОго двоичного объекта JSON, см. раздел "Индекс JSON BLOB-объектов"
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Полоса XML-элементов и извлечение текста
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Извлечение текста, включая текст из вложений. metadata_message_to_email, metadata_message_cc_emailи metadata_message_bcc_email являются коллекциями строк. Остальные поля — строки.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Извлечение текста, включая внедренные документы
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста, включая внедренные документы
PDF (application/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Извлечение текста, включая внедренные документы (кроме изображений)
Обычный текст (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
Извлечение текста
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Извлечение текста, включая внедренные документы
RTF (приложение или RTF) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Извлечение текста
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Полоса XML-элементов и извлечение текста
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Полоса XML-элементов и извлечение текста
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Извлечение текста, включая внедренные документы
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
Полоса XML-элементов и извлечение текста
ZIP (application/zip) metadata_content_type Извлечение текста из всех документов в архиве