Свойства метаданных содержимого, используемые в поиске ИИ Azure
Несколько поддерживаемых индексатором источников данных, включая Хранилище BLOB-объектов Azure, Azure Data Lake Storage 2-го поколения и SharePoint, содержат автономные файлы или внедренные объекты различных типов контента. Многие из этих типов контента имеют свойства метаданных, которые могут быть полезны для индексирования. Так же, как можно создать поля поиска для стандартных свойств metadata_storage_name
BLOB-объектов, можно создать поля в индексе поиска для свойств метаданных, относящихся к формату документа.
Поддерживаемые форматы документов
Поиск ИИ Azure поддерживает индексирование БОЛЬШИХ двоичных объектов и индексирование документов SharePoint для следующих форматов документов:
- CSV (см. раздел индексирование больших двоичных объектов CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (см. индексирование BLOB-объектов JSON);
- KML (XML для географических представлений)
- Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
- Форматы открытых документов: ODT, ODS, ODP
- обычные текстовые файлы (см. также индексирование обычного текста);
- RTF
- XML
- ZIP
Свойства формата документа
В следующей таблице приведены сведения об обработке для каждого формата документа и описываются свойства метаданных, извлеченные индексатором BLOB-объектов и индексатором SharePoint Online.
Формат документа или тип содержимого | Извлекаемые метаданные | Сведения об обработке |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Извлечение текста ПРИМЕЧАНИЕ. Если требуется извлечь несколько полей документа из БОЛЬШОго двоичного объекта CSV, см. раздел "Индекс CSV-BLOB-объектов" |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Извлечение текста, включая внедренные документы |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Извлечение текста, включая внедренные документы |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Извлечение текста, включая внедренные документы |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Извлечение текста, включая вложения |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Извлечение текста из всех документов в архиве |
GZ (application/gzip) | metadata_content_type |
Извлечение текста из всех документов в архиве |
HTML (text/html или application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Полоса HTML-элементов и извлечение текста |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Извлечение текста ПРИМЕЧАНИЕ. Если необходимо извлечь несколько полей документа из БОЛЬШОго двоичного объекта JSON, см. раздел "Индекс JSON BLOB-объектов" |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Полоса XML-элементов и извлечение текста |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Извлечение текста, включая текст из вложений. metadata_message_to_email , metadata_message_cc_email и metadata_message_bcc_email являются коллекциями строк. Остальные поля — строки. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Извлечение текста, включая внедренные документы |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Извлечение текста, включая внедренные документы |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Извлечение текста, включая внедренные документы |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Извлечение текста, включая внедренные документы (кроме изображений) |
Обычный текст (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Извлечение текста |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Извлечение текста, включая внедренные документы |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Извлечение текста, включая внедренные документы |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Извлечение текста, включая внедренные документы |
RTF (приложение или RTF) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Извлечение текста |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Полоса XML-элементов и извлечение текста |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Полоса XML-элементов и извлечение текста |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Извлечение текста, включая внедренные документы |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Извлечение текста, включая внедренные документы |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Извлечение текста, включая внедренные документы |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Полоса XML-элементов и извлечение текста |
ZIP (application/zip) | metadata_content_type |
Извлечение текста из всех документов в архиве |