Propriedades de metadados de conteúdo usadas na Pesquisa de IA do Azure
Várias fontes de dados com suporte de indexador, incluindo o Armazenamento de Blobs do Azure, o Azure Data Lake Storage Gen2 e o SharePoint, contêm arquivos autônomos ou objetos incorporados de vários tipos de conteúdo. Muitos desses tipos de conteúdo têm propriedades de metadados que podem ser úteis para indexação. Assim como você pode criar campos de pesquisa para propriedades de blob padrão como metadata_storage_name
, você pode criar campos em um índice de pesquisa para propriedades de metadados que são específicas para um formato de documento.
Formatos de documento suportados
O Azure AI Search dá suporte à indexação de blob e à indexação de documentos do SharePoint para os seguintes formatos de documento:
- CSV (consulte Indexação de blobs CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (consulte Indexação de blobs JSON)
- KML (XML para representações geográficas)
- Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mails do Outlook), XML (XML WORD de 2003 e 2006)
- Formatos de documentos abertos: ODT, ODS, ODP
- Arquivos de texto sem formatação (consulte também Indexação de texto sem formatação)
- RTF
- XML
- CEP
Propriedades do formato do documento
A tabela a seguir resume o processamento para cada formato de documento e descreve as propriedades de metadados extraídas por um indexador de blob e o indexador do SharePoint Online.
Formato do documento / tipo de conteúdo | Metadados extraídos | Detalhes de processamento |
---|---|---|
CSV (texto/csv) | metadata_content_type metadata_content_encoding |
Extrair texto NOTA: Se você precisar extrair vários campos de documento de um blob CSV, consulte Indexar blobs CSV |
DOC (aplicação/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto, incluindo documentos incorporados |
DOCM (aplicativo/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto, incluindo documentos incorporados |
DOCX (aplicativo/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto, incluindo documentos incorporados |
EML (mensagem/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extrair texto, incluindo anexos |
EPUB (aplicação/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extrair texto de todos os documentos no arquivo |
GZ (aplicação/gzip) | metadata_content_type |
Extrair texto de todos os documentos no arquivo |
HTML (texto/html ou aplicação/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Remover elementos HTML e extrair texto |
JSON (aplicativo/json) | metadata_content_type metadata_content_encoding |
Extrair texto NOTA: Se você precisar extrair vários campos de documento de um blob JSON, consulte Indexar blobs JSON |
KML (aplicativo/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Remover elementos XML e extrair texto |
MSG (aplicativo/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extraia texto, incluindo texto extraído de anexos. metadata_message_to_email , metadata_message_cc_email e metadata_message_bcc_email são coleções de cadeias de caracteres. O resto dos campos são strings. |
ODP (aplicativo/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extrair texto, incluindo documentos incorporados |
ODS (aplicativo/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrair texto, incluindo documentos incorporados |
ODT (aplicativo/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto, incluindo documentos incorporados |
PDF (aplicação/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extrair texto, incluindo documentos incorporados (excluindo imagens) |
Texto simples (texto/simples) | metadata_content_type metadata_content_encoding metadata_language |
Extrair texto |
PPT (aplicativo/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrair texto, incluindo documentos incorporados |
PPTM (aplicativo/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrair texto, incluindo documentos incorporados |
PPTX (aplicativo/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrair texto, incluindo documentos incorporados |
RTF (aplicação/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrair texto |
XML do WORD 2003 (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Remover elementos XML e extrair texto |
XML do WORD (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Remover elementos XML e extrair texto |
XLS (aplicativo/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrair texto, incluindo documentos incorporados |
XLSM (aplicativo/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrair texto, incluindo documentos incorporados |
XLSX (aplicativo/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrair texto, incluindo documentos incorporados |
XML (aplicativo/xml) | metadata_content_type metadata_content_encoding metadata_language |
Remover elementos XML e extrair texto |
ZIP (aplicação/zip) | metadata_content_type |
Extrair texto de todos os documentos no arquivo |