Partilhar via


Propriedades de metadados de conteúdo usadas na Pesquisa de IA do Azure

Várias fontes de dados com suporte de indexador, incluindo o Armazenamento de Blobs do Azure, o Azure Data Lake Storage Gen2 e o SharePoint, contêm arquivos autônomos ou objetos incorporados de vários tipos de conteúdo. Muitos desses tipos de conteúdo têm propriedades de metadados que podem ser úteis para indexação. Assim como você pode criar campos de pesquisa para propriedades de blob padrão como metadata_storage_name, você pode criar campos em um índice de pesquisa para propriedades de metadados que são específicas para um formato de documento.

Formatos de documento suportados

O Azure AI Search dá suporte à indexação de blob e à indexação de documentos do SharePoint para os seguintes formatos de documento:

  • CSV (consulte Indexação de blobs CSV)
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON (consulte Indexação de blobs JSON)
  • KML (XML para representações geográficas)
  • Formatos do Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mails do Outlook), XML (XML WORD de 2003 e 2006)
  • Formatos de documentos abertos: ODT, ODS, ODP
  • PDF
  • Arquivos de texto sem formatação (consulte também Indexação de texto sem formatação)
  • RTF
  • XML
  • CEP

Propriedades do formato do documento

A tabela a seguir resume o processamento para cada formato de documento e descreve as propriedades de metadados extraídas por um indexador de blob e o indexador do SharePoint Online.

Formato do documento / tipo de conteúdo Metadados extraídos Detalhes de processamento
CSV (texto/csv) metadata_content_type
metadata_content_encoding
Extrair texto
NOTA: Se você precisar extrair vários campos de documento de um blob CSV, consulte Indexar blobs CSV
DOC (aplicação/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto, incluindo documentos incorporados
DOCM (aplicativo/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto, incluindo documentos incorporados
DOCX (aplicativo/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto, incluindo documentos incorporados
EML (mensagem/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extrair texto, incluindo anexos
EPUB (aplicação/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extrair texto de todos os documentos no arquivo
GZ (aplicação/gzip) metadata_content_type Extrair texto de todos os documentos no arquivo
HTML (texto/html ou aplicação/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Remover elementos HTML e extrair texto
JSON (aplicativo/json) metadata_content_type
metadata_content_encoding
Extrair texto
NOTA: Se você precisar extrair vários campos de documento de um blob JSON, consulte Indexar blobs JSON
KML (aplicativo/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Remover elementos XML e extrair texto
MSG (aplicativo/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extraia texto, incluindo texto extraído de anexos. metadata_message_to_email, metadata_message_cc_emaile metadata_message_bcc_email são coleções de cadeias de caracteres. O resto dos campos são strings.
ODP (aplicativo/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extrair texto, incluindo documentos incorporados
ODS (aplicativo/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrair texto, incluindo documentos incorporados
ODT (aplicativo/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto, incluindo documentos incorporados
PDF (aplicação/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extrair texto, incluindo documentos incorporados (excluindo imagens)
Texto simples (texto/simples) metadata_content_type
metadata_content_encoding
metadata_language
Extrair texto
PPT (aplicativo/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrair texto, incluindo documentos incorporados
PPTM (aplicativo/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrair texto, incluindo documentos incorporados
PPTX (aplicativo/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrair texto, incluindo documentos incorporados
RTF (aplicação/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrair texto
XML do WORD 2003 (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Remover elementos XML e extrair texto
XML do WORD (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Remover elementos XML e extrair texto
XLS (aplicativo/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrair texto, incluindo documentos incorporados
XLSM (aplicativo/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrair texto, incluindo documentos incorporados
XLSX (aplicativo/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrair texto, incluindo documentos incorporados
XML (aplicativo/xml) metadata_content_type
metadata_content_encoding
metadata_language
Remover elementos XML e extrair texto
ZIP (aplicação/zip) metadata_content_type Extrair texto de todos os documentos no arquivo