Dela via


Egenskaper för innehållsmetadata som används i Azure AI Search

Flera datakällor som stöds av indexeraren, inklusive Azure Blob Storage, Azure Data Lake Storage Gen2 och SharePoint, innehåller fristående filer eller inbäddade objekt av olika innehållstyper. Många av dessa innehållstyper har metadataegenskaper som kan vara användbara för indexering. Precis som du kan skapa sökfält för standardblobegenskaper som metadata_storage_name, kan du skapa fält i ett sökindex för metadataegenskaper som är specifika för ett dokumentformat.

Dokumentformat som stöds

Azure AI Search stöder blobindexering och SharePoint-dokumentindexering för följande dokumentformat:

Egenskaper för dokumentformat

I följande tabell sammanfattas bearbetningen för varje dokumentformat och metadataegenskaperna som extraheras av en blobindexerare och SharePoint Online-indexeraren.

Dokumentformat/innehållstyp Extraherade metadata Bearbetningsinformation
CSV (text/csv) metadata_content_type
metadata_content_encoding
Extrahera text
Obs! Om du behöver extrahera flera dokumentfält från en CSV-blob läser du Index-CSV-blobar
DOC (program/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahera text, inklusive inbäddade dokument
DOCM (application/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahera text, inklusive inbäddade dokument
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahera text, inklusive inbäddade dokument
EML (meddelande/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
Extrahera text, inklusive bifogade filer
EPUB (program/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
Extrahera text från alla dokument i arkivet
GZ (program/gzip) metadata_content_type Extrahera text från alla dokument i arkivet
HTML (text/html eller application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
Ta bort HTML-element och extrahera text
JSON (application/json) metadata_content_type
metadata_content_encoding
Extrahera text
Obs! Om du behöver extrahera flera dokumentfält från en JSON-blob läser du Index-JSON-blobar
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
Ta bort XML-element och extrahera text
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
Extrahera text, inklusive text som extraherats från bifogade filer. metadata_message_to_email, metadata_message_cc_emailoch metadata_message_bcc_email är strängsamlingar. Resten av fälten är strängar.
ODP (application/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
Extrahera text, inklusive inbäddade dokument
ODS (application/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahera text, inklusive inbäddade dokument
ODT (application/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahera text, inklusive inbäddade dokument
PDF (program/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
Extrahera text, inklusive inbäddade dokument (exklusive bilder)
Oformaterad text (text/oformaterad) metadata_content_type
metadata_content_encoding
metadata_language
Extrahera text
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahera text, inklusive inbäddade dokument
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahera text, inklusive inbäddade dokument
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
Extrahera text, inklusive inbäddade dokument
RTF (program/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Extrahera text
WORD 2003 XML (application/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
Ta bort XML-element och extrahera text
WORD XML (application/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
Ta bort XML-element och extrahera text
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahera text, inklusive inbäddade dokument
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahera text, inklusive inbäddade dokument
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
Extrahera text, inklusive inbäddade dokument
XML (program/xml) metadata_content_type
metadata_content_encoding
metadata_language
Ta bort XML-element och extrahera text
ZIP (program/zip) metadata_content_type Extrahera text från alla dokument i arkivet