你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI 搜索中使用的内容元数据属性

多个支持索引器的数据源(包括 Azure Blob 存储、Azure Data Lake Storage Gen2 和 SharePoint)包含各种内容类型的独立文件或嵌入对象。 其中许多内容类型都具有可用于索引的元数据属性。 正如可以为标准 blob 属性(如 metadata_storage_name)创建搜索字段一样,也可以在搜索索引中为特定于文档格式的元数据属性创建字段。

支持的文档格式

Azure AI 搜索支持以下文档格式的 blob 索引和 SharePoint 文档索引:

  • CSV(请参阅为 CSV Blob 编制索引
  • EML
  • EPUB
  • GZ
  • HTML
  • JSON(请参阅为 JSON blob 编制索引
  • KML(用于地理表示形式的 XML)
  • Microsoft Office 格式:DOCX/DOC/DOCM、XLSX/XLS/XLSM、PPTX/PPT/PPTM、MSG(Outlook 电子邮件)、XML(2003 和 2006 Word XML)
  • 公开文档格式:ODT、ODS、ODP
  • PDF
  • 纯文本文件(另请参阅为纯文本编制索引
  • RTF
  • XML
  • ZIP

文档格式属性

下表汇总了每种文档格式的处理,还说明了 Blob 索引器和 SharePoint Online 索引器提取的元数据属性。

文档格式/内容类型 提取的元数据 处理详细信息
CSV (text/csv) metadata_content_type
metadata_content_encoding
提取文本
注意:如果需要从 CSV Blob 提取多个文档字段,请参阅为 CSV Blob 编制索引
DOC (application/msword) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
提取文本,包括嵌入的文档
DOCM(应用程序/vnd.ms-word.document.macroenabled.12) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
提取文本,包括嵌入的文档
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
提取文本,包括嵌入的文档
EML (message/rfc822) metadata_content_type
metadata_message_from
metadata_message_to
metadata_message_cc
metadata_creation_date
metadata_subject
提取文本,包括附件
EPUB(应用程序/epub+zip) metadata_content_type
metadata_author
metadata_creation_date
metadata_title
metadata_description
metadata_language
metadata_keywords
metadata_identifier
metadata_publisher
从存档中的所有文档提取文本
GZ(应用程序/gzip) metadata_content_type 从存档中的所有文档提取文本
HTML(text/html 或 application/xhtml+xml) metadata_content_encoding
metadata_content_type
metadata_language
metadata_description
metadata_keywords
metadata_title
剥离 HTML 元素并提取文本
JSON (application/json) metadata_content_type
metadata_content_encoding
提取文本
注意:如果需要从 JSON Blob 提取多个文档字段,请参阅为 JSON Blob 编制索引
KML (application/vnd.google-earth.kml+xml) metadata_content_type
metadata_content_encoding
metadata_language
剥离 XML 元素并提取文本
MSG (application/vnd.ms-outlook) metadata_content_type
metadata_message_from
metadata_message_from_email
metadata_message_to
metadata_message_to_email
metadata_message_cc
metadata_message_cc_email
metadata_message_bcc
metadata_message_bcc_email
metadata_creation_date
metadata_last_modified
metadata_subject
提取文本,包括从附件中提取的文本。 metadata_message_to_emailmetadata_message_cc_emailmetadata_message_bcc_email 是字符串集合。 其余字段是字符串。
ODP(应用程序/vnd.oasis.opendocument.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_title
提取文本,包括嵌入的文档
ODS(应用程序/vnd.oasis.opendocument.spreadsheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
提取文本,包括嵌入的文档
ODT(应用程序/vnd.oasis.opendocument.text) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
提取文本,包括嵌入的文档
PDF(应用程序/pdf) metadata_content_type
metadata_language
metadata_author
metadata_title
metadata_creation_date
提取文本,包括嵌入的文档(不包括图像)
纯文本 (text/plain) metadata_content_type
metadata_content_encoding
metadata_language
提取文本
PPT (application/vnd.ms-powerpoint) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
提取文本,包括嵌入的文档
PPTM(应用程序/vnd.ms-powerpoint.presentation.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
提取文本,包括嵌入的文档
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
metadata_slide_count
metadata_title
提取文本,包括嵌入的文档
RTF(应用程序/rtf) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
提取文本
WORD 2003 XML(应用程序/vnd.ms-wordml) metadata_content_type
metadata_author
metadata_creation_date
剥离 XML 元素并提取文本
WORD XML(应用程序/vnd.ms-word2006ml) metadata_content_type
metadata_author
metadata_character_count
metadata_creation_date
metadata_last_modified
metadata_page_count
metadata_word_count
剥离 XML 元素并提取文本
XLS (application/vnd.ms-excel) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
提取文本,包括嵌入的文档
XLSM(应用程序/vnd.ms-excel.sheet.macroenabled.12) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
提取文本,包括嵌入的文档
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) metadata_content_type
metadata_author
metadata_creation_date
metadata_last_modified
提取文本,包括嵌入的文档
XML (application/xml) metadata_content_type
metadata_content_encoding
metadata_language
剥离 XML 元素并提取文本
ZIP (application/zip) metadata_content_type 从存档中的所有文档提取文本