Metadateneigenschaften von Inhalten, die in Azure KI Search verwendet werden
Mehrere Indexer-unterstützte Datenquellen, einschließlich Azure Blob Storage, Azure Data Lake Storage Gen2 und SharePoint, enthalten eigenständige Dateien oder eingebettete Objekte verschiedener Inhaltstypen. Viele dieser Inhaltstypen verfügen über Metadateneigenschaften, die für die Indizierung nützlich sein können. So wie Sie Suchfelder für standardmäßige Blobeigenschaften wie metadata_storage_name
erstellen können, lassen sich in einem Suchindex auch Felder für Metadateneigenschaften erstellen, die für ein Dokumentformat spezifisch sind.
Unterstützte Dokumentformate
Azure KI Search unterstützt die Blobindizierung und die SharePoint-Dokumentindizierung für die folgenden Dokumentformate:
- CSV (siehe Indizierung von CSV-Blobs)
- EML
- EPUB
- GZ
- HTML
- JSON (Siehe Indizierung von JSON-Blobs)
- KML (XML für geografische Darstellungen)
- Microsoft Office-Formate: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (Outlook-E-Mails), XML (WORD XML 2003 und 2006)
- Öffnen von Dokumentformaten: ODT, ODS, ODP
- Textdateien (Siehe auch Indizierung von Nur-Text)
- RTF
- XML
- ZIP
Dokumentformateigenschaften
In der folgenden Tabelle ist die Verarbeitung für jedes Dokumentformat zusammengefasst, und es werden die Metadateneigenschaften beschrieben, die von einem Blobindexer und dem SharePoint Online-Indexer extrahiert werden.
Dokumentformat/Inhaltstyp | Extrahierte Metadaten | Verarbeitungsdetails |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Extrahieren von Text HINWEIS: Wenn Sie mehrere Dokumentfelder aus einem CSV-Blob extrahieren müssen, lesen Sie Indexieren von CSV-Blobs |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahieren von Text, z. B. eingebettete Dokumente |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahieren von Text, z. B. eingebettete Dokumente |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahieren von Text, z. B. eingebettete Dokumente |
EML (message/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extrahieren von Text, einschließlich Anlagen |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extrahieren von Text aus allen Dokumenten im Archiv |
GZ (application/gzip) | metadata_content_type |
Extrahieren von Text aus allen Dokumenten im Archiv |
HTML (text/html oder application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Entfernen von HTML-Elementen und Extrahieren von Text |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extrahieren von Text HINWEIS: Wenn Sie mehrere Dokumentfelder aus einem JSON-Blob extrahieren müssen, lesen Sie Indexieren von JSON-Blobs |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Entfernen von XML-Elementen und Extrahieren von Text |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extrahieren von Text (einschließlich aus Anlagen extrahierter Text). metadata_message_to_email , metadata_message_cc_email und metadata_message_bcc_email sind Zeichenfolgesammlungen. Die restlichen Felder sind Zeichenfolgen. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extrahieren von Text, z. B. eingebettete Dokumente |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahieren von Text, z. B. eingebettete Dokumente |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahieren von Text, z. B. eingebettete Dokumente |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extrahieren von Text, z. B. eingebettete Dokumente (mit Ausnahme von Bildern) |
Nur-Text (text/plain) | metadata_content_type metadata_content_encoding metadata_language |
Extrahieren von Text |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahieren von Text, z. B. eingebettete Dokumente |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahieren von Text, z. B. eingebettete Dokumente |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahieren von Text, z. B. eingebettete Dokumente |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahieren von Text |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Entfernen von XML-Elementen und Extrahieren von Text |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Entfernen von XML-Elementen und Extrahieren von Text |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahieren von Text, z. B. eingebettete Dokumente |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahieren von Text, z. B. eingebettete Dokumente |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahieren von Text, z. B. eingebettete Dokumente |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Entfernen von XML-Elementen und Extrahieren von Text |
ZIP (application/zip) | metadata_content_type |
Extrahieren von Text aus allen Dokumenten im Archiv |