Eigenschappen van metagegevens van inhoud die worden gebruikt in Azure AI Search
Verschillende door indexeerfuncties ondersteunde gegevensbronnen, waaronder Azure Blob Storage, Azure Data Lake Storage Gen2 en SharePoint, bevatten zelfstandige bestanden of ingesloten objecten van verschillende inhoudstypen. Veel van deze inhoudstypen hebben metagegevenseigenschappen die nuttig kunnen zijn om te indexeren. Net zoals u zoekvelden kunt maken voor standaardblobeigenschappen zoals metadata_storage_name
, kunt u velden maken in een zoekindex voor metagegevenseigenschappen die specifiek zijn voor een documentindeling.
Ondersteunde documentindelingen
Azure AI Search biedt ondersteuning voor blobindexering en SharePoint-documentindexering voor de volgende documentindelingen:
- CSV (zie CSV-blobs indexeren)
- EML
- EPUB
- GZ
- HTML
- JSON (zie JSON-blobs indexeren)
- KML (XML voor geografische weergaven)
- Microsoft Office-indelingen: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (e-mailberichten van Outlook), XML (zowel 2003 als 2006 WORD XML)
- Documentindelingen openen: ODT, ODS, ODP
- Tekstbestanden zonder opmaak (zie ook Indexering van tekst zonder opmaak)
- RTF
- XML
- ZIP
Eigenschappen van documentindeling
De volgende tabel bevat een overzicht van de verwerking voor elke documentindeling en beschrijft de metagegevenseigenschappen die zijn geëxtraheerd door een blobindexeerfunctie en de SharePoint Online-indexeerfunctie.
Documentindeling/inhoudstype | Geëxtraheerde metagegevens | Verwerkingsdetails |
---|---|---|
CSV (tekst/csv) | metadata_content_type metadata_content_encoding |
Tekst extraheren OPMERKING: Als u meerdere documentvelden uit een CSV-blob wilt extraheren, raadpleegt u CSV-blobs indexeren |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
EML (bericht/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Tekst extraheren, inclusief bijlagen |
EPUB (toepassing/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Tekst extraheren uit alle documenten in het archief |
GZ (toepassing/gzip) | metadata_content_type |
Tekst extraheren uit alle documenten in het archief |
HTML (tekst/html of toepassing/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
HTML-elementen stripen en tekst extraheren |
JSON (applicatie/json) | metadata_content_type metadata_content_encoding |
Tekst extraheren OPMERKING: Als u meerdere documentvelden uit een JSON-blob wilt extraheren, raadpleegt u JSON-blobs indexeren |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
XML-elementen stripen en tekst extraheren |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extraheer tekst, inclusief tekst die uit bijlagen is geëxtraheerd. metadata_message_to_email , metadata_message_cc_email en metadata_message_bcc_email zijn tekenreeksverzamelingen. De rest van de velden zijn tekenreeksen. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Tekst extraheren, inclusief ingesloten documenten |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Tekst extraheren, inclusief ingesloten documenten |
PDF (toepassing/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Tekst extraheren, inclusief ingesloten documenten (met uitzondering van afbeeldingen) |
Tekst zonder opmaak (tekst/tekst zonder opmaak) | metadata_content_type metadata_content_encoding metadata_language |
Tekst extraheren |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Tekst extraheren, inclusief ingesloten documenten |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Tekst extraheren, inclusief ingesloten documenten |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Tekst extraheren, inclusief ingesloten documenten |
RTF (toepassing/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Tekst extraheren |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
XML-elementen stripen en tekst extraheren |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
XML-elementen stripen en tekst extraheren |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Tekst extraheren, inclusief ingesloten documenten |
XML (toepassing/xml) | metadata_content_type metadata_content_encoding metadata_language |
XML-elementen stripen en tekst extraheren |
ZIP (toepassing/zip) | metadata_content_type |
Tekst extraheren uit alle documenten in het archief |