Vlastnosti metadat obsahu používané ve službě Azure AI Search
Několik zdrojů dat podporovaných indexerem, včetně Azure Blob Storage, Azure Data Lake Storage Gen2 a SharePointu, obsahuje samostatné soubory nebo vložené objekty různých typů obsahu. Mnoho z těchto typů obsahu má vlastnosti metadat, které mohou být užitečné k indexování. Stejně jako můžete vytvořit vyhledávací pole pro standardní vlastnosti objektu blob, jako je metadata_storage_name
, můžete v indexu vyhledávání vytvořit vlastnosti metadat, které jsou specifické pro formát dokumentu.
Podporované formáty dokumentů
Azure AI Search podporuje indexování objektů blob a indexování dokumentů SharePointu pro následující formáty dokumentů:
- CSV (viz indexování objektů blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (viz indexování objektů blob JSON)
- KML (XML pro geografické reprezentace)
- formáty systém Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPTM, MSG (e-maily Outlooku), XML (2003 i 2006 WORD XML)
- Formáty otevřených dokumentů: ODT, ODS, ODP
- Soubory ve formátu prostého textu (viz také indexování prostého textu)
- RTF
- XML
- ZIP
Vlastnosti formátu dokumentu
Následující tabulka shrnuje zpracování pro každý formát dokumentu a popisuje vlastnosti metadat extrahované indexerem objektů blob a indexerem SharePointu Online.
Formát dokumentu / typ obsahu | Extrahovaná metadata | Zpracování podrobností |
---|---|---|
CSV (text/csv) | metadata_content_type metadata_content_encoding |
Extrakce textu POZNÁMKA: Pokud potřebujete extrahovat více polí dokumentu z objektu blob CSV, přečtěte si téma Indexování objektů blob CSV. |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahování textu včetně vložených dokumentů |
DOCM (aplikace/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahování textu včetně vložených dokumentů |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahování textu včetně vložených dokumentů |
EML (zpráva/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Extrahování textu včetně příloh |
EPUB (aplikace/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Extrahování textu ze všech dokumentů v archivu |
GZ (application/gzip) | metadata_content_type |
Extrahování textu ze všech dokumentů v archivu |
HTML (text/html nebo application/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Odstranění elementů HTML a extrakce textu |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Extrakce textu POZNÁMKA: Pokud potřebujete extrahovat více polí dokumentu z objektu blob JSON, přečtěte si téma Indexování objektů blob JSON. |
KML (aplikace/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Odstranění elementů XML a extrakce textu |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Extrahujte text, včetně textu extrahovaného z příloh. metadata_message_to_email , metadata_message_cc_email a metadata_message_bcc_email jsou kolekce řetězců. Zbývající pole jsou řetězce. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Extrahování textu včetně vložených dokumentů |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahování textu včetně vložených dokumentů |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrahování textu včetně vložených dokumentů |
PDF (aplikace/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Extrahování textu včetně vložených dokumentů (s výjimkou obrázků) |
Prostý text (text/prostý) | metadata_content_type metadata_content_encoding metadata_language |
Extrakce textu |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahování textu včetně vložených dokumentů |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahování textu včetně vložených dokumentů |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Extrahování textu včetně vložených dokumentů |
RTF (aplikace/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Extrakce textu |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Odstranění elementů XML a extrakce textu |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Odstranění elementů XML a extrakce textu |
XLS (aplikace/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahování textu včetně vložených dokumentů |
XLSM (aplikace/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahování textu včetně vložených dokumentů |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Extrahování textu včetně vložených dokumentů |
XML (application/xml) | metadata_content_type metadata_content_encoding metadata_language |
Odstranění elementů XML a extrakce textu |
ZIP (aplikace/zip) | metadata_content_type |
Extrahování textu ze všech dokumentů v archivu |