Właściwości metadanych zawartości używane w usłudze Azure AI Search
Kilka źródeł danych obsługiwanych przez indeksator, w tym usług Azure Blob Storage, Azure Data Lake Storage Gen2 i SharePoint, zawiera pliki autonomiczne lub obiekty osadzone różnych typów zawartości. Wiele z tych typów zawartości ma właściwości metadanych, które mogą być przydatne do indeksowania. Podobnie jak w przypadku tworzenia pól wyszukiwania dla standardowych właściwości obiektów blob, takich jak metadata_storage_name
, można tworzyć pola w indeksie wyszukiwania dla właściwości metadanych specyficznych dla formatu dokumentu.
Obsługiwane formaty dokumentów
Usługa Azure AI Search obsługuje indeksowanie obiektów blob i indeksowanie dokumentów programu SharePoint dla następujących formatów dokumentów:
- CSV (zobacz Indeksowanie obiektów blob CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (zobacz Indeksowanie obiektów blob JSON)
- KML (XML dla reprezentacji geograficznych)
- Formaty pakietu Microsoft Office: DOCX/DOC/DOCM, XLSX/XLS/XLSM, PPTX/PPT/PPTM, MSG (wiadomości e-mail programu Outlook), XML (zarówno 2003, jak i 2006 WORD XML)
- Otwieranie formatów dokumentów: ODT, ODS, ODP
- Pliki zwykłego tekstu (zobacz też Indeksowanie zwykłego tekstu)
- RTF
- Plik XML
- ZIP
Właściwości formatu dokumentu
W poniższej tabeli przedstawiono podsumowanie przetwarzania dla każdego formatu dokumentu i opisano właściwości metadanych wyodrębnione przez indeksator obiektów blob i indeksator usługi SharePoint Online.
Format dokumentu/typ zawartości | Wyodrębnione metadane | Przetwarzanie szczegółów |
---|---|---|
CSV (tekst/csv) | metadata_content_type metadata_content_encoding |
Wyodrębnij tekst UWAGA: Jeśli chcesz wyodrębnić wiele pól dokumentów z obiektu blob CSV, zobacz Indeksowanie obiektów blob CSV |
DOC (application/msword) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
DOCM (application/vnd.ms-word.document.macroenabled.12) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
DOCX (application/vnd.openxmlformats-officedocument.wordprocessingml.document) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
EML (komunikat/rfc822) | metadata_content_type metadata_message_from metadata_message_to metadata_message_cc metadata_creation_date metadata_subject |
Wyodrębnianie tekstu, w tym załączników |
EPUB (application/epub+zip) | metadata_content_type metadata_author metadata_creation_date metadata_title metadata_description metadata_language metadata_keywords metadata_identifier metadata_publisher |
Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum |
GZ (application/gzip) | metadata_content_type |
Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum |
HTML (tekst/html lub aplikacja/xhtml+xml) | metadata_content_encoding metadata_content_type metadata_language metadata_description metadata_keywords metadata_title |
Usuwanie elementów HTML i wyodrębnianie tekstu |
JSON (application/json) | metadata_content_type metadata_content_encoding |
Wyodrębnij tekst UWAGA: Jeśli chcesz wyodrębnić wiele pól dokumentu z obiektu blob JSON, zobacz Indeksowanie obiektów blob JSON |
KML (application/vnd.google-earth.kml+xml) | metadata_content_type metadata_content_encoding metadata_language |
Usuwanie elementów XML i wyodrębnianie tekstu |
MSG (application/vnd.ms-outlook) | metadata_content_type metadata_message_from metadata_message_from_email metadata_message_to metadata_message_to_email metadata_message_cc metadata_message_cc_email metadata_message_bcc metadata_message_bcc_email metadata_creation_date metadata_last_modified metadata_subject |
Wyodrębnij tekst, w tym tekst wyodrębniony z załączników. metadata_message_to_email , metadata_message_cc_email i metadata_message_bcc_email to kolekcje ciągów. Pozostałe pola to ciągi. |
ODP (application/vnd.oasis.opendocument.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_title |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
ODS (application/vnd.oasis.opendocument.spreadsheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
ODT (application/vnd.oasis.opendocument.text) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
PDF (application/pdf) | metadata_content_type metadata_language metadata_author metadata_title metadata_creation_date |
Wyodrębnianie tekstu, w tym dokumentów osadzonych (z wyłączeniem obrazów) |
Zwykły tekst (tekst/zwykły) | metadata_content_type metadata_content_encoding metadata_language |
Wyodrębnij tekst |
PPT (application/vnd.ms-powerpoint) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
PPTM (application/vnd.ms-powerpoint.presentation.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
PPTX (application/vnd.openxmlformats-officedocument.presentationml.presentation) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified metadata_slide_count metadata_title |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
RTF (application/rtf) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Wyodrębnij tekst |
WORD 2003 XML (application/vnd.ms-wordml) | metadata_content_type metadata_author metadata_creation_date |
Usuwanie elementów XML i wyodrębnianie tekstu |
WORD XML (application/vnd.ms-word2006ml) | metadata_content_type metadata_author metadata_character_count metadata_creation_date metadata_last_modified metadata_page_count metadata_word_count |
Usuwanie elementów XML i wyodrębnianie tekstu |
XLS (application/vnd.ms-excel) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
XLSM (application/vnd.ms-excel.sheet.macroenabled.12) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
XLSX (application/vnd.openxmlformats-officedocument.spreadsheetml.sheet) | metadata_content_type metadata_author metadata_creation_date metadata_last_modified |
Wyodrębnianie tekstu, w tym dokumentów osadzonych |
XML (aplikacja/xml) | metadata_content_type metadata_content_encoding metadata_language |
Usuwanie elementów XML i wyodrębnianie tekstu |
ZIP (aplikacja/zip) | metadata_content_type |
Wyodrębnianie tekstu ze wszystkich dokumentów w archiwum |