Indexování objektů blob a souborů ve formátu prostého textu ve službě Azure AI Search
Platí pro: Indexery objektů blob, indexery souborů
Při použití indexeru k extrakci prohledávatelného textu objektu blob nebo obsahu souboru pro fulltextové vyhledávání můžete přiřadit režim analýzy, abyste získali lepší výsledky indexování. Ve výchozím nastavení indexer parsuje vlastnost objektu blob content
jako jeden blok textu. Pokud ale všechny objekty blob a soubory obsahují prostý text ve stejném kódování, můžete výrazně zlepšit výkon indexování pomocí text
režimu analýzy.
Mezi doporučení pro text
analýzu patří některé z následujících charakteristik:
- Typ souboru je
.txt
- Soubory jsou libovolného typu, ale samotný obsah je text (například zdrojový kód programu, HTML, XML atd.). U souborů v jazyce revizí se znaky syntaxe přecházejí jako statický text.
Vzpomeňte si, že všechny indexery serializují do formátu JSON. Ve výchozím nastavení je obsah celého textového souboru indexován v rámci jednoho velkého pole jako "content": "<file-contents>"
. Nové řádky a návratové instrukce jsou vloženy do pole obsahu a vyjádřeny jako \r\n\
.
Pokud chcete podrobnější nebo podrobnější výsledek a pokud je typ souboru kompatibilní, zvažte následující řešení:
delimitedText
režim analýzy, pokud je zdrojem CSVjsonArray
nebojsonLines
, pokud je zdrojem JSON
Alternativní třetí možnost rozdělení obsahu do více částí vyžaduje pokročilé funkce ve formě rozšiřování AI. Přidává analýzu, která identifikuje a přiřadí bloky souboru k různým vyhledávacím polím. Úplné nebo částečné řešení můžete najít prostřednictvím integrovaných dovedností , jako je rozpoznávání entit nebo extrakce klíčových slov, ale pravděpodobnějším řešením může být vlastní výukový model, který rozumí vašemu obsahu zabaleným do vlastní dovednosti.
Nastavení indexování ve formátu prostého textu
Pokud chcete indexovat objekty blob ve formátu prostého textu, vytvořte nebo aktualizujte definici indexeru parsingMode
s vlastností konfigurace nastavenou text
na požadavek Create Indexer :
PUT https://[service name].search.windows.net/indexers/[indexer name]?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text" } }
}
Ve výchozím nastavení UTF-8
se předpokládá kódování. Pokud chcete zadat jiné kódování, použijte encoding
vlastnost konfigurace. Podporovaný seznam kódování je ve sloupci podpory .NET 5 a novější.
{
... other parts of indexer definition
"parameters" : { "configuration" : { "parsingMode" : "text", "encoding" : "iso-8859-1" } }
}
Příklad požadavku
Režimy analýzy se zadají v definici indexeru.
POST https://[service name].search.windows.net/indexers?api-version=2024-07-01
Content-Type: application/json
api-key: [admin key]
{
"name" : "my-plaintext-indexer",
"dataSourceName" : "my-blob-datasource",
"targetIndexName" : "my-target-index",
"parameters" : { "configuration" : { "parsingMode" : "delimitedText", "delimitedTextHeaders" : "id,datePublished,tags" } }
}