Spouštění nebo resetování indexerů, dovedností nebo dokumentů

Článek
12/19/2024

Ve službě Azure AI Search existuje několik způsobů, jak spustit indexer:

Spusťte okamžitě po vytvoření indexeru za předpokladu, že se nevytvořil v režimu zakázáno.
Spuštění podle plánu za účelem vyvolání provádění v pravidelných intervalech.
Spusťte na vyžádání s resetováním nebo bez nich.

Tento článek vysvětluje, jak spouštět indexery na vyžádání s resetováním a bez nich. Popisuje také provádění indexeru, dobu trvání a souběžnost.

Jak se indexery připojují k prostředkům Azure

Indexery jsou jedním z několika subsystémů, které provádějí přesáhlá odchozí volání jiných prostředků Azure. Z hlediska rolí Azure nemají indexery samostatné identity: připojení z vyhledávacího webu k jinému prostředku Azure se provádí pomocí spravované identity přiřazené systémem nebo uživatelem přiřazenou spravovanou identitou vyhledávací služby. Pokud se indexer připojí k prostředku Azure ve virtuální síti, měli byste pro toto připojení vytvořit sdílené privátní propojení . Další informace o zabezpečených připojeních najdete v tématu Zabezpečení ve službě Azure AI Search.

Spuštění indexeru

Vyhledávací služba spouští jednu úlohu indexeru na jednotku vyhledávání. Každá vyhledávací služba začíná jednou jednotkou vyhledávání, ale každý nový oddíl nebo replika zvyšuje jednotky vyhledávání vaší služby. Počet jednotek vyhledávání můžete zkontrolovat v části Základy webu Azure Portal na stránce Přehled . Pokud potřebujete souběžné zpracování, ujistěte se, že vaše jednotky vyhledávání obsahují dostatečné repliky. Indexery se nespouštějí na pozadí, takže pokud je služba pod tlakem, můžete zjistit větší omezování dotazů než obvykle.

Následující snímek obrazovky ukazuje počet jednotek hledání, které určují, kolik indexerů může běžet najednou.

Po spuštění indexeru ho nemůžete pozastavit ani zastavit. Provádění indexeru se zastaví, pokud nejsou k dispozici žádné další dokumenty k načtení nebo aktualizaci, nebo při dosažení maximálního časového limitu.

Můžete spustit více indexerů najednou za předpokladu, že je dostatečná kapacita, ale každý samotný indexer je jedna instance. Spuštění nové instance, zatímco indexer je již spuštěn, způsobí tuto chybu: "Failed to run indexer "<indexer name>" error: "Another indexer invocation is currently in progress; concurrent invocations are not allowed."

Spouštěcí prostředí indexeru

Úloha indexeru se spouští ve spravovaném spouštěcím prostředí. V současné době existují dvě prostředí:

Prostředí privátního spouštění běží na vyhledávacích clusterech, které jsou specifické pro vaši vyhledávací službu. Pokud je vaše vyhledávací služba Standard2 nebo vyšší, můžete nastavit executionEnvironment parametr v definici indexeru tak, aby vždy spustil indexer v privátním spouštěcím prostředí.
Víceklientských prostředí má procesory obsahu, které spravuje a zabezpečuje Microsoft bez dalších poplatků. Toto prostředí se používá k přesměrování výpočetního zpracování náročného na zpracování a ponechání prostředků specifických pro službu k dispozici pro rutinní operace. Kdykoli je to možné, většina sad dovedností se spustí v prostředí s více tenanty. Tato možnost je výchozí.

Výpočetní zpracování se týká sad dovedností běžících na procesorech obsahu a úlohách indexeru, které zpracovávají velký objem dokumentů nebo dokumentů velké velikosti. Zpracování sad dovedností na víceklientských procesorech obsahu je určeno hueristics a systémovými informacemi a není pod kontrolou zákazníků. Služby S2 a vyšší podporují připnutí indexeru a zpracování sady dovedností výhradně do vyhledávacích clusterů prostřednictvím parametru executionEnvironment .

Poznámka:

Brány firewall protokolu IP blokují víceklientských prostředí, takže pokud máte bránu firewall, vytvořte pravidlo, které umožňuje víceklientských zpracování.

Omezení indexeru se pro každé prostředí liší:

Úloha	Maximální doba trvání	Maximální počet úloh	Spouštěcí prostředí
Privátní spuštění	24 hodin	Jedna úloha indexeru na jednotku^{vyhledávání 1}.	Indexování se nespustí na pozadí. Místo toho vyhledávací služba vyrovnává všechny úlohy indexování proti probíhajícím dotazům a akcím správy objektů (například vytváření nebo aktualizace indexů). Při spouštění indexerů byste měli očekávat, že pokud jsou svazky indexování velké, měli byste očekávat latenci dotazů.
Více tenantů	2 hodiny ²	Neurčitá ³	Vzhledem k tomu, že cluster pro zpracování obsahu je víceklientní, přidávají se procesory obsahu, aby splňovaly poptávku. Pokud dojde ke zpoždění při spuštění na vyžádání nebo plánovaném spuštění, důvodem je pravděpodobně to, že systém buď přidává procesory, nebo čeká na to, až bude k dispozici.

¹ Vyhledávací jednotky mohou být flexibilní kombinace oddílů a replik, ale úlohy indexeru nejsou svázané s jedním nebo druhým. Jinými slovy, pokud máte 12 jednotek, můžete mít 12 úloh indexeru spuštěných souběžně v privátním spuštění bez ohledu na to, jak se jednotky vyhledávání nasazují.

² Pokud jsou ke zpracování všech dat potřeba více než dvě hodiny, povolte detekci změn a naplánujte, aby indexer běžel v 5minutových intervalech, aby se indexování rychle obnovilo, pokud se zastaví kvůli vypršení časového limitu. Další strategie najdete v tématu Indexování velké datové sady .

³ "Neurčitá" znamená, že limit není kvantifikován počtem úloh. Některé úlohy, jako je zpracování sady dovedností, se můžou spouštět paralelně, což může vést k mnoha úlohám, i když je zapojen pouze jeden indexer. I když prostředí neukládá omezení, platí omezení indexeru pro vaši vyhledávací službu.

Spustit bez resetování

Operace Spuštění indexeru rozpozná a zpracuje pouze to, co je nutné k synchronizaci indexu vyhledávání se změnami v podkladovém zdroji dat. Přírůstkové indexování začíná vyhledáním interní horní meze pro vyhledání naposledy aktualizovaného vyhledávacího dokumentu, který se stane výchozím bodem pro provádění indexeru v nových a aktualizovaných dokumentech ve zdroji dat.

Detekce změn je nezbytná pro určení toho, co je nového nebo aktualizováno ve zdroji dat. Indexery používají možnosti detekce změn podkladového zdroje dat k určení toho, co je nového nebo aktualizováno ve zdroji dat.

Azure Storage má integrovanou detekci změn prostřednictvím vlastnosti LastModified.
Aby indexer mohl číst nové a aktualizované řádky, musí být nakonfigurované jiné zdroje dat, jako je Azure SQL nebo Azure Cosmos DB.

Pokud se podkladový obsah nezmění, operace spuštění nemá žádný vliv. V tomto případě bude historie provádění indexeru indikovat 0\0 zpracovávané dokumenty.

Indexer bude potřeba resetovat, jak je vysvětleno v další části, aby se znovu zpracoval v plném rozsahu.

Resetování indexerů

Po počátečním spuštění indexer sleduje, které vyhledávací dokumenty byly indexovány prostřednictvím interní horní meze. Značka se nikdy nezoznačí, ale indexer interně ví, kde byla naposledy zastavena.

Pokud potřebujete znovu sestavit celý index nebo jeho část, můžete vymazat horní mez indexeru resetováním. Rozhraní API pro resetování jsou dostupná na nižších úrovních v hierarchii objektů:

Resetování indexerů vymaže horní mez a provede úplné přeindexování všech dokumentů.
Resetování dokumentů (Preview) přeindexuje určitý dokument nebo seznam dokumentů.
Resetování dovedností (Preview) vyvolá zpracování dovedností pro určitou dovednost.

Po resetování postupujte podle příkazu Spustit a znovu zpracujte nové a existující dokumenty. Osamocené dokumenty hledání, které nemají žádný protějšk ve zdroji dat, není možné odebrat prostřednictvím resetování nebo spuštění. Pokud potřebujete odstranit dokumenty, přečtěte si místo toho téma Dokumenty – Index .

Jak resetovat a spouštět indexery

Obnoví horní mez. Všechny dokumenty v indexu vyhledávání se označí příznakem pro úplné přepsání bez vložených aktualizací nebo sloučení do existujícího obsahu. Pro indexery se sadou dovedností a ukládáním do mezipaměti pro rozšiřování se resetování indexu také implicitně resetuje.

Skutečná práce nastane, když provedete resetování pomocí příkazu Spustit:

Všechny nové dokumenty nalezené v podkladovém zdroji se přidají do indexu vyhledávání.
Všechny dokumenty, které existují ve zdroji dat i v indexu vyhledávání, se přepíšou v indexu vyhledávání.
Veškerý obohacený obsah vytvořený ze sad dovedností se znovu sestaví. Mezipaměť rozšiřování, pokud je povolená, se aktualizuje.

Jak už jsme si poznamenali, resetování je pasivní operace: Je nutné zpracovat požadavek Spustit a znovu sestavit index.

Operace resetování/spuštění se vztahují na index vyhledávání nebo úložiště znalostí, na konkrétní dokumenty nebo projekce a na rozšiřování v mezipaměti, pokud resetování explicitně nebo implicitně zahrnuje dovednosti.

Resetování platí také pro operace vytváření a aktualizace. Neaktivuje odstranění nebo vyčistí osamocené dokumenty v indexu vyhledávání. Další informace o odstraňování dokumentů naleznete v tématu Dokumenty – Index.

Po resetování indexeru nemůžete akci vrátit zpět.

Přihlaste se k webu Azure Portal a otevřete stránku vyhledávací služby.
Na stránce Přehled vyberte kartu Indexery.
Vyberte indexer.
Vyberte příkaz Obnovit a akci potvrďte výběrem možnosti Ano.
Aktualizujte stránku, aby se zobrazil stav. Položku můžete vybrat a zobrazit její podrobnosti.
Vyberte Spustit , chcete-li spustit zpracování indexeru, nebo počkejte na další plánované spuštění.

Následující příklad ukazuje resetování indexeru a spuštění volání REST indexeru. Ke kontrole výsledků použijte funkci Získat stav indexeru.

Žádné z těchto volání neobsahují žádné parametry ani vlastnosti.

POST /indexers/[indexer name]/reset?api-version=[api-version]

POST /indexers/[indexer name]/run?api-version=[api-version]

GET /indexers/[indexer name]/status?api-version=[api-version]

Následující příklad (z azure-search-dotnet-samples/multiple-data-sources/) znázorňuje metody ResetIndexers a RunIndexers v sadě Azure .NET SDK.

// Reset the indexer if it already exists
try
{
    await indexerClient.GetIndexerAsync(blobIndexer.Name);
    //Rest the indexer if it exsits.
    await indexerClient.ResetIndexerAsync(blobIndexer.Name);
}
catch (RequestFailedException ex) when (ex.Status == 404) { }

await indexerClient.CreateOrUpdateIndexerAsync(blobIndexer);

// Run indexer
Console.WriteLine("Running Blob Storage indexer...\n");

try
{
    await indexerClient.RunIndexerAsync(blobIndexer.Name);
}
catch (RequestFailedException ex) when (ex.Status == 429)
{
    Console.WriteLine("Failed to run indexer: {0}", ex.Message);
}

Resetování dovedností (Preview)

U indexerů, které mají sady dovedností, můžete resetovat jednotlivé dovednosti a vynutit zpracování pouze této dovednosti a všech podřízených dovedností, které závisí na jeho výstupu. Mezipaměť rozšiřování, pokud jste ji povolili, se také aktualizuje.

Resetovat dovednosti je momentálně jenom REST, k dispozici až do verze 2020–06–30 preview nebo novější. Doporučujeme nejnovější rozhraní API ve verzi Preview.

POST /skillsets/[skillset name]/resetskills?api-version=2024-05-01-preview
{
    "skillNames" : [
        "#1",
        "#5",
        "#6"
    ]
}

Můžete určit jednotlivé dovednosti, jak je uvedeno v předchozím příkladu, ale pokud některá z těchto dovedností vyžaduje výstup z nezasílaných dovedností (#2 až #4), spustí se nesečtené dovednosti, pokud mezipaměť nemůže poskytnout potřebné informace. Aby to bylo pravda, nesmí mít rozšíření v mezipaměti pro dovednosti č. 2 až #4 závislost na #1 (uvedené pro resetování).

Pokud nejsou zadány žádné dovednosti, spustí se celá sada dovedností a pokud je povolená ukládání do mezipaměti, mezipaměť se také aktualizuje.

Nezapomeňte zpracovat spuštění indexeru a vyvolat skutečné zpracování.

Resetování dokumentace (Preview)

Indexery – Reset docs přijímá seznam klíčů dokumentů, abyste mohli aktualizovat konkrétní dokumenty. Pokud je zadáno, parametry resetování se stanou jediným determinantem toho, co se zpracuje, bez ohledu na jiné změny v podkladových datech. Pokud se například od posledního spuštění indexeru přidalo nebo aktualizovalo 20 objektů blob, ale resetujete jenom jeden dokument, zpracuje se jenom tento dokument.

Na základě jednotlivých dokumentů se všechna pole v daném vyhledávacím dokumentu aktualizují hodnotami ze zdroje dat. Nemůžete vybrat a zvolit, která pole se mají aktualizovat.

Pokud je dokument rozšířen prostřednictvím sady dovedností a obsahuje data uložená v mezipaměti, vyvolá se sada dovedností pouze pro zadané dokumenty a mezipaměť se aktualizuje pro reprocesované dokumenty.

Při prvním testování tohoto rozhraní API vám následující rozhraní API můžou pomoct ověřit a otestovat chování. Můžete použít rozhraní API verze Preview 2020-06-30-preview a novější. Doporučujeme nejnovější rozhraní API ve verzi Preview.

Indexery volání – Získání stavu s verzí rozhraní API ve verzi Preview za účelem kontroly stavu resetování a stavu spuštění Informace o žádosti o resetování najdete na konci odpovědi na stav.
Indexery volání – Resetování docs s verzí preview rozhraní API, abyste určili, které dokumenty se mají zpracovat.
```
POST https://[service name].search.windows.net/indexers/[indexer name]/resetdocs?api-version=2024-05-01-preview
{
    "documentKeys" : [
        "1001",
        "4452"
    ]
}
```
- Klíče dokumentu zadané v požadavku jsou hodnoty z indexu vyhledávání, které se můžou lišit od odpovídajících polí ve zdroji dat. Pokud si nejste jisti hodnotou klíče, odešlete dotaz , který vrátí hodnotu. Můžete použít select k vrácení pouze pole klíče dokumentu.
- Pro objekty blob, které jsou analyzovány do více vyhledávacích dokumentů (kde parsingMode je nastavena na jsonLines nebo jsonArrays nebo delimitedText), klíč dokumentu je generován indexerem a může být pro vás neznámý. V tomto scénáři se dotaz na klíč dokumentu vrátí správnou hodnotu.
Voláním indexeru spuštění (libovolné verze rozhraní API) zpracujete zadané dokumenty. Indexují se jenom tyto konkrétní dokumenty.
Volání spustit indexeru podruhé ke zpracování z poslední horní horní meze.
Voláním prohledat dokumenty můžete vyhledat aktualizované hodnoty a také vrátit klíče dokumentu, pokud si nejste jisti hodnotou. Použijte "select": "<field names>" , pokud chcete omezit, která pole se zobrazí v odpovědi.

Přepsání seznamu klíčů dokumentu

Volání rozhraní API pro resetování dokumentů několikrát s různými klíči připojí nové klíče k seznamu klíčů dokumentů. Volání rozhraní API s parametrem overwrite nastaveným na true přepíše aktuální seznam novým seznamem:

POST https://[service name].search.windows.net/indexers/[indexer name]/resetdocs?api-version=2020-06-30-Preview
{
    "documentKeys" : [
        "200",
        "630"
    ],
    "overwrite": true
}

Kontrola stavu resetování currentState

Pokud chcete zkontrolovat stav resetování a zjistit, které klíče dokumentu se zařadí do fronty ke zpracování, postupujte podle těchto kroků.

Volání získání stavu indexeru pomocí rozhraní API ve verzi Preview

Rozhraní API verze Preview vrátí currentState část, která se nachází na konci odpovědi.

"currentState": {
    "mode": "indexingResetDocs",
    "allDocsInitialTrackingState": "{\"LastFullEnumerationStartTime\":\"2021-02-06T19:02:07.0323764+00:00\",\"LastAttemptedEnumerationStartTime\":\"2021-02-06T19:02:07.0323764+00:00\",\"NameHighWaterMark\":null}",
    "allDocsFinalTrackingState": "{\"LastFullEnumerationStartTime\":\"2021-02-06T19:02:07.0323764+00:00\",\"LastAttemptedEnumerationStartTime\":\"2021-02-06T19:02:07.0323764+00:00\",\"NameHighWaterMark\":null}",
    "resetDocsInitialTrackingState": null,
    "resetDocsFinalTrackingState": null,
    "resetDocumentKeys": [
        "200",
        "630"
    ]
}

Zkontrolujte režim:

V případě resetování dovedností by měl být režim nastavený na indexingAllDocs (protože se to týká potenciálně všech dokumentů, pokud jde o pole naplněná rozšiřováním AI).

V případě resetování dokumentů by měl být režim nastaven na indexingResetDocshodnotu . Indexer si tento stav zachová, dokud se nezpracují všechny klíče dokumentu zadané ve volání dokumentů resetování, během které se během operace nespustí žádné jiné úlohy indexeru. Vyhledání všech dokumentů v seznamu klíčů dokumentů vyžaduje prolomení každého dokumentu, aby se na klíč vyhledaly a odpovídaly, a to může chvíli trvat, pokud je sada dat velká. Pokud kontejner objektů blob obsahuje stovky objektů blob a dokumenty, které chcete resetovat, jsou na konci, indexer nenajde odpovídající objekty blob, dokud se nekontrolují všechny ostatní.
Po opětovném zpracování dokumentů znovu spusťte příkaz Získat stav indexeru. Indexer se vrátí do indexingAllDocs režimu a zpracuje všechny nové nebo aktualizované dokumenty při dalším spuštění.

Další kroky

Rozhraní API pro resetování se používají k informování rozsahu dalšího spuštění indexeru. Pro skutečné zpracování budete muset vyvolat spuštění indexeru na vyžádání nebo povolit naplánované úloze dokončení práce. Po dokončení spuštění se indexer vrátí k normálnímu zpracování bez ohledu na to, jestli je to v plánu nebo zpracování na vyžádání.

Po resetování a opětovném spuštění úloh indexeru můžete monitorovat stav z vyhledávací služby nebo získat podrobné informace prostřednictvím protokolování prostředků.

Sdílet prostřednictvím