Sdílet prostřednictvím


Sledování obsluhovaných modelů pomocí inferenčních tabulek a brány AI

Důležitý

Tato funkce je ve verzi Public Preview.

Důležitý

Tento článek popisuje témata, která se týkají tabulek odvozování externích modelů, úloh zřízené propustnosti nebo modelů agentů. Pro vlastní modely se podívejte na tabulky odvozování pro monitorování a ladění modelů.

Tento článek popisuje tabulky odvozování s podporou brány AI pro monitorování obsluhovaných modelů. Tabulka odvozování automaticky zaznamenává příchozí požadavky a odchozí odpovědi pro koncový bod a protokoluje je jako tabulku Unity Catalog Delta. Pomocí dat v této tabulce můžete monitorovat, vyhodnocovat, porovnávat a vyladit modely strojového učení.

Co jsou tabulky odvozovacích tabulek s podporou brány AI?

Tabulky pro odvozování podporované bránou AI zjednodušují monitorování a diagnostiku modelů tím, že průběžně zaznamenávají vstupy a odpovědi požadavků (předpovědi) z koncových bodů obsluhy modelů Mosaic AI a ukládají je do tabulky Delta v katalogu Unity. Pak můžete použít všechny možnosti platformy Databricks, jako jsou dotazy a poznámkové bloky SQL Databricks, k monitorování, ladění a optimalizaci modelů.

Tabulky odvozování můžete povolit u existujícího nebo nově vytvořeného modelu obsluhující koncový bod a požadavky na tento koncový bod se pak automaticky zaprotokolují do tabulky v katalogu Unity.

Mezi běžné aplikace pro odvozování tabulek patří:

  • Vytvořte trénovací korpus. Spojením tabulek odvozování s popisky základní pravdy můžete vytvořit trénovací korpus, který můžete použít k přetrénování nebo vyladění a vylepšení modelu. Pomocí úloh Databricks můžete nastavit nepřetržitou smyčku zpětné vazby a automatizovat opakované trénování.
  • Monitorování kvality dat a modelu Pomocí monitorování Lakehouse můžete průběžně monitorovat výkon modelu a odchylky dat. Monitorování Lakehouse automaticky generuje řídicí panely kvality dat a modelů, které můžete sdílet se zúčastněnými stranami. Kromě toho můžete upozornění povolit, abyste věděli, kdy potřebujete model přetrénovat na základě posunů v příchozích datech nebo snížení výkonu modelu.
  • Odstraňování chyb v produkci Záznamy inferenčních tabulek obsahují data jako stavové kódy HTTP, kód JSON požadavku a odpovědi, doby spuštění modelu a výstupy trasování během běhu modelu. Tato data o výkonu můžete použít pro účely ladění. K porovnání výkonu modelu u historických požadavků můžete použít také historická data v tabulkách odvozování.

Požadavky

Varování

Tabulka odvozování může zastavit protokolování dat nebo se poškodit, pokud uděláte některou z následujících věcí:

  • Změňte schéma tabulky.
  • Změňte název tabulky.
  • Odstraňte tabulku.
  • Ztratí oprávnění k přístupu ke katalogu nebo schématu Unity Catalogu.

Povolení a zakázání odvozovacích tabulek

V této části se dozvíte, jak povolit nebo zakázat tabulky odvozování pomocí uživatelského rozhraní obsluhy. Vlastníkem tabulek odvozování je uživatel, který koncový bod vytvořil. Všechny seznamy řízení přístupu (ACL) v tabulce se řídí standardními oprávněními katalogu Unity a může je upravit vlastník tabulky.

K povolení odvozovacích tabulek během vytváření koncového bodu použijte následující postup:

  1. V uživatelském rozhraní Databricks Mosaic AI klikněte na Sloužící.
  2. Klikněte na Vytvořit obslužný koncový bod.
  3. V části AI Gateway vyberte Povolit tabulky pro inferenci.

U existujícího koncového bodu můžete také povolit odvozovací tabulky. Pokud chcete upravit existující konfiguraci koncového bodu, postupujte takto:

  1. V části Brána AI klikněte na Upravit bránu AI.
  2. Vyberte Povolit odvozovací tabulky.

Podle těchto pokynů zakažte odvozovací tabulky:

  1. Přejděte na stránku koncového bodu.
  2. Klikněte na Upravit bránu AI.
  3. Klikněte na Povolit odvozovací tabulku a zrušte zaškrtnutí.
  4. Jakmile budete spokojeni se specifikacemi služby AI Gateway, klikněte na Aktualizovat.

Dotazování a analýza výsledků v tabulce odvozování

Jakmile budou vaše obsluhované modely připravené, všechny požadavky provedené na vašich modelech se automaticky zaprotokolují do tabulky odvozování spolu s odpověďmi. Tabulku můžete zobrazit v uživatelském rozhraní, dotazovat se na tabulku z Databricks SQL nebo poznámkového bloku nebo dotazovat tabulku pomocí rozhraní REST API.

Zobrazení tabulky v uživatelském rozhraní: Na stránce koncového bodu kliknutím na název tabulky odvozování otevřete tabulku v Průzkumníku katalogu.

odkaz na název tabulky odvození na stránce koncového bodu

Dotazování na tabulku z Databricks SQL nebo poznámkového bloku Databricks: Můžete spustit kód podobný následujícímu dotazu na tabulku odvozování.

SELECT * FROM <catalog>.<schema>.<payload_table>

** Chcete-li spojit data odvozovací tabulky s podrobnostmi o základním modelu obsluhovaném na koncovém bodu:** Podrobnosti základního modelu se zaznamenávají v systémové tabulce system.serving.served_entities.

SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id

schéma odvozovací tabulky s podporou brány AI

Tabulky odvození povolené pomocí služby AI Gateway mají následující schéma:

Název sloupce Popis Typ
request_date Datum UTC, kdy byl přijat požadavek na obslužný model. DATUM
databricks_request_id Identifikátor požadavku vygenerovaný službou Azure Databricks připojený ke všem žádostem obsluhující model ŘETĚZEC
request_time Časové razítko, kdy je požadavek přijat. ČASOVÁ ZNAČKA
status_code Stavový kód HTTP vrácený z modelu. INT
sampling_fraction Podíl vzorkování použitý v případě, že byl požadavek snížen vzorkováním. Tato hodnota je mezi 0 a 1, kde 1 představuje, že bylo zahrnuto 100% příchozích požadavků. DVOJITÝ
execution_duration_ms Doba v milisekundách, pro kterou model provedl odvozování. Toto nezahrnuje dodatečné latence sítě a představuje pouze čas, který modelu zabralo generování předpovědí. BIGINT
request Nezpracovaný text JSON požadavku, který byl odeslán do koncového bodu obsluhy modelu. ŘETĚZEC
response Surové tělo JSON odpovědi, které vrátil koncový bod obsluhující model. ŘETĚZEC
served_entity_id Jedinečné ID obsluhované entity. ŘETĚZEC
logging_error_codes Chyby, ke kterým došlo, když se nepodařilo zaprotokolovat data. Kódy chyb zahrnují MAX_REQUEST_SIZE_EXCEEDED a MAX_RESPONSE_SIZE_EXCEEDED. POLE
requester ID uživatele nebo služebního principála, jehož oprávnění se používají k vyvolání žádosti u koncového bodu služby. ŘETĚZEC

Omezení

  • Úlohy s garantovanou propustností

    • Pokud vytvoříte nový model obsluhující koncový bod, který používá zřízenou propustnost, podporují se pouze tabulky odvozování s podporou brány AI.
    • Pokud máte existující koncový bod obsluhující model, který používá zřízenou propustnost, a nikdy nenakonfigurovaly tabulky odvození dříve, můžete ho aktualizovat tak, aby používaly tabulky odvozování s podporou brány AI.
    • Pokud máte existující model obsluhující koncový bod, který používá zřízenou propustnost, a má tabulky odvozování aktuálně nebo dříve nakonfigurované, můžete ho aktualizovat tak, aby používaly tabulky odvozování s podporou brány AI.
    • Pro logy odpovědí agenta AI během streamování se agregují pouze pole a trasování kompatibilní s ChatCompletion.
  • Doručování protokolů odvozování tabulek je v současné době co nejlepší, ale můžete očekávat, že protokoly budou dostupné do 1 hodiny od požadavku. Další informace získáte od týmu účtu Databricks.

  • Maximální velikost požadavku a odpovědi, které se protokolují, je 1 MiB (1 048 576 bajtů). Datové části požadavků a odpovědí, které tuto hodnotu překračují, jsou zaznamenány v protokolu jako null a logging_error_codes jsou naplněny MAX_REQUEST_SIZE_EXCEEDED nebo MAX_RESPONSE_SIZE_EXCEEDED.

Informace o omezeních specifických pro AI Gateway najdete v tématu Omezení. Obecná omezení služby koncového bodu pro model najdete v tématu Omezení a oblasti poskytování modelu.