Monitorování nasazených modelů s využitím inference prostřednictvím AI Gateway tables
Důležitý
Tato funkce je ve verzi Public Preview.
Důležitý
Tento článek popisuje témata, která se týkají odvozování tables pro externí modely nebo úlohy zřízené propustnosti. Informace o vlastních modelech
Tento článek popisuje vyhodnocení tables pomocí brány AI pro monitorování obsluhovaných modelů. Odvozování table automaticky zaznamenává příchozí požadavky a odchozí odpovědi pro koncový bod a protokoluje je jako Unity Catalog Delta table. Data v této table můžete použít k monitorování, vyhodnocování, porovnávání a vyladění modelů strojového učení.
Co jsou tablesodvozováním brány AI?
Využití AI brány tables pro inferenční výpočty zjednodušuje monitorování a diagnostiku pro modely kontinuálním zaznamenáváním vstupů požadavků a odpovědí (předpovědí) z koncových bodů modelové služby Mosaic AI a jejich ukládáním do Delta table v Unity Catalog. Pak můžete použít veškeré možnosti platformy Databricks, jako jsou SQL dotazy Databricks a poznámkové bloky, k monitorování, ladění a optimize vašich modelů.
Můžete povolit odvozování tables u existujícího nebo nově vytvořeného modelu obsluhující koncový bod a požadavky na tento koncový bod se pak automaticky zaprotokolují do table v Unity Catalog.
Mezi běžné aplikace pro odvozování tables patří:
- Vytvořte trénovací korpus. Spojením odvozování tables s popisky základní pravdy můžete vytvořit trénovací korpus, který můžete použít k přetrénování nebo vyladění a vylepšení modelu. Pomocí úloh Databricks můžete set vytvořit nepřetržitou smyčku zpětné vazby a automatizovat opakovaný trénink.
- Monitorování kvality dat a modelu Pomocí monitorování Lakehouse můžete průběžně monitorovat výkon modelu a odchylky dat. Monitorování Lakehouse automaticky generuje řídicí panely kvality dat a modelů, které můžete sdílet se zúčastněnými stranami. Kromě toho můžete upozornění povolit, abyste věděli, kdy potřebujete model přetrénovat na základě posunů v příchozích datech nebo snížení výkonu modelu.
- Odstraňování chyb v produkci Odvozování tables dat protokolu, jako jsou stavové kódy HTTP, kód JSON požadavku a odpovědi, doby spuštění modelu a trasování výstupu během doby běhu modelu. Tato data o výkonu můžete použít pro účely ladění. Historická data můžete také použít k odvozování tables k porovnání výkonu modelu u historických požadavků.
Požadavky
tables inference s podporou AI Gateway je podporováno pouze pro koncové body, které používají řízený výkon nebo obsluhují externí modely.
Pracovní prostor Databricks buď v:
Pro pracovní prostory, které mají nakonfigurováno soukromé připojení na účtu úložiště Unity Catalog, postupujte podle kroků v části Konfigurace soukromého připojení u bezserverových výpočtů.
Databricks doporučuje, abyste aktivovali prediktivní optimalizaci pro optimalizovaný výkon inference tables.
Váš pracovní prostor musí mít povolen Unity Catalog.
Autor koncového bodu i modifikátor musí mít Může spravovat oprávnění ke koncovému bodu. Viz seznamy řízení přístupu.
Tvůrce koncového bodu i modifikátoru musí mít následující oprávnění v Unity Catalog:
-
USE CATALOG
oprávnění k zadanému catalog. -
USE SCHEMA
oprávnění k zadanému schema. -
CREATE TABLE
oprávnění v schema.
-
Varování
Odvození table může zastavit protokolování dat nebo se poškodit, pokud provedete některý z následujících úkonů:
- Změňte tableschema.
- Změňte název table.
- Odstraňte table.
- Ztratí oprávnění k Unity Catalog,catalog nebo schema.
Povolení a zakázání odvozování tables
V této části se dozvíte, jak povolit nebo zakázat odvozování tables pomocí uživatelského rozhraní obsluhy. Vlastníkem odvozování tables je uživatel, který koncový bod vytvořil. Všechny seznamy řízení přístupu (ACL) na table se řídí standardními oprávněními Catalog Unity a mohou být upraveny vlastníkem table.
Pokud chcete povolit odvození tables během vytváření koncového bodu, postupujte následovně:
- V uživatelském rozhraní Databricks Mosaic AI klikněte na Sloužící.
- Klikněte na Vytvořit obslužný koncový bod.
- V části Brána AI selectPovolit odvození tables.
Na existujícím koncovém bodu můžete také povolit inference tables. Pokud chcete upravit existující konfiguraci koncového bodu, postupujte takto:
- V části Brána AI klikněte na Upravit bránu AI.
- Select Povolit odvození tables.
Podle těchto pokynů zakažte inferenci tables:
- Přejděte na stránku koncového bodu.
- Klikněte na Upravit bránu AI.
- Klikněte na Povolit inferenci table, abyste zaškrtli políčko remove.
- Jakmile budete spokojeni se specifikacemi služby AI Gateway, klikněte na Update.
Dotazování a analýza výsledků v odvozování table.
Jakmile budou vaše obsluhované modely připravené, všechny požadavky provedené k vašim modelům se automaticky zaprotokolují do inference systému tablespolu s odpověďmi. Můžete zobrazit table v uživatelském rozhraní, dotazovat table z Databricks SQL nebo poznámkového bloku nebo dotazovat table pomocí rozhraní REST API.
Zobrazení table v uživatelském rozhraní: Na stránce koncového bodu kliknutím na název table odvozování otevřete table v průzkumníku Catalog.
Pro provedení dotazu na table z Databricks SQL nebo poznámkového bloku Databricks: Můžete spustit kód podobný následujícímu, který dotazuje inference table.
SELECT * FROM <catalog>.<schema>.<payload_table>
** Pro join vaše inferenční table data s podrobnostmi o podkladovém základním modelu obsluhovaném na koncovém bodu:** Podrobnosti o základním modelu se zaznamenávají v systému system.serving.served_entitiestable.
SELECT * FROM <catalog>.<schema>.<payload_table> payload
JOIN system.serving.served_entities se on payload.served_entity_id = se.served_entity_id
table schema AI gateway pro usuzování
tables inference povolené pomocí služby AI Gateway má následující schema:
Column název | Popis | Typ |
---|---|---|
request_date |
Datum UTC, kdy byl přijat požadavek na obslužný model. | DATUM |
databricks_request_id |
Vygenerovaný požadavek identifier od Azure Databricks je připojen ke všem žádostem na obsluhu modelu. | ŘETĚZEC |
request_time |
Časové razítko, kdy je požadavek přijat. | ČASOVÁ ZNAČKA |
status_code |
Stavový kód HTTP vrácený z modelu. | INT |
sampling_fraction |
Podíl vzorkování použitý v případě, že byl požadavek snížen vzorkováním. Tato hodnota je mezi 0 a 1, where 1 představuje, že bylo zahrnuto 100% příchozích požadavků. | DVOJITÝ |
execution_duration_ms |
Doba v milisekundách, pro kterou model provedl odvozování. Nezahrnuje režijní latence sítě a představuje pouze dobu, kterou model potřeboval k generate predikcím. | BIGINT |
request |
Nezpracovaný text JSON požadavku, který byl odeslán do koncového bodu obsluhy modelu. | ŘETĚZEC |
response |
Surové tělo JSON odpovědi, které vrátil koncový bod obsluhující model. | ŘETĚZEC |
served_entity_id |
Jedinečné ID obsluhované entity. | ŘETĚZEC |
logging_error_codes |
Chyby, ke kterým došlo, když se nepodařilo zaprotokolovat data. Kódy chyb zahrnují MAX_REQUEST_SIZE_EXCEEDED a MAX_RESPONSE_SIZE_EXCEEDED . |
POLE |
requester |
ID uživatele nebo služebního principála, jehož oprávnění se používají k vyvolání žádosti u koncového bodu služby. | ŘETĚZEC |
Omezení
Úlohy s garantovanou propustností
- Pokud vytvoříte nový model sloužící jako koncový bod, který používá zajištěnou propustnost, podporována je pouze inference s podporou AI Gateway tables.
- Pokud máte existující koncový bod obsluhující model, který používá zřízenou propustnost, a nikdy neměl tables dříve nakonfigurované, můžete ho update použít tablesodvozování s podporou brány AI .
- Pokud máte existující koncový bod obsluhující model, který používá zřízenou propustnost, a má tables aktuálně nebo dříve nakonfigurovaný, můžete houpdate použít tablesodvozování s podporou brány AI .
Zpracování odvození tables je momentálně na bázi nejlepšího úsilí, ale můžete očekávat, že protokoly budou dostupné během 1 hodiny po odeslání žádosti. Další informace získáte od týmu účtu Databricks.
Maximální velikost požadavku a odpovědi, které se protokolují, je 1 MiB (1 048 576 bajtů). Datové části požadavků a odpovědí, které tuto hodnotu překračují, jsou zaznamenány v protokolu jako
null
alogging_error_codes
jsou naplněnyMAX_REQUEST_SIZE_EXCEEDED
neboMAX_RESPONSE_SIZE_EXCEEDED
.
Informace o omezeních specifických pro AI Gateway najdete v tématu Omezení. Obecná omezení služby koncového bodu pro model najdete v tématu Omezení a oblasti poskytování modelu.