Konfigurace brány AI na model obsluhujících koncové body
V tomto článku se dozvíte, jak nakonfigurovat bránu Mosaic AI gateway na koncovém bodu obsluhující model.
Požadavky
- Pracovní prostor Databricks v oblasti podporované externími modely
- Proveďte kroky 1 a 2 vytvoření externího modelu obsluhujícího koncový bod.
Konfigurace brány AI pomocí uživatelského rozhraní
Tato část ukazuje, jak nakonfigurovat bránu AI během vytváření koncového bodu pomocí uživatelského rozhraní obsluhy.
Pokud to chcete udělat programově, podívejte se na příklad poznámkového bloku.
V části Brána AI na stránce pro vytvoření koncového bodu můžete jednotlivě nakonfigurovat následující funkce brány AI:
Funkce | Jak povolit | Detaily |
---|---|---|
Sledování využití | Výběrem možnosti Povolit sledování využití povolíte sledování a monitorování metrik využití dat. | – Musíte mít povolený katalog Unity. – Správci účtu musí před použitím systémových tabulek povolit schéma obsluhované systémové tabulky: system.serving.endpoint_usage tím se zachytí počty tokenů pro každý požadavek do koncového bodu a system.serving.served_entities uloží metadata pro každý externí model.- Viz schémata tabulek sledování využití – K zobrazení nebo dotazování served_entities tabulky nebo endpoint_usage tabulky mají oprávnění jenom správci účtu, i když uživatel, který spravuje koncový bod, musí povolit sledování využití. Viz Udělení přístupu k systémovým tabulkám.– Počet vstupních a výstupních tokenů se odhaduje jako ( text_length +1)/4, pokud model nevrátí počet tokenů. |
Protokolování datové části | Výběrem možnosti Povolit odvozovací tabulky můžete automaticky protokolovat požadavky a odpovědi z koncového bodu do tabulek Delta spravovaných katalogem Unity. | – V zadaném schématu katalogu musíte mít povolený katalog Unity a CREATE_TABLE přístup.– Tabulky odvozování povolené službou AI Gateway mají jiné schéma než tabulky odvozování vytvořené pro koncové body obsluhující modely, které obsluhují vlastní modely. Viz schéma tabulky odvozovací tabulky s povolenou bránou AI. – Data protokolování datové části naplní tyto tabulky méně než hodinu po dotazování koncového bodu. – Datové části větší než 1 MB se nezaprotokolují. – Datová část odpovědi agreguje odpověď všech vrácených bloků dat. – Streamování se podporuje. Ve scénářích streamování datová část odpovědi agreguje odpověď vrácených bloků dat. |
Mantinely AI | Viz Konfigurace mantinelí AI v uživatelském rozhraní. | - Mantinely brání modelu v interakci s nebezpečným a škodlivým obsahem, který je zjištěn ve vstupech a výstupech modelu. – Výstupní mantinely nejsou podporovány pro modely vkládání ani pro streamování. |
Omezení přenosové rychlosti | Omezení četnosti požadavků můžete vynutit pro správu provozu koncového bodu pro jednotlivé uživatele a koncové body. | – Omezení rychlosti se definují v dotazech za minutu (QPM). – Výchozí hodnota není limit pro jednotlivé uživatele i koncové body. |
Směrování provozu | Pokud chcete nakonfigurovat směrování provozu ve vašem koncovém bodu, přečtěte si téma Obsluha více externích modelů do koncového bodu. |
Konfigurace mantinely AI v uživatelském rozhraní
Následující tabulka ukazuje, jak nakonfigurovat podporované mantinely.
Zábradlí | Jak povolit | Detaily |
---|---|---|
Bezpečnost | Výběrem možnosti Zabezpečení povolíte ochranu, abyste zabránili vašemu modelu v interakci s nebezpečným a škodlivým obsahem. | |
Detekce identifikovatelných osobních údajů (PII) | Výběrem detekce PII detekujte data PII, jako jsou jména, adresy, čísla platebních karet. | |
Platná témata | Témata můžete zadat přímo do tohoto pole. Pokud máte více položek, nezapomeňte po každém tématu stisknout klávesu Enter. Alternativně můžete nahrát .csv soubor nebo .txt soubor. |
Lze zadat maximálně 50 platných témat. Každé téma nesmí překročit 100 znaků. |
Neplatná klíčová slova | Témata můžete zadat přímo do tohoto pole. Pokud máte více položek, nezapomeňte po každém tématu stisknout klávesu Enter. Alternativně můžete nahrát .csv soubor nebo .txt soubor. |
Lze zadat maximálně 50 neplatných klíčových slov. Každé klíčové slovo nesmí překročit 100 znaků. |
Schémata tabulek sledování využití
Systémová system.serving.served_entities
tabulka sledování využití má následující schéma:
Název sloupce | Popis | Typ |
---|---|---|
served_entity_id |
Jedinečné ID obsluhované entity. | STRING |
account_id |
ID účtu zákazníka pro rozdílové sdílení. | STRING |
workspace_id |
ID pracovního prostoru zákazníka pro obsluhující koncový bod. | STRING |
created_by |
ID tvůrce. | STRING |
endpoint_name |
Název obslužného koncového bodu. | STRING |
endpoint_id |
Jedinečné ID koncového bodu obsluhy. | STRING |
served_entity_name |
Název obsluhované entity. | STRING |
entity_type |
Typ entity, která se obsluhuje. Může to být FEATURE_SPEC , EXTERNAL_MODEL , FOUNDATION_MODEL nebo CUSTOM_MODEL |
STRING |
entity_name |
Základní název entity. Liší se od served_entity_name uživatelského zadaného jména. Jedná se například entity_name o název modelu katalogu Unity. |
STRING |
entity_version |
Verze obsluhované entity. | STRING |
endpoint_config_version |
Verze konfigurace koncového bodu. | INT |
task |
Typ úkolu. Může být llm/v1/chat , llm/v1/completions nebo llm/v1/embeddings . |
STRING |
external_model_config |
Konfigurace pro externí modely Například {Provider: OpenAI} |
STRUCT |
foundation_model_config |
Konfigurace základních modelů Například{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400} |
STRUCT |
custom_model_config |
Konfigurace pro vlastní modely Například{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU } |
STRUCT |
feature_spec_config |
Konfigurace pro specifikace funkcí Například { min_concurrency: 0, max_concurrency: 4, compute_type: CPU } |
STRUCT |
change_time |
Časové razítko změny pro obsluhované entity | ČASOVÉ RAZÍTKO |
endpoint_delete_time |
Časové razítko odstranění entity Koncový bod je kontejner pro obsluhované entity. Po odstranění koncového bodu se také obsluhovaná entita odstraní. | ČASOVÉ RAZÍTKO |
Systémová system.serving.endpoint_usage
tabulka sledování využití má následující schéma:
Název sloupce | Popis | Typ |
---|---|---|
account_id |
ID účtu zákazníka. | STRING |
workspace_id |
ID pracovního prostoru zákazníka pro koncový bod obsluhy. | STRING |
client_request_id |
Uživatel poskytl identifikátor požadavku, který lze zadat v modelu obsluhující tělo požadavku. | STRING |
databricks_request_id |
Identifikátor požadavku vygenerovaný službou Azure Databricks připojený ke všem žádostem obsluhující model | STRING |
requester |
ID uživatele nebo instančního objektu, jehož oprávnění se používají k žádosti o vyvolání koncového bodu obsluhy. | STRING |
status_code |
Stavový kód HTTP vrácený z modelu. | CELÉ ČÍSLO |
request_time |
Časové razítko, ve kterém je požadavek přijat. | ČASOVÉ RAZÍTKO |
input_token_count |
Počet tokenů vstupu. | DLOUHÝ |
output_token_count |
Počet tokenů výstupu. | DLOUHÝ |
input_character_count |
Počet znaků vstupního řetězce nebo výzvy. | DLOUHÝ |
output_character_count |
Počet znaků výstupního řetězce odpovědi. | DLOUHÝ |
usage_context |
Uživatel poskytl mapu obsahující identifikátory koncového uživatele nebo aplikace zákazníka, která provádí volání koncového bodu. Viz Další definování využití s usage_context. | MAPA |
request_streaming |
Určuje, jestli je požadavek v režimu streamu. | BOOLEOVSKÝ |
served_entity_id |
Jedinečné ID použité ke spojení s system.serving.served_entities tabulkou dimenzí k vyhledání informací o koncovém bodu a obsluhované entitě. |
STRING |
Další definování využití s využitím usage_context
Při dotazování externího modelu s povoleným sledováním využití můžete zadat usage_context
parametr s typem Map[String, String]
. Mapování kontextu využití se zobrazí v tabulce sledování využití ve usage_context
sloupci. Velikost usage_context
mapy nesmí překročit 10 KiB.
Správci účtů můžou agregovat různé řádky na základě kontextu využití, aby získali přehledy a mohli tyto informace spojit s informacemi v tabulce protokolování datové části. Můžete například přidat end_user_to_charge
ke usage_context
sledování nákladů atribuci pro koncové uživatele.
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}
Schéma tabulky odvozovací tabulky s povolenou bránou AI
Tabulky odvození povolené pomocí služby AI Gateway mají následující schéma:
Název sloupce | Popis | Typ |
---|---|---|
request_date |
Datum UTC, kdy byl přijat požadavek obsluhující model. | DATE |
databricks_request_id |
Identifikátor požadavku vygenerovaný službou Azure Databricks připojený ke všem žádostem obsluhující model | STRING |
client_request_id |
Volitelný identifikátor požadavku vygenerovaný klientem, který lze zadat v modelu obsluhující tělo požadavku. | STRING |
request_time |
Časové razítko, ve kterém je požadavek přijat. | ČASOVÉ RAZÍTKO |
status_code |
Stavový kód HTTP vrácený z modelu. | INT |
sampling_fraction |
Zlomek vzorkování použitý v případě, že byl požadavek mimo vzorkování. Tato hodnota je mezi 0 a 1, kde 1 představuje, že bylo zahrnuto 100 % příchozích požadavků. | DVOJITÝ |
execution_duration_ms |
Doba v milisekundách, pro kterou model provedl odvozování. Nezahrnuje latence sítě s režií a představuje pouze dobu, kterou model trvalo generování předpovědí. | BIGINT |
request |
Nezpracovaný text JSON požadavku, který byl odeslán do koncového bodu obsluhy modelu. | STRING |
response |
Nezpracovaný text JSON odpovědi vrácený koncovým bodem obsluhy modelu. | STRING |
served_entity_id |
Jedinečné ID obsluhované entity. | STRING |
logging_error_codes |
POLE | |
requester |
ID uživatele nebo instančního objektu, jehož oprávnění se používají k žádosti o vyvolání koncového bodu obsluhy. | STRING |
Aktualizace funkcí služby AI Gateway na koncových bodech
Funkce služby AI Gateway můžete aktualizovat u modelů obsluhujících koncové body, které byly dříve povolené, a koncových bodů, které nebyly povolené. Instalace aktualizací konfigurace AI Gateway trvá přibližně 20 až 40 sekund, ale omezování rychlosti aktualizací může trvat až 60 sekund.
Následující příklad ukazuje, jak aktualizovat funkce brány AI v modelu obsluhující koncový bod pomocí uživatelského rozhraní obsluhy.
V části Brána na stránce koncového bodu uvidíte, které funkce jsou povolené. Pokud chcete tyto funkce aktualizovat, klikněte na Upravit bránu AI.
Příklad poznámkového bloku
Následující poznámkový blok ukazuje, jak programově povolit a používat funkce brány Databricks Mosaic AI ke správě a řízení modelů od poskytovatelů. Podrobnosti o rozhraní REST API najdete v následujících tématech:
Poznámkový blok s funkcemi služby Databricks Mosaic AI Gateway
Další materiály
- Bránu pro architekturu AI.
- Odvozování tabulek pro monitorování a ladění modelů