Sdílet prostřednictvím


Konfigurace brány AI na model obsluhujících koncové body

V tomto článku se dozvíte, jak nakonfigurovat bránu Mosaic AI gateway na koncovém bodu obsluhující model.

Požadavky

Konfigurace brány AI pomocí uživatelského rozhraní

Tato část ukazuje, jak nakonfigurovat bránu AI během vytváření koncového bodu pomocí uživatelského rozhraní obsluhy. Pokud to chcete udělat programově, podívejte se na příklad poznámkového bloku.

V části AI Gateway na stránce pro vytvoření koncového bodu můžete jednotlivě nakonfigurovat funkce AI Gateway. Viz Podporované funkce, pro které jsou funkce dostupné pro externí model obsluhující koncové body a zřízené koncové body propustnosti.

Funkce Jak povolit Detaily
Sledování využití Vyberte Povolit sledování využití pro povolení sledování metrik využití dat. – Musíte mít povolený katalog Unity.
– Správci účtů musí před použitím systémových tabulek povolit obslužné schéma tabulek: system.serving.endpoint_usage, která zaznamenává počty tokenů pro každý požadavek na koncový bod a system.serving.served_entities, která ukládá metadata pro každý základní model.
– Viz schémata tabulek sledování využití
– K zobrazení nebo dotazování tabulky served_entities nebo endpoint_usage tabulky mají oprávnění pouze správci účtu, i když uživatel, který spravuje koncový bod, musí povolit sledování využití. Viz Udělení přístupu k systémovým tabulkám
– Počet vstupních a výstupních tokenů se odhaduje jako (text_length+1)/4, pokud model nevrátí počet tokenů.
Protokolování datové části Vyberte Povolit inferenční tabulky, aby automaticky zaznamenávaly požadavky a odpovědi z vašeho koncového bodu do Delta tabulek spravovaných katalogem Unity. – Musíte mít povolený katalog Unity a přístup CREATE_TABLE ve zadaném schématu katalogu.
- tabulky odvozování povolené službou AI Gateway mají jiné schéma než odvozovací tabulky vytvořené pro koncové body obsluhující modely, které obsluhují vlastní modely. Viz schéma tabulky odvození s podporou AI Gateway.
Údaje protokolování datové části naplní tyto tabulky do hodiny po dotazování na koncový bod.
– Datové části větší než 1 MB se nezaprotokolují.
– Datová část odpovědi agreguje odpověď všech vrácených bloků dat.
– Streamování se podporuje. Ve scénářích streamování agreguje datová část odpovědi odpověď vrácených bloků dat.
Mantinely AI Viz Konfigurace mantinelí AI v uživatelském rozhraní. - Mantinely brání modelu v interakci s nebezpečným a škodlivým obsahem, který je zjištěn ve vstupech a výstupech modelu.
– Výstupní mantinely nejsou podporovány pro modely vkládání ani pro streamování.
Omezení přenosové rychlosti Omezení četnosti požadavků můžete vynutit pro správu provozu koncového bodu pro jednotlivé uživatele a koncové body. – Omezení rychlosti se definují v dotazech za minutu (QPM).
– Výchozí hodnota je bez omezení pro jednotlivé uživatele i koncové body.
Směrování provozu Pokud chcete nakonfigurovat směrování provozu ve vašem koncovém bodu, přečtěte si téma Obsluha více externích modelů do koncového bodu.

Konfigurace funkcí AI Gateway

Konfigurace mantinely AI v uživatelském rozhraní

Následující tabulka ukazuje, jak nakonfigurovat mantinely podporované .

Zábradlí Jak povolit Detaily
Bezpečnost Vyberte Bezpečnostní a povolte tak ochranu, abyste zabránili vašemu modelu v interakci s nebezpečným a škodlivým obsahem.
Detekce identifikovatelných osobních údajů (PII) Vyberte zjišťování PII a detekujte data PII, jako jsou jména, adresy, čísla platebních karet.
Platná témata Témata můžete zadat přímo do tohoto pole. Pokud máte více položek, nezapomeňte po každém tématu stisknout klávesu Enter. Alternativně můžete nahrát .csv soubor nebo .txt soubor. Lze zadat maximálně 50 platných témat. Každé téma nesmí překročit 100 znaků.
Neplatná klíčová slova Témata můžete zadat přímo do tohoto pole. Pokud máte více položek, nezapomeňte po každém tématu stisknout klávesu Enter. Alternativně můžete nahrát .csv soubor nebo .txt soubor. Lze zadat maximálně 50 neplatných klíčových slov. Každé klíčové slovo nesmí překročit 100 znaků.

Konfigurace funkcí AI Guardrail

schémata tabulek sledování využití

Tabulka systému sledování využití system.serving.served_entities má následující schéma:

Název sloupce Popis Typ
served_entity_id Jedinečné ID obsluhované entity. STRING
account_id ID účtu zákazníka pro rozdílové sdílení. STRING
workspace_id ID pracovního prostoru zákazníka pro obsluhující koncový bod. STRING
created_by ID tvůrce. STRING
endpoint_name Název obslužného koncového bodu. STRING
endpoint_id Jedinečné ID koncového bodu obsluhy. STRING
served_entity_name Název obsluhované entity. STRING
entity_type Typ entity, která se obsluhuje. Může to být FEATURE_SPEC, EXTERNAL_MODEL, FOUNDATION_MODELnebo CUSTOM_MODEL STRING
entity_name Základní název entity. Liší se od served_entity_name uživatelského zadaného jména. Například entity_name je název modelu katalogu Unity. STRING
entity_version Verze obsluhované entity. STRING
endpoint_config_version Verze konfigurace koncového bodu. INT
task Typ úkolu. Může být llm/v1/chat, llm/v1/completionsnebo llm/v1/embeddings. STRING
external_model_config Konfigurace pro externí modely Například {Provider: OpenAI} STRUCT
foundation_model_config Konfigurace základních modelů Například{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400} STRUCT
custom_model_config Konfigurace pro vlastní modely Například{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU } STRUCT
feature_spec_config Konfigurace pro specifikace funkcí Například { min_concurrency: 0, max_concurrency: 4, compute_type: CPU } STRUCT
change_time Časové razítko změny pro obsluhované entity ČASOVÉ RAZÍTKO
endpoint_delete_time Časové razítko odstranění entity Koncový bod je kontejner pro obsluhované entity. Po odstranění koncového bodu se také obsluhovaná entita odstraní. ČASOVÉ RAZÍTKO

Systémová tabulka system.serving.endpoint_usage sledování využití má následující schéma:

Název sloupce Popis Typ
account_id ID účtu zákazníka. STRING
workspace_id ID pracovního prostoru zákazníka pro koncový bod obsluhy. STRING
client_request_id Identifikátor požadavku poskytnutý uživatelem, který lze specifikovat v těle požadavku na obsluhu modelu. STRING
databricks_request_id Identifikátor požadavku vygenerovaný službou Azure Databricks připojený ke všem žádostem obsluhující model STRING
requester ID uživatele nebo instančního objektu, jehož oprávnění se používají k žádosti o vyvolání koncového bodu obsluhy. STRING
status_code Stavový kód HTTP vrácený z modelu. CELÉ ČÍSLO
request_time Časové razítko, ve kterém je požadavek přijat. ČASOVÉ RAZÍTKO
input_token_count Počet tokenů vstupu. DLOUHÝ
output_token_count Počet tokenů výstupu. DLOUHÝ
input_character_count Počet znaků vstupního řetězce nebo výzvy. DLOUHÝ
output_character_count Počet znaků výstupního řetězce odpovědi. DLOUHÝ
usage_context Uživatel poskytl mapu obsahující identifikátory koncového uživatele nebo aplikace zákazníka, která provádí volání koncového bodu. Viz Další definování využití s usage_context. MAPA
request_streaming Určuje, jestli je požadavek v režimu streamu. BOOLEOVSKÝ
served_entity_id Jedinečné ID použité pro spojení s tabulkou dimenzí system.serving.served_entities k vyhledání informací o koncovém bodu a obsluhované entitě. STRING

Další definování využití s využitím usage_context

Při dotazování externího modelu s povoleným sledováním využití můžete zadat usage_context parametr s typem Map[String, String]. Mapování kontextu využití se zobrazí v tabulce sledování využití ve sloupci usage_context. Velikost usage_context mapy nesmí překročit 10 KiB.

Správci účtů můžou agregovat různé řádky na základě kontextu využití, aby získali přehledy a mohli tyto informace spojit s informacemi v tabulce protokolování datové části. Můžete například přidat end_user_to_charge ke usage_context sledování nákladů atribuci pro koncové uživatele.

{
  "messages": [
    {
      "role": "user",
      "content": "What is Databricks?"
    }
  ],
  "max_tokens": 128,
  "usage_context":
    {
      "use_case": "external",
      "project": "project1",
      "priority": "high",
      "end_user_to_charge": "abcde12345",
      "a_b_test_group": "group_a"
    }
}

Aktualizace funkcí služby AI Gateway na koncových bodech

Funkce služby AI Gateway můžete aktualizovat u modelů obsluhujících koncové body, které byly dříve povolené, a koncových bodů, které nebyly povolené. Instalace aktualizací konfigurace AI Gateway trvá přibližně 20 až 40 sekund, ale omezování rychlosti aktualizací může trvat až 60 sekund.

Následující příklad ukazuje, jak aktualizovat funkce brány AI v modelu obsluhující koncový bod pomocí uživatelského rozhraní obsluhy.

V části Brána na stránce koncového bodu uvidíte, které funkce jsou povolené. Chcete-li tyto funkce aktualizovat, klikněte na Upravit AI bránu.

aktualizace funkcí AI Gateway

Příklad poznámkového bloku

Následující poznámkový blok ukazuje, jak programově povolit a používat funkce brány Databricks Mosaic AI ke správě a řízení modelů od poskytovatelů. Podrobnosti o rozhraní REST API najdete v následujících tématech:

Poznámkový blok s funkcemi služby Databricks Mosaic AI Gateway

Získejte poznámkový blok

Další materiály