Udostępnij za pośrednictwem


Konfigurowanie bramy sztucznej inteligencji w modelach obsługujących punkty końcowe

Z tego artykułu dowiesz się, jak skonfigurować bramę mozaiki AI w punkcie końcowym obsługującym model.

Wymagania

Konfigurowanie bramy sztucznej inteligencji przy użyciu interfejsu użytkownika

W tej sekcji pokazano, jak skonfigurować bramę sztucznej inteligencji podczas tworzenia punktu końcowego przy użyciu interfejsu użytkownika obsługującego. Jeśli wolisz to zrobić programowo, zobacz przykład notesu.

W sekcji bramy sztucznej inteligencji na stronie tworzenia punktu końcowego można indywidualnie skonfigurować jej funkcje. Zobacz Obsługiwane funkcje, dla których funkcje są dostępne w modelu zewnętrznym obsługującym punkty końcowe i aprowizowane punkty końcowe przepływności.

Funkcja Jak włączyć Szczegóły
Śledzenie użycia Wybierz pozycję Włącz śledzenie użycia, aby włączyć śledzenie i monitorowanie metryk użycia danych. — Musisz mieć włączony Unity Catalog.
— Administratorzy kont muszą włączyć schemat tabeli systemu obsługującego przed użyciem tabel systemowych: system.serving.endpoint_usage który przechwytuje liczbę tokenów dla każdego żądania do punktu końcowego i system.serving.served_entities który przechowuje metadane dla każdego modelu podstawowego.
— Zobacz schematy tabeli śledzenia użycia
— Tylko administratorzy kont mają uprawnienia do wyświetlania lub wykonywania zapytań dotyczących tabeli served_entities lub endpoint_usage, mimo że użytkownik zarządzający punktem końcowym musi włączyć śledzenie użycia. Zobacz Udzielanie dostępu do tabel systemowych
— Liczba tokenów wejściowych i wyjściowych jest szacowana jako (text_length+1)/4, jeśli liczba tokenów nie jest zwracana przez model.
Rejestrowanie ładunku Wybierz pozycję Włącz tabele wnioskowania, aby automatycznie rejestrować żądania i odpowiedzi z punktu końcowego do tabel Delta zarządzanych przez Unity Catalog. — Musisz mieć włączony Unity Catalog i dostęp CREATE_TABLE w określonym schemacie katalogu.
- Tabele wnioskowania obsługiwane przez bramkę AI mają inny schemat niż tabele wnioskowania utworzone do obsługi punktów końcowych, które służą do obsługi modeli niestandardowych. Zobacz schemat tabeli wnioskowania obsługiwanej przez bramkę AI .
— Dane logowania ładunku wypełniają te tabele w czasie krótszym niż godzina po zapytaniu o punkt końcowy.
- Ładunki większe niż 1 MB nie są rejestrowane.
— Ładunek odpowiedzi agreguje odpowiedź wszystkich zwróconych fragmentów.
— Przesyłanie strumieniowe jest obsługiwane. W scenariuszach przesyłania strumieniowego ładunek odpowiedzi agreguje odpowiedź zwróconych fragmentów.
Zabezpieczenia sztucznej inteligencji Zobacz Konfigurowanie barier AI Guardrails w interfejsie użytkownika. — Zabezpieczenia uniemożliwiają modelowi interakcję z niebezpieczną i szkodliwą zawartością wykrytą w danych wejściowych i wyjściowych modelu.
— Zabezpieczenia wyjściowe nie są obsługiwane w przypadku osadzania modeli ani przesyłania strumieniowego.
Limity szybkości Możesz wymusić limity szybkości żądań w celu zarządzania ruchem dla punktu końcowego dla poszczególnych użytkowników i poszczególnych punktów końcowych - Limity szybkości są definiowane w zapytaniach na minutę (QPM).
— Wartość domyślna to Brak limitu dla każdego użytkownika i punktu końcowego.
Routing ruchu Aby skonfigurować routing ruchu w punkcie końcowym, zobacz Obsługa wielu modeli zewnętrznych do punktu końcowego.

Konfigurowanie funkcji bramy sztucznej inteligencji

Konfigurowanie barier AI Guardrails w interfejsie użytkownika

Poniższa tabela pokazuje, jak skonfigurować obsługiwane barierki zabezpieczające .

Poręcze Jak włączyć Szczegóły
Bezpieczeństwo Wybierz pozycję Safety , aby umożliwić ochronę, aby uniemożliwić modelowi interakcję z niebezpieczną i szkodliwą zawartością.
Wykrywanie danych osobowych Wybierz wykrywanie PII, aby wykrywać dane osobowe, takie jak imiona, adresy, numery kart kredytowych.
Prawidłowe tematy Tematy można wpisać bezpośrednio w tym polu. Jeśli masz wiele wpisów, pamiętaj, aby nacisnąć Enter po każdym temacie. Alternatywnie możesz przekazać plik .csv lub .txt . Można określić maksymalnie 50 prawidłowych tematów. Każdy temat nie może przekraczać 100 znaków
Nieprawidłowe słowa kluczowe Tematy można wpisać bezpośrednio w tym polu. Jeśli masz wiele wpisów, pamiętaj, aby nacisnąć Enter po każdym temacie. Alternatywnie możesz przekazać plik .csv lub .txt . Można określić maksymalnie 50 nieprawidłowych słów kluczowych. Każde słowo kluczowe nie może przekraczać 100 znaków.

Konfigurowanie funkcji AI Guardrail

schematy tabel do śledzenia użycia

Tabela systemu śledzenia użycia system.serving.served_entities ma następujący schemat:

Nazwa kolumny opis Type
served_entity_id Unikatowy identyfikator obsługiwanej jednostki. STRUNA
account_id Identyfikator konta klienta na potrzeby udostępniania różnicowego. STRUNA
workspace_id Identyfikator obszaru roboczego klienta punktu końcowego obsługi. STRUNA
created_by Identyfikator twórcy. STRUNA
endpoint_name Nazwa obsługującego punktu końcowego. STRUNA
endpoint_id Unikatowy identyfikator punktu końcowego obsługi. STRUNA
served_entity_name Nazwa obsługiwanej jednostki. STRUNA
entity_type Typ obsługiwanej jednostki. Może to być FEATURE_SPEC, EXTERNAL_MODEL, FOUNDATION_MODELlub CUSTOM_MODEL STRUNA
entity_name Podstawowa nazwa jednostki. Różni się od served_entity_name nazwy podanej przez użytkownika. Na przykład entity_name jest nazwą modelu Unity Catalog. STRUNA
entity_version Wersja obsługiwanej jednostki. STRUNA
endpoint_config_version Wersja konfiguracji punktu końcowego. INT
task Typ zadania. Może to być llm/v1/chat, llm/v1/completionslub llm/v1/embeddings. STRUNA
external_model_config Konfiguracje modeli zewnętrznych. Na przykład {Provider: OpenAI} STRUCT
foundation_model_config Konfiguracje modeli podstawowych. Na przykład{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400} STRUCT
custom_model_config Konfiguracje modeli niestandardowych. Na przykład{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU } STRUCT
feature_spec_config Konfiguracje specyfikacji funkcji. Na przykład { min_concurrency: 0, max_concurrency: 4, compute_type: CPU } STRUCT
change_time Sygnatura czasowa zmiany dla obsługiwanej jednostki. TIMESTAMP
endpoint_delete_time Sygnatura czasowa usuwania jednostki. Punkt końcowy jest kontenerem dla obsługiwanej jednostki. Po usunięciu punktu końcowego obsługiwana jednostka zostanie również usunięta. TIMESTAMP

Tabela systemu śledzenia użycia system.serving.endpoint_usage ma następujący schemat:

Nazwa kolumny opis Type
account_id Identyfikator konta klienta. STRUNA
workspace_id Identyfikator obszaru roboczego klienta obsługującego punkt końcowy. STRUNA
client_request_id Użytkownik podał identyfikator żądania, który można określić w treści żądania obsługującego model. STRUNA
databricks_request_id Identyfikator żądania wygenerowany przez Azure Databricks dołączony do wszystkich żądań obsługi modelu. STRUNA
requester Identyfikator użytkownika lub jednostki usługi, którego uprawnienia są używane do żądania wywołania punktu końcowego obsługującego. STRUNA
status_code Kod stanu HTTP zwrócony z modelu. LICZBA CAŁKOWITA
request_time Sygnatura czasowa, w której żądanie zostanie odebrane. TIMESTAMP
input_token_count Liczba tokenów danych wejściowych. DŁUGI
output_token_count Liczba tokenów danych wyjściowych. DŁUGI
input_character_count Liczba znaków ciągu wejściowego lub monitu. DŁUGI
output_character_count Liczba znaków ciągu wyjściowego odpowiedzi. DŁUGI
usage_context Użytkownik podał mapę zawierającą identyfikatory użytkownika końcowego lub aplikacji klienta, która wykonuje wywołanie punktu końcowego. Zobacz Dalsze definiowanie użycia za pomocą usage_context. MAPA
request_streaming Czy żądanie jest w trybie strumienia. BOOLOWSKI
served_entity_id Unikatowy identyfikator używany do łączenia z tabelą wymiarów system.serving.served_entities w celu wyszukiwania informacji o punkcie końcowym i obsługiwanej jednostce. STRUNA

Dalsze definiowanie użycia za pomocą polecenia usage_context

Podczas wykonywania zapytań względem modelu zewnętrznego z włączonym śledzeniem użycia można podać usage_context parametr o typie Map[String, String]. Mapowanie kontekstu użycia jest wyświetlane w tabeli śledzenia użycia w kolumnie usage_context. Rozmiar usage_context mapy nie może przekraczać 10 KiB.

Administratorzy kont mogą agregować różne wiersze na podstawie kontekstu użycia, aby uzyskać szczegółowe informacje i połączyć te informacje z informacjami w tabeli rejestrowania ładunków. Możesz na przykład dodać end_user_to_charge element do usage_context śledzenia przypisania kosztów dla użytkowników końcowych.

{
  "messages": [
    {
      "role": "user",
      "content": "What is Databricks?"
    }
  ],
  "max_tokens": 128,
  "usage_context":
    {
      "use_case": "external",
      "project": "project1",
      "priority": "high",
      "end_user_to_charge": "abcde12345",
      "a_b_test_group": "group_a"
    }
}

Aktualizacja funkcji AI Gateway na endpointach

Można zaktualizować funkcje bramy sztucznej inteligencji na modelowych punktach końcowych serwujących, które miały wcześniej włączone te funkcje, oraz tych, które ich nie miały. Zastosowanie aktualizacji konfiguracji bramy sztucznej inteligencji trwa około 20–40 sekund, jednak ograniczanie szybkości aktualizacji może potrwać do 60 sekund.

Poniżej pokazano, jak zaktualizować funkcje bramy sztucznej inteligencji w punkcie końcowym obsługującym model przy użyciu interfejsu użytkownika obsługującego.

W sekcji Brama strony punktu końcowego można zobaczyć, które funkcje są włączone. Aby zaktualizować te funkcje, kliknij Edytuj bramkę AI.

aktualizacja funkcji bramy sztucznej inteligencji

Przykład notesu

W poniższym notatniku przedstawiono sposób programowego włączania i używania funkcji bramy Mosaic AI Gateway Databricks do zarządzania i nadzorowania modelami od dostawców. Szczegółowe informacje na temat interfejsu API REST można znaleźć w następujących tematach:

Włączanie notesu funkcji usługi Databricks Mosaic AI Gateway

Weź notesnik

Dodatkowe zasoby