Konfigurowanie bramy sztucznej inteligencji w modelach obsługujących punkty końcowe
Z tego artykułu dowiesz się, jak skonfigurować bramę mozaiki AI w punkcie końcowym obsługującym model.
Wymagania
- Przestrzeń robocza usługi Databricks w regionie obsługujących modele zewnętrzne lub obsługujących przepływność na żądanie.
- Model obsługujący punkt końcowy.
- Aby utworzyć punkt końcowy dla modeli zewnętrznych, wykonaj kroki 1 i 2 Tworzenie modelu zewnętrznego obsługującego punkt końcowy.
- Aby utworzyć punkt końcowy dla zapewnionej przepustowości, zobacz Interfejsy API modelu bazowego.
Konfigurowanie bramy sztucznej inteligencji przy użyciu interfejsu użytkownika
W tej sekcji pokazano, jak skonfigurować bramę sztucznej inteligencji podczas tworzenia punktu końcowego przy użyciu interfejsu użytkownika obsługującego. Jeśli wolisz to zrobić programowo, zobacz przykład notesu.
W sekcji bramy sztucznej inteligencji na stronie tworzenia punktu końcowego można indywidualnie skonfigurować jej funkcje. Zobacz Obsługiwane funkcje, dla których funkcje są dostępne w modelu zewnętrznym obsługującym punkty końcowe i aprowizowane punkty końcowe przepływności.
Funkcja | Jak włączyć | Szczegóły |
---|---|---|
Śledzenie użycia | Wybierz pozycję Włącz śledzenie użycia, aby włączyć śledzenie i monitorowanie metryk użycia danych. | — Musisz mieć włączony Unity Catalog. — Administratorzy kont muszą włączyć schemat tabeli systemu obsługującego przed użyciem tabel systemowych: system.serving.endpoint_usage który przechwytuje liczbę tokenów dla każdego żądania do punktu końcowego i system.serving.served_entities który przechowuje metadane dla każdego modelu podstawowego.— Zobacz schematy tabeli śledzenia użycia — Tylko administratorzy kont mają uprawnienia do wyświetlania lub wykonywania zapytań dotyczących tabeli served_entities lub endpoint_usage , mimo że użytkownik zarządzający punktem końcowym musi włączyć śledzenie użycia. Zobacz Udzielanie dostępu do tabel systemowych— Liczba tokenów wejściowych i wyjściowych jest szacowana jako ( text_length +1)/4, jeśli liczba tokenów nie jest zwracana przez model. |
Rejestrowanie ładunku | Wybierz pozycję Włącz tabele wnioskowania, aby automatycznie rejestrować żądania i odpowiedzi z punktu końcowego do tabel Delta zarządzanych przez Unity Catalog. | — Musisz mieć włączony Unity Catalog i dostęp CREATE_TABLE w określonym schemacie katalogu.- Tabele wnioskowania obsługiwane przez bramkę AI mają inny schemat niż tabele wnioskowania utworzone do obsługi punktów końcowych, które służą do obsługi modeli niestandardowych. Zobacz schemat tabeli wnioskowania obsługiwanej przez bramkę AI . — Dane logowania ładunku wypełniają te tabele w czasie krótszym niż godzina po zapytaniu o punkt końcowy. - Ładunki większe niż 1 MB nie są rejestrowane. — Ładunek odpowiedzi agreguje odpowiedź wszystkich zwróconych fragmentów. — Przesyłanie strumieniowe jest obsługiwane. W scenariuszach przesyłania strumieniowego ładunek odpowiedzi agreguje odpowiedź zwróconych fragmentów. |
Zabezpieczenia sztucznej inteligencji | Zobacz Konfigurowanie barier AI Guardrails w interfejsie użytkownika. | — Zabezpieczenia uniemożliwiają modelowi interakcję z niebezpieczną i szkodliwą zawartością wykrytą w danych wejściowych i wyjściowych modelu. — Zabezpieczenia wyjściowe nie są obsługiwane w przypadku osadzania modeli ani przesyłania strumieniowego. |
Limity szybkości | Możesz wymusić limity szybkości żądań w celu zarządzania ruchem dla punktu końcowego dla poszczególnych użytkowników i poszczególnych punktów końcowych | - Limity szybkości są definiowane w zapytaniach na minutę (QPM). — Wartość domyślna to Brak limitu dla każdego użytkownika i punktu końcowego. |
Routing ruchu | Aby skonfigurować routing ruchu w punkcie końcowym, zobacz Obsługa wielu modeli zewnętrznych do punktu końcowego. |
Konfigurowanie barier AI Guardrails w interfejsie użytkownika
Poniższa tabela pokazuje, jak skonfigurować obsługiwane barierki zabezpieczające .
Poręcze | Jak włączyć | Szczegóły |
---|---|---|
Bezpieczeństwo | Wybierz pozycję Safety , aby umożliwić ochronę, aby uniemożliwić modelowi interakcję z niebezpieczną i szkodliwą zawartością. | |
Wykrywanie danych osobowych | Wybierz wykrywanie PII, aby wykrywać dane osobowe, takie jak imiona, adresy, numery kart kredytowych. | |
Prawidłowe tematy | Tematy można wpisać bezpośrednio w tym polu. Jeśli masz wiele wpisów, pamiętaj, aby nacisnąć Enter po każdym temacie. Alternatywnie możesz przekazać plik .csv lub .txt . |
Można określić maksymalnie 50 prawidłowych tematów. Każdy temat nie może przekraczać 100 znaków |
Nieprawidłowe słowa kluczowe | Tematy można wpisać bezpośrednio w tym polu. Jeśli masz wiele wpisów, pamiętaj, aby nacisnąć Enter po każdym temacie. Alternatywnie możesz przekazać plik .csv lub .txt . |
Można określić maksymalnie 50 nieprawidłowych słów kluczowych. Każde słowo kluczowe nie może przekraczać 100 znaków. |
schematy tabel do śledzenia użycia
Tabela systemu śledzenia użycia system.serving.served_entities
ma następujący schemat:
Nazwa kolumny | opis | Type |
---|---|---|
served_entity_id |
Unikatowy identyfikator obsługiwanej jednostki. | STRUNA |
account_id |
Identyfikator konta klienta na potrzeby udostępniania różnicowego. | STRUNA |
workspace_id |
Identyfikator obszaru roboczego klienta punktu końcowego obsługi. | STRUNA |
created_by |
Identyfikator twórcy. | STRUNA |
endpoint_name |
Nazwa obsługującego punktu końcowego. | STRUNA |
endpoint_id |
Unikatowy identyfikator punktu końcowego obsługi. | STRUNA |
served_entity_name |
Nazwa obsługiwanej jednostki. | STRUNA |
entity_type |
Typ obsługiwanej jednostki. Może to być FEATURE_SPEC , EXTERNAL_MODEL , FOUNDATION_MODEL lub CUSTOM_MODEL |
STRUNA |
entity_name |
Podstawowa nazwa jednostki. Różni się od served_entity_name nazwy podanej przez użytkownika. Na przykład entity_name jest nazwą modelu Unity Catalog. |
STRUNA |
entity_version |
Wersja obsługiwanej jednostki. | STRUNA |
endpoint_config_version |
Wersja konfiguracji punktu końcowego. | INT |
task |
Typ zadania. Może to być llm/v1/chat , llm/v1/completions lub llm/v1/embeddings . |
STRUNA |
external_model_config |
Konfiguracje modeli zewnętrznych. Na przykład {Provider: OpenAI} |
STRUCT |
foundation_model_config |
Konfiguracje modeli podstawowych. Na przykład{min_provisioned_throughput: 2200, max_provisioned_throughput: 4400} |
STRUCT |
custom_model_config |
Konfiguracje modeli niestandardowych. Na przykład{ min_concurrency: 0, max_concurrency: 4, compute_type: CPU } |
STRUCT |
feature_spec_config |
Konfiguracje specyfikacji funkcji. Na przykład { min_concurrency: 0, max_concurrency: 4, compute_type: CPU } |
STRUCT |
change_time |
Sygnatura czasowa zmiany dla obsługiwanej jednostki. | TIMESTAMP |
endpoint_delete_time |
Sygnatura czasowa usuwania jednostki. Punkt końcowy jest kontenerem dla obsługiwanej jednostki. Po usunięciu punktu końcowego obsługiwana jednostka zostanie również usunięta. | TIMESTAMP |
Tabela systemu śledzenia użycia system.serving.endpoint_usage
ma następujący schemat:
Nazwa kolumny | opis | Type |
---|---|---|
account_id |
Identyfikator konta klienta. | STRUNA |
workspace_id |
Identyfikator obszaru roboczego klienta obsługującego punkt końcowy. | STRUNA |
client_request_id |
Użytkownik podał identyfikator żądania, który można określić w treści żądania obsługującego model. | STRUNA |
databricks_request_id |
Identyfikator żądania wygenerowany przez Azure Databricks dołączony do wszystkich żądań obsługi modelu. | STRUNA |
requester |
Identyfikator użytkownika lub jednostki usługi, którego uprawnienia są używane do żądania wywołania punktu końcowego obsługującego. | STRUNA |
status_code |
Kod stanu HTTP zwrócony z modelu. | LICZBA CAŁKOWITA |
request_time |
Sygnatura czasowa, w której żądanie zostanie odebrane. | TIMESTAMP |
input_token_count |
Liczba tokenów danych wejściowych. | DŁUGI |
output_token_count |
Liczba tokenów danych wyjściowych. | DŁUGI |
input_character_count |
Liczba znaków ciągu wejściowego lub monitu. | DŁUGI |
output_character_count |
Liczba znaków ciągu wyjściowego odpowiedzi. | DŁUGI |
usage_context |
Użytkownik podał mapę zawierającą identyfikatory użytkownika końcowego lub aplikacji klienta, która wykonuje wywołanie punktu końcowego. Zobacz Dalsze definiowanie użycia za pomocą usage_context. | MAPA |
request_streaming |
Czy żądanie jest w trybie strumienia. | BOOLOWSKI |
served_entity_id |
Unikatowy identyfikator używany do łączenia z tabelą wymiarów system.serving.served_entities w celu wyszukiwania informacji o punkcie końcowym i obsługiwanej jednostce. |
STRUNA |
Dalsze definiowanie użycia za pomocą polecenia usage_context
Podczas wykonywania zapytań względem modelu zewnętrznego z włączonym śledzeniem użycia można podać usage_context
parametr o typie Map[String, String]
. Mapowanie kontekstu użycia jest wyświetlane w tabeli śledzenia użycia w kolumnie usage_context
. Rozmiar usage_context
mapy nie może przekraczać 10 KiB.
Administratorzy kont mogą agregować różne wiersze na podstawie kontekstu użycia, aby uzyskać szczegółowe informacje i połączyć te informacje z informacjami w tabeli rejestrowania ładunków. Możesz na przykład dodać end_user_to_charge
element do usage_context
śledzenia przypisania kosztów dla użytkowników końcowych.
{
"messages": [
{
"role": "user",
"content": "What is Databricks?"
}
],
"max_tokens": 128,
"usage_context":
{
"use_case": "external",
"project": "project1",
"priority": "high",
"end_user_to_charge": "abcde12345",
"a_b_test_group": "group_a"
}
}
Aktualizacja funkcji AI Gateway na endpointach
Można zaktualizować funkcje bramy sztucznej inteligencji na modelowych punktach końcowych serwujących, które miały wcześniej włączone te funkcje, oraz tych, które ich nie miały. Zastosowanie aktualizacji konfiguracji bramy sztucznej inteligencji trwa około 20–40 sekund, jednak ograniczanie szybkości aktualizacji może potrwać do 60 sekund.
Poniżej pokazano, jak zaktualizować funkcje bramy sztucznej inteligencji w punkcie końcowym obsługującym model przy użyciu interfejsu użytkownika obsługującego.
W sekcji Brama strony punktu końcowego można zobaczyć, które funkcje są włączone. Aby zaktualizować te funkcje, kliknij Edytuj bramkę AI.
Przykład notesu
W poniższym notatniku przedstawiono sposób programowego włączania i używania funkcji bramy Mosaic AI Gateway Databricks do zarządzania i nadzorowania modelami od dostawców. Szczegółowe informacje na temat interfejsu API REST można znaleźć w następujących tematach:
Włączanie notesu funkcji usługi Databricks Mosaic AI Gateway
Weź notesnik