Mosaic AI Gateway
Wichtig
Dieses Feature befindet sich in der Public Preview.
In diesem Artikel wird das Mosaic AI Gateway, die Databricks-Lösung zum Verwalten und Überwachen des Zugriffs auf unterstützte generative KI-Modelle und deren zugehöriges Modell beschrieben, das Endpunkte bereitstellt.
Was ist Mosaic AI Gateway?
Mosaic AI Gateway wurde entwickelt, um die Nutzung und Verwaltung von generativen KI-Modellen innerhalb einer Organisation zu optimieren. Es handelt sich um einen zentralisierten Dienst, der Governance, Überwachung und Produktionsbereitschaft Modellbereitstellungsendpunkte vereint. Außerdem können Sie damit KI-Datenverkehr ausführen, sichern und steuern, um die KI-Einführung in Ihrem Unternehmen zu demokratisieren und zu beschleunigen.
Alle Daten werden in Delta-Tabellen mit Unity Catalog protokolliert.
Laden Sie das Beispiel-AI-Gateway-Dashboard von GitHub herunter, um Einblicke aus Ihren KI-Gatewaydaten zu visualisieren. Dieses Dashboard nutzt die Daten aus der Verwendungsnachverfolgung und der Nutzlastprotokollierungs-Ableitungstabellen.
Nachdem Sie die JSON-Datei heruntergeladen haben, importieren Sie das Dashboard in Ihren Arbeitsbereich. Anweisungen zum Importieren von Dashboards finden Sie unter Importieren einer Dashboarddatei.
AI Gateway unterstützt die folgenden Features:
- Berechtigungs- und Ratenbegrenzung, um zu steuern, wer Zugriff hat und wie viel.
- Nutzdatenprotokollierung zur Überwachung und Prüfung von Daten, die mithilfe von Rückschlusstabellen an Modell-APIs gesendet werden.
- Nutzungsverfolgung zur Überwachung der betrieblichen Nutzung auf Endpunkten und damit verbundenen Kosten mithilfe von Systemtabellen.
- KI-Schutzmaßnahmen, um unerwünschte und unsichere Daten in Anforderungen und Antworten zu verhindern.
- Routing von Datenverkehr, um Produktionsausfälle während und nach der Bereitstellung zu minimieren.
Mosaic AI Gateway berechnet Gebühren auf Basis der aktivierten Funktionen. Während der Vorschau umfassen diese kostenpflichtigen Funktionen KI-Schutzmaßnahmen, Nutzdatenprotokollierung und Nutzungsverfolgung. Funktionen wie Abfrageberechtigungen, Ratenbegrenzung und Routing von Datenverkehr sind kostenlos. Alle neuen Features sind kostenpflichtig.
Die folgende Tabelle zeigt die Databricks-Einheiten (DBUs) pro Million (M) Token für die kostenpflichtigen AI Gateway-Funktionen. Gebühren werden unter der Serverless Real-time Inference
SKU aufgeführt.
Funktion | DBU-Rate |
---|---|
KI-Schutzmaßnahmen (Guardrails) | 21,429 DBUs pro M-Token |
Nutzdatenprotokollierung | 2,857 DBUs pro M-Token |
Nutzungsverfolgung | 0,571 DBUs pro M-Token |
KI-Schutzmaßnahmen (Guardrails)
KI-Schutzmaßnahmen ermöglichen es den Benutzern, die Datenkonformität auf der Ebene des Modellbereitstellungsendpunkts zu konfigurieren und zu gewährleisten und schädliche Inhalte bei allen an das zugrunde liegende Modell gesendeten Anfragen zu reduzieren. Ungültige Anforderungen und Antworten werden blockiert, und dem Benutzer wird eine Standardnachricht zurückgesendet. Erfahren Sie, wie Sie Schutzmaßnahmen für einen Modellbereitstellungsendpunkt konfigurieren.
Wichtig
KI-Schutzmaßnahmen sind nur in Regionen verfügbar, die Foundation Model APIs Pay-per-Token unterstützen.
In der folgenden Tabelle sind diese konfigurierbaren Schutzmaßnahmen zusammengefasst.
Schutzmaßnahme | Definition |
---|---|
Sicherheitsfilterung | Die Sicherheitsfilterung verhindert, dass Ihr Modell mit unsicheren und schädlichen Inhalten wie Gewaltverbrechen, Selbstverletzung und Hassreden interagiert. Der AI Gateway-Sicherheitsfilter wird mit Meta Llama 3 erstellt. Databricks verwendet Llama Guard 2-8b als Sicherheitsfilter. Weitere Informationen zum Llama Guard-Sicherheitsfilter und zu den Themen, die auf den Sicherheitsfilter angewendet werden, finden Sie auf der Meta Llama Guard 2 8B-Modellkarte. Meta Llama 3 ist unter der LLAMA 3 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen. |
Erkennung personenbezogener Endbenutzerinformationen (Personally Identifiable Information, PII) | Kunden können vertrauliche Informationen wie Namen, Adressen, Kreditkartennummern für Benutzer erkennen. Für dieses Feature verwendet AI Gateway Presidio , um die folgenden US-Kategorien von PII zu erkennen: Kreditkartennummern, E-Mail-Adressen, Telefonnummern, Bankkontonummern und Sozialversicherungsnummern. Der PII-Klassifizierer kann dabei helfen, vertrauliche Informationen oder persönliche Daten in strukturierten und unstrukturierten Daten zu identifizieren. Da er jedoch automatisierte Erkennungsmechanismen verwendet, besteht keine Garantie dafür, dass der Dienst alle vertraulichen Informationen findet. Es sollten daher zusätzliche Systeme und Schutzmaßnahmen eingesetzt werden. Diese Klassifizierungsmethoden gelten in erster Linie für US-Kategorien von personenbezogenen Informationen, wir z. B. US-Telefonnummern und US-Sozialversicherungsnummern. |
Themenmoderation | Funktionalität zum Auflisten einer Reihe zulässiger Themen. Bei einer Chatanfrage kennzeichnet diese Schutzmaßnahme die Anforderung, wenn sich ihr Thema nicht innerhalb der zulässigen Themen befindet. |
Schlüsselwortfilter | Kunden können verschiedene Gruppen ungültiger Schlüsselwörter sowohl für die Eingabe als auch für die Ausgabe festlegen. Ein potenzieller Anwendungsfall für den Schlüsselwortfilter ist, dass das Modell keine Informationen über Wettbewerber enthält. Diese Schutzmaßnahme verwendet den Abgleich von Schlüsselwörtern oder Zeichenketten, um festzustellen, ob das Schlüsselwort im Inhalt der Anfrage oder der Antwort vorhanden ist. |
AI Gateway verwenden
Sie können die AI Gateway-Funktionen auf Ihren Modellbereitstellungsendpunkten mithilfe der Serving Benutzeroberfläche konfigurieren. Siehe Konfigurieren des AI Gateway auf Modellbereitstellungsendpunkten.
Begrenzungen
Die folgenden Einschränkungen gelten während der Vorschau:
- Das AI Gateway wird nur für Modellbereitstellungsendpunkte unterstützt, die externe Modelle bedienen.
- Wenn Schutzmaßnahmen verwendet werden, darf die Batchgröße von Anforderungen, d. h. die Batchgröße von Einbettungen, die Batchgröße von Vervollständigungen oder den
n
-Parameter von Chat-Anfragen, 16 nicht überschreiten.