Modellbereitstellung mit Azure Databricks
In diesem Artikel wird Mosaic AI Model Serving beschrieben, einschließlich der Vorteile und Einschränkungen.
Was ist Mosaik AI Model Serving?
Mosaik AI Model Serving bietet eine einheitliche Schnittstelle zum Bereitstellen, Steuern und Abfragen von KI-Modellen für Echtzeit- und Batcheinschluss. Jedes von Ihnen bereitgestellte Modell ist als REST-API verfügbar, die Sie in Ihre Web- oder Clientanwendung integrieren können.
Die Modellbereitstellung bietet einen hochverfügbaren Dienst mit niedriger Latenz für die Bereitstellung von Modellen. Der Dienst wird automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Diese Funktionalität verwendet serverloses Compute. Weitere Informationen finden Sie auf der Seite mit den Preisen für die Modellbereitstellung.
Modellbereitstellung unterstützt die Bereitstellung von:
- Benutzerdefinierte Modelle: Dies sind Python-Modelle, die im MLflow-Format verpackt sind. Sie können in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung registriert werden. Beispiele sind scikit-learn-, XGBoost-, PyTorch- und Hugging Face-Transformationsmodelle.
- Der Agent wird als benutzerdefiniertes Modell unterstützt. Siehe Bereitstellen eines Agents für generative KI-Anwendung
- Modernste offene Modelle, die von Foundation Model-APIszur Verfügung gestellt werden Diese Modelle sind kuratierte Basismodellarchitekturen, die optimierte Rückschlüsse unterstützen. Basismodelle, z. B. Meta-Llama-3.1-70B-Instruct, GTE-Large und Mistral-7B, stehen für die sofortige Verwendung mit Pay-per-Token-Preisen zur Verfügung, und Arbeitslasten, die Leistungsgarantien und fein abgestimmten Modellvarianten erfordern, können mit bereitgestellten Durchsatz bereitgestellt werden.
- Databricks empfiehlt die Verwendung
ai_query
mit Model Serving für batchinference. Für schnelle Experimenteai_query
können Sie mit Endpunkten für Pay-per-Token verwendet werden. Wenn Sie bereit sind, Batchableitungen für große oder Produktionsdaten auszuführen, empfiehlt Databricks die Verwendung von bereitgestellten Durchsatzendpunkten für eine schnellere Leistung. Informationen zum Erstellen eines bereitgestellten Durchsatzendpunkts finden Sie unter Bereitgestellte Foundation Model-APIs .- Weitere Informationen finden Sie unter "Ausführen der Batch-Ableitung mithilfe von ai_query".
- Erste Schritte mit batchinference with LLMs on Unity Catalog tables, see the notebook examples in Batch inference using Foundation Model APIs provisioned throughput.
- Databricks empfiehlt die Verwendung
- Externe Modelle. Dies sind generative KI-Modelle, die außerhalb von Databricks gehostet werden. Beispiele sind Modelle wie GPT-4 von OpenAI, Claude von Anthropic und andere. Endpunkte, die externe Modelle bedienen, können zentral gesteuert werden, und Kunden können Ratenbegrenzungen und Zugriffssteuerungen für sie festlegen.
Hinweis
Sie können mit unterstützten großen Sprachmodellen interagieren, indem Sie den KI-Playground verwenden. Der KI-Playground ist eine chatähnliche Umgebung, in der Sie LLMs testen und vergleichen und Prompts für sie ausprobieren können. Diese Funktionalität ist in Ihrem Azure Databricks-Arbeitsbereich verfügbar.
Die Modellbereitstellung bietet eine einheitliche REST-API und MLflow-Bereitstellungs-API für CRUD und Abfrageaufgaben. Darüber hinaus stellt sie eine einzelne Benutzeroberfläche bereit, um alle Ihre Modelle und ihre jeweiligen Dienstendpunkte zu verwalten. Sie können auch direkt über SQL mithilfe von KI-Funktionen auf Modelle zugreifen, um die Integration in Analyseworkflows zu erleichtern.
Ein Einführungstutorial zum Bereitstellen benutzerdefinierter Modelle in Azure Databricks finden Sie unter Tutorial: Bereitstellen und Abfragen eines benutzerdefinierten Modells.
Ein Tutorial zu den ersten Schritten beim Abfragen eines Basismodells in Databricks finden Sie unter Erste Schritte beim Abfragen von LLMs in Databricks.
Gründe für die Verwendung von Modellbereitstellung
- Bereitstellen und Abfragen aller Modelle: Die Modellbereitstellung bietet eine einheitliche Schnittstelle, über die Sie alle Modelle an einem Ort verwalten und mit einer einzigen API abfragen können, unabhängig davon, ob sie in Databricks oder extern gehostet werden. Dieser Ansatz vereinfacht das Experimentieren mit sowie das Anpassen und Bereitstellen von Modellen in der Produktion über verschiedene Clouds und Anbieter hinweg.
- Sicheres Anpassen von Modellen mit Ihren privaten Daten: Die Modellbereitstellung basiert auf einer Data Intelligence-Plattform und vereinfacht die Integration von Features und Einbettungen in Modelle durch native Integration in den Databricks Feature Store und die Mosaik KI-Vektorsuche. Für noch höhere Genauigkeit und besseres Kontextverständnis können Modelle mit geschützten Daten optimiert und mühelos in der Modellbereitstellung bereitgestellt werden.
- Steuern und Überwachen von Modellen: Über die Benutzeroberfläche für die Bereitstellung können Sie alle Modellendpunkte, einschließlich derjenigen, die extern gehostet werden, zentral an einem Ort verwalten. Sie können Berechtigungen verwalten, Nutzungsgrenzwerte nachverfolgen und festlegen und die Qualität aller Arten von Modellen überwachen. Auf diese Weise können Sie den Zugriff auf SaaS demokratisieren und LLMs innerhalb Ihrer Organisation öffnen sowie gleichzeitig sicherstellen, dass angemessene Schutzmaßnahmen vorhanden sind.
- Reduzieren von Kosten mit optimierten Rückschlüssen und schneller Skalierung: Databricks hat eine Reihe von Optimierungen implementiert, um sicherzustellen, dass Sie den besten Durchsatz und möglichst geringe Wartezeiten für große Modelle erzielen. Die Endpunkte werden automatisch hoch- oder herunterskaliert, um Bedarfsänderungen zu erfüllen, was Infrastrukturkosten spart und gleichzeitig die Latenzleistung optimiert. Überwachen sie die Kosten des Modells.
Hinweis
Bei Workloads, die latenzempfindlich sind oder eine hohe Anzahl von Abfragen pro Sekunde umfassen, empfiehlt Databricks die Verwendung der Routenoptimierung für benutzerdefinierte Modellbereitstellungsendpunkte. Wenden Sie sich an Ihr Databricks-Kontoteam, um sicherzustellen, dass Ihr Arbeitsbereich für eine hohe Skalierbarkeit aktiviert ist.
- Zuverlässigkeit und Sicherheit bei der Modellbereitstellung: Die Modellbereitstellung ist für latenzarme Nutzung mit Hochverfügbarkeit in der Produktion konzipiert und kann mehr als 25.000 Abfragen pro Sekunde mit einer Overheadwartezeit von weniger als 50 ms unterstützen. Die Bereitstellungsworkloads werden durch mehrere Sicherheitsebenen geschützt. Dadurch wird eine sichere und zuverlässige Umgebung auch für höchst vertrauliche Aufgaben sichergestellt.
Hinweis
Model Serving stellt keine Sicherheitspatches für vorhandene Modellimages bereit, da das Risiko einer Destabilisierung von Produktionsbereitstellungen besteht. Ein neues Modellimage, das aus einer neuen Modellversion erstellt wurde, enthält die neuesten Patches. Wenden Sie sich an Ihr Databricks-Kontoteam, um weitere Informationen zu erfahren.
Anforderungen
- Registriertes Modell in Unity Catalog oder in der Arbeitsbereichsmodellregistrierung.
- Berechtigungen für die registrierten Modelle, wie unter Bereitstellen von Zugriffssteuerungslisten für Endpunkte beschrieben.
- MLflow 1.29 oder höher.
- Wenn Sie Azure Private Link verwenden, um netzwerkbezogene Eingangsregeln zu respektieren, die für den Arbeitsbereich konfiguriert sind, wird Azure Private Link nur für Modellbereitstellungsendpunkte unterstützt, die den bereitgestellten Durchsatz oder Endpunkte verwenden, die benutzerdefinierte Modelle bedienen. Weitere Informationen finden Sie unter Konfigurieren der privaten Konnektivität von serverlosem Compute.
Aktivieren der Modellbereitstellung für Ihren Arbeitsbereich
Es sind keine zusätzlichen Schritte erforderlich, um die Modellbereitstellung in Ihrem Arbeitsbereich zu aktivieren.
Einschränkungen und regionale Verfügbarkeit
Mosaic AI Model Serving legt Standardgrenzwerte fest, um eine zuverlässige Leistung zu gewährleisten. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung. Wenn Sie Feedback zu diesen Grenzwerten oder einem Endpunkt in einer nicht unterstützten Region haben, wenden Sie sich an Ihr Databricks-Kontoteam.
Datenschutz bei der Modellbereitstellung
Databricks nimmt die Datensicherheit ernst. Databricks weiß um die Bedeutung der Daten, die Sie mit Mosaic AI Model Serving analysieren, und implementiert die folgenden Sicherheitsmaßnahmen zum Schutz Ihrer Daten.
- Jede Kundenanforderung an die Modellbereitstellung ist logisch isoliert, authentifiziert und autorisiert.
- Mosaic AI Model Serving verschlüsselt alle ruhenden Daten (AES-256) und während der Übertragung (TLS 1.2+).
Für alle kostenpflichtigen Konten verwendet Mosaic AI Model Serving keine Benutzereingaben, die an den Dienst übermittelt wurden, oder Ausgaben des Dienstes, um Modelle zu trainieren oder Databricks-Dienste zu verbessern.
Bei Databricks Foundation Model APIs kann Databricks im Rahmen der Bereitstellung des Dienstes Eingaben und Ausgaben vorübergehend verarbeiten und speichern, um Missbrauch oder schädliche Verwendungen zu verhindern, zu erkennen und einzudämmen. Ihre Eingaben und Ausgaben sind von denen anderer Kund*innen isoliert, werden bis zu dreißig (30) Tage lang in derselben Region wie Ihr Arbeitsbereich gespeichert und sind nur zugänglich, um Sicherheits- oder Missbrauchsprobleme zu erkennen und darauf zu reagieren. Foundation Model APIs ist ein Databricks Designated Service, d. h. er hält sich an Die Grenzen der Datenhaltung, wie es von Databricks Geos implementiert wird.
Zusätzliche Ressourcen
- Erste Schritte beim Abfragen von LLMs in Databricks.
- Tutorial: Bereitstellen und Abfragen eines benutzerdefinierten Modells
- Einführung in das Erstellen von generativen KI-Apps in Databricks
- Bereitstellen von benutzerdefinierten Modellen
- Migrieren zur Modellbereitstellung
- Migration von optimierten LLM-Serving-Endpunkten auf bereitgestellten Durchsatz