Große Sprachmodelle (Large Language Models, LLMs) auf Databricks
Azure Databricks vereinfacht das Abrufen und Erstellen von öffentlich verfügbaren großen Sprachmodellen.
Databricks Runtime for Machine Learning enthält Bibliotheken wie Hugging Face Transformers und LangChain, die es Ihnen ermöglichen, vorhandene vortrainierte Modelle oder andere Open-Source-Bibliotheken in Ihre Workflows zu integrieren. Hier können Sie die Azure Databricks-Plattformfunktionen nutzen, um LLMs mit Ihren eigenen Daten zu optimieren und so eine bessere Domänenleistung zu erzielen.
Darüber hinaus bietet Azure Databricks integrierte Funktionen für SQL-Benutzer*innen, um mithilfe der KI-Funktion auf LLMs wie Azure OpenAI und OpenAI zuzugreifen und damit zu experimentieren.
Training von Mosaic AI-Modellen
Wichtig
Dieses Feature befindet sich in der Public Preview. Wenden Sie sich an Ihr Databricks-Kontoteam, um sich für die Public Preview zu registrieren.
Mosaik AI Model Training (früher Foundation Model Training) ist eine einfache Schnittstelle zum Databricks-Schulungsstapel, um ein vollständiges Modell fine-Tuning durchzuführen.
Sie können die folgenden Aktionen mit Mosaik AI Model Training ausführen:
- Optimieren Sie ein Modell mit Ihren benutzerdefinierten Daten, wobei die Prüfpunkte in MLflow gespeichert werden. Sie behalten die vollständige Kontrolle über das optimierte Modell.
- Registrieren Sie das Modell automatisch in Unity Catalog, sodass eine einfache Bereitstellung per Modellbereitstellung möglich ist.
- Optimieren Sie ein fertiges, proprietäres Modell durch Laden der Gewichtungen eines zuvor optimierten Modells.
Siehe Mosaic AI Model Training für Foundation-Modelle.
Hugging Face Transformers
Mit Hugging Face Transformers in Databricks können Sie Ihre Batchanwendungen für die linguistische Datenverarbeitung (Natural Language Processing, NLP) aufskalieren und Modelle für Anwendungen für große Sprachmodelle optimieren.
Die Hugging Face-Bibliothek transformers
ist auf Databricks Runtime 10.4 LTS ML und höher vorinstalliert. Viele der beliebten NLP-Modelle funktionieren am besten auf GPU-Hardware, sodass Sie mit aktueller GPU-Hardware möglicherweise die beste Leistung erzielen, es sei denn, Sie verwenden ein speziell für die Verwendung auf CPUs optimiertes Modell.
DSPy
DSPy automatisiert die Eingabeaufforderungsoptimierung, indem benutzerdefinierte Signaturen für natürliche Sprachen in vollständige Anweisungen und ein paar Beispiele übersetzt werden.
Beispiele zur Verwendung von DSPy finden Sie unter Build genAI-Apps mit DSPy auf Azure Databricks .
LangChain
LangChain ist als experimentelle MLflow-Variante verfügbar, mit der LangChain-Kunden die robusten Tools und Experimentverfolgungsfunktionen von MLflow direkt aus der Azure Databricks-Umgebung nutzen können.
LangChain ist ein Softwareframework, das entwickelt wurde, um Anwendungen zu erstellen, die große Sprachmodelle (LLMs) verwenden und diese mit externen Daten kombinieren, um mehr Trainingskontext für Ihre LLMs zu schaffen.
Databricks Runtime ML beinhaltet langchain
in Databricks Runtime 13.1 ML und höher.
Erfahren Sie mehr über Databricks-spezifische LangChain-Integrationen.
KI-Funktionen
Wichtig
Dieses Feature befindet sich in der Public Preview.
KI-Funktionen sind integrierte SQL-Funktionen, die SQL-Benutzern Folgendes ermöglichen:
- Verwenden Sie Databricks Foundation Model-APIs, um verschiedene Aufgaben mit den Daten Ihres Unternehmens durchzuführen.
- Greifen Sie über OpenAI auf externe Modelle wie GPT-4 zu und experimentieren Sie damit.
- Von Mosaic AI Model Serving gehostete Abfragemodelle, die Endpunkte aus SQL-Abfragen bereitstellen.