Konzepte: Kleine und große Sprachmodelle
In diesem Artikel erfahren Sie mehr über kleine und große Sprachmodelle, z. B. wann sie verwendet werden und wie Sie sie mit Ihren KI-Workflows (künstliche Intelligenz) und Machine Learning-Workflows in Azure Kubernetes Service (AKS) verwenden können.
Was sind Sprachmodelle?
Sprachmodelle sind leistungsstarke Machine Learning-Modelle, die für NLP-Aufgaben (Natural Language Processing, linguistische Datenverarbeitung) verwendet werden, z. B. zur Textgenerierung und Stimmungsanalyse. Diese Modelle stellen natürliche Sprache basierend auf der Wahrscheinlichkeit des Vorkommens von Wörtern oder Wortsequenzen in einem bestimmten Kontext dar.
Herkömmliche Sprachmodelle wurden in überwachten Umgebungen für Forschungszwecke verwendet, in denen die Modelle mit gut bezeichneten Textdatasets für bestimmte Aufgaben trainiert werden. Vortrainierte Sprachmodelle ermöglichen einen einfachen Einstieg in die Verwendung von KI und haben in den letzten Jahren an Verbreitung gewonnen. Diese Modelle werden mithilfe von Deep Neural Networks anhand von umfangreichen Textkorpora aus dem Internet trainiert und können zur Verwendung für spezifische Aufgaben mit kleineren Datasets optimiert werden.
Die Größe eines Sprachmodells hängt von der Anzahl von Parametern oder Gewichtungen des Modells ab, die bestimmen, wie es Eingabedaten verarbeitet und Ausgaben generiert. Parameter werden während des Trainingsprozesses gelernt, indem die Gewichtungen innerhalb der Ebenen des Modells angepasst werden, um die Differenz zwischen den Vorhersagen des Modells und den tatsächlichen Daten zu minimieren. Je mehr Parameter ein Modell aufweist, desto komplexer und aussagekräftiger ist es. Mit der Anzahl von Parametern nimmt jedoch auch der Rechenaufwand für das Training und die Verwendung des Modells zu.
Kleine Sprachmodelle weisen in der Regel weniger als 10 Milliarden Parameter auf, während große Sprachmodelle über mehr als 10 Milliarden Parameter verfügen. Beispielsweise bietet die neue Phi-3-Modellfamilie von Microsoft drei Versionen mit unterschiedlichen Größen: Mini (3,8 Milliarden Parameter), Klein (7 Milliarden Parameter) und Mittel (14 Milliarden Parameter).
Verwendung von kleinen Sprachmodellen
Vorteile
Kleine Sprachmodelle sind eine gute Wahl, wenn Sie Folgendes von Ihren Modellen erwarten:
- Schnelleres und kostengünstigeres Trainieren und Ausführen: Diese Modelle erfordern weniger Daten und Computeleistung.
- Einfache Bereitstellung und Wartung: Diese Modelle haben einen geringeren Speicherbedarf.
- Geringere Anfälligkeit für Überanpassung: Eine Überanpassung liegt vor, wenn ein Modell das „Rauschen“ (Füllwörter) oder spezifische Muster der Trainingsdaten lernt und neue Daten nicht generalisieren kann.
- Interpretierbarkeit und Erklärbarkeit: Diese Modelle enthalten weniger Parameter und Komponenten, die verstanden und analysiert werden müssen.
Anwendungsfälle
Kleine Sprachmodelle eignen sich für Anwendungsfälle, die Folgendes erfordern:
- Begrenzte Daten oder Ressourcen und Sie benötigen eine schnelle und einfache Lösung
- Gut definierte oder eingeschränkte Aufgaben und Sie benötigen wenig Kreativität im Hinblick auf die Ausgabe
- Aufgaben mit hoher Genauigkeit und geringer Anzahl von Abrufen und Genauigkeit und Qualität sind für Sie wichtiger als Abdeckung und Quantität
- Vertrauliche oder regulierte Aufgaben und Sie müssen die Transparenz und Verantwortlichkeit für das Modell sicherstellen
In der folgenden Tabelle sind einige beliebte, leistungsfähige kleine Sprachmodelle aufgeführt:
Modellfamilie | Modellgrößen (Anzahl von Parametern) | Softwarelizenz |
---|---|---|
Microsoft Phi-3 | Phi-3-mini (3,8 Milliarden), Phi-3-small (7 Milliarden) | MIT License |
Microsoft Phi-2 | Phi-2 (2,7 Milliarden) | MIT License |
Falcon | Falcon-7B (7 Milliarden) | Apache 2.0-Lizenz |
Verwendung von großen Sprachmodellen
Vorteile
Große Sprachmodelle sind eine gute Wahl, wenn Sie Folgendes von Ihren Modellen erwarten:
- Leistungsstark und aussagekräftig: Diese Modelle können komplexere Muster und Beziehungen in den Daten erfassen.
- Allgemein und anpassbar: Diese Modelle können ein breiteres Aufgabenspektrum unterstützen und Wissen über Domänen hinweg übertragen.
- Stabil und konsistent: Diese Modelle können „verrauschte“ oder unvollständige Eingaben verarbeiten und häufige Fehler sowie Verzerrungen vermeiden.
Anwendungsfälle
Große Sprachmodelle eignen sich für Anwendungsfälle, die Folgendes erfordern:
- Umfassende Daten und Ressourcen und Sie verfügen über das notwendige Budget, um eine komplexe Lösung zu erstellen und zu warten
- Aufgaben mit geringer Genauigkeit und hoher Anzahl von Abrufen und Abdeckung und Quantität sind für Sie wichtiger als Genauigkeit und Qualität
- Anspruchsvolle oder explorative Aufgaben und Sie möchten die Kapazität des Modells zum Lernen und Anpassen nutzen
In der folgenden Tabelle sind einige beliebte, leistungsfähige große Sprachmodelle aufgeführt:
Modellfamilie | Modellgrößen (Anzahl von Parametern) | Softwarelizenz |
---|---|---|
Microsoft Phi-3 | Phi-3-medium (14 Milliarden) | MIT License |
Falcon | Falcon-40B (40 Milliarden) | Apache 2.0-Lizenz |
Experimentieren mit kleinen und großen Sprachmodellen in AKS
Der Kubernetes KI-Toolchain-Betreiber (Kubernetes AI Toolchain Operator, KAITO) ist ein Open-Source-Betreiber, der Bereitstellungen von kleinen und großen Sprachmodellen in Kubernetes-Clustern automatisiert. Das KAITO-Add-On für AKS vereinfacht das Onboarding und reduziert die Rückschlusszeit für Open-Source-Modelle in Ihren AKS-Clustern. Das Add-On stellt automatisch korrekt dimensionierte GPU-Knoten bereit und richtet den zugeordneten Rückschlussserver als Endpunktserver für Ihr ausgewähltes Modell ein.
Weitere Informationen finden Sie unter Bereitstellen eines KI-Modells auf AKS mit dem KI-Toolchain-Betreiber. Im GitHub-Repository für das KAITO-Modell finden Sie eine Reihe unterstützter kleiner und großer Sprachmodelle, die Sie für die ersten Schritte mit Ihren Rückschlussworkflows nutzen können.
Wichtig
Open-Source-Software wird überall in AKS-Dokumenten und -Beispielen erwähnt. Software, die Sie bereitstellen, ist von AKS-Vereinbarungen zum Servicelevel, der eingeschränkten Garantie und dem Azure-Support ausgeschlossen. Wenn Sie Open-Source-Technologie zusammen mit AKS nutzen, nutzen Sie die Supportoptionen, die von den jeweiligen Communitys und Projektbetreuenden angeboten werden, um einen Plan zu entwickeln.
Das GitHub-Repository von Ray beschreibt z. B. mehrere Plattformen, die in Antwortzeit, Zweck und Supportebene variieren.
Microsoft übernimmt die Verantwortung für die Erstellung der Open-Source-Pakete, die wir in AKS bereitstellen. Diese Verantwortung schließt den vollständigen Besitz des Build-, Scan-, Signatur-, Validierungs- und Hotfixprozesses sowie die Kontrolle über die Binärdateien in Containerimages ein. Weitere Informationen finden Sie unter Sicherheitsrisikomanagement für AKS und AKS-Supportabdeckung.
Nächste Schritte
Weitere Informationen zu containerisierten KI- und Machine Learning-Workloads in AKS finden Sie in den folgenden Artikeln:
Azure Kubernetes Service