Unterstützte Modelle für Pay-per-Token
Wichtig
Nur die Modelle GTE Large (En) und Meta Llama 3.1 70B Instruct sind in Pay-per-Token EU- und US-unterstützten Regionen verfügbar.
Siehe Foundation Model-APIs-Grenzwerte für die Pay-per-Token-Modelle, die nur in US-Regionen unterstützt werden.
In diesem Artikel werden die neuesten offenen Modelle beschrieben, die von den Databricks Foundation Model-APIs unterstützt werden.
Sie können Abfrageanforderungen an diese Modelle senden, indem Sie die in Ihrem Databricks-Arbeitsbereich verfügbaren Endpunkte für tokenbasierte Bezahlung verwenden. Informationen zu den Namen der zu verwendenden Modellen finden Sie unter Abfragegenerive KI-Modelle und tabelle mit unterstützten Pay-per-Token-Modellen .
Zusätzlich zur Unterstützung von Modellen im Pay-per-Token-Modus bieten Foundation Model-APIs auch den bereitgestellten Durchsatzmodus. Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Dieser Modus unterstützt alle Modelle einer Modellarchitekturfamilie (z. B. DBRX-Modelle), einschließlich der optimierten und benutzerdefinierten vortrainierten Modelle, die im Modus für tokenbasierte Bezahlung unterstützt werden. Die Liste der unterstützten Architekturen finden Sie unter Foundation Model-APIs mit bereitgestelltem Durchsatz.
Sie können mit diesen unterstützten Modellen mit dem KI-Playground interagieren.
Meta Llama 3.1 405B Instruct
Wichtig
Die Verwendung dieses Modells mit Foundation Model-APIs befindet sich in der Public Preview. Wenden Sie sich an Ihr Databricks-Kontoteam, wenn bei Verwendung dieses Modells Endpunktfehler oder Stabilisierungsfehler auftreten.
Wichtig
Meta Llama 3.1 ist unter der LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.
Meta-Llama-3.1-405B-Instruct ist die größte offen verfügbare und hochmoderne LLM-Modell (Large Language Model, großes Sprachmodell), das von Meta erstellt und trainiert und das von Azure Machine Learning mithilfe des AzureML-Modellkatalogs verteilt wird. Mithilfe dieses Modells können Kunden neue Funktionen nutzen, wie erweiterte mehrstufige Begründung und hochwertige synthetische Datengenerierung. Dieses Modell ist in Bezug auf die Qualität mit GPT-4-Turbo wettbewerbsfähig.
Wie Meta-Llama-3.1-70B-Instruct verfügt dieses Modell über einen Kontext von 128.000 Tokens und Unterstützung in zehn Sprachen. Das Modell ist auf die menschlichen Präferenzen für Hilfestellung und Sicherheit abgestimmt und für Dialoganwendungen optimiert. Erfahren Sie mehr über die Meta Llama 3.1-Modelle.
Ähnlich wie bei anderen großen Sprachmodellen (LLMs) können Llama-3.1-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.
DBRX Instruct
Wichtig
DBRX wird im Rahmen und vorbehaltlich der Open-Model-Lizenz von Databricks (Copyright © Databricks, Inc.) bereitgestellt. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen (einschließlich der Acceptable Use Policy von Databricks) sicherzustellen.
DBRX Instruct ist ein hochmodernes MoE-Sprachmodell (Mixture of Experts), das von Databricks trainiert wird.
Das Modell übertrifft die Leistung etablierter Open-Source-Modelle hinsichtlich Standardbenchmarks und zeichnet sich bei einigen Aufgaben im Zusammenhang mit natürlicher Sprache aus (z. B. Textzusammenfassung, Beantwortung von Fragen, Extrahierung und Programmierung).
DBRX Instruct kann Eingaben mit bis zu 32.000 Tokens verarbeiten und Ausgaben mit bis zu 4.000 Tokens generieren. Dank der MoE-Architektur ist DBRX Instruct für Rückschlüsse sehr effizient, wobei nur 36 Milliarden Parameter von insgesamt 132 Milliarden trainierten Parametern aktiviert werden. Der Endpunkt für tokenbasierte Bezahlung, der dieses Modell bereitstellt, weist eine Begrenzung von einer Abfrage pro Sekunde auf. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung.
Ähnlich wie bei anderen umfassenden Sprachmodellen können DBRX Instruct-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.
DBRX-Modelle verwenden den folgenden Standardsystemprompt, um die Relevanz und Genauigkeit in Modellantworten sicherzustellen:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Meta Llama 3.1 70B Instruct
Wichtig
Ab dem 23. Juli 2024 ersetzt Meta-Llama-3.1-70B-Instruct die Unterstützung für Meta-Llama-3-70B-Instruct in Pay-per-Token-Endpunkten von Foundation Model-APIs.
Wichtig
Meta Llama 3.1 ist unter der LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.
Meta-Llama-3.1-70B-Instruct ist ein hochmodernes großes Sprachmodell mit einem Kontext von 128.000 Tokens, das von Meta erstellt und trainiert wurde. Das Modell bietet Unterstützung für zehn Sprachen, ist auf die menschlichen Präferenzen für Hilfestellung und Sicherheit abgestimmt und für Dialoganwendungen optimiert. Erfahren Sie mehr über die Meta Llama 3.1-Modelle.
Ähnlich wie bei anderen großen Sprachmodellen (LLMs) können Llama-3-Ausgaben einige Fakten auslassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung von Retrieval Augmented Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.
Mixtral-8x7B Instruct
Mixtral-8x7B Instruct ist eine hochwertige, platzsparende Mischung aus einem Expertenmodell (SMoE), das mit Mistral AI trainiert wurde. Mixtral-8x7B Instruct kann für eine Vielzahl von Aufgaben wie die Beantwortung von Fragen, Zusammenfassung und Extraktion verwendet werden.
Mixtral kann Kontextlängen von bis zu 32.000 Token verarbeiten. Mixtral kann Englisch, Französisch, Italienisch, Deutsch und Spanisch verarbeiten. Mixtral ist bei den meisten Benchmarks Llama 2 70B und GPT3.5 mindestens ebenbürtig (Mixtral-Leistung), aber bei Rückschlüssen viermal schneller als Llama 70B.
Ähnlich wie bei anderen großen Sprachmodellen sollte das Mixtral-8x7B-Strukturmodell nicht darauf angewiesen werden, faktengenaue Informationen zu erzeugen. Auch wenn große Anstrengungen unternommen wurden, um die Daten für das Vorabtraining zu bereinigen, ist es möglich, dass dieses Modell fasche, tendenziöse oder anderweitig anstößige Ausgaben erzeugt. Um das Risiko zu verringern, verwendet Databricks standardmäßig eine Variante der Systemeingabeaufforderung im abgesicherten Modus von Mistral.
GTE Large (En)
Wichtig
GTE Large (En) wird unter und vorbehaltlich der Apache 2.0-Lizenz, Copyright © The Apache Software Foundation gestellt, Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.
General Text Embedding (GTE) ist ein Texteinbettungsmodell, das beliebigen Text einem 1024-dimensionalen Einbettungsvektor und einem Einbettungsfenster mit 8192 Tokens zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs sowie für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert keine normalisierten Einbettungen.
Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Retrieval Augmented Generation (RAG)-Fälle verwendet werden. GTE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.
BGE Large (En)
BAAI General Embedding (BGE) ist ein Texteinbettungsmodell, das beliebigen Text einem 1024-dimensionalen Einbettungsvektor und einem Einbettungsfenster mit 512 Tokens zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs sowie für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert normalisierte Einbettungen.
Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Retrieval Augmented Generation (RAG)-Fälle verwendet werden. BGE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.
In RAG-Anwendungen können Sie möglicherweise die Leistung Ihres Abrufsystems verbessern, indem Sie einen Anweisungsparameter einschließen. Die BGE-Autor*innen empfehlen, die "Represent this sentence for searching relevant passages:"
-Anweisung für Abfrageeinbettungen zu testen, obwohl ihre Leistungsauswirkungen themenabhängig sind.