Freigeben über


Unterstützte Modelle für Pay-per-Token

Wichtig

In den unterstützten Regionen in Europa und den USA mit tokenbasierter Bezahlung stehen nur die Modelle GTE Large (En) und Meta Llama 3.3 70B Instruct zur Verfügung.

Unter Foundation Model-APIs-Grenzwerte finden Sie die Modelle mit tokenbasierter Bezahlung, die nur in Regionen in den USA unterstützt werden.

In diesem Artikel werden die neuesten offenen Modelle beschrieben, die von den Databricks Foundation Model-APIs im Pay-per-Token-Modus unterstützt werden.

Sie können Abfrageanforderungen an diese Modelle senden, indem Sie die in Ihrem Databricks-Arbeitsbereich verfügbaren Pay-per-Token-Endpunkte verwenden. Die Namen der zu verwendenden Modellendpunkte finden Sie unter Abfragen von Basismodellen und Tabelle der unterstützten Pay-per-Token-Modelle.

Zusätzlich zur Unterstützung von Modellen im Pay-per-Token-Modus bieten Foundation Model-APIs auch den Modus mit bereitgestelltem Durchsatz. Databricks empfiehlt den bereitgestellten Durchsatz für Produktionsworkloads. Dieser Modus unterstützt alle Modelle einer Modellarchitekturfamilie (z. B. DBRX-Modelle), einschließlich der fein abgestimmten und benutzerdefinierten vortrainierten Modelle, die im Pay-per-Token-Modus unterstützt werden. Eine Liste der unterstützten Architekturen finden Sie unter Provisioned Throughput Foundation Model-APIs.

Sie können mit diesen unterstützten Modellen mit dem AI Playgroundinteragieren.

Meta Llama 3.3 70B Instruct

Wichtig

Ab dem 11. Dezember 2024 ersetzt Meta-Llama-3.3-70B-Instruct die Unterstützung von Meta-Llama-3.1-70B-Instruct in den Pay-per-Token-Endpunkten der Foundation Model APIs.

Wichtig

Meta Llama 3.3 ist unter der LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, ihre Einhaltung der Bedingungen dieser Lizenz und der Llama 3.3 Acceptable Use Policysicherzustellen.

Meta-Llama-3.3-70B-Instruct ist ein hochmodernes großes Sprachmodell mit einem Kontext von 128.000 Token, die von Meta erstellt und trainiert wurden. Das Modell unterstützt mehrere Sprachen und ist für Dialoganwendungsfälle optimiert. Erfahren Sie mehr über die Meta Llama 3.3.

Ähnlich wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama-3 einige Fakten weglassen und gelegentlich falsche Informationen erzeugen. Databricks empfiehlt die Verwendung der abrufgestützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

Meta Llama 3.1 405B Instruct

Wichtig

Die Verwendung dieses Modells mit Foundation-Modell-APIs befindet sich in Public Preview. Wenden Sie sich an Ihr Databricks-Kontoteam, wenn bei Verwendung dieses Modells Endpunktfehler oder Stabilisierungsfehler auftreten.

Wichtig

Meta Llama 3.1 ist unter der LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. lizenziert. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

Meta-Llama-3.1-405B-Instruct ist das größte offen verfügbare, hochmoderne großsprachige Modell, das von Meta erstellt und trainiert wird und von Azure Machine Learning mithilfe des AzureML-Modellkatalogs verteilt wird. Mit diesem Modell können Kunden neue Funktionen wie erweitertes, mehrstufiges Denken und hochwertige synthetische Datengenerierungfreischalten. Dieses Modell ist mit GPT-4-Turbo in Bezug auf Qualität wettbewerbsfähig.

Wie Meta-Llama-3.1-70B-Instruct verfügt dieses Modell über einen Kontext von 128.000 Token und unterstützung in zehn Sprachen. Sie richtet sich an menschliche Vorlieben für Hilfreichkeit und Sicherheit und ist für Dialoganwendungsfälle optimiert. Erfahren Sie mehr über die Meta Llama 3.1 Modelle.

Ähnlich wie bei anderen großen Sprachmodellen kann die Ausgabe von Llama-3.1 einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der retrieval-augmentierten Generation (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

DBRX Instruct

Wichtig

Dieses Modell wird nach dem 30. April 2025 nicht mehr unterstützt. Informationen zum empfohlenen Modellersatz finden Sie unter Eingestellte Modelle.

Wichtig

DBRX wird unter und vorbehaltlich der Databricks Open Model License, Copyright © Databricks, Inc. bereitgestellt. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen zu gewährleisten, einschließlich der Databricks Acceptable Use Policy.

DBRX Instruct ist ein hochmodernes Sprachmodell des Typs Mixture of Experts (MoE), das von Databricks trainiert wird.

Das Modell übertrifft etablierte Open-Source-Modelle bei Standard-Benchmarks und zeichnet sich bei einer breiten Palette an Aufgaben der natürlichen Sprachverarbeitung aus, z. B. Textzusammenfassung, Fragebeantwortung, Extraktion und Kodierung.

DBRX Instruct kann Eingaben mit einer Länge von bis zu 32k Token verarbeiten und erzeugt Ausgaben von bis zu 4k Token. Dank der MoE-Architektur ist DBRX Instruct für Rückschlüsse sehr effizient, wobei nur 36 Milliarden Parameter von insgesamt 132 Milliarden trainierten Parametern aktiviert werden. Der Endpunkt für Pay-per-Token, der diesem Modell dient, hat ein Zinslimit von einer Abfrage pro Sekunde. Weitere Informationen finden Sie unter Grenzwerte und Regionen für die Modellbereitstellung.

Ähnlich wie bei anderen großen Sprachmodellen kann die DBRX Instruct-Ausgabe einige Fakten weglassen und gelegentlich falsche Informationen liefern. Databricks empfiehlt die Verwendung der abrufunterstützten Generierung (RAG) in Szenarien, in denen Genauigkeit besonders wichtig ist.

DBRX-Modelle verwenden die folgende Standardsystemaufforderung, um die Relevanz und Genauigkeit in Modellantworten sicherzustellen:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Wichtig

Dieses Modell wird nach dem 30. April 2025 nicht mehr unterstützt. Informationen zum empfohlenen Modellersatz finden Sie unter Eingestellte Modelle.

Mixtral-8x7B Instruct ist ein hochwertiges, platzsparendes SMoE-Modell (Sparse Mixture of Experts), das mit Mistral AI trainiert wurde. Mixtral-8x7B Instruct kann für eine Vielzahl von Aufgaben wie Fragebeantwortung, Zusammenfassung und Extraktion verwendet werden.

Mixtral kann Kontextlängen bis zu 32k-Token verarbeiten. Mixtral kann Englisch, Französisch, Italienisch, Deutsch und Spanisch verarbeiten. Mixtral ist bei den meisten Benchmarks Llama 2 70B und GPT3.5 mindestens ebenbürtig (Mixtral-Leistung), aber bei Rückschlüssen viermal schneller als Llama 70B.

Ähnlich wie bei anderen großen Sprachmodellen sollte man sich nicht darauf verlassen, dass das Mixtral-8x7B Instruct-Modell faktengenaue Informationen erzeugt. Auch wenn große Anstrengungen unternommen wurden, um die Daten für das Vorabtraining zu bereinigen, ist es möglich, dass dieses Modell fasche, tendenziöse oder anderweitig anstößige Ausgaben erzeugt. Um das Risiko zu reduzieren, verwendet Databricks standardmäßig eine Variante der Sicherheitsmodus-Systemaufforderung von Mistral.

GTE Large (En)

Wichtig

GTE Large (En) wird unter und vorbehaltlich der Apache 2.0 Lizenzbereitgestellt, Copyright © The Apache Software Foundation. Alle Rechte vorbehalten. Kunden sind dafür verantwortlich, die Einhaltung anwendbarer Modelllizenzen sicherzustellen.

allgemeine Texteinbettung (GENERAL Text Embedding, GTE) ist ein Texteinbettungsmodell, das beliebigen Text einem Vektor mit 1024 Dimensionen und einem Einbettungsfenster von 8192-Token zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs und für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert keine normalisierten Einbettungen.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Einsatzfälle der retrieval-augmentierten Generierung (RAG) verwendet werden. GTE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext einer LLM verwendet werden können.

BGE Large (En)

BAAI General Embedding (BGE)- ist ein Texteinbettungsmodell, das jeden Text einem Vektor mit 1024 Dimensionen und einem Einbettungsfenster von 512 Token zuordnen kann. Diese Vektoren können in Vektordatenbanken für LLMs und für Aufgaben wie Abrufen, Klassifizierung, Fragebeantwortung, Clustering oder semantische Suche verwendet werden. Dieser Endpunkt dient der englischen Version des Modells und generiert normalisierte Einbettungen.

Einbettungsmodelle sind besonders effektiv, wenn sie zusammen mit LLMs für Anwendungsfälle der abrufunterstützten Generierung (RAG) verwendet werden. BGE kann verwendet werden, um relevante Textausschnitte in großen Abschnitten von Dokumenten zu finden, die im Kontext eines LLM verwendet werden können.

In RAG-Anwendungen können Sie möglicherweise die Leistung Ihres Abrufsystems verbessern, indem Sie einen Anweisungsparameter einschließen. Die BGE-Autoren empfehlen, die Anweisung "Represent this sentence for searching relevant passages:" für Abfrageeinbettungen zu testen, obwohl ihre Leistungsauswirkungen domänenabhängig sind.

Weitere Ressourcen