Delen via


Ondersteunde modellen voor betalen per token

Belangrijk

Alleen de MODELLEN GTE Large (En) en Meta Llama 3.1 70B Instruct zijn beschikbaar in regio's met betalen per token in de EU en de VS.

Zie Limieten voor Foundation-model-API's voor de modellen met betalen per token die alleen worden ondersteund in amerikaanse regio's.

In dit artikel worden de geavanceerde open modellen beschreven die worden ondersteund door de Databricks Foundation-model-API's in de modus betalen per token.

U kunt queryaanvragen naar deze modellen verzenden met behulp van de eindpunten voor betalen per token die beschikbaar zijn in uw Databricks-werkruimte. Zie Querygeneratieve AI-modellen en tabel met ondersteunde modellen met betalen per token voor de namen van de modeleindpunten die moeten worden gebruikt.

Naast ondersteunende modellen in de modus Betalen per token biedt Foundation Model-API's ook de ingerichte doorvoermodus. Databricks raadt ingerichte doorvoer aan voor productieworkloads. Deze modus ondersteunt alle modellen van een modelarchitectuurfamilie (bijvoorbeeld DBRX-modellen), inclusief de nauwkeurig afgestemde en aangepaste vooraf getrainde modellen die worden ondersteund in de modus betalen per token. Zie Ingerichte Doorvoer Foundation Model-API's voor de lijst met ondersteunde architecturen.

U kunt met deze ondersteunde modellen communiceren met behulp van de AI Playground.

Meta Llama 3.1 405B Instruct

Belangrijk

Het gebruik van dit model met Foundation Model-API's bevindt zich in openbare preview. Neem contact op met uw Databricks-accountteam als er eindpuntfouten of stabilisatiefouten optreden bij het gebruik van dit model.

Belangrijk

Meta Llama 3.1 is gelicentieerd onder de LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

Meta-Llama-3.1-405B-Instruct is het grootste open beschikbare state-of-the-art grote taalmodel, gebouwd en getraind door Meta, en wordt gedistribueerd door Azure Machine Learning met behulp van de AzureML-modelcatalogus. Het gebruik van dit model stelt klanten in staat nieuwe mogelijkheden te ontgrendelen, zoals geavanceerde, redenering in meerdere stappen en synthetische gegevensgeneratie van hoge kwaliteit. Dit model is concurrerend met GPT-4-Turbo in termen van kwaliteit.

Net als Meta-Llama-3.1-70B-Instruct heeft dit model een context van 128.000 tokens en ondersteuning in tien talen. Het is afgestemd op menselijke voorkeuren voor behulpzaamheid en veiligheid en is geoptimaliseerd voor gebruiksscenario's voor dialoog. Meer informatie over de Meta Llama 3.1-modellen.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-3.1 enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

DBRX Instruct

Belangrijk

DBRX wordt geleverd onder en onderhevig aan de Databricks Open Model License, Copyright © Databricks, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties, waaronder het Beleid voor acceptabel gebruik van Databricks.

DBRX Instruct is een state-of-the-art mix van experts (MoE) taalmodel dat is getraind door Databricks.

Het model presteert op basis van opensource-modellen op standaardbenchmarks en excelt op een brede reeks taken in natuurlijke taal, zoals: tekstsamenvatting, vragen beantwoorden, extraheren en coderen.

DBRX Instruct kan maximaal 32k tokens van invoerlengte verwerken en outputs van maximaal 4k tokens genereren. Dankzij de MoE-architectuur is DBRX Instruct zeer efficiënt voor deductie, waarbij slechts 36B-parameters worden geactiveerd van in totaal 132B getrainde parameters. Het eindpunt voor betalen per token dat voor dit model wordt gebruikt, heeft een frequentielimiet van één query per seconde. Zie Limieten en regio's voor modelbediening.

Net als bij andere grote taalmodellen kan de DBRX Instruct-uitvoer bepaalde feiten weglaten en af en toe onwaar-informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

DBRX-modellen gebruiken de volgende standaardsysteemprompt om relevantie en nauwkeurigheid in modelreacties te garanderen:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Meta Llama 3.1 70B Instruct

Belangrijk

Vanaf 23 juli 2024 vervangt Meta-Llama-3.1-70B-Instruct ondersteuning voor Meta-Llama-3-70B-Instruct in Foundation Model-API's betalen per token.

Belangrijk

Meta Llama 3.1 is gelicentieerd onder de LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

Meta-Llama-3.1-70B-Instruct is een state-of-the-art grote taalmodel met een context van 128.000 tokens die zijn gebouwd en getraind door Meta. Het model biedt ondersteuning voor tien talen, is afgestemd op menselijke voorkeuren voor behulpzaamheid en veiligheid en is geoptimaliseerd voor gebruiksscenario's voor dialoog. Meer informatie over de Meta Llama 3.1-modellen.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-3 enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's waarin nauwkeurigheid vooral belangrijk is.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct is een hoogwaardige sparse mix van experts model (SMoE) getraind door Mistral AI. Mixtral-8x7B Instruct kan worden gebruikt voor verschillende taken, zoals vraag-antwoord, samenvatting en extractie.

Mixtral kan contextlengten tot 32.000 tokens verwerken. Mixtral kan Engels, Frans, Italiaans, Duits en Spaans verwerken. Mixtral komt overeen of presteert beter dan Llama 2 70B en GPT3.5 op de meeste benchmarks (Mixtral prestaties), terwijl het vier keer sneller is dan Llama 70B tijdens deductie.

Net als bij andere grote taalmodellen mag het Mixtral-8x7B Instruct-model niet worden gebruikt om feitelijk nauwkeurige informatie te produceren. Hoewel er grote inspanningen zijn ondernomen om de voortrainingsgegevens op te schonen, is het mogelijk dat dit model lewd, vooroordelen of anderszins aanstootgevende uitvoer kan genereren. Om het risico te verminderen, gebruikt Databricks standaard een variant van de systeemprompt in de veilige modus van Mistral.

GTE Large (en)

Belangrijk

GTE Large (En) wordt verstrekt onder en onderworpen aan de Apache 2.0-licentie, Copyright © The Apache Software Foundation, alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

General Text Embedding (GTE) is een model voor het insluiten van tekst dat elke tekst kan toewijzen aan een insluitingsvector van 1024 dimensies en een insluitvenster van 8192 tokens. Deze vectoren kunnen worden gebruikt in vectordatabases voor LLM's en voor taken zoals ophalen, classificatie, vragen beantwoorden, clusteren of semantische zoekopdrachten. Dit eindpunt dient de Engelse versie van het model en genereert geen genormaliseerde insluitingen.

Het insluiten van modellen is met name effectief wanneer ze worden gebruikt in combinatie met LLM's voor het ophalen van augmented generation-use cases (RAG). GTE kan worden gebruikt om relevante tekstfragmenten te vinden in grote stukken documenten die kunnen worden gebruikt in de context van een LLM.

BGE Large (En)

BAAI General Embedding (BGE) is een model voor het insluiten van tekst dat elke tekst kan toewijzen aan een insluitingsvector van 1024 dimensies en een insluitvenster van 512 tokens. Deze vectoren kunnen worden gebruikt in vectordatabases voor LLM's en voor taken zoals ophalen, classificatie, vragen beantwoorden, clusteren of semantische zoekopdrachten. Dit eindpunt dient de Engelse versie van het model en genereert genormaliseerde insluitingen.

Het insluiten van modellen is met name effectief wanneer ze worden gebruikt in combinatie met LLM's voor het ophalen van augmented generation-use cases (RAG). BGE kan worden gebruikt om relevante tekstfragmenten te vinden in grote stukken documenten die kunnen worden gebruikt in de context van een LLM.

In RAG-toepassingen kunt u mogelijk de prestaties van uw ophaalsysteem verbeteren door een instructieparameter op te geven. De BGE-auteurs raden aan de instructie "Represent this sentence for searching relevant passages:" voor het insluiten van query's uit te voeren, hoewel de invloed op de prestaties afhankelijk is van een domein.

Aanvullende bronnen