Ondersteunde modellen voor betalen per token

Artikel
01/02/2025

Belangrijk

Alleen de GTE Large (En) en Meta Llama 3.3 70B Instruct modellen zijn beschikbaar in betalen per token ondersteunde regio's.

Zie Foundation Model API-limieten voor de per-token-betalingsmodellen die alleen worden ondersteund in Amerikaanse regio's.

In dit artikel worden de geavanceerde open modellen beschreven die worden ondersteund door de Databricks Foundation-model-API's in de modus betalen per token.

U kunt queryaanvragen naar deze modellen verzenden met behulp van de eindpunten voor betalen per token die beschikbaar zijn in uw Databricks-werkruimte. Zie Query Foundation-modellen en ondersteunde modellen met betalen per token table voor de namen van de modeleindpunten die moeten worden gebruikt.

Naast het ondersteunen van modellen in de betalen-per-token modus, biedt de Foundation Model-API ook de gereserveerde doorvoermodus aan. Databricks raadt geprovisioneerde doorvoer aan voor productiewerkbelastingen. Deze modus ondersteunt alle modellen van een modelarchitectuurfamilie (bijvoorbeeld DBRX-modellen), inclusief de nauwkeurig afgestemde en aangepaste vooraf getrainde modellen die worden ondersteund in de modus betalen per token. Zie Provisioned Throughput Foundation Model API's voor de list van ondersteunde architecturen.

U kunt met deze ondersteunde modellen communiceren met behulp van de AI Playground-.

Meta Llama 3.3 70B Instruct

Belangrijk

Vanaf 11 december 2024 vervangt Meta-Llama-3.3-70B-Instruct de ondersteuning van Meta-Llama-3.1-70B-Instruct in de pay-per-token-eindpunten van Foundation Model APIs.

Belangrijk

Meta Llama 3.3 is gelicentieerd onder de LLAMA 3.3 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het waarborgen van hun naleving van de voorwaarden van deze licentie en de Llama 3.3 Acceptabel gebruiksbeleid.

Meta-Llama-3.3-70B-Instruct is een state-of-the-art groot taalmodel met een context van 128.000 tokens dat is gebouwd en getraind door Meta. Het model ondersteunt meerdere talen en is geoptimaliseerd voor gebruiksscenario's voor dialoog. Meer informatie over de Meta Llama 3.3.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-3 enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's where nauwkeurigheid vooral belangrijk is.

Meta Llama 3.1 405B Instruct

Belangrijk

Het gebruik van dit model met Foundation Model-API's is in openbare preview-fase. Neem contact op met uw Databricks-accountteam als er eindpuntfouten of stabilisatiefouten optreden bij het gebruik van dit model.

Belangrijk

Meta Llama 3.1 is gelicentieerd onder de LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

Meta-Llama-3.1-405B-Instruct is het grootste open beschikbare state-of-the-art grote taalmodel, gebouwd en getraind door Meta, en wordt gedistribueerd door Azure Machine Learning met behulp van het AzureML-model Catalog. Dankzij het gebruik van dit model kunnen klanten nieuwe mogelijkheden ontgrendelen, zoals geavanceerde, redenering in meerdere stappen en synthetische gegevensgeneratie van hoge kwaliteit. Dit model is concurrerend met GPT-4-Turbo in termen van kwaliteit.

Net als Meta-Llama-3.1-70B-Instruct heeft dit model een context van 128.000 tokens en ondersteuning in tien talen. Het is afgestemd op menselijke voorkeuren voor behulpzaamheid en veiligheid en is geoptimaliseerd voor gebruiksscenario's voor dialoog. Meer informatie over de Meta Llama 3.1-modellen.

Net als bij andere grote taalmodellen kan de uitvoer van Llama-3.1 enkele feiten weglaten en af en toe valse informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's where nauwkeurigheid vooral belangrijk is.

DBRX-instructie

Belangrijk

DBRX wordt geleverd onder en onderhevig aan de Databricks Open Model License, Copyright © Databricks, Inc. Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties, waaronder het beleid Databricks Acceptable Use.

DBRX Instruct is een geavanceerd mengsel van experts (MoE) taalmodel dat is getraind door Databricks.

Het model presteert beter dan in open source-modellen op standaardbenchmarks en excelt op een breed set van taken in natuurlijke taal, zoals: tekstsamenvatting, vraag-antwoord, extractie en codering.

DBRX Instruct kan maximaal 32k tokens van invoerlengte verwerken en outputs van maximaal 4k tokens genereren. Dankzij de MoE-architectuur is DBRX Instruct zeer efficiënt voor inferentie, waarbij slechts 36B parameters van in totaal 132B getrainde parameterswordt geactiveerd. Het eindpunt voor betalen per token dat voor dit model wordt gebruikt, heeft een tarief limit van één query per seconde. Zie Model Serving limieten en regio's.

Net als bij andere grote taalmodellen kan de DBRX Instruct-uitvoer bepaalde feiten weglaten en af en toe onwaar-informatie produceren. Databricks raadt aan om rag (augmented generation) te gebruiken in scenario's where nauwkeurigheid vooral belangrijk is.

DBRX-modellen gebruiken de volgende standaardsysteemprompt om relevantie en nauwkeurigheid in modelreacties te garanderen:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instruct

Mixtral-8x7B Instruct is een hoogwaardige sparse combinatie van expertmodellen (SMoE) getraind door Mistral AI. Mixtral-8x7B Instruct kan worden gebruikt voor verschillende taken, zoals vraag-antwoord, samenvatting en extractie.

Mixtral kan contextlengten tot 32.000 tokens verwerken. Mixtral kan Engels, Frans, Italiaans, Duits en Spaans verwerken. Mixtral evenaart of overtreft Llama 2 70B en GPT3.5 op de meeste benchmarks (Mixtral prestaties), terwijl het vier keer sneller is dan Llama 70B tijdens het inferentieproces.

Net als bij andere grote taalmodellen mag het Mixtral-8x7B Instruct-model niet worden gebruikt om feitelijk nauwkeurige informatie te produceren. Hoewel er grote inspanningen zijn gedaan om de voortrainingsgegevens op te schonen, is het mogelijk dat dit model obsceniteit, vooringenomen of anderszins aanstootgevende uitvoer kan geven generate. Databricks maakt standaard gebruik van een variant van de systeemprompt in de veilige modus van Mistralom het risico te beperken.

GTE Large (En)

Belangrijk

GTE Large (En) wordt geleverd onder en onderworpen aan de Apache 2.0-licentie, Copyright © The Apache Software Foundation, Alle rechten voorbehouden. Klanten zijn verantwoordelijk voor het garanderen van naleving van toepasselijke modellicenties.

algemene tekstinsluitingsvector (GTE) is een model voor tekstinsluiting dat elke tekst kan toewijzen aan een insluitingsvector van 1024 dimensies en een window insluitingsvector van 8192 tokens. Deze vectoren kunnen worden gebruikt in vectordatabases voor LLM's en voor taken zoals ophalen, classificatie, vragen beantwoorden, clusteren of semantische zoekopdrachten. Dit eindpunt dient de Engelse versie van het model en generate genormaliseerde insluitingen niet.

Inbeddingsmodellen zijn met name effectief wanneer zij samen met LLMs worden gebruikt voor retentie-verrijkte generatie (RAG)-gebruiksscenario's. GTE kan worden gebruikt om relevante tekstfragmenten te vinden in grote stukken documenten die kunnen worden gebruikt in de context van een LLM.

BGE Large (En)

BAAI General Embedding (BGE) is een model voor het insluiten van tekst dat elke tekst kan toewijzen aan een insluitingsvector van 1024 dimensies en een window insluitingsvector van 512 tokens. Deze vectoren kunnen worden gebruikt in vectordatabases voor LLM's en voor taken zoals ophalen, classificatie, vragen beantwoorden, clusteren of semantische zoekopdrachten. Dit eindpunt dient de Engelse versie van het model en genereert genormaliseerde insluitingen.

Het insluiten van modellen is met name effectief wanneer ze worden gebruikt in combinatie met LLM's voor het ophalen van augmented generation-use cases (RAG). BGE kan worden gebruikt om relevante tekstfragmenten te vinden in grote stukken documenten die kunnen worden gebruikt in de context van een LLM.

In RAG-toepassingen kunt u mogelijk de prestaties van uw ophaalsysteem verbeteren door een instructieparameter op te geven. De BGE-auteurs raden aan de instructie "Represent this sentence for searching relevant passages:" te proberen voor het insluiten van query's, hoewel de invloed van de prestaties afhankelijk is van een domein.

Aanvullende informatiebronnen

querybasismodellen
Foundation-model REST API-verwijzing

Delen via

Ondersteunde modellen voor betalen per token

Meta Llama 3.3 70B Instruct

Meta Llama 3.1 405B Instruct

DBRX-instructie

Mixtral-8x7B Instruct

GTE Large (En)

BGE Large (En)

Aanvullende informatiebronnen

Feedback

Aanvullende resources