Udostępnij za pośrednictwem


Obsługiwane modele rozliczania za token

Ważny

Tylko modele GTE Large (En) i Meta Llama 3.3 70B Instruct są dostępne w regionach UE i USA z rozliczeniem za token obsługiwane.

Zobacz limity interfejsów API modelu Foundation dla modeli płatności za tokeny, które są obsługiwane tylko w regionach USA.

W tym artykule opisano najnowocześniejsze otwarte modele obsługiwane przez interfejsy API modelu Databricks Foundation w trybie płatności za token.

Żądania zapytań można wysyłać do tych modeli przy użyciu punktów końcowych płatności za token dostępnych w obszarze roboczym usługi Databricks. Zobacz podstawowe modele zapytań oraz tabelę modeli obsługiwanych w systemie płatności za token , aby znaleźć nazwy punktów końcowych modeli do użycia.

Oprócz wspierania modeli w trybie płatności za token, interfejsy API modelu bazowego oferują również tryb aprowizowanej przepływności. Usługa Databricks rekomenduje aprowizowaną przepustowość dla obciążeń produkcyjnych. Ten tryb obsługuje wszystkie modele rodziny architektury modelu (na przykład modele DBRX), w tym dostosowane i niestandardowe wstępnie wytrenowane modele obsługiwane w trybie płatności za token. Aby uzyskać listę obsługiwanych architektur, zobacz Aprowizowane przepustowo interfejsy API modelu bazowego.

Możesz wchodzić w interakcje z tymi obsługiwanymi modelami przy użyciu AI Playground.

Meta Llama 3.3 70B Poinstruuj

Ważny

Począwszy od 11 grudnia 2024 r., Meta-Llama-3.3-70B-Instruct zastępuje obsługę Meta-Llama-3.1-70B-Instruct w interfejsach API modelu foundation w punktach końcowych rozliczanych za token.

Ważny

Meta Llama 3.3 jest licencjonowany w ramach licencji LLAMA 3.3 Community License, © Copyright Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z postanowieniami niniejszej licencji oraz zasadami Llama 3.3 Akceptowalne użycie.

Meta-Llama-3.3-70B-Instruct to najnowocześniejszy model dużego języka z kontekstem 128 000 tokenów, które zostały skompilowane i wytrenowane przez meta. Model obsługuje wiele języków i jest zoptymalizowany pod kątem przypadków użycia okna dialogowego. Dowiedz się więcej o Meta Llama 3.3.

Podobnie jak w przypadku innych dużych modeli językowych, dane wyjściowe Llama-3 mogą pominąć niektóre fakty i czasami generować fałszywe informacje. Databricks zaleca używanie generacji wspomaganej wyszukiwaniem (RAG) w scenariuszach, w których dokładność jest szczególnie ważna.

Meta Llama 3.1 405B Instruct

Ważny

Użycie tego modelu z interfejsami API modeli bazowych jest dostępne w publicznej wersji zapoznawczej. Skontaktuj się z zespołem konta usługi Databricks, jeśli wystąpią błędy punktu końcowego lub błędy stabilizacji podczas korzystania z tego modelu.

Ważny

Meta Llama 3.1 jest licencjonowany w ramach licencji LLAMA 3.1 Community License, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

Meta-Llama-3.1-405B-Instruct to największy, powszechnie dostępny, najnowocześniejszy model językowy, utworzony i wytrenowany przez Meta, i jest dystrybuowany przez usługę Azure Machine Learning z wykorzystaniem Katalogu Modeli AzureML. Użycie tego modelu umożliwia klientom odblokowanie nowych funkcji, takich jak zaawansowane, wieloetapowe rozumowanie i wysokiej jakości syntetyczne generowanie danych. Ten model jest konkurencyjny z GPT-4-Turbo pod względem jakości.

Podobnie jak Meta-Llama-3.1-70B-Instruct, ten model ma kontekst 128 000 tokenów i obsługę w dziesięciu językach. Jest ona zgodna z preferencjami ludzkimi w celu uzyskania pomocy i bezpieczeństwa oraz jest zoptymalizowana pod kątem przypadków użycia dialogu. Dowiedz się więcej o modelach Meta Llama 3.1.

Podobnie jak w przypadku innych dużych modeli językowych, dane wyjściowe Llama-3.1 mogą pominąć niektóre fakty i czasami generować fałszywe informacje. Databricks zaleca używanie generowania wspomaganego wyszukiwaniem (RAG) w scenariuszach, w których dokładność jest szczególnie ważna.

DBRX Instrukcja

Ważny

Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. Aby zapoznać się z zalecanym zastąpieniem modelu, zobacz Wycofane modele.

Ważny

DBRX jest udostępniany i podlega licencji open model usługi Databricks, Copyright © Databricks, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modeli, w tym z zasadami akceptowalnego użycia Databricks .

DBRX Instruct to nowoczesny model językowy typu mixture of experts (MoE) opracowany przez firmę Databricks.

Model przewyższa modele oparte na standardowych testach porównawczych i wyróżnia się w szerokim zestawie zadań języka naturalnego, takich jak podsumowanie tekstu, odpowiadanie na pytania, wyodrębnianie i kodowanie.

DBRX Instruct może obsługiwać do 32k tokenów wejściowych i generuje wyjścia do 4k tokenów. Dzięki swojej architekturze MoE, DBRX Instruct jest wysoce wydajne do wnioskowania, aktywując jedynie 36 mld parametrów z łącznie 132 mld wytrenowanych parametrów. Punkt końcowy płatności za token, który obsługuje ten model, ma limit szybkości jednego zapytania na sekundę. Zobacz Limity dotyczące obsługi modeli i regiony.

Podobnie jak w przypadku innych dużych modeli językowych, wyniki DBRX Instruct mogą pominąć niektóre fakty i czasami tworzyć fałszywe informacje. Databricks zaleca używanie techniki generacji wspomaganej wyszukiwaniem (RAG) w sytuacjach, w których dokładność ma szczególne znaczenie.

Modele DBRX używają następującego domyślnego monitu systemowego, aby zapewnić istotność i dokładność odpowiedzi modelu:

You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.

Mixtral-8x7B Instrukcja

Ważny

Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. Aby zapoznać się z zalecanym zastąpieniem modelu, zobacz Wycofane modele.

Mixtral-8x7B Instruct jest modelem wysokiej jakości rozproszonej mieszaniny ekspertów (SMoE) wytrenowanym przez Mistral AI. Mixtral-8x7B Instruct może być używane do różnych zadań, takich jak odpowiadanie na pytania, tworzenie streszczeń i wyodrębnianie informacji.

Mixtral może obsługiwać długości kontekstu do 32 tys. tokenów (jednostek). Mixtral może przetwarzać angielski, francuski, włoski, niemiecki i hiszpański. Mixtral dorównuje lub przewyższa Llama 2 70B i GPT3.5 w większości testów porównawczych (Mixtral performance), przy czym jest cztery razy szybszy niż Llama 70B podczas wnioskowania.

Podobnie jak inne duże modele językowe, na modelu Mixtral-8x7B Instruct nie można polegać, aby generował faktualnie dokładne informacje. Chociaż podjęto wielkie wysiłki w celu oczyszczenia danych wstępnego trenowania, możliwe jest, że ten model może wygenerować nieprzyzwoite, stronnicze lub w inny sposób obraźliwe wyniki. Aby zmniejszyć ryzyko, Databricks domyślnie używa wariantu monitu systemowego Mistral w trybie bezpiecznym.

GTE large (en)

Ważny

GtE Large (En) jest udostępniany w ramach licencji Apache 2.0, copyright © Apache Software Foundation, wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.

ogólnego osadzania tekstu (GTE) to model osadzania tekstu, który może mapować dowolny tekst na wektor osadzenia w przestrzeni 1024-wymiarowej i przestrzeń okna osadzenia obejmującą 8192 tokeny. Te wektory mogą być używane w bazach danych wektorów dla funkcji LLM oraz w przypadku zadań takich jak pobieranie, klasyfikacja, odpowiadanie na pytania, klastrowanie lub wyszukiwanie semantyczne. Ten punkt końcowy obsługuje angielską wersję modelu i nie generuje znormalizowanych osadzeń.

Modele osadzania są szczególnie skuteczne, gdy są używane w połączeniu z LLM do zastosowań generacji wspomaganej pobieraniem (RAG). GTE może służyć do znajdowania odpowiednich fragmentów tekstu w dużych partiach dokumentów, które mogą być używane w kontekście LLM.

BGE Large (EN)

Ogólnego Osadzania BAAI (BGE) to model osadzania tekstu, który może mapować dowolny tekst na wektor osadzania o wymiarach 1024 i okno osadzania o wielkości 512 tokenów. Te wektory mogą być używane w bazach danych wektorów dla funkcji LLM oraz w przypadku zadań takich jak pobieranie, klasyfikacja, odpowiadanie na pytania, klastrowanie lub wyszukiwanie semantyczne. Ten punkt końcowy obsługuje angielską wersję modelu i generuje znormalizowane osadzanie.

Modele osadzania są szczególnie skuteczne w przypadku użycia w połączeniu z modułami LLM do pobierania przypadków użycia rozszerzonej generacji (RAG). Usługa BGE może służyć do znajdowania odpowiednich fragmentów tekstu w obszernych partiach dokumentów, które mogą być używane w kontekście LLM.

W aplikacjach RAG może być możliwe zwiększenie wydajności systemu pobierania przez dołączenie parametru instrukcji. Autorzy BGE zalecają wypróbowanie instrukcji "Represent this sentence for searching relevant passages:" na potrzeby osadzania zapytań, chociaż jej wpływ na wydajność jest zależny od domeny.

Dodatkowe zasoby