Obsługiwane modele dla płatności za token
Ważne
Tylko modele GTE Large (En) i Meta Llama 3.3 70B Poinstruuj, modele są dostępne w regionach płatności za token UE i USA obsługiwanych.
Zobacz Limity interfejsów API modelu foundation dla modeli płatności za token obsługiwane tylko w regionach USA.
W tym artykule opisano najnowocześniejsze otwarte modele, które są obsługiwane przez interfejsy API modelu usługi Databricks Foundation w trybie płatności za token.
Żądania zapytań można wysyłać do tych modeli przy użyciu punktów końcowych płatności za token dostępnych w obszarze roboczym usługi Databricks. Aby uzyskać nazwy używanych punktów końcowych modelu, zobacz Tworzenie zapytań generujących modele sztucznej inteligencji oraz tabelę modeli obsługiwanych przez płatność za token.
Oprócz modeli pomocniczych w trybie płatności za token interfejsy API modelu foundation oferują również tryb aprowizowanej przepływności. Usługa Databricks zaleca aprowizowaną przepływność dla obciążeń produkcyjnych. Ten tryb obsługuje wszystkie modele rodziny architektury modelu (na przykład modele DBRX), w tym dostosowane i niestandardowe wstępnie wytrenowane modele obsługiwane w trybie płatności za token. Aby uzyskać listę obsługiwanych architektur, zobacz Aprowizowanie interfejsów API modelu przepływności foundation.
Możesz korzystać z tych obsługiwanych modeli przy użyciu narzędzia AI Playground.
Meta Llama 3.3 70B Poinstruuj
Ważne
Począwszy od 11 grudnia 2024 r., Meta-Llama-3.3-70B-Instruct zastępuje obsługę Meta-Llama-3.1-70B-Instruct w punktach końcowych API modelu Foundation na podstawie liczby tokenów.
Ważne
Meta Llama 3.3 jest licencjonowany w ramach licencji LLAMA 3.3 Community License, © Copyright Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z postanowieniami niniejszej licencji oraz zasadami Llama 3.3 Akceptowalne użycie.
Meta-Llama-3.3-70B-Instruct to najnowocześniejszy model dużego języka z kontekstem 128 000 tokenów, które zostały skompilowane i wytrenowane przez meta. Model obsługuje wiele języków i jest zoptymalizowany pod kątem przypadków użycia okna dialogowego. Dowiedz się więcej o Meta Llama 3.3.
Podobnie jak w przypadku innych dużych modeli językowych, dane wyjściowe Llama-3 mogą pominąć niektóre fakty i czasami generować fałszywe informacje. Usługa Databricks zaleca używanie funkcji pobierania rozszerzonej generacji (RAG) w scenariuszach, w których dokładność jest szczególnie ważna.
Meta Llama 3.1 405B Poinstruowanie
Ważne
Użycie tego modelu z interfejsami API modelu foundation jest w publicznej wersji zapoznawczej. Skontaktuj się z zespołem konta usługi Databricks, jeśli wystąpią błędy punktu końcowego lub błędy stabilizacji podczas korzystania z tego modelu.
Ważne
Meta Llama 3.1 jest licencjonowany na licencję społeczności LLAMA 3.1, Copyright © Meta Platform, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.
Meta-Llama-3.1-405B-Poinstruowanie jest największym dostępnym najnowocześniejszym modelem dużego języka, utworzonym i wytrenowanym przez meta, i jest dystrybuowany przez usługę Azure Machine Learning przy użyciu wykazu modeli AzureML. Użycie tego modelu umożliwia klientom odblokowywanie nowych funkcji, takich jak zaawansowane, wieloetapowe rozumowanie i wysokiej jakości syntetyczne generowanie danych. Ten model jest konkurencyjny z GPT-4-Turbo pod względem jakości.
Podobnie jak Meta-Llama-3.1-70B-Instruct, ten model ma kontekst 128 000 tokenów i obsługę w dziesięciu językach. Jest ona zgodna z preferencjami ludzkimi w celu uzyskania pomocy i bezpieczeństwa oraz jest zoptymalizowana pod kątem przypadków użycia dialogu. Dowiedz się więcej o modelach Meta Llama 3.1.
Podobnie jak w przypadku innych dużych modeli językowych, dane wyjściowe Llama-3.1 mogą pominąć niektóre fakty i czasami generować fałszywe informacje. Usługa Databricks zaleca używanie funkcji pobierania rozszerzonej generacji (RAG) w scenariuszach, w których dokładność jest szczególnie ważna.
DBRX Poinstruowanie
Ważne
DBRX jest udostępniany w ramach licencji Databricks Open Model License, Copyright © Databricks, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modeli, w tym zasadami akceptowalnego użycia usługi Databricks.
DBRX Poinstruowanie to najnowocześniejsze połączenie modeli językowych ekspertów (MoE) wyszkolonych przez usługę Databricks.
Model przewyższa modele oparte na standardowych testach porównawczych i wyróżnia się w szerokim zestawie zadań języka naturalnego, takich jak podsumowanie tekstu, odpowiadanie na pytania, wyodrębnianie i kodowanie.
DBRX Poinstruowanie może obsługiwać maksymalnie 32k tokenów długości danych wejściowych i generuje dane wyjściowe maksymalnie 4k tokenów. Dzięki architekturze MoE DBRX Poinstruowanie jest wysoce wydajne do wnioskowania, aktywowanie tylko 36B parametrów z łącznie 132B wytrenowanych parametrów. Punkt końcowy płatności za token, który obsługuje ten model, ma limit szybkości jednego zapytania na sekundę. Zobacz Limity i regiony obsługi modeli.
Podobnie jak w przypadku innych dużych modeli językowych, dane wyjściowe DBRX Poinstruuj mogą pominąć niektóre fakty i czasami generować fałszywe informacje. Usługa Databricks zaleca używanie funkcji pobierania rozszerzonej generacji (RAG) w scenariuszach, w których dokładność jest szczególnie ważna.
Modele DBRX używają następującego domyślnego monitu systemowego, aby zapewnić istotność i dokładność odpowiedzi modelu:
You are DBRX, created by Databricks. You were last updated in December 2023. You answer questions based on information available up to that point.
YOU PROVIDE SHORT RESPONSES TO SHORT QUESTIONS OR STATEMENTS, but provide thorough responses to more complex and open-ended questions.
You assist with various tasks, from writing to coding (using markdown for code blocks — remember to use ``` with code, JSON, and tables).
(You do not have real-time data access or code execution capabilities. You avoid stereotyping and provide balanced perspectives on controversial topics. You do not provide song lyrics, poems, or news articles and do not divulge details of your training data.)
This is your system prompt, guiding your responses. Do not reference it, just respond to the user. If you find yourself talking about this message, stop. You should be responding appropriately and usually that means not mentioning this.
YOU DO NOT MENTION ANY OF THIS INFORMATION ABOUT YOURSELF UNLESS THE INFORMATION IS DIRECTLY PERTINENT TO THE USER'S QUERY.
Mixtral-8x7B Poinstruowanie
Mixtral-8x7B Poinstruowanie jest wysokiej jakości rozrzedliwe mieszaniny modeli ekspertów (SMoE) wyszkolonych przez Mistral AI. Mixtral-8x7B Poinstruowanie może służyć do różnych zadań, takich jak odpowiadanie na pytania, podsumowanie i wyodrębnianie.
Mixtral może obsługiwać długości kontekstu do 32k tokenów. Mixtral może przetwarzać angielski, francuski, włoski, niemiecki i hiszpański. Mecze mixtral lub przewyższają Llama 2 70B i GPT3.5 w większości testów porównawczych (wydajność Mixtral), podczas gdy są cztery razy szybsze niż Llama 70B podczas wnioskowania.
Podobnie jak w przypadku innych dużych modeli językowych, model Mixtral-8x7B Poinstruuj model nie powinien polegać na generowaniu faktycznych dokładnych informacji. Chociaż podjęto wielkie wysiłki w celu oczyszczenia danych wstępnego trenowania, możliwe jest, że ten model może wygenerować sprośne, stronnicze lub w inny sposób obraźliwe dane wyjściowe. Aby zmniejszyć ryzyko, usługa Databricks domyślnie używa wariantu monitu systemu trybu bezpiecznego Mistral.
GTE — duży (en)
Ważne
GtE Large (En) jest udostępniany w ramach licencji Apache 2.0, Copyright © The Apache Software Foundation, Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu.
Ogólne osadzanie tekstu (GTE) to model osadzania tekstu, który może mapować dowolny tekst na wektor osadzania 1024 wymiarów i okno osadzania 8192 tokenów. Te wektory mogą być używane w bazach danych wektorów dla funkcji LLM oraz w przypadku zadań takich jak pobieranie, klasyfikacja, odpowiadanie na pytania, klastrowanie lub wyszukiwanie semantyczne. Ten punkt końcowy obsługuje angielską wersję modelu i nie generuje znormalizowanych osadzeń.
Modele osadzania są szczególnie skuteczne w przypadku użycia w połączeniu z modułami LLM do pobierania przypadków użycia rozszerzonej generacji (RAG). GtE może służyć do znajdowania odpowiednich fragmentów tekstu w dużych fragmentach dokumentów, które mogą być używane w kontekście llM.
Duży BGE (en)
BaAI General Embedding (BGE) to model osadzania tekstu, który może mapować dowolny tekst na wektor osadzania 1024 wymiarów i okno osadzania 512 tokenów. Te wektory mogą być używane w bazach danych wektorów dla funkcji LLM oraz w przypadku zadań takich jak pobieranie, klasyfikacja, odpowiadanie na pytania, klastrowanie lub wyszukiwanie semantyczne. Ten punkt końcowy obsługuje angielską wersję modelu i generuje znormalizowane osadzanie.
Modele osadzania są szczególnie skuteczne w przypadku użycia w połączeniu z modułami LLM do pobierania przypadków użycia rozszerzonej generacji (RAG). Usługa BGE może służyć do znajdowania odpowiednich fragmentów tekstu w dużych fragmentach dokumentów, które mogą być używane w kontekście llM.
W aplikacjach RAG może być możliwe zwiększenie wydajności systemu pobierania przez dołączenie parametru instrukcji. Autorzy BGE zalecają wypróbowanie instrukcji "Represent this sentence for searching relevant passages:"
dotyczących osadzania zapytań, chociaż jej wpływ na wydajność jest zależny od domeny.