Duże modele językowe (LLM) w usłudze Databricks

Artykuł
03/11/2025

Usługa Azure Databricks ułatwia dostęp i kompilowanie publicznie dostępnych dużych modeli językowych.

Środowisko Databricks Runtime for Machine Learning zawiera biblioteki, takie jak Hugging Face Transformers i LangChain, które umożliwiają integrację istniejących wstępnie wytrenowanych modeli lub innych bibliotek typu open source z przepływem pracy. W tym miejscu możesz korzystać z możliwości platformy Azure Databricks, aby dostroić maszyny LLM przy użyciu własnych danych w celu uzyskania lepszej wydajności domeny.

Ponadto usługa Azure Databricks oferuje wbudowane funkcje umożliwiające użytkownikom SQL uzyskiwanie dostępu do usługi LLM i eksperymentowanie z takimi maszynami jak Azure OpenAI i OpenAI przy użyciu funkcji sztucznej inteligencji.

Dostrajanie modelu podstawowego

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej. Skontaktuj się z zespołem obsługi konta Databricks, aby zarejestrować się w publicznej wersji testowej.

Dostrajanie modelu bazowego (obecnie część Mosaic AI Model Training) to prosty interfejs stosu szkoleniowego Databricks do pełnego dostrajania modelu.

Możesz wykonać następujące czynności przy użyciu dostrajania modelu podstawowego:

Dostrajanie modelu przy użyciu niestandardowych danych przy użyciu punktów kontrolnych zapisanych w usłudze MLflow. Zachowasz pełną kontrolę nad dopasowanym modelem.
Automatyczna rejestracja modelu w Unity Catalog, co umożliwia łatwe wdrażanie dzięki serwisowi modeli.
Dostosuj ukończony, zastrzeżony model, poprzez załadowanie wag wcześniej dostosowanego modelu.

Zobacz Dostosowywanie modelu podstawowego.

Hugging Face Transformers

Dzięki funkcji Hugging Face Transformers w usłudze Databricks można skalować aplikacje wsadowe przetwarzania języka naturalnego (NLP) i dostosowywać modele dla aplikacji modelu w dużych językach.

Biblioteka Hugging Face transformers jest wstępnie zainstalowana w środowisku Databricks Runtime 10.4 LTS ML i nowszych. Wiele popularnych modeli NLP działa najlepiej na sprzęcie gpu, więc możesz uzyskać najlepszą wydajność przy użyciu ostatniego sprzętu procesora GPU, chyba że używasz modelu specjalnie zoptymalizowanego do użycia na procesorach CPU.

DSPy

Rozszerzenie DSPy automatyzuje dostrajanie monitów, tłumacząc sygnatury języka naturalnego zdefiniowane przez użytkownika na pełne instrukcje i kilka przykładów.

Zobacz Build generative AI apps using DSPy on Azure Databricks (Tworzenie aplikacji generacyjnych sztucznej inteligencji przy użyciu biblioteki DSPy w usłudze Azure Databricks), aby zapoznać się z przykładami dotyczącymi używania biblioteki DSPy.

LangChain

LangChain jest dostępny jako eksperymentalna wersja MLflow, która pozwala klientom LangChain wykorzystać niezawodne narzędzia i możliwości śledzenia eksperymentów MLflow bezpośrednio w środowisku Azure Databricks.

LangChain to struktura oprogramowania, która ułatwia tworzenie aplikacji korzystających z dużych modeli językowych (LLMs) i łączenie ich z danymi zewnętrznymi w celu zapewnienia większego kontekstu szkoleniowego dla llMs.

Środowisko Databricks Runtime ML obejmuje langchain w wersji Databricks Runtime 13.1 ML i nowszych.

Dowiedz się o specyficznych integracjach LangChain dla usługi Databricks.

Funkcje sztucznej inteligencji

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Funkcje sztucznej inteligencji to wbudowane funkcje SQL, które umożliwiają użytkownikom SQL:

Użyj interfejsów API modelu usługi Databricks Foundation, aby wykonać różne zadania dotyczące danych firmy.
Uzyskiwanie dostępu do modeli zewnętrznych, takich jak GPT-4 z platformy OpenAI, i eksperymentowanie z nimi.
Modele zapytań hostowane przez mozaikę AI Model Obsługujący punkty końcowe z zapytań SQL.

Udostępnij za pośrednictwem