Dostrajanie modelu podstawowego
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus
, , eastus
eastus2
, northcentralus
i westus
.
Za pomocą dostrajania Modelu Bazowego (obecnie część trenowania modeli w Mosaic AI) możesz wykorzystać własne dane, aby dostosować model bazowy, aby zoptymalizować jego wydajność dla twojej konkretnej aplikacji. Przeprowadzając pełne dostrajanie parametrów lub kontynuując szkolenie modelu podstawowego, możesz wytrenować własny model przy użyciu znacznie mniejszej ilości danych, czasu i zasobów obliczeniowych niż trenowanie modelu od podstaw.
Dzięki usłudze Databricks masz wszystko na jednej platformie: własne dane do wykorzystania podczas trenowania, model podstawowy do trenowania, punkty kontrolne zapisane w usłudze MLflow oraz model zarejestrowany w Unity Catalog i gotowy do wdrożenia.
Zobacz Samouczek: tworzenie i wdrażanie przebiegu dostrajania modelu podstawowego, aby dowiedzieć się, jak utworzyć przebieg przy użyciu interfejsu API dostrajania modelu podstawowego, a następnie przejrzeć wyniki i wdrożyć model przy użyciu interfejsu użytkownika Databricks i Mosaic AI Model Serving.
Co to jest dostrajanie modelu bazowego?
Dostrajanie modelu bazowego umożliwia wykorzystanie interfejsu API lub interfejsu użytkownika Databricks do dostrajania lub dalszego trenowania modelu bazowego.
Za pomocą dostrajania modelu podstawowego można wykonywać następujące czynności:
- Wytrenuj model przy użyciu twoich własnych danych, z punktami kontrolnymi zapisywanymi do MLflow. Zachowasz pełną kontrolę nad wytrenowanym modelem.
- Automatycznie rejestruj model w Unity Catalog, co umożliwia łatwe wdrażanie poprzez serwowanie modelu.
- Dalsze szkolenie ukończonego, zastrzeżonego modelu poprzez załadowanie wag wcześniej wytrenowanego modelu.
Databricks zaleca wypróbowanie dostrajania modelu bazowego w następujących przypadkach:
- Próbowałeś nauki na podstawie małej liczby przykładów i chcesz uzyskać lepsze wyniki.
- Wypróbowałeś inżynierię podpowiedzi na istniejącym modelu i chcesz uzyskać lepsze wyniki.
- Chcesz mieć pełną własność modelu niestandardowego na potrzeby prywatności danych.
- Zależy ci na opóźnieniach lub kosztach i chcesz użyć mniejszego, tańszego modelu z danymi specyficznymi dla danego zadania.
Obsługiwane zadania
Dostrajanie modelu bazowego obsługuje następujące przypadki użycia:
- Ukończenie czatu: zalecane zadanie. Trenowanie modelu w dziennikach czatów między użytkownikiem a asystentem sztucznej inteligencji. Ten format może służyć zarówno do rzeczywistych dzienników czatów, jak i jako standardowego formatu odpowiedzi na pytania i tekstu konwersacyjnego. Tekst jest automatycznie sformatowany w odpowiednim formacie dla określonego modelu. Zobacz przykładowe szablony czatów w dokumentacji aplikacji HuggingFace, aby uzyskać więcej informacji na temat tworzenia szablonów .
- Dostosowywanie instrukcji: trenowanie modelu na ustrukturyzowanych danych typu zapytanie-odpowiedź. Służy do dostosowywania modelu do nowego zadania, zmiany stylu odpowiedzi lub dodawania możliwości wykonywania instrukcji. To zadanie nie stosuje automatycznie żadnego formatowania do danych i jest zalecane tylko wtedy, gdy wymagane jest niestandardowe formatowanie danych.
- Dalsze wstępne szkolenie: trenowanie modelu przy użyciu dodatkowych danych tekstowych. Użyj tej metody, aby dodać nową wiedzę do modelu lub skoncentrować model na określonej domenie.
Wymagania
- Obszar roboczy usługi Databricks w jednym z następujących regionów świadczenia usługi Azure:
centralus
, ,eastus
eastus2
,northcentralus
lubwestus
. - API dostrajania modelu podstawowego zainstalowane przy użyciu
pip install databricks_genai
. - Środowisko Databricks Runtime 12.2 LTS ML lub nowsze, jeśli dane są w tabeli Delta.
Aby uzyskać informacje na temat wymaganych formatów danych wejściowych, zobacz Przygotowywanie danych do dostrajania modelu podstawowego.
Zalecany rozmiar danych na potrzeby trenowania modelu
Usługa Databricks zaleca początkowe szkolenie przy użyciu jednego do czterech epok. Po dokonaniu oceny dostosowanego modelu, jeśli chcesz, aby dane wyjściowe modelu byłyby bardziej podobne do danych treningowych, możesz rozpocząć trenowanie przy użyciu jednej do dwóch kolejnych epok.
Jeśli wydajność modelu znacznie spada w przypadku zadań, które nie są reprezentowane w danych dostrajania, lub jeśli model wydaje się zwracać dokładne kopie danych dostrajania, usługa Databricks zaleca zmniejszenie liczby epok trenowania.
W przypadku dostrajania instrukcji i uzupełniania czatu należy podać wystarczającą liczbę tokenów dla co najmniej jednej pełnej długości kontekstu modelu. Na przykład 131072 tokeny dla meta-llama/Llama-3.2-3B-Instruct
.
Do dalszego etapu wstępnego szkolenia usługa Databricks zaleca co najmniej 1,5 miliona tokenów, aby uzyskać model o wyższej jakości, który uczy się na podstawie danych dostosowanych.
Obsługiwane modele
W poniższej tabeli wymieniono obsługiwane modele. Zobacz Licencje modelu, aby uzyskać odpowiednią licencję modelu i informacje o zasadach dopuszczalnego użytkowania.
Aby kontynuować obsługę najbardziej najnowocześniejszych modeli, usługa Databricks może aktualizować obsługiwane modele lub wycofać starsze modele. Zobacz Modele, które mają zostać wycofane.
Model | Maksymalna długość kontekstu | Uwagi |
---|---|---|
meta-llama/Llama-3.2-1B |
131072 | |
meta-llama/Llama-3.2-1B-Instruct |
131072 | |
meta-llama/Llama-3.2-3B |
131072 | |
meta-llama/Llama-3.2-3B-Instruct |
131072 | |
meta-llama/Meta-Llama-3.1-70B |
131072 | |
meta-llama/Meta-Llama-3.1-70B-Instruct |
131072 | |
meta-llama/Meta-Llama-3.1-8B |
131072 | |
meta-llama/Meta-Llama-3.1-8B-Instruct |
131072 |
Modele do wycofania z użycia
Poniższa tabela wymienia obsługiwane modele, które są przeznaczone do wycofania z użycia. Zobacz Wycofane modele dla wycofanych modeli, planowanych dat wycofania i zalecanych zamienników modeli.
Ważne
Po 30 stycznia 2025 r. rodzina modeli Meta Llama 3.1 405B zostanie wycofana. Zobacz Wycofane modele, aby zapoznać się z zalecanymi modelami zastępczymi.
Model | Maksymalna długość kontekstu | Uwagi |
---|---|---|
mistralai/Mistral-7B-v0.1 |
32768 | Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. |
mistralai/Mistral-7B-Instruct-v0.2 |
32768 | Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. |
mistralai/Mixtral-8x7B-v0.1 |
32768 | Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. |
databricks/dbrx-base |
32768 | Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. |
databricks/dbrx-instruct |
32768 | Ten model nie jest już obsługiwany po 30 kwietnia 2025 r. |
licencje modelu
Poniższa tabela zawiera odpowiednią licencję modelu i dopuszczalne informacje o zasadach użycia dla obsługiwanych rodzin modeli.
Rodzina modeli | Zasady licencji i dopuszczalnego użycia |
---|---|
Meta Llama 3.2 | Meta Llama 3.2 jest licencjonowany na mocy licencji LLAMA 3.2 Community License, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z warunkami niniejszej licencji oraz zasadami dopuszczalnego użytkowania Llama 3.2. |
Meta Llama 3.1 | Meta Llama 3.1 jest licencjonowany na mocy Licencji Społecznościowej LLAMA 3.1, Copyright © Meta Platforms, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modelu. |
DBRX | DBRX jest udostępniany w ramach licencji Databricks Open Model License, Copyright © Databricks, Inc. Wszelkie prawa zastrzeżone. Klienci są odpowiedzialni za zapewnienie zgodności z odpowiednimi licencjami modeli, w tym zasadami akceptowalnego użycia usługi Databricks. |
Korzystanie z dostrajania modelu podstawowego
Dostrajanie modelu podstawowego jest dostępne przy użyciu zestawu databricks_genai
SDK. Poniższy przykład tworzy i uruchamia sesję treningową, która używa danych z woluminów z katalogu Unity. Aby uzyskać szczegółowe informacje o konfiguracji, zobacz Utwórz przebieg trenowania korzystając z interfejsu API do dostrajania Modelu Podstawowego.
from databricks.model_training import foundation_model as fm
model = 'meta-llama/Meta-Llama-3.1-8B-Instruct'
# UC Volume with JSONL formatted data
train_data_path = 'dbfs:/Volumes/main/mydirectory/ift/train.jsonl'
register_to = 'main.mydirectory'
run = fm.create(
model=model,
train_data_path=train_data_path,
register_to=register_to,
)
Zobacz notebook demonstracyjny do dostrajania instrukcji: Rozpoznawanie nazwanych jednostek, aby zapoznać się z przykładem dostrajania instrukcji, który przeprowadzi cię przez proces przygotowania danych, konfiguracji przebiegu treningu i wdrażania.
Ograniczenia
- Duże zestawy danych (tokeny 10B+) nie są obsługiwane ze względu na dostępność zasobów obliczeniowych.
- W przypadku ciągłego wstępnego trenowania obciążenia są ograniczone do plików 60–256 MB. Pliki większe niż 1 GB mogą powodować dłuższe czasy przetwarzania.
- Databricks dąży do udostępnienia zaawansowanych modeli do dostosowywania poprzez odpowiednie dostrajanie modeli bazowych. Gdy nowe modele staną się dostępne, dostęp do starszych modeli z interfejsu API lub interfejsu użytkownika może zostać usunięty, starsze modele mogą stać się przestarzałe lub wspierane modele mogą zostać zaktualizowane. Zobacz Zasady konserwacji modeli generatywnej sztucznej inteligencji.
- Jeśli masz skonfigurowaną usługę Azure Private Link w swoim obszarze roboczym, dostrajanie modeli podstawowych obsługuje tylko obszary robocze Azure w
eastus2
. - Jeśli masz skonfigurowany Private Link w swoim magazynie, Databricks zaleca używanie tabel Unity Catalog.
- Jeśli masz włączone firewalle na koncie usługi Azure Data Lake Storage, które przechowuje dane w Unity Catalog, musisz dodać ruch z klastrów bezserwerowych płaszczyzny danych Databricks do listy dozwolonych, aby używać dostrajania modelu podstawowego. Skontaktuj się z zespołem ds. kont w Databricks, aby uzyskać więcej informacji i indywidualnych rozwiązań.