Wyświetlanie przebiegów dostrajania modelu podstawowego, zarządzanie nimi i analizowanie ich
Ważne
Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus
, , eastus
eastus2
, northcentralus
i westus
.
W tym artykule opisano sposób wyświetlania, zarządzania i analizowania dostrajania modelu podstawowego (obecnie część trenowania modelu mozaiki sztucznej inteligencji) przy użyciu interfejsów API lub interfejsu użytkownika.
Aby uzyskać informacje na temat tworzenia przebiegów, zobacz Tworzenie przebiegu trenowania przy użyciu interfejsu API dostrajania modelu podstawowego i Tworzenie przebiegu trenowania przy użyciu interfejsu użytkownika dostrajania modelu podstawowego.
Używanie interfejsów API dostrajania modelu foundation do wyświetlania przebiegów trenowania i zarządzania nimi
Interfejsy API dostrajania modelu podstawowego udostępniają następujące funkcje do zarządzania przebiegami trenowania.
Pobieranie przebiegu
Użyj funkcji , get()
aby zwrócić przebieg według nazwy lub uruchomionego obiektu.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Wyświetlanie listy przebiegów
list()
Użyj funkcji , aby wyświetlić uruchomione przebiegi. W poniższej tabeli wymieniono opcjonalne filtry, które można określić.
Filtr opcjonalny | Definicja |
---|---|
finetuning_runs |
Lista przebiegów do pobrania. Domyślnie wybiera wszystkie uruchomienia. |
user_emails |
Jeśli udostępnione uruchomienia są włączone dla obszaru roboczego, możesz filtrować wyniki według użytkownika, który przesłał przebieg trenowania. Domyślnie nie ma filtru użytkownika. |
before |
Ciąg daty/godziny lub daty/godziny do filtrowania przebiegów wcześniej. Domyślnie wszystkie przebiegi. |
after |
Ciąg daty/godziny lub daty/godziny do filtrowania jest uruchamiany po. Domyślnie wszystkie przebiegi. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Anulowanie przebiegów trenowania
Aby anulować pojedynczy przebieg trenowania, użyj cancel()
funkcji i przekaż nazwę przebiegu.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Aby anulować wiele przebiegów trenowania, przekaż określone nazwy przebiegów jako listę.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Aby anulować wszystkie przebiegi trenowania w eksperymencie, przekaż identyfikator eksperymentu.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
Przegląd stanu przebiegów trenowania
W poniższej tabeli wymieniono zdarzenia utworzone przez przebieg trenowania. get_events()
Użyj funkcji w dowolnym momencie podczas przebiegu, aby zobaczyć postęp przebiegu.
Uwaga
Dostrajanie modelu foundation wymusza limit 10 aktywnych uruchomień. Te uruchomienia, które znajdują się w kolejce, uruchomieniu lub zakończeniu. Przebiegi nie są już traktowane jako aktywne po zakończeniu, niepomyślnie lub zatrzymaniu.
Typ zdarzenia | Przykładowy komunikat o zdarzeniu | Definicja |
---|---|---|
CREATED |
Uruchom polecenie utworzone. | Został utworzony przebieg trenowania. Jeśli zasoby są dostępne, uruchomienie zostanie uruchomione. W przeciwnym razie wprowadza Pending stan. |
STARTED |
Uruchom polecenie . | Przydzielono zasoby, a przebieg został uruchomiony. |
DATA_VALIDATED |
Zweryfikowane dane szkoleniowe. | Sprawdzono, czy dane szkoleniowe są poprawnie sformatowane. |
MODEL_INITIALIZED |
Dane modelu pobrane i zainicjowane dla modelu meta-llama/Llama-2-7b-chat-hf podstawowego. |
Wagi dla modelu podstawowego zostały pobrane, a szkolenie jest gotowe do rozpoczęcia. |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] Utrata pociągu: 1,71 | Raportuje bieżącą partię trenowania, epokę lub token szacowany czas na zakończenie trenowania (bez uwzględniania czasu przekazywania punktu kontrolnego) i utratę pociągu. To zdarzenie jest aktualizowane po zakończeniu każdej partii. Jeśli konfiguracja przebiegu określa max_duration w tok jednostkach, postęp jest zgłaszany w tokenach. |
TRAIN_FINISHED |
Ukończono szkolenie. | Szkolenie zostało zakończone. Rozpoczyna się przekazywanie punktów kontrolnych. |
COMPLETED |
Przebieg ukończony. Przekazane wagi końcowe. | Punkt kontrolny został przekazany i przebieg został ukończony. |
CANCELED |
Uruchom anulowane. | Przebieg zostanie anulowany, jeśli fm.cancel() zostanie on wywołany. |
FAILED |
Co najmniej jeden przykład trenowania zestawu danych ma nieznane klucze. Zapoznaj się z dokumentacją obsługiwanych formatów danych. | Przebieg nie powiódł się. Sprawdź event_message szczegóły z możliwością działania lub skontaktuj się z pomocą techniczną. |
from databricks.model_training import foundation_model as fm
fm.get_events()
Wyświetlanie przebiegów i zarządzanie nimi za pomocą interfejsu użytkownika
Aby wyświetlić uruchomienia w interfejsie użytkownika:
Kliknij pozycję Eksperymenty na pasku nawigacyjnym po lewej stronie, aby wyświetlić stronę Eksperymenty.
W tabeli kliknij nazwę eksperymentu, aby wyświetlić stronę eksperymentu. Strona eksperymentu zawiera listę wszystkich przebiegów skojarzonych z eksperymentem.
Aby wyświetlić dodatkowe informacje lub metryki w tabeli, kliknij i wybierz elementy do wyświetlenia z menu:
Dodatkowe informacje o przebiegu są dostępne na karcie Wykres :
Możesz również kliknąć nazwę przebiegu, aby wyświetlić ekran uruchamiania. Ten ekran zapewnia dostęp do dodatkowych szczegółów dotyczących przebiegu.
Punktów kontrolnych
Aby uzyskać dostęp do folderu punktu kontrolnego, kliknij kartę Artefakty na ekranie uruchamiania. Otwórz nazwę eksperymentu, a następnie otwórz folder punktów kontrolnych . Te punkty kontrolne artefaktu nie są takie same jak zarejestrowany model na końcu przebiegu trenowania.
W tym folderze znajduje się kilka katalogów:
- Foldery epoki (o nazwie
ep<n>-xxx
) zawierają wagi i stany modelu w każdym punkcie kontrolnym Composer. Punkty kontrolne kompozytora są okresowo zapisywane przez szkolenie, są one używane do wznawiania przebiegu treningowego dostrajania i ciągłego dostrajania. Ten punkt kontrolny jest tym, który przekazujesz jakocustom_weights_path
element , aby rozpocząć kolejny przebieg treningowy z tych wag, zobacz Build on custom model weights (Tworzenie na niestandardowych wagach modelu). - W folderze
huggingface
punkty kontrolne funkcji Przytulanie twarzy są również okresowo zapisywane przez trenowanie. Po pobraniu zawartości w tym folderze można załadować te punkty kontrolne, tak jak w przypadku dowolnego innego punktu kontrolnego Hugging Face przy użyciu poleceniaAutoModelForCausalLM.from_pretrained(<downloaded folder>)
. - Jest
checkpoints/latest-sharded-rank0.symlink
to plik, który zawiera ścieżkę do najnowszego punktu kontrolnego, którego można użyć do wznowienia trenowania.
Punkty kontrolne Composer można również uzyskać dla przebiegu po zapisaniu przy użyciu polecenia get_checkpoints(run)
. Ta funkcja przyjmuje obiekt run jako dane wejściowe. Jeśli punkty kontrolne nie istnieją jeszcze, zostanie wyświetlony monit o ponowne wypróbowanie po zapisaniu punktów kontrolnych.