Udostępnij za pośrednictwem


Wyświetlanie przebiegów dostrajania modelu podstawowego, zarządzanie nimi i analizowanie ich

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej w następujących regionach: centralus, , eastuseastus2, northcentralusi westus.

W tym artykule opisano sposób wyświetlania, zarządzania i analizowania dostrajania modelu podstawowego (obecnie część trenowania modelu mozaiki sztucznej inteligencji) przy użyciu interfejsów API lub interfejsu użytkownika.

Aby uzyskać informacje na temat tworzenia przebiegów, zobacz Tworzenie przebiegu trenowania przy użyciu interfejsu API dostrajania modelu podstawowego i Tworzenie przebiegu trenowania przy użyciu interfejsu użytkownika dostrajania modelu podstawowego.

Używanie interfejsów API dostrajania modelu foundation do wyświetlania przebiegów trenowania i zarządzania nimi

Interfejsy API dostrajania modelu podstawowego udostępniają następujące funkcje do zarządzania przebiegami trenowania.

Pobieranie przebiegu

Użyj funkcji , get() aby zwrócić przebieg według nazwy lub uruchomionego obiektu.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Wyświetlanie listy przebiegów

list() Użyj funkcji , aby wyświetlić uruchomione przebiegi. W poniższej tabeli wymieniono opcjonalne filtry, które można określić.

Filtr opcjonalny Definicja
finetuning_runs Lista przebiegów do pobrania. Domyślnie wybiera wszystkie uruchomienia.
user_emails Jeśli udostępnione uruchomienia są włączone dla obszaru roboczego, możesz filtrować wyniki według użytkownika, który przesłał przebieg trenowania. Domyślnie nie ma filtru użytkownika.
before Ciąg daty/godziny lub daty/godziny do filtrowania przebiegów wcześniej. Domyślnie wszystkie przebiegi.
after Ciąg daty/godziny lub daty/godziny do filtrowania jest uruchamiany po. Domyślnie wszystkie przebiegi.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Anulowanie przebiegów trenowania

Aby anulować pojedynczy przebieg trenowania, użyj cancel() funkcji i przekaż nazwę przebiegu.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Aby anulować wiele przebiegów trenowania, przekaż określone nazwy przebiegów jako listę.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Aby anulować wszystkie przebiegi trenowania w eksperymencie, przekaż identyfikator eksperymentu.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

Przegląd stanu przebiegów trenowania

W poniższej tabeli wymieniono zdarzenia utworzone przez przebieg trenowania. get_events() Użyj funkcji w dowolnym momencie podczas przebiegu, aby zobaczyć postęp przebiegu.

Uwaga

Dostrajanie modelu foundation wymusza limit 10 aktywnych uruchomień. Te uruchomienia, które znajdują się w kolejce, uruchomieniu lub zakończeniu. Przebiegi nie są już traktowane jako aktywne po zakończeniu, niepomyślnie lub zatrzymaniu.

Typ zdarzenia Przykładowy komunikat o zdarzeniu Definicja
CREATED Uruchom polecenie utworzone. Został utworzony przebieg trenowania. Jeśli zasoby są dostępne, uruchomienie zostanie uruchomione. W przeciwnym razie wprowadza Pending stan.
STARTED Uruchom polecenie . Przydzielono zasoby, a przebieg został uruchomiony.
DATA_VALIDATED Zweryfikowane dane szkoleniowe. Sprawdzono, czy dane szkoleniowe są poprawnie sformatowane.
MODEL_INITIALIZED Dane modelu pobrane i zainicjowane dla modelu meta-llama/Llama-2-7b-chat-hfpodstawowego. Wagi dla modelu podstawowego zostały pobrane, a szkolenie jest gotowe do rozpoczęcia.
TRAIN_UPDATED [epoch=1/1][batch=50/56][ETA=5min] Utrata pociągu: 1,71 Raportuje bieżącą partię trenowania, epokę lub token szacowany czas na zakończenie trenowania (bez uwzględniania czasu przekazywania punktu kontrolnego) i utratę pociągu. To zdarzenie jest aktualizowane po zakończeniu każdej partii. Jeśli konfiguracja przebiegu określa max_duration w tok jednostkach, postęp jest zgłaszany w tokenach.
TRAIN_FINISHED Ukończono szkolenie. Szkolenie zostało zakończone. Rozpoczyna się przekazywanie punktów kontrolnych.
COMPLETED Przebieg ukończony. Przekazane wagi końcowe. Punkt kontrolny został przekazany i przebieg został ukończony.
CANCELED Uruchom anulowane. Przebieg zostanie anulowany, jeśli fm.cancel() zostanie on wywołany.
FAILED Co najmniej jeden przykład trenowania zestawu danych ma nieznane klucze. Zapoznaj się z dokumentacją obsługiwanych formatów danych. Przebieg nie powiódł się. Sprawdź event_message szczegóły z możliwością działania lub skontaktuj się z pomocą techniczną.
from databricks.model_training import foundation_model as fm

fm.get_events()

Wyświetlanie przebiegów i zarządzanie nimi za pomocą interfejsu użytkownika

Aby wyświetlić uruchomienia w interfejsie użytkownika:

  1. Kliknij pozycję Eksperymenty na pasku nawigacyjnym po lewej stronie, aby wyświetlić stronę Eksperymenty.

  2. W tabeli kliknij nazwę eksperymentu, aby wyświetlić stronę eksperymentu. Strona eksperymentu zawiera listę wszystkich przebiegów skojarzonych z eksperymentem.

    strona eksperymentu

  3. Aby wyświetlić dodatkowe informacje lub metryki w tabeli, kliknij plus i wybierz elementy do wyświetlenia z menu:

    dodawanie metryk do wykresu

  4. Dodatkowe informacje o przebiegu są dostępne na karcie Wykres :

    Karta wykresu

  5. Możesz również kliknąć nazwę przebiegu, aby wyświetlić ekran uruchamiania. Ten ekran zapewnia dostęp do dodatkowych szczegółów dotyczących przebiegu.

    strona uruchamiania

Punktów kontrolnych

Aby uzyskać dostęp do folderu punktu kontrolnego, kliknij kartę Artefakty na ekranie uruchamiania. Otwórz nazwę eksperymentu, a następnie otwórz folder punktów kontrolnych . Te punkty kontrolne artefaktu nie są takie same jak zarejestrowany model na końcu przebiegu trenowania.

folder punktu kontrolnego na karcie artefaktów

W tym folderze znajduje się kilka katalogów:

  • Foldery epoki (o nazwie ep<n>-xxx) zawierają wagi i stany modelu w każdym punkcie kontrolnym Composer. Punkty kontrolne kompozytora są okresowo zapisywane przez szkolenie, są one używane do wznawiania przebiegu treningowego dostrajania i ciągłego dostrajania. Ten punkt kontrolny jest tym, który przekazujesz jako custom_weights_path element , aby rozpocząć kolejny przebieg treningowy z tych wag, zobacz Build on custom model weights (Tworzenie na niestandardowych wagach modelu).
  • W folderze huggingface punkty kontrolne funkcji Przytulanie twarzy są również okresowo zapisywane przez trenowanie. Po pobraniu zawartości w tym folderze można załadować te punkty kontrolne, tak jak w przypadku dowolnego innego punktu kontrolnego Hugging Face przy użyciu polecenia AutoModelForCausalLM.from_pretrained(<downloaded folder>).
  • Jest checkpoints/latest-sharded-rank0.symlink to plik, który zawiera ścieżkę do najnowszego punktu kontrolnego, którego można użyć do wznowienia trenowania.

Punkty kontrolne Composer można również uzyskać dla przebiegu po zapisaniu przy użyciu polecenia get_checkpoints(run). Ta funkcja przyjmuje obiekt run jako dane wejściowe. Jeśli punkty kontrolne nie istnieją jeszcze, zostanie wyświetlony monit o ponowne wypróbowanie po zapisaniu punktów kontrolnych.