Delen via


Uitvoeringen van Foundation-modellen weergeven, beheren en analyseren

Belangrijk

Deze functie bevindt zich in openbare preview in de volgende regio's: centralus, eastus, eastus2, en northcentraluswestus.

In dit artikel wordt beschreven hoe u Foundation Model Fine-tuning (nu onderdeel van Mosaic AI Model Training) bekijkt, beheert en analyseert met behulp van API's of met behulp van de gebruikersinterface.

Zie Voor meer informatie over het maken van uitvoeringen een trainingsuitvoering maken met behulp van de Foundation Model Fine-tuning-API en een trainingsuitvoering maken met behulp van de gebruikersinterface voor het verfijnen van foundationmodellen.

Foundation Model Fine-tuning-API's gebruiken om trainingsuitvoeringen weer te geven en te beheren

De Foundation Model Fine-tuning-API's bieden de volgende functies voor het beheren van uw trainingsuitvoeringen.

Een uitvoering krijgen

Gebruik de get() functie om een uitvoering op naam of run-object te retourneren dat u hebt gestart.

from databricks.model_training import foundation_model as fm

fm.get('<your-run-name>')

Lijstuitvoeringen

Gebruik de list() functie om te zien welke uitvoeringen u hebt gestart. De volgende tabel bevat de optionele filters die u kunt opgeven.

Optioneel filter Definitie
finetuning_runs Een lijst met uitvoeringen die u kunt ophalen. Standaard worden alle uitvoeringen geselecteerd.
user_emails Als gedeelde uitvoeringen zijn ingeschakeld voor uw werkruimte, kunt u resultaten filteren door de gebruiker die de trainingsuitvoering heeft ingediend. Standaard is er geen gebruikersfilter.
before Een tekenreeks voor datum/tijd of datum/tijd om uitvoeringen eerder te filteren. Standaard ingesteld op alle uitvoeringen.
after Een tekenreeks voor datum/tijd of datum/tijd om te filteren wordt uitgevoerd na. Standaard ingesteld op alle uitvoeringen.
from databricks.model_training import foundation_model as fm

fm.list()

# filtering example
fm.list(before='2023-01-01', limit=50)

Trainingsuitvoeringen annuleren

Als u één trainingsuitvoering wilt annuleren, gebruikt u de cancel() functie en geeft u de uitvoeringsnaam door.

from databricks.model_training import foundation_model as fm

run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)

Als u meerdere trainingsuitvoeringen wilt annuleren, geeft u de specifieke uitvoeringsnamen door als een lijst.

from databricks.model_training import foundation_model as fm

runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)

Als u alle trainingsuitvoeringen in een experiment wilt annuleren, geeft u de experiment-id door.

from databricks.model_training import foundation_model as fm

experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)

De status van trainingsuitvoeringen controleren

De volgende tabel bevat de gebeurtenissen die zijn gemaakt door een trainingsuitvoering. Gebruik de get_events() functie op elk gewenst moment tijdens de uitvoering om de voortgang van de uitvoering te zien.

Notitie

Met Het verfijnen van Foundation Model wordt een limiet van 10 actieve uitvoeringen afgedwongen. Deze uitvoeringen bevinden zich in de wachtrij, worden uitgevoerd of zijn klaar. Uitvoeringen worden niet langer als actief beschouwd nadat ze de status VOLTOOID, MISLUKT of GESTOPT hebben.

Gebeurtenistype Voorbeeld van gebeurtenisbericht Definitie
CREATED Uitvoeren gemaakt. De trainingsuitvoering is gemaakt. Als resources beschikbaar zijn, wordt de uitvoering gestart. Anders wordt de Pending status ingevoerd.
STARTED De uitvoering is gestart. Resources zijn toegewezen en de uitvoering is gestart.
DATA_VALIDATED Trainingsgegevens gevalideerd. Gevalideerd of trainingsgegevens correct zijn opgemaakt.
MODEL_INITIALIZED Modelgegevens die zijn gedownload en geïnitialiseerd voor het basismodel meta-llama/Llama-2-7b-chat-hf. Gewichten voor het basismodel zijn gedownload en de training is klaar om te beginnen.
TRAIN_UPDATED [epoch=1/1][batch=50/56][ETA=5min] Treinverlies: 1,71 Rapporteert de huidige trainingsbatch, epoch of token, geschatte tijd voor het voltooien van de training (niet inclusief de uploadtijd van het controlepunt) en het verlies van de trein. Deze gebeurtenis wordt bijgewerkt wanneer elke batch eindigt. Als de uitvoeringsconfiguratie in tok eenheden opgeeftmax_duration, wordt de voortgang gerapporteerd in tokens.
TRAIN_FINISHED Training voltooid. Training is voltooid. Het uploaden van controlepunten begint.
COMPLETED De uitvoering is voltooid. Uiteindelijke gewichten geüpload. Controlepunt is geüpload en de uitvoering is voltooid.
CANCELED Uitvoering geannuleerd. De uitvoering wordt geannuleerd als fm.cancel() deze wordt aangeroepen.
FAILED Een of meer voorbeelden van traingegevenssets hebben onbekende sleutels. Raadpleeg de documentatie voor ondersteunde gegevensindelingen. De uitvoering is mislukt. Controleer op event_message bruikbare gegevens of neem contact op met de ondersteuning.
from databricks.model_training import foundation_model as fm

fm.get_events()

De gebruikersinterface gebruiken om uitvoeringen weer te geven en te beheren

Uitvoeringen weergeven in de gebruikersinterface:

  1. Klik op Experimenten in de linkernavigatiebalk om de pagina Experimenten weer te geven.

  2. Klik in de tabel op de naam van het experiment om de experimentpagina weer te geven. Op de experimentpagina worden alle uitvoeringen weergegeven die aan het experiment zijn gekoppeld.

    experimentpagina

  3. Als u aanvullende informatie of metrische gegevens in de tabel wilt weergeven, klikt plusteken en selecteert u de items die u wilt weergeven in het menu:

    metrische gegevens toevoegen aan grafiek

  4. Aanvullende uitvoeringsinformatie is beschikbaar op het tabblad Grafiek :

    grafiektabblad

  5. U kunt ook op de naam van de uitvoering klikken om het uitvoeringsscherm weer te geven. Dit scherm geeft u toegang tot aanvullende informatie over de uitvoering.

    uitvoeringspagina

Controleposten

Als u de map Controlepunt wilt openen, klikt u op het tabblad Artefacten op het uitvoerscherm. Open de naam van het experiment en open vervolgens de map controlepunten . Deze controlepunten voor artefacten zijn niet hetzelfde als het geregistreerde model aan het einde van een trainingsuitvoering.

controlepuntmap op het tabblad Artefacten

Er zijn een paar mappen in deze map:

  • De epoch-mappen (benoemd ep<n>-xxx) bevatten de gewichten en modelstatussen bij elk controlepunt van Composer. Controlepunten voor componisten worden periodiek opgeslagen via training, deze worden gebruikt voor het hervatten van een trainingsuitvoering voor het verfijnen en verder afstemmen. Dit controlepunt is het controlepunt dat u doorgeeft als u custom_weights_path een andere trainingsuitvoering vanaf die gewichten wilt starten. Zie Bouwen op aangepaste modelgewichten.
  • In de huggingface map worden controlepunten voor het knuffelen van gezichten ook periodiek opgeslagen via training. Nadat u de inhoud in deze map hebt gedownload, kunt u deze controlepunten laden zoals bij elk ander hugging Face-controlepunt.AutoModelForCausalLM.from_pretrained(<downloaded folder>)
  • Het checkpoints/latest-sharded-rank0.symlink is een bestand dat het pad naar het meest recente controlepunt bevat, dat u kunt gebruiken om de training te hervatten.

U kunt ook de Composer-controlepunten voor een uitvoering krijgen nadat ze zijn opgeslagen met behulp van get_checkpoints(run). Met deze functie wordt het uitvoeringsobject als invoer gebruikt. Als er nog geen controlepunten bestaan, wordt u gevraagd het opnieuw te proberen nadat controlepunten zijn opgeslagen.