Uitvoeringen van Foundation-modellen weergeven, beheren en analyseren
Belangrijk
Deze functie bevindt zich in openbare preview in de volgende regio's: centralus
, eastus
, eastus2
, en northcentralus
westus
.
In dit artikel wordt beschreven hoe u Foundation Model Fine-tuning (nu onderdeel van Mosaic AI Model Training) bekijkt, beheert en analyseert met behulp van API's of met behulp van de gebruikersinterface.
Zie Voor meer informatie over het maken van uitvoeringen een trainingsuitvoering maken met behulp van de Foundation Model Fine-tuning-API en een trainingsuitvoering maken met behulp van de gebruikersinterface voor het verfijnen van foundationmodellen.
Foundation Model Fine-tuning-API's gebruiken om trainingsuitvoeringen weer te geven en te beheren
De Foundation Model Fine-tuning-API's bieden de volgende functies voor het beheren van uw trainingsuitvoeringen.
Een uitvoering krijgen
Gebruik de get()
functie om een uitvoering op naam of run-object te retourneren dat u hebt gestart.
from databricks.model_training import foundation_model as fm
fm.get('<your-run-name>')
Lijstuitvoeringen
Gebruik de list()
functie om te zien welke uitvoeringen u hebt gestart. De volgende tabel bevat de optionele filters die u kunt opgeven.
Optioneel filter | Definitie |
---|---|
finetuning_runs |
Een lijst met uitvoeringen die u kunt ophalen. Standaard worden alle uitvoeringen geselecteerd. |
user_emails |
Als gedeelde uitvoeringen zijn ingeschakeld voor uw werkruimte, kunt u resultaten filteren door de gebruiker die de trainingsuitvoering heeft ingediend. Standaard is er geen gebruikersfilter. |
before |
Een tekenreeks voor datum/tijd of datum/tijd om uitvoeringen eerder te filteren. Standaard ingesteld op alle uitvoeringen. |
after |
Een tekenreeks voor datum/tijd of datum/tijd om te filteren wordt uitgevoerd na. Standaard ingesteld op alle uitvoeringen. |
from databricks.model_training import foundation_model as fm
fm.list()
# filtering example
fm.list(before='2023-01-01', limit=50)
Trainingsuitvoeringen annuleren
Als u één trainingsuitvoering wilt annuleren, gebruikt u de cancel()
functie en geeft u de uitvoeringsnaam door.
from databricks.model_training import foundation_model as fm
run_to_cancel = '<name-of-run-to-cancel>'
fm.cancel(run_to_cancel)
Als u meerdere trainingsuitvoeringen wilt annuleren, geeft u de specifieke uitvoeringsnamen door als een lijst.
from databricks.model_training import foundation_model as fm
runs_to_cancel = ['<run_1>, <run_2>, <run_3>']
fm.cancel(runs=runs_to_cancel)
Als u alle trainingsuitvoeringen in een experiment wilt annuleren, geeft u de experiment-id door.
from databricks.model_training import foundation_model as fm
experiment_to_cancel = '<experiment-id-to-cancel>'
fm.cancel(experiment_id=experiment_to_cancel)
De status van trainingsuitvoeringen controleren
De volgende tabel bevat de gebeurtenissen die zijn gemaakt door een trainingsuitvoering. Gebruik de get_events()
functie op elk gewenst moment tijdens de uitvoering om de voortgang van de uitvoering te zien.
Notitie
Met Het verfijnen van Foundation Model wordt een limiet van 10 actieve uitvoeringen afgedwongen. Deze uitvoeringen bevinden zich in de wachtrij, worden uitgevoerd of zijn klaar. Uitvoeringen worden niet langer als actief beschouwd nadat ze de status VOLTOOID, MISLUKT of GESTOPT hebben.
Gebeurtenistype | Voorbeeld van gebeurtenisbericht | Definitie |
---|---|---|
CREATED |
Uitvoeren gemaakt. | De trainingsuitvoering is gemaakt. Als resources beschikbaar zijn, wordt de uitvoering gestart. Anders wordt de Pending status ingevoerd. |
STARTED |
De uitvoering is gestart. | Resources zijn toegewezen en de uitvoering is gestart. |
DATA_VALIDATED |
Trainingsgegevens gevalideerd. | Gevalideerd of trainingsgegevens correct zijn opgemaakt. |
MODEL_INITIALIZED |
Modelgegevens die zijn gedownload en geïnitialiseerd voor het basismodel meta-llama/Llama-2-7b-chat-hf . |
Gewichten voor het basismodel zijn gedownload en de training is klaar om te beginnen. |
TRAIN_UPDATED |
[epoch=1/1][batch=50/56][ETA=5min] Treinverlies: 1,71 | Rapporteert de huidige trainingsbatch, epoch of token, geschatte tijd voor het voltooien van de training (niet inclusief de uploadtijd van het controlepunt) en het verlies van de trein. Deze gebeurtenis wordt bijgewerkt wanneer elke batch eindigt. Als de uitvoeringsconfiguratie in tok eenheden opgeeftmax_duration , wordt de voortgang gerapporteerd in tokens. |
TRAIN_FINISHED |
Training voltooid. | Training is voltooid. Het uploaden van controlepunten begint. |
COMPLETED |
De uitvoering is voltooid. Uiteindelijke gewichten geüpload. | Controlepunt is geüpload en de uitvoering is voltooid. |
CANCELED |
Uitvoering geannuleerd. | De uitvoering wordt geannuleerd als fm.cancel() deze wordt aangeroepen. |
FAILED |
Een of meer voorbeelden van traingegevenssets hebben onbekende sleutels. Raadpleeg de documentatie voor ondersteunde gegevensindelingen. | De uitvoering is mislukt. Controleer op event_message bruikbare gegevens of neem contact op met de ondersteuning. |
from databricks.model_training import foundation_model as fm
fm.get_events()
De gebruikersinterface gebruiken om uitvoeringen weer te geven en te beheren
Uitvoeringen weergeven in de gebruikersinterface:
Klik op Experimenten in de linkernavigatiebalk om de pagina Experimenten weer te geven.
Klik in de tabel op de naam van het experiment om de experimentpagina weer te geven. Op de experimentpagina worden alle uitvoeringen weergegeven die aan het experiment zijn gekoppeld.
Als u aanvullende informatie of metrische gegevens in de tabel wilt weergeven, klikt en selecteert u de items die u wilt weergeven in het menu:
Aanvullende uitvoeringsinformatie is beschikbaar op het tabblad Grafiek :
U kunt ook op de naam van de uitvoering klikken om het uitvoeringsscherm weer te geven. Dit scherm geeft u toegang tot aanvullende informatie over de uitvoering.
Controleposten
Als u de map Controlepunt wilt openen, klikt u op het tabblad Artefacten op het uitvoerscherm. Open de naam van het experiment en open vervolgens de map controlepunten . Deze controlepunten voor artefacten zijn niet hetzelfde als het geregistreerde model aan het einde van een trainingsuitvoering.
Er zijn een paar mappen in deze map:
- De epoch-mappen (benoemd
ep<n>-xxx
) bevatten de gewichten en modelstatussen bij elk controlepunt van Composer. Controlepunten voor componisten worden periodiek opgeslagen via training, deze worden gebruikt voor het hervatten van een trainingsuitvoering voor het verfijnen en verder afstemmen. Dit controlepunt is het controlepunt dat u doorgeeft als ucustom_weights_path
een andere trainingsuitvoering vanaf die gewichten wilt starten. Zie Bouwen op aangepaste modelgewichten. - In de
huggingface
map worden controlepunten voor het knuffelen van gezichten ook periodiek opgeslagen via training. Nadat u de inhoud in deze map hebt gedownload, kunt u deze controlepunten laden zoals bij elk ander hugging Face-controlepunt.AutoModelForCausalLM.from_pretrained(<downloaded folder>)
- Het
checkpoints/latest-sharded-rank0.symlink
is een bestand dat het pad naar het meest recente controlepunt bevat, dat u kunt gebruiken om de training te hervatten.
U kunt ook de Composer-controlepunten voor een uitvoering krijgen nadat ze zijn opgeslagen met behulp van get_checkpoints(run)
. Met deze functie wordt het uitvoeringsobject als invoer gebruikt. Als er nog geen controlepunten bestaan, wordt u gevraagd het opnieuw te proberen nadat controlepunten zijn opgeslagen.