Zelfstudie: Een uitvoering voor het verfijnen van een Foundation-model maken en implementeren
Belangrijk
Deze functie bevindt zich in openbare preview in de volgende regio's: , centralus
, eastus
, en eastus2
northcentralus
.westus
In dit artikel wordt beschreven hoe u een uitvoering maakt en configureert met behulp van de Foundation Model Fine-tuning (nu onderdeel van de Mozaïek AI-modeltrainings-API) en vervolgens de resultaten bekijkt en het model implementeert met behulp van de Databricks UI en Mosaic AI Model Serving.
Eisen
- Een werkruimte in een van de volgende Azure-regio's:
centralus
, ,eastus
eastus2
,northcentralus
, ,westcentralus
, .westus
westus3
- Databricks Runtime 12.2 LTS ML of hoger.
- Deze zelfstudie moet worden uitgevoerd in een Databricks-notebook.
- Trainingsgegevens in de geaccepteerde indeling. Zie Gegevens voorbereiden voor het verfijnen van Foundation Model.
Stap 1: Uw gegevens voorbereiden voor training
Zie Gegevens voorbereiden voor het verfijnen van Foundation Model.
Stap 2: de databricks_genai
SDK installeren
Gebruik het volgende om de databricks_genai
SDK te installeren.
%pip install databricks_genai
Importeer vervolgens de foundation_model
bibliotheek:
dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm
Stap 3: Een trainingsuitvoering maken
Maak een trainingsuitvoering met behulp van de functie Foundation Model Fine-tuning create()
. De volgende parameters zijn vereist:
-
model
: het model dat u wilt trainen. -
train_data_path
: de locatie van de trainingsgegevensset in. -
register_to
: de Unity Catalog-catalogus en het schema waarin u controlepunten wilt opslaan.
Voorbeeld:
run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
register_to='main.my-directory',
training_duration='1ep')
run
Stap 4: De status van een uitvoering weergeven
De tijd die nodig is om een trainingsuitvoering te voltooien, is afhankelijk van het aantal tokens, het model en de GPU-beschikbaarheid. Voor een snellere training raadt Databricks u aan om gereserveerde rekenkracht te gebruiken. Neem contact op met uw Databricks-accountteam voor meer informatie.
Nadat u de uitvoering hebt gestart, kunt u de status ervan controleren met behulp van get_events()
.
run.get_events()
Stap 5: Metrische gegevens en uitvoer weergeven
Volg deze stappen om de resultaten weer te geven in de Databricks-gebruikersinterface:
- Klik in de Databricks-werkruimte op Experimenten in de linkernavigatiebalk.
- Selecteer uw experiment in de lijst.
- Bekijk de grafieken met metrische gegevens op het tabblad Grafieken . Trainingsstatistieken worden gegenereerd voor elke trainingsuitvoering en metrische evaluatiegegevens worden alleen gegenereerd als er een evaluatiegegevenspad wordt opgegeven.
- De metrische gegevens van de primaire training waarin de voortgang wordt weergegeven, zijn verlies. Evaluatieverlies kan worden gebruikt om te zien of uw model overfitting is voor uw trainingsgegevens. Er moet echter niet volledig op verlies worden vertrouwd omdat in trainingstaken met instructies het evaluatieverlies overfitting vertoont terwijl het model blijft verbeteren.
- Hoe hoger de nauwkeurigheid hoe beter uw model is, maar houd er rekening mee dat de nauwkeurigheid dicht bij 100% kan wijzen op overfitting.
- De volgende metrische gegevens worden weergegeven in MLflow na de uitvoering:
-
LanguageCrossEntropy
berekent cross-entropie op taalmodelleringsuitvoer. Een lagere score is beter. -
LanguagePerplexity
meet hoe goed een taalmodel het volgende woord of teken voorspelt in een tekstblok op basis van eerdere woorden of tekens. Een lagere score is beter. -
TokenAccuracy
berekent de nauwkeurigheid op tokenniveau voor taalmodellering. Een hogere score is beter.
-
- Op dit tabblad kunt u ook de uitvoer van de evaluatieprompts bekijken als u deze hebt opgegeven.
Stap 6: Meerdere aangepaste modellen evalueren met Mosaic AI Agent Evaluation voordat ze worden geïmplementeerd
Bekijk wat is De evaluatie van De AI-agent van Mozaïek?
Stap 7: Uw model implementeren
De trainingsuitvoering registreert uw model automatisch in Unity Catalog nadat het is voltooid. Het model wordt geregistreerd op basis van wat u hebt opgegeven in het register_to
veld in de uitvoeringsmethode create()
.
Voer de volgende stappen uit om het model voor de service te implementeren:
- Navigeer naar het model in Unity Catalog.
- Klik op Dit model bedienen.
- Klik op Een service-eindpunt maken.
- Geef in het veld Naam een naam op voor uw eindpunt.
- Klik op Create.
Aanvullende bronnen
- Een trainingsuitvoering maken met behulp van de Foundation Model Fine-tuning-API
- Foundation Model Fine-tuning
- Modellen implementeren met behulp van Mosaic AI Model Serving
- Zie het instructiedemonotitieblok: demonotitieblok voor entiteitsherkenning voor een voorbeeld van het verfijnen van instructies voor het voorbereiden van gegevens, het afstemmen van de configuratie en implementatie van trainingsuitvoeringen.