Delen via


Zelfstudie: Een uitvoering voor het verfijnen van een Foundation-model maken en implementeren

Belangrijk

Deze functie bevindt zich in openbare preview in de volgende regio's: , centralus, eastus, en eastus2northcentralus.westus

In dit artikel wordt beschreven hoe u een uitvoering maakt en configureert met behulp van de Foundation Model Fine-tuning (nu onderdeel van de Mozaïek AI-modeltrainings-API) en vervolgens de resultaten bekijkt en het model implementeert met behulp van de Databricks UI en Mosaic AI Model Serving.

Eisen

  • Een werkruimte in een van de volgende Azure-regio's: centralus, , eastuseastus2, northcentralus, , westcentralus, . westuswestus3
  • Databricks Runtime 12.2 LTS ML of hoger.
  • Deze zelfstudie moet worden uitgevoerd in een Databricks-notebook.
  • Trainingsgegevens in de geaccepteerde indeling. Zie Gegevens voorbereiden voor het verfijnen van Foundation Model.

Stap 1: Uw gegevens voorbereiden voor training

Zie Gegevens voorbereiden voor het verfijnen van Foundation Model.

Stap 2: de databricks_genai SDK installeren

Gebruik het volgende om de databricks_genai SDK te installeren.

%pip install databricks_genai

Importeer vervolgens de foundation_model bibliotheek:

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

Stap 3: Een trainingsuitvoering maken

Maak een trainingsuitvoering met behulp van de functie Foundation Model Fine-tuning create() . De volgende parameters zijn vereist:

  • model: het model dat u wilt trainen.
  • train_data_path: de locatie van de trainingsgegevensset in.
  • register_to: de Unity Catalog-catalogus en het schema waarin u controlepunten wilt opslaan.

Voorbeeld:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

Stap 4: De status van een uitvoering weergeven

De tijd die nodig is om een trainingsuitvoering te voltooien, is afhankelijk van het aantal tokens, het model en de GPU-beschikbaarheid. Voor een snellere training raadt Databricks u aan om gereserveerde rekenkracht te gebruiken. Neem contact op met uw Databricks-accountteam voor meer informatie.

Nadat u de uitvoering hebt gestart, kunt u de status ervan controleren met behulp van get_events().

run.get_events()

Stap 5: Metrische gegevens en uitvoer weergeven

Volg deze stappen om de resultaten weer te geven in de Databricks-gebruikersinterface:

  1. Klik in de Databricks-werkruimte op Experimenten in de linkernavigatiebalk.
  2. Selecteer uw experiment in de lijst.
  3. Bekijk de grafieken met metrische gegevens op het tabblad Grafieken . Trainingsstatistieken worden gegenereerd voor elke trainingsuitvoering en metrische evaluatiegegevens worden alleen gegenereerd als er een evaluatiegegevenspad wordt opgegeven.
    1. De metrische gegevens van de primaire training waarin de voortgang wordt weergegeven, zijn verlies. Evaluatieverlies kan worden gebruikt om te zien of uw model overfitting is voor uw trainingsgegevens. Er moet echter niet volledig op verlies worden vertrouwd omdat in trainingstaken met instructies het evaluatieverlies overfitting vertoont terwijl het model blijft verbeteren.
    2. Hoe hoger de nauwkeurigheid hoe beter uw model is, maar houd er rekening mee dat de nauwkeurigheid dicht bij 100% kan wijzen op overfitting.
    3. De volgende metrische gegevens worden weergegeven in MLflow na de uitvoering:
      • LanguageCrossEntropy berekent cross-entropie op taalmodelleringsuitvoer. Een lagere score is beter.
      • LanguagePerplexity meet hoe goed een taalmodel het volgende woord of teken voorspelt in een tekstblok op basis van eerdere woorden of tekens. Een lagere score is beter.
      • TokenAccuracy berekent de nauwkeurigheid op tokenniveau voor taalmodellering. Een hogere score is beter.
    4. Op dit tabblad kunt u ook de uitvoer van de evaluatieprompts bekijken als u deze hebt opgegeven.

Stap 6: Meerdere aangepaste modellen evalueren met Mosaic AI Agent Evaluation voordat ze worden geïmplementeerd

Bekijk wat is De evaluatie van De AI-agent van Mozaïek?

Stap 7: Uw model implementeren

De trainingsuitvoering registreert uw model automatisch in Unity Catalog nadat het is voltooid. Het model wordt geregistreerd op basis van wat u hebt opgegeven in het register_to veld in de uitvoeringsmethode create() .

Voer de volgende stappen uit om het model voor de service te implementeren:

  1. Navigeer naar het model in Unity Catalog.
  2. Klik op Dit model bedienen.
  3. Klik op Een service-eindpunt maken.
  4. Geef in het veld Naam een naam op voor uw eindpunt.
  5. Klik op Create.

Aanvullende bronnen