Basismodellen in Azure Machine Learning verkennen

Voltooid

Als u een basismodel wilt verfijnen vanuit de modelcatalogus in Azure Machine Learning, kunt u de gebruikersinterface in de studio, de Python SDK of de Azure CLI gebruiken.

Uw gegevens en berekeningen voorbereiden

Voordat u een basismodel kunt verfijnen om de modelprestaties te verbeteren, moet u uw trainingsgegevens voorbereiden en een GPU-rekencluster maken.

Tip

Wanneer u een GPU-rekencluster maakt in Azure Machine Learning, wordt de voor GPU geoptimaliseerde virtuele machine voor u gemaakt. Meer informatie over de grootten van de virtuele GPU-machines die beschikbaar zijn in Azure.

De trainingsgegevens kunnen de indeling JSON Lines (JSONL), CSV of TSV hebben. De vereisten van uw gegevens variƫren op basis van de specifieke taak waarvoor u uw model wilt aanpassen.

Opdracht Vereisten voor gegevenssets
Tekstclassificatie Twee kolommen: Sentence (tekenreeks) en Label (geheel getal/tekenreeks)
Tokenclassificatie Twee kolommen: Token (tekenreeks) en Tag (tekenreeks)
Vragen beantwoorden Vijf kolommen: Question (tekenreeks), (tekenreeks), Context Answers (tekenreeks), Answers_start (int) en Answers_text (tekenreeks)
Samenvatting Twee kolommen: Document (tekenreeks) en Summary (tekenreeks)
Vertaling Twee kolommen: Source_language (tekenreeks) en Target_language (tekenreeks)

Notitie

Uw gegevensset moet over de benodigde vereisten beschikken. U kunt echter verschillende kolomnamen gebruiken en de kolom toewijzen aan de juiste vereiste.

Wanneer u uw gegevensset en rekencluster gereed hebt, kunt u een taak voor het afstemmen configureren in Azure Machine Learning.

Een basismodel kiezen

Wanneer u in de Azure Machine Learning-studio naar de modelcatalogus navigeert, kunt u alle basismodellen verkennen.

Screenshot of model catalog in Azure Machine Learning.

U kunt de beschikbare modellen filteren op basis van de taak waarvoor u een model wilt afstemmen. Per taak hebt u verschillende opties voor basismodellen waaruit u kunt kiezen. Wanneer u besluit tussen basismodellen voor een taak, kunt u de beschrijving van het model en de modelkaart waarnaar wordt verwezen, bekijken.

Enkele overwegingen waarmee u rekening kunt houden bij het bepalen van een basismodel voordat u het verfijnen gaat, zijn:

  • Modelmogelijkheden: evalueer de mogelijkheden van het basismodel en hoe goed deze overeenkomen met uw taak. Een model zoals BERT is bijvoorbeeld beter in het begrijpen van korte teksten.
  • Vooraftrainingsgegevens: Overweeg de gegevensset die wordt gebruikt voor het vooraf trainen van het basismodel. GPT-2 wordt bijvoorbeeld getraind op niet-gefilterde inhoud van internet die kan leiden tot vooroordelen.
  • Beperkingen en vooroordelen: houd rekening met eventuele beperkingen of vooroordelen die mogelijk aanwezig zijn in het basismodel.
  • Taalondersteuning: Ontdek welke modellen de specifieke taalondersteuning of meertalige mogelijkheden bieden die u nodig hebt voor uw use-case.

Tip

Hoewel de Azure Machine Learning-studio u beschrijvingen biedt voor elk basismodel in de modelcatalogus, kunt u ook meer informatie over elk model vinden via de desbetreffende modelkaart. Naar de modelkaarten wordt verwezen in het overzicht van elk model en gehost op de website van Hugging Face

Een taak voor het afstemmen configureren

Als u een taak wilt configureren met behulp van de Azure Machine Learning-studio, moet u de volgende stappen uitvoeren:

  1. Kies een basismodel.
  2. Selecteer Finetune om een pop-upvenster te openen waarmee u de taak kunt configureren.
  3. Selecteer het taaktype.
  4. Selecteer de trainingsgegevens en wijs de kolommen in uw trainingsgegevens toe aan de vereisten voor de gegevensset.
  5. Laat Azure Machine Learning de trainingsgegevens automatisch splitsen om een validatie- en testgegevensset te maken, of geef uw eigen gegevensset op.
  6. Selecteer een GPU-rekencluster dat wordt beheerd door Azure Machine Learning.
  7. Selecteer Voltooien om de taak voor het afstemmen te verzenden.

Tip

U kunt desgewenst de geavanceerde instellingen verkennen om instellingen te wijzigen, zoals de naam van de taak en taakparameters (bijvoorbeeld het leerpercentage).

Screenshot of fine-tuning job configuration.

Nadat u de verfijningstaak hebt verzonden, wordt er een pijplijntaak gemaakt om uw model te trainen. U kunt alle invoer controleren en het model verzamelen uit de taakuitvoer.

Screenshot of completed pipeline job that fine-tuned a foundation model.