Zelfstudie: Modelontwikkeling op een cloudwerkstation
Leer hoe u een trainingsscript ontwikkelt met een notebook op een Azure Machine Learning-cloudwerkstation. In deze zelfstudie worden de basisbeginselen besproken die u nodig hebt om aan de slag te gaan:
- Het cloudwerkstation instellen en configureren. Uw cloudwerkstation wordt mogelijk gemaakt door een Azure Machine Learning-rekenproces, dat vooraf is geconfigureerd met omgevingen ter ondersteuning van uw verschillende modelontwikkelingsbehoeften.
- Ontwikkelomgevingen in de cloud gebruiken.
- Gebruik MLflow om uw metrische modelgegevens bij te houden, allemaal vanuit een notebook.
Vereisten
Als u Azure Machine Learning wilt gebruiken, hebt u een werkruimte nodig. Als u er nog geen hebt, voltooit u Resources maken die u nodig hebt om aan de slag te gaan met het maken van een werkruimte en meer informatie over het gebruik ervan.
Belangrijk
Als uw Azure Machine Learning-werkruimte is geconfigureerd met een beheerd virtueel netwerk, moet u mogelijk uitgaande regels toevoegen om toegang tot de openbare Python-pakketopslagplaatsen toe te staan. Zie Scenario: Toegang tot openbare machine learning-pakketten voor meer informatie.
Beginnen met compute
Met de sectie Compute in uw werkruimte kunt u rekenresources maken. Een rekenproces is een cloudwerkstation dat volledig wordt beheerd door Azure Machine Learning. In deze reeks zelfstudies wordt een rekenproces gebruikt. U kunt deze ook gebruiken om uw eigen code uit te voeren en modellen te ontwikkelen en te testen.
- Meld u aan bij Azure Machine Learning Studio.
- Selecteer uw werkruimte als deze nog niet is geopend.
- Selecteer Compute in het linkernavigatievenster.
- Als u geen rekenproces hebt, ziet u nieuw in het midden van het scherm. Selecteer Nieuw en vul het formulier in. U kunt alle standaardinstellingen gebruiken.
- Als u een rekenproces hebt, selecteert u deze in de lijst. Als deze is gestopt, selecteert u Start.
Visual Studio Code (VS Code) openen
Zodra u een actief rekenproces hebt, kunt u het op verschillende manieren openen. In deze zelfstudie ziet u hoe u het rekenproces van VS Code gebruikt. VS Code biedt u een volledige IDE (Integrated Development Environment) met de kracht van Azure Machine Learning-resources.
Selecteer in de lijst met rekeninstanties de koppeling VS Code (Web) of VS Code (Desktop) voor het rekenproces dat u wilt gebruiken. Als u VS Code (desktop) kiest, ziet u mogelijk een pop-upvenster waarin u wordt gevraagd of u de toepassing wilt openen.
Dit VS Code-exemplaar is gekoppeld aan uw rekenproces en uw werkruimtebestandssysteem. Zelfs als u het op uw bureaublad opent, zijn de bestanden die u ziet bestanden in uw werkruimte.
Een nieuwe omgeving instellen voor prototypen (optioneel)
Als u het script wilt uitvoeren, moet u werken in een omgeving die is geconfigureerd met de afhankelijkheden en bibliotheken die de code verwacht. Deze sectie helpt u bij het maken van een omgeving die is afgestemd op uw code. Als u de nieuwe Jupyter-kernel wilt maken waarmee uw notebook verbinding maakt, gebruikt u een YAML-bestand waarmee de afhankelijkheden worden gedefinieerd.
Een bestand uploaden.
Bestanden die u uploadt, worden opgeslagen in een Azure-bestandsshare en deze bestanden worden gekoppeld aan elk rekenproces en gedeeld in de werkruimte.
Download dit conda-omgevingsbestand workstation_env.yml naar uw computer met behulp van de knop Onbewerkt bestand downloaden in de rechterbovenhoek.
Sleep het bestand van uw computer naar het VS Code-venster. Het bestand wordt geüpload naar uw werkruimte.
Verplaats het bestand onder uw gebruikersnaammap.
Selecteer dit bestand om een voorbeeld van het bestand te bekijken en bekijk welke afhankelijkheden het opgeeft. De inhoud ziet er als volgt uit:
name: workstation_env # This file serves as an example - you can update packages or versions to fit your use case dependencies: - python=3.8 - pip=21.2.4 - scikit-learn=0.24.2 - scipy=1.7.1 - pandas>=1.1,<1.2 - pip: - mlflow-skinny - azureml-mlflow - psutil>=5.8,<5.9 - ipykernel~=6.0 - matplotlib
Maak een kernel.
Gebruik nu de terminal om een nieuwe Jupyter-kernel te maken op basis van het workstation_env.yml-bestand .
Selecteer Terminal > New Terminal in de bovenste menubalk.
Bekijk uw huidige Conda-omgevingen. De actieve omgeving is gemarkeerd met een *.
conda env list
cd
naar de map waar u het workstation_env.yml-bestand hebt geüpload. Als u deze bijvoorbeeld hebt geüpload naar uw gebruikersmap:cd Users/myusername
Zorg ervoor dat de workstation_env.yml zich in deze map bevindt.
ls
Maak de omgeving op basis van het opgegeven Conda-bestand. Het duurt enkele minuten om deze omgeving te bouwen.
conda env create -f workstation_env.yml
Activeer de nieuwe omgeving.
conda activate workstation_env
Notitie
Als u een CommandNotFoundError ziet, volgt u de instructies voor het uitvoeren
conda init bash
, sluit u de terminal en opent u een nieuwe. Voer vervolgens deconda activate workstation_env
opdracht opnieuw uit.Controleer of de juiste omgeving actief is en zoek opnieuw naar de omgeving die is gemarkeerd met een *.
conda env list
Maak een nieuwe Jupyter-kernel op basis van uw actieve omgeving.
python -m ipykernel install --user --name workstation_env --display-name "Tutorial Workstation Env"
Sluit het terminalvenster.
U hebt nu een nieuwe kernel. Vervolgens opent u een notebook en gebruikt u deze kernel.
Een notebook maken
- Selecteer Bestand > nieuw bestand in de bovenste menubalk.
- Geef het nieuwe bestand de naam develop-tutorial.ipynb (of voer de gewenste naam in). Zorg ervoor dat u de .ipynb-extensie gebruikt.
De kernel instellen
- Selecteer in de rechterbovenhoek de optie Kernel selecteren.
- Selecteer een Azure ML-rekenproces (computeinstance-name).
- Selecteer de kernel die u hebt gemaakt, Zelfstudie Workstation Env. Als u dit niet ziet, selecteert u het hulpprogramma Vernieuwen in de rechterbovenhoek.
Een trainingsscript ontwikkelen
In deze sectie ontwikkelt u een Python-trainingsscript waarmee standaardbetalingen van creditcards worden voorspeld met behulp van de voorbereide test- en trainingsgegevenssets uit de UCI-gegevensset.
Deze code wordt gebruikt sklearn
voor training en MLflow voor het vastleggen van de metrische gegevens.
Begin met code waarmee de pakketten en bibliotheken worden geïmporteerd die u in het trainingsscript gaat gebruiken.
import os import argparse import pandas as pd import mlflow import mlflow.sklearn from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import classification_report from sklearn.model_selection import train_test_split
Vervolgens laadt en verwerkt u de gegevens voor dit experiment. In deze zelfstudie leest u de gegevens uit een bestand op internet.
# load the data credit_df = pd.read_csv( "https://azuremlexamples.blob.core.windows.net/datasets/credit_card/default_of_credit_card_clients.csv", header=1, index_col=0, ) train_df, test_df = train_test_split( credit_df, test_size=0.25, )
De gegevens voorbereiden op training:
# Extracting the label column y_train = train_df.pop("default payment next month") # convert the dataframe values to array X_train = train_df.values # Extracting the label column y_test = test_df.pop("default payment next month") # convert the dataframe values to array X_test = test_df.values
Voeg code toe om automatisch in te loggen,
MLflow
zodat u de metrische gegevens en resultaten kunt bijhouden. Met de iteratieve aard van modelontwikkelingMLflow
kunt u modelparameters en resultaten vastleggen. Raadpleeg deze uitvoeringen om te vergelijken en te begrijpen hoe uw model presteert. De logboeken bieden ook context wanneer u klaar bent om over te stappen van de ontwikkelingsfase naar de trainingsfase van uw werkstromen in Azure Machine Learning.# set name for logging mlflow.set_experiment("Develop on cloud tutorial") # enable autologging with MLflow mlflow.sklearn.autolog()
Een model trainen.
# Train Gradient Boosting Classifier print(f"Training with data of shape {X_train.shape}") mlflow.start_run() clf = GradientBoostingClassifier(n_estimators=100, learning_rate=0.1) clf.fit(X_train, y_train) y_pred = clf.predict(X_test) print(classification_report(y_test, y_pred)) # Stop logging for this model mlflow.end_run()
Notitie
U kunt de mlflow-waarschuwingen negeren. U krijgt nog steeds alle resultaten die u nodig hebt.
Herhalen
Nu u modelresultaten hebt, kunt u iets wijzigen en het opnieuw proberen. Probeer bijvoorbeeld een andere classificatietechniek:
# Train AdaBoost Classifier
from sklearn.ensemble import AdaBoostClassifier
print(f"Training with data of shape {X_train.shape}")
mlflow.start_run()
ada = AdaBoostClassifier()
ada.fit(X_train, y_train)
y_pred = ada.predict(X_test)
print(classification_report(y_test, y_pred))
# Stop logging for this model
mlflow.end_run()
Notitie
U kunt de mlflow-waarschuwingen negeren. U krijgt nog steeds alle resultaten die u nodig hebt.
Resultaten onderzoeken
Nu u twee verschillende modellen hebt geprobeerd, gebruikt u de resultaten die zijn bijgehouden om MLFfow
te bepalen welk model beter is. U kunt verwijzen naar metrische gegevens, zoals nauwkeurigheid of andere indicatoren die het belangrijkst zijn voor uw scenario's. U kunt deze resultaten gedetailleerder bekijken door te kijken naar de taken die zijn gemaakt door MLflow
.
Ga terug naar uw werkruimte in de Azure Machine Learning-studio.
Selecteer Taken in het linkernavigatievenster.
Selecteer de koppeling voor Ontwikkelen in de cloudzelfstudie.
Er worden twee verschillende taken weergegeven, één voor elk van de modellen die u hebt geprobeerd. Deze namen worden automatisch gegenereerd. Wanneer u de muisaanwijzer op een naam plaatst, gebruikt u het potloodhulpmiddel naast de naam als u de naam ervan wilt wijzigen.
Selecteer de koppeling voor de eerste taak. De naam wordt bovenaan weergegeven. U kunt de naam hier ook wijzigen met het potloodhulpmiddel.
Op de pagina ziet u details van de taak, zoals eigenschappen, uitvoer, tags en parameters. Onder Tags ziet u de estimator_name, waarin het type model wordt beschreven.
Selecteer het tabblad Metrische gegevens om de metrische gegevens weer te geven die zijn vastgelegd door
MLflow
. (Verwacht dat uw resultaten verschillen, omdat u een andere trainingsset hebt.)Selecteer het tabblad Afbeeldingen om de afbeeldingen weer te geven die zijn gegenereerd door
MLflow
.Ga terug en bekijk de metrische gegevens en afbeeldingen voor het andere model.
Een Python-script maken
Maak nu een Python-script op basis van uw notebook voor modeltraining.
Klik in het VS Code-venster met de rechtermuisknop op de bestandsnaam van het notitieblok en selecteer Notebook importeren in script.
Gebruik het menu Bestand > opslaan om dit nieuwe scriptbestand op te slaan. Noem het train.py.
Bekijk dit bestand en verwijder de code die u niet wilt gebruiken in het trainingsscript. Bewaar bijvoorbeeld de code voor het model dat u wilt gebruiken en verwijder code voor het model dat u niet wilt gebruiken.
- Zorg ervoor dat u de code bewaart die automatisch wordt aangemeld (
mlflow.sklearn.autolog()
). - Wanneer u het Python-script interactief uitvoert (zoals u hier doet), kunt u de regel behouden waarmee de naam van het experiment (
mlflow.set_experiment("Develop on cloud tutorial")
) wordt gedefinieerd. Of geef het een andere naam om het te zien als een andere vermelding in de sectie Taken . Maar wanneer u het script voorbereidt op een trainingstaak, is die regel niet van toepassing en moet deze worden weggelaten. De taakdefinitie bevat de naam van het experiment. - Wanneer u één model traint, zijn de regels voor het starten en beëindigen van een uitvoering (
mlflow.start_run()
enmlflow.end_run()
) ook niet nodig (ze hebben geen effect), maar kunnen desgewenst overblijven.
- Zorg ervoor dat u de code bewaart die automatisch wordt aangemeld (
Sla het bestand op wanneer u klaar bent met uw bewerkingen.
U hebt nu een Python-script dat u kunt gebruiken voor het trainen van uw voorkeursmodel.
Het Python-script uitvoeren
Op dit moment voert u deze code uit op uw rekenproces. Dit is uw Azure Machine Learning-ontwikkelomgeving. Zelfstudie: Een model trainen laat zien hoe u een trainingsscript op een meer schaalbare manier kunt uitvoeren op krachtigere rekenresources.
Selecteer de omgeving die u eerder in deze zelfstudie hebt gemaakt als uw Python-versie (workstations_env). In de rechterbenedenhoek van het notitieblok ziet u de naam van de omgeving. Selecteer deze en selecteer vervolgens de omgeving in het midden van het scherm.
Voer nu het Python-script uit. Gebruik het hulpprogramma Python-bestand uitvoeren rechtsboven.
Notitie
U kunt de mlflow-waarschuwingen negeren. U krijgt nog steeds alle metrische gegevens en afbeeldingen van automatisch afmelden.
Scriptresultaten onderzoeken
Ga terug naar Taken in uw werkruimte in Azure Machine Learning-studio om de resultaten van uw trainingsscript weer te geven. Houd er rekening mee dat de trainingsgegevens bij elke splitsing veranderen, zodat de resultaten ook verschillen tussen uitvoeringen.
Resources opschonen
Als u van plan bent om nu door te gaan naar andere zelfstudies, gaat u verder met volgende stappen.
Rekenproces stoppen
Als u deze nu niet gaat gebruiken, stopt u het rekenproces:
- Selecteer Compute in het linkernavigatiegebied in de studio.
- Selecteer op de bovenste tabbladen Rekeninstanties
- Selecteer het rekenproces in de lijst.
- Selecteer Stoppen op de bovenste werkbalk.
Alle resources verwijderen
Belangrijk
De resources die u hebt gemaakt, kunnen worden gebruikt als de vereisten voor andere Azure Machine Learning-zelfstudies en artikelen met procedures.
Als u niet van plan bent om een van de resources te gebruiken die u hebt gemaakt, verwijdert u deze zodat er geen kosten in rekening worden gebracht:
Voer in azure Portal in het zoekvak resourcegroepen in en selecteer deze in de resultaten.
Selecteer de resourcegroep die u hebt gemaakt uit de lijst.
Selecteer op de pagina Overzicht de optie Resourcegroep verwijderen.
Voer de naam van de resourcegroup in. Selecteer daarna Verwijderen.
Volgende stappen
Meer informatie over:
- Van artefacten naar modellen in MLflow
- Using Git with Azure Machine Learning
- Jupyter-notebooks uitvoeren in uw werkruimte
- Werken met een rekeninstantieterminal in uw werkruimte
- Notebook- en terminalsessies beheren
In deze zelfstudie hebt u de vroege stappen getoond voor het maken van een model en het maken van prototypen op dezelfde computer waarin de code zich bevindt. Voor uw productietraining leert u hoe u dat trainingsscript kunt gebruiken voor krachtigere externe rekenresources: