Azure Machine Learning-assets identificeren
Als data scientist werkt u meestal met assets in de Azure Machine Learning-werkruimte. Assets worden gemaakt en gebruikt in verschillende fasen van een project en omvatten:
- Modellen
- Omgevingen
- Gegevens
- Onderdelen
Modellen maken en beheren
Het eindproduct van het trainen van een model is het model zelf. U kunt machine learning-modellen trainen met verschillende frameworks, zoals Scikit-learn of PyTorch. Een veelgebruikte manier om dergelijke modellen op te slaan, is door het model als een Python pickle-bestand (.pkl
extensie) te verpakken.
U kunt ook het opensource-platform MLflow gebruiken om uw model op te slaan in de MLModel-indeling.
Tip
Meer informatie over het vastleggen van werkstroomartefacten als modellen met MLflow en de MLModel-indeling.
Welke indeling u ook kiest, binaire bestanden vertegenwoordigen het model en eventuele bijbehorende metagegevens. Als u deze bestanden wilt behouden, kunt u een model maken of registreren in de werkruimte.
Wanneer u een model in de werkruimte maakt, geeft u de naam en versie op. Met name handig wanneer u het geregistreerde model implementeert, kunt u met versiebeheer het specifieke model bijhouden dat u wilt gebruiken.
Omgevingen maken en beheren
Wanneer u met cloud compute werkt, is het belangrijk om ervoor te zorgen dat uw code wordt uitgevoerd op elke rekenkracht die voor u beschikbaar is. Of u nu een script wilt uitvoeren op een rekenproces of een rekencluster, de code moet worden uitgevoerd.
Stel dat u in Python of R werkt met behulp van opensource-frameworks om een model te trainen op uw lokale apparaat. Als u een bibliotheek zoals Scikit-learn of PyTorch wilt gebruiken, moet u deze installeren op uw apparaat.
Als u code schrijft die gebruikmaakt van frameworks of bibliotheken, moet u er ook voor zorgen dat de benodigde afhankelijkheden worden geïnstalleerd op de berekening waarmee de code wordt uitgevoerd. Als u alle benodigde vereisten wilt weergeven, kunt u omgevingen maken. Wanneer u een omgeving maakt, moet u de naam en versie opgeven.
Omgevingen geven softwarepakketten, omgevingsvariabelen en software-instellingen op om scripts uit te voeren. Een omgeving wordt opgeslagen als een installatiekopieën in Azure Container Registry die is gemaakt met de werkruimte wanneer deze voor het eerst wordt gebruikt.
Wanneer u een script wilt uitvoeren, kunt u de omgeving opgeven die door het rekendoel moet worden gebruikt. De omgeving installeert alle vereiste vereisten op de berekening voordat het script wordt uitgevoerd, waardoor uw code robuust en herbruikbaar is voor rekendoelen.
Gegevens maken en beheren
Terwijl gegevensarchieven de verbindingsgegevens bevatten met Azure-gegevensopslagservices, verwijzen gegevensassets naar een specifiek bestand of een specifieke map.
U kunt gegevensassets gebruiken om elke keer eenvoudig toegang te krijgen tot gegevens, zonder dat u elke keer verificatie hoeft op te geven wanneer u er toegang toe wilt krijgen.
Wanneer u een gegevensasset in de werkruimte maakt, geeft u het pad op dat verwijst naar het bestand of de map en de naam en versie.
Onderdelen maken en beheren
Als u machine learning-modellen wilt trainen, schrijft u code. In alle projecten kan er code zijn die u opnieuw kunt gebruiken. In plaats van helemaal zelf code te schrijven, wilt u codefragmenten van andere projecten opnieuw gebruiken.
U kunt code eenvoudiger delen door een onderdeel in een werkruimte te maken. Als u een onderdeel wilt maken, moet u de naam, versie, code en omgeving opgeven die nodig is om de code uit te voeren.
U kunt onderdelen gebruiken bij het maken van pijplijnen. Een onderdeel vertegenwoordigt daarom vaak een stap in een pijplijn, bijvoorbeeld voor het normaliseren van gegevens, het trainen van een regressiemodel of het testen van het getrainde model op een validatiegegevensset.