Azure Machine Learning-gegevenssets maken op basis van Azure Open Datasets

Artikel
09/01/2024

In dit artikel leert u hoe u gecureerde verrijkingsgegevens kunt overbrengen naar uw lokale of externe machine learning-experimenten, met Azure Machine Learning-gegevenssets en Azure Open Datasets.

Met een Azure Machine Learning-gegevensset maakt u een verwijzing naar de locatie van de gegevensbron, samen met een kopie van de metagegevens. Omdat gegevenssets lazily worden geëvalueerd en omdat de gegevens zich op de bestaande locatie bevinden, kunt u

Riskeer geen onbedoelde wijzigingen in uw oorspronkelijke gegevensbronnen
Er worden geen extra opslagkosten in rekening gebracht
Prestatiesnelheden van ML-werkstromen verbeteren

Ga naar het artikel Over veilig toegang tot gegevens voor meer informatie over waar gegevenssets in de algemene Azure Machine Learning-werkstroom voor gegevenstoegang passen.

Azure Open Datasets zijn samengestelde openbare gegevenssets die scenariospecifieke functies toevoegen om uw voorspellende oplossingen te verrijken en de nauwkeurigheid van deze oplossingen te verbeteren. Ga naar de catalogusresource Open Datasets voor gegevens uit het openbare domein die u kunnen helpen bij het trainen van machine learning-modellen, bijvoorbeeld:

Open Datasets worden gehost in de cloud op Microsoft Azure. Zowel Azure Machine Learning Python SDK als Azure Machine Learning-studio ze bevatten.

Vereisten

U hebt het volgende nodig:

Een Azure-abonnement. Als u nog geen abonnement hebt, maakt u een gratis account voordat u begint. Probeer de gratis of betaalde versie van Azure Machine Learning.
Een Azure Machine Learning-werkruimte.
De Azure Machine Learning SDK voor Python is geïnstalleerd, waaronder het azureml-datasets pakket.
- Maak een Azure Machine Learning-rekenproces : een volledig geconfigureerde en beheerde ontwikkelomgeving met geïntegreerde notebooks en de SDK die al is geïnstalleerd.
OF
- Werk in uw eigen Python-omgeving en installeer de SDK zelf met deze instructies.

Notitie

Sommige gegevenssetklassen hebben afhankelijkheden van het pakket azureml-dataprep . Dit pakket is alleen compatibel met 64-bits Python. Voor Linux-gebruikers worden deze klassen alleen ondersteund op deze Linux-distributies:

Debian (8, 9)
Fedora (27, 28)
Red Hat Enterprise Linux (7, 8)
Ubuntu (14.04, 16.04, 18.04)

Gegevenssets maken met de SDK

Als u Azure Machine Learning-gegevenssets wilt maken via Azure Open Datasets-klassen, controleert u in de Python SDK of u het pakket hebt geïnstalleerd met pip install azureml-opendatasets. In de SDK vertegenwoordigt de klasse van elke afzonderlijke gegevensset die klasse en bepaalde klassen beschikbaar zijn als een Azure Machine Learning-gegevenstype FileDataset , een Azure Machine Learning-gegevenstype TabularDataset of beide. Raadpleeg de referentiedocumentatie voor een volledige lijst met opendatasets klassen.

U kunt bepaalde opendatasets klassen ophalen als of TabularDataset FileDataset resources. Vervolgens kunt u de bestanden rechtstreeks bewerken en/of downloaden. Andere klassen kunnen gegevenssets alleen ophalen met het gebruik van de get_tabular_dataset() of get_file_dataset() functies uit de Datasetklasse in de Python SDK.

Deze code laat zien dat de MNIST-klasse opendatasets een TabularDataset of FileDataset:

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

In dit voorbeeld is de opendatasets diabetesklasse alleen beschikbaar als een TabularDataset. Hiervoor is het gebruik van get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Gegevenssets registreren

Registreer een Azure Machine Learning-gegevensset bij uw werkruimte, zodat u de gegevensset met anderen kunt delen en opnieuw kunt gebruiken in experimenten in uw werkruimte. Wanneer u een Azure Machine Learning-gegevensset registreert die is gemaakt op basis van Open Datasets, worden er geen gegevens onmiddellijk gedownload, maar worden de gegevens later (tijdens de training bijvoorbeeld) toegankelijk wanneer ze worden aangevraagd vanuit een centrale opslaglocatie.

Als u uw gegevenssets wilt registreren bij een werkruimte, gebruikt u de register() methode.

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Gegevenssets maken met de studio

U kunt ook Azure Machine Learning-gegevenssets maken vanuit Azure Open Datasets met Azure Machine Learning-studio. Deze geconsolideerde webinterface bevat machine learning-hulpprogramma's voor het uitvoeren van data science-scenario's voor data science-beoefenaars van alle vaardigheidsniveaus.

Notitie

Gegevenssets die zijn gemaakt via Azure Machine Learning-studio worden automatisch geregistreerd bij de werkruimte.

Selecteer in uw werkruimte de gegevens in het linkernavigatievenster. Selecteer Op het tabblad Gegevensassets maken de optie Maken, zoals wordt weergegeven in deze schermopname:
Voeg op het volgende scherm een naam en een optionele beschrijving toe voor de nieuwe gegevensasset. Selecteer vervolgens Tabular in de vervolgkeuzelijst Type , zoals wordt weergegeven in deze schermopname:
Selecteer in het volgende scherm de optie Uit Azure Open Datasets en selecteer vervolgens Volgende, zoals wordt weergegeven in deze schermopname:
Selecteer in het volgende scherm een beschikbare Azure Open Dataset. In deze schermopname hebben we de Gegevensset voor veiligheid van San Francisco geselecteerd:
Schuif zo nodig omlaag en selecteer Volgende, zoals wordt weergegeven in deze schermopname:
Filter desgewenst de gegevens met de beschikbare filters, die geschikt zijn voor de gekozen gegevensset. Voor de gegevensset Veiligheidsgegevens van San Francisco stellen we het gefilterde datumbereik in tussen een begindatum van 1 juli 2024 en 17 juli 2024. Selecteer Volgende, zoals wordt weergegeven in deze schermopname:
Controleer in het volgende scherm de instellingen voor de nieuwe gegevensasset en breng de benodigde wijzigingen aan. Als het goed lijkt, selecteert u Maken zoals wordt weergegeven in deze schermopname:
Ga voor meer informatie over de veldbeschrijvingen en datumbereiken voor de gegevensset van San Francisco Safety Data naar de resource Van veiligheidsgegevens van San Francisco. Ga naar de Azure Open Datasets Catalog-resource voor meer informatie over de andere gegevenssets.

De gegevensset is nu beschikbaar in uw werkruimte onder Gegevenssets. U kunt deze op dezelfde manier gebruiken als de andere gegevenssets die u hebt gemaakt.

Toegang tot gegevenssets voor uw experimenten

Gebruik uw gegevenssets in uw machine learning-experimenten voor het trainen van ML-modellen. Ga voor meer informatie naar Meer informatie over het trainen met gegevenssets.

Voorbeeldnotebooks

Bekijk deze voorbeeldnotitieblokken voor voorbeelden en demonstraties van de functionaliteit van Open Datasets.

Delen via