Data i Azure Machine Learning v1
GÄLLER FÖR: Azure CLI ml-tillägget v1
GÄLLER FÖR: Python SDK azureml v1
Azure Machine Learning gör det enkelt att ansluta till dina data i molnet. Det ger ett abstraktionslager över den underliggande lagringstjänsten, så att du på ett säkert sätt kan komma åt och arbeta med dina data utan att behöva skriva kod som är specifik för din lagringstyp. Azure Machine Learning tillhandahåller även följande datafunktioner:
- Samverkan med Pandas och Spark DataFrames
- Versionshantering och spårning av data härkomst
- Dataetiketter
- Övervakning av dataavvikelser
Dataarbetsflöde
Om du vill använda data i din molnbaserade lagringslösning rekommenderar vi det här arbetsflödet för dataleverans. Arbetsflödet förutsätter att du har ett Azure Storage-konto och data i en Molnbaserad Azure-lagringstjänst.
Skapa ett Azure Machine Learning-datalager för att lagra anslutningsinformation till azure-lagringen
Från det dataarkivet skapar du en Azure Machine Learning-datauppsättning för att peka på en specifik fil eller filer i din underliggande lagring
Om du vill använda datamängden i maskininlärningsexperimentet kan du antingen
Montera datamängden till experimentets beräkningsmål för modellträning
OR
Använd datauppsättningen direkt i Azure Machine Learning-lösningar – till exempel automatiserade maskininlärningsexperimentkörningar (automatiserad ML), maskininlärningspipelines eller Azure Machine Learning-designern.
Skapa datamängdsövervakare för modellens utdatauppsättning för att identifiera dataavvikelser
För identifierad dataavvikelse uppdaterar du indatauppsättningen och tränar om din modell i enlighet med detta
Den här skärmbilden visar det rekommenderade arbetsflödet:
Ansluta till lagring med datalager
Azure Machine Learning-datalager är säkert värd för din datalagringsanslutningsinformation i Azure, så du behöver inte placera den informationen i dina skript. Mer information om hur du ansluter till ett lagringskonto och dataåtkomst i din underliggande lagringstjänst finns i Registrera och skapa ett datalager.
Dessa azure-molnbaserade lagringstjänster som stöds kan registreras som datalager:
- Azure Blob-container
- Azure-filresurs
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure Database for PostgreSQL
- Databricks-filsystem
- Azure Database for MySQL
Dricks
Du kan skapa datalager med autentiseringsbaserad autentisering för åtkomst till lagringstjänster, till exempel ett tjänsthuvudnamn eller en SAS-token (signatur för delad åtkomst). Användare med läsåtkomst till arbetsytan kan komma åt dessa autentiseringsuppgifter.
Om detta är ett problem kan du gå till Skapa ett datalager som använder identitetsbaserad dataåtkomst för mer information om anslutningar till lagringstjänster.
Referensdata i lagring med datauppsättningar
Azure Machine Learning-datauppsättningar är inte kopior av dina data. Själva skapandet av datamängden skapar en referens till data i lagringstjänsten, tillsammans med en kopia av dess metadata.
Eftersom datauppsättningar utvärderas lazily och data finns kvar på den befintliga platsen kan du
- Medför ingen extra lagringskostnad
- Riskera inte oavsiktliga ändringar i dina ursprungliga datakällor
- Förbättra prestandahastigheter för ML-arbetsflöde
Om du vill interagera med dina data i lagringen skapar du en datauppsättning för att paketera dina data i ett förbrukningsbart objekt för maskininlärningsuppgifter. Registrera datauppsättningen på din arbetsyta för att dela och återanvända den i olika experiment utan datainmatningskomplexiteter.
Du kan skapa datauppsättningar från lokala filer, offentliga URL:er, Azure Open Datasets eller Azure Storage-tjänster via datalager.
Det finns två typer av datauppsättningar:
En FileDataset refererar till en eller flera filer i dina datalager eller offentliga URL:er. Om dina data redan är rensade och redo för träningsexperiment kan du ladda ned eller montera filer som refereras av FileDatasets till beräkningsmålet
En TabularDataset representerar data i tabellformat genom att parsa den angivna filen eller listan med filer. Du kan läsa in en TabularDataset till en Pandas eller Spark DataFrame för ytterligare manipulering och rensning. En fullständig lista över dataformat som du kan skapa TabularDatasets från finns i klassen TabularDatasetFactory
De här resurserna innehåller mer information om datamängdsfunktioner:
- Versions- och spårningsdatauppsättningens ursprung
- Övervaka din datauppsättning för att hjälpa till med identifiering av dataavvikelser
Arbeta med dina data
Med datauppsättningar kan du utföra maskininlärningsuppgifter genom sömlös integrering med Azure Machine Learning-funktioner.
- Skapa ett dataetikettprojekt
- Träna maskininlärningsmodeller:
- Få åtkomst till datauppsättningar för bedömning med batchinferens i maskininlärningspipelines
- Konfigurera en datamängdsövervakare för identifiering av dataavvikelser
Märka data med dataetikettprojekt
Att märka stora mängder data i maskininlärningsprojekt kan bli en huvudvärk. Projekt som omfattar en komponent för visuellt innehåll, till exempel bildklassificering eller objektidentifiering, kräver ofta tusentals bilder och motsvarande etiketter.
Azure Machine Learning är en central plats för att skapa, hantera och övervaka etiketteringsprojekt. Med etikettprojekt kan du samordna data, etiketter och gruppmedlemmar så att du kan hantera etiketteringsuppgifterna på ett effektivare sätt. För närvarande stöds uppgifter som omfattar bildklassificering, antingen flera etiketter eller flera klasser, och objektidentifiering med hjälp av avgränsade rutor.
Skapa ett projekt för bildetiketter eller textetiketter och mata ut en datauppsättning för användning i maskininlärningsexperiment.
Övervaka modellprestanda med dataavvikelse
I samband med maskininlärning innebär dataavvikelse den förändring av modellindata som leder till försämrad modellprestanda. Det är en viktig orsak till att modellprecisionen försämras med tiden, och övervakning av dataavvikelser hjälper till att identifiera prestandaproblem med modellen.
Mer information finns i Skapa en datamängdsövervakare för att lära dig hur du identifierar och varnar för dataavvikelser på nya data i en datauppsättning.
Nästa steg
- Skapa en datauppsättning i Azure Machine Learning-studio eller med Python SDK
- Prova exempel på datauppsättningsträning med våra exempelanteckningsböcker