Ansluta till data med Azure Machine Learning-studio
Den här artikeln visar hur du kommer åt dina data med Azure Machine Learning-studio. Anslut till dina data i Azure Storage-tjänster med Azure Machine Learning-datalager. Paketera sedan dessa data för ML-arbetsflödesuppgifter med Azure Machine Learning-datauppsättningar.
Den här tabellen definierar och sammanfattar fördelarna med datalager och datauppsättningar.
Objekt | beskrivning | Förmåner |
---|---|---|
Datalager | Om du vill ansluta till lagringstjänsten på Azure på ett säkert sätt lagrar du anslutningsinformationen (prenumerations-ID, tokenauktorisering osv.) i nyckelvalvet som är associerat med arbetsytan | Eftersom din information lagras på ett säkert sätt utsätter du inte autentiseringsuppgifter eller ursprungliga datakällor för risk, och du behöver inte längre hårdkoda dessa värden i skripten |
Datauppsättningar | Skapande av datauppsättning skapar också en referens till datakällans plats, tillsammans med en kopia av dess metadata. Med datauppsättningar kan du komma åt data under modellträningen, dela data och samarbeta med andra användare och använda bibliotek med öppen källkod, till exempel Pandas, för datautforskning. | Eftersom datauppsättningar utvärderas lazily och data finns kvar på den befintliga platsen behåller du en enda kopia av data i din lagring. Dessutom medför du ingen extra lagringskostnad, du undviker oavsiktliga ändringar av dina ursprungliga datakällor och förbättrar prestandahastigheterna för ML-arbetsflödet. |
Om du vill veta var datalager och datauppsättningar får plats i det övergripande arbetsflödet för Azure Machine Learning-dataåtkomst går du till Säker åtkomst till data.
Mer information om Azure Machine Learning Python SDK och en kod-första upplevelse finns i:
Förutsättningar
En Azure-prenumeration. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar. Prova den kostnadsfria eller betalda versionen av Azure Machine Learning
Åtkomst till Azure Machine Learning-studio
En Azure Machine Learning-arbetsyta. Skapa arbetsyteresurser
- När du skapar en arbetsyta registreras automatiskt en Azure-blobcontainer och en Azure-filresurs på arbetsytan som datalager. De heter
workspaceblobstore
respektiveworkspacefilestore
. För tillräckliga bloblagringsresurserworkspaceblobstore
anges som standarddatalager, som redan har konfigurerats för användning. Om du behöver fler bloblagringsresurser behöver du ett Azure Storage-konto med en lagringstyp som stöds.
- När du skapar en arbetsyta registreras automatiskt en Azure-blobcontainer och en Azure-filresurs på arbetsytan som datalager. De heter
Skapa datalager
Du kan skapa datalager från dessa Azure Storage-lösningar. För lagringslösningar som inte stöds och för att spara kostnader för utgående data under ML-experiment måste du flytta dina data till en Azure Storage-lösning som stöds. Mer information om datalager finns i den här resursen.
Du kan skapa datalager med autentiseringsbaserad åtkomst eller identitetsbaserad åtkomst.
Skapa ett nytt datalager med Azure Machine Learning-studio.
Viktigt!
Om ditt datalagringskonto finns i ett virtuellt nätverk krävs ytterligare konfigurationssteg för att säkerställa att studion kan komma åt dina data. Besök Nätverksisolering och sekretess för mer information om lämpliga konfigurationssteg.
- Logga in på Azure Machine Learning-studio.
- Välj Data i den vänstra rutan under Tillgångar.
- Längst upp väljer du Datalager.
- Välj + Skapa.
- Fyll i formuläret för att skapa och registrera ett nytt datalager. Formuläret uppdateras på ett intelligent sätt baserat på dina val för Azure-lagringstyp och autentiseringstyp. Mer information om var du hittar de autentiseringsuppgifter som krävs för att fylla i formuläret finns i avsnittet åtkomst och behörigheter för lagring.
Den här skärmbilden visar panelen för skapande av Azure-blobdatalager :
Skapa datatillgångar
När du har skapat ett datalager skapar du en datauppsättning för att interagera med dina data. Datauppsättningar paketera dina data i ett lätt utvärderat förbrukningsobjekt för maskininlärningsuppgifter – till exempel träning. Mer information om datauppsättningar finns i Skapa Azure Machine Learning-datamängder .
Datauppsättningar har två typer: FileDataset och TabularDataset. FileDatasets skapar referenser till en eller flera filer eller offentliga URL:er. TabularDatasets representerar data i tabellformat. Du kan skapa TabularDatasets från
- .csv
- .tsv
- .parkettgolv
- .json filer och sql-frågeresultat.
Följande steg beskriver hur du skapar en datauppsättning i Azure Machine Learning-studio.
Kommentar
Datauppsättningar som skapas via Azure Machine Learning-studio registreras automatiskt på arbetsytan.
Gå till Azure Machine Learning-studio
Under Tillgångar i det vänstra navigeringsfältet väljer du Data. På fliken Datatillgångar väljer du Skapa
Ge datatillgången ett namn och en valfri beskrivning. Under Typ väljer du sedan en datauppsättningstyp, antingen Fil eller tabell.
Fönstret Datakälla öppnas härnäst, som du ser i den här skärmbilden:
Du har olika alternativ för din datakälla. För data som redan har lagrats i Azure väljer du "Från Azure Storage". Om du vill ladda upp data från din lokala enhet väljer du "Från lokala filer". För data som lagras på en offentlig webbplats väljer du "Från webbfiler". Du kan också skapa en datatillgång från en SQL-databas eller från Azure Open Datasets.
I filvalssteget väljer du den plats där Azure ska lagra dina data och de datafiler som du vill använda.
- Aktivera hoppa över validering om dina data finns i ett virtuellt nätverk. Läs mer om isolering och sekretess för virtuella nätverk.
Följ stegen för att ange dataparsningsinställningar och schema för datatillgången. Inställningarna fylls i förväg baserat på filtyp, och du kan konfigurera inställningarna ytterligare innan du skapar datatillgången.
När du når granskningssteget väljer du Skapa på den sista sidan
Förhandsversion och profil för data
När du har skapat datauppsättningen kontrollerar du att du kan visa förhandsversionen och profilen i studion:
- Logga in på Azure Machine Learning-studio
- Under Tillgångar i det vänstra navigeringsfältet väljer du Data.
- Välj namnet på den datauppsättning som du vill visa.
- Välj fliken Utforska .
- Välj fliken Förhandsversion .
- Välj fliken Profil .
Du kan använda sammanfattningsstatistik i datauppsättningen för att kontrollera om datauppsättningen är ML-klar. För icke-numeriska kolumner innehåller den här statistiken endast grundläggande statistik , till exempel min, max och felantal. Numeriska kolumner erbjuder statistiska ögonblick och uppskattade kvantantiler.
Dataprofilen för Azure Machine Learning-datamängden innehåller:
Kommentar
Tomma poster visas för funktioner med irrelevanta typer.
Statistik | beskrivning |
---|---|
Funktion | Det sammanfattade kolumnnamnet |
Profil | Infogad visualisering baserat på den härledda typen. Strängar, booleska värden och datum har värdeantal. Decimaler (numeriska) har ungefärliga histogram. Dessa visualiseringar ger en snabb förståelse för datadistributionen |
Typdistribution | Antal in-line-värden för typer i en kolumn. Null-värden är sin egen typ, så den här visualiseringen kan identifiera udda eller saknade värden |
Typ | Härledd kolumntyp. Möjliga värden är: strängar, booleska värden, datum och decimaler |
Min | Minsta värde för kolumnen. Tomma poster visas för funktioner vars typ inte har någon inbyggd ordning (till exempel booleska objekt) |
Max | Maximalt värde för kolumnen. |
Antal | Totalt antal saknade och icke-tillåtna poster i kolumnen |
Antal saknas inte | Antal poster i kolumnen som inte saknas. Tomma strängar och fel behandlas som värden, så de bidrar inte till antalet "saknas inte". |
Kvantiler | Ungefärliga värden vid varje kvantil för att ge en uppfattning om datafördelningen |
Medelvärde | Aritmetiskt medelvärde eller medelvärde för kolumnen |
Standardavvikelse | Mått på mängden spridning eller variation för data i den här kolumnen |
Varians | Mått på hur långt data i den här kolumnen sprids ut från dess genomsnittliga värde |
Snedhet | Mäter skillnaden mellan den här kolumnens data och en normal fördelning |
Toppighet | Mäter graden av "tailness" för den här kolumnens data jämfört med en normal fördelning |
Åtkomst och behörigheter för lagring
För att säkerställa att du ansluter säkert till azure-lagringstjänsten kräver Azure Machine Learning att du har behörighet att komma åt motsvarande datalagring. Den här åtkomsten beror på de autentiseringsuppgifter som används för att registrera datalagringen.
Virtuellt nätverk
Om ditt datalagringskonto finns i ett virtuellt nätverk krävs extra konfigurationssteg för att säkerställa att Azure Machine Learning har åtkomst till dina data. Se Använda Azure Machine Learning-studio i ett virtuellt nätverk för att säkerställa att lämpliga konfigurationssteg tillämpas när du skapar och registrerar ditt datalager.
Åtkomstverifiering
Varning
Åtkomst till lagringskonton mellan klientorganisationer stöds inte. Om ditt scenario behöver åtkomst mellan klientorganisationer kontaktar du Azure Machine Learning Data Support-teamets alias för amldatasupport@microsoft.com att få hjälp med en anpassad kodlösning.
Som en del av den första processen för att skapa och registrera datalager verifierar Azure Machine Learning automatiskt att den underliggande lagringstjänsten finns och att det användardefinierade huvudkontot (användarnamn, tjänstens huvudnamn eller SAS-token) har åtkomst till den angivna lagringen.
När datalager har skapats utförs den här verifieringen endast för metoder som kräver åtkomst till den underliggande lagringscontainern. Verifieringen utförs inte varje gång datalagerobjekt hämtas. Validering sker till exempel när du laddar ned filer från ditt datalager. Men om du vill ändra standarddatalagringen sker inte verifieringen.
Om du vill autentisera din åtkomst till den underliggande lagringstjänsten anger du antingen din kontonyckel, sas-token (signaturer för delad åtkomst) eller tjänstens huvudnamn enligt den datalagertyp som du vill skapa. Lagringstypmatrisen visar de autentiseringstyper som stöds och som motsvarar varje datalagertyp.
Du hittar kontonyckel, SAS-token och information om tjänstens huvudnamn på din Azure Portal.
Om du vill hämta en kontonyckel för autentisering väljer du Lagringskonton i den vänstra rutan och väljer det lagringskonto som du vill registrera
- Sidan Översikt innehåller information som kontonamn, container och filresursnamn.
- Expandera noden Säkerhet + nätverk i det vänstra navigeringsfältet
- Välj Åtkomstnycklar
- De tillgängliga nyckelvärdena fungerar som kontonyckelvärden
Om du vill hämta en SAS-token för autentisering väljer du Lagringskonton i den vänstra rutan och väljer det lagringskonto som du vill använda
- Om du vill hämta ett åtkomstnyckelvärde expanderar du noden Säkerhet + nätverk i det vänstra navigeringsfältet
- Välj Signatur för delad åtkomst
- Slutför processen för att generera SAS-värdet
Om du vill använda tjänstens huvudnamn för autentisering går du till din Appregistreringar och väljer vilken app du vill använda.
- Motsvarande översiktssida innehåller nödvändig information som klient-ID och klient-ID.
Viktigt!
- Om du vill ändra dina åtkomstnycklar för ett Azure Storage-konto (kontonyckel eller SAS-token) måste du synkronisera de nya autentiseringsuppgifterna med både din arbetsyta och de datalager som är anslutna till den. Mer information finns i synkronisera dina uppdaterade autentiseringsuppgifter.
- Om du avregistrerar och sedan registrerar om ett datalager med samma namn och omregistreringen misslyckas kanske Azure Key Vault för din arbetsyta inte har mjuk borttagning aktiverat. Som standard är mjuk borttagning aktiverat för nyckelvalvsinstansen som skapats av din arbetsyta, men den kanske inte är aktiverad om du använde ett befintligt nyckelvalv eller har en arbetsyta som skapats före oktober 2020. Mer information om hur du aktiverar mjuk borttagning finns i Aktivera mjuk borttagning för ett befintligt nyckelvalv.
Behörigheter
För Azure Blob-container och Azure Data Lake Gen 2-lagring kontrollerar du att dina autentiseringsuppgifter har åtkomst till Storage Blob Data Reader . Läs mer om Storage Blob Data Reader. Som standard har en SAS-token för kontot inga behörigheter.
För dataläsningsåtkomst måste dina autentiseringsuppgifter ha minst list- och läsbehörigheter för containrar och objekt.
För åtkomst till dataskrivning krävs även skriv- och tilläggsbehörigheter.
Träna med datauppsättningar
Använd dina datamängder i dina maskininlärningsexperiment för att träna ML-modeller. Läs mer om hur du tränar med datauppsättningar.
Nästa steg
Ett steg för steg-exempel på träning med TabularDatasets och automatiserad maskininlärning
Fler exempel på datauppsättningsträning finns i exempelanteckningsböckerna