I den här artikeln får du lära dig hur du importerar data till Azure Machine Learning-plattformen från externa källor. En lyckad dataimport skapar och registrerar automatiskt en Azure Machine Learning-datatillgång med det namn som angavs under importen. En Azure Machine Learning-datatillgång liknar ett webbläsarbokmärke (favoriter). Du behöver inte komma ihåg långa lagringssökvägar (URI:er) som pekar på dina data som används oftast. I stället kan du skapa en datatillgång och sedan komma åt tillgången med ett eget namn.
En dataimport skapar en cache av källdata, tillsammans med metadata, för snabbare och tillförlitlig dataåtkomst i Azure Machine Learning-träningsjobb. Datacachen undviker nätverks- och anslutningsbegränsningar. Cachelagrade data är versionshanterade för att stödja reproducerbarhet. Detta ger versionsfunktioner för data som importerats från SQL Server-källor. Dessutom tillhandahåller cachelagrade data data härstamning för granskningsuppgifter. En dataimport använder ADF (Azure Data Factory-pipelines) i bakgrunden, vilket innebär att användarna kan undvika komplexa interaktioner med ADF. I bakgrunden hanterar Azure Machine Learning även hantering av ADF-beräkningsresurspoolens storlek, etablering av beräkningsresurser och nedrullning för att optimera dataöverföringen genom att fastställa rätt parallellisering.
De överförda data partitioneras och lagras på ett säkert sätt som parquet-filer i Azure Storage. Detta möjliggör snabbare bearbetning under träningen. ADF-beräkningskostnader omfattar bara den tid som används för dataöverföringar. Lagringskostnaderna omfattar bara den tid som krävs för att cachelagras, eftersom cachelagrade data är en kopia av data som importerats från en extern källa. Azure Storage är värd för den externa källan.
Cachelagringsfunktionen omfattar startkostnader för beräkning och lagring. Den betalar dock för sig själv och kan spara pengar eftersom den minskar återkommande kostnader för träningsberäkning jämfört med direkta anslutningar till externa källdata under träningen. Den cachelagrar data som parquet-filer, vilket gör jobbträningen snabbare och mer tillförlitlig mot tidsgränser för anslutningar för större datamängder. Detta leder till färre omkörningar och färre träningsfel.
Du kan importera data från Amazon S3, Azure SQL och Snowflake.
Viktigt!
Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade.
Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.
Förutsättningar
Om du vill skapa och arbeta med datatillgångar behöver du:
För en lyckad dataimport kontrollerar du att du har installerat det senaste azure-ai-ml-paketet (version 1.15.0 eller senare) för SDK och ML-tillägget (version 2.15.1 eller senare).
Om du har ett äldre SDK-paket eller CLI-tillägg tar du bort det gamla och installerar det nya med koden som visas i flikavsnittet. Följ anvisningarna för SDK och CLI enligt följande:
az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)
pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)
Ej tillgänglig.
Importera från en extern databas som en mltable-datatillgång
Kommentar
De externa databaserna kan ha Format för Snowflake, Azure SQL osv.
Följande kodexempel kan importera data från externa databaser. Den connection som hanterar importåtgärden avgör metadata för den externa databasens datakälla. I det här exemplet importerar koden data från en Snowflake-resurs. Anslutningen pekar på en Snowflake-källa. Med en liten ändring kan anslutningen peka på en Azure SQL-databaskälla och en Azure SQL-databaskälla. Den importerade tillgången type från en extern databaskälla är mltable.
Exemplet som visas här beskriver processen för en Snowflake-databas. Den här processen omfattar dock andra externa databasformat, till exempel Azure SQL osv.
Gå till Azure Machine Learning-studio.
Under Tillgångar i det vänstra navigeringsfältet väljer du Data. Välj sedan fliken Dataimport . Välj sedan Skapa, som du ser i den här skärmbilden:
På skärmen Datakälla väljer du Snowflake och sedan Nästa, som du ser i den här skärmbilden:
Fyll i värdena på skärmen Datatyp. Typvärdet är som standard Tabell (mltable). Välj sedan Nästa, som du ser i den här skärmbilden:
På skärmen Skapa dataimport fyller du i värdena och väljer Nästa, som du ser i den här skärmbilden:
Fyll i värdena på skärmen Välj ett datalager för utdata och välj Nästa, som du ser i den här skärmbilden. Arbetsytans hanterade datalager är valt som standard. Sökvägen tilldelas automatiskt av systemet när du väljer manged datastore. Om du väljer Hanterat datalager för arbetsyta visas listrutan Automatisk borttagning. Den erbjuder ett tidsfönster för databorttagning på 30 dagar som standard och hur du hanterar importerade datatillgångar förklarar hur du ändrar det här värdet.
Kommentar
Om du vill välja ett eget datalager väljer du Andra datalager. I så fall måste du välja sökvägen för platsen för datacachen.
Du kan lägga till ett schema. Välj Lägg till schema enligt den här skärmbilden:
En ny panel öppnas, där du kan definiera antingen ett återkommande schema eller ett Cron-schema . Den här skärmbilden visar panelen för ett återkommande schema:
Namn: den unika identifieraren för schemat på arbetsytan.
Beskrivning: schemabeskrivningen.
Utlösare: schemats upprepningsmönster, som innehåller följande egenskaper.
Tidszon: beräkningen av utlösarens tid baseras på den här tidszonen. (UTC) Koordinerad universell tid som standard.
Upprepning eller Cron-uttryck: välj upprepning för att ange det återkommande mönstret. Under Upprepning kan du ange upprepningsfrekvensen – efter minuter, timmar, dagar, veckor eller månader.
Start: Schemat blir först aktivt på det här datumet. Som standard skapas datumet för det här schemat.
Slut: schemat blir inaktivt efter det här datumet. Som standard är det NONE, vilket innebär att schemat alltid är aktivt tills du inaktiverar det manuellt.
Taggar: de valda schemataggar.
Kommentar
Start anger startdatum och tid med schemats tidszon. Om start utelämnas är starttiden lika med tiden för att skapa schemat. För en tidigare starttid körs det första jobbet vid nästa beräknade körningstid.
Nästa skärmbild visar den sista skärmen i den här processen. Granska dina val och välj Skapa. På den här skärmen och de andra skärmarna i den här processen väljer du Tillbaka för att flytta till tidigare skärmar för att ändra dina val av värden.
Den här skärmbilden visar panelen för ett Cron-schema :
Namn: den unika identifieraren för schemat på arbetsytan.
Beskrivning: schemabeskrivningen.
Utlösare: schemats upprepningsmönster, som innehåller följande egenskaper.
Tidszon: beräkningen av utlösarens tid baseras på den här tidszonen. (UTC) Koordinerad universell tid som standard.
Upprepning eller Cron-uttryck: välj cron-uttryck för att ange cron-information.
(Krävs)expression använder ett standarduttryck för crontab för att uttrycka ett återkommande schema. Ett enda uttryck består av fem blankstegsavgränsade fält:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Ett enda jokertecken (*), som täcker alla värden för fältet. En *, i dagar, innebär alla dagar i månaden (som varierar med månad och år).
I expression: "15 16 * * 1" exemplet ovan avses 16:15 varje måndag.
I nästa tabell visas giltiga värden för varje fält:
Fält
Intervall
Kommentar
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Stöds ej. Värdet ignoreras och behandlas som *.
MONTHS
-
Stöds ej. Värdet ignoreras och behandlas som *.
DAYS-OF-WEEK
0-6
Noll (0) betyder söndag. Namn på dagar accepteras också.
DAYS och MONTH stöds inte. Om du skickar något av dessa värden ignoreras det och behandlas som *.
Start: Schemat blir först aktivt på det här datumet. Som standard skapas datumet för det här schemat.
Slut: schemat blir inaktivt efter det här datumet. Som standard är det NONE, vilket innebär att schemat alltid är aktivt tills du inaktiverar det manuellt.
Taggar: de valda schemataggar.
Kommentar
Start anger startdatum och tid med schemats tidszon. Om start utelämnas är starttiden lika med tiden för att skapa schemat. För en tidigare starttid körs det första jobbet vid nästa beräknade körningstid.
Nästa skärmbild visar den sista skärmen i den här processen. Granska dina val och välj Skapa. På den här skärmen och de andra skärmarna i den här processen väljer du Tillbaka för att flytta till tidigare skärmar för att ändra dina val av värden.
Importera data från ett externt filsystem som en mappdatatillgång
Kommentar
En Amazon S3-dataresurs kan fungera som en extern filsystemresurs.
Den connection som hanterar åtgärden för dataimport avgör aspekterna av den externa datakällan. Anslutningen definierar en Amazon S3-bucket som mål. Anslutningen förväntar sig ett giltigt path värde. Ett tillgångsvärde som importeras från en extern filsystemkälla har värdet typeuri_folder.
Nästa kodexempel importerar data från en Amazon S3-resurs.
Under Tillgångar i det vänstra navigeringsfältet väljer du Data. Välj sedan fliken Dataimport. Välj sedan Skapa som på den här skärmbilden:
På skärmen Datakälla väljer du S3 och sedan Nästa, som du ser i den här skärmbilden:
Fyll i värdena på skärmen Datatyp. Typvärdet är som standard Mapp (uri_folder). Välj sedan Nästa, som du ser i den här skärmbilden:
På skärmen Skapa dataimport fyller du i värdena och väljer Nästa, som du ser i den här skärmbilden:
Fyll i värdena på skärmen Välj ett datalager för utdata och välj Nästa, som du ser i den här skärmbilden. Arbetsytans hanterade datalager är valt som standard. Sökvägen tilldelas automatiskt av systemet när du väljer hanterat datalager. Om du väljer Hanterat datalager för arbetsyta visas listrutan Automatisk borttagning. Den erbjuder ett tidsfönster för databorttagning på 30 dagar som standard och hur du hanterar importerade datatillgångar förklarar hur du ändrar det här värdet.
Du kan lägga till ett schema. Välj Lägg till schema enligt den här skärmbilden:
En ny panel öppnas, där du kan definiera ett återkommande schema eller ett Cron-schema . Den här skärmbilden visar panelen för ett återkommande schema:
Namn: den unika identifieraren för schemat på arbetsytan.
Beskrivning: schemabeskrivningen.
Utlösare: schemats upprepningsmönster, som innehåller följande egenskaper.
Tidszon: beräkningen av utlösarens tid baseras på den här tidszonen. (UTC) Koordinerad universell tid som standard.
Upprepning eller Cron-uttryck: välj upprepning för att ange det återkommande mönstret. Under Upprepning kan du ange upprepningsfrekvensen – efter minuter, timmar, dagar, veckor eller månader.
Start: Schemat blir först aktivt på det här datumet. Som standard skapas datumet för det här schemat.
Slut: schemat blir inaktivt efter det här datumet. Som standard är det NONE, vilket innebär att schemat alltid är aktivt tills du inaktiverar det manuellt.
Taggar: de valda schemataggar.
Kommentar
Start anger startdatum och tid med schemats tidszon. Om start utelämnas är starttiden lika med tiden för att skapa schemat. För en tidigare starttid körs det första jobbet vid nästa beräknade körningstid.
Som du ser i nästa skärmbild granskar du dina val på den sista skärmen i den här processen och väljer Skapa. På den här skärmen och de andra skärmarna i den här processen väljer du Tillbaka för att flytta till tidigare skärmar om du vill ändra dina val av värden.
Nästa skärmbild visar den sista skärmen i den här processen. Granska dina val och välj Skapa. På den här skärmen och de andra skärmarna i den här processen väljer du Tillbaka för att flytta till tidigare skärmar för att ändra dina val av värden.
Den här skärmbilden visar panelen för ett Cron-schema :
Namn: den unika identifieraren för schemat på arbetsytan.
Beskrivning: schemabeskrivningen.
Utlösare: schemats upprepningsmönster, som innehåller följande egenskaper.
Tidszon: beräkningen av utlösarens tid baseras på den här tidszonen. (UTC) Koordinerad universell tid som standard.
Upprepning eller Cron-uttryck: välj cron-uttryck för att ange cron-information.
(Krävs)expression använder ett standarduttryck för crontab för att uttrycka ett återkommande schema. Ett enda uttryck består av fem blankstegsavgränsade fält:
MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK
Ett enda jokertecken (*), som täcker alla värden för fältet. En *, i dagar, innebär alla dagar i månaden (som varierar med månad och år).
I expression: "15 16 * * 1" exemplet ovan avses 16:15 varje måndag.
I nästa tabell visas giltiga värden för varje fält:
Fält
Intervall
Kommentar
MINUTES
0-59
-
HOURS
0-23
-
DAYS
-
Stöds ej. Värdet ignoreras och behandlas som *.
MONTHS
-
Stöds ej. Värdet ignoreras och behandlas som *.
DAYS-OF-WEEK
0-6
Noll (0) betyder söndag. Namn på dagar accepteras också.
DAYS och MONTH stöds inte. Om du skickar något av dessa värden ignoreras det och behandlas som *.
Start: Schemat blir först aktivt på det här datumet. Som standard skapas datumet för det här schemat.
Slut: schemat blir inaktivt efter det här datumet. Som standard är det NONE, vilket innebär att schemat alltid är aktivt tills du inaktiverar det manuellt.
Taggar: de valda schemataggar.
Kommentar
Start anger startdatum och tid med schemats tidszon. Om start utelämnas är starttiden lika med tiden för att skapa schemat. För en tidigare starttid körs det första jobbet vid nästa beräknade körningstid.
Nästa skärmbild visar den sista skärmen i den här processen. Granska dina val och välj Skapa. På den här skärmen och de andra skärmarna i den här processen väljer du Tillbaka för att flytta till tidigare skärmar för att ändra dina val av värden.
Kontrollera importstatusen för externa datakällor
Dataimportåtgärden är en asynkron åtgärd. Det kan ta lång tid. När en importdataåtgärd har överförts via CLI eller SDK kan Azure Machine Learning-tjänsten behöva flera minuter för att ansluta till den externa datakällan. Sedan startar tjänsten dataimporten och hanterar cachelagring och registrering av data. Den tid som krävs för en dataimport beror också på storleken på källdatauppsättningen.
I nästa exempel returneras status för den skickade dataimportaktiviteten. Kommandot eller metoden använder namnet på "datatillgången" som indata för att fastställa status för datamaterialiseringen.