Sdílet prostřednictvím


Import trénovacích dat do nástroje Machine Learning Studio (classic) z různých zdrojů dat

PLATÍ PRO: Platí pro. Machine Learning Studio (Classic) Nevztahuje se na.Azure Machine Learning

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Pokud chcete použít vlastní data v nástroji Machine Learning Studio (classic) k vývoji a trénování řešení prediktivní analýzy, můžete použít data z:

  • Místní soubor – Načtení místních dat předem z pevného disku a vytvoření modulu datové sady v pracovním prostoru
  • Online zdroje dat – Přístup k datům z jednoho z několika online zdrojů při spuštění experimentu pomocí modulu Import dat
  • Experiment Machine Learning Studio (classic) – Použití dat uložených jako datová sada v nástroji Machine Learning Studio (classic)
  • Databáze SQL Serveru – Použití dat z databáze SQL Serveru bez nutnosti ručního kopírování dat

Poznámka:

V nástroji Machine Learning Studio (classic) je k dispozici celá řada ukázkových datových sad, které můžete použít pro trénovací data. Informace o těchto datových sadách najdete v tématu Použití ukázkových datových sad v nástroji Machine Learning Studio (classic).

Příprava dat

Machine Learning Studio (classic) je navržený tak, aby fungoval s obdélníkovými nebo tabulkovými daty, jako jsou textová data, která jsou oddělená nebo strukturovaná z databáze, i když v některých případech se dají použít neútoúhlá data.

Nejlepší je, když jsou vaše data před importem do studia (classic) poměrně čistá. Budete se například chtít postarat o problémy, jako jsou necitované řetězce.

V sadě Studio (classic) jsou ale k dispozici moduly, které umožňují manipulaci s daty v rámci experimentu po importu dat. V závislosti na algoritmech strojového učení, které budete používat, možná budete muset rozhodnout, jak budete řešit strukturální problémy s daty, jako jsou chybějící hodnoty a řídká data, a existují moduly, které vám s tím můžou pomoct. Podívejte se do části Transformace dat palety modulů pro moduly, které tyto funkce provádějí.

V jakémkoli okamžiku experimentu můžete zobrazit nebo stáhnout data vytvořená modulem kliknutím na výstupní port. V závislosti na modulu můžou být k dispozici různé možnosti stahování nebo můžete data vizualizovat ve webovém prohlížeči v sadě Studio (classic).

Podporované formáty dat a datové typy

Do experimentu můžete importovat několik datových typů podle toho, jaký mechanismus používáte k importu dat a odkud pocházejí:

  • Prostý text (.txt)
  • Hodnoty oddělené čárkami (CSV) se záhlavím (.csv) nebo bez (.nh.csv)
  • Hodnoty oddělené tabulátorem (TSV) se záhlavím (.tsv) nebo bez (.nh.tsv)
  • Excelový soubor
  • Tabulka Azure
  • Tabulka Hive
  • Tabulka databáze SQL
  • Hodnoty OData
  • Data SVMLight (.svmlight) (viz definice SVMLight pro informace o formátu)
  • Data formátu souboru relace atributů (ARFF) (.arff) (viz definice ARFF pro informace o formátu)
  • Soubor ZIP (.zip)
  • Objekt R nebo soubor pracovního prostoru (. RData)

Pokud importujete data ve formátu, jako je ARFF, který obsahuje metadata, studio (klasické) použije tato metadata k definování záhlaví a datového typu každého sloupce.

Pokud importujete data, jako je TSV nebo formát CSV, který neobsahuje tato metadata, Studio (classic) odvodí datový typ pro každý sloupec vzorkováním dat. Pokud data také nemají záhlaví sloupců, studio (classic) poskytuje výchozí názvy.

Pomocí modulu Upravit metadata můžete explicitně zadat nebo změnit záhlaví a datové typy sloupců.

Studio rozpoznává následující datové typy:

  • String
  • Celé číslo
  • Hodnota s dvojitou přesností
  • Logická hodnota
  • DateTime
  • TimeSpan

Studio používá k předávání dat mezi moduly interní datový typ označovaný jako tabulka dat. Data můžete explicitně převést do formátu tabulky dat pomocí modulu Převést na datovou sadu .

Každý modul, který přijímá jiné formáty než tabulka dat, převede data do tabulky dat bezobslužně před předáním do dalšího modulu.

V případě potřeby můžete převést formát tabulky dat zpět na formát CSV, TSV, ARFF nebo SVMLight pomocí jiných převodních modulů. V části Převody formátu dat na paletě modulů vyhledejte moduly, které tyto funkce provádějí.

Datové kapacity

Moduly v nástroji Machine Learning Studio (classic) podporují datové sady o velikosti až 10 GB hustých číselných dat pro běžné případy použití. Pokud modul přijímá víc než jeden vstup, celková velikost všech vstupních velikostí je 10 GB. Větší datové sady můžete vzorkovat pomocí dotazů z Hive nebo Azure SQL Database nebo můžete před importem dat použít učení podle počtu.

Během normalizace funkcí je možné následující typy dat rozšířit do větších datových sad. Tyto typy jsou omezené na méně než 10 GB:

  • Řídké
  • Kategorické
  • Řetězce
  • Binární data

Následující moduly jsou omezené na datové sady menší než 10 GB:

  • Doporučené moduly
  • Modul SMOTE (Synthetic Minority Oversampling Technique)
  • Skriptovací moduly: R, Python, SQL
  • Moduly, kde velikost výstupních dat může být větší než velikost vstupních dat, třeba Join nebo Feature Hashing
  • Pro velmi velký počet iterací Cross-validation, Tune Model Hyperparameters, Ordinal Regression a One-vs-All Multiclass

U datových sad, které jsou větší než několik GB, nahrajte data do Služby Azure Storage nebo Azure SQL Database nebo použijte Azure HDInsight místo nahrání přímo z místního souboru.

Informace o datech obrázků najdete v referenčních informacích k modulu importu imagí .

Import z místního souboru

Datový soubor můžete nahrát z pevného disku, který se použije jako trénovací data v sadě Studio (classic). Při importu datového souboru vytvoříte modul datové sady připravený k použití v experimentech v pracovním prostoru.

Pokud chcete importovat data z místního pevného disku, postupujte takto:

  1. V dolní části okna studia (classic) klikněte na +NOVÝ .
  2. Vyberte DATOVOU SADU a Z MÍSTNÍHO SOUBORU.
  3. V dialogovém okně Nahrát novou datovou sadu přejděte k souboru, který chcete nahrát.
  4. Zadejte název, identifikujte datový typ a volitelně zadejte popis. Doporučuje se popis – umožňuje zaznamenávat všechny charakteristiky dat, která si chcete zapamatovat při použití dat v budoucnu.
  5. Zaškrtávací políčko Toto je nová verze existující datové sady , která umožňuje aktualizovat existující datovou sadu novými daty. Uděláte to tak, že kliknete na toto políčko a zadáte název existující datové sady.

Nahrání nové datové sady

Doba nahrávání závisí na velikosti dat a rychlosti připojení ke službě. Pokud víte, že soubor bude trvat delší dobu, můžete během čekání dělat další věci v sadě Studio (classic). Zavření prohlížeče před dokončením nahrávání dat však způsobí selhání nahrávání.

Po nahrání dat se uloží do modulu datové sady a je k dispozici pro jakýkoli experiment ve vašem pracovním prostoru.

Při úpravách experimentu najdete datové sady, které jste nahráli, v seznamu Moje datové sady v seznamu Uložené datové sady v paletě modulů. Datovou sadu můžete přetáhnout na plátno experimentu, když chcete datovou sadu použít k další analýze a strojovému učení.

Import z online zdrojů dat

Pomocí modulu Importovat data může experiment importovat data z různých online zdrojů dat během spuštění experimentu.

Poznámka:

Tento článek obsahuje obecné informace o modulu Import dat . Podrobnější informace o typech dat, ke které můžete získat přístup, formáty, parametry a odpovědi na běžné otázky, najdete v referenčním tématu modulu pro modul Import dat .

Pomocí modulu Importovat data můžete získat přístup k datům z jednoho z několika online zdrojů dat, když experiment běží:

  • Webová adresa URL pomocí protokolu HTTP
  • Hadoop s využitím HiveQL
  • Úložiště objektů blob Azure
  • Tabulka Azure
  • Azure SQL Database SQL Managed Instance nebo SQL Server
  • Zprostředkovatel datového kanálu, OData v současné době
  • Azure Cosmos DB

Vzhledem k tomu, že tato trénovací data se při běhu experimentu přistupují, jsou dostupná jenom v tomto experimentu. Porovnáním jsou data uložená v modulu datové sady k dispozici pro jakýkoli experiment ve vašem pracovním prostoru.

Pokud chcete získat přístup k online zdrojům dat v experimentu v sadě Studio (classic), přidejte do experimentu modul Importovat data . Potom v části Vlastnosti vyberte Spustit Průvodce importem dat, kde najdete podrobné pokyny k výběru a konfiguraci zdroje dat. Alternativně můžete ručně vybrat zdroj dat v části Vlastnosti a zadat parametry potřebné pro přístup k datům.

Online zdroje dat, které jsou podporovány, jsou uvedeny v následující tabulce. Tato tabulka také shrnuje formáty souborů, které jsou podporované, a parametry, které se používají pro přístup k datům.

Důležité

Moduly Import dat a export dat v současné době můžou číst a zapisovat data jenom z úložiště Azure vytvořeného pomocí modelu nasazení Classic. Jinými slovy, nový typ účtu Azure Blob Storage, který nabízí horkou úroveň přístupu k úložišti nebo studenou úroveň přístupu k úložišti, ještě není podporovaný.

Obecně platí, že na všechny účty úložiště Azure, které jste mohli vytvořit dříve, než se tato možnost služby zpřístupní, by to nemělo mít vliv. Pokud potřebujete vytvořit nový účet, vyberte pro model nasazení Classic nebo použijte Resource Manager a místo úložiště objektů blob jako typ účtu vyberte Správce prostředků.

Další informace najdete v tématu Azure Blob Storage: Horká a studená úroveň úložiště.

Podporované online zdroje dat

Modul Machine Learning Studio (Classic) Import dat podporuje následující zdroje dat:

Zdroj dat Popis Parametry
Webová adresa URL přes HTTP Čte data ve formátech HODNOT oddělených čárkami (CSV), hodnotách oddělených tabulátory (TSV), formátu souboru relačního atributu (ARFF) a formátu SVM (Support Vector Machines) z libovolné webové adresy URL, která používá http. Adresa URL: Určuje úplný název souboru, včetně adresy URL webu a názvu souboru s libovolnou příponou.

Formát dat: Určuje jeden z podporovaných formátů dat: CSV, TSV, ARFF nebo SVM-light. Pokud data obsahují řádek záhlaví, slouží k přiřazení názvů sloupců.
Hadoop/HDFS Čte data z distribuovaného úložiště v Hadoopu. Data, která chcete zadat, zadáte pomocí HiveQL, dotazovacího jazyka podobného JAZYKu SQL. HiveQL se dá použít také k agregaci dat a k filtrování dat před přidáním dat do studia (classic). Dotaz databáze Hive: Určuje dotaz Hive použitý k vygenerování dat.

Identifikátor URI serveru HCatalog: Zadejte název clusteru pomocí formátu <název> clusteru.azurehdinsight.net.

Uživatelské jméno účtu Hadoop: Určuje název uživatelského účtu Hadoop použitý ke zřízení clusteru.

Heslo uživatelského účtu Hadoop: Určuje přihlašovací údaje použité při zřizování clusteru. Další informace najdete v tématu Vytváření clusterů Hadoop ve službě HDInsight.

Umístění výstupních dat: Určuje, jestli jsou data uložená v systému souborů HDFS (Hadoop Distributed File System) nebo v Azure.
    Pokud ukládáte výstupní data do HDFS, zadejte identifikátor URI serveru HDFS. (Nezapomeňte použít název clusteru HDInsight bez předpony HTTPS://).

    Pokud ukládáte výstupní data do Azure, musíte zadat název účtu úložiště Azure, přístupový klíč úložiště a název kontejneru úložiště.
Databáze SQL Čte data uložená ve službě Azure SQL Database, SQL Managed Instance nebo v databázi SQL Serveru spuštěné na virtuálním počítači Azure. Název databázového serveru: Určuje název serveru, na kterém je databáze spuštěná.
    V případě Azure SQL Database zadejte název serveru, který se vygeneruje. Obvykle má formulář <generated_identifier.database.windows.net>.

    V případě SQL Serveru hostovaného na virtuálním počítači Azure zadejte tcp:<Název> DNS virtuálního počítače 1433.

Název databáze: Určuje název databáze na serveru.

Název uživatelského účtu serveru: Určuje uživatelské jméno pro účet, který má přístupová oprávnění pro databázi.

Heslo uživatelského účtu serveru: Určuje heslo pro uživatelský účet.

Databázový dotaz:Zadejte příkaz SQL, který popisuje data, která chcete číst.
Místní databáze SQL Čte data uložená v databázi SQL. Brána dat: Určuje název brány Správa dat nainstalované v počítači, kde má přístup k vaší databázi SQL Serveru. Informace o nastavení brány najdete v tématu Provádění pokročilých analýz pomocí nástroje Machine Learning Studio (Classic) pomocí dat z SQL Serveru.

Název databázového serveru: Určuje název serveru, na kterém je databáze spuštěná.

Název databáze: Určuje název databáze na serveru.

Název uživatelského účtu serveru: Určuje uživatelské jméno pro účet, který má přístupová oprávnění pro databázi.

Uživatelské jméno a heslo: Klikněte na Zadat hodnoty a zadejte přihlašovací údaje databáze. Integrované ověřování systému Windows nebo ověřování SQL Serveru můžete použít v závislosti na konfiguraci SQL Serveru.

Databázový dotaz:Zadejte příkaz SQL, který popisuje data, která chcete číst.
Azure Table Čte data ze služby Table Service ve službě Azure Storage.

Pokud čtete velké objemy dat zřídka, použijte službu Azure Table Service. Poskytuje flexibilní nerelační řešení (NoSQL), široce škálovatelné, levné a vysoce dostupné řešení úložiště.
Možnosti v importu dat se mění v závislosti na tom, jestli přistupujete k veřejným informacím nebo k účtu privátního úložiště, které vyžaduje přihlašovací údaje. Určuje se typem ověřování, který může mít hodnotu PublicOrSAS nebo Account, z nichž každá má vlastní sadu parametrů.

Identifikátor URI veřejného nebo sdíleného přístupového podpisu (SAS): Parametry jsou:

    Identifikátor URI tabulky: Určuje veřejnou adresu URL nebo adresu URL SAS pro tabulku.

    Určuje řádky, které mají hledat názvy vlastností: Hodnoty jsou TopN pro prohledávání zadaného počtu řádků nebo ScanAll pro získání všech řádků v tabulce.

    Pokud jsou data homogenní a předvídatelná, doporučuje se vybrat TopN a zadat číslo pro N. U velkých tabulek to může vést k rychlejšímu čtení.

    Pokud jsou data strukturovaná pomocí sad vlastností, které se liší podle hloubky a umístění tabulky, zvolte možnost ScanAll a prohledejte všechny řádky. Tím se zajistí integrita výsledné vlastnosti a převodu metadat.

Privátní účet úložiště: Parametry jsou:

    Název účtu: Určuje název účtu, který obsahuje tabulku ke čtení.

    Klíč účtu: Určuje klíč úložiště přidružený k účtu.

    Název tabulky: Určuje název tabulky, která obsahuje data ke čtení.

    Řádky pro vyhledávání názvů vlastností: Hodnoty jsou TopN pro kontrolu zadaného počtu řádků nebo ScanAll pro získání všech řádků v tabulce.

    Pokud jsou data homogenní a předvídatelná, doporučujeme vybrat TopN a zadat číslo pro N. U velkých tabulek to může vést k rychlejšímu čtení.

    Pokud jsou data strukturovaná pomocí sad vlastností, které se liší podle hloubky a umístění tabulky, zvolte možnost ScanAll a prohledejte všechny řádky. Tím se zajistí integrita výsledné vlastnosti a převodu metadat.

Azure Blob Storage Čte data uložená ve službě Blob Service ve službě Azure Storage, včetně obrázků, nestrukturovaného textu nebo binárních dat.

Službu Blob můžete použít k veřejnému zveřejnění dat nebo k privátnímu ukládání dat aplikací. K datům můžete přistupovat odkudkoli pomocí připojení HTTP nebo HTTPS.
Možnosti modulu Import dat se mění v závislosti na tom, jestli přistupujete k veřejným informacím nebo k účtu privátního úložiště, které vyžaduje přihlašovací údaje. To je určeno typem ověřování, který může mít hodnotu "PublicOrSAS" nebo "Account".

Identifikátor URI veřejného nebo sdíleného přístupového podpisu (SAS): Parametry jsou:

    Identifikátor URI: Určuje veřejnou adresu URL nebo adresu URL SAS pro objekt blob úložiště.

    Formát souboru: Určuje formát dat ve službě Blob Service. Podporované formáty jsou CSV, TSV a ARFF.

Privátní účet úložiště: Parametry jsou:

    Název účtu: Určuje název účtu, který obsahuje objekt blob, který chcete přečíst.

    Klíč účtu: Určuje klíč úložiště přidružený k účtu.

    Cesta ke kontejneru, adresáři nebo objektu blob : Určuje název objektu blob, který obsahuje data ke čtení.

    Formát souboru objektu blob: Určuje formát dat ve službě blob. Podporované formáty dat jsou CSV, TSV, ARFF, CSV se zadaným kódováním a Excelem.

      Pokud je formát CSV nebo TSV, nezapomeňte určit, jestli soubor obsahuje řádek záhlaví.

      Pomocí možnosti Excelu můžete číst data z excelových sešitů. V možnosti Formát dat aplikace Excel určete, zda jsou data v oblasti listu aplikace Excel nebo v excelové tabulce. V excelovém listu nebo vložené tabulce zadejte název listu nebo tabulky, ze které chcete číst.

Zprostředkovatel datového kanálu Čte data od podporovaného poskytovatele informačního kanálu. V současné době se podporuje pouze formát OData (Open Data Protocol). Datový typ obsahu: Určuje formát OData.

Zdrojová adresa URL: Určuje úplnou adresu URL datového kanálu.
Například následující adresa URL čte z ukázkové databáze Northwind: https://services.odata.org/northwind/northwind.svc/

Import z jiného experimentu

Někdy budete chtít vzít přechodný výsledek z jednoho experimentu a použít ho jako součást jiného experimentu. Uděláte to tak, že uložíte modul jako datovou sadu:

  1. Klikněte na výstup modulu, který chcete uložit jako datovou sadu.
  2. Klikněte na Uložit jako datovou sadu.
  3. Po zobrazení výzvy zadejte název a popis, který vám umožní snadno identifikovat datovou sadu.
  4. Klikněte na značku zaškrtnutí OK .

Po dokončení uložení bude datová sada dostupná pro použití v jakémkoli experimentu v pracovním prostoru. Najdete ho v seznamu Uložené datové sady v paletě modulů.

Další kroky

Nasazení webových služeb Machine Learning Studio (Classic), které používají moduly importu a exportu dat