Sdílet prostřednictvím


Import z tabulky Azure

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

tento článek popisuje, jak pomocí modulu import dat v aplikaci Machine Learning Studio (classic) importovat strukturovaná nebo částečně strukturovaná Data z tabulek Azure do experimentu strojového učení.

Poznámka

platí pro: jenom Machine Learning Studio (classic)

podobné moduly přetažení jsou k dispozici v návrháři Azure Machine Learning.

Služba Azure Table Service je služba pro správu dat v Azure, která dokáže ukládat velké objemy strukturovaných, nerelačních dat. Jedná se o úložiště dat NoSQL, které přijímá ověřená volání zevnitř i mimo Azure.

Import z Azure Table Storage vyžaduje, abyste zvolili jeden ze dvou typů účtů: účet úložiště, ke kterému se dá přihlédnout pomocí adresy URL SAS, nebo privátního účtu úložiště, který vyžaduje přihlašovací údaje.

Import dat z tabulek Azure

Použití Průvodce importem dat

Modul nabízí nového průvodce, který vám pomůže vybrat možnost úložiště, vybrat z existujících předplatných a účtů a rychle nakonfigurovat všechny možnosti.

  1. Přidejte modul Import dat do experimentu. Modul můžete najít v části vstup a výstup dat.

  2. Klikněte na Spustit Průvodce importem dat a postupujte podle zobrazených výzev.

  3. Po dokončení konfigurace můžete data skutečně zkopírovat do experimentu, kliknout pravým tlačítkem na modul a vybrat možnost Spustit vybrané.

Pokud potřebujete upravit existující datové připojení, průvodce načte všechny předchozí podrobnosti konfigurace, takže se nemusíte znovu spouštět od začátku.

Ručně nastavit vlastnosti v modulu import dat

Následující postup popisuje, jak ručně nakonfigurovat zdroj importu.

  1. Přidejte modul Import dat do experimentu. tento modul najdete ve skupině vstup a výstup dat v seznamu položky experimentu v Machine Learning studiu (classic).

  2. V případě zdroje datvyberte tabulka Azure.

  3. Pokud víte, že byly informace k dispozici jako veřejný zdroj dat, vyberte jako typ ověřovánímožnost veřejné (SAS adresa URL) . Adresa URL SAS je časově vázaná adresa URL pro přístup, kterou můžete vygenerovat pomocí nástroje Azure Storage.

    V opačném případě vyberte možnost účet.

  4. Pokud jsou vaše data ve veřejném objektu blob, ke kterému se dá získat přístup pomocí adresy URL SAS, nepotřebujete další přihlašovací údaje, protože řetězec adresy URL obsahuje všechny informace, které jsou potřeba ke stažení a ověření.

    Do pole identifikátor URI v tabulce SAS zadejte nebo vložte úplný identifikátor URI, který definuje účet a veřejný objekt BLOB.

    Poznámka

    Na stránce přístupné prostřednictvím adresy URL SAS lze data ukládat pouze pomocí těchto formátů: CSV, TSV a ARFF.

  5. Pokud jsou vaše data v privátním účtu, musíte zadat přihlašovací údaje včetně názvu účtu a klíče.

    • Do pole název účtu tabulkyzadejte nebo vložte název účtu, který obsahuje objekt blob, ke kterému chcete získat přístup.

      Pokud je https://myshared.table.core.windows.net například úplná adresa URL účtu úložiště, zadáte myshared .

    • Do pole klíč účtu tabulkyvložte přístupový klíč, který je přidružený k účtu úložiště. \

      pokud přístupový klíč neznáte, přečtěte si část "zobrazení, kopírování a obnovení klíčů pro přístup k úložišti" v tomto článku: informace o Azure Storagech účtech.

    • Do pole název tabulkyzadejte název konkrétní tabulky, kterou chcete číst.

  6. Vyberte možnost, která určuje, kolik řádků má importovaná data kontrolovat. Import dat používá kontrolu k získání seznamu sloupců v datech a k určení toho, jaké typy dat sloupce by měly být.

    • Nejlepší: naskenujte pouze zadaný počet řádků počínaje horním okrajem datové sady.

      Ve výchozím nastavení se prohledají 10 řádků, ale tuto hodnotu můžete zvýšit nebo snížit pomocí možnosti počet řádků pro nejlepší .

      Pokud jsou data homogenní a předvídatelné, vyberte nejlepší a zadejte číslo pro N. U rozsáhlých tabulek to může vést k rychlejšímu čtení času.

    • ScanAll: prohledá všechny řádky v tabulce.

      Pokud jsou data strukturovaná pomocí sad vlastností, které se liší v závislosti na hloubkě a umístění tabulky, vyberte možnost ScanAll pro kontrolu všech řádků. Tím zajistíte integritu výsledných vlastností a převodů metadat.

  7. Určete, zda chcete, aby se data aktualizovala při každém spuštění experimentu. Pokud vyberete možnost použít výsledky v mezipaměti (výchozí nastavení), modul importovat data přečte data ze zadaného zdroje při prvním spuštění experimentu a poté uloží výsledky do mezipaměti. Pokud jsou v parametrech modulu import data provedeny nějaké změny, data se znovu načtou.

    Pokud zrušíte výběr této možnosti, data budou načtena ze zdroje při každém spuštění experimentu bez ohledu na to, zda jsou data stejná nebo nikoli.

Příklady

Příklady použití modulu Export dat najdete v Azure AI Gallery.

Technické poznámky

Tato část obsahuje podrobné informace o implementaci, tipy a odpovědi na nejčastější dotazy.

Časté dotazy

Jak se můžu vyhnout opakovanému načtení stejných dat?

Pokud se vaše zdrojová data změní, můžete datovou sadu aktualizovat a přidat nová data tak, že znovu spustíte importovaná data. Pokud se však nechcete znovu načíst ze zdroje při každém spuštění experimentu, vyberte možnost použít výsledky v mezipaměti na hodnotu true. Pokud je tato možnost nastavena na hodnotu TRUE, modul zkontroluje, zda byl experiment spuštěn dříve pomocí stejné možnosti zdroje a stejného vstupu a v případě, že je nalezen předchozí běh, se data v mezipaměti použijí místo opětovného načtení dat ze zdroje.

Můžu filtrovat data při jejich čtení ze zdroje?

Modul Import dat nepodporuje filtrování při čtení dat. Výjimka je čtena z datových kanálů, které někdy umožňují zadat podmínku filtru jako součást adresy URL informačního kanálu.

data však můžete změnit nebo filtrovat po jejich přečtení do Machine Learning studia (classic):

  • Pomocí vlastního skriptu jazyka R můžete data změnit nebo filtrovat.
  • K izolaci dat, která chcete použít, použijte modul rozdělit data s relativním výrazem nebo regulárním výrazem a pak ho uložte jako datovou sadu.

Poznámka

Pokud zjistíte, že jste načetli více dat, než kolik potřebujete, můžete přepsat datovou sadu uloženou v mezipaměti tak, že si přečtete novou datovou sadu a uložíte ji se stejným názvem jako starší, větší data.

Jak Import dat zpracovává data z různých geografických oblastí?

Pokud je účet Blob Storage nebo Table Storage v jiné oblasti než výpočetní uzel, který se používá pro experimentování se strojovým učením, může být přístup k datům pomalejší. Navíc se vám budou účtovat příchozí a odchozí data v předplatném.

Proč se některé znaky v tabulce nezobrazují správně?

Machine Learning podporuje kódování UTF-8. Pokud vaše tabulka používá jiné kódování, nemusí být znaky správně importovány.

Existují nějaké zakázané znaky nebo znaky, které se během importu změnily?

Pokud data atributu obsahují uvozovky nebo sekvence znaků escape, jsou zpracovávány pomocí pravidel pro tyto znaky v Microsoft Excel. Všechny ostatní znaky jsou zpracovávány pomocí následujících specifikací jako základní zásady: RFC 4180.

Parametry modulu

Name Rozsah Typ Výchozí Výchozí
Zdroj dat Seznam Zdroj dat nebo jímka Azure Blob Storage zdroj dat může být HTTP, FTP, anonymní HTTPS nebo FTPS, soubor ve službě azure BLOB storage, tabulka azure, Azure SQL Database, místní databáze SQL Server, tabulka podregistru nebo koncový bod OData.
Typ ověřování PublicOrSas

Účet
tableAuthType Účet Určete, jestli jsou data ve veřejném kontejneru přístupném prostřednictvím adresy URL SAS, nebo je v privátním účtu úložiště, který vyžaduje ověření přístupu.

Možnosti veřejného úložiště veřejné nebo SAS

Name Rozsah Typ Výchozí Description
Identifikátor URI tabulky Libovolný Řetězec
Řádky pro vyhledávání názvů vlastností přes SAS integer
Počet řádků pro TopN přes SAS

Účet – možnosti privátního úložiště

Name Rozsah Typ Výchozí Description
Název účtu tabulky
Klíč účtu tabulky Libovolný Securestring
Název tabulky Libovolný
Řádky pro vyhledávání názvů vlastností TopN (Hornín))

ScanAll
Počet řádků pro TopN Libovolný integer

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada se stažených daty

Výjimky

Výjimka Description
Chyba 0027 K výjimce dochází v případě, že dva objekty musí mít stejnou velikost, ale nemají.
Chyba 0003 K výjimce dojde, pokud má jeden nebo více vstupů hodnotu null nebo je prázdný.
Chyba 0029 K výjimce dojde, když je předán neplatný identifikátor URI.
Chyba 0030 K výjimce dojde v nástroji , když není možné stáhnout soubor.
Chyba 0002 K výjimce dochází v případě, že jeden nebo více parametrů nebylo možné analyzovat nebo převést ze zadaného typu na typ vyžadovaný cílovou metodou.
Chyba 0009 K výjimce dojde, pokud je nesprávně zadaný název účtu úložiště Azure nebo název kontejneru.
Chyba 0048 K výjimce dojde, když není možné otevřít soubor.
Chyba 0046 K výjimce dochází v případě, že není možné vytvořit adresář v zadané cestě.
Chyba 0049 K výjimce dochází v případě, že není možné parsovat soubor.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Import dat
Export dat
Import z webové adresy URL přes HTTP
Import z dotazu Hive
Import z Azure SQL Database
Import z Azure Blob Storage
Import od poskytovatelů datových kanálů
Import z místní SQL Server Database