Sdílet prostřednictvím


Import z webové adresy URL přes HTTP

Důležité

Podpora studia Machine Learning (Classic) skončí 31. srpna 2024. Doporučujeme do tohoto data přejít na službu Azure Machine Learning.

Od 1. prosince 2021 nebude možné vytvářet nové prostředky studia Machine Learning (Classic). Do 31. srpna 2024 můžete pokračovat v používání stávajících prostředků studia Machine Learning (Classic).

Dokumentace ke studiu ML (Classic) se vyřazuje z provozu a v budoucnu se nemusí aktualizovat.

Tento článek popisuje, jak pomocí modulu Import dat v Machine Learning Studiu (klasickém) číst data z veřejné webové stránky pro použití v experimentu strojového učení.

Poznámka

Platí pro: Machine Learning Studio (classic)

Podobné moduly s přetahováním jsou k dispozici v Azure Machine Learning návrháři.

Na data publikovaná na webové stránce se vztahují následující omezení:

  • Data musí být v jednom z podporovaných formátů: CSV, TSV, ARFF nebo SvmLight. Jiná data způsobí chyby.
  • Nevyžaduje se ani nepodporuje žádné ověřování. Data musí být veřejně dostupná.

Jak importovat data přes HTTP

Existují dva způsoby, jak získat data: pomocí průvodce nastavte zdroj dat nebo ho nakonfigurujte ručně.

Použití Průvodce importem dat

  1. Přidejte do experimentu modul Import dat. Modul najdete v sadě Studio (classic) v kategorii Vstup a výstup dat.

  2. Klikněte na Launch Import Data Wizard (Spustit Průvodce importem dat) a vyberte Web URL via HTTP (Webová adresa URL přes HTTP).

  3. Vložte adresu URL a vyberte formát dat.

  4. Po dokončení konfigurace klikněte pravým tlačítkem na modul a vyberte Spustit vybrané.

Pokud chcete upravit existující datové připojení, spusťte průvodce znovu. Průvodce načte všechny předchozí podrobnosti o konfiguraci, takže nemusíte znovu začínět od začátku.

Ruční nastavení vlastností v modulu Import dat

Následující kroky popisují ruční konfiguraci zdroje importu.

  1. Přidejte do experimentu modul Import dat. Modul najdete v sadě Studio (classic) v kategorii Vstup a výstup dat.

  2. V části Zdroj dat vyberte Webová url přes HTTP.

  3. Jako adresu URL zadejte nebo vložte úplnou adresu URL stránky, která obsahuje data, která chcete načíst.

    Adresa URL by měla obsahovat adresu URL webu a úplnou cestu s názvem a příponou souboru na stránce, která obsahuje data, která se mají načíst.

    Například následující stránka obsahuje datovou sadu Iris z úložiště strojového učení univerzity v Kalifornii Irvine:

    https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

  4. V části Formát dat vyberte ze seznamu jeden z podporovaných formátů dat.

    Doporučujeme vždy zkontrolovat data předem a určit formát. Stránka UC Irvine používá formát CSV. Další podporované datové formáty jsou TSV, ARFF a SvmLight.

  5. Pokud jsou data ve formátu CSV nebo TSV, pomocí možnosti File has header row (Soubor má řádek záhlaví) určete, jestli zdrojová data obsahují řádek záhlaví. Řádek záhlaví se používá k přiřazení názvů sloupců.

  6. Vyberte možnosti Použít výsledky uložené v mezipaměti, pokud neočekáváte velkou změnu dat nebo pokud se chcete vyhnout opětovnému načtení dat při každém spuštění experimentu.

    Když je tato možnost vybraná, experiment načte data při prvním spuštění modulu a následně použije verzi datové sady uložené v mezipaměti.

    Pokud chcete datovou sadu znovu načíst při každé iteraci datové sady experimentu, zrušte výběr možnosti Použít výsledky uložené v mezipaměti . Výsledky se také znovu načítá, pokud dojde ke změnám parametrů importu dat.

  7. Spusťte experiment.

Výsledky

Po dokončení klikněte na výstupní datovou sadu a vyberte Vizualizovat , abyste viděli, jestli se data úspěšně naimportovaná.

Příklady

Podívejte se na tyto příklady v Azure AI Gallery experimentů strojového učení, které nachytá data z veřejných webů:

Technické poznámky

Tato část obsahuje podrobnosti o implementaci, tipy a odpovědi na nejčastější dotazy.

Časté dotazy

Můžu filtrovat data, která se načítá ze zdroje?

No. Tato možnost není u tohoto zdroje dat podporována.

Po načtení dat do Machine Learning Studio (classic) můžete datovou sadu rozdělit, použít vzorkování atd., abyste měli jen řádky, které chcete:

  • Do skriptu Execute R Script napište jednoduchý kód R , který získá část dat podle řádků nebo sloupců.

  • K izolaci dat, která chcete použít, použijte modul Rozdělit data s relativním výrazem nebo regulární výraz.

  • Pokud jste načetl více dat, než potřebujete, přepište datovou sadu v mezipaměti přečtením nové datové sady a uložením se stejným názvem.

Jak se můžu vyhnout zbytečnému načítání stejných dat?

Pokud se zdrojová data změní, můžete datovou sadu aktualizovat a přidat nová spuštěním importu dat.

Pokud nechcete znovu číst ze zdroje při každém spuštění experimentu, vyberte možnost Použít výsledky uložené v mezipaměti na TRUE. Pokud je tato možnost nastavená na hodnotu TRUE, modul zkontroluje, jestli se experiment dříve spouštěl pomocí stejného zdroje a stejných vstupních možností. Pokud je nalezeno předchozí spuštění, použije se data v mezipaměti místo opětovného načtení dat ze zdroje.

Proč se na konec datové sady přidal další řádek?

Pokud modul Import dat narazí na řádek dat následovaný prázdným řádkem nebo znakem nového řádku na konci, přidá se na konec tabulky další řádek. Tento nový řádek obsahuje chybějící hodnoty.

Důvodem pro interpretaci nového koncového řádku jako nového řádku je, že import dat nedokáže určit rozdíl mezi skutečným prázdným řádkem a prázdným řádkem, který vytvořil uživatel stisknutím klávesy ENTER na konci souboru.

Vzhledem k tomu, že některé algoritmy strojového učení podporují chybějící data, a proto by tento řádek považovaly za případ (který by pak mohl mít vliv na výsledky), měli byste pomocí funkce Vyčistit chybějící data zkontrolovat chybějící hodnoty (zejména řádky, které jsou zcela prázdné) a podle potřeby je odebrat.

Než zkontrolujete prázdné řádky, můžete datovou sadu také rozdělit pomocí funkce Rozdělit data. Tím se řádky oddělují částečnými chybějícími hodnotami, které představují skutečné chybějící hodnoty ve zdrojových datech. Pomocí možnosti Vybrat prvních N řádků načtěte první část datové sady do samostatného kontejneru z posledního řádku.

Proč se některé znaky ve zdrojovém souboru nezobrazují správně

Machine Learning podporuje kódování UTF-8. Pokud zdrojový soubor použil jiný typ kódování, nemusí být znaky importovány správně.

Parametry modulu

Name Rozsah Typ Výchozí Description
Zdroj dat Seznam Zdroj nebo jímka dat Azure Blob Storage Zdrojem dat může být HTTP, FTP, anonymní HTTPS nebo FTPS, soubor v úložišti objektů blob v Azure, tabulka Azure, Azure SQL Database, místní databáze SQL Server, tabulka Hive nebo koncový bod OData.
URL Libovolný Řetězec žádné Adresa URL pro HTTP
Formát dat CSV

TSV

ARFF

SvmLight
Formát dat CSV Typ souboru zdroje HTTP
CSV nebo TSV má řádek záhlaví TRUE/FALSE Logická hodnota false (nepravda) Určuje, jestli soubor CSV nebo TSV obsahuje řádek záhlaví.
Použití výsledků uložených v mezipaměti TRUE/FALSE Logická hodnota FALSE Modul se spustí pouze v případě, že platná mezipaměť neexistuje. V opačném případě se používají data uložená v mezipaměti z předchozího spuštění.

Výstupy

Název Typ Description
Datová sada výsledků Tabulka dat Datová sada se stažených daty

Výjimky

Výjimka Description
Chyba 0027 K výjimce dochází v případě, že dva objekty musí mít stejnou velikost, ale nemají.
Chyba 0003 K výjimce dojde, pokud má jeden nebo více vstupů hodnotu null nebo je prázdný.
Chyba 0029 K výjimce dojde, když je předán neplatný identifikátor URI.
Chyba 0030 K výjimce dojde v nástroji , když není možné stáhnout soubor.
Chyba 0002 K výjimce dochází v případě, že jeden nebo více parametrů nebylo možné analyzovat nebo převést ze zadaného typu na typ vyžadovaný cílovou metodou.
Chyba 0048 K výjimce dojde, když není možné otevřít soubor.
Chyba 0046 K výjimce dochází v případě, že není možné vytvořit adresář v zadané cestě.
Chyba 0049 K výjimce dochází v případě, že není možné parsovat soubor.

Seznam chyb specifických pro moduly sady Studio (classic) najdete v Machine Learning kódy chyb.

Seznam výjimek rozhraní API najdete v tématu Machine Learning REST API kódy chyb.

Viz také

Import dat
Export dat
Import z dotazu Hive
Import z Azure SQL Database
Import z tabulky Azure
Import z Azure Blob Storage
Import od poskytovatelů datových kanálů
Import z místní SQL Server Database