Sdílet prostřednictvím


Data ve službě Azure Machine Learning v1

PLATÍ PRO: Rozšíření Azure CLI ml v1

PLATÍ PRO: Python SDK azureml v1

Azure Machine Learning usnadňuje připojení k vašim datům v cloudu. Poskytuje abstrakci vrstvy nad podkladovou službou úložiště, abyste mohli bezpečně přistupovat k datům a pracovat s ní, aniž byste museli psát kód specifický pro váš typ úložiště. Azure Machine Learning také poskytuje tyto možnosti dat:

  • Interoperabilita s datovými rámci Pandas a Spark
  • Správa verzí a sledování rodokmenu dat
  • Popisování dat
  • Monitorování odchylek dat

Pracovní postup dat

Pokud chcete použít data v cloudovém řešení úložiště, doporučujeme tento pracovní postup doručování dat. Pracovní postup předpokládá, že máte účet úložiště Azure a data ve službě cloudového úložiště Azure.

  1. Vytvoření úložiště dat služby Azure Machine Learning pro ukládání informací o připojení do úložiště Azure

  2. Z tohoto úložiště dat vytvořte datovou sadu Azure Machine Learning, která bude odkazovat na konkrétní soubor nebo soubory v podkladovém úložišti.

  3. Pokud chcete tuto datovou sadu použít v experimentu strojového učení, můžete buď

    • Připojení datové sady k cílovému výpočetnímu objektu experimentu pro trénování modelu

      NEBO

    • Využití datové sady přímo v řešeních Azure Machine Learning – například spuštění experimentu automatizovaného strojového učení (automatizované strojové učení), kanálů strojového učení nebo návrháře služby Azure Machine Learning.

  4. Vytvoření monitorování datových sad pro výstupní datovou sadu modelu za účelem zjištění posunu dat

  5. Pokud chcete zjistit posun dat, aktualizujte vstupní datovou sadu a model odpovídajícím způsobem natrénujte.

Tento snímek obrazovky ukazuje doporučený pracovní postup:

Snímek obrazovky se službou Azure Storage, která se přetéká do úložiště dat a pak do datové sady

Připojení k úložišti s využitím úložišť dat

Úložiště dat Azure Machine Learning bezpečně hostují informace o připojení k datovému úložišti v Azure, takže je nemusíte do svých skriptů zamístit. Další informace o připojení k účtu úložiště a přístupu k datům v podkladové službě úložiště najdete v tématu Registrace a vytvoření úložiště dat.

Tyto podporované cloudové služby úložiště Azure se můžou registrovat jako úložiště dat:

  • Kontejner objektů blob Azure
  • Sdílená složka Azure
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • Systém souborů Databricks
  • Azure Database for MySQL

Tip

Úložiště dat s ověřováním na základě přihlašovacích údajů můžete vytvořit pro přístup ke službám úložiště, například instanční objekt nebo token sdíleného přístupového podpisu (SAS). Uživatelé s přístupem čtenáře k pracovnímu prostoru mají přístup k těmto přihlašovacím údajům.

Pokud se jedná o problém, navštivte web Vytvoření úložiště dat, které používá přístup k datům založeným na identitě, a získejte další informace o připojeních ke službám úložiště.

Odkazování na data v úložišti pomocí datových sad

Datové sady Azure Machine Learning nejsou kopie vašich dat. Samotné vytvoření datové sady vytvoří odkaz na data ve službě úložiště spolu s kopií jeho metadat.

Vzhledem k tomu, že se datové sady lazily vyhodnocují a data zůstávají v jejich stávajícím umístění,

  • Neúčtují se žádné další náklady na úložiště
  • Neriskujte neúmyslné změny původních zdrojů dat.
  • Zvýšení rychlosti výkonu pracovního postupu ML

Pokud chcete pracovat s daty v úložišti, vytvořte datovou sadu pro zabalení dat do využitého objektu pro úlohy strojového učení. Zaregistrujte datovou sadu do pracovního prostoru, abyste ji mohli sdílet a opakovaně používat napříč různými experimenty bez složitostí příjmu dat.

Datové sady můžete vytvářet z místních souborů, veřejných adres URL, Azure Open Datasets nebo služeb úložiště Azure prostřednictvím úložišť dat.

Existují dva typy datových sad:

  • FileDataset odkazuje na jeden nebo více souborů v úložištích dat nebo veřejných adresÁCH URL. Pokud už jsou data vyčištěná a připravená na trénovací experimenty, můžete stáhnout nebo připojit soubory odkazované fileDatasets do cílového výpočetního objektu.

  • TabularDataset představuje data v tabulkovém formátu parsováním zadaného souboru nebo seznamu souborů. TabularDataset můžete načíst do datového rámce pandas nebo Spark pro další manipulaci a čištění. Úplný seznam formátů dat, ze kterých můžete vytvořit TabularDatasets, najdete v tabulkové třídě TabularDatasetFactory.

Tyto prostředky nabízejí další informace o možnostech datové sady:

Práce s daty

S datovými sadami můžete provádět úlohy strojového učení prostřednictvím bezproblémové integrace s funkcemi služby Azure Machine Learning.

Označení dat pomocí projektů popisků dat

Označování velkých objemů dat v projektech strojového učení se může stát bolestí hlavy. Projekty, které zahrnují komponentu počítačového zpracování obrazu, jako je klasifikace obrázků nebo rozpoznávání objektů, často vyžadují tisíce obrázků a odpovídající popisky.

Azure Machine Learning poskytuje centrální umístění pro vytváření, správu a monitorování projektů popisků. Projekty označování pomáhají koordinovat data, popisky a členy týmu, abyste mohli efektivněji spravovat úkoly popisování. V současné době podporované úlohy zahrnují klasifikaci obrázků, více popisků nebo více tříd a identifikaci objektů pomocí ohraničovaných polí.

Vytvořte projekt popisující obrázek nebo projekt popisování textu a vytvořte výstup datové sady pro použití v experimentech strojového učení.

Monitorování výkonu modelu s využitím posunu dat

V kontextu strojového učení zahrnuje posun dat změnu vstupních dat modelu, která vede ke snížení výkonu modelu. Hlavním důvodem je snížení přesnosti modelu v průběhu času a monitorování odchylek dat pomáhá zjišťovat problémy s výkonem modelu.

Další informace najdete v tématu Vytvoření monitorování datové sady, ve které se dozvíte, jak detekovat a upozorňovat na odchylky dat u nových dat v datové sadě.

Další kroky