Automatizace transformací dat

7 min

Příprava dat pro strojové učení je nezbytný krok, když chcete vytvářet efektivní modely. Azure Databricks dokáže efektivně zpracovávat a připravovat velké datové sady z důvodu výpočetního výkonu Sparku.

Pojďme se podívat, jak se jednotlivé kroky pracovního postupu strojového učení související s daty dají provádět v Azure Databricks.

Ukládání shromážděných dat v Úložišti Azure

Při shromažďování dat z různých zdrojů je nejlepší ukládat data do řešení úložiště, jako je Azure Blob Storage nebo Azure Data Lake.

Ukládání dat v řešení úložiště Azure místo přímo v Azure Databricks nabízí lepší škálovatelnost, lepší zabezpečení a integraci s dalšími službami Azure.

Řešení úložiště Azure poskytují robustní a flexibilní prostředí pro správu velkých datových sad a zajišťují, aby vaše data byla snadno dostupná ke zpracování a analýze.

Ke správě přístupu ke všem datům uloženým v cloudovém úložišti použijte Katalog Unity. Katalog Unity poskytuje jednotné řešení zásad správného řízení pro všechny datové prostředky, které umožňuje spravovat oprávnění a řízení přístupu napříč datovými aktivy.

Tip

Další informace o připojení ke cloudovému úložišti objektů pomocí katalogu Unity

Prozkoumání a příprava dat

Po připojení k datům chcete prozkoumat data prostřednictvím průzkumné analýzy dat (EDA). Na základě zjištění připravíte data, abyste mohli zpracovávat chybějící data, provádět přípravu funkcí a provádět všechny další transformace dat, které podle vás budou přínosem výkonu modelu.

K počáteční analýze použijte poznámkové bloky Databricks k prozkoumání a pochopení dat. Spark SQL nebo PySpark můžete použít k práci s velkými datovými sadami, sumarizaci dat, kontrolu hodnot null a pochopení distribucí dat.

Automatizace přípravy funkcí v Azure Databricks

Automatizované nástroje a knihovny pro přípravu funkcí, jako jsou Featuretools a AutoFeat, získávají oblíbenost, protože zjednodušují proces generování a výběru funkcí. Tyto nástroje používají algoritmy k automatickému vytváření funkcí z nezpracovaných dat, vyhodnocení jejich důležitosti a výběru nejrelevavantnějších pro modelování. Tento přístup šetří čas a snižuje závislost na ručním inženýrství funkcí.

Automatizace transformací dat v Azure Databricks

Po prozkoumání se můžete rozhodnout automatizovat transformace dat nastavením kanálů. Jedním ze způsobů, jak dosáhnout automatizace, je nastavení úloh v Azure Databricks pro automatizaci poznámkových bloků a skriptů. Úlohy Azure Databricks umožňují plánovat a spouštět poznámkové bloky nebo soubory JAR jako úlohy, což vám umožní automatizovat pracovní postupy zpracování dat.

Pokud chcete nastavit úlohu v Azure Databricks, postupujte takto:

Vytvořte úlohu: V pracovním prostoru Databricks přejděte na kartu Úlohy a vyberte možnost Create job. Zadejte název úlohy a zadejte poznámkový blok nebo soubor JAR, který chcete spustit.
Nakonfigurujte úlohu: Nastavte parametry pro úlohu, například konfiguraci clusteru, plán spuštění úlohy a všechny závislosti. Můžete také zadat e-mailová oznámení o aktualizacích stavu úlohy.
Spusťte a monitorujte úlohu: Jakmile je úloha nakonfigurovaná, můžete ji spustit ručně nebo ji nechat běžet podle nastaveného plánu. Můžete monitorovat průběh úlohy a zobrazit protokoly, abyste mohli řešit případné problémy.

Tip

Přečtěte si další informace o vytváření a spouštění úloh Azure Databricks.

Alternativně můžete pomocí služeb Azure vytvářet automatizované datové kanály.

Automatizace integrace dat se službou Azure Data Factory

Azure Data Factory je nástroj pro vytváření a správu datových kanálů. Umožňuje vytvářet pracovní postupy řízené daty pro orchestraci přesunu a transformace dat.

Pokud chcete vytvořit datový kanál ve službě Azure Data Factory, postupujte takto:

Vytvořte službu Data Factory: Na webu Azure Portal vytvořte novou instanci služby Data Factory.
Vytvoření kanálu: V uživatelském rozhraní služby Data Factory vytvořte nový kanál a přidejte do něj aktivity. Aktivity můžou zahrnovat přesun dat, transformaci dat a operace toku řízení.
Konfigurace aktivit: Nastavte parametry pro každou aktivitu, jako jsou zdrojová a cílová úložiště dat, logika transformace a všechny závislosti.
Plán a monitorování: Naplánujte spuštění kanálu v zadaných intervalech a monitorujte jeho spuštění. Můžete zobrazit protokoly a nastavit upozornění na případné problémy.

Tip

Přečtěte si další informace o službě Azure Data Factory.

Automatizací transformací dat a pracovních postupů pomocí úloh Azure Databricks nebo Azure Data Factory zajistíte konzistentní zpracování dat, což zajistí efektivnější a spolehlivější modely strojového učení.