Automatizace transformací dat
Příprava dat pro strojové učení je nezbytný krok, když chcete vytvářet efektivní modely. Azure Databricks dokáže efektivně zpracovávat a připravovat velké datové sady z důvodu výpočetního výkonu Sparku.
Pojďme se podívat, jak se jednotlivé kroky pracovního postupu strojového učení související s daty dají provádět v Azure Databricks.
Ukládání shromážděných dat v Úložišti Azure
Při shromažďování dat z různých zdrojů je nejlepší ukládat data do řešení úložiště, jako je Azure Blob Storage nebo Azure Data Lake.
Ukládání dat v řešení úložiště Azure místo přímo v Azure Databricks nabízí lepší škálovatelnost, lepší zabezpečení a integraci s dalšími službami Azure.
Řešení úložiště Azure poskytují robustní a flexibilní prostředí pro správu velkých datových sad a zajišťují, aby vaše data byla snadno dostupná ke zpracování a analýze.
Ke správě přístupu ke všem datům uloženým v cloudovém úložišti použijte Katalog Unity. Katalog Unity poskytuje jednotné řešení zásad správného řízení pro všechny datové prostředky, které umožňuje spravovat oprávnění a řízení přístupu napříč datovými aktivy.
Tip
Další informace o připojení ke cloudovému úložišti objektů pomocí katalogu Unity
Prozkoumání a příprava dat
Po připojení k datům chcete prozkoumat data prostřednictvím průzkumné analýzy dat (EDA). Na základě zjištění připravíte data, abyste mohli zpracovávat chybějící data, provádět přípravu funkcí a provádět všechny další transformace dat, které podle vás budou přínosem výkonu modelu.
K počáteční analýze použijte poznámkové bloky Databricks k prozkoumání a pochopení dat. Spark SQL nebo PySpark můžete použít k práci s velkými datovými sadami, sumarizaci dat, kontrolu hodnot null a pochopení distribucí dat.
Automatizace přípravy funkcí v Azure Databricks
Automatizované nástroje a knihovny pro přípravu funkcí, jako jsou Featuretools a AutoFeat, získávají oblíbenost, protože zjednodušují proces generování a výběru funkcí. Tyto nástroje používají algoritmy k automatickému vytváření funkcí z nezpracovaných dat, vyhodnocení jejich důležitosti a výběru nejrelevavantnějších pro modelování. Tento přístup šetří čas a snižuje závislost na ručním inženýrství funkcí.
Automatizace transformací dat v Azure Databricks
Po prozkoumání se můžete rozhodnout automatizovat transformace dat nastavením kanálů. Jedním ze způsobů, jak dosáhnout automatizace, je nastavení úloh v Azure Databricks pro automatizaci poznámkových bloků a skriptů. Úlohy Azure Databricks umožňují plánovat a spouštět poznámkové bloky nebo soubory JAR jako úlohy, což vám umožní automatizovat pracovní postupy zpracování dat.
Pokud chcete nastavit úlohu v Azure Databricks, postupujte takto:
- Vytvořte úlohu: V pracovním prostoru Databricks přejděte na kartu Úlohy a vyberte možnost
Create job
. Zadejte název úlohy a zadejte poznámkový blok nebo soubor JAR, který chcete spustit. - Nakonfigurujte úlohu: Nastavte parametry pro úlohu, například konfiguraci clusteru, plán spuštění úlohy a všechny závislosti. Můžete také zadat e-mailová oznámení o aktualizacích stavu úlohy.
- Spusťte a monitorujte úlohu: Jakmile je úloha nakonfigurovaná, můžete ji spustit ručně nebo ji nechat běžet podle nastaveného plánu. Můžete monitorovat průběh úlohy a zobrazit protokoly, abyste mohli řešit případné problémy.
Tip
Přečtěte si další informace o vytváření a spouštění úloh Azure Databricks.
Alternativně můžete pomocí služeb Azure vytvářet automatizované datové kanály.
Automatizace integrace dat se službou Azure Data Factory
Azure Data Factory je nástroj pro vytváření a správu datových kanálů. Umožňuje vytvářet pracovní postupy řízené daty pro orchestraci přesunu a transformace dat.
Pokud chcete vytvořit datový kanál ve službě Azure Data Factory, postupujte takto:
- Vytvořte službu Data Factory: Na webu Azure Portal vytvořte novou instanci služby Data Factory.
- Vytvoření kanálu: V uživatelském rozhraní služby Data Factory vytvořte nový kanál a přidejte do něj aktivity. Aktivity můžou zahrnovat přesun dat, transformaci dat a operace toku řízení.
- Konfigurace aktivit: Nastavte parametry pro každou aktivitu, jako jsou zdrojová a cílová úložiště dat, logika transformace a všechny závislosti.
- Plán a monitorování: Naplánujte spuštění kanálu v zadaných intervalech a monitorujte jeho spuštění. Můžete zobrazit protokoly a nastavit upozornění na případné problémy.
Tip
Přečtěte si další informace o službě Azure Data Factory.
Automatizací transformací dat a pracovních postupů pomocí úloh Azure Databricks nebo Azure Data Factory zajistíte konzistentní zpracování dat, což zajistí efektivnější a spolehlivější modely strojového učení.