Azure Databricks pro vývojáře scaly
Tento článek obsahuje průvodce vývojem poznámkových bloků a úloh v Azure Databricks pomocí jazyka Scala. První část obsahuje odkazy na kurzy pro běžné pracovní postupy a úkoly. Druhá část obsahuje odkazy na rozhraní API, knihovny a klíčové nástroje.
Základní pracovní postup pro zahájení práce:
- Naimportujte kód a spusťte ho pomocí interaktivního poznámkového bloku Databricks: Buď naimportujte vlastní kód ze souborů nebo z úložišť Git, nebo vyzkoušejte kurz uvedený níže.
- Spusťte kód v clusteru: Buď vytvořte vlastní cluster, nebo se ujistěte, že máte oprávnění k používání sdíleného clusteru. Připojte poznámkový blok ke clusteru a spusťte poznámkový blok.
Kromě toho můžete rozvětvovat do konkrétnějších témat:
- Práce s většími datovými sadami pomocí Apache Sparku
- Přidání vizualizací
- Automatizace úloh jako úlohy
- Vývoj v prostředích IDE
Kurzy
Následující kurzy obsahují ukázkový kód a poznámkové bloky, které vám pomůžou seznámit se s běžnými pracovními postupy. Pokyny k importu příkladů poznámkových bloků do pracovního prostoru najdete v tématu Import poznámkového bloku .
- Kurz: Načtení a transformace dat pomocí datových rámců Apache Sparku
- Kurz: Delta Lake poskytuje příklady Scala.
- Rychlý start v Javě a Scalě vám pomůže naučit se základy sledování trénovacích běhů strojového učení pomocí MLflow v jazyce Scala.
- Použití XGBoost v Azure Databricks poskytuje příklad Scala.
Reference
Následující pododdíly uvádějí klíčové funkce a tipy, které vám pomůžou začít vyvíjet v Azure Databricks s využitím Scaly.
Rozhraní API jazyka Scala
Tyto odkazy poskytují úvod k rozhraní Apache Spark Scala API a referenční informace o nich.
- Kurz: Načtení a transformace dat pomocí datových rámců Apache Sparku
- Dotazování řetězců JSON
- Úvod do strukturovaného streamování
- Referenční informace k rozhraní APACHE Spark Core API
- Referenční informace k rozhraní API Apache Spark ML
Správa kódu pomocí poznámkových bloků a složek Git Databricks
Poznámkové bloky Databricks podporují Scala. Tyto poznámkové bloky poskytují funkce podobné jupyteru, ale s dalšími funkcemi, jako jsou integrované vizualizace využívající velké objemy dat, integrace Apache Sparku pro ladění a monitorování výkonu a integrace MLflow pro sledování experimentů strojového učení. Začněte importem poznámkového bloku. Jakmile budete mít přístup ke clusteru, můžete připojit poznámkový blok ke clusteru a spustit poznámkový blok.
Tip
Pokud chcete úplně obnovit stav poznámkového bloku, může být užitečné restartovat jádro. U uživatelů Jupyteru odpovídá možnost restartování jádra v Jupyteru odpojení a opětovnému připojení poznámkového bloku v Databricks. Pokud chcete restartovat jádro v poznámkovém bloku, klikněte na výběr výpočetních prostředků na panelu nástrojů poznámkového bloku a najeďte myší na připojený cluster nebo SQL Warehouse v seznamu a zobrazte boční nabídku. Vyberte Odpojit a znovu připojit. Tím se poznámkový blok odpojí od clusteru a znovu ho připojí, což proces restartuje.
Složky Gitu Databricks umožňují uživatelům synchronizovat poznámkové bloky a další soubory s úložišti Git. Složky Gitu databricks pomáhají se správou verzí kódu a spolupráci a můžou zjednodušit import celého úložiště kódu do Azure Databricks, prohlížení předchozích verzí poznámkových bloků a integraci s vývojem integrovaného vývojového prostředí (IDE). Začněte klonováním vzdáleného úložiště Git. Potom můžete otevřít nebo vytvořit poznámkové bloky pomocí klonování úložiště, připojit poznámkový blok ke clusteru a spustit poznámkový blok.
Clustery a knihovny
Výpočetní prostředky Azure Databricks poskytují správu výpočetních prostředků pro clustery libovolné velikosti: od clusterů s jedním uzlem až po velké clustery. Hardware a knihovny clusteru můžete přizpůsobit podle svých potřeb. Datoví vědci obvykle začínají pracovat buď vytvořením clusteru , nebo použitím existujícího sdíleného clusteru. Jakmile budete mít přístup ke clusteru, můžete k clusteru připojit poznámkový blok nebo spustit úlohu v clusteru.
- U malých úloh, které vyžadují jenom jednotlivé uzly, můžou datoví vědci využít výpočetní prostředky s jedním uzlem a ušetřit tak náklady.
- Podrobné tipy najdete v tématu Doporučení ke konfiguraci výpočetních prostředků.
- Správci můžou nastavit zásady clusteru, které zjednoduší a provedou vytváření clusteru.
Clustery Azure Databricks používají Modul runtime Databricks, který poskytuje řadu oblíbených knihoven, včetně Apache Sparku, Delta Lake a dalších. Můžete také nainstalovat další knihovny třetích stran nebo vlastní knihovny pro použití s poznámkovými bloky a úlohami.
- Začněte s výchozími knihovnami ve verzích a kompatibilitě poznámky k verzi Databricks Runtime. Úplný seznam předinstalovaných knihoven najdete v poznámkách k verzi databricks Runtime a jejich kompatibilitu.
- Knihovny Scala můžete také nainstalovat do clusteru.
- Další podrobnosti najdete v tématu Knihovny.
Vizualizace
Poznámkové bloky Scala v Azure Databricks mají integrovanou podporu pro mnoho typů vizualizací. Můžete také použít starší vizualizace:
Vzájemná funkční spolupráce
Tato část popisuje funkce, které podporují interoperabilitu mezi Jazykem Scala a SQL.
Úlohy
Úlohy Scala můžete automatizovat podle naplánovaných nebo aktivovaných úloh v Azure Databricks. Úlohy můžou spouštět poznámkové bloky a žádosti o přijetí změn.
- Podrobnosti o vytvoření úlohy prostřednictvím uživatelského rozhraní najdete v tématu Konfigurace a úprava úloh Databricks.
- Sady SDK Databricks umožňují vytvářet, upravovat a odstraňovat úlohy prostřednictvím kódu programu.
- Rozhraní příkazového řádku Databricks poskytuje pohodlné rozhraní příkazového řádku pro automatizaci úloh.
IdEs, vývojářské nástroje a sady SDK
Kromě vývoje kódu Scala v poznámkových blocích Azure Databricks můžete vyvíjet externě pomocí integrovaných vývojových prostředí (IDE), jako je IntelliJ IDEA. Pokud chcete synchronizovat práci mezi externími vývojovými prostředími a Azure Databricks, existuje několik možností:
- Kód: Kód můžete synchronizovat pomocí Gitu. Viz integrace Gitu pro složky Databricks Git.
- Knihovny a úlohy: Knihovny můžete vytvářet externě a nahrávat je do Azure Databricks. Tyto knihovny je možné importovat v poznámkových blocích Azure Databricks nebo je můžete použít k vytváření úloh. Viz Knihovny a plánování a orchestrace pracovních postupů.
- Vzdálené spuštění počítače: Kód můžete spustit z místního integrovaného vývojového prostředí (IDE) pro interaktivní vývoj a testování. Integrované vývojové prostředí (IDE) může komunikovat s Azure Databricks a spouštět rozsáhlé výpočty v clusterech Azure Databricks. Můžete například použít IntelliJ IDEA s Databricks Connect.
Databricks poskytuje sadu sad SDK, které podporují automatizaci a integraci s externími nástroji. Sady SDK Databricks můžete použít ke správě prostředků, jako jsou clustery a knihovny, kód a další objekty pracovního prostoru, úlohy a úlohy a další. Podívejte se na sady SDK Databricks.
Další informace o prostředích IDE, vývojářských nástrojích a sadách SDK najdete v tématu Vývojářské nástroje.
Další materiály
- The Databricks Academy nabízí kurzy řízené instruktorem a vlastním tempem na mnoha tématech.