Sdílet prostřednictvím


Azure Databricks pro vývojáře scaly

Tento článek obsahuje průvodce vývojem poznámkových bloků a úloh v Azure Databricks pomocí jazyka Scala. První část obsahuje odkazy na kurzy pro běžné pracovní postupy a úkoly. Druhá část obsahuje odkazy na rozhraní API, knihovny a klíčové nástroje.

Základní pracovní postup pro zahájení práce:

Kromě toho můžete rozvětvovat do konkrétnějších témat:

Kurzy

Následující kurzy obsahují ukázkový kód a poznámkové bloky, které vám pomůžou seznámit se s běžnými pracovními postupy. Pokyny k importu příkladů poznámkových bloků do pracovního prostoru najdete v tématu Import poznámkového bloku .

Reference

Následující pododdíly uvádějí klíčové funkce a tipy, které vám pomůžou začít vyvíjet v Azure Databricks s využitím Scaly.

Rozhraní API jazyka Scala

Tyto odkazy poskytují úvod k rozhraní Apache Spark Scala API a referenční informace o nich.

Správa kódu pomocí poznámkových bloků a složek Git Databricks

Poznámkové bloky Databricks podporují Scala. Tyto poznámkové bloky poskytují funkce podobné jupyteru, ale s dalšími funkcemi, jako jsou integrované vizualizace využívající velké objemy dat, integrace Apache Sparku pro ladění a monitorování výkonu a integrace MLflow pro sledování experimentů strojového učení. Začněte importem poznámkového bloku. Jakmile budete mít přístup ke clusteru, můžete připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Tip

Pokud chcete úplně obnovit stav poznámkového bloku, může být užitečné restartovat jádro. U uživatelů Jupyteru odpovídá možnost restartování jádra v Jupyteru odpojení a opětovnému připojení poznámkového bloku v Databricks. Pokud chcete restartovat jádro v poznámkovém bloku, klikněte na výběr výpočetních prostředků na panelu nástrojů poznámkového bloku a najeďte myší na připojený cluster nebo SQL Warehouse v seznamu a zobrazte boční nabídku. Vyberte Odpojit a znovu připojit. Tím se poznámkový blok odpojí od clusteru a znovu ho připojí, což proces restartuje.

Složky Gitu Databricks umožňují uživatelům synchronizovat poznámkové bloky a další soubory s úložišti Git. Složky Gitu databricks pomáhají se správou verzí kódu a spolupráci a můžou zjednodušit import celého úložiště kódu do Azure Databricks, prohlížení předchozích verzí poznámkových bloků a integraci s vývojem integrovaného vývojového prostředí (IDE). Začněte klonováním vzdáleného úložiště Git. Potom můžete otevřít nebo vytvořit poznámkové bloky pomocí klonování úložiště, připojit poznámkový blok ke clusteru a spustit poznámkový blok.

Clustery a knihovny

Výpočetní prostředky Azure Databricks poskytují správu výpočetních prostředků pro clustery libovolné velikosti: od clusterů s jedním uzlem až po velké clustery. Hardware a knihovny clusteru můžete přizpůsobit podle svých potřeb. Datoví vědci obvykle začínají pracovat buď vytvořením clusteru , nebo použitím existujícího sdíleného clusteru. Jakmile budete mít přístup ke clusteru, můžete k clusteru připojit poznámkový blok nebo spustit úlohu v clusteru.

Clustery Azure Databricks používají Modul runtime Databricks, který poskytuje řadu oblíbených knihoven, včetně Apache Sparku, Delta Lake a dalších. Můžete také nainstalovat další knihovny třetích stran nebo vlastní knihovny pro použití s poznámkovými bloky a úlohami.

Vizualizace

Poznámkové bloky Scala v Azure Databricks mají integrovanou podporu pro mnoho typů vizualizací. Můžete také použít starší vizualizace:

Vzájemná funkční spolupráce

Tato část popisuje funkce, které podporují interoperabilitu mezi Jazykem Scala a SQL.

Úlohy

Úlohy Scala můžete automatizovat podle naplánovaných nebo aktivovaných úloh v Azure Databricks. Úlohy můžou spouštět poznámkové bloky a žádosti o přijetí změn.

  • Podrobnosti o vytvoření úlohy prostřednictvím uživatelského rozhraní najdete v tématu Konfigurace a úprava úloh Databricks.
  • Sady SDK Databricks umožňují vytvářet, upravovat a odstraňovat úlohy prostřednictvím kódu programu.
  • Rozhraní příkazového řádku Databricks poskytuje pohodlné rozhraní příkazového řádku pro automatizaci úloh.

IdEs, vývojářské nástroje a sady SDK

Kromě vývoje kódu Scala v poznámkových blocích Azure Databricks můžete vyvíjet externě pomocí integrovaných vývojových prostředí (IDE), jako je IntelliJ IDEA. Pokud chcete synchronizovat práci mezi externími vývojovými prostředími a Azure Databricks, existuje několik možností:

  • Kód: Kód můžete synchronizovat pomocí Gitu. Viz integrace Gitu pro složky Databricks Git.
  • Knihovny a úlohy: Knihovny můžete vytvářet externě a nahrávat je do Azure Databricks. Tyto knihovny je možné importovat v poznámkových blocích Azure Databricks nebo je můžete použít k vytváření úloh. Viz Knihovny a plánování a orchestrace pracovních postupů.
  • Vzdálené spuštění počítače: Kód můžete spustit z místního integrovaného vývojového prostředí (IDE) pro interaktivní vývoj a testování. Integrované vývojové prostředí (IDE) může komunikovat s Azure Databricks a spouštět rozsáhlé výpočty v clusterech Azure Databricks. Můžete například použít IntelliJ IDEA s Databricks Connect.

Databricks poskytuje sadu sad SDK, které podporují automatizaci a integraci s externími nástroji. Sady SDK Databricks můžete použít ke správě prostředků, jako jsou clustery a knihovny, kód a další objekty pracovního prostoru, úlohy a úlohy a další. Podívejte se na sady SDK Databricks.

Další informace o prostředích IDE, vývojářských nástrojích a sadách SDK najdete v tématu Vývojářské nástroje.

Další materiály

  • The Databricks Academy nabízí kurzy řízené instruktorem a vlastním tempem na mnoha tématech.