Sdílet prostřednictvím


Správa závislostí Pythonu pro kanály DLT

DLT podporuje externí závislosti ve vašich datových tocích. Databricks doporučuje k instalaci balíčků Pythonu použít jeden ze dvou vzorů:

  1. Pomocí příkazu %pip install nainstalujte balíčky pro všechny zdrojové soubory v kanálu.
  2. Importujte moduly nebo knihovny ze zdrojového kódu uloženého v souborech pracovního prostoru. Viz Import modulů Pythonu ze složek Gitu nebo souborů pracovního prostoru.

DLT také podporuje použití globálních inicializačních skriptů s oborem clusteru. Tyto externí závislosti, zejména inicializační skripty, ale zvyšují riziko problémů s upgrady modulu runtime. Pokud chcete tato rizika zmírnit, minimalizujte používání inicializačních skriptů ve vašich kanálech. Pokud vaše zpracování vyžaduje inicializační skripty, automatizujte testování kanálu, abyste včas zjistili problémy. Pokud používáte inicializační skripty, databricks doporučuje zvýšit frekvenci testování.

Důležitý

Protože knihovny JVM nejsou podporovány v kanálech DLT, nepoužívejte inicializační skript k instalaci knihoven JVM. Pomocí inicializačního skriptu ale můžete nainstalovat další typy knihoven, jako jsou knihovny Pythonu.

Pythonové knihovny

Pokud chcete zadat externí knihovny Pythonu, použijte příkaz %pip install magic. Při spuštění aktualizace spustí DLT všechny buňky obsahující příkaz %pip install před spuštěním definic tabulek. Každý poznámkový blok Pythonu, který je součástí kanálu, sdílí prostředí knihovny a má přístup ke všem nainstalovaným knihovnám.

Důležitý

  • %pip install příkazy musí být v samostatné buňce nahoře v poznámkovém bloku DLT pipeline. Do buněk obsahujících příkazy %pip install nezahrnujte žádný jiný kód.
  • Protože každý poznámkový blok v kanálu sdílí prostředí knihovny, nemůžete v jednom kanálu definovat různé verze knihoven. Pokud zpracování vyžaduje různé verze knihovny, musíte je definovat v různých kanálech.

Následující příklad nainstaluje knihovnu numpy a zpřístupňuje ji globálně pro jakýkoli poznámkový blok Pythonu v pipeline.

%pip install simplejson

Pokud chcete nainstalovat balíček kolečka Pythonu, přidejte do příkazu %pip install cestu kolečka Pythonu. Nainstalované balíčky kol Pythonu jsou dostupné pro všechny tabulky v pipeline. Následující příklad nainstaluje soubor kola Pythonu s názvem dltfns-1.0-py3-none-any.whl ze svazku katalogu Unity:

%pip install /Volumes/my_catalog/my_schema/my_dlt_volume/dltfns-1.0-py3-none-any.whl

Podívejte se na Instalaci balíčku kola Pythonu s %pip.

Můžu v kanálu DLT používat knihovny Scala nebo Java?

Ne, DLT podporuje pouze SQL a Python. V pipeline nelze použít knihovny JVM. Instalace knihoven JVM způsobí nepředvídatelné chování a může dojít k přerušení s budoucími verzemi DLT. Pokud váš kanál používá inicializační skript, musíte také zajistit, aby skript nenainstaloval knihovny JVM.