Instalace knihoven z úložiště balíčků
Azure Databricks poskytuje nástroje pro instalaci knihoven z úložišť balíčků PyPI, Maven a CRAN. Úplné podrobnosti o kompatibilitě knihoven najdete v knihovnách s oborem clusteru.
Důležité
Knihovny je možné nainstalovat z DBFS při použití Databricks Runtime 14.3 LTS a níže. Každý uživatel pracovního prostoru ale může upravovat soubory knihovny uložené v DBFS. Aby se zlepšilo zabezpečení knihoven v pracovním prostoru Azure Databricks, ukládání souborů knihovny v kořenovém adresáři DBFS je ve výchozím nastavení v Databricks Runtime 15.1 a novějších zakázaných. Viz Ukládání knihoven v kořenovém adresáři DBFS je ve výchozím nastavení zastaralé a zakázané.
Místo toho Databricks doporučuje nahrávat všechny knihovny, včetně knihoven Pythonu, souborů JAR a konektorů Spark, do souborů pracovních prostorů nebo Unity Catalogvolumes, nebo používat úložiště balíčků knihoven. Pokud vaše úloha tyto vzory nepodporuje, můžete také použít knihovny uložené v cloudovém úložišti objektů.
Balíček PyPI
V knihovním zdroji tlačítkolist, selectPyPI.
Zadejte název balíčku PyPI. Chcete-li nainstalovat konkrétní verzi knihovny, použijte tento formát knihovny:
<library>==<version>
. Napříkladscikit-learn==0.19.1
.Poznámka:
Pro úlohy doporučuje Databricks zadat verzi knihovny, aby se zajistilo reprodukovatelné prostředí. Pokud není verze knihovny plně zadaná, databricks používá nejnovější odpovídající verzi. To znamená, že různá spuštění stejné úlohy můžou používat různé verze knihovny, protože se publikují nové verze. Zadáním verze knihovny zabráníte novým zásadním změnám v knihovnách, aby vaše úlohy přerušily.
(Volitelné) Do pole Adresa URL indexu zadejte adresu URL indexu PyPI.
Klikněte na Install (Nainstalovat).
Balíček Maven nebo Spark
Důležité
Pokud chcete nainstalovat knihovny Mavenu na výpočetní prostředky nakonfigurované pomocí režimu sdíleného přístupu, musíte do seznamu povolených přidat souřadnice. Viz Knihovny allowlist a inicializační skripty pro sdílené výpočetní prostředky.
Důležité
Pro DBR 14.3 LTS a novější používá Databricks k překladu balíčků Maven Apache Ivy 2.4.0. Pro DBR 15.0 a novější používá Databricks Ivy 2.5.1 nebo vyšší a konkrétní verze Ivy je uvedená ve verzích a kompatibilitě databricks Runtime.
Pořadí instalace balíčků Maven může mít vliv na konečný strom závislostí, který může ovlivnit pořadí načtení knihoven.
V tlačítku Knihovna Zdrojlist, selectMaven.
Zadejte souřadnici Mavenu. Proveďte některou z následujících akcí:
- Do pole Souřadnice zadejte souřadnici Maven knihovny, která se má nainstalovat. Souřadnice Mavenu jsou ve tvaru
groupId:artifactId:version
, napříkladcom.databricks:spark-avro_2.10:1.0.0
. - Pokud neznáte přesnou souřadnici, zadejte název knihovny a klikněte na Hledat balíčky. Zobrazí se list odpovídajících balíčků. Pokud chcete zobrazit podrobnosti o balíčku, klikněte na jeho název. Balíčky můžete řadit podle názvu, organizace a hodnocení. Výsledky můžete filtrovat také tak, že na panelu hledání napíšete dotaz. Výsledky refresh se zobrazují automaticky.
Maven nebo balíčky Sparku v rozevíracímvlevo nahoře. - Volitelně select verzi balíčku v rámci sekce "Releases" column.
- Klikněte na + Select vedle balíčku. Pole Souřadnice se vyplní vybraným balíčkem a verzí.
- Do pole Souřadnice zadejte souřadnici Maven knihovny, která se má nainstalovat. Souřadnice Mavenu jsou ve tvaru
(Volitelné) Do pole Úložiště můžete zadat adresu URL úložiště Maven.
Poznámka:
Interní úložiště Maven se nepodporují.
V poli Vyloučení volitelně zadejte
groupId
artifactId
závislosti, které chcete vyloučit (napříkladlog4j:log4j
).Poznámka:
Maven funguje s použitím nejbližší kořenové verze a v případě dvou balíčků, které se používají pro verze s různými závislostmi, záleží na pořadí, takže může selhat, když se nejprve načte balíček se starší závislostí.
Pokud chcete tento problém obejít, vylučte konfliktní knihovnu. Například při instalaci balíčku se souřadnicemi
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22
, set upravte pole vyloučení nacom.nimbusds:oauth2-oidc-sdk:RELEASE
, aby se načetla nejnovější verzeeventhubs
z MSAL4J a byla uspokojena závislosteventhubs
.Klikněte na Install (Nainstalovat).
Balíček CRAN
- V knihovně , zdroj, tlačítko list, selectCRAN.
- Do pole Balíček zadejte název balíčku.
- (Volitelné) Do pole Úložiště můžete zadat adresu URL úložiště CRAN.
- Klikněte na Install (Nainstalovat).
Poznámka:
Zrcadla CRAN slouží k nejnovější verzi knihovny. V důsledku toho můžete skončit s různými verzemi balíčku R, pokud knihovnu připojíte k různým clusterům v různých časech. Informace o správě a opravě verzí balíčků R v Databricks najdete ve znalostní bázi Knowledge Base.