Biblioteksverktyget (dbutils.library) (äldre)
Kommentar
dbutils.library.install
och dbutils.library.installPyPI
API:er tas bort i Databricks Runtime 11.0 och senare. De flesta biblioteksverktygskommandon är inaktuella. De flesta biblioteksverktyg är inte tillgängliga på Databricks Runtime ML. Information om dbutils.library.restartPython
finns i Starta om Python-processen i Azure Databricks.
Den här dokumentationen har dragits tillbaka och kanske inte uppdateras. De produkter, tjänster eller tekniker som nämns i det här innehållet stöds inte längre.
Databricks rekommenderar starkt att du använder %pip
magiska kommandon för att installera bibliotek med notebook-omfång. Se Python-bibliotek med notebook-omfång.
Fullständig dokumentation för Databricks-verktygsfunktioner finns i Referens för Databricks Utilities (dbutils).
Kommandon: install, installPyPI, list, restartPython), updateCondaEnv
Med biblioteksverktyget kan du installera Python-bibliotek och skapa en miljö som är begränsad till en notebook-session. Biblioteken är tillgängliga både på drivrutinen och på körarna, så du kan referera till dem i användardefinierade funktioner. Detta aktiverar:
- Biblioteksberoenden för en notebook-fil som ska ordnas i själva anteckningsboken.
- Notebook-användare med olika biblioteksberoenden för att dela ett kluster utan interferens.
Om du kopplar från en notebook-fil förstörs den här miljön. Du kan dock återskapa den genom att köra biblioteks-API-kommandona install
i notebook-filen igen. Se API:et restartPython
för att återställa tillståndet i din notebook utan att förlora din miljö.
Biblioteksverktyg är aktiverade som standard. Därför isoleras Python-miljön för varje notebook-fil som standard med hjälp av en separat körbar Python-fil som skapas när notebook-filen är kopplad till och ärver python-standardmiljön i klustret. Bibliotek som installeras via ett init-skript i Azure Databricks Python-miljön är fortfarande tillgängliga. Du kan inaktivera den här funktionen genom att ange spark.databricks.libraryIsolation.enabled
till false
.
Det här API:et är kompatibelt med den befintliga klusteromfattande biblioteksinstallationen via API:et för användargränssnitt och bibliotek. Bibliotek som installeras via det här API:et har högre prioritet än klusteromfattande bibliotek.
Om du vill visa en lista över tillgängliga kommandon kör du dbutils.library.help()
.
install(path: String): boolean -> Install the library within the current notebook session
installPyPI(pypiPackage: String, version: String = "", repo: String = "", extras: String = ""): boolean -> Install the PyPI library within the current notebook session
list: List -> List the isolated libraries added for the current notebook session via dbutils
restartPython: void -> Restart python process for the current notebook session
updateCondaEnv(envYmlContent: String): boolean -> Update the current notebook's Conda environment based on the specification (content of environment
install command (dbutils.library.install)
Med en sökväg till ett bibliotek installerar det biblioteket i den aktuella notebook-sessionen. Bibliotek som installeras genom att anropa det här kommandot är endast tillgängliga för den aktuella notebook-filen.
Om du vill visa hjälp för det här kommandot kör du dbutils.library.help("install")
.
I det här exemplet installeras ett .egg
eller .whl
ett bibliotek i en notebook-fil.
Viktigt!
dbutils.library.install
tas bort i Databricks Runtime 11.0 och senare.
Databricks rekommenderar att du placerar alla biblioteksinstallationskommandon i den första cellen i anteckningsboken och anropar restartPython
i slutet av cellen. Python Notebook-tillståndet återställs när restartPython
har körts. notebook-filen förlorar alla tillstånd, inklusive men inte begränsat till lokala variabler, importerade bibliotek och andra tillfälliga tillstånd. Därför rekommenderar vi att du installerar bibliotek och återställer notebook-tillståndet i första notebook-cell.
De godkända bibliotekskällorna är dbfs
, abfss
, adl
och wasbs
.
dbutils.library.install("abfss:/path/to/your/library.egg")
dbutils.library.restartPython() # Removes Python state, but some libraries might not work without calling this command.
dbutils.library.install("abfss:/path/to/your/library.whl")
dbutils.library.restartPython() # Removes Python state, but some libraries might not work without calling this command.
Kommentar
Du kan installera anpassade hjulfiler direkt med hjälp av %pip
. I följande exempel antar vi att du har laddat upp bibliotekshjulsfilen till DBFS:
%pip install /dbfs/path/to/your/library.whl
Äggfiler stöds inte av pip, och hjulfiler anses vara standard för bygg- och binär paketering för Python. Men om du vill använda en äggfil på ett sätt som är kompatibelt med %pip
kan du använda följande lösning:
# This step is only needed if no %pip commands have been run yet.
# It will trigger setting up the isolated notebook environment
%pip install <any-lib> # This doesn't need to be a real library; for example "%pip install any-lib" would work
import sys
# Assuming the preceding step was completed, the following command
# adds the egg file to the current notebook environment
sys.path.append("/local/path/to/library.egg")
installPyPI-kommando (dbutils.library.installPyPI)
Med ett PyPI-paket (Python Package Index) installerar du paketet i den aktuella notebook-sessionen. Bibliotek som installeras genom att anropa det här kommandot är isolerade bland notebook-filer.
Om du vill visa hjälp för det här kommandot kör du dbutils.library.help("installPyPI")
.
I det här exemplet installeras ett PyPI-paket i en notebook-fil.
version
, repo
och extras
är valfria.
extras
Använd argumentet för att ange extrafunktioner (extra krav).
dbutils.library.installPyPI("pypipackage", version="version", repo="repo", extras="extras")
dbutils.library.restartPython() # Removes Python state, but some libraries might not work without calling this command.
Viktigt!
dbutils.library.installPyPI
tas bort i Databricks Runtime 11.0 och senare.
Nycklarna version
och extras
kan inte ingå i PyPI-paketsträngen. Till exempel: dbutils.library.installPyPI("azureml-sdk[databricks]==1.19.0")
är inte giltigt. Använd argumenten version
och extras
för att ange information om version och tillägg enligt följande:
dbutils.library.installPyPI("azureml-sdk", version="1.19.0", extras="databricks")
dbutils.library.restartPython() # Removes Python state, but some libraries might not work without calling this command.
Kommentar
När du ersätter dbutils.library.installPyPI
kommandon med %pip
kommandon startas Python-tolken om automatiskt. Du kan köra installationskommandot på följande sätt:
%pip install azureml-sdk[databricks]==1.19.0
Det här exemplet anger bibliotekskrav i en notebook-fil och installerar dem med hjälp %run
av i den andra. Det gör du genom att först definiera de bibliotek som ska installeras i en notebook-fil. I det här exemplet används en notebook-fil med namnet InstallDependencies
.
dbutils.library.installPyPI("torch")
dbutils.library.installPyPI("scikit-learn", version="1.19.1")
dbutils.library.installPyPI("azureml-sdk", extras="databricks")
dbutils.library.restartPython() # Removes Python state, but some libraries might not work without calling this command.
Installera dem sedan i notebook-filen som behöver dessa beroenden.
%run /path/to/InstallDependencies # Install the dependencies in the first cell.
import torch
from sklearn.linear_model import LinearRegression
import azureml
...
Det här exemplet återställer Python Notebook-tillståndet samtidigt som miljön bibehålls. Den här tekniken är endast tillgänglig i Python-notebook-filer. Du kan till exempel använda den här tekniken för att läsa in bibliotek som Azure Databricks förinstallerat med en annan version:
dbutils.library.installPyPI("numpy", version="1.15.4")
dbutils.library.restartPython()
# Make sure you start using the library in another cell.
import numpy
Du kan också använda den här tekniken för att installera bibliotek som tensorflow som måste läsas in vid processstart:
dbutils.library.installPyPI("tensorflow")
dbutils.library.restartPython()
# Use the library in another cell.
import tensorflow
listkommando (dbutils.library.list)
Visar en lista över isolerade bibliotek som lagts till för den aktuella notebook-sessionen via biblioteksverktyget. Detta inkluderar inte bibliotek som är anslutna till klustret.
Om du vill visa hjälp för det här kommandot kör du dbutils.library.help("list")
.
I det här exemplet visas de bibliotek som är installerade i en notebook-fil.
dbutils.library.list()
Kommentar
Motsvarigheten till det här kommandot som använder %pip
är:
%pip freeze
updateCondaEnv-kommandot (dbutils.library.updateCondaEnv)
Uppdaterar den aktuella notebook-filens Conda-miljö baserat på innehållet i environment.yml
. Den här metoden stöds endast för Databricks Runtime på Conda.
Om du vill visa hjälp för det här kommandot kör du dbutils.library.help("updateCondaEnv")
.
Det här exemplet uppdaterar den aktuella notebook-filens Conda-miljö baserat på innehållet i den angivna specifikationen.
dbutils.library.updateCondaEnv(
"""
channels:
- anaconda
dependencies:
- gensim=3.4
- nltk=3.4
""")