Dela via


Installera notebook-beroenden

Du kan installera Python-beroenden för serverlösa notebook-filer med hjälp av panelen På miljösidan . Den här panelen innehåller en enda plats där du kan redigera, visa och exportera en notebook-fils bibliotekskrav. Dessa beroenden kan läggas till med hjälp av en basmiljö eller individuellt.

Serverlös miljöpanel med budgetprinciper

Information om uppgifter som inte är notebook-uppgifter finns i Konfigurera miljöer och beroenden för uppgifter som inte är notebook-uppgifter.

Viktigt!

Installera inte PySpark eller något bibliotek som installerar PySpark som ett beroende av dina serverlösa notebook-filer. Om du gör det stoppas sessionen och det resulterar i ett fel. Om detta inträffar återställer du din miljö.

Konfigurera en basmiljö

En basmiljö är en YAML-fil som lagras som en arbetsytefil eller på en Unity Catalog-volym som anger ytterligare miljöberoenden. Basmiljöer kan delas mellan notebook-filer. Så här konfigurerar du en basmiljö:

  1. Skapa en YAML-fil som definierar inställningar för en virtuell Python-miljö. I följande exempel definierar YAML, som baseras på miljöspecifikationen för MLflow-projekt, en basmiljö med några biblioteksberoenden:

    client: "1"
    dependencies:
      - --index-url https://pypi.org/simple
      - -r "/Workspace/Shared/requirements.txt"
      - my-library==6.1
      - "/Workspace/Shared/Path/To/simplejson-3.19.3-py3-none-any.whl"
      - git+https://github.com/databricks/databricks-cli
    
  2. Ladda upp YAML-filen som en arbetsytefil eller till en Unity Catalog-volym. Se Importera en fil eller Ladda upp filer till en Unity Catalog-volym.

  3. Till höger om anteckningsboken -miljö klickar du på knappen för att expandera panelen Miljö . Den här knappen visas bara när en notebook-fil är ansluten till serverlös beräkning.

  4. I fältet Basmiljö anger du sökvägen till den uppladdade YAML-filen eller navigerar till den och väljer den.

  5. Klicka på Använd. Detta installerar beroendena i den virtuella notebook-miljön och startar om Python-processen.

Användare kan åsidosätta de beroenden som anges i basmiljön genom att installera beroenden individuellt.

Konfigurera notebook-miljön

Du kan också installera beroenden på en notebook-fil som är ansluten till serverlös beräkning med hjälp av fliken Beroenden i panelen Miljö :

  1. Till höger om anteckningsboken -miljö klickar du på knappen för att expandera panelen Miljö . Den här knappen visas bara när en notebook-fil är ansluten till serverlös beräkning.
  2. Välj klientavbildningen i listrutan Klientversion . Se Serverlösa klientbilder. Databricks rekommenderar att du väljer den senaste versionen för att få de senaste notebook-funktionerna.
  3. I avsnittet Beroenden klickar du på Lägg till beroende och anger sökvägen till biblioteksberoendet i fältet . Du kan ange ett beroende i valfritt format som är giltigt i en requirements.txt fil.
  4. Klicka på Använd. Detta installerar beroendena i den virtuella notebook-miljön och startar om Python-processen.

Kommentar

Ett jobb med serverlös beräkning installerar miljöspecifikationen för notebook-filen innan du kör notebook-koden. Det innebär att du inte behöver lägga till beroenden när du schemalägger notebook-filer som jobb. Se Konfigurera miljöer och beroenden.

Visa installerade beroenden och pip-loggar

Om du vill visa installerade beroenden klickar du på Installeradpanelen Miljöer för en notebook-fil. Pip-installationsloggar för notebook-miljön är också tillgängliga genom att klicka på Pip-loggar längst ned i panelen.

Återställa miljön

Om notebook-filen är ansluten till serverlös beräkning cachelagrar Databricks automatiskt innehållet i notebook-filens virtuella miljö. Det innebär att du vanligtvis inte behöver installera om Python-beroenden som anges i panelen Miljö när du öppnar en befintlig notebook-fil, även om den har kopplats från på grund av inaktivitet.

Cachelagring av virtuell Python-miljö gäller även för jobb. Det innebär att efterföljande körningar av jobb går snabbare eftersom nödvändiga beroenden redan är tillgängliga.

Kommentar

Om du ändrar implementeringen av ett anpassat Python-paket som används i ett jobb på serverlös måste du också uppdatera versionsnumret så att jobben kan hämta den senaste implementeringen.

Om du vill rensa miljöcachen och utföra en ny installation av de beroenden som anges i panelen Miljö i en notebook-fil som är kopplad till serverlös beräkning klickar du på pilen bredvid Tillämpa och klickar sedan på Återställ miljö.

Kommentar

Återställ den virtuella miljön om du installerar paket som bryter eller ändrar kärnanteckningsboken eller Apache Spark-miljön. Att koppla från notebook-filen från serverlös beräkning och koppla om den rensar inte nödvändigtvis hela miljöcachen.

Konfigurera miljöer och beroenden för uppgifter som inte är notebook-uppgifter

För andra aktivitetstyper som stöds, till exempel Python-skript, Python-hjul eller dbt-uppgifter, innehåller en standardmiljö installerade Python-bibliotek. Om du vill se listan över installerade bibliotek läser du avsnittet Installerade Python-bibliotek i den klientversion som du använder. Se Serverlösa klientbilder. Om en uppgift kräver ett Python-bibliotek som inte är installerat kan du installera biblioteket från arbetsytefiler, Unity Catalog-volymer eller offentliga paketlagringsplatser. Så här lägger du till ett bibliotek när du skapar eller redigerar en uppgift:

  1. I listrutan Miljö och bibliotek klickar du bredvidRedigera ikon standardmiljön eller klickar på + Lägg till ny miljö.

    Redigera standardmiljö

  2. Välj klientavbildningen i listrutan Klientversion . Se Serverlösa klientbilder. Databricks rekommenderar att du väljer den senaste versionen för att få de senaste funktionerna.

  3. I dialogrutan Konfigurera miljö klickar du på + Lägg till bibliotek.

  4. Välj typ av beroende på den nedrullningsbara menyn under Bibliotek.

  5. I textrutan Filsökväg anger du sökvägen till biblioteket.

  • För ett Python-hjul i en arbetsytefil bör sökvägen vara absolut och börja med /Workspace/.

  • För ett Python-hjul i en Unity-katalogvolym ska sökvägen vara /Volumes/<catalog>/<schema>/<volume>/<path>.whl.

  • För en requirements.txt fil väljer du PyPi och anger -r /path/to/requirements.txt.

    Lägga till aktivitetsbibliotek

  1. Klicka på Bekräfta eller + Lägg till bibliotek för att lägga till ett annat bibliotek.
  2. Om du lägger till en aktivitet klickar du på Skapa aktivitet. Om du redigerar en uppgift klickar du på Spara uppgift.