Instalowanie bibliotek z repozytorium pakietów

Artykuł
01/21/2025

Usługa Azure Databricks udostępnia narzędzia do instalowania bibliotek z repozytoriów pakietów PyPI, Maven i CRAN. Zobacz Biblioteki o zakresie klastra, aby uzyskać szczegółowe informacje o zgodności biblioteki.

Ważne

Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone w środowisku Databricks Runtime 15.1 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.

Zamiast tego, Databricks rekomenduje przekazywanie wszystkich bibliotek, w tym bibliotek Python, plików JAR i łączników Spark, do plików obszaru roboczego lub woluminów katalogu Unity, albo korzystanie z repozytoriów pakietów bibliotecznych. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.

Pakiet PyPI

Na liście przycisków Biblioteka źródłowa wybierz pozycję PyPI.
Wprowadź nazwę pakietu PyPI. Aby zainstalować określoną wersję biblioteki, użyj tego formatu dla biblioteki: <library>==<version>. Na przykład scikit-learn==0.19.1.

Uwaga

W przypadku zadań usługa Databricks zaleca określenie wersji biblioteki w celu zapewnienia powtarzalnego środowiska. Jeśli wersja biblioteki nie jest w pełni określona, usługa Databricks używa najnowszej zgodnej wersji. Oznacza to, że różne uruchomienia tego samego zadania mogą używać różnych wersji bibliotek, ponieważ są publikowane nowe wersje. Określanie wersji biblioteki zapobiega nowym, powodującym niezgodność zmian w bibliotekach przed przerywaniem zadań.
(Opcjonalnie) W polu Adres URL indeksu wprowadź adres URL indeksu PyPI.
Kliknij przycisk Zainstaluj.

Pakiet Maven lub Spark

Ważne

Aby zainstalować biblioteki Maven na obliczeniach skonfigurowanych w trybie dostępu współdzielonego, należy dodać współrzędne do listy dozwolonych. Zobacz Allowlist libraries and init scripts on shared compute (Biblioteki dozwolonych i skrypty inicjowania w udostępnionych obliczeniach).

Ważne

W przypadku wersji DBR 14.3 LTS i nowszych usługa Databricks używa platformy Apache Ivy 2.4.0 do rozpoznawania pakietów Maven. W przypadku wersji DBR 15.0 lub nowszej usługa Databricks używa wersji Ivy 2.5.1 lub nowszej, a określona wersja Ivy jest wymieniona w informacjach o wersji i zgodności środowiska Databricks Runtime.

Kolejność instalacji pakietów Maven może mieć wpływ na końcowe drzewo zależności, co może mieć wpływ na kolejność ładowania bibliotek.

Na liście przycisków źródła biblioteki wybierz pozycję Maven.
Określ współrzędną maven. Wykonaj jedną z następujących czynności:
- W polu Współrzędna wprowadź współrzędną Maven biblioteki do zainstalowania. Współrzędne maven są w postaci groupId:artifactId:version, na przykład com.databricks:spark-avro_2.10:1.0.0.
- Jeśli nie znasz dokładnej współrzędności, wprowadź nazwę biblioteki i kliknij pozycję Wyszukaj pakiety. Zostanie wyświetlona lista pasujących pakietów. Aby wyświetlić szczegółowe informacje o pakiecie, kliknij jego nazwę. Pakiety można sortować według nazwy, organizacji i klasyfikacji. Wyniki można również filtrować, pisząc zapytanie na pasku wyszukiwania. Wyniki są odświeżane automatycznie.
  1. Wybierz Maven Central lub Pakiety Spark z listy rozwijanej w lewym górnym rogu.
  2. Możesz opcjonalnie wybrać wersję pakietu w kolumnie Wydania.
  3. Kliknij + wybierz obok pakietu. Pole Współrzędnych jest wypełnione wybranym pakietem i wersją.
(Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium Maven.

Uwaga

Wewnętrzne repozytoria Maven nie są obsługiwane.
W polu Wykluczenia opcjonalnie podaj wartości groupId i artifactId zależności, które chcesz wykluczyć (na przykład log4j:log4j).

Uwaga

Narzędzie Maven działa przy użyciu najbliższej wersji głównej, a w przypadku dwóch pakietów wirtualnych dla wersji z różnymi zależnościami kolejność ma znaczenie, więc może zakończyć się niepowodzeniem, gdy pakiet ze starszą zależnością zostanie załadowany jako pierwszy.

Aby obejść ten proces, wyklucz bibliotekę powodującą konflikt. Na przykład podczas instalowania pakietu ze współrzędną com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22ustaw pole Wykluczenia, aby com.nimbusds:oauth2-oidc-sdk:RELEASE, aby najnowsza wersja eventhubs z biblioteki MSAL4J została załadowana, a zależność eventhubs jest spełniona.
Kliknij przycisk Zainstaluj.

Pakiet CRAN

Na liście przycisków źródła biblioteki wybierz pozycję CRAN.
W polu Pakiet wprowadź nazwę pakietu.
(Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium CRAN.
Kliknij przycisk Zainstaluj.

Uwaga

Dublowanie CRAN obsługuje najnowszą wersję biblioteki. W związku z tym w przypadku dołączania biblioteki do różnych klastrów w różnych momentach może skończyć się różne wersje pakietu języka R. Aby dowiedzieć się, jak zarządzać i naprawiać wersje pakietów języka R w usłudze Databricks, zobacz bazę wiedzy.

Udostępnij za pośrednictwem

Instalowanie bibliotek z repozytorium pakietów

Pakiet PyPI

Pakiet Maven lub Spark

Pakiet CRAN

Opinia

Dodatkowe zasoby