Instalowanie bibliotek z repozytorium pakietów
Usługa Azure Databricks udostępnia narzędzia do instalowania bibliotek z repozytoriów pakietów PyPI, Maven i CRAN. Zobacz Biblioteki o zakresie klastra, aby uzyskać szczegółowe informacje o zgodności biblioteki.
Ważne
Biblioteki można instalować z systemu plików DBFS podczas korzystania z środowiska Databricks Runtime 14.3 LTS i poniżej. Jednak każdy użytkownik obszaru roboczego może modyfikować pliki biblioteki przechowywane w systemie plików DBFS. Aby zwiększyć bezpieczeństwo bibliotek w obszarze roboczym usługi Azure Databricks, przechowywanie plików bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone w środowisku Databricks Runtime 15.1 lub nowszym. Zobacz Przechowywanie bibliotek w katalogu głównym systemu plików DBFS jest domyślnie przestarzałe i wyłączone.
Zamiast tego usługa Databricks zaleca przekazywanie wszystkich bibliotek, w tym bibliotek języka Python, plików JAR i łączników platformy Spark, do plików obszaru roboczego lub woluminów wykazu aparatu Unity lub przy użyciu repozytoriów pakietów biblioteki. Jeśli obciążenie nie obsługuje tych wzorców, możesz również użyć bibliotek przechowywanych w magazynie obiektów w chmurze.
Pakiet PyPI
Na liście przycisków Źródło biblioteki wybierz pozycję PyPI.
Wprowadź nazwę pakietu PyPI. Aby zainstalować określoną wersję biblioteki, użyj tego formatu dla biblioteki:
<library>==<version>
. Na przykładscikit-learn==0.19.1
.Uwaga
W przypadku zadań usługa Databricks zaleca określenie wersji biblioteki w celu zapewnienia powtarzalnego środowiska. Jeśli wersja biblioteki nie jest w pełni określona, usługa Databricks używa najnowszej zgodnej wersji. Oznacza to, że różne uruchomienia tego samego zadania mogą używać różnych wersji bibliotek, ponieważ są publikowane nowe wersje. Określanie wersji biblioteki zapobiega nowym, powodującym niezgodność zmian w bibliotekach przed przerywaniem zadań.
(Opcjonalnie) W polu Adres URL indeksu wprowadź adres URL indeksu PyPI.
Kliknij przycisk Zainstaluj.
Pakiet Maven lub Spark
Ważne
Aby zainstalować biblioteki Maven na obliczeniach skonfigurowanych w trybie dostępu współdzielonego, należy dodać współrzędne do listy dozwolonych. Zobacz Allowlist libraries and init scripts on shared compute (Biblioteki dozwolonych i skrypty inicjowania w udostępnionych obliczeniach).
Ważne
W przypadku wersji DBR 14.3 LTS i nowszych usługa Databricks używa platformy Apache Ivy 2.4.0 do rozpoznawania pakietów Maven. W przypadku wersji DBR 15.0 lub nowszej usługa Databricks używa wersji Ivy 2.5.1 lub nowszej, a określona wersja Ivy jest wymieniona w informacjach o wersji i zgodności środowiska Databricks Runtime.
Kolejność instalacji pakietów Maven może mieć wpływ na końcowe drzewo zależności, co może mieć wpływ na kolejność ładowania bibliotek.
Na liście przycisków Źródło biblioteki wybierz pozycję Maven.
Określ współrzędną maven. Wykonaj jedną z następujących czynności:
- W polu Współrzędna wprowadź współrzędną Maven biblioteki do zainstalowania. Współrzędne maven są w postaci
groupId:artifactId:version
, na przykładcom.databricks:spark-avro_2.10:1.0.0
. - Jeśli nie znasz dokładnej współrzędności, wprowadź nazwę biblioteki i kliknij pozycję Wyszukaj pakiety. Zostanie wyświetlona lista pasujących pakietów. Aby wyświetlić szczegółowe informacje o pakiecie, kliknij jego nazwę. Pakiety można sortować według nazwy, organizacji i klasyfikacji. Wyniki można również filtrować, pisząc zapytanie na pasku wyszukiwania. Wyniki są odświeżane automatycznie.
- Wybierz pozycję Maven Central lub Spark Packages na liście rozwijanej w lewym górnym rogu.
- Opcjonalnie wybierz wersję pakietu w kolumnie Wydania.
- Kliknij pozycję + Wybierz obok pakietu. Pole Współrzędnych jest wypełnione wybranym pakietem i wersją.
- W polu Współrzędna wprowadź współrzędną Maven biblioteki do zainstalowania. Współrzędne maven są w postaci
(Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium Maven.
Uwaga
Wewnętrzne repozytoria Maven nie są obsługiwane.
W polu Wykluczenia opcjonalnie podaj wartości
groupId
iartifactId
zależności, które chcesz wykluczyć (na przykładlog4j:log4j
).Uwaga
Narzędzie Maven działa przy użyciu najbliższej wersji głównej, a w przypadku dwóch pakietów wirtualnych dla wersji z różnymi zależnościami kolejność ma znaczenie, więc może zakończyć się niepowodzeniem, gdy pakiet ze starszą zależnością zostanie załadowany jako pierwszy.
Aby obejść ten proces, wyklucz bibliotekę powodującą konflikt. Na przykład podczas instalowania pakietu ze współrzędną
com.microsoft.azure:azure-eventhubs-spark_2.12:2.3.22
ustaw pole Wykluczenia nacom.nimbusds:oauth2-oidc-sdk:RELEASE
wartość , aby najnowsza wersja msAL4Jeventhubs
została załadowana, aeventhubs
zależność jest satysfakcjonująca.Kliknij przycisk Zainstaluj.
Pakiet CRAN
- Na liście przycisków Źródło biblioteki wybierz pozycję CRAN.
- W polu Pakiet wprowadź nazwę pakietu.
- (Opcjonalnie) W polu Repozytorium możesz wprowadzić adres URL repozytorium CRAN.
- Kliknij przycisk Zainstaluj.
Uwaga
Dublowanie CRAN obsługuje najnowszą wersję biblioteki. W związku z tym w przypadku dołączania biblioteki do różnych klastrów w różnych momentach może skończyć się różne wersje pakietu języka R. Aby dowiedzieć się, jak zarządzać i naprawiać wersje pakietów języka R w usłudze Databricks, zobacz bazę wiedzy.