Usługa Azure Databricks dla deweloperów języka Scala
Ten artykuł zawiera przewodnik dotyczący opracowywania notesów i zadań w usłudze Azure Databricks przy użyciu języka Scala. Pierwsza sekcja zawiera linki do samouczków dotyczących typowych przepływów pracy i zadań. Druga sekcja zawiera linki do interfejsów API, bibliotek i kluczowych narzędzi.
Podstawowym przepływem pracy na potrzeby rozpoczynania pracy jest:
- Zaimportuj kod i uruchom go przy użyciu interaktywnego notesu usługi Databricks: zaimportuj własny kod z plików lub repozytoriów Git albo spróbuj wykonać samouczek wymieniony poniżej.
- Uruchom kod w klastrze: utwórz własny klaster lub upewnij się, że masz uprawnienia do korzystania z udostępnionego klastra. Dołącz notes do klastra i uruchom notes.
Poza tym możesz rozgałęzić się w bardziej szczegółowe tematy:
- Praca z większymi zestawami danych przy użyciu platformy Apache Spark
- Dodawanie wizualizacji
- Automatyzowanie obciążenia jako zadania
- Programowanie w środowiskach IDE
Samouczki
W poniższych samouczkach przedstawiono przykładowy kod i notesy, aby dowiedzieć się więcej o typowych przepływach pracy. Zobacz Importowanie notesu , aby uzyskać instrukcje dotyczące importowania przykładów notesów do obszaru roboczego.
- Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark
- Samouczek: usługa Delta Lake udostępnia przykłady języka Scala.
- Używanie biblioteki XGBoost w usłudze Azure Databricks zawiera przykład języka Scala.
Odwołanie
Poniższe podsekcje list zawierają najważniejsze funkcje i wskazówki, które pomogą Ci rozpocząć pracę z Azure Databricks z użyciem języka Scala.
Interfejs API języka Scala
Te linki zawierają wprowadzenie do interfejsu API Języka Scala platformy Apache Spark i dokumentację.
- Samouczek: ładowanie i przekształcanie danych przy użyciu ramek danych platformy Apache Spark
- Wykonywanie zapytań względem ciągów JSON
- Wprowadzenie do przesyłania strumieniowego ze strukturą
- Dokumentacja interfejsu API platformy Apache Spark Core
- Dokumentacja interfejsu API uczenia maszynowego platformy Apache Spark
Zarządzanie kodem za pomocą notesów i folderów Git usługi Databricks
Notesy usługi Databricks obsługują język Scala. Te notesy udostępniają funkcje podobne do tych z programu Jupyter, ale z dodatkami takimi jak wbudowane wizualizacje korzystające z danych big data, integracje platformy Apache Spark na potrzeby debugowania i monitorowania wydajności oraz integracje MLflow na potrzeby śledzenia eksperymentów uczenia maszynowego. Get rozpoczęło się przez importowanie notatnika. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra i uruchomić notes.
Napiwek
Aby reset stan notesu, uruchom ponownie jądro. W przypadku użytkowników Jupyter opcja "uruchom ponownie jądro" w Jupyter odpowiada odłączeniu i ponownym podłączeniu notatnika w usłudze Databricks. Aby ponownie uruchomić jądro w notesie, kliknij selektor obliczeniowy na pasku narzędzi notesu i umieść kursor na dołączonym klastrze lub usłudze SQL Warehouse w list, aby wyświetlić menu boczne. Select Odłącz & ponownie przymocuj. Spowoduje to odłączenie notesu od klastra i ponowne dołączanie go, co spowoduje ponowne uruchomienie procesu.
Foldery Usługi Git usługi Databricks umożliwiają użytkownikom synchronizowanie notesów i innych plików z repozytoriami Git. Foldery Git usługi Databricks ułatwiają przechowywanie wersji kodu i współpracę oraz upraszcza importowanie pełnego repozytorium kodu do usługi Azure Databricks, wyświetlanie wcześniejszych wersji notesów i integrowanie z programowaniem środowiska IDE. Get rozpoczęło się od klonowania zdalnego repozytorium Git przez . Następnie możesz otworzyć lub utworzyć notesy za pomocą klonowania repozytorium, dołączyć notes do klastra i uruchomić notes.
Klastry i biblioteki
Środowisko obliczeniowe usługi Azure Databricks zapewnia zarządzanie obliczeniami dla klastrów o dowolnym rozmiarze: od klastrów z jednego węzła do dużych klastrów. Możesz dostosować sprzęt i biblioteki klastra zgodnie z potrzebami. Analitycy danych zazwyczaj rozpoczynają pracę, tworząc klaster lub używając istniejącego udostępnionego klastra. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra lub uruchomić zadanie w klastrze.
- W przypadku małych obciążeń, które wymagają tylko jednego węzła, analitycy danych mogą korzystać z obliczeń z jednym węzłem w celu uzyskania oszczędności kosztów.
- Aby uzyskać szczegółowe porady, zobacz Zalecenia dotyczące konfiguracji obliczeniowej
- Administratorzy mogą setzasad klastra, aby uprościć i poprowadzić tworzenie klastra.
Klastry usługi Azure Databricks używają środowiska Databricks Runtime, które udostępnia wiele popularnych bibliotek, takich jak Apache Spark, Delta Lake i inne. Możesz również zainstalować dodatkowe biblioteki innych firm lub niestandardowe do użycia z notesami i zadaniami.
- Zacznij od bibliotek domyślnych w informacjach o wersji środowiska Databricks Runtime i zgodności. Aby uzyskać pełną listę wstępnie zainstalowanych bibliotek, zobacz Databricks Runtime release notes versions and compatibility (Wersje i zgodność środowiska Databricks Runtime).
- Biblioteki Języka Scala można również zainstalować w klastrze.
- Aby uzyskać więcej informacji, zobacz Biblioteki.
Wizualizacje
Notesy języka Scala usługi Azure Databricks mają wbudowaną obsługę wielu typów wizualizacji. Możesz również użyć starszych wizualizacji:
Współdziałanie
W tej sekcji opisano funkcje, które obsługują współdziałanie języków Scala i SQL.
Stanowiska
Obciążenia języka Scala można zautomatyzować jako zaplanowane lub wyzwalane zadania w usłudze Azure Databricks. Zadania mogą uruchamiać notesy i pliki JAR.
- Aby uzyskać szczegółowe informacje na temat tworzenia zadania za pośrednictwem interfejsu użytkownika, zobacz Konfigurowanie i edytowanie zadań usługi Databricks.
- Zestawy SDK usługi Databricks umożliwiają programowe tworzenie, edytowanie i usuwanie zadań.
- Interfejs wiersza polecenia usługi Databricks zapewnia wygodny interfejs wiersza polecenia do automatyzacji zadań.
Środowiska IDE, narzędzia deweloperskie i zestawy SDK
Oprócz tworzenia kodu Języka Scala w notesach usługi Azure Databricks można programować zewnętrznie przy użyciu zintegrowanych środowisk projektowych (IDE), takich jak IntelliJ IDEA. Aby zsynchronizować pracę między zewnętrznymi środowiskami projektowymi i usługą Azure Databricks, istnieje kilka opcji:
- Kod: kod można zsynchronizować przy użyciu narzędzia Git. Zobacz Integracja z usługą Git dla folderów Git usługi Databricks.
- Biblioteki i zadania: biblioteki można tworzyć zewnętrznie i przekazywać je do usługi Azure Databricks. Te biblioteki mogą być importowane w notesach usługi Azure Databricks lub mogą służyć do tworzenia zadań. Zobacz Biblioteki i Planowanie i organizowanie przepływów pracy.
- Zdalne wykonywanie maszyny: możesz uruchomić kod z lokalnego środowiska IDE na potrzeby interaktywnego programowania i testowania. Środowisko IDE może komunikować się z usługą Azure Databricks w celu wykonywania dużych obliczeń w klastrach usługi Azure Databricks. Na przykład można użyć środowiska IntelliJ IDEA z usługą Databricks Connect.
Usługa Databricks udostępnia set zestawów SDK, które obsługują automatyzację i integrację z zewnętrznymi narzędziami. Zestawy SDK usługi Databricks umożliwiają zarządzanie zasobami, takimi jak klastry i biblioteki, kod i inne obiekty obszaru roboczego, obciążenia i zadania itd. Zobacz zestawy SDK usługi Databricks.
Aby uzyskać więcej informacji o środowiskach IDE, narzędziach deweloperskich i zestawach SDK, zobacz Narzędzia programistyczne.