Udostępnij za pośrednictwem


Usługa Azure Databricks dla deweloperów języka Scala

Ten artykuł zawiera przewodnik dotyczący opracowywania notesów i zadań w usłudze Azure Databricks przy użyciu języka Scala. Pierwsza sekcja zawiera linki do samouczków dotyczących typowych przepływów pracy i zadań. Druga sekcja zawiera linki do interfejsów API, bibliotek i kluczowych narzędzi.

Podstawowym przepływem pracy na potrzeby rozpoczynania pracy jest:

Poza tym możesz rozgałęzić się w bardziej szczegółowe tematy:

Samouczki

W poniższych samouczkach przedstawiono przykładowy kod i notesy, aby dowiedzieć się więcej o typowych przepływach pracy. Zobacz Importowanie notesu , aby uzyskać instrukcje dotyczące importowania przykładów notesów do obszaru roboczego.

Odwołanie

Poniższe podsekcje list zawierają najważniejsze funkcje i wskazówki, które pomogą Ci rozpocząć pracę z Azure Databricks z użyciem języka Scala.

Interfejs API języka Scala

Te linki zawierają wprowadzenie do interfejsu API Języka Scala platformy Apache Spark i dokumentację.

Zarządzanie kodem za pomocą notesów i folderów Git usługi Databricks

Notesy usługi Databricks obsługują język Scala. Te notesy udostępniają funkcje podobne do tych z programu Jupyter, ale z dodatkami takimi jak wbudowane wizualizacje korzystające z danych big data, integracje platformy Apache Spark na potrzeby debugowania i monitorowania wydajności oraz integracje MLflow na potrzeby śledzenia eksperymentów uczenia maszynowego. Get rozpoczęło się przez importowanie notatnika. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra i uruchomić notes.

Napiwek

Aby reset stan notesu, uruchom ponownie jądro. W przypadku użytkowników Jupyter opcja "uruchom ponownie jądro" w Jupyter odpowiada odłączeniu i ponownym podłączeniu notatnika w usłudze Databricks. Aby ponownie uruchomić jądro w notesie, kliknij selektor obliczeniowy na pasku narzędzi notesu i umieść kursor na dołączonym klastrze lub usłudze SQL Warehouse w list, aby wyświetlić menu boczne. Select Odłącz & ponownie przymocuj. Spowoduje to odłączenie notesu od klastra i ponowne dołączanie go, co spowoduje ponowne uruchomienie procesu.

Foldery Usługi Git usługi Databricks umożliwiają użytkownikom synchronizowanie notesów i innych plików z repozytoriami Git. Foldery Git usługi Databricks ułatwiają przechowywanie wersji kodu i współpracę oraz upraszcza importowanie pełnego repozytorium kodu do usługi Azure Databricks, wyświetlanie wcześniejszych wersji notesów i integrowanie z programowaniem środowiska IDE. Get rozpoczęło się od klonowania zdalnego repozytorium Git przez . Następnie możesz otworzyć lub utworzyć notesy za pomocą klonowania repozytorium, dołączyć notes do klastra i uruchomić notes.

Klastry i biblioteki

Środowisko obliczeniowe usługi Azure Databricks zapewnia zarządzanie obliczeniami dla klastrów o dowolnym rozmiarze: od klastrów z jednego węzła do dużych klastrów. Możesz dostosować sprzęt i biblioteki klastra zgodnie z potrzebami. Analitycy danych zazwyczaj rozpoczynają pracę, tworząc klaster lub używając istniejącego udostępnionego klastra. Po uzyskaniu dostępu do klastra możesz dołączyć notes do klastra lub uruchomić zadanie w klastrze.

  • W przypadku małych obciążeń, które wymagają tylko jednego węzła, analitycy danych mogą korzystać z obliczeń z jednym węzłem w celu uzyskania oszczędności kosztów.
  • Aby uzyskać szczegółowe porady, zobacz Zalecenia dotyczące konfiguracji obliczeniowej
  • Administratorzy mogą setzasad klastra, aby uprościć i poprowadzić tworzenie klastra.

Klastry usługi Azure Databricks używają środowiska Databricks Runtime, które udostępnia wiele popularnych bibliotek, takich jak Apache Spark, Delta Lake i inne. Możesz również zainstalować dodatkowe biblioteki innych firm lub niestandardowe do użycia z notesami i zadaniami.

Wizualizacje

Notesy języka Scala usługi Azure Databricks mają wbudowaną obsługę wielu typów wizualizacji. Możesz również użyć starszych wizualizacji:

Współdziałanie

W tej sekcji opisano funkcje, które obsługują współdziałanie języków Scala i SQL.

Stanowiska

Obciążenia języka Scala można zautomatyzować jako zaplanowane lub wyzwalane zadania w usłudze Azure Databricks. Zadania mogą uruchamiać notesy i pliki JAR.

  • Aby uzyskać szczegółowe informacje na temat tworzenia zadania za pośrednictwem interfejsu użytkownika, zobacz Konfigurowanie i edytowanie zadań usługi Databricks.
  • Zestawy SDK usługi Databricks umożliwiają programowe tworzenie, edytowanie i usuwanie zadań.
  • Interfejs wiersza polecenia usługi Databricks zapewnia wygodny interfejs wiersza polecenia do automatyzacji zadań.

Środowiska IDE, narzędzia deweloperskie i zestawy SDK

Oprócz tworzenia kodu Języka Scala w notesach usługi Azure Databricks można programować zewnętrznie przy użyciu zintegrowanych środowisk projektowych (IDE), takich jak IntelliJ IDEA. Aby zsynchronizować pracę między zewnętrznymi środowiskami projektowymi i usługą Azure Databricks, istnieje kilka opcji:

  • Kod: kod można zsynchronizować przy użyciu narzędzia Git. Zobacz Integracja z usługą Git dla folderów Git usługi Databricks.
  • Biblioteki i zadania: biblioteki można tworzyć zewnętrznie i przekazywać je do usługi Azure Databricks. Te biblioteki mogą być importowane w notesach usługi Azure Databricks lub mogą służyć do tworzenia zadań. Zobacz Biblioteki i Planowanie i organizowanie przepływów pracy.
  • Zdalne wykonywanie maszyny: możesz uruchomić kod z lokalnego środowiska IDE na potrzeby interaktywnego programowania i testowania. Środowisko IDE może komunikować się z usługą Azure Databricks w celu wykonywania dużych obliczeń w klastrach usługi Azure Databricks. Na przykład można użyć środowiska IntelliJ IDEA z usługą Databricks Connect.

Usługa Databricks udostępnia set zestawów SDK, które obsługują automatyzację i integrację z zewnętrznymi narzędziami. Zestawy SDK usługi Databricks umożliwiają zarządzanie zasobami, takimi jak klastry i biblioteki, kod i inne obiekty obszaru roboczego, obciążenia i zadania itd. Zobacz zestawy SDK usługi Databricks.

Aby uzyskać więcej informacji o środowiskach IDE, narzędziach deweloperskich i zestawach SDK, zobacz Narzędzia programistyczne.

Dodatkowe zasoby

  • Akademia Usługi Databricks oferuje kursy prowadzone samodzielnie i prowadzone przez instruktora w wielu tematach.