Tworzenie pierwszego przepływu pracy za pomocą zadania usługi Azure Databricks
W tym artykule przedstawiono zadanie usługi Azure Databricks, które organizuje zadania odczytu i przetwarzania przykładowego zestawu danych. W ramach tego przewodnika Szybki start wykonasz następujące czynności:
- Utwórz nowy notes i dodaj kod, aby pobrać przykładowy zestaw danych zawierający popularne nazwy dzieci według roku.
- Zapisz przykładowy zestaw danych w katalogu aparatu Unity.
- Utwórz nowy notes i dodaj kod, aby odczytać zestaw danych z katalogu aparatu Unity, przefiltrować go według roku i wyświetlić wyniki.
- Utwórz nowe zadanie i skonfiguruj dwa zadania przy użyciu notesów.
- Uruchom zadanie i wyświetl wyniki.
Wymagania
Jeśli obszar roboczy jest włączony w wykazie aparatu Unity, a zadania bezserwerowe są domyślnie włączone, zadanie jest uruchamiane na obliczeniach bezserwerowych. Nie potrzebujesz uprawnień do tworzenia klastra, aby uruchomić zadanie za pomocą obliczeń bezserwerowych.
W przeciwnym razie musisz mieć uprawnienie do tworzenia zasobów obliczeniowych zadania lub uprawnień do zasobów obliczeniowych ogólnego przeznaczenia.
Wolumin musi znajdować się w wykazie aparatu Unity. W tym artykule użyto woluminu o nazwie my-volume
w schemacie o nazwie default
w katalogu o nazwie main
. Ponadto musisz mieć następujące uprawnienia w katalogu aparatu Unity:
READ VOLUME
iWRITE VOLUME
, dlaALL PRIVILEGES
woluminumy-volume
.USE SCHEMA
lubALL PRIVILEGES
dla schematudefault
.USE CATALOG
lubALL PRIVILEGES
katalogumain
.
Aby ustawić te uprawnienia, zobacz uprawnienia administratora usługi Databricks lub katalogu aparatu Unity oraz zabezpieczane obiekty.
Tworzenie notesów
Pobieranie i zapisywanie danych
Aby utworzyć notes, aby pobrać przykładowy zestaw danych i zapisać go w katalogu aparatu Unity:
Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję Nowy na pasku bocznym i wybierz pozycję Notes. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.
W razie potrzeby zmień język domyślny na Python.
Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.
import requests response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv') csvfile = response.content.decode('utf-8') dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Odczytywanie i wyświetlanie przefiltrowanych danych
Aby utworzyć notes do odczytywania i prezentowania danych do filtrowania:
Przejdź do strony docelowej usługi Azure Databricks i kliknij pozycję Nowy na pasku bocznym i wybierz pozycję Notes. Usługa Databricks tworzy i otwiera nowy, pusty notes w folderze domyślnym. Język domyślny to ostatnio używany język, a notes jest automatycznie dołączany do ostatnio używanego zasobu obliczeniowego.
W razie potrzeby zmień język domyślny na Python.
Skopiuj następujący kod w języku Python i wklej go w pierwszej komórce notesu.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv") babynames.createOrReplaceTempView("babynames_table") years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist() years.sort() dbutils.widgets.dropdown("year", "2014", [str(x) for x in years]) display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Tworzenie zadania
Kliknij pozycję Przepływy pracy na pasku bocznym.
Kliknij pozycję .
Na karcie Zadania zostanie wyświetlone okno dialogowe tworzenia zadania.
Zastąp ciąg Dodaj nazwę zadania... nazwą zadania.
W polu Nazwa zadania wprowadź nazwę zadania, na przykład retrieve-baby-names.
W menu rozwijanym Typ wybierz pozycję Notes.
Użyj przeglądarki plików, aby znaleźć pierwszy utworzony notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.
Kliknij pozycję Utwórz zadanie.
Kliknij poniżej utworzonego zadania, aby dodać kolejne zadanie.
W polu Nazwa zadania wprowadź nazwę zadania, na przykład filter-baby-names.
W menu rozwijanym Typ wybierz pozycję Notes.
Użyj przeglądarki plików, aby znaleźć utworzony drugi notes, kliknij nazwę notesu, a następnie kliknij przycisk Potwierdź.
Kliknij pozycję Dodaj w obszarze Parametry. W polu Klucz wprowadź wartość
year
. W polu Wartość wprowadź wartość2014
.Kliknij pozycję Utwórz zadanie.
Uruchamianie zadania
Aby natychmiast uruchomić zadanie, kliknij w prawym górnym rogu. Możesz również uruchomić zadanie, klikając kartę Uruchomienia i klikając pozycję Uruchom teraz w tabeli Aktywne uruchomienia .
Wyświetlanie szczegółów przebiegu
Kliknij kartę Uruchomienia i kliknij link do przebiegu w tabeli Aktywne uruchomienia lub w tabeli Ukończone przebiegi (w ciągu ostatnich 60 dni).
Kliknij albo zadanie, aby wyświetlić dane wyjściowe i szczegóły. Na przykład kliknij zadanie filter-baby-names , aby wyświetlić dane wyjściowe i uruchomić szczegóły zadania filtru:
Uruchamianie z różnymi parametrami
Aby ponownie uruchomić zadanie i przefiltrować nazwy dziecka przez inny rok:
- Kliknij przycisk Obok pozycji Uruchom teraz i wybierz pozycję Uruchom teraz z różnymi parametrami lub kliknij pozycję Uruchom teraz z różnymi parametrami w tabeli Aktywne uruchomienia .
- W polu Wartość wprowadź wartość
2015
. - Kliknij Uruchom.