Szybki start: przekształcanie danych przy użyciu definicji zadania platformy Apache Spark

Artykuł
12/12/2024

W tym przewodniku Szybki start utworzysz potok przy użyciu usługi Azure Synapse Analytics przy użyciu definicji zadania platformy Apache Spark.

Wymagania wstępne

Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.
Obszar roboczy usługi Azure Synapse: utwórz obszar roboczy usługi Synapse przy użyciu witryny Azure Portal, postępując zgodnie z instrukcjami w przewodniku Szybki start: tworzenie obszaru roboczego usługi Synapse.
Definicja zadania platformy Apache Spark: utwórz definicję zadania platformy Apache Spark w obszarze roboczym usługi Synapse, postępując zgodnie z instrukcjami w temacie Samouczek: tworzenie definicji zadania platformy Apache Spark w programie Synapse Studio.

Przejdź do programu Synapse Studio

Po utworzeniu obszaru roboczego usługi Azure Synapse masz dwa sposoby otwierania programu Synapse Studio:

Otwórz obszar roboczy usługi Synapse w witrynie Azure Portal. Wybierz pozycję Otwórz na karcie Open Synapse Studio w obszarze Wprowadzenie.
Otwórz usługę Azure Synapse Analytics i zaloguj się do obszaru roboczego.

W tym przewodniku Szybki start jako przykład użyjemy obszaru roboczego o nazwie "sampletest".

strona główna programu synapse Studio

Tworzenie potoku z definicją zadania platformy Apache Spark

Potok zawiera przepływ logiczny na potrzeby wykonywania zestawu działań. W tej sekcji utworzysz potok zawierający działanie definicji zadania platformy Apache Spark.

Przejdź do karty Integracja . Wybierz ikonę znaku plus obok nagłówka potoków i wybierz pozycję Potok.
Na stronie Ustawienia właściwości potoku wprowadź demo w polu Nazwa.
W obszarze Synapse w okienku Działania przeciągnij definicję zadania platformy Spark na kanwę potoku.

Ustawianie kanwy definicji zadania platformy Apache Spark

Po utworzeniu definicji zadania platformy Apache Spark zostanie automatycznie wysłana do kanwy definicji zadania platformy Spark.

Ustawienia ogólne

Wybierz moduł definicji zadania platformy Spark na kanwie.
Na karcie Ogólne wprowadź przykład w polu Nazwa.
(Opcja) Możesz również wprowadzić opis.
Limit czasu: maksymalny czas uruchomienia działania. Wartość domyślna to siedem dni, czyli maksymalny dozwolony czas. Format jest w formacie D.HH:MM:SS.
Ponów próbę: maksymalna liczba ponownych prób.
Interwał ponawiania prób: liczba sekund między poszczególnymi próbami ponawiania próby.
Bezpieczne dane wyjściowe: po zaznaczeniu dane wyjściowe z działania nie są przechwytywane podczas rejestrowania.
Bezpieczne dane wejściowe: po zaznaczeniu dane wejściowe z działania nie są przechwytywane podczas rejestrowania.

Karta Ustawienia

Na tym panelu możesz odwołać się do definicji zadania platformy Spark do uruchomienia.

Rozwiń listę definicji zadań platformy Spark. Możesz wybrać istniejącą definicję zadania platformy Apache Spark. Możesz również utworzyć nową definicję zadania platformy Apache Spark, wybierając przycisk Nowy , aby odwołać się do definicji zadania platformy Spark do uruchomienia.

(Opcjonalnie) Możesz wypełnić informacje dotyczące definicji zadania platformy Apache Spark. Jeśli następujące ustawienia są puste, do uruchomienia są używane ustawienia samej definicji zadania platformy Spark; Jeśli następujące ustawienia nie są puste, te ustawienia zastępują ustawienia samej definicji zadania platformy Spark.

Właściwości	opis
Główny plik definicji	Główny plik używany do zadania. Wybierz plik PY/JAR/ZIP z magazynu. Możesz wybrać pozycję Przekaż plik , aby przekazać plik na konto magazynu. Przykład: `abfss://…/path/to/wordcount.jar`
Odwołania z podfolderów	Skanowanie podfolderów z folderu głównego głównego pliku definicji. Te pliki są dodawane jako pliki referencyjne. Foldery o nazwach "jars", "pyFiles", "files" lub "archives" są skanowane, a nazwa folderów uwzględnia wielkość liter.
Nazwa klasy głównej	W pełni kwalifikowany identyfikator lub klasa główna, która znajduje się w głównym pliku definicji. Przykład: `WordCount`
Argumenty wiersza polecenia	Argumenty wiersza polecenia można dodać, klikając przycisk Nowy . Należy zauważyć, że dodanie argumentów wiersza polecenia zastępuje argumenty wiersza polecenia zdefiniowane przez definicję zadania platformy Spark. Próbka: `abfss://…/path/to/shakespeare.txtabfss://…/path/to/result`
Pula platformy Apache Spark	Z listy możesz wybrać pulę platformy Apache Spark.
Dokumentacja kodu w języku Python	Inne pliki kodu języka Python używane do celów referencyjnych w głównym pliku definicji. Obsługuje przekazywanie plików (.py, .py3, .zip) do właściwości "pyFiles". Zastępuje właściwość "pyFiles" zdefiniowaną w definicji zadania platformy Spark.
Pliki referencyjne	Inne pliki używane do odwołania w głównym pliku definicji.
Dynamiczne przydzielanie funkcji wykonawczych	To ustawienie mapuje na właściwość alokacji dynamicznej w konfiguracji platformy Spark dla alokacji funkcji wykonawczych aplikacji platformy Spark.
Minimalna liczba funkcji wykonawczych	Minimalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
Maksymalna liczba funkcji wykonawczych	Maksymalna liczba funkcji wykonawczych do przydzielenia w określonej puli Spark dla zadania.
Rozmiar sterownika	Liczba rdzeni i pamięci, które mają być używane dla sterownika podanego w określonej puli platformy Apache Spark dla zadania.
Konfiguracja platformy Spark	Określ wartości właściwości konfiguracji platformy Spark wymienione w artykule: Konfiguracja platformy Spark — właściwości aplikacji. Użytkownicy mogą używać konfiguracji domyślnej i dostosowanej konfiguracji.

Ustawienia potoku definicji zadań platformy Spark

Zawartość dynamiczną można dodać, klikając przycisk Dodaj zawartość dynamiczną lub naciskając skrótu Alt+Shift+D. Na stronie Dodawanie zawartości dynamicznej można użyć dowolnej kombinacji wyrażeń, funkcji i zmiennych systemowych, aby dodać do zawartości dynamicznej.

Karta Właściwości użytkownika

W tym panelu można dodać właściwości działania definicji zadania platformy Apache Spark.

właściwości użytkownika

Przejdź do następujących artykułów, aby dowiedzieć się więcej o obsłudze usługi Azure Synapse Analytics:

Potok i działania Mapowanie przepływu danych — omówienie języka wyrażeń przepływu danych

Udostępnij za pośrednictwem

Szybki start: przekształcanie danych przy użyciu definicji zadania platformy Apache Spark

Wymagania wstępne

Przejdź do programu Synapse Studio

Tworzenie potoku z definicją zadania platformy Apache Spark

Ustawianie kanwy definicji zadania platformy Apache Spark

Ustawienia ogólne

Karta Ustawienia

Karta Właściwości użytkownika

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Szybki start: przekształcanie danych przy użyciu definicji zadania platformy Apache Spark

Wymagania wstępne

Przejdź do programu Synapse Studio

Tworzenie potoku z definicją zadania platformy Apache Spark

Ustawianie kanwy definicji zadania platformy Apache Spark

Ustawienia ogólne

Karta Ustawienia

Karta Właściwości użytkownika

Powiązana zawartość

Opinia

Dodatkowe zasoby