Szybki start: analizowanie za pomocą platformy Apache Spark
W tym samouczku poznasz podstawowe kroki ładowania i analizowania danych za pomocą platformy Apache Spark dla usługi Azure Synapse.
Wymagania wstępne
Upewnij się, że przykładowe dane zostały umieszczone na podstawowym koncie magazynu.
Tworzenie bezserwerowej puli platformy Apache Spark
- W programie Synapse Studio w okienku po lewej stronie wybierz pozycję Zarządzaj pulami>platformy Apache Spark.
- Wybierz pozycję Nowy
- W polu Nazwa puli platformy Apache Spark wprowadź wartość Spark1.
- W polu Rozmiar węzła wprowadź wartość Mała.
- W polu Liczba węzłów ustaw wartość minimalną na 3 i maksymalną wartość 3
- Wybierz pozycję Przeglądanie + tworzenie>Utwórz. Pula platformy Apache Spark będzie gotowa w ciągu kilku sekund.
Omówienie bezserwerowych pul platformy Apache Spark
Bezserwerowa pula Spark to sposób wskazywania, jak użytkownik chce pracować z platformą Spark. Po rozpoczęciu korzystania z puli zostanie utworzona sesja platformy Spark w razie potrzeby. Pula określa, ile zasobów platformy Spark będzie używanych przez tę sesję i jak długo sesja będzie trwać przed automatycznym wstrzymaniem. Płacisz za zasoby platformy Spark używane podczas tej sesji, a nie za samą pulę. Dzięki temu pula Platformy Spark umożliwia korzystanie z platformy Apache Spark bez zarządzania klastrami. Jest to podobne do sposobu działania bezserwerowej puli SQL.
Analizowanie danych taksówek w Nowym Jorku za pomocą puli platformy Spark
Uwaga
Upewnij się, że przykładowe dane zostały umieszczone na podstawowym koncie magazynu.
W programie Synapse Studio przejdź do centrum Programowanie .
Utwórz nowy notes.
Utwórz nową komórkę kodu i wklej następujący kod w tej komórce:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Zmodyfikuj identyfikator URI ładowania, aby odwoływać się do przykładowego pliku na koncie magazynu zgodnie ze schematem identyfikatora URI abfss.
W notesie w menu Dołączanie do wybierz utworzoną wcześniej pulę spark bezserwerową Spark1 .
Wybierz pozycję Uruchom w komórce. W razie potrzeby usługa Synapse uruchomi nową sesję platformy Spark, aby uruchomić tę komórkę. Jeśli potrzebna jest nowa sesja platformy Spark, początkowo utworzenie potrwa około 2 do 5 minut. Po utworzeniu sesji wykonanie komórki potrwa około 2 sekund.
Jeśli chcesz zobaczyć schemat ramki danych, uruchom komórkę z następującym kodem:
%%pyspark df.printSchema()
Ładowanie danych taksówek NYC do bazy danych Spark nyctaxi
Dane są dostępne za pośrednictwem ramki danych o nazwie df. Załaduj ją do bazy danych Spark o nazwie nyctaxi.
Dodaj nową komórkę kodu do notesu, a następnie wprowadź następujący kod:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analizowanie danych taksówek w Nowym Jorku przy użyciu platformy Spark i notesów
Utwórz nową komórkę kodu i wprowadź następujący kod.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Uruchom komórkę, aby wyświetlić dane taksówek w Nowym Jorku załadowane do bazy danych nyctaxi Spark.
Utwórz nową komórkę kodu i wprowadź następujący kod. Przeanalizujemy te dane i zapiszemy wyniki w tabeli o nazwie nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
W wynikach komórki wybierz pozycję Wykres , aby wyświetlić dane zwizualizowane.