Guia de início rápido: analisar com o Apache Spark
Neste tutorial, você aprenderá as etapas básicas para carregar e analisar dados com o Apache Spark for Azure Synapse.
Pré-requisitos
Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.
Criar um pool do Apache Spark sem servidor
- No Synapse Studio, no painel esquerdo, selecione Gerenciar>pools do Apache Spark.
- Selecione Novo
- Para o nome do pool do Apache Spark, digite Spark1.
- Para Tamanho do nó , digite Pequeno.
- Para Número de nós Defina o mínimo para 3 e o máximo para 3
- Selecione Rever + criar>Criar. Seu pool Apache Spark estará pronto em alguns segundos.
Entenda os pools do Apache Spark sem servidor
Um pool do Spark sem servidor é uma maneira de indicar como um usuário deseja trabalhar com o Spark. Quando você começa a usar um pool, uma sessão do Spark é criada, se necessário. O pool controla quantos recursos do Spark serão usados por essa sessão e quanto tempo a sessão durará antes de ser pausada automaticamente. Você paga pelos recursos de faísca usados durante essa sessão e não pelo pool em si. Desta forma, um pool do Spark permite que você use o Apache Spark sem gerenciar clusters. Isso é semelhante ao funcionamento de um pool SQL sem servidor.
Analise os dados do NYC Taxi com um pool Spark
Nota
Certifique-se de ter colocado os dados de exemplo na conta de armazenamento principal.
No Synapse Studio, vá para o hub Develop .
Crie um novo bloco de notas.
Crie uma nova célula de código e cole o seguinte código nessa célula:
%%pyspark df = spark.read.load('abfss://users@contosolake.dfs.core.windows.net/NYCTripSmall.parquet', format='parquet') display(df.limit(10))
Modifique o URI de carga, para que ele faça referência ao arquivo de exemplo em sua conta de armazenamento de acordo com o esquema de URI abfss.
No bloco de anotações, no menu Anexar a , escolha o pool de faíscas sem servidor Spark1 que criamos anteriormente.
Selecione Executar na célula. Synapse iniciará uma nova sessão do Spark para executar esta célula, se necessário. Se uma nova sessão do Spark for necessária, inicialmente levará cerca de 2 a 5 minutos para ser criada. Uma vez que uma sessão é criada, a execução da célula levará cerca de 2 segundos.
Se você quiser apenas ver o esquema do dataframe, execute uma célula com o seguinte código:
%%pyspark df.printSchema()
Carregue os dados do NYC Taxi no banco de dados nyctaxi do Spark
Os dados estão disponíveis através do dataframe denominado df. Carregue-o em um banco de dados do Spark chamado nyctaxi.
Adicione uma nova célula de código ao bloco de notas e, em seguida, introduza o seguinte código:
%%pyspark spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi") df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
Analise os dados do NYC Taxi usando o Spark e notebooks
Crie uma nova célula de código e insira o código a seguir.
%%pyspark df = spark.sql("SELECT * FROM nyctaxi.trip") display(df)
Execute a célula para mostrar os dados do NYC Taxi que carregamos no banco de dados nyctaxi Spark.
Crie uma nova célula de código e insira o código a seguir. Vamos analisar esses dados e salvar os resultados em uma tabela chamada nyctaxi.passengercountstats.
%%pyspark df = spark.sql(""" SELECT passenger_count, SUM(trip_distance) as SumTripDistance, AVG(trip_distance) as AvgTripDistance FROM nyctaxi.trip WHERE trip_distance > 0 AND passenger_count > 0 GROUP BY passenger_count ORDER BY passenger_count """) display(df) df.write.saveAsTable("nyctaxi.passengercountstats")
Nos resultados da célula, selecione Gráfico para ver os dados visualizados.