Tutorial: Analisar dados em uma conta de armazenamento
Neste tutorial, você aprenderá a analisar dados localizados em uma conta de armazenamento.
Até agora, abordamos cenários em que os dados residem em bancos de dados no espaço de trabalho. Agora vamos mostrar-lhe como trabalhar com ficheiros em contas de armazenamento. Nesse cenário, usaremos a conta de armazenamento principal do espaço de trabalho e do contêiner que especificamos ao criar o espaço de trabalho.
- O nome da conta de armazenamento: contosolake
- O nome do contêiner na conta de armazenamento: usuários
Criar ficheiros CSV e Parquet na conta de armazenamento
Execute o código a seguir em um bloco de anotações em uma nova célula de código. Ele cria um arquivo CSV e um arquivo parquet na conta de armazenamento.
Gorjeta
Esta tabela foi criada anteriormente no início rápido, e você pode encontrar as etapas aqui.
%%pyspark
df = spark.sql("SELECT * FROM nyctaxi.passengercountstats")
df = df.repartition(1) # This ensures we'll get a single file during write()
df.write.mode("overwrite").csv("/NYCTaxi/PassengerCountStats_csvformat")
df.write.mode("overwrite").parquet("/NYCTaxi/PassengerCountStats_parquetformat")
Analisar dados numa conta de armazenamento
Você pode analisar os dados em sua conta padrão do Azure Data Lake Storage (ADLS) Gen2 do espaço de trabalho ou pode vincular uma conta de armazenamento ADLS Gen2 ou Blob ao seu espaço de trabalho por meio de "Gerenciar", > "Serviços Vinculados", > "Novo" (As próximas etapas se referirão à conta principal do ADLS Gen2).
No Synapse Studio, vá para o hub de dados e selecione Vinculado.
Vá para Azure Data Lake Storage Gen2>myworkspace (Primary - contosolake).
Selecione usuários (Principal). Você deve ver a pasta NYCTaxi . Dentro você deve ver duas pastas chamadas PassengerCountStats_csvformat e PassengerCountStats_parquetformat.
Abra a pasta PassengerCountStats_parquetformat . No interior, há um arquivo de parquet com um nome como
part-00000-2638e00c-0790-496b-a523-578da9a15019-c000.snappy.parquet
.Clique com o botão direito do mouse em .parquet, selecione Novo bloco de anotações e selecione Carregar para DataFrame. Um novo bloco de anotações é criado com uma célula como esta:
%%pyspark abspath = 'abfss://users@contosolake.dfs.core.windows.net/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet' df = spark.read.load(abspath, format='parquet') display(df.limit(10))
Anexe à piscina Spark chamada Spark1. Execute a célula. Se você encontrar um erro relacionado à falta de núcleos, outra sessão pode estar usando este pool de faíscas este pool de faíscas. Cancele todas as sessões existentes e tente novamente.
Selecione voltar para a pasta de usuários . Clique com o botão direito do mouse no arquivo .parquet novamente e selecione Novo script>SQL SELECT TOP 100 rows. Ele cria um script SQL como este:
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://contosolake.dfs.core.windows.net/users/NYCTaxi/PassengerCountStats_parquetformat/part-00000-1f251a58-d8ac-4972-9215-8d528d490690-c000.snappy.parquet', FORMAT='PARQUET' ) AS [result]
Na janela de script, verifique se o campo Conectar a está definido como o pool SQL sem servidor interno .
Execute o script.