Obter dados de streaming no lakehouse e acessar com o ponto de extremidade de análise do SQL

Artigo
11/19/2024

Este início rápido explica como criar uma Definição de Trabalho do Spark que contém código Python com o Streaming Estruturado do Spark para obter dados em um lakehouse e, em seguida, servi-los por meio de um ponto de extremidade de análise do SQL. Depois de concluir este início rápido, você terá uma Definição de Trabalho do Spark que é executada continuamente e o ponto de extremidade de análise do SQL pode exibir os dados de entrada.

Executar um script do Python

Use o código Python a seguir que usa o streaming estruturado do Spark para obter dados em uma tabela lakehouse.

import sys
from pyspark.sql import SparkSession

if __name__ == "__main__":
    spark = SparkSession.builder.appName("MyApp").getOrCreate()

    tableName = "streamingtable"
    deltaTablePath = "Tables/" + tableName

    df = spark.readStream.format("rate").option("rowsPerSecond", 1).load()

    query = df.writeStream.outputMode("append").format("delta").option("path", deltaTablePath).option("checkpointLocation", deltaTablePath + "/checkpoint").start()
    query.awaitTermination()

Salve o script como arquivo Python (.py) no computador local.

Criar um lakehouse

Use as seguintes etapas para criar um lakehouse:

Entre no portal do Microsoft Fabric.
Alterne para a experiência de Engenharia de Dados.
Navegue até o workspace desejado ou crie um novo, se necessário.
Para criar uma lakehouse, selecione Novo item no workspace e selecione Lakehouse.
Insira o nome do lakehouse e selecione Criar.

Criar uma Definição de Trabalho do Spark

Execute as etapas a seguir para criar uma Definição de Trabalho do Spark:

No mesmo workspace em que você criou um lakehouse, selecione o ícone Criar no menu à esquerda.
Em "Engenharia de Dados", selecione Definição de Trabalho do Spark.
Insira o nome da Definição de Trabalho do Spark e selecione Criar.
Selecione Carregar e, então, selecione o arquivo Python que você criou na etapa anterior.
Em Referência do Lakehouse , escolha o lakehouse que você criou.

Definir política de repetição para Definição de Trabalho do Spark

Use as seguintes etapas para definir a política de repetição para sua Definição de Trabalho do Spark:

No menu superior, selecione o ícone Configuração .
Abra a guia Otimização e defina o gatilho Política de Repetição como Ativado.
Defina o máximo de tentativas de repetição ou marcar Permitir tentativas ilimitadas.
Especifique o tempo entre cada tentativa de repetição e selecione Aplicar.

Observação

Há um limite de tempo de vida de 90 dias para a configuração da política de repetição. Depois que a política de repetição estiver habilitada, o trabalho será reiniciado de acordo com a política dentro de 90 dias. Após esse período, a política de repetição deixará de funcionar automaticamente e o trabalho será encerrado. Em seguida, os usuários precisarão reiniciar manualmente o trabalho, o que, por sua vez, reabilitará a política de repetição.

Executar e monitorar a Definição de Trabalho do Spark

No menu superior, selecione o ícone Executar.
Verifique se a Definição do Trabalho do Spark foi enviada com êxito e em execução.

Exibir dados usando um ponto de extremidade de análise do SQL

No modo de exibição do workspace, selecione o Lakehouse.
No canto direito, selecione Lakehouse e selecione Ponto de extremidade de análise do SQL.
Na exibição ponto de extremidade de análise do SQL em Tabelas, selecione a tabela que o script usa para obter dados. Em seguida, você pode visualizar seus dados do ponto de extremidade de análise do SQL.

Compartilhar via

Obter dados de streaming no lakehouse e acessar com o ponto de extremidade de análise do SQL

Executar um script do Python

Criar um lakehouse

Criar uma Definição de Trabalho do Spark

Definir política de repetição para Definição de Trabalho do Spark

Executar e monitorar a Definição de Trabalho do Spark

Exibir dados usando um ponto de extremidade de análise do SQL

Comentários

Recursos adicionais

Compartilhar via

Obter dados de streaming no lakehouse e acessar com o ponto de extremidade de análise do SQL

Executar um script do Python

Criar um lakehouse

Criar uma Definição de Trabalho do Spark

Definir política de repetição para Definição de Trabalho do Spark

Executar e monitorar a Definição de Trabalho do Spark

Exibir dados usando um ponto de extremidade de análise do SQL

Conteúdo relacionado

Comentários

Recursos adicionais