Partilhar via


Explore dados em seu banco de dados espelhado com blocos de anotações

Você pode explorar os dados replicados de seu banco de dados espelhado com consultas do Spark em blocos de anotações.

Os notebooks são um poderoso item de código para você desenvolver trabalhos do Apache Spark e experimentos de aprendizado de máquina em seus dados. Você pode usar cadernos no Fabric Lakehouse para explorar suas mesas espelhadas.

Pré-requisitos

Criar um atalho

Primeiro, você precisa criar um atalho de suas mesas espelhadas para o Lakehouse e, em seguida, criar blocos de anotações com consultas do Spark em seu Lakehouse.

  1. No portal Fabric, abra a Engenharia de Dados.

  2. Se você ainda não tem uma Lakehouse criada, selecione Lakehouse e crie uma nova Lakehouse dando-lhe um nome.

  3. Selecione Obter dados -> Novo atalho.

  4. Selecione Microsoft OneLake.

  5. Você pode ver todos os seus bancos de dados espelhados no espaço de trabalho Malha.

  6. Selecione o banco de dados espelhado que você deseja adicionar ao seu Lakehouse, como um atalho.

  7. Selecione as tabelas desejadas no banco de dados espelhado.

  8. Selecione Avançar e, em seguida , Criar.

  9. No Explorer, agora você pode ver os dados da tabela selecionada em sua Lakehouse. Captura de tela do portal Fabric, mostrando o Lakehouse Explorer exibindo as tabelas e os dados espelhados do banco de dados.

    Gorjeta

    Você pode adicionar outros dados no Lakehouse diretamente ou trazer atalhos como S3, ADLS Gen2. Você pode navegar até o ponto de extremidade de análise SQL do Lakehouse e unir os dados em todas essas fontes com dados espelhados perfeitamente.

  10. Para explorar esses dados no Spark, selecione os ... pontos ao lado de qualquer tabela. Selecione Novo bloco de anotações ou Bloco de anotações existente para iniciar a análise. Captura de tela do portal do Fabric mostrando o menu de contexto para abrir uma tabela de banco de dados espelhada em um bloco de anotações.

  11. O bloco de anotações será aberto automaticamente e carregará o dataframe com uma SELECT ... LIMIT 1000 consulta SQL do Spark.

    • Os novos computadores portáteis podem demorar até dois minutos a carregar completamente. Você pode evitar esse atraso usando um bloco de anotações existente com uma sessão ativa. Captura de tela do portal do Fabric mostrando dados de uma tabela de banco de dados espelhada em um novo bloco de anotações com uma consulta SQL do Spark.