Compreender os blocos de anotações e pipelines do Azure Databricks

Concluído

No Azure Databricks, você pode usar blocos de anotações para executar código escrito em Python, Scala, SQL e outras linguagens para ingerir e processar dados. Os blocos de anotações fornecem uma interface interativa na qual você pode executar células de código individuais e usar Markdown para incluir anotações e anotações.

Em muitas soluções de engenharia de dados, o código que é escrito e testado interativamente pode ser posteriormente incorporado a uma carga de trabalho de processamento de dados automatizado. No Azure, essas cargas de trabalho geralmente são implementadas como pipelines no Azure Data Factory, no qual uma ou mais atividades são usadas para orquestrar uma série de tarefas que podem ser executadas sob demanda, em intervalos agendados ou em resposta a um evento (como novos dados sendo carregados em uma pasta em um data lake). O Azure Data Factory dá suporte a uma atividade do Bloco de Anotações que pode ser usada para automatizar a execução autônoma de um bloco de anotações em um espaço de trabalho do Azure Databricks.

A digram showing an Azure Data Factory pipeline with an activity that calls a notebook in Azure Databricks.

Nota

A mesma atividade do Bloco de Anotações está disponível em pipelines criados no Azure Synapse Analytics.