Mapeando o fluxo de dados Modo de depuração
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Descrição geral
O modo de depuração do fluxo de dados de mapeamento do Azure Data Factory e do Synapse Analytics permite que você assista interativamente à transformação da forma de dados enquanto cria e depura seus fluxos de dados. A sessão de depuração pode ser usada em sessões de design de fluxo de dados e durante a execução de depuração de pipeline de fluxos de dados. Para ativar o modo de depuração, use o botão Depuração de Fluxo de Dados na barra superior da tela de fluxo de dados ou da tela de pipeline quando tiver atividades de fluxo de dados.
Depois de ativar o controle deslizante, você será solicitado a selecionar qual configuração de tempo de execução de integração deseja usar. Se AutoResolveIntegrationRuntime for escolhido, um cluster com oito núcleos de computação geral com um tempo padrão de vida de 60 minutos será girado. Se você quiser permitir uma equipe mais ociosa antes que a sessão atinja o tempo limite, você pode escolher uma configuração de TTL mais alta. Para obter mais informações sobre tempos de execução de integração de fluxo de dados, consulte Integration Runtime performance.
Quando o modo de depuração estiver ativado, você criará interativamente seu fluxo de dados com um cluster Spark ativo. A sessão é encerrada assim que você desativa a depuração. Você deve estar ciente das cobranças por hora incorridas pelo Data Factory durante o tempo em que a sessão de depuração estiver ativada.
Na maioria dos casos, é uma boa prática criar seus fluxos de dados no modo de depuração para que você possa validar sua lógica de negócios e visualizar suas transformações de dados antes de publicar seu trabalho. Use o botão "Depurar" no painel de pipeline para testar seu fluxo de dados em um pipeline.
Nota
Cada sessão de depuração que um usuário inicia a partir da interface do usuário do navegador é uma nova sessão com seu próprio cluster do Spark. Você pode usar a visualização de monitoramento para sessões de depuração mostradas nas imagens anteriores para exibir e gerenciar sessões de depuração. Você será cobrado por cada hora que cada sessão de depuração estiver executando, incluindo o tempo TTL.
Este clipe de vídeo fala sobre dicas, truques e boas práticas para o modo de depuração de fluxo de dados.
Estado do cluster
O indicador de status do cluster na parte superior da superfície de design fica verde quando o cluster está pronto para depuração. Se o cluster já estiver quente, o indicador verde aparecerá quase instantaneamente. Se o cluster ainda não estava em execução quando você entrou no modo de depuração, o cluster do Spark executa uma inicialização a frio. O indicador gira até que o ambiente esteja pronto para depuração interativa.
Quando terminar a depuração, desligue o interruptor Depurar para que o cluster do Spark possa ser encerrado e você não será mais cobrado pela atividade de depuração.
Configurações de depuração
Depois de ativar o modo de depuração, você pode editar como um fluxo de dados visualiza dados. As configurações de depuração podem ser editadas clicando em "Configurações de depuração" na barra de ferramentas de tela do fluxo de dados. Você pode selecionar o limite de linha ou a fonte de arquivo a ser usada para cada uma das transformações de código-fonte aqui. Os limites de linha nessa configuração são apenas para a sessão de depuração atual. Você também pode selecionar o serviço vinculado de preparo a ser usado para uma fonte do Azure Synapse Analytics.
Se você tiver parâmetros em seu Fluxo de Dados ou em qualquer um de seus conjuntos de dados referenciados, poderá especificar quais valores usar durante a depuração selecionando a guia Parâmetros .
Use as configurações de amostragem aqui para apontar para arquivos de exemplo ou tabelas de dados de exemplo para que você não precise alterar seus conjuntos de dados de origem. Usando um arquivo ou tabela de exemplo aqui, você pode manter a mesma lógica e configurações de propriedade em seu fluxo de dados enquanto testa em relação a um subconjunto de dados.
O IR padrão usado para o modo de depuração em fluxos de dados é um pequeno nó de trabalho único de 4 núcleos com um nó de driver único de 4 núcleos. Isso funciona bem com amostras menores de dados ao testar sua lógica de fluxo de dados. Se você expandir os limites de linha em suas configurações de depuração durante a visualização de dados ou definir um número maior de linhas de amostra em sua origem durante a depuração de pipeline, convém considerar a configuração de um ambiente de computação maior em um novo Tempo de Execução de Integração do Azure. Em seguida, você pode reiniciar sua sessão de depuração usando o ambiente de computação maior.
Pré-visualização de dados
Com a depuração ativada, a guia Visualização de dados acende no painel inferior. Sem o modo de depuração ativado, o Fluxo de Dados mostra apenas os metadados atuais dentro e fora de cada uma das suas transformações na guia Inspecionar. A visualização de dados consultará apenas o número de linhas que você definiu como seu limite em suas configurações de depuração. Selecione Atualizar para atualizar a visualização de dados com base em suas transformações atuais. Se os dados de origem tiverem sido alterados, selecione Atualizar > rebusca da origem.
Você pode classificar colunas na visualização de dados e reorganizar colunas usando arrastar e soltar. Além disso, há um botão de exportação na parte superior do painel de visualização de dados que você pode usar para exportar os dados de visualização para um arquivo CSV para exploração de dados offline. Você pode usar esse recurso para exportar até 1.000 linhas de dados de visualização.
Nota
As fontes de arquivo limitam apenas as linhas que você vê, não as linhas que estão sendo lidas. Para conjuntos de dados muito grandes, é recomendável pegar uma pequena parte desse arquivo e usá-lo para o teste. Você pode selecionar um arquivo temporário em Configurações de depuração para cada fonte que é um tipo de conjunto de dados de arquivo.
Ao executar no Modo de Depuração no Fluxo de Dados, seus dados não serão gravados na transformação Coletor. Uma sessão de depuração destina-se a servir como um conjunto de teste para suas transformações. Os coletores não são necessários durante a depuração e são ignorados no fluxo de dados. Se você deseja testar a gravação dos dados em seu coletor, execute o fluxo de dados de um pipeline e use a execução de depuração de um pipeline.
A Pré-visualização de Dados é um instantâneo dos dados transformados utilizando limites de linha e amostragem de dados a partir de quadros de dados na memória do Spark. Portanto, os drivers de coletor não são utilizados ou testados nesse cenário.
Nota
A Pré-visualização de Dados apresenta a hora de acordo com a definição de localidade do browser.
Condições de junção de teste
Quando o teste de unidade ingressa, existe ou pesquisa transformações, certifique-se de usar um pequeno conjunto de dados conhecidos para o teste. Você pode usar a opção Debug Settings descrita anteriormente para definir um arquivo temporário a ser usado para seu teste. Isso é necessário porque, ao limitar ou amostrar linhas de um grande conjunto de dados, não é possível prever quais linhas e quais chaves são lidas no fluxo para teste. O resultado é não determinístico, o que significa que suas condições de junção podem falhar.
Ações rápidas
Depois de ver a visualização de dados, você pode gerar uma transformação rápida para digitar, remover ou fazer uma modificação em uma coluna. Selecione o cabeçalho da coluna e, em seguida, selecione uma das opções na barra de ferramentas de visualização de dados.
Depois de selecionar uma modificação, a visualização de dados será atualizada imediatamente. Selecione Confirmar no canto superior direito para gerar uma nova transformação.
Typecast e Modify gera uma transformação de Coluna Derivada e Remove gera uma transformação Select.
Nota
Se você editar seu Fluxo de Dados, precisará buscar novamente a visualização de dados antes de adicionar uma transformação rápida.
Definição de perfis de dados
Selecionar uma coluna na guia de visualização de dados e clicar em Estatísticas na barra de ferramentas de visualização de dados exibe um gráfico à direita da grade de dados com estatísticas detalhadas sobre cada campo. O serviço faz uma determinação com base na amostragem de dados de qual tipo de gráfico exibir. Os campos de cardinalidade alta usam como padrão gráficos NULL/NOT NULL, enquanto os dados categóricos e numéricos com baixa cardinalidade exibem gráficos de barras mostrando a frequência do valor dos dados. Você também vê o comprimento máximo/len dos campos de cadeia de caracteres, os valores mínimo/máximo em campos numéricos, o desenvolvimento padrão, os percentis, as contagens e a média.
Conteúdos relacionados
- Quando terminar de criar e depurar seu fluxo de dados, execute-o a partir de um pipeline.
- Ao testar seu pipeline com um fluxo de dados, use a opção de execução de execução de pipeline Debug run.