Fluxo de dados de mapeamento de depuração
Durante a criação de Mapeamento de Fluxos de Dados, você pode observar interativamente como as transformações de dados estão sendo executadas para que você possa depurá-las. Para usar essa funcionalidade, primeiro é necessário ativar o recurso "Depuração de fluxo de dados".
Clicar em Depurar provisionará os clusters do Spark necessários para interagir com as transformações do Fluxo de Dados de Mapeamento. Ao ativar a Depuração, você será solicitado a selecionar o Tempo de Execução de Integração que você precisa usar no ambiente. Se você selecionar AutoResolveIntegrationRuntime, um cluster com oito núcleos que estará disponível com um valor de tempo de vida de 60 minutos.
Nota
Normalmente, leva de 5 a 7 minutos para o cluster girar. Com esse modo ativado e os clusters do Spark em execução, você pode criar seu fluxo de dados passo a passo e exibir os dados à medida que eles são executados em cada fase de transformação.
Uma guia Visualização de dados está disponível no modo de depuração que permitirá que você visualize os dados em cada estágio do pipeline. Você pode visualizar os dados após cada transformação. O pré-visualizador de dados também fornece a capacidade de ações sobre os dados, como olhar para estatísticas descritivas dos dados, ou a capacidade de modificar os dados.
Finalmente, você pode usar as configurações de depuração para controlar o número de linhas retornadas no pré-visualizador de dados.
Nota
Recomenda-se limitar o número de linhas que retornam o suficiente para permitir que você confirme se os dados estão corretos. Quanto maior o conjunto de dados, mais tempo leva para retornar os resultados. Você também pode usar as configurações de depuração para especificar quaisquer valores de parâmetro que devem ser usados durante a execução do pipeline.