Transformação de classificação no fluxo de dados de mapeamento
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
Os fluxos de dados estão disponíveis nos pipelines do Azure Data Factory e do Azure Synapse. Este artigo se aplica ao fluxo de dados de mapeamento. Se você for iniciante nas transformações, veja o artigo introdutório Transformar dados usando um fluxo de dados de mapeamento.
A transformação de classificação permite que você classifique as linhas de entrada no fluxo de dados atual. Você pode escolher colunas individuais e classificá-las em ordem crescente ou decrescente.
Observação
Os fluxos de dados de mapeamento são executados em clusters do Spark que distribuem dados entre vários nós e partições. Se você optar por reparticionar seus dados em uma transformação subsequente, poderá perder sua classificação devido a essa recombinação de dados. A melhor maneira de manter a ordem de classificação em seu fluxo de dados é definir uma única partição na guia Otimizar na transformação e manter a transformação de Classificação o mais próximo possível do Coletor.
Configuração
Não diferencia maiúsculas de minúsculas: se você deseja ignorar maiúsculas e minúsculas ao classificar uma cadeia de caracteres ou campos de texto
Classificar Somente Dentro das Partições: à medida que os fluxos de dados são executados no Spark, cada fluxo de dados é dividido em partições. Essa configuração classifica os dados somente dentro das partições de entrada em vez de classificar todo o fluxo de dados.
Condições de classificação: escolha quais colunas você está classificando e em qual ordem a classificação acontece. A ordem determina a prioridade de classificação. Escolha se os nulos aparecerão ou não no início ou no final do fluxo de dados.
Colunas computadas
Para modificar ou extrair um valor de coluna antes de aplicar a classificação, passe o mouse sobre a coluna e selecione "coluna computada". Isso abrirá o construtor de expressões para criar uma expressão para a operação de classificação em vez de usar um valor de coluna.
Script de fluxo de dados
Sintaxe
<incomingStream>
sort(
desc(<sortColumn1>, { true | false }),
asc(<sortColumn2>, { true | false }),
...
) ~> <sortTransformationName<>
Exemplo
O script de fluxo de dados para a configuração de classificação acima está no trecho de código abaixo.
BasketballStats sort(desc(PTS, true),
asc(Age, true)) ~> Sort1
Conteúdo relacionado
Após a classificação, talvez você queira usar a Transformação de Agregação