Práticas recomendadas para reutilização de fluxos de dados em ambientes e espaços de trabalho
Este artigo discute uma coleção de práticas recomendadas para reutilizando fluxos de dados de forma eficaz e eficiente. Leia este artigo para evitar armadilhas de design e possíveis problemas de desempenho à medida que você desenvolve fluxos de dados para reutilização.
Separar fluxos de dados de transformação de dados de fluxos de dados de preparo/extração
Se um fluxo de dados executar todas as ações, será difícil reutilizar suas tabelas em outros fluxos de dados ou para outras finalidades. Os melhores fluxos de dados a serem reutilizados são os fluxos de dados que fazem apenas algumas ações. Criar fluxos de dados especializados em uma tarefa específica é uma das melhores maneiras de reutilizá-los. Se você tiver um conjunto de fluxos de dados usado como fluxos de dados de preparo, a única ação disponível será extrair os dados no estado em que se encontram do sistema de origem. Esses fluxos de dados podem ser reutilizados em vários outros fluxos de dados.
Se você tiver fluxos de dados de transformação de dados, poderá dividi-los em fluxos de dados que fazem transformações comuns. Cada fluxo de dados pode fazer apenas algumas ações. Essas poucas ações por fluxo de dados garantem que a saída desse fluxo de dados seja reutilizável por outros fluxos de dados.
Imagem com dados sendo extraídos de uma fonte de dados para fluxos de dados intermediários, em que as tabelas são armazenadas no Dataverse ou no Azure Data Lake Storage. Em seguida, os dados são movidos para fluxos de dados de transformação em que os dados são transformados e convertidos na estrutura do data warehouse. Por fim, os dados são carregados em um modelo semântico do Power BI.
Usar várias áreas de trabalho
Cada workspace (ou ambiente) está disponível somente para membros desse workspace. Se você criar todos os seus fluxos de dados em um workspace, estará minimizando a reutilização de seus fluxos de dados. Você pode ter alguns espaços de trabalho genéricos para fluxos de dados que estão processando tabelas da empresa inteira. Você também pode ter um espaço de trabalho para os fluxos de dados processarem tabelas em vários departamentos. E você também pode ter alguns workspaces para fluxos de dados a serem usados somente em departamentos específicos.
Definir os níveis de acesso corretos em workspaces
Para dar acesso a fluxos de dados em outros espaços de trabalho para usar a saída de um fluxo de dados em um espaço de trabalho, basta dar a eles acesso de visualização no espaço de trabalho. Para saber mais sobre outras funções em um espaço de trabalho do Power BI, acesse Funções nos novos espaços de trabalho.
Endosso no fluxo de dados no Power BI
Pode haver muitos fluxos de dados criados em uma organização de locatários e pode ser difícil para os usuários saberem qual fluxo de dados é mais confiável. Os autores de um fluxo de dados ou os usuários que têm acesso de edição a ele podem endossar o fluxo de dados em três níveis: sem endosso, promovido ou certificado.
Esses níveis de endosso ajudam os usuários a encontrar fluxos de dados confiáveis com mais facilidade e rapidez. O fluxo de dados com um nível de endosso mais alto aparece primeiro. O administrador do Power BI pode delegar a capacidade de endossar fluxos de dados para o nível certificado para outras pessoas. Mais informações: Endosso – Como promover e certificar o conteúdo do Power BI
Separar tabelas em vários fluxos de dados
Você pode ter várias tabelas em um fluxo de dados. Um dos motivos pelos quais você pode dividir tabelas em vários fluxos de dados é o que você aprendeu anteriormente neste artigo sobre como separar os fluxos de dados de ingestão de dados e de transformação de dados. Outro bom motivo para ter tabelas em vários fluxos de dados é quando você deseja uma agenda de atualização diferente de outras tabelas.
No exemplo mostrado na imagem a seguir, a tabela de vendas precisa ser atualizada a cada quatro horas. A tabela de datas precisa ser atualizada apenas uma vez por dia para manter o registro de data atual atualizado. E uma tabela de mapeamento de produtos só precisa ser atualizada uma vez por semana. Se você tiver todas essas tabelas em um fluxo de dados, terá apenas uma opção de atualização para todas elas. No entanto, se você dividir essas tabelas em vários fluxos de dados, poderá agendar a atualização de cada fluxo de dados separadamente.
Bons candidatos de tabelas para tabelas de fluxo de dados
Ao desenvolver soluções usando o Power Query nas ferramentas da área de trabalho, você pode se perguntar; quais dessas tabelas são boas candidatas a serem movidas para um fluxo de dados? As melhores tabelas a serem movidas para o fluxo de dados são as tabelas que precisam ser usadas em mais de uma solução ou mais de um ambiente ou serviço. Por exemplo, a tabela Data mostrada na imagem a seguir precisa ser usada em dois arquivos separados do Power BI. Em vez de duplicar essa tabela em cada arquivo, você pode criar a tabela em um fluxo de dados como uma tabela e reutilizá-la nesses arquivos do Power BI.