Partilhar via


Desenvolver soluções com fluxos de dados

Os fluxos de dados do Power BI são uma solução de preparação de dados focada na empresa que permite um ecossistema de dados pronto para consumo, reutilização e integração. Este artigo apresenta alguns cenários comuns, links para artigos e outras informações para ajudá-lo a entender e usar os fluxos de dados em todo o seu potencial.

Tenha acesso aos recursos Premium de fluxos de dados

Os fluxos de dados do Power BI em capacidades Premium fornecem muitos recursos importantes que ajudam a obter maior escala e desempenho para seus fluxos de dados, como:

  • Computação avançada, que acelera o desempenho do ETL e fornece recursos do DirectQuery.
  • Atualização incremental, que permite carregar dados alterados de uma fonte.
  • Entidades vinculadas, que você pode usar para fazer referência a outros fluxos de dados.
  • Entidades computadas, que você pode usar para criar blocos de construção composáveis de fluxos de dados que contêm mais lógica de negócios.

Por esses motivos, recomendamos que você use fluxos de dados em uma capacidade Premium sempre que possível. Os fluxos de dados usados em uma licença do Power BI Pro podem ser usados para casos de uso simples e de pequena escala.

Solução

Obter acesso a esses recursos Premium de fluxos de dados é possível de duas maneiras:

  • Designe uma capacidade Premium para um determinado espaço de trabalho e traga sua própria licença Pro para criar fluxos de dados aqui.
  • Traga sua própria licença Premium por usuário (PPU), que requer que outros membros do espaço de trabalho também possuam uma licença PPU.

Você não pode consumir fluxos de dados PPU (ou qualquer outro conteúdo) fora do ambiente PPU (como em Premium ou outras SKUs ou licenças).

Para capacidades Premium, seus consumidores de fluxos de dados no Power BI Desktop não precisam de licenças explícitas para consumir e publicar no Power BI. Mas para publicar em um espaço de trabalho ou compartilhar um modelo semântico resultante, você precisa de pelo menos uma licença Pro.

Para PPU, todos que criam ou consomem conteúdo PPU devem ter uma licença PPU. Esse requisito varia do resto do Power BI, pois você precisa licenciar explicitamente todos com PPU. Você não pode misturar capacidades Free, Pro ou mesmo Premium com conteúdo PPU, a menos que migre o espaço de trabalho para uma capacidade Premium.

A escolha de um modelo normalmente depende do tamanho e dos objetivos da sua organização, mas as diretrizes a seguir se aplicam.

Tipo de equipa Premium por capacidade Premium por utilizador
>5.000 usuários
<5.000 usuários

Para equipes pequenas, o PPU pode preencher a lacuna entre Free, Pro e Premium por capacidade. Se você tiver necessidades maiores, usar uma capacidade Premium com usuários que têm licenças Pro é a melhor abordagem.

Crie fluxos de dados do usuário com segurança aplicada

Imagine que você precisa criar fluxos de dados para consumo, mas tem requisitos de segurança:

Diagrama que descreve o cenário.

Nesse cenário, você provavelmente tem dois tipos de espaços de trabalho:

  • Espaços de trabalho back-end onde você desenvolve fluxos de dados e cria a lógica de negócios.

  • Espaços de trabalho de usuário onde você deseja expor alguns fluxos de dados ou tabelas a um grupo específico de usuários para consumo:

    • O espaço de trabalho do usuário contém tabelas vinculadas que apontam para os fluxos de dados no espaço de trabalho back-end.
    • Os usuários têm acesso do visualizador ao espaço de trabalho do consumidor e nenhum acesso ao espaço de trabalho de back-end.
    • Quando um usuário usa o Power BI Desktop para acessar um fluxo de dados no espaço de trabalho do usuário, ele pode ver o fluxo de dados. Mas como o fluxo de dados aparece vazio no Navegador, as tabelas vinculadas não são exibidas.

Compreender as tabelas vinculadas

As tabelas vinculadas são simplesmente um ponteiro para as tabelas de fluxo de dados originais e herdam a permissão da fonte. Se o Power BI permitir que a tabela vinculada use a permissão de destino, qualquer usuário poderá contornar a permissão de origem criando uma tabela vinculada no destino que aponte para a origem.

Solução: Use tabelas computadas

Se você tiver acesso ao Power BI Premium, poderá criar uma tabela computada no destino que se refere à tabela vinculada, que tem uma cópia dos dados da tabela vinculada. Pode remover colunas através de projeções e remover linhas através de filtros. O usuário com permissão no espaço de trabalho de destino pode acessar dados por meio desta tabela.

A linhagem para indivíduos privilegiados também mostra o espaço de trabalho referenciado e permite que os usuários se vinculem novamente para entender completamente o fluxo de dados pai. Para aqueles usuários que não são privilegiados, a privacidade ainda é respeitada. Apenas o nome do espaço de trabalho é mostrado.

O diagrama a seguir ilustra essa configuração. À esquerda está o padrão arquitetônico. À direita está um exemplo que mostra os dados de vendas divididos e protegidos por região.

Diagrama que descreve como usar tabelas vinculadas e fluxos de dados.

Reduza os tempos de atualização dos fluxos de dados

Imagine que você tem um fluxo de dados grande, mas deseja criar modelos semânticos a partir desse fluxo de dados e diminuir o tempo necessário para atualizá-lo. Normalmente, as atualizações levam muito tempo para serem concluídas da fonte de dados para fluxos de dados para o modelo semântico. Atualizações longas são difíceis de gerenciar ou manter.

Solução: use tabelas com Habilitar carregamento explicitamente configurado para tabelas referenciadas e não desabilite a carga

O Power BI dá suporte à orquestração simples para fluxos de dados, conforme definido em Compreender e otimizar a atualização de fluxos de dados. Tirar proveito da orquestração requer explicitamente ter quaisquer fluxos de dados downstream configurados para Habilitar Carga.

A desativação da carga normalmente é apropriada apenas quando a sobrecarga de carregar mais consultas cancela o benefício da entidade com a qual você está desenvolvendo.

Embora desabilitar a carga signifique que o Power BI não avalia essa determinada consulta, quando usada como ingredientes, ou seja, referenciada em outros fluxos de dados, isso também significa que o Power BI não a trata como uma tabela existente onde podemos fornecer um ponteiro e executar otimizações de dobragem e consulta. Nesse sentido, executar transformações como uma junção ou mesclagem é meramente uma junção ou mesclagem de duas consultas de fonte de dados. Essas operações podem ter um efeito negativo no desempenho, porque o Power BI deve recarregar totalmente a lógica já computada novamente e, em seguida, aplicar mais lógica.

Para simplificar o processamento de consultas do seu fluxo de dados e garantir que todas as otimizações do mecanismo estejam ocorrendo, habilite a carga e garanta que o mecanismo de computação nos fluxos de dados do Power BI Premium esteja definido na configuração padrão, que é Otimizado.

Habilitar a carga também permite que você mantenha a exibição completa da linhagem, porque o Power BI considera um fluxo de dados de carga não habilitado como um novo item. Se a linhagem for importante para você, não desative a carga para entidades ou fluxos de dados conectados a outros fluxos de dados.

Reduzir os tempos de atualização para modelos semânticos

Imagine que você tem um fluxo de dados grande, mas deseja criar modelos semânticos a partir dele e diminuir a orquestração. As atualizações levam muito tempo para serem concluídas, desde a fonte de dados até fluxos de dados e modelos semânticos, o que aumenta a latência.

Solução: Use fluxos de dados DirectQuery

O DirectQuery pode ser usado sempre que a configuração ECE (enhanced compute engine) de um espaço de trabalho é configurada explicitamente como Ativado. Essa configuração é útil quando você tem dados que não precisam ser carregados diretamente em um modelo do Power BI. Se você estiver configurando o ECE para estar Ativado pela primeira vez, as alterações que permitem o DirectQuery ocorrerão durante a próxima atualização. Você precisa atualizá-lo quando você habilitá-lo para que as alterações ocorram imediatamente. As atualizações na carga inicial do fluxo de dados podem ser mais lentas porque o Power BI grava dados no armazenamento e em um mecanismo SQL gerenciado.

Para resumir, o uso do DirectQuery com fluxos de dados habilita os seguintes aprimoramentos para seus processos do Power BI e fluxos de dados:

  • Evite agendas de atualização separadas: o DirectQuery se conecta diretamente a um fluxo de dados, o que elimina a necessidade de criar um modelo semântico importado. Como tal, usar o DirectQuery com seus fluxos de dados significa que você não precisa mais de agendas de atualização separadas para o fluxo de dados e o modelo semântico para garantir que seus dados sejam sincronizados.
  • Filtragem de dados: o DirectQuery é útil para trabalhar em uma exibição filtrada de dados dentro de um fluxo de dados. Se quiser filtrar dados e, dessa forma, trabalhar com um subconjunto menor dos dados em seu fluxo de dados, você pode usar o DirectQuery (e o ECE) para filtrar dados de fluxo de dados e trabalhar com o subconjunto filtrado de que precisa.

Geralmente, o uso do DirectQuery negocia dados atualizados em seu modelo semântico com um desempenho de relatório mais lento em comparação com o modo de importação. Considere esta abordagem apenas quando:

  • Seu caso de uso requer dados de baixa latência provenientes do seu fluxo de dados.
  • Os dados de fluxo de dados são grandes.
  • Uma importação seria demasiado morosa.
  • Você está disposto a trocar o desempenho armazenado em cache por dados atualizados.

Solução: use o conector de fluxos de dados para habilitar o dobramento de consultas e a atualização incremental para importação

O conector unificado de fluxos de dados pode reduzir significativamente o tempo de avaliação para etapas executadas em entidades computadas, como a execução de junções, distintas, filtros e agrupar por operações. Existem dois benefícios específicos:

  • Os usuários downstream que se conectam ao conector Dataflows no Power BI Desktop podem aproveitar o melhor desempenho em cenários de criação porque o novo conector oferece suporte à dobragem de consultas.
  • As operações de atualização do modelo semântico também podem ser dobradas para o mecanismo de computação aprimorado, o que significa que até mesmo a atualização incremental de um modelo semântico pode dobrar para um fluxo de dados. Esse recurso melhora o desempenho de atualização e potencialmente diminui a latência entre os ciclos de atualização.

Para habilitar esse recurso para qualquer fluxo de dados Premium, verifique se o mecanismo de computação está explicitamente definido como Ativado. Em seguida, use o conector Dataflows no Power BI Desktop. Você deve usar a versão de agosto de 2021 do Power BI Desktop ou posterior para aproveitar esse recurso.

Para usar esse recurso para soluções existentes, você deve ter uma assinatura Premium ou Premium por usuário. Também pode ser necessário fazer algumas alterações no fluxo de dados, conforme descrito em Usando o mecanismo de computação aprimorado. Tem de atualizar quaisquer consultas existentes do Power Query para utilizar o novo conector substituindo PowerBI.Dataflows na secção Origem por PowerPlatform.Dataflows.

Criação de fluxo de dados complexo no Power Query

Imagine que você tem um fluxo de dados com milhões de linhas de dados, mas deseja criar lógicas de negócios complexas e transformações com ele. Você deseja seguir as práticas recomendadas para trabalhar com grandes fluxos de dados. Você também precisa que as visualizações de fluxo de dados sejam executadas rapidamente. Mas, você tem dezenas de colunas e milhões de linhas de dados.

Solução: Use o modo de exibição Esquema

Você pode usar o modo de exibição Esquema, que foi projetado para otimizar seu fluxo quando você trabalha em operações no nível do esquema, colocando as informações da coluna da consulta na frente e no centro. A visualização de esquema fornece interações contextuais para moldar sua estrutura de dados. A visualização de esquema também fornece operações de latência mais baixa porque requer apenas que os metadados da coluna sejam calculados e não os resultados completos dos dados.

Trabalhar com fontes de dados maiores

Imagine que você executa uma consulta no sistema de origem, mas não quer fornecer acesso direto ao sistema ou democratizar o acesso. Você planeja colocá-lo em um fluxo de dados.

Solução 1: Use um modo de exibição para a consulta ou otimize a consulta

Usando uma fonte de dados otimizada e consulta é sua melhor opção. Muitas vezes, a fonte de dados opera melhor com consultas destinadas a ela. O Power Query avança as capacidades de dobragem de consulta para delegar estas cargas de trabalho. O Power BI também fornece indicadores de dobragem por etapas no Power Query Online. Leia mais sobre os tipos de indicadores na documentação de indicadores step-folding.

Solução 2: Usar consulta nativa

Você também pode usar a função Value.NativeQuery() M. Você define EnableFolding=true no terceiro parâmetro. O Native Query está documentado neste site para o conector Postgres. Ele também funciona para o conector do SQL Server.

Solução 3: Dividir o fluxo de dados em fluxos de dados de ingestão e consumo para tirar proveito do ECE e das Entidades Vinculadas

Ao dividir um fluxo de dados em fluxos de dados de ingestão e consumo separados, você pode aproveitar o ECE e as Entidades Vinculadas. Você pode saber mais sobre esse padrão e outros na documentação de práticas recomendadas.

Garantir que os clientes usem fluxos de dados sempre que possível

Imagine que você tem muitos fluxos de dados que atendem a propósitos comuns, como dimensões conformadas, como clientes, tabelas de dados, produtos e geografias. Os fluxos de dados já estão disponíveis na faixa de opções do Power BI. Idealmente, você deseja que os clientes usem principalmente os fluxos de dados que você criou.

Solução: use o endosso para certificar e promover fluxos de dados

Para saber mais sobre como funciona o endosso, consulte Endosso: promovendo e certificando conteúdo do Power BI.

Programabilidade e automação em fluxos de dados do Power BI

Imagine que você tem requisitos de negócios para automatizar importações, exportações ou atualizações, além de mais orquestração e ações fora do Power BI. Você tem algumas opções para habilitar isso, conforme descrito na tabela a seguir.

Tipo Mecanismo
Use os modelos PowerAutomatic. Sem código
Use scripts de automação no PowerShell. Scripts de automatização
Crie sua própria lógica de negócios usando as APIs. API REST

Para obter mais informações sobre atualização, consulte Compreendendo e otimizando a atualização de fluxos de dados.

Garantir a proteção dos ativos de dados a jusante

Você pode usar rótulos de confidencialidade para aplicar uma classificação de dados e quaisquer regras configuradas em itens downstream que se conectam aos seus fluxos de dados. Para saber mais sobre rótulos de sensibilidade, consulte rótulos de sensibilidade no Power BI. Para rever a herança, consulte Herança descendente de rótulo de sensibilidade no Power BI.

Suporte multi-geo

Muitos clientes hoje têm a necessidade de atender aos requisitos de soberania e residência de dados. Você pode concluir uma configuração manual para seu espaço de trabalho de fluxos de dados para ser multi-geo.

Os fluxos de dados suportam multi-geo quando usam o recurso traga sua própria conta de armazenamento. Esse recurso é descrito em Configurando o armazenamento de fluxo de dados para usar o Azure Data Lake Gen 2. O espaço de trabalho deve estar vazio antes de ser anexado para esse recurso. Com essa configuração específica, você pode armazenar dados de fluxo de dados em regiões geográficas específicas de sua escolha.

Certifique-se de proteger os ativos de dados por trás de uma rede virtual

Muitos clientes hoje têm a necessidade de proteger seus ativos de dados por trás de um ponto de extremidade privado. Para fazer isso, use redes virtuais e um gateway para permanecer em conformidade. A tabela a seguir descreve o suporte de rede virtual atual e explica como usar fluxos de dados para manter a conformidade e proteger seus ativos de dados.

Cenário Status
Leia fontes de dados de rede virtual por meio de um gateway local. Suportado através de um gateway local
Grave dados em uma conta de rótulo de confidencialidade atrás de uma rede virtual usando um gateway local. Ainda não suportado

Os seguintes artigos fornecem mais informações sobre fluxos de dados e o Power BI: