Adicionar um destino de lakehouse a um fluxo de eventos
Este artigo mostra como adicionar um lakehouse como destino a um fluxo de eventos do Microsoft Fabric. Para um desempenho de streaming otimizado e consultas em tempo real, considere a possibilidade de transmitir dados para uma Eventhouse com adicionar o destino Eventhouse a um fluxo de eventos e, em seguida, habilite a Disponibilidade do Eventhouse OneLake.
Nota
Os recursos aprimorados são habilitados por padrão quando você cria fluxos de eventos agora. Se você tiver fluxos de eventos que foram criados usando recursos padrão, esses fluxos de eventos continuarão a funcionar. Você ainda pode editá-los e usá-los como de costume. Recomendamos que você crie um novo fluxo de eventos para substituir fluxos de eventos padrão para que possa aproveitar os recursos e benefícios adicionais dos fluxos de eventos aprimorados.
Importante
Há imposição de esquema para a escrita de dados numa tabela de destino lakehouse. Todas as novas gravações na tabela devem ser compatíveis com o esquema da tabela de destino no momento da gravação, garantindo a qualidade dos dados.
Quando a saída é gravada em uma nova tabela delta, o esquema da tabela é criado com base no primeiro registro. Todos os registros dos dados de saída são projetados no esquema da tabela existente.
Se os dados de entrada tiverem colunas que não estão no esquema de tabela existente, as colunas extras não serão incluídas nos dados gravados na tabela. Da mesma forma, se aos dados de entrada faltarem colunas que estão no esquema de tabela existente, as colunas ausentes serão gravadas na tabela com os valores definidos como nulos.
Pré-requisitos
- Acesso a um espaço de trabalho no modo de licença de capacidade Fabric ou no modo de licença de avaliação com permissão de Colaborador ou superior.
- Acesso ao espaço de trabalho onde sua casa do lago está localizada com permissões de Colaborador ou superior.
Nota
O número máximo de fontes e destinos para um eventstream é 11.
Adicionar uma casa de lago como destino
Para adicionar um destino lakehouse a um fluxo de eventos padrão ou derivado, siga estas etapas.
No modo de edição do seu fluxo de eventos, selecione Adicionar destino na faixa de opções e selecione Lakehouse na lista suspensa.
Conecte o nó lakehouse ao nó ou operador de streaming.
Na tela de configuração do Lakehouse, preencha as seguintes informações:
- Insira um nome de destino.
- Selecione o espaço de trabalho que contém sua casa do lago.
- Selecione um Lakehouse existente no espaço de trabalho especificado.
- Selecione uma tabela Delta existente ou crie uma nova para receber dados.
- Selecione o formato de dados de entrada que é enviado para sua casa do lago. Os formatos de dados suportados são JSON, Avro e CSV (com cabeçalho).
Selecione Avançadas.
Dois modos de ingestão estão disponíveis para um destino lakehouse. Com base no seu cenário, configure esses modos para otimizar como os fluxos de eventos do Fabric são escritos no lakehouse.
Linhas mínimas é o número mínimo de linhas que a casa do lago ingere em um único arquivo. O mínimo é 1 linha e o máximo é 2 milhões de linhas por arquivo. Quanto menor o número mínimo de linhas, mais arquivos o lakehouse cria durante a ingestão.
Duração máxima é a duração máxima que a casa do lago leva para ingerir um único arquivo. O mínimo é de 1 minuto e o máximo é de 2 horas. Quanto maior a duração, mais linhas são ingeridas em um arquivo.
Selecione Guardar.
Para implementar o destino lakehouse recém-adicionado, selecione Publicar.
Depois de concluir estas etapas, o destino do lakehouse fica disponível para visualização na Visualização dinâmica. No painel Detalhes, você pode selecionar o atalho Otimizar tabela no bloco de anotações para iniciar um trabalho do Apache Spark em um Bloco de Anotações, que consolida os pequenos arquivos de streaming dentro da tabela lakehouse de destino.
Nota
Ao configurar um Eventstream, a origem, a lógica de transformação e o destino normalmente são adicionados. Por padrão, ao publicar o Eventstream, os serviços de back-end para ingestão de dados e roteamento de dados começam com Now respectivamente. No entanto, a ingestão de dados pode começar mais rápido do que o roteamento de dados, fazendo com que alguns dados sejam ingeridos no Eventstream antes que o roteamento seja totalmente inicializado. Como resultado, esses dados podem não ser roteados para o destino.
Um exemplo comum é uma fonte CDC de banco de dados, onde os dados de instantâneo inicial podem permanecer no EventStream sem serem roteados para o destino.
Para atenuar isso, siga estas etapas:
Ao configurar um Eventhouse (processamento de eventos antes da ingestão) ou Lakehouse como destino, desmarque Ativar ingestão após adicionar a fonte de dados.
Ative manualmente a ingestão após a publicação do Eventstream.
Utilize a opção de hora personalizada para selecionar um carimbo de data/hora anterior, garantindo que os dados iniciais sejam processados e encaminhados corretamente.
Para obter mais informações, consulte Pausar e retomar fluxos de dados
Conteúdos relacionados
Para saber como adicionar outros destinos a um fluxo de eventos, consulte os seguintes artigos:
Pré-requisitos
Antes de começar, você deve preencher os seguintes pré-requisitos:
- Acesso a um espaço de trabalho no modo de licença de capacidade do Fabric ou no modo de licença de avaliação, com permissões de contribuinte ou superiores.
- Obtenha acesso a um espaço de trabalho com permissões de Colaborador ou superior onde sua casa do lago está localizada.
Nota
O número máximo de fontes e destinos para um eventstream é 11.
Adicionar uma casa de lago como destino
Se você tiver uma lakehouse criada em seu espaço de trabalho, siga estas etapas para adicionar a lakehouse ao seu fluxo de eventos como um destino:
Selecione Novo destino na faixa de opções ou "+" na tela principal do editor e, em seguida, selecione Lakehouse. A tela de configuração de destino Lakehouse é exibida.
Insira um nome para o destino do fluxo de eventos e complete as informações sobre sua casa no lago.
Lakehouse: Selecione uma lakehouse existente no espaço de trabalho que você especificou.
Tabela delta: selecione uma tabela delta existente ou crie uma nova para receber dados.
Nota
Ao gravar dados na tabela lakehouse, há garantia de esquema. Isso significa que todas as novas gravações em uma tabela devem ser compatíveis com o esquema da tabela de destino em tempo de gravação, garantindo a qualidade dos dados.
Todos os registros dos dados de saída são projetados no esquema da tabela existente. Ao gravar a saída em uma nova tabela delta, o esquema da tabela é criado com base no primeiro registro. Se os dados de entrada tiverem uma coluna adicional em comparação com o esquema de tabela existente, eles gravarão na tabela sem incluir a coluna extra. Por outro lado, se os dados de entrada estiverem faltando uma coluna em comparação com o esquema de tabela existente, ele grava na tabela com o valor da coluna definido como nulo.
Formato de dados de entrada: selecione o formato para os dados (dados de entrada) que são enviados para a sua casa do lago.
Nota
Os formatos de dados de eventos de entrada suportados são JSON, Avro e CSV (com cabeçalho).
Processamento de eventos: Você pode usar o editor de processamento de eventos para especificar como os dados devem ser processados antes de enviá-los para sua casa do lago. Selecione Abrir processador de eventos para abrir o editor de processamento de eventos. Para saber mais sobre o processamento em tempo real usando o processador de eventos, consulte Processar dados de eventos com o editor do processador de eventos. Quando terminar de usar o editor, selecione Concluído para retornar à tela de configuração de destino do Lakehouse .
Dois modos de ingestão estão disponíveis para um destino lakehouse. Selecione um destes modos para otimizar a forma como a funcionalidade Fabric event streams escreve para a lakehouse, com base no seu cenário.
Linhas por arquivo – O número mínimo de linhas que o Lakehouse ingere em um único arquivo. Quanto menor o número mínimo de linhas, mais arquivos o Lakehouse cria durante a ingestão. O mínimo é 1 linha. O máximo é de 2 milhões de linhas por ficheiro.
Duração – A duração máxima que Lakehouse levaria para ingerir um único arquivo. Quanto maior a duração, mais linhas são ingeridas em um arquivo. O mínimo é de 1 minuto e o máximo é de 2 horas.
Selecione Adicionar para adicionar o destino da residência junto ao lago.
Atalho para otimização de tabela disponível no destino do lakehouse. Essa solução facilita para si o lançamento de um trabalho do Spark dentro de um Notebook, que consolida esses pequenos arquivos de streaming na tabela de destino do Lakehouse.
Um destino de casa junto ao lago aparece no ecrã, com um indicador de estado giratório. O sistema leva alguns minutos para alterar o status para Ativo.
Gerir um destino
Editar/remover: pode-se editar ou remover um destino de fluxo de eventos através do painel de navegação ou do canvas.
Quando você seleciona Editar, o painel de edição é aberto no lado direito do editor principal. Você pode modificar a configuração como desejar, incluindo a lógica de transformação de eventos por meio do editor do processador de eventos.
Conteúdos relacionados
Para saber como adicionar outros destinos a um fluxo de eventos, consulte os seguintes artigos: