Compartilhar via


Integração de dados usando o Azure Data Factory e o Azure Data Share

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

À medida que os clientes embarcam em seus projetos modernos de data warehouse e de análise, eles precisam não só de mais dados, como também de mais visibilidade sobre seus dados em todo o acervo de dados deles. Este workshop se aprofunda em como os aprimoramentos do Azure Data Factory e do Azure Data Share simplificam a integração e o gerenciamento de dados no Azure.

Desde a habilitação do ETL/ELT sem código até a criação de uma exibição abrangente sobre seus dados, os aprimoramentos no Azure Data Factory capacitarão seus engenheiros de dados a introduzir mais dados com segurança e, portanto, mais valor, à sua empresa. O Azure Data Share permite que você faça compartilhamento entre empresas de uma maneira controlada.

Neste workshop, você usará o ADF (Azure Data Factory) para ingerir dados do Banco de Dados SQL do Azure no ADLS Gen2 (Azure Data Lake Storage Gen2). Após colocar os dados no lake, você os transformará por meio de fluxos de dados de mapeamento e do serviço de transformação nativo do data factory e os introduzirá no Azure Synapse Analytics. Em seguida, você compartilhará a tabela com os dados transformados junto com alguns dados extras usando o Azure Data Share.

Os dados usados nesse laboratório são os dados de táxi da cidade de Nova York. Para importá-los em seu banco de dados no Banco de Dados SQL, baixe o arquivo taxi-data bacpac. Selecione a opção Baixar arquivo bruto no GitHub.

Pré-requisitos

Configurar seu ambiente do Azure Data Factory

Nesta seção, você aprenderá a acessar a ADF UX (experiência de usuário do Azure Data Factory) no portal do Azure. Quando estiver na interface do ADF, você configurará três serviços vinculados para cada um dos armazenamentos de dados que estamos usando: Banco de Dados SQL do Azure, ADLS Gen2 e Azure Synapse Analytics.

Nos serviços vinculados do Azure Data Factory, defina as informações de conexão como recursos externos. No momento, o Azure Data Factory é compatível com mais de 85 conectores.

Abrir a UX do Azure Data Factory

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, pesquise "Data Factories".

  3. Selecione o recurso do data factory para abrir seus recursos no painel esquerdo.

    Captura de tela do portal do Azure de uma página de visão geral de data factories.

  4. Selecione Abrir o Estúdio do Azure Data Factory. O Estúdio do Data Factory também pode ser acessado diretamente em adf.azure.com.

    Captura de tela do página inicial do Azure Data Factory no portal do Azure.

  5. Você será redirecionado para a página inicial do ADF no portal do Azure. Essa página contém inícios rápidos, vídeos instrutivos e links para tutoriais para aprender conceitos de data factory. Para começar a criação, selecione no ícone de lápis na barra lateral esquerda.

    Captura de tela do portal do Azure do Portal configurado.

Criar um serviço vinculado do Banco de Dados SQL do Azure

  1. Para criar um serviço vinculado, selecione o hub Gerenciar na barra lateral esquerda, no painel Conexões, selecione Serviços vinculados e escolha Novo para adicionar um novo serviço vinculado.

    Captura de tela do portal do Azure para criar um novo serviço vinculado.

  2. O primeiro serviço vinculado que você configurará é um Banco de Dados SQL do Azure. Você pode usar a barra de pesquisa para filtrar a lista de armazenamento de dados. Selecione o bloco Banco de Dados SQL do Azure e selecione continuar.

    Captura de tela do portal do Azure de criação de um novo serviço vinculado do Banco de Dados SQL do Azure.

  3. No painel de configuração do Banco de Dados SQL, insira "SQLDB" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Captura de tela do portal do Azure de configurar um novo serviço vinculado do Banco de Dados SQL do Azure, com uma conexão testada com êxito.

Criar um serviço vinculado do Azure Synapse Analytics

  1. Repita o mesmo processo para adicionar um serviço vinculado do Azure Synapse Analytics. Na guia conexões, selecione Novo. Selecione o bloco do Azure Synapse Analytics e selecione Continuar.

    Captura de tela do portal do Azure para criar um novo serviço vinculado do Azure Synapse Analytics.

  2. No painel de configuração do serviço vinculado, insira "SQLDW" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Captura de tela do portal do Azure de configurar um novo serviço vinculado do Azure Synapse Analytics chamado SQLDW.

Criar um serviço vinculado do Azure Data Lake Storage Gen2

  1. O último serviço vinculado necessário para este laboratório é um Azure Data Lake Storage Gen2. Na guia conexões, selecione Novo. Selecione o bloco Azure Data Lake Storage Gen2 e selecione Continuar.

    Captura de tela do portal do Azure para criar um novo serviço vinculado do ADLS Gen2.

  2. No painel de configuração do serviço vinculado, insira "ADLSGen2" como o nome do serviço vinculado. Se estiver usando a autenticação da chave de conta, selecione a conta de armazenamento do ADLS Gen2 da lista de seleção Nome da conta de armazenamento. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.

    Captura de tela do portal do Azure de configurar um novo serviço vinculado do ADLS Gen2.

Ativar modo de depuração do fluxo de dados

Na seção Transformar dados usando o fluxo de dados de mapeamento, você vai criar fluxos de dados de mapeamento. Uma melhor prática antes de criar fluxos de dados de mapeamento é ativar o modo de depuração, o que permite testar a lógica de transformação em segundos em um cluster do spark ativo.

Para ativar a depuração, selecione o controle deslizante de Depuração de fluxo de dados na barra superior do painel da tela do fluxo de dados ou do pipeline quando tiver atividades de Fluxo de dados. Selecione OK quando a caixa de diálogo de confirmação for exibida. O cluster é iniciado em cerca de 5 a 7 minutos. Prossiga para a seção Ingerir dados do Banco de Dados SQL do Azure para o ADLS Gen2 usando a atividade Copy enquanto ele está inicializando.

Captura de tela do portal do Azure das páginas recursos de fábrica, com o botão de depuração de fluxo de dados habilitado.

Captura de tela que mostra onde o controle deslizante de depuração do fluxo de dados está depois que um objeto é criado.

Ingerir dados usando a atividade de cópia

Nesta seção, você criará um pipeline com uma atividade de cópia que ingere uma tabela de um Banco de Dados SQL do Azure para uma conta de armazenamento do ADLS Gen2. Você aprenderá a adicionar um pipeline, configurar um conjunto de dados e depurar um pipeline por meio da UX do ADF. O padrão de configuração usado nesta seção pode ser aplicado à cópia de um armazenamento de dados relacional para um armazenamento de dados baseado em arquivo.

No Azure Data Factory, um pipeline é um agrupamento lógico de atividades que juntas executam uma tarefa. Uma atividade define uma operação a ser executada em seus dados. Um conjunto de dados aponta para os dados que você deseja usar em um serviço vinculado.

Criar um pipeline com uma atividade de cópia

  1. No painel recursos de fábrica, selecione o ícone de adição para abrir o novo menu de recurso. Selecione Pipeline.

    Captura de tela do portal do Azure para criar um novo pipeline.

  2. Na guia Geral da tela do pipeline, dê ao pipeline um nome descritivo como "IngestAndTransformTaxiData".

    Captura de tela do portal do Azure do novo objeto de dados Ingerir e Transformar Taxi.

  3. No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Copiar dados para a tela. Dê à atividade de cópia um nome descritivo como "IngestIntoADLS".

    Captura de tela do portal do Azure para adicionar uma etapa de cópia de dados.

Configurar o conjunto de dados de origem do BD SQL do Azure

  1. Selecione a guia Origem da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo. Sua origem será a tabela dbo.TripData localizada no serviço vinculado "SQLDB" configurado anteriormente.

    Captura de tela do portal do Azure de criação de um novo conjunto de dados na opção Copiar Fonte de Dados.

  2. Pesquise por Banco de Dados SQL do Azure e selecione Continuar.

    Captura de tela do portal do Azure para criar um novo conjunto de dados no Banco de Dados SQL do Azure.

  3. Chame seu conjunto de dados de "TripData". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela dbo.TripData na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.

    Captura de tela do portal do Azure da página de propriedades da criação de um novo conjunto de dados no Banco de Dados SQL do Azure.

Você criou com êxito o conjunto de dados de origem. Verifique se, nas configurações de origem, o valor padrão Tabela foi selecionado no campo de consulta de uso.

Configurar conjunto de dados do coletor do ADLS Gen2

  1. Selecione a guia Coletor da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo.

    Captura de tela do portal do Azure para criar um novo conjunto de dados na opção Copiar Coletor de Dados.

  2. Pesquise por Azure Data Lake Storage Gen2 e selecione Continuar.

    Captura de tela do portal do Azure de criação de novos dados no ADLS Gen2.

  3. No painel de formato selecionado, selecione DelimitedText enquanto você está escrevendo em um arquivo csv. Selecione continuar.

    Captura de tela do portal do Azure da página de formato ao criar novos dados no ADLS Gen2.

  4. Dê ao conjunto de dados de coletor o nome "TripDataCSV". Selecione "ADLSGen2" como seu serviço vinculado. Insira onde você deseja gravar seu arquivo csv. Por exemplo, você pode gravar seus dados no arquivo trip-data.csv no contêiner staging-container. Defina Primeira linha como cabeçalho como true porque convém que seus dados de saída tenham cabeçalhos. Como ainda não existe um arquivo no destino, defina Importar esquema como Nenhum. Selecione OK quando terminar.

    Captura de tela do portal do Azure da página de propriedades da criação de novos dados no ADLS Gen2.

Testar a atividade de cópia com uma execução de depuração de pipeline

  1. Para verificar se sua atividade de cópia está funcionando corretamente, selecione Depurar na parte superior da tela do pipeline para executar uma execução de depuração. Uma execução de depuração permite que você teste seu pipeline de ponta a ponta ou até um ponto de interrupção antes de publicá-lo no serviço de data factory.

    Captura de tela do portal do Azure do botão de depuração.

  2. Para monitorar a execução de depuração, acesse a guia Saída da tela do pipeline. A tela de monitoramento atualiza automaticamente a cada 20 segundos ou ao selecionar manualmente no botão atualizar. A atividade de cópia tem uma exibição de monitoramento especial, que você pode acessar selecionando o ícone de óculos na coluna Ações.

    Captura de tela do portal do Azure do botão de monitoramento.

  3. A exibição de monitoramento da cópia fornece os detalhes de execução e as características de desempenho da atividade. Você pode ver informações como os dados lidos/gravados, linhas lidas/gravadas, arquivos lidos/gravados e a taxa de transferência. Se você configurou tudo corretamente, deverá ver 49.999 linhas gravadas em um arquivo em seu coletor do ADLS.

    Captura de tela do portal do Azure dos detalhes de desempenho da exibição de monitoramento de cópia.

  4. Antes de passar para a próxima seção, sugerimos que você publique suas alterações no serviço do data factory selecionando Publicar tudo na barra superior do alocador. Embora não seja abordado neste laboratório, o Azure Data Factory dá suporte à integração completa do git. A integração do Git permite o controle de versão, o salvamento iterativo em um repositório e a colaboração em um data factory. Para obter mais informações, confira controle do código-fonte no Azure Data Factory.

    Captura de tela do portal do Azure do botão publicar tudo.

Transformar dados usando o fluxo de dados de mapeamento

Agora que você copiou com sucesso os dados para o Azure Data Lake Storage, é hora de ingressar e agregar esses dados em um data warehouse. Usamos o fluxo de dados de mapeamento, o serviço de transformação projetado visualmente do Azure Data Factory. Os fluxos de dados de mapeamento permitem que os usuários desenvolvam uma lógica de transformação sem código e execute-a em clusters do spark gerenciados pelo serviço do ADF.

O fluxo de dados criado nesta etapa interna ingressa o conjunto de dados "TripDataCSV" criado na seção anterior com uma tabela dbo.TripFares armazenada no "SQLDB" baseado em quatro colunas principais. Em seguida, os dados são agregados com base na coluna payment_type para calcular a média de determinados campos e escritos em uma tabela do Azure Synapse Analytics.

Adicionar uma atividade de fluxo de dados ao seu pipeline

  1. No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Fluxo de dados para a tela.

    Captura de tela do portal do Azure da opção de fluxo de dados no menu Mover e Transformar.

  2. No painel lateral que é aberto, selecione Criar fluxo de dados e escolha Fluxo de dados de mapeamento. Selecione OK.

    Captura de tela do portal do Azure para adicionar um novo fluxo de dados de mapeamento.

  3. Você será direcionado para a tela do fluxo de dados, onde vai criar sua lógica de transformação. Na guia geral, dê ao fluxo de dados o nome "JoinAndAggregateData".

    Captura de tela do portal do Azure do fluxo de Dados de Junção e Agregação.

Configurar sua origem de CSV de dados de viagem

  1. A primeira coisa que convém fazer é configurar suas duas transformações de origem. A primeira fonte aponta para o conjunto de dados DelimitedText de "TripDataCSV". Para adicionar uma transformação de origem, selecione na caixa Adicionar origem no painel da tela.

    Captura de tela do portal do Azure do botão adicionar origem em um novo fluxo de dados.

  2. Nomeie a sua fonte "TripDataCSV" e selecione o conjunto de dados "TripDataCSV" na lista de seleção de origem. Se você se lembra, você não importou um esquema inicialmente ao criar esse conjunto de dados, pois não havia nenhum dado lá. Como trip-data.csv agora existe, selecione Editar para ir para a guia Configurações do conjunto de dados.

    Captura de tela do portal do Azure do botão editar conjunto de dados de origem nas opções de fluxo de dados.

  3. Acesse a guia Esquema e selecione Importar esquema. Selecione Da conexão/armazenamento para importar diretamente do armazenamento de arquivos. 14 colunas do tipo cadeia de caracteres devem aparecer.

    Captura de tela do portal do Azure da seleção de origem do esquema.

  4. Volte para o fluxo de dados "JoinAndAggregateData". Se o cluster de depuração tiver iniciado (indicado por um círculo verde ao lado do controle deslizante de depuração), você poderá obter um instantâneo dos dados na guia Visualização de Dados. Selecione Atualizar para buscar uma visualização de dados.

    Captura de tela do portal do Azure da visualização do fluxo de dados.

Observação

A visualização de dados não grava dados.

Configurar a origem do Banco de Dados SQL de tarifas de viagem

  1. A segunda origem que você está adicionando pontos na tabela Banco de Dados SQL dbo.TripFares. Na fonte "TripDataCSV", haverá outra caixa Adicionar Origem. Selecione ela para adicionar uma nova transformação de origem.

    Captura de tela do portal do Azure de adicionar outra fonte de dados a um fluxo de dados.

  2. Dê a esta origem o nome "TripFaresSQL". Selecione Novo ao lado do campo do conjunto de dados de origem para criar um conjunto de dados do Banco de Dados SQL.

    Captura de tela do portal do Azure do novo conjunto de dados de origem em outra etapa de copiar dados no fluxo de dados.

  3. Selecione o bloco Banco de Dados SQL do Azure e selecione Continuar. Você pode notar que não há suporte para muitos conectores no data factory no fluxo de dados de mapeamento. Para transformar dados de uma dessas origens, ingira-os em uma origem com suporte usando a atividade de cópia.

    Captura de tela do portal do Azure de adicionar um novo conjunto de dados do Banco de Dados SQL do Azure ao fluxo de dados.

  4. Chame seu conjunto de dados de "TripFares". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela dbo.TripFares na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.

    Captura de tela do portal do Azure das propriedades de adicionar um novo conjunto de dados do Banco de Dados SQL do Azure ao fluxo de dados.

  5. Para verificar seus dados, busque uma visualização de dados na guia Visualização de Dados.

    Captura de tela do portal do Azure da pré-visualização de dados de outra fonte de dados no fluxo de dados.

TripDataCSV e TripFaresSQL da junção interna

  1. Para adicionar uma nova transformação, selecione o ícone de adição no canto inferior direito de "TripDataCSV". Em Várias entradas/saídas, selecione Junção.

    Captura de tela do portal do Azure do botão unir em fontes de dados em um fluxo de dados.

  2. Dê à sua transformação de junção o nome "InnerJoinWithTripFares". Selecione "TripFaresSQL" na lista de seleção do fluxo direito. Selecione Interno como o tipo de junção. Para saber mais sobre os diferentes tipos de junção no fluxo de dados de mapeamento, confira tipos de junção.

    Selecione quais colunas você deseja corresponder de cada fluxo por meio da lista de seleção Condições de junção. Para adicionar uma condição de junção adicional, selecione o ícone de adição ao lado de uma condição existente. Por padrão, todas as condições de junção são combinadas com um operador AND, o que significa que todas as condições precisam ser atendidas para obter uma correspondência. Neste laboratório, desejamos corresponder às colunas medallion, hack_license, vendor_id e pickup_datetime

    Captura de tela do portal do Azure das configurações de junção de fluxo de dados.

  3. Verifique se você ingressou 25 colunas com êxito com uma visualização de dados.

    Captura de tela do portal do Azure da visualização de dados de um fluxo de dados com fontes de dados unidas.

Agregar por payment_type

  1. Depois de concluir a transformação de junção, adicione uma transformação de agregação selecionando o ícone de adição ao lado de InnerJoinWithTripFares. Escolha Agregação em Modificador de esquema.

    Captura de tela do portal do Azure do novo botão de agregação.

  2. Dê à sua transformação de agregação o nome "AggregateByPaymentType". Selecione payment_type como a coluna agrupar por.

    Captura de tela do portal do Azure de configurações de agregação.

  3. Vá para a guia Agregações. Especifique duas agregações:

    • A tarifa média agrupada por tipo de pagamento
    • A distância total da viagem agrupada por tipo de pagamento

    Primeiro, você criará a expressão de tarifa média. Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "average_fare".

    Captura de tela do portal do Azure da opção Agrupado por em configurações de agregação.

  4. Para inserir uma expressão de agregação, selecione a caixa azul rotulada Inserir expressão, que abre o construtor de expressões de fluxo de dados, uma ferramenta usada para criar visualmente expressões de fluxo de dados usando o esquema de entrada, funções e operações internas e parâmetros definidos pelo usuário. Para saber mais sobre as funcionalidades do Construtor de Expressões, confira a documentação do Construtor de Expressões.

    Para obter a tarifa média, use a função de agregação avg() para agregar a conversão da coluna total_amount em um inteiro com toInteger(). Na linguagem de expressão do fluxo de dados, isso é definido como avg(toInteger(total_amount)). Selecione Salvar e concluir quando terminar.

    Captura de tela do portal do Azure do Construtor de Expressões Visuais mostrando uma função de agregação avg(toInteger(total_amount)).

  5. Para adicionar mais uma expressão de agregação, selecione no ícone de adição ao lado de average_fare. Selecione Adicionar coluna.

    Captura de tela do portal do Azure do botão adicionar coluna nas configurações de agregação agrupadas por opção.

  6. Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "total_trip_distance". Assim como na última etapa, abra o Construtor de Expressões para inserir a expressão.

    Para obter a distância total da viagem, use a função de agregação sum() para agregar a conversão da coluna trip_distance em um inteiro com toInteger(). Na linguagem de expressão do fluxo de dados, isso é definido como sum(toInteger(trip_distance)). Selecione Salvar e concluir quando terminar.

    Captura de tela do portal do Azure de duas colunas nas configurações de agregação agrupadas por opção.

  7. Teste a lógica de transformação na guia Visualização de Dados. Como você pode ver, há menos linhas e colunas do que antes. Apenas as três colunas agrupar por e agregação definidas nessa transformação continuam downstream. Como há apenas cinco grupos de tipo de pagamento no exemplo, apenas cinco linhas são emitidas.

    Captura de tela do portal do Azure da visualização de dados agregados.

Configurar seu coletor do Azure Synapse Analytics

  1. Agora que terminamos nossa lógica de transformação, estamos prontos para coletar nossos dados em uma tabela do Azure Synapse Analytics. Adicione uma transformação de coletor na seção Destino.

    Captura de tela do portal do Azure do botão adicionar coletor no fluxo de dados.

  2. Dê ao seu coletor o nome "SQLDWSink". SelecioneNovo ao lado do campo do conjunto de dados do coletor para criar um conjunto de dados do Azure Synapse Analytics.

    Captura de tela do portal do Azure de um novo botão de conjunto de dados do coletor nas configurações do coletor.

  3. Selecione o bloco do Azure Synapse Analytics e selecione Continuar.

    Captura de tela do portal do Azure de um novo conjunto de dados do Azure Synapse Analytics para um novo coletor de dados.

  4. Chame o conjunto de dados de "AggregatedTaxiData". Selecione "SQLDW" como seu serviço vinculado. Selecione Criar nova tabela e nomeie-a dbo.AggregateTaxiData. Selecione OK ao concluir.

    Captura de tela do portal do Azure para criar uma nova tabela para o coletor de dados.

  5. Acesse a guia Configurações do coletor. Como estamos criando uma tabela, precisamos selecionar Recriar tabela na ação da tabela. Desmarque Habilitar preparo, que alternará se estivermos inserindo linha por linha ou em lote.

    Captura de tela do portal do Azure das configurações do coletor de dados, a opção

Você criou seu fluxo de dados com êxito. Agora é hora de executá-lo em uma atividade de pipeline.

Depurar o pipeline de ponta a ponta

  1. Volte para a guia do pipeline IngestAndTransformData. Observe a caixa verde na atividade de cópia "IngestIntoADLS". Arraste-a para a atividade de fluxo de dados "JoinAndAggregateData". Isso cria um "em caso de êxito", o que fará a atividade de fluxo de dados ser executada apenas se a cópia tiver êxito.

    Captura de tela do portal do Azure de um pipeline de sucesso verde.

  2. Como fizemos para a atividade de cópia, selecione Depurar para executar uma execução de depuração. Para execuções de depuração, a atividade de fluxo de dados usa o cluster de depuração ativo em vez de criar um. Esse pipeline leva pouco mais de um minuto para ser executado.

    Captura de tela do portal do Azure do botão de depuração de fluxo de dados para o pipeline de êxito.

  3. Assim como a atividade de cópia, o fluxo de dados tem uma exibição de monitoramento especial acessada pelo ícone de óculos após a conclusão da atividade.

    Captura de tela do portal do Azure do monitor de saída em um pipeline.

  4. Na exibição de monitoramento, você pode ver um grafo de fluxo de dados simplificado juntamente com os tempos de execução e as linhas em cada estágio de execução. Se for feito corretamente, você deverá ter 49.999 linhas agregadas em cinco linhas nessa atividade.

    Captura de tela do portal do Azure dos detalhes do monitor de saída em um pipeline.

  5. Selecione uma transformação para obter detalhes adicionais sobre sua execução, como informações sobre particionamento e colunas novas/atualizadas/removidas.

    Captura de tela do portal do Azure de informações de fluxo no monitor de saída do pipeline.

Agora você concluiu a parte do data factory deste laboratório. Publique seus recursos se desejar operacionalizá-los com gatilhos. Você executou com êxito um pipeline que ingeriu dados do Banco de Dados SQL do Azure para o Azure Data Lake Storage usando a atividade de cópia e, em seguida, agregou esses dados em um Azure Synapse Analytics. Você pode verificar se os dados foram gravados com êxito examinando o SQL Server em si.

Compartilhar dados usando o Azure Data Share

Nesta seção, você aprenderá a configurar um novo compartilhamento de dados usando o portal do Azure. Isso envolve a criação de um compartilhamento de dados que contém conjuntos de dados do Azure Data Lake Storage Gen2 e do Azure Synapse Analytics. Em seguida, você configurará um agendamento de instantâneo, que fornecerá aos consumidores de dados uma opção para atualizar automaticamente os dados que estão sendo compartilhados com eles. Em seguida, você convidará os destinatários para seu compartilhamento de dados.

Após criar um compartilhamento de dados, você trocará de lugar e se tornará o consumidor de dados. Como consumidor de dados, você percorrerá o fluxo de aceitação de um convite do compartilhamento de dados, da configuração de onde você deseja que os dados fossem recebidos e do mapeamento de conjuntos de dados para diferentes locais de armazenamento. Em seguida, você disparará um instantâneo, que copiará os dados compartilhados com você para o destino especificado.

Compartilhar dados (fluxo de Provedor de Dados)

  1. Abra o portal do Azure no Microsoft Edge ou no Google Chrome.

  2. Usando a barra de pesquisa na parte superior da página, pesquise Compartilhamentos de Dados

    Captura de tela do portal do Azure de pesquisa de compartilhamentos de dados na barra de pesquisa do portal do Azure.

  3. Selecione a conta do compartilhamento de dados com "Provedor" no nome. Por exemplo, DataProvider0102.

  4. Selecione Começar a compartilhar seus dados

    Captura de tela do portal do Azure do botão iniciar o compartilhamento de dados.

  5. Selecione +Criar para começar a configurar seu novo compartilhamento de dados.

  6. Em Nome do compartilhamento, especifique um nome de sua escolha. Esse é o nome do compartilhamento que será visto por seu consumidor de dados. Portanto, dê a ele um nome descritivo como TaxiData.

  7. Em Descrição, insira uma frase que descreva o conteúdo do compartilhamento de dados. O compartilhamento de dados contém dados de corridas de táxi de todo o mundo armazenados em uma variedade de repositórios, incluindo o Azure Synapse Analytics e o Azure Data Lake Storage.

  8. Em Termos de uso, especifique um conjunto de termos que você gostaria que seu consumidor de dados obedecesse. Alguns exemplos incluem "Não distribua esses dados fora de sua organização" ou "Veja o contrato legal".

    Captura de tela do portal do Azure dos detalhes do Data Share em Compartilhamentos Enviados.

  9. Selecione Continuar.

  10. Selecione Adicionar conjuntos de dados

    Captura de tela do portal do Azure do botão Adicionar conjunto de dados no Compartilhamento de Dados em Compartilhamentos Enviados.

  11. Selecione Azure Synapse Analytics para selecionar uma tabela do Azure Synapse Analytics na qual suas transformações do ADF foram descarregadas.

  12. Você recebe um script para executar antes de poder continuar. O script fornecido cria um usuário no Banco de Dados SQL para permitir que o MSI do Azure Data Share seja autenticado em seu nome.

    Importante

    Antes de executar o script, você deve se definir como o Administrador do Active Directory para o servidor do SQL lógico do Banco de Dados SQL do Azure.

  13. Abra uma nova guia e navegue até o portal do Azure. Copie o script fornecido para criar um usuário no banco de dados do qual você deseja compartilhar os dados. Faça isso entrando no banco de dados EDW usando o Editor de consultas do portal do Azureusando a autenticação do Microsoft Entra. Você precisa modificar o usuário no seguinte script de exemplo:

    CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; 
    ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
    
  14. Volte para o Azure Data Share em que você estava adicionando conjunto de dados ao seu compartilhamento de dados.

  15. Selecione EDW e, em seguida, AggregatedTaxiData para a tabela.

  16. Selecione Adicionar conjunto de dados

    Agora temos uma tabela SQL que faz parte do nosso conjunto de dados. Em seguida, adicionaremos mais conjuntos de dados do Azure Data Lake Storage.

  17. Selecione Adicionar conjunto de dados e Azure Data Lake Storage Gen2

    Captura de tela do portal do Azure para adicionar um conjunto de dados do ADLS Gen2.

  18. Selecione Avançar

  19. Expanda wwtaxidata. Expanda Dados de Táxi de Boston. Você pode compartilhar até o nível do arquivo.

  20. Selecione a pasta Dados de Táxi de Boston para adicionar a pasta inteira ao seu compartilhamento de dados.

  21. Selecione Adicionar conjuntos de dados

  22. Examine os conjuntos de dados que foram adicionados. Você deve ter uma tabela SQL e uma pasta ADLS Gen2 adicionadas ao seu compartilhamento de dados.

  23. Selecione Continuar

  24. Nessa tela, você pode adicionar destinatários ao seu compartilhamento de dados. Os destinatários adicionados receberão convites para o seu compartilhamento de dados. Para fins deste laboratório, você deve adicionar dois endereços de email:

    1. o endereço de email da assinatura do Azure em que você está.

      Captura de tela do portal do Azure do Data Share para adicionar destinatários.

    2. Adicione o consumidor de dados fictício denominado janedoe@fabrikam.com .

  25. Nessa tela, você pode definir uma Configuração de Instantâneo para o consumidor de dados. Isso permite que eles recebam atualizações regulares dos seus dados em um intervalo definido por você.

  26. Verifique o Agendamento de Instantâneo e configure uma atualização por hora de seus dados usando a lista de seleção Recorrência.

  27. Selecione Criar.

    Agora você tem um compartilhamento de dados ativo. Vamos examinar o que você pode ver como provedor de dados quando cria um compartilhamento de dados.

  28. Selecione o compartilhamento de dados criado, intitulado DataProvider. Você pode navegar até ele selecionando Compartilhamentos Enviados em Compartilhamento de Dados.

  29. Selecione Agendamento de instantâneo. Você poderá desabilitar o agendamento de instantâneos se escolher.

  30. Em seguida, selecione a guia Conjuntos de Dados. Você poderá adicionar outros conjuntos de dados a esse compartilhamento de dados depois que ele tiver sido criado.

  31. Selecione a guia Assinaturas de compartilhamento. Ainda não existe nenhuma assinatura de compartilhamento porque seu consumidor de dados ainda não aceitou seu convite.

  32. Navegue até a guia Convites. Aqui você verá uma lista de convites pendentes.

    Captura de tela do portal do Azure de convites pendentes.

  33. Selecione o convite para janedoe@fabrikam.com . Selecione Excluir. Se o destinatário ainda não tiver aceitado o convite, ele não poderá mais fazê-lo.

  34. Selecione a guia Histórico . Nada é exibido ainda porque seu consumidor de dados ainda não aceitou seu convite nem disparou um instantâneo.

Receber dados (fluxo do consumidor de dados)

Agora que examinamos nosso compartilhamento de dados, estamos prontos para mudar o contexto e voltar para o consumidor de dados que era nosso.

Agora você deve ter um convite do Azure Data Share na caixa de entrada do Microsoft Azure. Inicie o Acesso via Web do Outlook (outlook.com) e entre usando as credenciais fornecidas para sua assinatura do Azure.

No email que você deve ter recebido, selecione "Exibir convite >". Neste ponto, você simulará a experiência do consumidor de dados ao aceitar um convite de provedores de dados para o compartilhamento de dados dele.

Captura de tela do Outlook de um convite por email.

Você pode ser solicitado a selecionar uma assinatura. Selecione a assinatura que na qual você veio trabalhando para este laboratório.

  1. Selecione o convite intitulado DataProvider.

  2. Nesta tela de convite, você observará vários detalhes sobre o compartilhamento de dados que você configurou anteriormente como um provedor de dados. Examine os detalhes e aceite os termos de uso se forem fornecidos.

  3. Selecione a Assinatura e o Grupo de Recursos que já existe para seu laboratório.

  4. Para a Conta do compartilhamento de dados, selecione DataConsumer. Você também pode criar uma conta do compartilhamento de dados.

  5. Ao lado de Nome do compartilhamento recebido, observe que o nome do compartilhamento padrão é o que foi especificado pelo provedor de dados. Dê ao compartilhamento um nome amigável que descreva os dados que você está prestes a receber, por exemplo, TaxiDataShare.

    Captura de tela do portal do Azure da página para aceitar e configurar um compartilhamento de dados.

  6. Você pode optar por Aceitar e configurar agora ou Aceitar e configurar depois. Se optar por aceitar e configurar agora, especifique uma conta de armazenamento em que todos os dados devem ser copiados. Se optar por aceitar e configurar depois, os conjuntos de dados no compartilhamento serão desmapeados e você precisará mapeá-los manualmente. Optaremos por isso mais tarde.

  7. Selecione Aceitar e configurar depois.

    Ao configurar essa opção, uma assinatura de compartilhamento é criada, mas não há lugar para os dados serem descarregados, pois nenhum destino foi mapeado.

    Em seguida, configure mapeamentos de conjuntos de dados para o compartilhamento de dados.

  8. Selecione o Compartilhamento Recebido (o nome especificado na etapa 5).

    O Instantâneo do gatilho está esmaecido, mas o compartilhamento está Ativo.

  9. Selecione a guia Conjuntos de Dados. Cada conjunto de dados é desmapeado, o que significa que não tem nenhum destino para o qual copiar os dados.

    Captura de tela do portal do Azure de conjuntos de dados não mapeados.

  10. Selecione a tabela do Azure Synapse Analytics e selecione + Mapear para o Destino.

  11. No lado direito da tela, selecione a lista de seleção Tipo de Dados de Destino.

    Você pode mapear os dados SQL para uma ampla variedade de armazenamentos de dados. Nesse caso, mapearemos para um Banco de Dados SQL do Azure.

    Captura de tela do portal do Azure de conjuntos de dados de mapa para o destino.

    (Opcional) Selecione Azure Data Lake Storage Gen2 como o tipo de dados de destino.

    (Opcional) Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.

    (Opcional) Você pode optar por receber os dados em seu data lake no formato csv ou parquet.

  12. Ao lado de Tipo de dados de destino, selecione Banco de Dados SQL do Azure.

  13. Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.

    Captura de tela do portal do Azure de conjuntos de dados de mapa para um Banco de Dados SQL do Azure de destino.

  14. Antes de continuar, será necessário criar um usuário no SQL Server executando o script fornecido. Primeiro, copie o script fornecido para sua área de transferência.

  15. Abra uma guia do portal do Azure. Não feche sua guia existente, pois você precisará voltar a ela daqui a pouco.

  16. Na nova guia que você abriu, navegue até Bancos de dados SQL.

  17. Selecione o Banco de Dados SQL (deve haver apenas um em sua assinatura). Tenha cuidado para não selecionar o data warehouse.

  18. Selecione Editor de consultas (versão prévia)

  19. Use a autenticação do Microsoft Entra para fazer entrar no editor de consultas.

  20. Execute a consulta fornecida em seu compartilhamento de dados (copiada para a área de transferência na etapa 14).

    Com esse comando, o serviço Azure Data Share pode usar Identidades Gerenciadas para os Serviços do Azure a serem autenticados no SQL Server poderem copiar os dados para ele.

  21. Volte para a guia original e selecione Mapear para destino.

  22. Em seguida, selecione a pasta Azure Data Lake Storage Gen2 que faz parte do conjunto de dados e mapeie-a para uma conta de Armazenamento de Blobs do Azure.

    Captura de tela do portal do Azure de conjuntos de dados de mapa para um Armazenamento de Blobs do Azure de destino.

    Com todos os conjuntos de dados mapeados, agora você está pronto para começar a receber dados do provedor de dados.

    Captura de tela do portal do Azure dos compartilhamentos recebidos mapeados.

  23. Selecione Detalhes.

    Instantâneo de Gatilho não está mais esmaecido, pois o compartilhamento de dados agora tem destinos para os quais copiar.

  24. Selecione Instantâneo de Gatilho ->Cópia completa.

    Captura de tela do portal do Azure do instantâneo de gatilho, opção de cópia completa.

    Isso inicia a cópia de dados em sua nova conta de compartilhamento de dados. Em um cenário do mundo real, esses dados viriam de um terceiro.

    Leva aproximadamente de 3 a 5 minutos para que os dados sejam distribuídos. Você pode monitorar o progresso selecionando na guia Histórico.

    Enquanto você aguarda, navegue até o compartilhamento de dados original (DataProvider) e exiba o status da guia Assinaturas de Compartilhamento e Histórico. Agora há uma assinatura ativa e, como provedor de dados, você também pode monitorar quando o consumidor de dados começou a receber os dados compartilhados.

  25. Volte para o compartilhamento de dados do consumidor de dados. Depois que o status do gatilho for bem-sucedido, navegue até o Banco de Dados SQL e o data lake de destino para ver se os dados foram descarregados para os respectivos armazenamentos.

Parabéns. Você concluiu o laboratório!