Integração de dados usando o Azure Data Factory e o Azure Data Share
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
À medida que os clientes embarcam em seus projetos modernos de data warehouse e de análise, eles precisam não só de mais dados, como também de mais visibilidade sobre seus dados em todo o acervo de dados deles. Este workshop se aprofunda em como os aprimoramentos do Azure Data Factory e do Azure Data Share simplificam a integração e o gerenciamento de dados no Azure.
Desde a habilitação do ETL/ELT sem código até a criação de uma exibição abrangente sobre seus dados, os aprimoramentos no Azure Data Factory capacitarão seus engenheiros de dados a introduzir mais dados com segurança e, portanto, mais valor, à sua empresa. O Azure Data Share permite que você faça compartilhamento entre empresas de uma maneira controlada.
Neste workshop, você usará o ADF (Azure Data Factory) para ingerir dados do Banco de Dados SQL do Azure no ADLS Gen2 (Azure Data Lake Storage Gen2). Após colocar os dados no lake, você os transformará por meio de fluxos de dados de mapeamento e do serviço de transformação nativo do data factory e os introduzirá no Azure Synapse Analytics. Em seguida, você compartilhará a tabela com os dados transformados junto com alguns dados extras usando o Azure Data Share.
Os dados usados nesse laboratório são os dados de táxi da cidade de Nova York. Para importá-los em seu banco de dados no Banco de Dados SQL, baixe o arquivo taxi-data bacpac. Selecione a opção Baixar arquivo bruto no GitHub.
Pré-requisitos
Assinatura do Azure: caso você não tenha uma assinatura do Azure, crie uma conta gratuita antes de começar.
Banco de Dados SQL do Azure: se você não tiver um Banco de Dados SQL do Azure, saiba como criar um Banco de Dados SQL.
Conta de armazenamento do Azure Data Lake Storage Gen2: se você não tiver uma conta de armazenamento do ADLS Gen2, aprenda a criar uma conta de armazenamento do ADLS Gen2.
Azure Synapse Analytics: se você não tiver um espaço de trabalho do Azure Synapse Analytics, aprenda com a Introdução ao Azure Synapse Analytics.
Azure Data Factory: se você ainda não tem um data factory, veja como criar um data factory.
Azure Data Share: se você ainda não tem um compartilhamento de dados, veja como criar um compartilhamento de dados.
Configurar seu ambiente do Azure Data Factory
Nesta seção, você aprenderá a acessar a ADF UX (experiência de usuário do Azure Data Factory) no portal do Azure. Quando estiver na interface do ADF, você configurará três serviços vinculados para cada um dos armazenamentos de dados que estamos usando: Banco de Dados SQL do Azure, ADLS Gen2 e Azure Synapse Analytics.
Nos serviços vinculados do Azure Data Factory, defina as informações de conexão como recursos externos. No momento, o Azure Data Factory é compatível com mais de 85 conectores.
Abrir a UX do Azure Data Factory
Abra o portal do Azure no Microsoft Edge ou no Google Chrome.
Usando a barra de pesquisa na parte superior da página, pesquise "Data Factories".
Selecione o recurso do data factory para abrir seus recursos no painel esquerdo.
Selecione Abrir o Estúdio do Azure Data Factory. O Estúdio do Data Factory também pode ser acessado diretamente em adf.azure.com.
Você será redirecionado para a página inicial do ADF no portal do Azure. Essa página contém inícios rápidos, vídeos instrutivos e links para tutoriais para aprender conceitos de data factory. Para começar a criação, selecione no ícone de lápis na barra lateral esquerda.
Criar um serviço vinculado do Banco de Dados SQL do Azure
Para criar um serviço vinculado, selecione o hub Gerenciar na barra lateral esquerda, no painel Conexões, selecione Serviços vinculados e escolha Novo para adicionar um novo serviço vinculado.
O primeiro serviço vinculado que você configurará é um Banco de Dados SQL do Azure. Você pode usar a barra de pesquisa para filtrar a lista de armazenamento de dados. Selecione o bloco Banco de Dados SQL do Azure e selecione continuar.
No painel de configuração do Banco de Dados SQL, insira "SQLDB" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.
Criar um serviço vinculado do Azure Synapse Analytics
Repita o mesmo processo para adicionar um serviço vinculado do Azure Synapse Analytics. Na guia conexões, selecione Novo. Selecione o bloco do Azure Synapse Analytics e selecione Continuar.
No painel de configuração do serviço vinculado, insira "SQLDW" como o nome do serviço vinculado. Insira suas credenciais para permitir que o data factory se conecte ao seu banco de dados. Se estiver usando a autenticação SQL, insira o nome do servidor, o banco de dados, o nome de usuário e a senha. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.
Criar um serviço vinculado do Azure Data Lake Storage Gen2
O último serviço vinculado necessário para este laboratório é um Azure Data Lake Storage Gen2. Na guia conexões, selecione Novo. Selecione o bloco Azure Data Lake Storage Gen2 e selecione Continuar.
No painel de configuração do serviço vinculado, insira "ADLSGen2" como o nome do serviço vinculado. Se estiver usando a autenticação da chave de conta, selecione a conta de armazenamento do ADLS Gen2 da lista de seleção Nome da conta de armazenamento. Verifique se as informações de conexão estão corretas selecionando o Testar conexão. Selecione Criar quando terminar.
Ativar modo de depuração do fluxo de dados
Na seção Transformar dados usando o fluxo de dados de mapeamento, você vai criar fluxos de dados de mapeamento. Uma melhor prática antes de criar fluxos de dados de mapeamento é ativar o modo de depuração, o que permite testar a lógica de transformação em segundos em um cluster do spark ativo.
Para ativar a depuração, selecione o controle deslizante de Depuração de fluxo de dados na barra superior do painel da tela do fluxo de dados ou do pipeline quando tiver atividades de Fluxo de dados. Selecione OK quando a caixa de diálogo de confirmação for exibida. O cluster é iniciado em cerca de 5 a 7 minutos. Prossiga para a seção Ingerir dados do Banco de Dados SQL do Azure para o ADLS Gen2 usando a atividade Copy enquanto ele está inicializando.
Ingerir dados usando a atividade de cópia
Nesta seção, você criará um pipeline com uma atividade de cópia que ingere uma tabela de um Banco de Dados SQL do Azure para uma conta de armazenamento do ADLS Gen2. Você aprenderá a adicionar um pipeline, configurar um conjunto de dados e depurar um pipeline por meio da UX do ADF. O padrão de configuração usado nesta seção pode ser aplicado à cópia de um armazenamento de dados relacional para um armazenamento de dados baseado em arquivo.
No Azure Data Factory, um pipeline é um agrupamento lógico de atividades que juntas executam uma tarefa. Uma atividade define uma operação a ser executada em seus dados. Um conjunto de dados aponta para os dados que você deseja usar em um serviço vinculado.
Criar um pipeline com uma atividade de cópia
No painel recursos de fábrica, selecione o ícone de adição para abrir o novo menu de recurso. Selecione Pipeline.
Na guia Geral da tela do pipeline, dê ao pipeline um nome descritivo como "IngestAndTransformTaxiData".
No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Copiar dados para a tela. Dê à atividade de cópia um nome descritivo como "IngestIntoADLS".
Configurar o conjunto de dados de origem do BD SQL do Azure
Selecione a guia Origem da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo. Sua origem será a tabela
dbo.TripData
localizada no serviço vinculado "SQLDB" configurado anteriormente.Pesquise por Banco de Dados SQL do Azure e selecione Continuar.
Chame seu conjunto de dados de "TripData". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela
dbo.TripData
na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.
Você criou com êxito o conjunto de dados de origem. Verifique se, nas configurações de origem, o valor padrão Tabela foi selecionado no campo de consulta de uso.
Configurar conjunto de dados do coletor do ADLS Gen2
Selecione a guia Coletor da atividade de cópia. Para criar um novo conjunto de dados, selecione Novo.
Pesquise por Azure Data Lake Storage Gen2 e selecione Continuar.
No painel de formato selecionado, selecione DelimitedText enquanto você está escrevendo em um arquivo csv. Selecione continuar.
Dê ao conjunto de dados de coletor o nome "TripDataCSV". Selecione "ADLSGen2" como seu serviço vinculado. Insira onde você deseja gravar seu arquivo csv. Por exemplo, você pode gravar seus dados no arquivo
trip-data.csv
no contêinerstaging-container
. Defina Primeira linha como cabeçalho como true porque convém que seus dados de saída tenham cabeçalhos. Como ainda não existe um arquivo no destino, defina Importar esquema como Nenhum. Selecione OK quando terminar.
Testar a atividade de cópia com uma execução de depuração de pipeline
Para verificar se sua atividade de cópia está funcionando corretamente, selecione Depurar na parte superior da tela do pipeline para executar uma execução de depuração. Uma execução de depuração permite que você teste seu pipeline de ponta a ponta ou até um ponto de interrupção antes de publicá-lo no serviço de data factory.
Para monitorar a execução de depuração, acesse a guia Saída da tela do pipeline. A tela de monitoramento atualiza automaticamente a cada 20 segundos ou ao selecionar manualmente no botão atualizar. A atividade de cópia tem uma exibição de monitoramento especial, que você pode acessar selecionando o ícone de óculos na coluna Ações.
A exibição de monitoramento da cópia fornece os detalhes de execução e as características de desempenho da atividade. Você pode ver informações como os dados lidos/gravados, linhas lidas/gravadas, arquivos lidos/gravados e a taxa de transferência. Se você configurou tudo corretamente, deverá ver 49.999 linhas gravadas em um arquivo em seu coletor do ADLS.
Antes de passar para a próxima seção, sugerimos que você publique suas alterações no serviço do data factory selecionando Publicar tudo na barra superior do alocador. Embora não seja abordado neste laboratório, o Azure Data Factory dá suporte à integração completa do git. A integração do Git permite o controle de versão, o salvamento iterativo em um repositório e a colaboração em um data factory. Para obter mais informações, confira controle do código-fonte no Azure Data Factory.
Transformar dados usando o fluxo de dados de mapeamento
Agora que você copiou com sucesso os dados para o Azure Data Lake Storage, é hora de ingressar e agregar esses dados em um data warehouse. Usamos o fluxo de dados de mapeamento, o serviço de transformação projetado visualmente do Azure Data Factory. Os fluxos de dados de mapeamento permitem que os usuários desenvolvam uma lógica de transformação sem código e execute-a em clusters do spark gerenciados pelo serviço do ADF.
O fluxo de dados criado nesta etapa interna ingressa o conjunto de dados "TripDataCSV" criado na seção anterior com uma tabela dbo.TripFares
armazenada no "SQLDB" baseado em quatro colunas principais. Em seguida, os dados são agregados com base na coluna payment_type
para calcular a média de determinados campos e escritos em uma tabela do Azure Synapse Analytics.
Adicionar uma atividade de fluxo de dados ao seu pipeline
No painel de atividades da tela do pipeline, abra a seção Mover e Transformar e arraste a atividade Fluxo de dados para a tela.
No painel lateral que é aberto, selecione Criar fluxo de dados e escolha Fluxo de dados de mapeamento. Selecione OK.
Você será direcionado para a tela do fluxo de dados, onde vai criar sua lógica de transformação. Na guia geral, dê ao fluxo de dados o nome "JoinAndAggregateData".
Configurar sua origem de CSV de dados de viagem
A primeira coisa que convém fazer é configurar suas duas transformações de origem. A primeira fonte aponta para o conjunto de dados DelimitedText de "TripDataCSV". Para adicionar uma transformação de origem, selecione na caixa Adicionar origem no painel da tela.
Nomeie a sua fonte "TripDataCSV" e selecione o conjunto de dados "TripDataCSV" na lista de seleção de origem. Se você se lembra, você não importou um esquema inicialmente ao criar esse conjunto de dados, pois não havia nenhum dado lá. Como
trip-data.csv
agora existe, selecione Editar para ir para a guia Configurações do conjunto de dados.Acesse a guia Esquema e selecione Importar esquema. Selecione Da conexão/armazenamento para importar diretamente do armazenamento de arquivos. 14 colunas do tipo cadeia de caracteres devem aparecer.
Volte para o fluxo de dados "JoinAndAggregateData". Se o cluster de depuração tiver iniciado (indicado por um círculo verde ao lado do controle deslizante de depuração), você poderá obter um instantâneo dos dados na guia Visualização de Dados. Selecione Atualizar para buscar uma visualização de dados.
Observação
A visualização de dados não grava dados.
Configurar a origem do Banco de Dados SQL de tarifas de viagem
A segunda origem que você está adicionando pontos na tabela Banco de Dados SQL
dbo.TripFares
. Na fonte "TripDataCSV", haverá outra caixa Adicionar Origem. Selecione ela para adicionar uma nova transformação de origem.Dê a esta origem o nome "TripFaresSQL". Selecione Novo ao lado do campo do conjunto de dados de origem para criar um conjunto de dados do Banco de Dados SQL.
Selecione o bloco Banco de Dados SQL do Azure e selecione Continuar. Você pode notar que não há suporte para muitos conectores no data factory no fluxo de dados de mapeamento. Para transformar dados de uma dessas origens, ingira-os em uma origem com suporte usando a atividade de cópia.
Chame seu conjunto de dados de "TripFares". Selecione "SQLDB" como seu serviço vinculado. Selecione o nome da tabela
dbo.TripFares
na lista de suspensão do nome da tabela. Importe o esquema Da conexão/do repositório. Selecione OK quando terminar.Para verificar seus dados, busque uma visualização de dados na guia Visualização de Dados.
TripDataCSV e TripFaresSQL da junção interna
Para adicionar uma nova transformação, selecione o ícone de adição no canto inferior direito de "TripDataCSV". Em Várias entradas/saídas, selecione Junção.
Dê à sua transformação de junção o nome "InnerJoinWithTripFares". Selecione "TripFaresSQL" na lista de seleção do fluxo direito. Selecione Interno como o tipo de junção. Para saber mais sobre os diferentes tipos de junção no fluxo de dados de mapeamento, confira tipos de junção.
Selecione quais colunas você deseja corresponder de cada fluxo por meio da lista de seleção Condições de junção. Para adicionar uma condição de junção adicional, selecione o ícone de adição ao lado de uma condição existente. Por padrão, todas as condições de junção são combinadas com um operador AND, o que significa que todas as condições precisam ser atendidas para obter uma correspondência. Neste laboratório, desejamos corresponder às colunas
medallion
,hack_license
,vendor_id
epickup_datetime
Verifique se você ingressou 25 colunas com êxito com uma visualização de dados.
Agregar por payment_type
Depois de concluir a transformação de junção, adicione uma transformação de agregação selecionando o ícone de adição ao lado de InnerJoinWithTripFares. Escolha Agregação em Modificador de esquema.
Dê à sua transformação de agregação o nome "AggregateByPaymentType". Selecione
payment_type
como a coluna agrupar por.Vá para a guia Agregações. Especifique duas agregações:
- A tarifa média agrupada por tipo de pagamento
- A distância total da viagem agrupada por tipo de pagamento
Primeiro, você criará a expressão de tarifa média. Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "average_fare".
Para inserir uma expressão de agregação, selecione a caixa azul rotulada Inserir expressão, que abre o construtor de expressões de fluxo de dados, uma ferramenta usada para criar visualmente expressões de fluxo de dados usando o esquema de entrada, funções e operações internas e parâmetros definidos pelo usuário. Para saber mais sobre as funcionalidades do Construtor de Expressões, confira a documentação do Construtor de Expressões.
Para obter a tarifa média, use a função de agregação
avg()
para agregar a conversão da colunatotal_amount
em um inteiro comtoInteger()
. Na linguagem de expressão do fluxo de dados, isso é definido comoavg(toInteger(total_amount))
. Selecione Salvar e concluir quando terminar.Para adicionar mais uma expressão de agregação, selecione no ícone de adição ao lado de
average_fare
. Selecione Adicionar coluna.Na caixa de texto rotulada Adicionar ou selecionar uma coluna, insira "total_trip_distance". Assim como na última etapa, abra o Construtor de Expressões para inserir a expressão.
Para obter a distância total da viagem, use a função de agregação
sum()
para agregar a conversão da colunatrip_distance
em um inteiro comtoInteger()
. Na linguagem de expressão do fluxo de dados, isso é definido comosum(toInteger(trip_distance))
. Selecione Salvar e concluir quando terminar.Teste a lógica de transformação na guia Visualização de Dados. Como você pode ver, há menos linhas e colunas do que antes. Apenas as três colunas agrupar por e agregação definidas nessa transformação continuam downstream. Como há apenas cinco grupos de tipo de pagamento no exemplo, apenas cinco linhas são emitidas.
Configurar seu coletor do Azure Synapse Analytics
Agora que terminamos nossa lógica de transformação, estamos prontos para coletar nossos dados em uma tabela do Azure Synapse Analytics. Adicione uma transformação de coletor na seção Destino.
Dê ao seu coletor o nome "SQLDWSink". SelecioneNovo ao lado do campo do conjunto de dados do coletor para criar um conjunto de dados do Azure Synapse Analytics.
Selecione o bloco do Azure Synapse Analytics e selecione Continuar.
Chame o conjunto de dados de "AggregatedTaxiData". Selecione "SQLDW" como seu serviço vinculado. Selecione Criar nova tabela e nomeie-a
dbo.AggregateTaxiData
. Selecione OK ao concluir.Acesse a guia Configurações do coletor. Como estamos criando uma tabela, precisamos selecionar Recriar tabela na ação da tabela. Desmarque Habilitar preparo, que alternará se estivermos inserindo linha por linha ou em lote.
Você criou seu fluxo de dados com êxito. Agora é hora de executá-lo em uma atividade de pipeline.
Depurar o pipeline de ponta a ponta
Volte para a guia do pipeline IngestAndTransformData. Observe a caixa verde na atividade de cópia "IngestIntoADLS". Arraste-a para a atividade de fluxo de dados "JoinAndAggregateData". Isso cria um "em caso de êxito", o que fará a atividade de fluxo de dados ser executada apenas se a cópia tiver êxito.
Como fizemos para a atividade de cópia, selecione Depurar para executar uma execução de depuração. Para execuções de depuração, a atividade de fluxo de dados usa o cluster de depuração ativo em vez de criar um. Esse pipeline leva pouco mais de um minuto para ser executado.
Assim como a atividade de cópia, o fluxo de dados tem uma exibição de monitoramento especial acessada pelo ícone de óculos após a conclusão da atividade.
Na exibição de monitoramento, você pode ver um grafo de fluxo de dados simplificado juntamente com os tempos de execução e as linhas em cada estágio de execução. Se for feito corretamente, você deverá ter 49.999 linhas agregadas em cinco linhas nessa atividade.
Selecione uma transformação para obter detalhes adicionais sobre sua execução, como informações sobre particionamento e colunas novas/atualizadas/removidas.
Agora você concluiu a parte do data factory deste laboratório. Publique seus recursos se desejar operacionalizá-los com gatilhos. Você executou com êxito um pipeline que ingeriu dados do Banco de Dados SQL do Azure para o Azure Data Lake Storage usando a atividade de cópia e, em seguida, agregou esses dados em um Azure Synapse Analytics. Você pode verificar se os dados foram gravados com êxito examinando o SQL Server em si.
Compartilhar dados usando o Azure Data Share
Nesta seção, você aprenderá a configurar um novo compartilhamento de dados usando o portal do Azure. Isso envolve a criação de um compartilhamento de dados que contém conjuntos de dados do Azure Data Lake Storage Gen2 e do Azure Synapse Analytics. Em seguida, você configurará um agendamento de instantâneo, que fornecerá aos consumidores de dados uma opção para atualizar automaticamente os dados que estão sendo compartilhados com eles. Em seguida, você convidará os destinatários para seu compartilhamento de dados.
Após criar um compartilhamento de dados, você trocará de lugar e se tornará o consumidor de dados. Como consumidor de dados, você percorrerá o fluxo de aceitação de um convite do compartilhamento de dados, da configuração de onde você deseja que os dados fossem recebidos e do mapeamento de conjuntos de dados para diferentes locais de armazenamento. Em seguida, você disparará um instantâneo, que copiará os dados compartilhados com você para o destino especificado.
Compartilhar dados (fluxo de Provedor de Dados)
Abra o portal do Azure no Microsoft Edge ou no Google Chrome.
Usando a barra de pesquisa na parte superior da página, pesquise Compartilhamentos de Dados
Selecione a conta do compartilhamento de dados com "Provedor" no nome. Por exemplo, DataProvider0102.
Selecione Começar a compartilhar seus dados
Selecione +Criar para começar a configurar seu novo compartilhamento de dados.
Em Nome do compartilhamento, especifique um nome de sua escolha. Esse é o nome do compartilhamento que será visto por seu consumidor de dados. Portanto, dê a ele um nome descritivo como TaxiData.
Em Descrição, insira uma frase que descreva o conteúdo do compartilhamento de dados. O compartilhamento de dados contém dados de corridas de táxi de todo o mundo armazenados em uma variedade de repositórios, incluindo o Azure Synapse Analytics e o Azure Data Lake Storage.
Em Termos de uso, especifique um conjunto de termos que você gostaria que seu consumidor de dados obedecesse. Alguns exemplos incluem "Não distribua esses dados fora de sua organização" ou "Veja o contrato legal".
Selecione Continuar.
Selecione Adicionar conjuntos de dados
Selecione Azure Synapse Analytics para selecionar uma tabela do Azure Synapse Analytics na qual suas transformações do ADF foram descarregadas.
Você recebe um script para executar antes de poder continuar. O script fornecido cria um usuário no Banco de Dados SQL para permitir que o MSI do Azure Data Share seja autenticado em seu nome.
Importante
Antes de executar o script, você deve se definir como o Administrador do Active Directory para o servidor do SQL lógico do Banco de Dados SQL do Azure.
Abra uma nova guia e navegue até o portal do Azure. Copie o script fornecido para criar um usuário no banco de dados do qual você deseja compartilhar os dados. Faça isso entrando no banco de dados EDW usando o Editor de consultas do portal do Azureusando a autenticação do Microsoft Entra. Você precisa modificar o usuário no seguinte script de exemplo:
CREATE USER [dataprovider-xxxx@contoso.com] FROM EXTERNAL PROVIDER; ALTER ROLE db_owner ADD MEMBER [wiassaf@microsoft.com];
Volte para o Azure Data Share em que você estava adicionando conjunto de dados ao seu compartilhamento de dados.
Selecione EDW e, em seguida, AggregatedTaxiData para a tabela.
Selecione Adicionar conjunto de dados
Agora temos uma tabela SQL que faz parte do nosso conjunto de dados. Em seguida, adicionaremos mais conjuntos de dados do Azure Data Lake Storage.
Selecione Adicionar conjunto de dados e Azure Data Lake Storage Gen2
Selecione Avançar
Expanda wwtaxidata. Expanda Dados de Táxi de Boston. Você pode compartilhar até o nível do arquivo.
Selecione a pasta Dados de Táxi de Boston para adicionar a pasta inteira ao seu compartilhamento de dados.
Selecione Adicionar conjuntos de dados
Examine os conjuntos de dados que foram adicionados. Você deve ter uma tabela SQL e uma pasta ADLS Gen2 adicionadas ao seu compartilhamento de dados.
Selecione Continuar
Nessa tela, você pode adicionar destinatários ao seu compartilhamento de dados. Os destinatários adicionados receberão convites para o seu compartilhamento de dados. Para fins deste laboratório, você deve adicionar dois endereços de email:
Nessa tela, você pode definir uma Configuração de Instantâneo para o consumidor de dados. Isso permite que eles recebam atualizações regulares dos seus dados em um intervalo definido por você.
Verifique o Agendamento de Instantâneo e configure uma atualização por hora de seus dados usando a lista de seleção Recorrência.
Selecione Criar.
Agora você tem um compartilhamento de dados ativo. Vamos examinar o que você pode ver como provedor de dados quando cria um compartilhamento de dados.
Selecione o compartilhamento de dados criado, intitulado DataProvider. Você pode navegar até ele selecionando Compartilhamentos Enviados em Compartilhamento de Dados.
Selecione Agendamento de instantâneo. Você poderá desabilitar o agendamento de instantâneos se escolher.
Em seguida, selecione a guia Conjuntos de Dados. Você poderá adicionar outros conjuntos de dados a esse compartilhamento de dados depois que ele tiver sido criado.
Selecione a guia Assinaturas de compartilhamento. Ainda não existe nenhuma assinatura de compartilhamento porque seu consumidor de dados ainda não aceitou seu convite.
Navegue até a guia Convites. Aqui você verá uma lista de convites pendentes.
Selecione o convite para janedoe@fabrikam.com . Selecione Excluir. Se o destinatário ainda não tiver aceitado o convite, ele não poderá mais fazê-lo.
Selecione a guia Histórico . Nada é exibido ainda porque seu consumidor de dados ainda não aceitou seu convite nem disparou um instantâneo.
Receber dados (fluxo do consumidor de dados)
Agora que examinamos nosso compartilhamento de dados, estamos prontos para mudar o contexto e voltar para o consumidor de dados que era nosso.
Agora você deve ter um convite do Azure Data Share na caixa de entrada do Microsoft Azure. Inicie o Acesso via Web do Outlook (outlook.com) e entre usando as credenciais fornecidas para sua assinatura do Azure.
No email que você deve ter recebido, selecione "Exibir convite >". Neste ponto, você simulará a experiência do consumidor de dados ao aceitar um convite de provedores de dados para o compartilhamento de dados dele.
Você pode ser solicitado a selecionar uma assinatura. Selecione a assinatura que na qual você veio trabalhando para este laboratório.
Selecione o convite intitulado DataProvider.
Nesta tela de convite, você observará vários detalhes sobre o compartilhamento de dados que você configurou anteriormente como um provedor de dados. Examine os detalhes e aceite os termos de uso se forem fornecidos.
Selecione a Assinatura e o Grupo de Recursos que já existe para seu laboratório.
Para a Conta do compartilhamento de dados, selecione DataConsumer. Você também pode criar uma conta do compartilhamento de dados.
Ao lado de Nome do compartilhamento recebido, observe que o nome do compartilhamento padrão é o que foi especificado pelo provedor de dados. Dê ao compartilhamento um nome amigável que descreva os dados que você está prestes a receber, por exemplo, TaxiDataShare.
Você pode optar por Aceitar e configurar agora ou Aceitar e configurar depois. Se optar por aceitar e configurar agora, especifique uma conta de armazenamento em que todos os dados devem ser copiados. Se optar por aceitar e configurar depois, os conjuntos de dados no compartilhamento serão desmapeados e você precisará mapeá-los manualmente. Optaremos por isso mais tarde.
Selecione Aceitar e configurar depois.
Ao configurar essa opção, uma assinatura de compartilhamento é criada, mas não há lugar para os dados serem descarregados, pois nenhum destino foi mapeado.
Em seguida, configure mapeamentos de conjuntos de dados para o compartilhamento de dados.
Selecione o Compartilhamento Recebido (o nome especificado na etapa 5).
O Instantâneo do gatilho está esmaecido, mas o compartilhamento está Ativo.
Selecione a guia Conjuntos de Dados. Cada conjunto de dados é desmapeado, o que significa que não tem nenhum destino para o qual copiar os dados.
Selecione a tabela do Azure Synapse Analytics e selecione + Mapear para o Destino.
No lado direito da tela, selecione a lista de seleção Tipo de Dados de Destino.
Você pode mapear os dados SQL para uma ampla variedade de armazenamentos de dados. Nesse caso, mapearemos para um Banco de Dados SQL do Azure.
(Opcional) Selecione Azure Data Lake Storage Gen2 como o tipo de dados de destino.
(Opcional) Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.
(Opcional) Você pode optar por receber os dados em seu data lake no formato csv ou parquet.
Ao lado de Tipo de dados de destino, selecione Banco de Dados SQL do Azure.
Selecione a Assinatura, o Grupo de Recursos e a Conta de armazenamento nos quais você está trabalhando.
Antes de continuar, será necessário criar um usuário no SQL Server executando o script fornecido. Primeiro, copie o script fornecido para sua área de transferência.
Abra uma guia do portal do Azure. Não feche sua guia existente, pois você precisará voltar a ela daqui a pouco.
Na nova guia que você abriu, navegue até Bancos de dados SQL.
Selecione o Banco de Dados SQL (deve haver apenas um em sua assinatura). Tenha cuidado para não selecionar o data warehouse.
Selecione Editor de consultas (versão prévia)
Use a autenticação do Microsoft Entra para fazer entrar no editor de consultas.
Execute a consulta fornecida em seu compartilhamento de dados (copiada para a área de transferência na etapa 14).
Com esse comando, o serviço Azure Data Share pode usar Identidades Gerenciadas para os Serviços do Azure a serem autenticados no SQL Server poderem copiar os dados para ele.
Volte para a guia original e selecione Mapear para destino.
Em seguida, selecione a pasta Azure Data Lake Storage Gen2 que faz parte do conjunto de dados e mapeie-a para uma conta de Armazenamento de Blobs do Azure.
Com todos os conjuntos de dados mapeados, agora você está pronto para começar a receber dados do provedor de dados.
Selecione Detalhes.
Instantâneo de Gatilho não está mais esmaecido, pois o compartilhamento de dados agora tem destinos para os quais copiar.
Selecione Instantâneo de Gatilho ->Cópia completa.
Isso inicia a cópia de dados em sua nova conta de compartilhamento de dados. Em um cenário do mundo real, esses dados viriam de um terceiro.
Leva aproximadamente de 3 a 5 minutos para que os dados sejam distribuídos. Você pode monitorar o progresso selecionando na guia Histórico.
Enquanto você aguarda, navegue até o compartilhamento de dados original (DataProvider) e exiba o status da guia Assinaturas de Compartilhamento e Histórico. Agora há uma assinatura ativa e, como provedor de dados, você também pode monitorar quando o consumidor de dados começou a receber os dados compartilhados.
Volte para o compartilhamento de dados do consumidor de dados. Depois que o status do gatilho for bem-sucedido, navegue até o Banco de Dados SQL e o data lake de destino para ver se os dados foram descarregados para os respectivos armazenamentos.
Parabéns. Você concluiu o laboratório!