Copiar dados com segurança do armazenamento de Blob do Azure para um banco de dados SQL usando pontos de extremidade privados
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Gorjeta
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!
Neste tutorial, vai criar uma fábrica de dados com a interface de utilizador (IU) do Azure Data Factory. O pipeline nesta fábrica de dados copia dados com segurança do armazenamento de Blob do Azure para um banco de dados SQL do Azure (ambos permitindo acesso apenas a redes selecionadas) usando pontos de extremidade privados na Rede Virtual Gerenciada do Azure Data Factory. O padrão de configuração neste tutorial aplica-se à cópia a partir de um arquivo de dados baseado em ficheiros para um arquivo de dados relacional. Para obter uma lista de armazenamentos de dados suportados como fontes e coletores, consulte a tabela Armazenamentos de dados e formatos suportados. O recurso de pontos de extremidade privados está disponível em todas as camadas do Azure Data Factory, portanto, nenhuma camada específica é necessária para utilizá-los. Para obter mais detalhes sobre preços e camadas, consulte a página de preços do Azure Data Factory.
Nota
Se não estiver familiarizado com o Data Factory, veja Introdução ao Azure Data Factory.
Neste tutorial, vai executar os seguintes passos:
- Criar uma fábrica de dados.
- Criar um pipeline com uma atividade de cópia.
Pré-requisitos
- Subscrição do Azure. Se não tiver uma subscrição do Azure, crie uma conta do Azure gratuita antes de começar.
- Conta de armazenamento do Azure. Utilize o Armazenamento de blobs como um arquivo dos dados de origem. Se não tiver uma conta de armazenamento, veja Criar uma conta de armazenamento do Azure para seguir os passos para criar uma. Certifique-se de que a conta de armazenamento permite o acesso apenas a partir de redes selecionadas.
- Base de Dados SQL do Azure. Pode utilizar a base de dados como um arquivo de dados sink. Se você não tiver um banco de dados SQL do Azure, consulte Criar um banco de dados SQL para conhecer as etapas para criar um. Verifique se a conta do Banco de dados SQL permite acesso somente de redes selecionadas.
Criar um blob e uma tabela SQL
Agora, prepare seu armazenamento de blob e banco de dados SQL para o tutorial executando as etapas a seguir.
Criar um blob de origem
Abra o Bloco de Notas. Copie o texto seguinte e guarde-o como um ficheiro emp.txt no disco:
FirstName,LastName John,Doe Jane,Doe
Crie um contêiner chamado adftutorial em seu armazenamento de blob. Crie uma pasta com o nome input neste contentor. Em seguida, carregue o ficheiro emp.txt para a pasta input. Utilize o portal do Azure ou ferramentas como o Explorador de Armazenamento do Azure para realizar estas tarefas.
Criar uma tabela SQL sink
Utilize o seguinte script SQL para criar a tabela dbo.emp na sua base de dados SQL:
CREATE TABLE dbo.emp
(
ID int IDENTITY(1,1) NOT NULL,
FirstName varchar(50),
LastName varchar(50)
)
GO
CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
Criar uma fábrica de dados
Neste passo, vai criar uma fábrica de dados e iniciar a IU do Data Factory para criar um pipeline na fábrica de dados.
Abra o Microsoft Edge ou o Google Chrome. Atualmente, apenas os navegadores Microsoft Edge e Google Chrome suportam a interface do usuário do Data Factory.
No menu à esquerda, selecione Criar um recurso>Analytics>Data Factory.
Na página Nova fábrica de dados, em Nome, introduza ADFTutorialDataFactory.
O nome do Azure Data Factory deve ser globalmente exclusivo. Se você receber uma mensagem de erro sobre o valor do nome, insira um nome diferente para o data factory (por exemplo, seunomeADFTutorialDataFactory). Para obter as regras de nomenclatura dos artefactos do Data Factory, veja Regras de nomenclatura do Data Factory.
Selecione a subscrição do Azure na qual quer criar a fábrica de dados.
Em Grupo de Recursos, efetue um destes passos:
- Selecione Utilizar existente e selecione um grupo de recursos já existente na lista pendente.
- Selecione Criar novo e introduza o nome de um grupo de recursos.
Para saber mais sobre grupos de recursos, veja Utilizar grupos de recursos para gerir os recursos do Azure.
Em Versão, selecione V2.
Em Localização, selecione uma localização para a fábrica de dados. Apenas os locais suportados aparecem na lista suspensa. Os arquivos de dados (por exemplo, o Armazenamento do Azure e a Base de Dados SQL) e as computações (por exemplo, o Azure HDInsight) que a fábrica de dados utiliza podem estar noutras regiões.
Selecione Criar.
Após a conclusão da criação, você verá o aviso na Central de notificações. Selecione Ir para o recurso para ir para a página Data Factory .
Selecione Abrir no bloco Abrir o Azure Data Factory Studio para iniciar a interface do usuário do Data Factory em uma guia separada.
Criar um tempo de execução de integração do Azure na Rede Virtual Gerenciada do Data Factory
Nesta etapa, você cria um tempo de execução de integração do Azure e habilita a Rede Virtual Gerenciada do Data Factory.
No portal do Data Factory, vá para Gerenciar e selecione Novo para criar um novo tempo de execução de integração do Azure.
Na página Configuração do tempo de execução de integração, escolha qual tempo de execução de integração criar com base nos recursos necessários. Neste tutorial, selecione Azure, Self-Hosted e clique em Continuar.
Selecione Azure e clique em Continuar para criar um tempo de execução da Integração do Azure.
Em Configuração de rede virtual (Pré-visualização), selecione Ativar.
Selecione Criar.
Criar um pipeline
Neste passo, vai criar um pipeline com uma atividade de cópia na fábrica de dados. A atividade de cópia copia os dados do Armazenamento de blobs para a Base de Dados SQL. No Tutorial de início rápido, seguiu os passos abaixo para criar um pipeline:
- Criar o serviço ligado.
- Criar os conjuntos de dados de entrada e saída.
- Criar um pipeline.
Neste tutorial, você começa criando um pipeline. Em seguida, vai criar serviços ligados e conjuntos de dados quando forem necessários para configurar o pipeline.
Na página inicial, selecione Orquestrar.
No painel de propriedades do pipeline, digite CopyPipeline para o nome do pipeline.
Na caixa de ferramentas Atividades , expanda a categoria Mover e Transformar e arraste a atividade Copiar dados da caixa de ferramentas para a superfície do designer de pipeline. Digite CopyFromBlobToSql para o nome.
Configurar uma origem
Gorjeta
Neste tutorial, você usa a chave de conta como o tipo de autenticação para seu armazenamento de dados de origem. Você também pode escolher outros métodos de autenticação suportados, como URI SAS, Entidade de Serviço e Identidade Gerenciada , se necessário. Para obter mais informações, consulte as seções correspondentes em Copiar e transformar dados no armazenamento de Blob do Azure usando o Azure Data Factory.
Para armazenar segredos para armazenamentos de dados com segurança, também recomendamos que você use o Cofre da Chave do Azure. Para obter mais informações e ilustrações, consulte Armazenar credenciais no Cofre da Chave do Azure.
Criar um conjunto de dados de origem e um serviço vinculado
Selecione + Novo para criar um conjunto de dados de origem.
Na caixa de diálogo Novo Conjunto de Dados, selecione Armazenamento de Blob do Azure e, em seguida, selecione Continuar. A origem de dados está num Armazenamento de blobs, pelo que vai selecionar o Armazenamento de Blobs do Azure para o conjunto de dados de origem.
Na caixa de diálogo Selecionar Formato, selecione o tipo de formato dos seus dados e, em seguida, selecione Continuar.
Na caixa de diálogo Definir Propriedades, digite SourceBlobDataset para Name. Marque a caixa de seleção Primeira linha como cabeçalho. Na caixa de texto Serviço vinculado, selecione + Novo.
Na caixa de diálogo Novo serviço vinculado (Armazenamento de Blob do Azure), digite AzureStorageLinkedService como Nome e selecione sua conta de armazenamento na lista Nome da conta de armazenamento.
Certifique-se de ativar a Criação interativa. Pode levar cerca de um minuto para ser ativado.
Selecione Testar ligação. Ele deve falhar quando a conta de armazenamento permite o acesso somente de redes selecionadas e requer que o Data Factory crie um ponto de extremidade privado para ele que deve ser aprovado antes de usá-lo. Na mensagem de erro, você verá um link para criar um ponto de extremidade privado que você pode seguir para criar um ponto de extremidade privado gerenciado. Uma alternativa é ir diretamente para a guia Gerenciar e seguir as instruções na próxima seção para criar um ponto de extremidade privado gerenciado.
Nota
A guia Gerenciar pode não estar disponível para todas as instâncias do data factory. Se você não vê-lo, você pode acessar pontos de extremidade privados selecionando Author>Connections>Private Endpoint.
Mantenha a caixa de diálogo aberta e, em seguida, aceda à sua conta de armazenamento.
Siga as instruções nesta seção para aprovar o link privado.
Volte para a caixa de diálogo. Selecione Testar conexão novamente e selecione Criar para implantar o serviço vinculado.
Depois que o serviço vinculado é criado, ele volta para a página Definir propriedades . Junto a Caminho do ficheiro, selecione Procurar.
Vá para a pasta adftutorial/input, selecione o arquivo emp.txt e, em seguida, selecione OK.
Selecione OK. Ele vai automaticamente para a página do pipeline. Na guia Origem, confirme se SourceBlobDataset está selecionado. Para pré-visualizar os dados nesta página, selecione Pré-visualizar dados.
Criar um ponto final privado gerido
Se você não selecionou o hiperlink quando testou a conexão, siga o caminho. Agora você precisa criar um ponto de extremidade privado gerenciado que você se conectará ao serviço vinculado que você criou.
Vá para a guia Gerenciar .
Nota
A guia Gerenciar pode não estar disponível para todas as instâncias do Data Factory. Se você não vê-lo, você pode acessar pontos de extremidade privados selecionando Author>Connections>Private Endpoint.
Vá para a seção Pontos de extremidade privados gerenciados.
Selecione + Novo em Pontos de extremidade privados gerenciados.
Selecione o bloco Armazenamento de Blobs do Azure na lista e selecione Continuar.
Introduza o nome da conta de armazenamento que criou.
Selecione Criar.
Depois de alguns segundos, você verá que o link privado criado precisa de uma aprovação.
Selecione o ponto de extremidade privado que você criou. Você pode ver um hiperlink que o levará a aprovar o ponto de extremidade privado no nível da conta de armazenamento.
Aprovação de um link privado em uma conta de armazenamento
Na conta de armazenamento, vá para Conexões de ponto de extremidade privado na seção Configurações .
Marque a caixa de seleção do ponto de extremidade privado que você criou e selecione Aprovar.
Adicione uma descrição e selecione Sim.
Volte para a seção Pontos de extremidade privados gerenciados da guia Gerenciar no Data Factory.
Após cerca de um ou dois minutos, você verá a aprovação do seu ponto de extremidade privado aparecer na interface do usuário do Data Factory.
Configurar um coletor
Gorjeta
Neste tutorial, você usa a autenticação SQL como o tipo de autenticação para o armazenamento de dados do coletor. Você também pode escolher outros métodos de autenticação suportados, como Entidade de Serviço e Identidade Gerenciada , se necessário. Para obter mais informações, consulte as seções correspondentes em Copiar e transformar dados no Banco de Dados SQL do Azure usando o Azure Data Factory.
Para armazenar segredos para armazenamentos de dados com segurança, também recomendamos que você use o Cofre da Chave do Azure. Para obter mais informações e ilustrações, consulte Armazenar credenciais no Cofre da Chave do Azure.
Criar um conjunto de dados de coletor e um serviço vinculado
Vá para o separador Sink e selecione + Novo para criar um conjunto de dados sink.
Na caixa de diálogo Novo Conjunto de Dados, digite SQL na caixa de pesquisa para filtrar os conectores. Selecione Banco de Dados SQL do Azure e, em seguida, selecione Continuar. Neste tutorial, vai copiar dados para uma base de dados SQL.
Na caixa de diálogo Definir Propriedades, digite OutputSqlDataset para Name. Na lista suspensa Serviço vinculado, selecione + Novo. Os conjuntos de dados têm de estar associados a um serviço ligado. O serviço ligado tem a cadeia de ligação que o Data Factory utiliza para ligar à base de dados SQL em runtime. O conjunto de dados especifica o contentor, a pasta e o ficheiro (opcional) para os quais os dados são copiados.
Na caixa de diálogo Novo serviço vinculado (Banco de Dados SQL do Azure), execute as seguintes etapas:
- Em Name, introduza AzureSqlDatabaseLinkedService.
- Em Nome do servidor, selecione a sua instância do SQL Server.
- Certifique-se de ativar a Criação interativa.
- Em Nome da base de dados, selecione a sua base de dados SQL.
- Em Nome de utilizador, introduza o nome do utilizador.
- Em Palavra-passe, introduza a palavra-passe do utilizador.
- Selecione Testar ligação. Ele deve falhar porque o servidor SQL permite o acesso somente de redes selecionadas e requer que o Data Factory crie um ponto de extremidade privado para ele, que deve ser aprovado antes de usá-lo. Na mensagem de erro, você verá um link para criar um ponto de extremidade privado que você pode seguir para criar um ponto de extremidade privado gerenciado. Uma alternativa é ir diretamente para a guia Gerenciar e seguir as instruções na próxima seção para criar um ponto de extremidade privado gerenciado.
- Mantenha a caixa de diálogo aberta e vá para o servidor SQL selecionado.
- Siga as instruções nesta seção para aprovar o link privado.
- Volte para a caixa de diálogo. Selecione Testar conexão novamente e selecione Criar para implantar o serviço vinculado.
Ele vai automaticamente para a caixa de diálogo Definir propriedades . Em Tabela, selecione [dbo].[emp]. Em seguida, selecione OK.
Vá para a guia com o pipeline e, em Conjunto de dados do coletor, confirme se OutputSqlDataset está selecionado.
Opcionalmente, você pode mapear o esquema da origem para o esquema correspondente do destino seguindo o mapeamento de esquema na atividade de cópia.
Criar um ponto final privado gerido
Se você não selecionou o hiperlink quando testou a conexão, siga o caminho. Agora você precisa criar um ponto de extremidade privado gerenciado que você se conectará ao serviço vinculado que você criou.
Vá para a guia Gerenciar .
Vá para a seção Pontos de extremidade privados gerenciados.
Selecione + Novo em Pontos de extremidade privados gerenciados.
Selecione o bloco Banco de Dados SQL do Azure na lista e selecione Continuar.
Digite o nome do servidor SQL selecionado.
Selecione Criar.
Depois de alguns segundos, você verá que o link privado criado precisa de uma aprovação.
Selecione o ponto de extremidade privado que você criou. Você pode ver um hiperlink que o levará a aprovar o ponto de extremidade privado no nível do SQL Server.
Aprovação de um link privado no SQL Server
- No servidor SQL, vá para Conexões de ponto de extremidade privado na seção Configurações .
- Marque a caixa de seleção do ponto de extremidade privado que você criou e selecione Aprovar.
- Adicione uma descrição e selecione Sim.
- Volte para a seção Pontos de extremidade privados gerenciados da guia Gerenciar no Data Factory.
- Deve levar um ou dois minutos para que a aprovação apareça para seu ponto de extremidade privado.
Debug and publish the pipeline (Depurar e publicar o pipeline)
Pode depurar um pipeline antes de publicar artefactos (serviços ligados, conjuntos de dados e pipeline) no Data Factory ou no seu próprio repositório Git do Azure.
- Para depurar o pipeline, selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.
- Depois que o pipeline puder ser executado com êxito, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que você criou no Data Factory.
- Aguarde até ver a mensagem Publicação com êxito. Para ver as mensagens de notificação, selecione Mostrar notificações no canto superior direito (botão de sino).
Resumo
O pipeline neste exemplo copia dados do armazenamento de Blob para o Banco de dados SQL usando pontos de extremidade privados na Rede Virtual Gerenciada do Data Factory. Aprendeu a:
- Criar uma fábrica de dados.
- Criar um pipeline com uma atividade de cópia.