Ingerir dados em um pool de SQL dedicado

Artigo
12/11/2024

Neste artigo, você aprenderá a ingerir dados de uma conta de armazenamento do Azure Data Lake Gen2 em um pool de SQL dedicado no Azure Synapse Analytics.

Pré-requisitos

Assinatura do Azure: Caso você não tenha uma assinatura do Azure, crie uma conta gratuita do Azure antes de começar.
Conta de armazenamento do Azure: use o Azure Data Lake Storage Gen 2 como uma fonte de armazenamento de dados. Se você não tiver uma conta de armazenamento, consulte Criar uma conta de armazenamento do Azure para obter as etapas para criar uma.
Azure Synapse Analytics: Você usa um pool de SQL dedicado como um armazenamento de dados de coletor.
- Se você ainda não tem um workspace do Azure Synapse, confira Criando um workspace do Azure Synapse
- Se você não tem um pool de SQL dedicado existente, confira Criar um pool de SQL dedicado.

Criar serviços vinculados

No Azure Synapse Analytics, um serviço vinculado é onde você define as informações de conexão com outros serviços. Nesta seção, você adicionará o Azure Synapse Analytics e o Azure Data Lake Storage Gen 2 como serviço vinculado.

Abra a UX do Azure Synapse Analytics e vá para a guia Gerenciar.
Em Conexões externas, selecione Serviços vinculados.
Para adicionar um serviço vinculado, selecione Novo.
Selecione o bloco do Azure Data Lake Storage Gen2 na lista e clique em Continuar.
Insira as credenciais de autenticação. A chave de conta, a entidade de serviço e a identidade gerenciada são tipos de autenticação atualmente suportados. Selecione testar conexão para verificar se suas credenciais estão corretas. Selecione Criar quando terminar.
Repita as etapas de 3 a 5, mas em vez de Azure Data Lake Storage Gen2, selecione o Azure Synapse Analytics e insira as credenciais de conexão correspondentes. Por Azure Synapse Analytics, autenticação SQL, identidade gerenciada e entidade de serviço têm suporte no momento.

Criar um pipeline

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta seção, você criará um pipeline que contém uma atividade de cópia que ingere dados do AdLS Gen2 em um pool de SQL dedicado.

Vá para a guia Integrar. Selecione o ícone de adição ao lado do cabeçalho de pipelines e selecione Pipeline.
Em Mover e Transformar no painel atividades, arraste Copiar dados no painel da tela do pipeline.
Selecione a atividade de cópia e acesse a guia Origem. Selecione Novo para criar um conjunto de dados de origem.
Selecione Azure Data Lake Storage Gen2 como seu armazenamento de dados e clique em continuar.
Selecione DelimitedText como seu formato e clique em continuar.
No painel definir propriedades, selecione o serviço vinculado ADLS que você criou. Especifique o caminho do arquivo dos dados de origem e especifique se a primeira linha tem um cabeçalho. Você pode importar o esquema do repositório de arquivos ou de um arquivo de exemplo. Selecione OK quando terminar.
Vá para a guia Coletor. Selecione em Novo para criar um novo conjunto de dados do coletor.
Selecione o Azure Synapse Analytics como o seu armazenamento de dados e selecione continuar.
No painel definir propriedades, selecione o serviço vinculado Azure Synapse Analytics que você criou. Se você estiver escrevendo em uma tabela existente, selecione-a na lista suspensa. Caso contrário, marque Editar e insira o nome da nova tabela. Selecione OK quando terminar
Se você estiver criando uma tabela, habilita a Criação automática de tabela no campo de opção de tabela.

Depurar e publicar o pipeline

Depois de concluir a configuração do pipeline, você poderá efetuar uma execução de depuração antes de publicar seus artefatos para verificar se tudo está correto.

Para depurar o pipeline, selecione Depurar na barra de ferramentas. Você verá o status da execução do pipeline na guia Saída na parte inferior da janela.
Depois que o pipeline for executado corretamente, na barra de ferramentas superior, selecione Publicar Tudo. Esta ação publica as entidades (conjuntos de dados e pipelines) criadas por você anteriormente no Synapse Analytics.
Aguarde até que você veja a mensagem Publicado com êxito. Para ver as mensagens de notificação, selecione o botão de sino no canto superior direito.

Acionar e monitorar o pipeline

Nesta etapa, você aciona manualmente o pipeline publicado na etapa anterior.

Selecione Adicionar gatilho na barra de ferramentas e selecione Disparar Agora. Na página Execução de Pipeline, selecione Concluir.
Vá para a guia Monitorar localizada na barra lateral esquerda. Você verá uma execução do pipeline que é disparada por um gatilho manual. Você pode usar os links na coluna Ações para exibir detalhes da atividade e executar o pipeline novamente.
Selecione o link Exibir atividades em execução na coluna Ações para ver a atividade em execução associada à execução do pipeline. Neste exemplo, há apenas uma atividade, então você vê apenas uma entrada na lista. Para obter detalhes sobre a operação de cópia, selecione o link Detalhes (ícone de óculos) na coluna Ações. Para voltar ao modo de exibição Execuções de Pipeline, selecione Execuções de Pipeline na parte superior. Para atualizar a exibição, selecione Atualizar.
Verifique se os dados estão gravados corretamente no pool de SQL dedicado.

Próximas etapas

Para obter mais informações sobre a integração de dados para o Azure Synapse Analytics, consulte o artigo Ingerir dados no Azure Data Lake Storage Gen2.

Compartilhar via