Copiar dados para o Azure Data Explorer usando o Azure Data Factory

Artigo
07/24/2024

Importante

Este conector pode ser usado em Real-Time Intelligence no Microsoft Fabric. Use as instruções incluídas neste artigo com as seguintes exceções:

Se necessário, crie bancos de dados usando as instruções em Criar um banco de dados KQL.
Se necessário, crie tabelas usando as instruções em Criar uma tabela vazia.
Obtenha URIs de consulta ou ingestão usando as instruções em Copiar URI.
Execute consultas em um KQL queryset.

Azure Data Explorer é um serviço de análise de dados rápido, totalmente gerenciado. Ele oferece análise em tempo real em grandes volumes de dados que são transmitidos de várias fontes, como aplicativos, sites e dispositivos IoT. Com Azure Data Explorer, você pode explorar iterativamente os dados e identificar padrões e anomalias para melhorar os produtos, aprimorar as experiências do cliente, monitorar dispositivos e aumentar as operações. Ele ajuda você a explorar novas perguntas e obter respostas em minutos.

O Azure Data Factory é um serviço de integração de dados baseado em nuvem completamente gerenciado. Você pode usá-lo para preencher seu banco de Azure Data Explorer com dados do sistema existente. Ele pode ajudar você a economizar tempo ao criar soluções de análise.

Quando você carrega dados no Azure Data Explorer, o Data Factory oferece os seguintes benefícios:

Fácil de configurar: assistente intuitivo de 5 etapas sem necessidade de script.
Suporte de armazenamento de dados avançados: obtenha suporte interno para um conjunto avançado de armazenamentos de dados locais e baseados em nuvem. Para obter uma lista detalhada, consulte a tabela de Suporte para repositórios de dados.
Seguro e compatível: os dados são transferidos por HTTPS, ou Azure ExpressRoute. A presença do serviço global garante que os dados nunca saiam do limite geográfico.
Alto desempenho: a velocidade de carregamento de dados é de até 1 gigabyte por segundo (GBps) no Azure Data Explorer. Para obter mais informações, confira o Desempenho da atividade Copy.

Neste artigo, você usará a ferramenta Copiar Dados do Data Factory para carregar dados do Amazon Simple Armazenamento Service (S3) no Azure Data Explorer. Você pode seguir um processo semelhante para copiar dados de outros armazenamentos de dados, como:

Pré-requisitos

Uma assinatura do Azure. Criar uma conta gratuita do Azure.
Um cluster e um banco de dados do Azure Data Explorer. Criar um cluster e um banco de dados.
Uma fonte de dados.

Criar uma data factory

Entre no portal do Azure.
No painel à esquerda, selecione Criar um recurso>Analytics>Data Factory.

Na página Novo data factory, forneça os valores para os campos na tabela a seguir:

No painel “Novo data factory”

Configuração	Valor a ser inserido
Nome	Na caixa, insira um nome global exclusivo para o data factory. Se você receber um erro Nome do Data factory "LoadADXDemo" não está disponível, digite um nome diferente para o data factory. Para ver as regras de nomenclatura para artefatos do Data Factory, confira Regras de nomenclatura do Data Factory.
Assinatura	Na lista suspensa, selecione a assinatura do Azure na qual criar o data factory.
Grupo de Recursos	Selecione Criar novo e insira o nome de um novo grupo de recursos. Se você já tiver um grupo de recursos, selecione Usar existente.
Versão	Na lista suspensa, selecione V2.
Localidade	Na lista suspensa, selecione o local para o data factory. Somente os locais com suporte são exibidos na lista. Os armazenamentos de dados que são usados pelo data factory podem estar em outros locais e regiões.

Selecione Criar.
Para monitorar o processo de criação, selecione Notificações na barra de ferramentas. Depois de criar o data factory, selecione-o.

O painel Data Factory é aberto.
Para abrir o aplicativo em um painel separado, selecione Criar e Monitorar.

Carregar dados no Azure Data Explorer

Você pode carregar dados de vários tipos de armazenamentos de dados em Azure Data Explorer. Este artigo descreve como carregar dados do Amazon S3.

Você pode carregar os dados de qualquer uma destas maneiras:

Na interface do usuário Azure Data Factory, no painel esquerdo, selecione o ícone Criar. Isso é mostrado na seção "Criar um data factory" de Criar um data factory usando a interface do usuário Azure Data Factory .
Na ferramenta Azure Data Factory Copiar Dados, conforme mostrado em Usar a ferramenta Copiar Dados para copiar dados.

Copiar dados do Amazon S3 (origem)

No painel Introdução, selecione Copiar Dados para abrir a ferramenta Copiar Dados.
No painel Propriedades na caixa Nome da tarefa, insira um nome e selecione Avançar.
Na página Armazenamento de dados de origem, selecione Criar nova conexão.
Selecione Amazon S3 e Continuar.
Na página Novo serviço vinculado (Amazon S3), execute estas etapas:

a. Na caixa Nome, insira o nome do seu novo serviço vinculado.

b. Na lista Conexão por meio do runtime de integração, selecione o valor.

c. Na caixa ID da Chave de Acesso, insira o valor.

Observação

No Amazon S3, para localizar sua chave de acesso, selecione seu nome de usuário da Amazon na barra de navegação e, em seguida, selecione Minhas Credenciais de Segurança.

d. Na caixa Chave de Acesso Secreto, insira um valor.

e. Para testar a conexão de serviço vinculado que você criou, selecioneTestar Conexão.

f. Selecione Concluir.

O painel Armazenamento de dados de origem exibe sua nova conexão do AmazonS31.
Selecione Avançar.
No painel Escolha o arquivo de entrada ou a pasta, execute as seguintes etapas:

a. Navegue até o arquivo ou pasta que você deseja copiar e selecione-o.

b. Selecione o comportamento de cópia que você quer. Verifique se a caixa de seleção Cópia binária está desmarcada.

c. Selecione Avançar.
No painel Configurações de formato de arquivo, selecione as configurações relevantes do seu arquivo. em seguida, selecione Avançar.

Copiar dados no Azure Data Explorer (destino)

O novo Azure Data Explorer vinculado é criado para copiar os dados para a tabela Azure Data Explorer de destino (coletor) especificada nesta seção.

Observação

Use o comando do Azure Data Factory para executar os comandos de gerenciamento do Azure Data Explorer e use qualquer um dos comandos de ingestão da consulta, como .set-or-replace.

Criar o serviço vinculado do Azure Data Explorer

Para criar o Azure Data Explorer vinculado, faça as seguintes etapas:

Para usar uma conexão de armazenamento de dados existente ou especificar um novo armazenamento de dados, no painel Armazenamento de dados de destino, selecione Criar nova conexão.
Na página Novo Serviço Vinculado, selecione Azure Data Explorer e selecione Continuar.
No painel Novo serviço vinculado (Azure Data Explorer), execute as seguintes etapas:
1. Na caixa Nome, insira um nome para o Azure Data Explorer vinculado.
2. Em Método de autenticação, escolha Identidade Gerenciada Atribuída pelo Sistema ou Entidade de Serviço.
  - Para autenticar usando uma Identidade Gerenciada, conceda o acesso de Identidade Gerenciada ao banco de dados usando o nome da Identidade Gerenciada ou a ID do objeto de identidade gerenciada.
  - Para autenticar usando uma Entidade de Serviço:
    1. Na caixa Locatário, insira o nome do locatário.
    2. Na caixa ID da entidade de serviço, insira a ID da entidade de serviço.
    3. Selecione Chave da entidade de serviço e, na caixa Chave da entidade de serviço, insira o valor da chave.
  Observação
  - A entidade de serviço é usada pelo Azure Data Factory para acessar o serviço do Azure Data Explorer. Para criar uma entidade de serviço, vá para criar uma entidade de serviço do Microsoft Entra.
  - Para atribuir permissões a uma Identidade Gerenciada ou a uma Entidade de Serviço, confira Gerenciar permissões.
  - Não use o método Azure Key Vault ou a Identidade Gerenciada Atribuída pelo Usuário.
3. Em Método de seleção da conta, use uma das seguintes opções:
  - Selecione Na assinatura do Azure e, em seguida, nas listas suspensas, selecione sua assinatura do Azure e seu Cluster.
    Observação
    - O controle suspenso do Cluster lista apenas os clusters associados à sua assinatura.
    - O cluster deve ter a SKU apropriada para melhorar o desempenho.
  - Selecione Inserir manualmentee, em seguida, insira seu Ponto de Extremidade.
4. Na lista suspensa Banco de Dados, selecione o nome do banco de dados. Como alternativa, marque a caixa de seleção Editar e insira o nome do banco de dados.
5. Para testar a conexão de serviço vinculado que você criou, selecioneTestar Conexão. Se você puder se conectar ao serviço vinculado, o painel exibirá uma marca de seleção verde e uma mensagem Conexão bem-sucedida.
6. Selecione Criar para concluir a criação do serviço vinculado.

Configurar a conexão Azure Data Explorer dados

Depois de criar a conexão de serviço vinculado, o painel Armazenamento de dados de destino será aberto e a conexão que você criou estará disponível para uso. Para configurar a conexão, execute as seguintes etapas:

Selecione Avançar.
No painel Mapeamento de tabela, defina o nome da tabela de destino e, em seguida, selecione Avançar.
No painel Mapeamento de coluna, os seguintes mapeamentos ocorrem:

a. O primeiro mapeamento é executado por Azure Data Factory de acordo com o mapeamento Azure Data Factory esquema. Faça o seguinte:
- Defina os Mapeamentos de coluna para a tabela de destino do Azure Data Factory. O mapeamento padrão é exibido da origem para a tabela de destino Azure Data Factory destino.
- Cancele a seleção das colunas que você não precisa para definir o mapeamento de coluna.
b. O segundo mapeamento ocorre quando esses dados tabulares são ingeridos em Azure Data Explorer. O mapeamento é executado de acordo com as regras de mapeamento CSV. Mesmo que os dados de origem não estejam no formato CSV, o Azure Data Factory converte os dados em um formato tabular. Portanto, o mapeamento CSV é o único mapeamento relevante neste estágio. Faça o seguinte:
- (Opcional) Em Propriedades do coletor do Azure Data Explorer (Kusto), adicione o Nome do mapeamento de ingestão relevante para que o mapeamento de coluna possa ser usado.
- Se o Nome do mapeamento de ingestão não for especificado, a ordem de mapeamento por nome definida na seção Mapeamentos de coluna será usada. Se o mapeamento por nome falhar, o Azure Data Explorer tenta ingerir os dados em uma ordem de posição por coluna (ou seja, ele é mapeado por posição como o padrão).
- Selecione Avançar.
Na seção Configurações, execute as seguintes etapas:

a. Em Configurações de tolerância a falhas, insira as configurações relevantes.

b. Em Configurações de desempenho, Habilitar processo de preparo não se aplica e Configurações avançadas inclui considerações de custo. Se você não tiver requisitos específicos, deixe essas configurações como estão.

c. Selecione Avançar.
No painel Resumo, analise as configurações e selecione Avançar.
No painel Implantação completa, faça o seguinte:

a. Para alternar para a guia Monitor e exibir o status do pipeline (ou seja, progresso, erros e fluxo de dados), selecione Monitorar.

b. Para editar serviços vinculados, conjuntos de dados e pipelines, selecione Editar Pipeline.

c. Selecione Concluir para concluir o assistente.