Selecione uma ferramenta de ingestão de dados

Artigo
07/23/2024

Depois de selecionar uma plataforma de destino para seus dados históricos, a próxima etapa é selecionar uma ferramenta para transferir seus dados.

Este artigo descreve um conjunto de diferentes ferramentas usadas para transferir seus dados históricos para a plataforma de destino selecionada. Esta tabela lista as ferramentas disponíveis para cada plataforma de destino e ferramentas gerais para ajudá-lo com o processo de ingestão.

Azure Monitor Logs Básicos/Arquivo Morto	Azure Data Explorer	Armazenamento de Blobs do Azure	Ferramentas gerais
• Ferramenta de ingestão de log personalizada do Azure Monitor • API direta	• LightIngest • Logstash	• Azure Data Factory ou Azure Synapse • AzCopy	• Azure Data Box • Acelerador de migração de dados SIEM

Azure Monitor Logs Básicos/Arquivo Morto

Antes de ingerir dados para os Logs Básicos ou Arquivo do Azure Monitor, para preços de ingestão mais baixos, verifique se a tabela na qual você está gravando está configurada como Logs Básicos. Analise a ferramenta de ingestão de log personalizada do Azure Monitor e o método de API direta para Logs Básicos do Azure Monitor.

Ferramenta de ingestão de log personalizada do Azure Monitor

A ferramenta de ingestão de log personalizada é um script do PowerShell que envia dados personalizados para um espaço de trabalho de Logs do Azure Monitor. Você pode apontar o script para a pasta onde residem todos os seus arquivos de log e o script envia os arquivos para essa pasta. O script aceita um formato CSV ou JSON para arquivos de log.

API direta

Com essa opção, você ingere seus logs personalizados nos Logs do Azure Monitor. Você ingere os logs com um script do PowerShell que usa uma API REST. Como alternativa, você pode usar qualquer outra linguagem de programação para executar a ingestão e pode usar outros serviços do Azure para abstrair a camada de computação, como o Azure Functions ou os Aplicativos Lógicos do Azure.

Azure Data Explorer

Você pode ingerir dados no Azure Data Explorer (ADX) de várias maneiras.

Os métodos de ingestão que o ADX aceita são baseados em diferentes componentes:

SDKs para diferentes linguagens, como .NET, Go, Python, Java, NodeJS, e APIs.
Pipelines gerenciados, como Grade de Eventos ou Hubs de Eventos de Blob de Armazenamento e Azure Data Factory.
Conectores ou plugins, como Logstash, Kafka, Power Automate e Apache Spark.

Analise o LightIngest e o Logstash , dois métodos mais adaptados ao caso de uso da migração de dados.

LightIngest

A ADX desenvolveu o utilitário LightIngest especificamente para o caso de uso de migração de dados históricos. Você pode usar o LightIngest para copiar dados de um sistema de arquivos local ou do Armazenamento de Blobs do Azure para o ADX.

Aqui estão alguns dos principais benefícios e capacidades do LightIngest:

Como não há restrição de tempo na duração da ingestão, o LightIngest é mais útil quando você deseja ingerir grandes quantidades de dados.
LightIngest é útil quando você deseja consultar registros de acordo com a hora em que foram criados e não com o tempo em que foram ingeridos.
Você não precisa lidar com dimensionamento complexo para LightIngest, porque o utilitário não executa a cópia real. O LightIngest informa o ADX sobre os blobs que precisam ser copiados e o ADX copia os dados.

Se você escolher LightIngest, revise estas dicas e práticas recomendadas.

Para acelerar a migração e reduzir custos, aumente o tamanho do cluster ADX para criar mais nós disponíveis para ingestão. Diminua o tamanho quando a migração terminar.
Para consultas mais eficientes depois de ingerir os dados no ADX, certifique-se de que os dados copiados usam o carimbo de data/hora para os eventos originais. Os dados não devem usar o carimbo de data/hora de quando os dados são copiados para o ADX. Você fornece o carimbo de data/hora para LightIngest como o caminho do nome do arquivo como parte da propriedade CreationTime.
Se o caminho ou os nomes dos arquivos não incluírem um carimbo de data/hora, você ainda poderá instruir o ADX a organizar os dados usando uma política de particionamento.

Logstash

O Logstash é um pipeline de processamento de dados de código aberto do lado do servidor que ingere dados de várias fontes simultaneamente, transforma os dados e, em seguida, envia os dados para o seu "stash" favorito. Saiba como ingerir dados do Logstash para o Azure Data Explorer. O Logstash é executado em máquinas Windows, Linux e macOS.

Para otimizar o desempenho, configure o tamanho da camada Logstash de acordo com os eventos por segundo. Recomendamos que você use o LightIngest sempre que possível, porque o LightIngest depende da computação de cluster ADX para executar a cópia.

Armazenamento de Blobs do Azure

Você pode ingerir dados para o Armazenamento de Blobs do Azure de várias maneiras.

Analise os métodos Azure Data Factory (ADF) e Azure Synapse, que são melhor adaptados ao caso de uso de migração de dados.

Azure Data Factory ou Azure Synapse

Para usar a atividade de Cópia no Azure Data Factory (ADF) ou nos pipelines Synapse:

Crie e configure um tempo de execução de integração auto-hospedado. Este componente é responsável por copiar os dados do seu host local.
Crie serviços vinculados para o armazenamento de dados de origem (sistema de arquivos e armazenamento de blob do repositório de dados do coletor.
Para copiar os dados, use a ferramenta Copiar dados. Como alternativa, você pode usar métodos como PowerShell, portal do Azure, um SDK do .NET e assim por diante.

AzCopy

AzCopy é um utilitário de linha de comando simples que copia arquivos de ou para contas de armazenamento. AzCopy está disponível para Windows, Linux e macOS. Saiba como copiar dados locais para o armazenamento de Blob do Azure com o AzCopy.

Você também pode usar estas opções para copiar os dados:

Saiba como otimizar o desempenho do AzCopy.
Saiba como configurar o AzCopy.
Saiba como usar o comando copy.

Azure Data Box

Em um cenário em que o SIEM de origem não tem uma boa conectividade com o Azure, ingerir os dados usando as ferramentas analisadas nesta seção pode ser lento ou até impossível. Para resolver esse cenário, você pode usar o Azure Data Box para copiar os dados localmente do data center do cliente para um dispositivo e, em seguida, enviar esse dispositivo para um data center do Azure. Embora o Azure Data Box não substitua o AzCopy ou o LightIngest, você pode usar essa ferramenta para acelerar a transferência de dados entre o data center do cliente e o Azure.

O Azure Data Box oferece três SKUs diferentes, dependendo da quantidade de dados a migrar:

Depois de concluir a migração, os dados ficam disponíveis em uma conta de armazenamento em uma de suas assinaturas do Azure. Em seguida, você pode usar AzCopy, LightIngestão ou ADF para ingerir dados da conta de armazenamento.

Acelerador de migração de dados SIEM

Além de selecionar uma ferramenta de ingestão, sua equipe precisa investir tempo na configuração do ambiente de fundação. Para facilitar esse processo, você pode usar o acelerador de migração de dados SIEM, que automatiza as seguintes tarefas:

Implanta uma máquina virtual do Windows que será usada para mover os logs da plataforma de origem para a plataforma de destino
Baixa e extrai as seguintes ferramentas para a área de trabalho da máquina virtual:
- LightIngest: usado para migrar dados para ADX
- Ferramenta de ingestão de log personalizada do Azure Monitor: usada para migrar dados para o Log Analytics
- AzCopy: Usado para migrar dados para o Armazenamento de Blobs do Azure
Implanta a plataforma de destino que hospedará seus logs históricos:
- Conta de Armazenamento do Azure (Armazenamento de Blobs do Azure)
- Cluster e banco de dados do Azure Data Explorer
- Espaço de trabalho Logs do Azure Monitor (Logs Básicos; habilitado com o Microsoft Sentinel)

Para usar o acelerador de migração de dados SIEM:

Na página do acelerador de migração de dados SIEM, clique em Implantar no Azure na parte inferior da página e autentique.
Selecione Noções básicas, selecione o grupo de recursos e a localização e, em seguida, selecione Seguinte.
Selecione Migração VM e faça o seguinte:
- Digite o nome da máquina virtual, o nome de usuário e a senha.
- Selecione uma vNet existente ou crie uma nova vNet para a conexão da máquina virtual.
- Selecione o tamanho da máquina virtual.
Selecione Plataforma de destino e siga um destes procedimentos:
- Ignore esta etapa.
- Forneça o nome do cluster e do banco de dados ADX, a SKU e o número de nós.
- Para contas de Armazenamento de Blob do Azure, selecione uma conta existente. Se você não tiver uma conta, forneça um novo nome, tipo e redundância de conta.
- Para Logs do Azure Monitor, digite o nome do novo espaço de trabalho.

Próximos passos

Neste artigo, você aprendeu como selecionar uma ferramenta para ingerir seus dados na plataforma de destino.

Ingerir os seus dados

Partilhar via