Criar estratégias para caminhos de dados hot, warm e cold

Concluído

Tradicionalmente, os dados eram armazenados localmente. Nenhuma consideração foi feita sobre como os dados deveriam ser usados. Na nuvem, os dados podem ser armazenados com base no acesso, ciclo de vida e outros requisitos de conformidade. Nesta unidade, examinamos caminhos de dados hot, warm e cold e consideramos opções para armazenar e computar os dados.

Caminho de dados warm

Um caminho de dados warm dá suporte à análise de dados à medida que eles fluem pelo sistema. O fluxo de dados é processado quase em tempo real. Os dados são salvos no armazenamento warm e enviados por push para os clientes de análise.

  • A plataforma do Azure oferece muitas opções para processar os eventos e uma escolha popular é o Azure Stream Analytics.
  • O Stream Analytics pode executar análises complexas em escala para janelas em cascata, deslizantes e de salto. O serviço dá suporte à execução de agregações de fluxo e à junção de fontes de dados externas. Para um processamento complexo, o desempenho pode ser estendido ao colocar em cascata várias instâncias de Hubs de Eventos do Azure, trabalhos de Stream Analytics e funções do Azure.
  • O armazenamento warm pode ser implementado com vários serviços na plataforma Azure, como Banco de Dados SQL do Azure e Azure Cosmos DB.

Cenário empresarial

Vamos explorar um cenário comum para agregação de dados do dispositivo IoT. Os dispositivos podem enviar dados, mas não produzir resultados nem dados de análise. Essa situação destaca um desafio comum: tentar extrair insights de dados de IoT. Os dados que você está procurando não estão disponíveis nos dados recebidos. Você precisa inferir a utilização combinando os dados recebidos com outras fontes de dados. Em seguida, aplique regras para determinar se o computador está produzindo resultados. Além disso, as regras podem mudar de empresa para empresa, quando há expectativas diferentes para análise ou resultados.

Caminho de dados cold

O caminho de dados warm é aquele onde o processamento de fluxo ocorre para descobrir padrões ao longo do tempo. No entanto, talvez seja necessário calcular a utilização durante algum período de tempo no passado. Talvez você também exija diferentes dinamizações e agregações e precise mesclar esses resultados com os resultados do caminho warm para apresentar uma exibição unificada para o usuário. Um caminho de dados cold pode ajudar a realizar essas tarefas.

  • Um caminho de dados cold consiste em uma camada de lote e camadas de serviço que fornecem uma exibição de longo prazo do sistema.
  • A camada de lote cria visualizações agregadas pré-calculadas para permitir respostas de consulta rápidas por longos períodos. A plataforma do Azure fornece diversas opções de tecnologia para essa camada.
  • O caminho cold inclui um armazenamento de dados de longo prazo para a solução, e o Armazenamento do Microsoft Azure é uma abordagem comum. O Armazenamento do Azure inclui Blobs (objetos) do Azure, Armazenamento do Azure Data Lake Gen2, Arquivos, Filas e Tabelas do Azure.
  • O armazenamento cold pode ser Blobs, Data Lake Storage Gen2, Tabelas do Azure ou uma combinação deles.
  • Para armazenar grandes quantidades de dados não estruturados, as melhores opções são o Armazenamento de Blobs, os Arquivos do Azure ou o Azure Data Lake Storage Gen2. O armazenamento de caminho cold é ideal para mensagens originais que contêm dados não processados recebidos por aplicativos de IoT.

Cenário empresarial

Examine o cenário em que você precisa criar modelos de machine learning para interações com o site da Tailwind Traders ao longo do tempo. Você precisa automatizar a movimentação de dados e realizar transformações de dados. Nesse cenário, o Azure Data Factory é uma ótima solução para criar as exibições em lote na camada de serviço do caminho cold para atender a esses requisitos. Trata-se de um serviço de integração de dados gerenciado baseado em nuvem que permite que você crie fluxos de trabalho controlados por dados na nuvem para orquestrar e automatizar a movimentação e a transformação de dados. Ele pode processar e transformar os dados usando serviços como o Azure HDInsight Hadoop, o Apache Spark e o Azure Databricks. Você pode criar modelos de machine learning e consuma-os com os clientes de análise.

Caminho de dados hot

Um caminho de dados hot é normalmente usado para processar ou exibir dados em tempo real. Esse caminho é empregado para operações de streaming e alertas em tempo real. Um caminho hot é onde os resultados de dados sensíveis à latência precisam estar prontos em segundos ou menos e fluem para consumo rápido por clientes analíticos.

Cenário empresarial

A Tailwind Traders deseja implementar a análise de dados para o portal do cliente da empresa. Eles precisam coletar dados de streaming e fornecer alertas em tempo real para administradores, assistentes de clientes e usuários do portal. O caminho hot é ideal para esse cenário. Os dados podem ser coletados à medida que são inseridos ou exibidos. Os dados podem ser entregues quase em tempo real aos administradores para análise rápida e ação de acompanhamento.

Comparar caminhos de dados

A tabela a seguir compara cenários para as três soluções de caminho. Examine os cenários e considere quais soluções são necessárias para a Tailwind Traders.

Cenário Solução de caminho
Suporte flexível para requisitos de dados que mudam com frequência. Habilitar o processamento ou a exibição de dados em tempo real. Caminho de dados hot
Suporte a dados raramente usados, como dados armazenados por conformidade ou motivos legais. Habilitar o consumo de dados para análise de longo prazo e o processamento em lotes. Caminho de dados cold
Armazenar ou exibir um subconjunto recente de dados. Habilitar o consumo de dados para processamento analítico pequeno e em lotes. Caminho de dados warm