Projetar estratégias para caminhos de dados quentes, quentes e frios
Tradicionalmente, os dados eram armazenados no local. Não foi feita qualquer consideração sobre a forma como os dados deveriam ser utilizados. Na nuvem, os dados podem ser armazenados com base no acesso, no ciclo de vida e em outros requisitos de conformidade. Nesta unidade, examinamos caminhos de dados quentes, quentes e frios e consideramos opções para armazenar e calcular os dados.
Caminho de dados quente
Um caminho de dados quente suporta a análise de dados à medida que fluem pelo sistema. O fluxo de dados é processado quase em tempo real. Os dados são salvos no armazenamento quente e enviados para os clientes de análise.
- A plataforma Azure fornece muitas opções para processar os eventos, e o Azure Stream Analytics é uma escolha popular.
- O Stream Analytics pode executar análises complexas em escala para janelas de queda, deslizamento e saltos. O serviço suporta a execução de agregações de fluxo e a junção de fontes de dados externas. Para processamento complexo, o desempenho pode ser estendido em cascata por várias instâncias de Hubs de Eventos do Azure, trabalhos do Stream Analytics e funções do Azure.
- O armazenamento quente pode ser implementado com vários serviços na plataforma Azure, como o Banco de Dados SQL do Azure e o Azure Cosmos DB.
Cenário de negócio
Vamos explorar um cenário comum para a agregação de dados de dispositivos IoT. Os dispositivos podem enviar dados, mas não produzir resultados ou dados de análise. Essa situação destaca um desafio comum: tentar extrair insights dos dados da IoT. Os dados que procura não estão disponíveis nos dados que recebe. Você precisa inferir a utilização combinando os dados recebidos com outras fontes de dados. Em seguida, você aplica regras para determinar se a máquina está produzindo resultados. Além disso, as regras podem mudar de empresa para empresa, quando têm expectativas diferentes de análise ou resultados.
Caminho de dados frio
O caminho de dados quentes é onde o processamento de fluxo ocorre para descobrir padrões ao longo do tempo. No entanto, talvez seja necessário calcular a utilização durante algum período de tempo no passado. Você também pode precisar de pivôs e agregações diferentes e precisar mesclar esses resultados com os resultados de caminho quente para apresentar uma exibição unificada ao usuário. Um caminho de dados frio pode ajudar a realizar essas tarefas.
- Um caminho de dados frio consiste em uma camada de lote e camadas de serviço que fornecem uma visão de longo prazo do sistema.
- A camada de lote cria exibições agregadas pré-calculadas para permitir respostas rápidas de consulta por longos períodos. A plataforma Azure fornece diversas opções de tecnologia para essa camada.
- O caminho frio inclui um armazenamento de dados de longo prazo para a solução, e o Armazenamento do Azure é uma abordagem comum. O Armazenamento do Azure inclui Blobs do Azure (objetos), Armazenamento do Azure Data Lake Ger2, Ficheiros do Azure, Filas do Azure e Tabelas do Azure.
- O armazenamento a frio pode ser Blobs, Data Lake Storage Gen2, Tabelas do Azure ou uma combinação.
- Para armazenar grandes quantidades de dados não estruturados, as melhores opções são Armazenamento de Blob, Arquivos do Azure ou Azure Data Lake Storage Gen2. O armazenamento de caminho frio é ideal para mensagens originais que contêm dados não processados recebidos por aplicativos IoT.
Cenário de negócio
Examine o cenário em que você precisa criar modelos de aprendizado de máquina para interações no site da Tailwind Traders ao longo do tempo. Você precisa automatizar a movimentação de dados e conduzir transformações de dados. Nesse cenário, o Azure Data Factory é uma ótima solução para criar as exibições em lote na camada de serviço do caminho frio para atender a esses requisitos. É um serviço de integração de dados gerenciado baseado em nuvem que permite criar fluxos de trabalho orientados por dados na nuvem para orquestrar e automatizar a movimentação e a transformação de dados. Ele pode processar e transformar os dados usando serviços como Azure HDInsight Hadoop, Apache Spark e Azure Databricks. Você pode criar modelos de aprendizado de máquina e consumi-los com os clientes de análise.
Caminho de dados ativo
Um caminho de dados ativo é normalmente usado para processar ou exibir dados em tempo real. Esse caminho é empregado para operações de alerta e streaming em tempo real. Um caminho ativo é onde os resultados de dados sensíveis à latência precisam estar prontos em segundos ou menos, e onde os dados fluem para consumo rápido pelos clientes de análise.
Cenário de negócio
A Tailwind Traders quer implementar a análise de dados para o seu portal de clientes. Eles precisam coletar dados de streaming e fornecer alertas em tempo real para administradores, assistentes de clientes e usuários do portal. O caminho quente é ideal para este cenário. Os dados podem ser recolhidos à medida que são introduzidos ou apresentados. Os dados podem ser entregues quase em tempo real aos administradores para análise rápida e ação de acompanhamento.
Comparar caminhos de dados
A tabela a seguir compara cenários para as três soluções de caminho. Analise os cenários e considere quais soluções são necessárias para os Tailwind Traders.
Cenário | Solução de caminho |
---|---|
Suporte flexível para requisitos de dados que mudam com frequência. Permitir o processamento ou exibição de dados em tempo real. | Caminho de dados ativo |
Suporte a dados raramente usados, como dados armazenados por motivos legais ou de conformidade. Permitir o consumo de dados para análises de longo prazo e processamento em lote. | Caminho de dados frio |
Armazene ou exiba um subconjunto recente de dados. Permitir o consumo de dados para pequenas análises e processamento em lote. | Caminho de dados quente |