Partilhar via


Além da migração Netezza, implemente um data warehouse moderno no Microsoft Azure

Este artigo é a sétima parte de uma série de sete partes que fornece orientação sobre como migrar do Netezza para o Azure Synapse Analytics. O foco deste artigo são as práticas recomendadas para implementar armazéns de dados modernos.

Além da migração do data warehouse para o Azure

Um dos principais motivos para migrar seu data warehouse existente para o Azure Synapse Analytics é utilizar um banco de dados analítico globalmente seguro, escalável, de baixo custo, nativo da nuvem e pago conforme o uso. Com o Azure Synapse, pode integrar o seu armazém de dados migrado com o ecossistema analítico completo do Microsoft Azure para tirar partido de outras tecnologias Microsoft e modernizar o seu armazém de dados migrado. Essas tecnologias incluem:

  • Armazenamento Azure Data Lake para ingestão, preparação, limpeza e transformação de dados com boa relação custo-benefício. O Armazenamento Data Lake pode liberar a capacidade do data warehouse ocupada por tabelas de preparo em rápido crescimento.

  • Azure Data Factory para TI colaborativa e integração de dados de autoatendimento com conectores para fontes de dados locais e na nuvem e streaming de dados.

  • Modelo de dados comum para compartilhar dados confiáveis consistentes em várias tecnologias, incluindo:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Plataforma de experiência do cliente da Adobe
    • Azure IoT
    • Parceiros ISV da Microsoft
  • Tecnologias de ciência de dados da Microsoft, incluindo:

    • Azure Machine Learning Studio
    • Azure Machine Learning
    • Azure Synapse Spark (Faísca como serviço)
    • Jupyter Notebooks
    • RStudio
    • ML.NET
    • .NET para Apache Spark, que permite que cientistas de dados usem dados do Azure Synapse para treinar modelos de aprendizado de máquina em escala.
  • Azure HDInsight para processar grandes quantidades de dados e para unir big data com dados do Azure Synapse criando um data warehouse lógico usando PolyBase.

  • Hubs de Eventos do Azure, Azure Stream Analytics e Apache Kafka para integrar dados de transmissão ao vivo do Azure Synapse.

O crescimento do big data levou a uma demanda aguda por aprendizado de máquina para habilitar modelos de aprendizado de máquina treinados e personalizados para uso no Azure Synapse. Os modelos de aprendizado de máquina permitem que a análise no banco de dados seja executada em escala em lote, com base em eventos e sob demanda. A capacidade de tirar proveito da análise no banco de dados no Azure Synapse a partir de várias ferramentas e aplicativos de BI também garante previsões e recomendações consistentes.

Além disso, você pode integrar o Azure Synapse com ferramentas de parceiros da Microsoft no Azure para reduzir o tempo de valorização.

Vamos dar uma olhada mais de perto em como você pode aproveitar as tecnologias no ecossistema analítico da Microsoft para modernizar seu data warehouse depois de migrar para o Azure Synapse.

Descarrega o preparo de dados e o processamento de ETL para o Data Lake Storage e o Data Factory

A transformação digital criou um desafio fundamental para as empresas, gerando uma torrente de novos dados para captura e análise. Um bom exemplo são os dados de transação criados pela abertura de sistemas de processamento transacional on-line (OLTP) para acesso de serviço a partir de dispositivos móveis. Muitos desses dados chegam aos armazéns de dados, e os sistemas OLTP são a principal fonte. Com os clientes agora impulsionando a taxa de transação em vez de funcionários, o volume de dados em tabelas de preparo de data warehouse tem crescido rapidamente.

Com o rápido influxo de dados para a empresa, juntamente com novas fontes de dados, como a Internet das Coisas (IoT), as empresas devem encontrar maneiras de ampliar o processamento de ETL de integração de dados. Um método é descarregar a ingestão, limpeza de dados, transformação e integração a um data lake e processar dados em escala lá, como parte de um programa de modernização de data warehouse.

Depois de migrar seu data warehouse para o Azure Synapse, a Microsoft pode modernizar seu processamento de ETL ingerindo e preparando dados no Armazenamento Data Lake. Em seguida, você pode limpar, transformar e integrar seus dados em escala usando o Data Factory antes de carregá-los no Azure Synapse em paralelo usando o PolyBase.

Para estratégias de ELT, considere descarregar o processamento ELT para o Data Lake Storage para dimensionar facilmente à medida que seu volume ou frequência de dados cresce.

Fábrica de dados do Microsoft Azure

O Azure Data Factory é um serviço de integração de dados híbrido pago conforme o uso para processamento de ETL e ELT altamente escalável. O Data Factory fornece uma interface do usuário baseada na Web para criar pipelines de integração de dados sem código. Com o Data Factory, você pode:

  • Crie pipelines de integração de dados escaláveis sem código.

  • Adquira dados facilmente em escala.

  • Pague apenas por aquilo que utiliza.

  • Conecte-se a fontes de dados locais, na nuvem e baseadas em SaaS.

  • Ingera, mova, limpe, transforme, integre e analise dados na nuvem e no local em escala.

  • Crie, monitore e gerencie pipelines que abrangem armazenamentos de dados locais e na nuvem.

  • Habilite o escalonamento pré-pago em alinhamento com o crescimento do cliente.

Você pode usar esses recursos sem escrever nenhum código ou pode adicionar código personalizado aos pipelines do Data Factory. A captura de tela a seguir mostra um exemplo de pipeline do Data Factory.

Captura de tela de um exemplo de um pipeline do Data Factory.

Gorjeta

O Data Factory permite criar pipelines de integração de dados escaláveis sem código.

Implemente o desenvolvimento de pipeline do Data Factory a partir de qualquer um dos vários locais, incluindo:

  • Portal do Microsoft Azure.

  • PowerShell do Microsoft Azure.

  • Programaticamente a partir de .NET e Python usando um SDK multi-linguagem.

  • Modelos do Azure Resource Manager (ARM).

  • APIs REST.

Gorjeta

O Data Factory pode se conectar a dados locais, na nuvem e SaaS.

Desenvolvedores e cientistas de dados que preferem escrever código podem facilmente criar pipelines do Data Factory em Java, Python e .NET usando os kits de desenvolvimento de software (SDKs) disponíveis para essas linguagens de programação. Os pipelines do Data Factory podem ser pipelines de dados híbridos porque podem conectar, ingerir, limpar, transformar e analisar dados em data centers locais, Microsoft Azure, outras nuvens e ofertas de SaaS.

Depois de desenvolver pipelines do Data Factory para integrar e analisar dados, você pode implantar esses pipelines globalmente e programá-los para serem executados em lote, invocá-los sob demanda como um serviço ou executá-los em tempo real com base em eventos. Um pipeline do Data Factory também pode ser executado em um ou mais mecanismos de execução e monitorar a execução para garantir o desempenho e rastrear erros.

Gorjeta

No Azure Data Factory, os pipelines controlam a integração e a análise de dados. O Data Factory é um software de integração de dados de classe empresarial destinado a profissionais de TI e tem capacidade de disputa de dados para utilizadores empresariais.

Casos de utilização

O Data Factory suporta vários casos de uso, como:

  • Prepare, integre e enriqueça dados de fontes de dados locais e na nuvem para preencher seu data warehouse e data marts migrados no Microsoft Azure Synapse.

  • Prepare, integre e enriqueça dados de fontes de dados locais e na nuvem para produzir dados de treinamento para uso no desenvolvimento de modelos de aprendizado de máquina e no retreinamento de modelos analíticos.

  • Orquestre a preparação e a análise de dados para criar pipelines analíticos preditivos e prescritivos para processar e analisar dados em lote, como análise de sentimento. Aja com base nos resultados da análise ou preencha o seu armazém de dados com os resultados.

  • Prepare, integre e enriqueça dados para aplicativos de negócios orientados por dados executados na nuvem do Azure sobre armazenamentos de dados operacionais, como o Azure Cosmos DB.

Gorjeta

Crie conjuntos de dados de treinamento em ciência de dados para desenvolver modelos de aprendizado de máquina.

Origens de dados

O Data Factory permite que você use conectores de fontes de dados locais e na nuvem. O software do agente, conhecido como tempo de execução de integração auto-hospedado, acessa com segurança fontes de dados locais e suporta transferência de dados segura e escalável.

Transformar dados usando o Azure Data Factory

Dentro de um pipeline do Data Factory, você pode ingerir, limpar, transformar, integrar e analisar qualquer tipo de dados dessas fontes. Os dados podem ser estruturados, semiestruturados, como JSON ou Avro, ou não estruturados.

Sem escrever nenhum código, os desenvolvedores profissionais de ETL podem usar os fluxos de dados de mapeamento do Data Factory para filtrar, dividir, unir vários tipos, pesquisar, pivotar, despivotar, classificar, unir e agregar dados. Além disso, o Data Factory suporta chaves substitutas, várias opções de processamento de gravação, como inserção, upsert, atualização, recreação de tabela e truncamento de tabela, e vários tipos de armazenamentos de dados de destino, também conhecidos como coletores. Os desenvolvedores de ETL também podem criar agregações, incluindo agregações de séries cronológicas que exigem que uma janela seja colocada em colunas de dados.

Gorjeta

Os desenvolvedores profissionais de ETL podem usar os fluxos de dados de mapeamento do Data Factory para limpar, transformar e integrar dados sem a necessidade de escrever código.

Você pode executar fluxos de dados de mapeamento que transformam dados como atividades em um pipeline do Data Factory e, se necessário, pode incluir vários fluxos de dados de mapeamento em um único pipeline. Dessa forma, você pode gerenciar a complexidade dividindo tarefas desafiadoras de transformação e integração de dados em fluxos de dados de mapeamento menores que podem ser combinados. E você pode adicionar código personalizado quando necessário. Além dessa funcionalidade, os fluxos de dados de mapeamento do Data Factory incluem a capacidade de:

  • Defina expressões para limpar e transformar dados, computar agregações e enriquecer dados. Por exemplo, essas expressões podem executar engenharia de recursos em um campo de data para dividi-lo em vários campos para criar dados de treinamento durante o desenvolvimento do modelo de aprendizado de máquina. Você pode construir expressões a partir de um rico conjunto de funções que incluem matemática, temporal, divisão, mesclagem, concatenação de cadeia de caracteres, condições, correspondência de padrões, substituição e muitas outras funções.

  • Manipule automaticamente o desvio de esquema para que os pipelines de transformação de dados possam evitar ser afetados por alterações de esquema em fontes de dados. Essa capacidade é especialmente importante para o streaming de dados de IoT, onde as alterações de esquema podem acontecer sem aviso prévio se os dispositivos forem atualizados ou quando as leituras forem perdidas por dispositivos de gateway que coletam dados de IoT.

  • Particione dados para permitir que as transformações sejam executadas em paralelo em escala.

  • Inspecione os dados de streaming para visualizar os metadados de um fluxo que você está transformando.

Gorjeta

O Data Factory suporta a capacidade de detetar e gerenciar automaticamente alterações de esquema em dados de entrada, como em dados de streaming.

A captura de tela a seguir mostra um exemplo de fluxo de dados de mapeamento do Data Factory.

Captura de tela de um exemplo de um fluxo de dados de mapeamento do Data Factory.

Os engenheiros de dados podem criar perfis de qualidade de dados e visualizar os resultados de transformações de dados individuais ativando a capacidade de depuração durante o desenvolvimento.

Gorjeta

O Data Factory também pode particionar dados para permitir que o processamento ETL seja executado em escala.

Se necessário, você pode estender a funcionalidade transformacional e analítica do Data Factory adicionando um serviço vinculado que contém seu código em um pipeline. Por exemplo, um bloco de anotações do pool do Azure Synapse Spark pode conter código Python que usa um modelo treinado para pontuar os dados integrados por um fluxo de dados de mapeamento.

Você pode armazenar dados integrados e quaisquer resultados de análises em um pipeline do Data Factory em um ou mais armazenamentos de dados, como tabelas Data Lake Storage, Azure Synapse ou Hive no HDInsight. Você também pode invocar outras atividades para agir com base em insights produzidos por um pipeline analítico do Data Factory.

Gorjeta

Os pipelines do Data Factory são extensíveis porque o Data Factory permite escrever seu próprio código e executá-lo como parte de um pipeline.

Utilize o Spark para dimensionar a integração de dados

Em tempo de execução, o Data Factory usa internamente os pools do Azure Synapse Spark, que são o Spark como uma oferta de serviço da Microsoft, para limpar e integrar dados na nuvem do Azure. Você pode limpar, integrar e analisar dados de alto volume e alta velocidade, como dados de fluxo de cliques, em escala. A intenção da Microsoft é também executar pipelines do Data Factory em outras distribuições do Spark. Além de executar trabalhos ETL no Spark, o Data Factory pode invocar scripts Pig e consultas Hive para acessar e transformar dados armazenados no HDInsight.

A disputa de dados permite que os usuários corporativos, também conhecidos como integradores de dados cidadãos e engenheiros de dados, usem a plataforma para descobrir, explorar e preparar dados visualmente em escala sem escrever código. Esse recurso do Data Factory é fácil de usar e é semelhante aos fluxos de dados do Microsoft Excel Power Query ou do Microsoft Power BI, onde os usuários corporativos de autoatendimento usam uma interface do usuário no estilo de planilha com transformações suspensas para preparar e integrar dados. A captura de tela a seguir mostra um exemplo de fluxo de dados de disputa do Data Factory.

Captura de tela de um exemplo de fluxos de dados de disputa do Data Factory.

Ao contrário do Excel e do Power BI, os fluxos de dados de disputa do Data Factory usam o Power Query para gerar código M e, em seguida, traduzi-lo em um trabalho paralelo no Spark na memória para execução em escala de nuvem. A combinação de mapeamento de fluxos de dados e disputa de fluxos de dados no Data Factory permite que desenvolvedores profissionais de ETL e usuários de negócios colaborem para preparar, integrar e analisar dados para um propósito comercial comum. O diagrama de fluxos de dados de mapeamento do Data Factory anterior mostra como os blocos de anotações do pool do Data Factory e do Azure Synapse Spark podem ser combinados no mesmo pipeline do Data Factory. A combinação de mapeamento e disputa de fluxos de dados no Data Factory ajuda os usuários de TI e de negócios a ficarem cientes dos fluxos de dados que cada um criou e oferece suporte à reutilização do fluxo de dados para minimizar a reinvenção e maximizar a produtividade e a consistência.

Gorjeta

O Data Factory suporta fluxos de dados de disputa e fluxos de dados de mapeamento, para que usuários de negócios e usuários de TI possam integrar dados de forma colaborativa em uma plataforma comum.

Além de limpar e transformar dados, o Data Factory pode combinar integração e análise de dados no mesmo pipeline. Você pode usar o Data Factory para criar pipelines analíticos e de integração de dados, sendo o último uma extensão do primeiro. Você pode soltar um modelo analítico em um pipeline para criar um pipeline analítico que gera dados limpos e integrados para previsões ou recomendações. Em seguida, você pode agir sobre as previsões ou recomendações imediatamente, ou armazená-las em seu data warehouse para fornecer novos insights e recomendações que podem ser visualizados em ferramentas de BI.

Para pontuar seus dados em lote, você pode desenvolver um modelo analítico que você invoca como um serviço dentro de um pipeline do Data Factory. Você pode desenvolver modelos analíticos sem código com o estúdio Azure Machine Learning ou com o SDK do Azure Machine Learning usando blocos de anotações de pool do Azure Synapse Spark ou R no RStudio. Quando você executa pipelines de aprendizado de máquina do Spark em blocos de anotações de pool do Azure Synapse Spark, a análise acontece em escala.

Você pode armazenar dados integrados e qualquer resultado de pipeline analítico do Data Factory em um ou mais armazenamentos de dados, como tabelas Data Lake Storage, Azure Synapse ou Hive no HDInsight. Você também pode invocar outras atividades para agir com base em insights produzidos por um pipeline analítico do Data Factory.

Usar um banco de dados lake para compartilhar dados confiáveis consistentes

Um objetivo fundamental de qualquer configuração de integração de dados é a capacidade de integrar dados uma vez e reutilizá-los em qualquer lugar, não apenas em um data warehouse. Por exemplo, você pode querer usar dados integrados em ciência de dados. A reutilização evita a reinvenção e garante dados consistentes e comummente compreendidos em que todos podem confiar.

O Common Data Model descreve as principais entidades de dados que podem ser compartilhadas e reutilizadas em toda a empresa. Para obter a reutilização, o Common Data Model estabelece um conjunto de nomes de dados comuns e definições que descrevem entidades de dados lógicos. Exemplos de nomes de dados comuns incluem Cliente, Conta, Produto, Fornecedor, Pedidos, Pagamentos e Devoluções. Os profissionais de TI e de negócios podem usar o software de integração de dados para criar e armazenar ativos de dados comuns para maximizar sua reutilização e impulsionar a consistência em todos os lugares.

O Azure Synapse fornece modelos de banco de dados específicos do setor para ajudar a padronizar dados no lago. Os modelos de banco de dados Lake fornecem esquemas para áreas de negócios predefinidas, permitindo que os dados sejam carregados em um banco de dados lake de forma estruturada. O poder vem quando você usa o software de integração de dados para criar ativos de dados comuns de banco de dados lake, resultando em dados confiáveis autodescritivos que podem ser consumidos por aplicativos e sistemas analíticos. Você pode criar ativos de dados comuns no Armazenamento Data Lake usando o Data Factory.

Gorjeta

O Armazenamento Data Lake é um armazenamento compartilhado que sustenta o Microsoft Azure Synapse, o Azure Machine Learning, o Azure Synapse Spark e o HDInsight.

O Power BI, o Azure Synapse Spark, o Azure Synapse e o Azure Machine Learning podem consumir ativos de dados comuns. O diagrama a seguir mostra como um banco de dados lake pode ser usado no Azure Synapse.

Captura de tela mostrando como um banco de dados lake pode ser usado no Azure Synapse.

Gorjeta

Integre dados para criar entidades lógicas de banco de dados em lago no armazenamento compartilhado para maximizar a reutilização de ativos de dados comuns.

Integração com tecnologias de ciência de dados da Microsoft no Azure

Outro objetivo fundamental ao modernizar um data warehouse é produzir insights para obter vantagem competitiva. Você pode produzir insights integrando seu data warehouse migrado com tecnologias de ciência de dados da Microsoft e de terceiros no Azure. As seções a seguir descrevem as tecnologias de aprendizado de máquina e ciência de dados oferecidas pela Microsoft para ver como elas podem ser usadas com o Azure Synapse em um ambiente moderno de data warehouse.

Tecnologias da Microsoft para ciência de dados no Azure

A Microsoft oferece uma gama de tecnologias que suportam análise avançada. Com essas tecnologias, você pode criar modelos analíticos preditivos usando aprendizado de máquina ou analisar dados não estruturados usando aprendizado profundo. As tecnologias incluem:

  • Azure Machine Learning Studio

  • Azure Machine Learning

  • Blocos de anotações de pool do Azure Synapse Spark

  • ML.NET (API, CLI ou ML.NET Construtor de Modelos para Visual Studio)

  • .NET para Apache Spark

Os cientistas de dados podem usar RStudio (R) e Jupyter Notebooks (Python) para desenvolver modelos analíticos, ou podem usar frameworks como Keras ou TensorFlow.

Gorjeta

Desenvolva modelos de aprendizado de máquina usando uma abordagem no/low-code ou usando linguagens de programação como Python, R e .NET.

Azure Machine Learning Studio

O estúdio Azure Machine Learning é um serviço de nuvem totalmente gerenciado que permite criar, implantar e compartilhar análises preditivas usando uma interface do usuário baseada na Web de arrastar e soltar. A captura de tela a seguir mostra a interface do usuário do estúdio do Azure Machine Learning.

Captura de ecrã a mostrar a análise preditiva na IU do estúdio do Azure Machine Learning.

Azure Machine Learning

O Azure Machine Learning fornece um SDK e serviços para Python que podem ajudá-lo a preparar dados rapidamente e também treinar e implantar modelos de aprendizado de máquina. Você pode usar o Aprendizado de Máquina do Azure em blocos de anotações do Azure usando o Jupyter Notebook, com estruturas de código aberto, como PyTorch, TensorFlow, scikit-learn ou Spark MLlib — a biblioteca de aprendizado de máquina do Spark.

Gorjeta

O Azure Machine Learning fornece um SDK para desenvolver modelos de aprendizado de máquina usando várias estruturas de código aberto.

Você também pode usar o Aprendizado de Máquina do Azure para criar pipelines de aprendizado de máquina que gerenciam o fluxo de trabalho de ponta a ponta, dimensionam programaticamente na nuvem e implantam modelos na nuvem e na borda. O Azure Machine Learning contém espaços de trabalho, que são espaços lógicos que você pode criar programaticamente ou manualmente no portal do Azure. Esses espaços de trabalho mantêm destinos de computação, experimentos, armazenamentos de dados, modelos de aprendizado de máquina treinados, imagens do Docker e serviços implantados em um só lugar para permitir que as equipes trabalhem juntas. Você pode usar o Aprendizado de Máquina do Azure no Visual Studio com a extensão Visual Studio for AI.

Gorjeta

Organize e gerencie armazenamentos de dados relacionados, experimentos, modelos treinados, imagens do Docker e serviços implantados em espaços de trabalho.

Blocos de anotações de pool do Azure Synapse Spark

Um bloco de anotações do pool do Azure Synapse Spark é um serviço Apache Spark otimizado para o Azure. Com os blocos de anotações de pool do Azure Synapse Spark:

  • Os engenheiros de dados podem criar e executar trabalhos escaláveis de preparação de dados usando o Data Factory.

  • Os cientistas de dados podem criar e executar modelos de aprendizado de máquina em escala usando notebooks escritos em linguagens como Scala, R, Python, Java e SQL para visualizar resultados.

Gorjeta

O Azure Synapse Spark é um Spark como uma oferta de serviço dinamicamente escalável da Microsoft, o Spark oferece execução escalável de preparação de dados, desenvolvimento de modelos e execução de modelos implantados.

Os trabalhos em execução nos blocos de anotações do pool do Azure Synapse Spark podem recuperar, processar e analisar dados em escala do Armazenamento de Blobs do Azure, Armazenamento Data Lake, Azure Synapse, HDInsight e serviços de streaming de dados, como o Apache Kafka.

Gorjeta

O Azure Synapse Spark pode acessar dados em uma variedade de armazenamentos de dados do ecossistema analítico da Microsoft no Azure.

Os blocos de anotações de pool do Azure Synapse Spark oferecem suporte ao dimensionamento automático e ao encerramento automático para reduzir o custo total de propriedade (TCO). Os cientistas de dados podem usar a estrutura de código aberto MLflow para gerenciar o ciclo de vida do aprendizado de máquina.

ML.NET

ML.NET é uma estrutura de aprendizado de máquina de código aberto e multiplataforma para Windows, Linux, macOS. A Microsoft criou ML.NET para que os desenvolvedores .NET possam usar ferramentas existentes, como o ML.NET Model Builder para Visual Studio, para desenvolver modelos de aprendizado de máquina personalizados e integrá-los em seus aplicativos .NET.

Gorjeta

A Microsoft estendeu sua capacidade de aprendizado de máquina para desenvolvedores .NET.

.NET para Apache Spark

O .NET para Apache Spark estende o suporte ao Spark além de R, Scala, Python e Java para .NET e visa tornar o Spark acessível aos desenvolvedores do .NET em todas as APIs do Spark. Embora o .NET para Apache Spark esteja atualmente disponível apenas no Apache Spark no HDInsight, a Microsoft pretende disponibilizar o .NET para Apache Spark em notebooks de pool do Azure Synapse Spark.

Usar o Azure Synapse Analytics com seu data warehouse

Para combinar modelos de aprendizado de máquina com o Azure Synapse, você pode:

  • Use modelos de aprendizado de máquina em lote ou em tempo real em streaming de dados para produzir novos insights e adicione esses insights ao que você já sabe no Azure Synapse.

  • Use os dados no Azure Synapse para desenvolver e treinar novos modelos preditivos para implantação em outro lugar, como em outros aplicativos.

  • Implante modelos de aprendizado de máquina, incluindo modelos treinados em outros lugares, no Azure Synapse para analisar dados em seu data warehouse e gerar novo valor comercial.

Gorjeta

Treine, teste, avalie e execute modelos de aprendizado de máquina em escala nos blocos de anotações do pool do Azure Synapse Spark usando dados no Azure Synapse.

Os cientistas de dados podem usar o RStudio, o Jupyter Notebooks e os blocos de anotações de pool do Azure Synapse Spark junto com o Azure Machine Learning para desenvolver modelos de aprendizado de máquina que são executados em escala nos blocos de anotações de pool do Azure Synapse Spark usando dados no Azure Synapse. Por exemplo, cientistas de dados poderiam criar um modelo não supervisionado para segmentar clientes e impulsionar diferentes campanhas de marketing. Use o aprendizado de máquina supervisionado para treinar um modelo para prever um resultado específico, como prever a propensão de um cliente à rotatividade ou recomendar a próxima melhor oferta para um cliente tentar aumentar seu valor. O diagrama a seguir mostra como o Azure Synapse pode ser usado para o Azure Machine Learning.

Captura de ecrã de um modelo de comboio e previsão do Azure Synapse.

Em outro cenário, você pode ingerir redes sociais ou revisar dados de sites no Armazenamento Data Lake e, em seguida, preparar e analisar os dados em escala em um bloco de anotações de pool do Azure Synapse Spark usando processamento de linguagem natural para pontuar o sentimento do cliente sobre seus produtos ou marca. Em seguida, você pode adicionar essas pontuações ao seu data warehouse. Ao usar a análise de big data para entender o efeito do sentimento negativo nas vendas de produtos, você adiciona ao que já sabe em seu data warehouse.

Gorjeta

Produza novas informações usando o aprendizado de máquina no Azure em lote ou em tempo real e adicione ao que você sabe em seu data warehouse.

Integrar dados de transmissão ao vivo no Azure Synapse Analytics

Ao analisar dados em um data warehouse moderno, você deve ser capaz de analisar dados de streaming em tempo real e juntá-los com dados históricos em seu data warehouse. Um exemplo é a combinação de dados da IoT com dados de produtos ou ativos.

Gorjeta

Integre seu data warehouse com streaming de dados de dispositivos IoT ou clickstreams.

Depois de migrar com êxito seu data warehouse para o Azure Synapse, você pode introduzir a integração de dados de streaming ao vivo como parte de um exercício de modernização do data warehouse aproveitando a funcionalidade extra no Azure Synapse. Para fazer isso, ingira dados de streaming via Hubs de Eventos, outras tecnologias como Apache Kafka ou, potencialmente, sua ferramenta ETL existente se ela suportar as fontes de dados de streaming. Armazene os dados no Armazenamento Data Lake. Em seguida, crie uma tabela externa no Azure Synapse usando o PolyBase e aponte-a para os dados que estão sendo transmitidos para o Armazenamento Data Lake para que seu data warehouse agora contenha novas tabelas que fornecem acesso aos dados de streaming em tempo real. Consulte a tabela externa como se os dados estivessem no data warehouse usando o T-SQL padrão de qualquer ferramenta de BI que tenha acesso ao Azure Synapse. Você também pode unir os dados de streaming a outras tabelas com dados históricos para criar exibições que unem dados de transmissão ao vivo a dados históricos para facilitar o acesso dos usuários corporativos aos dados.

Gorjeta

Ingerir dados de streaming para o Armazenamento Data Lake a partir de Hubs de Eventos ou Apache Kafka e acessar os dados do Azure Synapse usando tabelas externas PolyBase.

No diagrama a seguir, um data warehouse em tempo real no Azure Synapse é integrado ao streaming de dados no Armazenamento Data Lake.

Captura de ecrã do Azure Synapse com transmissão de dados no Armazenamento Data Lake.

Criar um data warehouse lógico usando o PolyBase

Com o PolyBase, você pode criar um data warehouse lógico para simplificar o acesso do usuário a vários armazenamentos de dados analíticos. Muitas empresas adotaram armazenamentos de dados analíticos "otimizados para carga de trabalho" nos últimos anos, além de seus data warehouses. As plataformas analíticas no Azure incluem:

  • Armazenamento Data Lake com o bloco de anotações de pool do Azure Synapse Spark (Spark as a service), para análise de big data.

  • HDInsight (Hadoop as a service), também para análise de big data.

  • Bancos de dados NoSQL Graph para análise de gráficos, o que pode ser feito no Azure Cosmos DB.

  • Hubs de Eventos e Stream Analytics, para análise em tempo real de dados em movimento.

Você pode ter equivalentes não Microsoft dessas plataformas ou um sistema de gerenciamento de dados mestre (MDM) que precisa ser acessado para obter dados confiáveis consistentes sobre clientes, fornecedores, produtos, ativos e muito mais.

Gorjeta

O PolyBase simplifica o acesso a vários armazenamentos de dados analíticos subjacentes no Azure para facilitar o acesso por usuários corporativos.

Essas plataformas analíticas surgiram devido à explosão de novas fontes de dados dentro e fora da empresa e à demanda dos usuários empresariais para capturar e analisar os novos dados. As novas fontes de dados incluem:

  • Dados gerados por máquina, como dados do sensor IoT e dados de clickstream.

  • Dados gerados por humanos, como dados de redes sociais, dados de sites revisados, e-mails de entrada de clientes, imagens e vídeos.

  • Outros dados externos, como dados abertos do governo e dados meteorológicos.

Esses novos dados vão além dos dados de transações estruturadas e das principais fontes de dados que normalmente alimentam armazéns de dados e geralmente incluem:

  • Dados semiestruturados como JSON, XML ou Avro.
  • Dados não estruturados como texto, voz, imagem ou vídeo, que são mais complexos de processar e analisar.
  • Dados de alto volume, dados de alta velocidade ou ambos.

Como resultado, novos tipos mais complexos de análise surgiram, como processamento de linguagem natural, análise de gráficos, deep learning, análise de streaming ou análise complexa de grandes volumes de dados estruturados. Esses tipos de análise normalmente não acontecem em um data warehouse, portanto, não é surpreendente ver diferentes plataformas analíticas para diferentes tipos de cargas de trabalho analíticas, como mostrado no diagrama a seguir.

Captura de tela de diferentes plataformas analíticas para diferentes tipos de cargas de trabalho analíticas no Azure Synapse.

Gorjeta

A capacidade de fazer com que os dados em vários armazenamentos de dados analíticos pareçam estar todos em um único sistema e associá-los ao Azure Synapse é conhecida como uma arquitetura lógica de data warehouse.

Como essas plataformas produzem novos insights, é normal ver um requisito para combinar os novos insights com o que você já sabe no Azure Synapse, que é o que o PolyBase torna possível.

Usando a virtualização de dados PolyBase dentro do Azure Synapse, você pode implementar um data warehouse lógico onde os dados no Azure Synapse são unidos a dados em outros armazenamentos de dados analíticos do Azure e locais, como HDInsight, Azure Cosmos DB ou streaming de dados fluindo para o Data Lake Storage do Stream Analytics ou Hubs de Eventos. Essa abordagem reduz a complexidade para os usuários, que acessam tabelas externas no Azure Synapse e não precisam saber que os dados que estão acessando estão armazenados em vários sistemas analíticos subjacentes. O diagrama a seguir mostra uma estrutura complexa de data warehouse acessada por meio de métodos de interface do usuário comparativamente mais simples, mas ainda poderosos.

Captura de tela mostrando um exemplo de uma estrutura complexa de data warehouse acessada por meio de métodos de interface do usuário.

O diagrama mostra como outras tecnologias no ecossistema analítico da Microsoft podem ser combinadas com a capacidade da arquitetura lógica de data warehouse no Azure Synapse. Por exemplo, você pode ingerir dados no Armazenamento Data Lake e fazer a curadoria dos dados usando o Data Factory para criar produtos de dados confiáveis que representam entidades de dados lógicos do banco de dados do Microsoft Lake. Esses dados confiáveis e comumente compreendidos podem ser consumidos e reutilizados em diferentes ambientes analíticos, como o Azure Synapse, os blocos de anotações do pool do Azure Synapse Spark ou o Azure Cosmos DB. Todos os insights produzidos nesses ambientes são acessíveis por meio de uma camada lógica de virtualização de dados de data warehouse possibilitada pelo PolyBase.

Gorjeta

Uma arquitetura lógica de data warehouse simplifica o acesso do usuário corporativo aos dados e agrega novo valor ao que você já sabe em seu data warehouse.

Conclusões

Depois de migrar seu data warehouse para o Azure Synapse, você pode aproveitar outras tecnologias no ecossistema analítico da Microsoft. Ao fazer isso, você não apenas moderniza seu data warehouse, mas também traz insights produzidos em outros armazenamentos de dados analíticos do Azure para uma arquitetura analítica integrada.

Você pode ampliar seu processamento de ETL para ingerir dados de qualquer tipo no Data Lake Storage e, em seguida, preparar e integrar os dados em escala usando o Data Factory para produzir ativos de dados confiáveis e comumente compreendidos. Esses ativos podem ser consumidos pelo seu armazém de dados e acessados por cientistas de dados e outros aplicativos. Você pode criar pipelines analíticos em tempo real e orientados a lotes e criar modelos de aprendizado de máquina para serem executados em lote, em tempo real em streaming de dados e sob demanda como um serviço.

Você pode usar o PolyBase ou COPY INTO ir além do seu data warehouse para simplificar o acesso a insights de várias plataformas analíticas subjacentes no Azure. Para fazer isso, crie visualizações integradas holísticas em um data warehouse lógico que ofereça suporte ao acesso a streaming, big data e insights tradicionais de data warehouse a partir de ferramentas e aplicativos de BI.

Ao migrar o seu armazém de dados para o Azure Synapse, pode tirar partido do rico ecossistema analítico da Microsoft em execução no Azure para gerar novo valor na sua empresa.

Próximos passos

Para saber mais sobre como migrar para um pool SQL dedicado, consulte Migrar um data warehouse para um pool SQL dedicado no Azure Synapse Analytics.