Tecnologias do Azure para o processo de aprendizagem

Concluído

Nesta unidade, você aprende a aplicar os resultados da etapa de medida no ciclo de vida da inovação. Você também aprende sobre a importância da democratização de dados.

Democratização de dados

Como você aprendeu em unidades anteriores, você pode coletar dados de seus clientes usando várias fontes. Essas fontes incluem micropesquisas, dados de utilização derivados pelo Azure Application Insights e sinalizadores de recursos que os clientes podem decidir por conta própria habilitar ou desabilitar. Quanto mais dados você tiver, melhores serão suas decisões, mas você precisa de uma maneira de lidar com esse fluxo cada vez maior de dados.

Em 2014, Satya Nadella falou sobre a importância da cultura de dados em uma organização. Ele disse que as decisões não devem ser tomadas com base em sentimentos ou opiniões subjetivas, mas usando dados para validá-las. Ele também disse que os dados devem estar disponíveis para todos os indivíduos que precisam deles e devem ser facilmente convertidos em insights acionáveis para facilitar decisões baseadas em dados.

Uma organização só pode tomar decisões de dados abrangentes se essas decisões forem baseadas em uma plataforma de dados sólida e acessível. Este esforço envolve quatro domínios:

  • Coletar dados: O primeiro passo para a tomada de decisão baseada em dados é sempre ter dados. A coleta de dados pode assumir várias formas: migração de repositórios de dados existentes, geração de dados de fontes como o Azure Application Insights ou ingestão de dados de outras fontes.
  • Compartilhar dados: os dados coletados precisam estar disponíveis para todos que precisam deles, não apenas para especialistas em dados. Todos os indivíduos em uma organização devem ser capazes de usar dados para tomar suas decisões.
  • Centralize dados: plataformas de dados centralizadas podem ajudar a simplificar o compartilhamento e a governança de dados.
  • Governar dados: o compartilhamento de dados não significa que todos os dados precisam estar disponíveis para todos. Certifique-se de que todos os dados confidenciais estejam protegidos, rastreados e controlados antes de compartilhá-los.

Plataforma de dados do Azure

A plataforma Azure abrange todo o ciclo de vida dos dados, o que é fundamental para a tomada de decisões orientada por dados e a democratização dos dados. De bancos de dados leves e sob demanda a grandes armazéns de dados ou sistemas NoSQL flexíveis, a plataforma de dados do Azure permite cobrir as quatro áreas de atividade de dados.

Recolha de dados

O ecossistema de dados do Azure inclui serviços e ferramentas para migrar, ingerir, armazenar e analisar dados. A lista a seguir mostra apenas alguns dos mecanismos que você pode usar para processar dados e disponibilizá-los para compartilhamento posterior, a fim de facilitar a tomada de decisões orientada por dados:

  • Análise de dados: o Azure Synapse Analytics é um serviço de análise empresarial que acelera o tempo de perceção em armazéns de dados e sistemas de big data. O Azure Synapse Analytics reúne o melhor de:
    • Tecnologias SQL utilizadas no armazenamento de dados corporativo.
    • Tecnologias Spark usadas para big data.
    • Pipelines para integração de dados e ETL (extrair, transformar, carregar) e ELT (extrair, carregar, transformar).
    • Integração profunda com outros serviços da Microsoft, como Power BI, Azure Cosmos DB e Azure Machine Learning.
  • Migração de dados: os dados podem já estar armazenados em fontes existentes, mas precisam ser migrados para uma plataforma moderna antes de poderem ser convertidos em insights acionáveis. O Serviço de Migração de Banco de Dados do Azure contém ferramentas que ajudam com migrações de dados de sistemas como SQL Server, PostgreSQL, Oracle e MongoDB.
  • Processamento de dados: o Azure inclui serviços para analisar e transformar fluxos de dados com o Azure Stream Analytics e para executar processos ETL em grande escala com o Azure Data Factory.

Partilha de dados

O Microsoft Power BI é um conjunto de ferramentas que consolidam dados provenientes de fontes diferentes em visualizações integradas e interativas. Os usuários podem mergulhar nos dados apenas operando controles intuitivos. O poder dos insights está disponível para todos em uma organização, não apenas para os profissionais de dados.

Os proprietários de áreas podem criar relatórios e painéis que contêm as informações relevantes sobre aspetos específicos do aplicativo. Depois que uma nova funcionalidade é introduzida para validar uma hipótese, os dados ficam prontamente disponíveis para validar ou rejeitar a hipótese com base no uso real do cliente.

O Microsoft Power BI pode ajudar com o compartilhamento de dados de várias perspetivas. Seguem-se alguns exemplos:

  • Compartilhar dados com colegas de trabalho e parceiros: os painéis do Power BI simplificam o consumo de dados. As visualizações permitem que pessoas que não são especialistas em dados analisem detalhadamente os dados sem precisar estar familiarizados com sua estrutura subjacente.
  • Gere rapidamente insights de dados: o Power BI pode gerar visualizações automáticas de conjuntos de dados com sua funcionalidade Quick Insights. Você pode criar painéis rapidamente e encontrar correlações de dados que podem não ter sido óbvias no início.
  • Incorporar relatórios em um site ou portal: com o Power BI, você não só pode acessar visualizações no portal nativo do Power BI, mas também pode incorporar relatórios e painéis em outros aplicativos Web. Dessa forma, os usuários não precisam sair de seus sites corporativos familiares para encontrar os dados de que precisam para seu processo de tomada de decisão.

Centralização de dados

O principal problema da centralização de dados é a escala em diferentes níveis. Com o risco de simplificar demais, podemos reduzi-lo aos 3 V de big data:

  • Volume: o Azure Data Lake Storage Gen2 é uma plataforma do Azure econômica e escalável para armazenamento de dados. Com base na escalabilidade massiva fornecida pelo Armazenamento do Azure, o Armazenamento Azure Data Lake foi projetado para atender a vários petabytes de informações enquanto sustenta centenas de gigabits de taxa de transferência.
  • Variedade: Este termo geralmente se refere ao fato de que os dados nem sempre são estruturados. Você também pode ter dados semiestruturados e até mesmo não estruturados. O Azure Synapse brilha nessa área, porque reúne o melhor das tecnologias SQL usadas no armazenamento de dados corporativos com o Spark, que é frequentemente usado para big data.
  • Velocidade: um problema frequentemente encontrado em arquiteturas de dados mais antigas é a interdependência entre a capacidade de armazenamento, a velocidade de análise e as taxas de ingestão. Nas soluções de dados do Azure, uma organização pode dimensionar diferentes dimensões da plataforma de forma independente, dissociando-as. Os dados podem ser ingeridos, processados e compartilhados por meio de pipelines de dados que usam os serviços de dados do Azure necessários, como mostra a arquitetura de business intelligence corporativa.

Governação de dados

No mundo de hoje, os dados representam um ativo crítico e uma responsabilidade significativa. Os dados armazenados geralmente incluem informações confidenciais que podem resultar em danos financeiros ou pessoais se forem vazadas ou compartilhadas de forma inadequada. Armazenar e processar dados implicitamente significa que uma organização aceita essa responsabilidade. Os regulamentos legais podem resultar em penalidades para as organizações que manipulam indevidamente dados pessoais ou confidenciais.

Como consequência, a governança de dados é fundamental para qualquer organização que tenha um objetivo de democratização de dados. O primeiro passo para a governança de dados é classificar os dados que precisam ser tratados de maneiras específicas. Como exemplo, a Microsoft usa essas categorias de dados internamente para classificação de dados:

  • Não comerciais: dados da sua vida pessoal que não pertencem à Microsoft.
  • Público: Dados empresariais disponíveis gratuitamente e aprovados para consumo público.
  • Geral: Dados comerciais que não se destinam a uma audiência pública.
  • Confidencial: dados comerciais que podem causar danos à Microsoft se forem partilhados em excesso.
  • Altamente confidenciais: dados comerciais que causariam danos extensivos à Microsoft se fossem compartilhados em excesso.

A próxima etapa após a classificação de dados é garantir que cada categoria de dados esteja protegida contra acesso não autorizado. O Azure dá suporte a estas tecnologias que impõem confidencialidade:

  • Criptografia de dados em repouso: todos os dados do Azure são criptografados quando armazenados em datacenters da Microsoft. Alguns serviços do Azure oferecem recursos de criptografia específicos, como criptografia de dados transparente no Azure Synapse e no Banco de Dados SQL do Azure.
  • Criptografia de dados em voo: todos os serviços de dados do Azure criptografam dados com TLS/SSL antes de enviá-los pela rede. Alguns serviços, como o Armazenamento do Azure, podem, opcionalmente, permitir tráfego não criptografado. As organizações devem desativar qualquer comunicação não criptografada para qualquer tipo de dados confidenciais.
  • Controle de acesso a dados: o Azure oferece mecanismos sofisticados de autenticação e autorização para acesso à plataforma Azure e para acesso aos próprios dados. O controle de acesso baseado em função do Azure, o Acesso Condicional e o Gerenciamento Privilegiado de Identidades são três exemplos de serviços essenciais que podem ajudar a garantir que apenas pessoas autorizadas tenham acesso a informações confidenciais.
  • Auditoria de dados: Muitas normas de conformidade regulatória exigem evidências de mecanismos de proteção de dados, documentando quem fez determinadas operações e acessou determinados dados. Conforme descrito em Auditoria para o Banco de Dados SQL do Azure e o Azure Synapse Analytics, a auditoria de dados no Azure contempla três aspetos da auditoria:
    • Mantenha uma trilha de auditoria de eventos selecionados, onde você pode definir categorias de ações de dados a serem auditadas.
    • Crie relatórios sobre a atividade do banco de dados, opcionalmente com relatórios e painéis pré-configurados para começar rapidamente.
    • Analise relatórios para descobrir eventos suspeitos, atividades incomuns e tendências

Mentalidade de crescimento

A fase de aprendizagem, por vezes, dá más notícias. Hipóteses que você achava que estavam certas podem se revelar erradas. Estar aberto a ideias alternativas é fundamental para que o processo de inovação flua sem problemas. Talvez toda a hipótese estivesse errada, ou talvez o problema fosse apenas a forma como o protótipo foi desenvolvido.

Em qualquer caso, as conclusões devem ser sempre apoiadas em dados. A equipe deve passar à formulação da próxima hipótese, possivelmente algum tipo de revisão ou iteração da hipótese inicial.

Os dados existentes podem não permitir que você conclua inequivocamente se a hipótese estava certa ou errada. Neste caso, o conjunto de dados que está ajudando o processo de decisão deve ser aprimorado. Introduza novos pontos de telemetria no aplicativo ou descubra novas maneiras de obter informações sobre a experiência do cliente.

Uma mentalidade de crescimento é fundamental nesta fase. Pense em hipóteses comprovadamente erradas ou parcialmente erradas como oportunidades de aprendizagem. As organizações não devem perder tempo com uma inovação que não gera os resultados de negócios esperados.

Onde olhar a seguir

Discutimos ainda muitos dos conceitos desta unidade na documentação do Cloud Adoption Framework sobre democratização de dados.