Integração do Microsoft Purview e CluedIn para master gestão de dados (MDM)

Artigo
11/20/2024

Esta arquitetura CluedIn fornece às empresas métricas sobre a qualidade dos dados que ingere, detetar de forma inteligente sujo dados e prepará-los para limpeza por engenheiros de dados e responsáveis pelos dados. Os algoritmos de machine learning lógicos difusos proprietários ajudam os utilizadores empresariais e os curadores a etiquetar dados e ensinam o sistema a identificar, corrigir e prevenir problemas de qualidade de dados ao longo do tempo.

Arquitetura

Diagrama a mostrar o fluxo de dados e a estrutura arquitectónica CluedIn.

Fluxo de dados

A solução CluedIn consiste em várias camadas funcionais que são executadas num cluster do Kubernetes no Serviço de Kubernetes do Azure (AKS). Uma combinação de aplicações de microsserviços .NET Core processa funções distintas, como ingestão de dados, processamento de dados de transmissão em fluxo, colocação em fila e interface de utilizador.

A camada de pesquisa CluedIn ingere dados de origens de cloud do cliente, como SQL do Azure base de dados DB, Azure Cosmos DB, PostgreSQL e Salesforce através de conectores Azure Data Factory.

O CluedIn também recebe entradas de sistemas acessíveis no local, como SAP, Oracle, IBM e Hadoop, ou pode utilizar agentes no local para pesquisar dados não públicos.
O barramento de serviço empresarial liga-se através das portas 5672 e 15672 para pontos finais de administração. Os crawlers enviam dados para o barramento e a camada de processamento consome dados do barramento através da porta 5672.
A camada do registo de transações tira resultados da camada de processamento.
Na camada de persistência, as bases de dados consomem dados do registo de transações e persistem para fornecer consistência eventual nos diferentes arquivos de dados. Todas as lojas são executadas no modo de elevada disponibilidade (HA).

Ao contrário da virtualização de dados, a camada de persistência CluedIn ingere partes dos dados de origem e preserva a versão de fidelidade mais alta dos dados e a respetiva estrutura. Esta alta fidelidade significa que o CluedIn Data Fabric pode servir pedidos de dados empresariais em qualquer formato ou modelo.
A camada de abstração de dados liga-se aos diferentes arquivos de dados através das portas de cada arquivo.
O acesso a dados é através de chamadas GraphQL, REST e WebSockets através da porta 443. GraphQL e REST utilizam um modelo de solicitação e os WebSockets utilizam um modelo push.

CluedIn protege o acesso a dados através da limitação e prevenção de Falsificação de Pedidos entre Sites (CSRF).
A aplicação Web CluedIn ASP.NET Core comunica através de uma combinação de chamadas REST e GraphQL através da porta 443.

Toda a comunicação do browser para a aplicação utiliza um conjunto de definições de entrada, que requerem apenas um único endereço IP público. Num ambiente de produção, toda a comunicação está sobre a camada de socket segura (SSL).
A aplicação CluedIn fornece dados limpos e processados a serviços de análise como o Power BI e o Azure Synapse Analytics para gerar informações. O sistema cria uma cópia de segurança e armazena todos os dados em bases de dados SQL ou Redis.

Componentes

O CluedIn é executado no Serviço de Kubernetes do Azure (AKS), um serviço kubernetes de elevada disponibilidade, seguro e totalmente gerido para implementar e gerir aplicações em contentores. O AKS oferece o Kubernetes sem servidor, CI/CD integrado e segurança e governação de nível empresarial.

O CluedIn utiliza e suporta muitas origens e serviços de bases de dados, incluindo:

SQL do Azure Base de Dados, um serviço de base de dados em nuvem relacional gerido que está sempre atualizado e pode dimensionar automaticamente os recursos a pedido.
Instância Gerenciada de SQL do Azure, para uma ampla compatibilidade do motor SQL Server com aplicações SQL Server existentes. Instância Gerenciada de SQL fornece infraestruturas de bases de dados no local com benefícios da cloud do Azure, como dimensionamento elástico, gestão unificada e um modelo de faturação na cloud.
O Azure Cosmos DB, uma base de dados NoSQL sem servidor totalmente gerida e não relacional para desenvolvimento de aplicações modernas.
Azure Data Lake, um serviço de análise e armazenamento de dados dimensionável.
Azure Data Factory, uma solução de integração de dados totalmente gerida e sem servidor para ingerir, preparar e transformar dados em escala. O CluedIn utiliza mais de 90 conectores incorporados do Data Factory para adquirir dados de origens como o Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow e todos os serviços de dados do Azure.

O CluedIn fornece dados processados e regidos para muitas aplicações e serviços de análise, incluindo:

O Azure Databricks, um serviço de análise rápido, fácil e colaborativo baseado no Apache Spark.
Azure Synapse Analytics, um serviço de análise ilimitado que reúne armazenamento de dados empresariais e análise de Macrodados.
O Log Analytics, uma ferramenta portal do Azure para editar, executar e analisar consultas a partir dos dados de registo do Azure Monitor.
Serviços Cognitivos do Azure, uma família abrangente de serviços de IA e APIs cognitivas para criar aplicações inteligentes.
O Power BI, um serviço de análise de negócios da Microsoft que combina visualizações interativas e business intelligence com uma interface de criação de relatórios fácil de utilizar.

Dados do cenário

As empresas empresariais modernas baseiam muitos processos e projetos em dados, mas os dados não processados têm de ser preparados para consumo. Os casos de utilização de dados, desde análises avançadas a machine learning, requerem atenção e processos de preparação de dados semelhantes.

Os projetos de dados começam com a deteção de dados, para determinar onde estão os dados e os sistemas que utiliza.
Em seguida, a integração de dados reúne várias origens de dados num conjunto de dados unificado ou ligado.
O próximo passo é normalizar, uniformizar, harmonizar e limpo os dados para que as máquinas possam processá-lo de forma uniforme, consistente e de alta fidelidade.
Por fim, os dados têm de ser disponibilizados de forma fácil e fácil para as necessidades empresariais.

Durante estes processos, a governação tem de garantir o controlo de dados e a proteção da privacidade com uma propriedade clara, rastreabilidade total e um registo de auditoria das origens de dados, processamento e utilização.

A plataforma CluedIn encapsula estes processos e pilares de gestão de dados numa solução de Gerenciamento de Dados Principal (MDM) coerente, consistente e ponto a ponto. O CluedIn utiliza uma técnica de integração de dados denominada conectividade eventual que produz melhores resultados do que os modelos de extração, transformação, carregamento (ETL) ou extração, carregamento e transformação (ELT). A conectividade eventual utiliza GraphQL consultas para combinar os dados de forma totalmente integrada em várias origens de dados siloadas.

Com a conectividade eventual, os dados não são associados ou misturados ao entrar ou carregar noutros sistemas. Em vez disso, o CluedIn carrega os dados tal como estão e identifica os registos com metadados. Eventualmente, os registos com as mesmas etiquetas intercalam ou criam uma relação no gráfico.

Esta técnica sofisticada de intercalação de dados fornece uma base para soluções baseadas em dados. O CluedIn Data Fabric integra dados num pipeline que limpa, prepara, modelos, governa, melhora, elimina duplicados e cataloga dados para os tornar facilmente disponíveis e acessíveis para utilizações empresariais.

O CluedIn fornece às empresas métricas sobre a qualidade dos dados que ingere, detetar de forma inteligente sujo dados e prepará-los para limpeza por engenheiros de dados e responsáveis pelos dados. Os algoritmos de machine learning lógicos difusos proprietários ajudam os utilizadores empresariais e os curadores a etiquetar dados e ensinam o sistema a identificar, corrigir e prevenir problemas de qualidade de dados ao longo do tempo.

CluedIn inclui governação de nível empresarial, para garantir que pode utilizar os seus dados de forma segura e confiante. O CluedIn pode transmitir dados limpos e regidos diretamente para sistemas de análise como o Power BI, o Azure Databricks, o Azure Synapse Analytics ou os Serviços Cognitivos do Azure para os disponibilizar facilmente para o resto da empresa. O suporte nativo para dimensionamento automático utiliza o poder do Azure para fornecer um ambiente dimensionável para as maiores cargas de trabalho de dados.

Potenciais casos de utilização

Criar uma única vista de dados

Devido à modelação semântica do CluedIn, torna a criação de uma Vista Única dos Seus Dados Principais mais fácil de alcançar em comparação com as abordagens tradicionais. Os clientes do CluedIn estão a utilizar o CluedIn para criar uma vista ligada, histórica e de alta qualidade dos seus dados empresariais mais críticos. O CluedIn não só suporta o mastering de domínios Principais clássicos como Pessoas, Empresas, Fornecedores e Produtos – suporta um número infinito de domínios diferentes, bem como domínios não estruturados, como ficheiros, correio, eventos e muito mais. Se precisar de um repositório centralizado de master dados limpo, melhorados, regidos, controlados pela qualidade e catalogados, o CluedIn é uma boa opção para os seus casos de utilização.

Um recurso de infraestrutura de dados

CluedIn é um Fornecedor Gartner Cool em 2020, devido à sua capacidade de orquestrar dados de entre 10, 100 e 1000 de origens de dados diferentes e complexas num data hub unificado. Se precisar de distribuir facilmente dados de várias origens de dados diferentes, o CluedIn pode ser utilizado como um recurso de infraestrutura de dados para o conseguir. Isto pode fornecer uma infraestrutura de transmissão em fluxo para os seus dados que também pode limpo e master proativamente os dados à medida que fluem para consumidores a jusante.

Intercalação sofisticada e ligação de dados master

A abordagem de modelação de dados exclusiva do CluedIn utiliza uma base de dados de grafos, que permite intercalar e associar dados complexos à simplicidade. Ao contrário das abordagens tradicionais, para resolver este desafio, o CluedIn adiciona mais machine learning e análise de grafos para intercalar, corresponder e ligar registos com uma precisão elevada.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios orientadores que podem ser utilizados para melhorar a qualidade de uma carga de trabalho. Para obter mais informações, veja Microsoft Azure Well-Architected Framework.

Confiabilidade

A fiabilidade garante que a sua aplicação pode cumprir os compromissos assumidos com os seus clientes. Para obter mais informações, veja Descrição geral do pilar de fiabilidade.

CluedIn utiliza cópias de segurança automáticas diárias da base de dados e mantém-nas no armazenamento de longo prazo durante 30 dias por predefinição. Toda a plataforma é criada com pilhas redundantes e tolerantes a falhas que mantêm cópias de segurança para todos os subsistemas. Os sistemas de monitorização 24 horas por dia garantem que os serviços estão o mais não contaminados possível. CluedIn segue as práticas padrão do setor para redundância de infraestrutura.
CluedIn apresenta e armazena apenas uma representação dos seus dados, não a versão original. Se o CluedIn detetar intrusões de dados destrutivos, pode apagar temporariamente os dados do CluedIn dos seus servidores. Assim que a intrusão diminuir, o CluedIn reencontra os dados para voltar ao seu estado original.
Todos os arquivos de dados são executados no modo de elevada disponibilidade.

Escalabilidade

O CluedIn é executado em contentores do Docker e utiliza o Kubernetes para alojar e orquestrar as diferentes partes da aplicação. Esta arquitetura significa que o CluedIn funciona bem em ambientes elásticos e pode dimensionar automaticamente para os tamanhos e a infraestrutura necessários.
O suporte nativo para dimensionamento automático aplica o poder do Azure para fornecer um ambiente dimensionável para as maiores cargas de trabalho de dados.
A modelação de gráficos sem esquema infere automaticamente um modelo de dados a partir dos dados de origem. As novas origens de dados ligam-se automaticamente a todas as outras origens de dados, em vez de terem de ser explicitamente integradas. O número de origens de dados pode ser dimensionado infinitamente sem aumentar a complexidade da integração.

Segurança

A segurança fornece garantias contra ataques deliberados e abuso dos seus valiosos dados e sistemas. Para obter mais informações, veja Descrição geral do pilar de segurança.

A segurança CluedIn concede permissões e controla o acesso a diferentes serviços através do RBAC do Azure, com o controlo de chaves de segurança do Azure Key Vault e o registo e controlo de acesso do Azure Monitor.
Além das contas de utilizador autenticadas, o CluedIn também suporta o início de sessão único (SSO) e as arquiteturas de identidade. Os pedidos para a aplicação CluedIn utilizam tokens de acesso encriptados que não têm correlação com a identidade do utilizador.
O CluedIn gere representações de dados armazenadas por trás de várias camadas de firewall e proxy e autentica-as com um conjunto de chaves exclusivas.
CluedIn armazena todos os dados de origem com encriptação AES de 256 bits, que é mais forte ou igual ao nível de encriptação das origens de dados suportadas.
A limitação e a prevenção de CSRF protegem o acesso aos dados.

DevOps

O CluedIn utiliza pipelines de integração contínua e entrega contínua (CI/CD) dos Pipelines do Azure para processar implementações e atualizações sem interrupção para o ambiente do AKS.
CluedIn suporta unidades, integração e testes funcionais para garantir que os dados são transformados conforme esperado. Os pipelines de processamento virtualizado podem ser executados na memória para testes do sandbox. As asserções de nível de produção podem ajudar a depurar e a detetar problemas de dados.
Para ambientes de teste e produção, o CluedIn fornece um gráfico do gestor de pacotes helm para instalar rapidamente o CluedIn num cluster do Kubernetes. Os processos de implementação de dados com script completo suportam a configuração, o teste e a implementação.

Otimização de custos

A otimização de custos consiste em analisar formas de reduzir despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, veja Descrição geral do pilar de otimização de custos.

Os preços do CluedIn são abertos e transparentes. Pode ver os preços no respetivo site.

Dimensionamento do Azure e início de uma avaliação

Pode iniciar uma avaliação de 7 dias do CluedIn no respetivo site, o que também pode ajudá-lo a definir o âmbito dos custos de alojamento do Azure com estimativas pré-criadas do Azure para ambientes de tamanho diferente.

Implementar este cenário

Para implementar o CluedIn para fins de desenvolvimento e avaliação com o Docker, veja CluedIn com o Docker.
Para instalar rapidamente o CluedIn num cluster do Kubernetes, veja CluedIn com o Kubernetes. O gráfico Helm instala o servidor CluedIn, o site e outros serviços necessários, como armazenamento e filas.

Próximas etapas

Para obter mais informações sobre o CluedIn, consulte o site do CluedIn.
Para obter a documentação do CluedIn, veja a documentação do CluedIn.

Compartilhar via