Microsoft Purview 和 CluedIn 集成,用于主数据管理 (MDM)

这种 CluedIn 体系结构为企业提供有关它引入的数据质量的指标,智能检测脏数据,并为数据工程师和数据专员清理数据做好准备。 专有模糊逻辑机器学习算法可帮助业务用户和策展人标记数据,并指导系统识别、更正和防止数据质量问题。

体系结构

显示 CluedIn 体系结构结构和数据流的关系图。

数据流

CluedIn 解决方案包含各种功能层,这些层在 AKS) Azure Kubernetes 服务 (Kubernetes 群集中运行。 .NET Core 微服务应用程序的组合处理不同的功能,例如数据引入、流式处理、队列和用户界面。

  1. CluedIn 爬网层通过Azure 数据工厂连接器从客户云源(如 Azure SQL DB、Azure Cosmos DB、PostgreSQL 和 Salesforce 数据库)引入数据。

    CluedIn 还可以从 SAP、Oracle、IBM 和 Hadoop 等本地可访问系统获取输入,也可以使用本地代理对非公共数据进行爬网。

  2. 企业服务总线通过管理终结点的端口 5672 和 15672 进行连接。 爬网程序通过端口 5672 将数据发送到总线,处理层使用来自总线的数据。

  3. 事务日志层从处理层获取结果。

  4. 在持久性层中,数据库使用事务日志中的数据并持久保存,以便在不同的数据存储之间提供最终一致性。 所有存储都以高可用性 (HA) 模式运行。

    与数据虚拟化不同,CluedIn 持久性层会引入部分源数据,并保留数据及其结构的最高保真度版本。 这种高保真度意味着 CluedIn 数据构造可以处理任何格式或模型的数据的业务请求。

  5. 数据抽象层通过每个存储的端口连接到不同的数据存储。

  6. 数据访问通过端口 443 调用 GraphQL、REST 和 WebSocket。 GraphQL和 REST 使用拉取模型,WebSocket 使用推送模型。

    CluedIn 通过限制和跨站点请求伪造 (CSRF) 防护来保护数据访问。

  7. CluedIn ASP.NET Core Web 应用程序通过端口 443 通过 REST 和GraphQL调用的组合进行通信。

    从浏览器到应用程序的所有通信都使用一组入口定义,这些定义只需要一个公共 IP 地址。 在生产环境中,所有通信都通过安全套接字层 (SSL) 。

  8. CluedIn 应用程序向 Power BI 和 Azure Synapse Analytics 等分析服务提供经过清理、已处理的数据,以生成见解。 系统备份所有数据并将其存储在 SQL 或 Redis 数据库中。

组件

CluedIn 在 Azure Kubernetes 服务 (AKS) 上运行,这是一种高度可用、安全且完全托管的 Kubernetes 服务,用于部署和管理容器化应用程序。 AKS 提供无服务器 Kubernetes、集成的 CI/CD 以及企业级安全性和治理。

CluedIn 使用并支持许多数据库源和服务,包括:

  • Azure SQL 数据库,一种托管的关系型云数据库服务,始终是最新的,可以按需自动缩放资源。
  • Azure SQL 托管实例,用于与现有SQL Server应用程序的广泛SQL Server引擎兼容性。 SQL 托管实例提供具有 Azure 云优势的本地数据库基础结构,例如弹性缩放、统一管理和云计费模型。
  • Azure Cosmos DB 是用于新式应用开发的完全托管的非关系 NoSQL 无服务器数据库。
  • Azure Data Lake,一种可缩放的数据存储和分析服务。
  • Azure 数据工厂,一种完全托管的无服务器数据集成解决方案,用于大规模引入、准备和转换数据。 CluedIn 使用 90 多个内置数据工厂连接器从 Amazon Redshift、Google BigQuery、HDFS、Oracle Exadata、Teradata、Salesforce、Marketo、ServiceNow 和所有 Azure 数据服务等源获取数据。

CluedIn 为许多分析应用和服务提供经过处理的治理数据,包括:

  • Azure Databricks,一种快速、简单且协作的基于 Apache Spark 的分析服务。
  • Azure Synapse Analytics,这是一种将企业数据仓库和大数据分析汇集在一起的无限分析服务。
  • Log Analytics 是一种Azure 门户工具,用于编辑、运行和分析来自 Azure Monitor 日志数据的查询。
  • Azure 认知服务,一个全面的 AI 服务和认知 API 系列,用于构建智能应用。
  • Power BI 是一种Microsoft业务分析服务,它将交互式可视化效果和商业智能与易于使用的报表创建界面相结合。

场景详细信息

现代企业公司基于数据的许多流程和项目,但原始数据必须做好使用准备。 从高级分析到机器学习的数据用例都需要类似的数据准备过程和关注。

  1. 数据项目从数据 发现开始,以确定数据的位置及其使用的系统。
  2. 然后,数据 集成 将多个数据源合并到统一或连接的数据集中。
  3. 下一步是 规范化、标准化、协调清理 数据,以便计算机能够以统一、一致和高保真的方式处理数据。
  4. 最后,数据必须轻松且随时可用于业务需求。

在这些过程中, 治理 必须确保数据控制和隐私保护,并明确所有权、完全可追溯性,以及数据来源、处理和使用情况的审核跟踪。

CluedIn 平台将这些数据管理流程和支柱封装到一个连贯、一致的端到端主数据管理 (MDM) 解决方案中。 CluedIn 使用称为 最终连接 的数据集成技术,它比经典 提取、转换、加载 (ETL) 提取、加载、转换 (ELT) 模型产生更好的结果。 最终连接使用GraphQL查询从多个孤立的数据源无缝混合数据。

使用最终连接时,数据在进入或加载到其他系统时不会联接或混合。 相反,CluedIn 按原样加载数据,并使用元数据标记记录。 最终,具有相同标记的记录在图中合并或构建关系。

这种复杂的数据合并技术为数据驱动解决方案提供了基础。 CluedIn Data Fabric 将数据集成到一个管道中,该管道可清理、准备、建模、管理、扩充、删除重复数据以及目录数据,使其可供业务使用和访问。

CluedIn 为企业提供有关其引入的数据质量的指标,智能检测脏数据,并为数据工程师和数据专员进行清理做好准备。 专有模糊逻辑机器学习算法可帮助业务用户和策展人标记数据,并指导系统识别、更正和防止数据质量问题。

CluedIn 包括企业级治理,以确保可以安全放心地使用数据。 CluedIn 可以将已清理的受治理数据直接流式传输到 Power BI、Azure Databricks、Azure Synapse Analytics 或 Azure 认知服务等分析系统,以便将其轻松提供给其他业务。 对自动缩放的本机支持利用 Azure 的强大功能为最大的数据工作负载提供可缩放的环境。

潜在用例

生成单个数据视图

  • 由于 CluedIn 的语义建模,与传统方法相比,它使生成主数据的单一视图更容易实现。 CluedIn 的客户使用 CluedIn 来构建其最关键业务数据的互联、历史和高质量视图。 CluedIn 不仅支持控制经典 Master 域(如人员、公司、供应商和产品),它还支持和无限的不同域以及文件、邮件、事件等非结构化域。 如果需要一个清洁、扩充、治理、质量控制和编录的主数据的集中式存储库,则 CluedIn 非常适合你的用例。

数据构造

  • CluedIn 是 2020 年的一家Gartner冷供应商,因为它能够协调来自 10 年代、100 年代和 1000 多个不同和复杂数据源的数据到统一的数据中心。 如果需要轻松处理来自许多不同的数据源的数据,则可以将 CluedIn 用作数据结构来实现此目的。 这可以为数据提供一个流式处理基础结构,该基础结构还可以在数据流向下游使用者时主动清理和掌握数据。

复杂的主数据合并和链接

  • CluedIn 独特的数据建模方法利用图形数据库,该数据库允许简单合并和链接复杂数据。 与传统方法不同,为了解决这一挑战,CluedIn 添加了更多的机器学习和图形分析,以高度精确地合并、匹配和链接记录。

注意事项

这些注意事项实现了 Azure Well-Architected 框架的支柱,该框架是一组可用于提高工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure Well-Architected Framework

可靠性

可靠性可确保应用程序能够履行对客户做出的承诺。 有关详细信息,请参阅 可靠性支柱概述

  • CluedIn 会自动执行每日数据库备份,并默认将其长期存储 30 天。 整个平台构建在冗余的容错堆栈上,可维护所有子系统的备份。 全天候监视系统确保服务尽可能不受污染。 CluedIn 遵循基础结构冗余的行业标准做法。

  • CluedIn 仅显示和存储数据的表示形式,而不存储原始版本。 如果 CluedIn 检测到破坏性数据入侵,它可以暂时擦除服务器中的 CluedIn 数据。 入侵消退后,CluedIn 会重新获取数据以恢复其原始状态。

  • 所有数据存储在高可用性模式下运行。

可伸缩性

  • CluedIn 在 Docker 容器 中运行,并使用 Kubernetes 托管和协调应用程序的不同部分。 此体系结构意味着 CluedIn 在弹性环境中运行良好,并且可以自动缩放到所需的大小和基础结构。

  • 对自动缩放的本机支持应用 Azure 的强大功能,为最大的数据工作负载提供可缩放的环境。

  • 无架构图形建模会自动从源数据推断数据模型。 新数据源会自动连接到所有其他数据源,而无需显式集成。 数据源的数量可以无限缩放,而不会增加集成复杂性。

安全性

安全性提供针对故意攻击和滥用宝贵数据和系统的保证。 有关详细信息,请参阅 安全支柱概述

  • CluedIn security 通过 Azure RBAC 授予权限和控制对不同服务的访问权限,Azure 密钥保管库安全密钥控制和 Azure Monitor 访问跟踪和日志记录。

  • 除了经过身份验证的用户帐户外,CluedIn 还支持单一登录 (SSO) 和标识框架。 对 CluedIn 应用程序的请求使用与用户标识没有关联的加密访问令牌。

  • CluedIn 管理多个防火墙和代理层后面的存储数据表示形式,并使用一组唯一密钥对其进行身份验证。

  • CluedIn 使用 256 位 AES 加密存储所有源数据,该加密级别强于或等于受支持数据源的加密级别。

  • 限制和 CSRF 防护保护数据访问。

DevOps

  • CluedIn 使用 Azure Pipelines 持续集成和持续交付 (CI/CD) 管道来处理 AKS 环境的部署和滚动更新。

  • CluedIn 支持单元、集成和功能测试,以确保数据按预期进行转换。 虚拟化处理管道可以在内存中运行,以便进行沙盒测试。 生产级断言可帮助调试和跟踪数据问题。

  • 对于测试和生产环境,CluedIn 提供了 Helm 包管理器 图表,用于在 Kubernetes 群集中快速安装 CluedIn。 完全脚本化的数据部署过程支持设置、测试和推出。

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅 成本优化支柱概述

CluedIn 的定价公开且透明。 你可以在他们的 网站上查看定价。

Azure 调整大小并启动试用版

可以在其 网站上开始为期 7 天的 CluedIn 试用版,这还有助于使用不同大小环境的预生成 Azure 估算来确定 Azure 托管成本的范围。

部署此方案

  • 若要使用 Docker 部署 CluedIn 以进行开发和评估,请参阅 CluedIn with Docker

  • 若要在 Kubernetes 群集中快速安装 CluedIn,请参阅 CluedIn with KubernetesHelm 图表安装 CluedIn 服务器、网站和其他必需的服务,例如存储和队列。

后续步骤