你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的运行状况数据联盟

Azure 数据工厂
Azure Data Lake Storage
Azure Data Share
Azure Databricks
Azure SQL 数据库

此数据联盟解决方案使用 Azure 组件。 它满足以下目标:

  • 为多个组织提供共享数据的方法。
  • 集中数据业务流程工作。
  • 确保数据安全。
  • 保证患者隐私。
  • 支持数据互操作性。
  • 提供自定义选项以满足特定组织的要求。

体系结构

体系结构图显示联盟的成员如何共享数据。

下载此体系结构的 Visio 文件

数据流

  1. 原始数据源自本地和第三方源。 联盟成员将这些数据加载到 Azure Data Share 中的任一存储服务:

  2. 联盟要求成员共享数据。 作为数据生成者,成员可以共享快照或使用就地共享。

  3. 作为数据使用者,联盟接收共享的成员数据。 此数据进入联盟数据共享中的 Data Lake Storage 以进行进一步转换。

  4. Azure 数据工厂Azure Databricks 清理成员数据,并将其转换为通用格式。

  5. 联盟合并成员数据,并将其存储在服务中。 数据的结构和卷决定最适合的存储服务类型。 可能的情况包括:

    • Azure Synapse Analytics
    • Azure SQL Database
    • Azure Data Lake Storage
    • Azure 数据资源管理器
  6. 作为数据共享生成者,联盟邀请成员接收数据。 成员可以接受快照数据或就地共享数据。

  7. 作为数据使用者,成员接收共享数据。 数据进入成员数据存储以供研究和分析。

在整个系统中:

组件

此解决方案使用以下组件:

医疗保健平台

  • 电子健康记录 (EHR) 是有关患者实时信息的数字版本。

  • 快速医疗保健互操作性资源 (FHIR) 是 Health Level Seven International (HL7) 发布的一种医疗保健数据交换标准。

  • 医疗物联网 (IoMT) 是通过联机计算机网络连接到 IT 系统的医疗设备和应用的集合。

  • 基因组数据提供有关基因如何与彼此和环境相互作用的信息。

  • 成像数据包括放射学、影像学成像、放射疗法和其他设备生成的图像。

  • 客户关系管理 (CRM)、计费和第三方系统提供患者相关数据。

Azure 组件

  • Azure Data Share 为多个组织提供一种安全共享数据的方法。 借助此服务,数据提供程序可以使数据保持在可控范围内。 管理和监视谁在何时共享了哪些数据将变得非常简单。 Data Share 还通过合并来自不同成员的数据轻松丰富分析和 AI 方案。

  • Azure Synapse Analytics 是用于数据仓库和大数据系统的分析服务。 通过此产品,可以使用无服务器、按需资源或预配资源查询数据。 Azure Synapse Analytics 非常适合用于处理海量结构化数据。

  • Azure SQL 数据库是一个完全托管的平台即服务 (PaaS) 数据库引擎。 借助 AI 支持的自动化功能,SQL 数据库处理数据库管理功能,例如升级、修补、备份和监视。 此服务非常适合结构化数据。

  • Data Lake Storage 是一种可大规模缩放且安全的数据保护,适用于高性能分析工作负载。 此服务可以管理数 PB 的信息,同时保持数百千兆的吞吐量。 Data Lake Storage 提供了一种在一个位置存储来自多个成员的结构化和非结构化数据的方法。

  • Azure 数据资源管理器是一个快速、完全托管的数据分析服务。 你可使用此服务对大量数据进行实时分析。 Azure 数据资源管理器可处理来自应用程序、网站、IoT 设备和其他来源的各种数据流。 Azure 数据资源管理器非常适合就地共享流式处理遥测数据和日志数据。

  • Azure 数据工厂是混合数据集成服务。 可以将此完全托管的无服务器解决方案用于数据集成和转换工作流。 数据工厂提供无代码 UI 和易于使用的监视面板。 在此解决方案中,数据工厂通过管道从不同的成员数据共享引入数据。

  • Azure Databricks 是一个数据分析平台。 基于最新的 Apache Spark 分布式处理系统,Azure Databricks 支持与开源库的无缝集成。 此解决方案使用 Azure Databricks 笔记本将所有成员数据转换为通用格式。

  • Microsoft Entra ID 是基于云的标识和访问管理服务。

  • Azure Key Vault 安全存储并控制对机密(例如 API 密钥、密码、证书和加密密钥)的访问。 此云服务还管理安全证书。

  • Azure Pipelines 自动生成和测试代码项目。 此 Azure DevOps 服务结合了持续集成和持续交付 (CI/CD)。 使用这些做法,Azure Pipelines 持续一致地测试和生成代码,并附带到任何目标。

  • Defender for Cloud 跨混合云工作负载提供统一的安全管理和高级威胁防护。

备选方法

借助 Data Share,数据存储可以有许多备选方法。 服务的选择取决于共享方法、数据量和数据类型:

  • 对于批处理数据的快照共享,请使用以下任一服务:

    • Azure Synapse Analytics
    • SQL 数据库
    • Data Lake Storage
    • Azure Blob 存储
  • 对于就地共享流式处理遥测数据和日志数据,请使用 Azure 数据资源管理器。 有关分析来自各种源的数据的详细信息,请参阅 [Azure 数据资源管理器交互式分析][Azure 数据资源管理器交互式分析]。

  • 某些数据集是大型或非关系数据集。 有些不包含标准化格式的数据。 对于这类数据集,Blob 存储或 Azure Data Lake Storage 在使用 Data Share 交换数据方面比 Azure Synapse Analytics 和 SQL 数据库的效果更好。 有关高效存储医疗数据的更多信息,请参阅医疗数据存储解决方案

如果不能选择 Data Share,请考虑使用虚拟专用网 (VPN)。 可以使用站点到站点 VPN 在成员和联盟数据存储之间传输数据。

方案详细信息

传统的临床实验可能很复杂、耗时且成本高。 为了解决这些问题,越来越多的医疗保健组织开始合作构建数据联盟,用于进行临床试验。

数据联盟通过以下多种方式使医疗保健受益:

  • 使研究数据可供使用。
  • 提供新收入流。
  • 提供对数据的快速访问,有助于做出经济高效的监管决策。
  • 通过加速创新使患者更加安全且舒适。

可能的用例

以下各类医疗保健专业人员都可以从此解决方案中获益:

  • 使用实际观察数据(如患者结果)来确定治疗方案的组织。
  • 专门从事个性化或精准医疗的医师。
  • 需要轻松访问患者数据的远程医疗提供商。
  • 使用基因组数据的研究人员。

注意事项

这些注意事项实施 Azure 架构良好的框架的支柱原则,即一套可用于改善工作负荷质量的指导原则。 有关详细信息,请参阅 Microsoft Azure 架构良好的框架

此解决方案中的技术满足大多数公司对安全性、可伸缩性和可用性的要求。

安全性

安全性针对蓄意攻击及滥用宝贵数据和系统提供保障措施。 有关详细信息,请参阅安全性支柱概述

由于医疗信息的敏感性,多个组件在保护数据方面共同发挥作用:

  • Data Share 中的安全功能通过以下方式保护数据:

    • 加密静态数据,其中基础数据存储支持静态加密。
    • 通过使用传输层安全性 (TLS) 1.2 加密传输中数据。
    • 加密静态和传输中数据共享的相关元数据。
    • 不存储共享客户数据的内容。
  • Azure Synapse Analytics 提供了一个全面的安全模型。 可以使用其精细控件保护从单个单元格到整个数据库的所有级别的数据。

  • SQL 数据库使用分层方法保护客户数据。 该策略涵盖以下领域:

    • 网络安全
    • 访问管理
    • 威胁防护
    • 信息保护
  • Data Lake Storage 提供访问控制。 模型支持以下类型的控件:

    • Azure 基于角色的访问控制 (RBAC)
    • 可移植操作系统接口 (POSIX) 访问控制列表 (ACL)
  • Azure 数据资源管理器通过以下方式保护数据

    • 使用适用于 Azure 资源的 Microsoft Entra ID 托管标识。
    • 使用 RBAC 分离职责并限制访问。
    • 阻止源自 Azure 数据资源管理器外部网络段的流量。
    • 通过使用 Azure 磁盘加密保护数据并帮助履行承诺。 此服务为虚拟机数据磁盘和 OS 提供卷加密。 Azure 磁盘加密与密钥保管库集成,这使用 Microsoft 托管密钥或客户管理的密钥对机密进行加密。

可用性

此解决方案使用单区域部署。 某些方案需要多区域部署,以实现高可用性、灾难恢复或邻近性。 对于这些情况,以下服务为实现高可用性提供配对的 Azure 区域:

成本优化

成本优化是关于寻找减少不必要的费用和提高运营效率的方法。 有关详细信息,请参阅成本优化支柱概述

此解决方案的定价取决于以下几点因素:

  • 选择的服务
  • 系统的容量和吞吐量
  • 对数据使用的转换
  • 业务连续性级别
  • 灾难恢复级别

有关详细信息,请参阅定价详细信息

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

若要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤

通过阐明以下几点来确定如何自定义解决方案:

  • 可用的数据源
  • 每个数据源的位置
  • 哪些 Azure 服务成员可用于接收源数据
  • 成员可以与联盟共享哪些数据
  • 成员如何共享数据:作为快照批量共享或作为数据源就地共享
  • 联盟可以使用哪些 Azure 服务来接收共享数据
  • 成员数据的格式,以及是否需要清理或转换
  • 联盟可以与成员共享哪些数据

产品文档: