用于学习过程的 Azure 技术
在本单元中,你将了解如何在创新生命周期中运用衡量步骤的结果。 你还将了解数据普及的重要性。
数据普及
正如你在之前的单元中了解的那样,可以通过多个来源收集客户数据。 这些来源包括微型调查、来自 Azure Application Insights 的利用率数据,以及客户可自行决定要启用还是禁用的功能标志。 拥有的数据越多,决策就越好,但你需要一种方法来处理日益增多的数据流。
2014 年,Satya Nadella 探讨了组织中数据文化的重要性。 他表示,决策不应该基于感觉或主观意见,而应该使用数据来验证它们。 他还表示,数据应该提供给每个需要它的人使用,并且应轻松转换为有实际价值的见解,以便促进数据驱动型决策。
只有基于可靠的、可访问的数据平台,组织才能做出普及性的数据决策。 这一努力涉及四个领域:
- 收集数据:数据驱动型决策的第一步是始终拥有数据。 数据收集可采用多种形式:从现有数据存储库迁移、从 Azure Application Insights 等源生成数据或从其他源引入数据。
- 共享数据:收集的数据必须提供给每个需要它的人使用,而不仅仅是数据专家。 组织中的所有人都应该能够使用数据来做出决策。
- 集中数据:集中式数据平台有助于简化数据共享和治理。
- 治理数据:数据共享并不意味着需要将所有数据都提供给每个人。 确保在共享任何敏感数据之前对其进行保护、跟踪和治理。
Azure 数据平台
Azure 平台涵盖整个数据生命周期,它是数据驱动型决策制定和数据普及的基础。 从轻型的按需数据库到大型数据仓库或灵活的 NoSQL 系统,Azure 数据平台可以涵盖四个数据活动领域。
数据收集
Azure 数据生态系统包含用于迁移、引入、存储和分析数据的服务和工具。 以下列表仅显示了几种可用于处理数据并在以后共享数据的机制,以便推动数据驱动型决策制定:
- 数据分析:Azure Synapse Analytics 是一项企业分析服务,可以缩短在数据仓库和大数据系统中进行见解提取所需的时间。 Azure Synapse Analytics 汇集了:
- 用于企业数据仓库的 SQL 技术。
- 用于大数据的 Spark 技术。
- 用于数据集成以及 ETL(提取、转换和加载)和 ELT(提取、加载和转换)的管道。
- 与其他 Microsoft 服务(例如 Power BI、Azure Cosmos DB 和 Azure 机器学习)深度集成。
- 数据迁移:数据可能已存储在现有源中,但需要先迁移到新式平台,才能转换为有实际价值的见解。 Azure 数据库迁移服务包含的工具有助于从 SQL Server、PostgreSQL、Oracle 和 MongoDB 等系统迁移数据。
- 数据处理:Azure 包含使用 Azure 流分析来分析和转换数据流的服务,以及使用 Azure 数据工厂来大规模运行 ETL 过程的服务。
数据共享
Microsoft Power BI 是一组工具,用于将来自不同源的数据整合到集成的交互式可视化效果中。 用户只需操作直观的控件就可以深入理解数据。 组织中的每个人(而不仅仅是数据专业人员)都可以使用见解的强大功能。
领域责任人可以创建报表和仪表板,其中包含有关应用程序特定方面的信息。 在引入新功能来验证假设后,可以随时根据真实的客户使用情况来验证或拒绝假设。
Microsoft Power BI 可以帮助从多个方面进行数据共享。 下面是一些示例:
- 与同事及合作伙伴共享数据:Power BI 仪表板可简化使用数据的过程。 可视化效果使数据专家以外的人员也能向下钻取数据,而不必熟悉其基础结构。
- 快速生成数据见解:Power BI 可以利用快速见解功能自动生成数据集的可视化效果。 你可以快速创建仪表板,并找出初次查看时可能不明显的数据关联。
- 在网站或门户中嵌入报表:使用 Power BI,不仅可以在本地 Power BI 门户中访问可视化效果,还可以将报表和仪表板嵌入到其他 Web 应用程序中。 这样,用户无需离开他们熟悉的公司网站,就能找到决策制定过程所需的数据。
数据集中
数据集中的主要问题是以不同的级别进行扩展。 在过度简化的风险下,可以简化为大数据的 3 个“V”:
- Volume(量):Azure Data Lake Storage Gen2 是一个经济高效且可缩放的 Azure 数据存储平台。 基于 Azure 存储提供的巨大可扩展性,Azure Data Lake Storage 设计为可提供数 PB 的信息,同时维持数百 GB 的吞吐量。
- Variety(种类):此术语通常是指数据并非始终是结构化的。 你可能还会遇到半结构化甚至非结构化的数据。 Azure Synapse 在这一领域大放异彩,因为它将用于企业数据仓库的 SQL 技术与通常用于大数据的 Spark 结合在一起。
- Velocity(速度):在旧的数据体系结构中经常会出现一个问题,即存储容量、分析速度和引入速率之间存在相关性。 在 Azure 数据解决方案中,组织可以通过分离平台的不同维度,彼此独立地扩展它们。 可以通过使用所需的 Azure 数据服务的数据管道来引入、处理和共享数据,正如企业商业智能体系结构所示。
数据治理
在当今世界,数据既是一种重要资产,也是一项重大责任。 存储的数据通常包含机密信息,如果这些机密信息泄露或以不当的方式进行共享,可能会造成财产或个人损失。 隐式存储和处理数据意味着组织接受这一责任。 法律法规可能会对以不当方式处理个人数据或机密数据的组织进行处罚。
因此,数据治理对于具有数据普及目标的任何组织来说都至关重要。 数据治理的第一步是对需要以特定方式处理的数据进行分类。 例如,Microsoft 内部使用以下数据类别进行数据分类:
- 非业务:来自个人生活、不属于 Microsoft 的数据。
- 公共:免费提供并经批准可公开使用的业务数据。
- 常规:不面向公众提供的业务数据。
- 机密:如果过度共享,可能对 Microsoft 造成损害的业务数据。
- 高度机密:如果过度共享,可能对 Microsoft 造成严重损害的业务数据。
数据分类完成后,下一步是确保每个数据类别都受到保护,不会发生未经授权的访问。 Azure 支持以下用于加强机密性的技术:
- 静态数据加密:存储在 Microsoft 数据中心内的所有 Azure 数据都经过加密处理。 某些 Azure 服务提供特定的加密功能,例如 Azure Synapse 和 Azure SQL 数据库中的透明数据加密。
- 传输中数据的加密:所有 Azure 数据服务在通过网络发送数据之前都会使用 TLS/SSL 对数据进行加密。 某些服务(例如 Azure 存储)可以选择允许未加密的流量。 组织应禁用任何类型的敏感数据的任何未加密通信。
- 数据访问控制:Azure 为访问 Azure 平台和访问数据本身提供了复杂的身份验证和授权机制。 Azure 基于角色的访问控制、条件访问和 Privileged Identity Management 是基本服务的三个示例,可帮助确保只有经过授权的人员才有权访问敏感信息。
- 数据审核:许多法规遵从性标准要求提供数据保护机制的证据,采用的方式是记录谁执行了哪些操作以及访问了哪些数据。 如 Azure SQL 数据库和 Azure Synapse Analytics 审核中所述,Azure 中的数据审核考虑了审核的三个方面:
- 保留 所选事件的审核线索,你可以在其中定义要审核的数据操作的类别。
- 报告数据库活动,还可以选择预配置的报告和仪表板来快速开始使用。
- 分析报告,发现可疑事件、异常活动和趋势
成长型思维模式
学习阶段有时会带来一些不好的消息。 你认为正确的假设有时候可能并不正确。 对备选想法持开放态度是创新过程顺利进行的关键所在。 也许假设完全错误,或者问题只出在原型的开发方式上。
在任何情况下,结论都应始终由数据提供支持。 团队应该继续提出下一个假设,该假设可能是对初始假设的某种修改或迭代。
现有数据可能不允许明确地对假设的正确与否下结论。 在这种情况下,应增强有助于决策过程的数据集。 要么在应用程序中引入新的遥测点,要么找出新的方式来获取有关客户体验的信息。
在此阶段,成长型思维模式至关重要。 应将经证实为错误或部分错误的假设视为学习机会。 组织不应将时间浪费在无法产生预期业务成果的创新上。
后续应该查阅的内容
云采用框架文档数据普及对本单元中的许多概念进行了进一步讨论。