你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
通过数字发明使数据民主化
煤炭、石油和人类潜力是工业革命期间最重要的三项资产。 这些资产建立了公司,改变了市场,并最终改变了国家。 在数字经济中,有三种同样重要的创新资产:数据、设备和人的潜力。 这些资产具有巨大的创新潜力。 对于现代时代的任何创新尝试,数据相当于是新的石油。
在每家公司中,都有可用于查找和满足客户需求的数据。 不幸的是,挖掘数据以推动创新的过程可能既昂贵又耗时,因此无法发现需求,也无法创建解决方案。 而数据民主化可以解决这个问题。
什么是数据民主化? 数据民主化是指将数据交到正确的人手中以推动创新的过程。 这种民主化过程可以采取多种形式,但它们通常包括用于引入或集成原始数据、数据集中化、共享数据和保护数据的解决方案。 数据民主化后,公司的相关专家可以使用民主化后的数据来形成和检验假设。 在许多情况下,云采用团队仅使用数据便可以在客户同理心的基础上进行构建,从而快速满足客户需求。
使数据民主化的方法
有多种方法可以使数据民主化,但大多数方法包括收集、集中、管理和共享数据的方法。 以下部分描述了其中一些方法。 构建对客户假设的解决方案时,你应该评估是否将数据民主化、在何种程度上以及如何实现。
共享数据
在客户同理心的基础上进行构建时,客户需求指导解决方案。 如果需要数据,该解决方案使客户能够直接查询、分析和报告数据,而无需 IT 人员的支持。
许多成功的创新的起点都是从向客户提供数据的最小可行产品 (MVP)。 MVP 是产品的一个版本,它具有足够的功能供客户使用。 它显示了产品的可能潜力,以便从客户那里收集反馈。 在此接待模型中,一个雇员就是数据使用者。 该员工使用数据来帮助客户。 每次客户参与手动支持时,都可以测试和验证假设。 要在你大量投资集成解决方案之前测试以客户为中心的假设,这种方法经济有效。
直接与数据消费者共享数据的主要工具包括自助报告或嵌入在其他体验中的数据,使用 Power BI 等工具。
注意
在共享数据之前,请确保你已阅读以下部分。 共享数据可能需要治理来为数据提供保护。 此外,如果数据跨越多个云,则可能需要集中化。 如果数据驻留在应用程序中,你必须先收集数据才能共享。
治理数据
共享数据可以快速生成最小可行产品以用于客户对话。 但是,要将共享数据转化为有用且可操作的知识,通常还需要更多数据。
在通过数据共享验证假设之后,下一阶段的开发通常是数据治理。
数据治理是一个广泛的主题,可能需要其自己的专用框架,这方面的知识超出了云采用框架的范围。
验证客户假设后,需要立即考虑数据治理的几个方面。 例如:
- 共享数据是否敏感?在公开共享数据以保护客户和公司的利益之前,应对数据进行分类。
- 如果数据是敏感的,是否受到保护? 保护敏感数据是民主化数据的必要条件。 保护数据解决方案中讨论的示例工作负载为保护数据提供了一些参考。
- 数据是否已分类? 识别共享数据的性质有助于长期数据管理。 用于记录数据的工具(例如 Azure 数据目录)使此过程在云中变得更加容易。 关于数据注释和数据源文档的指导可以加速这一过程。
当数据民主化对于以客户为中心的假设很重要时,请确保共享数据的治理包含在发布计划中。 这可以保护客户、数据消费者和公司。
集中数据
数据集中化带来更有意义的报告,确保在整个组织中都可以使用相同的数据,并提高你的投资回报率。 当数据分散在 IT 环境中时,创新机会可能会受到极大限制、昂贵且耗时。 云提供了集中数据的新机遇。 当需要集中多个数据源以在客户同理心的基础上进行构建,云可以加速假设的测试。
注意
数据集中化在任何创新过程中都是一个风险点。 当数据集中化是技术尖峰,而不是客户价值的来源时,我们建议你延迟集中化,直到客户假设得到验证。
进行集中化时,需要一个适当的数据存储来存储集中的数据。 在云中建立数据仓库是一种不错的做法。 这个可扩展的选项为你的所有数据提供了一个中心位置。 这种类型的解决方案可用于在线分析处理 (OLAP) 或大数据选项。
OLAP 和大数据解决方案的参考体系结构可以帮助你在 Azure 中选择最合适的集中化解决方案。 如果需要混合解决方案,扩展本地数据的参考体系结构也可以帮助加速解决方案的开发。
重要
对于某些客户需求和解决方案,一个简单的方法可能就足够了。 云架构师应该挑战团队考虑低成本解决方案来验证客户假设,尤其是在早期开发期间。 本节关于收集数据的讨论可能会针对你的情况提出不同的解决方案。
收集数据
数据收集的两种主要形式是集成和引入。
集成:可以使用传统的数据移动技术将驻留在现有数据存储中的数据集成到集中式数据存储中。 这对于涉及多云数据存储的场景尤其常见。 这些技术涉及从现有数据存储中提取数据,然后将其加载到中央数据存储中。 在这个过程的某个时刻,数据通常会被转换,以便在中央存储中更易于使用且更相关。
基于云的工具已将这些技术转变为按使用付费的工具,从而降低了数据收集和集中化的准入门槛。 Azure 数据库迁移服务和 Azure 数据工厂等工具就是两个示例。 采用 OLAP 数据存储的数据工厂的参考体系结构就是这样一种解决方案的示例。
引入:某些数据不驻留在现有数据存储中。 如果这种瞬态数据是创新的主要来源,你将需要考虑替代方法。 瞬态数据可以在各种现有来源中找到,例如应用程序、API、数据流、物联网设备、区块链、应用程序缓存、媒体内容,甚至是平面文件。
你可以将这些不同形式的数据集成到 OLAP 或大数据解决方案上的中央数据存储中。 但是,对于生成度量-学习周期的早期迭代,联机事务处理 (OLTP) 解决方案可能足以验证客户假设。 OLTP 解决方案不一定是所有报告方案的最佳选择。 但是,当你以客户同理心进行构建时,关注客户需求比关注技术工具决策更重要。 在大规模验证客户假设后,可能需要更合适的平台。 关于 OLTP 数据存储的参考体系结构可以帮助你确定哪种数据存储最适合你的解决方案。
虚拟化:数据的集成和引入有时会减缓创新。 当数据虚拟化解决方案已经可用时,它可能代表一种更合理的方法。 引入和集成可以复制存储和开发需求、增加数据延迟、增加攻击面、触发质量问题并增加治理工作。 数据虚拟化是一种更现代的替代方案,它将原始数据留在单个位置并创建源数据的直通或缓存查询。
SQL Server 2017 和 Azure SQL 数据仓库都支持 PolyBase,这是 Azure 中最常用的数据虚拟化方法。
后续步骤
制定了使数据民主化的策略后,你接下来需要评估应用程序开发的方法。