你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 机器学习作为用于云规模分析的数据产品
Azure 机器学习是一个集成平台,用于从头到尾管理机器学习生命周期,包括帮助创建、操作和使用机器学习模型和工作流。 该服务的一些优势包括:
功能支持创建者通过帮助创建者管理试验、访问数据、跟踪作业、优化超参数和自动化工作流来提高工作效率。
模型具备被解释、复现、审核以及与 DevOps 集成的能力,以及丰富的安全控制模型,可以支持运营人员满足治理和合规性要求。
托管推理功能和与 Azure 计算和数据服务的可靠集成有助于简化服务的使用方式。
Azure 机器学习涵盖数据科学生命周期的各个方面。 它涵盖数据存储和数据集注册到模型部署。 它可用于任何类型的机器学习,从传统机器学习到深度学习。 它包括监督和非监督式学习。 无论是喜欢编写 Python、R 代码还是使用零代码或低代码选项(如设计器),都可以在 Azure 机器学习工作区中生成、训练和跟踪准确的机器学习和深度学习模型。
Azure 机器学习、Azure 平台和 Azure AI 服务可以协同工作来管理机器学习生命周期。 机器学习从业者可以使用 Azure Synapse Analytics、Azure SQL 数据库或 Microsoft Power BI 来开始分析数据和转换到 Azure 机器学习,以便进行原型制作、管理试验和操作化。 在 Azure 登陆区域中,Azure 机器学习可以被视为 数据产品。
云规模分析中的 Azure 机器学习
云采用框架(CAF)登陆区域基础、云规模分析数据登陆区域以及 Azure 机器学习的配置为机器学习专业人员设置了预配置环境,他们可以重复部署新的机器学习工作负载或迁移现有工作负载。 这些功能可以帮助机器学习专业人员提高工作敏捷性,并为他们的时间增值。
以下设计原则可指导 Azure 机器学习 Azure 登陆区域的实现:
加速数据访问: 将着陆区存储组件预配置为 Azure 机器学习工作区中的数据存储。
启用协作: 按项目组织工作区,并集中管理登陆区域资源的访问管理,以支持数据工程、数据科学和机器学习专业人员协同工作。
安全实现: 作为每个部署的默认值,请遵循最佳做法并使用网络隔离、标识和访问管理来保护数据资产。
自助服务: 机器学习专业人员可以通过探索部署新项目资源的选项来获得更多灵活性和组织。
数据管理和数据使用之间的关注点分离:标识传递是 Azure 机器学习和存储的默认身份验证类型。
更快的数据应用程序(源一致):Azure 数据工厂、Azure Synapse Analytics 和 Databricks 登陆区域可以预配置为链接到 Azure 机器学习。
可观测性: 中央日志记录和参考配置可帮助监视环境。
实现概述
注意
本部分建议针对云规模分析的特定配置。 它补充了 Azure 机器学习文档和云采用框架最佳做法。
工作区组织和设置
可以根据工作负载的需求以及每个部署的着陆区域,部署相应数量的机器学习工作区。 以下建议可帮助进行设置:
每个项目至少部署一个机器学习工作区。
根据机器学习项目的生命周期,在早期阶段部署一个开发(dev)工作区,以便构建用例原型并探索数据。 对于需要持续试验、测试和部署的工作,请部署过渡和生产工作区。
当数据登陆区域中的开发、暂存和生产工作区需要多个环境时,建议避免重复数据,方法是让每个环境位于同一生产数据登陆区域。
请参阅 组织和设置 Azure 机器学习环境,详细了解如何组织和设置 Azure 机器学习资源。
对于数据登陆区域中的每个默认资源配置,Azure 机器学习服务部署在具有以下配置和依赖资源的专用资源组中:
- Azure Key Vault
- Application Insights
- Azure 容器注册表
- 使用 Azure 机器学习连接到 Azure 存储帐户,并通过 Microsoft Entra 的基于身份的身份验证帮助用户连接到该帐户。
- 为每个工作区设置诊断日志记录,并将其配置为企业级的中央 Log Analytics 资源;这有助于在落地区域中以及跨落地区域集中分析 Azure 机器学习作业的运行状况和资源状态。
- 请参阅 什么是 Azure 机器学习工作区? 详细了解 Azure 机器学习资源和依赖项。
与数据登陆区域核心服务集成
数据登陆区域附带一组默认的服务,这些服务部署在 平台服务层。 在数据登陆区域中部署 Azure 机器学习时,可以配置这些核心服务。
将 Azure Synapse Analytics 或 Databricks 工作区作为链接服务进行连接,以集成数据和处理大数据。
默认情况下,数据湖服务在数据登陆区域中预配,Azure 机器学习产品部署附带预配置到这些存储帐户的连接(数据存储)。
网络连接
在 Azure 登陆区域中实现 Azure 机器学习的网络已经按照适用于 Azure 机器学习 和 CAF
- Azure 机器学习和依赖资源配置为使用专用链接终结点。
- 托管计算资源仅使用专用 IP 地址进行部署。
- 可以在网络级别配置与 Azure 机器学习公共基础映像存储库和合作伙伴服务(如 Azure Artifacts)的网络连接。
标识和访问管理
请考虑以下建议,了解如何使用 Azure 机器学习管理用户标识和访问权限:
可将 Azure 机器学习中的数据存储配置为使用基于凭据或基于标识的身份验证。 在 Azure Data Lake Storage Gen2中使用
访问控制和 Data Lake 配置时,请将数据存储配置为使用基于标识的身份验证;这允许 Azure 机器学习优化存储的用户访问权限。 使用 Microsoft Entra 组来管理存储和机器学习资源的用户权限。
Azure 机器学习可以使用 用户分配的托管标识进行访问控制,并限制对 Azure 容器注册表、Key Vault、Azure 存储和 Application Insights 的访问范围。
将用户分配的托管标识创建到在 Azure 机器学习中创建的托管计算群集中。
通过自助服务预配基础结构
可以使用 Azure 机器学习的
政策 | 类型 | 参考 |
---|---|---|
Azure 机器学习工作区应使用 Azure 专用链接。 | 内置 | 在 Azure 门户中查看 |
Azure 机器学习工作区应使用用户分配的托管标识。 | 内置 | 在 Azure 门户中查看 |
[预览版]:为指定的 Azure 机器学习计算配置允许的注册表。 | 内置 | 在 Azure 门户中查看 |
使用专用终结点配置 Azure 机器学习工作区。 | 内置 | 在 Azure 门户中查看 |
配置机器学习计算以禁用本地身份验证方法。 | 内置 | 在 Azure 门户中查看 |
Append-machinelearningcompute-setupscriptscreationscript | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearning-hbiworkspace | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearning-publicaccesswhenbehindvnet | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearning-AKS | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearningcompute-subnetid | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearningcompute-vmsize | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearningcomputecluster-remoteloginportpublicaccess | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
Deny-machinelearningcomputecluster-scale | 自定义(CAF 登陆区域) | 在 GitHub 上查看 |
管理环境的建议
云规模分析数据登陆区域概述了可重复部署的参考实现,这有助于设置可管理和管理的环境。 请考虑以下有关使用 Azure 机器学习管理环境的建议:
使用Microsoft Entra 组管理对机器学习资源的访问。
发布中央监视仪表板,用于监视机器学习的管道运行状况、计算利用率和配额管理。
如果传统上使用内置 Azure 策略,并且需要满足其他合规性要求,请生成自定义 Azure 策略来增强治理和自助服务。
若要跟踪研发成本,请在探索用例的早期阶段将登陆区域中的一个机器学习工作区部署为共享资源。
重要
使用 Azure 机器学习群集进行生产级模型训练,使用 Azure Kubernetes 服务(AKS)进行生产级部署。
提示
将 Azure 机器学习用于数据科学项目。 它介绍包含子服务和功能的端到端工作流,并允许完全自动化该过程。
后续步骤
使用 数据产品分析 模板和指南来部署 Azure 机器学习,并参考 Azure 机器学习文档和教程, 开始构建解决方案。
继续阅读以下四篇云采用框架文章,详细了解适用于企业的 Azure 机器学习部署和管理最佳做法:
组织和设置 Azure 机器学习环境:规划 Azure 机器学习部署时,团队结构、环境或资源的地理位置如何影响如何设置工作区?
适用于企业安全性的 Azure 机器学习最佳做法:了解如何使用 Azure 机器学习保护环境和资源。
管理组织规模 Azure 机器学习的预算、成本和配额:管理 Azure 机器学习产生的工作负荷、团队和用户计算成本时,组织面临许多管理和优化挑战。
机器学习 DevOps 指南:机器学习 DevOps 是一种组织变革,它依赖于人员、流程和技术的组合,以可靠、可缩放、可靠且自动化的方式提供机器学习解决方案。 本指南总结了企业使用 Azure 机器学习采用机器学习 DevOps 的最佳做法和信息。