編輯

共用方式為


為受管制的數據設計安全的研究環境

Azure 資料科學 虛擬機器
Azure Machine Learning
Azure Data Factory

本文說明一個安全的研究環境,可讓研究人員存取處於高等級控制和保護下的敏感數據。 本文適用於必須遵守法規合規性或其他嚴格安全性需求的組織。

架構

顯示安全研究環境的圖表。

下載此架構的 Visio 檔案

資料流程

下列或資料串流會對應至上圖:

  1. 資料擁有者會將資料集上傳至公用 Blob 儲存體帳戶。 他們會使用Microsoft管理的金鑰來加密數據。

  2. Azure Data Factory 會使用觸發程式,在具有安全性控制的另一個記憶體帳戶上,開始將上傳的數據集複製到特定位置或匯入路徑。 您只能透過私人端點連線到記憶體帳戶。 具有有限許可權的服務主體也可以存取帳戶。 Data Factory 會刪除原始復本,讓數據集不可變。

  3. 研究人員會使用 Azure 虛擬桌面 作為特殊許可權跳躍方塊,透過串流應用程式存取安全環境。

  4. 安全記憶體帳戶中的數據集會呈現至您在安全網路環境中為研究工作佈建的數據科學虛擬機(VM)。 大部分的資料準備都是在這些 VM 上完成的。

  5. 安全的環境具有 Azure 機器學習Azure Synapse Analytics,可透過私人端點存取數據集。 您可以使用這些平臺來定型、部署、自動化及管理機器學習模型,或使用 Azure Synapse Analytics。 此時,您可以建立符合法規指導方針的模型。 拿掉個人資訊來取消識別所有模型數據。

  6. 模型或已取消識別的數據會儲存到安全記憶體上的個別位置,或匯出路徑。 當您將新數據新增至匯出路徑時,會觸發邏輯應用程式。 在此架構中,邏輯應用程式不在安全的環境中,因為不會將數據傳送至邏輯應用程式。 其唯一的函式是傳送通知並啟動手動核准程式。

    邏輯應用程式會要求檢閱已排入佇列以匯出的數據,以啟動核准程式。 手動檢閱者可協助確保不會導出敏感數據。 檢閱程序之後,資料受到核准或拒絕。

    注意

    如果外泄時不需要核准步驟,您可以省略邏輯應用程式步驟。

  7. 如果已核准取消識別的資料,則會傳送至 Data Factory 執行個體。

  8. Data Factory 會將數據移至個別容器中的公用記憶體帳戶,以允許外部研究人員存取其導出的數據和模型。 或者,您可以在較低的安全性環境中佈建另一個儲存體帳戶。

元件

此架構包含數個 Azure 服務,可根據您的需求調整資源。 下列各節說明這些服務及其角色。 如需產品文件的連結以開始使用這些服務,請參閱「後續步驟」。

核心工作負載元件

以下是移動和處理研究資料的核心元件。

  • Azure 資料科學 VM 是您使用資料分析和機器學習工具設定的 VM。 當您需要特定套件或工具,例如 MATLAB 或 SAS 時,請使用資料科學 VM,該平臺即服務 (PaaS) 環境無法支援。 如需安全性和使用便利性,請在支援 機器學習 和其他 PaaS 選項時選擇它們。

  • 機器學習 是一項服務,可用來定型、部署、自動化及管理機器學習模型。 您也可以使用它來管理機器學習計算資源的配置和使用。 機器學習 是 Jupyter 筆記本用於開發的工具。

  • 機器學習 計算是一組節點,可用來定型和測試機器學習和 AI 模型。 計算會根據自動調整選項,視需要配置。 您可以從虛擬桌面將 Visual Studio Code (VS Code) 部署為串流應用程式,並將其連線到替代開發環境的 機器學習 計算。

  • Azure Blob 儲存體 有兩個實例。 公用實例會暫時儲存數據擁有者上傳的數據。 公用實例也會在將數據模型化為個別容器中的數據之後儲存已識別的數據。 第二個是私用執行個體。 它會從定型腳本使用的 機器學習 接收定型和測試數據集。 記憶體會掛接為 機器學習 計算叢集的每個節點的虛擬磁碟驅動器。

  • Data Factory 會自動在不同安全性層級的記憶體帳戶之間移動數據,以協助確保職責分離。

  • Azure Synapse Analytics 是巨量數據和管線的分析工具,可用於數據整合和擷取、轉換、載入工作負載。 Azure Synapse Analytics 也是執行 Apache Spark 工作負載的慣用服務。

  • 虛擬桌面 是一項服務,您可以視需要使用串流應用程式和完整桌面,以作為跳躍方塊來存取安全環境中的資源。 或者,您可以使用 Azure Bastion,但您應該清楚瞭解這兩個選項之間的安全性控制差異。 虛擬桌面有一些優點,包括:

    • 能夠串流 VS Code 之類的應用程式,在機器學習計算資源上執行筆記本。
    • 限制複製、貼上和螢幕擷取的能力。
    • 支援Microsoft數據科學 VM 的 Entra 驗證。
  • Azure Logic Apps 提供自動化的低程式代碼工作流程,以開發 手動核准程式的觸發 程式和 發行 部分。

態勢管理元件

這些元件會持續監視工作負載及其環境的態勢。 其目的是在發現風險后立即探索並降低風險。

  • 適用於雲端的 Microsoft Defender 是一項服務,可用來評估實作的整體安全性狀態,並提供法規合規性證明機制。 您可以提早探索問題,而不是執行稽核或評量時。 使用功能來追蹤進度,例如安全分數和合規性分數。 這些分數是協助驗證合規性的重要工具。

  • Microsoft Sentinel 是安全性資訊和事件管理解決方案,也是安全性協調流程、自動化和響應解決方案。 您可以集中檢視來自各種來源的記錄和警示,並利用進階 AI 和安全性分析來偵測、搜捕、預防及回應威脅。 這項功能提供寶貴的安全性見解,協助確保與工作區相關聯的流量和任何活動都符合您的預期。

  • Azure 監視器可在整個環境中提供可檢視性。 檢視大多數 Azure 資源的計量、活動記錄和診斷記錄,而無需新增設定。 管理工具,例如 適用於雲端的 Defender 中的管理工具,也會將記錄數據推送至 Azure 監視器。

控管元件

  • Azure 原則 可協助您強制執行組織標準,並大規模評估合規性。

替代項目

  • 此解決方案會使用 Data Factory 將數據移至個別容器中的公用記憶體帳戶,讓外部研究人員能夠存取其匯出的數據和模型。 或者,您可以在較低的安全性環境中布建另一個記憶體帳戶。
  • 此解決方案使用虛擬桌面做為跳板,透過串流應用程式和完整桌面存取安全環境中的資源。 或者,您可以使用 Azure Bastion,但虛擬桌面有一些優點。 這些優點包括串流應用程式、限制複製/貼上和螢幕擷取的能力,以及支援Microsoft Entra 驗證。 您也可以考慮在本機設定點對站 VPN 以進行離線訓練。 此 VPN 也有助於降低針對工作站擁有多個 VM 的成本。
  • 為了保護待用數據的安全,此解決方案會使用強式密碼編譯,以Microsoft管理的密鑰來加密所有 Azure 儲存體 帳戶。 或者,您可以使用客戶管理的金鑰。 您必須將金鑰儲存在受控金鑰存放區中。

案例詳細資料

此案例結合了個人必須存取但不允許儲存或傳輸的受管制和私人數據。

  • 組織外部的數據科學家需要完整存取數據,以定型和匯出其模型,而不需要任何專屬或受保護的數據離開環境。
  • 您必須隔離存取權。 即使數據擁有者和監管人也無法在數據上傳至環境之後存取數據。
  • 您必須針對從環境移出的任何匯出要求稽核線索,以確保只匯出模型。

潛在使用案例

此架構最初是針對具有健康保險流通與責任法案 (HIPAA) 要求的高等教育研究機構所建立。 不過,您可以在任何需要隔離數據以供研究之用的產業中使用此設計。 這些範例包含:

  • 根據國家標準與技術研究所(NIST)要求處理受管制數據的產業。
  • 與內部或外部研究人員共同作業的醫療中心。
  • 銀行業和金融業。

依照本文中的指引,您可以完全控制研究數據、區分職責,並符合嚴格的法規合規性標準。 這種方法也可促進研究導向環境中關鍵角色之間的共同作業,例如數據擁有者、研究人員和核准者。

考量

這些考量能實作 Azure Well-Architected Framework 的支柱,其為一組指導原則,可以用來改善工作負載的品質。 如需更多資訊,請參閱 Microsoft Azure 結構完善的架構

可靠性

可靠性可確保您的應用程式符合您對客戶的承諾。 如需詳細資訊,請參閱可靠性的設計檢閱檢查清單

大部分的研究解決方案都是暫時性工作負載,不需要長期使用。 此架構設計為具有可用性區域的單一區域部署。 如果商務需求要求更高的可用性,請在多個區域中複寫此架構。 您需要其他元件,例如全域負載平衡器和散發者,才能將流量路由傳送至所有區域。 作為復原策略的一部分,請使用 Azure VM 映射產生器來擷取和建立自定義基底映像的複本。

安全性

安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱安全性的設計檢閱檢查清單

此架構的主要目標是提供安全且受信任的研究環境,嚴格限制從安全區域外流資料。

網路安全性

布建用來在安全環境中儲存、測試及定型研究數據集的 Azure 資源。 該環境是具有網路安全組規則來限制存取的 Azure 虛擬網路。 這些規則適用於:

  • 對公用網際網路和虛擬網路內的傳入和傳出存取。

  • 在特定服務和連接埠之間存取。 例如,此架構會封鎖所有埠範圍,但 Azure 服務所需的埠範圍,例如 Azure 監視器。 如需服務標籤和對應服務的完整清單,請參閱 虛擬網路服務標籤

    具有虛擬桌面的虛擬網路存取僅限於特定埠上已核准的存取方法,但所有其他流量都會遭到拒絕。 相較於此環境,具有虛擬桌面的其他虛擬網路相對開放。

安全環境中的主要 Blob 儲存體已關閉公用網際網路。 您只能透過私人端點連線和記憶體防火牆,在虛擬網路記憶體取它。 使用它來限制用戶端可以連線到 Azure 檔案儲存體 中的檔案共享的網路。

此架構會針對安全環境中的主要數據存放區使用認證型驗證。 在此情況下,連線資訊,例如訂用帳戶標識碼和令牌授權,會儲存在密鑰保存庫中。 另一個選項是建立身分識別型數據存取,您可以在其中使用 Azure 帳戶來確認您是否具有記憶體的存取權。 在身份識別型資料的存取案例中,系統不會保存任何身份驗證認證。 如需詳細資訊,請參閱建立資料存放區

計算叢集只能使用 Azure Private Link 生態系統和服務或私人端點在虛擬網路內通訊,而不是使用公用 IP 進行通訊。 請確定您啟用 [沒有公用IP]。 如需這項功能目前處於預覽狀態的詳細資訊,請參閱 計算實例/叢集或無公用IP的無伺服器計算。

安全環境會使用 機器學習 計算,透過私人端點存取數據集。 您也可以設定 Azure 防火牆 來控制位於機器學習工作區中 機器學習 計算的存取。 使用 Azure 防火牆 來控制來自 機器學習 計算的輸出存取。 如需詳細資訊,請參閱設定輸入和輸出網路流量

若要瞭解您可以保護 機器學習 環境的其中一種方式,請參閱部落格文章保護 機器學習 服務環境

對於無法使用私人端點或提供具狀態封包檢查的 Azure 服務,請考慮使用 Azure 防火牆 或非Microsoft網路虛擬設備。

身分識別管理

透過 Azure 角色型存取 Blob 記憶體。

虛擬桌面支援Microsoft數據科學 VM 的 Entra 驗證。

Data Factory 會使用受控身分識別來存取 Blob 儲存體的資料。 數據科學 VM 也會使用受控識別來進行補救工作。

資料安全性

若要保護待用數據,所有儲存體帳戶都會使用使用強式密碼編譯的Microsoft受控密鑰加密。

或者,您可以使用客戶管理的金鑰。 您必須將金鑰儲存在受控金鑰存放區中。 在此架構中,您會在安全的環境中部署 Azure 金鑰保存庫,以儲存加密金鑰和憑證等秘密。 透過私人端點 金鑰保存庫 安全虛擬網路存取中的資源。

治理考量

啟用 Azure 原則以強制執行標準並提供自動化補救,使資源符合特定原則的合規性。 您可以將原則套用至項目訂用帳戶或在管理群組層級,以作為單一原則或法規計劃的一部分。

例如,在此架構中,Azure 機器組態會套用至所有範圍內的 VM。 此原則可以稽核數據科學 VM 的作業系統和電腦設定。

VM 映像

數據科學 VM 會執行自訂基底映像。 若要建置基底映射,請使用 VM 映射產生器等技術。 藉由使用 VM 映射產生器,您可以建立可重複的映像,以在需要時進行部署。

基底映像可能需要更新,例如額外的二進位檔。 您應該將這些二進位檔上傳至公用 Blob 記憶體。 它們應該會流經安全環境,就像數據擁有者上傳數據集的方式一樣。

成本最佳化

成本最佳化是關於考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱成本最佳化的設計檢閱檢查清單

數據科學 VM 的成本取決於基礎 VM 系列的選擇。 由於工作負載是暫時的,因此我們建議邏輯應用程式資源的耗用量方案。 使用 Azure 定價計算機,根據您所需的資源估計大小來預估成本。 請確定您在未使用環境時關閉環境,以協助將成本優化並改善安全性。

效能效率

效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 有關詳細資訊,請參閱效能效率的設計審核清單

數據科學 VM 的大小和類型應該適用於其執行的工作樣式。 此架構旨在支援單一研究專案。 您可以藉由調整 VM 的大小和類型,並選擇可供 機器學習 使用的計算資源,以達到延展性。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主要作者:

下一步