Azure Synapse Analytics 安全性白皮書:簡介
摘要:Azure Synapse Analytics 是一個Microsoft無限的分析平臺,可將企業數據倉儲和巨量數據處理整合到單一受控環境中,而不需要系統整合。 Azure Synapse 提供分析生命週期的端對端工具:
- 用於數據整合的 管線。
- 用於巨量數據處理的 Apache Spark 集 區。
- 記錄和時間序列分析的數據總管。
- 無伺服器 SQL 集區可透過 Azure Data Lake 進行數據探索。
- 適用於企業數據倉儲的專用SQL集 區(先前稱為 SQL DW)。
- 與 Power BI、Azure Cosmos DB 和 Azure 機器學習 進行深度整合。
Azure Synapse 數據安全性和隱私權是不可談判的。 本白皮書的目的是提供 Azure Synapse 安全性功能的完整概觀,這是企業級和領先業界的功能。 白皮書包含一系列文章,涵蓋下列五層安全性:
- 資料保護
- 存取控制
- 驗證
- 網路安全性
- 威脅保護
本白皮書以所有企業安全性項目關係人為目標。 其中包括安全性系統管理員、網路管理、Azure 系統管理員、工作區管理員和資料庫管理員。
作家: 文蓋特什·帕拉蘇拉曼、弗雷茨·努森、羅恩·鄧恩、肯德爾·里德、約翰·霍恩、尼特什·克里什納帕、邁科拉·科瓦倫科、布拉德·沙赫特、佩德羅·馬丁內斯、馬克·普瑞斯-馬希爾和阿爾沙德·阿裡。
技術檢閱者: 南迪塔·瓦爾桑、羅尼·湯瑪斯、阿比舍克·納蘭、丹尼爾·克勞福德和塔米·裡奇特·鐘斯。
適用於: Azure Synapse Analytics、專用 SQL 集區(先前稱為 SQL DW)、無伺服器 SQL 集區和 Apache Spark 集區。
重要
本白皮書不適用於 Azure SQL 資料庫、Azure SQL 受控執行個體、Azure 機器學習 或 Azure Databricks。
簡介
針對想要進行雲端現代化的公司,詳盡的安全性考量清單中經常包含資料缺口、惡意程式碼感染及惡意程式碼插入等頭條。 企業客戶需要雲端提供者或服務解決方案來解決其問題,因為他們無法承受發生問題。
一些常見的安全性問題包括:
- 如何控制誰可以查看哪些資料?
- 驗證使用者身分識別的選項有哪些?
- 如何保護我的資料?
- 我可以使用何種網路安全性技術來保護網路和資料的完整性、機密性及存取?
- 有哪些工具可以偵測威脅並通知我?
本白皮書的目的是提供這些常見安全性問題的解答,以及其他許多問題。
元件和架構
Azure Synapse 是平臺即服務 (PaaS) 分析服務,可將多個獨立元件結合在一起,例如專用 SQL 集區、無伺服器 SQL 集區、Apache Spark 集區和數據整合管線。 這些元件的設計目的是要一起合作,以提供順暢的分析平台體驗。
專用 SQL 集 區是布建的叢集,可為 SQL 工作負載提供企業數據倉儲功能。 數據會內嵌至由 Azure 儲存體 提供電源的受控記憶體,這也是 PaaS 服務。 計算與記憶體隔離,可讓客戶獨立調整計算數據。 專用 SQL 集區也可讓您使用外部資料表,直接透過客戶管理的 Azure 儲存體 帳戶查詢數據檔。
無伺服器 SQL 集區是隨選叢集,可提供 SQL 介面,直接透過客戶管理的 Azure 儲存體 帳戶來查詢和分析數據。 因為它們是無伺服器,所以沒有受控記憶體,而且計算節點會自動調整以響應查詢工作負載。
Azure Synapse 中的 Apache Spark 是 Microsoft雲端中開放原始碼 Apache Spark 的其中一個實作。 Spark 實例會根據 Spark 集區中定義的元數據組態,隨選布建。 每個用戶都會取得自己的專用Spark實例來執行其作業。 Spark 實例所處理的數據檔是由客戶在自己的 Azure 儲存體 帳戶中管理。
管線是活動邏輯群組,可大規模執行數據移動和數據轉換。 數據流 是使用低程式碼使用者介面所開發的管線中的轉換活動。 它可以大規模執行數據轉換。 在幕後,數據流會使用 Azure Synapse 的 Apache Spark 叢集來執行自動產生的程式代碼。 管線和數據流是僅限計算的服務,而且沒有任何與其相關聯的受控記憶體。
管線會使用 Integration Runtime (IR) 作為可調整的計算基礎結構,以執行數據移動和分派活動。 數據移動活動會在 IR 上執行,而分派活動則會在各種其他計算引擎上執行,包括 Azure SQL 資料庫、Azure HDInsight、Azure Databricks、Azure Synapse 的 Apache Spark 叢集等。 Azure Synapse 支援兩種類型的 IR:Azure Integration Runtime 和自我裝載整合運行時間。 Azure IR 提供完全受控、可調整且隨選的計算基礎結構。 在內部部署機器或 Azure 雲端虛擬機中,客戶會在自己的網路中安裝及設定自我裝載 IR。
客戶可以選擇將其 Synapse 工作區與 受控工作區虛擬網路產生關聯。 與受控工作區虛擬網路相關聯時,管線、數據流和Apache Spark集區所使用的 Azure IR 和 Apache Spark 叢集會部署在受控工作區虛擬網路內。 此設定可確保管線和 Apache Spark 工作負載工作區之間的網路隔離。
下圖描述 Azure Synapse 的各種元件。
元件隔離
圖表中所描述之 Azure Synapse 的每個個別元件都會提供自己的安全性功能。 安全性功能提供數據保護、訪問控制、驗證、網路安全性和威脅防護,以保護計算和已處理的相關數據。 此外,Azure 儲存體 身為 PaaS 服務,提供自己的額外安全性,由客戶在其自己的記憶體帳戶中設定及管理。 此層級的元件隔離會限制,如果任一元件中有安全性弱點,就會將暴露程度降到最低。
安全層
Azure Synapse 會實作多層式安全性結構,以為您的資料進行端對端保護。 有五個圖層:
- 用來識別和分類敏感數據的數據保護 ,以及加密待用和移動中的數據。
- 訪問控制 ,以判斷使用者與數據互動的權利。
- 驗證 以證明使用者和應用程式的身分識別。
- 使用私人端點和虛擬專用網隔離網路流量的網路安全性 。
- 威脅防護 可識別潛在的安全性威脅,例如不尋常的存取位置、SQL 插入式攻擊、驗證攻擊等等。
下一步
在本白皮書系列中的 下一篇文章 中,了解數據保護。