在 Azure 中調整雲端規模分析
可調整的資料平臺對於容納資料的快速增長至關重要。 世界各地的每秒都會產生大量資料。 預計未來幾年,可用資料量將繼續以指數方式增長。 隨著資料產生速率的提高,資料移動的速度也會增加。
無論您擁有多少資料,您的使用者都要求快速查詢回應。 他們預期會等候幾分鐘,而不是數小時來取得結果。 本文說明如何調整 Azure 雲端規模分析解決方案,並繼續符合使用者對速度的需求。
簡介
許多企業都有大型資料平臺整合。 這些整合體是以單一 Azure Data Lake Gen2 帳戶為基礎所建置,有時則是單一儲存體容器。 單一 Azure 訂用帳戶通常用於所有資料平臺相關工作。 大多數架構平臺中不存在訂用帳戶層級調整,如果使用者遇到任何 Azure 訂用帳戶或服務層級限制 ,可能會阻礙 Azure 採用。 雖然某些條件約束是軟性限制,但達到這些限制仍然會對您的資料平臺產生重大負面影響。
當您建構資料平臺時,請考慮組織的結構。 記下小組的資料擁有權和功能責任。 如果您的組織提供小組大量的自主性和分散式擁有權,則資料網格架構是最佳選項。
避免有不同小組負責解決方案各種工作的情況,例如擷取、清理、匯總和服務等工作。 視多個小組而定,可能會導致速度急劇下降。 例如,如果您的服務層上的資料取用者需要將新資料資產上線,或針對特定資料資產實作功能變更,則必須進行多步驟程式。 在此範例中,步驟如下:
- 資料取用者會將票證提交至負責資料管線階段的每個小組。
- 小組必須同步運作,因為層級相互連線。 新的服務需要變更資料清理層,這會導致資料匯總層的變更,這會導致服務層的變更。 這些變更可能會影響每個管線階段。
- 小組很難看到處理變更的潛在影響,因為它們沒有整個端對端生命週期的概觀。 它們必須共同設計定義完善的發行計畫,以將現有取用者和管線的影響降到最低。 此相依性管理會增加管理額外負荷。
- 根據規則,小組不會針對資料取用者要求的資料資產進行主題專家。 若要瞭解新的資料集特徵或參數值,他們必須諮詢專家。
- 實作所有變更之後,資料取用者會收到通知,指出新的資料資產已準備好使用。
每個大型組織都有數千個數據取用者。 一個複雜的程式,例如描述的大幅降低大型架構的速度,因為集中式小組成為業務單位的瓶頸。 結果是創新較少,效率有限。 業務單位可能會決定離開服務並改為建置自己的資料平臺。
調整的方法
雲端規模分析使用兩個核心概念來解決調整挑戰:
- 使用資料登陸區域進行調整
- 使用資料產品或資料整合進行調整,以便讓分散式和分散式資料擁有權成為可能
您可以部署單一資料登陸區域或多個登陸區域。 資料登陸區域可讓您透過連線到資料管理登陸區域來探索和管理資料。 每個資料管理登陸區域都位於單一 Azure 訂用帳戶內。
訂用帳戶是 Azure 的管理、計費和規模單位。 它們會在大規模 Azure 採用方案中扮演重要角色。
使用資料登陸區域進行調整
雲端規模分析的核心概念是資料管理登陸區域和資料登陸區域。 您應該將每個訂用帳戶放在自己的 Azure 訂用帳戶中。 將它們分開可讓您清楚區分職責、遵循最低許可權原則,並部分解決稍早提及的訂用帳戶規模問題。 最小的雲端規模分析設定包括單一資料登陸區域和單一資料管理登陸區域。
不過,基本設定不足以進行大規模的資料平臺部署。 公司會建置大規模的平臺,並投資一致且有效率地隨著時間調整其資料和分析工作。 為了克服訂用帳戶層級的限制,雲端規模分析會使用訂用帳戶作為調整單位,如 Azure 登陸區域 中所述 。 這項技術可藉由將更多資料登陸區域新增至架構,來增加資料平臺使用量。 採用這項技術也解決了整個組織所使用的一個 Azure Data Lake Gen2 問題,因為每個資料登陸區域都包含三個數據湖。 來自多個網域的專案和活動可以分散到多個 Azure 訂用帳戶,從而提供更大的延展性。
在您實作雲端規模分析架構之前,決定組織需要多少資料登陸區域。 做出正確的決策,為有效且有效率的資料平臺奠定了基礎。
所需的資料登陸區域數目取決於許多因素,特別是:
- 組織一致性,例如有多少業務單位需要自己的資料登陸區域
- 作業考慮,例如貴組織如何配合業務單位專屬的作業資源和資源。
使用正確的資料登陸區域模型,可將資料產品和資料資產從一個登陸區域移至另一個登陸區域的未來工作降到最低。 它也可協助您在未來有效且一致地調整巨量資料和分析工作。
當您決定要部署的資料登陸區域數目時,請考慮下列因素。
係數 | 描述 |
---|---|
組織結構和資料擁有權 | 請考慮組織的結構,以及如何在組織中擁有資料。 |
區域和位置 | 如果您在多個區域中部署,請決定哪些區域或區域應該裝載資料區域。 請務必遵守所有資料落地需求。 |
配額 | 訂用帳戶配額不是容量保證,而且會根據每個區域套用。 |
資料主權 | 由於資料主權法規,資料必須儲存在特定區域中,並遵循區域特定原則。 |
Azure 原則 | 資料登陸區域必須遵循各種 Azure 原則的需求。 |
管理界限 | 訂用帳戶提供了治理和隔離的管理界限,可明確區隔關注點。 |
網路 | 每個登陸區域都有一個虛擬網路。 因為虛擬網路位於單一區域中,因此每個新區域都需要新的登陸區域。 虛擬網路必須是對等虛擬網路,才能啟用跨網域通訊。 |
限制 | 訂用帳戶有限制。 透過擁有數個訂用帳戶,您可以降低達到這些限制的危險。 |
成本配置 | 請考慮集中付費的儲存體帳戶等共用服務是否應該依業務單位或網域來分割。 使用個別的訂用帳戶會建立成本配置的界限。 您可以使用標籤來達到相同的功能。 |
資料分類和高度機密資料 | 安全性機制可能會影響資料產品開發和資料平臺的可用性。 請考慮資料分類,並決定高度機密資料集是否需要特殊處理,例如 Just-In-Time 存取、客戶管理的金鑰(CMK)、精細的網路控制,或更多加密。 |
其他法律或安全性影響 | 請考慮是否需要邏輯或實體區隔資料的任何其他法律或安全性需求。 |
如果您實作資料網格架構,請考慮下列因素,因為您決定如何散發資料登陸區域和資料網域。
係數 | 描述 |
---|---|
資料欄 | 請考慮貴組織使用的資料網域,並決定哪些網域將會在您的資料平臺上使用。 請考慮個別資料欄的大小。 如需詳細資訊,請參閱 什麼是資料欄? |
Latency | 在大量資料上共同作業的網域可以跨登陸區域傳輸大量資料。 請考慮在相同的登陸區域或區域中配置您的網域。 分隔它們會增加延遲,並可增加跨區域網域的成本。 |
安全性 | 某些服務部署或設定需要在訂用帳戶中提高許可權。 將這些許可權授與一個網域中的使用者,會隱含地為該使用者提供相同訂用帳戶內其他網域中的相同許可權。 |
您可以在訂 用 帳戶的雲端採用架構指引中找到更多考慮。
許多組織想要有效率地調整其企業資料平臺。 業務單位應該能夠建置自己的資料解決方案和應用程式,以符合其獨特的需求。 提供這項功能可能會是一項挑戰,因為許多現有的資料平臺並非圍繞延展性和分散式擁有權的概念而建置。 在這些資料平臺的架構、小組結構和作業模型中,已清楚地看到這種缺點。
資料登陸區域不會在組織內建立資料定址接收器。 雲端規模分析的建議網路設定可跨登陸區域進行安全且就地的資料共用,進而跨資料欄和業務單位進行創新。 若要深入瞭解,請參閱 網路架構考慮 。
身分識別層也是如此。 當您使用單一 Microsoft Entra 租使用者時,您可以將身分識別存取權授與多個資料登陸區域中的資料資產。 若要深入瞭解使用者和身分識別授權程式,請參閱 資料存取管理 。
注意
如果您有多個資料登陸區域,每個區域都可以連線到裝載于其他區域的資料。 這可讓群組跨企業共同作業。
雲端規模分析會使用通用架構來提倡一致的治理。 您的架構會定義基準功能和原則。 所有資料登陸區域都遵循相同的稽核和控制。 您的小組可以建立資料管線、內嵌來源,以及建立報表和儀表板等資料產品。 Teams 也可以視需要執行 Spark/SQL 分析。 您可以將服務新增至原則中的功能,以增強資料登陸區域功能。 例如,小組可以新增協力廠商圖形引擎來解決商務需求。
雲端規模分析強調集中編錄和分類來保護資料,並讓各種群組能夠探索資料產品。
警告
建議您針對跨區域查詢資料。 相反地,請確定資料接近使用它的計算,同時遵守區域界限。
雲端規模分析架構和資料登陸區域的概念可讓您的組織在一段時間內輕鬆地增加資料平臺的大小。 您可以在階段式方法中新增更多資料登陸區域。 您的客戶一開始不需要有多個登陸區域。 當您採用此架構時,請排定幾個資料登陸區域及其所包含的資料產品優先順序。 適當的優先順序有助於確保雲端規模分析部署的成功。
使用資料產品或資料整合進行調整
在每個登陸區域內,您的組織可以使用資料應用程式進行調整。 資料應用程式是資料架構的單位或元件,可封裝提供讀取優化資料產品的功能,以供其他資料應用程式取用。 在 Azure 中,資料應用程式是資源群組形式的環境,可讓跨功能小組實作資料解決方案和工作負載。 相關聯的小組負責資料解決方案的端對端生命週期,其中包括擷取、清理、匯總和服務工作。
雲端規模分析可解決先前討論的資料整合和責任問題。 參考設計提供由資料欄驅動的分散式架構,而不是資料表擷取和來源系統整合的單體功能責任。 跨功能小組會接管資料範圍的端對端功能責任和擁有權。
您可以跨多個自主跨功能資料整合小組散發端對端責任,而不是擁有集中式技術堆疊,以及負責資料處理工作流程所有工作的小組。 每個小組都擁有網域或子域功能,並鼓勵資料取用者視需要提供資料集。
這些架構差異會導致資料平臺上的速度增加。 您的資料取用者不再需要依賴一組集中式小組,或為要求變更排定優先順序而戰。 當較小的小組取得端對端整合工作流程的擁有權時,資料提供者與資料取用者之間的意見反應迴圈要短得多。 此方法會導致更快速的優先順序、更快的開發週期,以及更敏捷的開發程式。 您的小組不再需要自行同步處理流程和發行計畫,因為跨功能的資料整合小組已充分瞭解端對端技術堆疊以及變更的影響。 它可以使用軟體工程實務來執行單元和整合測試,以將整體對取用者的影響降到最低。
在理想情況下,擁有資料整合系統的小組也會擁有來源系統。 此小組應該由負責源系統、主題專家、資料集、雲端工程師和資料產品擁有者的資料工程師組成。 建置這類跨功能小組可減少與外部小組所需的通訊量,而且在開發從基礎結構到實際資料管線的完整堆疊時非常重要。
資料平臺的基礎是從來源系統整合的資料集。 這些資料集可讓您的資料產品小組在商務事實資料表上創新,並改善決策和商務程式。 您的資料整合小組和資料產品小組應為取用者提供 SLA,並確保符合所有合約。 提供的 SLA 可以與資料品質、時間軸、錯誤率、執行時間和其他工作相關。
摘要
藉由使用雲端規模分析架構的調整機制,您的組織會隨著時間在 Azure 中成長您的資料資產,同時避免已知的技術限制。 本文所述的兩種調整方法都協助您克服不同的技術複雜性,而且可以用簡單且有效率的方式使用。