適用學習程序的 Azure 技術
在本單元中,您將瞭解如何在創新生命週期中套用測量步驟的結果。 您也會瞭解資料大眾化的重要性。
資料大眾化
如同您在先前單元中所學到的,您可以使用多個來源從客戶收集資料。 這些資源包含微問卷、Azure 應用程式 Insights 產生的使用量資料,以及客戶自行決定啟用或停用的功能旗標。 您擁有的資料越多,所制定的決策就會越好,但您需要一個方法來處理這些不斷增加的資料流量。
在 2014 年,Satya Nadella 已探討 (英文) 組織中資料文化的重要性。 他認為決策不應該基於感覺或主觀想法來制定,而應該要使用資料來加以驗證。 他也認為資料應該要能提供給所有需要的個人使用,且資料應該要能輕鬆轉換為可採取動作的見解,來促進資料驅動的決策。
只有在決策是基於穩庫且可存取的資料平台的情況下,組織才有辦法做出普遍的資料決策。 這項工作涉及四個領域:
- 收集資料:做出資料驅動決策的第一步一向是擁有資料。 資料收集可有多種形式:從現有資料存放庫中移轉、從如 Azure Application Insights 的來源進行資料產生,或是從其他來源進行資料擷取。
- 共用資料:所收集的資料需提供給每個需要的人員使用,而不僅是資料專家。 組織中的所有個人都應該要能夠使用資料來制定決策。
- 集中式資料:集中式資料平台可協助簡化資料共用和治理。
- 治理資料:資料共用並不代表所有資料皆需提供給所有人使用。 共享資料前,確保任何敏感性資料受到保護、追蹤和管理。
Azure 資料平台
Azure 平台涵蓋所有資料的生命週期,這對所有資料驅動的決策過程和資料普及很重要。 從輕量的隨選資料庫,到大規模資料倉儲或彈性 NoSQL 系統,Azure 資料平台能讓您涵蓋四個資料活動領域。
資料集合
Azure 資料生態系統包括移轉、內嵌、儲存和分析資料的服務與工具。 下列清單僅顯示一些您可以用於處理資料,並使其可於後續共用的機制,有助於資料驅動的決策制定:
- 資料分析:Azure Synapse Analytics 為企業分析服務,其可在資料倉儲和巨量資料系統之間加快取得見解的速度。 Azure Synapse Analytics 將下列最佳功能結合在一起:
- 用於企業資料倉儲的 SQL 技術。
- 用於巨量資料的 Spark 技術。
- 用於資料整合和 ETL (擷取、轉換、載入) 和 ELT (擷取、載入、轉換) 的管道。
- 與其他 Microsoft 服務 (例如 Power BI、Azure Cosmos DB 和 Azure Machine Learning) 的深度整合。
- 資料移轉:資料可能已儲存在現有資源,但需要移轉至新式平台,才能轉換至可採取行動的深入解析。 Azure 資料移轉服務包含協助從 SQL Server、PostgreSQL、Oracle 和 MongoDB 等的系統中移轉資料的工具。
- 資料處理:Azure 包含服務,以使用 Azure Stream Analytics 分析和轉換資料流,以及使用 Azure Data Factory 大規模執行 ETL 流程。
資料共用
Microsoft Power BI 是一組工具,可將不同來源的資料合併至整合、互動式的視覺效果。 使用者僅需操作直覺控制項,即可深入探索資料。 見解的強大功能將可供組織內的每個人員使用,不只是資料專業人員。
區域擁有者可以建立報告和儀表板,其中包含應用程式特定層面的相關資訊。 在引進新功能以驗證假設之後,資料便立即可供使用,以根據真實客戶的使用方式來驗證或拒絕假設。
Microsoft Power BI 可協助從多個角度進行資料共用。 以下列出一些範例:
- 與同事和合作夥伴共用資料:Power BI 儀表板能簡化資料的取用。 視覺效果可讓非資料專家的人員向下切入資料,而不需要熟悉其底層結構。
- 快速產生資料見解:Power BI 可使用其快速見解功能,自動產生資料集的視覺效果。 您可以快速建立儀表板,並找出乍看之下可能不明顯的資料相互關聯。
- 於網站或入口網站中內嵌報告:透過使用 Power BI,不僅可在原生 Power BI 入口網站上存取視覺效果,還可以將報告和儀表板內嵌至其他 Web 應用程式。 如此一來,使用者不須離開其熟悉的公司網站,來尋找決策制定流程中所須的資料。
資料集中化
資料集中化的主要問題是在不同層級上的調整。 雖然可能過度簡化,但我們可以將其縮減為 3 V 的巨量資料:
- 資料量 (Volume):Azure Data Lake Storage Gen2 為符合成本效益且可調整的資料儲存體 Azure 平台。 根據 Azure 儲存體提供之大規模可擴縮性,Azure Data Lake Storage 已設計可用於維持數百個 GB 的輸送量時,服務多 PB 的資訊。
- 多樣性:此詞彙通常用來指出資料不一定是結構化的事實。 資料也可能是半結構化,甚至非結構化的。 Azure Synapse 可在此領域中發揮作用,因其使用 Spark 組合了用於企業資料倉儲的 SQL 最佳技術,這通常適用巨量資料。
- 速度:通常於較舊的資料結構發現的問題,是儲存體容量、分析速度和擷取比率間的相依性。 在 Azure 資料解決方案中,組織可透過將維度分離,來獨立調整平台的不同維度。 如企業商業智慧結構所示,可透過使用所需的 Azure 資料服務的資料準銷售案源,內嵌、處理和分享資料。
資料控管
資料在現在的世界中代表了關鍵資產和重要責任。 儲存的資料通常包括機密資訊,如果資料外泄或共用不當,可能會導致財務或個人損失。 儲存和處理資料隱約表示組織接受該責任。 法律法規可能會對不當處理個人或機密資料的組織裁罰。
因此,對於任何以資料民主化作為目標的組織而言,資料控管都是至關重要的。 資料控管的第一個步驟,是將需要以特定方式處理的資料分類。 例如,Microsoft 會在內部使用資料類別進行資料分類:
- 非商務:私人生活的資料不屬於 Microsoft。
- 公開:免費提供且已核准公開使用的商務資料。
- 一般:不對外公開的商務資料。
- 機密:過度共用可能對 Microsoft 造成危害的商務資料。
- 高度機:過度共用可能對 Microsoft 造成嚴重危害的商務資料。
資料分類之後的下一個步驟,是確保每個資料類別都不會受到未經授權的存取。 Azure 支援這些能強制執行機密性的技術:
- 加密待用資料:所有儲存於 Microsoft 資料中心的 Azure 資料 均受加密保護。 某些 Azure 服務提供特定加密功能,如在 Azure Synapse 與 Azure SQL Database 中的透明資料加密。
- 傳輸中資料的加密:所有 Azure 資料服務在透過網路傳送資料之前,皆會使用 TLS 或 SSL 將資料加密。 某些服務 (例如 Azure 儲存體) 可以選擇性地允許未加密的流量。 組織應針對所有類型的敏感性資料停用所有未加密通訊。
- 資料存取控制:Azure 提供設計精密的驗證和授權機制,以存取 Azure 平台和資料本身。 Azure 角色型存取控制、條件式存取和 Privileged Identity Management 是基本服務的三個範例,以協助確保僅有授權的人員才能存取敏感性資訊。
- 資料稽核:許多法規合規性標準要求提供資料保護機制的證據,方法是記錄執行特定作業和存取特定資料的人員。 如 Azure SQL 資料庫 和 Azure Synapse Analytics 稽核中所述,Azure 中的數據稽核考慮了稽核的三個方面:
- 保留選定事件的稽核記錄,而您可以定義要稽核的資料動作類別。
- 資料庫活動的報告,可選擇性地使用預先設定的報告和儀表板以快速開始使用。
- 分析報告以找出可疑事件、異常活動和趨勢
成長思維
學習階段有時會帶來壞消息。 您之前認為正確的假設,可能會被證明是錯誤的。 對其他想法保持開放態度,是使創新程序得以順利進行的關鍵。 或許整個假設都是錯誤的,或可能問題僅出在開發的開發方式。
不管如何,結論都應該一律受資料支援。 小組應該繼續著手擬定下個假設,其很可能是初始假設的某種修訂或反覆項目。
現有資料可能不允許您明確得知假設是正確還是錯誤的。 在此情況下,應該要增強協助決策程序的資料集。 您可以在應用程式中引進新的遙測點,或是找出新方法以取得客戶體驗的相關資訊。
成長心態是這個階段的基礎。 將證明假設是錯誤 (或部分錯誤) 的結果視為學習的機會。 組織不應該將時間浪費在不會產生預期商務結果的創新上。
下一步
此單元中的很多概念都在《雲端採用架構》文件中有關資料大眾化的內容中進一步討論。