Power BI 使用案例:自助式資料準備
注意
本文是 Power BI 實作規劃系列文章的其中一篇。 此系列主要著重於 Microsoft Fabric 中的 Power BI 體驗。 如需有關此系列的簡介,請參閱 Power BI 實作規劃。
資料準備 (有時稱為 ETL,是擷取、轉換、載入的縮寫),通常涉及大量工作,視來源資料的質量和結構而定。 自助資料準備使用案例著重於商務分析師重新使用資料準備活動的能力。 它藉由將資料準備工作從 Power Query (在個別 Power BI Desktop 檔案內) 重新配置至 Power Query Online (使用 Power BI 資料流程),以達到可重複使用的目標。 邏輯的集中化有助於達成事實的單一來源,並減少其他內容建立者所需的工作層級。
資料流程是在數個工具之一中使用 Power Query Online 所建立,包括:Power BI 服務、Power Apps 或 Dynamics 365 Customer Insights。 在 Power BI 中建立的資料流程稱為分析資料流程。 在 Power Apps 中建立的資料流程可以是 兩種類型之一:標準或分析。 此案例僅涵蓋使用在 Power BI 服務內建立和管理的 Power BI 資料流程。
注意
自助資料準備案例是自助 BI 案例之一。 如需自助案例的完整清單,請參閱 Power BI 使用案例一文。
為求簡潔,本文並未涵蓋內容共同作業和傳遞案例主題所說到的某些方面。 如需完整的涵蓋內容,請先閱讀這些文章。
案例圖表
下圖描述支援自助資料準備最常見使用者動作和 Power BI 元件的高層級概觀。 主要重點是在Power Query Online 中建立數據流,以成為多個語意模型的數據源。 目標是讓許多語意模型利用資料流程一次完成的資料準備。
提示
如果您想要將此案例圖表內嵌在簡報、文件或部落格文章中,或將其列印成牆面海報,建議您下載案例圖表。 此圖表是可縮放向量圖形 (SVG) 影像,因此您可以將其擴大或縮小,而不會降低品質。
此案例圖表描述下列使用者動作、工具和功能:
項目 | 說明 |
---|---|
資料流程建立者會制定 Power BI 資料流程中的資料表集合。 針對旨在重複使用的資料流程,建立者通常 (但並非必須) 屬於支援跨組織界限使用者的集中式小組 (例如 IT、企業 BI 或卓越中心)。 | |
資料流程會連接來自一或多個資料來源的資料。 | |
某些資料來源可能需要內部部署的資料閘道或 VNet 閘道以便重新整理資料,例如位於私人組織網路內的資料來源。 這些閘道都用來在 Power Query Online (即 Power Query Web 版) 中製作資料流程,以及重新整理資料流程。 | |
資料流程是使用 Power Query Online 所制定。 Power Query Online 中熟悉的 Power Query 介面讓從 Power BI Desktop 的轉換變得簡單。 | |
資料流程會儲存為工作區中專門用來儲存和保護資料流程的項目。 需要資料流程重新整理排程,才能讓資料保持在最新狀態 (案例圖表中未描述)。 | |
資料流程可由內容建立者重複使用為資料來源,也可以由位於不同工作區的其他語意模型重複使用。 | |
語意模型建立者會使用 Power BI Desktop 建立新的模資料模型。 語意模型建立者可以使用 Power BI Desktop 內 Power Query 的完整功能。 他們可以選擇性地套用其他查詢步驟,以進一步轉換資料流程的資料或合併資料流程輸出。 | |
準備就緒時,語意模型建立者會將包含資料模型的 Power BI Desktop 檔案 (.pbix) 發佈至 Power BI 服務。 語意模型的重新整理會與資料流程分開管理 (未描述於案例圖表中)。 | |
其他自助語意模型建立者可以使用資料流程作為資料來源,在 Power BI Desktop 中建立新的資料模型。 | |
在管理入口網站中,Power BI 系統管理員可以設定 [Azure 連線],將資料流程的資料儲存在其 Azure Data Lake Storage Gen2 (ADLS Gen2) 帳戶中。 設定包括指派租用戶層級儲存體帳戶,以及啟用工作區層級儲存體權限。 | |
Power BI 系統管理員會在管理入口網站中管理設定。 | |
根據預設,資料流程會使用 Power BI 服務所管理的內部儲存體來儲存資料。 您也可以選擇將資料流程的資料輸出儲存在組織的 ADLS Gen2 帳戶中。 這種儲存體有時稱為自備資料湖。 將資料流程的資料儲存在資料湖的優點是,它可以由其他 BI 工具存取和取用。 | |
ADLS Gen2 中的資料流程的資料會儲存在稱為 filesystem 的 Power BI 特定容器內。 在此容器中,每個工作區都有 資料夾。 系統會為每個資料流程以及每個資料表建立子資料夾。 每次重新整理資料流程的資料時,Power BI 都會產生快照集。 快照集是自我描述,其中包含中繼資料和資料檔案。 | |
Azure 系統管理員會管理組織的 ADLS Gen2 帳戶的權限。 | |
Power BI 管理員會監督和監視 Power BI 服務中的活動。 |
提示
建議您也檢閱進階資料準備使用案例。 此案例是以此案例中引進的概念為基礎。
重點
以下是關於自助資料準備案例所要強調的一些重點。
資料流程
資料流程包含資料表集合 (也稱為實體)。 建立資料流程的所有工作都是在 Power Query Online 中完成。 您可以在多個產品中建立資料流程,包括 Power Apps、Dynamics 365 Customer Insights 和 Power BI。
注意
您無法在 Power BI 服務的個人工作區中建立資料流程。
支援語意模型建立者
此案例圖表描述如何使用 Power BI 資料流程,為其他自助語意模型建立者提供備妥的資料。
注意
語意模型會使用資料流程作為資料來源。 報表無法直接連接到資料流程。
以下是使用 Power BI 資料流程的一些優點:
- 語意模型建立者會使用在 Power BI Desktop 中找到的相同熟悉的 Power Query 介面。
- 資料流程所定義的資料準備和資料轉換邏輯可以重複使用許多次,因為它是集中式的。
- 對資料流程進行資料準備邏輯變更時,可能不需要更新相依的資料模型。 拿掉或重新命名資料行,或變更資料行資料類型,將需要更新相依的資料模型。
- 預先準備的資料可以輕鬆地提供給 Power BI 語意模型建立者使用。 重複使用特別適用於常用的資料表,特別是維度資料表,例如日期、客戶和產品。
- 語意模型建立者所需的工作等級會減少,因為資料準備工作已與資料模型化工作分離。
- 較少數的語意模型建立者需要直接存取來源系統。 來源系統可能很難查詢,而且可能需要特殊存取權限。
- 因為語意模型會重新整理連接到資料流程,而不是資料流程從中擷取資料的來源系統,因此會減少在來源系統上執行的重新整理次數。
- 資料流程的資料代表時間的快照集,並提升由許多語意模型使用時的一致性。
- 將資料準備邏輯分離到資料準備,有助於成功改善語意模型重新整理。 如果資料流程重新整理失敗,語意模型將會使用上次成功的資料流程重新整理以重新整理。
提示
藉由套用星型架構設計原則,建立資料流程資料表。 星型架構設計非常適合用來建立 Power BI 語意模型。 此外,精簡資料流程輸出以套用易記名稱,並使用特定的資料類型。 這些技術可提升相依語意模型中的一致性,並有助於減少語意模型建立者需要執行的工作量。
語意模型建立者彈性
當語意模型建立者連接到 Power BI Desktop 中的資料流程時,建立者不限於使用確切的資料流程輸出。 它們仍然具有 Power Query 提供的完整功能。 如果需要其他資料準備工作,或資料需要進一步轉換,這項功能就很有用。
資料流程進階功能
有許多資料流程的設計技術、模式和最佳做法,可以讓資料流程從自助轉換成符合企業需求。 此外,若工作區將授權模式設為 Premium Per User 或 Premium 容量,或 Fabric 容量,可以受益於 進階功能。
重要
此文章有時會提及 Power BI Premium 或其容量訂用帳戶 (P SKU)。 請注意,Microsoft 目前正在整合購買選項,並按容量 SKU 淘汰 Power BI Premium。 新客戶和現有客戶應考慮改為購買 Fabric 容量訂用帳戶 (F SKU)。
如需詳細資訊,請參閱 Power BI Premium 授權的重要更新和 Power BI Premium 常見問題集。
注意
其中一個進階功能是資料流程的累加式重新整理。 雖然語意模型的累加式重新整理是 Power BI Pro 功能,但資料流程的累加式重新整理是進階功能。
若要深入了解資料流程進階功能,請參閱 進階資料準備使用案例。
資料流程和語意模型重新整理
如先前所述,資料流程是語意模型的一個資料來源。 在大部分情況下,需要多個資料重新整理排程:每個資料流程各一個,以及每個語意模型各一個。 或者,也可以使用從語意模型到資料流程的 DirectQuery,這是進階功能 (未在案例圖表中描述)。
Azure Data Lake Storage Gen2 \(部分機器翻譯\)
在 Microsoft Azure 中,ADLS Gen2 帳戶是已啟用 [階層命名空間] 的特定類型 Azure 儲存體帳戶類型。 ADLS Gen2 具有作業分析工作負載的效能、管理和安全性優勢。 根據預設,Power BI 資料流程會使用內部儲存體,這是由 Power BI 服務管理的內建資料湖帳戶。 或者,組織也可以選擇連線到其組織中的 ADLS Gen2 帳戶,以自備資料湖。
以下是使用組織資料湖帳戶的一些優點:
- Power BI 資料流所儲存的資料可以由其他使用者或流程從資料湖存取。 在 Power BI 以外發生資料流程重複使用時,這很有幫助。 例如,Azure Data Factory 可以存取資料。
- 資料湖中的資料可以 (選擇性地) 由其他工具或系統管理。 在此情況下,Power BI 可能會取用資料,而不是管理資料 (案例圖表中未描述)。
租用戶層級儲存體
管理入口網站的 Azure 連線區段包含設定 ADLS Gen2 帳戶連線的設定。 設定此設定可讓您自備資料湖。 設定之後,您可以設定工作區,以使用該資料湖帳戶。
重要
設定 Azure 連線並不表示 Power BI 租用戶中的所有資料流程預設都會儲存在此帳戶中。 若要使用明確的儲存體帳戶 (而不是內部儲存體),每個工作區都必須特別連線。
在工作區中建立任何資料流程之前,請務必先設定工作區 Azure 連線。 相同的 Azure 儲存體帳戶會用於 Power BI 語意模型備份。
工作區層級儲存體
Power BI 服務管理員可以進行設定,允許工作區層級的儲存體權限 (在管理入口網站的 Azure 連線區段中)。 啟用時,此設定可讓工作區管理員使用與在租用戶層級定義的不同的儲存體帳戶。 啟用此設定特別有助於在 Azure 中管理自備資料湖的分散式業務單位。
注意
管理入口網站中工作區層級儲存體權限會套用至 Power BI 租用戶中的所有工作區。
Common Data Model 格式
ADLS Gen2 帳戶中的資料會儲存在 Common Data Model (CDM) 結構中。 CDM 結構是一種中繼資料格式,可決定如何儲存自我描述的結構描述和資料。 CDM 結構會以標準化的格式達成語意一致性,以跨多個應用程式共用資料 (案例圖表中未描述)。
發佈至單獨的工作區
將資料流程發佈至與儲存相依語意模型的位置不同的工作區有數個優點。 其中一個優點是清楚負責管理哪種內容類型的人員 (如果您有處理不同任務的不同人員)。 另一個優點是,可以為每個內容類型指派特定的工作區權限。
閘道安裝
連接位於私人組織網路或虛擬網路內的資料來源時,通常需要內部部署資料閘道。
下列情況需要資料閘道:
- 在 Power Query Online 中製作連接私人組織資料的資料流程。
- 重新整理連接私人組織資料的資料流程。
系統監督權
活動記錄會記錄 Power BI 服務中發生的使用者活動。 Power BI 管理員可以使用收集的活動記錄資料執行稽核,以協助他們了解使用模式和採用。 活動記錄對於支援治理工作、安全性稽核和合規性需求也很重要。 對於自助資料準備案例,追蹤資料流程的使用方式特別有用。
相關內容
在此系列的下一篇文章中,了解進階資料準備使用案例。