共用方式為


Power BI 使用案例:進階資料準備

注意

本文是 Power BI 實作規劃系列文章的其中一篇。 此系列主要著重於 Microsoft Fabric 中的 Power BI 體驗。 如需有關此系列的簡介,請參閱 Power BI 實作規劃

資料準備 (有時稱為 ETL,這是擷取、轉換和下載的縮寫) 活動通常牽涉到大量的工作。 收集、清理、結合和擴充資料所涉及的時間、技能及工作,取決於來源資料的品質和結構。

在集中式資料準備中投入時間和精力有助於:

  • 增強重複使用性,並從資料準備工作中獲得最大值。
  • 改善為多個小組提供一致資料的能力。
  • 降低其他內容建立者所需的工作層級。
  • 達到規模和效能。

進階資料準備使用案例會擴充自助資料準備案例。 進階資料準備的目的是讓各個小組的多位使用者能夠在各種使用案例中增加資料流程重複使用。

當數據流輸出提供給多個語意模型建立者時,以數據流目的組織不同的工作區會很有説明,特別是當它們位於組織中的不同小組時。 當建立和管理資料流程的人員與取用資料流程的人員不同時,個別工作區也有助於管理安全性角色。

注意

進階資料準備案例是資料準備案例的第二個案例。 此案例是以集中式資料流程完成的工作為基礎,如自助資料準備案例所述。

進階資料準備案例是自助 BI 案例的其中之一。 不過,集中小組成員可以使用類似受控自助 BI 案例所述的技術。 如需自助案例的完整清單,請參閱 Power BI 使用案例一文。

為求簡潔,本文並未涵蓋內容共同作業和傳遞案例主題所說到的某些方面。 如需完整的涵蓋內容,請先閱讀這些文章。

案例圖表

提示

如果您不熟悉自助資料準備,建議您參閱自助資料準備使用案例。 進階自助資料準備案例是以該案例為基礎。

此進階資料準備案例的重點在於:

  • 根據目的使用不同的資料流程:暫存、轉換或最終。 建議您使用可組合的建置組塊,以增加各種組合的重複使用性,支援特定的使用者需求。 本文稍後會說明可組合的建置組塊。
  • 使用支援資料流程建立者或資料流程取用者的不同工作區。 取用資料流程的資料模型製作者可能位於不同的小組和/或有不同的使用案例。
  • 使用連結資料表 (也稱為連結實體)、計算資料表 (也稱為計算實體),以及增強型計算引擎。

注意

有時會交替使用語意模型資料模型字詞。 一般而言,從 Power BI 服務的觀點,會將它稱為語意模型。 從開發觀點,則稱為資料模型 (或簡稱模型)。 在本文中,這兩個詞的意思相同。 同樣地,語意模型建立者和資料模型製作者的意義也相同。

下圖描述支援進階資料準備案例的最常見使用者動作和 Power BI 元件整體概觀。

此圖顯示進階資料準備,說明如何改善資料流程的可及範圍和重複使用性。下表會說明此圖中的項目。

提示

如果您想要將此案例圖表內嵌在簡報、文件或部落格文章中,或將其列印成牆面海報,建議您下載案例圖表。 此圖表是可縮放向量圖形 (SVG) 影像,因此您可以將其擴大或縮小,而不會降低品質。

此案例圖表描述下列使用者動作、工具和功能:

項目 描述
項目 1. 資料流程建立者會制定資料流程中的資料表集合。 針對要重複使用的資料流程,建立者通常 (但非一定) 是支援跨組織界限使用者的集中式小組成員 (例如 IT、企業 BI 或卓越中心)。
項目 2. 資料流程會連接來自一或多個資料來源的資料。
項目 3. 某些資料來源可能需要內部部署的資料閘道或 VNet 閘道以便重新整理資料,例如位於私人組織網路內的資料來源。 這些閘道用於在 Power Query Online 中撰寫資料流程,以及重新整理資料流程。
項目 4. 涉及的所有工作區都會將其授權模式設定為 Fabric 容量Premium 容量Premium Per UserEmbedded。 這些授權模式允許跨工作區使用連結的資料表和計算資料表,在此案例中是必要資源。
項目 5. 資料流程建立者會使用 Power Query Online 來開發資料流程,這是 Web 版本的 Power Query
項目 6。 暫存資料流程是在集中管理資料流程的專用工作區中建立。 暫存資料流程會從來源照原樣複製未經處理資料。 很少會套用轉換 (如果有的話)。
項目 7。 轉換資料流程 (也稱為已清理資料流程) 會在相同的工作區中建立。 它會使用暫存資料流程中連結的資料表作為資料來源。 計算資料表包含準備、清理及重整資料的轉換步驟。
項目 8。 資料流程建立者有權在集中管理資料流程的專用工作區中管理內容。
項目 9。 有一或多個其他工作區,可讓您用來存取為資料模型提供生產就緒資料的最終資料流程。
項目 10。 最終資料流程會在資料模型製作者可以使用的工作區中建立。 它會使用轉換資料流程中連結的資料表作為資料來源。 計算資料表代表已備妥的輸出,獲授與工作區檢視人員角色的資料模型製作者可以看到這些資料。
項目 11。 語意模型建立者 (取用資料流程輸出的人) 具有最終資料流程輸出所在工作區的檢視人員存取權。 資料流程建立者也有權在該工作區中管理和發佈內容 (案例圖表未描述)。
項目 12。 語意模型建立者會在 Power BI Desktop 中開發資料模型時,使用最終資料流程作為資料來源。 準備就緒時,語意模型建立者會將包含資料模型的 Power BI Desktop 檔案 (.pbix) 發佈至 Power BI 服務 (案例圖表未描述)。
項目 13。 Fabric 系統管理員會在管理入口網站中管理設定。
項目 14。 在管理入口網站中,Power BI 系統管理員可以設定 Azure 連線,將資料流程資料儲存在其 Azure Data Lake Storage Gen2 (ADLS Gen2) 帳戶中。 設定包括指派租用戶層級儲存體帳戶,以及啟用工作區層級儲存體權限。
項目 15。 根據預設,資料流程會使用 Power BI 服務所管理的內部儲存體來儲存資料。 您也可以選擇將資料流程的資料輸出儲存在組織的 ADLS Gen2 帳戶中。
項目 16。 網狀架構管理員會在網狀架構入口網站中監督和監視活動。

重點

以下是關於進階資料準備案例所要強調的一些重點。

資料流程

資料流程包含資料表集合 (也稱為實體)。 每個資料表都是由查詢所定義,其中包含在資料表中載入資料所需的資料準備步驟。 建立資料流程的所有工作都是在 Power Query Online 中完成。 您可以在多個產品中建立資料流程,包括 Power Apps、Dynamics 365 Customer Insights 和 Power BI。

注意

您無法在 Power BI 服務的個人工作區中建立資料流程。

資料流程類型

使用可組合的建置組塊是一種設計原則,可讓您管理、部署及保護系統元件,然後在各種組合中使用它們。 建立專門用途的模組化獨立式資料流程是最佳做法。 它們有助於達到資料重複使用和企業規模。 模組化資料流程也更容易管理和測試。

案例圖表中顯示了三種類型的資料流程:暫存資料流程轉換資料流程最終資料流程

暫存資料流程

暫存資料流程 (有時稱為資料擷取資料流程) 會從來源按原樣複製未經處理資料。 擷取未經處理且轉換最少的資料表示下游轉換資料流程 (如下所述) 可以使用暫存資料流程作為其來源。 此模組化在下列情況下很有用:

  • 資料來源的存取限制於縮小時間範圍和/或少數使用者。
  • 需要時態一致性,以確保所有下游資料流程 (和相關語意模型) 都提供同時從該資料來源擷取的資料。
  • 由於來源系統限制或其支援分析查詢的能力影響,必須減少提交至資料來源的查詢數目。
  • 來源資料的複本對於對帳程序和資料品質驗證很有用。

轉換資料流程

轉換資料流程 (有時稱為已清理資料流程) 會使用連至暫存資料流程的連結資料表作為資料來源。 這是將轉換與資料擷取程序分開的最佳做法

轉換資料流程包含準備和重建資料所需的所有轉換步驟。 不過,重點仍放在這一層的可重複使用性,以確保該資料流程適合多個使用案例和用途。

最終資料流程

最終資料流程代表準備完成的輸出。 可能會發生某些額外轉換,視使用案例和用途而定。 進行分析時,星型結構描述資料表 (維度或事實) 是最終資料流程的偏好設計。

獲授與工作區檢視人員角色的資料模型製作者可以看到計算資料表。 此資料表類型說明請參見下面的資料流程資料表的類型主題。

注意

數據湖通常有銅、銀和金等區域。 這三種類型的資料流程代表類似的設計模式。 若要盡可能制定最佳資料結構決策,請思考誰將維護資料、預期的資料使用,以及存取資料的人員所需要的技能層級。

資料流程的工作區

如果您要在單一工作區中建立所有資料流程,則會大幅限制重複使用的範圍。 使用單一工作區也會限制跨小組和/或不同使用案例中支援多個使用者類型時可用的安全性選項。 我們建議使用多個工作區。 當您需要支援組織各個區域的自助建立者時,這些工作區可提供更良好的彈性。

案例圖表中顯示的兩種工作區類型包括:

  • 工作區 1:它會儲存 集中管理的數據流(有時稱為 後端工作區)。 其中同時包含暫存和轉換資料流程,因為是由相同人員管理。 資料流程建立者通常是來自集中式小組,例如 IT、BI 或卓越中心。 他們應該獲指派工作區的系統管理員成員參與者角色。
  • 工作區 2:它會儲存和傳遞 最終數據流輸出 給數據取用者(有時稱為 使用者工作區)。 語意模型建立者通常是自助分析師、高階使用者或公民資料工程師。 他們應該獲指派工作區的檢視人員角色,因為他們只需要取用最終資料流程的輸出。 若要支援來自組織各個區域的語意模型建立者,您可以根據使用案例和安全性需求,建立許多工作區,例如這個工作區。

提示

建議您檢閱支援語意模型建立者的方法,如自助資料準備使用案例所述。 請務必了解語意模型建立者仍然可以在 Power BI Desktop 中使用 Power Query 的完整功能。 他們可以選擇新增查詢步驟,以進一步轉換資料流程資料,或將資料流程輸出與其他來源合併。

資料流程資料表的類型

此案例圖表描述三種類型的資料流程資料表 (也稱為實體)。

  • 標準數據表:查詢外部數據源,例如資料庫。 在案例圖表中,標準資料表會在暫存資料流程中描述。
  • 鏈接數據表:參考來自另一個數據流的數據表。 連結資料表不會複製資料。 相反地,它允許針對多種用途重複多次使用標準資料表。 工作區檢視人員看不到連結資料表,因為它們繼承原始資料流程的權限。 在案例圖表中,連結資料表會描述兩次:
    • 在轉換資料流程中,用於存取暫存資料流程中的資料。
    • 在最終資料流程中,用於存取轉換資料流程中的資料。
  • 計算數據表:使用不同的數據流作為其來源來執行其他計算。 計算資料表允許在個別使用案例中視需要自訂輸出。 在案例圖表中,計算資料表會描述兩次:
    • 在轉換資料流程中,用於執行一般轉換
    • 在最終資料流程中,用於傳遞輸出給語意模型建立者。 由於計算資料表會再次保存資料 (在資料流程重新整理之後),因此資料模型製作者可以在最終資料流程中存取計算資料表。 在此情況下,資料模型製作者應獲授與工作區檢視人員角色的存取權。

注意

有許多設計技術、模式和最佳做法,可讓資料流程從自助式轉換成符合企業需求。 此外,若工作區將授權模式設為 Premium Per UserPremium 容量,則其中的資料流程可以因進階功能而受惠。 連結資料表和計算資料表 (也稱為實體) 是兩個進階功能,對於增加資料流程的重複使用性至關重要。

增強式計算引擎

增強型計算引擎是 Power BI Premium 提供的進階功能。

重要

此文章有時會提及 Power BI Premium 或其容量訂用帳戶 (P SKU)。 請注意,Microsoft 目前正在整合購買選項,並按容量 SKU 淘汰 Power BI Premium。 新客戶和現有客戶應考慮改為購買 Fabric 容量訂用帳戶 (F SKU)。

如需詳細資訊,請參閱 Power BI Premium 授權的重要更新Power BI Premium 常見問題集

增強型計算引擎可改善參考 (連結至) 資料流程的連結資料表 (位於相同的工作區) 效能。 若要從增強型計算引擎獲得最大好處

  • 分割暫存和轉換資料流程。
  • 使用相同的工作區來儲存暫存和轉換資料流程。
  • 套用可在查詢步驟中提早查詢折疊的複雜作業。 排定可折疊作業的優先順序,有助於達成最佳重新整理效能。
  • 使用累加式重新整理來減少重新整理持續時間和資源耗用量。
  • 在開發階段早期且經常執行測試。

資料流程和語意模型重新整理

資料流程是語意模型的資料來源。 在大部分情況下,需要多個資料重新整理排程:每個資料流程各一個,每個語意模型各一個。 或者,您也可以使用從語意模型到資料流程的 DirectQuery,這需要 Power BI Premium 和增強型計算引擎 (未在案例圖表中描述)。

Azure Data Lake Storage Gen2 \(部分機器翻譯\)

ADLS Gen2 帳戶是已啟用階層命名空間的特定類型 Azure 儲存體帳戶。 ADLS Gen2 具有作業分析工作負載的效能、管理和安全性優勢。 根據預設,Power BI 資料流程會使用內部儲存體,這是由 Power BI 服務管理的內建資料湖帳戶。 組織也可以選擇連線到其組織中的 ADLS Gen2 帳戶,以攜帶自己的資料湖

以下是使用您自己的資料湖的一些優點:

  • 使用者 (或程序) 可以直接存取儲存在資料湖中的資料流程資料。 在 Power BI 以外發生資料流程重複使用時,這很有幫助。 例如,Azure Data Factory 可以存取資料流程資料。
  • 其他工具或系統可以管理資料湖中的資料。 在此情況下,Power BI 可能會取用資料,而不是管理資料 (案例圖表未描述)。

使用連結資料表或計算資料表時,請確定每個工作區都指派給相同的 ADLS Gen2 儲存體帳戶。

注意

ADLS Gen2 中的資料流程資料會儲存在 Power BI 特定容器內。 此容器的描述在自助資料準備使用案例圖表中。

管理入口網站設定

管理入口網站中有兩個重要的管理設定:

  • Azure 連線:管理入口網站的 [Azure 連線] 區段包含設定 ADLS Gen2 帳戶連線的設定。 此設定可讓 Power BI 系統管理員攜帶自己的資料湖到資料流程中。 設定之後,工作區就可以將該資料湖帳戶用於儲存體。
  • 工作區層級記憶體:Power BI 系統管理員可以設定工作區層級的記憶體許可權。 啟用時,此設定可讓工作區管理員使用不同的儲存體帳戶來連結租用戶層級設定的儲存體。 啟用此設定有助於分散式業務單位在 Azure 中管理自己資料湖。

閘道安裝

連接位於私人組織網路或虛擬網路內的資料來源時,通常需要內部部署資料閘道

下列情況需要資料閘道:

  • 在 Power Query Online 中製作連接私人組織資料的資料流程。
  • 重新整理連接私人組織資料的資料流程。

提示

資料流程需要標準模式的集中式資料閘道。 使用資料流程時,不支援個人模式中的閘道。

系統監督權

活動記錄會記錄 Power BI 服務中發生的使用者活動。 Power BI 管理員可以使用收集的活動記錄資料執行稽核,以協助他們了解使用模式和採用。 活動記錄對於支援治理工作、安全性稽核和合規性需求也很重要。 在進階資料準備案例中,活動記錄資料有助於追蹤資料流程的管理和使用。

如需可協助您進行 Power BI 實作決策的其他實用案例,請參閱 Power BI 使用案例一文。