將資料流程儲存體設定為使用 Azure Data Lake Gen 2
與 Power BI 搭配使用的資料根據預設會儲存在 Power BI 所提供的內部儲存體中。 透過整合資料流程和 Azure Data Lake Storage Gen 2 (ADLS Gen2),您可以將資料流程儲存在組織的 Azure Data Lake Storage Gen2 帳戶中。 此功能基本上可讓您「攜帶您自己的儲存體」到 Power BI 資料流程,並在租用戶或工作區層級建立連線。
使用 ADLS Gen 2 工作區或租用戶連線的原因
附加資料流程之後,Power BI 會設定並儲存參考,以便您現在可以讀取資料並寫入您自己的 ADLS Gen 2。 Power BI 會以 Common Data Model (CDM) 格式儲存資料,除了資料流程本身所產生的實際資料之外,也會擷取您資料的中繼資料。 這項功能可解放許多強大的功能,並讓 CDM 格式的資料和相關聯的中繼資料現在提供擴充性、自動化、監視和備份案例。 當您在自己的環境中提供此資料並使其可廣泛存取時,它可讓您將組織內建立的深入解析和資料普及化。 它也會解放您建立具有各種複雜度之進一步解決方案的能力。 您的解決方案可以是 Power Platform、Azure 中的 CDM 感知自訂應用程式和解決方案,以及透過合作夥伴和獨立軟體廠商 (ISV) 生態系統提供的解決方案。 或者,您可以建立應用程式來讀取 CSV。 您的資料工程師、資料科學家和分析師現在可以搭配使用、使用及重複使用 ADLS Gen 2 中測展的一組常見資料。
有兩種方式可設定要使用的 ADLS Gen2 存放區:您可使用指派了租用戶的 ADLS Gen 2 帳戶,或在工作區層級帶入自己的 ADLS Gen 2 存放區。
必要條件
若要攜帶您自己的 ADLS Gen 2 帳戶,您必須擁有儲存體帳戶層的擁有者權限。 資源群組或訂用帳戶層級的權限將無法運作。 若您是系統管理員,則仍然必須為自己指派擁有者權限。 目前不支援防火牆後方的 ADLS Gen2 儲存體帳戶。
儲存體帳戶必須在階層命名空間 (HNS) 已啟用的情況下才能建立。
儲存體帳戶必須建立在與 Power BI 租用戶相同的 Microsoft Entra 租用戶中。
使用者必須具有儲存體 Blob 資料擁有者角色、儲存體 Blob 資料讀取者角色,以及儲存體帳戶層級的擁有者角色 (範圍應該是此資源且未繼承)。 任何套用的角色變更可能需要幾分鐘的時間才能同步,且必須先同步才能在 Power BI 服務中完成下列步驟。
Power BI 工作區租用戶區域應該與儲存體帳戶區域相同。
需要 TLS (傳輸層安全性) 1.2 版 (或更新版本) 來保護您的端點。 使用 TLS 1.2 之前 TLS 版本的網頁瀏覽器和其他用戶端應用程式將無法連線。
不支援在多重要素驗證 (MFA) 後方附加具有 ADLS Gen 2 的資料流程。
最後,您可從管理入口網站連線到任何 ADLS Gen 2,但如果您直接連線到工作區,則必須先確保工作區中沒有任何資料流程,才能進行連線。
注意
在美國的 Power BI 服務中無法使用攜帶您自己的儲存體 (Azure Data Lake Gen 2)。政府 GCC 客戶。 如需哪些功能可供使用及哪些功能無法使用的詳細資訊,請參閱美國政府客戶的 Power BI 功能可用性。
下表描述 ADLS Gen 2 和 Power BI 所需的 ADLS 和 Power BI 權限:
動作 | ADLS 權限 | 最低 Power BI 權限 |
---|---|---|
將 ADLS Gen 2 連線至 Power BI 租用戶 | 擁有者 | Power BI 管理員 |
將 ADLS Gen 2 連線至工作區 | 擁有者 | 工作區管理員 |
建立 Power BI 資料流程,回寫至連線的 ADLS 帳戶 | 不適用 | 工作區參與者 |
取用 Power BI 資料流程 | 不適用 | 工作區檢視者 |
在工作區層級連線到 Azure Data Lake Gen 2
巡覽到沒有資料流程的工作區。 選取 [工作區設定]。 選擇 [Azure 連線] 索引標籤,然後選取 [儲存體] 區段。
如果系統管理員已設定租用戶指派的 ADLS Gen 2 帳戶,則可以看到 [使用預設 Azure 連線] 選項。 您有兩個選擇:
- 選取名為 [使用預設 Azure 連線] 的方塊,以使用租用戶設定的 ADLS Gen 2 帳戶,或
- 選取 [連線至 Azure] 以指向新的 Azure 儲存體帳戶。
當選取 [連線到 Azure] 時,Power BI 即會擷取您具備存取權的 Azure 訂用帳戶清單。 填入下拉式清單。 然後選擇有效的 Azure 訂用帳戶、資源群組,以及啟用了階層命名空間選項的儲存體帳戶 (即 ADLS Gen2 旗標)。 用來連線至 Azure 的個人帳戶只會使用一次,以設定初始連線,並授與 Power BI 服務帳戶讀取和寫入資料的權限,之後不再需要原始使用者帳戶才能讓連線保持作用中。
選取您的選擇之後,請選取 [儲存],現在您已成功將工作區連線到您自己的 ADLS Gen2 帳戶。 Power BI 會自動使用必要權限來設定儲存體帳戶,並設定將寫入資料的 Power BI 檔案系統。 此時,此工作區內的每個資料流程資料都會直接寫入此檔案系統,此檔案系統可以與其他 Azure 服務搭配使用。 您現在擁有所有組織或部門資料的單一來源。
Azure 連線設定
設定 Azure 連線是具有可選擇性設定更多屬性的選擇性設定:
- 租用戶層級儲存體,可讓您設定預設值和/或
- 工作區層級儲存體,可讓您指定每個工作區的連線
如果您想要只使用集中式資料湖,或希望此儲存體成為預設選項,您可以選擇性地設定租用戶層級儲存體。 我們不會使用預設值允許設定中的彈性來自動開始,因此您可以彈性地設定符合使用此連線的工作區。 如果您設定租用戶指派的 ADLS Gen 2 帳戶,您仍然需要將每個工作區設定為使用這個預設選項。
您可以選擇性地或另外將工作區層級儲存體權限設定為個別選項,以提供完整彈性,逐一在工作區上設定特定的 ADLS Gen 2 帳戶。
總而言之,如果允許租用戶層級儲存體和工作區層級儲存體權限,則工作區系統管理員可以選擇性地使用預設的 ADLS 連線,或選擇設定與預設值不同的另一個儲存體帳戶。 如果未設定租用戶儲存體,則工作區系統管理員可以選擇性地逐一在工作區上設定 ADLS 帳戶。 最後,如果選取了租用戶層級儲存體且不允許工作區層級儲存體,則工作區系統管理員可以選擇性地設定其資料流程以使用此連線。
ADLS Gen 2 工作區連線的結構和格式
在 ADLS Gen 2 儲存體帳戶中,所有資料流程都會儲存在檔案系統的 powerbi 容器中。
powerbi 容器的結構外觀如下所示:<workspace name>/<dataflow name>/model.json
、<workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>
和 <workspace name>/<dataflow name>/<table name>/<tablesnapshots>
資料流程將資料儲存在 ADLS Gen 2 資料夾階層中的位置,與工作區位於共用容量或 Premium 容量的位置相同。
下列範例使用 Northwind Odata 範例的 Orders 資料表。
在上圖中:
- model.json 是資料流程的最新版本。
- model.json.snapshots 都是舊版資料流程。 如果您需要舊版的混搭或累加式設定,此歷程記錄會很有用。
- tablename 是包含資料流程重新整理完成後所產生資料的資料夾。
我們只會寫入此儲存體帳戶,且目前不會刪除資料。 因此即使在中斷連結之後,我們也不會從 ADLS 帳戶中刪除,因此先前清單中提及的所有檔案仍會儲存。
注意
資料流程允許在其他資料流程中連結或參考資料表。 在此類資料流程中,model.json 檔案可以參考相同或其他工作區中另一個資料流程的另一個 model.json。
在 ADLS Gen 2 儲存體帳戶之間或其中移動檔案
當您將資料流程從某個 ADLS Gen2 儲存體帳戶移至另一個儲存體帳戶時,您必須確定 model.json 檔案中的路徑已更新,以反映新的位置。 這是因為 model.json 檔案包含資料流程的路徑和資料的路徑。 如果您未更新路徑,資料流程將無法找到資料且會導致權限錯誤。 若要更新路徑,您可以使用下列步驟:
- 在文字編輯器中開啟 model.json 檔案。
- 尋找儲存體帳戶 URL,並將其取代為新的儲存體帳戶 URL。
- 儲存檔案。
- 覆寫 ADLS Gen2 儲存體帳戶中現有的 model.json 檔案。
ADLS Gen 2 工作區連線的擴充性
如果您要將 ADLS Gen 2 連線到 Power BI,您可以在工作區或租用戶層級執行此動作。 請確定您具有正確的存取層級。 若要深入了解,請參閱必要條件。
儲存體結構會遵循 Common Data Model 格式。 若要深入了解儲存體結構和 CDM,請瀏覽什麼是分析資料流程 的儲存體結構以及使用 Common Data Model 最佳化 Azure Data Lake Storage Gen2。
正確設定之後,資料和中繼資料會處於您的控制之下。 許多應用程式都會感知 CDM,且可以使用 Azure、PowerApps 和 PowerAutomate 來擴充資料。 您也可以藉由符合格式或讀取未經處理資料,以使用第三方生態系統。
從工作區或租用戶中斷連結 Azure Data Lake Gen 2
若要在工作區層級移除連線,您必須先確保工作區中的所有資料流程皆已刪除。 移除所有資料流程之後,請選取工作區設定中的 [中斷連線]。 這同樣適用於租用戶,但您必須先確保所有工作區也都已經從租用戶的儲存體帳戶中斷連線,才能在租用戶層級中斷連線。
停用 Azure Data Lake Gen 2
在管理入口網站中的 [資料流程] 下方,您可停用使用者存取此功能,也可以不允許工作區系統管理員帶入自己的 Azure 儲存體。
從 Azure Data Lake Gen 2 還原
在資料流程儲存體設定為使用 Azure Data Lake Gen 2 之後,便無法自動還原。 返回 Power BI 受控儲存體的程序是手動的。
若要還原您對 Gen 2 所做的移轉,則需要刪除資料流程,並在相同的工作區中重新建立。 然後,因為我們不會從 ADLS Gen 2 刪除資料,請移至資源本身並清除資料。 此動作會牽涉到下列步驟。
從 Power BI 匯出資料流程的複本。 或者,複製 model.json 檔案。 model.json 檔案會儲存在 ADLS 中。
刪除資料流程。
中斷連結 ADLS。
使用匯入重新建立資料流程。 累加式重新整理資料 (如果適用的話) 將必須在匯入之前刪除。 刪除 model.json 檔案中的相關分割區,即可完成此動作。
設定重新整理/重新建立累加式重新整理原則。
使用 ADLS Gen 2 連接器連線到資料
本文件的範圍描述 ADLS Gen 2 資料流程連線,而不是 Power BI ADLS Gen 2 連接器。 使用 ADLS Gen 2 連接器是個別的或可能是相加的案例。 ADLS 連接器只會使用 ADLS 作為資料來源。 因此,使用 Power Query Online 來查詢該資料不需要採用 CDM 格式,它可以是客戶想要的任何資料格式。 如需詳細資訊,請參閱 Azure Data Lake Storage Gen2。
相關內容
下列文章提供資料流程和 Power BI 的詳細資訊: