在複製活動中設定 Azure Blob 儲存體
本文概述如何在資料管線中使用複製活動,從 Azure Blob 儲存體複製資料及將資料複製到該處。
支援的格式
Azure Blob 儲存體支援下列檔案格式。 請參閱每篇文章,以取得以格式為基礎的設定。
支援的設定
對於複製活動下每個索引標籤的組態,請分別參閱下列各節。
一般
請參閱<[一般] 設定>指導,來設定 [一般] 設定索引標籤。
來源
在複製活動的 [來源] 索引標籤下,Azure Blob 儲存體支援下列屬性。
以下是必要的屬性:
- 資料存放區類型:選取 [外部]。
- 連線:從連線清單中選取 [Azure Blob 儲存體] 連線。 如果不存在連線,請選取 [新增],來建立新的 Azure Blob 儲存體連線。
- 檔案路徑:選取 [瀏覽] 來選擇要複製的檔案,或手動填入路徑。
- 檔案設定:選取 [檔案設定] 來設定檔案格式。 對於不同檔案格式的設定,請參閱<支援的格式>中的文章來取得詳細資訊。
在 [進階] 下,可以指定下列欄位:
檔案路徑類型:可以選擇 [檔案路徑]、[前置詞]、[萬用字元檔案路徑]、[檔案清單] 作為檔案路徑類型。 每個設定的組態如下:
檔案路徑:如果選擇此類型,可以從先前指定的容器或資料夾/檔案路徑複製資料。
前置詞:特定容器下的 Blob 名稱前置詞,設定為篩選來源 Blob。 系統已選取名稱開頭為
container/this_prefix
的 blob。 它會使用 Blob 儲存體的服務端篩選功能。使用 [前置詞] 並選擇使用保留階層來複製至檔案型目的地時,請注意將會保留前置詞最後一個 "/" 後面的子路徑。 例如:存在來源
container/folder/subfolder/file.txt
且將前置詞設定為folder/sub
,保留的檔案路徑則為subfolder/file.txt
。萬用字元檔案路徑:指定給定 Blob 容器下含有萬用字元的資料夾或檔案路徑,用於篩選來源資料夾或檔案。
允許的萬用字元為
*
(符合零或多個字元) 和?
(符合零或單一字元)。 如果資料夾名稱具有萬用字元或逸出字元^
,則請使用此逸出字元予以逸出。 如需更多範例,請參閱<資料夾和檔案篩選範例>。萬用字元資料夾路徑:在指定容器下使用萬用字元指定資料夾路徑,用於篩選來源資料夾。
萬用字元檔案名稱:指定給定容器下含有萬用字元的檔案名稱和資料夾路徑 (或萬用字元資料夾路徑),用於篩選來源檔案。
檔案清單:表示要複製到的指定檔案集。 在 [檔案清單的路徑] 中,輸入或瀏覽至含有要複製檔案清單的文字檔,一行一個檔案,這是每個文檔的相對路徑。
使用此選項時,請不要指定檔案名稱。 如需更多範例,請參閱<檔案清單範例>。
遞迴:如果選取此核取方塊,則會以遞迴方式處理輸入資料夾及其子資料夾中的所有檔案。 如果取消選取此核取方塊,則只會處理所選資料夾中的檔案。 選取單一檔案時,會停用此設定。
完成後刪除檔案:如果選取此核取方塊,則在成功移至目的地存放區後,將從來源存放區中刪除二進位檔案。 將針對每個檔案執行檔案刪除,因此,複製活動失敗時,會注意到某些檔案已複製到目的地,而且已從來源刪除,而其他檔案仍保留在來源存放區中。
注意
此屬性僅適用於二進位檔案複製案例。
並行連線數上限:此屬性表示在活動執行期間,與資料存放區建立的並行連線數上限。 僅在想要限制並行連線時,才需要指定值。
Destination
在複製活動的 [目的地] 索引標籤下,Azure Blob 儲存體支援下列屬性。
以下是必要的屬性:
- 資料存放區類型:選取 [外部]。
- 連線:從連線清單中選取 [Azure Blob 儲存體] 連線。 如果不存在連線,請選取 [新增],來建立新的 Azure Blob 儲存體連線。
- 檔案路徑:選取 [瀏覽] 來選擇要複製的檔案,或手動填入路徑。
- 檔案設定:選取 [檔案設定] 來設定檔案格式。 對於不同檔案格式的設定,請參閱<支援的格式>中的文章來取得詳細資訊。
在 [進階] 下,可以指定下列欄位:
複製行為:定義來源是來自檔案型資料存放區的檔案時的複製行為。 可以從下拉式清單中選擇 [新增動態內容]、[無]、[FlattenHierarchy] 或 [保留階層]。
新增動態內容:若要指定屬性值的運算式,請選取 [新增動態內容]。 此選取範圍會開啟運算式產生器,在這裡可以從支援的系統變數、活動輸出、函數和使用者指定的變數或參數建立運算式。 如需運算式語言的相關資訊,請參閱<運算式和函數>。
無:選擇此選取範圍,以便不使用任何複製行為。
扁平化階層:來自來源資料夾的所有檔案都在目的地資料夾的第一層中。 目的地檔案具有自動產生的名稱。
保留階層:保留目標資料夾中的檔案階層。 來源檔案到來源資料夾的相對路徑,與目標檔案到目標資料夾的相對路徑相同。
並行連線數上限:在活動執行期間,與資料存放區建立的並行連線數上限。 僅在想要限制並行連線時,才需要指定值。
區塊大小 (MB):指定將資料寫入區塊 Blob 所用的區塊大小 (以 MB 為單位)。 如需詳細資訊,請參閱<關於區塊 Blob>。
中繼資料:複製到目的地資料存放區時,設定自訂中繼資料。
metadata
陣列下的每個物件都代表額外的資料行。name
會定義中繼資料索引鍵名稱,而value
表示該索引鍵的資料值。 若使用保留屬性功能,指定的中繼資料會與來源檔案中繼資料聯合/覆寫。允許的資料值為:
$$LASTMODIFIED
:保留變數指出儲存來源檔案上次修改時間。 僅適用於二進位格式的檔案型來源。運算式
靜態值
對應
對於 [對應] 索引標籤組態,請參閱<在 [對應] 索引標籤下設定對應>。如果選擇 [二進位] 作為檔案格式,則不支援對應。
設定
對於 [設定] 索引標籤組態,請參閱<在 [設定] 索引標籤下進行其他設定>。
資料表摘要
下列資料表包含有關 Azure Blob 儲存體中複製活動的詳細資訊。
來源資訊
名稱 | 描述: | 值 | 必要 | JSON 指令碼屬性 |
---|---|---|---|---|
資料存放區類型 | 資料存放區類型。 | 外部 | 必要 | / |
[連接] | 與來源資料存放區的連線。 | <您的連線> | 必要 | connection |
檔案路徑 | 來源資料的檔案路徑。 | <來源的檔案路徑> | 必要 | container fileName |
檔案路徑類型 | 要使用的檔案路徑類型。 | • 檔案路徑 • 前置詞 • 萬用字元資料夾路徑、萬用字元檔案名稱 • 檔案清單 |
不必要 | • 前置詞 • wildcardFolderPath、wildcardFileName • fileListPath |
遞迴 | 以遞迴方式處理輸入資料夾及其子資料夾中的所有檔案,或只處理所選資料夾中的檔案。 選取單一檔案時,會停用此設定。 | 已選取或取消選取 | 不必要 | 遞迴 |
完成之後刪除檔案 | 移至目的地存放區之後,將立即刪除來源資料存放區中的檔案。 將針對每個檔案執行檔案刪除,因此,複製活動失敗時,會看到某些檔案已複製到目的地,而且已從來源刪除,而其他檔案仍保留在來源存放區中。 | 已選取或取消選取 | 不必要 | deleteFilesAfterCompletion |
並行連線數上限 | 在活動執行期間建立至資料存放區的同時連線上限。 僅在想要限制並行連線時,才需要指定值。 | <並行連線數上限> | 不必要 | maxConcurrentConnections |
目的地資訊
名稱 | 描述: | 值 | 必要 | JSON 指令碼屬性 |
---|---|---|---|---|
資料存放區類型 | 資料存放區類型。 | 外部 | 必要 | / |
[連接] | 與目的地資料存放區的連線。 | <您的連線> | 必要 | connection |
檔案路徑 | 目的地資料的檔案路徑。 | 來源的檔案路徑 | 必要 | container fileName |
複製行為 | 定義將文檔從一個檔案系統 (如儲存體) 複製到另一個檔案系統 (例如從一個 Blob 儲存體到另一個 Blob 儲存體) 時的行為。 | • 無 • 新增動態內容 • 扁平化階層 • 保留階層 |
不必要 | copyBehavior |
並行連線數上限 | 在活動執行期間建立至資料存放區的同時連線上限。 僅在想要限制並行連線時,才需要指定值。 | <並行連線數上限> | 不必要 | maxConcurrentConnections |
區塊大小 (MB) | 指定將資料寫入 Azure Blob 儲存體的區塊大小 (以 MB 為單位)。 允許的值介於 4 MB 到 100 MB 之間。 | <區塊大小> | 不必要 | blockSizeInMB |
中繼資料 | 複製到目的地時,設定自訂中繼資料。 | • $$LASTMODIFIED • 運算式 • 靜態值 |
不必要 | 中繼資料 |