Data Factory in Microsoft Fabric 中的 ORC 格式
本文概述如何在 Microsoft Fabric 的 Data Factory 資料管線中設定 ORC 格式。
支援的功能
下列活動和連接器支援 ORC 格式做為來源和目的地。
類別 | 連接器/活動 |
---|---|
支援的連接器 | Amazon S3 |
Amazon S3 相容 | |
Azure Blob 儲存體 | |
Azure Data Lake Storage Gen1 | |
Azure Data Lake Storage Gen2 \(部分機器翻譯\) | |
Azure 檔案 | |
檔案系統 | |
FTP | |
Google Cloud Storage | |
HTTP | |
Lakehouse 檔案 | |
Oracle 雲端儲存空間 | |
SFTP | |
支援的活動 | 複製活動(來源/目的地) |
查閱活動 | |
GetMetadata 活動 | |
刪除資料活動 |
複製活動中的 ORC 格式
若要設定 ORC 格式,請在資料管線複製活動的來源或目的地中選擇您的連線,然後在 [檔案格式] 下拉式清單中選取 ORC。 選取 [設定 ] 以進一步設定此格式。
ORC 格式作為來源
選取 [檔案格式] 區段中的 [設定] 之後,快顯 [檔案格式設定] 對話框中會顯示下列屬性。
- 壓縮類型:選擇用來讀取下拉式清單中的 ORC 檔案的壓縮編解碼器。 您可以選擇 None、zlib 或 snappy。
ORC 格式作為目的地
選取 [ 設定] 之後,快顯 [檔案格式設定 ] 對話框中會顯示下列屬性。
- 壓縮類型:選擇用來寫入下拉式清單中的 ORC 檔案的壓縮編解碼器。 您可以選擇 None、zlib 或 snappy。
在 [目的地] 索引標籤的 [進階設定] 底下,會顯示下列 ORC 格式相關屬性。
- 每個檔案的資料列數上限:當您將資料寫入資料夾時,可以選擇寫入多個檔案,並指定每個檔案的資料列數上限。 指定您想要為每個檔案寫入的最大資料列。
- 檔名前置詞:適用於設定每個檔案的資料列上限時。 當您將資料寫入多個檔案時,請指定檔案名稱前置詞,使系統進行此模式:
<fileNamePrefix>_00000.<fileExtension>
。 如果未指定,系統會自動產生檔案名稱前置詞。 當來源是以檔案為基礎的存放區,或啟用資料分割選項的資料存放區時,系統不會套用此屬性。
資料表摘要
將 ORC 作為來源
使用 ORC 格式時,複製活動的來源區段支援下列屬性。
名稱 | 描述 | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
檔案格式 | 選取要使用的檔案格式。 | ORC | Yes | type (在 datasetSettings 下):Orc |
壓縮類型 | 用來讀取 ORC 檔案的壓縮編解碼器。 | None zlib snappy |
No | orcCompressionCodec: none zlib snappy |
ORC 作為目的地
使用 ORC 格式時,複製活動 目的地 區段中支援下列屬性。
名稱 | 描述 | 值 | 必要 | JSON 腳本屬性 |
---|---|---|---|---|
檔案格式 | 選取要使用的檔案格式。 | ORC | Yes | type (在 datasetSettings 下):Orc |
壓縮類型 | 用來寫入 ORC 檔案的壓縮編解碼器。 | None zlib snappy |
No | orcCompressionCodec: none zlib snappy |
每個檔案的最大資料列 | 當您將資料寫入資料夾時,可以選擇寫入多個檔案,並指定每個檔案的資料列上限。 指定您想要為每個檔案寫入的最大資料列。 | <每個檔案的資料列數上限> | No | maxRowsPerFile |
檔名前置詞 | 適用於設定 每個檔案 的資料列上限時。 當您將資料寫入多個檔案時,請指定檔案名稱前置詞,使系統進行此模式:<fileNamePrefix>_00000.<fileExtension> 。 如果未指定,系統會自動產生檔案名稱前置詞。 當來源是以檔案為基礎的存放區,或啟用資料分割選項的資料存放區時,系統不會套用此屬性。 |
<您的檔名前置詞> | No | fileNamePrefix |