共用方式為


使用 Unity Catalog 外部位置載入資料

重要

這項功能處於公開預覽狀態

本文說明如何使用新增資料 UI,利用 Unity Catalog 外部位置透過 Azure Data Lake Storage Gen2 中的資料建立受控資料表。 外部位置是一個物件,可將雲端儲存體路徑與授權存取雲端儲存體路徑的儲存體認證相結合。

開始之前

開始之前,您必須具備下列條件:

檔案類型

支援以下檔案:

  • CSV
  • TSV
  • JSON
  • XML
  • AVRO
  • Parquet

步驟 1:確認對外部位置的存取權

若要確認對外部位置的存取權,請執行下列動作:

  1. 在 Azure Databricks 工作區的側邊欄中,按一下 [目錄]
  2. 在目錄總管中,按一下 [外部資料]>[外部位置]

步驟 2:建立受控資料表

若要建立受控資料表,請執行下列動作:

  1. 在工作區的側邊欄中,按一下 [+ 新增]>[新增資料]

  2. 在新增資料 UI 中,按一下 [Azure Data Lake Storage]

  3. 從下拉式清單中選取外部位置。

  4. 選取要載入到 Azure Databricks 中的資料夾和檔案,然後按一下 [預覽資料表]

  5. 從下拉式清單中選取目錄和結構描述。

  6. (選用) 編輯資料表名稱。

  7. (選用) 若要依檔案類型設定進階格式選項,請按一下 [進階屬性],關閉 [自動偵測檔案類型],然後選取檔案類型。

    如需格式選項的清單,請參閱下一節。

  8. (選用) 若要編輯資料行名稱,請按一下資料行頂端的輸入方塊。

    資料行名稱不支援逗號、反斜線或 Unicode 字元 (例如表情圖示)。

  9. (選用) 若要編輯資料行類型,請按一下具有類型的圖示。

  10. 按一下 [建立資料表]

檔案類型格式選項

視檔案類型而定,可以使用下列格式選項:

格式選項 描述 支援的檔案類型
Column delimiter 資料行之間的分隔符號字元。 僅允許單一字元,且不支援反斜線。

預設值是逗號。
CSV
Escape character 剖析資料時要使用的逸出字元。

預設值是引號。
CSV
First row contains the header 此選項會指定檔案是否包含標頭。

預設為啟用。
CSV
Automatically detect file type 自動偵測檔案類型。 預設值為 true XML
Automatically detect column types 自動從檔案內容偵測資料行類型。 您可以在預覽資料表中編輯類型。 如果此值設定為 false,則所有資料行類型都推斷為 STRING。

預設為啟用。
- CSV

- JSON
- XML
Rows span multiple lines 資料行的值是否可以跨越檔案中的多行。

預設為停用。
- CSV

- JSON
Merge the schema across multiple files 是否要跨多個檔案推斷結構描述,以及合併每個檔案的結構描述。

預設為啟用。
CSV
Allow comments 檔案中是否允許註解。

預設為啟用。
JSON
Allow single quotes 檔案中是否允許單引號。

預設為啟用。
JSON
Infer timestamp 是否嘗試將時間戳記字串推斷為 TimestampType

預設為啟用。
JSON
Rescued data column 是否儲存與結構描述不相符的資料行。 如需詳細資訊,請參閱什麼是修復的資料行?

預設為啟用。
- CSV

- JSON
- Avro
- Parquet
Exclude attribute 是否要排除元素中的屬性。 預設值為 false XML
Attribute prefix 屬性的前置詞,用於區分屬性與元素。 預設值為 _ XML

資料行資料類型

支援下列資料行資料類型。 如需有關個別資料類型的詳細資訊,請參閱 SQL 資料類型

資料類型 描述
BIGINT 8 位元組帶正負號的整數。
BOOLEAN 布林 (truefalse) 值。
DATE 不帶時區的日期。
DECIMAL (P,S) 具有最大精確度 P 和固定位元數 S 的數位。
DOUBLE 8 位元組雙精確度浮點數。
STRING 字元字串值。
TIMESTAMP 年月日時分秒的欄位值構成的值,並包含工作階段區域時區。

已知問題

  • 在複雜資料類型中,您可能會遇到特殊字元的問題,例如 JSON 物件中的索引鍵包含倒引號或冒號。
  • 某些 JSON 檔案可能需要您手動選取 JSON 作為檔案類型。 若要在選取檔案之後手動選取檔案類型,請按一下 [進階屬性],關閉 [自動偵測檔案類型],然後選取 [JSON]
  • 複雜類型內的巢狀時間戳記和小數可能會遇到問題。