共用方式為


從 Azure 儲存體取得資料

數據擷取是用來將數據從一或多個來源載入 Azure 數據總管數據表的程式。 內嵌之後,資料即可供用於查詢。 在本文中,您會瞭解如何從 Azure 儲存體 (ADLS Gen2 容器、Blob 容器或個別 Blob) 取得資料到新的或現有的資料表。

擷取可以做為一次性作業或連續方法。 只能透過入口網站設定連續擷取。

如需數據擷取的一般資訊,請參閱 Azure 數據總管數據擷取概觀

必要條件

取得資料

  1. 從左側功能表中,選取 [ 查詢]。

  2. 以滑鼠右鍵按下您要內嵌數據的資料庫。 選取取得資料

    查詢索引標籤的螢幕快照,以滑鼠右鍵按兩下資料庫並開啟 [取得選項] 對話框。

來源

取得資料視窗中,已選取來源索引標籤。

從可用清單選取資料來源。 在此範例中,您會從 Azure 儲存體擷取資料。

取得資料視窗的螢幕擷取畫面,其中已選取來源索引標籤。

設定

  1. 選取目標資料庫和數據表。 如果您想要將資料擷取到新的資料表,請選取 + 新增資料表,然後輸入資料表名稱。

    注意

    資料表名稱最多可包含 1024 個字元,包括空白、字母數字、連字號與底線。 但不支援特殊字元。

  2. 若要新增來源,請選取 [選取容器] 或 [新增 URI]。

    1. 如果您選取 [ 選取容器],請填入下列欄位:

      輸入新資料表及選取一範例資料檔案以設定索引標籤的螢幕擷取畫面。

      設定 欄位描述
      訂用帳戶 記憶體帳戶所在的訂用帳戶標識碼。
      儲存體帳戶 識別記憶體帳戶的名稱。
      容器 您要內嵌的記憶體容器。
      檔案篩選 (選用)
      資料夾路徑 篩選資料以擷取具有特定資料夾路徑的檔案。
      副檔名 篩選資料以僅擷取具有特定副檔名的檔案。
    2. 如果您選取 [新增 URI],請在 [URI] 字段中貼上 Blob 容器或個別檔案的記憶體 連接字串,然後選取 +

      注意

      • 您最多可以新增 10 個個別 Blob。 每個 blob 最多可以為 1 GB (未壓縮)。
      • 您可以從單一容器擷取最多 5000 個 Blob。

      [設定] 索引標籤的螢幕快照,其中已貼上 URI 字段中 連接字串。

  3. 選取下一個

檢查

檢查索引標籤隨即開啟,其中包含資料的預覽。

若要完成擷取程序,請選取完成

「檢查」索引標籤的螢幕擷取畫面。

或者:

編輯資料行

注意

  • 針對表格式格式 (CSV、TSV、PSV),您無法對應資料行兩次。 若要對應至現有的資料行,請先刪除新資料行。
  • 您無法變更現有的資料行類型。 如果您嘗試對應到具有不同格式的資料行,最終可能會出現空資料行。

您可以在資料表中進行的變更取決於下列參數:

  • 資料表類型是新的或現有的
  • 對應類型是新的或現有的
資料表類型 對應類型 可用的調整
新增資料表 新的對應 重新命名資料行、變更資料類型、變更資料來源、對應轉換、新增資料行、刪除資料行
現有的資料表 新的對應 新增資料行 (然後您可以在其中變更資料類型、重新命名和更新)
現有的資料表 現有的對應 none

開啟供編輯資料行的螢幕擷取畫面。

對應變換

某些資料格式對應 (Parquet、JSON 和 Avro) 支援簡單的擷取時間轉換。 若要套用對應轉換,請在編輯資料行視窗中建立或更新資料行。

對應變換可以在 string 或 datetime 類型的資料行上執行,而來源具有資料類型 int 或 long。 支援的對應轉換如下:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

基於資料類型的進階選項

表格式 (CSV、TSV、PSV)

  • 如果您要內嵌現有資料表中的表格式格式,您可以選取 [進階>保留目前數據表架構]。 資料表式資料不一定包含用來將來源資料對應至現有資料行的資料行名稱。 勾選此選項時,會按順序進行對應,資料表結構描述保持不變。 如果未勾選此選項,無論資料結構如何,都會為傳入資料建立新資料行。

  • 若要使用第一列作為資料行名稱,請選取進階>以第一列作為資料行標題

    進階 CSV 選項的螢幕擷取畫面。

JSON:

  • 若要確定 JSON 資料的資料行劃分,請選取進階>巢狀層級,從 1 到 100。

  • 如果您選取 [進階>忽略數據格式錯誤],則會以 JSON 格式擷取數據。 如果未選取此核取方塊,則會以 multijson 格式擷取資料。

    進階 JSON 選項的螢幕擷取畫面。

摘要

資料準備視窗中,當資料擷取成功完成時,會以綠色核取記號標記所有三個步驟。 您可以檢視用於每個步驟的命令,或選取卡片來查詢、可視化或卸除內嵌的數據。

成功完成擷取的摘要頁面的螢幕擷取畫面。