探索資料
Azure Databricks 提供一套工具和產品,可簡化透過 Databricks Data Intelligence Platform 存取的資料資產探索。 本文提供有關您如何探索和預覽已在工作區中設定以供存取之資料的固執己見概觀。
- 若要連線到資料來源,請參閱連線至資料來源。
- 如需有關取得 Databricks Marketplace 中資料存取權的相關資訊,請參閱什麼是 Databricks Marketplace?。
本節中的主題著重於探索資料物件和資料檔案。 如果您要尋找有關使用諸如筆記本、SQL 查詢、程式庫和模型等資產的相關資訊,請參閱瀏覽工作區。
如果您要尋找有關與探索資料分析 (EDA) 相關聯的資料集或其他任務的生成摘要統計資料指引,請參閱 Azure Databricks 上的探索資料分析:工具和技術。
如何探索資料資產?
Azure Databricks 上的資料探索工具分為下列一般類別:
- AI 輔助的深入解析、摘要和搜尋。
- 關鍵字搜尋。
- 使用 UI 進行目錄探索。
- 程式設計清單和中繼資料探索。
資料探索工具已針對 Unity Catalog 控管的資料進行最佳化。 未註冊為 Unity Catalog 物件的資料資產可能無法使用其中一些方法來探索。
使用 UI 尋找資料
目錄總管提供探索及控管資料資產的工具。 您可以使用工作區側邊欄中的 [目錄] 來存取目錄總管。 請參閱什麼是目錄總管?。
筆記本和 SQL 查詢編輯器也提供目錄導覽器來探索資料庫物件。 按一下這些介面中的 [目錄] 圖示,即可展開或折疊目錄導覽器,而不需離開程式碼編輯器。
探索到感興趣的資料集之後,您可以使用 [深入解析] 索引標籤來了解如何在工作區中使用資料。 請參閱檢視資料表的常用查詢和使用者。
以程序設計方式探索資料
可以在所有資料庫物件上使用 SHOW
命令來探索註冊至 Unity Catalog 的資產。 使用 LIST
命令、%fs
magic 命令或 Databricks 公用程式來列出檔案。
請參閱探索儲存體並尋找資料檔案和探索資料庫物件。
檢閱資料註解
您可以檢閱註解,以了解 Lakehouse 中可用的資料集內容。 您可以在資料物件上設定註解,包括目錄、結構描述、資料表和資料行。 您可以在目錄總管中檢視註解,或使用物件的 DESCRIBE
命令。
目錄總管可為資料表提供 AI 生成的註解,讓資料資產擁有者輕鬆地提供豐富的資料集概觀。 請參閱將 AI 產生的註解新增至 Unity Catalog 物件。
使用者也可以使用在目錄總管中轉譯的 Markdown,選擇性地提供資料表和其他資料庫物件的註解。 請參閱將註解新增至資料和 AI 資產。
搜尋 Lakehouse 中的資料表
您可以使用 Azure Databricks 中的搜尋列來尋找已註冊至 Unity Catalog 的資料表。 您可以執行關鍵字搜尋或使用語意搜尋來尋找與搜尋查詢相關的資料集或資料行。 搜尋只會傳回您有權查看之資料表的結果。 搜尋會檢閱資料表名稱、資料行名稱、資料表註解和資料行註解。 請參閱搜尋工作區物件。