共用方式為


Azure Synapse Analytics 術語

本文會引導您瞭解 Azure Synapse Analytics 的基本概念。

Synapse 工作區

Synapse 工作區是可在 Azure 中執行雲端式企業分析的安全性共同作業界限。 工作區會部署在特定區域中,並具有相關聯的 Azure Data Lake Storage Gen2 帳戶和文件系統來儲存暫存數據。 工作區位在資源群組底下。

工作區可讓您使用 SQL 和 Apache Spark 執行分析。 SQL 和 Spark 分析可用的資源會組織成 SQL 和 Spark 集區

連結服務

工作區可以包含任意數目的連結服務,基本上 連接字串 定義工作區聯機至外部資源所需的資訊。

Synapse SQL

Synapse SQL 可讓您在 Synapse 工作區中執行 Transact-SQL (T-SQL) 型分析。 Synapse SQL 有兩種耗用量模型:專用和無伺服器。 針對專用模型,請使用 專用 SQL 集區。 工作區可以有任意數目的集區。 若要使用無伺服器模型,請使用 無伺服器 SQL 集區。 每個工作區都有其中一個集區。

在 Synapse Studio 內,您可以執行 SQL 腳本來處理 SQL 集區。

注意

Azure Synapse 中的專用 SQL 集區不同於專用 SQL 集區(先前稱為 SQL DW)。 並非 Azure Synapse Analytics 工作區中專用 SQL 集區的所有功能都適用於專用的 SQL 集區 (先前稱為 SQL DW),反之亦然。 若要為現有的專用 SQL 集區啟用工作區功能(先前稱為 SQL DW),請參閱為專用 SQL 集區啟用工作區功能(先前稱為 SQL DW)。

適用於 Synapse 的 Apache Spark

若要使用Spark分析,請在 Synapse 工作區中建立和使用 無伺服器 Apache Spark 集 區。 當您開始使用 Spark 集區時,工作區會 建立 Spark 工作階段 來處理與該工作階段相關聯的資源。

Synapse 中有兩種方式可使用 Spark:

  • 使用 Scala、PySpark、C# 和 SparkSQL 進行數據科學和工程的 Spark Notebook
  • 使用 jar 檔案執行 Batch Spark 作業的 Spark 作業定義

SynapseML

SynapseML (先前稱為 MMLSpark) 是一個開放原始碼連結庫,可簡化大規模可調整機器學習管線的建立。 這是一種工具生態系統,可用來以數個新方向擴充Apache Spark架構。 SynapseML 整合數個現有的機器學習架構和新 Microsoft 演算法為單一、可調整的 API,此 API 可跨 Python、R、Scala、.NET 和 JAVA 使用。 若要深入瞭解,請參閱 什麼是 SynapseML?

管線

管線是 Azure Synapse 提供數據整合的方式,可讓您在服務和協調活動之間移動數據。

  • 管線是一組一起執行工作的活動邏輯群組。
  • 活動 會定義管線內的動作,以對數據執行,例如複製數據,或執行 Notebook 或 SQL 腳稿。
  • 數據流 是一種特定的活動形式,可提供無程式代碼體驗,讓您執行使用 Synapse Spark 的數據轉換。
  • 觸發 程式會執行管線。 它可以手動或自動執行(排程、輪轉視窗或事件型)。
  • 整合數據集 是數據的具名檢視,它只會指向或參考活動中使用的數據做為輸入和輸出。 它屬於連結的服務。

資料總管 (預覽)

Azure Synapse 數據總管為客戶提供互動式查詢體驗,以從記錄和遙測數據解除鎖定見解。

  • 數據總管集 區是專用叢集,其中包含兩個以上的計算節點,具有本機 SSD 記憶體(經常性快取),以達到優化的查詢效能,以及用於持續性的多個記憶體 Blob(冷快取)。
  • 數據總管資料庫 裝載於數據總管集區上,而且是由數據表集合和其他資料庫對象的邏輯實體所組成。 每個集區可以有多個資料庫。
  • 數據表 是資料庫物件,其中包含使用傳統關係型數據模型組織的數據。 數據會儲存在遵守數據總管定義完善的數據表架構的記錄中,以定義已排序的數據行清單,且每個數據行都有名稱和純量數據類型。 純量數據類型可以結構化(int、realdatetimetimespan)、半結構化(動態),或自由文字(字串)。 動態類型類似於 JSON,因為它可以保存單一純量值、陣列或這類值的字典。
  • 外部數據表 是參考數據總管資料庫外部記憶體或 SQL 數據源的數據表。 與數據表類似,外部數據表具有定義完善的架構(數據行名稱和數據類型組的已排序列表)。 不同於將數據內嵌至數據總管集區的數據總管數據表,外部數據表會在儲存和管理集區外部的數據上運作。 外部數據表不會保存任何數據,而且用來查詢或匯出數據至外部數據存放區。