在 Azure Synapse Analytics 中使用 Spark

3 分鐘

您可以在 Spark 上執行許多不同類型的應用程式，包括 Python 或 Scala 指令碼中的程式碼、編譯為 JAVA 封存 (JAR) 的 JAVA 程式碼，以及其他程式碼。 Spark 通常用於兩種工作負載：

批次或串流處理作業以內嵌、清除和轉換資料 - 通常是在自動化管線中執行。
互動式分析工作階段，以探索、分析資料，以及將其視覺化。

在筆記本中執行 Spark 程式碼

Azure Synapse Studio 中包含使用 Spark 的整合式筆記本介面。筆記本提供直覺的方式，可將程式碼與 Markdown 附註結合，通常供資料科學家和資料分析師使用。 Azure Synapse Studio 整合式筆記本體驗的外觀與風格，和熱門的開放原始碼筆記本平台 Jupyter 筆記本相似。

Azure Synapse Studio 中的筆記本螢幕擷取畫面。

注意

雖然通常以互動方式使用，但筆記本可以包含在自動化管線中，並以自動指令碼的形式執行。

筆記本包含一或多個「儲存格」，每個儲存格都包含程式碼或 Markdown。筆記本中的程式碼儲存格有一些功能可協助您提高生產力，包括：

語法醒目提示和錯誤支援。
自動完成程式碼。
互動式資料視覺效果。
匯出結果的能力。

提示

若要深入了解如何使用 Azure Synapse Analytics 中的筆記本，請參閱 Azure Synapse Analytics 文件中在 Azure Synapse Analytics 中建立、開發和維護 Synapse 筆記本 (部分機器翻譯) 一文。

從 Synapse Spark 集區存取資料

您可以在 Azure Synapse Analytics 中使用 Spark 來處理各種來源的資料，包括：

以 Azure Synapse Analytics 工作區的主要儲存體帳戶為基礎的資料湖。
以在工作區中定義為「連結服務」的儲存體為基礎的資料湖。
工作區中的專用或無伺服器 SQL 集區。
Azure SQL 或 SQL Server 資料庫 (使用適用於 SQL Server 的 Spark 連接器)
定義為「連結服務」的 Azure Cosmos DB 分析資料庫，並使用「適用於 Cosmos DB 的 Azure Synapse Link」進行設定。
在工作區中定義為「連結服務」的 Azure 資料總管 Kusto 資料庫。
在工作區中定義為「連結服務」的外部 Hive 中繼存放區。

Spark 最常見的用法之一是處理資料湖中的資料，您可以在其中讀取和寫入多個常用格式的檔案，包括分隔文字、Parquet、Avro 和其他格式。

在 Azure Synapse Analytics 中使用 Spark

在筆記本中執行 Spark 程式碼

從 Synapse Spark 集區存取資料

意見反應