共用方式為


Koalas

重要

此文件已淘汰,且可能未更新。 不再支援此內容所提及的產品、服務或技術。 請參閱 Spark 上的 Pandas API

注意

Koalas 已被取代。 如果您嘗試在執行 Databricks Runtime 10.0 (EoS) 及更高版本的叢集使用 Koalas,則會顯示一則資訊訊息,建議您改為在 Spark 使用 Pandas API

KoalasPandas 的替代品。 Pandas 是資料科學家常用的 Python 套件,為 Python 程式設計語言提供易於使用的資料結構與資料分析工具。 不過,Pandas 不會向外延展至巨量資料。 Koalas 藉由提供在 Apache Spark 運作的 Pandas 對等 API 來填補這個空白。 Koalas 不僅適用於 Pandas 使用者,而且適用於 PySpark 使用者,因為 Koalas 支援許多使用 PySpark 難以執行的工作,例如直接從 PySpark DataFrame 繪製資料。

需求

  • Koalas 包含在執行 Databricks Runtime 7.3 到 9.1 的叢集。 對於執行 Databricks Runtime 10.0 及更新版本叢集,請改用 Spark 的 Pandas API
  • 若要在執行 Databricks Runtime 7.0 或更舊版本的叢集使用 Koalas,請將 Koalas 安裝為 Azure Databricks PyPI 程式庫
  • 若要在 IDE、筆記型電腦伺服器或其他連線至 Azure Databricks 叢集的自訂應用程式使用 Koalas,請安裝 Databricks Connect,然後按照 Koalas 安裝指示進行操作。

筆記本

下列筆記本示範如何從 Pandas 遷移至 Koalas。

Pandas 到 Koalas 筆記本

取得筆記本

資源