Delen via


Koalas

Belangrijk

Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt. De producten, services of technologieën die in deze inhoud worden genoemd, worden niet meer ondersteund. Zie pandas-API in Spark.

Notitie

Koalas is afgeschaft. Als u Koalas probeert te gebruiken op clusters met Databricks Runtime 10.0 (EoS) en hoger, wordt een informatief bericht weergegeven, waarbij u wordt aangeraden in plaats daarvan Pandas-API in Spark te gebruiken.

Koalas biedt een invalvervanging voor pandas. Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas schaalt echter niet uit naar big data. Koalas vult deze kloof door pandas-equivalente API's te bieden die in Apache Spark werken. Koalas is niet alleen nuttig voor pandas-gebruikers, maar ook PySpark-gebruikers, omdat Koalas veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks plotten van gegevens uit een PySpark DataFrame.

Vereisten

  • Koalas is opgenomen in clusters met Databricks Runtime 7.3 tot en met 9.1. Voor clusters met Databricks Runtime 10.0 en hoger gebruikt u in plaats daarvan pandas-API in Spark .
  • Als u Koalas wilt gebruiken op een cluster met Databricks Runtime 7.0 of lager, installeert u Koalas als een Azure Databricks PyPI-bibliotheek.
  • Als u Koalas wilt gebruiken in een IDE, notebookserver of andere aangepaste toepassingen die verbinding maken met een Azure Databricks-cluster, installeert u Databricks Connect en volgt u de koalas-installatie-instructies.

Notebook

In het volgende notebook ziet u hoe u migreert van pandas naar Koalas.

Pandas naar Koalas-notebook

Notebook downloaden

Resources