Koalas
Belangrijk
Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt. De producten, services of technologieën die in deze inhoud worden genoemd, worden niet meer ondersteund. Zie pandas-API in Spark.
Notitie
Koalas is afgeschaft. Als u Koalas probeert te gebruiken op clusters met Databricks Runtime 10.0 (EoS) en hoger, wordt een informatief bericht weergegeven, waarbij u wordt aangeraden in plaats daarvan Pandas-API in Spark te gebruiken.
Koalas biedt een invalvervanging voor pandas. Pandas wordt vaak gebruikt door gegevenswetenschappers en is een Python-pakket dat gebruiksvriendelijke gegevensstructuren en hulpprogramma's voor gegevensanalyse biedt voor de programmeertaal Python. Pandas schaalt echter niet uit naar big data. Koalas vult deze kloof door pandas-equivalente API's te bieden die in Apache Spark werken. Koalas is niet alleen nuttig voor pandas-gebruikers, maar ook PySpark-gebruikers, omdat Koalas veel taken ondersteunt die moeilijk te doen zijn met PySpark, bijvoorbeeld het rechtstreeks plotten van gegevens uit een PySpark DataFrame.
Vereisten
- Koalas is opgenomen in clusters met Databricks Runtime 7.3 tot en met 9.1. Voor clusters met Databricks Runtime 10.0 en hoger gebruikt u in plaats daarvan pandas-API in Spark .
- Als u Koalas wilt gebruiken op een cluster met Databricks Runtime 7.0 of lager, installeert u Koalas als een Azure Databricks PyPI-bibliotheek.
- Als u Koalas wilt gebruiken in een IDE, notebookserver of andere aangepaste toepassingen die verbinding maken met een Azure Databricks-cluster, installeert u Databricks Connect en volgt u de koalas-installatie-instructies.
Notebook
In het volgende notebook ziet u hoe u migreert van pandas naar Koalas.