Projekt Koalas
Ważne
Ta dokumentacja została wycofana i może nie zostać zaktualizowana. Produkty, usługi lub technologie wymienione w tej zawartości nie są już obsługiwane. Zobacz Interfejs API biblioteki Pandas na platformie Spark.
Uwaga
Koalas jest przestarzały. Jeśli spróbujesz użyć narzędzia Koalas w klastrach z uruchomionym środowiskiem Databricks Runtime 10.0 (EoS) i nowszym, zostanie wyświetlony komunikat informacyjny, zalecając użycie interfejsu API biblioteki Pandas na platformie Spark .
Koalas zapewnia zamianę kropli dla biblioteki pandas. Często używane przez analityków danych biblioteka pandas to pakiet języka Python, który zapewnia łatwe w użyciu struktury danych i narzędzia do analizy danych dla języka programowania Python. Jednak biblioteka pandas nie jest skalowana w poziomie do danych big data. Koalas wypełnia tę lukę, zapewniając równoważne interfejsy API biblioteki pandas, które działają na platformie Apache Spark. Koalas jest przydatny nie tylko dla użytkowników biblioteki pandas, ale także użytkowników PySpark, ponieważ Koalas obsługuje wiele zadań, które są trudne do wykonania z narzędziem PySpark, na przykład wykreślanie danych bezpośrednio z ramki danych PySpark.
Wymagania
- Koalas jest zawarty w klastrach z uruchomionym środowiskiem Databricks Runtime 7.3 do 9.1. W przypadku klastrów z uruchomionym środowiskiem Databricks Runtime 10.0 lub nowszym należy zamiast tego użyć interfejsu API biblioteki Pandas na platformie Spark .
- Aby użyć narzędzia Koalas w klastrze z uruchomionym środowiskiem Databricks Runtime 7.0 lub nowszym, zainstaluj aplikację Koalas jako bibliotekę PyPI usługi Azure Databricks.
- Aby używać aplikacji Koalas w środowisku IDE, serwerze notesu lub innych aplikacjach niestandardowych łączących się z klastrem usługi Azure Databricks, zainstaluj program Databricks Connect i postępuj zgodnie z instrukcjami instalacji usługi Koalas.
Notes
W poniższym notesie pokazano, jak przeprowadzić migrację z biblioteki pandas do platformy Koalas.