Uso de Apache Spark MLlib en Azure Databricks
En esta página se proporcionan cuadernos de ejemplo que muestran cómo usar MLlib en Azure Databricks.
Apache Spark MLlib es la biblioteca de aprendizaje automático de Apache Spark que consta de algoritmos y utilidades de aprendizaje comunes, como la clasificación, la regresión, la agrupación en clústeres, el filtrado colaborativo, la reducción de dimensionalidad, y las primitivas de optimización subyacentes. Para obtener información de referencia sobre las características de MLlib, Azure Databricks recomienda las siguientes referencias de la API de Apache Spark:
- Guía de programación de MLlib
- Referencia de la API de Python
- Referencia de la API de Scala
- API de Java
Para obtener información sobre cómo usar Apache Spark MLlib desde R, consulte la documentación sobre el aprendizaje automático en R.
Cuaderno de ejemplo de clasificación binaria
En este cuaderno se muestra cómo compilar una aplicación de clasificación binaria mediante Pipelines API de Apache Spark MLlib.
Cuaderno de clasificación binaria
Cuadernos de ejemplo de árboles de decisión
En estos ejemplos se muestran varias aplicaciones de los árboles de decisión que usan Pipelines API de Apache Spark MLlib.
Árboles de decisión
En estos cuadernos se muestra cómo realizar clasificaciones con árboles de decisión.
Árboles de decisión del cuaderno de reconocimiento de dígitos
Árboles de decisión del cuaderno de la encuesta de SFO
Regresión de GBT mediante canalizaciones de MLlib
En este cuaderno se muestra cómo usar las canalizaciones de MLlib para realizar una regresión mediante árboles impulsados por gradiente para predecir el número de alquileres de bicicletas (por hora), a partir de información como el día de la semana, el tiempo, la temporada, etc.
Cuaderno de regresión de uso compartido de bicicletas
Cuaderno de ejemplo de Apache Spark MLlib avanzado
En este cuaderno se muestra cómo crear un transformador personalizado.