bamboolib
Importante
Esta documentación se ha retirado y es posible que no se actualice. bamboolib está en desuso. Para obtener ayuda con la generación de código, consulte Databricks Assistant.
Nota
bamboolib se admite en Databricks Runtime 11.3 LTS y versiones posteriores.
bamboolib es un componente de interfaz de usuario que permite el análisis y las transformaciones de datos sin código desde un cuaderno de Azure Databricks . bamboolib ayuda a los usuarios a trabajar más fácilmente con sus datos y acelera las tareas comunes de manipulación, exploración y visualización de datos. A medida que los usuarios completan estos tipos de tareas con sus datos, bamboolib genera automáticamente código de Python en segundo plano. Los usuarios pueden compartir este código con otros usuarios, que pueden ejecutar este código en sus propios cuadernos para reproducir rápidamente esas tareas originales. También pueden usar bamboolib para ampliar esas tareas originales con tareas de datos adicionales, todo sin necesidad de saber cómo codificar. Los que tienen experiencia con la codificación pueden ampliar este código para crear resultados aún más sofisticados.
Internamente, bamboolib usa ipywidgets, que es un framework de widget HTML interactivo para el kernel de IPython. ipywidgets se ejecuta dentro del kernel de IPython.
Contenido
Requisitos
- Un cuaderno de Azure Databricks, que esté asociado a un clúster de Azure Databricks con Databricks Runtime 11.0 o posterior.
- La biblioteca
bamboolib
tiene que estar disponible para el cuaderno.- Para instalar la biblioteca desde PyPI solo en un clúster específico, consulte Bibliotecas de clústeres.
- Para usar el comando
%pip
para que la biblioteca solo esté disponible para un cuaderno específico, consulte bibliotecas de Python con ámbito de cuaderno.
Inicio rápido
Cree un cuaderno de Python.
Adjuntar el cuaderno a un clúster que cumpla los requisitos de .
En la primera celda del cuaderno, escriba el código siguiente y, luego, ejecute la celda. Este paso se puede omitir si bamboolib ya está instalado en el área de trabajo o el clúster.
%pip install bamboolib
En la segunda celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
import bamboolib as bam
En la tercera celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
bam
Nota
Como alternativa, puede imprimir un DataFrame de Pandas existente para mostrar bamboolib para usar con ese DataFrame específico.
Continúe con las tareas clave.
Tutoriales
Puede usar bamboolib por sí mismo o con un DataFrame de Pandas existente.
Uso de bamboolib por sí mismo
En este tutorial, usas bamboolib para mostrar en tu notebook el contenido de un conjunto de datos de ventas de ejemplo. A continuación, experimente con algunos de los códigos de cuaderno relacionados que bamboolib genera automáticamente. Para finalizar, consultará y ordenará una copia del contenido del conjunto de datos de ventas.
Cree un cuaderno de Python.
Adjuntar el cuaderno a un clúster que cumpla los requisitos de .
En la primera celda del cuaderno, escriba el código siguiente y, luego, ejecute la celda. Este paso se puede omitir si bamboolib ya está instalado en el área de trabajo o el clúster.
%pip install bamboolib
En la segunda celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
import bamboolib as bam
En la tercera celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
bam
Haga clic en Cargar datos ficticios.
En el panel Load dummy data, en Load a dummy data set for testing bamboolib, seleccione Sales dataset.
Haga clic en Ejecutar.
Muestra todas las filas donde item_type es Baby Food:
- En la lista Search actions, seleccione Filter rows.
- En el panel Filter rows, en la lista Choose (encima de where), seleccione Select rows.
- En la lista debajo de where, seleccione item_type.
- En la lista Choose junto a item_type, seleccione has value(s).
- En el cuadro Choose value(s) junto a hgas value(s), seleccione Baby Food.
- Haga clic en Ejecutar.
Copie el código de Python generado automáticamente para esta consulta:
- Haga clic en Copiar código debajo de la vista previa de los datos.
Pegue y modifique el código:
En la cuarta celda del cuaderno, pegue el código que copió. Debería tener este aspecto:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Agregue a este código para que muestre solo las filas donde order_prio es Cy, a continuación, ejecute la celda:
import pandas as pd df = pd.read_csv(bam.sales_csv) # Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Sugerencia
En lugar de escribir este código, también puede hacer lo mismo usando bamboolib en la tercera celda para mostrar solo las filas donde order_prio es C. Este paso es un ejemplo de extensión del código que bamboolib generó automáticamente antes.
Ordene las filas por región en orden ascendente:
- En el widget de la cuarta celda, en la lista Acciones de búsqueda, seleccione Ordenar filas.
- En el panel Sort column(s), en la lista Choose column, seleccione region.
- En la lista situada junto a región, seleccione ascendente (A-Z).
- Haga clic en Ejecutar.
Nota
Esto equivale a escribir el código siguiente usted mismo:
df = df.sort_values(by=['region'], ascending=[True]) df
También podría haber usado bamboolib en la tercera celda para ordenar las filas por región en orden ascendente. En este paso se muestra cómo puede usar bamboolib para ampliar el código que escribe. A medida que usa bamboolib, genera automáticamente el código adicional para usted en segundo plano, para que pueda ampliar aún más el código ya extendido.
Continúe con las tareas clave.
Usar bamboolib con un dataframe existente
En este tutorial, usará bamboolib para mostrar en el cuaderno el contenido de un DataFrame de Pandas. Este DataFrame contiene una copia de un conjunto de datos de ventas de ejemplo. A continuación, experimente con algunos de los códigos de cuaderno relacionados que bamboolib genera automáticamente. Para finalizar, consulte y ordene parte del contenido del dataframe.
Cree un cuaderno de Python.
Adjuntar el cuaderno a un clúster que cumpla los requisitos de .
En la primera celda del cuaderno, escriba el código siguiente y, luego, ejecute la celda. Este paso se puede omitir si bamboolib ya está instalado en el área de trabajo o el clúster.
%pip install bamboolib
En la segunda celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
import bamboolib as bam
En la tercera celda del cuaderno, escriba el código siguiente y, a continuación, ejecute la celda.
import pandas as pd df = pd.read_csv(bam.sales_csv) df
Tenga en cuenta que bamboolib solo admite DataFrames de Pandas. Para convertir un DataFrame de PySpark en un DataFrame de Pandas, llame a toPandas en el DataFrame de PySpark. Para convertir una API de Pandas de un DataFrame de Spark en un DataFrame de Pandas, llame a to_pandas en la API de Pandas del DataFrame de Spark.
Haga clic en Mostrar interfaz de usuario de bamboolib.
Muestra todas las filas donde item_type es Baby Food:
- En la lista Search actions, seleccione Filter rows.
- En el panel Filter rows, en la lista Choose (encima de where), seleccione Select rows.
- En la lista debajo de where, seleccione item_type.
- En la lista Choose junto a item_type, seleccione has value(s).
- En el cuadro Choose value(s) junto a hgas value(s), seleccione Baby Food.
- Haga clic en Ejecutar.
Copie el código de Python generado automáticamente para esta consulta. Para ello, haga clic en Copiar código debajo de la vista previa de los datos.
Pegue y modifique el código:
En la cuarta celda del cuaderno, pegue el código que copió. Debería tener este aspecto:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])]
Agregue a este código para que muestre solo las filas donde order_prio es Cy, a continuación, ejecute la celda:
# Step: Keep rows where item_type is one of: Baby Food df = df.loc[df['item_type'].isin(['Baby Food'])] # Add the following code. # Step: Keep rows where order_prio is one of: C df = df.loc[df['order_prio'].isin(['C'])] df
Sugerencia
En lugar de escribir este código, también puede hacer lo mismo usando bamboolib en la tercera celda para mostrar solo las filas donde order_prio es C. Este paso es un ejemplo de extensión del código que bamboolib generó automáticamente antes.
Ordene las filas por región en orden ascendente:
a. En el widget de la cuarta celda, haga clic en Ordenar filas.
- En el panel Sort column(s), en la lista Choose column, seleccione region.
- En la lista situada junto a región, seleccione ascendente (A-Z).
- Haga clic en Ejecutar.
Nota
Esto equivale a escribir el código siguiente usted mismo:
df = df.sort_values(by=['region'], ascending=[True]) df
También podría haber usado bamboolib en la tercera celda para ordenar las filas por región en orden ascendente. En este paso se muestra cómo puede usar bamboolib para ampliar el código que escribe. A medida que usa bamboolib, genera automáticamente el código adicional para usted en segundo plano, para que pueda ampliar aún más el código ya extendido.
Tareas clave
En esta sección:
- Agregar el widget a una celda
- Borrar el del widget
- tareas de carga de datos
- Tareas de acciones con datos
- Tareas del historial acciones con datos
- Obtener código para volver a crear mediante programación el estado actual del widget como dataframe
Agregar el widget a una celda
escenario: desea que el widget bamboolib se muestre en una celda.
Compruebe que el cuaderno cumpla con los requisitos y para bamboolib.
Si bamboolib no está ya instalado en el área de trabajo o en el clúster, se debe ejecutar el código siguiente en una celda del cuaderno, preferiblemente en la primera celda:
%pip install bamboolib
Ejecute el código siguiente en el cuaderno, preferiblemente en la primera o segunda celda del cuaderno:
import bamboolib as bam
opción 1: en la celda donde desea que aparezca el widget, agregue el código siguiente y, a continuación, ejecute la celda:
bam
El widget aparece en la celda debajo del código.
O:
Opción 2: En una celda que contenga una referencia a un DataFrame de Pandas, imprima el DataFrame. Por ejemplo, dada la siguiente definición de DataFrame, ejecute la celda:
import pandas as pd from datetime import datetime, date df = pd.DataFrame({ 'a': [ 1, 2, 3 ], 'b': [ 2., 3., 4. ], 'c': [ 'string1', 'string2', 'string3' ], 'd': [ date(2000, 1, 1), date(2000, 2, 1), date(2000, 3, 1) ], 'e': [ datetime(2000, 1, 1, 12, 0), datetime(2000, 1, 2, 12, 0), datetime(2000, 1, 3, 12, 0) ] }) df
El widget aparece en la celda debajo del código.
Tenga en cuenta que bamboolib solo admite DataFrames de Pandas. Para convertir un DataFrame de PySpark en un DataFrame de Pandas, llame a toPandas en el DataFrame de PySpark. Para convertir una API de Pandas de un DataFrame de Spark en un DataFrame de Pandas, llame a to_pandas en la API de Pandas del DataFrame de Spark.
Borrar el widget
Escenario: quiere borrar el contenido de un widget y, a continuación, leer nuevos datos en el widget existente.
opción 1: ejecute el código siguiente dentro de la celda que contiene el widget de destino:
bam
El widget borra y, a continuación, vuelve a mostrar los botones Databricks: Leer archivo CSV de DBFS, Databricks: Cargar tabla de base de datosy Cargar datos ficticios.
Nota
Si aparece el error name 'bam' is not defined
, ejecute el código siguiente en el cuaderno (preferiblemente en la primera celda del cuaderno) y vuelva a intentarlo:
import bamboolib as bam
Opción 2: En una celda que contenga una referencia a un DataFrame de Pandas, vuelva a ejecutar la celda para imprimir el DataFrame. El widget borra y, a continuación, muestra los nuevos datos.
Tareas de carga de datos
En esta sección:
- Leer el contenido de un conjunto de datos de ejemplo en el widget
- Leer el contenido de un archivo CSV en el widget
- Leer el contenido de una tabla de base de datos en el widget
Leer el contenido de un conjunto de datos de ejemplo en el widget
Escenario: Usted quiere leer algunos datos de ejemplo en el widget, por ejemplo, algunos datos de ventas falsos, de modo que pueda probar la funcionalidad del widget.
Haga clic en Cargar datos ficticios.
Nota
Si Load dummy data no está visible, borre el widget con la opción 1 e inténtelo de nuevo.
En el panel Load dummy data, en Load a dummy data set for testing bamboolib, seleccione el nombre del conjunto de datos que quiere cargar.
En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
Haga clic en Ejecutar.
El widget muestra el contenido del conjunto de datos.
Sugerencia
Puede cambiar el widget actual para mostrar el contenido de un conjunto de datos de ejemplo diferente:
- En el widget actual, haga clic en la pestaña Load dummy data.
- Siga los pasos anteriores para leer el contenido del otro conjunto de datos de ejemplo en el widget.
Leer el contenido de un archivo CSV en el widget
Escenario: Quiere leer el contenido de un archivo CSV dentro del área de trabajo de Azure Databricks en el widget.
Haga clic en Databricks: Read CSV file from DBFS.
Nota
Si Databricks: Read CSV file from DBFS no está visible, borre el widget con la opción 1 e inténtelo de nuevo.
En el panel Leer CSV de DBFS, vaya a la ubicación que contiene el archivo CSV de destino.
Seleccione el archivo CSV de destino.
En Dataframe name, escriba un nombre para el identificador de programación del contenido del archivo CSV, como DataFrame, o deje df como identificador de programación predeterminado.
Para separador de valores CSV, escriba el carácter que separa los valores en el archivo CSV o deje el carácter , (coma) como separador de valor predeterminado.
En Decimal separator, escriba el carácter que separa los decimales del archivo CSV o deje el carácter o (punto) como separador de valores predeterminado.
Para el límite de filas , lea las primeras N filas; deje en blanco para no aplicar ningún límite, escriba el número máximo de filas que se van a leer en el widget o deje 100000 como número predeterminado de filas, o deje este cuadro vacío para no especificar un límite de filas.
Haga clic en Abrir archivo CSV.
El widget muestra el contenido del archivo CSV, en función de la configuración especificada.
Sugerencia
Puede cambiar el widget actual para mostrar el contenido de un archivo CSV diferente:
- En el widget actual, haga clic en la pestaña Read CSV from DBFS.
- Siga los pasos anteriores para leer el contenido del otro archivo CSV en el widget.
Leer el contenido de una tabla de base de datos en el widget
Escenario: Usted quiere leer el contenido de una tabla de base de datos en el widget del área de trabajo de Azure Databricks.
Haga clic en Databricks: Load database table.
Nota
Si Databricks: Load database table no está visible, borre el widget con la opción 1 e inténtelo de nuevo.
En el panel Databricks: Load database table, en Database - leave empty for default database, escriba el nombre de la base de datos en la que se encuentra la tabla de destino, o deje este cuadro vacío para especificar la base de datos predeterminada.
En Table, escriba el nombre de la tabla de destino.
En Row limit: read the first N rows - leave empty for no limit, escriba el número máximo de filas que se van a leer en el widget, o deje 100000 como número predeterminado de filas, o bien deje este cuadro vacío para no especificar ningún límite de filas.
En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
Haga clic en Ejecutar.
El widget muestra el contenido de la tabla, en función de la configuración especificada.
Sugerencia
Puede cambiar el widget actual para mostrar el contenido de una tabla diferente:
- En el widget actual, haga clic en la pestaña Databricks: Load database table.
- Siga los pasos anteriores para leer el contenido de la otra tabla en el widget.
Tareas de acciones con datos
bamboolib ofrece más de 50 acciones de datos. A continuación se muestran algunas de las tareas básicas y más comunes de acción con los datos.
En esta sección:
- Seleccionar columnas
- Eliminar columnas
- Filtrar filas
- Ordenar filas
- Tareas de agrupación de filas y columnas
- Quitar filas con valores que faltan
- Quitar filas duplicadas
- Buscar y reemplazar los valores que faltan
- Crear una fórmula de columna
Seleccionar columnas
Escenario: solo quiere mostrar columnas de tabla específicas por nombre, por tipo de datos o que coincidan con alguna expresión regular. Por ejemplo, en el conjunto de datos Sales ficticio, solo desea mostrar las columnas item_type
y sales_channel
, o bien solo desea mostrar las columnas que contienen la cadena _date
en sus nombres de columna.
- En la pestaña Data, en la lista desplegable Search actions, elija una de las opciones siguientes:
- Escriba , seleccioney, a continuación, seleccione para seleccionar o eliminar columnas.
- Elija Select or drop columns.
- En el panel Select or drop columns, en la lista desplegable Choose, elija Select.
- Seleccione los nombres de columna de destino o el criterio de inclusión.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Eliminar columnas
Escenario: quiere ocultar columnas de tabla específicas por nombre, por tipo de datos o que coincidan con alguna expresión regular. Por ejemplo, en el conjunto de datos ficticio Sales, quiere ocultar las columnas order_prio
, order_date
y ship_date
, o bien desea ocultar todas las columnas que contengan solo valores de fecha y hora.
- En la pestaña de datos , en la lista desplegable Acciones de búsqueda, realice una de las siguientes acciones:
- Escriba drop y, a continuación, elija Select or drop columns.
- Elija Select or drop columns.
- En el panel Select or drop columns, en la lista desplegable Choose, elija Drop.
- Seleccione los nombres de columna de destino o el criterio de inclusión.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Filtrar filas
Escenario: quiere mostrar u ocultar filas de tabla específicas en función de criterios como valores de columna específicos que coincidan o falten. Por ejemplo, en el conjunto de datos de ventas ficticio , usted quiere mostrar solo aquellas filas en las que el valor de la columna item_type
está establecido en Baby Food
.
- En la pestaña de datos , en la lista desplegable de Acciones de búsqueda , realice una de las siguientes opciones:
- Escriba filter y, a continuación, seleccione Filter rows.
- Seleccione Filter rows.
- En el panel Filter rows, en la lista desplegable Choose encima dewhere, seleccione Select rows o Drop rows.
- Especifique el primer criterio de filtro.
- Para agregar otro criterio de filtro, haga clic en agregar condicióny especifique el siguiente criterio de filtro. Repita a voluntad.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Ordenar filas
escenario: quiere ordenar filas de tabla en función de los valores de una o varias columnas. Por ejemplo, en el conjunto de datos ficticio Sales , quiere mostrar las filas según los valores de la columna region
en orden alfabético de la A a la Z.
- En la pestaña Datos, en la lista desplegable Acciones de búsqueda, realice una de las siguientes acciones:
- Escriba sort y, a continuación, seleccione Sort rows.
- Seleccione Ordenar filas.
- En el panel Sort column(s), elija la primera columna por la que ordenar y el criterio de ordenación.
- Para agregar otro criterio de ordenación, haga clic en agregar columnay especifique el siguiente criterio de ordenación. Repita tanto como desee.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Tareas de agrupación de filas y columnas
En esta sección:
- Agrupar filas y columnas mediante una sola función de agregado
- Agrupar filas y columnas por varias funciones de agregado
Agrupar filas y columnas por una sola función de agregado
escenario: quiere mostrar los resultados de fila y columna mediante agrupaciones calculadas y quiere asignar nombres personalizados a esas agrupaciones. Por ejemplo, en el conjunto de datos Ventas ficticio, quiere agrupar las filas por los valores de la columna country
, mostrando los números de filas que contienen el mismo valor de country
y dando a la lista de recuentos calculados el nombre country_count
.
- En la pestaña de datos , en la lista desplegable de Acciones de búsqueda, realice una de las siguientes acciones:
- Escriba group y, luego, seleccione Group by and aggregate (with renaming).
- Seleccione Group by and aggregate (with renaming).
- En el panel Group by with column rename, seleccione las columnas por las que agrupar, el primer cálculo y, de manera opcional, especifique un nombre para la columna calculada.
- Para agregar otro cálculo, haga clic en agregar cálculoy especifique el siguiente cálculo y el nombre de la columna. Repita según desee.
- Especifique dónde almacenar el resultado.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Agrupar filas y columnas por varias funciones de agregado
Escenario: quiere mostrar los resultados de fila y columna mediante agrupaciones calculadas. Por ejemplo, en el conjunto de datos de ventas ficticias , quiere agrupar las filas por los valores de las columnas region
, country
y sales_channel
, mostrando el número de filas que contienen los mismos valores de region
y country
por sales_channel
, así como el total_revenue
por la combinación única de region
, country
y sales_channel
.
- En la pestaña Data, en la lista desplegable Search actions, elija una de las opciones siguientes:
- Escriba group y, luego, seleccione Group by and aggregate (default).
- Seleccione Group by and aggregate (default).
- En el panel Group by with column rename, seleccione las columnas por las que agrupar y el primer cálculo.
- Para agregar otro cálculo, haga clic en agregar cálculoy especifique el siguiente cálculo. Repita tantas veces como desee.
- Especifique dónde almacenar el resultado.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Quitar filas con valores que faltan
Escenario: desea quitar cualquier fila que tenga un valor que falte para las columnas especificadas. Por ejemplo, en el conjunto de datos ficticio Sales, quiere quitar las filas que tengan un valor de item_type
faltante.
- En la pestaña de datos , en la lista desplegable de acciones de búsqueda , realice una de las siguientes acciones:
- Escriba eliminar o eliminar, y a continuación, seleccione Eliminar valores que faltan.
- Seleccione Quitar valores que faltan.
- En el panel Quitar valores que faltan , seleccione las columnas para quitar cualquier fila que tenga un valor que falta para esa columna.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Quitar filas duplicadas
Escenario: desea eliminar cualquier fila que contenga un valor duplicado en las columnas especificadas. Por ejemplo, en el conjunto de datos ficticio Sales, quiere quitar todas las filas que estén exactamente duplicadas entre sí.
- En la pestaña Datos, en la lista desplegable Acciones de búsqueda, realice una de las siguientes acciones:
- Escriba eliminar o eliminar, y luego seleccione Eliminar/Quitar duplicados.
- Seleccione Drop/Remove duplicates.
- En el panel Quitar duplicados, seleccione las columnas para quitar cualquier fila que tenga un valor duplicado para esas columnas y, a continuación, seleccione si desea conservar la primera o la última fila que tenga el valor duplicado.
- En Dataframe name, escriba un nombre para el identificador de programación del contenido de la tabla, como DataFrame, o deje df como identificador de programación predeterminado.
- Haga clic en Ejecutar.
Buscar y reemplazar los valores que faltan
escenario: desea reemplazar el valor que falta por un valor de reemplazo para cualquier fila con las columnas especificadas. Por ejemplo, en el conjunto de datos ficticio Sales, quiere reemplazar cualquier valor que falta en una fila de la columna item_type
con el valor Unknown Item Type
.
- En la pestaña de datos , en la lista desplegable de acciones de búsqueda , realice una de las siguientes acciones:
- Escriba buscar o reemplazary, a continuación, seleccione Buscar y reemplazar los valores que faltan.
- Seleccione Buscar y reemplace los valores que faltan.
- En el panel Reemplazar valores que faltan, seleccione las columnas para las que faltan valores y, a continuación, especifique el valor de reemplazo.
- Haga clic en Ejecutar.
Creación de una fórmula de columna
Escenario: quiere crear una columna que use una fórmula única. **
Por ejemplo, en el conjunto de datos ficticio Sales, quiere crear una columna denominada profit_per_unit
que muestre el resultado de dividir el valor de la columna total_profit
por el valor de la columna units_sold
para cada fila.
- En la pestaña Datos, en la lista desplegable de Acciones de búsqueda , realice una de las siguientes acciones:
- Escriba fórmulay seleccione Nueva fórmula de columna.
- Seleccione New column formula.
- En el panel Reemplazar valores que faltan, seleccione las columnas para las que faltan valores y, a continuación, especifique el valor de reemplazo.
- Haga clic en Ejecutar.
Tareas del historial acciones con datos
En esta sección:
- Ver la lista de acciones realizadas en el widget
- Deshacer la acción más reciente realizada en el widget
- Rehacer la acción más reciente realizada en el widget
- Cambiar la acción más reciente realizada en el widget
Visualización de la lista de acciones realizadas en el widget
Escenario: quiere ver una lista de todos los cambios del widget, empezando por el cambio más reciente.
Haga clic en History. La lista de acciones aparece en el panel Transformations history.
Deshacer la acción más reciente realizada en el widget
Escenario: Quieres revertir el cambio más reciente realizado en el widget.
Realice una de las acciones siguientes:
- Haga clic en el icono de flecha en sentido contrario a las agujas del reloj.
- Haga clic en History y, en el panel Transformations history, haga clic en Undo last step.
Rehacer la acción más reciente realizada en el widget
Escenario: Quiere revertir la reversión más reciente que se realizó en el widget.
Realice una de las acciones siguientes:
- Haga clic en el icono de flecha en el sentido de las agujas del reloj.
- Haga clic en History y, en el panel Transformations history, haga clic en Recover last step.
Cambiar la acción más reciente realizada en el widget
Escenario: Usted quiere cambiar el cambio más reciente que se realizó en el widget.
- Realice una de las acciones siguientes:
- Haga clic en el icono de lápiz.
- Haga clic en History y, en el panel Transformations history, haga clic en Edit last step.
- Realice el cambio deseado y, a continuación, haga clic en Ejecutar.
Obtener código para volver a crear mediante programación el estado actual del widget como dataframe
Escenario: Usted quiere obtener código de Python que reproduzca mediante programación el estado del widget actual, representado como un Pandas DataFrame. Quiere ejecutar este código en otra celda de este libro o en otro libro.
Haga clic en Obtener código.
En el panel Export code, haga clic en Copy code. El código se copia en el Portapapeles del sistema.
Pegue el código en otra celda de este libro o en otro libro.
Escriba código adicional para trabajar con este DataFrame de Pandas mediante programación y, a continuación, ejecute la celda. Por ejemplo, para mostrar el contenido del DataFrame, suponiendo que este se representa programáticamente por
df
:# Your pasted code here, followed by... df
Limitaciones
Para más información, consulte Limitaciones conocidas de los cuadernos de Databricks.