Conjuntos de datos de ejemplo

Artículo
11/06/2024

Hay una variedad de conjuntos de datos de ejemplo proporcionados por Azure Databricks y disponibles mediante terceros que puede usar en el área de trabajo de Azure Databricks.

Conjuntos de datos Unity Catalog

Unity Catalog proporciona acceso a varios conjuntos de datos de ejemplo en el catálogo samples. Puede revisar estos conjuntos de datos en la UI de Catalog Explorer y hacer referencia a ellos directamente en un cuaderno o en el editor SQL mediante el patrón <catalog-name>.<schema-name>.<table-name>.

El esquema nyctaxi (también conocido como base de datos) contiene la tabla trips, que tiene detalles sobre las carreras de taxi en la ciudad de Nueva York. La siguiente instrucción devuelve los primeros 10 registros de esta tabla:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

El esquema tpch contiene datos del punto de referencia TPC-H. Para enumerar las tablas de este esquema, ejecute:

SHOW TABLES IN samples.tpch

Conjuntos de datos de ejemplo de terceros en formato CSV

Azure Databricks tiene herramientas integradas para cargar rápidamente conjuntos de datos de ejemplo de terceros como archivos de valores separados por comas (CSV) en áreas de trabajo de Azure Databricks. Estos son algunos conjuntos de datos de ejemplo populares de terceros que están disponibles en formato CSV:

Conjunto de datos de ejemplo	Para descargar el conjunto de datos de ejemplo como un archivo .csv…
The Squirrel Census	En la página web Data (Datos), haga clic en Park Data (Datos de parque), Squirrel Data (Datos de ardilla) o Stories (Historias).
OWID Dataset Collection	En el repositorio de GitHub, haga clic en la carpeta datasets. Haga clic en la subcarpeta que contiene el conjunto de datos de destino y, luego, haga clic en el archivo .csv del conjunto de datos.
Conjuntos de datos CSV de Data.gov	En la página web de resultados de la búsqueda, haga clic en el resultado de la búsqueda de destino y, junto al icono CSV, haga clic en Download (Descargar).
Diamonds (requiere una cuenta de Kaggle)	En la página web del conjunto de datos, en la pestaña Data (Datos), junto a diamonds.csv, haga clic en el icono de descarga.
NYC Taxi Trip Duration (requiere una cuenta de Kaggle)	En la página web del conjunto de datos, en la pestaña Data (Datos), junto a sample_submission.zip, haga clic en el icono de descarga. Para encontrar los archivos .csv del conjunto de datos, extraiga el contenido del archivo ZIP descargado.

Para usar conjuntos de datos de ejemplo de terceros en el área de trabajo de Azure Databricks, haga lo siguiente:

Siga las instrucciones del tercero en cuestión para descargar el conjunto de datos como un archivo .csv en el equipo local.
Cargue el archivo .csv desde el equipo local en el área de trabajo de Azure Databricks.
Para trabajar con los datos importados, use Databricks SQL para consultar los datos. También puede usar un cuaderno para cargar los datos como un dataframe.

Conjuntos de datos de ejemplo de terceros dentro de bibliotecas

Algunos terceros incluyen conjuntos de datos de ejemplo dentro de bibliotecas, como paquetes del Índice de paquetes de Python (PyPI) o paquetes de la Red de archivo de R completo (CRAN). Para obtener más información, consulte la documentación del proveedor de bibliotecas.

Para instalar una biblioteca en un clúster de Azure Databricks mediante la interfaz de usuario del clúster, consulte Bibliotecas de clústeres.
Para instalar una biblioteca de Python mediante un cuaderno de Azure Databricks, consulte Bibliotecas de Python con ámbito de cuaderno.
Para instalar una biblioteca de R mediante un cuaderno de Azure Databricks, consulte Bibliotecas de R con ámbito de cuaderno.

Conjuntos de datos Databricks (databricks-datasets) montados en DBFS

Azure Databricks recomienda no utilizar DBFS y el almacenamiento de objetos en la nube montado para la mayoría de los casos de uso en las áreas de trabajo de Databricks habilitadas para Unity Catalog. Algunos conjuntos de datos de ejemplo montados en DBFS están disponibles en Azure Databricks

Nota:

La disponibilidad y la ubicación de los conjuntos de datos de Databricks están sujetas a cambios sin previo aviso.

Examinar conjuntos de datos Databricks montados en DBFS

Para examinar estos archivos desde un cuaderno de Python, Scala o R, puede usar la referencia de las Utilidades de Databricks (dbutils). En el código siguiente se enumeran todos los conjuntos de datos de Databricks disponibles.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Compartir a través de