Conjuntos de dados de exemplo

Artigo
01/22/2025

Há uma variedade de conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você pode usar em seu espaço de trabalho do Azure Databricks.

Conjuntos de dados do Catálogo Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no samples catálogo. Você pode revisar esses conjuntos de dados na interface do usuário do padrão.

O nyctaxi esquema (também conhecido como banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O tpch esquema contém dados do TPC-H Benchmark. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados de exemplo de terceiros em formato CSV

O Azure Databricks tem ferramentas internas para carregar rapidamente conjuntos de dados de exemplo de terceiros como arquivos CSV (valores separados por vírgula) nos espaços de trabalho do Azure Databricks. Alguns conjuntos de dados de exemplo de terceiros populares disponíveis no formato CSV:

Conjunto de dados de exemplo	Para baixar o conjunto de dados de exemplo como um arquivo CSV...
O Censo do Esquilo	Na página da Web Dados, clique em Estacionar Dados, Dados do Esquilo, ou Histórias.
Coleção de conjuntos de dados OWID	No repositório GitHub, clique na pasta de conjuntos de dados. Clique na subpasta que contém o conjunto de dados de destino e, em seguida, clique no arquivo CSV do conjunto de dados.
Data.gov conjuntos de dados CSV	Na página Web de resultados da pesquisa, clique no resultado da pesquisa de destino e, junto ao ícone CSV , clique em Transferir.
Diamantes (Requer uma conta Kaggle )	Na página da Web do conjunto de dados, na guia Dados , na guia Dados , ao lado de diamonds.csv, clique no ícone Download .
Duração da viagem de táxi de NYC (requer uma conta Kaggle )	Na página da Web do conjunto de dados, na guia Dados , ao lado de sample_submission.zip, clique no botão Ícone de download . Para localizar os arquivos CSV do conjunto de dados, extrai o conteúdo do arquivo ZIP baixado.

Para usar conjuntos de dados de exemplo de terceiros em seu espaço de trabalho do Azure Databricks, faça o seguinte:

Siga as instruções de terceiros para baixar o conjunto de dados como um arquivo CSV para sua máquina local.
Carregue o arquivo CSV de sua máquina local em seu espaço de trabalho do Azure Databricks.
Para trabalhar com os dados importados, use o Databricks SQL para consultar os dados. Ou você pode usar um bloco de anotações para carregar os dados como um DataFrame.

Conjuntos de dados de exemplo de terceiros em bibliotecas

Alguns terceiros incluem conjuntos de dados de exemplo dentro de bibliotecas, como pacotes Python Package Index (PyPI) ou pacotes Comprehensive R Archive Network (CRAN). Para obter mais informações, consulte a documentação do provedor da biblioteca.

Para instalar uma biblioteca em um cluster do Azure Databricks usando a interface do usuário do cluster, consulte Bibliotecas de cluster.
Para instalar uma biblioteca Python usando um bloco de anotações do Azure Databricks, consulte Bibliotecas Python com escopo de bloco de anotações.
Para instalar uma biblioteca R usando um bloco de anotações do Azure Databricks, consulte Bibliotecas R com escopo de bloco de anotações.

Conjuntos de dados Databricks (databricks-datasets) montados no DBFS

O Azure Databricks recomenda não usar DBFS e armazenamento de objetos na nuvem montado para a maioria dos casos de uso em espaços de trabalho Databricks habilitados para Unity Catalog. Alguns conjuntos de dados de exemplo montados no DBFS estão disponíveis no Azure Databricks

Nota

A disponibilidade e a localização dos conjuntos de dados Databricks estão sujeitas a alterações sem aviso prévio.

Procurar conjuntos de dados Databricks montados no DBFS

Para procurar esses arquivos a partir de um notebook Python, Scala ou R, você pode usar a referência Databricks Utilities (dbutils). O código a seguir lista todos os conjuntos de dados Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"

Partilhar via