Partilhar via


Conjuntos de dados de exemplo

Há uma variedade de conjuntos de dados de exemplo fornecidos pelo Azure Databricks e disponibilizados por terceiros que você pode usar em seu espaço de trabalho do Azure Databricks.

Conjuntos de dados do Catálogo Unity

O Unity Catalog fornece acesso a vários conjuntos de dados de exemplo no samples catálogo. Você pode revisar esses conjuntos de dados na interface do usuário do Catalog Explorer e fazer referência a eles diretamente em um bloco de anotações ou no editor SQL usando o <catalog-name>.<schema-name>.<table-name> padrão.

O nyctaxi esquema (também conhecido como banco de dados) contém a tabela trips, que tem detalhes sobre corridas de táxi na cidade de Nova York. A instrução a seguir retorna os primeiros 10 registros nesta tabela:

SELECT * FROM samples.nyctaxi.trips LIMIT 10

O tpch esquema contém dados do TPC-H Benchmark. Para listar as tabelas neste esquema, execute:

SHOW TABLES IN samples.tpch

Conjuntos de dados de exemplo de terceiros em formato CSV

O Azure Databricks tem ferramentas internas para carregar rapidamente conjuntos de dados de exemplo de terceiros como arquivos CSV (valores separados por vírgula) nos espaços de trabalho do Azure Databricks. Alguns conjuntos de dados de exemplo de terceiros populares disponíveis no formato CSV:

Conjunto de dados de exemplo Para baixar o conjunto de dados de exemplo como um arquivo CSV...
O Censo do Esquilo Na página da Web Dados, clique em Estacionar Dados,
Dados do Esquilo, ou Histórias.
Coleção de conjuntos de dados OWID No repositório GitHub, clique na pasta de conjuntos de dados. Clique na subpasta que contém o conjunto de dados de destino e, em seguida, clique no arquivo CSV do conjunto de dados.
Data.gov conjuntos de dados CSV Na página Web de resultados da pesquisa, clique no resultado da pesquisa de destino e, junto ao ícone CSV , clique em Transferir.
Diamantes (Requer uma conta Kaggle ) Na página da Web do conjunto de dados, na guia Dados , na guia Dados , ao lado de diamonds.csv, clique no ícone Download .
Duração da viagem de táxi de NYC (requer uma conta Kaggle ) Na página da Web do conjunto de dados, na guia Dados , ao lado de sample_submission.zip, clique no botão
Ícone de download . Para localizar os arquivos CSV do conjunto de dados, extrai o conteúdo do arquivo ZIP baixado.

Para usar conjuntos de dados de exemplo de terceiros em seu espaço de trabalho do Azure Databricks, faça o seguinte:

  1. Siga as instruções de terceiros para baixar o conjunto de dados como um arquivo CSV para sua máquina local.
  2. Carregue o arquivo CSV de sua máquina local em seu espaço de trabalho do Azure Databricks.
  3. Para trabalhar com os dados importados, use o Databricks SQL para consultar os dados. Ou você pode usar um bloco de anotações para carregar os dados como um DataFrame.

Conjuntos de dados de exemplo de terceiros em bibliotecas

Alguns terceiros incluem conjuntos de dados de exemplo dentro de bibliotecas, como pacotes Python Package Index (PyPI) ou pacotes Comprehensive R Archive Network (CRAN). Para obter mais informações, consulte a documentação do provedor da biblioteca.

Conjuntos de dados Databricks (databricks-datasets) montados no DBFS

O Azure Databricks recomenda não usar DBFS e armazenamento de objetos na nuvem montado para a maioria dos casos de uso em espaços de trabalho Databricks habilitados para Unity Catalog. Alguns conjuntos de dados de exemplo montados no DBFS estão disponíveis no Azure Databricks

Nota

A disponibilidade e a localização dos conjuntos de dados Databricks estão sujeitas a alterações sem aviso prévio.

Procurar conjuntos de dados Databricks montados no DBFS

Para procurar esses arquivos a partir de um notebook Python, Scala ou R, você pode usar a referência Databricks Utilities (dbutils). O código a seguir lista todos os conjuntos de dados Databricks disponíveis.

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"