次の方法で共有


サンプル データセット

Azure Databricks ワークスペースで使用できるさまざまなデータセットが、Azure Databricks およびサード パーティによって提供されています。

Unity Catalog データセット

Unity Catalog では、samples カタログ内の多数のサンプル データセットにアクセスできます。 これらのデータセットは、Catalog Explorer の UI で確認し、ノートブック または SQL エディター で、<catalog-name>.<schema-name>.<table-name> パターンを使用して直接参照できます。

nyctaxi スキーマ (データベースとも呼ばれます) には、ニューヨーク市のタクシー乗車に関する詳細を含むテーブル trips が含まれています。 次のステートメントを使用すると、このテーブルの最初の 10 個のレコードが返されます。

SELECT * FROM samples.nyctaxi.trips LIMIT 10

tpch スキーマには、TPC-H ベンチマークのデータが含まれています。 このスキーマのテーブルを一覧表示するには、次を実行します。

SHOW TABLES IN samples.tpch

CSV 形式のサード パーティのサンプル データセット

Azure Databricks には、サードパーティのサンプル データセットをコンマ区切り値 (CSV) ファイルとして Azure Databricks ワークスペースにすばやくアップロードするためのツールが組み込まれています。 CSV 形式で利用できる一般的なサード パーティ製サンプル データセットの一部:

サンプル データセット サンプル データセットを CSV ファイルとしてダウンロードするには…
リスの国勢調査 [データ] Web ページで、[データのパーク] をクリックします。
リスデータ、または ストーリー
OWID データセット コレクション GitHub リポジトリで、データセット フォルダーをクリックします。 ターゲット データセットを含むサブフォルダーをクリックし、データセットの CSV ファイルをクリックします。
CSV データセットの Data.gov 検索結果 Web ページで、対象の検索結果をクリックし、CSV アイコンの横にある [ダウンロード] をクリックします。
ダイヤモンド (Kaggle アカウントが必要) データセットの Web ページの [データ] タブで、 [データ] タブの [diamonds.csv] の横にある [ダウンロード] アイコンをクリックします。
NYC タクシー乗車時間 (Kaggle アカウントが必要) データセットの Web ページで、[データ] タブの [sample_submission.zip] の横にある
ダウンロード アイコンをクリックします。 データセットの CSV ファイルを検索するには、ダウンロードした ZIP ファイルの内容を抽出します。

Azure Databricks ワークスペースでサードパーティのサンプル データセットを使用するには、次の操作を行います。

  1. サード パーティの指示に従って、データセットを CSV ファイルとしてローカル コンピューターにダウンロードします。
  2. ローカル コンピューターから Azure Databricks ワークスペースに CSV ファイルをアップロードします。
  3. インポートされたデータを操作するには、Databricks SQL を使用してデータを照会します。 または、ノートブックを使用してデータを DataFrame として読み込むことができます

ライブラリ内のサードパーティのサンプル データセット

一部のサード パーティには、Python パッケージ インデックス (PyPI) パッケージや包括的な R アーカイブ ネットワーク (CRAN) パッケージなど、ライブラリ内のサンプル データセットが含まれています。 詳細については、ライブラリ プロバイダーのドキュメントを参照してください。

DBFS にマウントされた Databricks データセット (databricks-datasets)

Azure Databricks では、Unity カタログ対応 Databricks ワークスペースのほとんどのユース ケースにおいて、DBFS とマウントされたクラウド オブジェクト ストレージを使用しないことをお勧めします。 DBFS にマウントされたサンプル データセットの一部は、Azure Databricks で使用できます

Note

Databricks データセットの可用性と場所は、予告なく変更される場合があります。

DBFS にマウントされた Databricks データセットを参照する

Python、Scala、または R ノートブックからこれらのファイルを参照するには、Databricks ユーティリティ (dbutils) リファレンスを使用できます。 次のコードを使用すると、使用可能なすべての Databricks データセットが一覧表示されます。

Python

display(dbutils.fs.ls('/databricks-datasets'))

Scala

display(dbutils.fs.ls("/databricks-datasets"))

R

%fs ls "/databricks-datasets"