インターネットからデータをダウンロードする

[アーティクル]
08/16/2024

この記事では、インターネットから Azure Databricks にデータを追加するパターンについて説明します。

Azure Databricks にはインターネットからデータをダウンロードするためのネイティブツールは用意されていませんが、サポートされている言語でオープンソースツールを使用して、ノートブックを用いたファイルをダウンロードできます。

Databricks では、表形式以外のすべてのデータを保存するために Unity カタログボリュームを使用することをお勧めします。必要に応じて、ダウンロード時にボリュームを宛先として指定することも、ダウンロード後にデータをボリュームに移動することもできます。

Note

出力パスを指定しない場合、ほとんどのオープンソースツールはエフェメラルストレージ内のディレクトリを対象とします。「エフェメラルストレージにファイルをダウンロードする」を参照してください。

ボリュームでは、ランダム書き込みはサポートされません。ダウンロードしたファイルを解凍する必要がある場合、Databricks では、ボリュームに移動する前にエフェメラルストレージにダウンロードして解凍することをお勧めします。「Zip 圧縮ファイルを展開して読み取る」を参照してください。

クラウドオブジェクトストレージからデータにアクセスする場合、Apache Spark で直接データにアクセスした方が良い結果が得られます。データソースへの接続に関するページを参照してください。

ワークスペースの構成によっては、パブリックインターネットにアクセスできない場合があります。ネットワークアクセスを拡張する必要がある場合は、ワークスペース管理者にお問い合わせください。

ボリュームにファイルをダウンロードする

Databricks では、表形式以外のすべてのデータを Unity カタログボリュームに保存することをお勧めします。

以下の例では、Bash、Python、Scala のパッケージを使用して、ファイルを Unity カタログボリュームにダウンロードします。

Bash

%sh curl https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv --output /Volumes/my_catalog/my_schema/my_volume/curl-subway.csv

Python

import urllib
urllib.request.urlretrieve("https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv", "/Volumes/my_catalog/my_schema/my_volume/python-subway.csv")

Scala

import java.net.URL
import java.io.File
import org.apache.commons.io.FileUtils

FileUtils.copyURLToFile(new URL("https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv"), new File("/Volumes/my_catalog/my_schema/my_volume/scala-subway.csv"))

エフェメラルストレージにファイルをダウンロードする

次の例では、Bash、Python、Scala のパッケージを使用して、ドライバーにアタッチされているエフェメラルストレージにファイルをダウンロードします。

Bash

%sh curl https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv --output /tmp/curl-subway.csv

Python

import urllib
urllib.request.urlretrieve("https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv", "/tmp/python-subway.csv")

Scala

import java.net.URL
import java.io.File
import org.apache.commons.io.FileUtils

FileUtils.copyURLToFile(new URL("https://data.cityofnewyork.us/api/views/kk4q-3rt2/rows.csv"), new File("/tmp/scala-subway.csv"))

これらのファイルはドライバーにアタッチされているエフェメラルストレージにダウンロードされるため、以下の例のように %sh を使用してこれらのファイルを表示します。

%sh ls /tmp/

このようにしてダウンロードしたファイルは、以下の例のように Bash コマンドでそのコンテンツをプレビューすることができます。

%sh head /tmp/curl-subway.csv

dbutils を使用してデータを移動する

Apache Spark を使用してデータにアクセスするには、エフェメラルストレージからクラウドオブジェクトストレージに移動する必要があります。 Databricks では、クラウドオブジェクトストレージへのすべてのアクセスを管理するためにボリュームを使用することをお勧めします。データソースへの接続に関するページを参照してください。

Databricks Utilities (dbutils) を使用すると、ドライバーにアタッチされているエフェメラルストレージから Unity カタログボリュームなどの他の場所にファイルを移動できます。次の例では、データをボリュームの例に移動します。

dbutils.fs.mv("file:/tmp/curl-subway.csv", "/Volumes/my_catalog/my_schema/my_volume/subway.csv")

ダウンロードしたデータを読み取る

データをボリュームに移動した後は、通常どおりにデータを読み取ることができます。次のコードでは、ボリュームに移動した CSV データを読み取ります。

df = spark.read.format("csv").option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/subway.csv")
display(df)

次の方法で共有

インターネットからデータをダウンロードする

ボリュームにファイルをダウンロードする

Bash

Python

Scala

エフェメラルストレージにファイルをダウンロードする

Bash

Python

Scala

dbutils を使用してデータを移動する

ダウンロードしたデータを読み取る

フィードバック

その他のリソース

次の方法で共有

インターネットからデータをダウンロードする

ボリュームにファイルをダウンロードする

Bash

Python

Scala

エフェメラル ストレージにファイルをダウンロードする

Bash

Python

Scala

dbutils を使用してデータを移動する

ダウンロードしたデータを読み取る

フィードバック

その他のリソース

エフェメラルストレージにファイルをダウンロードする