zip 形式のデータセットのアンパック
ユーザー ストレージ内の zip パッケージからデータセットをアンパックします
カテゴリ: データの入力と出力
注意
適用対象: Machine Learning Studio (クラシック) のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
モジュールの概要
この記事では、Machine Learning Studio (クラシック) で Zip 圧縮データセットのアンパック モジュールを使用して、データファイルとスクリプト ファイルを圧縮形式でアップロードし、実験で使用するために解凍する方法について説明します。
このモジュールの目的は、データ ファイルを圧縮形式で保存してアップロードすることで、非常に大規模なデータセットを操作する場合のデータ転送時間を短縮することです。 一般に、アップロード時間と関連コストを最小限に抑えるために、アップロードに圧縮を使用する必要があるデータセットが非常に大きい場合は、ファイルの圧縮が有効です。
モジュールは、ワークスペース内のデータセットを入力として受け取ります。 データセットは圧縮形式でアップロードされている必要があります。 次に、モジュールによってデータセットが圧縮解除され、ワークスペースにデータが追加されます。
Zip 圧縮されたデータセットをアンパックする方法
このセクションでは、データを準備し、それを Machine Learning Studio (クラシック) に解凍する方法について説明します。
手順 1. ファイルの準備
ファイルをアップロードする前に、次の方法でファイル内のデータを使用Machine Learning。
ファイル内のデータが UTF-8 エンコードを使用するようにします。
ファイルが十分に小さい場合は、ファイルを メモ帳開き、目的のエンコードでファイルを保存できます。 他の多くのテキスト エディターでも同様の機能が提供されています。 CSV ファイルの場合は、Excelの [名前を付けて保存] または [エクスポート] コマンドを使用して、ファイル形式とエンコードを指定できます。
データ ファイルがサポートされている形式 (CSV、TSV、ARFF、SVMLight など) を使用して確認します。
データ ファイルを または に追加して、データ.ZIP圧縮します。GZ 形式のアーカイブ ファイル。 その他のアーカイブの種類はサポートされていません。
パスワード保護を削除します。 ファイルまたは圧縮フォルダー自体が暗号化またはパスワードで保護されている場合は、アップロードする前にファイルのロックを解除または暗号化解除する必要があります。 モジュールは暗号化されたデータ型を検出できません。また、任意のクライアントからのパスワード入力のダイアログ ボックスはサポートされていません。
手順 2. アップロードデータセットをワークスペースに追加する
次に、zip 圧縮されたデータセットを実験ワークスペースにアップロードします。
[新規 ] をクリックし、[ データセット] を選択して、[ FROM LOCAL FILE]を選択します。
アップロードする zip ファイルを見つける。 ファイルを選択すると、種類は自動的に Zip ファイル (.zip ) に設定されます。
手順 3. zip 圧縮されたデータセットを実験に追加する
データセットが完全にアップロードされた後、それを zip 形式で実験に追加します。
Machine Learning Studio (クラシック) の左側のナビゲーション ウィンドウで、[保存されたデータセット] を選択し、[マイ データセット] を展開します。
アップロードした zip 圧縮されたデータセットを見つけて、実験キャンバスにドラッグします。
手順 4. データセットをアンパックする
最後の手順では、データセットをアンパックします。
Connect圧縮されたデータセットを、Zip 圧縮されたデータセットのアンパック モジュールの入力に追加します。
[ アンパックするデータセット] に、アンパックする 1 つのデータセットの名前を入力します。
sheet1 という名前のワークシートをTest.csv という名前の Excel CSV ファイルとして保存した場合、データセットの名前は Sheet1 ではなくTest.csvになります。
[アンパックするデータセット] テキスト ボックスに入力する名前は、ファイル名の拡張子を含め、圧縮前の元のファイルの名前とまったく同じである必要があります。 たとえば、 のテキスト ファイルに基づいてデータセットをアンパックする場合Users.txt、Users ではなく Users.txt入力します。
複数のファイルを 1 つの圧縮フォルダーに格納する場合は、一度に 1 つのデータセットをアンパックする必要があります。
ヒント
プロパティを空白のままにすると、圧縮されたアーカイブ ファイルに含まれるソース ファイルが 1 つのみである場合、モジュールは zip ファイルからファイル名を取得します。 圧縮されたアーカイブに複数のファイルが含まれている場合は、実行時エラーが発生します。
[ データセット ファイル形式] には、データセットの元の形式 (つまり、圧縮前の形式) を指定します。
CSV、ARFF、TSV、SvmLight の形式を使用して作成されたデータセットをアップロードおよび解凍できます。
このプロパティが空の場合、モジュールはソース ファイル名を使用してデータセットを識別します。
元のデータセットにヘッダー 行がある場合は、 [ファイルにはヘッダー行があります] オプションを選択します。 それ以外の場合は、データの最初の行がヘッダーとして使用されます。 これが望みではない場合は、入力の前にヘッダーを追加します。
このオプションは、 と の.CSV適用されます。TSV ファイル。
注意
ファイルの形式を変更すると、このオプションはリセットされます。
ファイルが圧縮されている場合は、圧縮ファイル形式オプションを使用して、ファイルの圧縮または展開に使用されたアルゴリズムを指定します。
現在、.ZIP GZ (または Gzip) 形式がサポートされています。
実験を実行します。
結果
データが正しくインポートされていることを確認するには、アンパックされた Zip データセット モジュールを右クリックし、 [視覚化] を 選択します 。
データセットの名前を変更するには、 Unpacked Zipped Datasets モジュールを右クリックし、[ データセットとして保存 ] を選択します。 この時点で、別の名前を入力できます。
このオプションは、1 つの ZIP ファイルから複数のデータセットを開梱する場合に便利です。
例
このモジュールのしくみを示すサンプル ファイルを作成し、4 .ZIP CSV ファイルを含むファイルを作成しました。 すべてのファイルは、 から保存Excel。
ファイル名 | 説明 |
---|---|
names-uni.csv | 列見出しを含む Unicode ファイル |
names-utf.csv | 列見出しを含む UTF-8 ファイル |
nonames-uni.csv | 列見出しがない Unicode ファイル |
nonames-utf8.csv | 列見出しがない UTF-8 ファイル |
ZIP ファイル全体がアップロードされた後、Zip 圧縮データセットのアンパック モジュールが 4 回実行され、次の設定を使用して 4 つの各ファイルが抽出されました。
- アンパックするデータセット = names-uni.csvファイル のヘッダー行 = TRUE
- アンパックするデータセット = names-utf8.csvファイル のヘッダー行 = TRUE
- アンパックするデータセット = nonames-uni.csv、 File has header row = FALSE
- アンパックするデータセット = nonames-utf8.csv、 File has header row = FALSE
結果は期待通りでした。
ファイル名 | アップロード結果 |
---|---|
names-uni.csv | エラー 0049: ファイルの解析中にエラーが発生しました。 ファイルが Unicode (UTF-8) でエンコードされていない |
names-utf8.csv | 成功しました。 ソース ファイルの元の列名を使用します。 |
nonames-uni.csv | エラー 0049: ファイルの解析中にエラーが発生しました。 ファイルが Unicode (UTF-8) でエンコードされていない |
nonames-utf8.csv | 成功しました。 列名 Col1、col2、...coln は データセットに自動的に追加されます。 |
注意
オプション File has header row = TRUE を使用し、ソース ファイルに実際には列見出しが存在しない場合、データの最初の行が列見出しとして使用されます。
テクニカル ノート
このモジュールを使用して、zip 圧縮された R パッケージをワークスペースにアンパックすることはできません。 R パッケージは、zip 形式のファイルとしてアップロードして使用する必要があります。
zip 圧縮された R パッケージの操作方法の詳細については、「R スクリプトの実行 」を参照してください。
注意
UTF-8 と Unicode の違いについて混乱していますか? Wikipedia の記事「 UTF-8 とは」を参照してください
モジュールのパラメーター
名前 | Range | Type | Default | 説明 |
---|---|---|---|---|
圧縮ファイル形式 | Zip Gzip |
圧縮ルール | Zip | ファイルの圧縮または展開に使用される圧縮アルゴリズム。 |
アンパックするデータセット | Any | String | なし | Azure ML Studio (クラシック) に登録するデータセットの名前。 データセットの名前を指定しない場合、その名前は zip 形式のファイル内のファイル名から取得されます。 |
データセット ファイル形式 | CSV TSV ARFF SVMLIGHT |
ファイル形式 | CSV | zip ファイル内のデータセットのファイル形式 |
ヘッダー行があるファイル | TRUE または FALSE | Boolean | False | CSV/ TSV ファイルにヘッダー行がある場合にのみ True に設定します |
想定される入力
名前 | 型 | 説明 |
---|---|---|
データセット | Zip | データセットを含む Zip ファイル |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | データ テーブル | 出力データセット |