オンプレミスの SQL Server データベースからのインポート
重要
Machine Learning Studio (クラシック) のサポートは、2024 年 8 月 31 日に終了します。 その日までに、Azure Machine Learning に切り替えすることをお勧めします。
2021 年 12 月 1 日以降、新しい Machine Learning Studio (クラシック) リソースは作成できません。 2024 年 8 月 31 日まで、既存の Machine Learning Studio (クラシック) リソースを引き続き使用できます。
- ML Studio (クラシック) から Azure Machine Learning への機械学習プロジェクトの移動に関する情報を参照してください。
- Azure Machine Learning についての詳細を参照してください。
ML Studio (クラシック) のドキュメントは廃止予定であり、今後更新されない可能性があります。
この記事では、Machine Learning Studio (クラシック) のデータのインポートモジュールを使用して、オンプレミスの SQL Server データベースから Machine Learning の実験にデータをインポートする方法について説明します。
注意
適用対象: Machine Learning Studio (クラシック)のみ
類似のドラッグ アンド ドロップ モジュールは Azure Machine Learning デザイナーで使用できます。
Microsoft データ管理ゲートウェイを使用してデータが提供されている場合、Machine Learning はオンプレミスの SQL Server データベースにアクセスできます。 そのため、データの インポートを使用する前に、次の要件を満たす必要があります。
- データソースにアクセスできるMicrosoft データ管理ゲートウェイをインストールする
- Machine Learning ワークスペースにゲートウェイを登録する
- ゲートウェイを識別するための インポートデータ の構成
ゲートウェイ接続が確立されたら、サーバー名、データベース名、認証方法、データベースクエリなどの追加のプロパティを指定できます。
Microsoft データ管理ゲートウェイをインストールする方法
Machine Learning でオンプレミスの SQL Server データベースにアクセスするには、 Microsoft データ管理ゲートウェイをダウンロードしてインストールし、ゲートウェイを Machine Learning Studio (クラシック) に登録する必要があります。
ゲートウェイのインストールと登録の詳細については、次の記事を参照してください。
オンプレミスの SQL Server データベースからデータをインポートする方法
SQL Server データベースにアクセスできるコンピューターにデータ管理ゲートウェイをインストールし、Machine Learning Studio (クラシック) でゲートウェイを登録した後、データのインポートモジュールを構成する必要があります。
開始する前に、サイト studio.azureml.net
のブラウザーのポップアップブロックを無効にします。
Google Chrome ブラウザーを使用している場合は、Google Chrome Web ストアで提供されているプラグインの1つをダウンロードしてインストールする必要があります。 [アプリの拡張機能] をクリックします。
データ インポート ウィザードを使用する
モジュールには新しいウィザードが用意されており、ストレージオプションを選択したり、既存のサブスクリプションとアカウントの中から選択したり、すべてのオプションをすばやく構成したりすることができます。
データのインポート モジュールを実験に追加します。 モジュールは、[ データ入力と出力 ] カテゴリの [Studio (クラシック)] で見つけることができます。
[ データのインポートウィザードの起動 ] をクリックし、画面の指示に従います。
構成が完了したら、実際にデータを実験にコピーするには、モジュールを右クリックし、[選択ファイルの 実行] を選択します。
既存のデータ接続を編集する必要がある場合は、ウィザードによって以前のすべての構成の詳細が読み込まれるため、最初からやり直す必要はありません。
データのインポート モジュールのプロパティを手動で設定する
データのインポート モジュールを実験に追加します。 モジュールは、[ データ入力と出力 ] カテゴリの [Studio (クラシック)] で見つけることができます。
[データソース] で、[オンプレミスの SQL Database] を選択します。
SQL Server データベースに固有の次のオプションを設定します。
データゲートウェイ: 作成したゲートウェイを選択します。 ゲートウェイが登録されているか、一覧に表示されていません。
データベースサーバー名: SQL Server インスタンスの名前を入力します。
データベース名: データベース名を入力します。
[ユーザー名とパスワード] の下の [Enter values (値の入力)] をクリックし、データベース資格情報を入力します。 オンプレミス SQL Server の構成方法に応じて、Windows 統合認証または SQL Server 認証を使用することができます。
重要
資格情報マネージャーは、SQL Server インスタンスとゲートウェイクライアントと同じネットワーク内から起動する必要があります。 ドメイン間で資格情報を渡すことはできません。
[データベースに貼り付け]クエリを入力するか、読み取るデータを記述した SQL ステートメントを入力します。 Visual Studio サーバー エクスプローラーや SQL Server Data Tools などのツールを使用して、常に SQL ステートメントを検証し、クエリ結果を事前に確認してください。
実験の実行間でデータセットが変更されることが予想されない場合は、[キャッシュされた 結果を使用する ] オプションを選択します。 これを選択すると、モジュールパラメーターに他の変更がない場合、実験はモジュールの初回実行時にデータを読み込み、その後、キャッシュされたバージョンのデータセットを使用します。
実験を実行します。
結果
インポートデータによってデータが Studio (クラシック) に読み込まれるときに、ソースデータベースで使用されているデータ型によっては、いくつかの暗黙的な型変換が実行される可能性があります。 データ型の詳細については、「 モジュールデータ型」を参照してください。
完了したら、出力されたデータセットをクリックし、[Visualize]\(視覚化\) を選択し、データが正常にインポートされたかどうかを確認します。
必要に応じて、Studio (クラシック) のツールを使用して、データセットとそのメタデータを変更できます。
Edit Metadata (メタデータの編集) を使用して、列名を変更したり、列を別のデータ型に変換したり、ラベルや特徴として使用する列を指定したりします。
列のサブセットを選択するには、Select Columns in Dataset (データセット内の列の選択) を使用します。
Partition と Sampleを使用して、条件によってデータセットを分離するか、上位n行を取得します。
テクニカル ノート
このセクションには、実装の詳細、ヒント、よく寄せられる質問への回答が含まれています。
一般的な質問
データがソースから読み取られるときにデータをフィルター処理できますか。
データの 読み込み モジュール自体は、データの読み取り中のフィルター処理をサポートしていません。 ビューを作成するか、必要な行だけを生成するクエリを定義することをお勧めします。
注意
必要以上に多くのデータが読み込まれたことが判明した場合、新しいデータセットを読み取ってから、以前のよりサイズの大きいデータと同じ名前で保存すると、キャッシュ内のデータセットをオーバーライドできます。
"Decimal 型はサポートされていません" というエラーが表示されるのはなぜですか。
SQL データベースからデータを読み取る場合、サポートされていないデータ型をレポートするというエラーメッセージが表示されることがあります。
SQL データベースから取得したデータに Machine Learning でサポートされていないデータ型が含まれている場合は、データを読み取る前に、小数点をサポートされているデータ型にキャストまたは変換する必要があります。 これは、 データのインポート では、有効桁数が失われる可能性のある変換を自動的に実行できないためです。
一部の文字が正しく表示されないのはなぜですか
Machine Learning は、utf-8 エンコードをサポートしています。 データベース内の文字列型の列が別のエンコードを使用している場合は、文字が正しくインポートされない可能性があります。
これらの文字を保持するための1つのオプションは、Azure storage 内の CSV ファイルにデータをエクスポートし、option CSV と encoding を使用して、カスタムの区切り記号やコードページなどのパラメーターを指定することです。
オンプレミスのサーバーにデータ管理ゲートウェイを設定します。 ワークスペース間で同じゲートウェイを共有することはできますか
不正解です。 ワークスペースごとに個別のゲートウェイを作成する必要があります。
1つのワークスペースに複数のデータ管理ゲートウェイ (たとえば、開発、テスト、運用など) を設定できますが、ワークスペース間でゲートウェイを共有することはできません。
Power BI または Azure Data Factory に使用するオンプレミスサーバー上にデータ管理ゲートウェイを設定し、と同じゲートウェイを使用する必要があり Machine Learning
各サービスには、個別のデータ管理ゲートウェイが必要です。 Power BI または Azure Data Factory に使用されているゲートウェイが既にある場合は、別のサーバーをセットアップし、machine learning 用のゲートウェイをインストールする必要があります。
1台のサーバーに複数のゲートウェイをインストールすることはできません。
オンプレミスの SQL サーバーにデータをエクスポートできるようにする必要があります。 データのエクスポートモジュールと共にゲートウェイを使用して、オンプレミスの SQL サーバーにデータを書き込むことはできますか。
現時点では、Machine Learning はデータのインポートのみをサポートしています。 今後、オンプレミスデータベースに書き込むことができるかどうかを評価しています。 それまでの間は、Azure Data Factory を使用して、クラウドからオンプレミスのデータベースにデータをコピーすることができます。
Microsoft SQL Server ていないデータソース (Oracle、Teradata など) があります。 データのインポートモジュールでオンプレミスオプションを使用して Machine Learning のデータを読み取ることはできますか?
現在、Machine Learningデータのインポートモジュールでサポートされているのは Microsoft SQL Server のみです。
回避策として、Azure Data Factory を使用して、オンプレミスのデータを Azure Blob Storage や Azure Database などのクラウドストレージにコピーしてから、データのインポートモジュールでクラウドのデータソースを使用することができます。
モジュールのパラメーター
名前 | Range | Type | Default | 説明 |
---|---|---|---|---|
データ ソース | 一覧 | データ ソースまたはシンク | Azure Blob Storage | データ ソースには、HTTP、FTP、匿名 HTTPS または FTPS、Azure BLOB ストレージ内のファイル、Azure テーブル、Azure SQL Database、オンプレミスの SQL Server データベース、Hive テーブル、または OData エンドポイントがあります。 |
データ ゲートウェイ | any | DataGatewayName | なし | データ ゲートウェイ名 |
[データベース サーバー名] | any | String | なし | オンプレミスの SQL Server |
データベース名 | any | String | なし | オンプレミスの SQL Server データベース インスタンス |
ユーザー名とパスワード | any | SecureString | なし | ユーザー名とパスワード |
データベース クエリ | any | StreamReader | なし | オンプレミスの SQL クエリ |
出力
名前 | 型 | 説明 |
---|---|---|
結果のデータセット | データ テーブル | ダウンロードしたデータを含むデータセット |
例外
例外 | 説明 |
---|---|
エラー 0027 | 同じサイズが必要である 2 つのオブジェクトのサイズが異なる場合に、例外が発生します。 |
エラー 0003 | 1 つ以上の入力が null または空の場合に、例外が発生します。 |
エラー 0029 | 無効な URI が渡された場合に、例外が発生します。 |
エラー 0030 | ファイルをダウンロードできない場合は例外が発生します。 |
エラー 0002 | 1 つ以上のパラメーターが解析できなかった、または指定した型から対象のメソッドの種類で必要な型に変換されなかった場合に、例外が発生します。 |
エラー 0048 | ファイルを開けない場合、例外が発生します。 |
エラー 0015 | データベース接続に失敗した場合に、例外が発生します。 |
エラー 0046 | 指定したパスにディレクトリを作成できない場合に、例外が発生します。 |
エラー 0049 | ファイルを解析できない場合、例外が発生します。 |
Studio (クラシック) モジュールに固有のエラーの一覧については、「エラー コードMachine Learning参照してください。
API の例外の一覧については、「エラー コードMachine Learning REST API参照してください。
こちらもご覧ください
データのインポート
データのエクスポート
HTTP 経由の Web URL からのインポート
Hive クエリからのインポート
Azure SQL Database からのインポート
Azure Table からのインポート
Azure Blob Storage からのインポート
データ フィード プロバイダーからのインポート