マイニング構造の作成 (SQL Server データ マイニング アドイン)
必ずしもモデルを作成せずに分析に使用するデータ セットを作成する場合は、[データ モデリング] グループの [詳細設定] オプションを使用します。 この方法は、さまざまなアルゴリズムをテストする場合に便利です。
マイニング構造を作成したら、 構造にモデルを追加 ウィザードを使用して、その構造に基づいてモデルを作成します。 データ マイニングの高度なクエリ エディターを使用して、新しいモデルを作成することもできます。
このオプションは、Analysis Services でサポートされているが、線形回帰やシーケンス クラスタリングなどのウィザードでは使用できない高度なアルゴリズムのいずれかを使用してモデルを構築する場合、またはカスタム アルゴリズムを使用している場合にも使用できます。
注意
マイニング構造を作成すると、すべてのモデルの検証に使用できる、ランダムに選択されるテスト データを設定することもできます。 この方法は、共通のデータセットに対するモデルの精度を簡単に比較できるため便利です。 [ データをトレーニング セットとテスト セットに分割 する] オプションを選択し、テストのために予約する適切な割合 (通常は約 30%) を指定します。
ウィザードを使用したマイニング構造の作成
[ データ マイニング ] リボンで、[ 詳細設定] をクリックし、[ 構造の作成] を選択します。
[ ソース データの選択 ] ダイアログ ボックスで、分析に使用するデータを含む Excel 範囲、Excel データ テーブル、または外部データ ソースを指定します。
[次へ] をクリックします。
[ 列の選択 ] ダイアログ ボックスで、選択したデータ ソースで使用できる列の一覧を確認します。
列名の右側にある矢印をクリックして列の 使用法 を変更し、次の値から選択します。
[キー] 各モデルに少なくとも 1 つのキーが必要です。
キー時刻。 このオプションは、予測モデルが必要な場合にのみ使用できます。
含めます。 列をマイニング構造で使用できるが、キー列ではありません。
は使用しないでください。 列はマイニング構造に含まれません。
モデルを作成する際はいつでも列を無視できますが、後で列を追加するには、構造とモデルを再処理する必要があることに注意してください。
[参照 ] (...) ボタンをクリックして、コンテンツ タイプ、データ型、モデリング フラグを設定します。
注意
列に数値データが含まれている場合は、必ずこのダイアログ ボックスを開いて、正しいデータ型が選択されていることを確認してください。 入力データが数値であっても、カテゴリ変数として処理したり、連続する数値ではなく不連続値として処理する場合があります。
たとえば、郵便番号列は既定では連続する long データ型として一覧表示されますが、より良い結果を得るために、不連続のテキスト値として処理するように指定することができます。
詳細については、「 データ マイニングのデータの選択」のコンテンツ タイプに関するセクションを参照してください。
[OK] をクリックしてダイアログ ボックスを閉じます。
[次へ] をクリックします。
使用するデータ型に応じて、この手順を行った後にウィザードを完了することもできます。 その場合は、[ 完了] ページに進み、マイニング構造に名前を付けます。
その他のモデルの場合は、追加のオプションを選択してテスト データ セットを作成します。
[ データをトレーニング データ セットとテスト データ セットに分割 する] ダイアログ ボックスで、データのパーティション分割方法を指定します。 既定では、データの 30% がテストに使用されます。
必要に応じて、テストに使用する最大行数を入力します。
[次へ] をクリックします。
[ 完了 ] ダイアログで、新しいマイニング構造の名前と説明を入力します。
[完了] をクリックします。
関連オプション
オプション | 説明 |
---|---|
[ソース データの選択 ] ダイアログ ボックス | Excel テーブルを選択したとき、データに既にヘッダーがあるかどうかを指定する必要があります。 これを省略した場合、データの最初の行は列名として使用されます。 [外部データ ソース] オプションを使用する場合は、Analysis Services データ ソースで定義できる任意の種類のデータを使用できます。 ただし、新しいデータ ソースを作成するためのアドインのダイアログ ボックスには、Analysis Services でサポートされているデータ ソースの全範囲が含まれていないため、事前に Analysis Services サーバーにデータ ソースを作成してから、アドインを使用して接続することをお勧めします。 |
[データ ソース クエリ エディター] ダイアログ ボックス | 指定したデータ ソースに接続した後、列を追加したり、カスタム クエリを作成してカスタム列を生成することができます。 |
[データをトレーニング データ セットとテスト データ セットに分割] | トレーニング セットとテスト セットの推奨値は、トレーニングの場合は 70%、テストの場合は 30% です。ただし、大量のデータがある場合は、テスト用の行の最大数を指定できます。 |
[完了] ダイアログ ボックス | ドリルスルーのオプションは一部のモデルの種類で使用できます。特に、マイニング構造に詳細列が含まれる場合に便利です。 たとえば、クラスター モデルを作成した場合、特定のクラスター内の顧客に簡単に連絡できるように、分析ではなく、ドリルスルー用に名前や電子メール アドレスなどの詳細を含めることができます。 |
マイニング構造の作成ウィザードでの列の使用法の設定
新しいマイニング構造を作成する場合は、データ ソースのどの列をマイニング構造に含めるかと、それらの列の使用方法を指定できます。 1 つのマイニング構造には、複数のマイニング モデルを含めることができます。
値 | 説明 |
---|---|
包含 | 列に格納されているデータは、分析または予測に使用されます。 |
キー | 列にトランザクション ID、系列 ID など、処理に必要なキーが格納されていることを表します。 すべてのアルゴリズムには、Key 列が必要です。 ただし、キーが 1 つのみ許可されるアルゴリズムと複数のキーが許可されるアルゴリズムがあります。 列にキーが含まれているが、処理に必要ない場合は、[ 使用しない] を選択します。 |
[キー時刻] | タイム シリーズのアイテムを一意に識別するために使用できる日付などの数値が列に格納されていることを表します。 |
使用しない | 列が無視されます。 列のデータは処理されません。 |
モデルを正しく処理するには、各行を一意に識別するキー列はどれなのか、予測可能モデルを作成する場合に予測を作成するための対象列はどれなのか、および対象列を予測するリレーションシップを作成するために入力列として使用する列はどれなのかをアルゴリズムに理解させる必要があります。
[使用しない] として指定された列は、マイニング構造に存在しません。
不要な列や不適切な値を含む列を追加すると、分析の結果に悪影響を及ぼす可能性があります。 そのため、適切な列だけを含めるようにしてください。 ただし、マイニング構造で使用しない列は、クエリに使用できないことに注意してください。
Include 型として指定された列はマイニング構造に含まれ、後でマイニング モデルの分析または予測に使用できます。
列を使用する必要があるかどうか不明な場合は、その列をマイニング構造に含めておき、後でその列を使用しないマイニング モデルを作成できます。 たとえば、後で参照できるように電話番号列をデータに含めたものの、電話番号を無視するクラスター モデルを作成することもできます。 クラスターが作成された後、特定のクラスターに属する人の電話番号を返すクエリを作成できます。
すべてのアルゴリズムには キー 列が必要です。 Key 列の値は一意でなければなりません。 キー時間列は、予測モデルまたは時系列モデルにのみ必要です。 .
要件
データ マイニング構造を作成するには、Analysis Services のインスタンスへの接続が必要です。 一時的な構造を操作する場合も同様です。 接続を作成または変更する方法の詳細については、「 ソース データへの接続 (Excel 用データ マイニング クライアント)」を参照してください。