データ プロファイリング ツールの使用
データ プロファイリング ツールにより、Power Query エディターでデータをクリーンアップ、変換、解釈するための新しい直感的な方法が提供されます。 それには次の内容を含みます。
列の品質
列の分布
列のプロファイル
データ プロファイリング ツールを有効にするには、リボンの [表示] タブに移動します。 次の図に示すように、Power Query デスクトップで、[データ プレビュー] グループで必要なオプションを有効にします。
Power Query Online で、データ ビュー を選択し、ドロップダウン リストで必要なオプションを有効にします。
オプションを有効にした後、Power Query エディターに次の図のような情報が表示されます。
Note
既定では、Power Query はデータの最初の 1,000 行に対してこのデータ プロファイリングを実行します。 データ セット全体に対して動作させるには、エディタ ウィンドウの左下隅にある [上位 1000 行に基づく列プロファイリング] メッセージを選択して、列プロファイリングを [データ セット全体に基づく列プロファイリング] に変更します。
列の品質
列の品質機能では、行の値が次の 5 つのカテゴリでラベル付けされます。
有効。緑色で表示されます。
エラー。赤色で表示されます。
空。濃い灰色で表示されます。
不明。緑色の破線で表示されます。 列にエラーがある場合に、残りのデータの品質が不明であることを示します。
予期しないエラー。赤色の破線で表示されます。
これらのインジケーターは、次の図に示すように、小さな横棒グラフの一部として、列の名前のすぐ下に表示されます。
各列の品質カテゴリのレコード数もパーセンテージとして表示されます。
いずれかの列にマウス ポインターを合わせると、列全体の値の品質の数値分布が表示されます。 さらに、省略記号ボタン (...) を選ぶと、値に対する操作のクイック アクション ボタンがいくつか開きます。
列の分布
この機能は、各列の値の頻度と分布を示す一連のビジュアルを列の名前の下に表示します。 これらの視覚化のデータは、頻度が最も高い値から降順に並べ替えられます。
いずれかの列の分布データにカーソルを合わせると、列内の全体的なデータに関する情報 (個別のカウントと一意の値) が表示されます。 個別は、各列の異なる値の合計数を指します。 一意は、列に 1 つのインスタンスしかない値を指します。 省略記号ボタンを選んで、使用可能な操作のメニューから選ぶこともできます。
列のプロファイル
この機能を使用すると、列内のデータの詳細を確認できます。 列分布グラフとは別に、列統計グラフが含まれます。 この情報は、次の図に示すように、データ プレビュー セクションの下に表示されます。
値でフィルター処理する
右側の値分布グラフを操作し、グラフの各部分にマウス ポインターを合わせていずれかの棒を選ぶことができます。
右クリックすると、その値に使用できる変換のセットが表示されます。
データをコピーする
列統計と値分布の両方のセクションの右上隅にある省略記号ボタン (...) を選んで、[コピー] ショートカット メニューを表示できます。 いずれかのセクションに表示されるデータを選んで、クリップボードにコピーします。
値でグループ化する
値分布グラフの右上隅にある省略記号ボタン (...) を選ぶと、[コピー] に加えて [グループ化] を選ぶことができます。 この機能を使用して、グラフ内の値を使用可能なオプションのセットによってグループ化します。
次の図は、テキスト長でグループ化された製品名の列を示しています。 グラフ内の値をグループ化した後は、「値でフィルター処理する」の説明に従って、グラフ内の個々の値を操作できます。