Spark がデータを書き換えるかどうかを確認する方法
まず、書き込みステージの SQL DAG を開きます。 ジョブのページの上部までスクロールし、[関連付けられた SQL クエリ] をクリックします。
これで DAG が表示されます。 そうでない場合は、少しスクロールすると表示されます。
Delete 操作または Update 操作を実行している場合は、ライターによって書き込まれるデータの量と予想されるデータの量を確認します。 予想よりも多くのデータが書き込まれている場合は、おそらくデータを書き直しています。
統計を書く
マージを実行している場合、マージ ノードには、書き換え中のデータの量に関する明示的な統計情報が含まれます。