Bestimmen, ob Spark Daten umschreibt
Öffnen Sie zunächst den SQL-DAG (gerichteter azyklischer Graph) für Ihre Schreibphase. Scrollen Sie auf der Auftragsseite ganz nach oben, und klicken Sie auf die zugeordnete SQL-Abfrage:
Nun sollte der DAG angezeigt werden. Wenn nicht, scrollen Sie ein bisschen herum, bis Sie ihn sehen:
Wenn Sie einen Lösch- oder Aktualisierungsvorgang ausführen, sehen Sie sich die Datenmenge an, die vom Writer geschrieben wird, und vergleichen Sie dieses Ergebnis mit Ihren Erwartungen. Wenn viel mehr Daten geschrieben werden als erwartet, schreiben Sie wahrscheinlich Daten neu:
Wenn Sie einen Merge durchführen, weist der Mergeknoten explizite Statistiken darüber auf, wie viele Daten neu geschrieben werden.