Udostępnij za pośrednictwem


Niesymetryczność i rozlanie

Rozlać

Pierwszą rzeczą, na którą należy zwrócić uwagę w długotrwałym etapie, jest to, czy jest wyciek.

W górnej części strony etapu zobaczysz szczegóły, które mogą obejmować statystyki dotyczące rozlania:

statystyki rozlania

Zrzut danych do dysku ma miejsce, gdy platforma Spark ma mało pamięci. Rozpoczyna się przenoszenie danych z pamięci na dysk i może to być dość kosztowne. Najczęściej występuje podczas mieszania danych .

Jeśli nie widzisz żadnych statystyk dotyczących wycieku, oznacza to, że etap nie ma żadnego wycieku. Jeśli na scenie jest jakiś wyciek, zobacz w tym przewodniku, jak radzić sobie z wyciekiem spowodowanym przez mieszanie.

Skośność

Następną rzeczą, której chcemy się przyjrzeć, jest to, czy istnieje skos. Nierównomierność występuje wtedy, gdy jedno lub tylko kilka zadań trwa znacznie dłużej niż pozostałe. Powoduje to niskie wykorzystanie klastra oraz wydłużenie czasu trwania zadań.

Przewiń w dół do metryki podsumowania. Najważniejszą rzeczą, której szukamy, jest to, że czas trwania Max jest znacznie wyższy niż czas trwania dla 75. percentyla. Poniższy zrzut ekranu przedstawia etap dobrej kondycji, w którym 75. percentyl i Max są takie same:

Statystyki niesymetryczności

Jeśli maksymalny czas trwania wynosi 50% więcej niż 75. percentyl, może wystąpić niesymetryczność.

Jeśli widzisz niesymetryczność, dowiedz się więcej o krokach korygowania niesymetryczności tutaj.

Brak przechyłów ani rozlania

Jeśli nie widzisz niesymetryczności lub rozlania, wróć do strony zadania, aby zapoznać się z omówieniem tego, co się dzieje. Przewiń do góry strony i kliknij pozycję Skojarzone Identyfikatory zadań:

etap do zadania

Jeśli etap nie ma rozlania ani niesymetryczności, zobacz wysokie I/O etapu Spark, aby wykonać następne kroki.