Sdílet prostřednictvím


Diagnostika dlouhé etapy ve Sparku

Začněte tím, že identifikujete nejdelší fázi úlohy. Posuňte se do dolní části stránky úlohy na seznam fází a naspořádejte je podle doby trvání:

dlouhá fáze

Podrobnosti o vstupně-výstupní fázi

Pokud chcete zobrazit základní data o tom, co tato fáze dělala, podívejte se na sloupce vstup, výstup, shuffle čtenía shuffle zápis:

V/V dlouhé fáze

Sloupce znamenají následující:

  • Vstup: Kolik dat tato fáze přečetla z úložiště. Může se jednat o čtení z Delta, Parquet, CSV atd.
  • Výstup: Kolik dat se tato fáze zapisuje do úložiště. Může to být zápis do Delta, Parquet, CSV atd.
  • Čtení prohození: Kolik dat tato fáze přečetla.
  • Zápis shuffle: Kolik shuffle dat tato fáze zapsala.

Pokud nevíte, co je náhodné prohazování, je teď vhodná doba naučit se co to znamená.

Poznamenejte si tato čísla, protože je budete pravděpodobně potřebovat později.

Počet úkolů

Počet úkolů v dlouhé fázi vás může nasměrovat směrem k vašemu problému. Počet úkolů můžete určit takto:

Určení počtu úkolů

Pokud se zobrazí jeden úkol, může to být znaménkem problému. Další informace najdete v tématu úloha „One Spark“ .

Zobrazit další podrobnosti fáze

Pokud fáze obsahuje více než jeden úkol, měli byste provést další šetření. Kliknutím na odkaz v popisu fáze získáte další informace o nejdelší fázi:

Informace o Open Stage

Teď, když jste na stránce fáze, najdete nerovnoměrnou distribuci a rozlití.