Diagnostika dlouhé etapy ve Sparku
Začněte tím, že identifikujete nejdelší fázi úlohy. Posuňte se do dolní části stránky úlohy na seznam fází a naspořádejte je podle doby trvání:
Podrobnosti o vstupně-výstupní fázi
Pokud chcete zobrazit základní data o tom, co tato fáze dělala, podívejte se na sloupce vstup, výstup, shuffle čtenía shuffle zápis:
dlouhé fáze
Sloupce znamenají následující:
- Vstup: Kolik dat tato fáze přečetla z úložiště. Může se jednat o čtení z Delta, Parquet, CSV atd.
- Výstup: Kolik dat se tato fáze zapisuje do úložiště. Může to být zápis do Delta, Parquet, CSV atd.
- Čtení prohození: Kolik dat tato fáze přečetla.
- Zápis shuffle: Kolik shuffle dat tato fáze zapsala.
Pokud nevíte, co je náhodné prohazování, je teď vhodná doba naučit se co to znamená.
Poznamenejte si tato čísla, protože je budete pravděpodobně potřebovat později.
Počet úkolů
Počet úkolů v dlouhé fázi vás může nasměrovat směrem k vašemu problému. Počet úkolů můžete určit takto:
úkolů
Pokud se zobrazí jeden úkol, může to být znaménkem problému. Další informace najdete v tématu úloha „One Spark“ .
Zobrazit další podrobnosti fáze
Pokud fáze obsahuje více než jeden úkol, měli byste provést další šetření. Kliknutím na odkaz v popisu fáze získáte další informace o nejdelší fázi:
Teď, když jste na stránce fáze, najdete nerovnoměrnou distribuci a rozlití.