共用方式為


扭曲和溢出

洩漏

在長時間運行的階段中,首先要確認是否有 溢出

在階段頁面頂端,您會看到詳細數據,其中可能包含有關洩漏的統計數據:

溢出統計數據

溢出是 Spark 在記憶體不足時所發生的情況。 它開始將數據從記憶體移至磁碟,這可能相當昂貴。 在 資料洗牌期間,這是最常見的。

如果您沒有看到任何漏油統計數據,這意味著階段沒有任何漏油。 如果舞台有一些洩漏物,請參閱這本指南,了解如何處理由洗牌引起的溢出現象。

偏斜

我們要研究的下一件事是是否有 扭曲。 偏差是指當一個或少數幾個任務所需的時間比其他任務長得多的情況。 這會導致叢集使用率不佳和作業較長。

向下滑動至 [摘要指標]。 我們尋找的主要內容是 最大 持續時間遠高於第 75 個百分位數持續時間。 下列螢幕快照顯示狀況良好的階段,其中第 75 個百分位數和 Max 相同:

扭曲統計數據

如果最大持續時間是 50% 超過第 75 個百分位數,您可能會遭受扭曲。

如果您看到扭曲,請在這裡 瞭解扭曲補救步驟

無扭曲或溢出

如果您沒有看到扭曲或溢出,請返回作業頁面以取得所發生情況的概觀。 向上捲動至頁面頂端,然後點擊 相關聯的作業 ID

階段至作業

如果階段沒有溢出或扭曲,請參閱 (Spark 階段高 I/O) 以了解後續步驟。