共用方式為


Azure 上 SaaS 工作負載的事件管理

軟體即服務的獨立軟體供應商 (ISV) 解決方案必須為客戶操作解決方案。 這樣做需要組織設定和文化特性,以順利處理非預期的生產情況。 身為架構設計人員,您必須據以設計管理工具。

本文會引導您調整組織的文化特性、流程和工具,以支援生產 SaaS 解決方案的事件管理。

瞭解您作為服務提供者的責任

操作 SaaS 解決方案表示您是客戶的 24x7 IT 和營運部門。 您必須準備好正確的人員配置、文化、程式和工具。

設計考量

  • 負責 24x7x365 支援。 操作 SaaS 解決方案時,您的組織必須隨時備妥事件回應。 此準備包含一律有小組成員可用,因為事件發生在上班時間以外。

    即時網站支援 牽涉到即時監視和響應影響系統可用性、安全性、效能或部署的事件。 您或您的客戶可以偵測這些事件。 若要處理這類事件,您需要特定技能,包括分析並解決壓力下的問題的能力。

    實時網站支援可能會有壓力,因此請務必支援您的小組成員。 如果小組對此責任不熟悉,請仔細規劃轉換。 解決有關事件期間待命職責、補償和管理無法使用的問題。

    風險:技能與期望管理。 並非所有工程師都適合 24x7x365 支援角色。 轉換既有小組以支援 SaaS 解決方案時,請確定已設定適當的期望,並提供教育機會。

  • 建立現場文化。 請考慮如何管理支援案例和事件,以及呈報的發生方式。 目標是確保小組成員瞭解其責任,並具備處理事件所需的技能和工具。

    初創公司和小型組織對於即時網站問題可能有輕量型方案。 工程師一開始可能會回應客戶支援案例,作為前線支援。 成熟的組織,或具有企業客戶的 SaaS 提供者,需要更結構化的支援和專用小組。

    取捨:營運卓越和成本。 管理即時網站事件可能會因新功能或 Bug 修正而偏離開發時間。 如果開發速度是個問題,請考慮僱用專用的即時網站資源。

設計建議

建議 優點
介紹處理支援案例的前線小組。

對於複雜的案例,此小組會收集工程小組對其調查所需的資訊。 廠商可作為您的前線支援小組,並執行初始問題分析並解決簡單的問題。
您可以避免過度負擔工程小組,並承擔事件處理責任,並處理其一般職責的中斷。
投資待命函式,讓工程師處理複雜的案例、調查及採取行動。

可能的話,請輪替小組成員之間的待命責任,每個工程師一次接聽數天。
透過定義完善的責任和呈報路徑,您可以快速找出並解決問題,而不會中斷您的工程工作流程。
採購專為事件管理而特製的工具。

請確定所有回應者都可以存取及瞭解如何有效地使用這些工具。

選取可監視系統狀態、追蹤客戶回報問題、找出問題、呈報給待命工程師、管理沒有響應的工程師,以及在生產環境中進行變更的工具。
擁有正確的工具可協助您的待命小組快速識別並解決事件,同時維護安全性和操作控制。
改善監視、部署、更新和其他一般管理作業。 藉由投資作業成熟度,您可以降低即時網站問題的可能性。 如果確實發生問題,妥善定義的作業會縮短解決時間。

定義您的回應計劃

確認事件是不可避免的,並透過定義事件回應計劃來做好準備。 這種主動式方法可防止您在第一個事件期間設計回應策略。

提前規劃重大事件,這通常會影響客戶使用服務的能力。 當您管理事件發生時,此準備有助於將壓力和複雜性降至最低。

設計考量

  • 定義呈報路徑。 請確定小組了解支援工作的呈報程式。 在許多 SaaS 解決方案中,客戶會連絡前線支援小組,然後與工程小組通訊。 請確定客戶知道要與誰互動,以及為什麼他們不應該略過這些程式。 此外,請確定您的工程小組知道何時以及如何向廠商尋求協助,包括Microsoft的支持小組。

  • 定義嚴重性層級。 不同的事件對您和您的客戶很重要。 處理主要生產中斷的方式與處理次要 Bug 的方式不同。 根據客戶影響定義嚴重性層級,併為每個層級設定適當的期望和時程表。

  • 文件資訊,您需要分級。 讓檔保持最新狀態對於有效的事件回應至關重要。 本檔包含系統的架構配置、元件層級詳細數據、擁有者和重要聯繫人。 不正確或過時的資訊可能會導致事件回應小組浪費寶貴的時間,找出系統作業、責任,以及事件的潛在影響。

  • 規劃與客戶的有效溝通。 提供狀態更新是事件管理的關鍵。 狀態更新可協助您的客戶瞭解事件的本質,以及減少遇到類似問題之客戶的支援案例數量。

設計建議

建議 優點
提供明確的事件報告程式,例如向客戶開啟支援案例與前線支援小組。 您可以確保探索和回應事件的一致性,這可縮短解決時間,並防止資訊遺失或被忽略。
記錄架構配置、元件層級的詳細數據、隱私權或安全性分類、擁有者和重要聯繫人。 分級小組提供隨時可用的資訊,並可專注於調查和評估影響。
請確定您的事件回應小組可以存取必要的資產和系統,例如記錄。 他們也需要能夠透過安全且受控制的程式進行生產變更。 您可以藉由確保小組不會浪費時間,更快速地還原作業。
使用商業狀態頁面,而不是自行建置。 使用商業狀態頁面節省時間。 由另一個組織裝載的狀態頁面,在系統中斷期間,客戶仍可存取。

以有條不紊的方式管理事件

遵守定義的計劃對於避免在回應時間進行即興化至關重要。 這種方法有助於將管理這些情況的壓力和複雜度降至最低。

設計考量

  • 指派事件嚴重性。 使用事件回應計劃來判斷事件嚴重性。 客戶在事件期間經常感到沮喪。 請務必了解他們看到的影響,以便您可以排定優先順序。 清楚傳達事件的嚴重性,讓客戶有實際的期望。

  • 保持冷靜,清楚地思考。 事件可能是壓力和模棱兩可的,多個項目關係人要求注意。 有一個明確的程式,誰在事件中領先。 盡可能盡可能將事件分級,同時確認您可能必須處理不完善的資訊。 請嘗試繼續控制局勢。

    組織領導者可協助保護正在積極調查或緩和事件的小組成員。

  • 將狀態傳達給您的客戶。 更新狀態頁面以發佈足夠的資訊。 及時溝通並提供必要的資訊,例如預估的解決時間。 為客戶提供頻繁的更新,以維持其信任。

設計建議

建議 優點
在事件期間,優先於探索復原。

發生事件時,請快速設定還原作業的優先順序,以將客戶的中斷降到最低。
即使還不瞭解造成問題的原因,您也可以透過路由傳送受影響的元件或回復更新來復原。
在中斷期間提供及時、清楚且頻繁的更新。 您可以灌輸客戶信心,並減輕第一線支援小組的負擔。
在作用中事件期間指定通訊管理員。 此經理可能是單一人員,或者您可能會在事件之間輪替小組成員的責任。 藉由為工程小組提供一個語音,您可以集中交談,並減少對其他小組成員的干擾。 您也可以在混亂的事件期間防止衝突的資訊連絡客戶或項目關係人。
請確定您有Microsoft等廠商的任務關鍵性支持計劃。 如果發生中斷,您需要與平臺廠商的響應式通訊,例如Microsoft,以協助您判斷問題所在位置,以及縮短中斷持續時間。

進行事件後檢閱

從事件復原之後,請檢閱和分析從事件中學到的內容。 實作補救動作,包括技術變更、程序調整或更多訓練。

設計考量

  • 從事件中學習。 中斷提供寶貴的學習機會。 在事件之後進行徹底檢閱,以找出課程並實作改進。 重大事件通常有多個原因。 評估解決方案的其他層級,例如作業程式,是否會在問題呈報之前防止或偵測到問題。 此外,在您的解決方案中尋找可能也面臨相同問題風險的類似模式。

  • 與客戶通訊。 許多ISV提供事件後通訊,尤其是預期高品質更新的企業客戶。 透明並為客戶提供足夠的資訊,以瞭解問題和緩和步驟。 不過,若要維護安全性和完整性,請避免共用解決方案架構或元件的相關過多內部詳細數據。

設計建議

建議 優點
建立程式以執行內部事件後檢閱。

專注於找出造成問題的原因。 請考慮技術原因、您的程式可能對中斷造成影響的方式,以及您回應事件的方式。
內部事件後檢閱可協助您了解生產中斷情況,並將類似問題再次發生的風險降到最低。
制定結構化計劃,以解決任何需要補救的專案。 包括清楚的責任和時程表。 清楚的責任可協助您確保每個角色符合其功能期望、增強清晰性,並允許在所需的層級進行透明報告。
發佈面向客戶的事件後檢閱。

為客戶提供足夠的詳細數據,以了解問題和風險降低步驟,而不需要透露不必要的內部詳細數據或系統架構。

事件後通訊應該一律由人類撰寫和發佈。 技術和非技術項目關係人應檢閱通訊的正確性和清晰性。
這種方法可協助維護客戶的信心,並保證您從事件中學到並正在解決已識別的問題。

後續步驟

檢閱設計區域之後,請繼續進行評估工具來評估您的設計。