交流和协作
在整个事件响应生命周期中,及时且清楚地共享信息是有效响应事件的必要元素。 每个阶段期间的交流都十分重要:
- 检测:向正确的人员传达发生了事件以及事件的广泛性/严重性和影响。
- 响应:在诊断过程进行中传达事件的详细信息、修复问题需要采取的步骤,以及谁要执行什么工作。
- 修正:传达服务如何以及何时已恢复到正常运行状况,以及所需的跟进操作。
- 分析:传达从事件中吸取的教训以及可以采取哪些措施来防止以后再出现此问题。
- 准备情况:传达针对吸取了此事件教训而制定的事件响应计划、我们的流程和我们的系统的更改(或所需的更改)。
明确清楚交流的优先级
在本模块的前面部分,我们提到了精英/高水平组织会采取主动而非反应式的措施。 明确良好、清楚且准确的交流的优先级并且实现这样的交流即可将你的姿态从对事件做出反应转变为有效地对事件做出响应。
确定清楚交流的重点包括:
- 确保共享每个步骤中所发生的情况的信息。
- 记录信息;以书面的形式记录下来,这样不容易造成误解或被遗忘。
- 将信息保存在一个集中的位置,每名需要这些信息的人员都可以访问此位置。
- 使用工具来提高交流的效率。
尽管我们当时没有标注出来,但这些都是最后一个单元中我们演示的所有行为。
交流工具:ChatOps
在讨论交流工具之前,需要首先了解 ChatOps,它不是一个特定的工具,而是一种会话驱动的协作模型。 开发人员常用它来汇集人员、工具、流程和自动化。 ChatOps 提供了一种更好的团队协作新方式,利用组聊天而不是依赖电子邮件等较旧的技术来进行协作。
在高级形式中,ChatOps 可以使用自定义的机器人和人工智能来自动执行工作。 在事件响应的上下文中,可以使用 ChatOps 将组聊天工具引入到对话中。 这种工作方式可以强烈地激励工程师一同参与组聊天并协同处理问题和事件,以及协同展开正常的工程工作。
组聊天可以帮助你根据经验知识分享环境中所发生的情况、将相关人员提供的信息提取出来并引入到聊天中,使其他人可以共享和使用这些信息。
这会增加团队中的可见性和操作意识,有助于他人了解如何进行他们应完成的工作。 当你执行命令并在聊天中共享你正在执行的操作时,这意味着你正在教导他人做什么以及如何做。
共享更多关于工程团队内发生的情况会使你从中学到一些东西。 当你更了解你的同行、同事和领导正在工作和思考的内容(包括他们是如何制定决策的),你就更能感受到正在发生的情况。 当你开始在聊天中讲解你的工作时,所有这一切都会更自然地随之而来。
在 ChatOps 解决方案中使用 Microsoft Teams
你了解了 Microsoft Teams 如何成为了你在事件期间使用的交流工具包的重要部分。 你可以通过专用于事件的频道创建一个交流网桥,甚至可以使用逻辑应用将事件详细信息自动发布到此频道中。
由于 Microsoft Teams 是一个集中的位置,我们可以从中展开关于工程工作的许多对话,因此,在你的 ChatOps 解决方案中用它来提供状态更新和其他上下文是一个不错的开始。
例如,你可以使用 Teams 中的 Webhook 来更新状态页面。 你可以将 Teams 配置为侦听聊天中的特定命令,如果收到此命名,则向其他应用程序发送一个请求。 这个简单的应用程序可能是 Azure 函数,它可使用正在进行中的事件的相关信息更新存储在 Azure Blob 存储中的静态 HTML 页面。 最终,聊天中此简单的命令会向没有参与聊天的其他利益干系人提供最新进展。 这一简单的步骤可节省对未参与响应处理的那些人更新信息所花费的时间。
到目前为止,我们大部分时间都在查看修正之前的阶段。 现在,让我们将重心转移到如何改进此阶段。