Мониторинг и самовосстановление данных в Microsoft 365
Учитывая масштаб Microsoft 365, было бы невозможно обеспечить устойчивость данных клиентов и защиту от вредоносных программ без встроенного мониторинга, который является комплексным, интеллектуальным оповещением и быстрым и надежным самовосстановлением. Мониторинг набора служб в масштабе Microsoft 365 является сложной задачей. Необходимо внедрить новые установки и методологии, а также создать новые наборы технологий для эксплуатации служб и управления ими в подключенной глобальной среде. Мы отошли от традиционного подхода к мониторингу сбора и фильтрации данных для создания оповещений к подходу, основанному на анализе данных; принимать сигналы и создавать уверенность в данных, а затем использовать автоматизацию для восстановления или устранения проблемы. Такой подход помогает вывести людей из уравнения восстановления, что, в свою очередь, делает операции менее затратными, быстрыми и менее подверженными ошибкам.
Основное значение для мониторинга Microsoft 365 — это набор технологий, которые включают в себя модуль Data Insights, основанный на Azure, SQL Azure и технологии потоковой передачи баз данных с открытым кодом. Он предназначен для сбора и агрегирования данных, а также для вывода выводов. В настоящее время он обрабатывает более 500 миллионов событий в час с более чем 100 000 серверов (около 15 ТБ в день), разбросанных по десяткам центров обработки данных во многих регионах, и это число растет.
Microsoft 365 использует внешний мониторинг, который включает создание искусственных транзакций для тестирования всего, что важно. Например, в Exchange каждый сценарий тестирует каждую базу данных по всему миру каждые пять минут разрозненными способами, обеспечивая почти непрерывный охват всего, что находится в системе. Из нескольких расположений выполняется 250 миллионов тестовых транзакций в день, чтобы создать надежный базовый план или пульс для службы.
Microsoft 365 также использует концепцию "Красное оповещение", которая сокращает все сигналы мониторинга от всех компьютеров в наших центрах обработки данных до управляемого человеком. Концепция проста: если что-то происходит через несколько сигналов, должно быть что-то происходит. Речь не о построении уверенности в одном сигнале, а о наличии разумной точности для каждого сигнала, чтобы получить большую точность. Эта система мониторинга настолько мощна, что у нас нет сотрудников 24x7, наблюдающих за нашими мониторами; все, что у нас есть, это механизм, который просыпается, если он обнаруживает проблему, в этом случае он будет выстраивать соответствующий персонал по вызову, или чаще, как это происходит, он будет просто идти вперед и решить проблему. Как только мы начнем собирать сигналы и создавать красные оповещения от них, мы можем начать триангуляцию во всех разделах службы.
В зависимости от сочетания оповещений о сбое и красных оповещений это оповещение точно указывает, с какими компонентами может возникнуть проблема, и что система попытается устранить проблему самостоятельно, перезапустив сервер почтовых ящиков.
Помимо возможностей самовосстановления, таких как одностраничное восстановление, Exchange включает в себя несколько функций, которые используют подход к мониторингу и самовосстановлению, что делает акцент на сохранении взаимодействия с конечным пользователем. К этим функциям относятся управляемая доступность, которая обеспечивает встроенные действия мониторинга и восстановления, а также функция autoReseed, которая автоматически восстанавливает избыточность базы данных после сбоя диска.
Управляемая доступность
Управляемая доступность предоставляет собственное решение для проверки работоспособности и восстановления, которое отслеживает и защищает взаимодействие пользователя с помощью действий, ориентированных на восстановление. Управляемая доступность — это интеграция встроенных действий мониторинга и восстановления с платформой высокого уровня доступности Exchange. Она создана для обнаружения проблем и восстановления после них сразу после их возникновения и обнаружения системой. В отличие от предыдущих решений и методов мониторинга для Exchange функция управляемой доступности не пытается определить основную причину проблемы или уведомить о ней пользователей. Вместо этого она сосредоточена на аспектах восстановления, которые касаются трех ключевых областей взаимодействия с конечным пользователем:
- Доступность — могут ли пользователи получить доступ к службе?
- Задержка — как работает пользователь?
- Ошибки . Могут ли пользователи выполнить то, что они хотят?
Управляемая доступность — это внутренняя функция, которая выполняется на каждом сервере Microsoft 365 под управлением Exchange. Он каждую секунду опрашивает и анализирует сотни метрик работоспособности. Если что-то не так, большую часть времени это исправяется автоматически. Но всегда будут возникать проблемы, которые управляемой доступности не удастся устранить самостоятельно. В таких случаях управляемая доступность передает проблему в службу поддержки Microsoft 365 с помощью ведения журнала событий.
AutoReseed
Серверы Exchange развертываются в конфигурации, которая хранит несколько баз данных и их потоков журналов на одном диске, отличном от RAID. Эту конфигурацию часто называют просто кучей дисков (JBOD), так как для дублирования данных на диске не используются механизмы избыточности хранилища, такие как RAID. При сбое диска в среде JBOD данные на этом диске теряются.
Учитывая размер Exchange и тот факт, что в нем развернуты миллионы дисков, сбои дисков являются обычным явлением в Exchange. На самом деле, более 100 отказов каждый день. При сбое диска в локальном развертывании предприятия администратор должен вручную заменить неработоприемный диск и восстановить затронутые данные. В облачном развертывании размером с Microsoft 365 наличие операторов (администраторов облака) вручную заменяющих диски не является ни практически ни экономически целесообразным.
Автоматическое повторное изменение или автоматическое восстановление — это функция, которая заменяет действие, обычно управляемое оператором, в ответ на сбой диска, событие повреждения базы данных или другую проблему, которая требует повторного копирования базы данных. Функция Autoreseed была создана для автоматического восстановления избыточности базы данных после сбоя диска с помощью запасных дисков, настроенных в системе. В случае сбоя диска копии базы данных, хранящиеся на этом диске, автоматически повторно помещаются на предварительно настроенный резервный диск на сервере, тем самым восстанавливая избыточность.