Надежность для озера данных

Статья
05/30/2024

Архитектурные принципы обеспечения надежности позволяют системе восстанавливаться после сбоев и продолжать функционировать.

Схема архитектуры Lakehouse для Databricks.

Принципы надежности

Проектирование на случай сбоев

В высоко распределенной среде могут возникать сбои. Для платформы и различных рабочих нагрузок, таких как задания потоковой передачи, пакетные задания, обучение модели и запросы бизнес-аналитики, должны быть предвидеть и устойчивые решения, чтобы повысить надежность. Основное внимание уделяется проектированию приложений для быстрого восстановления и, в лучшем случае, автоматически.
Управление качеством данных

Качество данных является фундаментальным для получения точных и значимых аналитических сведений от данных. Качество данных имеет множество измерений, включая полноту, точность, действительность и согласованность. Необходимо активно управлять для повышения качества окончательных наборов данных, чтобы данные служили надежной и надежной информацией для бизнес-пользователей.
Проектирование автомасштабирования

Стандартные процессы ETL, бизнес-отчеты и панели мониторинга часто имеют прогнозируемые требования к ресурсам с точки зрения памяти и вычислений. Однако новые проекты, сезонные задачи или расширенные подходы, такие как обучение модели (для обработки, прогнозирования и обслуживания), создают пики требований к ресурсам. Для организации для обработки всех этих рабочих нагрузок требуется масштабируемое хранилище и вычислительные платформы. Добавление новых ресурсов по мере необходимости должно быть простым, и плата должна взиматься только за фактическое потребление. Когда пик закончится, ресурсы можно освободить и сократить расходы соответствующим образом. Это часто называется горизонтальным масштабированием (число узлов) и вертикальным масштабированием (размер узлов).
Тестирование процедур восстановления

Стратегия аварийного восстановления на уровне предприятия для большинства приложений и систем требует оценки приоритетов, возможностей, ограничений и затрат. Надежный подход к аварийному восстановлению регулярно проверяет, как рабочие нагрузки завершаются сбоем и проверяют процедуры восстановления. Автоматизация может использоваться для имитации различных сбоев или повторного создания сценариев, которые вызвали сбои в прошлом.
Автоматизация развертываний и рабочих нагрузок

Автоматизация развертываний и рабочих нагрузок для lakehouse помогает стандартизировать эти процессы, устранять человеческие ошибки, улучшать производительность и обеспечивать более высокую повторяемость. Это включает использование "конфигурации в качестве кода", чтобы избежать смещения конфигурации и "инфраструктуры в качестве кода" для автоматизации подготовки всех необходимых служб lakehouse и облачных служб.
Мониторинг систем и рабочих нагрузок

Рабочие нагрузки в Lakehouse обычно интегрируют службы платформы Databricks и внешние облачные службы, например источники данных или целевые объекты. Успешное выполнение может произойти только в том случае, если каждая служба в цепочке выполнения работает правильно. Если это не так, мониторинг, оповещение и ведение журнала важны для обнаружения и отслеживания проблем и понимания системного поведения.

Далее: рекомендации по обеспечению надежности

Ознакомьтесь с рекомендациями по надежности.

Поделиться через

Надежность для озера данных

Принципы надежности

Далее: рекомендации по обеспечению надежности

Обратная связь

Дополнительные ресурсы