Надежность для озера данных
Архитектурные принципы обеспечения надежности позволяют системе восстанавливаться после сбоев и продолжать функционировать.
Принципы надежности
Проектирование на случай сбоев
В высоко распределенной среде могут возникать сбои. Для платформы и различных рабочих нагрузок, таких как задания потоковой передачи, пакетные задания, обучение модели и запросы бизнес-аналитики, должны быть предвидеть и устойчивые решения, чтобы повысить надежность. Основное внимание уделяется проектированию приложений для быстрого восстановления и, в лучшем случае, автоматически.
Управление качеством данных
Качество данных является фундаментальным для получения точных и значимых аналитических сведений от данных. Качество данных имеет множество измерений, включая полноту, точность, действительность и согласованность. Необходимо активно управлять для повышения качества окончательных наборов данных, чтобы данные служили надежной и надежной информацией для бизнес-пользователей.
Проектирование автомасштабирования
Стандартные процессы ETL, бизнес-отчеты и панели мониторинга часто имеют прогнозируемые требования к ресурсам с точки зрения памяти и вычислений. Однако новые проекты, сезонные задачи или расширенные подходы, такие как обучение модели (для обработки, прогнозирования и обслуживания), создают пики требований к ресурсам. Для организации для обработки всех этих рабочих нагрузок требуется масштабируемое хранилище и вычислительные платформы. Добавление новых ресурсов по мере необходимости должно быть простым, и плата должна взиматься только за фактическое потребление. Когда пик закончится, ресурсы можно освободить и сократить расходы соответствующим образом. Это часто называется горизонтальным масштабированием (число узлов) и вертикальным масштабированием (размер узлов).
Тестирование процедур восстановления
Стратегия аварийного восстановления на уровне предприятия для большинства приложений и систем требует оценки приоритетов, возможностей, ограничений и затрат. Надежный подход к аварийному восстановлению регулярно проверяет, как рабочие нагрузки завершаются сбоем и проверяют процедуры восстановления. Автоматизация может использоваться для имитации различных сбоев или повторного создания сценариев, которые вызвали сбои в прошлом.
Автоматизация развертываний и рабочих нагрузок
Автоматизация развертываний и рабочих нагрузок для lakehouse помогает стандартизировать эти процессы, устранять человеческие ошибки, улучшать производительность и обеспечивать более высокую повторяемость. Это включает использование "конфигурации в качестве кода", чтобы избежать смещения конфигурации и "инфраструктуры в качестве кода" для автоматизации подготовки всех необходимых служб lakehouse и облачных служб.
Мониторинг систем и рабочих нагрузок
Рабочие нагрузки в Lakehouse обычно интегрируют службы платформы Databricks и внешние облачные службы, например источники данных или целевые объекты. Успешное выполнение может произойти только в том случае, если каждая служба в цепочке выполнения работает правильно. Если это не так, мониторинг, оповещение и ведение журнала важны для обнаружения и отслеживания проблем и понимания системного поведения.
Далее: рекомендации по обеспечению надежности
Ознакомьтесь с рекомендациями по надежности.