Поделиться через


Надежность для озера данных

Архитектурные принципы обеспечения надежности позволяют системе восстанавливаться после сбоев и продолжать функционировать.

Схема архитектуры Lakehouse для Databricks.

Принципы надежности

  1. Проектирование на случай сбоев

    В высоко распределенной среде могут возникать сбои. Для платформы и различных рабочих нагрузок, таких как задания потоковой передачи, пакетные задания, обучение модели и запросы бизнес-аналитики, должны быть предвидеть и устойчивые решения, чтобы повысить надежность. Основное внимание уделяется проектированию приложений для быстрого восстановления и, в лучшем случае, автоматически.

  2. Управление качеством данных

    Качество данных является фундаментальным для получения точных и значимых аналитических сведений от данных. Качество данных имеет множество измерений, включая полноту, точность, действительность и согласованность. Необходимо активно управлять для повышения качества окончательных наборов данных, чтобы данные служили надежной и надежной информацией для бизнес-пользователей.

  3. Проектирование автомасштабирования

    Стандартные процессы ETL, бизнес-отчеты и панели мониторинга часто имеют прогнозируемые требования к ресурсам с точки зрения памяти и вычислений. Однако новые проекты, сезонные задачи или расширенные подходы, такие как обучение модели (для обработки, прогнозирования и обслуживания), создают пики требований к ресурсам. Для организации для обработки всех этих рабочих нагрузок требуется масштабируемое хранилище и вычислительные платформы. Добавление новых ресурсов по мере необходимости должно быть простым, и плата должна взиматься только за фактическое потребление. Когда пик закончится, ресурсы можно освободить и сократить расходы соответствующим образом. Это часто называется горизонтальным масштабированием (число узлов) и вертикальным масштабированием (размер узлов).

  4. Тестирование процедур восстановления

    Стратегия аварийного восстановления на уровне предприятия для большинства приложений и систем требует оценки приоритетов, возможностей, ограничений и затрат. Надежный подход к аварийному восстановлению регулярно проверяет, как рабочие нагрузки завершаются сбоем и проверяют процедуры восстановления. Автоматизация может использоваться для имитации различных сбоев или повторного создания сценариев, которые вызвали сбои в прошлом.

  5. Автоматизация развертываний и рабочих нагрузок

    Автоматизация развертываний и рабочих нагрузок для lakehouse помогает стандартизировать эти процессы, устранять человеческие ошибки, улучшать производительность и обеспечивать более высокую повторяемость. Это включает использование "конфигурации в качестве кода", чтобы избежать смещения конфигурации и "инфраструктуры в качестве кода" для автоматизации подготовки всех необходимых служб lakehouse и облачных служб.

  6. Мониторинг систем и рабочих нагрузок

    Рабочие нагрузки в Lakehouse обычно интегрируют службы платформы Databricks и внешние облачные службы, например источники данных или целевые объекты. Успешное выполнение может произойти только в том случае, если каждая служба в цепочке выполнения работает правильно. Если это не так, мониторинг, оповещение и ведение журнала важны для обнаружения и отслеживания проблем и понимания системного поведения.

Далее: рекомендации по обеспечению надежности

Ознакомьтесь с рекомендациями по надежности.