Поделиться через


Архитектура Data Lakehouse: хорошо спроектированная платформа Databricks

Этот набор статей по архитектуре единой платформы хранения данных предоставляет принципы и рекомендации по реализации и эксплуатации такой платформы с помощью Azure Databricks.

Хорошо спроектированная платформа Databricks для lakehouse

Хорошо спроектированная платформа: схема озера данных.

Хорошо спроектированный лейкхаус состоит из 7 столпов, описывающих различные области озабоченности по реализации озера данных в облаке:

  • Управление данными и ИИ

    Надзор за тем, чтобы данные и ИИ принесли ценность и поддерживают вашу бизнес-стратегию.

  • Взаимодействие и удобство использования

    Способность lakehouse взаимодействовать с пользователями и другими системами.

  • Эффективность работы

    Все процессы операций, которые сохраняют работу lakehouse в рабочей среде.

  • Безопасность, конфиденциальность и соответствие требованиям

    Защита приложения Azure Databricks, рабочих нагрузок клиентов и данных клиентов от угроз.

  • Надежность

    Способность системы к восстановлению и возобновлению работы после сбоев.

  • Оптимизация производительности

    Способность системы адаптироваться к изменениям нагрузки.

  • Оптимизация затрат

    Управление затратами для повышения ценности продукта.

хорошо спроектированный lakehouse расширяет платформу Microsoft Azure Well-Architected Framework для Databricks Data Intelligence и разделяет столпы «Операционное превосходство», «Безопасность» (как «Безопасность, конфиденциальность и соответствие требованиям»), «Надежность», «Эффективность производительности», а также «Оптимизация затрат».

Для этих пяти основных принципов и рекомендаций облачной платформы по-прежнему применяются к lakehouse. хорошо спроектированный лейкхаус расширяет эти принципы и рекомендации, относящиеся к озеру, и важно построить эффективный и эффективный озерный дом.

Основные столпы, относящиеся к озеру

Основы "Управление данными и ИИ" и "Взаимодействие иУдобство использования" охватывают проблемы, относящиеся к озерохранилищу.

Управление данными и ИИ инкапсулирует политики и методики, реализованные для безопасного управления данными и ресурсами ИИ в организации. Одним из основных аспектов лейкхауса является централизованное управление данными и искусственным интеллектом: Lakehouse объединяет хранилища данных и варианты использования ИИ на одной платформе. Это упрощает современный стек данных путем устранения силосов данных, которые традиционно отделяют и усложняют проектирование данных, аналитику, бизнес-аналитику, обработку и анализ данных и машинное обучение. Чтобы упростить эти задачи управления, lakehouse предлагает единое решение для управления данными, аналитикой и ИИ. Свести к минимуму копии данных и перейти к одному уровню обработки данных, где все элементы управления данными и ИИ могут выполняться вместе, вы повышаете вероятность обеспечения соответствия требованиям и выявления нарушения данных.

Еще один важный тенет озера заключается в том, чтобы обеспечить отличный пользовательский интерфейс для всех лиц, работающих с ним, и иметь возможность взаимодействовать с широкой экосистемой внешних систем. Azure уже имеет различные средства обработки данных, которые выполняют большинство задач, управляемых данными, может потребоваться предприятие. Однако эти средства должны быть правильно собраны, чтобы обеспечить все функциональные возможности, причем каждая служба предлагает разные возможности пользователя. Этот подход может привести к высоким затратам на реализацию и, как правило, не обеспечивает тот же интерфейс пользователя, что и собственная платформа lakehouse: пользователи ограничены несоответствиями между инструментами и отсутствием возможностей совместной работы, и часто приходится проходить сложные процессы для получения доступа к системе и таким образом к данным.

Интегрированный lakehouse на другой стороне обеспечивает согласованный пользовательский интерфейс для всех рабочих нагрузок и, следовательно, повышает удобство использования. Это снижает затраты на обучение и подключение и улучшает совместную работу между функциями. Кроме того, новые функции автоматически добавляются с течением времени для дальнейшего улучшения взаимодействия с пользователем без необходимости инвестировать внутренние ресурсы и бюджеты.

Многооблачный подход может быть преднамеренной стратегией компании или результатом слияний и приобретений или независимых бизнес-подразделений, которые выбирают различных поставщиков облачных услуг. В этом случае использование многооблачного lakehouse приводит к единому интерфейсу пользователей во всех облаках. Это снижает распространение систем на предприятии, что, в свою очередь, снижает навыки и требования к обучению сотрудников, участвующих в задачах, управляемых данными.

Наконец, в сетевом мире с межкомпационными бизнес-процессами системы должны работать максимально эффективно. Степень взаимодействия является важным критерием здесь, и самые последние данные, как основной ресурс любого бизнеса, должны безопасно передаваться между внутренними и внешними системами партнеров.

Принципы и рекомендации