Поделиться через


Взаимодействие и удобство использования для озера данных

В этой статье рассматриваются принципы архитектуры взаимодействия и удобства использования столп, ссылающийся на взаимодействие lakehouse с пользователями и другими системами. Одна из основных идей lakehouse заключается в том, чтобы обеспечить отличный пользовательский интерфейс для всех лиц, работающих с ним, и иметь возможность взаимодействовать с широкой экосистемой внешних систем.

  • Интероперабельность — это возможность работы системы и интеграции с другими системами. Он подразумевает взаимодействие между различными компонентами и продуктами, возможно, от нескольких поставщиков, а также между прошлыми и будущими версиями одного и того же продукта.
  • Удобство использования — это мера того, насколько хорошо система позволяет пользователям безопасно, эффективно и продуктивно выполнять задачи.

схема архитектуры Lakehouse для Databricks, совместимость и удобство использования.

Следуя принципам этого столпа, помогите:

  • Обеспечение согласованного и совместного взаимодействия с пользователем.
  • Используйте взаимодействие между облаками.
  • Упростите интеграцию из lakehouse и в него.
  • Сокращение затрат на обучение и поддержку.

В конечном итоге это приводит к более быстрому времени достижения ценности.

Принципы взаимодействия и удобства использования

  1. Определение стандартов интеграции

    Интеграция имеет различные аспекты и может выполняться различными способами. Чтобы избежать распространения средств и подходов, необходимо определить рекомендации, а также предоставить список хорошо поддерживаемых и предпочтительных инструментов и соединителей.

    Одним из ключевых принципов архитектуры является модульность и свободное связывание, а не жесткая интеграция. Это уменьшает зависимости между компонентами и рабочими нагрузками, помогает устранять побочные эффекты и обеспечивает независимое развитие в различных масштабах времени. Используйте наборы данных и их схему в качестве контракта. Разделите рабочие нагрузки, такие как задачи по подготовке данных (например, загрузка и преобразование данных в озеро данных), от ценностных задач (например, отчетов, дашбордов и проектирования функций для анализа данных). Определите центральный каталог данных с рекомендациями по форматам данных, качеству данных и жизненному циклу данных.

  2. Использовать открытые интерфейсы и открытые форматы данных

    Часто решения разрабатываются, где доступ к данным можно получить только через определенную систему. Это может привести к блокировке поставщика, но это также может стать огромным драйвером расходов, если доступ к данным через эту систему подлежит со взиманием лицензионных сборов. Использование открытых форматов данных и интерфейсов помогает избежать этого. Они также упрощают интеграцию с существующими системами и открывают экосистему партнеров, которые уже интегрировали свои инструменты с lakehouse.

    Если вы используете экосистемы с открытым исходным кодом, такие как Python или R для науки о данных, или Spark и ANSI SQL для доступа к данным и управления правами доступа, вам будет проще найти персонал для проектов. Это также упрощает потенциальные миграции на платформу и с нее.

  3. Упрощение реализации нового варианта использования

    Чтобы максимально эффективно использовать данные в озере данных, пользователи должны иметь возможность легко разрабатывать свои сценарии использования на платформе. Это начинается с бережливых процессов по управлению доступом к платформам и управлением данными. Например, доступ к платформе в режиме самообслуживания помогает предотвратить превращение центральной команды в узкое место. Общие среды и предопределенные схемы для развертывания новых сред гарантируют, что платформа быстро доступна любому бизнес-пользователю.

  4. обеспечение согласованности и удобства использования данных

    Две важные действия на платформе данных — это публикация данных и потребление данных. С точки зрения публикации данные должны предлагаться в качестве продукта. Издатели должны следовать определенному жизненному циклу с учетом потребителей, и данные должны быть четко определены с помощью управляемых схем, описаний и т. д.

    Также важно предоставить семантические согласованные данные, чтобы потребители могли легко понять и правильно объединить различные наборы данных. Кроме того, все данные должны быть легко обнаруживаемыми и доступными для потребителей через центральный каталог с должным образом курируемыми метаданными и происхождением данных.

Далее: рекомендации по взаимодействию и удобства использования

Ознакомьтесь с рекомендациями по взаимодействию и использованию.