Поделиться через


Область действия платформы Lakehouse

Современная платформа данных и платформы ИИ

Чтобы обсудить область платформы аналитики данных Databricks, рекомендуется сначала определить базовую платформу для современных данных и платформы ИИ:

фреймворк для аналитики облачных данных.

Обзор области lakehouse

Платформа аналитики данных Databricks охватывает полную современную платформу данных. Он основан на архитектуре lakehouse и работает с помощью подсистемы аналитики данных, которая понимает уникальные качества ваших данных. Это открытый и унифицированный фундамент для рабочих нагрузок ETL, ML/AI и DWH/BI, а также каталог Unity в качестве центрального решения для управления данными и ИИ.

Personas платформы

Платформа охватывает основных участников группы данных (personas), работающих с приложениями в платформе:

  • Инженеры данных предоставляют специалистам по обработке и анализу данных и бизнес-аналитикам точные и воспроизводимые данные для своевременного принятия решений и аналитических сведений в реальном времени. Они реализуют очень согласованные и надежные процессы ETL для повышения доверия пользователей и доверия к данным. Они гарантируют, что данные хорошо интегрированы с различными основами бизнеса и обычно следуют рекомендациям по проектированию программного обеспечения.
  • Специалисты по обработке и анализу данных объединяют аналитические знания и бизнес-понимание для преобразования данных в стратегические аналитические и прогнозные модели. Они готовы преобразовывать бизнес-задачи в решения, управляемые данными, будь то в ретроспективном аналитическом анализе или прогнозном моделировании. Использование методов моделирования данных и машинного обучения, они разрабатывают, разрабатывают и развертывают модели, которые раскрывают шаблоны, тенденции и прогнозы из данных. Они действуют как мост, преобразуя сложные повествования данных в понятные истории, обеспечивая заинтересованным лицам бизнеса не только понимание, но и действовать на основе данных рекомендаций, в свою очередь, управляя ориентированным на данные подходом к решению проблем в организации.
  • Инженеры машинного обучения (инженеры машинного обучения) ведут практическое применение обработки и анализа данных в продуктах и решениях путем создания, развертывания и обслуживания моделей машинного обучения. Их основное внимание уделяется проектированию аспектов разработки и развертывания моделей. Инженеры машинного обучения обеспечивают надежность, надежность и масштабируемость систем машинного обучения в живых средах, устраняя проблемы, связанные с качеством данных, инфраструктурой и производительностью. Интеграция моделей искусственного интеллекта и машинного обучения в операционные бизнес-процессы и продукты, которые сталкиваются с пользователем, упрощают использование обработки и анализа данных в решении бизнес-задач, гарантируя, что модели не просто остаются в исследованиях, а обеспечивают реальную бизнес-ценность.
  • Бизнес-аналитики и бизнес-пользователи: бизнес-аналитики предоставляют заинтересованным лицам и бизнес-командам практические данные. Они часто интерпретируют данные и создают отчеты или другую документацию для управления с помощью стандартных средств бизнес-аналитики. Как правило, они являются первой точкой контакта для не технических бизнес-пользователей и коллег по операциям для быстрого анализа вопросов. Панели мониторинга и бизнес-приложения, предоставляемые на платформе Databricks, могут использоваться непосредственно бизнес-пользователями.
  • Деловые партнеры являются важными заинтересованными лицами в все более сетевом бизнес-мире. Они определяются как компания или лица, с которыми бизнес имеет формальные отношения для достижения общей цели, и может включать поставщиков, поставщиков, распространителей и других сторонних партнеров. Обмен данными является важным аспектом деловых партнерств, так как он позволяет передавать и обмениваться данными для повышения совместной работы и принятия решений на основе данных.

Домены платформы

Платформа состоит из нескольких доменов:

  • хранилище: данные в облаке хранятся в основном в масштабируемом, эффективном и устойчивом объектном хранилище у облачных провайдеров.

  • Управление: возможности управления данными, такие как управление доступом, аудит, управление метаданными, отслеживание происхождения и мониторинг для всех ресурсов ИИ.

  • Подсистема искусственного интеллекта: подсистема ИИ предоставляет созданные возможности ИИ для всей платформы.

  • Прием и преобразование: возможности для рабочих нагрузок ETL.

  • Расширенная аналитика, машинное обучение и ИИ: все возможности машинного обучения, ИИ, генеривных ИИ, а также потоковая аналитика.

  • Хранилище данных: домен, поддерживающий варианты использования DWH и BI.

  • Автоматизация: Управление рабочими процессами для обработки данных, машинное обучение, аналитические потоки, включая поддержку CI/CD и MLOps.

  • Средства ETL и DS: интерфейсные инструменты, которые инженеры данных, специалисты по обработке и анализу данных и инженеры машинного обучения в основном используют для работы.

  • Средства бизнес-аналитики: интерфейсные инструменты, которые аналитики бизнес-аналитики в основном используют для работы.

  • Совместная работа: возможности совместного использования данных между двумя или несколькими сторонами.

Область действия платформы Databricks

Платформа аналитики данных Databricks и ее компоненты можно сопоставить с платформой следующим образом:

схема охвата лайкхауса.

Скачать: область озера — компоненты Databricks

Рабочие нагрузки данных в Azure Databricks

Самое главное, платформа аналитики данных Databricks охватывает все соответствующие рабочие нагрузки для домена данных на одной платформе с Apache Spark/Photon в качестве обработчика:

  • Прием и преобразование

    Databricks предлагает несколько способов приема данных:

    • Databricks LakeFlow Connect предлагает встроенные соединители для интеграции данных из корпоративных приложений и баз данных. Результирующий конвейер загрузки данных управляется каталогом Unity и осуществляется с помощью бессерверной обработки данных и Delta Live Tables.
    • Автоматический загрузчик поэтапно и автоматически обрабатывает файлы в облачном хранилище в запланированных или непрерывных заданиях без необходимости управлять состоянием. После приема необработанные данные необходимо преобразовать так, чтобы он готов к бизнес-аналитике и машинному обучению и искусственному интеллекту. Databricks предоставляет мощные возможности ETL для инженеров данных, специалистов по обработке и анализу данных.

    Delta Live Tables (DLT) позволяет писать задания ETL в декларативной форме, упрощая весь процесс реализации. Качество данных можно улучшить, определив ожидания данных.

  • Расширенная аналитика, машинное обучение и ИИ

    Платформа включает Databricks Mosaic AI, набор полностью интегрированных инструментов машинного обучения и искусственного интеллекта для классического машинного и глубокого обучения, а также генеративного ИИ и крупных языковых моделей (LLMs). Он охватывает весь рабочий процесс от подготовки данных к созданию моделей машинного обучения и глубокого обучения до мозаичной модели ИИ.

    Структурированная потоковая передача Spark и DLT обеспечивают аналитику в режиме реального времени.

  • Хранилище данных

    Платформа аналитики данных Databricks также имеет полное решение для хранилища данных с Databricks SQL, централизованно управляемое каталогом Unity с точным контролем доступа.

    функции ИИ — это встроенные функции SQL, которые позволяют применять ИИ непосредственно из SQL. Интеграция ИИ в рабочие процессы анализа обеспечивает доступ к информации, ранее недоступной аналитикам, и позволяет им принимать более обоснованные решения, управлять рисками и поддерживать конкурентное преимущество с помощью инноваций, управляемых данными, и эффективности.

Структура областей функций Azure Databricks

Это сопоставление функций Платформы аналитики данных Databricks с другими уровнями платформы снизу до верхней части:

  • Облачное хранилище

    Все данные для lakehouse хранятся в хранилище объектов поставщика облачных служб. Databricks поддерживает три поставщика облачных служб: AWS, Azure и GCP. Файлы в различных структурированных и полуструктурированных форматах (например, Parquet, CSV, JSON и Avro), а также неструктурированных форматах (таких как изображения и документы), обрабатываются и преобразуются с помощью пакетных или потоковых процессов.

    Delta Lake — это рекомендуемый формат данных для lakehouse (транзакции файлов, надежность, согласованность, обновления и т. д.) и полностью открытый код, чтобы избежать блокировки. И универсальный формат Delta (UniForm) позволяет читать таблицы Delta с клиентами читателя Iceberg.

    В платформе Databricks Data Intelligence не используются собственные форматы данных.

  • Управление данными и ИИ

    Наряду с уровнем хранения каталога Unity предоставляет широкий спектр возможностей управления данными и ИИ, включая управление метаданными в хранилище метаданных, управление доступом, аудит, обнаружение данныхи происхождения данных.

    Мониторинг Lakehouse предоставляет встроенные метрики качества для ресурсов данных и искусственного интеллекта, а также автоматически созданные панели мониторинга для визуализации этих метрик.

    Внешние источники SQL можно интегрировать в lakehouse и каталог Unity с помощью федерации Lakehouse.

  • Подсистема искусственного интеллекта

    Платформа аналитики данных основана на архитектуре lakehouse и улучшена подсистемой аналитики данных DatabricksIQ. DatabricksIQ объединяет генерированный ИИ с преимуществами объединения архитектуры Lakehouse, чтобы понять уникальную семантику данных. Интеллектуальный поиск и помощник Databricks — это примеры служб, работающих на основе искусственного интеллекта, которые упрощают работу с платформой для каждого пользователя.

  • Оркестрация

    Задания Databricks позволяют выполнять разнообразные рабочие нагрузки для полного жизненного цикла данных и искусственного интеллекта в любом облаке. Они позволяют оркестрировать задания, а также Delta Live Tables для SQL, Spark, записных книжек, DBT, моделей машинного обучения и многого другого.

    Платформа также поддерживает CI/CD и MLOps

  • Средства ETL и DS

    На уровне потребления инженеры данных и инженеры машинного обучения обычно работают с платформой с помощью удостоверений. Специалисты по обработке и анализу данных часто предпочитают записные книжки и используют среды выполнения машинного обучения и ИИ, а также систему машинного обучения MLflow для отслеживания экспериментов и управления жизненным циклом модели.

  • Средства бизнес-аналитики

    Бизнес-аналитики обычно используют предпочитаемое средство бизнес-аналитики для доступа к хранилищу данных Databricks. Sql Databricks можно запрашивать различными средствами анализа и бизнес-аналитики, просматривать бизнес-аналитику и визуализацию

    Кроме того, платформа предлагает средства запроса и анализа из поля:

    • панели мониторинга ИИ/BI для перетаскивания и сброса визуализаций данных и обмена аналитическими данными.
    • Эксперты домена, такие как аналитики данных, настройте пространства ИИ/BI Genie с наборами данных, примерами запросов и текстовыми рекомендациями, чтобы помочь Genie перевести бизнес-вопросы в аналитические запросы. После настройки бизнес-пользователи могут задавать вопросы и создавать визуализации для понимания операционных данных.
    • Databricks Apps позволяет разработчикам создавать безопасные данные и приложения ИИ на платформе Databricks и предоставлять доступ к этим приложениям пользователям.
    • Редактор SQL для аналитиков SQL для анализа данных.
  • Совместная работа

    Delta Sharing — это открытый протокол, разработанный Databricks для безопасного обмена данными с другими организациями независимо от используемых вычислительных платформ.

    Databricks Marketplace — это открытый форум для обмена продуктами данных. Это решает задачу предоставления поставщикам данных инструментов для безопасного обмена продуктами данных и дает потребителям данных возможность изучать и расширять доступ к необходимым данным и службам данных.

    Clean Rooms используют Delta Sharing и бессерверные вычисления для обеспечения безопасной и конфиденциальной среды, в которой несколько сторон могут работать совместно с чувствительными корпоративными данными без прямого доступа к данным остальных участников.