Изменить

Поделиться через


Современная платформа данных для малого и среднего бизнеса с помощью Microsoft Fabric и Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Фабрика данных Azure

Идеи решения

В этой статье описывается идея решения. Ваш архитектор облака может использовать это руководство, чтобы визуализировать основные компоненты для типичной реализации этой архитектуры. Используйте эту статью в качестве отправной точки для разработки хорошо спроектированного решения, которое соответствует конкретным требованиям рабочей нагрузки.

В этой статье описывается, как малые и средние предприятия (SMB) могут объединять существующие инвестиции в Azure Databricks с полностью управляемой платформой данных как услуга (SaaS), такой как Microsoft Fabric. Платформы данных SaaS — это комплексные решения для аналитики данных, которые легко интегрируются с такими инструментами, как Машинное обучение Azure, службы ИИ Azure, Power Platform, Microsoft Dynamics 365 и другие технологии Майкрософт.

Упрощенная архитектура

диаграмме с упрощенной архитектурой для малого и среднего бизнеса.

Скачайте файл Visio этой архитектуры.

Взаимодействие между Azure Databricks и Microsoft Fabric обеспечивает надежное решение, которое сводит к минимуму фрагментацию данных при повышении аналитических возможностей.

Microsoft Fabric предоставляет открытое и управляемое озеро данных с именем OneLake в качестве базового хранилища SaaS. OneLake использует формат Delta Parquet, который использует тот же формат, что и Azure Databricks. Чтобы получить доступ к данным Azure Databricks из OneLake, можно использовать сочетания клавиш OneLake в Fabric или зеркальное отображение каталога Unity Azure Databricks в Fabric. Эта интеграция позволяет расширить системы аналитики Azure Databricks с помощью генерируемого ИИ на основе OneLake.

Вы также можете использовать режим прямого озера в Power BI в данных Azure Databricks в OneLake. Режим прямого озера упрощает уровень обслуживания и улучшает производительность отчета. OneLake поддерживает API для Azure Data Lake Storage и сохраняет все табличные данные в формате Delta Parquet.

В результате записные книжки Azure Databricks могут использовать конечные точки OneLake для доступа к сохраненным данным. Этот интерфейс совпадает с доступом к данным через хранилище Microsoft Fabric. Эта интеграция позволяет использовать Fabric или Azure Databricks без изменения формы данных.

Архитектура

диаграмме, которая показывает архитектуру SMB.

Скачайте файл Visio этой архитектуры.

Поток данных

  1. Фабрике данных Azure: использовать существующие конвейеры Фабрики данных Azure для приема структурированных и неструктурированных данных из исходных систем и их посадки в существующем озере данных.

  2. Microsoft Dynamics 365: Вы можете использовать источники данных Microsoft Dynamics 365 для создания централизованных панелей мониторинга бизнес-аналитики на дополненных наборах данных с помощью Azure Synapse Link или Microsoft Fabric Link. Верните данные, обработанные в Microsoft Dynamics 365 и Power BI для дальнейшего анализа.

  3. прием данных потоковой передачи: потоковой передачи данных можно получать через Центры событий Azure или Центры Интернета вещей Azure в зависимости от протоколов, используемых для отправки этих сообщений.

  4. холодный путь: вы можете перенести потоковые данные в централизованное озеро данных для дальнейшего анализа, хранения и создания отчетов с помощью Azure Databricks. Затем эти данные можно объединить с другими источниками данных для пакетного анализа.

  5. горячий путь: потоковой передачи данных можно анализировать в режиме реального времени и панели мониторинга в режиме реального времени с помощью Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: существующие записные книжки Azure Databricks можно использовать для очистки данных, объединения и анализа как обычно. Рекомендуется использовать архитектуру медальона, например:

    • Бронза, которая содержит необработанные данные.

    • Silver, содержащий очищенные отфильтрованные данные.

    • Gold, в котором хранятся агрегированные данные, полезные для бизнес-аналитики.

  7. Золотые данные или хранилище данных: Для золотых данных или хранилища данных продолжайте использовать SQL Azure Databricks или создать зеркальное отображение каталога Azure Databricks Unity в Microsoft Fabric. Легко создавать панели мониторинга на основе бессерверного анализа данных в Fabric lakehouses без каких-либо настроек, необходимых с помощью семантических моделей Power BI, которые автоматически создаются для всех озер Fabric. Хранилище данных Fabric также можно использовать в качестве золотого слоя, если для аналитических требований требуется ускорить вычисление.

Средства, используемые для управления, совместной работы, безопасности, производительности и мониторинга затрат:

  • Обнаружение и управление

    • Microsoft Purview предоставляет службы обнаружения данных, классификацию конфиденциальных данных и аналитические сведения об управлении в пределах хранилища данных.

    • Каталог Unity предоставляет централизованный контроль доступа, аудит, происхождение данных и возможности обнаружения данных в рабочих областях Azure Databricks.

  • Azure DevOps обеспечивает непрерывную интеграцию и непрерывное развертывание и другие интегрированные функции управления версиями.

  • Azure Key Vault управляет секретами, ключами и сертификатами.

  • Идентификатор Microsoft Entra предоставляет единый вход для пользователей Azure Databricks. Azure Databricks поддерживает автоматическую подготовку пользователей с помощью идентификатора Microsoft Entra:

    • Создание новых пользователей.

    • Назначьте каждому пользователю уровень доступа.

    • Удалите пользователей и отклоните им доступ.

  • Azure Monitor собирает и анализирует данные телеметрии ресурсов Azure. Эта служба обеспечивает максимальную производительность и надежность путем упреждающего выявления проблем.

  • Microsoft Cost Management предоставляет службы управления финансовыми ресурсами для рабочих нагрузок Azure.

Компоненты

  • Data Lake Storage — это масштабируемая служба хранения данных, предназначенная для структурированных и неструктурированных данных. В этой архитектуре Data Lake Storage служит базовой инфраструктурой для Delta Lake. Это основной уровень хранилища для необработанных и обработанных данных, который обеспечивает эффективное прием данных, хранение и извлечение для рабочих нагрузок аналитики и машинного обучения.

  • Фабрике данных Azure — это облачная служба интеграции данных, которая управляет и автоматизирует перемещение и преобразование данных. Фабрика данных Azure используется для создания, планирования и оркестрации конвейеров данных, которые перемещают и преобразуют данные в различных хранилищах данных и службах. Это помогает обеспечить простой поток данных и интеграцию.

  • Центры событий — это служба приема данных в режиме реального времени, которая может обрабатывать миллионы событий в секунду из любого источника. В этой архитектуре Центры событий фиксируют и передают большие объемы данных из различных источников, чтобы обеспечить аналитику в режиме реального времени и обработку на основе событий.

  • Центр Интернета вещей Azure — это управляемая служба, которая улучшает безопасность и надежную связь между устройствами Интернета вещей и облаком. Центр Интернета вещей Azure упрощает прием, обработку и анализ данных телеметрии с устройств Интернета вещей для предоставления аналитических сведений в режиме реального времени и включения удаленного мониторинга.

  • Microsoft Dataverse — это масштабируемая платформа данных, которую организации могут использовать для безопасного хранения и управления данными, используемыми бизнес-приложениями. В этой архитектуре она ссылается как на потенциальный источник данных.

    • Azure Synapse Link подключает приложения Dynamics к Azure Synapse Analytics или Data Lake Storage. В этой архитектуре используется для копирования данных практически в реальном времени из Dataverse в Data Lake Storage.

    • Microsoft Fabric Link подключает приложения Dynamics к Microsoft Fabric. В этой архитектуре используется для репликации данных из Dataverse в Microsoft Fabric практически в режиме реального времени.

  • Azure Databricks — это платформа аналитики на основе Apache Spark. Azure Databricks используется для обработки больших данных, машинного обучения и задач проектирования данных. Эта платформа предоставляет рабочую область совместной работы для специалистов по обработке и анализу данных и инженеров.

    • Delta Lake — это уровень хранения с открытым исходным кодом, который обеспечивает транзакции ACID в Apache Spark и рабочие нагрузки больших данных. Delta Lake используется для предоставления этой функции хранилищу озера данных.

    • Azure Databricks SQL — это служба аналитики на основе SQL, которая позволяет пользователям запускать запросы SQL на данных, хранящихся в Azure Databricks. В этой архитектуре Azure Databricks SQL предоставляет мощный интерфейс SQL для запроса и анализа данных, что обеспечивает интерактивную и нерегламентируемую аналитику.

    • ИИ и машинного обучения охватывают ряд технологий и служб, которые обеспечивают разработку, развертывание и управление моделями машинного обучения. Службы искусственного интеллекта и машинного обучения используются для создания, обучения и развертывания прогнозных моделей. Эта возможность позволяет принимать решения на основе данных.

    • каталоге Unity — это решение для управления данными, которое обеспечивает централизованный контроль доступа, аудит, происхождение данных и возможности обнаружения данных в рабочих областях Databricks. Каталог Unity помогает обеспечить управление данными и безопасность, обеспечивая точное управление доступом, аудит и отслеживание происхождения данных.

  • архитектура Medallion Lakehouse — это шаблон архитектуры данных, который упорядочивает данные в бронзовые, серебряные и золотые слои для эффективной обработки и анализа данных. Этот шаблон архитектуры реализуется здесь с помощью Data Lake Storage, Delta Lake и Azure Databricks, что обеспечивает масштабируемую и эффективную обработку и аналитику данных.

  • Microsoft Fabric — это комплексная платформа данных, которая интегрирует различные службы данных и средства для обеспечения простого управления данными и аналитики. Microsoft Fabric подключает и интегрирует данные из нескольких источников, что обеспечивает комплексный анализ данных и аналитические сведения в организации.

    • Real-Time аналитика — это возможность обработки данных, которая позволяет организациям получать, обрабатывать и анализировать данные в режиме реального времени. Real-Time Intelligence обрабатывает потоковую передачу данных из различных источников. Он предоставляет аналитические сведения в режиме реального времени и включает автоматизированные действия на основе шаблонов данных.

    • сочетания клавиш OneLake создать связь между OneLake и другим источником данных. Сочетания клавиш OneLake используются для упрощения доступа к данным и управления ими, что обеспечивает единое представление данных в организации.

  • Power BI — это служба бизнес-аналитики, которая предоставляет интерактивные визуализации и возможности бизнес-аналитики. Он имеет простой интерфейс для пользователей для создания собственных интерактивных отчетов и панелей мониторинга. Эти средства позволяют визуализировать данные и аналитические сведения для бизнес-пользователей.

  • Microsoft Purview — это единая служба управления данными, которая помогает организациям управлять и управлять ими в различных источниках. Microsoft Purview предоставляет возможности каталогизации данных, отслеживания происхождения и управления данными. Эти функции помогают обеспечить соответствие и безопасность данных в организации.

  • идентификатор Microsoft Entra ID — это облачное решение для управления удостоверениями и доступом, которое помогает обеспечить безопасный вход и доступ к ресурсам, таким как Microsoft 365, Azure и другие приложения SaaS. В этой архитектуре идентификатор Microsoft Entra предоставляет безопасное удостоверение и управление доступом для ресурсов Azure. Эта функция обеспечивает безопасный вход, управляет удостоверениями пользователей и помогает обеспечить доступ к данным и ресурсам.

  • microsoft Cost Management — это набор средств FinOps, которые организации могут использовать для анализа, мониторинга и оптимизации затрат Microsoft Cloud. Эти средства обеспечивают финансовое управление ресурсами Azure в этой архитектуре.

  • Key Vault — это облачная служба, которая хранит секреты и управляет ими, такими как ключи API, пароли, сертификаты и криптографические ключи. Эта служба позволяет пользователям и приложениям безопасно получать доступ к этим секретам. При хранении ключей и секретов в Key Vault их можно управлять одним местом. В этой архитектуре Azure Databricks может получить секреты из Key Vault для проверки подлинности и доступа к Data Lake Storage. Этот процесс помогает обеспечить безопасную и безопасную интеграцию между этими службами.

  • Azure Monitor — это комплексная служба мониторинга, которая обеспечивает возможность полнотековых наблюдений за приложениями, инфраструктурой и сетями. Azure Monitor позволяет пользователям собирать, анализировать и действовать на данных телеметрии из своих сред Azure и локальных сред для упреждающего выявления проблем и повышения производительности и надежности.

  • Azure DevOps — это набор средств разработки, поддерживающих культуру совместной работы и оптимизированные процессы. Эти средства позволяют разработчикам, руководителям проектов и участникам более эффективно разрабатывать программное обеспечение. Azure DevOps предоставляет интегрированные функции, такие как Azure Boards, Azure Repos, Azure Pipelines, Планы тестирования Azure и Артефакты Azure. Эти функции можно получить через веб-браузер или клиент интегрированной среды разработки.

  • GitHub — это облачная служба размещения репозитория Git, которая упрощает управление версиями и совместную работу для разработчиков. Она позволяет отдельным лицам и командам хранить код и управлять ими, отслеживать изменения и совместно работать над проектами с помощью Git. Пользовательский интерфейс GitHub делает Git доступным для кодировщиков всех уровней навыков. Azure DevOps и GitHub можно использовать вместе для реализации методик DevOps. Эти методики обеспечивают автоматизацию и соответствие требованиям в конвейерах разработки и развертывания рабочей нагрузки для Фабрики данных Azure, Azure Databricks и Microsoft Fabric.

Альтернативы

Альтернативные службы в этой архитектуре

  • прием пакетной службы

  • приема microsoft Dynamics 365

  • прием данных потоковой передачи

    • Решение между Центрами интернета вещей Azure и Центрами событий зависит от источника потоковых данных, от необходимости клонирования и двунаправленного взаимодействия с устройствами отчетов и необходимых протоколов. Дополнительные сведения см. в разделе Сравнение Центров Интернета вещей и Центров событий.
  • Lakehouse

    • Microsoft Fabric Lakehouse — это единая платформа архитектуры данных для управления структурированными и неструктурированными данными в открытом формате, в основном использующего файлы Delta Parquet. Он поддерживает два типа хранилища. Эти типы хранилища — это управляемые таблицы, такие как CSV, Parquet или Delta, и неуправляемые файлы. Управляемые таблицы автоматически распознаются. Неуправляемые файлы требуют явного создания таблицы. Платформа обеспечивает преобразование данных через конечные точки Spark или SQL и легко интегрируется с другими компонентами Microsoft Fabric. Эта простая интеграция позволяет совместно использовать данные без дублирования. Эта концепция соответствует общей архитектуре медальона, используемой в аналитических рабочих нагрузках. Дополнительные сведения см. в разделе Lakehouse в Microsoft Fabric.
  • аналитика в режиме реального времени

    • Azure Databricks

      • Если у вас есть существующее решение Azure Databricks, вы можете продолжить использовать структурированную потоковую передачу для аналитики в режиме реального времени. Дополнительные сведения см. в потоковой передачи в Databricks.
    • Microsoft Fabric

      • Если вы использовали другие службы Azure для аналитики в режиме реального времени в прошлом или не имеют существующего решения аналитики в режиме реального времени, ознакомьтесь с Аналитика Fabric в режиме реального времени и решениями потоковой передачи Azure.

      • Структурированная потоковая передача Microsoft Fabric использует структурированную потоковую передачу Spark для обработки и приема потоков динамических данных в виде непрерывных добавленных таблиц. Структурированная потоковая передача поддерживает различные источники файлов, такие как CSV, JSON, ORC, Parquet и службы обмена сообщениями, такие как Kafka и Центры событий. Такой подход обеспечивает масштабируемую и отказоустойчивую обработку потоков, которая оптимизирует рабочие среды с высокой пропускной способностью. Дополнительные сведения см. в разделе Структурированная потоковая передача Microsoft Fabric Spark.

  • инженерии данных

  • хранилище данных или золотой слой

  • обработки и анализа данных

    • Используйте Microsoft Fabric или Azure Databricks для возможностей обработки и анализа данных. Дополнительные сведения о предложении Microsoft Fabric для обработки и анализа данных см. в статье Что такое обработка и анализ данных в Microsoft Fabric?. Дополнительные сведения о предложении Azure Databricks см. в ИИ и машинного обучения в Databricks.

    • Microsoft Fabric Data Science отличается от машинного обучения. Машинное обучение предоставляет комплексное решение для управления рабочими процессами и развертывания моделей машинного обучения. Microsoft Fabric Data Science адаптирована к сценарию анализа и отчетности.

  • Power BI

    • Azure Databricks, интегрированный с Power BI, обеспечивает простую обработку и визуализацию данных. Дополнительные сведения см. в статье Подключение Power BI к Azure Databricks.

    • Зеркальное отображение каталога Azure Databricks Unity в Fabric позволяет получить доступ к данным, управляемым каталогом Unity Azure Databricks непосредственно из рабочей нагрузки Fabric. Дополнительные сведения см. в каталоге Azure Databricks Unity.

    • Создайте ярлык из Data Lake Storage с Delta Lake в Microsoft Fabric One Lake. Дополнительные сведения см. в разделе Интеграция каталога Databricks Unity с OneLake. Эти данные можно запрашивать из Power BI с помощью режима Direct Lake без копирования данных в службу Power BI. Дополнительные сведения см. врежиме прямого озера.

Сведения о сценарии

Малые и средние предприятия, имеющие существующую среду Azure Databricks и при необходимости архитектуру lakehouse, могут воспользоваться этим шаблоном. В настоящее время они используют средство извлечения, преобразования Azure, средства загрузки, например Фабрики данных Azure и обслуживания отчетов в Power BI. Однако у них может быть несколько источников данных, которые используют разные собственные форматы данных в одном озере данных, что приводит к дублированию данных и проблемам с блокировкой поставщика. Эта ситуация может усложнить управление данными и повысить зависимость от конкретных поставщиков. Кроме того, им может потребоваться up-to-date и почти в режиме реального времени отчеты о принятии решений и быть заинтересованы в внедрении средств искусственного интеллекта в своей среде.

Microsoft Fabric — это открытый, унифицированный и управляемый фонд SaaS, который можно использовать для:

  • Используйте OneLake для хранения, управления и анализа данных в одном расположении без проблем с блокировкой поставщика.

  • Ускоряйте внедрение инноваций с помощью интеграции с приложениями Microsoft 365.

  • Получите быструю аналитику с помощью преимуществ прямого озера Power BI.

  • Преимущества Копилотов в каждом интерфейсе Microsoft Fabric.

  • Ускорьте анализ путем разработки моделей ИИ на одном фундаменте.

  • Сохраняйте данные без перемещения, что сокращает время, необходимое специалистам по обработке и анализу данных.

Участников

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.

Основные авторы:

Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.

Дальнейшие действия