Идеи решения
В этой статье описывается идея решения. Ваш архитектор облака может использовать это руководство, чтобы визуализировать основные компоненты для типичной реализации этой архитектуры. Используйте эту статью в качестве отправной точки для разработки хорошо спроектированного решения, которое соответствует конкретным требованиям рабочей нагрузки.
В этой статье описывается, как малые и средние предприятия (SMB) могут объединять существующие инвестиции в Azure Databricks с полностью управляемой платформой данных как услуга (SaaS), такой как Microsoft Fabric. Платформы данных SaaS — это комплексные решения для аналитики данных, которые легко интегрируются с такими инструментами, как Машинное обучение Azure, службы ИИ Azure, Power Platform, Microsoft Dynamics 365 и другие технологии Майкрософт.
Упрощенная архитектура
Скачайте файл Visio этой архитектуры.
Взаимодействие между Azure Databricks и Microsoft Fabric обеспечивает надежное решение, которое сводит к минимуму фрагментацию данных при повышении аналитических возможностей.
Microsoft Fabric предоставляет открытое и управляемое озеро данных с именем OneLake в качестве базового хранилища SaaS. OneLake использует формат Delta Parquet, который использует тот же формат, что и Azure Databricks. Чтобы получить доступ к данным Azure Databricks из OneLake, можно использовать сочетания клавиш OneLake в Fabric или зеркальное отображение каталога Unity Azure Databricks в Fabric. Эта интеграция позволяет расширить системы аналитики Azure Databricks с помощью генерируемого ИИ на основе OneLake.
Вы также можете использовать режим прямого озера в Power BI в данных Azure Databricks в OneLake. Режим прямого озера упрощает уровень обслуживания и улучшает производительность отчета. OneLake поддерживает API для Azure Data Lake Storage и сохраняет все табличные данные в формате Delta Parquet.
В результате записные книжки Azure Databricks могут использовать конечные точки OneLake для доступа к сохраненным данным. Этот интерфейс совпадает с доступом к данным через хранилище Microsoft Fabric. Эта интеграция позволяет использовать Fabric или Azure Databricks без изменения формы данных.
Архитектура
Скачайте файл Visio этой архитектуры.
Поток данных
Фабрике данных Azure: использовать существующие конвейеры Фабрики данных Azure для приема структурированных и неструктурированных данных из исходных систем и их посадки в существующем озере данных.
Microsoft Dynamics 365: Вы можете использовать источники данных Microsoft Dynamics 365 для создания централизованных панелей мониторинга бизнес-аналитики на дополненных наборах данных с помощью Azure Synapse Link или Microsoft Fabric Link. Верните данные, обработанные в Microsoft Dynamics 365 и Power BI для дальнейшего анализа.
прием данных потоковой передачи: потоковой передачи данных можно получать через Центры событий Azure или Центры Интернета вещей Azure в зависимости от протоколов, используемых для отправки этих сообщений.
холодный путь: вы можете перенести потоковые данные в централизованное озеро данных для дальнейшего анализа, хранения и создания отчетов с помощью Azure Databricks. Затем эти данные можно объединить с другими источниками данных для пакетного анализа.
горячий путь: потоковой передачи данных можно анализировать в режиме реального времени и панели мониторинга в режиме реального времени с помощью Microsoft Fabric Real-Time Intelligence.
Azure Databricks: существующие записные книжки Azure Databricks можно использовать для очистки данных, объединения и анализа как обычно. Рекомендуется использовать архитектуру медальона, например:
Бронза, которая содержит необработанные данные.
Silver, содержащий очищенные отфильтрованные данные.
Gold, в котором хранятся агрегированные данные, полезные для бизнес-аналитики.
Золотые данные или хранилище данных: Для золотых данных или хранилища данных продолжайте использовать SQL Azure Databricks или создать зеркальное отображение каталога Azure Databricks Unity в Microsoft Fabric. Легко создавать панели мониторинга на основе бессерверного анализа данных в Fabric lakehouses без каких-либо настроек, необходимых с помощью семантических моделей Power BI, которые автоматически создаются для всех озер Fabric. Хранилище данных Fabric также можно использовать в качестве золотого слоя, если для аналитических требований требуется ускорить вычисление.
Средства, используемые для управления, совместной работы, безопасности, производительности и мониторинга затрат:
Обнаружение и управление
Microsoft Purview предоставляет службы обнаружения данных, классификацию конфиденциальных данных и аналитические сведения об управлении в пределах хранилища данных.
Каталог Unity предоставляет централизованный контроль доступа, аудит, происхождение данных и возможности обнаружения данных в рабочих областях Azure Databricks.
Azure DevOps обеспечивает непрерывную интеграцию и непрерывное развертывание и другие интегрированные функции управления версиями.
Azure Key Vault управляет секретами, ключами и сертификатами.
Идентификатор Microsoft Entra предоставляет единый вход для пользователей Azure Databricks. Azure Databricks поддерживает автоматическую подготовку пользователей с помощью идентификатора Microsoft Entra:
Создание новых пользователей.
Назначьте каждому пользователю уровень доступа.
Удалите пользователей и отклоните им доступ.
Azure Monitor собирает и анализирует данные телеметрии ресурсов Azure. Эта служба обеспечивает максимальную производительность и надежность путем упреждающего выявления проблем.
Microsoft Cost Management предоставляет службы управления финансовыми ресурсами для рабочих нагрузок Azure.
Компоненты
Data Lake Storage — это масштабируемая служба хранения данных, предназначенная для структурированных и неструктурированных данных. В этой архитектуре Data Lake Storage служит базовой инфраструктурой для Delta Lake. Это основной уровень хранилища для необработанных и обработанных данных, который обеспечивает эффективное прием данных, хранение и извлечение для рабочих нагрузок аналитики и машинного обучения.
Фабрике данных Azure — это облачная служба интеграции данных, которая управляет и автоматизирует перемещение и преобразование данных. Фабрика данных Azure используется для создания, планирования и оркестрации конвейеров данных, которые перемещают и преобразуют данные в различных хранилищах данных и службах. Это помогает обеспечить простой поток данных и интеграцию.
Центры событий — это служба приема данных в режиме реального времени, которая может обрабатывать миллионы событий в секунду из любого источника. В этой архитектуре Центры событий фиксируют и передают большие объемы данных из различных источников, чтобы обеспечить аналитику в режиме реального времени и обработку на основе событий.
Центр Интернета вещей Azure — это управляемая служба, которая улучшает безопасность и надежную связь между устройствами Интернета вещей и облаком. Центр Интернета вещей Azure упрощает прием, обработку и анализ данных телеметрии с устройств Интернета вещей для предоставления аналитических сведений в режиме реального времени и включения удаленного мониторинга.
Microsoft Dataverse — это масштабируемая платформа данных, которую организации могут использовать для безопасного хранения и управления данными, используемыми бизнес-приложениями. В этой архитектуре она ссылается как на потенциальный источник данных.
Azure Synapse Link подключает приложения Dynamics к Azure Synapse Analytics или Data Lake Storage. В этой архитектуре используется для копирования данных практически в реальном времени из Dataverse в Data Lake Storage.
Microsoft Fabric Link подключает приложения Dynamics к Microsoft Fabric. В этой архитектуре используется для репликации данных из Dataverse в Microsoft Fabric практически в режиме реального времени.
Azure Databricks — это платформа аналитики на основе Apache Spark. Azure Databricks используется для обработки больших данных, машинного обучения и задач проектирования данных. Эта платформа предоставляет рабочую область совместной работы для специалистов по обработке и анализу данных и инженеров.
Delta Lake — это уровень хранения с открытым исходным кодом, который обеспечивает транзакции ACID в Apache Spark и рабочие нагрузки больших данных. Delta Lake используется для предоставления этой функции хранилищу озера данных.
Azure Databricks SQL — это служба аналитики на основе SQL, которая позволяет пользователям запускать запросы SQL на данных, хранящихся в Azure Databricks. В этой архитектуре Azure Databricks SQL предоставляет мощный интерфейс SQL для запроса и анализа данных, что обеспечивает интерактивную и нерегламентируемую аналитику.
ИИ и машинного обучения охватывают ряд технологий и служб, которые обеспечивают разработку, развертывание и управление моделями машинного обучения. Службы искусственного интеллекта и машинного обучения используются для создания, обучения и развертывания прогнозных моделей. Эта возможность позволяет принимать решения на основе данных.
каталоге Unity — это решение для управления данными, которое обеспечивает централизованный контроль доступа, аудит, происхождение данных и возможности обнаружения данных в рабочих областях Databricks. Каталог Unity помогает обеспечить управление данными и безопасность, обеспечивая точное управление доступом, аудит и отслеживание происхождения данных.
архитектура Medallion Lakehouse — это шаблон архитектуры данных, который упорядочивает данные в бронзовые, серебряные и золотые слои для эффективной обработки и анализа данных. Этот шаблон архитектуры реализуется здесь с помощью Data Lake Storage, Delta Lake и Azure Databricks, что обеспечивает масштабируемую и эффективную обработку и аналитику данных.
Microsoft Fabric — это комплексная платформа данных, которая интегрирует различные службы данных и средства для обеспечения простого управления данными и аналитики. Microsoft Fabric подключает и интегрирует данные из нескольких источников, что обеспечивает комплексный анализ данных и аналитические сведения в организации.
Real-Time аналитика — это возможность обработки данных, которая позволяет организациям получать, обрабатывать и анализировать данные в режиме реального времени. Real-Time Intelligence обрабатывает потоковую передачу данных из различных источников. Он предоставляет аналитические сведения в режиме реального времени и включает автоматизированные действия на основе шаблонов данных.
сочетания клавиш OneLake создать связь между OneLake и другим источником данных. Сочетания клавиш OneLake используются для упрощения доступа к данным и управления ими, что обеспечивает единое представление данных в организации.
Power BI — это служба бизнес-аналитики, которая предоставляет интерактивные визуализации и возможности бизнес-аналитики. Он имеет простой интерфейс для пользователей для создания собственных интерактивных отчетов и панелей мониторинга. Эти средства позволяют визуализировать данные и аналитические сведения для бизнес-пользователей.
Microsoft Purview — это единая служба управления данными, которая помогает организациям управлять и управлять ими в различных источниках. Microsoft Purview предоставляет возможности каталогизации данных, отслеживания происхождения и управления данными. Эти функции помогают обеспечить соответствие и безопасность данных в организации.
- Подключение к каталогу Azure Databricks Unity и управление ими. Вы можете интегрировать каталог Unity в Purview для доступа к метаданным каталога Unity из Purview.
идентификатор Microsoft Entra ID — это облачное решение для управления удостоверениями и доступом, которое помогает обеспечить безопасный вход и доступ к ресурсам, таким как Microsoft 365, Azure и другие приложения SaaS. В этой архитектуре идентификатор Microsoft Entra предоставляет безопасное удостоверение и управление доступом для ресурсов Azure. Эта функция обеспечивает безопасный вход, управляет удостоверениями пользователей и помогает обеспечить доступ к данным и ресурсам.
microsoft Cost Management — это набор средств FinOps, которые организации могут использовать для анализа, мониторинга и оптимизации затрат Microsoft Cloud. Эти средства обеспечивают финансовое управление ресурсами Azure в этой архитектуре.
Key Vault — это облачная служба, которая хранит секреты и управляет ими, такими как ключи API, пароли, сертификаты и криптографические ключи. Эта служба позволяет пользователям и приложениям безопасно получать доступ к этим секретам. При хранении ключей и секретов в Key Vault их можно управлять одним местом. В этой архитектуре Azure Databricks может получить секреты из Key Vault для проверки подлинности и доступа к Data Lake Storage. Этот процесс помогает обеспечить безопасную и безопасную интеграцию между этими службами.
Azure Monitor — это комплексная служба мониторинга, которая обеспечивает возможность полнотековых наблюдений за приложениями, инфраструктурой и сетями. Azure Monitor позволяет пользователям собирать, анализировать и действовать на данных телеметрии из своих сред Azure и локальных сред для упреждающего выявления проблем и повышения производительности и надежности.
Azure DevOps — это набор средств разработки, поддерживающих культуру совместной работы и оптимизированные процессы. Эти средства позволяют разработчикам, руководителям проектов и участникам более эффективно разрабатывать программное обеспечение. Azure DevOps предоставляет интегрированные функции, такие как Azure Boards, Azure Repos, Azure Pipelines, Планы тестирования Azure и Артефакты Azure. Эти функции можно получить через веб-браузер или клиент интегрированной среды разработки.
GitHub — это облачная служба размещения репозитория Git, которая упрощает управление версиями и совместную работу для разработчиков. Она позволяет отдельным лицам и командам хранить код и управлять ими, отслеживать изменения и совместно работать над проектами с помощью Git. Пользовательский интерфейс GitHub делает Git доступным для кодировщиков всех уровней навыков. Azure DevOps и GitHub можно использовать вместе для реализации методик DevOps. Эти методики обеспечивают автоматизацию и соответствие требованиям в конвейерах разработки и развертывания рабочей нагрузки для Фабрики данных Azure, Azure Databricks и Microsoft Fabric.
Альтернативы
Сведения о создании независимой среды Microsoft Fabric см. в статье Greenfield lakehouse в Microsoft Fabric.
Сведения о переносе локальной среды аналитики SQL в Microsoft Fabric см. в современных хранилищах данных для небольших и средних предприятий.
Альтернативные службы в этой архитектуре
прием пакетной службы
- При необходимости используйте конвейер данных Fabric для интеграции данных вместо конвейеров фабрики данных. Выбор зависит от нескольких факторов. Дополнительные сведения см. в статье Получение от фабрики данных Azure к фабрике данных в Microsoft Fabric.
приема microsoft Dynamics 365
Если вы используете Azure Data Lake в качестве хранилища озера данных и хотите принять данные Dataverse, используйте Azure Synapse Link для Dataverse с azure Data Lake. Сведения о dynamics Finance and Operations см. в FnO Azure Synapse Link для dataverse.
Если вы используете Microsoft Fabric Lakehouse в качестве хранилища озера данных, см. статью Fabric Link.
прием данных потоковой передачи
- Решение между Центрами интернета вещей Azure и Центрами событий зависит от источника потоковых данных, от необходимости клонирования и двунаправленного взаимодействия с устройствами отчетов и необходимых протоколов. Дополнительные сведения см. в разделе Сравнение Центров Интернета вещей и Центров событий.
Lakehouse
- Microsoft Fabric Lakehouse — это единая платформа архитектуры данных для управления структурированными и неструктурированными данными в открытом формате, в основном использующего файлы Delta Parquet. Он поддерживает два типа хранилища. Эти типы хранилища — это управляемые таблицы, такие как CSV, Parquet или Delta, и неуправляемые файлы. Управляемые таблицы автоматически распознаются. Неуправляемые файлы требуют явного создания таблицы. Платформа обеспечивает преобразование данных через конечные точки Spark или SQL и легко интегрируется с другими компонентами Microsoft Fabric. Эта простая интеграция позволяет совместно использовать данные без дублирования. Эта концепция соответствует общей архитектуре медальона, используемой в аналитических рабочих нагрузках. Дополнительные сведения см. в разделе Lakehouse в Microsoft Fabric.
аналитика в режиме реального времени
Azure Databricks
- Если у вас есть существующее решение Azure Databricks, вы можете продолжить использовать структурированную потоковую передачу для аналитики в режиме реального времени. Дополнительные сведения см. в потоковой передачи в Databricks.
Microsoft Fabric
Если вы использовали другие службы Azure для аналитики в режиме реального времени в прошлом или не имеют существующего решения аналитики в режиме реального времени, ознакомьтесь с Аналитика Fabric в режиме реального времени и решениями потоковой передачи Azure.
Структурированная потоковая передача Microsoft Fabric использует структурированную потоковую передачу Spark для обработки и приема потоков динамических данных в виде непрерывных добавленных таблиц. Структурированная потоковая передача поддерживает различные источники файлов, такие как CSV, JSON, ORC, Parquet и службы обмена сообщениями, такие как Kafka и Центры событий. Такой подход обеспечивает масштабируемую и отказоустойчивую обработку потоков, которая оптимизирует рабочие среды с высокой пропускной способностью. Дополнительные сведения см. в разделе Структурированная потоковая передача Microsoft Fabric Spark.
инженерии данных
- Используйте Microsoft Fabric или Azure Databricks для записи записных книжек Spark. Дополнительные сведения см. в статье Использование записных книжек Microsoft Fabric. Сведения о сравнении записных книжек Fabric с тем, что предоставляет Azure Synapse Spark, см. в статье Compare Fabric Data Engineering и Azure Synapse Spark. Дополнительные сведения о записных книжках Azure Databricks см. в статье Общие сведения о записных книжках Databricks.
хранилище данных или золотой слой
- С помощью Microsoft Fabric или Azure Databricks можно создать хранилище на основе SQL или золотой слой. Руководство по выбору хранилища данных или хранилища уровня золота в Microsoft Fabric см. в руководстве по решению Microsoft Fabric: выбор хранилища данных. Дополнительные сведения о типах хранилища SQL в Azure Databricks см. в типах хранилища SQL.
обработки и анализа данных
Используйте Microsoft Fabric или Azure Databricks для возможностей обработки и анализа данных. Дополнительные сведения о предложении Microsoft Fabric для обработки и анализа данных см. в статье Что такое обработка и анализ данных в Microsoft Fabric?. Дополнительные сведения о предложении Azure Databricks см. в ИИ и машинного обучения в Databricks.
Microsoft Fabric Data Science отличается от машинного обучения. Машинное обучение предоставляет комплексное решение для управления рабочими процессами и развертывания моделей машинного обучения. Microsoft Fabric Data Science адаптирована к сценарию анализа и отчетности.
Power BI
Azure Databricks, интегрированный с Power BI, обеспечивает простую обработку и визуализацию данных. Дополнительные сведения см. в статье Подключение Power BI к Azure Databricks.
Зеркальное отображение каталога Azure Databricks Unity в Fabric позволяет получить доступ к данным, управляемым каталогом Unity Azure Databricks непосредственно из рабочей нагрузки Fabric. Дополнительные сведения см. в каталоге Azure Databricks Unity.
Создайте ярлык из Data Lake Storage с Delta Lake в Microsoft Fabric One Lake. Дополнительные сведения см. в разделе Интеграция каталога Databricks Unity с OneLake. Эти данные можно запрашивать из Power BI с помощью режима Direct Lake без копирования данных в службу Power BI. Дополнительные сведения см. в
режиме прямого озера.
Сведения о сценарии
Малые и средние предприятия, имеющие существующую среду Azure Databricks и при необходимости архитектуру lakehouse, могут воспользоваться этим шаблоном. В настоящее время они используют средство извлечения, преобразования Azure, средства загрузки, например Фабрики данных Azure и обслуживания отчетов в Power BI. Однако у них может быть несколько источников данных, которые используют разные собственные форматы данных в одном озере данных, что приводит к дублированию данных и проблемам с блокировкой поставщика. Эта ситуация может усложнить управление данными и повысить зависимость от конкретных поставщиков. Кроме того, им может потребоваться up-to-date и почти в режиме реального времени отчеты о принятии решений и быть заинтересованы в внедрении средств искусственного интеллекта в своей среде.
Microsoft Fabric — это открытый, унифицированный и управляемый фонд SaaS, который можно использовать для:
Используйте OneLake для хранения, управления и анализа данных в одном расположении без проблем с блокировкой поставщика.
Ускоряйте внедрение инноваций с помощью интеграции с приложениями Microsoft 365.
Получите быструю аналитику с помощью преимуществ прямого озера Power BI.
Преимущества Копилотов в каждом интерфейсе Microsoft Fabric.
Ускорьте анализ путем разработки моделей ИИ на одном фундаменте.
Сохраняйте данные без перемещения, что сокращает время, необходимое специалистам по обработке и анализу данных.
Участников
Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участниками.
Основные авторы:
- Bonita Rui | Архитектор облачных решений
- Нарен Джогендран | Архитектор облачных решений
Чтобы просмотреть недоступные профили LinkedIn, войдите в LinkedIn.
Дальнейшие действия
- схемы обучения для инженеров данных
- Microsoft Fabric — начало работы с пути MSLearn
- Microsoft Fabric — модули MSLearn
- создание учетной записи хранения для Data Lake Storage
- Краткое руководство по центрам событий . Создание концентратора событий с помощью портала Azure
- Что такое архитектура медальона lakehouse?
- Что такое lakehouse в Microsoft Fabric?