Поделиться через


Эксплуатация сетки данных для разработки функций на основе домена ИИ/ML

Data Mesh помогает организациям переходить от централизованного озера данных или хранилища данных к доменно-ориентированной децентрализации аналитических данных, подкреплённых четырьмя принципами: Владение Доменами, Данные как Продукт, Платформа Самообслуживания Данных и Федеративное Управление Вычислениями. Архитектура данных предоставляет преимущества распределенного владения и улучшения качества и управления данными, что ускоряет бизнес и сокращает время достижения ценности для организаций.

Реализация сетки данных

Типичная реализация сетки данных включает в себя группы доменов с инженерами данных, которые создают конвейеры данных. Команда поддерживает операционные и аналитические хранилища данных, такие как озера данных, хранилища данных или озера данных. Они выпускают конвейеры как продукты данных для других команд доменов или групп обработки и анализа данных для использования. Другие команды используют продукты данных с помощью централизованной платформы управления данными, как показано на следующей схеме.

схема архитектуры, показывающая реализацию сетки данных.

Меш данных четко объясняет, как данные продукты служат для предоставления преобразованных и агрегированных наборов данных для бизнес-аналитики. Но это не является явным о подходе, который организации должны принять для создания моделей ИИ/МО. Кроме того, нет рекомендаций по структуре своих команд обработки и анализа данных, управления моделями ИИ/ML, а также о том, как совместно использовать модели ИИ/ML или функции между группами доменов.

В следующем разделе описана пара стратегий, которые организации могут использовать для разработки возможностей искусственного интеллекта и машинного обучения в сетке данных. И вы видите предложение о стратегии предметно-ориентированного проектирования функций или сетки признаков.

Стратегии искусственного интеллекта и машинного обучения для сетки данных

Одна из распространенных стратегий заключается в том, чтобы организация принимала группы обработки и анализа данных в качестве потребителей данных. Эти команды получают доступ к различным доменным продуктам данных в сетевой структуре данных в зависимости от конкретного случая использования. Они выполняют исследование данных и проектирование функций для разработки и создания моделей ИИ/МАШИНного обучения. В некоторых случаях группы доменов также разрабатывают собственные модели ИИ/ML с помощью своих данных и продуктов данных других команд для расширения и получения новых функций.

Создание признаков является основой построения модели, обычно это сложный процесс, требующий опыта в области. Эта стратегия может занять много времени, так как командам по обработке и анализу данных необходимо проанализировать различные продукты данных. Они могут не иметь полных знаний о домене для создания высококачественных функций. Отсутствие знаний о домене может привести к дублированию усилий по проектированию функций между группами доменов. Кроме того, возникают такие проблемы, как воспроизводимость модели ИС/МО из-за несогласованных наборов признаков между командами. Команды по обработке и анализу данных или домену должны постоянно обновлять функции по мере выпуска новых версий продуктов данных.

Другая стратегия заключается в том, чтобы команды по областям выпустили модели ИИ/ML в формате, например, Open Neural Network Exchange (ONNX), но эти результаты являются черными ящиками, и объединение моделей ИИ/ML или функций в разных областях было бы сложно.

Существует ли способ децентрализовать построение моделей ИИ/МО в различных областях и среди групп аналитики данных для решения возникающих проблем? Предлагаемая стратегия проектирования функций на основе домена или сетки функций является вариантом.

Проектирование признаков, управляемое предметной областью, или сетка взаимодействий функций

Стратегия разработки функций на основе домена или сетки функций обеспечивает децентрализованный подход к созданию модели искусственного интеллекта и машинного обучения в параметре сетки данных. На следующей схеме показано, как она решает четыре основных принципа сетки данных.

схема архитектуры, показывающая стратегию проектирования функций на основе домена и сетки признаков.

Разработка функций владения доменом командами доменов

В этой стратегии организация связывает специалистов по обработке и анализу данных с инженерами по обработке и анализу данных в группе доменов для выполнения исследования чистых и преобразованных данных, например озера данных. Инженерия создает функции, которые хранятся в хранилище компонентов. Хранилище функций — это репозиторий данных, который служит функциями для обучения и вывода и помогает отслеживать версии компонентов, метаданные и статистику. Эта возможность позволяет учёным в области данных в команде домена тесно взаимодействовать с экспертами домена и обновлять параметры с учетом изменений данных в домене.

Данные как продукт: наборы компонентов

Функции, созданные командой доменов, известные как домен или локальные функции, публикуются в каталоге данных на платформе управления данными в качестве наборов компонентов. Эти наборы функций используются командами обработки и анализа данных или другими группами доменов для создания моделей искусственного интеллекта и машинного обучения. Во время разработки моделей искусственного интеллекта и машинного обучения команды по обработке и анализу данных или домену могут объединять функции домена для создания новых функций, называемых общими или глобальными функциями. Эти общие функции публикуются обратно в каталог наборов функций для потребления.

Самостоятельное обслуживание платформы данных и федеративное управление вычислениями: стандартизация функций и качество

Эта стратегия может привести к внедрению другого стека технологий для конвейеров проектирования признаков и несогласованных определений компонентов между группами доменов. Принципы платформы данных самообслуживания гарантируют, что группы доменов используют общую инфраструктуру и средства для создания конвейеров проектирования компонентов и принудительного контроля доступа. Принцип федеративного вычислительного управления обеспечивает взаимодействие наборов компонентов с помощью глобальной стандартизации и проверок качества функций.

Использование стратегии проектирования функций на основе домена или сетки функций предлагает децентрализованный подход к созданию моделей ИИ/ML для организаций, помогающих сократить время разработки моделей ИИ/ML. Эта стратегия помогает обеспечить согласованность функций между группами доменов. Он избегает дублирования усилий и приводит к высокому качеству функций для более точных моделей ИИ/ML, которые повышают ценность для бизнеса.

Реализация сетки данных в Azure

В этой статье описываются основные понятия по внедрению искусственного интеллекта и машинного обучения в сетке данных и не рассматриваются средства или архитектуры для создания этих стратегий. В Azure есть предложения таких хранилищ функций, как хранилище функций Azure Databricks и Feathr из LinkedIn. Вы можете разрабатывать Microsoft Purview пользовательские соединители для управления и администрирования хранилищ функций.

Дальнейшие действия