Поделиться через


Управление ИИ — процесс управления ИИ

В этой статье описывается организационный процесс управления рабочими нагрузками ИИ. Он предоставляет рекомендации по управлению рабочими нагрузками искусственного интеллекта от разработки, развертывания и операций. Эффективное управление ИИ требует структурированного подхода от разработки до развертывания и текущих операций. Предприятия нуждаются в стандартизованных методиках и регулярном мониторинге, чтобы предотвратить такие проблемы, как смещение данных и моделей, обеспечивая точность и надежность искусственного интеллекта со временем.

Схема, показывающая процесс внедрения ИИ: стратегия ИИ, план ИИ, подготовка ИИ, управление ИИ, управление ИИ и безопасный ИИ.

Управление операциями искусственного интеллекта

Управление операциями искусственного интеллекта обеспечивает видимость и согласованность в течение жизненного цикла ИИ. Внедряя операционные платформы, такие как MLOps, создавая изолированные среды и устанавливая конвейеры CI/CD, вы можете контролировать разработку, тестирование и развертывание.

  • Внедрение операционной платформы ИИ. Реализуйте платформы MLOps (операции машинного обучения) для традиционных рабочих процессов машинного обучения и GenAIOps для создания рабочих нагрузок искусственного интеллекта. Эти операционные платформы упорядочивают комплексный цикл разработки ИИ. Каждая структура влияет на подход и инструментарий команды, занимающейся рабочей нагрузкой. Дополнительные сведения см. в MLOps и GenAIOps.

  • Стандартизация средств разработки ИИ. Определите и стандартизируйте использование пакетов SDK и API для согласованности между командами разработки. Такие инструменты, как Azure SDK для рабочих нагрузок ИИ, предоставляют библиотеки и API, оптимизированные для масштабирования моделей ИИ и интеграции их в приложения. Для создания ИИ стандартизируйте платформу ИИ и оркестраторы, такие как семантический ядро, LangChain и поток запроса.

  • Используйте среду песочницы для экспериментов СИ. Используйте среду песочницы для экспериментов с моделью искусственного интеллекта. Вы хотите обеспечить согласованность между средами разработки, тестирования и разработки. Таким образом, среда песочницы должна отличаться от сред разработки, тестирования и рабочей среды в жизненном цикле разработки ИИ. При изменении моделей развертывания и управления между средами разработки, тестирования и разработки он может скрывать и вводить критические изменения.

  • Установите для развертывания конвейеры непрерывной интеграции и непрерывной доставки. Убедитесь, что конвейеры данных охватывают проверки качества кода, включая подкладку и статический анализ. Конвейеры данных также должны включать модульные и интеграционные тесты, а также потоки экспериментов и вычислений. Наконец, включите шаги развертывания рабочей среды, такие как продвижение выпусков для тестирования и рабочих сред после утверждений вручную. Сохраняйте разделение между моделями, потоками запросов и пользовательским интерфейсом клиента, чтобы гарантировать, что обновления одного компонента не влияют на другие. Каждый поток должен иметь собственный жизненный цикл для независимого продвижения.

Управление развертыванием ИИ

Управление развертыванием ИИ заключается в определении того, кто может развертывать ресурсы ИИ и управлять этими конечными точками. Структурированный подход, возглавляемый центром превосходства искусственного интеллекта, помогает предприятиям решать, должны ли рабочие нагрузки или центральная команда управлять ресурсами, балансируя скорость разработки с требованиями к управлению. ИИ CoE должен привести к усилиям по определению оптимального подхода.

  • Для ускорения разработки используйте управление ресурсами искусственного интеллекта с помощью рабочей нагрузки. Когда команды рабочей нагрузки управляют ресурсами ИИ, они имеют автономию для развертывания ресурсов ИИ и управления ими в пределах политик управления. Используйте Политика Azure для обеспечения согласованного управления во всех средах рабочей нагрузки. Создавайте и сообщайте политики искусственного интеллекта, которые группы рабочей нагрузки должны следовать за любыми пробелами в управлении. Например, создайте политики создания искусственного интеллекта для принудительного применения параметров фильтра содержимого и предотвращения использования запрещенных моделей. Сделайте эти политики четко известными для рабочих нагрузок и регулярного аудита.

    Схема управления рабочими нагрузками для рабочих нагрузок ИИ. Рис. 1. Управление ресурсами искусственного интеллекта с помощью рабочей нагрузки.

  • Используйте общее управление ресурсами ИИ, повышая управление ИИ. В общем подходе к управлению ИИ центральная команда управляет ресурсами ИИ для всех рабочих нагрузок ИИ. Эта команда развертывает основные ресурсы ИИ и настраивает безопасность и управление, которые используются всеми командами рабочей нагрузки. Используйте этот подход, если вы хотите, чтобы одна команда контролировала развертывания и управление ИИ в рабочих нагрузках.

    Схема, показывающая общее управление рабочими нагрузками ИИ. Рис. 2. Централизованное управление ресурсами ИИ.

Управление общим доступом к конечной точке ИИ

Совместное использование конечных точек искусственного интеллекта между рабочими нагрузками может упростить управление, но для этого требуется тщательное рассмотрение требований к управлению и модели. Предприятия должны совместно использовать конечные точки только в пределах одной рабочей нагрузки с согласованными потребностями, так как совместное использование в разных потребностях может усложнить управление и увеличить затраты.

  • Избегайте совместного использования конечных точек искусственного интеллекта при необходимости управления и модели. Рабочие нагрузки, требующие различных параметров фильтра содержимого, таких как управление входными и выходными данными, не должны совместно использовать конечную точку. Кроме того, не предоставляйте общий доступ к одной конечной точке ИИ, если другая модель ИИ обеспечит более экономичный способ удовлетворения требований рабочей нагрузки.

  • Совместное использование конечных точек ИИ только в пределах одной рабочей нагрузки. Совместное использование конечной точки ИИ лучше всего работает, если команда рабочей нагрузки имеет несколько приложений в рамках одной рабочей нагрузки. Общий доступ к конечным точкам ИИ обеспечивает наименьшую нагрузку на управление и упрощает развертывание. Эти приложения должны совместно использовать те же потребности управления и модели искусственного интеллекта. Общий доступ к конечным точкам может привести к снижению скорости и ограничениям квот. Большинство служб Azure имеют ограничения на подписку. В рамках подписки каждый регион имеет ограничения квоты.

Управление моделями ИИ

Управление моделью искусственного интеллекта включает настройку структур управления, непрерывный мониторинг и переобучение для поддержания производительности с течением времени. Этот процесс помогает предприятиям выровнять модели с этическими стандартами, отслеживать производительность моделей и обеспечивать эффективность систем ИИ в соответствии с бизнес-целями.

  • Создайте структуру управления для надзора за ИИ. Создайте центр качества ИИ (AI CoE) или назначьте руководителя ИИ. Они должны обеспечить соблюдение ответственных стандартов ИИ. Они должны принимать решения о необходимости корректировки систем на основе этих отчетов. Используйте панель мониторинга ответственного искусственного интеллекта для создания отчетов вокруг выходных данных модели.

  • Определите базовые показатели измерения ИИ. Создайте базовые показатели для обеспечения соответствия моделей искусственного интеллекта бизнес-целям и этическим стандартам. Используйте ключевые показатели эффективности, связанные с ответственными принципами ИИ, такими как справедливость, прозрачность и точность. Сопоставите эти ключевые показатели эффективности с рабочими нагрузками ИИ. Например, в чат-боте службы клиентов оценка справедливости путем оценки того, насколько хорошо модель выполняется в разных демографических группах. Чтобы принять эти измерения, начните с инструментов, используемых на панели мониторинга ответственного искусственного интеллекта.

  • Реализуйте непрерывный мониторинг. Рабочие нагрузки искусственного интеллекта могут меняться с течением времени из-за развития данных, обновлений моделей или смены поведения пользователей. Отслеживайте модели ИИ, ресурсы ИИ, данные ИИ, чтобы обеспечить соответствие этих рабочих нагрузок ключевым показателем эффективности. Проводите аудиты для оценки систем искусственного интеллекта в соответствии с определенными принципами и метриками ИИ.

  • Определите первопричины проблем с производительностью. Определите источник проблемы при обнаружении снижения производительности или точности путем мониторинга искусственного интеллекта. Убедитесь, что вы видите каждый этап взаимодействия, чтобы изолировать проблему и реализовать корректирующие действия быстрее. Например, если чат-бот службы клиентов создает неточные ответы, мониторинг должен помочь определить, находится ли ошибка в создании запроса или в понимании контекста модели. Используйте встроенные средства, такие как Azure Monitor и Application Insights, для упреждающего выявления узких мест производительности и аномалий.

  • Отслеживание выхода модели на пенсию. Отслеживание выхода на пенсию для предварительно обученных моделей, чтобы предотвратить проблемы с производительностью по мере окончания поддержки поставщиков. Например, модель генерированного ИИ может быть устаревшей, поэтому ее необходимо обновить для поддержания функциональности. На портале Azure AI Foundry показана дата снятия модели с эксплуатации для всех развертываний.

  • При необходимости переобучение моделей ИИ. Учетная запись моделей с течением времени из-за изменений в данных. Запланируйте регулярное переобучение на основе производительности модели или бизнеса, чтобы обеспечить актуальность системы искусственного интеллекта. Переобучение может быть дорогостоящим, поэтому оцените начальную стоимость обучения и используйте эту стоимость для оценки частоты переобучения моделей ИИ. Обслуживание управления версиями для моделей и обеспечение механизма отката для недоформенных версий.

  • Создайте процесс продвижения модели. Используйте шлюзы качества для повышения эффективности обученных, точно настроенных и переобученных моделей в более высокие среды на основе критериев производительности. Критерии производительности уникальны для каждого приложения.

Управление затратами на ИИ

Управление затратами искусственного интеллекта требует четкого понимания расходов, связанных с ресурсами, такими как вычисления, хранение и обработка маркеров. Следует реализовать рекомендации по управлению затратами, отслеживать использование и настраивать автоматизированные оповещения, чтобы избежать непредвиденных расходов и оптимизировать эффективность ресурсов.

  • Следуйте рекомендациям по управлению затратами для каждой службы. Каждая служба Azure имеет определенные функции и рекомендации по оптимизации затрат. Ознакомьтесь со следующими рекомендациями по планированию и управлению затратами в Azure AI Foundry, Azure OpenAI Serviceи машинного обучения Azure.

  • Мониторинг и максимальное повышение эффективности выставления счетов. Ознакомьтесь с точками останова затрат, чтобы избежать ненужных расходов. Примеры включают полное использование пороговых значений фиксированной цены для создания изображений или почасовой настройки. Отслеживайте шаблоны использования, включая маркеры в минуту (TPM) и запросы в минуту (RPM), а также настраивайте модели и архитектуру соответствующим образом. Рассмотрим модель выставления счетов на основе обязательств для согласованных шаблонов использования.

  • Настройте автоматические оповещения о затратах. Используйте оповещения о бюджете, уведомляющие вас о непредвиденных расходах и устанавливая стратегии бюджетирования для контроля и прогнозирования расходов на ИИ.

Сведения о созданных приложениях ИИ с помощью Azure OpenAI см. в этих рекомендациях по оптимизации затрат.

Управление данными ИИ

Эффективное управление данными искусственного интеллекта ориентировано на поддержание точности, целостности и конфиденциальности данных на протяжении жизненного цикла ИИ. Когда вы курируете высококачественные наборы данных и обеспечивает защиту конвейеров данных, ваша организация может гарантировать, что данные остаются надежными и совместимыми с изменяющимися нормативными требованиями.

  • Поддерживайте точность данных и курируете золотые наборы данных. Разработка авторитетного набора данных, используемых для регулярного тестирования и проверки обоих типов ИИ. Непрерывно курирует этот набор данных, чтобы убедиться, что он отражает актуальную, точную информацию.

  • Обеспечение целостности конвейера данных. Разработка и обслуживание пользовательских конвейеров данных для обеспечения целостности данных из сбора данных в предварительную обработку и хранение. Каждый шаг конвейера должен быть безопасным для обеспечения производительности и надежности в обоих типах приложений ИИ.

  • Управление изменениями конфиденциальности данных. Понять, что классификация конфиденциальности данных может меняться с течением времени. Возможно, вы хотите переклассифицировать данные с низкой конфиденциальностью как высокочувствительные из-за бизнес-изменений или нормативных изменений. Разработка процессов для удаления или замены конфиденциальных данных в подчиненных системах. Microsoft Defender для облака и Microsoft Purview помогут вам пометить конфиденциальные данные и управлять ими. Этот процесс начинается с хорошего каталога данных перед приемом ИИ. При изменении определите все модели или системы, использующие конфиденциальные данные. По возможности переобучение моделей ИИ с помощью наборов данных, которые исключают реклассифицированные конфиденциальные данные.

Управление непрерывностью бизнес-процессов ИИ

Непрерывность бизнес-процессов и аварийное восстановление для ИИ включают создание развертываний в нескольких регионах и регулярное тестирование планов восстановления. Эти стратегии помогают обеспечить работу систем искусственного интеллекта во время сбоев и свести к минимуму риск длительных сбоев или потери данных.

  • Используйте многорегионные развертывания для искусственного интеллекта. Реализуйте многорегионные развертывания, чтобы обеспечить высокую доступность и устойчивость как для систем создания, так и негенеривных ИИ. Эти стратегии свести к минимуму время простоя и обеспечить работу критически важных приложений ИИ во время региональных сбоев или сбоев инфраструктуры. Обязательно реализуйте необходимую избыточность для обученных и точно настроенных моделей, чтобы избежать необходимости повторного обучения во время сбоя.

  • Регулярно тестируйте и проверяйте планы аварийного восстановления. Выполняйте регулярные тесты планов аварийного восстановления, чтобы убедиться, что можно эффективно восстановить генеривные и негенеривные системы ИИ. Включите тестирование процессов восстановления данных и процедур проверки, чтобы обеспечить правильность функционирования всех компонентов ИИ после восстановления. Регулярное проверка гарантирует, что организация готова к реальным инцидентам и сводит к минимуму риск сбоев во время восстановления.

  • Управление и отслеживание изменений в системах ИИ. Убедитесь, что все изменения моделей, данных и конфигураций управляются с помощью систем управления версиями, таких как Git. Это крайне важно для отслеживания изменений и обеспечения возможности восстановления предыдущих версий во время восстановления. Для создания и негенеративного искусственного интеллекта автоматический аудит моделей и системных изменений должен быть создан таким образом, чтобы можно было быстро определить и восстановить незапланированные изменения.

Следующий шаг