Проектирование архитектуры ИИ

Статья
02/03/2025

ИИ — это технология, которая позволяет машинам имитировать интеллектуальное поведение человека. Компьютеры могут использовать ИИ для:

Анализ данных для создания изображений и видео.
Анализ и синтез речи.
Словесно взаимодействуют естественным образом.
Создание прогнозов и создание новых данных.

Вы можете включить ИИ в приложения для выполнения функций или принятия решений, которые традиционная логика или обработка не могут эффективно обрабатывать. В качестве архитектора, который разрабатывает решения, важно понять ландшафт ИИ и машинного обучения и как можно интегрировать решения Azure в проект рабочей нагрузки.

Начало работы

Центр архитектуры Azure предоставляет примеры архитектур, руководства по архитектуре, базовые архитектуры и идеи, которые можно применить к вашему сценарию. Рабочие нагрузки, связанные с компонентами искусственного интеллекта и машинного обучения, должны соответствовать рекомендациям Well-Architected Framework Azure рабочие нагрузки ИИ. Это руководство включает принципы и руководства по проектированию, влияющие на рабочую нагрузку искусственного интеллекта и машинного обучения в пяти основных аспектах архитектуры. Эти рекомендации следует реализовать в сценариях и содержимом в Центре архитектуры Azure.

Основные понятия ИИ

Концепции искусственного интеллекта охватывают широкий спектр технологий и методологий, которые позволяют компьютерам выполнять задачи, которые обычно требуют человеческого интеллекта. В следующих разделах представлен обзор ключевых концепций ИИ.

Алгоритмы

Алгоритмы или алгоритмы машинного обучения — это фрагменты кода, которые помогают людям изучать, анализировать и находить смысл в сложных наборах данных. Каждый алгоритм — это конечный набор однозначных пошаговые инструкции, которые компьютер может выполнять для достижения определенной цели. Цель модели машинного обучения заключается в создании или обнаружении шаблонов, которые люди могут использовать для прогнозирования или классификации информации. Алгоритм может описать, как определить, является ли домашний питомец котом, собакой, рыбой, птицей или ящерицей. Другой гораздо более сложный алгоритм может описать, как определить письменный или реченный язык, проанализировать его слова, перевести их на другой язык, а затем проверить перевод на точность.

Выберите семейство алгоритмов, которое лучше всего подходит для вашей задачи. Оцените различные алгоритмы в семействе, чтобы найти подходящий алгоритм для вашей рабочей нагрузки. Дополнительные сведения см. в статье Что такое алгоритмы машинного обучения?.

Машинное обучение

Машинное обучение — это метод ИИ, использующий алгоритмы для создания прогнозных моделей. Эти алгоритмы анализируют поля данных и "учатся" из шаблонов в данных для создания моделей. Затем модели могут принимать обоснованные прогнозы или решения на основе новых данных.

Прогнозные модели проверяются на основе известных данных, измеряются метриками производительности для конкретных бизнес-сценариев, а затем корректируются по мере необходимости. Этот процесс называется обучением. Благодаря периодическому переобучению модели машинного обучения улучшаются с течением времени.

В проектировании рабочей нагрузки можно использовать машинное обучение, если сценарий включает прошлые наблюдения, которые можно надежно использовать для прогнозирования будущих ситуаций. Эти наблюдения могут быть универсальными истинами, такими как компьютерное зрение, которое обнаруживает одну форму животного из другой. Или эти наблюдения могут быть характерными для вашей ситуации, например, компьютерное зрение, которое обнаруживает возможную ошибку на производственных линиях на основе данных по прошлым гарантийным претензиям.

Дополнительные сведения см. в статье Что такое машинное обучение?.

Глубокое обучение

Глубокое обучение — это тип машинного обучения, который может обучаться с помощью собственной обработки данных. Как и машинное обучение, он также использует алгоритмы для анализа данных. Но он анализирует данные с помощью искусственных нейронных сетей, содержащих много входных данных, выходных данных и слоев обработки. Каждый слой может обрабатывать данные по-разному. Выходные данные одного слоя становятся входами для следующего. Этот процесс позволяет глубокому обучению создавать более сложные модели, чем традиционное машинное обучение.

Глубокое обучение требует больших инвестиций для создания высоконастройных или исследовательских моделей. Вы можете рассмотреть другие решения в этой статье, прежде чем добавлять глубокое обучение в рабочую нагрузку.

Дополнительные сведения см. в статье Что такое глубокое обучение?.

Генеративный ИИ

Генеративный ИИ обучает модели для создания оригинального контента на основе многих форм контента, таких как естественный язык, компьютерное зрение, аудио и входные данные изображения. С помощью генерированного ИИ можно описать требуемые выходные данные на повседневном языке, а модель может реагировать, создавая соответствующий текст, изображение и код. Примерами созданных приложений ИИ являются Microsoft Copilot и Azure OpenAI Service.

Copilot — это в первую очередь пользовательский интерфейс, который помогает писать код, документы и другое текстовое содержимое. Он основан на популярных моделях OpenAI и интегрирован в широкий спектр приложений Майкрософт и пользовательских возможностей.
Azure OpenAI — это платформа разработки как услуга, которая обеспечивает доступ к мощным языковым моделям OpenAI, таким как o1-preview, o1-mini, GPT-4o, GPT-4o mini, GPT-4 Turbo с функцией Vision, GPT-4, GPT-3.5-Turbo и серии моделей Embeddings. Эти модели можно адаптировать к определенным задачам, например:
- Создание контента.
- Сводка содержимого.
- Понимание изображений.
- Семантический поиск.
- Естественный язык для перевода кода.

Языковые модели

языковые модели — это подмножество генерированного ИИ, ориентированное на задачи обработки естественного языка, такие как создание текста и анализ тональности. Эти модели представляют естественный язык на основе вероятности слов или последовательностей слов, происходящих в определенном контексте.

Обычные языковые модели используются в контролируемых условиях для исследований, где модели обучаются на хорошо помеченных текстовых наборах данных для конкретных задач. Предварительно обученные языковые модели предлагают доступный способ начала работы с ИИ. Они более широко используются в последние годы. Эти модели обучаются в крупномасштабных текстовых коллекциях из Интернета с помощью нейронных сетей глубокого обучения. Их можно точно настроить на небольших наборах данных для конкретных задач.

Количество параметров или весов определяет размер языковой модели. Параметры влияют на то, как модель обрабатывает входные данные и создает выходные данные. Во время обучения модель корректирует весы, чтобы свести к минимуму разницу между прогнозами и фактическими данными. Этот процесс заключается в том, как модель узнает параметры. Чем больше параметров у модели, тем сложнее и выраженнее. Но это также вычислительно затратное для обучения и использования.

Как правило, небольшие языковые модели имеют менее 10 миллиардов параметров, а большие языковые модели имеют более 10 миллиардов параметров. Например, семейство моделей Microsoft Phi-3 имеет три версии:

Мини, 3,8 млрд параметров
Малые, 7 миллиардов параметров
Средний, 14 миллиардов параметров

См. дополнительные сведения в каталоге языковых моделей .

Копилоты

Доступность языковых моделей привела к возникновению новых способов взаимодействия с приложениями и системами через цифровые копилоты и взаимосвязанные агенты, специализированные для определенной области. Copilots являются генеративными ассистентами ИИ, которые интегрируются в приложения, часто как интерфейсы чата. В таких приложениях они обеспечивают контекстуальную поддержку при выполнении задач общей направленности.

Microsoft Copilot интегрируется с широким спектром приложений Майкрософт и пользовательских возможностей. Она основана на открытой архитектуре, где разработчики, отличные от Майкрософт, могут создавать собственные подключаемые модули для расширения или настройки пользовательского интерфейса с Copilot. Партнерские разработчики также могут создавать собственные копилоты с помощью той же открытой архитектуры.

Дополнительные сведения см. в следующих ресурсах:

Генерация с использованием извлечения информации

Генерация с дополнением поиска (RAG) — это архитектурный паттерн, который расширяет возможности крупной языковой модели (LLM), такой как ChatGPT, обученной только на общедоступных данных. Этот шаблон можно использовать для добавления системы извлечения, которая предоставляет соответствующие основополагающие данные в контексте запроса пользователя. Система информационного поиска обеспечивает контроль над опорными данными, которые языковая модель использует при формулировке ответа. Архитектура RAG помогает определить область создания искусственного интеллекта для содержимого, исходного из векторных документов, изображений и других форматов данных. RAG не ограничивается хранилищем векторного поиска. Вы можете использовать любую технологию хранения данных.

Дополнительные сведения см. в статье Проектирование и разработка решения RAG и Выбор службы Azure для поиска векторов.

Службы ИИ Azure

Благодаря службам ИИ Azureразработчики и организации могут использовать готовые, предварительно созданные и настраиваемые API и модели для создания интеллектуальных, готовых к рынкам и ответственных приложений. Варианты использования включают обработку естественного языка для бесед, поиска, мониторинга, перевода, речи, зрения и принятия решений.

Дополнительные сведения см. в следующих ресурсах:

Модели языка ИИ

LLMs, например, модели GPT от OpenAI, являются мощными инструментами, которые могут генерировать человеческий язык в различных областях и задачах. Чтобы выбрать модель, рассмотрите такие факторы, как конфиденциальность данных, этическое использование, точность и предвзятость.

Открытые модели Phi — это небольшие, менее вычислительные модели для создания решений искусственного интеллекта. Небольшая языковая модель может быть более эффективной, интерпретируемой и объяснимой, чем LLM.

При проектировании рабочей нагрузки можно использовать языковые модели в качестве облачного решения с оплачиваемым API. Кроме того, для многих небольших языковых моделей их можно размещать в рамках процесса или, по крайней мере, на той же вычислительной платформе, что и у потребителя. При использовании языковых моделей в решении рассмотрите выбор языковой модели и доступные варианты размещения, чтобы обеспечить оптимизированное решение для вашего варианта использования.

Платформы и средства разработки ИИ

Следующие платформы и средства разработки ИИ помогают создавать, развертывать и управлять моделями машинного обучения и ИИ.

Машинное обучение Azure

Машинное обучение Azure — это служба машинного обучения, которую можно использовать для создания и развертывания моделей. Машинное обучение предлагает веб-интерфейсы и пакеты SDK для обучения и развертывания моделей машинного обучения и конвейеров в большом масштабе. Использовать эти возможности можно с помощью платформ Python с открытым кодом, например PyTorch, TensorFlow и scikit-learn.

Дополнительные сведения см. в следующих ресурсах:

Эталонные архитектуры машинного обучения для Azure

Автоматизированное машинное обучение

Автоматизированное машинное обучение (AutoML) — это процесс автоматизации трудоемких итеративных задач разработки модели машинного обучения. Специалисты по обработке и анализу данных, аналитики и разработчики могут использовать AutoML для создания моделей машинного обучения, имеющих высокий масштаб, эффективность и производительность при поддержании качества модели.

Дополнительные сведения см. в следующих ресурсах:

Что такое AutoML?
Руководство : Обучение модели классификации с помощью AutoML в Студии Машинного Обучения
настройка экспериментов AutoML в Python
Использование расширения CLI для машинного обучения

MLflow

Рабочие области машинного обучения совместимы с MLflow, что означает, что вы можете использовать рабочую область машинного обучения так же, как и сервер MLflow. Эта совместимость обеспечивает следующие преимущества.

Машинное обучение не размещает экземпляры сервера MLflow, но может напрямую использовать API MLflow.
Вы можете использовать рабочую область Машинного обучения в качестве сервера отслеживания для любого кода MLflow независимо от того, выполняется ли он в Машинном обучении. Необходимо настроить MLflow, чтобы указать рабочую область, в которой должно выполняться отслеживание.
Вы можете выполнять учебные процедуры, использующие MLflow в машинном обучении без внесения изменений.

Дополнительную информацию см. в разделе MLflow и машинообучения и MLflow.

Средства создания искусственного интеллекта

Prompt flow — это набор средств разработки, которые можно использовать для упрощения комплексного цикла разработки приложений генеративного ИИ — от формулирования идей, создания прототипов, тестирования и оценки до развертывания и мониторинга в рабочем режиме. Она поддерживает проектирование запросов через выражение действий в модульном оркестрации и подсистеме потоков.
Azure AI Foundry помогает экспериментировать, разрабатывать и развертывать созданные приложения ИИ и API ответственно с помощью комплексной платформы. Портал AI Foundry предоставляет доступ к службам ИИ Azure, базовым моделям, детской площадке и ресурсам, помогая создавать, обучать, настраивать и развертывать модели ИИ. Вы также можете оценивать ответы модели и оркестровать компоненты приложений с подсказками, используя поток подсказок для повышения производительности.
Copilot Studio расширяет Copilot в Microsoft 365. С помощью Copilot Studio можно создавать настраиваемые помощники для внутренних и внешних сценариев. Используйте всеобъемлющую платформу для разработки, чтобы проектировать, тестировать и публиковать копилотов. Вы можете легко создавать беседы с поддержкой генеративного искусственного интеллекта, обеспечивать более широкий контроль ответов для существующих копилотов и ускорить производительность с помощью автоматизированных рабочих процессов.

Платформы данных для искусственного интеллекта

На следующих платформах представлены комплексные решения для перемещения данных, обработки, приема, преобразования, аналитики в режиме реального времени и создания отчетов.

Microsoft Fabric

Microsoft Fabric — это сквозная аналитика и платформа данных для предприятий, требующих единого решения. Вы можете предоставить группам рабочей нагрузки доступ к данным в Fabric. Платформа охватывает перемещение данных, обработку, прием, преобразование, маршрутизацию событий в режиме реального времени и построение отчетов. Он предлагает полный набор служб, включая инженера данных Fabric, фабрики данных Fabric, обработки и анализа данных Fabric, аналитики Real-Time Fabric, хранилища данных Fabric и баз данных Fabric.

Структура интегрирует отдельные компоненты в сплоченный стек. Вместо того чтобы полагаться на разные базы данных или хранилища данных, вы можете централизованно использовать хранилище данных с помощью OneLake. Возможности искусственного интеллекта внедрены в Fabric, что устраняет необходимость интеграции вручную.

Дополнительные сведения см. в следующих ресурсах:

Копилоты в Fabric

Вы можете использовать Copilot и другие функции создания ИИ для преобразования и анализа данных, создания аналитических сведений и создания визуализаций и отчетов в Fabric и Power BI. Вы можете создать собственный копилот или же выбрать один из следующих предварительно разработанных копилотов:

Навыки искусственного интеллекта в Fabric

Вы можете использовать функцию навыка искусственного интеллекта Fabric для настройки генеративной системы, создающей запросы, которые отвечают на вопросы о ваших данных. После настройки навыка искусственного интеллекта вы можете поделиться им с коллегами, которые затем могут задавать свои вопросы на простом языке. На основе их вопросов ИИ создает запросы к данным, которые отвечают на эти вопросы.

Дополнительные сведения см. в следующих ресурсах:

Платформы данных на основе Apache Spark для искусственного интеллекта

Apache Spark — это платформа параллельной обработки, которая поддерживает обработку в памяти, чтобы повысить производительность приложений для анализа больших данных. Spark предоставляет базовые стандартные блоки для вычислений кластера в памяти. Задание Spark может загружать и кэшировать данные в память и запрашивать их многократно, что быстрее, чем приложения на основе дисков, например Hadoop.

Apache Spark в Microsoft Fabric

Среда выполнения Fabric — это интегрированная с Azure платформа на основе Apache Spark, которая обеспечивает реализацию и управление проектированием и обработкой и анализом данных. Среда выполнения Fabric объединяет ключевые компоненты из внутренних и открытых источников, которые предоставляют комплексное решение.

Среда выполнения Fabric содержит следующие ключевые компоненты:

Apache Spark — это мощная распределенная библиотека распределенных вычислений с открытым кодом, которая обеспечивает крупномасштабные задачи обработки и анализа данных. Apache Spark предоставляет универсальную и высокопроизводительную платформу для разработки и обработки и анализа данных.
Delta Lake — это уровень хранения с открытым исходным кодом, который интегрирует атомарность, согласованность, изоляцию и устойчивость транзакций (ACID) и другие функции надежности данных с Apache Spark. Интегрированная в Fabric Runtime, Delta Lake улучшает возможности обработки данных и помогает обеспечить согласованность данных в нескольких параллельных операциях.
пакеты уровня по умолчанию для Java, Scala, Python и R — это пакеты, поддерживающие различные языки программирования и среды. Эти пакеты устанавливаются и настраиваются автоматически, поэтому разработчики могут применять предпочитаемые языки программирования для задач обработки данных.

Среда выполнения Fabric основана на надежной операционной системе с открытым исходным кодом, чтобы обеспечить совместимость с различными конфигурациями оборудования и требованиями к системе.

Для получения дополнительной информации см. среды выполнения Apache Spark в Fabric.

Azure Databricks Runtime для машинного обучения

Azure Databricks — это платформа аналитики на основе Apache Spark, которая предлагает настройку в один клик, оптимизированные рабочие процессы и интерактивную рабочую область для совместной работы между учеными в области данных, инженерами и бизнес-аналитиками.

Можно использовать Databricks Runtime для машинного обучения, чтобы запустить кластер Databricks с библиотеками, необходимыми для распределенного обучения. Эта функция предоставляет среду для машинного обучения и обработки и анализа данных. Он содержит несколько популярных библиотек, включая TensorFlow, PyTorch, Keras и XGBoost. Он также поддерживает распределенное обучение через Horovod.

Дополнительные сведения см. в следующих ресурсах:

Apache Spark в Azure HDInsight

Apache Spark в Azure HDInsight — это реализация Apache Spark в облаке, предоставляемая корпорацией Майкрософт. Кластеры Spark в HDInsight совместимы с службами хранилища Azure и Azure Data Lake Storage, чтобы использовать кластеры HDInsight Spark для обработки данных, которые хранятся в Azure.

SynapseML, ранее известный как MMLSpark, является библиотекой машинного обучения Майкрософт для Apache Spark. Эта библиотека с открытым кодом добавляет множество средств глубокого обучения и обработки и анализа данных, сетевых возможностей и производительности рабочей среды в экосистему Spark.

Дополнительные сведения см. в следующих ресурсах:

Хранилище данных для искусственного интеллекта

Для эффективного хранения, доступа и анализа больших объемов данных можно использовать следующие платформы.

Fabric OneLake

OneLake в Fabric — это единое и логическое озеро данных, которое можно адаптировать для всей организации. Он служит центральным узлом для всех аналитических данных и включён в каждого арендатора Fabric. OneLake в Fabric построен на основе хранилища данных Data Lake.

OneLake в Fabric:

Поддерживает структурированные и неструктурированные типы файлов.
Хранит все табличные данные в Delta-Parquet формате.
Предоставляет одно озеро данных в границах клиента, которое регулируется по умолчанию.
Поддерживает создание рабочих областей внутри арендатора, чтобы ваша организация могла распределять права владения и политики доступа.
Поддерживает создание различных элементов данных, таких как lakehouses и хранилища, из которых можно получить доступ к данным.

Дополнительные сведения см . в разделе OneLake, OneDrive для данных.

Data Lake Storage

Data Lake Storage — это единый централизованный репозиторий, в котором можно хранить структурированные и неструктурированные данные. Используйте озеро данных для быстрого и простого хранения, доступа и анализа различных данных в одном расположении. Вам не нужно изменять данные, чтобы они соответствовали существующей структуре. Вместо этого можно хранить ваши данные в их необработанном или собственном формате, как правило, в виде файлов или двоичных больших объектов.

Data Lake Storage обеспечивает семантику файловой системы, безопасность на уровне файлов и масштабирование. Поскольку эти возможности основаны на хранилище BLOB-объектов Azure, вы также получаете недорогое многоуровневое хранилище с высокой доступностью и возможностями для аварийного восстановления.

Data Lake Storage использует инфраструктуру службы хранилища Azure для создания корпоративных озер данных в Azure. Data Lake Storage может обслуживать несколько петабайт данных, сохраняя сотни гигабит пропускной способности, чтобы управлять большим объемом данных.

Дополнительные сведения см. в следующих ресурсах:

Введение в Data Lake Storage
Руководство по : Data Lake Storage, Azure Databricks и Spark

Обработка данных для искусственного интеллекта

Для подготовки данных для машинного обучения и приложений искусственного интеллекта можно использовать следующие средства. Убедитесь, что данные чисты и структурированы, чтобы их можно было использовать для расширенной аналитики.

Фабрика данных Fabric

Фабрику данных Fabric можно использовать для приема, подготовки и преобразования данных из нескольких источников данных, таких как базы данных, хранилища данных, озера и потоки данных в режиме реального времени. Эта служба поможет вам удовлетворить требования к операциям с данными при разработке рабочих нагрузок.

Фабрика данных Fabric поддерживает решения, требующие написания кода, а также решения без программирования или с минимальным программированием.

Используйте конвейеры данных для создания функциональных возможностей рабочих процессов в масштабе облака. Используйте интерфейс перетаскивания для создания рабочих процессов, которые могут обновлять поток данных, перемещать данные размера петабайтов и определять конвейеры потока управления.
Используйте потоки данных в качестве интерфейса с низким кодом для приема данных из сотен источников данных и их преобразования с помощью более чем 300 преобразований данных.

Дополнительные сведения см. в комплексном сценарии фабрики данных: введение и архитектура.

Azure Databricks

Платформу Databricks Data Intelligence можно использовать для написания кода для создания рабочего процесса машинного обучения с помощью проектирования функций. проектирование компонентов — это процесс преобразования необработанных данных в функции, которые можно использовать для обучения моделей машинного обучения. Платформа аналитики данных Databricks включает ключевые функции, поддерживающие проектирование функций:

конвейеры данных выполняют прием необработанных данных, создают таблицы признаков, обучают модели и выполняют пакетную инференцию. При использовании инженерии признаков в каталоге Unity для обучения и логирования модели модель упаковывается с метаданными признаков. При использовании модели для пакетной оценки или вывода через Интернет он автоматически получает значения признаков. Вызывающему не нужно знать о значениях или включать логику для поиска или объединения признаков для оценки новых данных.
конечные точки обслуживания моделей и функций мгновенно доступны и обеспечивают миллисекундную задержку.
Мониторинг способствует обеспечению эффективности и точности данных и моделей.

Вы также можете использовать Mosaic AI Vector Search для хранения и извлечения векторных представлений. Внедрение имеет решающее значение для приложений, требующих поиска сходства, таких как RAG, системы рекомендаций и распознавание изображений.

Дополнительные сведения см. в статье Azure Databricks: обслуживание данных для машинного обучения и искусственного интеллекта.

Соединители данных для искусственного интеллекта

Фабрика данных Azure и конвейеры Azure Synapse Analytics поддерживают множество хранилищ данных и форматов с помощью копирования, потока данных, поиска, получения метаданных и удаления действий. Сведения о доступных соединителях хранилища данных, поддерживаемых возможностях, включая соответствующие конфигурации, а также универсальные параметры подключения с помощью Open Database Connectivity, см. в обзоре соединителей для Azure Data Factory и Azure Synapse Analytics.

Настраиваемый ИИ

Индивидуальные решения в области искусственного интеллекта помогают справляться с конкретными бизнес-потребностями и проблемами. В следующих разделах представлен обзор различных инструментов и служб, которые можно использовать для создания пользовательских моделей ИИ и управления ими.

Машинное обучение Azure

Машинное обучение Azure — это облачная служба для ускорения жизненного цикла проекта машинного обучения и управления ими. Специалисты по машинному обучению, специалисты по обработке и анализу данных и инженеры могут использовать эту службу в своих повседневных рабочих процессах для обучения и развертывания моделей и управления операциями машинного обучения.

Машинное обучение предоставляет следующие возможности:

выбор алгоритма: Некоторые алгоритмы делают определенные предположения о структуре данных или нужных результатах. Выберите алгоритм, соответствующий вашим потребностям, чтобы получить более полезные результаты, более точные прогнозы и ускорить обучение. Дополнительные сведения см. в разделе Выбор алгоритмовмашинного обучения.
настройке или оптимизации гиперпараметров: вручную этот процесс можно использовать для поиска конфигураций гиперпараметров, которые приводят к лучшей производительности. Эта оптимизация вызывает значительные вычислительные затраты. гиперпараметры являются настраиваемыми параметрами, которые обеспечивают контроль в процессе обучения модели. Например, можно выбрать количество скрытых слоев и количество узлов в каждом слое нейронных сетей. Производительность модели в значительной степени зависит от гиперпараметров.

Машинное обучение позволяет автоматизировать настройку гиперпараметров и выполнять эксперименты параллельно, чтобы эффективно оптимизировать гиперпараметры.

Дополнительные сведения см. в следующих ресурсах:
- Настройка гиперпараметров модели с помощью машинного обучения
- Обновление настройки гиперпараметров до пакета SDK версии 2
- Обучающий курс . Настройка гиперпараметров в машинном обучении
обучение моделей : можно итеративно использовать алгоритм для создания или обучения моделей. После обучения моделей их можно использовать для анализа данных и прогнозирования.

На этапе обучения:
1. Набор известных данных помечается таким образом, чтобы отдельные поля были идентифицированы.
2. Алгоритм, настроенный для создания определенного прогноза, получает помеченные данные.
3. Алгоритм выводит модель, которая фиксирует шаблоны, которые он определил в данных. Модель использует набор параметров для представления этих шаблонов.
Во время проверки:
1. Свежие данные помечены и используются для тестирования модели.
2. Алгоритм корректируется по мере необходимости и, возможно, проходит дополнительное обучение.
3. Этап тестирования использует реальные данные без тегов или предварительно выбранных целевых объектов. Если результаты модели точны, она готова к использованию и может быть развернута.
Дополнительные сведения см. в следующих ресурсах:
- Тренировка моделей с помощью машинного обучения
- Руководство: Обучение модели в машинном обучении
- Глубокое обучение и распределенное обучение с помощью машинного обучения
AutoML: этот процесс автоматизирует трудоемкие итеративные задачи разработки моделей машинного обучения. Это может значительно сократить время, необходимое для создания моделей машинного обучения, готовых к работе. AutoML может помочь в выборе модели, настройке гиперпараметра, обучении модели и других задачах, не требуя обширных знаний по программированию или домену.

Вы можете использовать AutoML, если требуется, чтобы машинное обучение использовало указанную целевую метрику для обучения и настройки модели. Вам не нужен опыт обработки и анализа данных, чтобы определить комплексный конвейер машинного обучения для проблем.

Специалисты по машинному обучению и разработчики в различных отраслях могут использовать AutoML для:
- Реализуйте решения машинного обучения без обширных знаний по программированию или машинному обучению.
- Экономия времени и ресурсов.
- Применение рекомендаций по обработке и анализу данных.
- Предоставление гибкого решения проблем.
Дополнительные сведения см. в разделе Что такое AutoML?.
оценка: этот процесс, также называемый прогнозирование, использует обученную модель машинного обучения для генерации значений на базе новых входных данных. Значения или оценки могут представлять прогнозы будущих значений, но они также могут представлять собой скорее категорию или результат.

Дополнительные сведения см. в следующих ресурсах:
проектирование компонентов и признаков: данные обучения состоят из строк и столбцов. Каждая строка представляет собой наблюдение или запись, а столбцы каждой строки — это признаки, описывающие каждую запись. Как правило, для создания прогнозных моделей выбираются признаки, которые лучше всего характеризуют закономерности в данных.

Несмотря на то, что для обучения модели можно использовать множество необработанных полей данных, может потребоваться создать другие встроенные функции, которые предоставляют информацию для более эффективной дифференцировки шаблонов в данных. Этот процесс называется проектированием признаков, где вы используете знания о домене для создания функций, которые помогают алгоритмам машинного обучения лучше учиться.

В Машинном обучении методы масштабирования и нормализации данных применяются для упрощения проектирования функций. Все эти методы и проектирование признаков в совокупности называются феатуризацией в экспериментах AutoML. Для получения дополнительной информации см. раздел Фичеризация данных в автоматизированном машинном обучении.

Azure OpenAI

В Azure OpenAI можно использовать процесс точной настройки, известный как , для адаптации моделей OpenAI к личным наборам данных. Этот шаг настройки оптимизирует службу, предоставив следующее:

Более качественные результаты по сравнению с только .
Возможность обучать на большем количестве примеров, чем максимальный лимит контекста запроса, допускаемый моделью.
Экономия токенов благодаря более коротким запросам.
Запросы с низкой задержкой, особенно при использовании небольших моделей.

Дополнительные сведения см. в следующих ресурсах:

Службы ИИ Azure для пользовательского ИИ

службы ИИ Azure предоставляют функции для создания пользовательских моделей и приложений ИИ. В следующих разделах представлен обзор этих ключевых функций.

Настраиваемая речь

Настраиваемая речь — это функция службы "Речь ИИ Azure". Вы можете использовать настраиваемую речь для оценки и повышения точности распознавания речи для приложений и продуктов. Используйте заказную модель речи для преобразования речи в режиме реального времени в текст, перевода речи и пакетного транскрибирования.

По умолчанию распознавание речи использует универсальную языковую модель в качестве базовой модели. Эта модель обучена данными, принадлежащими Майкрософт, и отражает часто используемый язык. Базовая модель предварительно обучена диалектами и фонетиками, представляющими различные общие домены. При выполнении запроса на распознавание речи по умолчанию используется последняя базовая модель поддерживаемого языка. Базовая модель хорошо работает в большинстве сценариев распознавания речи.

Для расширения базовой модели можно использовать пользовательскую модель. Например, можно улучшить распознавание словаря для конкретного домена, относящегося к приложению, предоставив текстовые данные для обучения модели. Вы также можете улучшить распознавание для конкретных звуковых условий приложения, предоставив аудиоданные, включая эталонные транскрипции.

Если данные соответствуют шаблону, можно использовать структурированный текст для обучения модели. Можно указать пользовательские произношения и настроить форматирование текста с помощью настраиваемой нормализации текста, настраиваемой перезаписи и фильтрации ненормативной лексики.

Индивидуальный переводчик

Настраиваемый переводчик — это функция службы Azure AI Translator. Предприятия, разработчики приложений и поставщики языковых служб могут использовать пользовательский переводчик для создания настраиваемых систем нейронного машинного перевода (NMT). Настраиваемые системы перевода легко интегрируются с существующими приложениями, рабочими процессами и веб-сайтами.

Эту функцию можно использовать для создания и публикации пользовательских систем перевода на английский и с английского языка. Пользовательский переводчик поддерживает более трех десятков языков, которые напрямую связаны с языками NMT. Полный список языков см. в поддержке языков переводчика.

Пользовательский переводчик предлагает следующие функции.

Возможность	Description
Применение технологии NMT	Примените NMT из пользовательского переводчика для улучшения перевода.
Создание систем, которые знают вашу бизнес-терминологию	Настройте и создайте системы перевода с помощью параллельных документов, которые понимают терминологию в бизнесе и отрасли.
Использование словаря для создания моделей	Обучите модель только с данными словаря, если у вас нет обучаемого набора данных.
Совместная работа с другими пользователями	Работайте с командой, делясь своей работой с различными людьми.
Доступ к вашей пользовательской модели перевода	Доступ к пользовательской модели перевода в любое время с помощью существующих приложений или программ с помощью API перевода текстов Microsoft Translator версии 3.

Пользовательские модели Azure AI Document Intelligence

Azure AI Document Intelligence использует расширенную технологию машинного обучения для идентификации документов, обнаружения и извлечения информации из форм и документов и возврата извлеченных данных в структурированных выходных данных JSON. Используйте аналитику документов для использования предварительно созданных или предварительно обученных моделей анализа документов или обученных автономных пользовательских моделей.

Пользовательские модели аналитики документов включают пользовательские модели классификации для сценариев, в которых необходимо определить тип документа перед использованием модели извлечения. Вы можете связать модель классификации с пользовательской моделью извлечения для анализа и извлечения полей из форм и документов, относящихся к вашей организации. Объединение автономных пользовательских моделей извлечения для создания составных моделей.

Пользовательские средства искусственного интеллекта

Предварительно созданные модели искусственного интеллекта полезны и все более гибки, но лучший способ оптимизации ИИ — адаптировать модель в соответствии с вашими потребностями. Двумя основными средствами для создания пользовательских моделей ИИ являются создание искусственного интеллекта и традиционное машинное обучение.

Студия машинного обучения Azure

Студии машинного обучения Azure — это облачная служба для ускорения жизненного цикла проекта машинного обучения и управления ими. Специалисты по машинному обучению, специалисты по обработке и анализу данных и инженеры могут использовать его в своих повседневных рабочих процессах для обучения и развертывания моделей и управления операциями машинного обучения.

Создание и обучение моделей машинного обучения с помощью любого типа вычислений, включая Spark и GPU для облачных крупномасштабных рабочих нагрузок ИИ.
Запустите AutoML и используйте пользовательский интерфейс перетаскивания для машинного обучения с низким кодом.
Реализуйте комплексные операции машинного обучения и повторяемые конвейеры.
Используйте отвечаемую панель мониторинга ИИ для обнаружения предвзятости и анализа ошибок.
Оркестрация и управление потоками запросов и LLM.
Развертывание моделей с помощью конечных точек REST API, вывода в режиме реального времени и пакетного вывода.
Использование центральных рабочих областей для совместного использования вычислительных ресурсов, квоты, безопасности и подключения к ресурсам организации, а также централизованного управления ит-отделами. Настройте концентратор один раз, а затем создайте безопасные рабочие области непосредственно из студии для каждого проекта. Используйте центры для управления работой вашей команды в студии и на портале AI Foundry.

AI Foundry

AI Foundry помогает эффективно создавать и развертывать пользовательские приложения искусственного интеллекта с помощью широких предложений ИИ Azure.

Создайте вместе как одну команду. Центр AI Foundry обеспечивает безопасность корпоративного уровня и среду совместной работы, которая включает общие ресурсы и подключения к предварительно обученным моделям, данным и вычислениям.
Упорядочение работы. Проект AI Foundry помогает сохранять текущее состояние, чтобы вы могли выполнять итерации от первой идеи до первого прототипа и первого внедрения в эксплуатацию. Легко пригласить других пользователей для совместной работы с вами.
Используйте предпочитаемую платформу разработки и фреймворки, включая GitHub, Visual Studio Code, LangChain, Semantic Kernel и AutoGen.
Обнаружение и тестирование из более чем 1600 моделей.
Подготовка моделей в качестве службы (MaaS) с помощью бессерверных API и размещения точной настройки.
Включение нескольких моделей, источников данных и модальности.
Создайте RAG с помощью защищенных корпоративных данных без необходимости точной настройки.
Оркестрация и управление потоками запросов и LLM.
Разработка и защита приложений и API с помощью настраиваемых фильтров и элементов управления.
Оцените ответы модели с помощью встроенных и пользовательских потоков оценки.
Развертывание инноваций искусственного интеллекта в управляемой Azure инфраструктуре для обеспечения непрерывного мониторинга и управления в разных средах.
Непрерывно отслеживайте развернутые приложения для обеспечения безопасности, качества и потребления маркеров в рабочей среде.

Дополнительные сведения см. в статье о портале AI Foundry и студии машинного обучения.

Поток запроса на портале AI Foundry

поток запроса на портале AI Foundry — это средство разработки, которое можно использовать для оптимизации всего цикла разработки приложений ИИ, которые работают на основе LLM. Поток запросов предоставляет комплексное решение, которое упрощает процесс создания прототипов, экспериментов, итераций и развертывания приложений ИИ.

Поток запросов — это функция, которую можно использовать для создания, настройки или запуска потока.
Поток — это набор инструкций, который может реализовать логику ИИ. Создание или запуск потоков с помощью инструментов, например предварительно созданного холста или LangChain. Вы можете сохранить итерации потока в качестве ресурсов. После развертывания потока он становится API. Не все потоки являются оперативными потоками. Поток запроса — один из способов создания потока.
Запрос — это пакет входных данных, отправляемых в модель. Он состоит из входных данных пользователя, системного сообщения и любых примеров. Входные данные пользователя — это текст, отправленный в окне чата. Системное сообщение — это набор инструкций для модели, которая определяет его поведение и функциональные возможности.
Пример потока — это простой предварительно созданный поток оркестрации, показывающий, как работают потоки. Вы можете настроить пример потока.
Пример запроса — это определенный запрос для определенного сценария, который можно скопировать из библиотеки и использовать as-is или изменить его в конструкторе запросов.

Пользовательские языки кода ИИ

Основная концепция ИИ — это использование алгоритмов для анализа данных и создания моделей для описания или оценки. Разработчики и специалисты по обработке и анализу данных, а иногда и другие алгоритмы используют код программирования для написания алгоритмов. Два из самых популярных языков программирования для разработки ИИ — Python и R.

Python — это высокоуровневый язык программирования общего назначения. Он имеет простой, удобочитаемый синтаксис и прост в изучении. Этап компиляции отсутствует. Python имеет большую стандартную библиотеку и поддерживает возможность добавления модулей и пакетов. Эта функция поощряет модульность и позволяет расширять возможности при необходимости. Существует большая и растущая экосистема библиотек искусственного интеллекта и машинного обучения для Python, в том числе многие из них в Azure.

Дополнительные сведения см. в следующих ресурсах:

R — это язык и среда для статистических вычислений и графики. Вы можете использовать его для всего, от сопоставления широких социальных и маркетинговых тенденций в Интернете до разработки финансовых и климатических моделей.

Корпорация Майкрософт полностью принимает язык программирования R и предоставляет множество вариантов для разработчиков R для запуска кода в Azure.

Дополнительные сведения см. в статье Интерактивное использование R вмашинного обучения.

Общие сведения о пользовательском ИИ в Azure см. в следующих ресурсах:

Истории клиентов

Многие отрасли применяют ИИ инновационными и вдохновляющими способами. Рассмотрим следующие кейсы клиентов и истории успеха:

Дополнительные истории успешного использования ИИ клиентами

Общие сведения о Microsoft AI

Узнайте больше о Microsoft AI и будьте в курсе связанных новостей:

Следующий шаг

нагрузки ИИ на Azure

схемы архитектуры и описания технологий для эталонных архитектур решений ИИ

Поделиться через

Проектирование архитектуры ИИ

Начало работы

Основные понятия ИИ

Алгоритмы

Машинное обучение

Глубокое обучение

Генеративный ИИ

Языковые модели

Копилоты

Генерация с использованием извлечения информации

Службы ИИ Azure

Модели языка ИИ

Платформы и средства разработки ИИ

Машинное обучение Azure

Эталонные архитектуры машинного обучения для Azure

Автоматизированное машинное обучение

MLflow

Средства создания искусственного интеллекта

Платформы данных для искусственного интеллекта

Microsoft Fabric

Копилоты в Fabric

Навыки искусственного интеллекта в Fabric

Платформы данных на основе Apache Spark для искусственного интеллекта

Apache Spark в Microsoft Fabric

Azure Databricks Runtime для машинного обучения

Apache Spark в Azure HDInsight

Хранилище данных для искусственного интеллекта

Fabric OneLake

Data Lake Storage

Обработка данных для искусственного интеллекта

Фабрика данных Fabric

Azure Databricks

Соединители данных для искусственного интеллекта

Настраиваемый ИИ

Машинное обучение Azure

Azure OpenAI

Службы ИИ Azure для пользовательского ИИ

Настраиваемая речь

Индивидуальный переводчик

Пользовательские модели Azure AI Document Intelligence

Пользовательские средства искусственного интеллекта

Студия машинного обучения Azure

AI Foundry

Поток запроса на портале AI Foundry

Пользовательские языки кода ИИ

Истории клиентов

Общие сведения о Microsoft AI

Следующий шаг

Связанный ресурс

Обратная связь

Дополнительные ресурсы