Использование семейства моделей Meta Llama с Студия машинного обучения Azure

Статья
03/04/2025

В этой статье вы узнаете о семействе моделей Meta Llama (LLM). Мета-Лама моделей и инструментов — это коллекция предварительно обученных и точно настроенных моделей создания текста ИИ и моделей создания изображений , начиная от масштабируемых СМС (1B, 3B Base and Instruct models) for on-device and edge inferencing - to mid-size LLMs (7B, 8B и 70B Base and 70B Base and Instruct models) и высокопроизводительных моделей, таких как Meta Llama 3.1 405B Instruct for synthetic data generation and distillation use cases.

Совет

Ознакомьтесь с нашими объявлениями о семейных моделях Meta Llama 3.3, доступных сейчас в блоге Microsoft Tech Community каталога моделей ИИ Azure.

Ознакомьтесь со следующими примерами GitHub для изучения интеграции с LangChain, LiteLLM, OpenAI и API Azure.

Внимание

Эта функция сейчас доступна в виде общедоступной предварительной версии. Эта предварительная версия предоставляется без соглашения об уровне обслуживания. Ее не следует использовать для производственных рабочих нагрузок. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены.

Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Мета-Лама семейства моделей

Семейство моделей Meta Llama включает следующие модели:

Лама-3.3-70B-Instruct

Подписка Azure с допустимым методом оплаты. Бесплатные или пробные подписки Azure не будут работать. Если у вас нет подписки Azure, создайте платную учетную запись Azure, чтобы начать работу.
Рабочая область Машинное обучение Azure и вычислительный экземпляр. Если у вас нет этих ресурсов, выполните действия, описанные в кратком руководстве. Создание ресурсов рабочей области для их создания. Развертывание модели бессерверного API для Meta Llama 3.1 и Llama 3 доступно только с рабочими областями, созданными в этих регионах:
- Восточная часть США
- восточная часть США 2
- Центрально-северная часть США
- Центрально-южная часть США
- Западная часть США
- Западная часть США — 3
- Центральная Швеция
Список регионов, которые доступны для каждой из моделей, поддерживающих бессерверные развертывания конечных точек API, см. в статье Доступность по регионам моделей в бессерверных конечных точках API.
Управление доступом на основе ролей Azure (Azure RBAC) используется для предоставления доступа к операциям в Машинном обучении Azure. Чтобы выполнить действия, описанные в этой статье, учетной записи пользователя должна быть назначена роль владельца или участника для подписки Azure. Кроме того, вашей учетной записи может быть назначена настраиваемая роль, которая имеет следующие разрешения:
- В подписке Azure — чтобы подписаться на рабочую область на предложение Azure Marketplace один раз для каждой рабочей области для каждого предложения:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Для создания и использования ресурса SaaS в группе ресурсов выполните следующие действия:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- В рабочей области — для развертывания конечных точек (роль специалиста по обработке и анализу данных машинного обучения Azure уже содержит эти разрешения):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Дополнительные сведения о разрешениях см. в статье Управление доступом к рабочей области Машинного обучения Azure.

Подписка Azure с допустимым методом оплаты. Бесплатные или пробные подписки Azure не будут работать. Если у вас нет подписки Azure, создайте платную учетную запись Azure, чтобы начать работу.
Рабочая область Машинное обучение Azure и вычислительный экземпляр. Если у вас нет этих ресурсов, выполните действия, описанные в кратком руководстве. Создание ресурсов рабочей области для их создания. Развертывание модели бессерверного API для Meta Llama 2 доступно только в рабочих областях, созданных в следующих регионах:
- Восточная часть США
- восточная часть США 2
- Центрально-северная часть США
- Центрально-южная часть США
- Западная часть США
- Западная часть США — 3
Список регионов, которые доступны для каждой из моделей, поддерживающих бессерверные развертывания конечных точек API, см. в статье Доступность по регионам моделей в бессерверных конечных точках API.
Управление доступом на основе ролей Azure (Azure RBAC) используется для предоставления доступа к операциям в Машинном обучении Azure. Чтобы выполнить действия, описанные в этой статье, учетной записи пользователя должна быть назначена роль владельца или участника для подписки Azure. Кроме того, вашей учетной записи может быть назначена настраиваемая роль, которая имеет следующие разрешения:
- В подписке Azure — чтобы подписаться на рабочую область на предложение Azure Marketplace один раз для каждой рабочей области для каждого предложения:
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/read
  - Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
  - Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
  - Microsoft.SaaS/register/action
- Для создания и использования ресурса SaaS в группе ресурсов выполните следующие действия:
  - Microsoft.SaaS/resources/read
  - Microsoft.SaaS/resources/write
- В рабочей области — для развертывания конечных точек (роль специалиста по обработке и анализу данных машинного обучения Azure уже содержит эти разрешения):
  - Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
  - Microsoft.MachineLearningServices/workspaces/serverlessEndpoints/*
Дополнительные сведения о разрешениях см. в статье Управление доступом к рабочей области Машинного обучения Azure.

Создание развертывания

Чтобы создать развертывание, выполните приведенные действия.

Мета Лама 3
Мета Лама 2

Перейдите к Студия машинного обучения Azure.
Выберите рабочую область, в которой нужно развернуть модели. Чтобы использовать предложение развертывания модели с оплатой по мере использования, рабочая область должна принадлежать одному из доступных регионов, перечисленных в предварительных требованиях этой статьи.
Выберите Meta-Llama-3.1-405B-Instruct развертывание из каталога моделей.

Кроме того, можно инициировать развертывание, перейдя в рабочую область и выбрав "Создание конечных>>точек без сервера".
На странице Meta-Llama-3.1-405B-Instructсведений выберите "Развернуть" и выберите бессерверный API с безопасностью содержимого ИИ Azure.
В мастере развертывания выберите ссылку на условия использования Azure Marketplace, чтобы узнать больше об условиях использования. Вы также можете выбрать вкладку сведений о предложении Marketplace, чтобы узнать о ценах на выбранную модель.
Если это первый раз при развертывании модели в рабочей области, необходимо подписаться на рабочую область для конкретного предложения (например, Meta-Llama-3.1-405B-Instructиз Azure Marketplace). На этом шаге требуется, чтобы у вашей учетной записи были разрешения подписки Azure и разрешения группы ресурсов, перечисленные в предварительных требованиях. Каждая рабочая область имеет собственную подписку на конкретное предложение Azure Marketplace, которое позволяет контролировать расходы и отслеживать их. Выберите "Подписаться" и " Развернуть".

Примечание.

Подписывание рабочей области на определенное предложение Azure Marketplace (в данном случае Ллома-3-70B) требует, чтобы у вашей учетной записи был доступ участника или владельца на уровне подписки, где создается проект. Кроме того, учетная запись пользователя может быть назначена настраиваемой роли с разрешениями подписки Azure и разрешениями группы ресурсов, перечисленными в предварительных требованиях.
После регистрации рабочей области для конкретного предложения Azure Marketplace последующие развертывания одного и того же предложения в той же рабочей области не требуют повторной подписки. Поэтому вам не нужно иметь разрешения на уровне подписки для последующих развертываний. Если этот сценарий применяется к вам, нажмите кнопку "Продолжить развертывание".
Присвойте развертыванию имя. Это имя становится частью URL-адреса API развертывания. Этот URL-адрес должен быть уникальным в каждом регионе Azure.
Выберите Развернуть. Подождите, пока развертывание не завершится, и вы будете перенаправлены на страницу бессерверных конечных точек.
Выберите конечную точку, чтобы открыть страницу сведений.
Перейдите на вкладку "Тест", чтобы начать взаимодействие с моделью.
Вы также можете заметить URL-адрес целевого объекта и секретный ключ для вызова развертывания и создания завершения.
Вы всегда можете найти сведения о конечной точке, URL-адрес и ключи доступа, перейдя к конечным точкам> без сервера рабочей области.>

Сведения о выставлении счетов для моделей Meta Llama, развернутых в качестве бессерверного API, см. в статье "Рекомендации по затратам и квотам" для моделей Meta Llama, развернутых в качестве бессерверного API.

Использование моделей Meta Llama в качестве службы

Модели, развернутые как услуга, можно использовать с помощью чата или API завершения в зависимости от типа развернутой модели.

Мета Лама 3
Мета Лама 2

В рабочей области выберите конечные точки без сервера конечных> точек.
Найдите и выберите созданное Meta-Llama-3.1-405B-Instruct развертывание.
Скопируйте URL-адрес целевого объекта и значения маркера ключа.
Выполните запрос API на основе типа развернутой модели.
- Для моделей завершения, например Llama-3-8B, используйте <target_url>/v1/completions API.
- Для моделей чата/chat/completions, таких как Meta-Llama-3.1-405B-InstructAPI, используйте API.
Дополнительные сведения об использовании API см. в разделе справочника.

В рабочей области выберите конечные точки без сервера конечных> точек.
Найдите и выберите созданное развертывание.
Скопируйте URL-адрес целевого объекта и значения маркера ключа.
Выполните запрос API на основе типа развернутой модели.
- Для моделей завершения, например Meta-Llama-2-7B, используйте /v1/completions API или API вывода модели ИИ Azure в маршруте /completions.
- Для моделей чата, например Meta-Llama-2-7B-Chat, используйте /v1/chat/completions API или API вывода модели ИИ Azure в маршруте /chat/completions.
Дополнительные сведения об использовании API см. в разделе справочника.

Справочник по моделям Meta Llama 3.1, развернутый бессерверным API

Модели Llama принимают API вывода модели ИИ Azure в маршруте /chat/completions или API чата Llama в /v1/chat/completions. Таким же образом можно создать завершение текста с помощью API вывода модели ИИ Azure в маршруте /completions или API завершения Llama в /v1/completions

Схему API вывода модели ИИ Azure можно найти в статье справочника по завершению чатов, а спецификацию OpenAPI можно получить из самой конечной точки.

API завершения

Используйте метод POST для отправки запроса /v1/completions в маршрут:

Запросить

POST /v1/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Схема запроса

Полезные данные — это отформатированная строка JSON, содержащая следующие параметры:

Ключ	Тип	По умолчанию.	Description
`prompt`	`string`	Значение по умолчанию отсутствует. Это значение должно быть указано.	Запрос на отправку в модель.
`stream`	`boolean`	`False`	Потоковая передача позволяет отправлять созданные маркеры как события, отправляемые сервером только для данных, когда они становятся доступными.
`max_tokens`	`integer`	`16`	Максимальное количество маркеров, которые необходимо создать в завершении. Количество маркеров запроса плюс `max_tokens` не может превышать длину контекста модели.
`top_p`	`float`	`1`	Альтернатива выборке с температурой, называемой выборкой ядра, где модель рассматривает результаты маркеров с `top_p` массой вероятности. Таким образом, 0,1 означает, что учитываются только маркеры, входящие в верхние 10% массива значений вероятности. Как правило, мы рекомендуем изменять `top_p` или `temperature`, но не оба.
`temperature`	`float`	`1`	Температура выборки, используемая в диапазоне от 0 до 2. Более высокие значения означают, что примеры модели более широко распределяют маркеры. Ноль означает жадную выборку. Мы рекомендуем изменить это или `top_p`, но не оба.
`n`	`integer`	`1`	Количество завершений, создаваемых для каждого запроса. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров.
`stop`	`array`	`null`	Строка или список строк, содержащих слово, в котором API перестает создавать дополнительные маркеры. Возвращенный текст не будет содержать последовательность остановки.
`best_of`	`integer`	`1`	`best_of` Создает завершения на стороне сервера и возвращает "лучший" (один с наименьшей вероятностью журнала на токен). Потоковую передачу результатов выполнить нельзя. При использовании с `n`параметром `best_of` определяет количество завершений кандидата и `n` указывает, сколько нужно возвращать, best_of должно быть больше `n`. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров.
`logprobs`	`integer`	`null`	Число, указывающее на включение вероятностей журнала для `logprobs` наиболее вероятных маркеров и выбранных маркеров. Например, если `logprobs` значение равно 10, API возвращает список из 10 наиболее вероятных маркеров. API всегда возвращает logprob примера маркера, поэтому в ответе может быть до `logprobs`1 элементов.
`presence_penalty`	`float`	`null`	Значение в диапазоне от –2.0 до 2.0. Положительные значения выбраковывают новые маркеры в зависимости от того, отображаются ли они в тексте на данный момент, увеличивая вероятность обсуждений на новые темы.
`ignore_eos`	`boolean`	`True`	Следует ли игнорировать маркер EOS и продолжать создавать маркеры после создания маркера EOS.
`use_beam_search`	`boolean`	`False`	Следует ли использовать поиск луча вместо выборки. В таком случае `best_of` должно быть больше `1` и `temperature` должно быть `0`.
`stop_token_ids`	`array`	`null`	Список идентификаторов для маркеров, которые при создании остановите дальнейшее создание маркеров. Возвращаемые выходные данные содержат маркеры остановки, если маркеры остановки не являются специальными маркерами.
`skip_special_tokens`	`boolean`	`null`	Следует ли пропускать специальные маркеры в выходных данных.

Пример

Текст

{
    "prompt": "What's the distance to the moon?",
    "temperature": 0.8,
    "max_tokens": 512,
}

Схема ответа

Полезные данные ответа — это словарь со следующими полями.

Ключ	Тип	Описание
`id`	`string`	Уникальный идентификатор завершения.
`choices`	`array`	Список вариантов завершения модели, созданной для ввода запроса.
`created`	`integer`	Метка времени Unix (в секундах) при создании завершения.
`model`	`string`	Model_id используется для завершения.
`object`	`string`	Тип объекта, который всегда `text_completion`является .
`usage`	`object`	Статистика использования для запроса завершения.

Совет

В режиме потоковой передачи для каждого блока ответа finish_reason всегда nullиспользуется только тот, который завершается полезными данными [DONE].

Объект choices — это словарь со следующими полями.

Ключ	Тип	Описание
`index`	`integer`	Индекс выбора. Если `best_of`> значение 1, индекс в этом массиве может не быть упорядоченным и не может быть 0 до n-1.
`text`	`string`	Результат завершения.
`finish_reason`	`string`	Причина, по которой модель перестала создавать маркеры: - `stop`: модель попала в естественную точку остановки или указанную последовательность остановки. - `length`: если достигнуто максимальное число маркеров. - `content_filter`: при модерации RAI и модерации CMP. - `content_filter_error`: ошибка во время модерации и не смогла принять решение об ответе. - `null`: ответ API по-прежнему выполняется или неполный.
`logprobs`	`object`	Вероятности журналов созданных маркеров в выходном тексте.

Объект usage — это словарь со следующими полями.

Ключ	Тип	значение
`prompt_tokens`	`integer`	Количество маркеров в запросе.
`completion_tokens`	`integer`	Число маркеров, созданных в завершении.
`total_tokens`	`integer`	Всего токенов.

Объект logprobs представляет собой словарь со следующими полями:

Ключ	Тип	значение
`text_offsets`	`array` из `integers`	Позиция или индекс каждого маркера в выходных данных завершения.
`token_logprobs`	`array` из `float`	Выбран `logprobs` из словаря в `top_logprobs` массиве.
`tokens`	`array` из `string`	Выбранные маркеры.
`top_logprobs`	`array` из `dictionary`	Массив словарей. В каждом словаре ключ является маркером, а значением является prob.

Пример

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "text_completion",
    "created": 217877,
    "choices": [
        {
            "index": 0,
            "text": "The Moon is an average of 238,855 miles away from Earth, which is about 30 Earths away.",
            "logprobs": null,
            "finish_reason": "stop"
        }
    ],
    "usage": {
        "prompt_tokens": 7,
        "total_tokens": 23,
        "completion_tokens": 16
    }
}

API чата

Используйте метод POST для отправки запроса /v1/chat/completions в маршрут:

Запросить

POST /v1/chat/completions HTTP/1.1
Host: <DEPLOYMENT_URI>
Authorization: Bearer <TOKEN>
Content-type: application/json

Схема запроса

Полезные данные — это отформатированная строка JSON, содержащая следующие параметры:

Ключ	Тип	По умолчанию.	Description
`messages`	`string`	Значение по умолчанию отсутствует. Это значение должно быть указано.	Сообщение или журнал сообщений, используемых для запроса модели.
`stream`	`boolean`	`False`	Потоковая передача позволяет отправлять созданные маркеры как события, отправляемые сервером только для данных, когда они становятся доступными.
`max_tokens`	`integer`	`16`	Максимальное количество маркеров, которые необходимо создать в завершении. Количество маркеров запроса плюс `max_tokens` не может превышать длину контекста модели.
`top_p`	`float`	`1`	Альтернатива выборке с температурой, называемой выборкой ядра, где модель рассматривает результаты маркеров с `top_p` массой вероятности. Таким образом, 0,1 означает, что учитываются только маркеры, входящие в верхние 10% массива значений вероятности. Как правило, мы рекомендуем изменять `top_p` или `temperature`, но не оба.
`temperature`	`float`	`1`	Температура выборки, используемая в диапазоне от 0 до 2. Более высокие значения означают, что примеры модели более широко распределяют маркеры. Ноль означает жадную выборку. Мы рекомендуем изменить это или `top_p`, но не оба.
`n`	`integer`	`1`	Количество завершений, создаваемых для каждого запроса. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров.
`stop`	`array`	`null`	Строка или список строк, содержащих слово, в котором API перестает создавать дополнительные маркеры. Возвращенный текст не будет содержать последовательность остановки.
`best_of`	`integer`	`1`	`best_of` Создает завершения на стороне сервера и возвращает "лучший" (один с наименьшей вероятностью журнала на токен). Потоковую передачу результатов выполнить нельзя. При использовании с `n`, `best_of` управляет числом завершения кандидатов и `n` указывает, сколько нужно возвращать,`best_of` должно быть больше `n`. Примечание. Поскольку данный параметр создает множество завершений, он может быстро исчерпать квоту маркеров.
`logprobs`	`integer`	`null`	Число, указывающее на включение вероятностей журнала для `logprobs` наиболее вероятных маркеров и выбранных маркеров. Например, если `logprobs` значение равно 10, API возвращает список из 10 наиболее вероятных маркеров. API всегда возвращает logprob примера маркера, поэтому в ответе может быть до `logprobs`1 элементов.
`presence_penalty`	`float`	`null`	Значение в диапазоне от –2.0 до 2.0. Положительные значения выбраковывают новые маркеры в зависимости от того, отображаются ли они в тексте на данный момент, увеличивая вероятность обсуждений на новые темы.
`ignore_eos`	`boolean`	`True`	Следует ли игнорировать маркер EOS и продолжать создавать маркеры после создания маркера EOS.
`use_beam_search`	`boolean`	`False`	Следует ли использовать поиск луча вместо выборки. В таком случае `best_of` должно быть больше `1` и `temperature` должно быть `0`.
`stop_token_ids`	`array`	`null`	Список идентификаторов для маркеров, которые при создании остановите дальнейшее создание маркеров. Возвращаемые выходные данные содержат маркеры остановки, если маркеры остановки не являются специальными маркерами.
`skip_special_tokens`	`boolean`	`null`	Следует ли пропускать специальные маркеры в выходных данных.

Объект messages имеет следующие поля:

Ключ	Тип	значение
`content`	`string`	Содержимое сообщения. Содержимое требуется для всех сообщений.
`role`	`string`	Роль автора сообщения. Это может быть `system`, `user` или `assistant`.

Пример

Текст

{
    "messages":
    [
        { 
        "role": "system", 
        "content": "You are a helpful assistant that translates English to Italian."},
        {
        "role": "user", 
        "content": "Translate the following sentence from English to Italian: I love programming."
        }
    ],
    "temperature": 0.8,
    "max_tokens": 512,
}

Схема ответа

Полезные данные ответа — это словарь со следующими полями.

Ключ	Тип	Описание
`id`	`string`	Уникальный идентификатор завершения.
`choices`	`array`	Список вариантов завершения модели, созданной для входных сообщений.
`created`	`integer`	Метка времени Unix (в секундах) при создании завершения.
`model`	`string`	Model_id используется для завершения.
`object`	`string`	Тип объекта, который всегда `chat.completion`является .
`usage`	`object`	Статистика использования для запроса завершения.

Совет

В режиме потоковой передачи для каждого блока ответа finish_reason всегда nullиспользуется только тот, который завершается полезными данными [DONE]. В каждом объекте ключ для messages каждого choices объекта изменяется.delta

Объект choices — это словарь со следующими полями.

Ключ	Тип	Описание
`index`	`integer`	Индекс выбора. Если `best_of`> значение 1, индекс в этом массиве может не быть упорядоченным и может не быть`n-10`.
`messages` или `delta`	`string`	Завершение чата приводит к объекту `messages` . При использовании `delta` режима потоковой передачи используется ключ.
`finish_reason`	`string`	Причина, по которой модель перестала создавать маркеры: - `stop`: модель попала в естественную точку остановки или указанную последовательность остановки. - `length`: если достигнуто максимальное число маркеров. - `content_filter`: при модерации RAI и принудительной модерации CMP - `content_filter_error`: ошибка во время модерации и не удалось принять решение об ответе - `null`: ответ API по-прежнему выполняется или неполный.
`logprobs`	`object`	Вероятности журналов созданных маркеров в выходном тексте.

Объект usage — это словарь со следующими полями.

Ключ	Тип	значение
`prompt_tokens`	`integer`	Количество маркеров в запросе.
`completion_tokens`	`integer`	Число маркеров, созданных в завершении.
`total_tokens`	`integer`	Всего токенов.

Объект logprobs представляет собой словарь со следующими полями:

Ключ	Тип	значение
`text_offsets`	`array` из `integers`	Позиция или индекс каждого маркера в выходных данных завершения.
`token_logprobs`	`array` из `float`	Выбран `logprobs` из словаря в `top_logprobs` массиве.
`tokens`	`array` из `string`	Выбранные маркеры.
`top_logprobs`	`array` из `dictionary`	Массив словарей. В каждом словаре ключ является маркером, а значением является prob.

Пример

Ниже приведен пример ответа:

{
    "id": "12345678-1234-1234-1234-abcdefghijkl",
    "object": "chat.completion",
    "created": 2012359,
    "model": "",
    "choices": [
        {
            "index": 0,
            "finish_reason": "stop",
            "message": {
                "role": "assistant",
                "content": "Sure, I\'d be happy to help! The translation of ""I love programming"" from English to Italian is:\n\n""Amo la programmazione.""\n\nHere\'s a breakdown of the translation:\n\n* ""I love"" in English becomes ""Amo"" in Italian.\n* ""programming"" in English becomes ""la programmazione"" in Italian.\n\nI hope that helps! Let me know if you have any other sentences you\'d like me to translate."
            }
        }
    ],
    "usage": {
        "prompt_tokens": 10,
        "total_tokens": 40,
        "completion_tokens": 30
    }
}

Развертывание моделей Meta Llama для управляемых вычислений

Помимо развертывания с помощью управляемой службы с оплатой по мере использования, вы также можете развернуть модели Meta Llama 3.1 для управляемых вычислений в Студия машинного обучения Azure. После развертывания в управляемой вычислительной среде можно выбрать все сведения об инфраструктуре, обеспечивающей работу модели, включая применяемые виртуальные машины и количество экземпляров, необходимое для обработки ожидаемой нагрузки. Модели, развертываемые в управляемой вычислительной среде, используют квоту из вашей подписки. Для управляемых вычислений доступны следующие модели из волны выпуска 3.1:

Meta-Llama-3.1-8B-Instruct (поддерживается FT)
Meta-Llama-3.1-70B-Instruct (поддерживается FT)
Meta-Llama-3.1-8B (поддерживается FT)
Meta-Llama-3.1-70B (поддерживается FT)
Llama Guard 3 8B
Prompt Guard

Создание развертывания

Мета Лама 3
Мета Лама 2

Выполните следующие действия, чтобы развернуть модель, например Meta-Llama-3.1-70B-Instruct для управляемого вычисления в Студия машинного обучения Azure.

Выберите рабочую область, в которой требуется развернуть модель.
Выберите модель, которую нужно развернуть в каталоге моделей студии.

Кроме того, можно инициировать развертывание, перейдя в рабочую область и выбрав "Создание управляемых конечных>точек".>
На странице обзора модели выберите "Развернуть", а затем "Управляемое вычисление" без безопасности содержимого ИИ Azure.
На странице "Развертывание с помощью безопасности содержимого ИИ Azure" (предварительная версия) выберите "Пропустить безопасность содержимого ИИ Azure", чтобы продолжить развертывание модели с помощью пользовательского интерфейса.

Совет

Как правило, мы рекомендуем включить безопасность содержимого ИИ Azure (рекомендуется) для развертывания модели Meta Llama. Этот вариант развертывания в настоящее время поддерживается только с помощью пакета SDK для Python, и он происходит в записной книжке.
Выберите Продолжить.

Совет

Если у вас нет достаточной квоты в выбранном проекте, можно использовать параметр , который я хочу использовать общую квоту, и я признаю, что эта конечная точка будет удалена в 168 часов.
Выберите виртуальную машину и число экземпляров, которые необходимо назначить развертыванию.
Выберите, нужно ли создать это развертывание как часть новой конечной точки или существующей. Конечные точки могут размещать несколько развертываний, сохраняя конфигурацию ресурсов эксклюзивной для каждой из них. Развертывания в одной конечной точке используют универсальный код ресурса (URI) конечной точки и ключи доступа.
Укажите, нужно ли включить сбор данных выводов (предварительная версия).
Укажите, нужно ли включить модель пакетов (предварительная версия).
Выберите Развернуть. Через несколько минут откроется страница сведений конечной точки.
Дождитесь завершения создания и развертывания конечной точки. Это может занять несколько минут.
Выберите страницу "Использование конечной точки", чтобы получить примеры кода, которые можно использовать для использования развернутой модели в приложении.

Дополнительные сведения о развертывании моделей для управляемых вычислений с помощью студии см. в статье "Развертывание базовых моделей в конечных точках для вывода".

Выполните следующие действия, чтобы развернуть модель, например Llama-2-7b-chat для управляемого вычисления в Студия машинного обучения Azure.

Выберите рабочую область, в которой требуется развернуть модель.
Выберите модель, которую нужно развернуть в каталоге моделей студии.

Кроме того, можно инициировать развертывание, перейдя в рабочую область и выбрав управляемые конечные точки, управляемые вычислительными>ресурсами.>
На странице обзора модели выберите "Развернуть", а затем "Управляемое вычисление" без безопасности содержимого ИИ Azure.
На странице "Развертывание с помощью безопасности содержимого ИИ Azure" (предварительная версия) выберите "Пропустить безопасность содержимого ИИ Azure", чтобы продолжить развертывание модели с помощью пользовательского интерфейса.

Совет

Как правило, мы рекомендуем включить безопасность содержимого ИИ Azure (рекомендуется) для развертывания модели Meta Llama. Этот вариант развертывания в настоящее время поддерживается только с помощью пакета SDK для Python, и он происходит в записной книжке.
Выберите Продолжить.

Совет

Если у вас нет достаточной квоты в выбранном проекте, можно использовать параметр , который я хочу использовать общую квоту, и я признаю, что эта конечная точка будет удалена в 168 часов.
Выберите виртуальную машину и число экземпляров, которые необходимо назначить развертыванию.
Выберите, нужно ли создать это развертывание как часть новой конечной точки или существующей. Конечные точки могут размещать несколько развертываний, сохраняя конфигурацию ресурсов эксклюзивной для каждой из них. Развертывания в одной конечной точке используют универсальный код ресурса (URI) конечной точки и ключи доступа.
Укажите, нужно ли включить сбор данных выводов (предварительная версия).
Укажите, нужно ли включить модель пакетов (предварительная версия).
Выберите Развернуть. Через несколько минут откроется страница сведений конечной точки.
Дождитесь завершения создания и развертывания конечной точки. Это может занять несколько минут.
Выберите страницу "Использование конечной точки", чтобы получить примеры кода, которые можно использовать для использования развернутой модели в приложении.

Использование моделей Meta Llama, развернутых для управляемых вычислений

Дополнительные сведения о вызове моделей Meta Llama 3, развернутых для управляемых вычислений, см. в карточке модели в каталоге моделей Студия машинного обучения Azure. Карточка каждой модели содержит обзорную страницу, содержащую описание модели, примеры для вывода на основе кода, точной настройки и оценки модели.

Дополнительные примеры вывода

Пакет	Пример записной книжки
ИНТЕРФЕЙС командной строки с помощью CURL и веб-запросов Python	webrequests.ipynb
Пакет SDK OpenAI (экспериментальный)	openaisdk.ipynb
LangChain	langchain.ipynb
LiteLLM SDK	litellm.ipynb

Стоимость и квоты

Фильтрация содержимого

Модели, развернутые как бессерверный API, защищены безопасностью содержимого ИИ Azure. При развертывании в управляемых вычислительных ресурсах вы можете отказаться от этой возможности. С включенной безопасностью содержимого ИИ Azure запрос и завершение проходят через ансамбль моделей классификации, направленных на обнаружение и предотвращение выходных данных вредного содержимого. Система фильтрации содержимого (предварительная версия) обнаруживает и принимает меры по определенным категориям потенциально вредного содержимого как в запросах ввода, так и в завершениях выходных данных. Дополнительные сведения о безопасности содержимого ИИ Azure.

Поделиться через

Использование семейства моделей Meta Llama с Студия машинного обучения Azure

Мета-Лама семейства моделей

Необходимые компоненты

Создание развертывания

Использование моделей Meta Llama в качестве службы

Справочник по моделям Meta Llama 3.1, развернутый бессерверным API

API завершения

Схема запроса

Пример

Схема ответа

Пример

API чата

Схема запроса

Пример

Схема ответа

Пример

Развертывание моделей Meta Llama для управляемых вычислений

Создание развертывания

Использование моделей Meta Llama, развернутых для управляемых вычислений

Дополнительные примеры вывода

Стоимость и квоты

Рекомендации по затратам и квотам для моделей Meta Llama 3.1, развернутых в качестве бессерверного API

Рекомендации по затратам и квотам для моделей Meta Llama 3.1, развернутых управляемых вычислений

Фильтрация содержимого

Обратная связь

Дополнительные ресурсы

Поделиться через

Использование семейства моделей Meta Llama с Студия машинного обучения Azure

Мета-Лама семейства моделей

Необходимые компоненты

Создание развертывания

Использование моделей Meta Llama в качестве службы

Справочник по моделям Meta Llama 3.1, развернутый бессерверным API

API завершения

Схема запроса

Пример

Схема ответа

Пример

API чата

Схема запроса

Пример

Схема ответа

Пример

Развертывание моделей Meta Llama для управляемых вычислений

Создание развертывания

Использование моделей Meta Llama, развернутых для управляемых вычислений

Дополнительные примеры вывода

Стоимость и квоты

Рекомендации по затратам и квотам для моделей Meta Llama 3.1, развернутых в качестве бессерверного API

Рекомендации по затратам и квотам для моделей Meta Llama 3.1, развернутых управляемых вычислений

Фильтрация содержимого

Связанный контент

Обратная связь

Дополнительные ресурсы