Поделиться через


Создание искусственного интеллекта с помощью База данных Azure для PostgreSQL — гибкий сервер

ОБЛАСТЬ ПРИМЕНЕНИЯ: База данных Azure для PostgreSQL — гибкий сервер

Генерируемый ИИ (GenAI) относится к классу алгоритмов искусственного интеллекта, которые могут учиться на существующем мультимедийном контенте и создавать новое содержимое. Созданный контент можно настроить с помощью таких методов, как запросы и настройка. Алгоритмы GenAI применяют определенные модели Машинное обучение:

  • Преобразователи и периодические нейронные сети (RNN) для создания текста.
  • Создание состязательных сетей (GAN) для создания образов.
  • Вариантные автокодировщики (VAEs) для создания изображений и т. д.

GenAI используется в синтезе изображений и музыки, здравоохранении, распространенных задачах, таких как автозавершение текста, сводка текста и перевод. Методы GenAI позволяют использовать такие функции, как кластеризация и сегментация, семантический поиск и рекомендации, моделирование тем, ответы на вопросы и обнаружение аномалий.

OpenAI

OpenAI — это исследовательская организация искусственного интеллекта (ИИ) и технологическая компания, известная своей пионерской работой в области искусственного интеллекта и машинного обучения. Их миссия заключается в том, чтобы обеспечить искусственный общий интеллект (AGI), который относится к высокоавтономным системам ИИ, которые могут опережать людей в наиболее экономически ценной работе, приносит пользу всем человечеством. OpenAI принес на рынок современные модели создания, такие как GPT-3, GPT-3.5 и GPT-4 (генерированный предварительно обученный преобразователь).

Azure OpenAI — это служба LLM Azure, помогающая создавать приложения GenAI с помощью Azure. Служба Azure OpenAI предоставляет клиентам расширенный язык ИИ с помощью OpenAI GPT-4, GPT-3, Codex, DALL-E и моделей Whisper с безопасностью и корпоративным обещанием Azure. Azure OpenAI совместно разрабатывает API с OpenAI, обеспечивая совместимость и плавное переход с одного на другое.

С помощью Azure OpenAI клиенты получают возможности безопасности Microsoft Azure, выполняя те же модели, что и OpenAI. Azure OpenAI предлагает частные сети, региональную доступность и фильтрацию содержимого ИИ.

Подробнее об Azure OpenAI.

Большая языковая модель (LLM)

Большая языковая модель (LLM) — это тип модели ИИ, обученной на больших объемах текстовых данных для понимания и создания человеческого языка. LlMs обычно основаны на архитектуре глубокого обучения, таких как Преобразователи, и они известны своей способностью выполнять широкий спектр задач распознавания естественного языка и создания. GPT OpenAI, который управляет ChatGPT, является LLM.

К ключевым характеристикам и возможностям крупных языковых моделей относятся:

  • Масштаб: огромный масштаб с точки зрения количества параметров, используемых в архитектуре LLM, характерны для них. Модели, такие как GPT-3 (генерируемый предварительно обученный преобразователь 3), содержат от сотен миллионов до триллионов параметров, что позволяет им записывать сложные шаблоны на языке.
  • Предварительная подготовка: LLM проходят предварительную обучение на большом корпусе текстовых данных из Интернета, что позволяет им изучать грамматику, синтаксис, семантику и широкий спектр знаний о языке и мире.
  • Предварительная настройка. После предварительной подготовки модули LLM можно настроить для определенных задач или доменов с меньшими наборами данных для конкретных задач. Этот процесс тонкой настройки позволяет им адаптироваться к более специализированным задачам, таким как классификация текста, перевод, сводка и ответы на вопросы.

GPT

GPT означает создание предварительно обученного преобразователя, и он относится к серии крупных языковых моделей, разработанных OpenAI. Модели GPT — это нейронные сети, предварительно обученные на огромных объемах данных из Интернета, что делает их способными понять и создать человеческий текст.

Ниже приведен обзор основных моделей GPT и их ключевых характеристик:

GPT-3: выпущена в июне 2020 года, является хорошо известной моделью в серии GPT. Он имеет 175 миллиардов параметров, что делает его одним из крупнейших и самых мощных языковых моделей в существовании. GPT-3 достигла замечательной производительности на широком спектре задач распознавания естественного языка и создания. Он может выполнять такие задачи, как завершение текста, перевод, ответы на вопросы и многое другое с беглостью на уровне человека. GPT-3 делится на различные размеры модели, начиная от наименьших (125M параметров) до самых больших (175B параметров).

GPT-4: является последней моделью GPT из OpenAI, имеет 1,76 трлн параметров.

Векторы

Вектор — это математическая концепция, используемая в линейной алгебре и геометрии для представления значений, имеющих как величину, так и направление. В контексте машинного обучения векторы часто используются для представления точек данных или функций.

Ниже приведены некоторые ключевые атрибуты и операции вектора.

  • Величина: длина или размер вектора, часто обозначаемая как ее норма, представляет величину представленных данных. Это не отрицательное реальное число.
  • Направление: указывает ориентацию или угол количества, которое он представляет в отношении эталонной точки или системы координат.
  • Компоненты: вектор может быть разложен на его компоненты по разным осям или измерениям. В 2D-декартовой системе координат вектор может быть представлен как (x, y), где x и y являются его компонентами вдоль оси x и y соответственно. Вектор в n измерениях — это n-кортеж {x1, x2... xn}.
  • Добавление и скалярное умножение: векторы можно добавить вместе для формирования новых векторов, и их можно умножить на скалярные (реальные числа).
  • Dot Product and Cross Product: Vectors можно объединить с помощью dot products (скалярного продукта) и кросс-продуктов (векторного продукта).

Векторные базы данных

Векторная база данных, также известная как векторная система управления базами данных (СУБД), — это тип системы базы данных, предназначенной для хранения, управления ими и эффективного управления векторными данными. Традиционные реляционные базы данных в основном обрабатывают структурированные данные в таблицах, а векторные базы данных оптимизированы для хранения и извлечения многомерных точек данных, представленных в виде векторов. Эти базы данных полезны для приложений, где используются такие операции, как поиск сходства, геопространственные данные, системы рекомендаций и кластеризация.

Ниже приведены некоторые ключевые характеристики векторных баз данных:

  • Векторное хранилище: векторные базы данных хранят точки данных в виде векторов с несколькими измерениями. Каждое измерение представляет функцию или атрибут точки данных. Эти векторы могут представлять широкий спектр типов данных, включая числовые, категориальные и текстовые данные.
  • Эффективные операции вектора: базы данных векторов оптимизированы для выполнения векторных операций, таких как добавление вектора, вычитание, точки продуктов и вычисления сходства (например, косинусное сходство или расстояние Евклиды).
  • Эффективный поиск: эффективные механизмы индексирования имеют решающее значение для быстрого извлечения аналогичных векторов. Векторные базы данных используют различные механизмы индексирования для быстрого извлечения.
  • Языки запросов: они предоставляют языки запросов и API, адаптированные для операций векторных операций и поиска сходства. Эти языки запросов позволяют пользователям эффективно выражать свои критерии поиска.
  • Поиск сходства. Они выполняют поиск по сходству, позволяя пользователям находить точки данных, аналогичные заданной точке запроса. Эта характеристика ценна в системах поиска и рекомендаций.
  • Обработка геопространственных данных: некоторые векторные базы данных предназначены для геопространственных данных, что делает их хорошо подходящими для приложений, таких как службы на основе расположения, GIS (географические информационные системы) и задачи, связанные с картой.
  • Поддержка различных типов данных: векторные базы данных могут хранить и управлять различными типами данных, включая векторы, изображения, текст и многое другое.

PostgreSQL может получить возможности векторной базы данных с помощью pgvector расширения.

Внедрение

Внедрение — это концепция машинного обучения и обработки естественного языка (NLP), которая включает в себя представление объектов, таких как слова, документы или сущности, векторы в многомерном пространстве. Эти векторы часто являются плотными, что означает, что они имеют большое количество измерений, и они изучаются с помощью различных методов, включая нейронные сети. Внедрение стремится фиксировать семантические связи и сходство между объектами в непрерывном векторном пространстве.

Распространенные типы внедрения включают:

  • слово: В NLP внедренные слова представляют слова в виде векторов. Каждое слово сопоставляется с вектором в высокомерном пространстве, где слова с аналогичными значениями или контекстами находятся ближе друг к другу. Word2Vec и GloVe являются популярными методами внедрения слов.
  • документ: они представляют документы в виде векторов. Doc2Vec часто используется для создания внедрения документов.
  • изображение: изображения можно представить как внедренные элементы для записи визуальных функций, что позволяет выполнять такие задачи, как распознавание объектов.

Внедрение является центральным для представления сложных высокомерных данных в форме, легко обрабатываемых моделями машинного обучения. Они могут быть обучены на больших наборах данных, а затем использоваться в качестве функций для различных задач и используются LLM.

PostgreSQL может получить возможности создания векторных внедрения с помощью интеграции с расширением Azure AI OpenAI.

Сценарии

Сгенерированный ИИ имеет широкий спектр приложений в различных областях и отраслях, включая технологии, здравоохранение, развлечения, финансы, производство и многое другое. Ниже приведены некоторые распространенные задачи, которые можно выполнить с помощью генерированного ИИ:

  • Семантический поиск:
    • GenAI обеспечивает семантический поиск данных, а не лексикографический поиск. Последний ищет точные совпадения с запросами, в то время как семантический поиск находит содержимое, которое удовлетворяет намерению поискового запроса.
  • Чат-боты и Виртуальный помощник:
    • Разработка чат-ботов, которые могут участвовать в естественных беседах с учетом контекста, например для реализации самостоятельной помощи для клиентов.
  • Системы рекомендаций:
    • Улучшение алгоритмов рекомендаций путем создания внедренных элементов или представлений элементов или пользователей.
  • Кластеризация и сегментация:
    • Внедренные в genAI алгоритмы позволяют алгоритмам кластеризации кластеризации кластерировать данные, чтобы аналогичные данные группировались вместе. Это позволяет сценариям, таким как сегментация клиентов, что позволяет рекламодателям ориентироваться на своих клиентов по-разному на основе их атрибутов.
  • Создание содержимого:
    • Создание текста: создание человеческого текста для таких приложений, как чат-боты, создание романов и поэзии и распознавание естественного языка.
    • Создание изображений: создание реалистичных изображений, произведений искусства или конструкций для графики, развлечений и рекламы.
    • Создание видео: создание видео, анимации или эффектов видео для фильмов, игр и маркетинга.
    • Поколение музыки.
  • Перевод:
    • Переводят текст с одного языка на другой.
  • Уплотнения:
    • Сводка длинных статей или документов для извлечения ключевых сведений.
  • Расширение данных:
    • Создание дополнительных примеров данных для расширения и улучшения наборов данных обучения для моделей машинного обучения .
    • Создайте искусственные данные для сценариев, которые трудно или дорого собирать в реальном мире, например медицинскую визуализацию.
  • Обнаружение наркотиков:
    • Создание молекулярных структур и прогнозирование потенциальных кандидатов лекарств для фармацевтических исследований.
  • Разработка игр:
    • Создайте игровое содержимое, включая уровни, символы и текстуры.
    • Создайте реалистичные игровые среды и пейзажи.
  • Отмена обработки и завершения данных:
    • Очистка шумных данных путем создания чистых примеров данных.
    • Заполните отсутствующие или неполные данные в наборах данных.