Создание искусственного интеллекта с помощью База данных Azure для PostgreSQL — гибкий сервер

Статья
08/15/2024

ОБЛАСТЬ ПРИМЕНЕНИЯ: База данных Azure для PostgreSQL — гибкий сервер

Генерируемый ИИ (GenAI) относится к классу алгоритмов искусственного интеллекта, которые могут учиться на существующем мультимедийном контенте и создавать новое содержимое. Созданный контент можно настроить с помощью таких методов, как запросы и настройка. Алгоритмы GenAI применяют определенные модели Машинное обучение:

Преобразователи и периодические нейронные сети (RNN) для создания текста.
Создание состязательных сетей (GAN) для создания образов.
Вариантные автокодировщики (VAEs) для создания изображений и т. д.

GenAI используется в синтезе изображений и музыки, здравоохранении, распространенных задачах, таких как автозавершение текста, сводка текста и перевод. Методы GenAI позволяют использовать такие функции, как кластеризация и сегментация, семантический поиск и рекомендации, моделирование тем, ответы на вопросы и обнаружение аномалий.

OpenAI

OpenAI — это исследовательская организация искусственного интеллекта (ИИ) и технологическая компания, известная своей пионерской работой в области искусственного интеллекта и машинного обучения. Их миссия заключается в том, чтобы обеспечить искусственный общий интеллект (AGI), который относится к высокоавтономным системам ИИ, которые могут опережать людей в наиболее экономически ценной работе, приносит пользу всем человечеством. OpenAI принес на рынок современные модели создания, такие как GPT-3, GPT-3.5 и GPT-4 (генерированный предварительно обученный преобразователь).

Azure OpenAI — это служба LLM Azure, помогающая создавать приложения GenAI с помощью Azure. Служба Azure OpenAI предоставляет клиентам расширенный язык ИИ с помощью OpenAI GPT-4, GPT-3, Codex, DALL-E и моделей Whisper с безопасностью и корпоративным обещанием Azure. Azure OpenAI совместно разрабатывает API с OpenAI, обеспечивая совместимость и плавное переход с одного на другое.

С помощью Azure OpenAI клиенты получают возможности безопасности Microsoft Azure, выполняя те же модели, что и OpenAI. Azure OpenAI предлагает частные сети, региональную доступность и фильтрацию содержимого ИИ.

Подробнее об Azure OpenAI.

Большая языковая модель (LLM)

Большая языковая модель (LLM) — это тип модели ИИ, обученной на больших объемах текстовых данных для понимания и создания человеческого языка. LlMs обычно основаны на архитектуре глубокого обучения, таких как Преобразователи, и они известны своей способностью выполнять широкий спектр задач распознавания естественного языка и создания. GPT OpenAI, который управляет ChatGPT, является LLM.

К ключевым характеристикам и возможностям крупных языковых моделей относятся:

Масштаб: огромный масштаб с точки зрения количества параметров, используемых в архитектуре LLM, характерны для них. Модели, такие как GPT-3 (генерируемый предварительно обученный преобразователь 3), содержат от сотен миллионов до триллионов параметров, что позволяет им записывать сложные шаблоны на языке.
Предварительная подготовка: LLM проходят предварительную обучение на большом корпусе текстовых данных из Интернета, что позволяет им изучать грамматику, синтаксис, семантику и широкий спектр знаний о языке и мире.
Предварительная настройка. После предварительной подготовки модули LLM можно настроить для определенных задач или доменов с меньшими наборами данных для конкретных задач. Этот процесс тонкой настройки позволяет им адаптироваться к более специализированным задачам, таким как классификация текста, перевод, сводка и ответы на вопросы.

GPT

GPT означает создание предварительно обученного преобразователя, и он относится к серии крупных языковых моделей, разработанных OpenAI. Модели GPT — это нейронные сети, предварительно обученные на огромных объемах данных из Интернета, что делает их способными понять и создать человеческий текст.

Ниже приведен обзор основных моделей GPT и их ключевых характеристик:

GPT-3: выпущена в июне 2020 года, является хорошо известной моделью в серии GPT. Он имеет 175 миллиардов параметров, что делает его одним из крупнейших и самых мощных языковых моделей в существовании. GPT-3 достигла замечательной производительности на широком спектре задач распознавания естественного языка и создания. Он может выполнять такие задачи, как завершение текста, перевод, ответы на вопросы и многое другое с беглостью на уровне человека. GPT-3 делится на различные размеры модели, начиная от наименьших (125M параметров) до самых больших (175B параметров).

GPT-4: является последней моделью GPT из OpenAI, имеет 1,76 трлн параметров.

Векторы

Вектор — это математическая концепция, используемая в линейной алгебре и геометрии для представления значений, имеющих как величину, так и направление. В контексте машинного обучения векторы часто используются для представления точек данных или функций.

Ниже приведены некоторые ключевые атрибуты и операции вектора.

Величина: длина или размер вектора, часто обозначаемая как ее норма, представляет величину представленных данных. Это не отрицательное реальное число.
Направление: указывает ориентацию или угол количества, которое он представляет в отношении эталонной точки или системы координат.
Компоненты: вектор может быть разложен на его компоненты по разным осям или измерениям. В 2D-декартовой системе координат вектор может быть представлен как (x, y), где x и y являются его компонентами вдоль оси x и y соответственно. Вектор в n измерениях — это n-кортеж {x1, x2... xn}.
Добавление и скалярное умножение: векторы можно добавить вместе для формирования новых векторов, и их можно умножить на скалярные (реальные числа).
Dot Product and Cross Product: Vectors можно объединить с помощью dot products (скалярного продукта) и кросс-продуктов (векторного продукта).

Векторные базы данных

Векторная база данных, также известная как векторная система управления базами данных (СУБД), — это тип системы базы данных, предназначенной для хранения, управления ими и эффективного управления векторными данными. Традиционные реляционные базы данных в основном обрабатывают структурированные данные в таблицах, а векторные базы данных оптимизированы для хранения и извлечения многомерных точек данных, представленных в виде векторов. Эти базы данных полезны для приложений, где используются такие операции, как поиск сходства, геопространственные данные, системы рекомендаций и кластеризация.

Ниже приведены некоторые ключевые характеристики векторных баз данных:

Векторное хранилище: векторные базы данных хранят точки данных в виде векторов с несколькими измерениями. Каждое измерение представляет функцию или атрибут точки данных. Эти векторы могут представлять широкий спектр типов данных, включая числовые, категориальные и текстовые данные.
Эффективные операции вектора: базы данных векторов оптимизированы для выполнения векторных операций, таких как добавление вектора, вычитание, точки продуктов и вычисления сходства (например, косинусное сходство или расстояние Евклиды).
Эффективный поиск: эффективные механизмы индексирования имеют решающее значение для быстрого извлечения аналогичных векторов. Векторные базы данных используют различные механизмы индексирования для быстрого извлечения.
Языки запросов: они предоставляют языки запросов и API, адаптированные для операций векторных операций и поиска сходства. Эти языки запросов позволяют пользователям эффективно выражать свои критерии поиска.
Поиск сходства. Они выполняют поиск по сходству, позволяя пользователям находить точки данных, аналогичные заданной точке запроса. Эта характеристика ценна в системах поиска и рекомендаций.
Обработка геопространственных данных: некоторые векторные базы данных предназначены для геопространственных данных, что делает их хорошо подходящими для приложений, таких как службы на основе расположения, GIS (географические информационные системы) и задачи, связанные с картой.
Поддержка различных типов данных: векторные базы данных могут хранить и управлять различными типами данных, включая векторы, изображения, текст и многое другое.

PostgreSQL может получить возможности векторной базы данных с помощью pgvector расширения.

Внедрение

Внедрение — это концепция машинного обучения и обработки естественного языка (NLP), которая включает в себя представление объектов, таких как слова, документы или сущности, векторы в многомерном пространстве. Эти векторы часто являются плотными, что означает, что они имеют большое количество измерений, и они изучаются с помощью различных методов, включая нейронные сети. Внедрение стремится фиксировать семантические связи и сходство между объектами в непрерывном векторном пространстве.

Распространенные типы внедрения включают:

слово: В NLP внедренные слова представляют слова в виде векторов. Каждое слово сопоставляется с вектором в высокомерном пространстве, где слова с аналогичными значениями или контекстами находятся ближе друг к другу. Word2Vec и GloVe являются популярными методами внедрения слов.
документ: они представляют документы в виде векторов. Doc2Vec часто используется для создания внедрения документов.
изображение: изображения можно представить как внедренные элементы для записи визуальных функций, что позволяет выполнять такие задачи, как распознавание объектов.

Внедрение является центральным для представления сложных высокомерных данных в форме, легко обрабатываемых моделями машинного обучения. Они могут быть обучены на больших наборах данных, а затем использоваться в качестве функций для различных задач и используются LLM.

PostgreSQL может получить возможности создания векторных внедрения с помощью интеграции с расширением Azure AI OpenAI.

Сценарии

Сгенерированный ИИ имеет широкий спектр приложений в различных областях и отраслях, включая технологии, здравоохранение, развлечения, финансы, производство и многое другое. Ниже приведены некоторые распространенные задачи, которые можно выполнить с помощью генерированного ИИ:

Семантический поиск:
- GenAI обеспечивает семантический поиск данных, а не лексикографический поиск. Последний ищет точные совпадения с запросами, в то время как семантический поиск находит содержимое, которое удовлетворяет намерению поискового запроса.
Чат-боты и Виртуальный помощник:
- Разработка чат-ботов, которые могут участвовать в естественных беседах с учетом контекста, например для реализации самостоятельной помощи для клиентов.
Системы рекомендаций:
- Улучшение алгоритмов рекомендаций путем создания внедренных элементов или представлений элементов или пользователей.
Кластеризация и сегментация:
- Внедренные в genAI алгоритмы позволяют алгоритмам кластеризации кластеризации кластерировать данные, чтобы аналогичные данные группировались вместе. Это позволяет сценариям, таким как сегментация клиентов, что позволяет рекламодателям ориентироваться на своих клиентов по-разному на основе их атрибутов.
Создание содержимого:
- Создание текста: создание человеческого текста для таких приложений, как чат-боты, создание романов и поэзии и распознавание естественного языка.
- Создание изображений: создание реалистичных изображений, произведений искусства или конструкций для графики, развлечений и рекламы.
- Создание видео: создание видео, анимации или эффектов видео для фильмов, игр и маркетинга.
- Поколение музыки.
Перевод:
- Переводят текст с одного языка на другой.
Уплотнения:
- Сводка длинных статей или документов для извлечения ключевых сведений.
Расширение данных:
- Создание дополнительных примеров данных для расширения и улучшения наборов данных обучения для моделей машинного обучения .
- Создайте искусственные данные для сценариев, которые трудно или дорого собирать в реальном мире, например медицинскую визуализацию.
Обнаружение наркотиков:
- Создание молекулярных структур и прогнозирование потенциальных кандидатов лекарств для фармацевтических исследований.
Разработка игр:
- Создайте игровое содержимое, включая уровни, символы и текстуры.
- Создайте реалистичные игровые среды и пейзажи.
Отмена обработки и завершения данных:
- Очистка шумных данных путем создания чистых примеров данных.
- Заполните отсутствующие или неполные данные в наборах данных.

Поделиться через

Создание искусственного интеллекта с помощью База данных Azure для PostgreSQL — гибкий сервер

OpenAI

Большая языковая модель (LLM)

GPT

Векторы

Векторные базы данных

Внедрение

Сценарии

Обратная связь

Дополнительные ресурсы

Поделиться через

Создание искусственного интеллекта с помощью База данных Azure для PostgreSQL — гибкий сервер

OpenAI

Большая языковая модель (LLM)

GPT

Векторы

Векторные базы данных

Внедрение

Сценарии

Связанный контент

Обратная связь

Дополнительные ресурсы