Создание искусственного интеллекта с помощью База данных Azure для PostgreSQL — гибкий сервер
ОБЛАСТЬ ПРИМЕНЕНИЯ: База данных Azure для PostgreSQL — гибкий сервер
Генерируемый ИИ (GenAI) относится к классу алгоритмов искусственного интеллекта, которые могут учиться на существующем мультимедийном контенте и создавать новое содержимое. Созданный контент можно настроить с помощью таких методов, как запросы и настройка. Алгоритмы GenAI применяют определенные модели Машинное обучение:
- Преобразователи и периодические нейронные сети (RNN) для создания текста.
- Создание состязательных сетей (GAN) для создания образов.
- Вариантные автокодировщики (VAEs) для создания изображений и т. д.
GenAI используется в синтезе изображений и музыки, здравоохранении, распространенных задачах, таких как автозавершение текста, сводка текста и перевод. Методы GenAI позволяют использовать такие функции, как кластеризация и сегментация, семантический поиск и рекомендации, моделирование тем, ответы на вопросы и обнаружение аномалий.
OpenAI
OpenAI — это исследовательская организация искусственного интеллекта (ИИ) и технологическая компания, известная своей пионерской работой в области искусственного интеллекта и машинного обучения. Их миссия заключается в том, чтобы обеспечить искусственный общий интеллект (AGI), который относится к высокоавтономным системам ИИ, которые могут опережать людей в наиболее экономически ценной работе, приносит пользу всем человечеством. OpenAI принес на рынок современные модели создания, такие как GPT-3, GPT-3.5 и GPT-4 (генерированный предварительно обученный преобразователь).
Azure OpenAI — это служба LLM Azure, помогающая создавать приложения GenAI с помощью Azure. Служба Azure OpenAI предоставляет клиентам расширенный язык ИИ с помощью OpenAI GPT-4, GPT-3, Codex, DALL-E и моделей Whisper с безопасностью и корпоративным обещанием Azure. Azure OpenAI совместно разрабатывает API с OpenAI, обеспечивая совместимость и плавное переход с одного на другое.
С помощью Azure OpenAI клиенты получают возможности безопасности Microsoft Azure, выполняя те же модели, что и OpenAI. Azure OpenAI предлагает частные сети, региональную доступность и фильтрацию содержимого ИИ.
Подробнее об Azure OpenAI.
Большая языковая модель (LLM)
Большая языковая модель (LLM) — это тип модели ИИ, обученной на больших объемах текстовых данных для понимания и создания человеческого языка. LlMs обычно основаны на архитектуре глубокого обучения, таких как Преобразователи, и они известны своей способностью выполнять широкий спектр задач распознавания естественного языка и создания. GPT OpenAI, который управляет ChatGPT, является LLM.
К ключевым характеристикам и возможностям крупных языковых моделей относятся:
- Масштаб: огромный масштаб с точки зрения количества параметров, используемых в архитектуре LLM, характерны для них. Модели, такие как GPT-3 (генерируемый предварительно обученный преобразователь 3), содержат от сотен миллионов до триллионов параметров, что позволяет им записывать сложные шаблоны на языке.
- Предварительная подготовка: LLM проходят предварительную обучение на большом корпусе текстовых данных из Интернета, что позволяет им изучать грамматику, синтаксис, семантику и широкий спектр знаний о языке и мире.
- Предварительная настройка. После предварительной подготовки модули LLM можно настроить для определенных задач или доменов с меньшими наборами данных для конкретных задач. Этот процесс тонкой настройки позволяет им адаптироваться к более специализированным задачам, таким как классификация текста, перевод, сводка и ответы на вопросы.
GPT
GPT означает создание предварительно обученного преобразователя, и он относится к серии крупных языковых моделей, разработанных OpenAI. Модели GPT — это нейронные сети, предварительно обученные на огромных объемах данных из Интернета, что делает их способными понять и создать человеческий текст.
Ниже приведен обзор основных моделей GPT и их ключевых характеристик:
GPT-3: выпущена в июне 2020 года, является хорошо известной моделью в серии GPT. Он имеет 175 миллиардов параметров, что делает его одним из крупнейших и самых мощных языковых моделей в существовании. GPT-3 достигла замечательной производительности на широком спектре задач распознавания естественного языка и создания. Он может выполнять такие задачи, как завершение текста, перевод, ответы на вопросы и многое другое с беглостью на уровне человека. GPT-3 делится на различные размеры модели, начиная от наименьших (125M параметров) до самых больших (175B параметров).
GPT-4: является последней моделью GPT из OpenAI, имеет 1,76 трлн параметров.
Векторы
Вектор — это математическая концепция, используемая в линейной алгебре и геометрии для представления значений, имеющих как величину, так и направление. В контексте машинного обучения векторы часто используются для представления точек данных или функций.
Ниже приведены некоторые ключевые атрибуты и операции вектора.
- Величина: длина или размер вектора, часто обозначаемая как ее норма, представляет величину представленных данных. Это не отрицательное реальное число.
- Направление: указывает ориентацию или угол количества, которое он представляет в отношении эталонной точки или системы координат.
- Компоненты: вектор может быть разложен на его компоненты по разным осям или измерениям. В 2D-декартовой системе координат вектор может быть представлен как (x, y), где x и y являются его компонентами вдоль оси x и y соответственно. Вектор в n измерениях — это n-кортеж {x1, x2... xn}.
- Добавление и скалярное умножение: векторы можно добавить вместе для формирования новых векторов, и их можно умножить на скалярные (реальные числа).
- Dot Product and Cross Product: Vectors можно объединить с помощью dot products (скалярного продукта) и кросс-продуктов (векторного продукта).
Векторные базы данных
Векторная база данных, также известная как векторная система управления базами данных (СУБД), — это тип системы базы данных, предназначенной для хранения, управления ими и эффективного управления векторными данными. Традиционные реляционные базы данных в основном обрабатывают структурированные данные в таблицах, а векторные базы данных оптимизированы для хранения и извлечения многомерных точек данных, представленных в виде векторов. Эти базы данных полезны для приложений, где используются такие операции, как поиск сходства, геопространственные данные, системы рекомендаций и кластеризация.
Ниже приведены некоторые ключевые характеристики векторных баз данных:
- Векторное хранилище: векторные базы данных хранят точки данных в виде векторов с несколькими измерениями. Каждое измерение представляет функцию или атрибут точки данных. Эти векторы могут представлять широкий спектр типов данных, включая числовые, категориальные и текстовые данные.
- Эффективные операции вектора: базы данных векторов оптимизированы для выполнения векторных операций, таких как добавление вектора, вычитание, точки продуктов и вычисления сходства (например, косинусное сходство или расстояние Евклиды).
- Эффективный поиск: эффективные механизмы индексирования имеют решающее значение для быстрого извлечения аналогичных векторов. Векторные базы данных используют различные механизмы индексирования для быстрого извлечения.
- Языки запросов: они предоставляют языки запросов и API, адаптированные для операций векторных операций и поиска сходства. Эти языки запросов позволяют пользователям эффективно выражать свои критерии поиска.
- Поиск сходства. Они выполняют поиск по сходству, позволяя пользователям находить точки данных, аналогичные заданной точке запроса. Эта характеристика ценна в системах поиска и рекомендаций.
- Обработка геопространственных данных: некоторые векторные базы данных предназначены для геопространственных данных, что делает их хорошо подходящими для приложений, таких как службы на основе расположения, GIS (географические информационные системы) и задачи, связанные с картой.
- Поддержка различных типов данных: векторные базы данных могут хранить и управлять различными типами данных, включая векторы, изображения, текст и многое другое.
PostgreSQL может получить возможности векторной базы данных с помощью pgvector
расширения.
Внедрение
Внедрение — это концепция машинного обучения и обработки естественного языка (NLP), которая включает в себя представление объектов, таких как слова, документы или сущности, векторы в многомерном пространстве. Эти векторы часто являются плотными, что означает, что они имеют большое количество измерений, и они изучаются с помощью различных методов, включая нейронные сети. Внедрение стремится фиксировать семантические связи и сходство между объектами в непрерывном векторном пространстве.
Распространенные типы внедрения включают:
- слово: В NLP внедренные слова представляют слова в виде векторов. Каждое слово сопоставляется с вектором в высокомерном пространстве, где слова с аналогичными значениями или контекстами находятся ближе друг к другу.
Word2Vec
иGloVe
являются популярными методами внедрения слов. - документ: они представляют документы в виде векторов.
Doc2Vec
часто используется для создания внедрения документов. - изображение: изображения можно представить как внедренные элементы для записи визуальных функций, что позволяет выполнять такие задачи, как распознавание объектов.
Внедрение является центральным для представления сложных высокомерных данных в форме, легко обрабатываемых моделями машинного обучения. Они могут быть обучены на больших наборах данных, а затем использоваться в качестве функций для различных задач и используются LLM.
PostgreSQL может получить возможности создания векторных внедрения с помощью интеграции с расширением Azure AI OpenAI.
Сценарии
Сгенерированный ИИ имеет широкий спектр приложений в различных областях и отраслях, включая технологии, здравоохранение, развлечения, финансы, производство и многое другое. Ниже приведены некоторые распространенные задачи, которые можно выполнить с помощью генерированного ИИ:
- Семантический поиск:
- GenAI обеспечивает семантический поиск данных, а не лексикографический поиск. Последний ищет точные совпадения с запросами, в то время как семантический поиск находит содержимое, которое удовлетворяет намерению поискового запроса.
- Чат-боты и Виртуальный помощник:
- Разработка чат-ботов, которые могут участвовать в естественных беседах с учетом контекста, например для реализации самостоятельной помощи для клиентов.
- Системы рекомендаций:
- Улучшение алгоритмов рекомендаций путем создания внедренных элементов или представлений элементов или пользователей.
- Кластеризация и сегментация:
- Внедренные в genAI алгоритмы позволяют алгоритмам кластеризации кластеризации кластерировать данные, чтобы аналогичные данные группировались вместе. Это позволяет сценариям, таким как сегментация клиентов, что позволяет рекламодателям ориентироваться на своих клиентов по-разному на основе их атрибутов.
- Создание содержимого:
- Создание текста: создание человеческого текста для таких приложений, как чат-боты, создание романов и поэзии и распознавание естественного языка.
- Создание изображений: создание реалистичных изображений, произведений искусства или конструкций для графики, развлечений и рекламы.
- Создание видео: создание видео, анимации или эффектов видео для фильмов, игр и маркетинга.
- Поколение музыки.
- Перевод:
- Переводят текст с одного языка на другой.
- Уплотнения:
- Сводка длинных статей или документов для извлечения ключевых сведений.
- Расширение данных:
- Создание дополнительных примеров данных для расширения и улучшения наборов данных обучения для моделей машинного обучения .
- Создайте искусственные данные для сценариев, которые трудно или дорого собирать в реальном мире, например медицинскую визуализацию.
- Обнаружение наркотиков:
- Создание молекулярных структур и прогнозирование потенциальных кандидатов лекарств для фармацевтических исследований.
- Разработка игр:
- Создайте игровое содержимое, включая уровни, символы и текстуры.
- Создайте реалистичные игровые среды и пейзажи.
- Отмена обработки и завершения данных:
- Очистка шумных данных путем создания чистых примеров данных.
- Заполните отсутствующие или неполные данные в наборах данных.
Связанный контент
- Интеграция База данных Azure для PostgreSQL — гибкий сервер с Azure Cognitive Services.
- Создайте векторные внедрения в База данных Azure для PostgreSQL — гибкий сервер с локальным развертыванием LLM (предварительная версия).
- Интеграция База данных Azure для PostgreSQL с службами Машинное обучение Azure.
- Создание векторных внедрения с помощью Azure OpenAI в База данных Azure для PostgreSQL — гибкий сервер.
- Расширение ИИ Azure в База данных Azure для PostgreSQL — гибкий сервер.
- Система рекомендаций с База данных Azure для PostgreSQL — гибкий сервер и Azure OpenAI.
- Семантический поиск с помощью База данных Azure для PostgreSQL — гибкий сервер и Azure OpenAI.
- Включите и используйте pgvector в База данных Azure для PostgreSQL — гибкий сервер.