具有適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器的生成式 AI
適用於: 適用於 PostgreSQL 的 Azure 資料庫 - 彈性伺服器
生成式 AI (GenAI) 指的是一種人工智慧演算法類別,可從現有的多媒體內容學習並產生新內容。 產生的內容可以使用提示和微調這類技術進行自訂。 GenAI 演算法會套用特定的機器學習模型:
- 用於產生文字的轉換器和遞歸神經網路 (RNN)。
- 用於產生影像的生成式對抗網路 (GAN)。
- 用於產生影像等的變分自動編碼器 (VAE)。
GenAI 用於影像和音樂合成、醫療保健,以及文字自動完成、文字摘要和翻譯這類常見工作。 GenAI 技術可啟用資料的功能,例如叢集和分割、語意搜尋和建議、主題模型化、問答和異常偵測。
OpenAI
OpenAI 是一家人工智慧 (AI) 研究組織和科技公司,以其在人工智慧和機器學習領域的開拓性工作而聞名。 其使命是確保人工智慧 (AGI) (指的是可透過最具經濟價值的工作超越人類的高度自主 AI 系統) 有利於所有人類。 OpenAI 帶來最先進的生成式模型,例如 GPT-3、GPT-3.5 和 GPT-4 (生成式預先訓練轉換器)。
Azure OpenAI 是 Azure 的 LLM 服務供應項目,可協助使用 Azure 來建置 GenAI 應用程式。 Azure OpenAI 服務可為客戶提供具有 OpenAI GPT-4、GPT-3、Codex、DALL-E 和 Whisper 模型的進階語言 AI,並享有 Azure 的安全性和企業承諾。 Azure OpenAI 會使用 OpenAI 共同開發 API,以確保相容性,並且能夠兩個 API 之間順暢轉換。
透過 Azure OpenAI,客戶可享有 Microsoft Azure 的安全性功能,同時執行與 OpenAI 相同的模型。 Azure OpenAI 提供私人網路、區域可用性,以及負責任 AI 內容篩選。
深入了解 Azure OpenAI。
大型語言模型 (LLM)
大型語言模型 (LLM) 是一種以大量文字資料進行訓練的 AI 模型類型,可瞭解並產生類似人類的語言。 LLM 通常是以深度學習架構為基礎 (例如 Transformers),並且以其執行各種自然語言理解和產生工作的能力而聞名。 OpenAI 的 GPT (支援 ChatGPT) 是一種 LLM。
大型語言模型的主要特性和功能包括:
- 規模:LLM 架構中使用的參數數量龐大是其特性。 GPT-3 (生成式預先訓練轉換器 3) 這類模型包含數億到數萬億個參數,讓其可以擷取語言中的複雜模式。
- 預先訓練:LLM 會利用網際網路大量文字資料進行預先訓練,讓其可以學習文法、語法、語意,以及廣泛的語言和世界知識。
- 微調:預先訓練之後,可以根據具有較小工作特定資料集的特定工作或網域來微調 LLM。 此微調程序可讓它們適應更特殊的工作,例如文字分類、翻譯、摘要和問答。
GPT
GPT 代表「生成式預先訓練轉換器 (Generative Pretrained Transformer)」,指的是 OpenAI 所開發的一系列大型語言模型。 GPT 模型是利用網際網路大量資料所預先訓練的神經網路,讓其可以瞭解和產生類似人類文字的文字。
以下是主要 GPT 模型和其主要特性的概觀:
GPT-3:在 2020 年 6 月發行,是 GPT 系列中著名的模型。 其有 1750 億個參數,使其成為目前規模最大且最強大的語言模型之一。 GPT-3 在廣泛的自然語言瞭解和產生工作中取得顯著的表現。 其可以透過人類層級流暢度來執行文字完成、翻譯、問答等這類工作。 GPT-3 分為各種模型大小,範圍從最小 (125M 參數) 到最大 (175B 參數)。
GPT-4:是 OpenAI 的最新 GPT 模型,具有 1.76 兆個參數。
向量
向量是一種用於線性代數和幾何的數學概念,代表同時具有大小和方向的數量。 在機器學習的內容中,向量通常用來代表資料點或特性。
以下是一些重要的向量屬性和作業:
- 大小:向量的長度或大小 (通常以其範數表示) 代表其所代表資料的大小。 這是非負數實數。
- 方向:指出其相對於參考點或座標系統所代表的數量方向或角度。
- 元件:向量可以分解成其具有不同軸或維度的元件。 在 2D 笛卡兒座標系統中,向量可以分別呈現為 (x, y),其中 x 和 y 是其 x 軸和 y 軸的元件。 n 維度中的向量是 n Tuple {x1, x2… xn}。
- 加法和純量乘法:向量可以加在一起以形成新的向量,而且可以乘上純量 (實數)。
- 點乘積和交叉乘積:向量可以使用點乘積 (純量乘積) 和交叉乘積 (向量乘積) 予以合併。
向量資料庫
向量資料庫也稱為向量資料庫管理系統 (DBMS),是一種資料庫系統,其設計目的是有效率地儲存、管理和查詢向量資料。 傳統關聯式資料庫主要處理資料表中的結構化資料,而向量資料庫則針對以向量呈現的多維度資料點儲存和擷取最佳化。 這些資料庫適用於涉及相似度搜尋、地理空間資料、建議系統和叢集這類作業的應用程式。
以下是向量資料庫的一些重要特性:
- 向量儲存:向量資料庫會將資料點儲存為具有多個維度的向量。 每個維度都代表資料點的功能或屬性。 這些向量可以代表各種不同的資料類型,包括數值、類別和文字資料。
- 有效率的向量運算:向量資料庫已針對執行向量運算進行最佳化,例如向量加法、減法、點乘積和相似度計算 (例如,餘弦相似度或歐幾里德距離)。
- 有效率的搜尋:有效率的編製索引機制對於快速擷取類似的向量至關重要。 向量資料庫使用各種編製索引機制來啟用快速擷取。
- 查詢語言:其提供針對向量運算和相似性搜尋量量身打造的查詢語言和 API。 這些查詢語言可讓使用者有效率地表達其搜尋準則。
- 相似度搜尋:其擅長相似度搜尋,允許使用者尋找與給定查詢點類似的資料點。 在搜尋和建議系統中,此特性深具價值。
- 地理空間資料處理:某些向量資料庫是針對地理空間資料所設計,因此非常適合位置型服務、GIS (地理資訊系統) 和地圖相關工作這類應用程式。
- 支援不同的資料類型:向量資料庫可以儲存和管理各種類型的資料,包括向量、影像、文字等。
PostgreSQL 可以透過 pgvector
延伸模組的協助來取得向量資料庫的功能。
Embeddings
內嵌是機器學習和自然語言處理 (NLP) 的概念,其涉及在多維度空間中將字組、文件或實體這類物件呈現為向量。 這些向量通常十分密集,這表示其具有大量的維度,而且會透過各種技術來進行學習,包括神經網路。 內嵌旨在擷取連續向量空間中物件之間的語意關聯性和相似性。
常見的內嵌類型包括:
- 字組:在 NLP 中,字組內嵌會將字組呈現為向量。 每個字組都會對應至高維度空間中的向量,其中具有類似意義或內容的字組會彼此接近。
Word2Vec
和GloVe
是熱門的字組內嵌技術。 - 文件:這些會將文件呈現為向量。
Doc2Vec
通常用來建立文件內嵌。 - 影像:影像可以呈現為內嵌來擷取視覺效果功能,以允許物件辨識這類工作。
內嵌是以機器學習模型可輕鬆處理的表單來代表複雜、高維度資料的核心。 其可以根據大型資料集進行訓練,然後用作各種工作的功能,並供 LLM 使用。
PostgreSQL 可以使用 Azure AI 延伸模組 OpenAI 整合來取得產生向量內嵌的功能。
案例
生成式 AI 在各種領域和產業都有各種不同的應用程式,包括科技、醫療保健、娛樂、金融、製造等。 以下是一些可使用生成式 AI 完成的常見工作:
- 語意搜尋:
- GenAI 可以對資料啟用語意搜尋,而不是語彙搜尋。 後者會尋找與查詢完全相同的相符項目,而語意搜尋會尋找滿足搜尋查詢意圖的內容。
- 聊天機器人和虛擬助理:
- 開發可參與自然內容感知對話的聊天機器人,例如,實作客戶的自助。
- 建議系統:
- 產生項目或使用者的內嵌或表示,以改善建議演算法。
- 叢集和分割:
- GenAI 產生的內嵌允許叢集演算法來叢集資料,以將類似的資料群組在一起。 這會啟用客戶分割這類案例,讓廣告客戶根據其屬性以不同的方式鎖定客戶。
- 內容產生:
- 文字產生:針對聊天機器人、小說/詩歌創作和自然語言理解這類應用程式產生類似人類文字的文字。
- 影像產生:針對圖形、娛樂和廣告建立逼真的影像、藝術品或設計。
- 影片產生:針對電影、遊戲和行銷產生影片、動畫或視訊效果。
- 音樂產生。
- 翻譯:
- 將文字從一種語言翻譯成其他語言。
- 摘要:
- 摘要說明要擷取重要資訊的長篇文章或文件。
- 資料增強:
- 產生額外的資料範例,以擴充和改善機器學習 (ML) 模型的訓練資料集。
- 針對在真實世界中難以收集或成本昂貴的案例建立綜合資料,例如醫學影像。
- 藥物探索:
- 產生分子結構,並預測藥物研究的潛在藥物候選項目。
- 遊戲開發:
- 建立遊戲內容,包括關卡、角色和構造。
- 產生真實遊戲內環境和景觀。
- 資料去雜訊和完成:
- 產生乾淨的資料範例來清除雜訊資料。
- 在資料集中填入遺漏或不完整的資料。
下一步
請造訪下列文章,了解如何使用適用於 PostgreSQL 的 Azure 資料庫彈性伺服器和 Azure OpenAI 來執行語意搜尋,以及如何利用 Azure 認知服務的強大功能來分析情感、偵測語言、擷取關鍵詞組,以及您可以對文字套用的更多進階作業。