Sdílet prostřednictvím


Generování umělé inteligence s flexibilním serverem Azure Database for PostgreSQL

PLATÍ PRO: Flexibilní server Azure Database for PostgreSQL

Generative AI (GenAI) odkazuje na třídu algoritmů umělé inteligence, které se mohou učit z existujícího multimediálního obsahu a vytvářet nový obsah. Vytvořený obsah lze přizpůsobit pomocí technik, jako jsou výzvy a jemné ladění. Algoritmy GenAI používají konkrétní modely strojového učení:

  • Transformátory a rekurentní neurální sítě (RNN) pro generování textu
  • Generování nežádoucích sítí (GAN) pro generování imagí
  • Variační automatické kódy (VAE) pro generování imagí atd.

GenAI se používá v syntéze obrázků a hudby, zdravotnictví, běžné úkoly, jako je automatické dokončování textu, shrnutí textu a překlad. Techniky GenAI umožňují funkce pro data, jako jsou clustering a segmentace, sémantické vyhledávání a doporučení, modelování témat, zodpovězení otázek a detekce anomálií.

OpenAI

OpenAI je výzkumná organizace a technologická společnost umělé inteligence (AI), která je známá pro svou průkopnickou práci v oblasti umělé inteligence a strojového učení. Jejich posláním je zajistit, aby umělá všeobecná inteligence (AGI), která se týká vysoce autonomních systémů umělé inteligence, které mohou předvést lidské výkony v nejekonomičtější práci, přináší všem lidstvu výhody. OpenAI přinesl na trh nejmodernější generační modely, jako jsou GPT-3, GPT-3.5 a GPT-4 (Generative Pretrained Transformer).

Azure OpenAI je nabídka služby LLM Azure, která pomáhá vytvářet aplikace GenAI pomocí Azure. Služba Azure OpenAI poskytuje zákazníkům pokročilou jazykovou AI s modely OpenAI GPT-4, GPT-3, Codex, DALL-E a Whisper s využitím zabezpečení a podnikového příslibu Azure. Azure OpenAI společně vyvíjí rozhraní API s OpenAI a zajišťuje kompatibilitu a hladký přechod z jednoho na druhý.

Zákazníci s Azure OpenAI získají možnosti zabezpečení Microsoft Azure a zároveň spouštět stejné modely jako OpenAI. Azure OpenAI nabízí privátní sítě, regionální dostupnost a zodpovědné filtrování obsahu AI.

Přečtěte si další informace o Azure OpenAI.

Rozsáhlý jazykový model (LLM)

LlM (Large Language Model) je typ modelu AI natrénovaný na obrovské objemy textových dat, aby porozuměl a vygeneroval jazyk podobný člověku. LLM jsou obvykle založeny na architekturách hlubokého učení, jako jsou Transformátory, a jsou známé pro jejich schopnost provádět širokou škálu úloh porozumění přirozenému jazyku a generování. OpenAI GPT, která využívá ChatGPT, je LLM.

Mezi klíčové charakteristiky a možnosti velkých jazykových modelů patří:

  • Měřítko: Obrovský rozsah z hlediska počtu parametrů používaných v architektuře LLM je pro ně charakteristický. Modely jako GPT-3 (Generative Pretrained Transformer 3) obsahují stovky milionů až bilióny parametrů, které jim umožňují zachytit složité vzory v jazyce.
  • Předtrénování: LLM procházejí předtrénováním velkého korpusu textových dat z internetu, což jim umožňuje učit se gramatiku, syntaxi, sémantiku a širokou škálu znalostí o jazyce a světě.
  • Jemné ladění: Po předtrénování je možné llmy jemně doladit na konkrétní úkoly nebo domény s menšími datovými sadami specifickými pro jednotlivé úkoly. Tento proces vyladění umožňuje přizpůsobit se specializovanějším úkolům, jako je klasifikace textu, překlad, shrnutí a odpovědi na otázky.

GPT

GPT je zkratka pro Generative Pretrained Transformer a odkazuje na řadu velkých jazykových modelů vyvinutých aplikací OpenAI. Modely GPT jsou neurální sítě předem natrénované na obrovských objemech dat z internetu, což jim umožňuje porozumět a generovat text podobný člověku.

Tady je přehled hlavních modelů GPT a jejich klíčových charakteristik:

GPT-3: Vydáno v červnu 2020 je známý model v řadě GPT. Má 175 miliard parametrů, takže je jedním z největších a nejvýkonnějších jazykových modelů, které existují. GPT-3 dosáhl pozoruhodného výkonu na široké škále úloh porozumění přirozeného jazyka a generování. Může provádět úkoly, jako je dokončování textu, překlad, odpovídání na otázky a další s plynulostí na úrovni člověka. GPT-3 je rozdělený do různých velikostí modelů v rozsahu od nejmenších (125M parametrů) po největší (175B parametry).

GPT-4: Je nejnovější model GPT z OpenAI, má 1,76 miliard parametrů.

Vektory

Vektor je matematický koncept používaný v lineární algebrě a geometrii k reprezentaci množství, která mají velikost i směr. V kontextu strojového učení se vektory často používají k reprezentaci datových bodů nebo funkcí.

Následuje několik klíčových vektorových atributů a operací:

  • Velikost: Délka nebo velikost vektoru, často označená jako jeho norma, představuje velikost dat, která představuje. Jedná se o nezáporné reálné číslo.
  • Směr: Označuje orientaci nebo úhel množství, které představuje ve vztahu k referenčnímu bodu nebo souřadnicovému systému.
  • Komponenty: Vektor lze rozdělit do jejích složek podél různých os nebo rozměrů. V 2D kartézském souřadnicovém systému může být vektor reprezentován jako (x, y), kde x a y jsou jeho komponenty podél osy x a osy y. Vektor v n dimenzích je n-řazená kolekce členů {x1, x2... xn}.
  • Sčítání a skalární násobení: Vektory se dají sečíst dohromady, aby vytvořily nové vektory, a lze je vynásobit skaláry (reálná čísla).
  • Dot Product a Cross Product: Vektory lze kombinovat pomocí tečkových produktů (skalární produkt) a křížových produktů (vektorový součin).

Vektorové databáze

Vektorová databáze, označovaná také jako systém pro správu vektorových databází (DBMS), je typ databázového systému navrženého k efektivnímu ukládání, správě a dotazování vektorových dat. Tradiční relační databáze primárně zpracovávají strukturovaná data v tabulkách, zatímco vektorové databáze jsou optimalizované pro ukládání a načítání multidimenzionálních datových bodů reprezentovaných jako vektory. Tyto databáze jsou užitečné pro aplikace, kde jsou zapojeny operace, jako jsou vyhledávání podobnosti, geoprostorová data, systémy doporučení a clustering.

Toto jsou některé klíčové charakteristiky vektorových databází:

  • Vector Storage: Vektorové databáze ukládají datové body jako vektory s více dimenzemi. Každá dimenze představuje funkci nebo atribut datového bodu. Tyto vektory mohou představovat širokou škálu datových typů, včetně číselných, kategorických a textových dat.
  • Efektivní vektorové operace: Vektorové databáze jsou optimalizované pro provádění vektorových operací, jako je sčítání vektorů, odčítání, tečkované produkty a výpočty podobnosti (například kosinusová podobnost nebo euklidová vzdálenost).
  • Efektivní vyhledávání: Efektivní mechanismy indexování jsou zásadní pro rychlé načítání podobných vektorů. Vektorové databáze používají různé mechanismy indexování, které umožňují rychlé načítání.
  • Dotazovací jazyky: Poskytují dotazovací jazyky a rozhraní API přizpůsobená pro vektorové operace a vyhledávání podobnosti. Tyto dotazovací jazyky umožňují uživatelům efektivně vyjádřit kritéria hledání.
  • Vyhledávání podobnosti: Excelují při hledání podobnosti a umožňují uživatelům najít datové body podobné danému bodu dotazu. Tato charakteristika je cenná v systémech vyhledávání a doporučení.
  • Geoprostorové zpracování dat: Některé vektorové databáze jsou navržené pro geoprostorová data, takže jsou vhodné pro aplikace, jako jsou služby založené na poloze, GIS (geografické informační systémy) a úlohy související s mapováním.
  • Podpora různých datových typů: Vektorové databáze mohou ukládat a spravovat různé typy dat, včetně vektorů, obrázků, textu a dalších.

PostgreSQL může získat možnosti vektorové databáze pomocí pgvector rozšíření.

Vkládání

Vkládání je koncept strojového učení a zpracování přirozeného jazyka (NLP), které zahrnuje reprezentaci objektů, jako jsou slova, dokumenty nebo entity, jako jsou vektory v multidimenzionálním prostoru. Tyto vektory jsou často zhuštěné, což znamená, že mají velký počet dimenzí a učí se různými technikami, včetně neurálních sítí. Vkládání se zaměřuje na zachycení sémantických vztahů a podobností mezi objekty v souvislém vektorovém prostoru.

Mezi běžné typy vkládání patří:

  • word: V NLP představují vkládání slov slova jako vektory. Každé slovo je mapováno na vektor ve vysokodimenzionálním prostoru, kde se slova s podobnými významy nebo kontexty nacházejí blíže k sobě. Word2Vec a GloVe jsou oblíbené techniky vkládání slov.
  • document: Tyto dokumenty představují jako vektory. Doc2Vec se často používá k vytváření vkládání dokumentů.
  • obrázek: Obrázky se dají reprezentovat jako vložené prvky pro zachycení vizuálních funkcí, což umožňuje úlohy, jako je rozpoznávání objektů.

Vkládání je centrální pro reprezentaci složitých a vysoce dimenzionálních dat ve formuláři, které lze snadno zpracovat pomocí modelů strojového učení. Dají se vytrénovat na velkých datových sadách a pak je používat jako funkce pro různé úlohy a používají je LLM.

PostgreSQL může získat možnosti generování vektorových vkládání pomocí integrace OpenAI rozšíření Azure AI.

Scénáře

Generativní AI má širokou škálu aplikací v různých oblastech a odvětvích, včetně technologií, zdravotnictví, zábavy, financí, výroby a dalších. Tady je několik běžných úloh, které je možné provést pomocí generující umělé inteligence:

  • Sémantické vyhledávání:
    • GenAI umožňuje sémantické vyhledávání dat místo lexicografického vyhledávání. Ten hledá přesnou shodu s dotazy, zatímco sémantické vyhledávání najde obsah, který vyhovuje záměru vyhledávacího dotazu.
  • Chatovací roboti a virtuální asistenti:
    • Vyvíjejte chatovací roboty, které se můžou zapojit do přirozených konverzací s kontextem, například k implementaci samoobslužné podpory pro zákazníky.
  • Systémy doporučení:
    • Vylepšete algoritmy doporučení generováním vkládání nebo reprezentací položek nebo uživatelů.
  • Clustering a segmentace:
    • Vložené funkce generované GenAI umožňují clusteringovým algoritmům clusteringu clusterovat data tak, aby se podobná data seskupila dohromady. To umožňuje scénářům, jako je segmentace zákazníků, což inzerentům umožňuje cílit na zákazníky odlišně podle jejich atributů.
  • Generování obsahu:
    • Generování textu: Generování textu podobného člověku pro aplikace, jako jsou chatovací roboti, vytváření románů/básní a porozumění přirozenému jazyku.
    • Generování obrázků: Vytváření realistických obrázků, uměleckých děl nebo návrhů pro grafiku, zábavu a reklamu.
    • Generování videa: Generování videí, animací nebo video efektů pro filmy, hry a marketing.
    • Generace hudby.
  • Překlad:
    • Přeložte text z jednoho jazyka do druhého.
  • Sumarizace:
    • Shrnutí dlouhých článků nebo dokumentů pro extrakci klíčových informací
  • Rozšíření dat:
    • Generování dalších ukázek dat pro rozšíření a vylepšení trénovacích datových sad pro modely strojového učení (ML)
    • Vytvářejte syntetická data pro scénáře, které jsou obtížné nebo nákladné shromažďovat ve skutečném světě, například pro lékařské obrázky.
  • Zjišťování drog:
    • Vygenerujte molekulární struktury a predikujte potenciální kandidáty na lék pro farmaceutické výzkumy.
  • Vývoj her:
    • Umožňuje vytvářet herní obsah, včetně úrovní, znaků a textur.
    • Generujte realistická prostředí a krajiny ve hře.
  • Denoizace a dokončování dat:
    • Vyčistěte hlučná data generováním čistých vzorků dat.
    • Vyplňte chybějící nebo neúplná data v datových sadách.

Další kroky

V následujících článcích se dozvíte, jak provádět sémantické vyhledávání s flexibilním serverem Azure Database for PostgreSQL a Azure OpenAI a jak využít sílu služeb Azure Cognitive Services k analýze mínění, rozpoznávání jazyka, extrakci klíčových frází a pokročilejších operací, které můžete použít u textu.