Sdílet prostřednictvím


AI a strojové učení v Databricks

Tento článek popisuje nástroje, které společnost Mosaic AI (dříve Databricks Machine Learning) poskytuje k vytváření systémů AI a ML. Diagram znázorňuje, jak různé produkty na platformě Databricks pomáhají implementovat kompletní pracovní postupy pro sestavování a nasazování systémů AI a ML.

Diagram strojového učení: Vývoj a nasazení modelů v Databricks

Generování umělé inteligence v Databricks

Společnost Mosaic AI sjednocuje životní cyklus AI od shromažďování a přípravy dat až po vývoj modelů a LLMOps a obsluhuje a monitoruje. Následující funkce jsou speciálně optimalizované pro usnadnění vývoje generovaných aplikací AI:

  • Katalog Unity pro zásady správného řízení, zjišťování, správu verzí a řízení přístupu pro data, funkce, modely a funkce.
  • MLflow pro sledování vývoje modelů.
  • Rozhraní API pro nasazení LLMs slouží k vytvoření modelu AI. Můžete nakonfigurovat koncový bod obsluhující model speciálně pro přístup k generativním modelům AI:
    • Nejmodernější otevřené LLM pomocí rozhraní API základního modelu
    • Modely třetích stran hostované mimo Databricks Podívejte se na externí modely obsluhy modelu AI v systému Mosaic AI.
  • Funkce Mosaic AI Vector Search poskytuje dotazovatelnou vektorovou databázi, která ukládá vložené vektory a je možné ji nakonfigurovat tak, aby se automaticky synchronizovala s znalostní báze.
  • Monitorování Lakehouse pro monitorování dat a sledování kvality predikce modelu a posun pomocí automatického protokolování datové části s tabulkami odvozování
  • AI Playground pro testování generativních modelů AI z pracovního prostoru Databricks Můžete zobrazit výzvu, porovnat a upravit nastavení, jako jsou systémové výzvy a parametry odvozovat.
  • Vyladění základního modelu (nyní součástí trénování modelu Puzzle AI) pro přizpůsobení základního modelu pomocí vlastních dat pro optimalizaci výkonu pro vaši konkrétní aplikaci.
  • Rozhraní AI Agent Framework pro sestavování a nasazování agentů pro produkční kvalitu, jako jsou aplikace RAG (Retrieval Augmented Generation).
  • Hodnocení agenta AI pro vyhodnocení kvality, nákladů a latence generovaných aplikací umělé inteligence, včetně aplikací RAG a řetězců

Co je generativní AI?

Generování umělé inteligence je typ umělé inteligence zaměřený na schopnost počítačů používat modely k vytváření obsahu, jako jsou obrázky, text, kód a syntetická data.

Generování aplikací umělé inteligence je postavené na generovaných modelech AI: velkých jazykových modelů (LLM) a základních modelech.

  • LLM jsou modely hlubokého učení, které využívají a trénují masivní datové sady, aby excelovaly v úlohách zpracování jazyka. Vytvoří nové kombinace textu, které napodobují přirozený jazyk na základě trénovacích dat.
  • Generující modely AI nebo základní modely jsou velké modely ML předem natrénované s záměrem, že se mají vyladit pro konkrétnější úlohy porozumění jazyku a generování. Tyto modely se používají k rozlišení vzorů ve vstupních datech.

Jakmile tyto modely dokončí své procesy učení, společně generují statisticky pravděpodobné výstupy po zobrazení výzvy a mohou být použity k provádění různých úkolů, včetně:

  • Generování obrázků založené na existujících imagích nebo použití stylu jednoho obrázku k úpravě nebo vytvoření nové.
  • Úlohy řeči, jako je přepis, překlad, generování otázek a odpovědí a interpretace záměru nebo významu textu.

Důležité

I když mnoho modelů LLM nebo jiných modelů generující umělé inteligence chrání, můžou stále generovat škodlivé nebo nepřesné informace.

Generování umělé inteligence má následující vzory návrhu:

  • Příprava výzvy: Vytváření specializovaných výzev k vedení chování LLM
  • Načítání rozšířené generace (RAG): Kombinování LLM s externími načteními znalostí
  • Vyladění: Přizpůsobení předem natrénovaného LLM konkrétním datovým sadám domén
  • Pre-training: Training an LLM from scratch

Strojové učení v Databricks

S Platformou Mosaic AI slouží každá platforma pro vývoj a nasazení ML od nezpracovaných dat až po tabulky odvozování, které ukládají všechny požadavky a odpovědi na obsluhovaný model. Datoví vědci, datoví inženýři, technici ML a DevOps můžou své úlohy provádět pomocí stejné sady nástrojů a jediného zdroje pravdy pro data.

Rozhraní AI sjednotí datovou vrstvu a platformu ML. Všechny datové prostředky a artefakty, jako jsou modely a funkce, jsou zjistitelné a řízené v jednom katalogu. Použití jedné platformy pro data a modely umožňuje sledovat rodokmen z nezpracovaných dat do produkčního modelu. Integrované monitorování dat a modelů ukládá metriky kvality do tabulek, které jsou také uložené na platformě, což usnadňuje identifikaci původní příčiny problémů s výkonem modelu. Další informace o tom, jak Databricks podporuje celý životní cyklus ML a MLOps, najdete v pracovních postupech MLOps v Azure Databricks a MLOps Stacks: proces vývoje modelů jako kód.

Mezi klíčové komponenty platformy datové inteligence patří:

Úlohy Komponenta
Řízení a správa dat, funkcí, modelů a funkcí Také zjišťování, správa verzí a rodokmen. Katalog Unity
Sledování změn dat, kvality dat a kvality předpovědi modelu Lakehouse Monitoring, odvozovací tabulky
Vývoj a správa funkcí Příprava a obsluha funkcí
Trénování modelů Poznámkové bloky AutoML, Databricks
Sledování vývoje modelů Sledování MLflow
Obsluha vlastních modelů Obsluha modelu AI s architekturou AI.
Vytváření automatizovaných pracovních postupů a kanálů ETL připravených pro produkční prostředí Úlohy Databricks
Integrace Gitu Složky Gitu pro Databricks

Hluboké učení v Databricks

Konfigurace infrastruktury pro aplikace hlubokého učení může být obtížná. Databricks Runtime pro Machine Learning se postará o to za vás a clustery s integrovanými kompatibilními verzemi nejběžnějších knihoven hlubokého učení, jako jsou TensorFlow, PyTorch a Keras.

Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Podporuje také knihovny, jako je Ray , aby paralelizoval výpočetní zpracování pro škálování pracovních postupů ML a aplikací ML.

Clustery Databricks Runtime ML také zahrnují předem nakonfigurovanou podporu GPU s ovladači a podpůrnými knihovnami. Rozhraní AI Model Serving umožňuje vytvářet škálovatelné koncové body GPU pro modely hlubokého učení bez další konfigurace.

Pro aplikace strojového učení doporučuje Databricks používat cluster se spuštěným Modulem Databricks Runtime pro Machine Learning. Viz Vytvoření clusteru pomocí Databricks Runtime ML.

Pokud chcete začít s hloubkovým učením v Databricks, přečtěte si:

Další kroky

Pokud chcete začít, přečtěte si:

Doporučený pracovní postup MLOps ve službě Databricks Mosaic AI najdete tady:

Informace o klíčových funkcích Databricks Mosaic AI najdete tady: