Sdílet prostřednictvím


Co jsou Hugging Face Transformers?

Tento článek obsahuje úvod do Hugging Face Transformers v Azure Databricks. Obsahuje pokyny, proč používat Hugging Face Transformers a jak ho nainstalovat do clusteru.

Pozadí pro Hugging Face Transformers

Hugging Face Transformers je opensourcová architektura pro hluboké učení vytvořená Hugging Face. Poskytuje rozhraní API a nástroje pro stahování špičkových předem natrénovaných modelů a jejich další ladění pro maximalizaci výkonu. Tyto modely podporují běžné úlohy v různých způsobech, jako je zpracování přirozeného jazyka, počítačové zpracování obrazu, zvuk a multimodální aplikace.

Poznámka:

Apache License 2.0.

Databricks Runtime pro Machine Learning zahrnuje Hugging Face transformers in Databricks Runtime 10.4 LTS ML a novější a zahrnuje datové sady Hugging Face, zrychlení a vyhodnocení v Databricks Runtime 13.0 ML a vyšší.

Pokud chcete zkontrolovat, která verze Hugging Face je součástí nakonfigurované verze Databricks Runtime ML, projděte si část knihovny Pythonu v příslušných poznámkách k verzi.

Proč používat Hugging Face Transformers?

U mnoha aplikací, jako je analýza mínění a shrnutí textu, fungují předem natrénované modely dobře bez jakéhokoli dalšího trénování modelu.

Kanály Hugging Face Transformers kódují osvědčené postupy a mají vybrané výchozí modely pro různé úlohy, což usnadňuje spuštěníget. Kanály usnadňují používání GPU, pokud jsou k dispozici, a umožňují dávkování položek odesílaných do GPU pro zajištění lepšího výkonu propustnosti.

Hugging Face poskytuje:

  • Centrum modelů obsahující mnoho předem natrénovaných modelů.
  • 🤗 Knihovna Transformers, která podporuje stahování a používání těchto modelů pro aplikace NLP a jemné ladění. Je běžné, že pro úlohy zpracování přirozeného jazyka potřebujete tokenizátor i model.
  • 🤗 Transformátory , které mají jednoduché rozhraní pro většinu úloh zpracování přirozeného jazyka.

Nainstalovat transformers

Pokud verze Databricks Runtime v clusteru neobsahuje Hugging Face , můžete nainstalovat nejnovější knihovnu Hugging Face transformerstransformers jako knihovnu PyPI databricks.

  %pip install transformers

Instalace závislostí modelu

Různé modely můžou mít různé závislosti. Databricks doporučuje použít příkazy magic %pip k instalaci těchto závislostí podle potřeby.

Toto jsou běžné závislosti:

  • librosa: podporuje dekódování zvukových souborů.
  • soundfile: vyžaduje se při generování některých zvukových datových sad.
  • bitsandbytes: vyžadováno při použití load_in_8bit=True.
  • SentencePiece: používá se jako tokenizátor pro modely NLP.
  • timm: vyžaduje DetrForSegmentation.

Trénování s jedním uzlem

K otestování a migraci pracovních postupů s jedním počítačem použijte cluster s jedním uzlem.

Další zdroje informací

Následující články obsahují ukázkové poznámkové bloky a pokyny, jak používat Hugging Face transformers pro velký jazykový model (LLM) a odvozování modelů v Azure Databricks.