Co jsou Hugging Face Transformers?
Tento článek obsahuje úvod do Hugging Face Transformers v Azure Databricks. Obsahuje pokyny, proč používat Hugging Face Transformers a jak ho nainstalovat do clusteru.
Pozadí pro Hugging Face Transformers
Hugging Face Transformers je opensourcová architektura pro hluboké učení vytvořená Hugging Face. Poskytuje rozhraní API a nástroje pro stahování špičkových předem natrénovaných modelů a jejich další ladění pro maximalizaci výkonu. Tyto modely podporují běžné úlohy v různých způsobech, jako je zpracování přirozeného jazyka, počítačové zpracování obrazu, zvuk a multimodální aplikace.
Poznámka:
Databricks Runtime pro Machine Learning zahrnuje Hugging Face transformers
in Databricks Runtime 10.4 LTS ML a novější a zahrnuje datové sady Hugging Face, zrychlení a vyhodnocení v Databricks Runtime 13.0 ML a vyšší.
Pokud chcete zkontrolovat, která verze Hugging Face je součástí nakonfigurované verze Databricks Runtime ML, projděte si část knihovny Pythonu v příslušných poznámkách k verzi.
Proč používat Hugging Face Transformers?
U mnoha aplikací, jako je analýza mínění a shrnutí textu, fungují předem natrénované modely dobře bez jakéhokoli dalšího trénování modelu.
Kanály Hugging Face Transformers kódují osvědčené postupy a mají vybrané výchozí modely pro různé úlohy, což usnadňuje spuštěníget. Kanály usnadňují používání GPU, pokud jsou k dispozici, a umožňují dávkování položek odesílaných do GPU pro zajištění lepšího výkonu propustnosti.
Hugging Face poskytuje:
- Centrum modelů obsahující mnoho předem natrénovaných modelů.
- 🤗 Knihovna Transformers, která podporuje stahování a používání těchto modelů pro aplikace NLP a jemné ladění. Je běžné, že pro úlohy zpracování přirozeného jazyka potřebujete tokenizátor i model.
- 🤗 Transformátory , které mají jednoduché rozhraní pro většinu úloh zpracování přirozeného jazyka.
Nainstalovat transformers
Pokud verze Databricks Runtime v clusteru neobsahuje Hugging Face , můžete nainstalovat nejnovější knihovnu Hugging Face transformers
transformers
jako knihovnu PyPI databricks.
%pip install transformers
Instalace závislostí modelu
Různé modely můžou mít různé závislosti. Databricks doporučuje použít příkazy magic %pip k instalaci těchto závislostí podle potřeby.
Toto jsou běžné závislosti:
-
librosa
: podporuje dekódování zvukových souborů. -
soundfile
: vyžaduje se při generování některých zvukových datových sad. -
bitsandbytes
: vyžadováno při použitíload_in_8bit=True
. -
SentencePiece
: používá se jako tokenizátor pro modely NLP. -
timm
: vyžaduje DetrForSegmentation.
Trénování s jedním uzlem
K otestování a migraci pracovních postupů s jedním počítačem použijte cluster s jedním uzlem.
Další zdroje informací
Následující články obsahují ukázkové poznámkové bloky a pokyny, jak používat Hugging Face transformers
pro velký jazykový model (LLM) a odvozování modelů v Azure Databricks.