O que são transformadores do Hugging Face?
Este artigo fornece uma introdução ao Hugging Face Transformers no Azure Databricks. Ele inclui diretrizes sobre por que usar o Hugging Face Transformers e como instalá-lo em seu cluster.
Plano de fundo para o Hugging Face Transformers
Hugging Face Transformers é uma estrutura de código aberto para aprendizagem profunda criada pela Hugging Face. Ela fornece APIs e ferramentas para baixar modelos pré-treinados de última geração e ajustá-los ainda mais para maximizar o desempenho. Esses modelos dão suporte a tarefas comuns em diferentes modalidades, como processamento de linguagem natural, pesquisa visual computacional, áudio e aplicativos multimodais.
Observação
O Databricks Runtime for Machine Learning inclui o Hugging Face transformers
no Databricks Runtime 10.4 LTS ML e superior, e inclui conjuntos de dados do Hugging Face, acelera e avalia no Databricks Runtime 13.0 ML e superior.
Para verificar qual versão do Hugging Face está incluída na versão configurada do Databricks Runtime ML, consulte a seção Bibliotecas Python nas notas de versão relevantes.
Por que usar o Hugging Face Transformers?
Para muitos aplicativos, como análise de sentimento e resumo de texto, os modelos pré-treinados funcionam bem sem nenhum treinamento de modelo adicional.
Os pipelines do Hugging Face Transformers codificam as melhores práticas e têm modelos padrão selecionados para diferentes tarefas, facilitando a introdução. Os pipelines facilitam o uso de GPUs quando disponíveis e permitem o envio em lote de itens enviados para a GPU para um melhor desempenho de taxa de transferência.
O Hugging Face proporciona:
- Um hub de modelo contendo muitos modelos pré-treinados.
- A 🤗 biblioteca Transformers que dá suporte ao download e ao uso desses modelos para aplicações de PNL e ajuste fino. É comum precisar de um tokenizador e de um modelo para tarefas de processamento de linguagem natural.
- 🤗 Pipelines do Transformers que possuem uma interface simples para a maioria das tarefas de processamento de linguagem natural.
Instalar transformers
Se a versão do Databricks Runtime no cluster não incluir o Hugging Face transformers
, você poderá instalar a biblioteca Hugging Face transformers
mais recente como uma biblioteca Databricks PyPI.
%pip install transformers
Instalar dependências de modelo
Modelos diferentes podem ter dependências diferentes. O Databricks recomenda que você use comandos %pip magic para instalar essas dependências conforme necessário.
A seguir estão as dependências comuns:
librosa
: dá suporte à decodificação de arquivos de áudio.soundfile
: necessário ao gerar alguns conjuntos de dados de áudio.bitsandbytes
: necessário ao usarload_in_8bit=True
.SentencePiece
: usado como tokenizador para modelos NLP.timm
: exigido por DetrForSegmentation.
Treinamento de nó único
Para testar e migrar fluxos de trabalho de computador único, use um cluster de nó único.
Recursos adicionais
Os artigos a seguir incluem notebooks de exemplo e diretrizes de como usar o Hugging Face transformers
para ajuste fino de LLM (modelo de linguagem grande) e inferência de modelo no Azure Databricks.