Modelos de linguagem grande (LLMs) em Databricks

Artigo
03/11/2025

O Azure Databricks simplifica o acesso e a criação de modelos de linguagem grandes disponíveis publicamente.

O Databricks Runtime for Machine Learning inclui bibliotecas como Hugging, Face, Transformers e LangChain, que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto ao seu fluxo de trabalho. A partir daqui, você pode aproveitar os recursos da plataforma Azure Databricks para ajustar LLMs usando seus próprios dados para um melhor desempenho de domínio.

Além disso, o Azure Databricks oferece funcionalidade interna para usuários SQL acessarem e experimentarem LLMs como Azure OpenAI e OpenAI usando funções de IA.

Ajuste fino de modelos base

Importante

Esta funcionalidade está em Pré-visualização Pública. Entre em contato com a sua equipa de conta Databricks para se inscrever na Pré-visualização Pública.

O ajuste fino do modelo de base (agora parte do Mosaic AI Model Training) é uma interface simples para a pilha de treinamento do Databricks para executar o ajuste fino completo do modelo.

Você pode fazer o seguinte usando o ajuste fino do modelo fundacional:

Ajuste um modelo com seus dados personalizados, com os pontos de verificação salvos no MLflow. Você mantém o controle total do modelo ajustado.
Registre automaticamente o modelo no Unity Catalog, permitindo uma fácil implantação com o serviço de modelo.
Aperfeiçoe um modelo proprietário completo carregando os pesos de um modelo previamente aperfeiçoado.

Consulte Ajuste Fino do Modelo Base.

Abraçando Transformadores de Rosto

Com o Hugging Face Transformers no Databricks, pode-se escalar as suas aplicações de processamento de linguagem natural (NLP) em lote e ajustar modelos para aplicações de modelos de grandes linguagens.

A biblioteca Hugging Face transformers vem pré-instalada no Databricks Runtime 10.4 LTS ML e superior. Muitos dos modelos de NLP populares funcionam melhor em hardware de GPU, então você pode obter o melhor desempenho usando hardware de GPU recente, a menos que use um modelo especificamente otimizado para uso em CPUs.

DSPy

O DSPy automatiza o ajuste de prompts traduzindo assinaturas de linguagem natural definidas pelo usuário em instruções completas e exemplos de poucas capturas.

Consulte Criar aplicativos de IA generativa usando DSPy no Azure Databricks para obter exemplos sobre como usar o DSPy.

LangChain

O LangChain está disponível como um sabor experimental de MLflow que permite que os clientes do LangChain aproveitem as ferramentas robustas e os recursos de rastreamento de experimentos do MLflow diretamente do ambiente do Azure Databricks.

LangChain é uma estrutura de software projetada para ajudar a criar aplicativos que utilizam grandes modelos de linguagem (LLMs) e combiná-los com dados externos para trazer mais contexto de treinamento para seus LLMs.

O Databricks Runtime ML inclui langchain no Databricks Runtime 13.1 ML ou versões mais recentes.

Saiba mais sobre integrações LangChain específicas do Databricks.

Funções de IA

Importante

Esta funcionalidade está em Pré-visualização Pública.

As funções de IA são funções SQL incorporadas que permitem aos utilizadores SQL:

Utilize as APIs do Modelo Base do Databricks para concluir várias tarefas nos dados da sua organização.
Acesse modelos externos como GPT-4 da OpenAI e experimente-os.
Consultar modelos hospedados pelos pontos finais do Serviço de Modelos Mosaic AI a partir de consultas SQL.

Partilhar via