Bibliotecas de cluster
As bibliotecas de cluster podem ser usadas por todos os blocos de anotações e trabalhos em execução em um cluster. Este artigo detalha o uso da interface do usuário da biblioteca de instalação no espaço de trabalho do Azure Databricks.
Nota
Se você criar computação usando uma política que imponha instalações de biblioteca, não poderá instalar ou desinstalar bibliotecas em sua computação. Os administradores do espaço de trabalho controlam todo o gerenciamento de bibliotecas no nível da política.
Você pode instalar bibliotecas em um cluster usando as seguintes abordagens:
Instale uma biblioteca para uso apenas com um cluster específico.
Instale uma biblioteca com a API REST. Consulte a API de bibliotecas.
Instale uma biblioteca com a CLI do Databricks. Consulte O que é a CLI do Databricks?.
Instale uma biblioteca usando o Terraform. Consulte Databricks Terraform provider and databricks_library.
Instale uma biblioteca criando um cluster com uma política que define as instalações da biblioteca. Consulte Adicionar bibliotecas a uma política.
(Não recomendado) Instale uma biblioteca usando um script init que é executado no momento da criação do cluster. Consulte Instalar uma biblioteca com um script init (legado).
Instalar uma biblioteca em um cluster
Para instalar uma biblioteca em um cluster:
- Clique em Calcular na barra lateral.
- Clique num nome de cluster.
- Clique na guia Bibliotecas .
- Clique em Instalar novo.
- A caixa de diálogo Instalar biblioteca é exibida.
- Selecione uma das opções Fonte da biblioteca, conclua as instruções exibidas e clique em Instalar.
Importante
As bibliotecas podem ser instaladas a partir do DBFS ao usar o Databricks Runtime 14.3 LTS e inferior. No entanto, qualquer usuário do espaço de trabalho pode modificar arquivos de biblioteca armazenados no DBFS. Para melhorar a segurança das bibliotecas em um espaço de trabalho do Azure Databricks, o armazenamento de arquivos de biblioteca na raiz DBFS é preterido e desabilitado por padrão no Databricks Runtime 15.1 e superior. Consulte O armazenamento de bibliotecas na raiz DBFS foi preterido e desativado por padrão.
Em vez disso, o Databricks recomenda carregar todas as bibliotecas, incluindo bibliotecas Python, arquivos JAR e conectores Spark, para arquivos de espaço de trabalho ou volumes do Catálogo Unity, ou usar repositórios de pacotes de biblioteca. Se sua carga de trabalho não oferecer suporte a esses padrões, você também poderá usar bibliotecas armazenadas no armazenamento de objetos na nuvem.
Nem todos os modos de acesso ao cluster suportam todas as configurações de biblioteca. Consulte Bibliotecas com escopo de cluster.
Fonte da biblioteca | Instruções |
---|---|
Área de trabalho | Selecione um arquivo de espaço de trabalho ou carregue um arquivo Whl, casa do leme compactada, JAR, ZIP, tar ou requirements.txt. Consulte Instalar bibliotecas a partir de arquivos de espaço de trabalho |
Volumes | Selecione um arquivo Whl, JAR ou requirements.txt de um volume. Consulte Instalar bibliotecas a partir de um volume. |
Caminho do arquivo/ADLS | Selecione o tipo de biblioteca e forneça o URI completo ao objeto de biblioteca (por exemplo: /Workspace/path/to/library.whl , /Volumes/path/to/library.whl , ou abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl ). Consulte Instalar bibliotecas do armazenamento de objetos. |
PyPI | Insira um nome de pacote PyPI. Consulte o pacote PyPI. |
Maven | Especifique uma coordenada Maven. Consulte o pacote Maven ou Spark. |
CRAN | Digite o nome de um pacote. Consulte o pacote CRAN. |
DBFS (Não recomendado) | Carregue um arquivo JAR ou Whl na raiz DBFS. Isso não é recomendado, pois os arquivos armazenados no DBFS podem ser modificados por qualquer usuário do espaço de trabalho. |
Quando você instala uma biblioteca em um cluster, um bloco de anotações já conectado a esse cluster não verá imediatamente a nova biblioteca. Você deve primeiro desanexar e, em seguida, reanexar o bloco de anotações ao cluster.
Nota
Uma biblioteca que levou mais de 2 horas para ser instalada será marcada como falha.
Instalar uma biblioteca usando uma política
Se você criar um cluster usando uma política que imponha a instalação da biblioteca, as bibliotecas especificadas serão instaladas automaticamente no cluster. Não é possível instalar bibliotecas adicionais ou desinstalar bibliotecas.
Os administradores de espaços de trabalho podem adicionar bibliotecas a políticas, permitindo-lhes gerir e impor instalações de bibliotecas em todos os cálculos que utilizam a política. Para obter instruções de administração, consulte Adicionar bibliotecas a uma política.
Desinstalar uma biblioteca de um cluster
Nota
Quando você desinstala uma biblioteca de um cluster, a biblioteca é removida somente quando você reinicia o cluster. Até reiniciar o cluster, o status da biblioteca desinstalada aparece como Desinstalar pendente de reinicialização.
Para desinstalar uma biblioteca, você pode usar a interface do usuário do cluster:
- Clique em Calcular na barra lateral.
- Clique num nome de cluster.
- Clique na guia Bibliotecas .
- Marque a caixa de seleção ao lado do cluster do qual deseja desinstalar a biblioteca, clique em Desinstalar e em Confirmar. O Status muda para Desinstalar reinicialização pendente.
Clique em Reiniciar e Confirmar para desinstalar a biblioteca. A biblioteca é removida da guia Bibliotecas do cluster.
Exibir as bibliotecas instaladas em um cluster
- Clique em Calcular na barra lateral.
- Clique no nome do cluster.
- Clique na guia Bibliotecas . Para cada biblioteca, a guia exibe o nome e a versão, o tipo, o status da instalação e, se carregado, o arquivo de origem.
Atualizar uma biblioteca instalada em cluster
Para atualizar uma biblioteca instalada em cluster, desinstale a versão antiga da biblioteca e instale uma nova versão.
Nota
Requirements.txt arquivos não exigem a desinstalação e reinicialização. Se você modificou o conteúdo de um arquivo requirements.txt, você pode simplesmente reinstalá-lo para atualizar o conteúdo do arquivo instalado.