Introdução aos objetos de espaço de trabalho
Este artigo fornece uma introdução de alto nível aos objetos de espaço de trabalho do Azure Databricks. Você pode criar, exibir e organizar objetos de espaço de trabalho no navegador de espaço de trabalho entre personas.
Nota sobre como nomear ativos do espaço de trabalho
O nome completo de um ativo de espaço de trabalho consiste em seu nome base e sua extensão de arquivo. Por exemplo, a extensão de arquivo de um bloco de anotações pode ser .py
, .sql
, .scala
, .r
e .ipynb
dependendo do idioma e formato do bloco de anotações.
Quando você cria um ativo de bloco de anotações, seu nome base e seu nome completo (o nome base concatenado com a extensão de arquivo) devem ser exclusivos dentro de qualquer pasta de espaço de trabalho. Quando você nomeia um ativo, o Databricks verifica se ele atende a esse critério, adicionando a extensão de arquivo a ele. Se o nome completo corresponder a um ficheiro existente na pasta, esse nome não é permitido e tem de escolher um novo nome de bloco de notas. Por exemplo, se você tentar criar um bloco de anotações Python (no formato de código-fonte Python) nomeado test
na mesma pasta que um arquivo Python chamado test.py
, ele não será permitido.
Aglomerados
Os clusters Azure Databricks Data Science & Engineering e Databricks Mosaic AI fornecem uma plataforma unificada para vários casos de uso, como a execução de pipelines ETL de produção, análise de streaming, análise ad-hoc e aprendizado de máquina. Um cluster é um tipo de recurso de computação do Azure Databricks. Outros tipos de recursos de computação incluem armazéns SQL do Azure Databricks.
Para obter informações detalhadas sobre como gerenciar e usar clusters, consulte Computação.
Computadores portáteis
Um bloco de anotações é uma interface baseada na Web para documentos que contêm uma série de células executáveis (comandos) que operam em arquivos e tabelas, visualizações e texto narrativo. Os comandos podem ser executados em sequência, referindo-se à saída de um ou mais comandos executados anteriormente.
Os blocos de anotações são um mecanismo para executar código no Azure Databricks. O outro mecanismo é o emprego.
Para obter informações detalhadas sobre como gerenciar e usar blocos de anotações, consulte Introdução aos blocos de anotações Databricks.
Empregos
Os trabalhos são um mecanismo para executar código no Azure Databricks. O outro mecanismo são os cadernos.
Para obter informações detalhadas sobre como gerenciar e usar trabalhos, consulte Visão geral da orquestração no Databricks.
Bibliotecas
Uma biblioteca disponibiliza código de terceiros ou criado localmente para blocos de anotações e trabalhos em execução em seus clusters.
Para obter informações detalhadas sobre como gerenciar e usar bibliotecas, consulte Bibliotecas.
Dados
Você pode importar dados para um sistema de arquivos distribuído montado em um espaço de trabalho do Azure Databricks e trabalhar com ele em blocos de anotações e clusters do Azure Databricks. Você também pode usar uma grande variedade de fontes de dados do Apache Spark para acessar dados.
Para obter informações detalhadas sobre como carregar dados, consulte Ingestir dados numLakehouse do Azure Databricks.
Ficheiros
Importante
Esta funcionalidade está em Pré-visualização Pública.
No Databricks Runtime 11.3 LTS e superior, você pode criar e usar arquivos arbitrários no espaço de trabalho Databricks. Os ficheiros podem ser de qualquer tipo de ficheiro. Exemplos comuns de tipo de arquivo incluem:
-
.py
arquivos usados em módulos personalizados. -
.md
arquivos, comoREADME.md
. -
.csv
ou outros pequenos ficheiros de dados. -
.txt
ficheiros. - Ficheiros de registo.
Para obter informações detalhadas sobre como usar arquivos, consulte Trabalhar com arquivos no Azure Databricks. Para obter informações sobre como usar arquivos para modularizar seu código à medida que você desenvolve com blocos de anotações Databricks, consulte Compartilhar código entre blocos de anotações Databricks
Pastas Git
As pastas Git são pastas do Azure Databricks cujo conteúdo é coversionado sincronizando-as com um repositório Git remoto. Usando pastas Git Databricks, você pode desenvolver blocos de anotações no Azure Databricks e usar um repositório Git remoto para colaboração e controle de versão.
Para obter informações detalhadas sobre como usar repositórios, consulte Integração do Git para pastas Git do Databricks.
Modelos
Modelo refere-se a um modelo registrado no MLflow Model Registry. O Registro de Modelo é um repositório de modelos centralizado que permite gerenciar o ciclo de vida completo dos modelos MLflow. Ele fornece linhagem de modelo cronológico, versionamento de modelo, transições de estágio e anotações e descrições de modelo e versão de modelo.
Para obter informações detalhadas sobre como gerenciar e usar modelos, consulte Gerenciar o ciclo de vida do modelo no Unity Catalog.
Experiências
Um experimento MLflow é a principal unidade de organização e controle de acesso para execuções de treinamento de modelo de aprendizado de máquina MLflow. Todas as execuções MLflow pertencem a um experimento. Cada experimento permite visualizar, pesquisar e comparar execuções, além de baixar e executar artefatos ou metadados para análise em outras ferramentas.
Para obter informações detalhadas sobre como gerenciar e usar experimentos, consulte Organizar execuções de treinamento com experimentos MLflow.
Consultas
As consultas são instruções SQL que permitem que você interaja com seus dados. Para obter mais informações, consulte Acessar e gerenciar consultas salvas.
Dashboards
Os painéis são apresentações de visualizações de consulta e comentários. Consulte Painéis ou Painéis herdados.
Alertas
Alertas são notificações de que um campo retornado por uma consulta atingiu um limite. Para obter mais informações, consulte O que são alertas Databricks SQL?.
Referências a objetos de espaço de trabalho
Historicamente, os usuários eram obrigados a incluir o prefixo de /Workspace
caminho para algumas APIs do Databricks (%sh
), mas não para outras (%run
, entradas da API REST).
Os usuários podem usar caminhos de espaço de trabalho com o prefixo /Workspace
em todos os lugares. Referências antigas a caminhos sem o prefixo /Workspace
são redirecionadas e continuam a funcionar. Recomendamos que todos os caminhos do espaço de trabalho carreguem o prefixo /Workspace
para diferenciá-los dos caminhos Volume e DBFS.
O pré-requisito para um comportamento consistente /Workspace
de prefixo de caminho é o seguinte: Não pode haver uma /Workspace
pasta no nível raiz do espaço de trabalho. Se você tiver uma /Workspace
pasta no nível raiz e quiser habilitar essa melhoria de UX, exclua ou renomeie a /Workspace
pasta criada e entre em contato com sua equipe de conta do Azure Databricks.
Partilhar um ficheiro, pasta ou URL do bloco de notas
No seu espaço de trabalho do Azure Databricks, as URLs para arquivos, blocos de anotações e pastas do espaço de trabalho estão nos formatos:
URLs de arquivos de espaço de trabalho
https://<databricks-instance>/?o=<16-digit-workspace-ID>#files/<16-digit-object-ID>
URLs do bloco de anotações
https://<databricks-instance>/?o=<16-digit-workspace-ID>#notebook/<16-digit-object-ID>/command/<16-digit-command-ID>
URLs de pasta (espaço de trabalho e Git)
https://<databricks-instance>/browse/folders/<16-digit-ID>?o=<16-digit-workspace-ID>
Esses links podem quebrar se qualquer pasta, arquivo ou bloco de anotações no caminho atual for atualizado com um comando pull do Git ou for excluído e recriado com o mesmo nome. No entanto, você pode construir um link com base no caminho do espaço de trabalho para compartilhar com outros usuários do Databricks com níveis de acesso apropriados, alterando-o para um link neste formato:
https://<databricks-instance>/?o=<16-digit-workspace-ID>#workspace/<full-workspace-path-to-file-or-folder>
Os links para pastas, blocos de anotações e arquivos podem ser compartilhados substituindo tudo na URL depois ?o=<16-digit-workspace-ID>
pelo caminho para o arquivo, pasta ou bloco de anotações da raiz do espaço de trabalho. Se você estiver compartilhando um URL para uma pasta, remova /browse/folders/<16-digit-ID>
o URL original também.
Para obter o caminho do arquivo, abra o menu de contexto clicando com o botão direito do mouse na pasta, bloco de anotações ou arquivo em seu espaço de trabalho que você deseja compartilhar e selecione Copiar URL/caminho>Caminho completo. Anexe #workspace
ao caminho do arquivo que você acabou de copiar e acrescente a cadeia de caracteres resultante após o ?o=<16-digit-workspace-ID>
para que ele corresponda ao formato de URL acima.
Exemplo de formulação de URL #1: URLs de pasta
Para compartilhar a URL https://<databricks-instance>/browse/folders/1111111111111111?o=2222222222222222
da pasta do espaço de trabalho , remova a browse/folders/1111111111111111
substring da URL. Adicione #workspace
seguido do caminho para a pasta ou objeto de espaço de trabalho que você deseja compartilhar.
Nesse caso, o caminho do espaço de trabalho é para uma pasta, /Workspace/Users/user@example.com/team-git/notebooks
. Depois de copiar o caminho completo do seu espaço de trabalho, agora você pode construir o link compartilhável:
https://<databricks-instance>/?o=2222222222222222#workspace/Workspace/Users/user@example.com/team-git/notebooks
Exemplo de formulação de URL 2: URLs de bloco de anotações
Para partilhar o URL https://<databricks-instance>/?o=1111111111111111#notebook/2222222222222222/command/3333333333333333
do bloco de notas , remova #notebook/2222222222222222/command/3333333333333333
. Adicionar #workspace
seguido pelo caminho para a pasta ou objeto de espaço de trabalho.
Nesse caso, o caminho do espaço de trabalho aponta para um notebook, /Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
. Depois de copiar o caminho completo do seu espaço de trabalho, agora você pode construir o link compartilhável:
https://<databricks-instance>/?o=1111111111111111#workspace/Workspace/Users/user@example.com/team-git/notebooks/v1.0/test-notebook
Agora você tem um URL estável para um caminho de arquivo, pasta ou bloco de anotações para compartilhar! Para obter mais informações sobre URLs e identificadores, consulte Obter identificadores para objetos de espaço de trabalho.