Compartilhar via


Melhores práticas de interoperabilidade e usabilidade

Este artigo aborda as melhores práticas de interoperabilidade e confiabilidade, organizadas pelos princípios de arquitetura listados nas seções a seguir.

1. Definir padrões para integração

Usar padrões de integração padrão e reutilizáveis ​​para integração externa

Os padrões de integração são importantes porque fornecem diretrizes sobre como os dados devem ser representados, trocados e processados ​​entre diferentes sistemas e aplicativos. Esses padrões ajudam a garantir que os dados sejam compatíveis, de alta qualidade e interoperáveis em diversas fontes e destinos.

O Databricks Lakehouse é fornecido com uma API REST abrangente que permite gerenciar programaticamente quase todos os aspectos da plataforma. O servidor da API REST funciona no painel de controle e fornece um ponto de extremidade unificado para gerenciar a plataforma Azure Databricks.

A API REST fornece o nível mais baixo de integração, e ele pode sempre ser usado. No entanto, a forma preferencial de integração com o Azure Databricks é utilizar abstrações de nível superior, como SDKs do Databricks ou ferramentas da CLI. As ferramentas da CLI são baseadas em shell e permitem a fácil integração da plataforma Databricks em fluxos de trabalho de CI/CD e MLOps.

Usar conectores otimizados para ingerir fontes de dados no lakehouse

O Azure Databricks oferece várias maneiras de ajudá-lo a ingerir dados para o Delta Lake.

  • O Databricks fornece conectores otimizados para serviços de mensagens de fluxo, como o Apache Kafka, a fim de oferecer ingestão de dados quase em tempo real.

  • Ele fornece integrações para muitos sistemas de dados nativos da nuvem e suporte JDBC extensível para conexão com outros sistemas de dados.

  • Uma opção para integrar fontes de dados sem ETL é o Lakehouse Federation. O Lakehouse Federation é a plataforma de federação de consultas do Databricks. O termo “federação de consultas” descreve uma coleção de recursos que permitem que usuários e sistemas executem consultas em diversas fontes de dados sem precisar migrar todos os dados para um sistema unificado. O Databricks usa o Catálogo do Unity para gerenciar a federação de consultas. As ferramentas de governança e linhagem de dados do Catálogo do Unity garantem que o acesso aos dados seja gerenciado e auditado para todas as consultas federadas que são executadas pelos usuários nos workspaces do Databricks.

    Observação

    Qualquer consulta na plataforma Databricks que utilize uma fonte do Lakehouse Federation é enviada para essa fonte. Verifique se o sistema de origem pode lidar com a carga. Além disso, se o sistema de origem for implantado em uma região de nuvem ou nuvem diferente, haverá um custo de saída para cada consulta.

    Considere o acesso de descarregamento a bancos de dados subjacentes por meio de exibições materializadas para evitar cargas altas/simultâneas em bancos de dados operacionais e reduzir os custos de saída.

Usar ferramentas de parceiros certificados

As organizações têm necessidades diferentes e não há uma única ferramenta capaz de atender a todas elas. O Partner Connect permite explorar e integrar facilmente nossos parceiros, que abarcam todos os aspectos do lakehouse: ingestão, preparação e transformação de dados, BI e exibição, machine learning, qualidade de dados e muito mais. O Partner Connect permite a criação de contas de avaliação em parceiros de tecnologia selecionados do Databricks e a conexão do workspace do Azure Databricks a soluções de parceiros da interface do usuário do Azure Databricks. Experimente as soluções de parceiros usando seus dados no lakehouse do Databricks e, em seguida, adote as soluções que melhor atendam às suas necessidades de negócios.

Reduzir a complexidade dos pipelines de engenharia de dados

Ao investir na redução da complexidade dos pipelines de engenharia de dados, é possível ter escalabilidade, agilidade e flexibilidade para expandir e inovar com mais rapidez. Pipelines simplificados facilitam o gerenciamento e a adaptação de todas as necessidades operacionais de um pipeline de engenharia de dados: orquestração de tarefas, gerenciamento de cluster, monitoramento, qualidade de dados e tratamento de erros.

O Delta Live Tables é uma estrutura para a criação de pipelines de processamento de dados confiáveis, testáveis e de fácil manutenção. Você define as transformações que deseja realizar nos dados e a Delta Live Tables fica responsável pela orquestração de tarefas, o gerenciamento de clusters, o monitoramento, a qualidade dos dados e o tratamento de erros. ConsulteO que é o Delta Live Tables?.

O Carregador Automático processa de forma incremental e eficiente novos arquivos de dados à medida que chegam no armazenamento em nuvem. Ele pode ler arquivos de dados de forma confiável do armazenamento em nuvem. A natureza declarativa da Delta Live Tables e do Auto Loader consistem em um aspecto importante: sem eles, é necessário criar pipelines complexos que integram diferentes serviços de nuvem, como um serviço de notificação e um de filas, para ler arquivos de nuvem de modo seguro com base em eventos e para combinar fontes de lote e de streaming de maneira confiável.

O Auto Loader e a Delta Live Tables reduzem as dependências e a complexidade do sistema e melhoram muito a interoperabilidade com o armazenamento em nuvem e entre diferentes paradigmas, como lote e streaming. Como efeito colateral, a simplicidade dos pipelines aumenta a usabilidade da plataforma.

Usar a IaC (infraestrutura como código) para implantações e manutenção

O HashiCorp Terraform é uma ferramenta de software livre popular para criar uma infraestrutura de nuvem segura e previsível em vários provedores de nuvem. Confira Excelência operacional: usar a infraestrutura como código para implantações e manutenção

2. Usar interfaces e formatos de dados abertos

Usar formatos de dados abertos

Usar um formato de dados aberto significa que não há restrições ao uso. Isso é importante porque remove barreiras ao acesso e à utilização dos dados para análise e geração de informações de negócios. Formatos abertos, como aqueles criados no Apache Spark, também adicionam recursos que aumentam o desempenho com suporte para transações ACID, streaming unificado e processamento de dados em lote. Além disso, o software livre é baseado na comunidade, o que significa que ela está sempre trabalhando para melhorar os recursos atuais e adicionar novos, a fim de facilitar o aproveitamento máximo dos projetos pelos usuários.

O principal formato de dados usado na plataforma Data Intelligence é o Delta Lake, um formato de dados totalmente aberto que oferece muitos benefícios, desde recursos de confiabilidade até melhorias de desempenho. Consulte Usar um formato de dados que dá suporte a transações ACID e Práticas recomendadas para eficiência de desempenho.

Devido à natureza aberta, o Delta Lake é fornecido com um grande ecossistema. Dezenas de ferramentas e aplicativos de terceiros suportam o Delta Lake.

Para melhorar ainda mais a interoperabilidade, o UniForm (Delta Universal Format) permite ler tabelas Delta com clientes de leitura Iceberg. O UniForm gera automaticamente metadados Iceberg de modo assíncrono, sem reescrever os dados, para que os clientes do Iceberg possam ler tabelas Delta como se fossem tabelas Iceberg. Uma única cópia dos arquivos de dados serve ambos os formatos.

Habilitar o compartilhamento seguro de dados e IA para todos os ativos de dados

O compartilhamento de ativos de dados e IA pode resultar em melhorias de colaboração e tomada de decisão. No entanto, ao compartilhar dados, é importante manter o controle, proteger os dados e garantir a conformidade com as leis e os regulamentos relevantes de compartilhamento de dados.

O Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhar dados de modo seguro com outras organizações, seja qual for a plataforma de computação usada. Para compartilhar dados com usuários fora do workspace do Databricks de maneira segura, sem se preocupar se eles usam ou não o Databricks, utilize o Delta Sharing aberto. Se quiser compartilhar dados com usuários que tenham um workspace do Databricks habilitado para o Catálogo do Unity, você pode usar o Compartilhamento Delta do Databricks para o Databricks.

Nesses casos, é possível compartilhar tabelas, exibições, volumes, modelose notebooks.

  • Use o protocolo aberto Delta Sharing para compartilhar dados com parceiros.

    O Compartilhamento Delta oferece uma solução aberta para compartilhar dados online com segurança do seu lakehouse com qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma nuvem ou em qualquer nuvem. O Delta Sharing integra-se nativamente ao Catálogo do Unity, permitindo que as organizações gerenciem e auditem centralmente os ativos de dados e IA compartilhados em toda a empresa e compartilhem com segurança ativos de dados e IA que atendam aos requisitos de segurança e conformidade.

    Os provedores de dados podem compartilhar modelos de dados e IA em tempo real, onde quer que eles estejam armazenados na plataforma de dados, sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais do compartilhamento de dados e IA porque os provedores de dados não precisam replicar os dados diversas vezes em nuvens, regiões geográficas ou plataformas de dados para cada um dos consumidores de dados.

  • Para os usuários do Databricks, use o protocolo Delta Sharing de Databricks para Databricks.

    Se deseja compartilhar dados com usuários que não têm acesso ao metastore do Catálogo do Unity, você pode usar o Compartilhamento Delta do Databricks para o Databricks, desde que os destinatários tenham acesso a um workspace do Databricks habilitado para o Catálogo do Unity. O compartilhamento de Databricks para Databricks permite compartilhar dados com usuários em outras contas do Databricks, regiões de nuvem e provedores de nuvem. É uma excelente maneira de compartilhar dados com segurança em diferentes metastores do Catálogo do Unity na sua conta do Databricks.

Usar padrões abertos para o gerenciamento do ciclo de vida de ML

O uso de padrões abertos para fluxos de trabalho de IA oferece benefícios semelhantes em termos de flexibilidade, agilidade, custo e segurança aos do formato de dados de software livre.

O MLflow é uma plataforma de software livre para gerenciar o ciclo de vida de ML e IA. O Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, integrada a recursos de segurança corporativa, alta disponibilidade e outros recursos de workspace do Databricks, como gerenciamento de experimentos e execuções e rastreamento de revisões de notebook.

Os componentes principais são o rastreamento de experimentação (para registrar em log e rastrear automaticamente modelos de ML e deep learning), os modelos como um formato padrão (para empacotar modelos de machine learning), um registro de modelos integrado ao Catálogo do Unity e o serviço de modelo escalonável e corporativo.

3. Simplificar a implementação de novos casos de uso

Fornecer uma experiência de autoatendimento em toda a plataforma

São muitos os benefícios de uma plataforma em que os usuários têm autonomia para utilizar as ferramentas e os recursos de acordo com suas necessidades. Investir na criação de uma plataforma de autoatendimento facilita o dimensionamento para atender mais usuários e gerar maior eficiência, o que minimiza a necessidade de envolvimento humano para provisionar usuários, resolver problemas e processar solicitações de acesso.

A plataforma Databricks Data Intelligence conta com todos os recursos necessários para fornecer uma experiência de autoatendimento. Embora possa haver uma etapa de aprovação obrigatória, a prática recomendada é automatizar totalmente a configuração quando uma unidade de negócios solicita acesso ao lakehouse. Provisione automaticamente o novo ambiente, sincronize os usuários, use o SSO para autenticação, forneça controle de acesso a dados compartilhados e armazenamentos de objetos separados para os dados da unidade e assim por diante. Com um catálogo de dados central de conjuntos de dados semanticamente consistentes e prontos para os negócios, as novas unidades de negócios podem acessar de maneira rápida e segura os recursos do lakehouse e os dados necessários.

Usar computação sem servidor

Para computação sem servidor na plataforma do Azure Databricks, a camada de computação é executada na conta do Databricks do cliente. Os administradores de nuvem não precisam mais se conectar a fontes de cobrança ou gerenciar ambientes de nuvem complexos que exigem ajuste de cotas, criação e manutenção de recursos de rede. Os usuários se beneficiam da inicialização do cluster com quase zero de latência e da simultaneidade de consulta aprimorada.

Usar modelos de computação predefinidos

Os modelos predefinidos ajudam a controlar como os recursos de computação podem ser usados ​​ou criados pelos usuários: limite a criação de clusters por usuários a configurações prescritas ou a um determinado número, simplifique a interface do usuário ou controle os gastos limitando o custo máximo por cluster.

A plataforma Data Intelligence faz isso de duas maneiras:

  • Forneça clusters compartilhados como ambientes imediatos para os usuários. Nesses clusters, use o dimensionamento automático em um número mínimo de nós para evitar altos custos de inatividade.
  • Em um ambiente padronizado, use políticas de computação para restringir o tamanho ou os recursos do cluster ou para definir clusters que usam como referência tamanhos de camisetas (P, M, G).

Usar recursos de IA para aumentar a produtividade

Além de aumentar a produtividade, as ferramentas de IA também podem ajudar a identificar padrões de erros e fornecer insights adicionais com base nas informações fornecidas. No geral, incorporar essas ferramentas ao processo de desenvolvimento pode reduzir muito os erros e facilitar a tomada de decisões, o que resulta em um tempo de lançamento mais rápido.

O Databricks IQ, o mecanismo de conhecimento desenvolvido com IA, é a base da plataforma Data Intelligence. Ele utiliza os metadados do Catálogo do Unity para entender suas tabelas, colunas, descrições e os ativos de dados populares na sua organização a fim de fornecer respostas personalizadas. Ele habilita diversos recursos que melhoram a produtividade ao trabalhar com a plataforma, como os seguintes:

  • O Assistente do Databricks permite consultar dados por meio de uma interface conversacional, oferecendo maior produtividade no Databricks. Descreva sua tarefa em inglês e permita que o assistente gere consultas SQL, explique códigos complexos e corrija erros automaticamente.
  • Os comentários gerados por IA para qualquer tabela ou coluna de tabela gerenciada pelo Catálogo do Unity aceleram o processo de gerenciamento de metadados. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados ​​antes do salvamento. O Databricks recomenda fortemente a revisão humana de comentários gerados por IA para verificar se há imprecisões.

4. Garantir a consistência e a usabilidade dos dados

Oferecer dados como produtos reutilizáveis ​​nos quais a empresa pode confiar

Muitas vezes, as organizações que desejam basear-se em dados e IA precisam fornecer às equipes internas dados confiáveis ​​e de alta qualidade. Uma abordagem para priorizar a qualidade e a usabilidade é aplicar o pensamento do produto aos ativos de dados publicados, criando “produtos de dados” bem definidos. A criação desses produtos de dados garante que as organizações estabeleçam padrões e uma base confiável de verdade comercial para seus objetivos de dados e IA. Em última análise, os produtos de dados agregam valor quando os usuários e os aplicativos têm os dados certos, no momento certo, com a qualidade e o formato ideais. Embora isso tenha tradicionalmente resultado em operações mais eficientes e com custos mais baixos, processos mais rápidos e riscos reduzidos, os produtos de dados modernos também podem abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados no setor ou no ecossistema de parceiros de uma organização.

Confira a postagem no blog Criar produtos de dados confiáveis ​​e de alta qualidade com o Databricks.

Publicar produtos de dados semanticamente consistentes em toda a empresa

Em geral, um data lake contém dados de diversos sistemas de origem. Esses sistemas podem ter nomes diferentes para o mesmo conceito (por exemplo, cliente e conta) ou usar o mesmo identificador para se referir a conceitos diferentes. Para que os usuários corporativos possam combinar esses conjuntos de dados de maneira fácil e significativa, os dados devem ser homogêneos em todas as fontes para serem semanticamente consistentes. Além disso, para que alguns dados sejam valiosos nas análises, é preciso aplicar corretamente regras de negócios internas, como o reconhecimento de receitas. Para garantir que todos os usuários estejam usando os dados interpretados corretamente, os conjuntos de dados com essas regras devem ser disponibilizados e publicados no Catálogo do Unity. O acesso aos dados de origem deve ser restrito às equipes que entendem o uso correto.

Fornecer um catálogo central para descoberta e linhagem

Um catálogo central para descoberta e linhagem ajuda os consumidores de dados a acessar dados de diversas fontes em toda a empresa, o que reduz a sobrecarga operacional para a equipe de governança central.

No Catálogo do Unity, os administradores e administradores de dados gerenciam os usuários e seu acesso aos dados centralmente em todos os workspaces em uma conta do Azure Databricks. Usuários em diferentes workspaces podem compartilhar os mesmos dados e, dependendo dos privilégios concedidos centralmente no Catálogo do Unity, podem acessar os dados em conjunto.

Para a descoberta de dados, o Catálogo do Unity dá suporte a usuários com recursos como os seguintes:

  • O Explorador de Catálogo é a interface de usuário principal para muitos recursos do Catálogo do Unity. É possível usá-lo para exibir detalhes do esquema, visualizar dados de amostra e conferir detalhes e propriedades da tabela. Os administradores podem exibir e alterar proprietários, e os administradores e proprietários de objetos de dados podem conceder e revogar permissões. Também é possível usar o Databricks Search, que permite que os usuários encontrem ativos de dados de maneira fácil e contínua (como tabelas, colunas, exibições, painéis, modelos e assim por diante). Os usuários recebem resultados relevantes para as solicitações de pesquisa que estejam disponíveis para eles.
  • A linhagem de dados em todas as consultas é executada em um cluster do Azure Databricks ou em um warehouse SQL. A linhagem tem suporte para todos os idiomas e é capturada até o nível da coluna. Os dados da linhagem incluem notebooks, trabalhos e painéis de controle relacionados à consulta. A linhagem pode ser visualizada no Catalog Explorer em tempo quase real e recuperada com a API REST do Azure Databricks.

Para permitir que as empresas forneçam aos usuários uma visão abrangente de todos os dados em todas as plataformas de dados, o Catálogo do Unity fornece integração com catálogos de dados corporativos (também chamados de “catálogo de catálogos”).