Partilhar via


Melhores práticas de interoperabilidade e usabilidade

Este artigo aborda as práticas recomendadas para interoperabilidade e usabilidade, organizadas por princípios de arquitetura listados nas seções a seguir.

1. Definir padrões de integração

Use padrões de integração padrão e reutilizáveis para integração externa

As normas de integração são importantes porque fornecem orientações sobre a forma como os dados devem ser representados, trocados e processados em diferentes sistemas e aplicações. Esses padrões ajudam a garantir que os dados sejam compatíveis, de alta qualidade e interoperáveis entre várias fontes e destinos.

O Databricks Lakehouse vem com uma API REST abrangente que permite gerenciar programaticamente quase todos os aspetos da plataforma. O servidor de API REST é executado no plano de controle e fornece um ponto de extremidade unificado para gerenciar a plataforma Azure Databricks.

A API REST fornece o nível mais baixo de integração que sempre pode ser usado. No entanto, a maneira preferida de integração com o Azure Databricks é usar abstrações de nível superior, como os SDKs do Databricks ou as ferramentas da CLI. As ferramentas CLI são baseadas em shell e permitem a fácil integração da plataforma Databricks em fluxos de trabalho de CI/CD e MLOps.

Use conectores otimizados para ingerir fontes de dados na casa do lago

O Azure Databricks oferece várias maneiras de ajudá-lo a ingerir dados no Delta Lake.

  • O Databricks fornece conectores otimizados para serviços de mensagens de fluxo, como o Apache Kafka, para ingestão de dados quase em tempo real.

  • O Databricks fornece integrações integradas a muitos sistemas de dados nativos da nuvem e suporte JDBC extensível para se conectar a outros sistemas de dados.

  • Uma opção para integrar fontes de dados sem ETL é a Lakehouse Federation. Lakehouse Federation é a plataforma de federação de consultas para Databricks. O termo federação de consultas descreve uma coleção de recursos que permitem que usuários e sistemas executem consultas em várias fontes de dados sem precisar migrar todos os dados para um sistema unificado. O Databricks usa o Unity Catalog para gerenciar a federação de consultas. As ferramentas de governança de dados e linhagem de dados do Unity Catalog garantem que o acesso aos dados seja gerenciado e auditado para todas as consultas federadas executadas pelos usuários em seus espaços de trabalho Databricks.

    Nota

    Qualquer consulta na plataforma Databricks que use uma fonte da Lakehouse Federation é enviada para essa fonte. Certifique-se de que o sistema de origem pode lidar com a carga. Além disso, esteja ciente de que, se o sistema de origem for implantado em uma região de nuvem ou nuvem diferente, há um custo de saída para cada consulta.

    Considere descarregar o acesso a bancos de dados subjacentes por meio de exibições materializadas para evitar cargas altas/simultâneas em bancos de dados operacionais e reduzir os custos de saída.

Utilize ferramentas de parceiros certificados

As organizações têm necessidades diferentes, e nenhuma ferramenta pode atendê-las todas. O Partner Connect permite que você explore e se integre facilmente com nossos parceiros, que cobrem todos os aspetos da lakehouse: ingestão de dados, preparação e transformação, BI e visualização, aprendizado de máquina, qualidade de dados e muito mais. O Partner Connect permite que você crie contas de avaliação com parceiros de tecnologia Databricks selecionados e conecte seu espaço de trabalho do Azure Databricks a soluções de parceiros da interface do usuário do Azure Databricks. Experimente soluções de parceiros usando seus dados no lago Databricks e, em seguida, adote as soluções que melhor atendem às suas necessidades de negócios.

Reduza a complexidade dos pipelines de engenharia de dados

Investir na redução da complexidade dos pipelines de engenharia de dados permite escalabilidade, agilidade e flexibilidade para poder expandir e inovar mais rapidamente. Pipelines simplificados facilitam o gerenciamento e a adaptação de todas as necessidades operacionais de um pipeline de engenharia de dados: orquestração de tarefas, gerenciamento de clusters, monitoramento, qualidade de dados e tratamento de erros.

Delta Live Tables é uma estrutura para a construção de pipelines de processamento de dados confiáveis, sustentáveis e testáveis. Você define as transformações que deseja executar em seus dados, e o Delta Live Tables lida com orquestração de tarefas, gerenciamento de cluster, monitoramento, qualidade de dados e tratamento de erros. Veja O que é Delta Live Tables?.

O Auto Loader processa de forma incremental e eficiente novos ficheiros de dados à medida que chegam ao armazenamento na nuvem. Ele pode ler de forma confiável arquivos de dados do armazenamento em nuvem. Um aspeto importante do Delta Live Tables e do Auto Loader é sua natureza declarativa: sem eles, é preciso construir pipelines complexos que integrem diferentes serviços de nuvem - como um serviço de notificação e um serviço de fila - para ler de forma confiável arquivos em nuvem com base em eventos e combinar de forma confiável fontes em lote e streaming.

O Auto Loader e o Delta Live Tables reduzem as dependências e a complexidade do sistema e melhoram muito a interoperabilidade com o armazenamento em nuvem e entre diferentes paradigmas, como lote e streaming. Como efeito colateral, a simplicidade dos pipelines aumenta a usabilidade da plataforma.

Usar infraestrutura como código (IaC) para implantações e manutenção

HashiCorp Terraform é uma ferramenta de código aberto popular para criar infraestrutura de nuvem segura e previsível em vários provedores de nuvem. Consulte Excelência operacional: usar a infraestrutura como código para implantações e manutenção

2. Utilize interfaces abertas e formatos de dados abertos

Utilizar formatos de dados abertos

A utilização de um formato de dados abertos significa que não existem restrições à sua utilização. Isso é importante porque elimina barreiras para acessar e usar os dados para análise e impulsionar insights de negócios. Formatos abertos, como os construídos no Apache Spark, também adicionam recursos que aumentam o desempenho com suporte para transações ACID, streaming unificado e processamento de dados em lote. Além disso, o código aberto é orientado pela comunidade, o que significa que a comunidade está constantemente trabalhando para melhorar os recursos existentes e adicionar novos, tornando mais fácil para os usuários tirarem o máximo proveito de seus projetos.

O principal formato de dados usado na Plataforma de Inteligência de Dados é o Delta Lake, um formato de dados totalmente aberto que oferece muitos benefícios, desde recursos de confiabilidade até aprimoramentos de desempenho, consulte Usar um formato de dados que ofereça suporte a transações ACID e Práticas recomendadas para eficiência de desempenho.

Devido à sua natureza aberta, o Lago Delta vem com um grande ecossistema. Dezenas de ferramentas e aplicativos de terceiros suportam o Delta Lake.

Para melhorar ainda mais a interoperabilidade, o Formato Universal Delta (UniForm) permite que você leia tabelas Delta com clientes leitores Iceberg. O UniForm gera automaticamente metadados do Iceberg de forma assíncrona, sem reescrever os dados, para que os clientes do Iceberg possam ler tabelas Delta como se fossem tabelas Iceberg. Uma única cópia dos arquivos de dados serve ambos os formatos.

Habilite o compartilhamento seguro de dados e IA para todos os ativos de dados

O compartilhamento de dados e ativos de IA pode levar a uma melhor colaboração e tomada de decisões. No entanto, ao compartilhar dados, é importante manter o controle, proteger seus dados e garantir a conformidade com as leis e regulamentos relevantes de compartilhamento de dados.

Delta Sharing é um protocolo aberto desenvolvido pela Databricks para compartilhar dados com segurança com outras organizações, independentemente das plataformas de computação que usam. Se você quiser compartilhar dados com usuários fora do seu espaço de trabalho Databricks, independentemente de eles usarem Databricks, você pode usar o Compartilhamento Delta aberto para compartilhar seus dados com segurança. Se quiseres partilhar dados com utilizadores que têm um espaço de trabalho Databricks com o Unity Catalog ativado, podes usar o Delta Sharing de Databricks para Databricks.

Em ambos os casos, poderá compartilhar tabelas, vistas, volumes, modelose notebooks.

  • Use o protocolo aberto Delta Sharing para compartilhar dados com parceiros.

    O Delta Sharing fornece uma solução aberta para compartilhar dados ao vivo com segurança de sua casa do lago para qualquer plataforma de computação. Os destinatários não precisam estar na plataforma Databricks, na mesma nuvem ou em qualquer nuvem. O Delta Sharing integra-se nativamente ao Unity Catalog, permitindo que as organizações gerenciem e auditem centralmente dados compartilhados e ativos de IA em toda a empresa e compartilhem com confiança dados e ativos de IA que atendam aos requisitos de segurança e conformidade.

    Os provedores de dados podem compartilhar dados em tempo real e modelos de IA de onde são armazenados na plataforma de dados sem replicá-los ou movê-los para outro sistema. Essa abordagem reduz os custos operacionais de dados e compartilhamento de IA porque os provedores de dados não precisam replicar dados várias vezes em nuvens, geografias ou plataformas de dados para cada um de seus consumidores de dados.

  • Use o compartilhamento delta de Databricks para Databricks entre usuários de Databricks.

    Se quiser compartilhar dados com usuários que não têm acesso ao metastore do Unity Catalog, você pode usar de compartilhamento delta Databricks para Databricks, desde que os destinatários tenham acesso a um espaço de trabalho Databricks habilitado para o Unity Catalog. O compartilhamento de Databricks-para-Databricks permite partilhar dados com utilizadores em outras contas Databricks, entre regiões na nuvem e entre fornecedores de serviços em nuvem. É uma ótima maneira de compartilhar dados com segurança em diferentes metastores do Unity Catalog em sua própria conta Databricks.

Use padrões abertos para o gerenciamento do ciclo de vida do ML

Como usar um formato de dados de código aberto, usar padrões abertos para seus fluxos de trabalho de IA tem benefícios semelhantes em termos de flexibilidade, agilidade, custo e segurança.

O MLflow é uma plataforma de código aberto para gerenciar o ciclo de vida de ML e IA. O Databricks oferece uma versão totalmente gerenciada e hospedada do MLflow, integrada com recursos de segurança corporativa, alta disponibilidade e outros recursos de espaço de trabalho do Databricks, como gerenciamento de experimentos e execuções e acompanhamento de revisão de notebooks.

Os componentes principais são de rastreamento de experimentação para registrar e rastrear automaticamente modelos de ML e aprendizado profundo, modelos de como um formato padrão para empacotar modelos de aprendizado de máquina, um registro de modelo integrado ao Unity Catalog e o modelo de escalável de nível empresarial que serve.

3. Simplifique a implementação de novos casos de uso

Forneça uma experiência de autoatendimento em toda a plataforma

São vários os benefícios de uma plataforma onde os utilizadores têm autonomia para utilizar as ferramentas e capacidades em função das suas necessidades. Investir na criação de uma plataforma de autoatendimento facilita o dimensionamento para atender mais usuários e gera maior eficiência, minimizando a necessidade de envolvimento humano para provisionar usuários, resolver problemas e processar solicitações de acesso.

A plataforma Databricks Data Intelligence tem todos os recursos necessários para fornecer uma experiência de autoatendimento. Embora possa haver uma etapa de aprovação obrigatória, a prática recomendada é automatizar totalmente a configuração quando uma unidade de negócios solicita acesso à casa do lago. Provisione automaticamente seu novo ambiente, sincronize usuários e use SSO para autenticação, forneça controle de acesso a dados compartilhados e armazene objetos separados para seus próprios dados, e assim por diante. Juntamente com um catálogo de dados central de conjuntos de dados semanticamente consistentes e prontos para os negócios, as novas unidades de negócios podem acessar de forma rápida e segura os recursos do lakehouse e os dados de que precisam.

Usar computação sem servidor

Para computação sem servidor na plataforma Azure Databricks, a camada de computação é executada na conta Databricks do cliente. Os administradores de nuvem não precisam mais gerenciar ambientes de nuvem complexos que exigem ajuste de cotas, criação e manutenção de recursos de rede e conexão com fontes de cobrança. Os usuários se beneficiam de latência de inicialização de cluster quase nula e simultaneidade de consulta aprimorada.

Usar modelos de computação predefinidos

Os modelos predefinidos ajudam a controlar como os recursos de computação podem ser usados ou criados pelos usuários: limite a criação de clusters de usuários às configurações prescritas ou a um determinado número, simplifique a interface do usuário ou controle os custos limitando o custo máximo por cluster.

A Plataforma de Inteligência de Dados realiza isso de duas maneiras:

  • Forneça clusters compartilhados como ambientes imediatos para os usuários. Nesses clusters, use o dimensionamento automático para um número mínimo de nós para evitar altos custos ociosos.
  • Para um ambiente padronizado, use políticas de computação para restringir o tamanho ou os recursos do cluster ou para definir clusters do tamanho de uma camiseta (S, M, L).

Use os recursos de IA para aumentar a produtividade

Além de aumentar a produtividade, as ferramentas de IA também podem ajudar a identificar padrões em erros e fornecer insights adicionais com base nas entradas. No geral, a incorporação dessas ferramentas no processo de desenvolvimento pode reduzir muito os erros e facilitar a tomada de decisões - levando a um tempo de lançamento mais rápido.

O Databricks IQ, o motor de conhecimento alimentado por IA, está no coração da Plataforma de Inteligência de Dados. Ele aproveita os metadados do Unity Catalog para entender suas tabelas, colunas, descrições e ativos de dados populares em toda a sua organização para fornecer respostas personalizadas. Ele possibilita diversos recursos que melhoram a produtividade ao trabalhar com a plataforma, como:

  • O Databricks Assistant permite consultar dados através de uma interface de conversação, tornando-o mais produtivo no Databricks. Descreva sua tarefa em inglês e deixe o assistente gerar consultas SQL, explicar códigos complexos e corrigir erros automaticamente.
  • Comentários gerados por IA para qualquer tabela ou coluna de tabela gerida pelo Unity Catalog aceleram a gestão de metadados. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de salvar. A Databricks recomenda fortemente a revisão humana dos comentários gerados por IA para verificar se há imprecisões.

4. Garantir a consistência e usabilidade dos dados

Ofereça dados como produtos reutilizáveis em que a empresa possa confiar

As organizações que buscam se tornar orientadas por IA e dados muitas vezes precisam fornecer às suas equipes internas dados confiáveis e de alta qualidade. Uma abordagem para priorizar a qualidade e a usabilidade é aplicar o pensamento do produto aos seus ativos de dados publicados, criando "produtos de dados" bem definidos. A criação desses produtos de dados garante que as organizações estabeleçam padrões e uma base confiável de verdade nos negócios para seus dados e objetivos de IA. Em última análise, os produtos de dados agregam valor quando os usuários e aplicativos têm os dados certos, no momento certo, com a qualidade certa, no formato certo. Embora esse valor tenha sido tradicionalmente realizado na forma de operações mais eficientes por meio de custos mais baixos, processos mais rápidos e riscos reduzidos, os produtos de dados modernos também podem abrir caminho para novas ofertas de valor agregado e oportunidades de compartilhamento de dados dentro do setor ou ecossistema de parceiros de uma organização.

Veja a postagem do blog Criando produtos de dados confiáveis e de alta qualidade com o Databricks.

Publique produtos de dados semanticamente consistentes em toda a empresa

Um data lake normalmente contém dados de vários sistemas de origem. Esses sistemas podem ter nomes diferentes para o mesmo conceito (por exemplo, do cliente vs. conta) ou usar o mesmo identificador para se referir a conceitos diferentes. Para que os usuários corporativos possam combinar facilmente esses conjuntos de dados de forma significativa, os dados devem ser homogêneos em todas as fontes para serem semanticamente consistentes. Além disso, para que alguns dados sejam valiosos para análise, as regras internas de negócios, como o reconhecimento de receita, devem ser aplicadas corretamente. Para garantir que todos os usuários estejam usando os dados interpretados corretamente, os conjuntos de dados com essas regras devem ser disponibilizados e publicados no Catálogo Unity. O acesso aos dados de origem deve ser restrito às equipes que entendem o uso correto.

Fornecer um catálogo central para a descoberta e a linhagem

Um catálogo central para descoberta e linhagem ajuda os consumidores de dados a acessar dados de várias fontes em toda a empresa, reduzindo assim a sobrecarga operacional para a equipe de governança central.

No Catálogo Unity, os administradores e administradores de dados gerenciam os usuários e seu acesso aos dados centralmente em todos os espaços de trabalho em uma conta do Azure Databricks. Os usuários em espaços de trabalho diferentes podem compartilhar os mesmos dados e, dependendo dos privilégios de usuário concedidos centralmente no Unity Catalog, podem acessar os dados juntos.

Para a descoberta de dados, o Unity Catalog suporta usuários com recursos como:

  • O Catalog Explorer é a interface de utilizador principal para muitos recursos do Catálogo Unity. Você pode usar o Gerenciador de Catálogos para exibir detalhes do esquema, visualizar dados de exemplo e exibir detalhes e propriedades da tabela. Os administradores podem exibir e alterar proprietários, e os administradores e proprietários de objetos de dados podem conceder e revogar permissões. Você também pode usar o Databricks Search, que permite que os usuários encontrem ativos de dados de forma fácil e transparente (como tabelas, colunas, exibições, painéis, modelos e assim por diante). São apresentados aos utilizadores resultados que são relevantes para os seus pedidos de pesquisa e aos quais têm acesso.
  • A linhagem de dados em todas as consultas é executada em um cluster do Azure Databricks ou no SQL warehouse. A linhagem é suportada para todos os idiomas e é capturada até ao nível da coluna. Os dados de linhagem incluem blocos de anotações, trabalhos e painéis relacionados à consulta. A linhagem pode ser visualizada no Catalog Explorer quase em tempo real e recuperada com a API REST do Azure Databricks.

Para permitir que as empresas forneçam aos seus usuários uma visão holística de todos os dados em todas as plataformas de dados, o Unity Catalog fornece integração com catálogos de dados corporativos (às vezes chamado de "catálogo de catálogos").