Compartilhar via


Práticas recomendadas para governança de dados e IA

Este artigo aborda as práticas recomendadas de governança de dados e IA, organizadas por princípios arquitetônicos listados nas seções a seguir.

1. Unificar dados e gerenciamento de IA

Estabelecer um processo de governança de dados e IA

A governança de dados e IA é o gerenciamento da disponibilidade, usabilidade, integridade e segurança dos dados e dos ativos de IA de uma organização. Ao fortalecer os dados e a governança de IA, as organizações podem garantir a qualidade dos ativos críticos para análise precisa e tomada de decisões, ajudar a identificar novas oportunidades, melhorar a satisfação do cliente e, finalmente, aumentar a receita. Ele ajuda as organizações a cumprir os regulamentos de privacidade de dados e IA e a melhorar as medidas de segurança, reduzindo o risco de violações de dados e penalidades. Dados efetivos e governança de IA também eliminam redundâncias e simplificam o gerenciamento de dados, resultando em economia de custos e maior eficiência operacional.

Uma organização pode querer escolher qual modelo de governança melhor se adapta a eles:

  • No modelo de governança centralizado, os administradores de governança são proprietários do metastore e podem assumir a propriedade de qualquer objeto e conceder e revogar permissões.
  • Em um modelo de governança distribuído, o catálogo ou um conjunto de catálogos é o domínio de dados. O proprietário desse catálogo pode criar e possuir todos os ativos e gerenciar a governança dentro desse domínio. Os proprietários de qualquer domínio determinado podem operar independentemente dos proprietários de outros domínios.

O Catálogo do Unity da solução de governança de dados e IA é integrado à Plataforma de Data Intelligence do Databricks. Ele dá suporte a modelos de governança e ajuda a gerenciar perfeitamente dados estruturados e não estruturados, modelos de ML, notebooks, painéis e arquivos em qualquer nuvem ou plataforma. As práticas recomendadas do Catálogo do Unity ajudam a implementar dados e governança de IA.

Gerenciar metadados para todos os dados e ativos de IA em um só lugar

Os benefícios de gerenciar metadados para todos os ativos em um só lugar são semelhantes aos benefícios de manter uma única fonte de verdade para todos os seus dados. Isso inclui a redução da redundância de dados, o aumento da integridade dos dados e a eliminação de mal-entendidos devido a definições ou taxonomias diferentes. Também é mais fácil implementar políticas globais, padrões e regras com uma única fonte.

Como prática recomendada, execute o lakehouse em uma única conta com um Catálogo do Unity. O Catálogo do Unity pode gerenciar dados e volumes (arquivos arbitrários), bem como ativos de IA, como recursos e modelos de IA. O contêiner de nível superior de objetos no Catálogo do Unity é um metastore. Ele armazena ativos de dados (como tabelas e exibições) e as permissões que regem o acesso a eles. Use um só metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.

O metastore fornece um namespace de três níveis para estruturar dados, volumes e ativos de IA:

O Databricks recomenda o uso de catálogos para fornecer separação na arquitetura de informações da sua organização. Geralmente, isso significa que os catálogos podem corresponder ao escopo do ambiente de desenvolvimento de software, à equipe ou unidade de negócios.

Acompanhar dados e a linhagem de IA para impulsionar a visibilidade dos dados

A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. A linhagem de dados descreve a transformação e o refinamento de dados da fonte para o insight. Ela inclui a captura de todos os metadados e eventos relevantes associados aos dados durante todo o ciclo de vida, incluindo a fonte do conjunto de dados, quais outros conjuntos de dados foram usados para criá-lo, quem os criou e quando, quais transformações foram executadas, quais outros conjuntos de dados o usam e muitos outros eventos e atributos.

Além disso, ao treinar um modelo em uma tabela no Catálogo do Unity, você pode acompanhar a linhagem do modelo até o(s) conjunto(s) de dados upstream nos quais ele foi treinado e avaliado.

A linhagem pode ser usada para muitos casos de uso relacionados a dados:

  • Conformidade e preparação para auditoria: a linhagem de dados ajuda as organizações a rastrear a origem de tabelas e campos. Isso é importante para atender aos requisitos de várias regulamentações de conformidade, como o GDPR (Regulamento Geral sobre a Proteção de Dados), a CCPA (Lei de Privacidade do Consumidor da Califórnia), a HIPAA (Lei de Portabilidade e Responsabilidade dos Seguros de Saúde), o BCBS (Comitê de Basileia para Supervisão Bancária) 239 e a Lei SOX (Sarbanes-Oxley).
  • Análise de impacto/gerenciamento de alterações: os dados passam por várias transformações da origem para a tabela final pronta para os negócios. Entender o impacto potencial das alterações de dados em usuários downstream torna-se importante de uma perspectiva de gerenciamento de riscos. Esse impacto pode ser facilmente determinado usando a linhagem de dados capturada pelo Catálogo do Unity.
  • Garantia de qualidade de dados: entender a origem de um conjunto de dados e quais transformações foram aplicadas fornecem um contexto muito melhor para cientistas e analistas de dados, permitindo que obtenham insights melhores e mais precisos.
  • Depuração e diagnóstico: no caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a executar a análise de causa raiz rastreando o erro de volta à origem. Isso reduz drasticamente o tempo de solução de problemas.

O Catálogo do Unity captura a linhagem de dados de runtime entre consultas em execução no Azure Databricks e também linhagem de modelo. A linhagem tem suporte para todos os idiomas e é capturada até o nível da coluna. Os dados da linhagem incluem notebooks, trabalhos e painéis de controle relacionados à consulta. A linhagem pode ser visualizada quase em tempo real no Explorador de Catálogos e acessada usando a API REST de Linhagem de Dados do Databricks.

Adicionar descrições consistentes aos metadados

As descrições fornecem contexto essencial para os dados. Eles ajudam os usuários a entender a finalidade e o conteúdo de tabelas e colunas de dados. Essa clareza permite que eles descubram, identifiquem e filtrem com mais facilidade os dados de que precisam, o que é fundamental para a análise de dados e a tomada de decisões eficazes. As descrições podem incluir informações de confidencialidade e conformidade de dados. Isso ajuda as organizações a atender aos requisitos legais e regulatórios de privacidade e segurança de dados. As descrições também devem incluir informações sobre a origem, a precisão e a relevância dos dados. Isso ajuda a garantir a integridade dos dados e promove uma melhor colaboração entre as equipes.

Dois recursos principais no Catálogo do Unity dão suporte à descrição de tabelas e colunas. O Catálogo do Unity permite

  • adicione comentários a tabelas e colunas na forma de comentários.

    Você também pode adicionar um comentário gerado por IA para qualquer tabela ou coluna de tabela gerenciada pelo Catálogo do Unity para acelerar o processo. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de salvar. O Databricks recomenda fortemente a revisão humana de comentários gerados por IA para verificar se há imprecisões.

  • adicione marcas a qualquer protegível no Catálogo do Unity. Marcas são atributos com chaves e valores opcionais que você pode aplicar a diferentes objetos protegíveis no Catálogo do Unity. A marcação é útil para organizar e categorizar diferentes objetos protegíveis em um metastore. O uso de marcas também facilita a pesquisa e a descoberta de seus ativos de dados.

Permitir a descoberta fácil de dados para consumidores de dados

Descoberta fácil de dados para permitir que cientistas, analistas e engenheiros de dados descubram e referenciem dados relevantes rapidamente e acelerem o tempo de geração de valor.

O Explorador de Catálogos do Databricks fornece uma interface do usuário para explorar e gerenciar dados, esquemas (bancos de dados), tabelas e permissões, proprietários de dados, locais externos e credenciais. Além disso, você pode usar a guia Insights no Explorador de Catálogos para exibir as consultas recentes mais frequentes e os usuários de qualquer tabela registrada no Catálogo do Unity.

Governe os ativos de IA junto com os dados

A relação entre a governança de dados e a IA (inteligência artificial) tornou-se essencial para o sucesso. A forma como as organizações gerenciam, protegem e usam dados afeta diretamente os resultados e considerações das implementações de IA: você não pode ter IA sem dados de qualidade e não pode ter dados de qualidade sem governança de dados.

Governar dados e IA em conjunto melhora o desempenho da IA, garantindo acesso contínuo a dados atualizados e de alta qualidade, levando a uma melhor precisão e melhor tomada de decisões. Dividir silos aumenta a eficiência, permitindo melhor colaboração e simplificando fluxos de trabalho, resultando em aumento da produtividade e redução de custos.

A segurança de dados aprimorada é outro benefício, pois uma abordagem de governança unificada estabelece práticas consistentes de tratamento de dados, reduzindo vulnerabilidades e melhorando a capacidade de uma organização de proteger informações confidenciais. A conformidade com as regulamentações de privacidade de dados é mais fácil de manter quando os dados e a governança de IA são integrados, pois o tratamento de dados e os processos de IA estão alinhados com os requisitos regulatórios.

No geral, uma abordagem de governança unificada promove a confiança entre os stakeholders e garante a transparência nos processos de tomada de decisão de IA estabelecendo políticas e procedimentos claros para dados e IA.

Na Plataforma de Data Intelligence do Databricks, o Catálogo do Unity é o componente central para controlar os dados e os ativos de IA:

  • Recurso no Catálogo do Unity

    Nos workspaces habilitados para o Catálogo do Unity, os cientistas de dados podem criar tabelas de recursos no Catálogo do Unity. Essas tabelas de recursos são tabelas Delta ou Tabelas Dinâmicas Delta gerenciadas pelo Catálogo do Unity.

  • Modelos no Catálogo do Unity

    Os modelos no Catálogo do Unity estendem os benefícios do Catálogo do Unity aos modelos de ML, incluindo o controle de acesso centralizado, a auditoria, a linhagem e a descoberta de modelos entre os espaços de trabalho. Os principais recursos de modelos no Catálogo do Unity incluem governança para modelos, linhagem de modelo cronológico, controle de versão de modelo e implantação de modelo por meio de aliases.

2. Unificar dados e segurança de IA

Centralizar o controle de acesso para todos os dados e ativos de IA

Centralizar o controle de acesso para todos os ativos de dados é importante porque simplifica a segurança e a governança de seus dados e ativos de IA, fornecendo um local central para administrar e auditar o acesso a esses ativos. Essa abordagem ajuda no gerenciamento de dados e no acesso a objetos de IA com mais eficiência, garantindo que os requisitos operacionais em torno da segregação do dever sejam impostos, o que é crucial para a conformidade regulatória e evitar riscos.

A Plataforma de Data Intelligence do Databricks fornece métodos de controle de acesso a dados que descrevem quais grupos ou indivíduos podem acessar quais dados. Essas são instruções de política que podem ser extremamente granulares e específicas, até a definição de cada registro ao qual cada indivíduo tem acesso. Ou eles podem ser muito expressivos e amplos, como todos os usuários financeiros podem ver todos os dados financeiros.

O Catálogo do Unity centraliza os controles de acesso para todos os objetos protegíveis com suporte, como tabelas, arquivos, modelos e muito mais. Cada objeto protegível no Catálogo do Unity tem um proprietário. O proprietário de um objeto tem todos os privilégios no objeto, bem como a capacidade de conceder privilégios no objeto protegível a outras entidades de segurança. O Catálogo do Unity permite que você gerencie privilégios e configure o controle de acesso usando instruções DDL do SQL.

O Catálogo do Unity usa filtros de linha e máscaras de coluna para controle de acesso refinado. Os filtros de linha permitem aplicar um filtro a uma tabela para que as consultas subsequentes retornem apenas linhas para as quais o predicado de filtro é avaliado como true. As máscaras de coluna permitem aplicar uma função de mascaramento a uma coluna de tabela. A função de mascaramento é avaliada no runtime de consulta, substituindo cada referência à coluna de destino pelos resultados da função de mascaramento.

Para obter mais informações, confira Segurança, conformidade e privacidade – Gerenciar a identidade e o acesso usando privilégios mínimos.

Configurar logs de auditoria

O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema (ações do usuário, alterações nas configurações e assim por diante) que podem afetar a integridade do sistema. Embora os logs padrão do sistema sejam projetados para ajudar os desenvolvedores a solucionar problemas, os logs de auditoria fornecem um registro histórico da atividade para fins de conformidade e outras políticas de negócios. Manter logs de auditoria robustos pode ajudar a identificar e garantir a preparação diante de ameaças, violações, fraudes e outros problemas do sistema.

O Databricks fornece acesso a logs de auditoria de atividades executadas por usuários do Databricks, permitindo que sua organização monitore padrões de uso detalhados do Databricks. Há dois tipos de logs, logs de auditoria no nível do workspace com eventos no nível do workspace e logs de auditoria no nível da conta com eventos no nível da conta.

Você também pode habilitar logs de auditoria detalhados que são logs de auditoria adicionais registrados sempre que uma consulta ou comando é executado em seu workspace.

Auditar eventos da plataforma de dados

O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema. A Plataforma de Data Intelligence tem logs de auditoria para o acesso a metadados (portanto, acesso a dados) e para compartilhamento de dados:

  • O Catálogo do Unity captura um log de auditoria das ações executadas no metastore. Isso permite que os administradores acessem detalhes refinados sobre quem acessou um determinado conjunto de dados e quais ações a pessoa executou.
  • Para o compartilhamento seguro com o Compartilhamento Delta, o Azure Databricks fornece logs de auditoria para monitorar eventos do Compartilhamento Delta, incluindo:
    • Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.
    • Quando um destinatário acessa um link de ativação e baixa a credencial.
    • Quando um destinatário acessa ou compartilha dados em tabelas compartilhadas.
    • Quando a credencial de um destinatário é girada ou expira.

3. Estabelecer padrões de qualidade de dados

A plataforma Databricks Data Intelligence fornece um gerenciamento robusto de qualidade de dados com controles de qualidade internos, testes, monitoramento e imposição para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI downstream, análise e machine learning.

Os detalhes da implementação podem ser vistos em Confiabilidade – Gerenciar a qualidade dos dados.

Definir padrões claros de qualidade de dados

Definir padrões de qualidade de dados claros e acionáveis é crucial, pois ajuda a garantir que os dados usados para análise, relatório e tomada de decisões sejam confiáveis e confiáveis. Documentar esses padrões ajuda a garantir que eles sejam mantidos. Os padrões de qualidade de dados devem ser baseados nas necessidades específicas da empresa e devem abordar dimensões de qualidade de dados, como precisão, integridade, consistência, linha do tempo e confiabilidade:

  • Precisão: verifique se os dados refletem com precisão os valores do mundo real.
  • Integridade: todos os dados necessários devem ser capturados e nenhum dado crítico deve estar ausente.
  • Consistência: os dados em todos os sistemas devem ser consistentes e não contradizem outros dados.
  • Linha do tempo: os dados devem ser atualizados e disponíveis em tempo hábil.
  • Confiabilidade: os dados devem ser originados e processados de uma maneira que garanta sua confiabilidade.

Usar ferramentas de qualidade de dados para criação de perfil, limpeza, validação e monitoramento de dados

Aproveite as ferramentas de qualidade de dados para criação de perfil, limpeza, validação e monitoramento de dados. Essas ferramentas ajudam a automatizar os processos de detecção e correção de problemas de qualidade de dados, o que é vital para dimensionar iniciativas de qualidade de dados em grandes conjuntos de dados típicos em data lakes

Para equipes que usam DLT, você pode usar expectativas para definir restrições de qualidade de dados no conteúdo de um conjunto de dados. As expectativas permitem que você garanta que os dados que chegam às tabelas atendam aos requisitos de qualidade de dados e fornecem insights sobre a qualidade dos dados para cada atualização do pipeline.

Implementar e impor definições e formatos de dados padronizados

Formatos e definições de dados padronizados ajudam a obter uma representação consistente de dados em todos os sistemas para facilitar a integração e análise de dados, reduzir custos e melhorar a tomada de decisões, aprimorando a comunicação e a colaboração entre equipes e departamentos. Ele também ajuda a fornecer uma estrutura para criar e manter a qualidade dos dados.

Desenvolva e imponha um dicionário de dados padrão que inclui definições, formatos e valores aceitáveis para todos os elementos de dados usados em toda a organização.

Use convenções de nomenclatura consistentes, formatos de data e unidades de medida em todos os bancos de dados e aplicativos para evitar discrepâncias e confusão.