Partilhar via


Melhores práticas para governança de dados e IA

Este artigo aborda as melhores práticas de governança de dados e IA, organizadas por princípios de arquitetura listados nas seções a seguir.

1. Unificar dados e gerenciamento de IA

Estabelecer um processo de governança de dados e IA

A governança de dados e IA é o gerenciamento da disponibilidade, usabilidade, integridade e segurança dos dados e ativos de IA de uma organização. Ao fortalecer a governança de dados e IA, as organizações podem garantir a qualidade dos ativos que são críticos para análises e tomadas de decisão precisas, ajudar a identificar novas oportunidades, melhorar a satisfação do cliente e, finalmente, aumentar a receita. Ele ajuda as organizações a cumprir as regulamentações de privacidade de dados e IA e melhorar as medidas de segurança, reduzindo o risco de violações de dados e penalidades. A governança eficaz de dados e IA também elimina redundâncias e simplifica o gerenciamento de dados, resultando em economia de custos e aumento da eficiência operacional.

Uma organização pode querer escolher qual modelo de governança combina melhor com ela:

  • No modelo de governança centralizado, os seus administradores de governança são proprietários do metastore e podem tomar posse de qualquer objeto, bem como de grant e revoke permissões.
  • Em um modelo de governança distribuída , o catalog ou um set de catalogs é o domínio de dados. O proprietário desse catalog pode criar e possuir todos os ativos e gerenciar a governança dentro desse domínio. Os proprietários de qualquer domínio podem operar independentemente dos proprietários de outros domínios.

A solução de governança de dados e IA Unity Catalog está integrada à plataforma de inteligência de dados Databricks. Ele suporta modelos de governança e ajuda a gerenciar perfeitamente dados estruturados e não estruturados, modelos de ML, notebooks, painéis e arquivos em qualquer nuvem ou plataforma. As Unity Catalog melhores práticas ajudam a implementar a governança de dados e IA.

Gerencie metadados para todos os dados e ativos de IA em um só lugar

Os benefícios de gerenciar metadados para todos os ativos em um só lugar são semelhantes aos benefícios de manter uma única fonte de verdade para todos os seus dados. Estes incluem a redução da redundância de dados, o aumento da integridade dos dados e a eliminação de mal-entendidos devido a diferentes definições ou taxonomias. Também é mais fácil implementar políticas, padrões e regras globais com uma única fonte.

Como prática recomendada, opere o lakehouse numa única conta com um Unity Catalog. O Unity Catalog pode gerenciar dados e volumes (arquivos arbitrários), bem como ativos de IA, como recursos e modelos de IA. O contêiner de nível superior de objetos no Unity Catalog é um metastore . Ele armazena ativos de dados (como tables e views) e as permissões que regem o acesso a eles. Use um único metastore por região de nuvem e não acesse metastores entre regiões para evitar problemas de latência.

O metastore fornece um namespace de três níveis para estruturar dados, volumes e ativos de IA:

A Databricks recomenda o uso do catalogs para fornecer segregação em toda a arquitetura de informações da sua organização. Muitas vezes, isso significa que catalogs pode corresponder ao escopo do ambiente de desenvolvimento de software, equipe ou unidade de negócios.

Rastreie dados e linhagem de IA para aumentar a visibilidade dos dados

A linhagem de dados é uma ferramenta poderosa que ajuda os líderes de dados a obter maior visibilidade e compreensão dos dados em suas organizações. A linhagem de dados descreve a transformação e o refinamento dos dados da fonte para a perceção. Inclui a captura de todos os metadados e eventos relevantes associados aos dados ao longo do seu ciclo de vida, incluindo a fonte do setde dados, que outros conjuntos de dados foram utilizados para os criar, quem os criou e quando, que transformações foram realizadas, que outros conjuntos de dados os utilizam e muitos outros eventos e atributos.

Além disso, quando você treina um modelo em um table no Unity Catalog, você pode rastrear a linhagem do modelo ao(s) conjunto(s) de dados upstream no qual ele foi treinado e avaliado.

A linhagem pode ser usada para muitos casos de uso relacionados a dados:

  • Conformidade e prontidão para auditoria: A linhagem de dados ajuda as organizações a rastrear a origem dos tables e campos. Isso é importante para atender aos requisitos de muitas regulamentações de conformidade, como o Regulamento Geral de Proteção de Dados (GDPR), o California Consumer Privacy Act (CCPA), o Health Insurance Portability and Accountability Act (HIPAA), o Basel Committee on Banking Supervision (BCBS) 239 e o Sarbanes-Oxley Act (SOX).
  • Análise de impacto/gestão de alterações: Os dados passam por várias transformações, desde a origem até o tablefinal pronto para os negócios. Compreender o impacto potencial das alterações de dados nos utilizadores a jusante torna-se importante do ponto de vista da gestão dos riscos. Esse impacto pode ser facilmente determinado usando a linhagem de dados capturada pelo Unity Catalog.
  • Garantia de qualidade de dados: Entender de onde where um set de dados veio e quais transformações foram aplicadas fornece um contexto muito melhor para cientistas de dados e analistas, permitindo que eles obtenham insights melhores e mais precisos.
  • Depuração e diagnóstico: no caso de um resultado inesperado, a linhagem de dados ajuda as equipes de dados a executar a análise da causa raiz, rastreando o erro de volta à sua origem. Isso reduz drasticamente o tempo de solução de problemas.

O Unity captura de linhagem de dados tempo de execução em consultas em execução no Azure Databricks e também linhagem de modelo. A linhagem é suportada para todos os idiomas e é capturada até ao nível column. Os dados de linhagem incluem blocos de anotações, trabalhos e painéis relacionados à consulta. A Linhagem pode ser visualizada quase em tempo real no Catalog Explorer e acessada usando a API de Linhagem de Dados REST do Databricks .

Adicione descrições consistentes aos seus metadados

As descrições fornecem contexto essencial para os dados. Eles ajudam os usuários a entender a finalidade e o conteúdo dos dados tables e columns. Essa clareza permite que eles descubram, identifiquem e filtrem mais facilmente os dados de que precisam, o que é fundamental para a análise de dados e a tomada de decisões eficazes. As descrições podem incluir informações sobre confidencialidade de dados e conformidade. Isso ajuda as organizações a atender aos requisitos legais e regulamentares de privacidade e segurança de dados. As descrições também devem incluir informações sobre a fonte, a exatidão e a relevância dos dados. Isso ajuda a garantir a integridade dos dados e promove uma melhor colaboração entre as equipes.

Dois recursos principais em Unity Catalog suportam a descrição de tables e columns. O Unity Catalog permite

  • adicionar comentários a tables e columns na forma de comentários.

    Você também pode adicionar um comentário gerado por IA para qualquer table ou tablecolumn geridos pela Unity Catalog para acelerar o processo. No entanto, os modelos de IA nem sempre são precisos e os comentários devem ser revisados antes de salvar. A Databricks recomenda fortemente a revisão humana dos comentários gerados por IA para verificar se há imprecisões.

  • adicionar tags a qualquer elemento segurável no Unity Catalog. As tags são atributos com teclas e values opcionais que você pode aplicar a diferentes objetos protegíveis no Unity Catalog. A marcação é útil para organizar e categorizar diferentes objetos protegíveis dentro de um metastore. O uso de tags também facilita a pesquisa e a descoberta de seus ativos de dados.

Permitir a descoberta de dados fácil para consumidores de dados

A fácil descoberta de dados permite que cientistas de dados, analistas de dados e engenheiros de dados descubram e façam referência rapidamente a dados relevantes e acelerem o tempo de valorização.

O Databricks Catalog Explorer fornece uma interface de usuário para explorar e gerenciar dados, esquemas (bancos de dados), tablese permissões, proprietários de dados, locais externos e credentials. Além disso, pode-se usar o separador Insights no Catalog Explorer para visualizar as consultas recentes mais frequentes e utilizadores de qualquer table registado no Unity Catalog.

Governe os ativos de IA juntamente com os dados

A relação entre governança de dados e inteligência artificial (IA) tornou-se fundamental para o sucesso. A forma como as organizações gerenciam, protegem e usam dados impacta diretamente os resultados e as considerações das implementações de IA: você não pode ter IA sem dados de qualidade e não pode ter dados de qualidade sem governança de dados.

Governar dados e IA juntos melhora o desempenho da IA, garantindo acesso contínuo a dados atualizados e de alta qualidade, levando a uma maior precisão e melhor tomada de decisões. A quebra de silos aumenta a eficiência, permitindo uma melhor colaboração e simplificando os fluxos de trabalho, resultando em maior produtividade e custos reduzidos.

A melhoria da segurança dos dados é outro benefício, pois uma abordagem de governança unificada estabelece práticas consistentes de tratamento de dados, reduzindo vulnerabilidades e melhorando a capacidade de uma organização de proteger informações confidenciais. A conformidade com as regulamentações de privacidade de dados é mais fácil de manter quando os dados e a governança de IA são integrados, já que o tratamento de dados e os processos de IA estão alinhados com os requisitos regulatórios.

De um modo geral, uma abordagem de governação unificada promove a confiança entre as partes interessadas e garante a transparência nos processos de tomada de decisões em matéria de IA, estabelecendo políticas e procedimentos claros tanto para os dados como para a IA.

Na Databricks Data Intelligence Platform, o Unity Catalog é o componente central para governar os ativos de dados e IA:

  • recurso no Unity Catalog

    Nos espaços de trabalho habilitados para Unity Catalog, os cientistas de dados podem criar funcionalidades tables no Unity Catalog. Esses recursos tables são Delta tables ou Delta Live Tables gerenciados pela Unity Catalog.

  • Modelos em Unity Catalog

    Os modelos no Unity Catalog estendem os benefícios do Unity Catalog aos modelos de ML, incluindo controle de acesso centralizado, auditoria, linhagem e descoberta de modelos em espaços de trabalho. Os principais recursos dos modelos no Unity Catalog incluem governança para modelos, linhagem cronológica de modelos, versionamento de modelos e implantação de modelos por meio de aliases.

2. Unificar dados e segurança de IA

Centralize o controle de acesso para todos os dados e ativos de IA

Centralizar o controle de acesso para todos os ativos de dados é importante porque simplifica a segurança e a governança de seus dados e ativos de IA, fornecendo um local central para administrar e auditar o acesso a esses ativos. Essa abordagem ajuda a gerenciar dados e acesso a objetos de IA de forma mais eficiente, garantindo que os requisitos operacionais em torno da segregação de tarefas sejam aplicados, o que é crucial para a conformidade regulatória e a prevenção de riscos.

A Databricks Data Intelligence Platform fornece métodos de controle de acesso a dados que descrevem quais grupos ou indivíduos podem acessar quais dados. Estas são declarações de política que podem ser extremamente granulares e específicas, até à definição de cada registo a que cada indivíduo tem acesso. Ou podem ser muito expressivos e amplos, como todos os usuários financeiros podem ver todos os dados financeiros.

O Unity Catalog centraliza os controles de acesso para todos os objetos protegíveis suportados, como tables, arquivos, modelos e muito mais. Cada objeto protegível no Unity Catalog tem um dono. O proprietário de um objeto tem todos os privilégios sobre o objeto, bem como a capacidade de grant privilégios no objeto protegível para outros principais. A Unity Catalog permite-lhe gerir privilégiose configurar o controlo de acesso usando instruções SQL DDL.

A Unity Catalog usa filtros de linha e máscaras column para um controle de acesso granular. Os filtros de linha permitem aplicar um filtro a um table para que as consultas subsequentes retornem apenas as linhas para as quais o predicado do filtro é avaliado como true. Column máscaras permitem aplicar uma função de mascaramento a um tablecolumn. A função de mascaramento é avaliada durante o tempo de execução da consulta, substituindo cada referência ao alvo column pelos resultados da função de mascaramento.

Para obter mais informações, consulte Segurança, conformidade e privacidade - Gerenciar identidade e acesso usando privilégios mínimos.

Configurar log de auditoria

O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema (ações do usuário, alterações nas configurações e assim por diante) que podem afetar a integridade do sistema. Enquanto os logs padrão do sistema são projetados para ajudar os desenvolvedores a solucionar problemas, os logs de auditoria fornecem um registro histórico da atividade para fins de conformidade e outros fins de aplicação de políticas de negócios. A manutenção de registros de auditoria robustos pode ajudar a identificar e garantir a preparação diante de ameaças, violações, fraudes e outros problemas do sistema.

O Databricks fornece acesso a logs de auditoria de atividades realizadas por usuários do Databricks, permitindo que sua organização monitore padrões detalhados de uso do Databricks. Há dois tipos de logs, logs de auditoria no nível do espaço de trabalho com eventos no nível do espaço de trabalho e logs de auditoria no nível da conta com eventos no nível da conta.

Você também pode habilitar logs de auditoria detalhados são logs de auditoria adicionais gravados sempre que uma consulta ou comando é executado em seu espaço de trabalho.

Auditar eventos da plataforma de dados

O log de auditoria é importante porque fornece uma conta detalhada das atividades do sistema. A Plataforma de Inteligência de Dados possui logs de auditoria para o acesso aos metadados (portanto, acesso aos dados) e para o compartilhamento de dados:

  • O Unity Catalogcaptura um log de auditoria das ações executadas no metastore. Isso permite que os administradores acessem detalhes refinados sobre quem acessou um determinado conjunto de dados e quais ações eles executaram.
  • Para compartilhamento seguro com o Compartilhamento Delta, o Azure Databricks fornece logs de auditoria para monitorar eventos do Compartilhamento Delta, incluindo:
    • Quando alguém cria, modifica, atualiza ou exclui um compartilhamento ou um destinatário.
    • Quando um destinatário acessa um link de ativação e baixa a credencial.
    • Quando um destinatário acede a shares ou a dados em tablespartilhados.
    • Quando a credencial de um destinatário é girada ou expira.

3. Estabelecer padrões de qualidade de dados

A plataforma de inteligência de dados Databricks fornece gerenciamento robusto da qualidade de dados com controles de qualidade, testes, monitoramento e aplicação integrados para garantir que dados precisos e úteis estejam disponíveis para cargas de trabalho de BI, análises e aprendizado de máquina downstream.

Os detalhes da implementação podem ser vistos em Confiabilidade - Gerenciar a qualidade dos dados.

Definir padrões claros de qualidade de dados

Definir padrões de qualidade de dados claros e acionáveis é crucial, porque ajuda a garantir que os dados usados para análise, relatórios e tomada de decisões sejam confiáveis e confiáveis. Documentar essas normas ajuda a garantir que elas sejam respeitadas. As normas de qualidade dos dados devem basear-se nas necessidades específicas da empresa e abordar dimensões da qualidade dos dados, como a exatidão, exaustividade, coerência, atualidade e fiabilidade:

  • Precisão: Garanta que os dados reflitam com precisão os valuesdo mundo real.
  • Exaustividade: Todos os dados necessários devem ser capturados e não devem faltar dados críticos.
  • Consistência: Os dados em todos os sistemas devem ser consistentes e não contradizer outros dados.
  • Atualidade: Os dados devem ser atualizados e disponibilizados em tempo útil.
  • Fiabilidade: Os dados devem ser obtidos e tratados de forma a garantir a sua fiabilidade.

Use ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados

Aproveite as ferramentas de qualidade de dados para criar perfis, limpar, validar e monitorar dados. Essas ferramentas ajudam a automatizar os processos de deteção e correção de problemas de qualidade de dados, o que é vital para dimensionar iniciativas de qualidade de dados em grandes conjuntos de dados típicos em data lakes

Para equipes que usam DLT, você pode usar expectativas para definir restrições de qualidade de dados no conteúdo de um conjunto de dados. As expectativas permitem garantir que os dados que chegam a tables atendem aos requisitos de qualidade de dados e fornecem informações sobre a qualidade dos dados para cada pipeline update.

Implementar e aplicar formatos e definições de dados padronizados

Formatos e definições de dados padronizados ajudam a obter uma representação consistente de dados em todos os sistemas para facilitar a integração e análise de dados, reduzir custos e melhorar a tomada de decisões, aprimorando a comunicação e a colaboração entre equipes e departamentos. Também ajuda a fornecer uma estrutura para criar e manter a qualidade dos dados.

Desenvolva e imponha um dicionário de dados padrão que inclua definições, formatos e values aceitáveis para todos os elementos de dados usados na organização.

Use convenções de nomenclatura, formatos de data e unidades de medida consistentes em todos os bancos de dados e aplicativos para evitar discrepâncias e confusão.