Compartilhar via


Ligar e gerir o HDFS no Microsoft Purview

Este artigo descreve como registar o Sistema de Ficheiros Distribuído hadoop (HDFS) e como autenticar e interagir com o HDFS no Microsoft Purview. Para obter mais informações sobre o Microsoft Purview, leia o artigo introdutório.

Recursos compatíveis

Extração de Metadados Verificação Completa Análise Incremental Análise de Âmbito Classificação Rotulamento Política de Acesso Linhagem Compartilhamento de Dados Modo de exibição ao vivo
Sim Sim Sim Sim Sim Não Não Não Não Não

Ao analisar a origem do HDFS, o Microsoft Purview suporta a extração de metadados técnicos, incluindo o HDFS:

  • Namenode
  • Folders
  • Arquivos
  • Conjuntos de recursos

Ao configurar a análise, pode optar por analisar todo o HDFS ou pastas seletivas. Saiba mais sobre o formato de ficheiro suportado aqui.

O conector utiliza o protocolo webhdfs para ligar ao HDFS e obter metadados. A distribuição do MapR Hadoop não é suportada.

Pré-requisitos

Registrar

Esta secção descreve como registar o HDFS no Microsoft Purview com o portal de governação do Microsoft Purview.

Passos para registar

Para registar uma nova origem HDFS no seu catálogo de dados, siga estes passos:

  1. Navegue para a sua conta do Microsoft Purview no portal de governação do Microsoft Purview.
  2. Selecione Mapa de Dados no painel de navegação esquerdo.
  3. Selecione Registar
  4. Em Registar origens, selecione HDFS. Selecione Continuar.

No ecrã Registar origens (HDFS), siga estes passos:

  1. Introduza um Nome que a origem de dados será listada no Catálogo.

  2. Introduza o URL do Cluster do NameNode do HDFS sob a forma de https://<namenode>:<port> ou http://<namenode>:<port>, por exemplo https://namenodeserver.com:50470 , ou http://namenodeserver.com:50070.

  3. Selecione uma coleção na lista.

  4. Concluir para registar a origem de dados.

    Captura de ecrã do registo de origem do HDFS no Purview.

Examinar

Siga os passos abaixo para analisar o HDFS para identificar automaticamente os recursos. Para obter mais informações sobre a análise em geral, veja a nossa introdução às análises e ingestão.

Autenticação para uma análise

O tipo de autenticação suportado para uma origem HDFS é a autenticação Kerberos.

Criar e executar a análise

Para criar e executar uma nova análise, siga estes passos:

  1. Certifique-se de que está configurado um runtime de integração autoalojado. Se não estiver configurado, utilize os passos mencionados nos pré-requisitos para criar um runtime de integração autoalojado.

  2. Navegue para Origens.

  3. Selecione a origem do HDFS registada.

  4. Selecione + Nova análise.

  5. Na página "Analisar source_name", forneça os detalhes abaixo:

    1. Nome: o nome da análise

    2. Ligar através do runtime de integração: selecione o runtime de integração autoalojado configurado. Veja os requisitos de configuração na secção Pré-requisitos .

    3. Credencial: selecione a credencial para ligar à sua origem de dados. Certifique-se de que:

      • Selecione Autenticação Kerberos ao criar uma credencial.
      • Indique o nome de utilizador no formato de no campo De entrada Nome de <username>@<domain>.com utilizador. Saiba mais em Utilizar a autenticação Kerberos para o conector HDFS.
      • Armazene a palavra-passe de utilizador utilizada para ligar ao HDFS na chave secreta.

      Captura de ecrã a mostrar as configurações de análise do HDFS no Purview.

  6. Selecione Testar ligação.

  7. Selecione Continuar.

  8. Na página "Âmbito da análise", selecione os caminhos que pretende analisar.

  9. Na página "Selecionar um conjunto de regras de análise", selecione o conjunto de regras de análise que pretende utilizar para a extração e classificação de esquemas. Pode escolher entre a predefinição do sistema, os conjuntos de regras personalizadas existentes ou criar um novo conjunto de regras inline. Saiba mais em Criar um conjunto de regras de análise.

  10. Na página "Definir um acionador de análise", selecione o acionador de análise. Pode configurar uma agenda ou executar a análise uma vez.

  11. Reveja a análise e selecione Guardar e Executar.

Ver as suas análises e execuções de análise

Para ver as análises existentes:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de dados.
  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .
  3. Selecione a análise que tem os resultados que pretende ver. O painel mostra-lhe todas as execuções de análise anteriores, juntamente com as status e as métricas de cada execução de análise.
  4. Selecione o ID de execução para marcar os detalhes da execução da análise.

Gerir as suas análises

Para editar, cancelar ou eliminar uma análise:

  1. Aceda ao portal do Microsoft Purview. No painel esquerdo, selecione Mapa de Dados.

  2. Selecione a origem de dados. Pode ver uma lista de análises existentes nessa origem de dados em Análises recentes ou pode ver todas as análises no separador Análises .

  3. Selecione a análise que pretende gerir. Você poderá:

    • Edite a análise ao selecionar Editar análise.
    • Cancele uma análise em curso ao selecionar Cancelar execução de análise.
    • Elimine a análise ao selecionar Eliminar análise.

Observação

  • Eliminar a análise não elimina os recursos de catálogo criados a partir de análises anteriores.

Utilizar a autenticação Kerberos para o conector HDFS

Existem duas opções para configurar o ambiente no local para utilizar a autenticação Kerberos para o conector HDFS. Pode escolher o que melhor se adequa à sua situação.

Para qualquer uma das opções, certifique-se de que ativa webhdfs para o cluster do Hadoop:

  1. Crie o principal HTTP e o keytab para webhdfs.

    Importante

    O principal kerberos HTTP tem de começar com "HTTP/", de acordo com a especificação Kerberos HTTP SPNEGO. Saiba mais a partir daqui.

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. Opções de configuração do HDFS: adicione as três propriedades seguintes em hdfs-site.xml.

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

Opção 1: associar um computador de runtime de integração autoalojado no domínio Kerberos

Requisitos

  • O computador de runtime de integração autoalojado precisa de associar o domínio Kerberos e não pode aderir a nenhum domínio do Windows.

Como configurar

No servidor KDC:

Crie um principal e especifique a palavra-passe.

Importante

O nome de utilizador não deve conter o nome do anfitrião.

Kadmin> addprinc <username>@<REALM.COM>

No computador runtime de integração autoalojado:

  1. Execute o utilitário Ksetup para configurar o servidor e o realm do Kerberos Key Distribution Center (KDC).

    A máquina tem de ser configurada como membro de um grupo de trabalho, porque um realm Kerberos é diferente de um domínio do Windows. Pode alcançar esta configuração ao definir o domínio Kerberos e ao adicionar um servidor KDC ao executar os seguintes comandos. Substitua REALM.COM pelo seu próprio nome realm.

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    Depois de executar estes comandos, reinicie o computador.

  2. Verifique a configuração com o Ksetup comando . O resultado deve ser semelhante a:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

Na sua conta do Purview:

  • Configure uma credencial com o tipo de autenticação Kerberos com o nome principal e a palavra-passe do Kerberos para analisar o HDFS. Para obter detalhes de configuração, marcar a parte de definição de credenciais na secção Analisar.

Opção 2: Ativar a confiança mútua entre o domínio do Windows e o domínio Kerberos

Requisitos

  • O computador runtime de integração autoalojado tem de aderir a um domínio do Windows.
  • Precisa de permissão para atualizar as definições do controlador de domínio.

Como configurar

Observação

Substitua REALM.COM e AD.COM no tutorial seguinte pelo seu próprio nome de domínio e controlador de domínio.

No servidor KDC:

  1. Edite a configuração KDC no ficheiro krb5.conf para permitir que o KDC confie no domínio do Windows ao consultar o seguinte modelo de configuração. Por predefinição, a configuração está localizada em /etc/krb5.conf.

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    Depois de configurar o ficheiro, reinicie o serviço KDC.

  2. Prepare um principal com o nome krbtgt/REALM.COM@AD.COM no servidor KDC com o seguinte comando:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. No hadoop.security.auth_to_local ficheiro de configuração do serviço HDFS, adicione RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//.

No controlador de domínio:

  1. Execute os seguintes Ksetup comandos para adicionar uma entrada de realm:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. Estabeleça a confiança do domínio do Windows para o domínio Kerberos. [palavra-passe] é a palavra-passe do principal krbtgt/REALM.COM@AD.COM.

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. Selecione o algoritmo de encriptação utilizado no Kerberos.

    1. Selecione Gerenciador do Servidor> Política de GrupoDomínio> de Gestão>Política de Grupo Objetos>Predefinidos ou Política de Domínio Ativa e, em seguida, selecione Editar.

    2. No painel Editor gestão de Política de Grupo, selecionePolíticas> de Configuração> do ComputadorDefinições do Windows Definições>>de Segurança OpçõesdeSegurançaPolíticas> Locais e, em seguida, configure Segurança de rede: Configurar tipos de Encriptação permitidos para Kerberos.

    3. Selecione o algoritmo de encriptação que pretende utilizar quando ligar ao servidor KDC. Pode selecionar todas as opções.

      Captura de ecrã do painel Segurança de rede: Configurar tipos de encriptação permitidos para Kerberos.

    4. Utilize o Ksetup comando para especificar o algoritmo de encriptação a ser utilizado no realm especificado.

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. Crie o mapeamento entre a conta de domínio e o principal kerberos, para que possa utilizar o principal Kerberos no domínio do Windows.

    1. Selecione Ferramentas administrativas>Usuários e Computadores do Active Directory.

    2. Configure funcionalidades avançadas ao selecionar Ver>Funcionalidades Avançadas.

    3. No painel Funcionalidades Avançadas , clique com o botão direito do rato na conta para a qual pretende criar mapeamentos e, no painel Mapeamentos de Nomes , selecione o separador Nomes kerberos .

    4. Adicione um principal a partir do domínio.

      Captura de ecrã do painel Mapeamento de Identidades de Segurança.

No computador runtime de integração autoalojado:

  • Execute os seguintes Ksetup comandos para adicionar uma entrada de realm.

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

Na sua conta do Purview:

  • Configure uma credencial com o tipo de autenticação Kerberos com o nome principal e a palavra-passe do Kerberos para analisar o HDFS. Para obter detalhes de configuração, marcar a parte de definição de credenciais na secção Analisar.

Limitações conhecidas

Atualmente, o conector HDFS não suporta a regra de padrão de conjunto de recursos personalizada para o conjunto de recursos avançado, os padrões do conjunto de recursos incorporados serão aplicados.

A etiqueta de confidencialidade ainda não é suportada.

Próximas etapas

Agora que registou a sua origem, siga os guias abaixo para saber mais sobre o Microsoft Purview e os seus dados.