Visão geral do Azure Data Lake Storage Gen2 no HDInsight
O Azure Data Lake Storage Gen2 utiliza os principais recursos do Azure Data Lake Storage Gen1 e os integra ao armazenamento de Blob do Azure. Esses recursos incluem um sistema de arquivos compatível com Hadoop, Microsoft Entra ID e ACLs (listas de controle de acesso) baseadas em POSIX. Essa combinação permite que você aproveite o desempenho do Azure Data Lake Storage Gen1. Ao mesmo tempo em que usa a hierarquização e o gerenciamento do ciclo de vida dos dados do armazenamento de Blob.
Para obter mais informações sobre o Azure Data Lake Storage Gen2, veja Introdução ao Azure Data Lake Storage Gen2.
Funcionalidade principal do Azure Data Lake Storage Gen2
Acesso compatível com o Hadoop: no Azure Data Lake Storage Gen2, você pode gerenciar e acessar dados da mesma forma que faria com um HDFS (Hadoop Distributed File System). O driver do Sistema de Arquivos de Blob do Azure (ABFS) está disponível em todos os ambientes Apache Hadoop, incluindo o Azure HDInsight e o Azure Databricks. Use o ABFS para acessar dados armazenados no Data Lake Storage Gen2.
Um superconjunto de permissões POSIX: O modelo de segurança para Data Lake Gen2 suporta permissões ACL e POSIX, juntamente com alguma granularidade extra específica para Data Lake Storage Gen2. As configurações podem ser configuradas através de ferramentas de administração ou estruturas como Apache Hive e Apache Spark.
Custo-benefício: o Data Lake Storage Gen2 oferece capacidade de armazenamento e transações de baixo custo. Os ciclos de vida do armazenamento de Blob do Azure ajudam a reduzir os custos ajustando as taxas de cobrança à medida que os dados se movem ao longo do seu ciclo de vida.
Compatibilidade com ferramentas, estruturas e aplicativos de armazenamento de Blob: o Data Lake Storage Gen2 continua a trabalhar com uma ampla variedade de ferramentas, estruturas e aplicativos para armazenamento de Blob.
Driver otimizado: o driver ABFS é otimizado especificamente para análise de big data. As APIs REST correspondentes são exibidas através do ponto de extremidade do sistema de arquivos distribuídos (DFS), dfs.core.windows.net.
Novidades do Azure Data Lake Storage Gen 2
Identidades gerenciadas para acesso seguro a arquivos
O Azure HDInsight usa identidades gerenciadas para proteger o acesso de cluster a arquivos no Azure Data Lake Storage Gen2. As identidades gerenciadas são um recurso do Microsoft Entra ID que fornece aos serviços do Azure um conjunto de credenciais gerenciadas automaticamente. Essas credenciais podem ser usadas para autenticar em qualquer serviço que ofereça suporte à autenticação do Ative Directory. O uso de identidades gerenciadas não exige que você armazene credenciais em arquivos de código ou configuração.
Para obter mais informações, consulte Identidades gerenciadas para recursos do Azure.
Driver do Sistema de Arquivos de Blob do Azure
Os aplicativos Apache Hadoop esperam nativamente ler e gravar dados do armazenamento em disco local. Um driver de sistema de arquivos Hadoop como o ABFS permite que os aplicativos Hadoop trabalhem com armazenamento em nuvem. Funciona emulando operações regulares do sistema de arquivos Hadoop. O driver converte os comandos recebidos do aplicativo em operações que a plataforma de armazenamento em nuvem real entende.
Anteriormente, o driver do sistema de arquivos Hadoop convertia todas as operações do sistema de arquivos em chamadas da API REST do Armazenamento do Azure no lado do cliente. E, em seguida, invocou a API REST. Essa conversão do lado do cliente, no entanto, resultou em várias chamadas de API REST para uma única operação do sistema de arquivos, como a renomeação de um arquivo. O ABFS moveu a lógica do sistema de arquivos Hadoop do lado do cliente para o lado do servidor. A API do Azure Data Lake Storage Gen2 agora é executada em paralelo com a API de Blob. Essa migração melhora o desempenho porque agora operações comuns do sistema de arquivos Hadoop podem ser executadas com uma chamada de API REST.
Para obter mais informações, consulte O driver do sistema de arquivos de Blob do Azure (ABFS): um driver de armazenamento dedicado do Azure para Hadoop.
Esquema de URI para o Azure Data Lake Storage Gen 2
O Azure Data Lake Storage Gen2 usa um novo esquema de URI para acessar arquivos no Armazenamento do Azure a partir do HDInsight:
abfs://<FILE_SYSTEM_NAME>@<ACCOUNT_NAME>.dfs.core.windows.net/<PATH>
O esquema de URI fornece acesso criptografado SSL.
<FILE_SYSTEM_NAME>
identifica o caminho do sistema de arquivos Data Lake Storage Gen2.
<ACCOUNT_NAME>
identifica o nome da conta de Armazenamento do Azure. É necessário um nome de domínio completamente qualificado (FQDN).
<PATH>
é o nome do caminho HDFS do arquivo ou diretório.
Se os valores para <FILE_SYSTEM_NAME>
e <ACCOUNT_NAME>
não forem especificados, o sistema de arquivos padrão será usado. Para os arquivos no sistema de arquivos padrão, use um caminho relativo ou um caminho absoluto. Por exemplo, o hadoop-mapreduce-examples.jar
arquivo que vem com clusters HDInsight pode ser referido usando um dos seguintes caminhos:
abfs://myfilesystempath@myaccount.dfs.core.windows.net/example/jars/hadoop-mapreduce-examples.jar
abfs:///example/jars/hadoop-mapreduce-examples.jar /example/jars/hadoop-mapreduce-examples.jar
Nota
O nome do arquivo está hadoop-examples.jar
nos clusters das versões 2.1 e 1.6 do HDInsight. Ao trabalhar com arquivos fora do HDInsight, você descobrirá que a maioria dos utilitários não reconhece o formato ABFS, mas espera um formato de caminho básico, como example/jars/hadoop-mapreduce-examples.jar
.
Para obter mais informações, consulte Usar o URI do Azure Data Lake Storage Gen2.