Compartilhar via


OneLake, o OneDrive para dados

O OneLake é um lago de dados único, unificado e lógico para toda a sua organização. Um data lake processa grandes volumes de dados de várias origens. Assim como o OneDrive, o OneLake vem automaticamente com todos os locatários do Microsoft Fabric e foi projetado para ser o único lugar para todos os seus dados de análise. O OneLake traz clientes:

  • Um data lake para toda a organização
  • Uma cópia dos dados para uso com vários mecanismos analíticos

Um data lake para toda a organização

Antes do OneLake, era mais fácil para os clientes criar vários lagos para diferentes grupos de negócios em vez de colaborar em um único lago, mesmo com a sobrecarga extra de gerenciar vários recursos. O OneLake se concentra em remover esses desafios melhorando a colaboração. Cada locatário do cliente tem exatamente um OneLake. Nunca pode haver mais de um e, se você tiver o Fabric, nunca poderá haver zero. Cada locatário do Fabric provisiona automaticamente o OneLake, sem a necessidade de configurar ou gerenciar recursos adicionais.

Regido por padrão com propriedade distribuída para colaboração

O conceito de um locatário é um benefício exclusivo de um serviço de SaaS. Saber onde a organização de um cliente começa e termina fornece um limite natural de governança e conformidade, que está sob o controle de um administrador de locatários. Todos os dados que chegam ao OneLake são governados por padrão. Embora todos os dados estejam dentro dos limites definidos pelo administrador do locatário, é importante que esse administrador não se torne um gatekeeper central impedindo que outras partes da organização contribuam para o OneLake.

Em um locatário, você pode criar qualquer quantidade de workspaces. Os workspaces permitem que diferentes partes da organização distribuam políticas de propriedade e acesso. Cada workspace faz parte de uma capacidade que está vinculada a uma região específica e é cobrada separadamente.

Diagrama mostrando a função e a estrutura do OneLake.

Em um espaço de trabalho, você pode criar itens de dados e acessar todos os dados no OneLake por meio de itens de dados. Semelhante a como o Office armazena arquivos Word, Excel e PowerPoint no OneDrive, o Fabric armazena lakehouses, warehouses e outros itens no OneLake. Os itens podem proporcionar experiências personalizadas para cada persona, como a experiência do desenvolvedor do Apache Spark em um lakehouse.

Para obter mais informações sobre como começar a usar o OneLake, confira Criar um lakehouse com o OneLake.

Abrir em todos os níveis

OneLake está aberto em todos os níveis. O OneLake é construído sobre o Azure Data Lake Storage (ADLS) Gen2 e pode suportar qualquer tipo de arquivo, estruturado ou não estruturado. Todos os itens de dados do Fabric, como data warehouses e lakehouses, armazenam seus dados automaticamente no OneLake no formato parquet delta. Se um engenheiro de dados carregar dados em um lakehouse usando o Apache Spark e, em seguida, um desenvolvedor de SQL usar o T-SQL para carregar dados em um data warehouse totalmente transacional, ambos estarão contribuindo para o mesmo data lake. O OneLake armazena todos os dados tabulares no formato Delta Parquet.

O OneLake dá suporte às mesmas APIs e SDKs do ADLS Gen2 para ser compatível com aplicativos ADLS Gen2 existentes, incluindo o Azure Databricks. Você pode tratar os dados no OneLake como se fosse uma grande conta de armazenamento ADLS para toda a organização. Cada espaço de trabalho aparece como um contêiner dentro dessa conta de armazenamento, e diferentes itens de dados aparecem como pastas dentro desses contêineres.

Diagrama mostrando como acessar os dados do OneLake com APIs e SDKs.

Para obter mais informações sobre APIs e pontos de extremidade, confira Acesso e APIs do OneLake. Para obter exemplos de integrações do OneLake ao Azure, confira os artigos Azure Synapse Analytics, Gerenciador de armazenamento do Azure, Azure Databricks e Azure HDInsight.

Explorador de arquivos do OneLake para Windows

OneLake é o OneDrive para dados. Assim como o OneDrive, você pode explorar facilmente os dados do OneLake a partir do Windows usando o explorador de arquivos do OneLake para Windows. Você pode navegar por todos os seus espaços de trabalho e itens de dados, carregando, baixando ou modificando arquivos com facilidade, exatamente como faz no Office. O explorador de arquivos OneLake simplifica o trabalho com lagos de dados, permitindo que até mesmo usuários comerciais não técnicos os utilizem.

Para obter mais informações, confira Explorador de arquivos do OneLake.

Uma cópia dos dados

O OneLake tem como objetivo fornecer o maior valor possível de uma única cópia de dados sem movimentação ou duplicação de dados. Não é mais necessário copiar dados apenas para usá-los com outro mecanismo ou para quebrar silos, de modo que você possa analisar os dados com dados de outras fontes.

Os atalhos conectam dados entre domínios sem movimentação de dados

Os atalhos permitem que sua organização compartilhe facilmente dados entre usuários e aplicativos sem precisar mover e duplicar informações desnecessariamente. Quando as equipes trabalham de forma independente em workspaces separados, os atalhos permitem combinar dados entre diferentes grupos de negócios e domínios em um produto de dados virtuais para atender às necessidades específicas de um usuário.

Um atalho é uma referência aos dados armazenados em outros locais de arquivo. Esses locais de arquivo podem estar dentro do mesmo espaço de trabalho ou em espaços de trabalho diferentes, dentro do OneLake ou externos ao OneLake no ADLS ou S3 ou Dataverse – com mais locais de destino em breve. Independentemente do local, os atalhos fazem com que os arquivos e as pastas pareçam estar armazenados localmente.

Diagrama mostrando como os atalhos conectam dados entre workspaces e itens.

Para obter mais informações sobre como usar atalhos, confira Atalhos do OneLake.

Uma cópia de dados com vários mecanismos analíticos

Embora os aplicativos possam ter separação de armazenamento e computação, os dados geralmente são otimizados para um único mecanismo, o que dificulta a reutilização dos mesmos dados para vários aplicativos. Com o Fabric, os diferentes mecanismos analíticos (T-SQL, Apache Spark, Analysis Services etc.) armazenam dados no formato Parquet Delta aberto para permitir que você use os mesmos dados em vários mecanismos.

Não é mais necessário copiar dados apenas para usá-los com outro mecanismo. Você sempre pode escolher o melhor mecanismo para o trabalho que está tentando fazer. Por exemplo, imagine que você tenha uma equipe de engenheiros SQL criando um data warehouse totalmente transacional. Eles podem usar o mecanismo T-SQL e todo o poder do T-SQL para criar tabelas, transformar dados e carregar os dados nas tabelas. Se um cientista de dados quiser usar esses dados, ele não precisará mais passar por um driver Spark/SQL especial. O OneLake armazena todos os dados no formato Delta Parquet. Os cientistas de dados podem usar todo o poder do mecanismo Spark e suas bibliotecas de software livre diretamente sobre os dados.

Os usuários empresariais podem criar relatórios do Power BI diretamente sobre o OneLake usando o novo modo Direct Lake no mecanismo do Analysis Services. O mecanismo do Analysis Services é o que alimenta os modelos semânticos do Power BI, e ele sempre ofereceu dois modos de acesso aos dados: importação e consulta direta. O modo Direct Lake oferece aos usuários toda a velocidade de importação sem a necessidade de copiar os dados, combinando o melhor da importação e da consulta direta. Para obter mais informações, consulte Direct Lake.

Diagrama mostrando como vários itens e mecanismos usam a mesma cópia de dados.

Exemplo de diagrama mostrando o carregamento de dados usando o Spark, a consulta usando T-SQL e a visualização dos dados em um relatório do Power BI.