Tutorial: Calcular estatísticas de contêiner usando Databricks

Artigo
01/14/2025

Este tutorial mostra como coletar estatísticas sobre seus contêineres usando o inventário do Armazenamento de Blobs do Azure junto com o Azure Databricks.

Neste tutorial, irá aprender a:

Gerar um relatório de inventário
Criar um espaço de trabalho e um bloco de anotações do Azure Databricks
Leia o arquivo de inventário de blob
Obtenha o número e o tamanho total de blobs, instantâneos e versões
Obter o número de blobs por tipo de blob e tipo de conteúdo

Pré-requisitos

Uma subscrição do Azure - crie uma conta gratuitamente
Uma conta de armazenamento do Azure - criar uma conta de armazenamento

Certifique-se de que sua identidade de usuário tenha a função de Colaborador de Dados de Blob de Armazenamento atribuída a ela.

Gerar um relatório de inventário

Habilite relatórios de inventário de blob para sua conta de armazenamento. Consulte Habilitar relatórios de inventário de blob de armazenamento do Azure.

Use as seguintes definições de configuração:

Definição	Value
Nome da regra	blobinventory
Contentor	<Nome do seu contentor>
Tipo de objeto para inventário	Blob
Tipos de blobs	Blobs de bloco, blobs de página e blobs de acréscimo
Subtipos	incluir versões de blob, incluir instantâneos, incluir blobs excluídos
Campos de inventário de Blob	Todos
Frequência do inventário	Diárias
Formato de exportação	CSV

Talvez seja necessário aguardar até 24 horas após habilitar os relatórios de inventário para que seu primeiro relatório seja gerado.

Configurar o Azure Databricks

Nesta seção, você cria um espaço de trabalho e um bloco de anotações do Azure Databricks. Mais adiante neste tutorial, você cola trechos de código em células do bloco de anotações e os executa para coletar estatísticas de contêiner.

Crie um espaço de trabalho do Azure Databricks. Consulte Criar um espaço de trabalho do Azure Databricks.
Crie um novo bloco de notas. Consulte Criar um bloco de notas.
Escolha Python como o idioma padrão do bloco de anotações.

Leia o arquivo de inventário de blob

Copie e cole o seguinte bloco de código na primeira célula, mas ainda não execute esse código.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

Neste bloco de código, substitua os seguintes valores:
- Substitua o valor de espaço reservado <storage-account-name> pelo nome da sua conta de armazenamento.
- Substitua o valor do <storage-account-key> espaço reservado pela chave da conta da sua conta de armazenamento.
- Substitua o valor do <container-name> espaço reservado pelo contêiner que contém os relatórios de inventário.
- Substitua o espaço reservado <blob-inventory-file-name> pelo nome totalmente qualificado do arquivo de inventário (por exemplo: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Se sua conta tiver um namespace hierárquico, defina a hierarchical_namespace_enabled variável como True.
Pressione o botão Executar para executar o código nesta célula.