Inventário de blob de Armazenamento do Azure

Artigo
03/28/2024

O inventário de blobs de Armazenamento do Microsoft Azure fornece uma lista dos contêineres, blobs, versões de blob e instantâneos em sua conta de armazenamento, junto com suas propriedades associadas. Ele gera um relatório de saída no formato de valores separados por vírgula (CSV) ou Apache Parquet diariamente ou semanalmente. Você pode usar o relatório para auditar o status da retenção, retenção legal ou criptografia do conteúdo da sua conta de armazenamento, ou pode usá-lo para entender o tamanho total dos dados, a idade, a distribuição por níveis ou outros atributos dos seus dados. Você também pode usar o inventário de BLOBs para simplificar os fluxos de trabalho da sua empresa ou acelerar os trabalhos de processamento de dados, usando o inventário de BLOBs como uma automação programada das APIs Listas de Contêineres e Listas de Blobs. As regras de inventário de blobs permitem que você filtre o conteúdo do relatório por tipo, prefixo ou selecionando as propriedades do blob a serem incluídas no relatório.

O inventário do blob do Armazenamento do Azure está disponível para os seguintes tipos de contas de armazenamento:

Uso geral v2 Standard
Armazenamento de blob de blocos Premium
Armazenamento de blob

Recursos de inventário

A lista a seguir descreve recursos e funcionalidades que estão disponíveis na versão atual do inventário de blobs do Armazenamento do Azure.

Relatórios de inventário para blobs e contêineres

É possível gerar relatórios de inventário para blobs e contêineres. Um relatório de blobs pode conter blobs de base, instantâneos, tamanho do conteúdo, versões de blob e propriedades associadas, como hora de criação e hora da última modificação. Os contêineres vazios não estão listados no relatório de inventário do blob. Um relatório de contêineres descreve contêineres e propriedades associadas, como status de política de imutabilidade e status de retenção legal.
Esquema personalizado

É possível escolher quais campos aparecem nos relatórios. Escolha em uma lista os campos com suporte. Essa lista aparece posteriormente neste artigo.
Formatos de saída CSV e Apache Parquet

É possível gerar um relatório de inventário em formato de saída CSV ou Apache Parquet.
Arquivo de manifesto e evento da Grade de Eventos do Azure por relatório de inventário

Um arquivo de manifesto e um evento da Grade de Eventos do Azure são gerados a cada relatório de inventário. As opções são descritas posteriormente neste artigo.

Como habilitar os relatórios de inventário

Habilite os relatórios de inventário de blobs adicionando uma política com uma ou mais regras à sua conta de armazenamento. Para obter orientações, veja Habilitar relatórios de inventário de blobs do Armazenamento do Azure.

Atualizando uma política de inventário

Se você já é um usuário do inventário de blobs do Armazenamento do Azure que configurou o inventário antes de junho de 2021, comece a usar os novos recursos carregando a política, fazendo alterações e salvando-a em seguida. Ao recarregar a política, os novos campos nela serão preenchidos com os valores padrão. É possível alterar esses valores, caso desejado. Além disso, os dois recursos a seguir estarão disponíveis.

Um contêiner de destino agora é compatível com todas as regras em vez de somente com a política.
Um arquivo de manifesto e um evento da Grade de Eventos do Azure agora são gerados por regra em vez de por política.

Política de inventário

Um relatório de inventário é configurado por meio da adição de uma política de inventário com uma ou mais regras. Uma política de inventário é uma coleção de regras em um documento JSON.

{
  "enabled": true,
  "rules": [
  {
    "enabled": true,
    "name": "inventoryrule1",
    "destination": "inventory-destination-container",
    "definition": {. . .}
  },
  {
    "enabled": true,
    "name": "inventoryrule2",
    "destination": "inventory-destination-container",
    "definition": {. . .}
  }]
}

Veja o JSON para uma política de inventário selecionando a guia Exibição de código na seção Inventário de blobs do portal do Azure.

Nome do parâmetro	Tipo de parâmetro	Observações	Necessário?
Habilitado	booleano	Usado para desabilitar toda a política. Quando definido como true, o campo com o nível de regra habilitado substitui esse parâmetro. Quando desabilitado, o inventário de todas as regras será desabilitado.	Yes
regras	Matriz de objetos de regra	Pelo menos uma regra é necessária em uma política. Cada política fornece suporte a até 100 regras.	Yes

Regras de inventário

Uma regra captura as condições de filtragem e os parâmetros de saída necessários para gerar um relatório de inventário. Cada regra cria um relatório de inventário. As regras podem ter prefixos sobrepostos. Um blob pode aparecer em mais de um inventário, dependendo das definições de regra.

Cada regra na política tem vários parâmetros:

Nome do parâmetro	Tipo de parâmetro	Observações	Necessário?
name	string	Um nome de regra pode incluir até 256 caracteres alfanuméricos que diferenciam maiúsculas de minúsculas. O nome precisa ser exclusivo em uma política.	Yes
Habilitado	booleano	Um sinalizador que permite que uma regra seja habilitada ou desabilitada. O valor padrão é true.	Yes
definição	Definição de regra de inventário JSON	Cada definição é composta por um conjunto de filtros de regras.	Yes
destino	string	O contêiner de destino em que todos os arquivos de inventário são gerados. O contêiner de destino já precisa existir.

O sinalizador Habilitado para inventário de blobs global tem precedência sobre o parâmetro enabled em uma regra.

Definição de regra

Nome do parâmetro	Tipo de parâmetro	Observações	Obrigatório
filtros	json	Os filtros decidem se um blob ou contêiner faz parte do inventário.	Sim
format	string	Determina a saída do arquivo de inventário. Os valores válidos são `csv` (para o formato CSV) e `parquet` (para o formato Apache Parquet).	Sim
objectType	string	Indica se essa é uma regra de inventário para blobs ou contêineres. Os valores válidos são `blob` e `container`.	Sim
schedule	string	Agendamento da execução dessa regra. Os valores válidos são `daily` e `weekly`.	Sim
schemaFields	Matriz JSON	Lista de campos de esquema para fazer parte do inventário.	Sim

Filtros de regra

Vários filtros estão disponíveis para personalizar um relatório de inventário de blobs:

Nome do filtro	Tipo de filtro	Observações	Necessário?
blobTypes	Matriz de valores de enumeração predefinidos	Os valores válidos são `blockBlob` e `appendBlob` para contas habilitadas para namespace hierárquico e `blockBlob`, `appendBlob` e `pageBlob` para outras contas. Esse campo não é aplicável ao inventário em um contêiner, (objectType: `container`).	Sim
creationTime	Número	Especifica o número de dias passados no qual o blob deve ter sido criado. Por exemplo, um valor de `3` inclui no relatório somente os blobs que foram criados nos últimos três dias.	Não
prefixMatch	Uma matriz de até dez cadeias de caracteres para que os prefixos sejam correspondidos.	Se você não definir prefixMatch ou fornecer um prefixo vazio, a regra se aplicará a todos os blobs na conta de armazenamento. Um prefixo deve ser um prefixo de nome de contêiner ou um nome de contêiner. Por exemplo, `container`, `container1/foo`.	Não
excludePrefix	Matriz de até dez cadeias de caracteres para prefixos a serem excluídos.	Especifica os caminhos de blob a serem excluídos do relatório de inventário. Um prefixo excludePrefix deve ser um prefixo de nome de contêiner ou um nome de contêiner. Um excludePrefix vazio significaria que todos os blobs com nomes correspondentes a qualquer cadeia de caracteres prefixMatch serão listados. Para incluir um determinado prefixo, mas excluir algum subconjunto específico dele, use o filtro excludePrefix. Por exemplo, para incluir todos os blobs em `container-a`, exceto os da pasta `container-a/folder`, prefixoMatch deve ser definido como `container-a` e excludePrefix deve ser definido como `container-a/folder`.	Não
includeSnapshots	booleano	Especifica se o inventário deve incluir instantâneos. O padrão é `false`. Esse campo não é aplicável ao inventário em um contêiner, (objectType: `container`).	Não
includeBlobVersions	booleano	Especifica se o inventário deve incluir versões de blob. O padrão é `false`. Esse campo não é aplicável ao inventário em um contêiner, (objectType: `container`).	Não
includeDeleted	booleano	Especifica se o inventário deve incluir blobs excluídos. O padrão é `false`. Nas contas que têm um namespace hierárquico, esse filtro inclui pastas, assim como blobs que estão em um estado de exclusão temporária. Somente as pastas e arquivos (blobs) que foram excluídos explicitamente aparecem em relatórios. Os arquivos e pastas filho que são excluídos como resultado da exclusão de uma pasta pai não são incluídos no relatório.	Não

Veja o JSON para regras de inventário selecionando a guia Exibição de código na seção Inventário de blobs do portal do Azure. Os filtros são especificados em uma definição de regra.

{
  "destination": "inventory-destination-container",
  "enabled": true,
  "rules": [
  {
    "definition": {
      "filters": {
        "blobTypes": ["blockBlob", "appendBlob", "pageBlob"],
        "prefixMatch": ["inventorytestcontainer1", "inventorytestcontainer2/abcd", "etc"],
        "excludePrefix": ["inventorytestcontainer10", "etc/logs"],
        "includeSnapshots": false,
        "includeBlobVersions": true,
      },
      "format": "csv",
      "objectType": "blob",
      "schedule": "daily",
      "schemaFields": ["Name", "Creation-Time"]
    },
    "enabled": true,
    "name": "blobinventorytest",
    "destination": "inventorydestinationContainer"
  },
  {
    "definition": {
      "filters": {
        "prefixMatch": ["inventorytestcontainer1", "inventorytestcontainer2/abcd", "etc"]
      },
      "format": "csv",
      "objectType": "container",
      "schedule": "weekly",
      "schemaFields": ["Name", "HasImmutabilityPolicy", "HasLegalHold"]
    },
    "enabled": true,
    "name": "containerinventorytest",
    "destination": "inventorydestinationContainer"
    }
  ]
}

Campos de esquema personalizados com suporte para o inventário de blobs

Observação

A coluna Data Lake Storage mostra o suporte em contas que têm o recurso de namespace hierárquico habilitado.

Campo	Armazenamento de Blobs (suporte padrão)	Data Lake Storage
Nome (obrigatório)
Creation-Time
Last-Modified
LastAccessTime¹
ETag
Content-Length
Tipo de conteúdo
Codificação de conteúdo
Content-Language
Content-CRC64
Content-MD5
Cache-Control
Cache-Disposition
BlobType
AccessTier
AccessTierChangeTime
LeaseStatus
LeaseState
ServerEncrypted
CustomerProvidedKeySHA256
Metadados
Expiry-Time
hdi_isfolder
Proprietário
Grupo
Permissões
ACL
Snapshot (disponível e necessário para incluir instantâneos em seu relatório)
Excluído
DeletedId
DeletedTime
RemainingRetentionDays
VersionId (disponível e necessário para incluir versões de blob em seu relatório)
IsCurrentVersion (disponível e necessário para incluir versões de blob em seu relatório)
TagCount
Marcações
CopyId
CopySource
CopyStatus
CopyProgress
CopyCompletionTime
CopyStatusDescription
ImmutabilityPolicyUntilDate
ImmutabilityPolicyMode
LegalHold
RehydratePriority
ArchiveStatus
EncryptionScope
IncrementalCopy
x-ms-blob-sequence-number

¹ Desabilitado por padrão. Habilitar opcionalmente o rastreamento de tempo de acesso.

Campos de esquema personalizados com suporte para inventário de contêiner

Observação

A coluna Data Lake Storage mostra o suporte em contas que têm o recurso de namespace hierárquico habilitado.

Campo	Armazenamento de Blobs (suporte padrão)	Data Lake Storage
Nome (obrigatório)
Last-Modified
ETag
LeaseStatus
LeaseState
LeaseDuration
Metadados
PublicAccess
DefaultEncryptionScope
DenyEncryptionScopeOverride
HasImmutabilityPolicy
HasLegalHold
ImmutableStorageWithVersioningEnabled
Excluído (é exibido somente se “Incluir contêineres excluídos” estiver selecionado)
Versão (é exibido somente se “Incluir contêineres excluídos” estiver selecionado)
DeletedTime (será exibido somente se “Incluir contêineres excluídos” estiver selecionado)
RemainingRetentionDays (será exibido somente se “Incluir contêineres excluídos” estiver selecionado)

Execução de inventário

Se você configurar uma regra para ser executada diariamente, ela será agendada para ser executada todos os dias. Se você configurar uma regra para ser executada semanalmente, ela será agendada para ser executada toda semana no domingo no horário UTC.

A maioria das execuções de inventário é concluída dentro de 24 horas. Para contas habilitadas para namespace hierárquico, uma execução pode levar até dois dias e, dependendo do número de arquivos que estão sendo processados, ela pode não ser concluída ao final dos dois dias. A quantidade máxima de tempo que uma execução pode ser concluída antes de falhar é de seis dias.

As execuções não se sobrepõem, portanto, uma execução deve ser concluída antes que outra execução da mesma regra possa começar. Por exemplo, se uma regra for agendada para ser executada diariamente, mas a execução do dia anterior dessa mesma regra ainda estiver em andamento, a nova execução não será iniciada nesse dia. As regras agendadas para serem executadas semanalmente serão executadas todos os domingos, independentemente de uma execução anterior ter êxito ou falhar. Se uma execução não for concluída com sucesso, verifique as execuções seguintes para ver se elas foram concluídas antes de entrar em contato com o suporte. O desempenho de uma execução pode variar, portanto, se uma execução não for concluída, será possível que as execuções subsequentes sejam executadas.

As políticas de inventário são lidas ou gravadas integralmente. Não há suporte para atualizações parciais. As regras de inventário são avaliadas diariamente. Portanto, se você alterar a definição de uma regra, mas as regras de uma política já tiverem sido avaliadas para esse dia, suas atualizações não serão avaliadas até o dia seguinte.

Evento de conclusão de inventário

O evento BlobInventoryPolicyCompleted é gerado quando a execução de inventário é concluída para uma regra. Este evento também ocorre se a execução do inventário falha com um erro de usuário antes de começar. Por exemplo, uma política inválida ou um erro ocorrido quando um contêiner de destino não está presente vai disparar o evento. O seguinte JSON mostra um exemplo de evento BlobInventoryPolicyCompleted.

{
  "topic": "/subscriptions/xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx/resourceGroups/BlobInventory/providers/Microsoft.EventGrid/topics/BlobInventoryTopic",
  "subject": "BlobDataManagement/BlobInventory",
  "eventType": "Microsoft.Storage.BlobInventoryPolicyCompleted",
  "id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
  "data": {
    "scheduleDateTime": "2021-05-28T03:50:27Z",
    "accountName": "testaccount",
    "ruleName": "Rule_1",
    "policyRunStatus": "Succeeded",
    "policyRunStatusMessage": "Inventory run succeeded, refer manifest file for inventory details.",
    "policyRunId": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
    "manifestBlobUrl": "https://testaccount.blob.core.windows.net/inventory-destination-container/2021/05/26/13-25-36/Rule_1/Rule_1-manifest.json"
  },
  "dataVersion": "1.0",
  "metadataVersion": "1",
  "eventTime": "2021-05-28T15:03:18Z"
}

A tabela a seguir descreve o esquema do evento BlobInventoryPolicyCompleted.

Campo	Type	Descrição
scheduleDateTime	string	A hora em que a regra de inventário foi agendada.
accountName	string	O nome da conta de armazenamento.
ruleName	string	O nome da regra.
policyRunStatus	string	O status da execução de inventário. Os valores possíveis são `Succeeded`, `PartiallySucceeded` e `Failed`.
policyRunStatusMessage	string	A mensagem de status para a execução de inventário.
policyRunId	string	A ID de execução de política para a execução de inventário.
manifestBlobUrl	string	A URL de blob do arquivo de manifesto para a execução de inventário.

Saída de inventário

Cada regra de inventário gera um conjunto de arquivos no contêiner de destino de inventário especificado para essa regra. A saída de inventário é gerada no seguinte caminho: https://<accountName>.blob.core.windows.net/<inventory-destination-container>/YYYY/MM/DD/HH-MM-SS/<ruleName, em que:

accountName é o nome da sua conta de Armazenamento de Blobs do Azure
inventory-destination-container é o contêiner de destino especificado na regra de inventário
YYYY/MM/DD/HH-MM-SS é a hora em que o inventário começou a ser executado
ruleName é o nome da regra de inventário.

Arquivos de inventário

Cada execução de inventário gera os seguintes arquivos:

Arquivo de inventário: uma execução de inventário para uma regra gera diversos arquivos nos formatos CSV ou Apache Parquet. Cada arquivo contém objetos correspondentes e os respectivos metadados.

Importante

A partir de outubro de 2023, as execuções de inventário produzirão vários arquivos se a contagem de objetos for grande. Para saber mais, confira Perguntas Frequentes sobre produção de diversos arquivos de inventário.

Os relatórios no formato Apache Parquet apresentam datas no seguinte formato: timestamp_millis [number of milliseconds since 1970-01-01 00:00:00 UTC]. Para um arquivo formatado em CSV, a primeira linha é sempre a linha de esquema. A imagem a seguir mostra um arquivo CSV de inventário aberto no Microsoft Excel.

Importante

Os caminhos de blob que aparecem em um arquivo de inventário podem não aparecer em nenhuma ordem específica.
Arquivo de soma de verificação: um arquivo de soma de verificação contém a soma de verificação MD5 do conteúdo do arquivo manifest.json. O nome do arquivo de soma de verificação é <ruleName>-manifest.checksum. A geração do arquivo de soma de verificação marca a conclusão de uma execução de regra de inventário.

Arquivo de manifesto: um arquivo manifest.json contém os detalhes dos arquivos de inventário gerados para essa regra. O nome do arquivo é <ruleName>-manifest.json. Este arquivo também captura a definição de regra fornecida pelo usuário e o caminho para o inventário dessa regra. O JSON a seguir mostra o conteúdo de um arquivo manifest.json de amostra.

{
"destinationContainer" : "inventory-destination-container",
"endpoint" : "https://testaccount.blob.core.windows.net",
"files" : [
  {
    "blob" : "2021/05/26/13-25-36/Rule_1/Rule_1.csv",
    "size" : 12710092
  }
],
"inventoryCompletionTime" : "2021-05-26T13:35:56Z",
"inventoryStartTime" : "2021-05-26T13:25:36Z",
"ruleDefinition" : {
  "filters" : {
    "blobTypes" : [ "blockBlob" ],
    "includeBlobVersions" : false,
    "includeSnapshots" : false,
    "prefixMatch" : [ "penner-test-container-100003" ]
  },
  "format" : "csv",
  "objectType" : "blob",
  "schedule" : "daily",
  "schemaFields" : [
    "Name",
    "Creation-Time",
    "BlobType",
    "Content-Length",
    "LastAccessTime",
    "Last-Modified",
    "Metadata",
    "AccessTier"
  ]
},
"ruleName" : "Rule_1",
"status" : "Succeeded",
"summary" : {
  "objectCount" : 110000,
  "totalObjectSize" : 23789775
},
"version" : "1.0"
}

Esse arquivo é criado quando a execução é iniciada. O campo status desse arquivo é definido como Pending até que a execução seja concluída. Após a conclusão da execução, esse campo é definido com um status de conclusão (por exemplo: Succeeded ou Failed).

Preços e cobrança

O preço do inventário é baseado no número de blobs e contêineres que são verificados durante o período de faturamento. A página de preços do Armazenamento de Blobs do Azure mostra o preço por um milhão de objetos verificados. Por exemplo, se o preço para examinar um milhão de objetos for $0.003, sua conta contiver três milhões de objetos e você produzir quatro relatórios em um mês, sua fatura será de 4 * 3 * $0.003 = $0.036.

Depois que os arquivos de inventário são criados, encargos adicionais de operações e armazenamentos de dados padrão serão incorridos para armazenar, ler e gravar os arquivos gerados pelo inventário na conta.

Se uma regra contém um prefixo que se sobrepõe a um prefixo de qualquer outra, o mesmo blob pode aparecer em mais de um relatório de inventário. Nesse caso, você é cobrado por ambas as instâncias. Por exemplo, suponha que o elemento prefixMatch de uma regra seja definido como ["inventory-blob-1", "inventory-blob-2"] e o elemento prefixMatch de outra regra seja definido como ["inventory-blob-10", "inventory-blob-20"]. Um objeto nomeado inventory-blob-200 aparece em ambos os relatórios de inventário.

Instantâneos e versões de um blob também contam para o faturamento, mesmo que você tenha definido os filtros includeSnapshots e includeVersions para false. Esses valores de filtro não afetam a cobrança. É possível usá-los somente para filtrar o que aparece no relatório.

Para saber mais sobre os preços do inventário de blobs de Armazenamento do Azure, veja Preços do Armazenamento de Blobs do Azure.

Suporte a recursos

O suporte para esse recurso pode ser afetado ao habilitar o Data Lake Storage Gen2, o protocolo NFS (Sistema de Arquivos de Rede) 3.0 ou o protocolo SFTP (Protocolo de Transferência de Arquivo SSH). Se você tiver habilitado qualquer um desses recursos, consulte o Suporte a recursos de Armazenamento de Blobs nas contas de Armazenamento do Azure para avaliar o suporte para esse recurso.

Limitações e problemas conhecidos

Esta seção descreve as limitações e problemas conhecidos do recurso de inventário de blobs do Armazenamento do Azure.

A contagem de objetos do relatório de inventário e o tamanho dos dados não devem ser comparados ao faturamento

Um relatório de inventário não inclui metadados, logs do sistema e propriedades, portanto, não deve ser comparado à contagem de objetos cobrados e ao tamanho dos dados da conta de armazenamento.

Os trabalhos de inventário levam mais tempo para serem concluídos em determinados casos

Um trabalho de inventário pode levar mais tempo nesses casos:

Uma grande quantidade de novos dados é adicionada
Uma regra ou um conjunto de regras está sendo executado pela primeira vez

A execução do inventário pode levar mais tempo para ser executada em comparação com as execuções de inventário subsequentes.
Uma execução do inventário está processando uma grande quantidade de dados em contas habilitadas para namespace hierárquico

Um trabalho de inventário pode levar mais de um dia para ser concluído nas contas habilitadas para namespace hierárquico que têm centenas de milhões de blobs. Às vezes, o trabalho de inventário falha e não cria um arquivo de inventário. Se um trabalho não for concluído com sucesso, verifique os trabalhos seguintes para ver se eles foram concluídos antes de entrar em contato com o suporte.
Não há opção para gerar um relatório retrospectivamente para uma data específica.

Os trabalhos de inventário não podem gravar relatórios em contêineres que têm uma política de replicação de objeto

Uma política de replicação de objeto pode impedir que um trabalho de inventário grave relatórios de inventário no contêiner de destino. Alguns outros cenários podem arquivar os relatórios ou tornar os relatórios imutáveis quando eles são parcialmente concluídos, o que pode causar uma falha nos trabalhos de inventário.

Inventário e armazenamento imutável

Você não poderá configurar uma política de inventário na conta se o suporte para imutabilidade no nível de versão estiver habilitado nessa conta ou se o suporte para imutabilidade no nível de versão estiver habilitado no contêiner de destino definido na política de inventário.

Os relatórios podem excluir os blobs excluídos de modo reversível em contas com um namespace hierárquico

Se um contêiner ou diretório for excluído com a exclusão reversível habilitada, o contêiner ou diretório e todo o conteúdo dele serão marcados como excluídos de modo reversível. No entanto, apenas o contêiner ou diretório (relatado como um blob de comprimento zero) aparece em um relatório de inventário e não os blobs eliminados de modo reversível nesse contêiner ou diretório, mesmo que o campo includeDeleted da política seja definido como verdadeiro. Isso pode resultar em uma diferença entre o que aparece nas métricas de capacidade obtidas no portal do Azure e o que é relatado por um relatório de inventário.

Somente os blobs excluídos explicitamente aparecem nos relatórios. Portanto, para que seja possível obter uma listagem completa de todos os blobs excluídos de modo reversível (diretório e todos os blobs filhos), as cargas de trabalho devem excluir cada blob em um diretório antes de excluir o próprio diretório.

Compartilhar via