Руководство. Вычисление статистики контейнеров с помощью Databricks

Статья
01/14/2025

В этом руководстве показано, как собирать статистику о контейнерах с помощью Хранилище BLOB-объектов Azure инвентаризации вместе с Azure Databricks.

В этом руководстве описано следующее:

Создание отчета инвентаризации
Создание рабочей области Azure Databricks и записной книжки
Чтение файла инвентаризации BLOB-объектов
Получение количества и общего размера больших двоичных объектов, моментальных снимков и версий
Получение количества БОЛЬШИХ двоичных объектов по типу BLOB-объектов и типу контента

Необходимые компоненты

Подписка Azure— создание учетной записи бесплатно
Учетная запись хранения Azure — создание учетной записи хранения

Убедитесь, что удостоверение пользователя назначено роли участника данных BLOB-объектов хранилища.

Создание отчета инвентаризации

Включите отчеты инвентаризации BLOB-объектов для учетной записи хранения. См. раздел "Включить служба хранилища Azure отчеты инвентаризации BLOB-объектов".

Используйте следующие параметры конфигурации.

Параметр	Значение
Имя правила	Blobinventory
Контейнер	<имя контейнера>
Тип объектов для инвентаризации	BLOB-объект
Типы BLOB-объектов	Блочные BLOB-объекты, страничные BLOB-объекты и большие двоичные объекты
Подтипы	включение версий BLOB-объектов, включение моментальных снимков, включение удаленных BLOB-объектов
Поля инвентаризации BLOB-объектов	Все
Частота инвентаризации	Ежедневно
Формат экспорта	CSV

Возможно, вам придется ждать до 24 часов после включения отчетов инвентаризации для создания первого отчета.

Настройка Azure Databricks

В этом разделе описано, как создать рабочую область Azure Databricks и записную книжку. Далее в этом руководстве вы вставьте фрагменты кода в ячейки записной книжки, а затем запустите их для сбора статистики контейнеров.

Создайте рабочую область Azure Databricks. См. статью "Создание рабочей области Azure Databricks".
Создайте новую записную книжку. См. статью "Создание записной книжки".
Выберите Python в качестве языка записной книжки по умолчанию.

Чтение файла инвентаризации BLOB-объектов

Скопируйте и вставьте следующий блок кода в первую ячейку, но не запускайте этот код.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

В этом блоке кода замените следующие значения:
- Замените значение заполнителя <storage-account-name> именем вашей учетной записи хранения.
- Замените <storage-account-key> значение заполнителя ключом учетной записи учетной записи хранения.
- Замените <container-name> значение заполнителя контейнером, в котором хранятся отчеты инвентаризации.
- Замените <blob-inventory-file-name> заполнитель полным именем файла инвентаризации (например: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Если у вашей учетной записи есть иерархическое пространство имен, задайте для переменной hierarchical_namespace_enabled значение True.
Нажмите кнопку "Выполнить", чтобы запустить код в этой ячейке.