Поделиться через


Хранилище данных

Заметка

Служба "Аналитика временных рядов" будет прекращена 7 июля 2024 года. Рассмотрите возможность переноса существующих сред в альтернативные решения как можно скорее. Дополнительные сведения об устаревании и миграции можно найти в нашей документации .

В этой статье описывается хранение данных в Azure Time Series Insights второго поколения. Она охватывает теплые и холодные условия, доступность данных и передовой опыт.

Подготовки

При создании среды Аналитики временных рядов Azure 2-го поколения у вас есть следующие параметры:

  • Хранилище холодных данных:
    • Создайте новый ресурс службы хранилища Azure в подписке и регионе, выбранном для вашей среды.
    • Присоединение существующей учетной записи хранения Azure. Этот параметр доступен только путем развертывания из шаблона Azure Resource Manager и не отображается на портале Azure.
  • Теплое хранилище данных:
    • Теплое хранилище является необязательным и может быть включено или отключено во время или после развертывания. Если вы решите включить тёплое хранилище позже, и у вас уже имеются данные в холодном хранилище, ознакомьтесь с этим разделом ниже, чтобы понять ожидаемое поведение. Время хранения данных теплого хранилища можно настроить в течение 7–31 дней, и это также можно настроить при необходимости.

Когда событие принимается, оно индексируется как в тёплом хранилище (если оно включено), так и в холодном хранилище.

Общие сведения о хранилище

Предупреждение

Как владелец учетной записи хранения объектов Blob в Azure, где находятся данные из холодного хранилища, у вас есть полный доступ ко всем данным в учетной записи. Этот доступ включает разрешения на запись и удаление. Не изменяйте или не удаляйте данные, записываемые аналитикой временных рядов Azure 2-го поколения, так как это может привести к потере данных.

Доступность данных

Служба временных рядов Azure Insights Gen2 разбивает на части и индексирует данные для оптимальной производительности запросов. Данные становятся доступными для запроса из теплого (если включено) и холодного хранилища после индексирования. Объем данных, которые принимаются, и пропускная способность на раздел могут повлиять на доступность. Ознакомьтесь с ограничениями пропускной способности источника событий и рекомендациями по повышению производительности. Кроме того, можно настроить оповещение о задержке , если в вашей среде возникают проблемы с обработкой данных.

Важный

Вы можете столкнуться с периодом до 60 секунд до того, как данные становятся доступными через API запросов временных рядов . Если вы испытываете значительную задержку за 60 секунд, отправьте запрос в службу поддержки на портале Azure.

Вы можете столкнуться с периодом до 5 минут, прежде чем данные станут доступными при непосредственном доступе к файлам Parquet за пределами Azure Time Series Insights Gen2. Дополнительные сведения о формате файла Parquet см. в разделе .

Теплое хранилище

Данные в теплом хранилище доступны только через API для запросов временных рядов , обозреватель Azure Time Series Insights TSI или коннектор Power BI . Запросы теплого хранилища бесплатны и квота отсутствует, но существует ограничение в 30 одновременных запросов.

Теплый режим работы хранилища

  • При включении все потоки данных, передаваемые в вашу среду, будут перенаправлены в ваш warm store независимо от метки времени события. Обратите внимание, что конвейер приема потоковой передачи создается для потоковой передачи практически в реальном времени и приема исторических событий не поддерживается.

  • Период хранения вычисляется на основе индексирования события в теплом хранилище, а не метки времени события. Это означает, что данные больше не доступны в теплом хранилище после истечения срока хранения, даже если метка времени события будет в будущем.

    • Пример: событие с 10-дневными прогнозами погоды поступает и индексируется в контейнер теплого хранилища, настроенном на 7-дневный период хранения. Через семь дней прогноз больше недоступен в тёплом хранилище, но может запрашиваться из холодного.
  • Если вы включите теплое хранилище в существующей среде, которая уже имеет недавно индексированные данные в холодном хранилище данных, обратите внимание, что ваше теплое хранилище не будет восполнено этими данными.

  • Если вы только что включили теплое хранилище и столкнулись с проблемами с просмотром последних данных в обозревателе, вы можете временно отключить запросы теплого хранилища:

    Отключить теплые запросы

Холодное хранилище

В этом разделе описаны сведения о службе хранилища Azure, относящиеся к Аналитике временных рядов Azure 2-го поколения.

Для подробного описания хранилища BLOB-объектов Azure прочтите введение в хранилище BLOBов.

Учетная запись холодного хранения

Аналитика временных рядов Azure 2-го поколения сохраняет до двух копий каждого события в учетной записи хранения Azure. Одна копия сохраняет события, упорядоченные по времени приема, всегда разрешая доступ к событиям в упорядоченной по времени последовательности. Со временем Azure Time Series Insights Gen2 также создает перераспределенную копию данных для оптимизации производительности запросов.

Все данные хранятся неограниченное время в учетной записи хранения Azure.

Предупреждение

Не ограничивайте доступ к Интернету учетной записи хранения, используемой для Time Series Insights, иначе необходимое соединение оборвётся.

Написание и редактирование BLOB'ов (бинарных объектов большого размера)

Чтобы обеспечить производительность запросов и доступность данных, не изменяйте и не удаляйте большие двоичные объекты, создаваемые Аналитикой временных рядов Azure 2-го поколения.

Доступ к данным холодного хранилища

Помимо доступа к данным из обозревателя аналитики временных рядов Azure и API запросов временных рядов, вы также можете получить доступ к данным непосредственно из файлов Parquet, хранящихся в холодном хранилище. Например, вы можете читать, преобразовывать и очищать данные в записной книжке Jupyter, а затем использовать его для обучения модели машинного обучения Azure в том же рабочем процессе Spark.

Чтобы получить доступ к данным непосредственно из учетной записи хранения Azure, требуется доступ на чтение к учетной записи, используемой для хранения данных Аналитики временных рядов Azure 2-го поколения. Затем вы можете считывать выбранные данные на основе времени создания файла Parquet, расположенного в папке PT=Time, описанной ниже в разделе формата файла Parquet. Дополнительные сведения о включении доступа на чтение к учетной записи хранения см. в статье Управление доступом к ресурсам учетной записи хранения.

Удаление данных

Не удаляйте файлы Аналитики временных рядов Azure 2-го поколения. Управляйте связанными данными только из Azure Time Series Insights Gen2.

Формат файла Parquet и структура папок

Parquet — это формат столбцов с открытым исходным кодом, предназначенный для эффективного хранения и производительности. Azure Time Series Insights Gen2 использует Parquet для обеспечения высокой производительности запросов на основе идентификаторов временных рядов в больших масштабах.

Дополнительные сведения о типе файла Parquet см. в документации Parquet.

Аналитика временных рядов Azure 2-го поколения хранит копии данных следующим образом:

  • Папка PT=Time секционируется по времени приема и хранит данные примерно в порядке прибытия. Эти данные сохраняются с течением времени, и вы можете напрямую получить доступ к нему за пределами аналитики временных рядов Azure 2-го поколения, например из записных книжек Spark. Метка времени <YYYYMMDDHHMMSSfff> соответствует времени приема данных. <MinEventTimeStamp> и <MaxEventTimeStamp> соответствуют диапазону меток времени событий, включенных в файл. Путь и имя файла форматируются следующим образом:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • Папки PT=Live и PT=Tsid содержат вторую копию ваших данных, разделены для производительности выполнения запросов по временным рядам в масштабе. Эти данные оптимизированы со временем и не являются статическими. Во время репартирования некоторые события могут присутствовать в нескольких бликах, а их имена могут измениться. Эти папки используются Аналитикой временных рядов Azure 2-го поколения и не должны быть доступны напрямую; для этой цели следует использовать только PT=Time.

Заметка

Данные в папке PT=Time до июня 2021 г. могут иметь формат имени файла без диапазонов времени события: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. Внутренний формат файла одинаков, и файлы с обеими схемами именования можно использовать вместе.

  • <YYYY> отображается в виде четырехзначного представления года.
  • <MM> относится к двухзначному представлению месяца.
  • Формат <YYYYMMDDHHMMSSfff> меток времени сопоставляется с четырехзначным годом (YYYY), двухзначным месяцем (MM), двухзначным днем (DD), двухзначным часом (HH), двухзначной минутой (MM), двухзначной секундой (SS) и трехзначной миллисекундой (fff).

События Аналитики временных рядов Azure 2-го поколения сопоставляются с содержимым файла Parquet следующим образом:

  • Каждое событие сопоставляется с одной строкой.
  • Каждая строка включает столбец с меткой времени события. Свойство метки времени никогда не равно NULL. По умолчанию используется время постановки в очередь для события , если свойство метки времени не указано в источнике событий. Хранимая метка времени всегда находится в формате UTC.
  • Каждая строка содержит столбцы с идентификатором временных рядов (TSID), как это было определено при создании среды Time Series Insights второго поколения Azure. Имя свойства TSID включает суффикс _string.
  • Все остальные свойства, отправленные в виде данных телеметрии, сопоставляются с именами столбцов, которые заканчиваются _bool (логический), _datetime (метка времени), _long (long), _double (double), _string (строка) или _dynamic (динамический) в зависимости от типа свойства. Дополнительные сведения см. в поддерживаемых типов данных.
  • Эта схема сопоставления применяется к первой версии формата файла, на который ссылается V=1, и хранится в базовой папке с тем же именем. По мере развития этой функции схема сопоставления может измениться, и идентификатор ссылки может увеличиться.

Дальнейшие действия

  • Читайте о моделировании данных .

  • Запланируйте среду Azure Time Series Insights второго поколения .