Хранилище данных
Заметка
Служба "Аналитика временных рядов" будет прекращена 7 июля 2024 года. Рассмотрите возможность переноса существующих сред в альтернативные решения как можно скорее. Дополнительные сведения об устаревании и миграции можно найти в нашей документации .
В этой статье описывается хранение данных в Azure Time Series Insights второго поколения. Она охватывает теплые и холодные условия, доступность данных и передовой опыт.
Подготовки
При создании среды Аналитики временных рядов Azure 2-го поколения у вас есть следующие параметры:
- Хранилище холодных данных:
- Теплое хранилище данных:
- Теплое хранилище является необязательным и может быть включено или отключено во время или после развертывания. Если вы решите включить тёплое хранилище позже, и у вас уже имеются данные в холодном хранилище, ознакомьтесь с этим разделом ниже, чтобы понять ожидаемое поведение. Время хранения данных теплого хранилища можно настроить в течение 7–31 дней, и это также можно настроить при необходимости.
Когда событие принимается, оно индексируется как в тёплом хранилище (если оно включено), так и в холодном хранилище.
Предупреждение
Как владелец учетной записи хранения объектов Blob в Azure, где находятся данные из холодного хранилища, у вас есть полный доступ ко всем данным в учетной записи. Этот доступ включает разрешения на запись и удаление. Не изменяйте или не удаляйте данные, записываемые аналитикой временных рядов Azure 2-го поколения, так как это может привести к потере данных.
Доступность данных
Служба временных рядов Azure Insights Gen2 разбивает на части и индексирует данные для оптимальной производительности запросов. Данные становятся доступными для запроса из теплого (если включено) и холодного хранилища после индексирования. Объем данных, которые принимаются, и пропускная способность на раздел могут повлиять на доступность. Ознакомьтесь с ограничениями пропускной способности источника событий и рекомендациями по повышению производительности. Кроме того, можно настроить оповещение о задержке , если в вашей среде возникают проблемы с обработкой данных.
Важный
Вы можете столкнуться с периодом до 60 секунд до того, как данные становятся доступными через API запросов временных рядов . Если вы испытываете значительную задержку за 60 секунд, отправьте запрос в службу поддержки на портале Azure.
Вы можете столкнуться с периодом до 5 минут, прежде чем данные станут доступными при непосредственном доступе к файлам Parquet за пределами Azure Time Series Insights Gen2. Дополнительные сведения о формате файла Parquet см. в разделе .
Теплое хранилище
Данные в теплом хранилище доступны только через API для запросов временных рядов , обозреватель Azure Time Series Insights TSI или коннектор Power BI . Запросы теплого хранилища бесплатны и квота отсутствует, но существует ограничение в 30 одновременных запросов.
Теплый режим работы хранилища
При включении все потоки данных, передаваемые в вашу среду, будут перенаправлены в ваш warm store независимо от метки времени события. Обратите внимание, что конвейер приема потоковой передачи создается для потоковой передачи практически в реальном времени и приема исторических событий не поддерживается.
Период хранения вычисляется на основе индексирования события в теплом хранилище, а не метки времени события. Это означает, что данные больше не доступны в теплом хранилище после истечения срока хранения, даже если метка времени события будет в будущем.
- Пример: событие с 10-дневными прогнозами погоды поступает и индексируется в контейнер теплого хранилища, настроенном на 7-дневный период хранения. Через семь дней прогноз больше недоступен в тёплом хранилище, но может запрашиваться из холодного.
Если вы включите теплое хранилище в существующей среде, которая уже имеет недавно индексированные данные в холодном хранилище данных, обратите внимание, что ваше теплое хранилище не будет восполнено этими данными.
Если вы только что включили теплое хранилище и столкнулись с проблемами с просмотром последних данных в обозревателе, вы можете временно отключить запросы теплого хранилища:
Холодное хранилище
В этом разделе описаны сведения о службе хранилища Azure, относящиеся к Аналитике временных рядов Azure 2-го поколения.
Для подробного описания хранилища BLOB-объектов Azure прочтите введение в хранилище BLOBов.
Учетная запись холодного хранения
Аналитика временных рядов Azure 2-го поколения сохраняет до двух копий каждого события в учетной записи хранения Azure. Одна копия сохраняет события, упорядоченные по времени приема, всегда разрешая доступ к событиям в упорядоченной по времени последовательности. Со временем Azure Time Series Insights Gen2 также создает перераспределенную копию данных для оптимизации производительности запросов.
Все данные хранятся неограниченное время в учетной записи хранения Azure.
Предупреждение
Не ограничивайте доступ к Интернету учетной записи хранения, используемой для Time Series Insights, иначе необходимое соединение оборвётся.
Написание и редактирование BLOB'ов (бинарных объектов большого размера)
Чтобы обеспечить производительность запросов и доступность данных, не изменяйте и не удаляйте большие двоичные объекты, создаваемые Аналитикой временных рядов Azure 2-го поколения.
Доступ к данным холодного хранилища
Помимо доступа к данным из обозревателя аналитики временных рядов Azure и API запросов временных рядов, вы также можете получить доступ к данным непосредственно из файлов Parquet, хранящихся в холодном хранилище. Например, вы можете читать, преобразовывать и очищать данные в записной книжке Jupyter, а затем использовать его для обучения модели машинного обучения Azure в том же рабочем процессе Spark.
Чтобы получить доступ к данным непосредственно из учетной записи хранения Azure, требуется доступ на чтение к учетной записи, используемой для хранения данных Аналитики временных рядов Azure 2-го поколения. Затем вы можете считывать выбранные данные на основе времени создания файла Parquet, расположенного в папке PT=Time
, описанной ниже в разделе формата файла Parquet. Дополнительные сведения о включении доступа на чтение к учетной записи хранения см. в статье Управление доступом к ресурсам учетной записи хранения.
Удаление данных
Не удаляйте файлы Аналитики временных рядов Azure 2-го поколения. Управляйте связанными данными только из Azure Time Series Insights Gen2.
Формат файла Parquet и структура папок
Parquet — это формат столбцов с открытым исходным кодом, предназначенный для эффективного хранения и производительности. Azure Time Series Insights Gen2 использует Parquet для обеспечения высокой производительности запросов на основе идентификаторов временных рядов в больших масштабах.
Дополнительные сведения о типе файла Parquet см. в документации Parquet.
Аналитика временных рядов Azure 2-го поколения хранит копии данных следующим образом:
Папка
PT=Time
секционируется по времени приема и хранит данные примерно в порядке прибытия. Эти данные сохраняются с течением времени, и вы можете напрямую получить доступ к нему за пределами аналитики временных рядов Azure 2-го поколения, например из записных книжек Spark. Метка времени<YYYYMMDDHHMMSSfff>
соответствует времени приема данных.<MinEventTimeStamp>
и<MaxEventTimeStamp>
соответствуют диапазону меток времени событий, включенных в файл. Путь и имя файла форматируются следующим образом:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
Папки
PT=Live
иPT=Tsid
содержат вторую копию ваших данных, разделены для производительности выполнения запросов по временным рядам в масштабе. Эти данные оптимизированы со временем и не являются статическими. Во время репартирования некоторые события могут присутствовать в нескольких бликах, а их имена могут измениться. Эти папки используются Аналитикой временных рядов Azure 2-го поколения и не должны быть доступны напрямую; для этой цели следует использовать толькоPT=Time
.
Заметка
Данные в папке PT=Time
до июня 2021 г. могут иметь формат имени файла без диапазонов времени события: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. Внутренний формат файла одинаков, и файлы с обеими схемами именования можно использовать вместе.
-
<YYYY>
отображается в виде четырехзначного представления года. -
<MM>
относится к двухзначному представлению месяца. - Формат
<YYYYMMDDHHMMSSfff>
меток времени сопоставляется с четырехзначным годом (YYYY
), двухзначным месяцем (MM
), двухзначным днем (DD
), двухзначным часом (HH
), двухзначной минутой (MM
), двухзначной секундой (SS
) и трехзначной миллисекундой (fff
).
События Аналитики временных рядов Azure 2-го поколения сопоставляются с содержимым файла Parquet следующим образом:
- Каждое событие сопоставляется с одной строкой.
- Каждая строка включает столбец с меткой времени события. Свойство метки времени никогда не равно NULL. По умолчанию используется время постановки в очередь для события , если свойство метки времени не указано в источнике событий. Хранимая метка времени всегда находится в формате UTC.
- Каждая строка содержит столбцы с идентификатором временных рядов (TSID), как это было определено при создании среды Time Series Insights второго поколения Azure. Имя свойства TSID включает суффикс
_string
. - Все остальные свойства, отправленные в виде данных телеметрии, сопоставляются с именами столбцов, которые заканчиваются
_bool
(логический),_datetime
(метка времени),_long
(long),_double
(double),_string
(строка) или_dynamic
(динамический) в зависимости от типа свойства. Дополнительные сведения см. в поддерживаемых типов данных. - Эта схема сопоставления применяется к первой версии формата файла, на который ссылается V=1, и хранится в базовой папке с тем же именем. По мере развития этой функции схема сопоставления может измениться, и идентификатор ссылки может увеличиться.