Armazenamento de dados
Observação
O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar os ambientes existentes para soluções alternativas o mais rápido possível. Para mais informações sobre a descontinuação e a migração, visite nossa documentação .
Este artigo descreve o armazenamento de dados no Azure Time Series Insights Gen2. Abrange calor e frio, disponibilidade de dados e práticas recomendadas.
Provisionamento
Ao criar um ambiente do Azure Time Series Insights Gen2, você tem as seguintes opções:
- Armazenamento de dados frios:
- Crie um novo recurso de Armazenamento do Azure na assinatura e na região que você escolheu para seu ambiente.
- Anexe uma conta de Armazenamento do Azure pré-existente. Esta opção só está disponível através da implementação a partir de um modelo de do Azure Resource Managere não está visível no portal do Azure.
- Armazenamento de dados quente:
- Um armazenamento quente é opcional e pode ser ativado ou desativado durante ou após o período de provisionamento. Se decidir ativar o armazenamento quente mais tarde e já houver dados no armazenamento frio, reveja esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados de armazenamento quente pode ser configurado para 7 a 31 dias, e isso também pode ser ajustado conforme necessário.
Quando um evento é ingerido, ele é indexado no armazenamento quente (se habilitado) e no armazenamento frio.
Advertência
Como proprietário da conta de armazenamento de Blob do Azure onde residem os dados de armazenamento frio, você tem acesso total a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite nem exclua os dados que o Azure Time Series Insights Gen2 grava porque isso pode causar perda de dados.
Disponibilidade dos dados
O Azure Time Series Insights Gen2 particiona e indexa dados para um desempenho de consulta ideal. Os dados ficam disponíveis para consulta tanto no armazenamento quente (se ativado) quanto no armazenamento frio, depois de serem indexados. A quantidade de dados que está sendo ingerida e a taxa de transferência por partição podem afetar a disponibilidade. Analise a origem do evento , as limitações de taxa de transferência e as práticas recomendadas para obter o melhor desempenho. Você também pode configurar um alerta de atraso para ser notificado se seu ambiente estiver enfrentando problemas no processamento de dados.
Importante
Pode haver um período de até 60 segundos até que os dados fiquem disponíveis por meio das APIs de consulta de série temporal . Se experimentar uma latência significativa além de 60 segundos, envie um pedido de suporte através do portal do Azure.
Você pode enfrentar um período de até 5 minutos antes que os dados fiquem disponíveis ao acessar diretamente os arquivos do Parquet fora do Azure Time Series Insights Gen2. Consulte a seção formato de arquivo Parquet para obter mais informações.
Loja acolhedora
Os dados em seu armazenamento quente estão disponíveis somente por meio das APIs de Consulta de Série Temporal , do Azure Time Series Insights TSI Explorerou do Power BI Connector. As consultas de loja quente são gratuitas e não há cota, mas há um limite de de 30 solicitações simultâneas.
Comportamento em loja acolhedora
Quando estiver ativado, todos os dados transmitidos para o seu ambiente serão encaminhados para o seu armazenamento quente, independentemente da data do evento. Observe que o pipeline de ingestão de streaming é criado para streaming quase em tempo real e a ingestão de eventos históricos não é suportada.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento quente, não no carimbo de data/hora do evento. Isso significa que os dados não estarão mais disponíveis no armazenamento temporário após o término do período de retenção, mesmo que o timestamp do evento seja para o futuro.
- Exemplo: um evento com previsões meteorológicas para 10 dias é ingerido e indexado num contentor de armazenamento quente configurado com um período de retenção de 7 dias. Após sete dias, a previsão não está mais acessível no armazenamento quente, mas pode ser consultada no armazenamento frio.
Se habilitar o armazenamento quente num ambiente existente que já tenha dados recentes indexados no armazenamento a frio, observe que o seu armazenamento quente não será preenchido retroativamente com esses dados.
Se você acabou de ativar o armazenamento quente e está enfrentando problemas para visualizar seus dados recentes no Explorer, você pode desativar temporariamente as consultas de armazenamento quente:
Entreposto frigorífico
Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.
Para uma descrição completa do armazenamento de blobs do Azure, leia a introdução aos blobs de armazenamento .
A sua conta de armazenagem frigorífica
O Azure Time Series Insights Gen2 retém até duas cópias de cada evento na sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados por tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Com o tempo, o Azure Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar consultas de desempenho.
Todos os seus dados são armazenados indefinidamente na sua conta de Armazenamento do Azure.
Advertência
Não restrinja o acesso público à Internet à conta de armazenamento usada pelo Time Series Insights ou a conexão necessária será interrompida.
Escrever e editar blobs
Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua nenhum blob criado pelo Azure Time Series Insights Gen2.
Acesso a dados de armazenamento refrigerado
Além de aceder aos seus dados através do Azure Time Series Insights Explorer e das APIs de Consulta de Séries Temporais, poderá também querer aceder diretamente aos seus dados nos ficheiros Parquet armazenados no armazenamento a frio. Por exemplo, você pode ler, transformar e limpar dados em um bloco de anotações Jupyter e, em seguida, usá-lo para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.
Para acessar dados diretamente de sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Em seguida, pode-se ler os dados selecionados com base na hora de criação do arquivo Parquet localizado na pasta
Eliminação de dados
Não exclua seus arquivos do Azure Time Series Insights Gen2. Gerencie dados relacionados somente do Azure Time Series Insights Gen2.
Formato de arquivo Parquet e estrutura de pastas
O Parquet é um formato de arquivo colunar de código aberto projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para permitir o desempenho de consultas com base em ID de Séries Temporais em grande escala.
Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação do Parquet .
O Azure Time Series Insights Gen2 armazena cópias dos seus dados da seguinte forma:
A pasta
PT=Time
é particionada por tempo de ingestão e armazena dados aproximadamente em ordem de chegada. Esses dados são preservados ao longo do tempo e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como em seus blocos de anotações do Spark. O carimbo de data/hora<YYYYMMDDHHMMSSfff>
corresponde ao momento de ingestão dos dados. Os<MinEventTimeStamp>
e<MaxEventTimeStamp>
correspondem ao intervalo de carimbos de data/hora de eventos incluídos no ficheiro. O caminho e o nome do arquivo são formatados como:V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As pastas
PT=Live
ePT=Tsid
contêm uma segunda cópia dos seus dados, repartida para melhorar o desempenho de consultas de séries cronológicas em grande escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante o reparticionamento, alguns eventos podem estar presentes em vários blobs e os nomes dos blobs podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; só deve utilizáPT=Time
para esse fim.
Observação
Os dados na pasta PT=Time
anteriores a junho de 2021 podem ter um formato de nome de arquivo sem intervalos de tempo de eventos: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet
. O formato de arquivo interno é o mesmo e os arquivos com ambos os esquemas de nomenclatura podem ser usados juntos.
-
<YYYY>
corresponde a uma representação de ano com quatro dígitos. -
<MM>
mapeia para uma representação mensal de dois dígitos. - O formato
<YYYYMMDDHHMMSSfff>
dos carimbos de data/hora é mapeado para um ano de quatro dígitos (YYYY
), mês de dois dígitos (MM
), dia de dois dígitos (DD
), hora de dois dígitos (HH
), minuto de dois dígitos (MM
), segundo de dois dígitos (SS
) e milissegundo de três dígitos (fff
).
Os eventos do Azure Time Series Insights Gen2 são mapeados para o conteúdo do arquivo Parquet da seguinte maneira:
- Cada evento corresponde a uma única linha.
- Cada linha inclui a coluna com um carimbo de data/hora do evento. A propriedade timestamp nunca é nula. O padrão é o tempo enfileirado do evento se a propriedade de carimbo de data/hora não for especificada na fonte do evento. O carimbo de data e hora armazenado está sempre em UTC.
- Cada linha inclui a(s) coluna(s) de identificação da série temporal (TSID) tal como definido aquando da criação do ambiente do Azure Time Series Insights Gen2. O nome da propriedade TSID inclui o sufixo
_string
. - Todas as outras propriedades enviadas como dados de telemetria são mapeadas para nomes de coluna que terminam com
_bool
(booleano),_datetime
(carimbo de data/hora),_long
(longo),_double
(duplo),_string
(string) ou_dynamic
(dinâmico), dependendo do tipo de propriedade. Para mais informações, leia sobre os tipos de dados suportados . - Esse esquema de mapeamento se aplica à primeira versão do formato de arquivo, referenciado como V=1e armazenado na pasta base de mesmo nome. À medida que esse recurso evolui, esse esquema de mapeamento pode ser alterado e o nome de referência incrementado.
Próximos passos
Leia sobre modelagem de dados.
Planeie o seu ambiente Azure Time Series Insights Gen2.