Armazenamento de dados

Artigo
01/21/2021

Observação

O serviço Time Series Insights será desativado em 7 de julho de 2024. Considere migrar os ambientes existentes para soluções alternativas o mais rápido possível. Para mais informações sobre a descontinuação e a migração, visite nossa documentação .

Este artigo descreve o armazenamento de dados no Azure Time Series Insights Gen2. Abrange calor e frio, disponibilidade de dados e práticas recomendadas.

Provisionamento

Ao criar um ambiente do Azure Time Series Insights Gen2, você tem as seguintes opções:

Armazenamento de dados frios:
- Crie um novo recurso de Armazenamento do Azure na assinatura e na região que você escolheu para seu ambiente.
- Anexe uma conta de Armazenamento do Azure pré-existente. Esta opção só está disponível através da implementação a partir de um modelo de do Azure Resource Managere não está visível no portal do Azure.
Armazenamento de dados quente:
- Um armazenamento quente é opcional e pode ser ativado ou desativado durante ou após o período de provisionamento. Se decidir ativar o armazenamento quente mais tarde e já houver dados no armazenamento frio, reveja esta seção abaixo para entender o comportamento esperado. O tempo de retenção de dados de armazenamento quente pode ser configurado para 7 a 31 dias, e isso também pode ser ajustado conforme necessário.

Quando um evento é ingerido, ele é indexado no armazenamento quente (se habilitado) e no armazenamento frio.

Visão geral do armazenamento

Advertência

Como proprietário da conta de armazenamento de Blob do Azure onde residem os dados de armazenamento frio, você tem acesso total a todos os dados na conta. Esse acesso inclui permissões de gravação e exclusão. Não edite nem exclua os dados que o Azure Time Series Insights Gen2 grava porque isso pode causar perda de dados.

Disponibilidade dos dados

O Azure Time Series Insights Gen2 particiona e indexa dados para um desempenho de consulta ideal. Os dados ficam disponíveis para consulta tanto no armazenamento quente (se ativado) quanto no armazenamento frio, depois de serem indexados. A quantidade de dados que está sendo ingerida e a taxa de transferência por partição podem afetar a disponibilidade. Analise a origem do evento , as limitações de taxa de transferência e as práticas recomendadas para obter o melhor desempenho. Você também pode configurar um alerta de atraso para ser notificado se seu ambiente estiver enfrentando problemas no processamento de dados.

Importante

Pode haver um período de até 60 segundos até que os dados fiquem disponíveis por meio das APIs de consulta de série temporal . Se experimentar uma latência significativa além de 60 segundos, envie um pedido de suporte através do portal do Azure.

Você pode enfrentar um período de até 5 minutos antes que os dados fiquem disponíveis ao acessar diretamente os arquivos do Parquet fora do Azure Time Series Insights Gen2. Consulte a seção formato de arquivo Parquet para obter mais informações.

Loja acolhedora

Os dados em seu armazenamento quente estão disponíveis somente por meio das APIs de Consulta de Série Temporal , do Azure Time Series Insights TSI Explorerou do Power BI Connector. As consultas de loja quente são gratuitas e não há cota, mas há um limite de de 30 solicitações simultâneas.

Comportamento em loja acolhedora

Quando estiver ativado, todos os dados transmitidos para o seu ambiente serão encaminhados para o seu armazenamento quente, independentemente da data do evento. Observe que o pipeline de ingestão de streaming é criado para streaming quase em tempo real e a ingestão de eventos históricos não é suportada.
O período de retenção é calculado com base em quando o evento foi indexado no armazenamento quente, não no carimbo de data/hora do evento. Isso significa que os dados não estarão mais disponíveis no armazenamento temporário após o término do período de retenção, mesmo que o timestamp do evento seja para o futuro.
- Exemplo: um evento com previsões meteorológicas para 10 dias é ingerido e indexado num contentor de armazenamento quente configurado com um período de retenção de 7 dias. Após sete dias, a previsão não está mais acessível no armazenamento quente, mas pode ser consultada no armazenamento frio.
Se habilitar o armazenamento quente num ambiente existente que já tenha dados recentes indexados no armazenamento a frio, observe que o seu armazenamento quente não será preenchido retroativamente com esses dados.
Se você acabou de ativar o armazenamento quente e está enfrentando problemas para visualizar seus dados recentes no Explorer, você pode desativar temporariamente as consultas de armazenamento quente:

Entreposto frigorífico

Esta seção descreve os detalhes do Armazenamento do Azure relevantes para o Azure Time Series Insights Gen2.

Para uma descrição completa do armazenamento de blobs do Azure, leia a introdução aos blobs de armazenamento .

A sua conta de armazenagem frigorífica

O Azure Time Series Insights Gen2 retém até duas cópias de cada evento na sua conta de Armazenamento do Azure. Uma cópia armazena eventos ordenados por tempo de ingestão, sempre permitindo o acesso a eventos em uma sequência ordenada por tempo. Com o tempo, o Azure Time Series Insights Gen2 também cria uma cópia reparticionada dos dados para otimizar consultas de desempenho.

Todos os seus dados são armazenados indefinidamente na sua conta de Armazenamento do Azure.

Advertência

Não restrinja o acesso público à Internet à conta de armazenamento usada pelo Time Series Insights ou a conexão necessária será interrompida.

Escrever e editar blobs

Para garantir o desempenho da consulta e a disponibilidade de dados, não edite nem exclua nenhum blob criado pelo Azure Time Series Insights Gen2.

Acesso a dados de armazenamento refrigerado

Além de aceder aos seus dados através do Azure Time Series Insights Explorer e das APIs de Consulta de Séries Temporais, poderá também querer aceder diretamente aos seus dados nos ficheiros Parquet armazenados no armazenamento a frio. Por exemplo, você pode ler, transformar e limpar dados em um bloco de anotações Jupyter e, em seguida, usá-lo para treinar seu modelo do Azure Machine Learning no mesmo fluxo de trabalho do Spark.

Para acessar dados diretamente de sua conta de Armazenamento do Azure, você precisa de acesso de leitura à conta usada para armazenar seus dados do Azure Time Series Insights Gen2. Em seguida, pode-se ler os dados selecionados com base na hora de criação do arquivo Parquet localizado na pasta , descrita abaixo na secção do formato de arquivo Parquet . Para obter mais informações sobre como habilitar o acesso de leitura à sua conta de armazenamento, consulte Gerenciar o acesso aos recursos da sua conta de armazenamento.

Eliminação de dados

Não exclua seus arquivos do Azure Time Series Insights Gen2. Gerencie dados relacionados somente do Azure Time Series Insights Gen2.

Formato de arquivo Parquet e estrutura de pastas

O Parquet é um formato de arquivo colunar de código aberto projetado para armazenamento e desempenho eficientes. O Azure Time Series Insights Gen2 usa o Parquet para permitir o desempenho de consultas com base em ID de Séries Temporais em grande escala.

Para obter mais informações sobre o tipo de arquivo Parquet, leia a documentação do Parquet .

O Azure Time Series Insights Gen2 armazena cópias dos seus dados da seguinte forma:

A pasta PT=Time é particionada por tempo de ingestão e armazena dados aproximadamente em ordem de chegada. Esses dados são preservados ao longo do tempo e você pode acessá-los diretamente de fora do Azure Time Series Insight Gen2, como em seus blocos de anotações do Spark. O carimbo de data/hora <YYYYMMDDHHMMSSfff> corresponde ao momento de ingestão dos dados. Os <MinEventTimeStamp> e <MaxEventTimeStamp> correspondem ao intervalo de carimbos de data/hora de eventos incluídos no ficheiro. O caminho e o nome do arquivo são formatados como:

V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet
As pastas PT=Live e PT=Tsid contêm uma segunda cópia dos seus dados, repartida para melhorar o desempenho de consultas de séries cronológicas em grande escala. Esses dados são otimizados ao longo do tempo e não são estáticos. Durante o reparticionamento, alguns eventos podem estar presentes em vários blobs e os nomes dos blobs podem mudar. Essas pastas são usadas pelo Azure Time Series Insights Gen2 e não devem ser acessadas diretamente; só deve utilizáPT=Time para esse fim.