Compartir a través de


Almacenamiento de datos

Nota

El servicio Time Series Insights se retirará el 7 de julio de 2024. Considere la posibilidad de migrar entornos existentes a soluciones alternativas lo antes posible. Para obtener más información sobre el desuso y la migración, visite nuestra documentación de .

En este artículo se describe el almacenamiento de datos en Azure Time Series Insights Gen2. Abarca aspectos de caliente y frío, disponibilidad de datos y procedimientos recomendados.

Aprovisionamiento

Al crear un entorno de Azure Time Series Insights Gen2, tiene las siguientes opciones:

  • Almacenamiento de datos en frío:
    • Cree un nuevo recurso de Azure Storage en la suscripción y región que ha elegido para su entorno.
    • Adjunte una cuenta de Azure Storage existente. Esta opción solo está disponible mediante la implementación desde una plantilla de de Azure Resource Managery no está visible en Azure Portal.
  • Almacenamiento de datos cálido
    • Un almacén temporal es opcional y se puede habilitar o deshabilitar durante o después del provisionamiento. Si decide activar el almacenamiento cálido más adelante y ya hay datos en el almacén en frío, revise esta sección a continuación para comprender el comportamiento esperado. El tiempo de retención de datos del almacenamiento cálido se puede configurar para 7 a 31 días, y esto también se puede ajustar según sea necesario.

Cuando se ingiere un evento, se indexa tanto en el almacenamiento caliente (si está habilitado) como en el almacenamiento frío.

Información general de Almacenamiento

Advertencia

Como propietario de la cuenta de Azure Blob Storage donde residen los datos del almacenamiento en frío, tiene acceso total a todos los datos de la cuenta. Este acceso incluye permisos de escritura y eliminación. No edite ni elimine los datos que escribe Azure Time Series Insights Gen2, ya que pueden provocar la pérdida de datos.

Disponibilidad de datos

Azure Time Series Insights Gen2 crea particiones e índices de datos para obtener un rendimiento óptimo de las consultas. Los datos están disponibles para realizar consultas desde el almacenamiento intermedio (si está habilitado) y el almacenamiento en frío después de indexarlos. La cantidad de datos que se ingieren y la tasa de rendimiento por partición puede afectar a la disponibilidad. Revise las limitaciones de capacidad de procesamiento del origen de eventos y las mejores prácticas para obtener el mejor rendimiento. También puede configurar una alerta de retraso para recibir una notificación si su entorno experimenta problemas al procesar los datos.

Importante

Es posible que experimente un período de hasta 60 segundos antes de que los datos estén disponibles a través de las APIs de consulta de series temporales . Si experimenta una latencia significativa más de 60 segundos, envíe una incidencia de soporte técnico a través de Azure Portal.

Es posible que experimente un período de hasta 5 minutos antes de que los datos estén disponibles al acceder directamente a los archivos Parquet fuera de Azure Time Series Insights Gen2. Consulte la sección formato de archivo Parquet para obtener más información.

Almacén cálido

Los datos en su almacén intermedio solo están disponibles a través de las API de consulta de series temporales de , el Explorador de Azure Time Series Insights TSI o el Conector de Power BI . Las consultas de almacenamiento intermedio son gratuitas y no hay cuota, pero hay un límite de de 30 solicitudes simultáneas.

Comportamiento de almacenamiento cálido

  • Cuando esta opción está habilitada, todos los datos en flujo hacia su entorno serán dirigidos al almacén activo, independientemente de la marca de tiempo del evento. Tenga en cuenta que la canalización de ingesta de streaming se compila para el streaming casi en tiempo real y la ingesta de eventos históricos es no se admite.

  • El período de retención se calcula en función del momento en que el evento se indizó en el almacenamiento cálido, no en la marca de tiempo del evento. Esto significa que los datos ya no están disponibles en el almacenamiento caliente después de que haya transcurrido el período de retención, aunque la marca de tiempo del evento corresponda al futuro.

    • Ejemplo: un evento con previsiones meteorológicas de 10 días se procesa e indexa en un contenedor de almacenamiento cálido configurado con un período de retención de 7 días. Después de siete días, la predicción ya no es accesible en el almacenamiento cálido, pero se puede consultar desde el almacenamiento en frío.
  • Si habilita el almacenamiento intermedio en un entorno existente que ya tiene datos recientes indexados en almacenamiento en frío, tenga en cuenta que el almacenamiento intermedio no se rellenará de nuevo con estos datos.

  • Si acaba de habilitar el almacenamiento en caliente y experimenta problemas al ver los datos recientes en el Explorador, puede desactivar temporalmente las consultas de almacenamiento en caliente:

    Deshabilitar consultas activas

Almacenamiento en frío

En esta sección se describen los detalles de Azure Storage relevantes para Azure Time Series Insights Gen2.

Para obtener una descripción exhaustiva del almacenamiento de blobs en Azure, lea la introducción a Storage blobs.

Su cuenta de almacenamiento en frío

Azure Time Series Insights Gen2 conserva hasta dos copias de cada evento en la cuenta de Azure Storage. Una copia almacena los eventos ordenados por tiempo de ingesta, siempre permitiendo el acceso a eventos en una secuencia ordenada por tiempo. Con el tiempo, Azure Time Series Insights Gen2 también crea una copia repartida de los datos para optimizar las consultas de rendimiento.

Todos los datos se almacenan indefinidamente en la cuenta de Azure Storage.

Advertencia

No restrinja el acceso público a Internet a la cuenta de almacenamiento usada por Time Series Insights o se romperá la conexión necesaria.

Escritura y edición de blobs

Para garantizar el rendimiento de las consultas y la disponibilidad de los datos, no edite ni elimine ningún blobs que cree Azure Time Series Insights Gen2.

Acceso a los datos del almacén en frío

Además de acceder a los datos desde la explorador de Azure Time Series Insights y las API de consulta de serie temporal , es posible que también desee acceder a los datos directamente desde los archivos parquet almacenados en el almacén en frío. Por ejemplo, puede leer, transformar y limpiar datos en un cuaderno de Jupyter Notebook y usarlos para entrenar el modelo de Azure Machine Learning en el mismo flujo de trabajo de Spark.

Para acceder a los datos directamente desde la cuenta de Azure Storage, necesita acceso de lectura a la cuenta que se usa para almacenar los datos de Azure Time Series Insights Gen2. A continuación, puede leer los datos seleccionados en función de la hora de creación del archivo Parquet ubicado en la carpeta , descrita más abajo en la sección sobre el formato de archivo Parquet . Para obtener más información sobre cómo habilitar el acceso de lectura a la cuenta de almacenamiento, consulte Administración del acceso a los recursos de la cuenta de almacenamiento.

Eliminación de datos

No elimine los archivos de Azure Time Series Insights Gen2. Administre datos relacionados solo desde Azure Time Series Insights Gen2.

Formato de archivo Parquet y estructura de carpetas

Parquet es un formato de archivo de columnas de código abierto diseñado para un almacenamiento y un rendimiento eficientes. Azure Time Series Insights Gen2 usa Parquet para habilitar el rendimiento de las consultas basadas en identificadores de serie temporal a escala.

Para obtener más información sobre el tipo de archivo Parquet, lea la documentación de Parquet.

Azure Time Series Insights Gen2 almacena copias de los datos de la siguiente manera:

  • La carpeta PT=Time se particiona por tiempo de ingesta y almacena datos aproximadamente en orden de llegada. Estos datos se conservan con el tiempo y puede acceder directamente a ellos desde fuera de Azure Time Series Insight Gen2, como desde los cuadernos de Spark. La marca de tiempo <YYYYMMDDHHMMSSfff> corresponde al tiempo de ingesta de los datos. Los <MinEventTimeStamp> y <MaxEventTimeStamp> corresponden al intervalo de marcas de tiempo de evento incluidas en el archivo. La ruta de acceso y el nombre de archivo tienen el formato siguiente:

    V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<MinEventTimestamp>_<MaxEventTimestamp>_<TsiInternalSuffix>.parquet

  • Las carpetas PT=Live y PT=Tsid contienen una segunda copia de sus datos, reparticionados para mejorar el rendimiento de las consultas de series temporales a gran escala. Estos datos se optimizan con el tiempo y no son estáticos. Durante el reparticionamiento, algunos eventos podrían estar presentes en varios blobs y puede que los nombres de blob cambien. Azure Time Series Insights Gen2 usa estas carpetas y no se debe tener acceso directamente a estas carpetas; Solo debe usar PT=Time para ese fin.

Nota

Los datos de la carpeta PT=Time anteriores a junio de 2021 podrían tener un formato de nombre de archivo sin intervalos de tiempo de evento: V=1/PT=Time/Y=<YYYY>/M=<MM>/<BlobCreationTimestamp>_<TsiInternalSuffix>.parquet. El formato de archivo interno es el mismo y los archivos con ambos esquemas de nomenclatura se pueden usar juntos.

  • <YYYY> corresponde a una representación de año de cuatro dígitos.
  • <MM> equivale a un mes representado con dos dígitos.
  • El formato <YYYYMMDDHHMMSSfff> de las marcas de tiempo se asigna a un año de cuatro dígitos (YYYY), mes de dos dígitos (MM), día de dos dígitos (DD), hora de dos dígitos (HH), minuto de dos dígitos (MM), segundo de dos dígitos (SS) y milisegundos de tres dígitos (fff).

Los eventos de Azure Time Series Insights Gen2 se asignan al contenido del archivo Parquet de la siguiente manera:

  • Cada evento se asigna a una sola fila.
  • Cada fila incluye la marca de tiempo columna con una marca de tiempo de evento. La propiedad de marca de tiempo nunca es null. Si no se especifica la propiedad de sello de tiempo en el origen del evento, el tiempo en cola del evento predeterminado es . La marca de tiempo almacenada siempre está en UTC.
  • Cada fila incluye las columnas de identificador de serie temporal (TSID) tal como se definen cuando se crea el entorno de Azure Time Series Insights Gen2. El nombre de la propiedad TSID incluye el sufijo _string.
  • Todas las demás propiedades enviadas como datos de telemetría se asignan a nombres de columna que terminan con _bool (booleano), _datetime (marca de tiempo), _long (long), _double (double), _string (cadena) o _dynamic (dinámico), dependiendo del tipo de propiedad. Para obtener más información, lea sobre tipos de datos admitidos.
  • Este esquema de asignación se aplica a la primera versión del formato de archivo, al que se hace referencia como V=1y se almacena en la carpeta base del mismo nombre. A medida que evoluciona esta característica, este esquema de asignación podría cambiar y el nombre de referencia podría incrementarse.

Pasos siguientes

  • Obtenga información sobre modelado de datos.

  • Planifique su entorno de Azure Time Series Insights Gen2 .