Resistencia de datos de Exchange Online
Exchange no solo es uno de los servicios en línea de Microsoft más utilizados, sino que también sirve como almacenamiento de datos a largo plazo para muchos otros servicios de Microsoft 365, como Teams. Por este motivo, Exchange tiene un diseño sólido para garantizar una alta resistencia en términos de integridad y disponibilidad de los datos frente a interrupciones impreparadas.
Resistencia operativa
Grupos de disponibilidad de base de datos
Todas las bases de datos de buzones de correo de Microsoft 365 se hospedan en un grupo de disponibilidad de base de datos (DAG) y se replican en centros de datos separados geográficamente dentro de la misma región. La configuración más común es cuatro copias de base de datos en cuatro centros de datos; sin embargo, algunas regiones tienen menos centros de datos (las bases de datos se replican en tres centros de datos en la India y dos centros de datos en Australia y Japón). Pero en todos los casos, cada base de datos de buzones de correo tiene cuatro copias que se distribuyen entre varios centros de datos, lo que garantiza que los datos del buzón de correo estén protegidos contra errores de software, hardware e incluso del centro de datos.
De estas cuatro copias, tres de ellas están configuradas como de alta disponibilidad. La cuarta copia se configura como una copia de base de datos retrasada. La copia de base de datos retrasada no está pensada para la recuperación individual del buzón de correo o la recuperación de elementos de buzón de correo. Su propósito es proporcionar un mecanismo de recuperación para el raro evento de daños lógicos catastróficos en todo el sistema.
Las copias de base de datos retrasadas en Exchange Online se configuran con un tiempo de retardo de reproducción de archivos de registro de siete días. Además, el Administrador de retardos de Reproducción de Exchange está habilitado para proporcionar reproducción dinámica de archivos de registro para copias retrasadas con el fin de permitir que las copias de base de datos retrasadas puedan repararse automáticamente y administrar el crecimiento del archivo de registro. Aunque las copias de base de datos retrasadas se usan en Exchange Online, es importante comprender que no son una copia de seguridad a un momento dado garantizada. Las copias de base de datos retrasadas en Exchange Online tienen un umbral de disponibilidad, normalmente alrededor del 90 %, debido a períodos en los que el disco que contiene una copia retrasada se pierde debido a un error de disco, la copia retrasada se convierte en una copia de alta disponibilidad (debido a la reproducción automática) y los períodos en los que la copia de base de datos retrasada está recompilando la cola de reproducción de registros.
Resistencia del transporte
Exchange Online incluye dos características principales de resistencia de transporte: Shadow Redundancy y Safety Net. La redundancia de sombra mantiene una copia redundante de un mensaje mientras está en tránsito. Safety Net mantiene una copia redundante de un mensaje después de que el mensaje se entregue correctamente.
Con la redundancia de sombra, cada servidor de transporte de Exchange Online realiza una copia de cada mensaje que recibe antes de confirmar que recibe correctamente el mensaje en el servidor de envío. Esto hace que todos los mensajes de la canalización de transporte estén redundantes mientras están en tránsito. Si Exchange Online determina que el mensaje original se perdió en tránsito, se vuelve a entregar una copia redundante del mensaje.
Safety Net es una cola de transporte asociada al servicio de transporte en un servidor de buzones de correo. Esta cola almacena copias de mensajes correctamente procesados por el servidor. Cuando un error de servidor o base de datos de buzón requiere activar una copia obsoleta de la base de datos de buzón de correo, los mensajes de la cola de Safety Net se vuelven a enviar automáticamente a la nueva copia activa de la base de datos de buzón. La red de seguridad también es redundante, lo que elimina el transporte como un único punto de error. Usa el concepto de una red de seguridad principal y una red de seguridad de sombras en la que, si la red de seguridad principal no está disponible durante más de 12 horas, las solicitudes de reenvío se convierten en solicitudes de reenviación de sombras y los mensajes se vuelven a entregar desde Shadow Safety Net.
El componente Active Manager del servicio de replicación de Microsoft Exchange que administra los DAG y las copias de la base de datos de buzones de correo inicia automáticamente las reenviaciones de mensajes de Safety Net. No se requiere ninguna acción manual para reenviar mensajes desde la red de seguridad.
Prevención y corrección de la corrupción
Una conservación local conserva todo el contenido de un buzón de correo, incluidos los elementos eliminados y las versiones originales de los elementos modificados. Todos los elementos del buzón de correo se devuelven en una búsqueda de Exhibición de documentos electrónicos en contexto. Al colocar un In-Place en el buzón de un usuario, el contenido del buzón de archivo correspondiente (si está habilitado) también se coloca en espera y se devuelve en una búsqueda de exhibición de documentos electrónicos.
Hay dos tipos de daños que pueden afectar a una base de datos de Exchange: daños físicos, que suelen deberse a problemas de hardware (en particular, hardware de almacenamiento) y daños lógicos, que se producen debido a otros factores. Por lo general, hay dos tipos de daños lógicos que pueden producirse dentro de una base de datos de Exchange:
- Daños lógicos en la base de datos: la suma de comprobación de la página de base de datos coincide, pero los datos de la página son incorrectos lógicamente. Esto puede ocurrir cuando el motor de base de datos (el motor de almacenamiento extensible (ESE)) intenta escribir una página de base de datos y, aunque el sistema operativo devuelve un mensaje correcto, los datos nunca se escriben en el disco o se escriben en un lugar incorrecto. Esto se conoce como vaciado perdido. ESE incluye numerosas características y medidas de seguridad diseñadas para evitar daños físicos en una base de datos y otros escenarios de pérdida de datos. Para evitar que los vaciados perdidos pierdan datos, ESE incluye un mecanismo de detección de vaciado perdido en la base de datos junto con una característica (restauración de página única) para corregirlos.
- Almacenar daños lógicos : los datos se agregan, eliminan o manipulan de una manera que el usuario no espera. Estos casos son causados por aplicaciones de terceros. Normalmente se daña en el sentido de que el usuario lo ve como daños. El almacén de Exchange considera que la transacción que produce los daños de lógica es una serie de operaciones MAPI válidas. Las características de suspensión local de Exchange Online proporcionan protección contra daños lógicos en el almacén (porque impide que un usuario o una aplicación eliminen permanentemente el contenido).
Exchange Online realiza varias comprobaciones de coherencia en los archivos de registro replicados durante la inspección de registros y la reproducción de registros. Estas comprobaciones de coherencia impiden que el sistema replique daños físicos. Por ejemplo, durante la inspección del registro, hay una comprobación de integridad física que comprueba el archivo de registro y valida que la suma de comprobación registrada en el archivo de registro coincide con la suma de comprobación generada en la memoria. Además, se examina el encabezado del archivo de registro para asegurarse de que la firma del archivo de registro registrada en el encabezado de registro coincide con la del archivo de registro. Durante la reproducción del registro, el archivo de registro se somete a un examen adicional. Por ejemplo, el encabezado de base de datos también contiene la firma de registro que se compara con la firma del archivo de registro para asegurarse de que coinciden.
La protección contra daños en los datos de buzones de Exchange Online se logra mediante Exchange Native Data Protection, una estrategia de resistencia que aprovecha la replicación de nivel de aplicación en varios servidores y varios centros de datos junto con otras características que ayudan a proteger los datos de la pérdida debido a daños u otros motivos. Estas características incluyen características nativas administradas por Microsoft o la propia aplicación de Exchange Online, como:
- Grupos de disponibilidad de datos
- Corrección de bits únicos
- Examen de bases de datos en línea
- Detección de vaciado perdido
- Restauración de página única
- Servicio de replicación de buzones
- Comprobaciones de archivos de registro
- Implementación en el sistema de archivos resistente
Para obtener más información sobre las características nativas enumeradas anteriormente, seleccione los hipervínculos y vea lo siguiente para obtener información adicional y obtener más información sobre los elementos sin hipervínculos. Además de estas características nativas, Exchange Online también incluye características de resistencia de datos que los clientes pueden administrar, como:
- Recuperación de elementos únicos (habilitada de forma predeterminada)
- Conservación local y retención por juicio
- Retención de elementos eliminados y buzones de Soft-Deleted (ambos habilitados de forma predeterminada)
Corrección de bits únicos
ESE incluye un mecanismo para detectar y resolver errores de CRC de un solo bit (también conocidos como volteos de un solo bit) que son el resultado de errores de hardware (y, como tal, representan daños físicos). Cuando se producen estos errores, ESE los corrige automáticamente y registra un evento en el registro de eventos.
Examen de bases de datos en línea
El examen de bases de datos en línea (también conocido como suma de comprobación de base de datos) es el proceso en el que un ESE usa un comprobador de coherencia de base de datos para leer cada página y comprobar si hay daños en la página. El propósito principal es detectar daños físicos y vaciados perdidos que pueden no detectarse mediante operaciones transaccionales. El examen de la base de datos también realiza operaciones de bloqueo posteriores al almacén. El espacio se puede filtrar debido a bloqueos y el examen de bases de datos en línea busca y recupera el espacio perdido. El sistema está diseñado con la expectativa de que cada base de datos se analice por completo una vez cada siete días.
Detección de vaciado perdido
Un vaciado perdido se produce cuando una operación de escritura de base de datos que el subsistema de disco o el sistema operativo devolvió cuando se completó no se escribió realmente en el disco o se escribió en la ubicación incorrecta. Los incidentes de vaciado perdidos pueden dar lugar a daños lógicos en la base de datos, por lo que para evitar que los vaciados perdidos resulten en datos perdidos, ESE incluye un mecanismo de detección de vaciado perdido. A medida que las páginas de base de datos se escriben en copias pasivas, se realiza una comprobación de los vaciados perdidos en la copia activa. Si se detecta un vaciado perdido, ESE puede reparar el proceso mediante un proceso de aplicación de revisiones de página.
Restauración de página única
La restauración de página única, también conocida como aplicación de revisiones de página, es un proceso automático en el que las páginas de base de datos dañadas se reemplazan por copias en buen estado de una réplica en buen estado. El proceso de reparación de una página dañada depende de si la copia de la base de datos está activa o pasiva. Cuando una copia de base de datos activa encuentra una página dañada, puede copiar una página de una de sus réplicas, siempre que la página que copia esté actualizada. Este proceso se realiza mediante la colocación de una solicitud para la página en el flujo de registro, que es la base de la replicación de la base de datos de buzón de correo. En cuanto una réplica encuentra la solicitud de página, responde enviando una copia de la página a la copia de la base de datos solicitante. La restauración de una sola página también proporciona un mecanismo de comunicación asincrónica para que el activo solicite una página de réplicas, incluso si las réplicas están actualmente sin conexión.
Si hay daños en una copia pasiva de la base de datos, incluida una copia de base de datos retrasada, ya que estas copias siempre están detrás de su copia activa, siempre es seguro copiar cualquier página de la copia activa en una copia pasiva. Por naturaleza, una copia pasiva de la base de datos es de alta disponibilidad, por lo que durante el proceso de aplicación de revisiones de página, se suspende la reproducción de registros, pero la copia de registros continúa. La copia pasiva de la base de datos recupera una copia de la página dañada de la copia activa, espera hasta que se copia e inspecciona el archivo de registro que cumple el requisito de generación de registros máximo necesario y, a continuación, aplica revisiones a la página dañada. Una vez que se ha revisado la página, se reanuda la reproducción del registro. El proceso es el mismo para la copia de base de datos retrasada, salvo que la base de datos retrasada reproduce primero todos los archivos de registro necesarios para lograr un estado de aplicación de revisiones.
Servicio de replicación de buzones
Mover buzones de correo es una parte clave de la administración de un servicio de correo electrónico a gran escala. Siempre hay tecnologías actualizadas y actualizaciones de hardware y versión para tratar, por lo que tener un sistema sólido y limitado que permita a nuestros ingenieros realizar este trabajo mientras mantiene el buzón se mueve transparente para los usuarios (asegurándose de que permanecen en línea durante todo el proceso) es clave y asegurarse de que el proceso se escala correctamente a medida que los buzones de correo se hacen más grandes y grandes.
El servicio de replicación de buzones de Exchange (MRS) es responsable de mover buzones entre bases de datos. Durante el traslado, MRS realiza una comprobación de coherencia en todos los elementos del buzón. Si se encuentra un problema de coherencia, MRS corregirá el problema o omitirá los elementos dañados, lo que eliminará los daños del buzón.
Dado que MRS es un componente de Exchange Online, podemos realizar cambios en su código para abordar las nuevas formas de daños que se detectan en el futuro. Por ejemplo, si detectamos un problema de coherencia que MRS no puede corregir, podemos analizar los daños, cambiar el código MRS y corregir la incoherencia (si entendemos cómo hacerlo).
Comprobaciones de archivos de registro
Todos los archivos de registro de transacciones generados por una base de datos de Exchange se someten a varias formas de comprobaciones de coherencia. Cuando se crea un archivo de registro, lo primero que se hace es escribir un patrón de bits y, a continuación, se realiza una serie de escrituras de registros. Esta estructura permite a Exchange Online ejecutar una serie de comprobaciones (vaciado perdido, CRC y otras comprobaciones) para validar cada archivo de registro a medida que se escribe y de nuevo a medida que se replica.
Implementación en el sistema de archivos resistente
Para ayudar a evitar que se produzcan daños en el nivel del sistema de archivos, Exchange Online se está implementando en particiones del sistema de archivos resistente (ReFS) para proporcionar capacidades de recuperación mejoradas. ReFS es un sistema de archivos de Windows Server 2012 y versiones posteriores que está diseñado para ser más resistente frente a daños en los datos, lo que maximiza la disponibilidad y la integridad de los datos. En concreto, ReFS aporta mejoras en la forma en que se actualizan los metadatos, lo que ofrece una mejor protección de los datos y reduce los casos de daños en los datos. También usa sumas de comprobación para comprobar la integridad de los datos y metadatos de los archivos, lo que garantiza que los datos dañados se encuentren y reparen fácilmente.
Exchange Online aprovecha varias ventajas de ReFS:
- Una mayor resistencia en la integridad de los datos significa menos incidentes de daños en los datos. La reducción del número de incidentes de daños significa menos repeticiones innecesarias de bases de datos.
- Suma de comprobación que se ejecuta en metadatos que permiten detectar casos de daños antes y de forma más determinista, lo que nos permite corregir los daños en los datos del cliente antes de que se produzcan errores grises en los volúmenes de datos.
- Diseñado para funcionar bien con grandes conjuntos de datos (petabytes y más grandes) sin impacto en el rendimiento
- Compatibilidad con otras características usadas por Exchange Online, como el cifrado de BitLocker.
Exchange Online también se beneficia de otras características de ReFS:
- Integridad (secuencias de integridad): ReFS almacena los datos de forma que los protege de muchos de los errores comunes que normalmente pueden provocar la pérdida de datos. Búsqueda de Microsoft 365 usa secuencias de integridad para ayudar con la detección temprana de daños en disco y sumas de comprobación de contenido de archivos. La característica también reduce los incidentes de daños causados por "Escrituras rotas" (cuando una operación de escritura no se completa debido a interrupciones de energía, etc.).
- Disponibilidad (salvamento): ReFS prioriza la disponibilidad de los datos. Históricamente, los sistemas de archivos a menudo eran susceptibles a daños en los datos que requerirían que el sistema se desconectara para su reparación. Aunque es poco frecuente, si se producen daños, ReFS implementa el salvage, una característica que quita los datos dañados del espacio de nombres en un volumen activo y garantiza que los datos correctos no se vean afectados negativamente por datos dañados no reparables. Aplicar la característica de salvamento y aislar los daños de datos en los volúmenes de base de datos de Exchange Online significa que podemos mantener en buen estado las bases de datos no infectadas en un volumen dañado entre el momento de la corrupción y la acción de reparación. Esta estructura aumenta la disponibilidad de las bases de datos que normalmente se verían afectadas por estos problemas de daños en el disco.