Active Directory – File Replication Service - Análisis de problemas de Journal_Wrap

Este tipo de problemas se puede presentar típicamente cuando ocurren una cantidad determinada de cambios tal que FRS no puede almacenar por diferentes razones, o también mientras FRS está detenido.

Cuando se presenta esta condición, y con el fin de prevenir inconsistencias, FRS entra en el estado Journal_Wrap.

Como recuperarse de este estado:

Primero, se debe detectar la presencia del evento con ID 13568 en el log de FRS. Lo más frecuente es que llevando a cabo un restore del tipo D2 en el Domain Controller afectado, solucionemos el problema, sin embargo no nos debemos conformar con mitigar el problema sino además tratar de encontrar los motivos por los cuales se presenta esta situación.

¿Que significa llevar a cabo un D2 en el Domain Controller afectado?, significa llevar a cabo un restore no autoritativo, tomando como referencia un inbound partner, lo cual puede llevar más o menos tiempo dependiendo del tamaño del replica set a restaurar. En situaciones típicas, no debemos preocuparnos por seleccionar un inbound partner, sin embargo, si esta situación se llegara a presentar en todos los Domain Controllers del dominio, deberemos llevar a cabo primero un restore autoritativo (D4) de un replica set, y luego llevar a cabo los posteriores D2 en cada uno de los Domain Controllers restantes.

Pasos generales para llevar a cabo un D2 en un escenario en el cual tenemos uno o más Domain Controllers en estado Journal_Wrap, pero contando con al menos una réplica saludable:

  1. Detener el servicio FRS en los Domain Controllers afectados.
  2. Configurar la clave correspondiente a BURFLAG = D2 (https://support.microsoft.com/kb/290762/en-us).
  3. Iniciar nuevamente el servicio FRS.
  4. Verificar la existencia posterior de eventos 13516, que indican que FRS se encuentra operacional nuevamente.

¿Qué ocurre si todos los Domain Controllers se encuentran en estado Journal_Wrap?

  1. Detener el servicio FRS en todos los Domain Controllers.
  2. Configurar la clave de registro BURFLAG = D2.
  3. Restaurar autoritativamente una copia saludable de SYSVOL mediante NT Backup, marcando dicha restauración como autoritativa en Directory Services Restore Mode).
  4. Configurar el valor de BURFLAG del Domain Controller seleccionado como autoritativo, en D4.
  5. Iniciar el servicio FRS en el Domain Controller seleccionado anteriormente.
  6. Iniciar gradualmente el servicio FRS en el resto de los Domain Controllers, verificando la existencia del evento 13516.

Causas más comunes, las cuales pueden encontrarse en cualquier evento 13568:

[1] Volume "\\.\C:" has been formatted.
[2] The NTFS USN journal on volume "\\.\C:" has been deleted.
[3] The NTFS USN journal on volume "\\.\C:" has been truncated. Chkdsk can truncate the  Journal if it finds corrupt entries at the end of the journal.
[4] File Replication Service was not running on this computer for a long time.
[5] File Replication Service could not keep up with the rate of Disk IO activity on "\\.\C:".
Setting the "Enable Journal Wrap Automatic Restore" registry parameter to 1 will cause the following recovery steps to be taken to automatically recover from this error state.
[1] At the first poll, which will occur in 5 minutes, this computer will be deleted from the replica set. If you do not want to wait 5 minutes, then run "net stop ntfrs" followed by "net start ntfrs" to restart the File Replication Service.
[2] At the poll following the deletion this computer will be re-added to the replica set. The re-addition will trigger a full tree sync for the replica set.

 

Debido a que existe mucha información y detalle sobre este problema en particular, posteriormente estaré publicando otras notas relacionadas.

Saludos.

Marcelo.