De nuevo una actualizacion automatica desde Microsoft ha provocado el reinicio del servidor WINDOWS04.
Tras el reinicio, el servidor no ha arrancado, entrando en un bucle infinito de arranque y reinicio, provocado por un problema en el sistema de archivos.
El disco duro del servidor ha sido montado en otra maquina, desde la que se esta ejecutando CHKDSK sobre el disco, lo que corregirá el sistema de archivos y resolvera el problema.
El proceso de chequeo y reparacion es lento (deben comprobarse todos los archivos e indices, casi doce millones). Una vez finalizado el chequeo y reparacion, el disco se colocara de nuevo en WINDOWS04 y el servicio volvera al funcionamiento habitual.
Todos los datos contenidos en los discos no se veran alterados.
Actualización 02:16 AM: el proceso CHKDSK se encuentra en el 16 %.
Actualización 02:38 AM: el proceso CHKDSK se encuentra en el 21 %.
Actualización 03:49 AM: el proceso CHKDSK se encuentra en el 34 %.
Actualización 04:32 AM: imposible reparar el sistema de archivos actual. El disco se encuentra dañado fisicamente y es inutilizable. Se esta recuperando la informacion del disco y se prepara un nuevo servidor donde habilitar de nuevo todo el sistema. Toda la informacion de las paginas se encuentra intacta, pues esta almacenada en un disco distinto. Tiempo estimado de recuperacion de informacion (bases de datos del panel de control, correos) del disco afectado, e instalacion del nuevo sistema: 3 horas.
Actualización 06:35 AM: servicio DNS operativo.
Actualización 06:48 AM: restaurando servicios Web, FTP y correo. Progresivamente, y a lo largo de la proxima hora, los servicios Web, FTP y correo comenzaran a funcionar con normalidad en todos los dominios.
Actualización 07:03 AM: servicio de Correo completamente operativo para todos los dominios. Webmail operativo para todo el servidor.
Actualización 07:06 AM: bases de datos (Access, MySQL, MS SQL) operativas y chequeadas. Todos los enlaces y conectores de datos se encuentran operativos.
Actualización 07:10 AM: el panel de control Helm se encuentra accesible de nuevo.
Actualización 07:32 AM: todos los servicios y dominios del servidor se encuentra operativos.
Resumen de actuación: tras recibir el aviso de caida del servidor WINDOWS04, se siguio el procedimiento establecido: prueba de reinicio (fallida), prueba de reinicio controlado con KVM (fallida). Se determina el problema en el disco duro y se inicia el procedimiento de recuperacion: CHKDSK desde el propio servidor (fallido), montaje del disco en un equipo externo y ejecucion de CHKDSK desde otro SO (fallido). Se confirma la rotura fisica del disco, y se inicia el procedimiento de recuperacion.
Se habilita un servidor completamente nuevo donde albergar los dominios de WINDOWS04. Se instala y configura el nuevo servidor con los parametros e IPs de WINDOWS04. Se instalan y configuran todos los servicios: panel de control, correo, bases de datos, ftp, dns, firewall. Se conecta el disco que contiene todos los datos de los dominios al nuevo servidor (este disco no se habia visto afectado) y se comienza la recuperacion, la cual se concluye con exito y con todos los servicios y dominios funcionando.