Intervencion de emergencia

Viernes, 18 de enero de 2008 Sin comentarios

En estos momentos se esta realizando una intervencion de emergencia sobre un sistema de distribucion electrica, afectando al funcionamiento de los servidores:

LINUX01
LINUX02
LINUX03
LINUX05
LINUX06
LINUX07
LINUX08

El tiempo estimado de intervencion es de 2 horas, estando los servicios disponibles de nuevo a las 11.30 PM.

ACTUALIZACIÓN: El problema ha sido resuelto completamente tras la sustitucion del hardware defectuoso.

Tags:

WINDOWS04 – Sistema de archivos

Lunes, 31 de diciembre de 2007 Sin comentarios

De nuevo una actualizacion automatica desde Microsoft ha provocado el reinicio del servidor WINDOWS04.

Tras el reinicio, el servidor no ha arrancado, entrando en un bucle infinito de arranque y reinicio, provocado por un problema en el sistema de archivos.

El disco duro del servidor ha sido montado en otra maquina, desde la que se esta ejecutando CHKDSK sobre el disco, lo que corregirá el sistema de archivos y resolvera el problema.

El proceso de chequeo y reparacion es lento (deben comprobarse todos los archivos e indices, casi doce millones). Una vez finalizado el chequeo y reparacion, el disco se colocara de nuevo en WINDOWS04 y el servicio volvera al funcionamiento habitual.

Todos los datos contenidos en los discos no se veran alterados.

Actualización 02:16 AM: el proceso CHKDSK se encuentra en el 16 %.

Actualización 02:38 AM: el proceso CHKDSK se encuentra en el 21 %.

Actualización 03:49 AM: el proceso CHKDSK se encuentra en el 34 %.

Actualización 04:32 AM: imposible reparar el sistema de archivos actual. El disco se encuentra dañado fisicamente y es inutilizable. Se esta recuperando la informacion del disco y se prepara un nuevo servidor donde habilitar de nuevo todo el sistema. Toda la informacion de las paginas se encuentra intacta, pues esta almacenada en un disco distinto. Tiempo estimado de recuperacion de informacion (bases de datos del panel de control, correos) del disco afectado, e instalacion del nuevo sistema: 3 horas.

Actualización 06:35 AM: servicio DNS operativo.

Actualización 06:48 AM: restaurando servicios Web, FTP y correo. Progresivamente, y a lo largo de la proxima hora, los servicios Web, FTP y correo comenzaran a funcionar con normalidad en todos los dominios.

Actualización 07:03 AM: servicio de Correo completamente operativo para todos los dominios. Webmail operativo para todo el servidor.

Actualización 07:06 AM: bases de datos (Access, MySQL, MS SQL) operativas y chequeadas. Todos los enlaces y conectores de datos se encuentran operativos.

Actualización 07:10 AM: el panel de control Helm se encuentra accesible de nuevo.

Actualización 07:32 AM: todos los servicios y dominios del servidor se encuentra operativos.

Resumen de actuación: tras recibir el aviso de caida del servidor WINDOWS04, se siguio el procedimiento establecido: prueba de reinicio (fallida), prueba de reinicio controlado con KVM (fallida). Se determina el problema en el disco duro y se inicia el procedimiento de recuperacion: CHKDSK desde el propio servidor (fallido), montaje del disco en un equipo externo y ejecucion de CHKDSK desde otro SO (fallido). Se confirma la rotura fisica del disco, y se inicia el procedimiento de recuperacion.
Se habilita un servidor completamente nuevo donde albergar los dominios de WINDOWS04. Se instala y configura el nuevo servidor con los parametros e IPs de WINDOWS04. Se instalan y configuran todos los servicios: panel de control, correo, bases de datos, ftp, dns, firewall. Se conecta el disco que contiene todos los datos de los dominios al nuevo servidor (este disco no se habia visto afectado) y se comienza la recuperacion, la cual se concluye con exito y con todos los servicios y dominios funcionando.

Tags:

Incidencia WINDOWS04

Sábado, 15 de diciembre de 2007 Sin comentarios

En estos momentos el servidor WINDOWS04 presenta una incidencia en el arranque, provocada por un fallo en el sector de arranque del disco duro que contine el sistema operativo.

Se esta trabajando en la solucion del problema, con un tiempo estimado de resolucion de 2 horas.

Actualizacion: Se esta ejecutando una comprobacion del sistema de ficheros del disco duro que contiene el sistema operativo. Una vez finalizada la comprobacion, el servidor volvera a su funcionamiento habitual.

Actualizacion: El problema ha sido resuelto tras el chequeo y correccion del sistema de archivos. Se estan investigando las causas del problema, aunque todo indica que ha sido provocado por una actualizacion automatica de Windows enviada por Microsoft.

Tags:

Mantenimiento programado

Martes, 11 de diciembre de 2007 Sin comentarios

A las 00:15 h de la madrugada del Martes, 18 de Diciembre de 2007, al Miercoles, 19 de Diciembre de 2007, SYS4NET ejecutara tareas de mejora y ampliacion en sus sistemas UPS.

El proceso tiene una tarea clasificada como riesgo moderado. Dicha clasificacion obliga a la movilizacion de personal tecnico para la intervencion. Concretamente SYS4NET dispondra en sus instalaciones de un tecnico de mantenimiento propio, dos tecnicos electricos del proveedor, un tecnico de explotacion, un operador de sala y un gestor del servicio para atender a los clientes.

La intervencion tiene una duracion planificada de una hora y media.

No se contempla corte alguno de suministro electrico, por lo que la intervencion debe ser transparente para todos los servidores y servicios.

Tags:

Monitorización pública

Lunes, 19 de noviembre de 2007 Sin comentarios

De nuevo esta disponible el servicio de monitorización pública de los servidores, a traves de la RED DNSPROPIO.

Con este servicio se puede comprobar, en tiempo real, el estado de los servidores de la plataforma DNSPROPIO.

El servicio realiza conexiones a todos los servicios, para comprobar el funcionamiento de los mismos.

Puede ser consultado en http://www.dnspropio.com/

Tags:

Nuevos metodos de pago

Miércoles, 24 de octubre de 2007 Sin comentarios

Debido a los problemas reportados por algunos clientes, al realizar el pago a traves de 2CheckOut, y sin obtener solucion por parte de 2CO, hemos tomado la decision de modificar los medios ofrecidos para el pago a traves de tarjeta de credito/debito.

A partir de ahora ofrecemos dos nuevos metodos de pago:

- Pago 3D SECURE a traves de ServiRED: es el pago preferido, por su sencillez y rapidez. Es necesario finalizar el proceso de identificacion segura, distinto para cada entidad. Se solicita una clave de confirmacion adicional, para verificar la autenticidad de la tarjeta. Dependiendo de la entidad emisora, la clave de seguridad puede ser el propio PIN de la tarjeta, o una clave especifica 3D SECURE facilitada por su entidad. En caso de problemas con el pago 3D SECURE, debe contactar con su entidad para obtener dicho codigo, o bien utilizar nuestro sistema alternativo de pago por PayPal.

- Pago PayPal: es la segunda opcion de pago. En caso de que no pueda completar la operacion a traves de la pasarela de ServiRED, puede optar por este metodo de pago. No es necesario contar con una cuenta PayPal para poder usar este metodo, puede realizar el pago indicando unicamente sus datos, sin necesidad de disponer o crear una cuenta en el sistema PayPal.

2CO ha sido definitivamente eliminado como medio de pago, quedando operativos los dos nuevos sistemas descritos anteriormente.

Tags:

Monitorización – Resuelto

Viernes, 5 de octubre de 2007 Sin comentarios

Se ha localizado y resuelto el problema con el sistema de monitorización, detectado tras el fallo de LINUX02.

La monitorización vuelve a funcionar con normalidad, realizando chequeos cada cinco minutos en todos los servidores a traves de todos los protocolos operativos (HTTP, FTP, POP3, SMTP).

Ademas controla el trafico entrante y saliente en cada servidor para prevenir ataques DoS.

En el momento que un servidor falle, una alerta salta en menos de 5 minutos y se inicia el procedimiento asignado a cada servidor para su recuperación, por parte del personal que se encuentra 24×7 fisicamente en las instalaciones.

Tags:

Incidencia LINUX02

Viernes, 5 de octubre de 2007 Sin comentarios

05/10/2007 – 10.30 AM

El servidor presenta una incidencia a nivel de disco que impide su funcionamiento.

En estos momentos se esta ejecutando “fsck” en el servidor para corregir el sistema de ficheros y que todo vuelva a funcionar con normalidad.

05/10/2007 – 11.25 AM

El problema ha sido resuelto. Tras la reparacion del sistema de ficheros, el equipo ha arrancado con normalidad.

Resumen de la actuación

- Se recibe aviso de que el servidor LINUX02 es inaccesible.
- Confirmamos que el servidor no esta operativo (no hay ping).
- Se reinicia el sistema usando PDU.
- Tras 8 minutos, el sistema continua inaccesible.
- Se inician actuaciones directamente desde el centro de datos: inicio controlado con KVM.
- Se detecta el fallo en el sistema de archivos que detiene el inicio del sistema.
- Se inicia el sistema en modo recuperacion y se restaura el sistema de archivos.
- Una vez restaurado, el sistema inicia con normalidad.
- Se da por resuelta la incidencia. Tiempo total de actuacion: 55 minutos.

Problemas encontrados

Tras la caida del servidor, no ha saltado el sistema fail over. Por lo tanto, la alarma no ha saltado y no se ha iniciado el procedimiento de actuacion para recuperar el sistema.

La alarma ha sido recibida por parte de los clientes. Se va a revisar el problema con el sistema de monitorizacion, que se ejecuta cada cinco minutos, para determinar las causas por las que no se ha recibido la alerta y solucionar el problema.

Tags:

LINUX07 – Hardware

Miércoles, 26 de septiembre de 2007 Sin comentarios

Se ha finalizado con exito la sustitucion de la placa base, procesador y memoria ram para el servidor LINUX07.

Con este cambio se pretenden corregir los fallos que afectaban a la estabilidad del sistema.

Tags:

Incidencia DirectAdmin (Resuelto)

Martes, 25 de septiembre de 2007 Sin comentarios

25-09-2007 03.54 AM GMT+1

En estos momentos hay registrada una incidencia en los paneles de control de los servidores Linux.

El skin Marina para DirectAdmin no se encuentra operativo, debido a que el servidor de licencias de la empresa desarrolladora del skin (OutServices) esta caido.

El skin, al no localizar un servidor de licencias marca un error de expirado y no permite el acceso.

Una vez la empresa desarrolladora solucione el problema con sus servidores, el acceso al panel de control volvera a ser normal.

25-09-2007 05.30 AM GMT+1: Resuelto.

Tags: