VIE, 2 SEP 2011

El Cloud computing, la alternativa más segura para el alojamiento de servicios y aplicaciones de empresa

Sobre el problema de la nube de Amazon Web Services Irlanda y su impacto en los servicios on-line de prosafety.

¿Qué sucedió?

La noticia saltaba en la tarde del Domingo 7 de Agosto de 2011 (en horario europeo). Un rayo golpeaba una estación eléctrica en Dublín provocando una cascada de fallos de alimentación eléctrica que terminaron afectando a las tres zonas de disponibilidad (tres sites independientes) de la región EU-WEST-1 de los servicios de cloud computing de Amazon. Miles de sitios web europeos quedaban inmediatamente off-line, incluyendo las tiendas de Amazon UK, Amazon Alemania, el portal de pagos PayPal, ciertos servicios de Microsoft Europe o el popular sitio de noticias español Menéame.

El problema afectó a los servicios web de Espiral MS alojados en la nube europea de Amazon, en particular a los sistemas de demos on-line de ProactivaNET y a las instalaciones europeas de cliente final de prosafety.

Los mensajes de soporte de Amazon (a través de http://status.aws.amazon.com/) recomendaban tranquilidad y auguraban una recuperación total del servicio en cuestión de horas. Poco a poco se comprobaba que el alcance del problema era mayor de lo inicialmente previsto y se revisó el tiempo estimado de recuperación del servicio en hasta unas 36 horas.

En ese momento, desde nuestro centro de servicios tomamos la decisión de activar el plan de recuperación de emergencia para restablecer nuestros servicios de forma independiente.

Todos nuestros sistemas operan con copias de seguridad distribuidas en zonas autorizadas utilizando el servicio S3 de AWS. Tanto las máquinas virtuales como los datos de las aplicaciones están disponibles para ser revividas en otra región o zona de disponibilidad. Para las aplicaciones de ProactivaNET no existía ninguna limitación geográfica, así que fueron activadas de nuevo en la región estadounidense "US East", quedando todos los sistemas en funcionamiento en menos de dos horas.

Al estar caídas las tres zonas de disponibilidad de Irlanda, existía un problema adicional que aplicaba a las aplicaciones de prosafety: Por la Ley de Protección de Datos española, cierta información personal almacenada en las bases de datos de las aplicaciones se considera "crítica" y no puede sacarse de la Unión Europea sin cumplimentar una serie de permisos legales. Nos pusimos en contacto con los clientes para explicarles la situación y que tomaran la decisión de, o bien esperar a que Amazon Europe solucionara sus problemas técnicos, o bien darnos permiso para reubicar en localizaciones Americanas o Asiáticas sus sistemas. En espera de la decisión, nuestro servicio de soporte preparó las máquinas virtuales y el entorno de las aplicaciones en dichas localizaciones fuera de la UE, quedando el paso de mover las copias de seguridad de datos pendiente de la resolución de nuestros clientes.

En ese momento, Amazon Europe comunicó que ya estaban disponibles las zonas EU-WEST-1b y EU-WEST-1c para trabajar a pleno rendimiento, quedando sin una fecha clara de resolución la zona EU-WEST-1a.

Nuestros clientes en las dos zonas reparadas quedaron de nuevo on-line tras confirmar nuestros técnicos que el servicio era 100% funcional. Los clientes que tenían instalaciones duales (por ejemplo con el servicio principal en EU-WEST-1a y el secundario sincronizado en EU-WEST-1b) también recuperaron el servicio de forma inmediata. Para los clientes que sólo tenían servicios en EU-WEST-1a, el procedimiento estándar de recuperación fué activado y recuperaron el acceso a sus sistemas en un tiempo inferior a dos horas.

¿Qué hemos aprendido?

Que incluso lo más improbable puede suceder. Nuestro plan de contingencia (etiquetado internamente de forma informal como "Se hunde Irlanda") tuvo que ser activado y se comprobó que funcionaba correctamente como se había simulado con anterioridad. Ya hemos pensado ciertas mejoras, como el tener una autorización adelantada por parte de los clientes para el caso de tener que realizar ciertas operaciones o distribuir las copias de seguridad en paquetes más pequeños para adelantar las recuperaciones de emergencia.

¿Qué nos dice esto del Cloud Computing?

Que es el mecanismo más seguro para que una empresa pueda garantizar el uptime de sus sistemas críticos. Cualquier técnico de IT puede plantearse qué hubiera sucedido de mediar el mismo problema en un alojamiento más clásico (tipo on-premises o en un centro de datos contratado). Las posibilidades de recuperación que ofrece el cloud computing bien planificado están a años luz de las que puede ofrecer el alojamiento clásico. Un buen plan de recuperación te permite mover todos tus aplicativos literalmente a otra parte del mundo en caso de un problema de grandes proporciones. De la misma forma, se pueden dimensionar elásticamente los recursos (tanto computación, almacenamiento, caching...etc) para adecuarlos a cualquier nueva necesidad o situación no prevista en la planificación original de los sistemas.

El suceso acaecido en Irlanda en estos días, en lugar de sembrar ningún tipo de duda, confirma completamente al Cloud Computing como la alternativa más segura para el alojamiento de servicios y aplicaciones de empresa.

 

Mack Macías - Director Técnico de Espiral MS

Back
  •  
  • © 2011 prosafety® es un producto de Espiral MS
  • Parque Cientifico Tecnológico de Gijón - España  Tel. (+34) 985 099 215
  •