Amazon ha dejado en claro sobre la gran interrupción de AWS que tuvo lugar la semana pasada. El gigante tecnológico reveló que su intento de agregar capacidad al servidor provocó un tiempo de inactividad inesperado en la región AWS US-EAST-1.

El desencadenante de la interrupción fue la pequeña adición de capacidad al servicio Kinesis de AWS, que se utiliza para admitir una cantidad significativa de otras ofertas de AWS. Los servidores de Kinesis crean nuevos subprocesos para otros servidores involucrados en el front-end de AWS para que puedan comunicarse entre sí. La capacidad adicional hizo que los servidores superaran el número máximo de subprocesos permitidos.

Aunque AWS descubrió la causa raíz del problema con bastante rapidez, no fue tan fácil volver a poner todo en línea. Recuperar servidores demasiado rápido podría provocar errores, solicitar latencias o incluso eliminar algunos de la flota. Como resultado, Amazon solo pudo recuperar unos pocos cientos de servidores a la vez, lo que retrasó el proceso de recuperación.

Mejoras a realizar

Amazon ya está trabajando en una serie de propuestas que ayudarán a evitar que incidentes similares vuelvan a ocurrir en el futuro.

“A muy corto plazo, nos trasladaremos a servidores de memoria y procesadores más grandes, reduciendo así el número total de servidores y, por lo tanto, los subprocesos requeridos por cada servidor para comunicarse en toda la flota”, explica un artículo de ‘AWS.

“Esto proporcionará un margen de maniobra significativo en el número de subprocesos utilizados, ya que el número total de subprocesos que debe mantener cada servidor es directamente proporcional al número de servidores de la flota. Tener menos servidores significa que cada servidor maneja menos subprocesos. Estamos agregando alarmas detalladas para el consumo de hilo en el servicio. »

Además, AWS se compromete a completar las pruebas de un aumento en los límites de recuento de subprocesos y a mejorar el tiempo de inicio en frío de su flota de front-end. La compañía también se disculpó por el tiempo de inactividad, lo que provocó que varios sitios de alto perfil se desconectaran, incluidos Coinbase, Flickr y Roku.

A través del registro

Share This
A %d blogueros les gusta esto: