Els motius de la caiguda d'Amazon: una gota d'aigua que es va convertir en tsunami
La caiguda d'Amazon, que el 20 d'octubre va fer que deixessin de funcionar durant hores algunes de les aplicacions més utilitzades del món, va ser provocada per un "bug" en un automatisme. Un petit error en la programació que va tenir un efecte en cascada i que va noquejar serveis amb milions d'usuaris com ChatGPT, Canva, Primer, Alexa o Roblox, entre d'altres.
En una carta publicada per la companyia a la seva web, expliquen que el dilluns 20 d'octubre, a les 9 del matí (hora catalana) una fallada en un centre de dades que Amazon Web Services (AWS) té a Virgínia del Nord, als Estats Units, va provocar una interrupció del servei. Dos sistemes automatitzats que distribueixen el tràfic als seus servidors van intentar escriure la mateixa entrada DNS alhora, fet que va donar com a resultat una entrada buida.
Segons detallen, aquest error va fer caure el sistema Dynamo DB i va afectar altres serveis com l'EC2, que ofereix servidors virtuals a les aplicacions, i el Network Load Balancer, que gestiona les demandes a la xarxa, i va provocar un efecte dòmino que va derivar en l'aturada massiva de serveis al núvol.
Els tècnics d'Amazon ho van detectar i ho van resoldre en poc més de dues hores, però l'efecte papallona va acabar afectant milions d'usuaris. A la seva carta, Amazon ha demanat disculpes i afirma que "arran d'aquest esdeveniment estan duent a terme diversos canvis".
Asseguren que ja han desactivat Dynamo DB DNS Planner i DNS Enactor a tot el món i que abans de reactivar aquests automatismes solucionaran l'"escenari de condició de carrera i hi afegirem proteccions addicionals". També es comprometen a millorar "els mecanismes per limitar la velocitat de les tasques entrants en funció de la mida de la cua d'espera, amb l'objectiu de protegir el servei durant les etapes d'alta càrrega".
Buscarem formes addicionals d'evitar l'impacte d'un esdeveniment similar en el futur i de millorar el nostre temps de recuperació
Al comunicat acaben demanant disculpes "per les molèsties causades", assegurant que "som conscients de la importància que tenen els nostres serveis per als nostres clients, les seves aplicacions i usuaris finals, així com per als seus negocis".
Reconeixen que "aquest incident ha afectat negativament" molts usuaris i acaben assegurant que "farem tot el possible per aprendre d'aquest incident i aprofitar-lo per millorar encara més la nostra disponibilitat".
Tornarà a passar
L'origen del problema reconegut per Amazon posa de manifest, precisament, la dificultat d'evitar aquest tipus d'incidències i la gran dependència d'una tecnologia que està en mans de molt pocs proveïdors.
Segons mitjans especialitzats, Amazon és líder en serveis al núvol amb un 30% de quota de mercat, molt per davant de Microsoft Azure que en té el 20% o Google Cloud, amb el 12%.
Els experts coincideixen a dir que, per molt robustos que siguin els sistemes, és gairebé impossible evitar aquest tipus d'incidències, però que la clau està en la velocitat de resposta de les companyies perquè l'efecte no s'expandeixi. Unes repercussions que previsiblement augmentaran exponencialment amb la implementació de la intel·ligència artificial en els processos més quotidians.
