Il down di Whatsapp e dei suoi fratelli ha portato tutti a chiederti cosa è successo e come avrebbe reagito la nostra azienda di fronte a un problema simile.
Le prime voci che arrivano dal quartier generale dicono che sia stato un problema legato a un aggiornamento hardware (hanno parlato di un aggiornamento di alcuni router ma penso sia più facilmente un firewall).
Il tipico esempio di come un intervento che di per se potrebbe essere di routine è riuscito a condizionare la vita di circa 3 miliardi di persone che abitualmente utilizzano la piattaforma.
Di sicuro il reale problema non verrà mai evidenziato ma deve fare riflettere tutte le persone che ritengono l’IT un costo e non un servizio.
Down Whatsapp: La reazione a catena
Da tecnico mi immagino che nel momento in cui il problema si è sviluppato è partita una reazione a catena che ha pian piano messo in crisi il sistema. Il problema che una volta avviata non era così semplice andarla a fermare e sopratutto contenerla.
Una reazione a catena che ha tenuto gli utenti isolati dal mondo di Zuckemberg per diverse ore.
Non voglio essere nei panni dei tecnici che hanno dovuto intervenire per porre rimedio al guasto. L’ansia di avere sulla coscienza 3 Miliardi di utenti che si lamentano per il down deve essere stata una spada di damocle su di loro.
Cosa è successo a Whatsapp
Sapere nel dettaglio cosa sia successo penso sia difficile, ma ci fa capire quanto un’infrastruttura di rete pur gestita in maniera ottimale possa inciampare e lasciare tutti al buio.
E’ un pò come quando una volta passava la mamma a fare le pulizie e tirava il cavo del nostro commodore64 e si spegneva tutto.
Dire che è stato aggiornato un router è dire tutto e dire niente, infatti credo si sia cercato di banalizzare il guasto che di per se servendo un così ampio numero di utenti non avrebbe mai dovuto verificarsi.
Nel mondo informatico tutti si riempiono la bocca parlando di Disaster Recovery, ma di fronte a una delle più grandi infrastrutture per numero di utenti serviti ci rendiamo conto che quando succede è solo un disaster e poco recovery.
Immagino infatti tutti i sistemi di Recovery di cui è dotata un’azienda come quella di Mark avrebbero dovuto partire e non far capire all’utente il minimo disservizio.
Le tempistiche del down di Whatsapp
La cosa che ci deve far riflettere, soprattutto sulla nostra infrastruttura aziendale, sono le tempistiche per il recovery dei servizi.
Se è vero che 7 ore intercorse per il ripristino della piena opeatività non sono nulla per il 90% delle persone che hanno un’infrastruttura informatica “danneggiata”, dall’altro bisogna pensare a quanto ci costa ogni minuto di fermo della nostra azienda.
Per questo è sempre buona cosa fare quei test di “disaster Recovery” per capire fino a che punto la nostra infrastruttura potrebbe reagire a un problema.
Come avrebbe reagito la nostra infrastruttura
Questo evento deve essere da spunto per capire come avrebbe reagito la nostra infrastruttura a un problema del genere e in quali tempistiche avrebbe reagito di fronte a un problema Hardware o a un Malware.
Difatti spesso viene sottovalutato il costo del fermo a discapito dei costi di prevenzione del fermo. Una intera infrastruttura ferma può portare a perdite importanti.
A volte quando viene chiesto da un tecnico IT l’acquisto di un dispositivo di Backup viene visto come un costo non giustificato, tuttavia spesso quel dispositivo se bene configurato può permettere alla nostra infrastruttura di ripartire se non immediatamente nel giro di qualche ora.
Anche i Backup in molte aziende sono considerati un “optional” che faccio quando mi ricordo, come dicevo in un precedente articolo però ci accorgiamo dell’importanza del backup quando non lo abbiamo.