Lo avevamo annunciato probabilmente prima di tutti il problema che facebook ha avuto l'altro ieri e che lo ha reso irraggiungibile per oltre 2 ore restituendo come messaggio d'errore "Service Unavailable – DNS Failure".
"E' stato il peggiore blackout avuto in oltre quattro anni" commentano direttamente i tecnici con un post sul Blog di Facebook spiegando anche cosa è successo.
Il problema è stato causato da una condizione d'errore piuttosto particolare che ha mandato in tilt un sistema automatizzato alla sostituzione di eventuali valori di configurazione non validi nella cache di Facebook con valori validi e funzionanti. Un sistema che ha sempre funzionato bene con errori temporanei ma che nella giornata di ieri ha causato il collasso del sistema ed ha richiesto il suo completo riavvio.
In un test fatto dai tecnici successivamente al problema, un valore non valido è stato correttamente sistemato però spiegano nel post ufficiale, gli utenti vedendo il messaggio d'errore hanno inviato una nuova richiesta di accesso aggiornando la pagina. Ogni richiesta invia una query al cluster del database che improvvisamente si è trovato affollato da un afflusso di centinaia di migliaia di richieste al secondo che non è stato capace di gestire. A peggiorare le cose è stato il sistema automatizzato che ha visto ogni tentativo di riaccedere a Facebook come un valore non valido causando quindi un bel pasticcio che ha richiesto circa 2,5 ore per essere riparato.
Lo possiamo interpretare in parole semplici così: lava, risciacqua, ripeti. Un ciclo infinito di "lavaggi" al database.
L'accesso a facebook in pratica è stato disattivato fino a quando il database non si è ripreso e così i tecnici hanno consentito l'accesso al social network un pò per volta a tutti gli utenti. L'intero Staff di Facebook informa che il sistema automatizzato è stato disabilitato e si sta cercando di elaborare qualcosa di migliore in modo che un evento del genere non si verifichi più.