Site Overlay

De ce a fost Facebook down, dar Gmail ori iCloud?

Saptamana trecuta foarte multe servicii au devenit indisponibile s-au au functionat foarte greu.

A fost un bun prilej sa ne redescoperim familia, prietenii, toti in viata reala. Am putut chiar sa intrebam de sanatate personal pe cei din jur, am descoperit ca ne-au crescut copiii, am iesit afara sa vedem cum este vremea, am vazut cu ochii nostri cum au inceput sa infloreasca copacii. Asta pentru ca Facebook a fost nefunctional.

Ne-am amintit cu placere de scrisori pe care le puteam scrie oricand, aveam nevoie de o coala de hartie, ceva de scris, un plic si un timbru. Daca era ceva mai urgent aveam telegramele. Asta pentru .. STOP … ca …STOP … au fost probleme … STOP … pe Gmail … STOP . Pentru cei mai tineri care nu au apucat telegramele, cam asa aratau.

Nu in ultimul rand, utilizatorii de iPhone, si-au amintit saptamana trecuta de albumele foto. Nu de cele digitale, ci de cele pe hartie fotografica pe care le puteai privi cand aveai pofta. Fara recunoastere faciala, insa le vedeai. Functia Share era data de o copie de pe negativul pozei cu care mergeai la un centru foto sa iti scoata o copie printata pe care o share-uiai personal persoanei. Asta daca nu aveai laborator foto acasa… amintiri. Si toate pentru ca si serviciile iCloud au fost picate partial.

In afara de Facebook (Facebook, Insta, Whatsapp), Gmail, iCloud, au mai fost si alte servicii nefunctionale saptamana trecuta. Spunem multumesc pentru ca noi nu am avut probleme.

Nu a fost un atac DDOS, nu a venit niciun extraterestru verde, pur si simplu mai multe servere au refuzat sa mai functioneze sau au functionat extrem de greu.

Noi am experimentat o problema cu unul dintre clientii nostri la finele saptamanii trecute care s-a trezit cu serviciile nefunctionale.

Totul se rezuma la servere, la schimbari de soft, update-uri, etc.

Mai pe intelesul fiecaruia o sa incepem cu ce am patit la noi in retea. Clientul rula un banal WordPress. Care a facut un update la un plugin. Anumite servicii de administrare au fost instantaneu indisponibile. Dupa ce am fost contactati si am inceput sa cautam problemele. Decizia a fost sa facem actualizari complete. Moment in care toate serviciile respectivului client au fost indisponibile. Dupa aproximativ o ora si jumatate am reusit sa readucem partial serviciile in faza de functionare. Insa am descoperit Ca anumite parti sunt nefunctionale. A trebuit din nou sa verificam totul, sa programam, sa scoatem anumite actualizari si sa o luam de la zero. Totul este perfect functional la aceasta ora.

Avand o arhitectura similara retelelor foarte mari a fost simplu sa intelegem ce s-a intamplat cu Facebook. Pentru ca voi sa vedeti aceasta pagina sunt implicate foarte multe servere reunite in diferite clustere. Asta pentru cazul in care unul sau mai multe servere se defecteaza sa nu simtiti acest lucru, totul sa functioneze perfect. Astfel imaginile se afla pe mai multe servere, bazele de date la fel. Insa nu se opreste totul aici: paginile noastre nu sunt servite direct de pe serverul web, mai avem si alte servere ce reunesc clusterele si tot asa.

Aproape ca am ajuns sa vorbim in chineza, iar tu sa nu intelegi nimic. Ideea este insa simpla: in mod continuu incercam sa imbunatatim experienta ta, sa securizam totul. Pentru asta trebuie sa lucram permanent pe aceste servere. O instructiune se propaga pe mai multe servere aproape instantaneu, altele instructiuni mai incet. O mica greseala poate reduce la tacere imediat serviciile. Alte modificari nu au loc imediat. Si noi facem mai multe modificari. Problema majora este atunci cand o modificare afecteaza functionarea serviciilor, dar problema apare ulterior. Este momentul in care cunosti modificarile, insa nu iti dai seama pe loc ce modificare a distrus serviciile. Daca la cele cu impact imediat poti remedia totul intr-un timp scurt, la celalate munca este mult mai mare. Mai ales daca deja ai efectuat actualizari in tot sistemul.

Prin urmare scuza celor de la Facebook, si nu numai, este una cat se poate de reala.

O solutie ce in teorie functioneaza perfect poate functiona perfect si in teste. Asta pentru ca exista servere de test. Insa atunci cand este trecuta in productie lucrurile pot sa nu stea la fel de bine.

Atunci cand apare o problema se lucreaza intens pentru rezolvarea ei, programul de munca nemaicontand. Se depun eforturi extreme pentru a readuce serviciile in stare de functionare, urmarindu-se ca prin orice actiune sa nu se inrautateasca situatia.

Ce putem face noi ca utilzatori cand se intampla astfel de fenomene? Sa ne bucuram de viata, sa ne cunoastem familia, prietenii si nu in ultimul rand sa folosim Twitter care se pare ca este cel mai rezistent serviciu.

Vei gasi mereu diferite informatii noi aici, pa pagina noastra Facebook sau Twitter

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

-->