Oficiální vyjádření k problémům ze dne 23. a 24. května 2014

[gtranslate]

Informační zpráva o technických problémech v našem datacentru v odpoledních hodinách dne 23 a v ranních hodinách dne 24. května 2014.

Všem našim zákazníkům se chceme nejdříve touto cestou omluvit za výpadek služeb, který nastal v pátek odpoledne 23. května a v sobotu dopoledne 24. května, kdy došlo k technickým problémům, které ve výsledku vedly k přerušení napájení serverů.

Přebíráme proto veškerou zodpovědnost a nebudeme se vymlouvat na nepřízeň počasí nebo vyšší moc či souhru náhod. Vina je plně na naší straně a měli jsme předpokládat, že i k takovéto situaci může dojít.

Zároveň se omlouváme za první páteční zprávu, která Vás mylně informovala o tom, že vše již máme pod kontrolou a problém je vyřešen. Nebyl v tom žádný zlý úmysl, nechtěli jsme nikomu lhát. První tříminutový výpadek se nám podařilo dostat pod kontrolu a ve chvíli, kdy jsme zprávu uveřejnili, fungovalo více než 95% všech našich služeb. Na ty ostatní nefunkční jsme přicházeli později. Omlouváme se za to.

Vše, čím naše firma tento pátek a sobotu prošla, je obrovským ponaučením. Záložní zdroje budeme mít nyní pod zostřeným dohledem. Okamžitě zvýšíme dobu testování záložních zdrojů, v pondělí objednáváme novou UPS a další potřebná opatření pro lepší zabezpečení chodu našich služeb budou následovat a my Vás o nich budeme, jako vždy, pravidelně informovat.

Ještě jednou se tedy velice omlouváme a nyní si dovolíme rozepsat podrobně celé dva dny, abyste měli přesnou představu o tom, co se u nás dělo. Popravdě řečeno došlo k neuvěřitelným shodám náhod, které vedly k poruše několika různých systémů a to i přes to, že se jedná o nová zařízení v zálohovaném (redundantním) provedení.

Celá situace vznikla shodou více navazujících problémů. Prvním důvodem bylo vedro, které bylo zdrojem bouřek a ty způsobily značné kolísání elektřiny v síti. Kvůli kolísání el. energie došlo po spuštění klimatizací k poškození jedné z klimatizací a tím k shození hlavního jističe celého datacentra. Tím, že bylo v síti přepětí, došlo k přehřátí tohoto hlavního jističe. Automaticky tedy naskočil dieselový generátor, který ovšem po 15 minutách přestal fungovat kvůli poruše chladícího systému motorgenerátoru (poslední kontrolu jsme prováděli ve čtvrtek, tedy den před tím – činíme tak pravidelně každý týden a při kontrole generátor nevykazoval žádné známky poruchy), naskočily tedy UPS, které držely servery v chodu dalších 33 minut. V této chvíli jsme již v kontaktu s dodavatelem elektřiny, který k nám posílá opraváře. Po celou dobu fungovala záložní klimatizace. Než jsme stačili poškozený jistič nahradit nouzovým řešením, došlo k vybití baterií, což způsobilo kompletní výpadek napájení na dobu 3 minut. Poté začalo fungovat téměř vše, ale jak jsme již uvedli výše, informovali jsme na našich stránkách o tom, že vše je pod kontrolou, ovšem jednalo se o mylnou informaci, protože malá část našich služeb ještě funkční nebyla.

Po cca hodině pokračovaly další výkyvy na elektrické síti, a proto došlo k poškození UPS na jedné napájecí větvi. A tím opět došlo ke zkratu v naší elektrické síti. Bylo nutné nahradit nouzové řešení hlavního jističe novým plně funkčním hlavním jističem, který jsme mezi tím zajistili. Bohužel UPS z jedné napájecí větve byla natolik poškozena, že nebylo možné ji použít a druhá UPS měla natolik vybité baterie z předcházejícího výpadku elektrické energie, že vše zkolabovalo podruhé. Tentokrát na 13 minut. Po této době se podařilo hlavní jistič vyměnit a tím obnovit dodávku elektřiny.

Většina serverů po tomto druhém výpadku okamžitě nastartovala a fungovala, pouze několik jednotek procent serverů (bohužel je to několik tisícovek zákazníků) mělo problémy delší dobu a jeden mailserver se nám podařilo obnovit až v sobotu nad ránem.

Celá firma od pátečního odpoledne intenzivně pracovala na odstranění následků výpadku. Bohužel celá situace byla o to komplikovanější, že v důsledku výpadku došlo k poškození primárního i záložního firewallu našich kanceláří a tím jsme neměli přístup k internetu z našich kanceláří a k serverům, ke kterým je z bezpečnostních důvodů povolen přístup pouze z počítačů v našich kancelářích. Tím se obnova zbývajících nefunkčních služeb Jednalo se o několik málo kusů sererů) velmi zpomalila a komplikovala. Museli jsme zajistit náhradní (třetí) firewall a po jeho zprovoznění jsme postupně všechny služby obnovili.

Vzhledem k poškození UPS na jedné napájecí větvi, byly servery napájeny pouze přes jednu napájecí větev, což je velmi riskantní, tak jsme se po dohodě s dodavatelem UPS domluvili na tom, že po nabití baterií funkční UPS, přepneme poškozenou UPS do režimu bypass a tím zajistíme serverům napájení i z druhé větve. Tato operace byla naplánována na 8 hodin ráno a mělo se jednat o rutinní operaci bez jakéhokoliv výpadku.

Ráno přišel technik na opravu UPS (ta byla přepnuta na bypass). Vše se zdálo být vyřešeno, ale oprava, ačkoliv se zdála v pořádku (dle veškerých dostupných měření), neproběhla dobře, resp. neodhalila vadnou součástku. Po přepnutí UPS do režimu bypass došlo ke zkratu a tím přerušení napájení. Bohužel baterie, které fungovaly jako záložní zdroj v pátek navečer, nebyly ještě zcela nabité, takže napájely servery 20 minut. Než stihl technik přemontovat nový hlavní jistič, nastal druhý výpadek a to na celých 15 minut. Po tomto výpadku naši technici všechny služby obnovili ve velmi krátké době.

Celý zbytek dne jsme pak řešili, jak podobné situaci jednou pro vždy předejít. Generátor byl ještě v sobotu opraven a věříme, že podobná souhra tolika nepravděpodobných událostí najednou, se již nebude opakovat. A i kdyby nastala, jsme na ni lépe připraveni. V pondělí také objednáváme úplně novou UPS. O dalších vylepšeních, která mají předejít podobným výpadkům, vás budeme průběžně informovat.

Věřte, že nikdo zde nezahálel a situaci jsme brali velmi vážně. Do práce přišli i kolegové, kteří neměli zrovna směnu a snažili se pomoci. Jakmile bylo možné zvedat telefony a odpovídat na Vaše dotazy, bylo zde k dispozici 10 administrátorů, kteří trpělivě odpovídali a vysvětlovali.

Jsme si vědomi toho, že ve chvíli, kdy u nás hostují desítky tisíc klientů musí vše fungovat na 100% a i ochranné mechanismy, které řeší výpadky elektriky, útoky atd., musí mít ještě záložní řešení a další možnosti, jak vše zvládnout tak, aby klient nemusel pociťovat nic jiného než spokojenost s našimi službami.

Všem zákazníkům, kterých se problémy dotkly, poskytneme automaticky kompenzaci v podobě služeb zdarma (budeme řešit v průběhu příštího měsíce). Zákazníci, kteří mají dle smluvních podmínek nárok na vyšší kompenzace, budou řešeni individuálně.

Z výše uvedených problémů se poučíme a ještě jednou se omlouváme všem našim klientům. Děkujeme zaměstnancům, dodavatelům a spolupracujícím firmám za řešení celé situace. A věříme, že je velmi nepravděpodobné, aby se podobná shoda náhod opakovala, protože došlo k poškození nejen primárních, ale i záložních zdrojů a tím k velkým komplikacím.

Další informace:

Aktuálně mohou mít stále problém zákazníci, kterým se VPS zastavila na výběru před zavedením OS (Grub, nástroj na opravu po pádu, …). Řešení je KVM. V nejhorším případě provedeme obnovení ze zálohy zdarma. Dále mohou být poškozeny některé tabulky u databází webhostingu a je nutné nás kontaktovat, abychom s jejich opravou pomohli. Odhadujeme, že tyto problémy se dotýkají několika desítek zákazníků a bohužel není v našich silách zjistit, koho konkrétně se to týká a je tedy nutné, aby nás dotyční zákazníci sami oslovili.

Na závěr se ještě jednou všem zákazníkům omlouváme za problémy a zároveň za omezenou možnost komunikace v okamžiku výpadku. Již jsme u nás vyřešili náhradní způsoby komunikace v případě podobné krizové situace. Od pátečního odpoledne jsme se věnovali na 100% řešení celé situace a to až do dnešní 11 hodiny, kdy jsou již všechna poškozená zařízení plně funkční (s výjimkou jedné UPS, která bude nahrazena novou).