Murphyho zákony fungují aneb vše, co nás nezabije, tak nás posílí

[gtranslate]

Před deseti dny se u nás stala velká nepříjemnost. Měli jsme problémy s napájením a tím došlo ke komplikacím při poskytování služeb našim zákazníkům. 

Tento článek napíšu jako zakladatel, předseda představenstva a většinový vlastník společnosti WEDOS Internet, a.s., tedy jako Josef Grill. Není to nějaké oficiální vyjádření, protože to jsme již zveřejnili před týdnem, ale spíše reakce na celou situaci, kterou jsme museli před několika dny řešit. 

Omluva všem zákazníkům

Nejprve se ještě jednou velmi omlouvám všem našim klientům. 

Jsem si naprosto vědom závažnosti celé situace a problému, který vznikl a dovolím si pár věcí ještě dovysvětlit.

WEDOS je na trhu necelé 4 roky a podobný problém se nám stal prakticky poprvé, respektive problém s dopadem na všechny služby současně se nám nestal více než 2,5 roku. Já sám mám zkušenosti s hostingem přes 17 let, přes 13 let s provozováním vlastního datacentra a podobnou situaci jsem nezažil a pevně doufám, že již nezažiji. Jednak statisticky je to téměř vyloučené, abych se toho dožil a jednak se z celé situace poučíme tak, aby se to neopakovalo.

Omluvenka

Všem klientům nastavíme týden zdarma u všech služeb (tedy kromě domén, kde to není možné). Uděláme v průběhu června, protože náš systém nic takového neumí a tak to musíme doprogramovat. Prosíme tedy o strpení.  Není potřeba nás o nic žádat.

U klientů, kteří mají speciální dohody ohledně dostupnosti nebo služby se zvýšenou dostupností, budeme řešit situaci individuálně a je potřeba nás kontaktovat.

Chcete vědět jak si klientů vážíme? Tak pro informaci dodám, že poskytnutí týdne zdarma pro nás znamená o cca 1,5 milionu korun nižší příjmy. Tento náš vstřícný krok jsme udělali právě proto, že si klientů vážíme. Podle smluvních podmínek bychom se měli pohybovat s náhradami výrazně nižšími a ekonomicky by to pro nás nic neznamanalo (řádově desítky tisíc korun). Klientů si vážíme a tak jsme si dali sami sobě velmi přísný (a drahý) trest.

K tomu jsme v minulém týdnu objednali novou UPS (za více než 500 tisíc korun), která k nám již v sobotu dorazila z Francie a je již v provozu (a nahradila poškozenou starší UPS). Viz fotogalerie níže.

Jsem velmi rád, že nám věříte. Děkuji.

Ačkoliv v mnoha diskuzích zaznělo, že se zákazníci od nás stěhují, tak to většinou bylo od anonymních přespěvovatelů a tedy kritiků, kteří u nás nehostují. Do dnešního dne vím pouze o jednotkách zákazníků, kteří od nás svůj web odstěhovali. Naopak jste nám v diskuzích vyjádřili silnou podporu a pokud nás někdo podporoval, tak byl prakticky vždy podepsán a napsal i svůj web. Za tuto podporu moc děkujeme a moc si toho vážíme.

O tom, kdo tedy psal “anti”wedos příspěvky si můžeme myslet své… Grafy však ukazují, že nám zákazníci věří a to je podstatné.

Moje (ne)přítomnost aneb Murphyho zákony fungují.

V hostingu dělám 17 let (v květnu to přesně tak bylo). Po celou dobu jsem vždy měl u sebe svůj notebook a vždy jsem cestoval podle toho, abych měl přístup k internetu. I na cestách jsem pracoval a vše vyřizoval. Poprvé za 17 let, jsem jel na zahraniční cestu bez notebooku a s omezeným připojením k internetu. A samozřejmě, že “to” přišlo… 

Během pátečního odpoledne a sobotního dopoledne jsem vyřídil celkem přes 450 telefonních hovorů, kdy jsem komunikoval s kolegy, zákazníky a dodavateli, abychom celou věc co nejrychleji vyřešili.

Co byl hlavní problém aneb proč jsme nekomunikovali

Technicky jsme problémy již popsali v jiném článku. Rád bych se však věnoval vysvětlení celé situace z hlediska toho, že jsme omezeně komunikovali.

Všichni, kteří nás znají moc dobře vědí, že u nás nic netajíme. Takže jsme určitě netajili ani tuto situaci a ani jakékoliv příčiny. Bohužel se přihodilo tolik náhod, že to celou situaci velmi zkomplikovalo a naše komunikace nebyla optimální.

Problém číslo 1 – technický

Největší problém v komunikaci byl způsoben tím, že po pátečním výpadku došlo k poškození obou firewallů pro naše kanceláře a tím jsme měli všechny pracovníky “odříznuté” od internetu na několik hodin, než jsme zajistili jiný (třetí) náhradní firewall, který bylo nutné dopravit k nám.Tím vznikla poměrně dlouhá prodleva v komunikaci.

Problém číslo 2 – bezpečnostní nastavení

Všechny věci jsou u nás přístupné jen z našich kanceláří a nemáme přístup do systému odjinud, než z našich kanceláří po speciálních kabelech a přes speciání firewally. Vzhledem k poškození obou firewallů jsme neměli možnost nijak jinak komunikovat s klienty a opravovat některé nefunkční služby (jednalo se o několik serverů).

Bohužel naše bezpečnostní opatření jsou natolik přísná, že nebylo možné situaci řešit jinak.

Problém číslo 3 – organizační a lidský

Můžete namítnout, že jsme mohli napsat víc na sociální sítě. Ano, máte pravdu, ale v kancelářích jsme neměli připojení k internetu a z bezpečnostních důvodů jsme měli vše omezené pouze na naši síť a naše PC. K tomu je nutné poznamenat, že přístup k firmním účtům na sociálních sítích mají 2-3 lidé a z nichž jeden byl mimo ČR a další uvízl bez připojení v kanceláři.

Po zprovoznění vše již bylo v pořádku. Jen kolegové se trochu báli reagovat na některé příspěvky, protože v prvním okamžiku ani nevěděli, co se přesně děje za problém a tak se obávali zveřejní nepřesné informace. Zároveň jsme maximální úsilí věnovali obnově služeb a komunikaci se zákazníky, kteří nám poslali tisíce mailových dotazů a chatů během několika hodin. Celá věc se řešila v plném nasazení a v práci byli prakticky všichni kolegové a to jak v pátek odpoledne a v noci a v sobotu během dne.

Co nás nezabije, tak nás posílí…

Z celého problému se poučíme. Upravíme náš krizový plán a připravíme mnoho a mnoho úprav v naší firmě.

Co se u nás již změnilo?

V sobotu jsme nainstalovali novou UPS namísto jedné poškozené UPS. Nová UPS má nejen delší dobu zálohy (15 minut při plném zatížení), ale také některé lepší vlastnosti a lepší ochranu proti výkyvům z vnější elektrické sítě. Navíc je úspornější a tím ušetříme za elektřinu. UPS dorazila z Francie v rekordně krátkém čase.

Objednali jsme zařízení, které nám umožní se připojit nouzově “ven” i v případě nefunkčnosti naší LAN v kancelářích.

Upravili jsme krizové scénáře pro řešení krizových situací.

Přístup k účtům na sociálních sítích bude mít více kolegů.

Co se ještě změní?

Změníme i nějaké věci ohledně organizačních a bezpečnostních nastavení.

Již jsme upravili nějaké věci ohledně komunikace a ještě to doladíme. Organizačně by to neměl být problém. Je nás ve firmě přes 20 a tak se o to podělíme.

Musíme zřejmě slevit z některých bezpečnostních pravidel a upravit některá nastavení tak, aby bylo možné některé věci řešit i odjinud, než z našich kanceláří a naší LAN.

Uděláme si nějaká praktická školení pro krizové situace.

Budeme testovat motorgenerátor pod zátěží. Doposud jsme pravidelně testovali zda nastartuje, zda funguje po dobu cca 10 minut, zda má naftu apod., ale nyní jsme měli problém s tím, že se nám dostavila porucha po cca 15 minutách běhu pod plnou zátěží.

Musíme vymyslet technické řešení pro podobnou situaci, kde bude možné snadno a rychle zveřejnit jakoukoliv informaci o tom, že se něco aktuálního děje. Doposud to bylo možné jen v administraci, chatu a titulní stránce. Do tohoto systému byl však nemožný přístup. Musíme to rozšířit a zjednodušit z hlediska přístupu a zároveň musíme vymyslet nějaký náhradní web nebo web, kde budou podobné krizové sitauce uveřejněné.

Do administrace přidáme monitoring jednotlivých služeb, které zákazník má.

Připravíme systém, který v podobné situaci pošle všem zákazníkům e-mail s informací, že se něco děje. Nyní takový systém máme, ale je připravený především na plánované odstávky a ne na podobný problém. Navíc je tam komplikace v tom, že potřebujete v extrémně krátkém čase poslat například přes 100.000 e-mailů a nebýt zablokován na různých free-mailech, které klienti používají.

Ještě připravíme několik další úprav. Průběžně budeme informovat.

Co chystáme?

Již nějakou dobu připravujeme projekt pro Datacentrum WEDOS 2, který tímto ještě urychlíme. Chceme mít dvě nezávislé budovy, dvě nezávislé technologie  a tím plnou redundanci pro případ podobných náhod.

V druhém datacentru chceme například mít navíc motorgenerátor na druhé napájecí větvi na plný výkon 100%, což ve stávajícím řešení nemáme a není to vůbec běžné ani v jiných datacentrech. Nové datacentrum bychom chtěli od počátku stavět tak, aby vyhovovalo certifikaci TIER IV, tedy nejvyššímu stupni “spolehliosti”.

Ano, nebude to hned, ale zase to nebude trvat mnoho a mnoho let. Nyní vím, že naše rozhodnutí, že chceme vybudovat druhé datacentrum, je správné. 

Reakce na některé poznámky aneb odpověď na kritiku

Problémy s komunikací

Jak jsem psal již výše, tak problémy s komunikací nebyly záměrné, ale byl to důsledek celého problému. U nás opravdu nic netajíme a už vůbec ne takovou zásadní událost.

Shoda mnoha náhod

Neselhala jedna věc. Selhalo několik věcí současně, respektive postupně jako následek nějakého problému v rozvodné síti. Vše souviselo s elektřinou, která je zálohována (chráněna pomocí přepěťových ochran a proudových chráničů) a přesto k výpadku došlo.

Elektroinstalace

Máme dvě plnohodnotné napájecí větve – každá se samostatnou UPS a na jedné větvi motorgenerátor. Každá napájecí větev vede do serverů zcela odděleně a to do jednoho napájecího zdroje jedna větev a do druhého zdroje (v tomtéž serveru) druhá větev. Duální napájení máme i u switchů, což není zcela běžné  řešení. Každá napájecí větev je zcela plnohodnotná a má dostatečný výkon a kapacitu na 100% výkonu.

Pravděpodobnost poruch jednotlivých věcí je jednou za několik let. U nás jsou věci ještě redundnatní a tím se pravděpodobnost výpadku snižuje a tak “šance”, že se něco pokazí je skutečně minimální. Bohužel u nás došlo ke kombinaci několika faktorů a tím skutečně k výpadku. Pravděpodobnost, že se stane několik věcí současně, je minimální, ale stalo se. Musíme se poučit.

O tom, jak máme udělanou elektroinstalaci se může každý přesvědčit osobně.

Nic jsme neošidili

Nic jsme neošidili. Při budování našeho datacentra jsme nic neošidili. Ani u elektroinstalace. Dokonce máme všude přepěťové ochrany a proudové chrániče.

DNS servery

Zaznělo i to, že máme špatně DNS servery a že byl následný problém i kvůli tomu. Není to pravda. Máme naprosto ideální řešení DNS serverů pro Vaše domény. Máme 4 DNS servery, každý na jiné doménové koncovce (.cz, .eu,.net a .com) a každý je na jiném fyzickém serveru a na jiném rozsahu IP adres a jsou ve 3 různých lokalitách a ve 3 různých zemí a u 3 různých poskytovatelů a k tomu na 2 různých softwarových řešeních. Tam problém skutečně nebyl.

Ztráta dat nebo rychlost opravy

Trochu problém nastal u jednoho z několika mailserverů. Museli jsme se rozhodnout, zda jej spustíme rychle, ale ztratíme některá data nebo budeme situaci řešit pomaleji a bez ztráty dat. Rozhodli jsme se pro pomalejší řešení a tím nikdo nepřišel o žádná data. Ano, jeden z mailerverů jsme obnovovali až do soboty ráno, tj. cca 16 hodin problém, ale nikdo o nic nepřišel a to je podstatné.

Telefony a nepřijímání hovorů

Nefungovaly nám telefonní hovory, protože vše máme přes internet a když nám nešla LAN, tak nám nefungovaly ani VoIP telefony. 

Týmová spolupráce

Řešení celého problému se zvládlo, protože nejsme one man show a ani moje nepřítomnost neznamenala zásadní problém. Snad jen ta komunikace vázla…Je nás ve firmě přes 20, každý má přesně stanové úkoly.

Chtěl bych také poděkovat dodavatelským firmám, které nám pomohli zajistit opravu poškozených zařízení a zprovoznění všech systémů v rekordně krátkém čase. 

Na závěr se ještě jednou omlouvám

Přijměte ještě jednou omluvu a věřte, že jsme se z tohoto nepříjmného problému poučili a ještě poučíme a připravíme mnoho opatření, aby se nemohla podobná situace opakovat.

Jsme si vědomi toho, že u nás hostuje přes 11% českého internetu a tak v případě problémů je dopad skutečně velký a nedostanete se na každou 9. internetovou stránku v ČR. Proto je nutné ke všemu přistupovat maximálně zodpovědně.

Snad naposledy se ještě omluvím a budu se naplno věnovat našim interním úpravám a vylepšení a novým službám, které pro naše klienty připravujeme.

Galerie