TIER a certifikace

[gtranslate]

Vzhledem k tomu, že se chceme obě naše datacentra certifikovat na příslušnou úroveň TIER, tak jsme se rozhodli, že uděláme takový malý seriál o certifikacích TIER. Dozvíte se, jak to celé funguje a probíhá.

V prvním díle našeho nového seriálu o certifikačním procesu TIER si představíme samotný certifikát TIER.

Ve světě je pojem TIER spojován s hodnocením určité kvality – úrovně – datacentra. Dříve byl pojem TIER používán ve spojení s normou ANSI/TIA-942 (vydané The Telecommunications Industry Association akreditované ANSI – American National Standards Institute).

Od roku 2014 tato norma používá místo TIER tzv. Rating. Samotný TIER, respektive přesněji “TIER Standard” zůstal všeobecně uznávaným pojmem pro hodnocení úrovně datacenter. Přebrala jej americká společnost Uptime Institute.

UptimeInstitut

Začneme tedy s Uptime Institute, LLC. Jedná se o americkou společnost, která má své evropské zastoupení v Londýně. Jsme s nimi ve spojení více jak 2 roky, protože máme zájem od nich získat oficiální certifikaci pro naše datacentra. Během této doby proběhlo několik různých oficiálních jednání. Získání certifikace je časově mimořádně náročný proces, zvláště pokud chcete nejpřísnější úroveň TIER IV.

Samotná certifikace a proces certifikace je opředen mnoha mýty, a proto se pokusíme vše vysvětlit v našem miniseriálu.

Jak už jsme zmínili, celá certifikace je velmi náročná a zabere spoustu času. Může trvat několik měsíců až několik let. Nejvhodnější je začít již na samém počátku příprav plánování datacentra.

Přípravy

Daleko náročnější jsou však přípravy, zvláště pokud chcete získat TIER IV. Na všechna kritéria, kterých jsou mimochodem stovky, je třeba brát ohled už při návrhu a stavbě datacentra. Existují totiž věci, které při špatném návrhu (projektu) datacentra už nejdou napravit. Například zajištění fyzického oddělení kabeláže uvnitř budovy nebo špatně vybraná lokalita nebo například nemožnost zajištění nezávislých optických tras do budovy z různých směrů bez souběhu.

Nejvyšší úroveň TIER IV dokonce vyžaduje, aby se v okolí nenacházela dálnice, železniční koridor, průmyslové komplexy anebo letiště. Řeší tedy i nebezpečí spojená s leteckými trasami anebo blízkost chemických továren. Při projektování datacentra se tak musí brát ohled i na lokaci, kde má budoucí datacentrum stát (a bere se v potaz vše v okolí cca 2,4 km).

Certifikace řeší především vlastní provozní vlastnosti datacentra a jejím účelem je minimalizovat případný výpadek v důsledku vnějších anebo vnitřních vlivů. Jak už bylo zmíněno výše, věnuje se samotné budově a lokalitě (rizika spojena s přírodními katastrofami jako jsou povodně, zemětřesení, tornáda a rizika spojená s nevhodnou lokalitou pro provoz datacentra ).

Dále je nutné se detailně věnovat všem záležitostem ohledně napájení, zálohování napájení či zajištění napájení v případě všech kritických situací. Velký důraz je kladen na chlazení a zajištění potřebné provozní teploty pro servery. Řeší se i fyzická bezpečnost objektu (zaobírá se třeba tím, zda jde o budovu sloužící výhradně jako datacentrum anebo jde o nějakou obecnou administrativní budovu).

Certifikace je také náročná finančně. Částka se odvíjí podle velikosti datacentra. Ceny začínají ve stovkách tisíc dolarů.

Aktuální stav v ČR

V ČR je aktuálně certifikováno šest datacenter (z toho tři patří O2). Všechny jsou certifikované na stupeň TIER III. Nejvyšší a nejpřísnější certifikaci TIER IV žádné české datacentrum nemá. Z naší komunikace s UptimeInstitut víme, že o takto náročnou certifikaci nikdo kromě nás ani neusiluje.

Pokud byste si chtěli ověřit zda vaše datacentrum má certifikaci, tak můžete zde.

Všechna česká certifikovaná datacentra, kromě privátního datacentra DHL, mají “pouze” stupeň “Certification of Design Documents”. DHL má navíc “Tier Certification of Constructed Facility”. Co to je? Vysvětlíme.

Co vše lze certifikovat?

Tier Certification of Design Documents

Základní krok. Certifikaci podléhá a vztahuje se jen na samotný návrh datacentra. Je to detailní prověření návrhu datacentra. Tedy rizik spojených s jeho lokalitou, návrhy samotné budovy a různých instalací (elektro, sítě), chlazení apod.
Tuto certifikaci mají (kromě DHL) všechna aktuálně certifikovaná české datacentra.

Tier Certification of Constructed Facility

Pokud máte správně navržené datacentrum, tak můžete nechat certifikovat, že je tak i ve skutečnosti postavené.

Tier Certification of Operational Sustainability

Pokud máte datacentrum celé správně navržené a dobře postavené, tak si můžete nechat certifikovat, že vše podle toho také funguje. Zde už se řeší a ověřuje naprosto všechno.

Jednotlivé stupně TIER

Jen pro další vysvětlení uvedeme, co to znamená kapacita “N” a “N+1” a “N+2” a “2N” a “2N+1” .

“N” znamená, že máte k dispozici přesně tolik kapacity, že stačí na 100% provozu. Při výpadku jakékoliv části dojde k poruše a k výpadku. Pokud například na 100% provozu potřebujete 5 UPS a 3 klimatizace, tak jich máte v provozu přesně 5 a 3. Nic více a nic méně – jen to co potřebujete. Nesmí se porouchat nic.

“N+1” znamená, že máte k dispozici přesně tolik kapacity, že stačí na 100% provozu a navíc máte k dispozici 1 kus záložní. Při výpadku jakékoliv dílčí části tedy dojde k poruše, ale nedojde k výpadku, protože místo porouchaného kusu se automaticky zprovozní záložní kus. Pokud například na 100% provozu potřebujete 5 UPS a 3 klimatizace, tak jich máte v provozu připravených 6 a 4. Tedy 1 kus od každého navíc. Může se porouchat 1dílčí kus.

“N+2” znamená, že máte k dispozici přesně tolik kapacity, že stačí na 100% provozu a navíc máte k dispozici 2 kusy záložní. Při výpadku jakékoliv dílčí části tedy dojde k poruše, ale nedojde k výpadku, protože místo porouchaného kusu se automaticky zprovozní záložní kus (y). Pokud například na 100% provozu potřebujete 5 UPS a 3 klimatizace, tak  jich máte v provozu připravených 7 a 5. Tedy 2 kusy od každého navíc. Mohou se vám tedy porouchat 2 dílčí kusy.

“2N” (někdy 2 x N) znamená, že máte k dispozici přesně dvakrát tolik kapacity, které jsou potřeba pro zajištění 100% provozu. Máte tedy vše 2x. Při výpadku jakékoliv dílčí části tedy dojde k poruše, ale nedojde k výpadku, protože provoz je zajištěn přes druhou větev, která je zcela identická. Pokud například na 100% provozu potřebujete 5 UPS a 3 klimatizace, tak jich máte v provozu 10 a 6. Tedy 5 kusů UPS navíc a 3 klimatizace navíc. Může se tedy porouchat polovina zařízení a stále by mělo být vše v provozu (za předpokladu správného návrhu zapojení).

“2N+1” (někdy 2 x N+1 ) znamená, že máte k dispozici přesně dvakrát tolik kapacity, které jsou potřeba pro zajištění 100% provozu a navíc máte k dispozici 1 kus záložní na každé větvi. Máte tedy vše 2x plus rezervní kus. Při výpadku jakékoliv dílčí části tedy dojde k poruše, ale nedojde k výpadku, protože provoz je zajištěn před druhou větev, která je zcela identická a navíc jednotlivý kus je nahrazen náhradním kusem. Pokud například na 100% provozu potřebujete 5 UPS a 3 klimatizace, tak jich máte v provozu 12 a 8. Tedy 6 kusů UPS navíc a 5 klimatizací navíc. Může se tedy porouchat (více než) polovina zařízení a stále by mělo být vše v provozu (za předpokladu správného návrhu zapojení).

TIER I

V podstatě se jedná o jednoduchou serverovou místnost, která nemá zálohované žádné kritické (a ani nekritické) komponenty. Výpadek jakékoliv komponenty způsobí s největší pravděpodobností výpadek služeb datacentra.

Zde se hovoří o tom, že musíte zajistit kapacitu o velikosti komponent. Navíc Vám pro tuto úroveň stačí pouze jedna distribuční cesta. Tedy všechny komponenty máte pouze jednou (bez redundance) a to na celkově 100% kapacity.
 

TIER II

V tomto případě jsou kapacitní komponenty (UPS, motorgenerátor) redundantní a každou komponentu musíte být schopni odstavit a vypnout a vždy zachovat dostatečnou (100%) kapacitu pro běh kritického prostředí například místnost se servery.

Všechny kapacitní prvky má datacentrum splňující TIER II v návrhu N+1, někdy také udávaný jako N+R.

TIER III

Zde se již vše trochu komplikuje. Všechny IT komponenty musí mít dvě nezávislé napájecí větve, přičemž alespoň jedna musí být vždy funkční (druhá je nebo může být v režimu stand-by) a musí být schopná zvládnout 100% zátěž při jakékoliv poruše nebo odstávce. Všechny IT zařízení musejí mít redundantní napájení a pokud nemají, tak musí použít takzvané ATS přepínače.

Nejdůležitějším aspektem této úrovně je vlastnost “Concurrently Maintainable” neboli neustálá udržitelnost. Pod tím pojmem je možné si představit, že každá komponenta může být odebrána kvůli údržbě, opravě či plánově výměně bez vlivu na kritické prostředí a IT procesy. 

Dále musíte mít i redundantní chlazení.

Všechny komponenty jsou postavené o kapacitách N+1, tedy, že všechny komponenty dohromady dokáží zajistit provoz 100% zátěže datacentra a zároveň máte u každé komponenty všechny prvky redundantní. Například pokud na 100% zátěž potřebujete 3 UPS, tak musíte mít alespoň 1 další UPS navíc, tedy potřebujte celkem 4 UPS. 3 jsou nutné pro provoz a ta čtvrtá je jako záloha.

Žádné mezistupně TIER III+ apod. neexistují a jsou to jen marketingové pojmenování obchodníků jednotlivých datacenter (a my jsme se nechali historicky také zlákat a použili jsme toto označení ve spojení s námi).

TIER IV

Zde již přichází mnohem více komplikací. Jednak musíme splňovat vše co vyžadují výše uvedené podmínky pro TIER III, ale zároveň máme několik dalších kritérií navíc.

Musíme mít 2 zcela oddělené (technicky a i fyzicky a protipožárně) distribuční větvě a obě musejí být vždy současně aktivní a vždy musejí být schopné dodat 100% zátěže při jakékoliv poruše nebo odstávce. Vyžaduje se plné fyzické oddělení všech komponent (od motorgenerátorů až po poslední kabeláž vedoucí do racků).

Komponenty musejí být obecně v režimu N+N (tedy minimálně 2N nebo 2N+1). Všechny komponenty musejí být nainstalované 2x a to tak, abyste vždy dokázali zajistit 100% kapacity, tj. na každé větvi. Pokud například potřebujete pro zajištění 100% provozu 3 UPS, tak jich musíte mít celkem minimálně 6! Ideálně 8, protože je vhodnější mít na každé větvi 3 na provoz + 1 redundantní.

Vše musí být plně automatické a každá komponenta musí být automaticky nahrazena jinou a to vždy tak, aby vše bylo na plnou kapacitu.

U TIER III a TIER IV musíme navíc zajistit UPS s 15 minutovou zálohou.

U TIER III  a TIER IV jsou také vyšší nároky na motorgenerátory. Například musí splňovat podmínky pro nepřetržitý provoz a jsou tam i další přísnější podmínky.

Jedním z velmi důležitých rysů úrovně TIER IV je “Fault Tolerant” neboli tolerance vůči chybám. Tato vlastnost rozšiřuje “Concurrently Maintainable” z úrovně TIER III tak, že kritické prostředí musí svou činnost vykonávat automaticky dále i z důvodu neplánovaného výpadku. Dokonce i z výpadků kumulativních. Ano, vše musí být navíc zcela automatické. 

K tomu je nutné splnit i další podmínky (například fyzická a nepřetržitá přítomnost 2 vyškolených osob přímo v datacentru v režimu 24/7).

Jak vidíte, tak TIER je o splnění mnoha často náročných kritérií. A to jsme jich uvedli jen několik. V tomto článku nejde o úplný výčet, ale o ukázku toho co TIER vlastně obnáší. V dalších článcích bychom se problematice věnovali detalněji. Budeme rádi i za Vaše podněty v diskuzi. Odpovíme i na případné otázky.

Závěr

Není to tedy jen o penězích za drahou certifikaci, velkých nákladech za stavební úpravy (například vše musíte důkladně oddělovat a nikde se nesmí nic křížit nebo mít jakýkoliv souběh v kabeláži), ale také o mnohem větších investičních a provozních nákladech. Je velký finanční rozdíl místo 3 UPS koupit 8 UPS. Stejně tak je to dražší i na údržbu (revize, výměny baterek) a samozřejmě i provoz. Je totiž dost zásadní rozdíl, když máte například UPS zatíženou na ideálních 90-100%, kdy má nejlepší účinnost a tedy nejmenší “režii” na svůj vlastní provoz (například na chlazení sebe sama). Pokud řešíme TIER IV, kde chceme splnit všechny požadavky, tak musíme mít minimálně 2x tolik UPS a jejich provoz nikdy nebude ekonomický, protože nedosáhnou optimálního zatížení.


Na co se můžete těšit příště?

Vzhledem k tomu, že nás certifikace TIER IV baví a bereme jí jako jednu z největších výzev, tak si příště detailně probereme některé technické předpoklady, které musí TIER IV datacentrum splňovat.

Určitě se dostane i na reálné příklady, podle kterých pochopíte proč v ČR (a ani jinde ve střední Evropě – včetně Německa, Polska, Maďarska, Slovenska, Rakouska) doposud žádné datacentrum certifikaci TIER IV nemá. Pokud máte otázky, tak nám pište a my můžeme zohlednit odpovědi v dalších článcích.