Jak jsme pokročili s ukládáním a správou dat na 3PAR StoreServ Storage 8450

[gtranslate]

Děje se toho u nás opravdu hodně. Budujeme naši decentralizovanou síť WEDOS Global, připravujeme na ní spuštění první služby WEDOS Global Protection, stále jde kupředu vývoj olejového chlazení, ale to nejsou všechny velké projekty. V minulém roce jsme migrovali data služeb na nové úložiště 3PAR StoreServ Storage 8450, což bylo hodně náročné a ještě několik měsíců poté jsme občas narazili na problém. Krom značného zjednodušení, zvýšení stability i rychlosti, nám toto nové řešení ale otvírá i cestu posunout mnoho služeb dále.

Nově si můžete článek poslechnout také jako Podcast.

SpotifyApple PodcastsGoogle Podcasts

HPE 3PAR StoreServ Storage 8450

Profesionální AllFlash (100% SSD) úložiště, které má plnou redundanci komponent a umí všechny pokročilé funkce, které od moderních storage určených pro datacentra očekáváte.

Pro nás bylo zásadní vybrat řešení, které bude fungovat pro všechny naše hostingové služby. Pokud máte jeden druh hardware, na kterém dobře jede webhosting, VPS i Cloud, tak vám odpadne spousta starostí. Ušetříme také náklady a prostor na záložní zařízení, které vždy musíte mít skladem pokud by bylo potřeba (závada, zvýšená poptávka, problém s dodávkami atd.).

3PAR nás příjemně překvapil. Je to ALL FLASH = plně SSD (NVMe) úložiště, kde každé pole v konfiguraci, kterou používáme, umí téměř milion IOPSů reálného provozu (žádné benchmarky, ale dlouhodobé testování reálnou zátěží). Jsou tam sice rychlé disky, které toho umí mnohonásobně více, ale v reálném provozu narazíte na jiné limity (řadiče a různé cesty). Konfigurace každého 3PAR jsou minimálně jako online 2 kontrolery a z každého 2 nezávislé cesty. Samozřejmě, že vše je servisovatelné za běhu (tedy kontrolery). Dokonce i každý disk je připojen jednou cestou do jednoho kontroleru a jinou cestou do druhého.

Aktuálně máme v provozu celkem 12 3PAR StoreServ Storage 8450 v datacentru WEDOS DC1. Další pak máme na testování.

Jeden z prvních zapojených HPE 3PAR StoreServ Storage 8450 v našem datacetntru WEDOS DC 1
A tady už vidíte jak vypadají zapojené v našem racku ve WEDOS DC 1.
A tady už vidíte jak vypadají zapojené v našem racku ve WEDOS DC 1.

Souběžné ukládání dat ve dvou a více kopiích

Jedním z naších cílů je, aby úložiště dat fungovala redundantně. Když jedno vypadne, tak aby provoz mohl jet z druhého. To se nám aktuálně už povedlo vyřešit, ovšem zatím to nemáme automatizované. Pro úplnou automatizaci totiž musíte otestovat řadu komplexních scénářů. Nestačí systém připravit na to, že selže jedna věc, musíte počítat s tím, že se toho pokazí více naráz.

A jak to máme zatím vyřešené? První 3PAR StoreServ Storage 8450 ukládá a čte data. Druhý záložní 3 PAR data jen ukládá a stará se o vytváření snaphostů (viz. níže).

Na dvou 3PAR pracujeme se živými daty v reálném čase. Aktuálně jsou v našem prvním datacentru WEDOS DC1. Po prázdninách se druhý z páru bude stěhovat do druhého datacentra WEDOS DC2.

K tomu připravujeme ještě třetí úložiště (vzdálenou zálohu), který nebude obsahovat živá data, pouze jejich kopii. Tu bychom rádi uložili mimo naše datacentra někde v ČR. V plánu je, aby tato záloha byla chráněna proti zašifrování (ransomware útoku) či jinému způsobu poškození dat. Tento 3PAR by si měl data stahovat a ukládat sám. Uložená data budou pouze v režimu pro čtení (read only) s pravidelným čištěním starých dat. Toto bude taková naše pojistka, pokud by všechno ostatní selhalo. O data zákazníků prostě nepřijdeme 🙂

Snapshoty

Představte si, že můžete v reálném čase vytvořit kopii aktuálního stavu vašeho počítače (stav dat na pevném disku i paměti) a vše si uložit. Kdykoliv budete potřebovat, tak se můžete k tomuto stavu vrátit. Toto se nazývá snapshot. Je to jako si uložit rozehranou počítačovou hru před důležitým soubojem 🙂

Snapshoty se používají hlavně u virtuálních serverů. Pokud plánujete provést významný zásah do systému anebo něco aktualizovat, tak si uložíte snapshot a když se to nepovede, tak jej nahrajete zpět. Je to rychlejší než obnova ze zálohy. Pokud použijete rychlé SSD a virtuální server není moc velký, tak to může být otázkou vteřin.

S přechodem na 3PAR StoreServ Storage 8450 nás napadlo, že bychom mohli takto zálohovat data a v případě problému je velmi rychle obnovit.

Na vybraných 3PAR úložištích tak provádíme následující zálohování dat:

  • Snapshot se dělá každé 4 hodiny a držíme je 24 hodin (celkem 6 zálohy)
  • Snapshot se dělá v noci, každých 24 hodin a držíme je 7 dní (celkem 7 záloh)
  • Snapshot se dělá každý víkend a držíme je 4 týdny (celkem 4 zálohy)
  • Teoreticky nyní uvažujeme o tom, že bychom ještě drželi zálohu 3 až 6 měsíců zpětně

Frekvence a časy jsou zatím pouze testovací. Vycházíme z našich zkušeností. 4 hodinové jsou hlavně pro nás, pokud by se něco hodně rozbilo, tak ať vše můžeme, co nejdříve rozjet. Denní jsou pro případ, že jsou poškozená data. Týdenní řeší problém smazaných či neuložených dat.

Pokud bychom službu takovýchto záloh nabízeli i pro zákazníky, tak je možné držet zálohy i delší dobu. Klidně 1x za měsíc a držet 6 měsíců, ale tam už by to muselo být na vyžádání zákazníka kvůli GDRP.

Snapshoty testujeme téměř pro všechny služby – webhostingy, WebSite, WMS, VPS ON a WEDOS Cloud.

Přechod na automatizaci

Jakmile si vše pořádně otestujeme a připravíme se na různé scénáře, tak začneme pracovat na automatizaci a obnově dat ze záloh. Vzhledem k tomu, že jsou to snaphosty, tak se spousta věcí zjednoduší. Služba bude obnovena do stavu v jakém byla k určitému datu.

Proces obnovy bude automatizován. Bude vyžádána záloha z druhého anebo třetího 3PARu, připravena a obnovena. Podle množství dat to může trvat vteřiny až minuty z druhého 3PAR a desítky minut až hodiny z třetího 3PAR (vzdáleného úložiště). Teoreticky budeme moct poskytnout i zálohu ke stažení (odeslání na jiné úložiště).

Závěr

Našim cílem je umožnit nabídnout takovou frekvenci záloh, rozmístění a zabezpečení, abychom splnili všechny standardy, které mohou i ti nejnáročnější zákazníci vyžadovat.

Než se k tomuto dostaneme, tak to ještě pár měsíců potrvá, ale děláme velké pokroky. Byly s tím spojené určité problémy, na které občas narazíme a dokonce kvůli tomu bylo i několik výpadků, ale pokud chcete posunou službu na úplně jinou úroveň a nabídnout ji široké veřejnosti, tak to bez toho nejde. Kdo nic nedělá nic nezkazí, ale časem zjistí, že zaspal pokrok. My se nových výzev nebojíme a jdeme pokroku vstříc 😉