Co se děje v síti aneb něco málo o DDoS a plánovaných úpravách sítě

[gtranslate]

Dovolte, abychom informovali o tom, co se u nás aktuálně děje a co připravujeme (z hlediska sítě).

Popis situace z odpoledne dne 26. srpna

Někteří z vás (zhruba 1/3) měla dnes odpoledne mezi 13:14 a 14:00 problém s přístupem na některé služby. Tento problém byl zapříčiněn rozsáhlou poruchou IP sítě u ČD Telematika (dále jen ČDT), která je jedním z dodavatelů konektivity pro naše datacentrum.

Zhruba 2/3 klientů neměly žádný problém kromě cca 30 sekund, kdy se přepočítávala routovací tabulka a měnily se cesty na trasách k nám (což mohlo být zhruba dalších 30-60 sekund).

Update ve 20:00:

Od 19:33 na naši síť proběhl silný útok, který v době psaní článku stále probíhá. Detaily níže.

Co se přesně stalo?

U ČDT Telematika došlo k poruše páteřního routeru, který přijímal všechny pakety a neroutoval je dál (jednoduše řečeno – házel je do černé díry). Bohužel tento router pakety přijímal na obou stranách a to jak od nás, tak i směrem z internetu. Proto nebylo možné hned diagnostikovat problém, který byl příčinou rozsáhlého výpadku celé IP sítě ČD Telematika, která je jedním z předních ISP v České republice.

Zjednodušeně řečeno router se na všechny strany “tvářil”, že je v pořádku, ale nic nepropouštěl.

Záložní router ČDT Telematika, který máme připojený na druhé trase (do jiného našeho routeru), byl přetížen a tak odbavil jen malou část přenosů (zhruba 10%).

Update 27. srpna 20:00

Dle dnešních informací z ČDT za pád jejich routerů mohl útok na naši sít. Nemáme důvod tomu nevěřit a jen to dokládá sílu a provedení DDoS útoku, který proběhl. Komplikaci v jejich síti (ale již výrazně menší) způsobil i večerní útok. Celou situaci jsme dnes několikrát řešili s ČDT a věříme, že společně najdeme cestu, jak se úspěšně bránit.

Proč nepomohla záloha?

Záloha nepomohla právě z důvodu, že se primární router ČDT “tvářil”, že je v pořádku a ne, že má výpadek nebo nějakou poruchu. Pokud by nastala porucha, tak by byl veškerý přenos (ven i dovnitř naší sítě) automaticky přesměrován přes jiného dodavatele.

Záložní router ČDT byl také spojen, ale byl přetížen a tak také nedošlo k automatickému přesměrování na jiného dodavatele.

Bohužel z naší strany nebylo nic poznat a zvenku také ne. Problém s routerem u ČDT nešlo diagnostikovat. V podstatě se jednalo o problém v internetu, zcela mimo naší síť.

Výpadek jsme zaregistrovali ve 13:14 prakticky okamžitě naším monitoringem. My jsme nejprve ověřovali, zda nejsou problémy na optických trasách. Tam problém nebyl. Kontaktovali jsme tedy dodavatele konektivity Kaora, který nám také potvrdil, že problém u nich není. Následně jsme se snažili kontaktovat podporu ČDT, kde nám bylo sděleno, že mají rozsáhlý výpadek IP služeb, ale že příčinu zatím neznají a tak jsme řešili kde je problém. Zkusili jsme nejprve ručně odpojit jednu z tras, což nepomohlo. Následovalo ruční odpojení druhé trasy k ČDT. Během změn došlo k úpravám routovacích tabulek protokolu BGP, což mělo za následek problém na cca 30-60 sekund prakticky na všechnu konektivitu. 

Po rozpojení obou peeringových propojů, které zároveň slouží jako upstream připojení pro naší síť, kde teče cca 1/3 našeho provozu, došlo okamžitě k úplnému obnovení konektivity v celém rozsahu.

Dnešní problém nebylo v našich silách možné nějak ovlivnit a zároveň nebylo prakticky možné jej vyřešit rychleji, než za cca 40-45 minut (během této doby měla cca 1/3 požadavků problém). Za komplikace se klientům omlouváme.

Update k situaci mezi 19:33 až 20:00

V 19:33 začal silný DDoS útok, který ucpal trasu k našemu poskytovateli Kaora. Vzhledem k odpoledním problémů s ČDT jsme neměli jejich síť zapojenou. To jsme chtěli udělat v noci, protože jsme nechtěli riskovat během dne jakýkoliv problém.

Vzhledem k okolnostem jsme byli donuceni zapnout ČDT a tím dopad útoku snížit, protože se vše rozdělilo mezi dvě trasy. Během změn byl výpadek sítě cca 3 minuty a cca 5 minut byla výrazně snížená dostupnost a cca 15 minut byla dostupnost horší (se ztrátovostí z některých směrů). Situaci ještě řešíme a z některých lokalit (ze světa) ještě stále probíhá silný útok, který již řeší dodavatelé tras “nad námi”, ale má to za příčinu to, že z některých směrů je ztrátovost paketů.

Stále se opakující DDoS útoky

Od počátku naší činnosti pravidelně informujeme o DDoS útocích, které jsou vedeny proti naší společnosti. V poslední době jsme informovali o rostoucí četnosti a zvyšující se intenzitě útoků. V posledních týdnech skutečně procházíme velkou zatěžkávací zkouškou naší sítě. 

Věřte nám, že celou věc řešíme celou dobu s maximálním zájmem.

Síla roste

Když jsme loni informovali o útocích, které měly 2-3 Gbps, tak se nám to zdálo dost. V zimě už to bylo 6 Gbps. Na jaře jsme překonali 10 Gbps a nyní v létě už máme rekordy posunuté k 20 Gbps. Dvakrát jsme již zachytili útoky, které byly delší dobu přes 17 Gbps a krátkodobě ještě výše. To jsou již hodnoty, které v ČR nejsou vůbec obvyklé a zřejmě možná ani nikdy jinde nebyly…

Co se děje při DDoS

Existují různé druhy DDoS útoků. Některé jsou proti jednotlivým službám, jiné proti našim routerům, jiné proti našemu hlavnímu webu a jiné proti našim IP rozsahům. Každý je jiný. Nelze to nějak jednoduše paušalizovat, ale v každém případě jde o to, že se útočník, respektive jeho počítače (jež ovládá) snaží naši síť (nebo některé služby) znefunkčnit a vyřadit z provozu. Na naše routery nebo servery se doslova valí miliony paketů za sekundu, které nedělají nic užitečného, ale jen zatěžují infrastrukturu nebo ubírají kapacitu službám, které ji potom nemohou mít pro sebe.

Někdy dojde k tomu, že server již nemá volné kapacity na připojení reálných klientů, protože jej předtím “žádalo” o spojení několik milionů jiných počítačů během několika sekund. Jindy dojde k ucpání switche, respektive přípojky serveru. Jednotlivé koncové servery jsou připojeny 1 Gbps a když je útok mířen na jeden konkrétní server, tak při překročení 1 Gbps je konektivita serveru prakticky vyřazena z provozu.

Co s tím?

Proti DDoS útokům se těžko brání. Moc těžko. Některé lze vyřešit snadno, jiné hůře.

My jsme prakticky vždy DDoS zvládali s úsměvem. Vzhledem k tomu, že však síla roste, tak jsme již měli 2 menší problémy a dnes třetí (ten by asi nenastal za předpokladu, že bychom měli peering s ČDT).

Připravujeme zásadní změny a úpravy tak, aby vše fungovalo jak má a to i během DDoS útoků.

Jak se bráníme nyní?

Ono je nebezpečné něco prozrazovat, protože bychom tím mohli útočníkům hodně pomoci.

Nyní máme nastavená různá pravidla na našich routerech a serverech. Vše monitorujeme a prakticky hned (v jednotkách sekund). S našimi dodavateli konektivity jsme ve spojení a každý útok společně hned řešíme. Zároveň naše konektivita je nyní primárně přesměrovaná přes dodavatele, který má DDoS ochranu, ale každá ochrana vyhodnotí útok až po určité době a zároveň každý útok je jiný a tak ne vše funguje jak má. Problém je navíc v tom, že část konektivity se k nám dostane přes druhou síť a jiné poskytovatele. Další a mnohem významnější problém je ten, že pokud jsou tak silné útoky, tak dojde (doslova) k “ucpání” tras u poskytovatelů a to i včetně poskytovatelů “nad námi”. Tím část tras jde (například z ČR nebo SR) a třeba Evropa, ale část do zámoří nebo do Asie nejde. Jindy jsou útoky třeba z Jižní Ameriky a tak jsou ucpané trasy tam.

Co chystáme

Chystáme zcela zásadní úpravy sítě. Vyměníme hraniční routery, které budou mít mnohonásobně vyšší kapacity a budou mít i porty 40 Gbps. Celková routovací kapacita na hranici mezi námi a internetem bude 2,56 Tbps a propustnost paketů 1,904 tera paketů za sekundu. Zároveň nyní zítra chceme spustit komerční detekci DDoS útoků, kterou chceme zakoupit a pokud testy dopadnou dobře, tak ji pořídíme (respektive si již necháme).

Dnes jsme jednali s dodavatelem, který má Arbor řešení a přes něhož nám teče zahraniční konektivita již nyní o tom, že bychom spolupráci rozšířili a detekci zpřísnili a tím výrazně zlepšili ochranu naší sítě.

Zároveň řešíme další optickou trasu a tím bychom celkovou kapacitu navýšili na 40 Gbps.

V nejbližších dnech chceme celou naši infrastrukturu předělat. Tento krok už připravujeme delší dobu a nešel urychlit.

Detekci útoků, kterou máme nyní na Hluboké dáme přímo do Prahy. Tím bychom měli zabránit tomu, že trasy k nám budou doslova ucpané.

Jen pro informaci dodáváme, že aktuální situace pro nás má ve všech směrech prioritu a celková investice v korunách bude mít sedm míst. Každý měsíc to navíc pro nás bude znamenat náklady ve stovkách tisíc korun za licence a za komerční filtrování. Věříme, že to pomůže.

Bohužel to nejde udělat rychleji. Například dodání hardwaru trvá několik týdnů a přípravy a vše související není na jedno odpoledne.  

Připravte se, startujeme

Ve čtvrtek k nám dorazí nový hardware na úpravy sítě. Hned se na to vrhneme. Postupně to budeme měnit. Za týden budeme mít hotovou výraznou část úprav, ale  odhadujeme, že to bude trvat cca měsíc, než bude kompletně vše hotovo. 

Vše chceme dělat v noci a bez výpadků, ale jedná se o velmi zásadní úpravy sítě, že může dojít k drobným a velmi krátkodobým nedostupnostem (během noci). O všem budeme průběžně informovat na našem webu.

Uděláme velké změny, velké úpravy. Již za pár dní začínáme…

Závěrem…

Všem klientům se velmi, ale velmi omlouváme a naší prioritou je udělat výše popsané kroky a tím omezit dopad dalších podobných komplikací.

Věříme, že jsme v posledních týdnech jasně ukázali, že jsme výrazně zlepšili krizovou komunikaci v podobných situacích.

Je vidět, že někomu strašně moc vadíme, protože pořádat na nás takový “hon” není zadarmo a už to musí někomu vážně stát za to…

Opět lze na závěr jen napsat, že co nás nezabije, tak nás posílí. Stejně jako jarní komplikace s elektronapájením, které jsme vyřešili, tak i tohle vyřešíme. Mimochodem jen dodáme, že za pár dní k nám dorazí druhý mortorgenerátor, který je celou dobu objednán a čekáme na to, až bude dopraven na místo.