Novinka: Viděli jste naší novou administraci pro správu managed serveru wpcloud.cz ?

Vyjádření k výpadku 2.4.2020

05.04.2020
Pavel Urbánek

Rádi bychom se ještě jednou upřímně omluvili za způsobené komplikace kvůli výpadku ze dne 2.4.2020, který byl způsobený kompletním výpadkem elektrického proudu v datovém centru TTC DC1, kde jsou naše servery umístěny u našeho dodavatele housingových služeb.

Když jsme pracovali s kolegou na naší nové infrastruktuře, všechny navázané připojení k serverům nám byly odpojeny. Jakoby někdo vypnul všechny servery. Bohužel během několika minut se zdání potvrdilo a museli jsme pracovat s informací, že došlo k výpadku elektrického napájení a celý sál včetně našich serverů je offline. Pro velké množství uživatelů nedostupné jejich webové stránky, emaily a další služby, které provozujeme.

Okamžitě jsme informovali naše zákazníky skrze alternativní komunikační kanál Facebook (WP Hosting na Facebooku), který jako jediný byl v tuto chvíli pro nás dostupný. Pokud ještě nyní naši stránku nesledujete, doporučujeme nás na FB začít sledovat.

Všechny naše servery, které v datacentru máme umístěny mají redundantní napájení a jsou jištěny pro připad hardwarového selhání zdroje. Kdyby selhala alepoň jen část napájení sálu datacentra, ustáli bychom to. Bohužel kompletní blackout nečekal nikdo.

 Co se vlastně stalo?

Výpadek nastal na straně  TTC TELEPORT s.r.o., který službu elektrického napájení dodává našemu poskytovali housingu (SuperNetwork s.r.o.).

::: Zde je oficiální vyjádření jeho dodavatele :::

Výpadek napájení části datového sálu 1 datacentra TTC TELEPORT DC1 střídavým proudem dne 2. dubna 2020 v odpoledních hodinách byl způsoben sérií lidských a technických chyb.

V závěru projektu Náhrada zastaralých UPS (rozvodna 1), ke kterému jsme se rozhodli v prosinci minulého roku na základě technického zastarání a zvyšující se poruchovosti původních UPS Silcon (instalace v 2001), zbývalo již jen zapnout novou UPS a odstavit zastaralé UPS zdroje.

V závěru instalace jsme však ze spěchu, obavy z výpadku starých UPS a omezeném režimu díky COVID-19 opomněli o finálních pracech v dostatečném předstihu zákazníky informovat. Patrně by však tento krok nezabránil technickým závadám, ale přinejmenším by byla u zákazníků přítomna informace o riziku výpadku. Zde vidíme naše selhání a chybu, za kterou se omlouváme a plně si uvědomujeme, že k tomuto selhání nemělo na naší straně dojít. Jsme tímto dostatečně poučeni pro příště.

Je nutné dodat, že přepínání UPS mezi bypassem a provozem v dvojité konverzi je ve standardním provozu datového centra běžné a u datacentrových UPS se jedná o naprosto spolehlivou činnost. I proto jsme informování zákazníků podcenili a opomněli je o finální fázi projektu informovat.

 Sumarizace chyb:

1. lidská chyba na straně TTC, kdy nedošlo k informování klientů o konečných pracech na projektu Náhrada zastaralých UPS 2. lidská chyba na straně dodavatele zařízení pro projekt Náhrada zastaralých UPS, kdy nedošlo k ověření správnosti nastavení jistící ochrany v nově dodávaném prvku výstupního jištění UPS = první výpadek 3. technická/mechanická závada starého odpojovače, která se projevila až při manipulaci v rozvaděči a manuálním připojení zátěže = druhý výpadek

 Opatření proti opakování chyb:

1. poučení se, že drobné opomenutí kontroly nastavení jistících prvků může vést ke kritické chybě provozu datacentra. Nastaveno organizační opatření ve smyslu detailnější kontroly jednotlivých dodavatelských prací.

2. ošetřit zdroje mechanicko/technických závad lze testováním při periodické revizi elektrorozvodů. Aktuálně na požadavek klientů není prováděna revize při bezproudí. Při další revizi bude požadavek TTC na revizi s bezproudím, a bude tak provedena i mechanická kontrola všech jistících prvků.

Proč se přistoupilo k projektu Náhrada zastaralých UPS:

S ohledem na stáří instalovaných zařízení 5x Silcon DP380E (rok výroby 2001) pracujících v paralelním redundantním režimu a díky nedávnému výpadku jedné z těchto UPS hrozilo velké riziko, že tyto staré UPS, pracující v paralelním provozu, se mohou zcela nečekaně všechny samovolně porouchat a způsobit tak nekontrolovatelný, dlouhodobý výpadek napájení.

Proto jsme během včerejšího dne novou UPS připojili k síti a po ověření funkčnosti bez zátěže přepnuli do provozu se zatížením – před UPSky Silcon. Po ověření stability parametrů v zátěži, a po závěrečné konfiguraci nové UPS jsme, z obavy z nečekaného výpadku starých UPS, staré UPS Silcon odstavili.

K vybavení nesprávně nastavené ochrany jističe mezi novou UPS a zátěží došlo až několik desítek minut po provedení manipulace odstavení poslední UPS Silcon. K výpadku napájení tedy došlo asi po hodině stabilního provozu nové UPS.

Servisním partnerem byla příčina odhalena a náprava provedena ihned po prvním výpadku. Nebylo však technicky možné celou zátěž zapnout znovu v jeden okamžik, jelikož by jistič vybavil znovu z důvodu proudového rázu nabíjení kapacit ve zdrojích zálohovaných zařízení. Přistoupili jsme tedy k vypnutí pojistkových odpojovačů pro jednotlivé řadové rozvaděče, zapnutí již správně nastaveného jističe a postupného znovu zapnutí jednotlivých vývodů pro řadové rozvaděče.

Při připínání jednoho z posledních pojistkových odpojovačů zálohovaného vývodu, však došlo díky jeho mechanické závadě ke zkratu v tomto odpojovači (mechanická závada tohoto prvku), nastalo vybavení nadřazeného jističe a tím k druhému výpadku napájení.

Postup najetí zálohovaných vývodů se tedy musel opakovat – neprodleně jsme zahájili toto postupné znovuzapínání. Havarovaný odpojovač zůstal nepřipojen a napájení poškozeného vývodu bylo provedeno náhradní napájecí cestou, přes jiný pojistkový odpojovač shodných technických parametrů. Od tohoto okamžiku již běží systém trvale pod zálohovaným napětím s novou UPS.

Po zapnutí jednotlivých řadových rozvaděčů jsme pomáhali zákazníkům s napájením pro jednotlivé racky a s postupným zapínáním přetížených jističů.

Až po odstranění všech závad u všech zákazníků, kteří se nám ozvali, jsme mohli začít oživovat internetovou konektivitu pro web ttc-teleport.cz. Výpadek postihl i jeden z našich switchů (po výpadku odmítal nabootovat). Konfigurace a přepojení náhrady nám zabrala nějaký čas a web ttc-teleport.cz se rozběhl až ve večerních hodinách.

 

Zažít situaci, kdy jsou servery bez „šťávy“ či konektivity, nepřejeme žádnému provozovateli serverů, který má někde housované své servery. I když nás tato situace postihla, byly jsme ujištěni, že se situace opakovat nebude.