Shrnutí: Naše platforma je navržena pro vysokou dostupnost v oblasti napájení, chlazení, sítě, výpočetních zdrojů a úložiště. Cílíme na 99,9% roční dostupnost klíčové infrastruktury. Tento cíl nezahrnuje plánované údržby ani události mimo naši kontrolu (např. přírodní katastrofy, problémy u poskytovatelů jako přerušení optických tras nebo výpadky elektrické sítě).
Co znamená "99,9% SLO"
- Cíl: dostupnost 99,9% měřená ročně
- Rozsah: dostupnost infrastruktury a platformních služeb na hraně sítě a na úrovni hypervizoru
- Jedná se o SLO, nikoli SLA: jde o transparentní cíl, nikoli smluvní závazek s kompenzací
Redundance infrastruktury
Napájení (dvě nezávislé cesty A/B)
- UPS zálohy a generátory zajišťují nepřerušené napájení a dlouhou dobu autonomního provozu
- Každý server má dva napájecí zdroje, každý připojený k samostatnému rozvaděči na různých fázích
- Pravidelné testování, monitoring a zdokumentované postupy přepínání mezi zdroji napájení
Chlazení (konfigurace N+1)
- Dvě nezávislé klimatizační jednotky (N+1); každá zvládne plnou zátěž, zatímco druhá je v servisu
- Nepřetržitý monitoring teploty a vlhkosti s automatickými upozorněními
Síť
- Dvojité optické přípojky u různých operátorů s dynamickým směrováním pro rychlé přepnutí při výpadku
- Redundantní síťové přepínače a ochrana proti DDoS útokům na vyšší úrovni
Úložiště a Ceph
- Úložiště založené na technologii Ceph je dostupné u služeb Cloud VPS a Nextcloud
- Ceph úložiště není dostupné u dedikovaných serverů a AMD VPS
Provoz systému
- Nepřetržitý monitoring napájení, chlazení, sítě, výpočetních zdrojů a úložiště
- Preventivní údržba s plány návratu do předchozího stavu; většina prací neovlivňuje provoz díky redundanci
- Řešení problémů probíhá podle zdokumentovaných postupů a řetězce odpovědnosti
Plánovaná údržba (nezahrnuta do cíle 99,9%)
- Termíny údržby oznamujeme předem a plánujeme je na dobu mimo špičku
- Pokud bude údržba mít vliv na provoz, uvedeme to v oznámení; většina prací probíhá bez přerušení provozu
Co není zahrnuto (události mimo naši kontrolu)
- Oznámené termíny údržby
- Přírodní katastrofy a vyšší moc (zemětřesení, povodně, bouře, požáry)
- Problémy u poskytovatelů služeb (přerušení optických tras, výpadky operátorů, výpadky elektřiny)
- Problémy na straně zákazníka (chybné nastavení operačního systému nebo aplikace, vyčerpané zdroje, nastavení firewallu nebo změny provedené zákazníkem či jeho dodavateli)
Závěr
Naše vícevrstvá architektura dvojité napájení, chlazení N+1, různé optické přípojky a odolné úložiště je postavena tak, aby dosáhla roční dostupnosti 99,9%. Žádný systém nemůže zaručit naprostou dostupnost, ale tato architektura minimalizuje dopad selhání jednotlivých součástí a umožňuje údržbu s minimálním narušením provozu. Cíl 99,9% se měří ročně a nezahrnuje plánované údržby ani události mimo naši kontrolu.