Zusammenfassung: Unsere Plattform ist auf hohe Verfügbarkeit in den Bereichen Stromversorgung, Kühlung, Netzwerk, Rechenleistung und Speicher ausgelegt. Wir streben eine jährliche Verfügbarkeit von 99,9% für die Kerninfrastruktur an. Geplante Wartungen und Ereignisse außerhalb unserer Kontrolle (z.B. Naturkatastrophen, Probleme bei Drittanbietern wie Glasfaserunterbrechungen oder Stromausfälle) sind hiervon ausgenommen.
Was bedeutet "99,9% SLO"
- Ziel: 99,9% Verfügbarkeit, gemessen über ein Jahr
- Umfang: Erreichbarkeit der Infrastruktur und Plattformdienste am Netzwerkrand und auf Hypervisor-Ebene
- Dies ist ein SLO, kein SLA: Es handelt sich um ein Transparenzziel, nicht um eine vertragliche Zusage mit Entschädigungsanspruch
Infrastruktur-Redundanz
Stromversorgung (doppelte A/B-Pfade)
- USV-Anlagen und Generatoren gewährleisten unterbrechungsfreie Stromversorgung und lange Laufzeiten im Notbetrieb
- Jeder Server verfügt über zwei Netzteile, die jeweils an eine unabhängige Stromverteilung auf verschiedenen Phasen angeschlossen sind
- Regelmäßige Tests, Überwachung und dokumentierte Umschaltverfahren zwischen den Stromquellen
Kühlung (N+1-Konfiguration)
- Zwei unabhängige Klimaanlagen (N+1); jede kann die volle Kühllast bewältigen, während die andere gewartet wird
- Kontinuierliche Überwachung von Temperatur und Luftfeuchtigkeit mit automatischer Alarmierung
Netzwerk
- Doppelte Glasfaseranschlüsse über verschiedene Anbieter mit dynamischem Routing für schnellen Ausfall-Wechsel
- Redundante Netzwerk-Switches und DDoS-Schutz auf vorgelagerter Ebene
Speicher und Ceph
- Ceph-basierter Speicher ist bei Cloud VPS und Nextcloud verfügbar
- Ceph steht bei Dedicated Servern und AMD VPS nicht zur Verfügung
Betrieb
- Durchgehende Überwachung von Stromversorgung, Kühlung, Netzwerk, Rechenleistung und Speicher
- Vorbeugende Wartung mit Rückfall-Plänen; die meisten Arbeiten beeinträchtigen den Betrieb dank Redundanz nicht
- Störungsbehebung erfolgt nach dokumentierten Verfahren und Eskalationsketten
Geplante Wartung (nicht im 99,9%-Ziel enthalten)
- Wartungsfenster kündigen wir rechtzeitig an und legen sie außerhalb der Hauptnutzungszeiten
- Falls Auswirkungen zu erwarten sind, wird dies in der Ankündigung genannt; die meisten Arbeiten erfolgen im laufenden Betrieb ohne Unterbrechung
Ausnahmen (außerhalb unserer Kontrolle)
- Angekündigte Wartungsfenster
- Naturkatastrophen und höhere Gewalt (Erdbeben, Überschwemmungen, Unwetter, Brände)
- Probleme bei Drittanbietern (versehentliche Glasfaserunterbrechungen, Ausfälle bei vorgelagerten Anbietern, Stromausfälle)
- Kundenseitige Ursachen (fehlerhafte Konfiguration von Betriebssystem oder Anwendung, erschöpfte Ressourcen, Firewall-Einstellungen oder Änderungen durch Kunden bzw. deren Dienstleister)
Fazit
Unsere mehrschichtige Architektur doppelte Stromversorgung, N+1-Kühlung, verschiedene Glasfaseranschlüsse und ausfallsicherer Speicher ist darauf ausgelegt, eine jährliche Verfügbarkeit von 99,9% zu erreichen. Kein System kann vollständige Verfügbarkeit garantieren, aber diese Architektur minimiert die Auswirkungen von Komponentenausfällen und ermöglicht Wartungen mit minimaler Betriebsunterbrechung. Das 99,9%-Ziel wird jährlich gemessen und schließt geplante Wartungen sowie Ereignisse außerhalb unserer Kontrolle aus.