“Großstörung” bei unseren Provider First Root

Hallo allerseits,

Ihr habt es vielleicht schon bemerkt von 12.03.2017 08:43 CET bis jetzt (15.03.2017 17:16 CET) war die gesamte Ironpriests-Infrastruktur (Website, E-Mail, Teamspeak) offline. Grund hierfür ist eine Störung seitens unseres Providers First Root mit der Stromversorgung ihres Standortes und eine darauf folgende Startproblematik mit deren Virtualiserungslösung von welcher ich noch keine weiteren Informationen habe. Hier ein Zitat der Infos von First Root:

Informationen zur Großstörung vom 12.03.2017

Wie du wohl leider mitbekommen hast, war unsere komplette Infrastruktur in Düsseldorf (DUS1) am 12.03.2017 für einen längeren Zeitraum nicht erreichbar. Wie es dazu kam und wie wir das in Zukunft vermeiden wollen, kannst du hier lesen.

Art und Herkunft der Störung
Die Ursache für die Störung war ein vollständiger Stromausfall beider Feeds (Stromleitungen) in unserem Haupt-Serverschrank im Rechenzentrum DUS1. Dieser Stromausfall wurde durch ein defektes Netzteil der Marke Supermicro (Supermicro PWS-920P-SQ 920W Power Supply) verursacht, welches innerhalb von wenigen Minuten erst Feed A und anschließend Feed B mit einem Kurzschluss vom Netz genommen hat.

Verzögerung bei der Störungsbeseitigung
Leider hat zum gleichen Zeitpunkt auch unsere Überwachungs-Infrastruktur versagt, wodurch die Beseitigung der Störung unnötiger Weise in die Länge gezogen wurde. Unsere Überwachungs-Infrastruktur besteht aus zwei komplett getrennten Überwachungssystemen (Deutschland und USA), welche bei einer eintretenden Störung SMS versenden. Diese SMS werden per API an einen SMS-Provider übermittelt, welcher einen Status-Code zurückliefert, wenn die SMS zugestellt worden ist oder auch nicht zugestellt werden konnte. Die Überwachungssysteme wechseln auf den alternativen SMS-Provider, wenn eine SMS nicht zugestellt werden konnte.

Leider wurden die SMS trotz positiven Status-Codes nicht zugestellt, weshalb wir erst mit großer Verzögerung über die Störung informiert wurden. Nach Rücksprache mit unserem SMS-Provider wurden wir darüber informiert, dass dieser gestern einen Ausfall mehrerer Zustellrouten hatte und dieser von der eingesetzten API nicht korrekt erkannt wurde und einen positiven Status-Code verschickt hat.

Testroutinen und Störungssimulationen
Wir führen kontinuierlich und in regelmäßigen Zeitabständen Tests durch, welche auf der einen Seite unsere Überwachungs-Infrastruktur und wichtige Infrastruktur-Systeme (Router / Switches) prüft. Jede Woche simulieren wir einen Systemausfall und prüfen, ob die Überwachungs-Infrastruktur erfolgreich Meldungen liefert. Des Weiteren testen wir zwei Mal im Jahr die Router- und Switching-Infrastruktur mittels simulierten Ausfalls.

Bewertung der Störung
Bei dieser Störung handelt es sich leider um die bisher umfangreichste Störung in unserer Unternehmensgeschichte, welche auf die Verkettung mehrerer negativer Umstände zurückzuführen ist. Technische Störungen, welche durch höhere Gewalt (z.B. den Ausfall eines Netzteils) eintreten, wird es immer geben und lassen sich leider nicht vermeiden. Jedoch können wir unsere Infrastruktur so aufbauen, dass unsere Kunden (resp. die Kundensysteme) so wenig wie möglich von solch einer Störung im Eintrittsfall betroffen sind und die Beseitigung der Störung so schnell wie möglich stattfinden kann. Bisher war unsere Überwachungs-Infrastruktur auch fähig dies zu bewerkstelligen – bis jetzt zumindest. Aus Kostengründen können wir bei unserer derzeitigen Produktpalette keine Hochverfügbarkeit ermöglichen. Im Störungsfall sind die betroffenen Systeme (Hostsysteme / dedizierte Server / virtuelle Server) dann leider betroffen. Kritische Anwendungen müssen also vom Kunden selbst redundant betrieben werden.

Bezüglich des defekten Netzteils müssen wir nun prüfen, wie es dazu kommen konnte, dass beide Feeds (Stromleitungen) per Kurzschluss abgeschaltet wurden. Im Normalfall wird nur der Feed abgeschaltet, an dem auch das Netzteil angeschlossen ist.

Fragen und Hilfe
Vorab möchten wir dir mitteilen, dass wir auf jeden Fall untröstlich sind über diese enorme Störung und den damit verbundenen Unannehmlichkeiten, welche du dadurch hattest. Natürlich sind wir dir mit vollem Tatendrang bei der Beseitigung eventuell weiterhin bestehender Probleme behilflich. Erstelle dafür bitte ein entsprechendes Ticket und wir werden uns so schnell wie möglich darum kümmern. Dies gilt ebenfalls für etwaige Fragen zur Störung oder sonstigen Anliegen.

Fazit und Maßnahmen zur Verbesserung
Im ersten Schritt werden wir in dieser Woche (KW 11) unsere Überwachungs-Infrastruktur weiter verstärken und ein weiteres Überwachungssystem integrieren, welches komplett unabhängig von den zwei bisherigen Systemen und SMS-Providern sein wird. So können wir die eigentlich bisher schon geringe Wahrscheinlichkeit, dass wir im Störungsfall verzögert informiert werden, noch weiter verringern.

Weitere Schritte können wir erst überlegen, wenn die Störungsparameter noch genauer analysiert wurden.

Quelle: https://f-com.first-root.com/ (Login erforderlich)

Wir bitten die Unannehmlichkeiten zu entschuldigen und hoffen das Ihr Ironpriests auch weiterhin treu bleibt ;)

Gruß Team Irompriests

Update:

Nachdem der Server dann am 15. wieder lief gab es noch einige Probleme die noch ein paar reboots nötig machten. Aber zum krönenden Abschluss wurde dann noch eine menge Software inklusive des Teamspeak Servers auf den neusten Stand gebracht.

Dieser Beitrag wurde unter Allgemein veröffentlicht. Setze ein Lesezeichen auf den Permalink.

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>