NIC Incident Management: IT-Ausnahmezustand durch Wartungsarbeiten an der Stromversorgung

Das Incident Management (zu Deutsch Störfallmanagement) ist ein wesentlicher Teilbereich im IT-Service und lässt sich im Rahmen von IT-Outsourcing an externe Dienstleister auslagern. Das NIC Systemhaus beeindruckt als erfahrener IT-Spezialist mit pfeilschneller Reaktion und einem Höchstmaß an branchenspezifischem Know-how. Wir sind zur Stelle, wenn es zu Störungen im IT-System kommt und schützen den Mittelstand vor unnötigen Ausfallzeiten. Anhand von Fallbeispielen gewähren wir Ihnen einen Einblick in unser professionelles Incident Management. In diesem Fall geht es um einen kritischen Stromausfall, der zu einer Ausnahmesituation in Unternehmen führte.

Partieller Stromausfall bei zwei Kunden zeitgleich

Im Verlauf unangekündigter Wartungsarbeiten an der Stromversorgung des Rechenzentrums durch einen externen Dienstleister kam es bei NIC-Kunden zur Störung auf einem von zwei Stromversorgungspfaden. Das NIC Systemhaus wurde über diese Wartungsarbeiten vorab nicht informiert. Die Ursache der Störung im Detail:

  • An einem Wochentag um 10:21 Uhr wurde das Unterbrechungsfreie Stromversorgungssystem (kurz: USV-System) durch das Wartungspersonal des USV-Herstellers auf den externen Bypass (Parallelweg zur Informationsübertragung) umgeschaltet.
  • Das verursachte eine Unterbrechung eines Stromversorgungspfades bis etwa 10:43 Uhr durch den – für die Spannungsversorgung des externen Bypasses installierten – Motorschalter, der sich bei der Umschaltung nicht im geschlossenen Zustand befand.
  • Beide Storage-Area-Network­– kurz SAN-Switche (Verbindungen zwischen Servern und Speichergeräten) hatten jeweils ein Netzteil und waren beide auf den entsprechenden Strompfad gesteckt.
  • Dadurch kam es zu Ausfällen in der VM-Umgebung (VM = Virtual Machine) und die virtuellen Maschinen mussten neu gestartet werden.
  • Zudem war die Hardware der Telekom (MPLS und Internetverbindung) nicht redundant verkabelt und ist ebenfalls ausgefallen.
  • Somit waren die Systeme unserer Kunden nicht mehr von außerhalb erreichbar.

Major Incident – schnelle Systemrettung durch NIC

Der Fehler wurde von NIC sofort erkannt, da die Kundensysteme nicht zur Verfügung standen und dies in unserem Systemhaus eine automatische Warnung auslöst. Für Unternehmen bedeutet ein solcher Systemausfall eine dramatische Ausnahmesituation (Major Incident). Sind die IT-Systeme von außen nicht zu erreichen, legt das nicht nur Telefonverbindungen lahm, sondern auch elementare Services von Unternehmen wie Onlineshops, Buchungssysteme (wie sie in der Hotellerie und der Veranstaltungsbranche häufig zum Einsatz kommen) oder logistische Prozesse sind nicht mehr verfügbar.

Eine schnelle Ursachenfindung und Problembehebung sind ein Muss, um wirtschaftlich negative Folgen zu verhindern oder zumindest auf ein Minimum zu beschränken. Am Verlauf des Incident Managements im beschriebenen Fallbeispiel erfahren Sie, wie das NIC Systemhaus den IT-Betrieb der betroffenen Unternehmen wiederherstellte:

  • 10:21 Uhr: Störungsbeginn – Unterbrechung auf dem Stromversorgungspfad aufgrund von Wartungsarbeiten.
  • 10:24 Uhr: Interne Meldung im NIC Systemhaus über Microsoft Teams – einer Plattform zur Kommunikation. Die Notfall-Koordination durch NIC beginnt – ein Krisenstab mit ausgewählten Experten wird gebildet.
  • 10:35 Uhr: Unsere IT-Techniker sind auf dem Weg ins Rechenzentrum. Ein Störungsticket bei der Telekom wird eröffnet.
  • 10:43 Uhr: Die Stromversorgung auf dem betroffenen Versorgungspfad ist wiederhergestellt.
  • 10:50 Uhr: Die IT-Systeme unserer Kunden werden nach und nach hochgefahren und überprüft.
  • 10:50 Uhr: Ein Broadcast – eine Nachricht im Rechnernetz, die Datenpakete an alle User eines Nachrichtennetzes überträgt – wird versendet.
  • 11:10 Uhr: Die Wiederherstellung der Datenbank (vCenter Restore) beginnt.
  • 12:05 Uhr: Der vCenter Restore ist abgeschlossen – die IT-Systeme sind wieder online.
  • 12:06 Uhr: Alle Systeme und Dienste werden final geprüft. Das Monitoring wird ebenso geprüft und überwacht.
  • 12:32 Uhr: Die Systeme sind störungsfrei online – die Störung ist behoben und die korrekte Funktion durch Nutzer abschließend bestätigt.

Durch das schnelle und konsequente Handeln konnte das NIC Systemhaus die Ausfallzeit des IT-Betriebs auf zwei Stunden und elf Minuten beschränken. Ohne professionelles Incident Management hätte der Zwischenfall für die betroffenen Kunden fatale Folgen haben können.

Sie möchten sich für den Ausnahmezustand wappnen?

Eine gute Entscheidung! Das NIC Systemhaus ist im Rahmen der Managed Services für Sie da, wenn Ihre IT aus der Reihe tanzt und Sie auf schnelle Unterstützung angewiesen sind.

Jetzt beraten lassen!

NIC Systemhaus GmbH hat 4,77 von 5 Sternen 33 Bewertungen auf ProvenExpert.com