|
|
|
»manage
it«
als
|
Disaster Recovery Management Schäden erfolgreich begrenzen Die Abhängigkeit der Business Continuity von der IT nimmt weiter zu. Gab es in der Vergangenheit noch eine weitgehende Trennung von IT und Geschäftsprozessen, so sind heutzutage Geschäftsprozesse und IT in den Unternehmen auf das Engste miteinander verzahnt. Daraus ergibt sich im Regelfall ein hoher Verfügbarkeitsanspruch des Unternehmens, da eine Störung der IT-Infrastruktur gravierende Folgen für das Unternehmen hat. Abhilfe schafft ein Disaster Recovery Management, das Verantwortlichkeiten dokumentiert und eine transparente Ablaufsituation im Eskalationsfall definiert, meint Ralf Dahmer, Geschäftsführer des Rechenzentrumsspezialisten Litcos.
ie Bedrohungen für die Business Continuity, die kontinuierliche Verfügbarkeit der Geschäftsprozesse, in den Unternehmen sind vielfältig. Eine entscheidende Rolle spielt in diesem Zusammenhang die eng mit den Geschäftsprozessen verzahnten Systeme, die IT – Applikationen, aber auch die Rechenzentrumsumgebung. Eine aktuelle Untersuchung listet die Gefährdungen in diesem Bereich auf: Eskalations- und Störfälle werden zu 55 Prozent durch Hardwareschäden ausgelöst, zu 13 Prozent durch Stromausfall und zu jeweils 10 Prozent durch Hardwarediebstahl, Umzüge beziehungsweise Bombenanschläge, Anschlagsdrohungen und Sabotage. Grund genug für die Firmen, ein Risiko- und ein Disaster Recovery Management zu betreiben. Prävention und Reaktion Im Risikomanagement unterscheidet man zwischen Prävention, der Verhinderung von Schäden durch Senken der Eintrittswahrscheinlichkeit, und Reaktion, der Begrenzung von Schäden durch Absicherungskonzepte. Letzteres ist Aufgabe des Disaster Recovery Management. Damit ist klar: Eine gute Prävention durch sorgfältige Planung des Rechenzentrums von der unterbrechungsfreien Stromversorgung bis hin zur Hardwarekonsolidierung ist zwar ein Muss, reicht aber alleine nicht aus. Kommt es trotz aller Vorkehrungen zu einem Eskalationsfall, ausgelöst durch Hardwareschäden, Feuersbrünste oder Sabotage, bedarf es unter anderem einer Notfallplanung, die Teil des Disaster Recovery Management ist und das Weiterexistieren des Unternehmens im Eskalationsfall ermöglicht. Diese Notfallplanung tritt in Kraft, wenn innerhalb der geforderten Zeit eine Wiederherstellung der Verfügbarkeit nicht möglich ist und sich daraus ein hoher Schaden für das Unternehmen ergibt. Die Schäden variieren je nach Unternehmen und Branche. Nach Angaben der Contingency Planning Research belaufen sich die Kosten pro Stunde Ausfallzeit im Investmentbanking auf fast acht Millionen Euro, bei Kreditkartenkäufen auf fast 3,2 Millionen Euro und bei Flugreservierungen immerhin auf 108.000 Euro. Ausfälle auffangen Wie verläuft der Prozess des Disaster Recovery Managements? Der Disaster-Recovery-Management-Prozess gliedert sich in fünf Bestandteile: Die Projektinitiierung, die so genannte Business Impact Analysis, die Entwicklung der Recovery-Strategie, die Implementierung der Recovery-Strategie und das Erstellen der Notfallpläne. Bei der Projektinitiierung, an der Kunde und Dienstleister beteiligt sind, werden das Projektteam und die Verantwortlichkeiten innerhalb des Teams bestimmt. Zur Projektinitiierung gehören auch die Informationserfassung und -speicherung, die Definition der Anforderungen an die einzelnen Rollen im Projekt sowie die Festlegung von Kommunikationsmitteln und -methoden. Danach erfolgt die Business Impact Analysis (BIA). Die Beteiligten tragen die Informationen zu den Geschäftsprozessen des Unternehmens und zur notwendigen technischen Infrastruktur zusammen; sie erfassen und klassifizieren regulatorische und gesetzliche Anforderungen sowie den firmenweiten Verfügbarkeitsanspruch. In einem ersten Schritt werden die kritischen Geschäftsprozesse, in einem zweiten die relevanten IT-Strukturen identifiziert. Auf welche Geschäftsprozesse kann das Unternehmen auf gar keinen Fall verzichten, weil ihre Störung enorme Kosten zur Folge hätte? Welche IT-Strukturen stehen zur Verfügung, um diese Geschäftsprozesse abzubilden? Schritt drei ist die Gewichtung der materiellen und immateriellen Folgen: Was kostet das Unternehmen ein Ausfall relevanter IT-Infrastruktur? Wie sieht es mit Imageschäden aus; wie wirkt sich ein Ausfall auf die Beziehungen zu Kunden, Lieferanten, strategischen Partnern und Investoren aus? Im vierten Schritt werden der Recovery Point Objective und der Recovery Time Objective für jeden Prozess formuliert. Der Recovery Time Objective (RTO) bezeichnet die maximal tolerierbare Wiederanlaufzeit nach dem Ausfall der IT-Strukturen, der Recovery Point Objective (RPO) den jeweils maximal tolerierbaren Datenverlust seit der letzten Sicherung. Bei unternehmenskritischen Prozessen tendieren beide Werte gegen Null. Zusammenfassend kann festgehalten werden: Die BIA liefert das notwendige Planungswissen, um eine möglichst optimale Disaster-Recovery-Strategie zu entwickeln. Eine Strategie, mit deren Hilfe sich der Ausfall der kritischen und unter Umständen überlebensnotwendigen IT-Strukturen und der mit ihnen verbundenen Geschäftsprozesse auffangen lässt. Minimale Ausfallzeiten und Datenverluste Ist die BIA abgeschlossen, erfolgt die Entwicklung einer Recovery-Strategie, die die Ergebnisse der BIA berücksichtigt: Dazu gehören die Planung geeigneter Ausweich-IT-Strukturen entsprechend den definierten RTO und RPO, die Definition der Server- und Storagesysteme, die Festlegung der WAN- und LAN-Strukturen, die Entwicklung eines angepassten Datensicherungskonzepts und das Formulieren von Wiederanlaufstrategien. Grundsätzlich lassen sich vier Stufen von DR-Strategien unterscheiden: Sie reichen von der untersten Stufe mit einer Datensicherung über Bänder, einem Quick Ship Program – der RTO liegt hier bei vier bis fünf Tagen – bis zur höchsten Stufe mit gespiegelten Daten, Server Clustern und zwei Rechenzentren, die gegebenenfalls in einem Abstand von mehreren Kilometern voneinander entfernt sind. RTO und RPO tendieren in diesem Fall gegen Null. Ausfallzeiten und Datenverluste lassen sich bei einer Notfallplanung mit Datenspiegelung gegenüber einer konventionellen Notfallplanung erheblich reduzieren. Anwendung von ITIL-Grundsätzen Die nächste Phase ist die Implementierung der Recovery-Strategie mit dem Ziel, eine adäquate, funktions- und testfähige Ausweich-IT-Struktur bereitzuhalten. Im Prinzip gibt es zwei Möglichkeiten: Entweder entscheidet sich der Kunde für eine eigene Ausweich-IT-Struktur oder aber für eine Auslagerung. Bei einer Entscheidung für das Outsourcing sind folgende Probleme zu bedenken: Die Sicherheitsanforderungen zweier Unternehmen, des Kunden und des Dienstleisters, müssen miteinander in Übereinstimmung gebracht werden; der Dienstleister wird in der Regel mit einer Gesamtleistung beauftragt, wobei die internen Strukturen des Dienstleisters nicht notwendigerweise transparent sind; wie auch beim Eigenbetrieb verursachen alle Maßnahmen Kosten und müssen daher sorgfältig geplant werden. Folgende Prozesse kennzeichnen das Outsourcing. Der Kunde erteilt dem Anbieter den Auftrag zu IT-Dienstleistungen und formuliert die Service Level Agreements; der Dienstleister sorgt für den IT-Betrieb und liefert regelmäßige Reports an den Kunden. Nicht selten liegen die Fallstricke des Outsourcing bei den Service Level Agreements (SLA). Hier hilft das Disaster Recovery Management weiter, das die relevanten SLA-Kriterien formuliert: Wann sind die Betriebszeiten? In welchen Abständen liefert der Dienstleister die Reports? Wann erfolgt die Benachrichtigung im Fehlerfall während und außerhalb der Betriebszeiten? Wie sieht das so genannte Managing Fault Management aus; wie lang sind die Reaktions- und Lösungszeiten? Wie funktionieren beispielsweise das Configuration Management, das Performance Management und das Backup and Restore? Bei der Implementierung der Recovery-Strategie kommen die Grundsätze des Continuity Managements beziehungsweise Service Level Agreements nach ITIL (IT Infrastructure Library) zur Anwendung. Dabei handelt es sich um einen Best-Practise-Ansatz aus Großbritannien, der de facto zum Standard im IT Service Management geworden ist und zahlreiche Anforderungen an den IT-Betrieb erfüllt – die Einhaltung regulatorischer Vorschriften (Sarbanes Oxley) sowie nationaler und internationaler Standards ebenso wie das Schnittstellenmanagement oder den Einsatz von Mitarbeitern. Exakte Handlungsanweisungen Am Ende des Disaster Recovery Management steht das Erstellen von Notfallplänen in einem Notfallhandbuch. Das Notfallhandbuch beschreibt, wie die Verantwortlichen in einem Stör- oder Eskalationsfall vorgehen müssen, um entweder den Betrieb der ausgefallenen Geräte wiederherzustellen oder über eine externe Ausweich-IT-Struktur aufzufangen. Es enthält klare Handlungsanweisungen für verschiedene Notfallszenarien: Systemausfall, Feuer, Naturereignisse, Datenverlust, Einbruch, Sabotage, um nur einige zu nennen. Die im Handbuch – ein aktuelles Exemplar sollte ausgelagert sein – enthaltenen Pläne müssen sachverständige Dritte in die Lage versetzen, die geforderten Notfallmaßnahmen durchzuführen. Die laufende Pflege der Pläne obliegt dem Kunden. Ganz wichtig: Die Notfallplanung umfasst den gesamten Zeitraum zwischen Normalbetrieb und Wiederherstellung des Normalbetriebs. Eine auf die Zeit zwischen Notfallentscheidung und Wiederherstellung des Normalbetriebs reduzierte Notfallplanung, die die Alarm- und Eskalationsphase außer Acht lässt, reicht nicht aus. Welche Punkte werden in dem Notfallhandbuch behandelt? Allgemeine Regelungen für den Notfall wie Notfall-Verantwortliche, Kompetenzverteilung, Verhaltensregeln, Organisationsrichtlinien und Verfügbarkeitsanforderungen; außerdem Wiederanlaufpläne mit einer Beschreibung der Wiederbeschaffungsmöglichkeiten, der internen oder externen Ausweichmöglichkeiten und der Wiederanlaufreihenfolge sowie die Darstellung der IT-Systeme von den Software- und Hardwarekomponenten über die Netzanbindungen bis hin zu den IT-Anwendungen. Darüber hinaus muss das Notfallhandbuch auch ein Hersteller- und Lieferantenverzeichnis sowie einen Ersatzbeschaffungsplan enthalten. Risiken minimieren Ein Disaster Recovery Management ist angesichts der hohen Verfügbarkeitsansprüche der Unternehmen unverzichtbar. Es bildet die Grundlage für eine schnelle Wiederherstellung der IT und der damit verbundenen Geschäftsprozesse bei einem Systemausfall. Führende RZ-Spezialisten haben das Disaster Recovery Management zu einem zentralen Baustein ihres Leistungsportfolios gemacht und besitzen eine entsprechende Expertise. Unternehmen, die in die Sicherheit ihrer IT und Geschäftsprozesse investieren, sollten sich nicht mit der Prävention begnügen, sondern über das Disaster Recovery Management Risiken minimieren. Ralf Dahmer ___________________________________________________________ Ralf Dahmer, Geschäftsführer der Litcos GmbH & Co. KG
Bild 1
Ralf Dahmer, Geschäftsführer der Litcos GmbH & Co. KG: »Das Disaster Recovery Management ist unverzichtbar geworden.«
Bild 2
»Prävention und Reaktion gehören zum Risikomanagement.«
Litcos
|
|