HP Service Health Analyzer - Entschlüsselung Von IT -Performanceproblemen

Transcription

HP Service Health Analyzer –Entschlüsselung von IT-PerformanceproblemenTechnisches WhitepaperInhaltEinführung . 2HP Service Health Analyzer und das HP Run-Time Service Model . 2HP Service Health Analyzer – Vorhersagende Laufzeitanalyse . 5Leistungsspektrum des Produkts . 7Schneller Einsatz ohne jegliche Konfiguration . 8Rentabilitätsbetrachtungen. 12Zusammenfassung . 13

EinführungDamit Ihr Unternehmen in der modernen cloudbasierten und virtualisierten IT-Umgebung überleben kann, ist esnicht nur wünschenswert, die vollständige Transparenz des Zustands Ihrer Geschäftsservices sicherzustellen. Es istvielmehr ein Muss! Für die Verwaltung dynamischer Infrastrukturen und Anwendungen ist weit mehr erforderlichals das bloße Reagieren auf aufgetretene Probleme mit Geschäftsservices oder das manuelle Aktualisierenstatischer Schwellenwerte, deren präzise Festlegung kompliziert und deren Pflege schwierig ist.Heutzutage braucht es modernere Mechanismen zur Problembenachrichtigung, sodass Sie derartige Problemelösen können, bevor sie sich auf Ihr Unternehmen auswirken. Sie benötigen mehr Transparenz bezüglich derWechselwirkungen zwischen Ihren Anwendungen und Geschäftsservices und Ihrer dynamischen Infrastruktur,sodass sich Unregelmäßigkeiten in der gesamten IT-Umgebung, einschließlich Netzwerk, Server, Middleware,Anwendungen und Geschäftsprozessen, zurückverfolgen lassen. Notwendig ist ein einfacheres Verfahren, umbrauchbare Schwellenwerte als Grundlage für die Identifikation von Ereignissen zu bestimmen, die mit Folgen fürdas Unternehmen verbunden sein können. Benötigt wird Automatisierungsfunktionalität, um durch zurückliegendeEreignisse gewonnene Erkenntnisse zu nutzen, die sich auf die Lösung neuer Vorkommnisse anwenden lassen unddie außerdem verwendet werden können, um unwichtige Ereignisse zu unterdrücken, sodass sich die IT voll undganz auf die geschäftsrelevanten Ereignisse konzentrieren kann.IT-Organisationen verfügen zwar über die Methoden, um gewaltige Mengen an Daten anzusammeln, aber esfehlt an Analysewerkzeugen und automatisierten Analysetechniken, um diese verschiedenartigen Metriken sowohlaus Anwendungs- als auch aus Topologiesicht zueinander in Beziehung zu setzen. Erst mit diesen Werkzeugenund Techniken ist es der IT möglich, sich abzeichnende mögliche Probleme vorherzusehen oder zuprognostizieren. IT-Manager beschäftigen sich zunehmend mit dem Thema „vorhersagende Analyse“ – einem derbedeutendsten Business Intelligence-Trends von 2011 –, um Unterstützung bei der Verbesserung derServiceverfügbarkeit und -performance zu erhalten und auf diese Weise den unternehmensgenerierten Umsatz zuerhöhen und die Wartungs- und Supportkosten zu reduzieren.HP Service Health Analyzer (SHA) ist ein Tool für die vorhersagende Analyse, das als Ergänzung einesdynamischen Echtzeit-Servicemodells konzipiert ist und dazu dient, die Beziehung zwischenMetrikunregelmäßigkeiten und der Anwendung sowie der zugrundeliegenden Infrastruktur besser zu verstehen.HP Service Health Analyzer und das HP Run-Time ServiceModelÜberwachungssysteme stellen Messungen und Ereignisse von allen Schichten der IT-Umgebung (Hardware,Netzwerkbetriebssystem, Middleware, Anwendung, Geschäftsservices und Prozesse) bereit, und Konfigurationsmanagement-Datenbanken (Configuration Management Databases, CMDBs) liefern das Modell, das dieseunterschiedlichen Komponenten miteinander verknüpft. Angesichts der Tatsache, dass sich IT-Systeme naturgemäßpermanent im Wandel befinden, müssen CMDBs jedoch kontinuierlich aktualisiert werden, was beispielsweisemit dem HP Run-Time Service Model (RtSM) erreicht werden kann. Die Kombination aus Überwachungsfunktionenund Echtzeit-CMDB stellt alle notwendigen Daten zu Verfügung, um die oben genannten Herausforderungenbewältigen zu können. Diese Daten müssen jedoch transformiert werden, um handlungsrelevante Informationenzu liefern. HP SHA verwendet hochentwickelte Algorithmen, die verschiedene Disziplinen – Topologie- undDatenanalyse, Graphentheorie und Statistik – in der Run-Time Anomaly Detection (RAD) Engine miteinanderkombinieren.Das RtSM ist HP's Lösung für ein Echtzeit-Servicemodell. Das RtSM wird mit der HP UCMDB synchronisiert, um dieVorzüge der Servicemodellierung in der „externen“ Universal Configuration Management Database (UCMDB) zunutzen. Außerdem nutzt das RtSM die Datenkollektoren des HP Business Service Management-Portfolios (BusinessService Management). Dank dieser Kollektoren, die zur Überwachung von Performance, Verfügbarkeit, Defektenund Topologie verwendet werden, um „Echtzeit“-Topologieinformationen zur Verfügung zu stellen, verfügt dasRtSM über die aktuellsten Informationen zur Topologie und zu den Beziehungen zwischen den verschiedenenKomponenten. Das RtSM ist ein wesentlicher Teil des Fundaments von SHA.Weitere Informationen zur gemeinsamen Verwendung des RtSM mit der UCMDB finden Sie imRtSM Best Practices Guide.

Abbildung 1. Bausteine der LösungAbbildung 1 zeigt die Komponenten von SHA, die wir als wesentliche Elemente für eine Lösung bestimmt haben,die IT-Performanceproblemen korrekt entschlüsseln kann. Im Folgenden werden die Komponenten und diejeweiligen Voraussetzungen genauer erläutert.Baselining ist die erste Komponente. Hierbei wird jede von Überwachungssystemen erfasste Metrik eingelesenund ihr normales Verhalten gelernt. Das Feststellen von Abweichungen vom normalen Verhalten der Metrik ist dererste Schritt beim Erkennen, Vorhersagen und Entschlüsseln von Performanceproblemen. Das exakte Lernen desnormalen Verhaltens von Metriken ist jedoch keine leichte Aufgabe. Faktoren wie zeitabhängiges Verhalten,Trends und Änderungen aufgrund der kontinuierlichen Weiterentwicklung von IT-Systemen machen eserforderlich, dass der Lernalgorithmus zur Bestimmung der Baseline anpassungsfähig ist und den Einfluss dieserFaktoren berücksichtigt. Abbildung 2 zeigt die Verteilung des Einflussfaktors Zeit für mehr als 17.000Performancemetriken, die in einem realen IT-System erfasst wurden. Es handelt sich hierbei um eine Kombinationaus Überwachungsfunktionen auf System-, Anwendungs- und Benutzerebene. Wie in der Abbildung zu sehen ist,weisen mehr als zwei Drittel der Metriken ein zeitabhängiges Verhalten auf. Bei diesen Metriken spielenunterschiedlichste Zeitabschnitte und nicht nur die üblicherweise vermutete tägliche oder wöchentlicheZeitabhängigkeit eine Rolle. Ein Baseline-Algorithmus muss daher zuerst den relevanten Zeitabschnitt abschätzen,um präzise zu sein. Wenn der Zeitabschnitt, der für das Verhalten einer Metrik relevant ist, beispielsweise fünfStunden beträgt und ein Baseline-Algorithmus diese zeitliche Abhängigkeit ignoriert oder einen vordefiniertenZeitabschnitt, der nicht zutreffend ist (z. B. 24 Stunden) zugrunde legt, wird er eine unzulängliche Baselineliefern. Die Baseline ist entweder zu empfindlich, was zu viele falsche Abweichungen vom Normalverhaltenproduziert, die tatsächlich jedoch dem Normalverhalten entsprechen, oder sie ist zu grob, sodass tatsächlicheAbweichungen vom Normalverhalten nicht erkannt werden.

Abbildung 2. Verteilung des Einflussfaktors Zeit für mehr als 17.000 Performancemetriken, die in einer IT-Umgebung erfasstwurdenDas Beurteilen von Trends und die Fähigkeit zur Anpassung an Änderungen sind für das Abschätzen einergeeigneten Baseline ebenfalls von großer Bedeutung.Obwohl das Wissen um das normale Verhalten der einzelnen Metriken wichtig ist, reicht es nicht aus, um echteProbleme zu erkennen und vorherzusagen. Per Definition sind nicht alle Abweichungen von der Baseline (einkleiner Bruchteil) mit einem Problem verbunden. In einer großen IT-Umgebung mit Millionen von Metriken kannjedoch selbst dieser kleiner Anteil zu einer zu großen Anzahl an Fehlalarmen führen, wenn jede dieserAbweichungen als Problem behandelt wird. Darüber hinaus manifestieren sich Probleme normalerweise nicht nurin einer einzigen Metrik, die für die Umgebung erfasst wird.Zeitliche Analyse: Hierbei handelt es sich um eines der gängigen Verfahren, um Metriken in einer einzigen Unregelmäßigkeit zu kombinieren. Zu den Methoden der zeitlichen Analyse zählen beispielsweise Metrik-zu-MetrikKorrelationen (hierbei werden Metriken auf der Basis der Ähnlichkeit ihrer Zeitreihenmessungen gruppiert) und diemultivariate zeitliche Analyse/Prognose, bei der mehrere Metriken über ein – üblicherweise lineares – multivariatesmathematisches Modell (beispielsweise multivariate Regression, neuronale und Bayessche Modelle) kombiniert werden.Diese Methoden sind leistungsfähig, haben jedoch bestimmte Grenzen. Zum einen passen sie sich schlecht aneine veränderte Anzahl an Metriken an. Zum anderen können sie, da es sich um statistische Verfahren handelt,irreführende Korrelationen ermitteln, wenn sie mit einer großen Anzahl an Metriken "gefüttert" werden, zwischendenen keine echten Zusammenhänge bestehen; das Risiko, solche falschen Korrelationen zu identifizieren, steigtmit der Anzahl an Metriken.Topologie-Analyse: Diese Grenzen zeitbezogener Methoden lassen sich durch den bereichsbezogenen Kontextüberwinden. Im Einzelnen heißt dies, dass in IT-Umgebungen die Menge der analysierten Metriken auf einenlogischen Satz zusammenhängender Metriken begrenzt werden sollte. Wenn die Werte für die CPUs von zweiServern, die in gar keinem Zusammenhang miteinander stehen, gleichzeitig ansteigen, darf auch dann keineWechselbeziehung angenommen werden, wenn statistisch ein Zusammenhang zu bestehen scheint. Einderartiger Kontext wird in der Topologie von IT-Systemen durch CMDBs bereitgestellt. Eine CMDB ist im Grundeein Diagramm, das die Beziehungen zwischen alle Komponenten modelliert, aus denen sich IT-Systemezusammensetzen, also die Beziehungen zwischen physikalischer, Middleware -, Software-, Anwendungs-,Geschäftsservices- und Prozess-Schicht. Daher ist die Topologie-Analyse in Form hochentwickelterGraphenalgorithmen erforderlich, um die kontextbezogenen Informationen in der CMDB zu extrahieren und dieIdentifikation tatsächlicher Probleme und Korrelationen zwischen Metriken zu unterstützen, während unechteProbleme und Korrelationen ignoriert werden.

Zum Erkennen eines realen Problems ist es somit erforderlich, Muster von Abweichungen von der Normalitätmehrerer Metriken im zeitlichen Verlauf und nach Topologie gefiltert zu erkennen. Dies führt zu statistischenLernmethoden, die temporale und topologische Daten analysieren.Historische Analyse: Neben der Erkennung und Prognose eines Problems bietet die Topologie die Möglichkeit,das Problem genauer zu beschreiben und die eigentliche Ursache von reinen Symptomen zu trennen; beides istfür eine schnelle Beseitigung des Problems wichtig. Das Erkennen und Analysieren eines Problems führtletztendlich zur Entschlüsselung seiner DNA-Struktur, die dann in einer Knowledge Base gespeichert werdenkann. Um die Informationen in der Knowledge Base nutzen zu können, sind Algorithmen für die historischeAnalyse erforderlich. Hierzu zählen Algorithmen zum Abgleichen und Vergleichen verschiedener Problem-DNAStrukturen, zum Gruppieren der Strukturen in Clustern sowie Klassifizierungstechniken. Mithilfe der KnowledgeBase und geeigneter Algorithmen können zurückliegende Probleme schnell und automatisch ausgewertet werden,um die Identifikation von Ursachen und Lösungen neuer Probleme zu unterstützen.RAD Engine: Sie setzt sich aus diesen genannten Algorithmen zusammen. Für die Algorithmen in der RAD Enginelaufen 10 separate Patentanmeldungen. Die Ausgabe der RAD Engine ist ein zentraler KPI (Key PerformanceIndicator) im HP BSM-Dashboard, und sie sendet ein Ereignis an das BSM-Ereignissubsystem, HP OperationsManager i (OMi). Das Ereignis aus SHA enthält eine Fülle von kontextbezogenen Informationen, die von der RADEngine erfasst wurden. Hierzu zählen die „Hauptverdächtigen“ (die mutmaßlichen Verursacher des Problems),Positionsinformationen, Informationen zu den geschäftlichen Auswirkungen, eine Liste der CIs (ConfigurationItems, Konfigurationselemente), die an der Unregelmäßigkeit beteiligt sind, sowie alle Informationen zuvergleichbaren Auffälligkeiten. Mithilfe dieser Informationen kann das Ereignis schnell isoliert und behobenwerden, bevor es Auswirkungen auf das Unternehmen hat.HP Service Health Analyzer – VorhersagendeLaufzeitanalyseFür SHA wurden statistische Lernalgorithmen entwickelt und mit Graphenalgorithmen gekoppelt, um das gesamteSpektrum der von BSM-Systemen erfassten Daten zu analysieren: Überwachungsdaten (aus realen und synthetischen Transaktionen) Ereignisse Änderungen Topologie aus dem RtSMMit diesen Algorithmen werden Unregelmäßigkeiten korrekt erkannt, ihre DNA-Struktur entschlüsselt und ihregeschäftlichen Auswirkungen identifiziert und mit den zuvor entschlüsselten Auffälligkeiten abgeglichen, die inunserer Anomaly DNA-Knowledge Base erfasst wurden.SHA lässt sich anhand der folgenden Schritte beschreiben: Lernen des MetrikverhaltensDas Lernen des normalen Verhaltens – auch Baselining genannt – von Metriken, die auf allen Service-Ebenenerfasst werden (System, Middleware, Anwendung usw.) ist ein notwendiger erster Schritt. Hierdurch entfällt dieNotwendigkeit, statische Schwellenwerte festzulegen, und die frühe Erkennung von Abweichungen von derNormalität wird ermöglicht. Die Algorithmen weisen die folgenden wichtigen Vorzüge auf:– Automatisches Lernen des zeitabhängigen Verhaltens von Metriken und ihrer Trends– Fähigkeit zur Anpassung an Verhaltensänderungen im zeitlichen Verlauf – in virtualisierten Umgebungenunverzichtbar– Konfigurationslos – kein Verwaltungsaufwand zum Festlegen oder Pflegen von Schwellenwerten

Anomaly DNA-Technologie – ErkennungWenn sich ein komplexes Problem in einem IT-Service entwickelt, lassen sich für zahlreiche Metriken undKomponenten, die mit diesem Service verbunden sind, Abweichungen vom normalen Verhalten feststellen. Fürverschiedene Komponenten lassen sich jedoch auch immer wieder vorübergehende Abweichungen von derNormalität beobachten, die kein relevantes Problem darstellen. Die bedeutsamen Probleme herauszufiltern unddie DNA der wahren Probleme offenzulegen, ist eine der zentralen Herausforderungen jedes Systems zurErkennung von Unregelmäßigkeiten. Unser Algorithmus zur Erkennung der DNA-Struktur vonUnregelmäßigkeiten erledigt dies mithilfe eines einzigartigen statistischen Algorithmus, der drei Arten vonInformationen verknüpft, die für eine präzise Erkennung notwendig sind:– Topologische Informationen: logische Verknüpfungen zwischen Überwachungsfunktionen und denKomponenten, die sie überwachen.– Zeitliche Informationen: die Dauer und zeitliche Korrelation der Überwachungsfunktionen, die einenirregulären Zustand aufweisen.– Informationen zum statistischen Vertrauen: die Wahrscheinlichkeit dafür, dass die Überwachungsfunktiontatsächlich einen irregulären Zustand (bezogen auf die im zeitlichen Verlauf gelernte Baseline) aufweist.Die Algorithmen zur Erkennung von Unregelmäßigkeiten weisen die folgenden wichtigen Vorzüge auf:– Reduktion von Stördaten: Bietet eine automatische Methode zur Gruppierung von Metriken, die ihre Baselineverletzt haben, wobei sowohl zeitliche als auch topologische Informationen verwendet werden. Hierdurchwird – ohne Regeln festlegen zu müssen – wiederum die Anzahl der Baselineverletzungen reduziert, die dieAufmerksamkeit des Operators erfordern.– Ereignisreduktion: In den SHA-Algorithmen werden mehrere irreguläre Metriken zu einem einzigen Ereignisverknüpft, wodurch sich die Anzahl der Ereignisse reduziert, die einem Operator angezeigt werden. DerEintrittspunkt für diese Art von Ereignis sind mehrere Metriken, die ihre dynamischen Schwellenwerte nichteinhalten. Anschließend werden diese Metriken von SHA nach Zeit und Topologie korreliert, um ein einzigesEreignis zu generieren, wodurch es dem Operator ermöglicht wird, sich auf das tatsächliche Problem zukonzentrieren.– Reduktion von Fehlalarmen: Reduziert die Anzahl von Fehlalarmen, indem die Signifikanz jeder Auffälligkeitim System mithilfe eines statistischen Algorithmus berechnet wird. Außerdem werden bekannteAuffälligkeiten, die in der Vergangenheit als unwichtig gekennzeichnet wurden, verwendet, um aktuelleUnregelmäßigkeiten abzugleichen und das Ereignis, das eine Unregelmäßigkeit anzeigt, zu unterdrücken. Anomaly DNA-Technologie – EntschlüsselungDer nächste Schritt im Anschluss an die Erkennung der Unregelmäßigkeit und ihrer Struktur ist dieEntschlüsselung ihrer DNA. Die Entschlüsselung der DNA der Unregelmäßigkeit erfolgt durch ihre Analyse undKlassifizierung auf der Basis der Topologie (CIs und ihre topologische Struktur), der Metriken und zusätzlicherInformationen. Durch das Entschlüsseln wird insbesondere Folgendes erreicht:– Isolation von mutmaßlichen Verursachern, sodass handlungsrelevante Informationen bereitgestellt werden.Identifikation der geschäftlichen Auswirkungen mithilfe von geschäftsbezogenen Informationen:Benutzeraufkommen, Service Level Agreements (SLAs) sowie die betroffenen geografischen Regionen, sodassdie Priorisierung der Unregelmäßigkeit gemäß der damit verbundenen Auswirkungen möglich ist.– Identifikation zugehöriger Änderungen, die sich möglicherweise auf das Systemverhalten ausgewirkt haben. Anomaly DNA-Technologie – AbgleichNachdem die DNA-Struktur der Unregelmäßigkeit entschlüsselt wurde, erfolgt der Abgleich mitzurückliegenden Auffälligkeiten. Der Abgleich wird mithilfe eines einzigartigen GraphenÄhnlichkeitsalgorithmus vorgenommen, der abstrakte Strukturen von Unregelmäßigkeiten vergleicht und aufdiese Weise den Abgleich zwischen Unregelmäßigkeiten zulässt, die für unterschiedliche Services mitvergleichbarer Architektur festgestellt wurden. Dieser Abgleich bietet folgenden Nutzen:– Er ermöglicht die Wiederverwendung von identifizierten Lösungen für zurückliegende Ereignisse.– Er gleicht die Auffälligkeiten bekannter Probleme ab, die noch zur Lösung anstehen, wodurch dieNotwendigkeit der erneuten Untersuchung reduziert wird.– Er reduziert die Anzahl der Fehlalarme, wenn die zurückliegende vergleichbare Auffälligkeit als unechteStörung klassifiziert wurde, beispielsweise eine Abweichung, die durch normale Wartungsaktivitäten für denService verursacht wurden. Anomaly DNA-Knowledge BaseWährend die Knowledge Base für zurückliegende Unregelmäßigkeiten und ihre zugehörigen Lösungen mitInformationen gefüllt wird, kommen hochmoderne Data Mining-Methoden zum Einsatz, um die Beziehungenzwischen sämtlichen Auffälligkeiten zu analysieren und zu bestimmen, sodass eine Karte der gesamtenAnomaly DNA-Knowledge Base entsteht. Der Algorithmus zum Abgleichen der Strukturen vonUnregelmäßigkeiten definiert den erforderlichen Metrikraum für Data Minig-Methoden, beispielsweiseClustering und Klassifizierung. Der Einsatz dieser Methoden bietet den folgenden Nutzen:

– Proaktive Problembeseitigung – Identifikation wiederkehrender Probleme durch die Klassifizierung derStruktur der Auffälligkeit in Problem- und Lösungsarten. Auf diese Weise lässt sich die Zeit zumDiagnostizieren und Beseitigen dieser Problemarten zukünftig reduzieren.– Nutzung von Wissen, das anhand verschiedener Services erfasst wurde, die ein vergleichbares Verhaltenzeigen.Leistungsspektrum des ProduktsHP Service Health Analyzer, das auf HP RtSM aufbaut, analysiert dokumentierte Normen und Trends vonAnwendungen und Infrastruktur und vergleicht diese Daten mit Echtzeit-Performancemetriken. Der Einsatz einesRun-Time Service Models ist zentral für eine dynamische Umgebung, damit Ihnen Folgendes möglich ist: Korrelieren von Unregelmäßigkeiten mit Topologie-Änderungen und zurückliegenden Problemen Erkennen der geschäftlichen Auswirkungen jedes Problems und Priorisieren der Fehlerbeseitigung Identifizieren der mutmaßlichen Verursacher des Problems und Verwenden dieses Wissens, um vergleichbareProbleme zukünftig zu vermeiden.SHA lernt automatisch die dynamischen Schwellenwerte in Ihrer Umgebung, sodass das Festlegen und Pflegenstatischer Schwellenwerte nicht mehr notwendig ist. SHA arbeitet mit Metriken aus den folgenden BSMDatenquellen: HP Business Process Monitor HP Diagnostics HP Network Node Manager i HP Operations Manager, Performance Agent HP Real User Monitor HP SiteScopeSHA identifiziert Unregelmäßigkeiten auf der Basis irregulären Metrikverhaltens in Bezug auf das RtSM, legteinen KPI fest und generiert ein Ereignis mit zugehörigem Kontext, um die Priorität dieses Problems für dasUnternehmen zu identifizieren. SHA greift außerdem auf Anomaly DNA-Technologien zurück, um denstrukturellen Aufbau einer Unregelmäßigkeit zu analysieren, und vergleicht diesen Aufbau mit der bekanntenStruktur anderer Auffälligkeiten. Bei Übereinstimmungen erhalten Sie Informationen über bekannte Maßnahmenzur Fehlerbehebung, ohne dass weitere Untersuchungen erforderlich sind. Die als unwichtig gekennzeichnetenÜbereinstimmungen werden hingegen unterdrückt. Bei Unregelmäßigkeiten in Bezug auf einen bestimmtenService werden die SLAs angezeigt, damit Sie über die Auswirkungen informiert sind, die dieseUnregelmäßigkeiten nach sich ziehen können. Und schließlich bietet SHA auch nochFehlerbehebungsfunktionalität aus HP Closed Loop Incident Process (CLIP) und unterstützt die direkte Integrationmit HP Operations Orchestration. So können Sie beispielsweise Analyse- und Automatisierungsfunktionenmiteinander verknüpfen, um Probleme in kürzester Zeit zu beheben. Wenn SHA ein Ereignis an OMi sendet,kann ein Operator mithilfe des CLIP-Prozesses geeignete Maßnahmen ergreifen, bevor es tatsächlich zu einerServicebeeinträchtigung kommt. Diese schnelle Art der Fehlerbeseitigung sorgt für eine Vereinfachung derkomplexen Strukturen in virtualisierten, cloudbasierten IT-Umgebungen.

Schneller Einsatz ohne jegliche KonfigurationNach der Installation des Produkts müssen Sie nur die zu überwachende Anwendung auswählen; SHA beginntdaraufhin mit der Erfassung von Daten und dem Lernen des Systemverhaltens. SHA sammelt Daten derAnwendung, der Infrastruktur, der Datenbank, des Netzwerks und der Middleware sowie Topologieinformationenaus dem RtSM und lernt die Baseline. Die Baseline definiert das normale Verhalten einer einzelnen Metrik imzeitlichen Verlauf unter Berücksichtigung zeitabhängiger Merkmale. Der normale Verhalten einer Metrik könntenbeispielsweise einen sehr geschäftigen Montagmorgen und einen sehr ruhigen Freitagnachmittag einschließen.Abbildung 3. Beispiel für einen dynamischen Baselinekorridor (grauer Bereich) mit den tatsächlichen Metrikdaten in Violett.Nachdem Sie für alle Anwendungsmetriken dynamische Baselines festgelegt haben, beginnt die RAD Engine vonSHA mit der Suche nach Unregelmäßigkeiten im Anwendungsverhalten. Der Eintrittspunkt in die RAD Engine ist eineBaselineverletzung, die anzeigt, dass eine Metrik ein irreguläres Verhalten aufweist. Zum Definieren einerUnregelmäßigkeit verwendet die RAD Engine die Informationen zu irregulären Metriken, die anhand allerüberwachten Metriken gesammelt wurden, und verknüpft sie mit den Topologieinformationen aus dem RtSM, umfestzustellen, ob mehrere Baselineverletzungen durch verschiedene Metriken vorliegen, die denselben Servicebetreffen. Wenn eine Unregelmäßigkeit festgestellt wird, wird ein Ereignis generiert und an das Ereignissubsystemgesendet. Wird eine Unregelmäßig festgestellt, erfasst SHA darüber hinaus automatisch die aktuelle Topologie derCIs, die an dem Vorfall beteiligt sind. Hierdurch lässt sich der Zustand der Topologie bei Auftreten der Auffälligkeitleichter analysieren. Dies ist insbesondere bei der Überprüfung von Unregelmäßigkeiten hilfreich, die nachts oder zueinem Zeitpunkt auftreten, an dem kein Operator erreichbar ist, um sich um das Problem zu kümmern. SHA erfasstzudem die ermittelten Änderungen für die relevanten CIs und stellt sie dar, damit diese Informationen im Rahmen derUrsachenanalyse verwendet werden können. Durch diese Zuordnung lassen sich Probleme schneller beheben unddie mittlere (Mean Time to Repair, MTTR) reduzieren.

Wenn SHA eine Unregelmäßigkeit im Anwendungsverhalten feststellt, wird der Status des KPI „Predictive Health“geändert, und es wird ein Ereignis ausgelöst, das an den BSM-Ereignisbrowser gesendet wird. Sie können denVorfall nun genauer untersuchen, das Problem isolieren und die geschäftlichen Auswirkungen analysieren.SHA stellt eine Seite mit den wichtigsten Informationen zu einer Unregelmäßigkeit zur Verfügung, auf der Siealles finden, was Sie über das Problem und seine geschäftlichen Auswirkungen wissen müssen. Diese Seite stelltaußerdem erweiterte Drilldown-Funktionalität bereit, falls Sie ein Problem genauer untersuchen müssen.Abbildung 4. Seite mit den wichtigsten Informationen zu einer UnregelmäßigkeitAm Anfang der in Abbildung 4 dargestellten Seite finden Sie die „Liste der mutmaßlichen Verursacher“. Hierbeihandelt es sich um CIs (Anwendungen, Transaktionen, Infrastrukturelemente), die SHA als mögliche Ursache fürdie Unregelmäßigkeit identifiziert hat. Mutmaßliche Verursacher können CIs sein, deren Metriken eine Baselineverletzt haben, Auffälligkeitsmuster, die zuvor vom Benutzer als irregulär identifiziert wurden, sowie CIs, derenÜberprüfung mit einem vom Benutzer bereitgestellten Überprüfungstool gescheitert ist.Diese Seite gibt weiterhin Aufschluss über die geschäftlichen Auswirkungen der Unregelmäßigkeit. Dies erfolgtdurch die Auflistung der SLAs, die aufgrund der Unregelmäßigkeit verletzt wurden, der betroffenen Services undAnwendungen sowie einer Aufschlüsselung aller betroffenen Standorte. SHA bietet Ihnen außerdem die

Möglichkeit, geeignete Berichte zu erstellen, um Detailinformationen zu erhalten und sich ein genaueres Bild desProblems machen zu können. Der Abschnitt zu vergleichbaren Auffälligkeiten wird mithilfe der Anomaly DNATechnologie generiert und stützt die Bewertung des Vorfalls, indem eine Liste vergleichbarer Auffälligkeitsmustersowie zusätzliche Informationen zur Behandlung dieser Vorfälle bereitgestellt werden.Mit der Subject Matter Expert User Interface (SME UI) stellt SHA ein Tool zur Untersuchung und Isolation vonProblemen zur Verfügung, mit dessen Hilfe Sie die Unregelmäßigkeit genauer untersuchen und eine möglicheUrsache des Problems isolieren können. Dieses Tool ermöglicht es Ihnen, den zeitlichen Verlauf der Auffälligkeitzu untersuchen und einen genauen Einblick in die Abfolge der Ereignisse (so wie sie sich in derAnwendungstopologie darstellt) zu erhalten, die zu dem Problem geführt hat.Die folgende Abbildung zeigt ein Beispiel für eine Unregelmäßigkeit sowie den zeitlichen Ablauf der Ereignisse.Abbildung 5. SME-UI mit der Topologie einer Auffälligkeit

Im unteren Teil der Anzeige sind die Ereignisse vor und während des Auftretens der Unregelmäßigkeit aufgeführt,wie sie im System aufgetreten und von SHA im Laufe der Zeit erfasst wurden. Um 06.15 Uhr wurde von SHA eine Änderung im System ermittelt. Um 06.30 Uhr wurde von SHA eine Unregelmäßigkeit ausgelöst. Das bedeutet, dass von SHA irreguläreMetriken ermittelt wurden, die ihre Baseline verletzt haben – und zwar bevor das Ereignis von SiteScope undOM, die zur Systemüberwachung verwendet wurden, entdeckt wurde. Zu diesem Zeitpunkt wurde bereits einEreignis von SHA ausgelöst, das an die für den Systembetrieb verantwortlichen Mitarbeiter gesendet wurde. Zwischen 08.00 und 08.20 Uhr wurden von SiteScope und OM Ereignisse zu einer hohen CPU-Nutzungausgelöst. Das Problem wurde von SiteScope und OM später als von SHA erkannt, da die betreffendenSchwellenwerte höher als die dynamische Baseline von SHA festgelegt wurden, um unwichtige Abweichungenund Fehlalarme zu vermeiden. Um 8.30 Uhr stellte der erste „echte“ Benutzer ein Performanceproblem fest und legte eine Störung an.Wie Sie sehen, wurde das Problem von SHA zwei Stunden im Voraus und vor der ersten Benutzerbeschwerdeerkannt und gemeldet, sodass die zuständigen Mitarbeiter frühzeitig informiert wurden, um sich um das Problemzu kümmern und es zu beseitigen.Mit SHA steht Ihnen ein leistungsfähiges Tool zur Verfügung, um Zusammenhänge zu identifizieren undherauszufinden, welche Metriken die mögliche Ursache für ein Problem in einem System darstellen können.In der folgenden Abbildung sehen Sie die Metrikansicht von Service Health Analyzer, die Teil der SME-UI ist.Abbildung 6. Metrikansicht der SME-UIDie Metrikansicht ermöglicht es Ihnen, eine Vorschau der Anwendungsmetriken, wie sie bei Auftreten derUnregelmäßigkeit erfasst wurden, bezogen auf ihre Baseline anzuzeigen. Darüber hinaus bietet Sie Ihnen dieMöglichkeit, herauszufinden, welche Metrik die Ursache des Problems darstellt, indem Sie sie mittelshochentwickelter statistischer Algorithmen mit anderen Metriken in Beziehung setzen, die denselben Servicebetreffen.

In diesem Beispiel wurde die Metrik „Real User Monitor“ (RUM) mit allen anderen Metriken korreliert. DieseMetrik wurde ausgewählt, weil sie die tatsächliche Reaktionszeit, die die realen Benutzer während derVerwendung der Anwendung erleben, am besten abbildet. Die übrigen Metriken betreffen Infrastruktur- undMiddlewarekomponenten, und die Metrikansicht bietet einen Point-and-Click-Mechanismus, um eine Korrelationzwischen diesen Metriken und der schlechten Reaktionszeit darzustellen. Die Metrik, die die höchste Korrelationaufweist (81 Prozent), ist „Sitescope paging File Usage“, was darauf hinweist, dass das Problemhöchstwahrscheinlich durch eine unzu

Das RtSM ist HP's Lösung für ein Echtzeit-Servicemodell. Das RtSM wird mit der HP UCMDB synchronisiert, um die Vorzüge der Servicemodellierung in der „externen" Universal Configuration Management Database (UCMDB) zu nutzen. Außerdem nutzt das RtSM die Datenkollektoren des HP Business Service Management-Portfolios (Business