Ein neuer Artikel in der Septemberausgabe von LANLine („Automatisierung schafft Produktivität“) fasst typische Herausforderungen und Probleme im Netzwerk-Monitoring sehr gut zusammen und lohnt sich wirklich zu lesen. Ich möchte hier ganz kurz auf einen Teil der angesprochenen Problemstellungen eingehen und wie unser Produkt Enterprise Alert® genau dafür als Lösung entwickelt wurde.
Problem 1: Zeitnahe Bearbeitung
Natürlich ist es wichtig, dass insbesondere kritische Alarme zeitnah bearbeitet werden. Auch aus kleinen Problemen können u.U. schnell größere Ausfälle resultieren. Email und Dashboards sind dabei oft Mittel der Wahl, da sie vom Monitoring-Werkzeug mitgebracht werden. Allerdings muss man sich der Limits dieser beiden Methoden bewußt sein und Enterprise Alert kann hier Abhilfe schaffen:
- Ortsunbhängige und aufmerksamkeitsschonende Alarmierung: Dashboards erfordern die permante Aufmerksamkeit und/oder den entsprechenden Zugang, z.B. einen PC/Monitor. Die Bewegungsfreiheit der Mitarbeiter wird eingeschränkt. Die Alarmierung per Smartphone, Anruf und SMS durch Enterprise Alert sorgt für höhere Flexbilität und Mobilität.
- Die Verwendung von Email zur Alarmierung hat mehrere Nachteile: Die Signalisierung ist oft wenig prägnant. Wichtige Alarme haben im Postfach die gleiche Stellung wie eine Amazon-Benachrichtigung. Die Nachverfolgung (Alarm quittiert, behoben oder nicht) ist schwer bis umständlich. Und die Zuständigkeit für einen Alarm (Übernahme durch einen Kollegen) ist ebenfalls schwierig. Enterprise Alert schafft hier Abhilfe. Alarme werden quittiert und dies ist im ganzen Team in Echtzeit sichtbar. Die Signalisierung kann über Alarmierungsregeln auf den Schweregrad und andere Parameter abgestimmt werden. Der Status eines Alarms ist direkt einsehbar.
Problem 2: Zuviele Alarme
Ein ganz großer Klassiker, der üblichweise dazu führt, dass wichtige Alarme, wenn es dann wirklich zählt, ignoriert, überlesen oder überhört werden. Enterprise Alert bietet effektive Möglichkeiten einer Flut von verschiedenen Alarmen Herr zu werden. Kunden bestätigen, dass damit die Zahl der Fehlalarme um bis zu 95% reduziert werden kann.
- Alarme können gefiltert werden. Alarmierungsregeln in Enterprise Alert stellen ein Filtersystem dar mit dem Inhalte und Parameter von eingehenden Daten und Ereignissen (Meldungen aus Monitoringsystemen) gescannt und auf Werte untersucht werden können. Sind die korrekten Werte nicht enthalten, wird ein Alarm nicht übermittelt bzw. ausgelöst.
- Über die Alarmierungsregeln in Enterprise Alert läßt sich auch steuern wie Alarme signalisiert werden. Dazu kann z.B. die Art der Alarmierung ausgewählt und das Reaktionsverhalten bestimmt werden. In der App lässt sich auch einstellen wie sich die Kritikalität eines Alarms auswirkt, z.B. über einen dedizierten Pushton. Das hilft bei einer zielgenauen und schnellen Reaktion enorm.
- Alarmierungsregeln können auch verwendet werden, um Alarme gemäß Zuständigkeiten und Fähigkeiten ausschließlich an bestimmte Teams oder Teammitglieder zuzustellen. Das verringert die Alarmlast bei den Kollegen.
Problem 3: Ungünstiger Zeitpunkt des Alarms
Viele wichtige Alarme treten selbstredend nicht tagsüber und während der normalen Arbeitszeiten auf. Wie nun sicher stellen, dass die Alarme trotzdem nicht übersehen werden ohne aber Mitarbeiter unnötig zu belasten? Der Versand an ein ganzes Team während der Nachtzeit ist hier kein sinnvoller Weg. Der Betrieb eines 24/7 NOC ist teuer und großen Unternehmen vorbehalten. Rufbereitschaften bieten sich an, brauchen aber ein Tool wie Enteprise Alert.
- Enterprise Alert wurde u.a. genau für IT-Rufbereitschaften entwickelt. Die integrierte, sehr bequeme Planung der Dienstzeiten im Browser erlaubt ein automatisches Routing an den jeweiligen aktiven Rufbereitschaftshabenden (oder mehrere) ohne andere Mitarbeiter in Ihrer Freizeit zu belästigen.
- Alarmierung über mehrere Kanäle (Push, SMS und Anruf) sowie die wiederholte Signalisierung bis zur Quittierung sorgt für eine hohe Zuverlässigkeit bei der Reaktion auf einen wichtigen Alarm.
- Die umfassende Eskalationsfunktion von Enterprise Alert stellt darüber hinaus sicher, dass Alarme doch noch ankommen, falls der Rufbereitschaftshabende die Benachrichtigungen verpasst hat. Dazu gibt es mehrstufige Eskalation innerhalb eines Teams aber auch über mehrere Teams hinweg.
Problem 4: Temporäre Alarme
Gerade im Netzwerkumfeld kommt es oft zu kurzzeitigen Ausfällen, die sich nach wenigen Sekunden wieder erübrigt haben. Solche Alarmen können viel Arbeit verursachen, denn es entsteht viel Aufwand, die Gültigkeit eines solchen Alarms nachzuverfolgen.
- Enterprise Alert bietet dazu eine elegante Lösungdie aus zwei Teilen besteht. Zum einen bieten Alarmierungsregeln eine Verzögerungsmechanismus. Es kann also für eine bestimmte Zeitspanne gewartet werden ob vom auslösenden Monitoring-System ein „Up“ oder „Gut“ Event kommt. Bleibt es aus, wird der Alarm ausgelöst. Genauso kann auch auf mehrfaches Auftreten eines Monitoring-Ereignisses gewartet werden. Und zweitens kann Enteprise Alert über 2-Wege-Konnektoren und sein REST API auch verarbeiten, wenn ein Monitoring-Alarm im Drittsystem geschlossen wird. D.h. also, dass wenn ein Alarm-Reset im Monitoring-System erfolgt, wird der Alarm auch in Enterprise Alert auf geschlossen gesetzt und die Signaliserung wird gestoppt. Gleichzeitg bleibt der Alarm aber im Protokoll für spätere Analysten sichtbar.
Problem 5: Schnelle Behebung
Selbstverständliche ist nicht nur das schnelle Erkennen, die schnelle Reaktion und die schnelle Analyse für die IT-Verfügbarkeit entscheidend. Sondern letztendlich auch die schnelle Problembehebung. Hier ist Enterprise Alert seit fast 10 Jahren Vorreiter im Markt.
- Enterprise Alert bietet die so genannten „Fernaktionen“ an, also die Ausführung von IT-Automationsskripten („Runbooks“) direkt als Reaktion auf einen Alarm. Dazu integriert sich Enterprise Alert in IT-Automationstools wie z.B. Azure Runbooks oder den System Center Orchestrator, und kann diese Runbooks dann unter Verwendung von Parametern eines Monitoring-Alarms (z.B. dem Servernamen oder der IP) entweder sofort vollautomatisch(„Triggered Automation“) oder manuell durch den Netzwerkadmin ausgelöst ausführen. Dies kann natürlich auch ortsunabhängig direkt aus der mobilen App erfolgen. Damit kann das Troubleshooting und die Problembehebung sogar aus dem Fussballstadium erfolgen wie uns ein Kunde glaubwürdig versichert hat (vor Corona natürlich).
Weitere Informationen
Gern zeigen wir Ihnen die Möglichkeit von Enterprise Alert in einer persönlichen Demo. Einfach hier klicken.