Seminar Großrechneraspekte (Mainframe) Thema: Netzwerk & System Management von Soeren Apelt Inhalt • Architektur für Komponenten beim Systemmanagement • Enterprise Management Konsole • Event Management • Problem Management & Help Desk • System Repository & Datenhaltung Wozu System Management? • zentrale Überwachung und Steuerung aller Komponenten (möglichst selbstständig) • hohe Verfügbarkeit • Fehlererkennung und –meldung • kostengünstige Wartung • geringe Administrationskosten • allg. Kosten- und Arbeitsersparnisse • Aufgaben – – – – – neue Platten installieren Hardware rekonfigurieren Server mit neuem Speicherplatz ausstatten Daten zwischen den Laufwerken bewegen Softwaremanagament Aufgabenverteilung • Remote Operation – Administrator beobachtet und steuert Systemkomponenten – von einem geographisch entfernten Ort • Unattended Operation – Electronic monitoring – System / Automation handelt im Problemfall selbständig – Zuständige Person wird bei Bedarf benachrichtigt Erläuterung der Grundkonfiguration • Agenten – Teil von Endgeräten (z.B. Arbeitsplatzrechner, Netzgeräte) • Manager – empfängt Traps von den Agenten – Kommandos und Daten an Agenten senden – Daten abspeichern – Anwendungen aufrufen • Repository (Datenspeicher) • Administrator / Konsole – Daten von Agenten oder aus Repository auslesen – Anwendungen aufrufen und interaktiv damit arbeiten System Management Architektur System Management Framework • Kooperation der Komponenten • gemeinsamen Schnittstellen und Datenhaltung • managed Interaktionen der System Management Anwendungen • implementiert verteilbare Client/Server Architektur Funktionen eines NSM Frameworks • • • • • • • • Policy Regimes Profile Manager Tasks Scheduling Funktion Security Einrichtungen Rollback/Recovery Administration plus deren Verflechtungen und Attribute (z.B. welcher Administrator darf auf welche Managed Nodes mit welchen Rechten zugreifen) Gliederung von NSM Funktionen • Verfügbarkeit (Availability) – – – – – Enterprise Management Konsole Fault, Event Management Agenten Autodiscovery Netzwerk Management • Operations (Tools) – – – – – – – – – Problem Management, Help Desk Remote Control Job Scheduling, Workload Management Performance Management Application Management Storage Management Security Administration Business Process Management Accounting, Berichtswesen Gliederung von NSM Funktionen • Deployment – Configuration Management – Software Management, Distribution und Installation – Asset Management • Erweiterbarkeit – – – – Anwendungsprogrammierschnittstellen (API, SDK) Main Frame und SNA Integration Integration mit den Komponenten anderer Hersteller Unterstützung durch ISV´s Ereignis Management Konsole • Framework arbeitet mit graphischen Oberfläche (GUI) • die Ereignismanagement Konsole ist ein spezielles Fenster in der GUI – auftretende Systemevents werden überwacht – hierfür wird ein separater (Hardware) Rechner eingesetzt Event Management(1) • Event Logging – Einfangen von Events/Alerts (z.B. von individuellen Agenten, die in Hubs, Routern, Arbeitsplatzrechnern oder Software operieren) • Event Consolidation – Prioritisierung und Filterung von Events • Event Korrelation – Gruppierung von Events/Alerts in einen einzigen Event/Alert – Aufgabe: Erleichterung der Erkennung zugrundeliegender Probleme • Event Notification – ermöglicht Darstellung von Events – einzelne Administratoren bekommen nur für sie relevante Events zu sehen (z.B. Colour Coding hebt Bedeutung der Events hervor – Benachrichtigung z.B. perFax, Telephone, E-Mail oder Beeper) • Event Response – besteht aus den beiden Komponenten Event Diagnose und (der idealerweise automatischen) Event Resolution Event Management(2) • Beispiele: – – – – – – – – – Fehler Diagnose Fehlerbehandlung an dezentrale Server weiterleiten Fehler auf der (Ereignismanagement)-Konsole gesondert hervorheben Präventive Maßnahmen im Fall von Überlastungssituationen Fehlervermeidung über automatisierte Prozesse Once-only reporting beim gleichzeitigen Versagen mehrerer Systeme Unterstützung von Eskalationsmechanismen Abspeichern und Komprimierung von Status-, Meß- und Performance-Daten Anstoßen der automatischen Problemeröffnung über Machine generated Problem tracking und Eintragen des Trouble Tickets im Help Desk Event Management(3) • Event Korrelationsfähigkeiten: – Rule Templates für häufig auftretende Verhaltensweisen – Erzeugen, Modifizieren und Vernichten von Rule Sets – Scripting Tool für die Erzeugung von Rules – Möglichkeit des Austesten von Rules, ehe sie in den Produktionsbetrieb übernommen werden Enterprise Management Konsole • zentralen Manager ( Enterprise Management Konsole) – Komponenten: • • • • zentraler Ereignis Manager verteilte Ereignis Management Konsolen zentrale Datenhaltung verteilte Adaptoren Hierarchische Gliederung von Enterprise Management Konsolen • • • Verteilung der NSM Funktionen auf viele logische und physikalische Server „Manager of Managers“ (MOM) = Enterprise Management Konsole (Midlevel Manager, MLM) = Domänen – es gibt geographische und administrative Domänen – reduzieren die Netzlast – kaskadierbar – größere Flexibilität – führt polling, Discovery und Management lokal aus – Events korrelieren und automatische Reaktion • Agenten – ist eine Software Instanz – überwachen Hard- und Software Ressourcen – ergreifen automatisch Maßnahmen – von Enterprise Management Konsole aus zentral administrierbar, programmierbar und verteilbar – kommunizieren mit Enterprise Management Konsole – oder MLM über Protokolle • CMOT,SNMP1, SNMP2, CMOL, CMIP, MIB2, RMON1, RMON2 – auch proprietäre Protokolle, die auf CORBA (z.B. Tivoli) oder RPC (z.B. CA) aufbauen Problem Management, Help Desk(1) • Verwaltung täglicher Probleme und Fragen • genaue Bestimmung des Ursprunges eines Problems und Rückführung auf bestimmte Hardware-, Software- und/oder Prozedurfehler • Bereiche: – Komponentendefinitionen (z.B. Hardware, Software, Telekommunikationsanlagen und Sicherheitssysteme – Hierarchiebeziehungen, Garantie- und Wartungsinformationen werden festgehalten – Machine-generated Problem Tracking (MGPT) ermöglicht die automatische Erstellung von Problemeinträgen (Datensätzen) auf Basis der vom Eventmanagement überwachten Aktivitäten – MGPT-Regeln dienen zur Erkennung von Problemen auf einzelnen Hosts Problem Management, Help Desk(2) • Problembehandlung – Problem analysieren und verfolgen, und entsprechende Behebungsstrategie festgelegen – Help Desk Funktion: • Call Tracking, Escalation, Management, Reporting, Business Analysis, Problem Solving und Document Retrieval – Policy Based Automation regelt Autorisation • Beispiel: – Problem/Alert in Konsole eintrifft, wird automatisch eine Anfrage in der Help Desk Anwendung geöffnet – Configuration Datenbank stellt die Configuration vor Ort zur Verfügung – Change Management Datenbank können die letzten Änderungen ausgelesen werden – Problem Management Datenbank kann die letzten 5 Probleme ausgelesen – Bearbeitung erfolgeich, werden automatisch Event/Alert Records deaktiviert System Management Repository • Eigenschaften – – – – – – – redundanzfreie Datenhaltung Replikationsmöglichkeit veröffentlichtes Daten- und Funktionsmodell veröffentlichtes Objektmodell Data Base Scaleability Data Sharing durch unabhängige Management Anwendungen Data Base Batch Import für ursprüngliches Laden von´Management Information – Unterstützung für ODBC compliant Datenbanken vorhanden – Unterstütztung für Oracle, Sybase, Informix, Ingres, DB2 oder SQL Server Datenhaltung • Die von den einzelnen Managern verwalteten Daten sind z.B.: – – – – Performance Meßdaten beim Performance Management Event History Daten beim Event Management TCP/IP Topologien beim Netzwerk Management Software Configuration Daten bei der Software Distribution • objektorientierte Datenbank über die RIM (RDBMS Interface Manager) Schnittstelle vorgetäuscht • Repository selbst ist eine CORBA Objekt Datenbank Zusammenfassung • • • • Backup/Recovery System Managed Storage Hardware Management Console (HMC) Storage Manager • • • • • Architektur für Komponenten für Systemmanagement Enterprise Management Konsole Event Management Problem Management & Help Desk System Repository & Datenhaltung