Seminar Großrechneraspekte (Mainframe) Thema: Netzwerk & System Management Sören Apelt Inhaltsverzeichnis 1. Einleitung 1.1. Wozu Netzwerk- und System Management? 1.2. Was ist Netzwerk- und System Management? 2. Netzwerk- und Systemmanagement Architektur 2.1. Allgemeiner Überblick 2.2. Zusammenspiel der Komponenten mittels Framework 2.3. Datenhaltung im System 3. Netzwerk- und System Management Funktionen 3.1. Integrationstiefe von Netzwerk- und System Management Anwendungen (nach Gartner) 3.2. Gliederung von Netzwerk- und System Management Funktionen 4. Verfügbarkeit (Availability) 4.1. Enterprise Management Konsole 4.2. Event Management 4.2.1. Event Korrelation 4.3. Hierarchische Gliederung von Enterprise Management Konsole 4.4. Domänen 4.5. Agenten 4.6. Autodiscovery 4.7. Netzwerkmanagement 4.7.1. Netzwerkmanagement Funktionen 5. Operations(Tools) 5.1. Problemmanagement, Help Desk 5.1.1. Problemerkennung 5.1.2. Problembehandlung 5.2 Workload Management 5.3 Performance Management 5.4 Datensicherung Backup und Storage Management 5.5 Security Administration 5.6 Application Management 6. Deployment (Verteilbarkeit) 6.1. Konfiguration Management 6.2. Software Distribution und Installation 6.3. Asset Management, Inventory Management 7. Erweiterbarkeit 7.1. Main Frame und SNA Integration 7.2. Anwendungsprogrammierschnittstellen (API, SDK) 1. Einleitung 1.1 Wozu Netzwerk und Systemmanagement? Großrechner (Mainframes) werden hauptsächlich in großen Unternehmen verwendet. Sie dienen dazu den enorm riesigen Datenbestand zu speichern und zu verwalten. Problem ist das sich fast ständig verdoppelnde Datenvolumen jedes Jahr, welches aus Kostengründen in der Regel von nur wenigen Administratoren überwacht werden soll. Ein Mitarbeiter ist für die Verwaltung von 500 - 700 Gbyte (Unix) oder 1 - 3 Tbyte (OS/390) zuständig. Dabei sind seine Aufgaben: neue Platten zu installieren Hardware rekonfigurieren Server mit neuem Speicherplatz ausstatten Daten zwischen den Laufwerken bewegen alte oder duplizierte Programme finden und beseitigen Das alles ohne das System abschalten zu müssen. Bei gewissen Kunden ist das nicht erwünscht, da das abschalten des Systems zu Datenverlust und einer Menge Fehlern führt. Zum Beispiel die Deutsche Bank Zentrale IT Installation 25 OS/390 Installationen 140 DB2 Datenbanksysteme 572 CICS Transaktionsmonitore 200 AIX Server 400 OS/2 oder NT Server 1700 Router auf den Filialen 300 AIX Server 4800 OS/2 Server > 50 000 OS/2 Klienten Es ist beabsichtigt, die Klienten nicht mehr auf NT oder Linux umzustellen, sondern auf End-User Maschinen mit limitierter Software Ausstattung. Ein Teil der auf die Klienten Seite ausgelagerten Funktionen sollen in die Datenzentren zurückkehren. Aus Benutzersicht muss das System auch gewisse Anforderungen erfüllen. Kompatibilität 1964 - heute Skalierbarkeit > 10 000 echte parallele Benutzer Robustheit null System Restarts in 5 Jahren Zuverlässigkeit Sicherheit Angriffe von außen RACF Bedienerfehler cd /; rm -r -v EBCIDIC – ASCII erkennen und umwandeln Anwendungen in COBOL, PL/1 Assembler, REXX CKD Dateiformat VSAM, IMS, DB/2 Dateisysteme, Datenbanken 3270 Bildschirmprotokoll SNA / LU 6.2 1.2 Was ist Netzwerk und Systemmanagement? Die IT Infrastruktur eines Unternehmens besteht wie im Beispiel der Deutschen Bank gesehen aus einer Vielzahl von Klienten- und Server Rechnern, die über Netzelemente miteinander verbunden sind. Auf dem Gesamtsystem laufen Prozesse und Verfahren ab, die im Normal- und im Störfall einen reibungslosen Betrieb ermöglichen sollen. Dafür gibt es Einrichtungen, die eine zentrale oder hierarchische Verwaltung der Infrastruktur, sowie ihre Anpassung an sich ständig ändernde Verhältnisse, mit einem Minimum an menschlichen Ressourcen ermöglichen. Die Summe der Einrichtungen, die zur Steuerung, Verwaltung und Anpassung der IT Infrastruktur dienen, werden als Netzwerk- und System Management (NSM) bezeichnet. 2. Netzwerk- und Systemmanagement Architektur 2.1 Allgemeiner Überblick Wir werden einen allgemeinen Aufbau eines solchen Systems betrachten. Es existieren viele Arten von Agenten. Agenten sind ein Teil von Endgeräten. Endgeräte sind z.B. Arbeitsplatzrechner, können aber auch Netzgeräte (z.B. Router) oder Anwendungen (z.B. Oracle Datenbanksystem oder SAP Middleware) sein, die über ein Netzwerk direkt mit dem Manager (Mainframe) oder mit zwischengeschalteten Servern verbunden sind, die dann wiederum mit dem Manager kommunizieren. Der Manager kann Daten von den Agenten empfangen und/oder polled die Agenten für Daten. Als Reaktion auf die empfangenen Daten kann der Manager Kommandos/Daten an den/die Agenten senden, Daten im Repository abspeichern, Daten an die Konsole weitergeben oder Anwendungen aufrufen. Die Administrator an seiner Konsole (Workstation) können das gesamte System über den Großrechner überwachen und steuern. Er kann Daten von den Agenten oder aus dem Repository auslesen Anwendungen oder aufrufen und mit ihnen interaktiv arbeiten. Zum Großrechner gehört noch eine Repository (Datenbank um die 30 Terabyte). In der Regel werden mehrere System Management Anwendungen gleichzeitig eingesetzt. Für jede existiert ein zentraler Manager. Gleichzeitig bestehen auf jedem Endgerät mehrere Agenten, jeweils ein Agent pro Anwendung. Beispiele für Anwendungen sind: Netzwerk Management (zur Steuerung des Netzwerkes) Problem Management (zur Erkennung und Behebung von Fehlern) Sicherheits-Management (zur Erkennung eines unerlaubten Zugriffs) 2.2 Zusammenspiel der Komponenten mittels Framework Die einzelnen Manager Funktionen können auf viele Server verteilt sein. Die unterschiedlichen System Management Anwendungen bestehen jeweils aus einzelnen Komponenten, die nicht notwendigerweise alle vom gleichen Hersteller stammen. Manche Komponenten werden von mehreren Anwendungen gemeinsam benutzt. Um die Kooperation der einzelnen Komponenten untereinander zu gewährleisten, werden sie in ein gemeinsames Framework eingebunden, mit gemeinsamen Schnittstellen und gemeinsamer Datenhaltung. Das Framework überwacht und steuert die Interaktionen der System Management Anwendungen. Außerdem kann das Framework eine Client/Server Architektur implementieren und ist in großen Installationen auf mehrere Server und Klienten verteilbar. Funktionen die zu einem Netzwerk- und System Management Framework gehören sollten sind unter anderem: - Profile Manager - Policy Regime - Tasks - Scheduling Funktion - Security Einrichtungen - Rollback/Recovery - Administration Zudem müssen Sie deren Verflechtungen und Attribute (z.B. welcher Administrator darf auf welche Managed Nodes mit welchen Rechten zugreifen) regeln. 2.3 Datenhaltung im System Das Repository speichert übergeordnete System Management Daten. Die einzelnen Manager (die häufig aus mehreren Komponenten bestehen) speichern ihre Daten in jeweils eigenen SQL Datenbank Tabellen ab (hierfür wird typischerweise eine DB/2 oder Oracle Datenbank eingesetzt). Die von den einzelnen Managern verwalteten Daten sind z.B.: Performance Meßdaten beim Performance Management Event History Daten beim Event Management TCP/IP Topologien beim Netzwerk Management Software Configuration Daten bei der Software Distribution Es wird eine objektorientierte Datenbank über die RIM (RDBMS Interface Manager) Schnittstelle vorgetäuscht. Das Repository selbst ist eine CORBA Objekt Datenbank. In ihm liegen meistens CORBA Objekte, welche die Funktionalität der RIM Schnittstelle darstellen (RIM Objekte) sollen oder Profile der Software Komponenten. Das Repository ist die Datenbasis für alle IT relevanten Daten. Gewünschte Eigenschaften sind redundanzfreie Datenhaltung, die Möglichkeit Replikationen darzustellen, öffentliche Daten und Funktionsmodelle sowie ein öffentliches Objektmodell, die Skalierbarkeit der Datenbank, Datenverteilung durch unabhängige Management Anwendungen, Datenbank Batch Import für ursprüngliches Laden von Management Information und Unterstützung für Oracle, Sybase, Informix, Ingres, DB2 oder SQL Server. 3. Netzwerk- und System Management Funktionen 3.1 Integrationstiefe von Netzwerk- und System Management Anwendungen (nach Gartner) Gartner nimmt eine Unterteilung der Anwendungen im System in 4 Level vor. 1. GUI Level: Die Daten sind extern, aber die GUI Komponenten der Konsole können aber auf sie zugreifen. Typischerweise enthält der Konsole Bildschirm ein Icon, mit dem ein Fenster für einen anderen Manager aufgerufen werden kann. Es bestehen keine weiteren Verbindungen. 2. Event Level: GUI Komponenten und NSM Anwendungen können Event Level Daten gemeinsam nutzen. Spezifisch ist es möglich, dass ein Manager von einem anderen Manager Event Daten, z.B. im SNMP Format, erhält. Ein Beispiel ist eine LU 6.2 Session, über die Netview/MVS SNA Daten im SNMP Format an Netview/6000 weitergibt. 3. Data Level: Die Enterprise Konsole und die NSM Anwendungen (Manager) nutzen die gleichen Daten aus einer gemeinsamen Datenbank (Repository), und können auf diese beliebig zugreifen. 4. Functional Level: Enterprise Management Konsole Funktionen und NSM Anwendungen (Manager) sind nahtlos miteinander integriert, z. B. über eine gemeinsame API oder über einen anderen Mechanismus, z.B. CORBA. 3.2 Gliederung von Netzwerk- und System Management Funktionen Es wird zudem eine Gliederung der Netzwerk- und System Management Funktionen vorgenommen. Die für das System wichtigen Eigenschaften werden durch die jeweiligen Manager oder Einrichtungen gewährleistet. Dazu gehören vor allen die Verfügbarkeit, die Verteilung und die Erweiterbarkeit des Systems. Verfügbarkeit (Availability) Availability Management maximiert auf eine effektive, automatisierte Weise die Verfügbarkeit von Anwendungen und Computer Ressourcen, die für das Unternehmen eine kritische Bedeutung haben. Spezifisch wird das Problem adressiert, dass ein bestimmter Fehler eine sehr große Anzahl von Events auslösen kann. Gleichzeitig soll die Produktivität von Administratoren verbessert werden, indem der Datenverkehr zwischen ihren Konsolen besser aufeinander abgestimmt wird. Dafür zuständig sind die folgenden Einrichtungen: - Enterprise Management Konsole - Fault, Event Management - Agenten - Autodiscovery - Netzwerk Management Operations (Tools) Operations ist der vollständige Satz an Werkzeugen, mit dessen Hilfe die täglichen Aufgaben und Prozeduren abgewickelt werden, welche die IT Infrastruktur des Unternehmens lauffähig halten. Dieser Satz an Werkzeugen muss auf existierenden IT Investitionen aufbauen, muss eine Cross-Plattform Steuerung ermöglichen und sollte die Delegation von Aufgaben optimieren. Hier ein paar Werkzeuge die das realisieren sollen: - Problem Management, Help Desk - Remote Control - Job Scheduling, Workload Management - Performance Management - Application Management - Storage Management - Security Administration - Business Process Management - Accounting, Berichtswesen Für die Verteilung und Erweiterbarkeit des Systems seien hier nur einige Manager und Aufgaben angegeben. Deployment – – – Erweiterbarkeit – – – – Konfiguration Management Software Management, Distribution und Installation Asset Management Anwendungsprogrammierschnittstellen (API, SDK) Main Frame und SNA Integration Integration mit den Komponenten anderer Hersteller Unterstützung durch ISV´s Später dazu im hinteren Teil die genauen Aufgabenbeschreibungen der einzelnen Managern in ihren Bereichen. (Siehe …….) 4. Verfügbarkeit (Availability) 4.1 Ereignis Management Konsole Eine System Management Konfiguration verfügt über (mindestenseinen) zentralen Manager. Dieser wird als Enterprise Management Konsole bezeichnet. Die Enterprise Management Konsole besteht aus einem als Event Management bezeichneten zentralen Software Prozess, welcher Ereignisse von den Agenten entgegennimmt oder diese abfragt. Dann gibt es noch ein (oder mehrer) Ereignis Management Konsolen, welche Schnittstellen zum menschlichen System Administrator bilden und ein Repository für die zentrale Datenhaltung. Die Enterprise Management Konsole ist eine Regel basierte Ereignis (Event) Management Anwendung und dient als zentraler Server für eingehende Ereignisse. Die Ereignisse werden von Adaptoren generiert, die auf Rechnern innerhalb einer Region laufen. Die Ereignisse können sich auf Netzwerke, Systeme, Datenbanken oder Anwendungen beziehen. Die Enterprise Management Konsole arbeitet als zentraler Anlaufpunkt für eingehende Alarmmeldungen und Ereignisse. Die Komponenten einer Enterprise Management Konsole sind: zentraler Ereignis Manager verteilte Ereignis Management Konsolen zentrale Datenhaltung verteilte Adaptoren Das Framework arbeitet mit einer graphischen Oberfläche (GUI). Die Ereignismanagement Konsole ist ein spezielles Fenster in der GUI, mit dem auftretende Systemevents überwacht werden. Häufig wird hierfür ein separater (Hardware) Rechner eingesetzt. 4.2 Event Management Das Event Management besteht aus 5 Teilen die für die Verarbeitung der Ereignisse zuständig sind. Zusammen mit dem Machine Generated Problem Tracking können automatisch erkannte Events als Problem (Trouble Ticket) im Help Desk eingetragen werden. Events, die eine Human Intervention benötigen, werden automatisch der richtigen Person zugeordnet. Auf Grund der Multilevel Manager/Agent Architektur können intelligente Agenten lokale Probleme filtern, korrelieren und Korrekturmaßnahmen einleiten. Manager können auf Events, die von unterschiedlichen Agenten kommen, ihre eigenen Filter und Korrelations-Rules anwenden, und daraufhin Agenten zu Korrekturmaßnahmen veranlassen. Event Logging Einfangen von Events/Alerts, z.B. von individuellen Agenten, die in Hubs, Routern, Arbeitsplatzrechnern oder Software operieren. Event Consolidation Prioritisierung und Filterung von Events. Mehrfache Events, die von unterschiedlichen Komponenten kommen, werden in einen einzigen Event gruppiert und an eine höhere Ebene weitergereicht. Hierfür werden häufig Event Korrelationseinrichtungen verwendet. Event Korrelation Gruppierung von Events/Alerts in einen einzigen Event/Alert. Hiermit soll die Aufgabe erleichtert werden, das zu Grunde liegende Problem zu identifizieren Event Notification Ermöglicht die Darstellung von Events derartig, ass die einzelnen Administratoren nur für sie relevante Events zu sehen bekommen. Colour Coding kann die Bedeutung eines Events herausstellen. Via Fax, Telephone, E-Mail oder Beeper kann ein Administrator benachrichtigt werden. Event Response Besteht aus den beiden Komponenten Event Diagnose und (der idealerweise automatischen) Event Resolution. Das Event Management muss in erster Linie eine Fehler Diagnose durchführen können. Dazu gehört auch Fehler zu übersetzen, kategorisieren und bei Bedarf zu unterdrücken, Fehlerbehandlung an dezentrale Server weiterleiten, Fehler auf der (Ereignismanagement)-Konsole gesondert hervorheben und präventive Maßnahmen im Fall von Überlastungssituationen einleiten, sowie Unterstützung von Eskalationsmechanismen. Wichtig ist ebenfalls die Fehlervermeidung, die durch automatisierte Prozesse geregelt wird. Es gibt noch viele Beispiele die die Aufgaben des Event Management angehören, die ich hier aber nicht weiter besprechen will, da ich glaube die wichtigsten genannt zu haben. 4.2.1 Event Korrelation Der wichtigste Teil des Event Management ist die Event Korrelation. Häufig ist eine Störung in mehreren Ereignissen sichtbar, so dass der eigentliche Ursprung des Problems schwer zu erkennen ist. Wenn es möglich ist, die Ereignisse aller DV Ressourcen zu korrelieren und zu filtern, kann der Ursprung eines Problems leichter festgestellt werden. Besonders effektiv kann es sein, wenn intelligente Agenten lokale Störungen filtern und korrelieren können, und evtl. automatisch Gegenmaßnahmen einleiten. Ebenso können Manager die Fähigkeit haben, Ereignisse von verschiedenen Agenten zu korrelieren. Die Fähigkeiten einer Event Korrelation sind so genannte Rule Templates , eine Art Schablone um häufige Probleme oder Verhaltensweisen schneller zu identifizieren. Es muss zudem die Möglichkeit für das Erzeugen, Modifizieren und Vernichten von Rule Sets gegeben sein. Dazu verwendet man Scripting Tool für die Erzeugung von Rules. Außerdem müssen diese ausgetestet werden, ehe sie in den Produktionsbetrieb übernommen werden können. Nach Abschluß der Korrelation ordnet die Enterprise Konsole die relevanten Daten und/oder Event Gruppen automatisch dem richtigen Mitarbeiter zu. Dies erfolgt nach Kriterien wie Zeit, Priorität, Ursprung oder Kontext. Das Erstellen und besonders die Pflege von komplexen Rule Sets für die Event Korrelation kann eine sehr schwierige Aufgabe sein. Bei der Definition von Rules ist es wichtig, besonders unter Pflegegesichtspunkten ihre Anzahl zu begrenzen. 4.3 Hierarchische Gliederung von Enterprise Management Konsolen Die NSM Management Funktionen können auf viele logische und/oder physikalische Server verteilt sein. In einer hierarchischen Struktur kann ein als „Manager of Managers“ (MOM) bezeichnete Enterprise Management Konsole viele untergeordnete Manager (Midlevel Manager, MLM) bedienen. Mid Level Manager sind Server, die zwischen der Enterprise Management Konsole und den Arbeitsplatzrechnern zwischengeschaltet sind. Mid Level Manager können gleichzeitig Domain Manager sein. 4.4 Domänen Eine Domäne ist eine auf Grund bestimmter Kriterien zusammengefasste Gruppe von Ressourcen (Agenten), die von einer Management Einheit kontrolliert wird. Domain Manager dienen zur Bildung von geographisch oder auf Klassen (Objekte) bezogene Management Domänen (administrative Domains) und reduzieren die Netzlast. Domänen können beispielsweise nach Gesichtspunkten der Topologie, Geographie, Organisation oder Funktion strukturiert werden. Mit Hilfe von Domänen lassen sich mehrstufige Architekturen bilden, die eine größere Flexibilität in Hinblick auf die Implementierung und die Anforderungen des unternehmensweiten System Managements ermöglichen. Ein Domain Manager führt polling, Discovery und Management lokal aus. Nur definierte Ausnahmesituationen werden an den übergeordneten Manager weitergeleitet. Domain Manager sind beliebig kaskadierbar. Der Domain Manager kann Events korrelieren und automatische Reaktionen ermöglichen. Ein Zugriff auf den Domain Manager kann über eine direkt angeschlossene Konsole möglich sein. 4.5 Agenten Auf allen Knoten eines Netzwerkes laufen zusätzliche Netzverwaltungsprozesse, die als „Agenten“ bezeichnet werden. Knoten eines Netzwerks können Rechner (Hosts), z.B. Arbeitsplatzrechner, Server Router oder sogar Brücken, Hubs, Multiplexer sein. Jeder verwaltete Knoten wird so betrachtet, als besäße er mehrere Variablen. Durch Lesen der Werte dieser Variablen wird der verwaltete Knoten beobachtet. Durch Ändern der Werte dieser Variablen wird der Knoten gesteuert. Agenten sammeln Informationen über den Zustand ihres Knotens, z.B. derzeitige Verkehrsbelastung, Betriebszustand angeschlossener Verbindungen, Fehlersituationen, Anzahl verworfener Pakete usw. Agenten überwachen Hard- und Software Ressourcen und gewährleisten die Verbindung zum Control Center. Auf Anweisung eines Managers ergreifen sie Maßnahmen. Sie müssen Informationen in Beziehung zueinander setzen können und von sich aus automatische Maßnahmen ergreifen können. Ein intelligenter Agent ist eine Software Instanz, die in der Regel auf einem Managed Object installiert ist. Der Agent ist programmierbar, und kann auf bestimmte Ereignisse autonom reagieren. Agenten sind von der Enterprise Management Konsole aus zentral administrierbar, programmierbar und verteilbar. Agenten kommunizieren mit der Enterprise Management Konsole oder einem MLM über Protokolle wie CMOT, SNMP1, SNMP2, CMOL, CMIP, MIB2, RMON1, RMON2, aber auch über Protokolle, die auf CORBA (z.B. Tivoli) oder RPC (z.B. CA) aufbauen. 4.6 Autodiscovery Autodiscovery ist ein Analysetool, zu dem in der Regel zwei automatisch ausgeführte Funktionen gehören. Das Auffinden von IT Infrastruktur-Einheiten oder Ressourcen und Bestücken eines Repository mit verwalteten Objekten zur Darstellung dieser Einheiten und die Bestimmung der Beziehungen zwischen Ressourcen und Bestücken eines Repository mit Darstellungen dieser Beziehungen. Idealerweise können Beziehungen zwischen Hardware und Software Objekten entdeckt werden, (z.B. die Abhängigkeit eines Routers von einem Hub, oder eine Anwendung von einer Datenbank). Folgende Hardware kann automatisch entdeckt werden: - Router - Hubs - Brücken - Switche - Drucker - Mobile Klienten - Server und Arbeitsplatzrechner - Plattenspeicher - Hauptspeicher - CPU Typ - Netzwerk Adressen - Sound Karte und Video Karte Die automatische Entdeckung von Software Ressourcen bezieht sich auf: - Betriebssystem - Anwendungen - Versions Nr. - Module Größe - Konfigurationsdaten und Data Bases 4.7 Netzwerk Management Netzwerk Management umfasst die Überwachung, Konfiguration, Steuerung und Automation der Verbindungswege und Kommunikationskomponenten, wie z.B. Hubs, Router, Bridges und Switches in einer heterogenen Umgebung. 4.7.1 Netzwerk Management Funktionen 1. Die Abbildung der logischen und physikalischen Strukturen aller Objekte kann in einer beliebigen Hierarchietiefe erfolgen. Eine eindeutige Darstellung der 2. Verbindungsinformationen zu höheren Hierarchiestufen ist möglich. 3. Automatische Trapgenerierung bei Abweichung von einer Referenz 4. Zentrale Verwaltung und Backup für ASCII- und Binärkonfigurationsdateien 5. Korrelation der einlaufenden Alarme 6. Polling von managed Objects in definierten Zeitabschnitten 7. Logging von (frei definierbaren) SNMP Daten in einer Datenbank für eine spätere Performance Analyse 8. Setzen von Schwellwerten für Performance- und Diagnosedaten 9. WWW Unterstützung für Statistik- und Uptime/Downtime Reports 10. Alarmbehandlung 11. Policy based Filtering einlaufender Alarme 12. Integrierte Darstellung aller Alarme 13. Direktes Verzweigen vom Alarm in die Topologie Auf der Netzwerk Konsole können dargestellt werden: Event Priority Daten Echtzeit Event Status Daten Historische Event Status Daten Event Korrelationsdaten Event Diagnose Daten Event Response Daten Die Netzwerk Konsole erlaubt es, individuelle Nodes oder Gruppen von Nodes zu spezifizieren. Im Help Desk werden automatisch Records geöffnet, wenn ein Event/Alert auf der Netzwerk Konsole auftritt. Der Administrator kann an der Netzwerk Konsole vergangene Problem Histories der Help Desk Anwendung aufrufen. Netzwerk Plattformen anderer Hersteller, wie z.B. wie HP OpenView oder IBM NetView, führende Netzwerk Device Management Tools wie z.B. Bay Networks Optivity oder führende LAN Management Tools wie z.B. McAfee Saber LAN Workstation können leicht integriert werden. Zudem gibt es zwei Komponenten, die Netzwerk Management Platforms und die LAN Management Tools, zwischen denen unterschieden wird. 5. Operations (Tools) 5.1 Problem Management, Help Desk Das Problem Management bietet einen Rahmen für die einfache und präzise Verwaltung der täglichen Probleme und Fragen, mit denen die Systemverwalter konfrontiert sind. Es ermöglicht die genaue Bestimmung des Ursprunges eines Problems und die Rückführung auf bestimmte Hardware-, Software- und Prozedurfehler. 5.1.1 Problemerkennung Komponentendefinitionen dienen zur Definition der Konfiguration des Systems, einschließlich Hardware, Software, Telekommunikationsanlagen und Sicherheitssysteme. Hiermit können Garantie- und Wartungsinformationen festgehalten und Hierarchiebeziehungen festgehalten werden. Gemeinsam mit den Problemdefinitionen stellen Komponentendefinitionen Information zur Verfügung, anhand derer analysiert werden kann, welche Auswirkungen der Ausfall einer Komponente auf eine andere hat. Problemdefinitionen werden in das Problemmanagement von den Mitarbeitern des Help Desk manuell und von der Machine-generated Problem Tracking Einrichtung automatisch eingetragen. Ein Problem stellt jeder gemeldete Zwischenfall dar, der die Nachforschung und Einleitung von Maßnahmen erfordert. Machine-generated Problem Tracking (MGPT) ermöglicht die automatische Erstellung von Problemeinträgen (Datensätzen) auf Basis der vom Eventmanagement überwachten Aktivitäten. MGPT-Regeln dienen zur Erkennung von Problemen auf einzelnen Hosts, innerhalb von Anwendungen und im Netz. 5.1.2 Problembehandlung Das Problem Management umfasst neben der Problemerkennung mehrere Teilabläufe in der Problembehandlung, die sicherstellen, dass ein Problem analysiert und verfolgt wird, und dass eine entsprechende Behebungsstrategie festgelegt wird. Call Tracking, Escalation Management, Reporting, Business Analysis, Problem Solving und Document Retrieval sind Help Desk Funktionen. Das Policy Based Automation regelt, welcher Administrator wann mit welcher Autorisation eingreift. Wenn ein Problem/Alert in der Konsole eintrifft, wird automatisch eine Anfrage in der Help Desk Anwendung geöffnet. Die Konfiguration Datenbank stellt die Konfiguration vor Ort zur Verfügung. Aus der Change Management Datenbank können die letzten Änderungen ausgelesen werden und aus der Problem Management Datenbank können die letzten 5 Probleme ausgelesen werden. Anhand derer werden dann gewisse Gegenmaßnahmen eingeleitet, falls die gespeicherten Informationen Hilfestellungen enthalten. Wird die Bearbeitung der Event/Alert Bedingung erfolgreich abgeschlossen, so werden automatisch die entsprechenden Event/Alert Records deaktiviert. Integriert sind Werkzeuge wie Computer/Telephony (CTI), z.B. City Ruf, Automatic Call Distributors Internet E-Mail Benachrichtigung, u. A. 5.2 Workload Management Workload Management wird auch als Job Scheduling bezeichnet, umfasst das zentrale Job Monitoring und die Überwachung in Echtzeit. Es erlaubt voneinander abhängige Batch-Jobs so in Korrelation zu setzen, dass sie in minimaler Zeit mit dem gewünschten Ergebnis laufen. Es gestattet die netzwerktransparente Auftragsverwaltung und Steuerung zur optimalen Nutzung der System Ressourcen im Netz sowie das Scheduling von Software Distribution und Backup Aktivitäten. Spezifisch können Jobs auf zahlreichen dezentralisierten Unixund NT Rechnern aufgeteilt werden. Job Scheduling kann abhängig sein von Erfolgreichem Abschluß anderer Jobsoder wie ein Administrator auf einen Prompt des Job Schedulers reagiert. Dazu kommt Verfügbarkeit erforderlicher Files und Verfügbarkeit kritischer Hardware. Erhält die Konsole ein Event/Alert weil ein Hub ausfällt, dann sollte Idealerweise die Ausführung aller Jobs verzögert werden, die diesen Hub benötigen, bis der Hub wieder funktionsfähig ist. Die folgenden typischen Fragen werden adressiert: Aus welchen kritischen Elementen besteht die Workload? Welches sind die Spitzenbetriebszeiten? Laufzeiten von Jobs? Welche Jobs laufen in der Regel wann? Möglichkeiten für eine bessere Verteilung der Arbeitslast Eigenschaften sind die wünschenswert wären: Jobs können in Bezug auf benötigte Daten, Laufzeit, Priorität oder Abhängigkeiten gescheduled werden Job Abhängigkeiten können angezeigt werden Im Fall eines Failures gibt es eine Recover und/oder Restart Möglichkeit Schnittstelle zum Performance/Capacity- Managementsind vorhanden Bei auftretenden Fehlern im System die unerwünschte Änderungen oder Abbrüche hervorrufen, sodass der Job nicht ordentlich ausgeführt werden kann, erfordert Recovery Strategien. Mögliche Recovery Eigenschaften im Fall eines abnormal beendeten Jobs sind: Job neu ausführen Abhängige Jobs zurückstellen Nächsten Job in der Warteschlange ausführen Anhalten der Verarbeitung Recovery Job anstoßen Benachrichtigung des Administrators 5.3 Performance Management Performance Management umfasst die Bereiche der Überwachung (Performance Monitoring) und Steuerung (Performance Control). Auf der Basis von Schwellwerten oder durch die Analyse von Meßwerten kann eine Reaktion erfolgen. Performance Management ist ein aktives Management der Leistung von Netzwerken, Systemen, Anwendungen und Peripheriegeräten. Performance Management überwacht den Zustand eines Rechners, z.B.: Festplattenbelegung Plattenzugriffe Plattenfüllstand Filesystemgröße Speicheverbrauch Swapspace Größe und Nutzung farbliche Darstellung von Fehlern und Warnungen fehlerhafte Komponenten Sicherheitsprotokoll (z.B. illegale Zugriffe, Kernel Veränderungen, ...) Weiterhin werden kritische Files überwacht (z.B. CONFIG.SYS, STARTUP.CMD, PROTOCOL.INI, IBMLAN.INI, WIN.INI, SYSTEM.INI, AUTOEXEC.BAT). 5.4 Datensicherung Backup und Storage Management Unter Storage Management wird die Überwachung und Verwaltung von Systemressourcen mit Speicherfähigkeit verstanden. Zu den einzelne Funktionen gehören Speicherauslastungs- und Plattenplatzüberwachung für die Kapazitätsplanung, Organisation der Plattenlaufwerke, Definition von Schwellwerten und natürlich die Backupverfahren. An die Backupverfahren werden folgende Anforderungen gestellt. Sie müssen automatisiert ablaufen können. Das System muss fernwartbar und fernsteuerbar sein. Es müssen Datenmengen im 100 GB-Bereich und mehr verarbeitbar sein. Die SNMP ’s müssen unterstützt werden und es müssen Duplikate in entfernten Lokationen zur Umgehung von Leitungsengpässen erstellt werden können. 5.5 Security Administration Steuert Sicherheitsaufgaben in einer verteilten Umgebung. Security Administration muss die Benutzerverwaltung (unberechtigte Benutzer davon abhalten, Zugang zum System zu erhalten) steuern und die Sicherheitsadministration (sicherstellen, dass sensible Daten und Ressourcen nur von berechtigten Personen genutzt werden) überwachen. Es sollte automatische die IT Nutzung überwachen und Berichten über Berechtigungen, Historien und Schutzverletzungen erstellen. Single Sign-on gibt einem Endbenutzer eine einzige Authentifizierungs id ( wie ein userid Passwort), das ihm einen Zugriff auf alle seine Anwendungen und Daten ermöglicht, ohne dass er ein Passwort nochmals eingeben muss. Es erfolgt eine einmalige Authentifizierung für mehrfache Server und/oder Anwendungen. 5.6 Application Management Application Management umfasst das Monitoring, Steuern Optimieren und Automatisieren von Anwendungen. Das Application Management wird von einer zentralen Stelle aus durchgeführt. Eine typische Application Management Anwendung ist die System R/3 Unterstützung. Andere Anwendungen sind z.B. Report Generatoren, Web Browsers, Lotus Notes, Kalender Systeme und Enterprise Resource Planning Systeme. Typische Aufgaben sind: Problemerkennung Real Time Überwachung Performance Engpässe Verwaltung physikalischer DB Objekte Datenbank Zugriffsberechtigungen Analyse von Katalogen/Directories Performanceüberwachung (z.B. Threads, Speicherauslastung, offenen Dateien) Verfügbarkeitsüberwachung Überwachung der Nutzung als Abrechnungs- und Planungsgrundlage Ein Application Management Service erlaubt die Verwaltung von Gruppen von zusammengehörigen Anwendungen, die einen Geschäftsprozess darstellen. Unterstützt wird die Darstellung von Beziehungen und Datenflüssen zwischen Anwendungen. 6. Deployment (Verteilung) Software Deployment adressiert das Problem, die richtige Software an die richtigen Benutzer zu verteilen. Dies muss für viele unterschiedliche Plattformen, unterschiedliche Konfigurationen und für sehr viele Komponenten erfolgen. Hierbei stellen Client/Server Anwendungen und Desktop Anwendungen unterschiedliche Anforderungen. Software Deployment besteht aus den beiden Schritten Konfiguration Management Software Distribution und Installation Dieser Prozess wird ergänzt durch das Asset und Inventory Management. 6.1 Konfiguration Management Konfigurationsmanagement umfasst den planerischen Teil des Software Deployment Prozesses. Hierzu gehören die Erfassung und Veränderung von Konfigurationen im System- und Netzbereich, das Packaging der ausliefernden Software und die Erstellung von Installationsskripten. Beispiel (Problem) Vorhanden sind 10 000 PC´s. Wird ein Change eingeführt, z.B. eine neue Anwendung installiert, läuft auf 3000 PC´s die Platte über. Auf 500 PC´s entsteht ein Konflikt mit einer bereits installierten Anwendung. 100 PC´s enthalten eine BIOS Version, welche die Installation der neuen Anwendung nicht zulässt. Konfigurationsmanagement sollte zentral administrierbar sein, ein Software Veränderungslog unterhalten und Software Updates der MLM´s mit einschließen. Dieser Prozess kann sehr arbeitsaufwendig sein. Der Begriff Change Management wird von den Herstellern unterschiedlich belegt. Im weiteren Sinne wird hierunter der vollständige Life Cycle des Software Deployment Prozesses verstanden. Es ist möglich die automatische Erzeugung von Change Packages, die kein Scripting erfordern. Hierzu werden Snapshots von den Systemen genommen, jeweils vor- und nachdem die Anwendung installiert wurde. 6.2 Software Distribution und Installation Software Distribution und Installation umfasst die Verteilung und (bedienerlose) Installation von neu zu installierender Software wie auch von Software updates. Die Verteilung von Software muss entsprechend den Anforderungen der Zielmaschinen konfigurierbar sein. Der Anschluss an ein Lizenzverwaltungssystem muss möglich sein. Der Auslieferungsprozess muss auf Bandbreiteneinschränkungen, besonders im WAN Bereich, Rücksicht nehmen. Es sollte die folgenden Eigenschaften haben z.B.: dynamisch, ohne booten/Neustart (pristine Distribution) Mehrstufige Verteilung mit planbarer Nutzungszeit und Auslastung der Verteilkanäle Unterstützung von heterogenen Zielsystemen Zentrale Stelle zur Einspeisung von Daten Lizenzverwaltung Prototyping (Einsatz von Pilotierungs-Software ohne Bruch in der Versionierungsfolge) muss unterstützt werden 6.3 Asset Management, Inventory Management Inventory Management ist ein Teil des Asset Management. Asset Management schließt nichtmaterielle Dinge wie Service Level Agreements, Vendor Agreements und Kontrakte ein. Die Inventar Datenbank (Inventory) ist das zentrale Inventarverzeichnis aller Hardware- und Software Ressourcen im Unternehmen mit ihren technischen, kaufmännischen und topographischen Attributen. Überwacht wird z.B. die Hardware Konfiguration eines Rechners: Modell Hauptspeicher Disketten Platten sowie die Software Konfiguration. Inventory und Asset Management werden eingesetzt, um einem NSM System Daten über all betroffenen Komponenten zur Verfügung zu stellen. Anforderungen wie Maschinelle Erfassungsverfahren sowie Anbindung bestehender Datenbanken und manuelle Erfassbarkeit von Daten sind gefordert. 7. Erweiterbarkeit Die Erweiterbarkeit von Systemen ist wichtig um nicht ständig neue Systeme konstruieren zu müssen. Durch die Aufrüstung, Erneuerung oder Umrüstung im laufenden Betrieb zu sichern sind auch hier einige Werkzeuge und Einrichtungen gegeben. 7.1 Main Frame und SNA Integration Integration Die SNA Integration stellt sicher, dass vorhandene und zukünftige SNA Geräte optimal in das NSM eingebunden werden. Nahtlose Integration der Management Funktionen der MVS und SNA Welt mit den Management Funktionen der UNIX/OS2/NT/SNMP Welt. Gefordert sind: Fähigkeit der Enterprise Konsole, /390 Hardware zu verwalten Fähigkeit der Enterprise Konsole, MVS Software Komponenten zu verwalten Vorhandensein von Schnittstellen für: NetView/MVS, IMS, DB/2 für MVS, CICS Vorhandensein von Schnittstellen für NetView/MVS spezifischen Komponenten Vorhandensein von Schnittstellen für Werkzeuge, die beim Benutzer eingesetzt werden Zu fragen ist in allen Fällen: Auf welcher Integrationsebene existiert die Unterstützung? (GUI Level, Data Level, Functional Level, Event Level)? Können Events/Alerts zwischen der Enterprise Konsole und der MVS Anwendung in beiden Richtungen ausgetauscht werden? Gilt dies auch für Event/Alert Updates? 7.2 Anwendungsprogrammierschnittstellen (API, SDK) Eine umfassende und offene API Library sowie die Verfügbarkeit eines Software Development Toolkits erleichtern die Integration von Third Party Anwendungen. API Libraries sind in der Regel Bestandteile eines SDK.