Oracle Endeca Information Discovery für Financial Services - Risk Management & Risk Controlling Anforderungen Die Anforderungen an das Risk Management von Banken sind in den letzten Jahren nicht zuletzt im Zusammenhang mit der Finanzkrise und der Einführung von Basel II / Basel III enorm gestiegen. Risk Manager, welche Risiken falsch bewerten können dafür haftbar gemacht werden. Die korrekte Kenntniss der Risken, welche im Investmentbanking aber auch im Retailbanking lauern hat u.a. direkten Einfluß auf die bereit zu haltenden Risikoreserven und damit auf die Eigenkapitalquote. Ein wesentlicher Arbeitsschritt bei der Beurteilung von Risiken und daraus folgender Handlungen ist, größere Abweichungen von Risikobewertungen, z.B. zwischen aktueller Periode und Vorperiode, erkennen zu können, was mit klassischen BI Mitteln im Allgemeinen relativ einfach zu bewerkstelligen ist. Was nicht mehr ganz so einfach gemacht werden kann, ist sich frei in diesen Daten zu bewegen und damit erforschen zu können, was eigentlich der Grund für diese Abweichungen sind – sind Daten eventuell fehlerhaft in Systemen vorhanden / geliefert worden oder liegt wirklich ein realler Business Case dahinter? Wenn Daten fehlerhaft sind, sind sie natürlich entsprechend zu berichtigen. Wenn ein echter Business Case vorliegt müssen die entsprechenden Fachabteilungen und Ansprechpartner bis evtl. hin zum Vorstand darüber unterrichtet werden und geignete fachliche Maßnahmen ergriffen werden. Hier kommt jetzt Oracle Endeca Information Discovery, kurz: Endeca ins Spiel. Endeca bietet eine Möglichkeit mit „konventionellen“ strukturierten Daten und „unkonventionellen“ semi- oder unstrukturierten Daten umzugehen und ermöglicht hierbei die gewünschten freien Analysen. Unstrukturierte Daten können z.B. Dateien auf bankeigenen Dateiablagen sein, typischerweise PDFs, Word und Excelsheets - aber auch Social Media Daten von Facebook, Twitter und Co., in denen Meinungen zu Kunden oder zum eigenen Institut geäußert werden u.ä. – zusammen mit andere Daten aus dem Web wie zum Beispiel aktuelle Ratings per XML Feed, klassisches Beispiel hierbei sind Ratings der bekannten Ratingagenturen oder aber aktuelle Devisenkurslisten der Notenbanken. Der Endeca Server stellt hierbei dynamische Daten Domänen bereit, welche technisch als Record Stores mit automatischer Indexierung realisiert sind und sich beliebig dynamisch ändern lassen, wobei ein Record einer Kette von Attribut- und Wertpaaren, bzw. Wertlisten entspricht. Es ist damit im Unterschied zu „klassischen“ BI Anwendungen nicht notwendig, ein Datenmodell, etwa ein Star Schema zu modellieren – es langt die Vergleichbarkeit der Daten über gleiche Attributnamen und –werte für Daten aus unterschiedlichen Datenquellen bereitzustellen und in eine gemeinsame Daten Domäne des Endeca Servers zu laden. Dieser stellt dann die Verbindung zwischen den Daten autiomatisch her und ist fungiert gleichzeitig als hybride Search/Analytical Engine. Das bedeutet, dass Google-like Suchfunktionalitäten out-of-the-box vorhanden sind, genauso wie die grundlegenden analytischen Funktionalitäten „klassischer“ BI Lösungen wie Summen, Durchschnitte u.ä., welche im Rahmen einer an SQL angelehnten Abfragesprache (EQL) voll zum Zuge kommen. Im Grunde genommen kann man sich das Arbeiten mit Endeca als eine Art „Data Mining per Hand“ vorstellen, bei der im die Intelligenz vor der Anwendung sitzt anstatt in automatisierten mathematischen Algorithmen verdrahtet zu sein und Endeca den Weg vorgibt beziehungsweise auf vielfältige Art und Weise bei der „Entdeckung“ unterstützt. Der Unterschied von Endeca zu „klassischem BI“ ist also, das jenes auf zumindest vorgedachte Fragen Auskunft gibt, während es Endeca ermöglicht, komplett neue Fragen zu stellen. Einsatzszenario Das Szenario, das ich hier vorstellen möchte geht davon aus, das Mitarbeitern in den zuständigen Fachbereichen - typischerweise sind das die Controlling und Risk Controlling Abteilungen der Unternehmen - die Möglichkeit gegeben werden soll, eigenhändig Risikobewertungen einer Prüfung auf fachliche Korrektheit zu unterziehen beziehungsweise tatsächliche Auffälligkeiten wie etwa große Abweichungen der aktuellen Risikobewertung zur Vorperiode aus den Daten erklären zu können. Im ersten Fall müssen bei fachlichen Fehlern Korrekturen vorgenommen werden – dazu ist es notwendig Listen der fehlerhaften Daten und deren Korrekturen zu erzeugen, welche in das oder die Quellsysteme zurückgespielt werden können. Im zweiten Fall müssen u.U. geignete Maßnahmen zum Umgang mit den Risiken erfolgen, welche auf dem üblichen Weg der Zusammenarbeit innerhalb der Abteilungen erfolgt. Die Visualisierung und der eventuelle Export solcher Fälle in einem geeigneten Format wie CSV erleichtert hierbei erheblich die Argumentation. Es gibt darüber hinaus auch generische Fälle, d.h. fixe Analysen, die jedesmal zu prüfen sind und in Endeca über feststehende EQL Abfragen realisiert werden können. Beispiele dafür sind Abweichungen bestimmter Felder, Nichtvorhandensein von Daten in bestimmten Perioden und ähnliches. Wichtig ist, das solche Fälle auf einen Blick erkannt werden können. Hilfreich ist es auch, gleich Kommentare oder Handlungsanweisungen in solchen Fällen mit auszugeben. Vorgehen Das technische Vorgehen ist dabei wie folgt: Zunächst müssen die Daten aus den Vorsystemen wie z.B. einer Konsolidierungsplattform eines DWH, Risikobewertungen von Agenturen, operationalen Systemen, fachlichen Dokumenten (Excel, Word, PDF,...), Nachrichtenquellen, Blogs und Feeds aus dem WWW und ähnliches gemeinsam in eine Daten Domäne des Endeca Servers geladen werden. Hierzu dient die Komponente „OEID Integrator“, welche ein ETL Tool mit speziellen Funktionalitäten zurm Beladen des „Oracle Endeca Servers“ ist. Es muss lediglich darauf geachtet werden, dass Attribute und dazugehörige Werte gleich benannt werden – genauso wie man es machen würde, wenn man Daten aus verschiedenen Quellen in einem Excelsheet zusammenführt. Das Design eines speziellen Datenmodells, wie es im „klassischen“ BI notwendig wäre, entfällt. Damit ist die Basis gelegt und man kann im Grunde genommen schon mit der freien Analyse der Daten im Webfrontend „OEID Studio“ beginnen, welches die benötigten Komponenten wie Grafiken, Tabellendarstellungen, Detaildarstellungen, Vergleichs-, Suchmöglichkeiten bzw. die geführte Navigation in den Daten nebst Filtrierung neben weiteren Funktionalitäten bereitstellt. Unten ist nochmal die grundlegende Architektur dargestellt: Das Laden der Daten in den Endeca Server geschieht technisch wie schon erwähnt mit Hilfe des Oracle Endeca Integrators. In diesem Screenshot sieht man das Laden von Risikobewertungsdaten und Kommentierungen für die fixen Analysen aus Datenbanktabellen. Es könnten natürlich auch ganz andere Quellen benutzt werden. Nicht dargestellt ist das Laden von internen Kundenbewertungen aus Excelsheets und das Dazuspielen von externen Ratings, welches analog mit Hilfe des Integrators unter Zuhilfenahme von eingebauten Werkzeugen, die eine automatische Text- und Sentimentanalyse erlauben, erfolgen kann. Man beachte, das keine Verteilung der Daten in ein Datenmodell notwendig ist (Operator Bulk Load to Endeca Data Domain): Natürlich sind damit noch keine EQL Views geladen, welche für die fixen Analysen benötigt werden. Man kann das über den Integrator tun oder aber über das Webfrontend die Views definieren: Diese XML Datei, welche die EQL View Definitionen enthält, wird über folgenden ETL Prozess geladen: Alternativ lassen sich EQL Views auch über das Frontend definieren. Es bietet bietet die Möglichkeit, die EQL Query zu validieren und auf die Visualisierung der Attribute Einfluß zu nehmen: Im Allgemeinen macht es Sinn, die Views in einem intitialen Schritt komplett über das Webfrontend zu erzeugen und dann in die XML Datei zu exportieren, welche dann im laufenden Betrieb automatisiert geladen werden kann. Arbeiten im Frontend Nachdem nun die Daten Domäne des Endeca Servers mit den Daten geladen wurde, können die Fachanwender über das Frontend elegant auf die Daten zugreifen und die „Entdeckungstour“ starten. Nachfolgend ist eine Einstiegsseite abgebildet, die es ermöglicht, die wichtigsten Fakten auf einen Blick zu erfassen. Alle Komponenten sind hierbei interaktiv, dass heißt ich kann z.B. in den Daten und Grafiken drillen und bekomme automatisch eine Verfeinerung auf die mit meiner Auswahl verbundenen Atttribute und Werte hin. Das ist der Kern der Guided Navigation: Ich setze Filter und bekomme automatisch zur weiteren Verfeinerung meiner Analyse nur noch die Attribute und Werte angeboten, welche jetzt noch mit den Daten in Verbindung stehen. Genauso kann man mit der Suche arbeiten (hier nicht abgebildet), wo man auch automatisch eine geführte Verknüpfung zu den relevanten Daten und automatisch auch Korrekturvorschläge bekommt, z.B. falls ich mich vertippe oder die genaue Schreibweise eines Begriffes nicht kenne – genauso wie man es von Suchmaschinen wie Google gewohnt ist. Die folgenden zwei Screenshots zeigen die fixen Analysen, welche durch die EQL Views festgelegt wurden und die zusätzlich zu den Daten auch passende Kommentierungen dieser Basisfälle enthalten – Anweisungen an die Bearbeiter der Fachabteilungen, was ein Grund für die Abweichungen sein kömmten sowie Handlungsanweisungen mit ausgeben. Die Berichte können in einfacher Art und Weise als CSV Datei exportiert und weitergegeben werden. Natürlich kann aber auch die eigentliche Stärke von Endeca genutzt werden – die freie Analyse der Daten, das schon erwähnte händische Data Mining, welches unter anderem durch vielfältige Möglichkeiten der Filterung, des Ordnens und Vergleichens von einzelnen Datensätzen bis auf die tiefste Detailebene hinab unterstützt wird. Fazit Oracle Endeca Information Discovery ist das geignete Werkzeug für das Analysieren von Risikobewertungen aber auch für die Untersuchung beliebiger anderer Daten: Sei es Qualitätsicherung von Reportingdaten als auch das Untersuchen von geigneten Big Data Datenscheiben und hat gegenüber „klassischen“ BI Lösungen entscheidende Vorteile auf seiner Seite: Keine explizites Datenmodel nötig ! Hochflexible, beliebig gestalt- und erweiterbare Recordstruktur Daten aus allen denkbaren System und Formaten verknüpfbar Automatische, google-like Suche und Guided Navigation Sowohl freie Analysen als auch fixe Analysen (Reports) möglich Sehr einfach zu bedienendes Frontend und ETL Tool SQL-like Abfragesprache EQL