Statusreport Chancen mit Big Data Best Practice September 2016 Vorwort Big Data ist ein Begriff, der bereits seit einigen Jahren verbreitet ist, aber ungebrochen hohe Aufmerksamkeit bezüglich verschiedener Aspekte genießt. Dazu gehören Datenschutz und Datensicherheit, seine Rolle als Technologietreiber und sein Potenzial für Unternehmen zur Verbesserung von Produkten, der Produktion und Geschäftsprozessen. Big Data spannt damit einen Raum auf, der für Entscheider, Anwender und auch Fachexperten in seiner Gesamtheit schwer zu erfassen ist. Der VDI/VDE-GMA-Fachausschuss 7.24 „Big Data“ hat es sich zum Ziel gemacht, durch Aufzeigen von Use Cases (Statusreport Chancen mit Big Data, Use Cases), Beschreibung von Best Practices, Begriffsklärungen und Standardisierungen die Transparenz zu Big Data zu erhöhen. Zur Zielgruppe gehören alle Stakeholder, von Praktikern bis zu Entscheidern, von der Fertigungs- bis zur Prozessindustrie. Produktion sowie Mess- und Automatisierungstechnik bilden dabei die wichtigsten Perspektiven. Die Ziele des Fachausschusses sind das Aufzeigen des ökonomischen und ökologischen Nutzens von Big Data und des Wissenstransfers über verschiedene Industrien und Branchen hinweg. Durch Einbezug von Anwendungswissen und Produkt- bzw. Produktions-Know-how wird eine normative Datenanalyse möglich. So können Ableitungen zu Empfehlungen für verbesserte Planung und Optimierung von Betriebs- und Prozessabläufen erstellt werden. Auf der methodischen Seite erfordert dies die Erweiterung von Black-Box- zu Grey-Box-Modellen. Die Bedeutung von Big Data und die Nutzung aufbereiteter und strukturierter Daten – hier wird auch von Smart Data gesprochen – wird weiter steigen. Dies begründet sich zum einen darin, dass in der Produktion, beispielsweise für Steuerungs- und Regelungsaufgaben, große Datenmengen erhoben werden, die mittels Datenanalyse für weitere Prozess- und Geschäftsverbesserungen genutzt werden können. Zum anderen wird die weiter zunehmende „Rechnerallgegenwart“ (ubiquitous computing) und Vernetzung, sogenannte Smart Devices und das Internet der Dinge (IoT), die schnelle und zuverlässige Bereitstellung unterschiedlicher Daten in großem Volumen weiter vorantreiben. Der Mensch wird als Planer, Gestalter und Entscheider eine wesentliche Rolle in diesen Abläufen einnehmen und wichtiger Erfolgsfaktor sein. Der vorliegende Statusreport beschreibt als Best Practice die Abläufe (Workflows) in Big-Data-Projekten. So sind bei der Aufnahme und Aufbereitung von Daten die Art der Produktion (diskrete, hybride, kontinuierliche Prozesse) relevant und die Spezifika der Prozessautomatisierungs- und Prozessleitsysteme zu berücksichtigen. Zur Durchführung von Datenanalysen steht heute eine Vielzahl von mathematischen Verfahren zur Verfügung, die in unterschiedlicher Detailierungstiefe vorgestellt werden. Der Bericht schließt mit Betrachtungen zur Nutzung der Analyseergebnisse für Prozessdiagnosen und zur vorausschauenden und verbesserten Führung von Produktionsprozessen. Düsseldorf im September 2016 Thomas Froese Vorsitzender des Fachausschusses 7.24 „Big Data“ der VDI/VDE-Gesellschaft Mess- und Automatisierungstechnik (VDI/VDE-GMA) www.vdi.de Autoren aquatune, Dr. Jörg Gebhardt atlan-tec Systems GmbH, Thomas Froese atlan-tec Systems GmbH, Andreas Krüger Clariant, Dr. Jörg Appel Dr. Benner Prozessoptimierung, Dr. Raphael Benner McKinsey&Company Inc., Markus Hammer MPDV Mikrolab GmbH, Alexandra Altermann SKZ, Thomas Hochrein SKZ, Christoph Kugler TÜV Rheinland Consulting, Dr. Phillip Jatzkowski Institut für Textiltechnik der RWTH Aachen University, Dr. Yves-Simon Gloy Institut für Textiltechnik der RWTH Aachen University, Marco Saggiomo BASF SE, Dr. Rolf Roth BASF SE, Dr. Inga Elixmann Hochschule Osnabrück, Prof. Dr.-Ing. Heiko Tapken Pragmasol, Wolfgang Weber Universität Kassel, Priv.-Doz. Dr. Martin Atzmüller Fraunhofer SCAI, Prof. Dr. Jochen Garcke Fraunhofer IGCV, Julia Pielmeier Siemens AG, Roland Rosen RWTH Aachen Universität, Hasan Tercan www.vdi.de Big Data – Best Practice 3 Inhalt Vorwort Autoren 1 Zweck und Anwendungsbereich 2 Glossar 3 Angewandte Methodik 3.1 Define 3.2 Measure 3.3 Analyze 3.4 Improve 3.5 Control 4 Spezielle Gesichtspunkte zum Punkt „Define“ 4.1 Abschätzung von Potenzialen 4.2 Anmerkungen zur Strukturierung von Prozessvariablen 4.3 Anmerkungen zu Zielen eines Optimierungsprojekts 5 Besondere Gesichtspunkte zum Punkt „Measure“ 5.1 Binäre (Gut/Schlecht) Bewertungen oder nicht diskrete Messwerte 5.2 Qualität von Analysen und Bewertungen/Prüferüberein-stimmung 5.3 Probenahmezeitpunkte 5.4 Produktverfolgung 5.5 Besondere Fahrweisen oder Rohstoffwechsel 5.6 Änderung von Komponenten des Prozesses 6 Vorgehen beim Punkt „Analyze/Standard workflow“ 6.1 Datenintegration aus verschiedenen Datenquellen 6.2 Entfernen zeitlicher Abhängigkeiten 6.3 Datenkonditionierung 6.4 Plausibilitätsfilter 6.5 Redundanzfilter 6.6 Analyse- und Modellierungsverfahren 7 Nutzung von Modellen/Improve-Schritt 7.1 Prozessanalyse 7.2 Datenvalidierung und Condition-Monitoring 7.3 Softsensoren 7.4 What-if-Modelle und OSS 7.5 Online-Optimierer 8 Bewertung von Lösungen/Control-Schritt 9 Zusammenfassung Literatur 1 2 4 4 7 7 7 8 8 8 9 9 11 11 12 12 12 13 13 13 13 14 15 15 18 18 19 19 32 32 32 33 33 33 34 35 36 www.vdi.de 4 Big Data – Best Practice 1 Zweck und Anwendungsbereich Dieser Statusreport beschreibt als Best Practice die Voraussetzungen und Abläufe (Workflow) zur systematischen Analyse großer Datenmengen aus der produzierenden Industrie. Ein großer Teil dieser Daten stammt aus technischen Produktionsverfahren, sodass die Datenwerte als Zeitreihen mit Zeit- und Datumsstempel bereitstehen. Die Datenanalyse – ein Teil der hier beschriebenen Verfahren wird auch als Data Mining bezeichnet – dient der Erzeugung von Modellen, die zur Analyse der betrachteten technischen Produktionsprozesse und deren Verbesserung und Optimierung genutzt werden. Der Bericht stützt sich auf Verfahren, die ihre Wirksamkeit bereits in der großtechnischen/industriellen Anwendung bewiesen haben. Deren Zweck liegt im Schwerpunkt auf der Optimierung von Ausbeuten, des Energieeinsatz, der Qualität und Wirtschaftlichkeit der industriellen Produktionsprozesse. Nach Erläuterung wichtiger Begriffe (Kapitel 2) wird im Kapitel 3 die im Bericht angewandte DMAICMethode vorgestellt. Diese Methode besteht aus fünf Schritten; spezielle Gesichtspunkte bei Big-DataProjekten zu jedem Schritt finden sich in Kapitel 4 bis Kapitel 8. Der Statusreport schließt mit einer kurzen Zusammenfassung. 2 Glossar Advanced Analytics Big Data Data Analytics, bei der Prognosen stärker im Vordergrund stehen als die Analyse der Istsituation bzw. Vergangenheit umfangreiche und/oder komplexe Daten und Methoden zur ihrer Verarbeitung, Analyse und Auswertung Anmerkung: Beinhaltet eine Erweiterung der Methoden zu Data Analytics. Advanced Process Control (APC) alle Methoden zur Regelung eines Prozesses, die über klassische Regelverfahren hinausgehen Anmerkung 1: Big-Data-Methoden sind eine zusätzliche Möglichkeit, um APC umzusetzen. Anmerkung 2: ein überlagertes Regelungsverfahren, das unter Einsatz mathematischer Verfahren ein komplexes, regelungstechnisches Problem löst Anmerkung 1: Die Daten werden durch Umfang (Volume), Unterschiedlichkeit (Variety) und ihre Schnelllebigkeit (Velocity) charakterisiert. Insbesondere bei industriellen Anwendungen sind die Qualität der Daten (Validity) und der unternehmerische Mehrwert (Value) relevant. Anmerkung 2: Ziel von Big Data ist es, verbesserte Entscheidungsgrundlagen zu schaffen, die auf ökonomische, ökologische und technische Produkt- und Produktionsverbesserungen abzielen. Anmerkung 3: Benachbart zu Big Data sind bezüglich der generellen Zielsetzung und technischen Ansätze Begriffe wie Business Intelligence, Data Analytics, Advanced Analytics, Data Mining, Smart Data und Data Warehouse Systeme. Batchprozesse diskontinuierliches Produktionsverfahren zur Herstellung von abgegrenzten Stoffmengen in einem Behälter Anmerkung 1: Bei der Batchproduktion wird eine begrenzte Materialmenge als Ganzes verarbeitet. Anmerkung 2: Ein Chargenprozess kann mehrere gleichartige Batchprozesse umfassen oder sich aus der Kombination verschiedener Batchprozesse und/oder kontinuierlicher Prozesse zusammensetzen. www.vdi.de Black-Box-Modell Bei einem Black-Box-Modell wird nur das äußere Verhalten betrachtet, das heißt die Eingaben werden systematisch geändert und die Ausgaben des Modells werden beobachtet und in Beziehung gesetzt. Anmerkung 1: Vergleiche Grey-Box-Modell und White-Box-Modell. Big Data – Best Practice Anmerkung 2: Sie werden häufig ohne Vorwissen aus Daten generiert (siehe datengetriebenes Modell). Anmerkung 3: Der innere Aufbau und die Funktionsweise sind entweder unbekannt oder werden nicht betrachtet. Grey-Box-Modell 5 Data Analytics das Erkennen, Interpretieren und Kommunizieren von Zusammenhängen und Abhängigkeiten in Daten unter Anwendung von Mathematik, Statistik und computergestützten Berechnungen Anmerkung: Eine wichtige Rolle spielt häufig die grafische Darstellung der Daten bzw. der Berechnungsergebnisse aus Auswerteverfahren. Mischform zwischen Black-Box-Modell und WhiteBox-Modell, wobei Teile des Modells bekannt sind Anmerkung: Vergleiche Black-Box-Modell und White-Box-Modell. White-Box-Modell Data Lake Sammlung aller Daten in ihrer unveränderten Form in einem Datenbestand, um diese für Analysen nutzen zu können Bei einem White-Box-Modell ist das verwendete Modell bekannt. Anmerkung: Alle Daten werden gesammelt und zusammengeführt, auch wenn noch nicht ersichtlich ist, ob und wie sie verwendet werden können. Anmerkung 1: Vergleiche Black-Box-Modell und Grey-Box-Modell. Data Mining Anmerkung 2: Meist handelt es sich um eine explizite Formulierung naturwissenschaftlich bekannter und/oder informationstechnischer Zusammenhänge zwischen Eingangs- und Ausgangsgrößen des Modells. der gesamte Prozess der Wissensentdeckung in großen Datenbeständen, in dem Zusammenhänge zu bestimmten Zwecken erkannt werden Anmerkung: Hierzu werden Techniken aus der Datenverarbeitung, Mustererkennung, der Statistik und dem maschinellen Lernen verwendet. Business Intelligence eine betriebliche Entscheidungsunterstützung durch einen integrierten, auf das Unternehmen bezogenen IT-basierten Gesamtansatz mit dem Ziel, Erkenntnisse für und über betriebliche Abläufe zu gewinnen und daraus verlässliche Entscheidungsfindungen zu ermöglichen Anmerkung: Zu diesem Zweck umfasst Business Intelligence Konzepte, Methoden und IT-Systeme zur Erfassung und Analyse geschäftsrelevanter Informationen. Metriken werden zur Messung des Geschäftserfolgs eingesetzt. Condition Based Maintenance Instandhaltung, die empfohlen oder ausgelöst wird, wenn sie durch die Änderung von Zustandsindikatoren als wahrscheinlich notwendig angesehen wird Anmerkung: Häufig werden dynamische und probabilistische Methoden zur Realisierung von condition based maintenance eingesetzt. Data Warehouse eine zentrale Datenbasis, um verschiedenen Anwendern Informationen zielgerichtet bereitzustellen Anmerkung: Ein Data Warehouse liest Daten aus heterogenen, operativen Systemen und wird separat von diesen betrieben. Die Informationen in einem Data Warehouse sind bereits verdichtet und werden anwendungsgerecht aufbereitet. Datengetriebenes Modell Win-Modelltyp, bei dem der funktionale Zusammenhang durch Datensätze erzeugt wird Anmerkung: Kann ohne spezifische Wissen über das zugrunde liegende System als Black-Box-Modell betrieben werden. Fertigungstechnik alle Verfahren zur Herstellung von Werkstücken Anmerkung: Ein Teilgebiet der Produktionstechnik. Zentraler Schwerpunkt der Fertigungstechnik sind www.vdi.de 6 Big Data – Best Practice Fertigungsverfahren, die nach DIN 8580 in die sechs Hauptgruppen „Urformen“, „Umformen“, „Trennen“, „Fügen“, „Beschichten“ und „Stoffeigenschaften ändern“ unterteilt werden. Key Performance Indicator (KPI) eine betriebswirtschaftlich relevante Kennzahl, anhand derer der Grad der Erfüllung wichtiger Zielsetzungen gemessen werden kann Anmerkung: KPIs dienen zur Dokumentation wichtiger Sachverhalte und Zusammenhänge, zur Kontrolle und als Basis von Entscheidungen. Optimierung alle methodischen Vorgänge, um unter bekannten Randbedingungen einem vorab definierten Ziel möglichst nahe zu kommen Produktionstechnik alle Verfahren zur Herstellung von Gütern Anmerkung 1: Verbunden mit den Verfahren sind die notwendigen Einrichtungen zur Produktion. Anmerkung 2: Die Fertigungstechnik und die Verfahrenstechnik sind wichtige Teilgebiete der Produktionstechnik. Künstliches neuronales Netz setzt sich wie das biologische Vorbild aus mehreren informationsverarbeitenden Einheiten, sogenannten Neuronen, zusammen Anmerkung 1: Typischerweise werden die Neuronen (Input-, Hidden-, Outputneuronen) in Schichten geordnet. Die Verbindungen der Schichten werden als Gewichte bezeichnet. Durch die Anpassung der Gewichte werden neuronale Netze optimiert. Anmerkung 2: kann zur Verarbeitung großer Datenmengen genutzt werden Anmerkung 3: kann stetige, beschränkt funktionale Zusammenhänge approximieren Messwert quantitativer Wert einer Messgröße, der von einem Sensor erhoben wird die technische Umsetzung eines Verfahrens Anmerkung 1: Prozesse werden hier im Kontext der Produktionstechnik gesehen. Anmerkung 2: DIN IEC 60050-351 definiert Prozess als Gesamtheit von aufeinander einwirkenden Vorgängen in einem System, durch die Materie, Energie oder Information umgeformt, transportiert oder gespeichert wird. Anmerkung 3: DIN IEC 60050-351 definiert technischer Prozess als Gesamtheit der Vorgänge in einer technischen Anlage. Prozessführung übergeordnete, geplante und kontrollierte Lenkung eines technischen Prozesses Modell Anmerkung: Meist werden Führungsgrößen bestimmt, die über Prozesssteuerung umgesetzt werden. eine vereinfachende, auf ein bestimmtes Ziel ausgerichtete Darstellung der Merkmale, der Funktion oder des Verhaltens eines Betrachtungsgegenstands (Komponente, Produkt, System, Produktionssystem, Infrastruktur oder Prozess) Prozessregelung Neuronales Modell Anmerkung 1: Meist wird eine Prozessregelung durch die Komponenten Sensor, Regler, Aktor realisiert. Anwendung spezifischer neuronaler Netze zur Modellierung www.vdi.de Prozess geplantes und kontrolliertes Betreiben eines technischen Prozesses durch eine technische Vorrichtung Anmerkung 2: Der Begriff Prozessregelung wird meist bei prozessnahen Realisierungen verwendet, in Abgrenzung zu Produktionsplanungen und Prozessführung. Big Data – Best Practice Prozesswert quantitativer oder qualitativer Wert, der von einem technischen Prozess in der Automatisierung zur Verfügung gestellt wird Anmerkung 1: Ein Messwert ist ein Prozesswert. Anmerkung 2: Häufig werden in der Regelungstechnik die in eine Regelung eingehenden Ist-Werte als Prozesswerte bezeichnet. Smart Data 7 (Qualität), Vizualization (neuartige Datenpräsentation), Vision und Virality (Fähigkeit von Daten, sich über Netzwerke zu verteilen) betrachtet. Softsensor Algorithmus zur Berechnung eines virtuellen Prozesswerts auf Basis von verfügbaren Prozesswerten und einem Modell Anmerkung: Der Begriff Softsensor – auch virtueller Sensor genannt – setzt sich aus den Worten „Software“ und „Sensor“ zusammen. durch Kontextinformationen angereicherte Daten Anmerkung 1: Betont den Wert des Inhalts von Daten, was durch eine geschickte Kombination der Daten mit Produkt-, Anwendungs- und Analysewissen erreicht wird. Anmerkung 2: Oftmals werden neben Volume, Variety und Velocity auch Eigenschaften wie Viscosity (Verarbeitbarkeit), Value (Generierung eines Mehrwerts), Veracity (Glaubwürdigkeit), Verification Verfahrenstechnik alle Verfahren zur Be- und Verarbeitung von Stoffen Anmerkung: Die wichtigsten Verfahren in der Verfahrenstechnik werden in Form von kontinuierlichen und diskontinuierlichen – auch als Chargen- oder Batchprozess bezeichnet – Prozessen umgesetzt. 3 Angewandte Methodik In diesem Statusreport wird die aus Six Sigma bekannte DMAIC-Methodik verwendet, um Big-DataProjekte und die zu deren erfolgreichen Abwicklung notwendigen Voraussetzungen und Einzelschritte durchzuführen und den Erfolg zu bewerten. Dieses Dokument orientiert sich in seiner Grundstruktur an dem DMAIC-Ablauf. Neben diesem methodischen Ansatz sind auch andere Ansätze (z. B. CRISP-DM) anwendbar. Der DMAIC-Ablauf ist auch mit der klassischen PDCA(Plan Do Check Act)-Logik üblicher Normen (DIN/ISO) kompatibel (z. B. ISO 13053-1 und-2). Weiterer Vorteil ist die internationale Verbreitung der Methodik. ten Kundenanforderungen ermittelt. Es entstehen erste Hypothesen über die in den Daten vermuteten Zusammenhänge. Das Projekt wird strukturiert und führt zu einer Modellbildung. Es ist sachdienlich, System bzw. Bilanzgrenzung zu definieren. 3.2 Measure Abweichend oder erweiternd zu der klassischen SixSigma-Methodik haben die Schritte folgende Bedeutung. Der zweite Schritt „Measure“ kann bei technischen Projekten sehr aufwendig sein, da es hier von großer Bedeutung ist, sich über Kausalitäten und Messgenauigkeiten Gedanken zu machen. Es wird zwischen Projekten unterschieden, die eine Erhebung aktueller Daten erfordern und Projekten, bei denen existierende Daten (historische Daten) in ausreichender Menge und Qualität für eine Modellierung vorhanden sind. 3.1 3.2.1 Define Der Define-Schritt erfolgt in Übereinstimmung mit klassischen Six-Sigma-Projekten. Projektziele werden definiert, Prozesse grob dargestellt und die wichtigs- Projekte mit Datenerhebung Eine Datenerhebung wird in der Regel immer dann notwendig sein, wenn sich Haupteinflussfaktoren (Hebelfaktoren, manipulierbare Variablen) und Rand- www.vdi.de 8 Big Data – Best Practice bedingungen – die sogenannten verbundenen Bedingungen – von Prozessen häufig ändern, Einfluss auf das Prozessergebnis haben und nicht standardisiert aufgezeichnet werden. Randbedingungen können kategoriale Schichtungsvariablen wie Materialchargen, Anlagenbezeichnung und Produktvarianten sein und/oder stetige Störgrößen (Kovariate) wie unter Kapitel 4.2 beschrieben. Hier ist neben der Auswahl der betrachteten Variablen die Untersuchung der verwendeten Messsysteme von entscheidender Bedeutung. Der Hauptvorteil einer Datenerhebung liegt in der Möglichkeit, gezielt die Variablen auszuwählen, die zur Beantwortung der Projekt-Fragestellung geeignet erscheinen. Häufigstes Beispiel sind Projekte, bei denen mithilfe der klassischen statistischen Versuchsplanung gezielte Eingriffe innerhalb eines Prozesses gemacht werden, um die Antwort des Systems zu studieren. Darauf kann z. B. in Entwicklungsprojekten nicht verzichtet werden. Für die Feststellung der Vollständigkeit der Datenerhebung gibt es keine geschlossene Methodik. Bewährte Methoden zur Prüfung der Vollständigkeit sind der Einsatz eines datengetriebenen Modells (z. B. Softsensor) oder ein heuristischer Ansatz. 3.2.2 Projekte mit historischen Daten Je automatisierter Produktions- oder Dienstleistungsprozesse ablaufen, umso mehr Daten können standardisiert erhoben. Die zugrunde liegenden Prozesse werden über Leitsysteme gesteuert und erlauben keinen oder nur sehr eingeschränkten manuellen Eingriff, lassen also die klassische Methodik der statistischen Versuchsplanung oft gar nicht zu. Der Aufwand, historische Daten zu sogenannten charakteristischen Datensätzen aufzubereiten, die die jeweiligen Betriebszustände repräsentieren, sollte nicht unterschätzt werden. Es existieren bereits moderne mathematische Verfahren, um große Datenmengen aufzubereiten und zu bereinigen. Die Daten sollten eine hinreichende Anzahl unterschiedlicher Prozesszustände repräsentieren. Die notwendige Anzahl der unterschiedlichen Zustände hängt von der Nichtlinearität des Modells, der Anzahl der Parameter sowie der Anzahl der interessierenden Antwortgrößen ab. Eine mathematische Vollständigkeit ist in der Praxis in der Regel nicht erreichbar und nicht notwendig. Ein pragmatischer Ansatz ist die Validierbarkeit der Modelle am Prozess. www.vdi.de 3.3 Analyze Während in klassischen Six-Sigma-Projekten einfache Statistik wie allgemeines lineares Modell oder Regressionsverfahren einsetzt wird, werden bei Big Data über diese Verfahren hinaus sehr komplexe mathematische Algorithmen und Verfahren verwendet (z. B. neuronale Netze), um aus aufbereiteten Daten Modelle oder Aussagen zu extrahieren. Es wird ein neuer Workflow eingeführt, der die notwendigen Arbeitsschritte systematisiert und strukturiert. 3.4 Improve Gegenüber den klassischen Methoden des Six Sigma, wie Kreativitätstechniken, systematische Auswahlmethoden (Pugh Matrix, Wertanalyse etc.) sowie statistische Versuchsplanung/Regression, bieten neue mathematische Methoden weitere Möglichkeiten. Sofern aus der Big-Data-Analyse valide Modelle erstellt werden, können diese als Softsensoren oder Modelle für APC-Methoden genutzt werden. Dadurch wird der klassische Six-Sigma-Werkzeugkasten um moderne Prognose- und Analysemethoden erweitert, die hauptsächlich in der Prozessindustrie angewendet werden. Die zuvor genannten klassischen Six-Sigma-Statistikmethoden haben sich in der Prozessindustrie als nicht ausreichend herausgestellt. 3.5 Control Im Schritt Control werden die durchgeführten Maßnahmen in Übereinstimmung mit der Six-SigmaMethode geprüft und ökonomisch bewertet. Darüber hinaus findet ein Wissenstransfer innerhalb der Organisation statt. Der Schritt Control erfordert eine Änderung im Performance-Management-System. Die Beurteilung des Systems erfolgt immer im objektiven Vergleich zu den vorher definierten Projektzielen, wobei finanzielle Kennzahlen im Vordergrund stehen. Die Fahrweise, Verantwortlichkeiten und auch regelmäßiger Reviews sind in einer Weise zu planen, dass der Erfolg nicht nur objektiv wirtschaftlich gemessen werden kann, sondern auch dauerhaft erhalten bleibt. Big Data – Best Practice 9 4 Spezielle Gesichtspunkte zum Punkt „Define“ 4.1 Abschätzung von Potenzialen Die wichtigste Frage zu Beginn eines Big-DataProjekts ist die Abschätzung des ökonomischen Potenzials. Diese Frage ist ein Paradigma und wird grundsätzlich bei allen Six-Sigma-Projekten gestellt. Ein Big-Data-Projekt kann daher grundsätzlich als Six-Sigma-Projekt durchgeführt werden und ist ökonomisch immer dann sinnvoll, wenn die folgenden Bedingungen erfüllt sind: n n n Die Produktionskosten eines Produkts (z. B. pro Stück oder pro Tonne) schwanken erheblich, es wird zeitweise nicht oder nicht spezifikationsgerecht produziert oder es müssen Produkte oder Produktmengen mehrfach bearbeitet werden. Als sehr nützlich hat sich die Reduktion des Problems auf den Ansatz der Messung der Profitabilität pro Stunde erwiesen, auf das sich jedes Problem letztlich reduzieren lässt. Es gibt keine bekannten exakten funktionalen Zusammenhänge, die diese Schwankungen kausal begründen und Gegenmaßnahmen erlauben. Es sind hinreichend genaue Daten aus der Produktion vorhanden oder können verfügbar gemacht werden, die eine statistische Analyse der Zusammenhänge erlauben. Das Potenzial kann bei Erfüllung dieser Voraussetzungen ermittelt werden, indem die Differenz zwischen dem unerwünschten Zustand und dem Idealzustand berechnet wird und auf einen Referenzzeitraum von einem Jahr bezogen wird. Ein sehr gut geeigneter Denkansatz ist die Methode des theoretischen Limits, bei der das Potenzial des Prozesses durch Vergleich mit dem theoretisch möglichen Limit der optimalen Fahrweise verglichen wird. Dieses Potenzial kann mit einem idealen stationären Prozessmodell, also mit Big-Data-Methoden, zum größten Teil gehoben werden. Wird das Big Data Projekt nach der Six-Sigma-Methodik durchgeführt werden die Ursachen von Streuungen der KPI in Prozessen analysiert und behoben bzw. wenigstens verringert. Im Wesentlichen steht bei der Potenzialanalyse eine einfache Methode im Vordergrund: die Messung und der Vergleich der Effizienz und damit die Kosten übereinen längeren Produktionszeitraum. Optimal ist die Analyse der Daten eines Jahres. Zeigen sich in diesem Zeitraum größere Variationen, ist die Spannweite der Variationen ein Maß für das Potenzial des Prozesses. Als Faustregel kann festgehalten werden, dass ein optimales Big-Data-Projekt immer mindestens die Variationsbreite einer KPI um eine Zehnerpotenz verringert. An den folgenden zwei Beispielen soll veranschaulicht werden, wie eine solche Vorgehensweise aussehen kann. 4.1.1 Potenzialanalyse bei Fertigung und Stückgutprozessen Stückgutprozesse haben den Vorteil, dass sich die Fertigungskosten für jedes gefertigte, spezifikationsgerechte Stück genau berechnen lassen. Solche Kosten können als KPI berechnet werden und sind die Summe der Kosten der zugeführten Energie (E) und der Kosten der zugeführten Roh- und Betriebsstoffe (KR) pro gefertigtem Stück des Produkts. Erweitert werden kann dieses Konzept über die Einbeziehung der Marge, auch wenn die von der Qualität und der Menge/den Stückzahlen abhängen kann, sodass der KPI letztlich die Profitabilität beschreibt. Obwohl dieser Ansatz aufwendiger ist, bildet er doch die ökonomischen Ziele eines Unternehmens genauer ab und ist damit häufig zielführender. Die Standardabweichung dieser KPI ist ein Maß für das Potenzial einer Optimierung. 4.1.2 Potenzialanalyse bei Batchprozessen Batchprozesse haben den Vorteil, dass hier pro Batch leicht gemessen werden kann, welche Kosten für die hergestellte Menge auftreten. Diese Kosten können einfach durch die hergestellte Menge des spezifikationsgerechten Produkts geteilt werden. Sind die Rohstoff- und die Energiekosten gering, der Batchprozess aber sehr groß oder die Batchlaufzeiten sind lang (mehrere Stunden), lohnt sich ein Vergleich der Batchlaufzeiten. www.vdi.de 10 Big Data – Best Practice Bild 1. Laufzeit vor Batchoptimierung Beispiel: Bild 1 zeigt die Laufzeiten eines Batchprozesses eines Polymerherstellers vor einem Optimierungsprojekt. Die Batchlaufzeiten eines Reaktors schwanken zwischen fünf und acht Stunden. Bei genauerer Nachfrage im Betrieb stellte sich heraus, dass es Qualitätsprobleme gab, die durch Zudosierungen vom Betrieb korrigiert wurden. Letztlich steht dahinter die Tatsache, dass der Prozess nicht unter Kontrolle ist und der Betreiber mit Versuch und Irrtum den Prozess korrigiert. Die richtigen Fragestellungen an das Optimierungsprojekt wären hier: Warum braucht der Betrieb nicht immer nur fünf Stunden? Welche Parameter müssen wie beeinflusst werden, damit der Betrieb immer nur fünf Stunden braucht? Das ökonomische Potenzial ist hier leicht berechenbar: Geht man davon aus, dass die Variation von 3 h auf 20 min reduziert werden kann, was etwa einer Größenordnung entspricht, könnte derselbe Betrieb mit diesem Reaktor 20 % mehr produzieren! Die durchschnittliche Laufzeit der Batches wird um ca. 20 % reduziert, wodurch die Anlage um 20 % produktiver betrieben werden kann. Noch einfacher ist die Situation bei Fehlchargen oder bei der Wiederaufarbeitung von Chargen. Dabei ist einfach nur die Quote der Fehlchargen zu berechnen und die Frage zu stellen, wodurch diese zustande kommen. www.vdi.de Das Potenzial ergibt sich aus der Annahme, dass man durch ein optimales Konzept die Anzahl der Fehlchargen um eine Zehnerpotenz verringert. 4.1.3 Potenzialanalyse bei kontinuierlichen Prozessen Bei kontinuierlichen Prozessen kann ebenfalls mit einer Wertstromanalyse gearbeitet werden. Es werden einfach alle Kostenströme und alle Nutzenströme gebündelt, sodass sich wieder eine KPI ergibt, die meist die Einheit Euro/t (Kosten zur Herstellung einer Tonne spezifikationsgerechten Produkts) hat. Zeigt dieser KPI starke Schwankungen ist die zielführende Frage, woher diese Schwankungen kommen und warum der Prozess nicht immer zu dem geringsten Preis produziert wird. Beispiel: Trägt man 15-Minuten-Mittelwerte dieser Kostenfunktion über ein gesamtes Betriebsjahr auf, ergeben sich nicht selten Kostenfunktionen wie in Bild 2. Hier sieht man, wie die Herstellungskosten eines Produkts zwischen 9.250 Euro pro Tonne und 9.500 Euro pro Tonne schwanken. Kann man nun noch jahreszeitliche Einflüsse (z. B. Außentemperatur) ausschließen oder herausrechnen, ergibt sich hier pro Tonne ein Einsparpotenzial von ca. 150 Euro. Auch bei diesen Projekten kann pauschal angenommen werden, dass die Menge der Out-of-Spec-Produktion um eine Zehnerpotenz verringert werden kann. Big Data – Best Practice 11 Bild 2. Stündliche Kosten über ein Betriebsjahr 4.2 Anmerkungen zur Strukturierung von Prozessvariablen Prozessvariablen sind alle Messwerte, Analysen oder aus diesen berechneten KPI, die in einer Big-DataAnalyse verwendet werden. Diese können in drei Gruppen unterteilt werden: n Störgrößen n manipulierbare Variablen n Zielgrößen Störgrößen sind definiert als Messwerte, die sich aus dem Prozessverlauf, aus Eigenschaften von Rohstoffen (Edukten) oder aus Umweltbedingungen der Prozessumgebung ergeben. Diese Größen sind nicht beeinflussbar, beeinflussen aber ihrerseits den Prozess. Manipulierbare Variablen sind Größen, die vom Prozessbetreiber direkt beeinflusst werden können. Das können z. B. Geschwindigkeiten von Anlagen, Rezepturparameter, Temperaturen hinter Wärmetauschern oder Mengenströme sein. Diese Beeinflussung sollte derart geschehen, dass der Prozess und dessen Produkte sich an einem betriebswirtschaftlichen Optimum befinden. Zielgrößen sind Variablen, die die Zielerreichung einer Produktion numerisch und messbar beschreiben. Das können Qualitätsgrößen, Produktionskosten oder Ausschussmengen sein. Durch Big-Data-Analysen kann aus Produktionsdaten heraus der Zusammenhang zwischen Störgrößen, manipulierbaren Variablen und Zielgrößen analysiert und in einem Modell verfügbar und damit für eine gezielte Optimierung nutzbar gemacht werden. Die Aufgabe eines Big-Data-Projekts in technischen Anwendungen besteht demnach darin, einen funktionalen Zusammenhang zwischen manipulierbaren Variablen und Störgrößen auf der einen Seite und Zielgrößen auf der anderen Seite zu finden. 4.3 Anmerkungen zu Zielen eines Optimierungsprojekts Die typischen Ziele eines Six Sigma und damit eines Big-Data-Projekts sind: n Reduzierung der Kosten, meist relative Herstellungskosten des Produkts n Verbesserung der Qualität des Produkts n Maximierung der erzeugten Produktmenge Nebenziele, wie die Reduzierung der Umweltbelastung, werden in der Darstellung vereinfacht und in die relativen Herstellungskosten eingerechnet. Diese drei Ziele sind bei typischen technischen Anwendungen nicht vollständig gleichzeitig erreichbar, sondern schließen sich gegenseitig teilweise aus. Diese Tatsache findet in Zielfunktionen und Schranken ihren Ausdruck, die möglichst beim Projektbeginn zu definieren sind. www.vdi.de 12 Big Data – Best Practice 5 Besondere Gesichtspunkte zum Punkt „Measure“ Big-Data-Methoden in technischen Prozessen weichen in einigen entscheidenden Punkten von typischen statistischen Analysen ab: n Es existieren oft große Datenmengen, verteilt in verschiedenen Systemen. n Die Daten sind nicht ideal, also nicht aus Laborbedingungen entstanden, sondern aus dem Produktionsalltag. n Versuche an Produktionsanlagen sind oft nicht oder nur in geringem Umfang möglich. n Messungen sind teilweise nicht von hoher Genauigkeit. n Wichtige Daten fehlen oder sind fehlerhaft aufgezeichnet, da den Akteuren das Bewusstsein fehlt, welche Bedeutung diese Daten haben können. n Erfasste Daten sind weder temporal noch kausal zuordenbar. n Bestimmte Sonderzustände in Prozessen sind oft nicht (hinreichend) dokumentiert. n Die Zeitstempel fehlen, sind fehlerhaft oder kommen aus mehreren Systemen und unterscheiden sich, sodass eine exakte Zuordnung von Teilen zu Prozesszuständen im Rückblick nicht mehr möglich ist. Big-Data-Methoden sind nur dann erfolgreich, wenn die zugrunde liegenden Daten hinreichend genau sind. Diese Genauigkeit ist in jedem Falle sicherzustellen. Die folgenden Kapitel geben Anhaltspunkte für häufige Ursachen fehlerhafter Daten. 5.1 Binäre (Gut/Schlecht) Bewertungen oder nicht diskrete Messwerte Häufig kommt es vor, dass die Bewertung von Qualität nur zwischen zwei Klassen unterscheidet, also z. B. „außerhalb der Spezifikation“ und „innerhalb der Spezifikation“. Diese Methodik ist für Big-DataAnalysen nicht verwendbar, es sei denn, die Anzahl der Datensätze aus solchen Prüfungen ist sehr hoch. Kontinuierliche Messwerte sind erheblich besser verwendbar und sollten die einfachen binären Bewertungen unbedingt ersetzen. www.vdi.de Beispiel: Bei einem Kunststoffteil wird die Bruchfestigkeit geprüft. Dazu kann getestet werden, ob das Bauteil bei Anwendung einer bestimmten Kraft bricht oder bei welcher Kraft es bricht. Die zweite Variante ist für Big-Data-Analysen verwendbar, die erste Variante meist nicht. Analoge Messwerte enthalten mehr Informationen und sind binären Messwerten immer vorzuziehen. Während analoge Messwerte genutzt werden können, um Funktionen zu berechnen, erlauben binäre Werte bestenfalls die Berechnung von Wahrscheinlichkeitsfunktionen. Wahrscheinlichkeitsfunktionen benötigen zur Berechnung einen deutlich höheren Stichprobenumfang und erlauben nur statistische Aussagen über Wahrscheinlichkeiten, während Funktionen die Berechnung eines Ergebnisses mit einer definierten Streuung erlauben. 5.2 Qualität von Analysen und Bewertungen/Prüferübereinstimmung Neben automatisch aufgezeichneten Daten gibt es in der Produktion viele Daten, die manuell erfasst und eingegeben werden. Insbesondere bei Messmethoden, die stark von einem menschlichen Prüfer abhängen, ist eine erfolgreiche Datenanalyse fraglich. Grundsätzlich sollte von solchen subjektiven Messmethoden und Analysen immer Abstand genommen werden. Ein Ersatz solcher Methoden durch objektive und automatisierte Analyseverfahren ist immer anzustreben. Lässt sich eine manuelle Methode nicht vermeiden, muss mit Tests die Zuverlässigkeit der Prüfer genau untersucht werden. Letztlich ist statistisch die Frage zu klären, ob mehrere Prüfer in Blindtests auf identische Ergebnisse kommen und ob derselbe Prüfer wiederholbar zur gleichen Einschätzung kommt, wenn ihm eine Probe mehrmals vorgelegt wird. Dieser Test setzt natürlich voraus, dass die Proben sich zwischen den Messungen nicht verändern. Big Data – Best Practice 5.3 Probenahmezeitpunkte Ebenso wichtig ist die präzise Erfassung von Probenahmezeitpunkten. Proben werden häufig als regelmäßige Stichproben manuell entnommen. Die Probenahme folgt meist einem bestimmten Zeitregiment, also alle vier Stunden. Praktische Erfahrungen mit Probenahmen zeigen, dass die Probenahmezeitpunkte meist sehr unzuverlässig manuell erfasst werden, da den Probenehmern die Wichtigkeit des exakten Zeitpunkts der Probenahme nicht klar ist. Verpassen Mitarbeiter zudem einen Probenahmezeitpunkt, „holen sie die Probe nach“, was zu einer noch größeren Verfälschung des tatsächlichen Probenahmezeitpunkts führt. Eine Minimallösung besteht darin, den Probenahmezeitpunkt nicht genau vorzuschreiben, aber den Mitarbeitern klar zu machen, wie wichtig es ist, den exakten Zeitpunkt der Entnahme auf der Probe zu vermerken. Optimal ist es, wenn die Probenahmestelle mit einer elektronischen Erfassung des Probenahmezeitpunkts versehen wird. 5.4 Produktverfolgung Das Ziel eines Big-Data-Projekts besteht darin, kausale Analysen und Modellbildung aus Daten heraus durchzuführen. Diese Methodik setzt voraus, dass diese Kausalität auch in den Daten zu finden sein muss. Dazu müssen die Stützstellen der mutmaßlich kausalen Beziehungen in jeweils vollständigen Datensätzen enthalten sein. In typischen Produktionen und technischen Systemen dauern Verarbeitungsschritte oder Reaktionen immer eine bestimmte Zeit. Die Herstellung komplexer Produkte erfordert mehreren Verarbeitungsschritten, die alle unterschiedlich lange dauern. Um alle Ursachen und Wirkungen in einzelnen Datensätzen zusammen- 13 zufassen, ist es notwendig, eine effektive Produktverfolgung aufzubauen. Während dies bei Fertigungen noch einfach ist, da jedes gefertigte Teil eine Identität hat und verfolgt werden kann, ist dies bei Batchprozessen und kontinuierlichen Prozessen aufwendig, da eine Zuordnung von Ursachen und Wirkungen nicht einzelnen Stücken zugeordnet werden kann, sondern mithilfe von Modellannahmen berechnet werden muss. Bei der Vorbereitung eines Big-Data-Projektes ist es daher wichtig, dass alle Laufzeiten, Bearbeitungszeiten, Verweilzeiten, Füllstände und alle anderen Größen, die für die Produktverfolgung wichtig sind, ein Bestandteil der zu analysierenden Daten sein müssen. Lauf- und Verweilzeiten müssen gemessen und erfasst werden, falls keine Informationen vorhanden sind. 5.5 Besondere Fahrweisen oder Rohstoffwechsel Häufig kommt es in der Produktion zu Sonderfällen, wie Rohstoffwechsel, Störungen oder Produktwechsel. Diese Fälle sind präzise zu notieren, um bei der Datenanalyse erkennen zu können, was das normale Verhalten des Prozesses ist und welche Einflüsse durch solche Eingriffe oder Veränderungen zustande kommen. 5.6 Änderung von Komponenten des Prozesses Wird der Prozess technisch verändert, hat dies ebenfalls Einfluss auf die Datenanalyse. Der Tausch von Sensoren, Aktoren oder Maschinenteilen muss ebenfalls präzise dokumentiert werden, um Einflüsse auf den Prozess erkennen zu können. Gegebenenfalls sind Maßnahmen wie Rekalibrierungen in den Daten vorzunehmen, wenn z. B. Sensoren getauscht wurden. www.vdi.de 14 Big Data – Best Practice 6 Vorgehen beim Punkt „Analyze/Standard workflow“ Bild 3. Workflow Die Datenanalyse folgt einem Standardworkflow, der in Bild 3 abgebildet ist. www.vdi.de Big Data – Best Practice 6.1 Datenintegration aus verschiedenen Datenquellen In der Praxis liegen die Daten in unterschiedlichen Quellen vor, beispielsweise: n Laborinformations- und Managementsysteme (LIMS) n Enterprise Resource Planning-Systeme (ERP) n Manufactoring Execution Systeme (MES) n lokale Speicherung in Prozessleitsystemen oder Steuerungen (PLS, SPS, SCADA) n Betriebsdateninformationssysteme (BDIS) n kleinere Datensammlungen einzelner Bearbeiter in Office-Software n papierhafte Dokumente (z. B. Batch Reports in der Pharmaindustrie). Diese Daten müssen exportiert, in ein einheitliches geeignetes Format und eine geeignete Struktur übersetzt und zu einer einzigen Datenbasis kombiniert werden, um sie gemeinsam zu analysieren. Es wird empfohlen, die Daten mit äquidistanten zeitlichen Abständen und mit einheitlichen Zeitstempeln abzulegen und es – so weit möglich – zu vermeiden, dass unvollständige Zeilen in den Datensätzen enthalten sind. Optimal ist es, wenn zu jedem Zeitstempel für jede Variable ein Messwert vorhanden ist. Je nach Quellformat und Zielformat kann es erforderlich sein, bestimmte Fehler in den Daten zu bereinigen. Beispielsweise ist es möglich, in Tabellenkalkulationen Texte in Zellen einzutragen, die eigentlich Zahlenwerte aufnehmen sollten (also Einträge wie „nicht nachweisbar“ oder „NULL“ statt „0“). Wenn als Grundlage der Datenanalyse ein Datenbankformat ausgewählt wurde, ist das nicht möglich, und die betreffenden Texte müssen entweder in Zahlenwerte umgewandelt werden oder an anderer Stelle dokumentiert werden. Um die Information vollständig zu erhalten, muss der Export unveränderte Rohdaten umfassen, was insbesondere die Speicherung im Change-Driven-Verfahren ausschließt oder stark einschränkt (Verzicht auf Interpolation). Bei Einsatz solcher Verfahren zur Datenverdichtung muss der Informationsverlust zumindest durch vernünftige Konfiguration so weit eingeschränkt werden, dass wichtige Informationen für die Datenanalyse oder Modellierung nicht verloren gehen. 15 der Messungen, anhand derer die Daten dann mit Daten aus anderen Quellen kombiniert werden können. Am Ende steht eine Datenbasis zur Verfügung, in der jedes gemessene Merkmal eine Spalte in einer Tabelle darstellt. Weitere Spalten bezeichnen Zeitpunkt, Stückzuordnung und Batchzuordnung (soweit relevant). Jede Zeile ist einem Zeitstempel (Stück, Batch etc.) eindeutig zugeordnet. 6.2 Entfernen zeitlicher Abhängigkeiten Um Korrelationen zwischen Variablen zu untersuchen, müssen die Datensätze so umgewandelt werden, dass Eingangsgrößen (Ursachen) und Ausgangsgrößen (Wirkungen) in einzelnen Datensätzen zusammengefasst sind. Das bedeutet, nicht mehr der Zeitpunkt der Messung wird mit dem Zeitstempel angegeben sondern der Zeitpunkt der Messung oder Analyse der Ausgangsgröße(n). Die Eingangsgrößen sind dann aus Zeitreihen der Vergangenheit berechnete Werte, die sich aus der Produktverfolgung ergeben. Nach Entfernung der zeitlichen Abhängigkeiten stehen sich in jedem Datensatz die kausalen Messgrößen und die Auswirkungen in einzelnen Datensätzen gegenüber und können zur Analyse und Modellierung verwendet werden. 6.2.1 Fertigung von Stückgut Die Rohdaten werden bei Stückgutprozessen und Fertigungsprozessen mithilfe einer Produktverfolgung einander kausal richtig zugeordnet. Einzelne Produkte werden also durch den Prozess hindurch verfolgt und es wird exakt registriert, welche Rohstoffe (Chargen) ihnen zugrunde liegen und welche gemessenen Bedingungen in den einzelnen Bearbeitungsschritten gemessen wurden, als das jeweilige betrachtete Stückgut gefertigt wurde. Jeder Datensatz der fertigen, kausalrichtig konvertierten Datenbank beschreibt demnach ein beprobtes, gefertigtes Teil oder Stück und ist durch eine Seriennummer oder ein ähnliches Merkmal eindeutig gekennzeichnet. Datensätze mit gleicher Seriennummer sind zusammengehörig und werden in einer Zeile der zu untersuchenden Tabelle zusammengefasst. Um die Daten nachträglich prüfen zu können, empfiehlt sich für diese Datensätze die Übernahme des Zeitstempels, zu dem die letzte Beprobung durchgeführt wurde. Wichtig ist neben der genauen Bezeichnung jeder gemessenen Größe auch der Export der exakten Stückzuordnung, Batchzuordnung und Zeitstempel www.vdi.de 16 Big Data – Best Practice Wenn für ein einzelnes Merkmal mehrere Messwerte pro Seriennummer vorliegen, beispielsweise eine Zeitreihe, müssen diese durch ein geeignetes Verfahren zur Produktverfolgung zusammengefasst werden, im einfachsten Fall durch Bildung eines Mittelwerts oder Berechnung des Maximalwerts, Minimalwerts oder der Schwankungsbreite. Diese Transformation muss so erfolgen, dass die wesentliche Information dieser Messwerte erhalten bleibt oder betont wird. Beispielsweise kann eine Abkühlung (Temperaturdifferenz) in bestimmten Fällen besser sein, als nur die Mittelwerte der Temperaturmessungen zusammenzufassen. Der Datensatz, der auf diese Weise unter Zusammenfassung aller relevanten Informationen zu einem bestimmten Stück erzeugt wird, wird als dessen Fingerabdruck (Fingerprint) bezeichnet. 6.2.2 Batchprozesse Batchprozesse werden prinzipiell wie Rezepturen behandelt, wobei Messwerte oder aus Messwerten berechnete Steigungen, Mittelwerte, Maxima und Minima zu charakteristischen Prozesszeitpunkten jeweils als Eingang verwendet werden. Dabei werden alle Informationen in Messkurven ausgelassen, die bei allen Batches gleich sind, da diese keine verwendbaren Informationen enthalten. Sind also die zeitlichen Verläufe einer Messgröße bei allen Batches fast identisch, weil diese Größe z. B. geregelt wird, enthält diese Messgröße keine Information und wird nicht verwendet. Sofern aus verfahrensbezogenen Überlegungen heraus angenommen werden kann, dass diese Größe dennoch Einfluss auf eine betrachtete Zielgröße hat, kann diese Größe gezielt variiert werden, um den Einfluss erkennbar zu machen. Ist z. B. ein Batch temperaturgeregelt und weist immer einen identischen Temperaturverlauf auf, kann der Temperaturverlauf ignoriert werden. Sehr wohl ist es in diesem Falle interessant, den Energieeintrag pro Gewichtseinheit in bestimmten Zeitphasen zu untersuchen, da dieser bei einer geregelten Temperatur schwanken sollte. Ein kompletter Datensatz, der einen einzigen Batch vollständig durch gemessene und berechnete Größen charakterisiert und ihn somit von anderen Batches eindeutig unterscheidbar macht, wird als Batchfingerabdruck (Batch-Fingerprint) bezeichnet. www.vdi.de Für die Ermittlung geeigneter (Batch-)Fingerprints gibt es drei denkbare Methoden: n Es stehen bereits charakteristische Größen aus der Forschung oder berechnete Fingerprints zur Verfügung. Vorgaben aus der Forschung können nur angewendet werden, wenn der Aufwand zur Berechnung der Fingerprints vertretbar ist. n Es werden die Kurven mit batchweise normierten Zeitstempeln verglichen. Durch die batchweise Normierung der Zeitstempel werden alle Batches auf die gleiche Zeitdauer gestreckt oder gestaucht. Das Maß dieser Stauchung oder Streckung ist ein wesentlicher Bestandteil des Fingerprints. n Eine Ergänzung oder Alternative ist, den Batch in charakteristische Phasen einzuteilen. Eine solche Phase wird durch bestimmte Sollwertveränderungen definiert, wobei jede Änderung eines Sollwerts eine neue Phase definieren kann. Wenn beispielsweise ein Temperatursollwert von 100 °C auf 120 °C erhöht wird, beginnt an dieser Stelle eine Heizphase. Die Dauer einer solchen Phase, der Energieeintrag und die Mittelwerte der Regelgröße (hier die Temperatur) sind die wichtigsten Größen, die eine solche Phase charakterisieren. Wenn eine solche Temperaturerhöhung beispielsweise sehr schnell beendet und die Temperatur dann lange gut geregelt wurde, liegt der Mittelwert knapp unter dem Sollwert und die Dauer ist lang. Auf diese Weise vermittelt sich dem Beobachter und auch dem Modell ein gutes Bild vom Ablauf des Batches. Charakteristisch sind insbesondere Zeitintervalle, an denen sich die Kurvenverläufe der einzelnen Batches deutlich voneinander unterscheiden. Diese Verläufe lassen sich optisch sehr leicht erkennen, in dem die Kurven mehrerer Batches übereinander gelegt werden. Abschnitte, die bei allen Kurven der Batches gleich verlaufen, sind für Fingerprints nicht relevant. Neben dem Wert einer gemessenen oder analysierten Größe kann auch der Zeitpunkt, zu dem ein bestimmter Wert oder Verlauf eines Werts erreicht wird, für den Fingerprint relevant sein. 6.2.3 Kontinuierliche Anlagen Bei kontinuierlichen Prozessen mit geringer Dynamik und kurzen Totzeiten (Gasphasenreaktionen) kann eine Erkennung stationärer Datensätze ausreichen, um dynamisches Verhalten aus Datensätzen zu eliminieren. Datensätze, bei denen über eine hinreichende Zeit keine zeitliche Variation der Messwerte zu beobachten ist, das heißt alle wesentlichen Variablen für einen ausreichenden Zeitraum nahezu konstant bleiben, können als stationäre Datensätze betrachtet und für Big Data – Best Practice die weitere Analyse übernommen werden. Ausreichend bedeutet in diesem Zusammenhang: Die Variationen müssen etwas länger unterbleiben, als die Verweilzeit im Prozess. Bei Prozessen mit hoher Dynamik und längeren Totzeiten müssen Ursachen und Wirkungen aufeinander abgebildet werden, also rechnerisch in jeweils einen Datensatz zusammengefasst werden. Die Zuordnung von Ursache und Wirkung erfolgt in diesem Fall meist durch einfaches zeitliches Verschieben der Datenspalten. Das bedeutet, die Mess- bzw. Analysewertspalten in den Tabellen werden soweit gegeneinander verschoben, dass die einer Produktprobe ursächlich zuzuordnenden Werte für alle Messwerte in einer Zeile stehen. Das geschieht entweder um eine konstante Totzeit oder nach jeweils dynamisch aus dem Prozesszustand zu berechnenden Totzeiten, die für jeden einzelnen Datensatz verschieden sein können. Die Totzeiten werden im Idealfall deterministisch aus Transportgeschwindigkeiten, Behälterfüllständen, Durchflüssen, Ausliterungstabellen und Verweilzeitfunktionen berechnet. Diese Methode ist immer zielführend, kann aber sehr aufwendig sein. Bei sehr dynamischen Prozessen mit großen Totzeiten ist sie aber zwingend erforderlich. Zu beachten ist, dass es häufig keine echten Verweilzeiten gibt, sondern nur statische Verweilzeitverteilungen. Dies gilt vor allem dann, wenn gerührte Reaktoren, Extruder oder vergleichbare Mischkonzepte im Prozess vorhanden sind oder Rückmischungen auftreten. In diesen Fällen ist die kausalrichtige Zuordnung für jeden einzelnen Datensatz mit individuell berechneten gewichteten Mittelwertverteilungen zu berechnen. 17 Wenn keine hinreichenden Messwerte für diese Berechnungen bereitstehen, kann bei konstanten Totzeiten auf eine automatische Erkennung der Verweilzeiten durch gleitende Korrelationsanalyse von systematisch gegeneinander verschobenen Messwertspalten ausgewichen werden. Diese Methode liefert aber nur dann zuverlässige Ergebnisse, wenn sich die Totzeit zwischen den beiden Größen im Prozessverlauf nicht oder nur geringfügig ändert.Beispiel (Bild 4): Zwei Zeitreihen mit Minutenauflösung der schwach negativ korrelierten Prozessgrößen x und y werden gegeneinander zeilenweise verschoben. Für jeden diskreten Verschiebungsschritt, der einer Minute entspricht, wird der Korrelationskoeffizient berechnet. Die Verzugszeit zwischen den Größen entspricht dem Minimum (grüne Linie) der resultierenden Funktion. Eine Änderung der Größe x bewirkt erst nach 55 min eine Änderung der Größe y. Um kausalrichtige Datensätze zu erzeugen, müssen die Zeitreihen der Größen daher um 55 Zeilen (Minuten) gegeneinander verschoben werden. Das bedeutet, zwei Spalten mit zeitlichem Versatz, bei denen eine Korrelation zu erwarten ist, werden gegeneinander verschoben. Die Verschiebung erfolgt in kleinen Schritten, und nach jedem Schritt wird der Korrelationskoeffizient der Spalten berechnet und grafisch aufgetragen. In der Nähe der erwarteten Totzeit sollte das Maximum liegen (oder Minimum bei negativen Korrelationskoeffizienten). Die so ermittelte Totzeit ist dann die mittlere Totzeit für diese beiden Spalten. Diese Methode ist jedoch nur dann korrekt, wenn die Schwankungen der Verweilzeit innerhalb des betrachteten Zeitintervalls nicht erheblich sind. Bild 4. Autokorrelationsverfahren (Korrelationskoeffizient r zwischen zwei Prozessgrößen y = f(x) vs. Zeitverschiebung) www.vdi.de 18 Big Data – Best Practice Insbesondere bei langen Verweilzeiten in verfahrenstechnischen Apparaten (wie typischerweise in Rührkesseln) ist eine Kombination mit einem ähnlichen Verfahren wie der Batch-Fingerabdruck-Erzeugung notwendig. Im einfachsten Fall wird ein Mittelwert über die Messwerte des Apparats über die mittlere Verweilzeit gebildet. Die Erweiterung dieses Verfahrens besteht darin, einen gewichteten Mittelwert entsprechend der Verweilzeitverteilung des Apparats zu bilden. 6.3 Datenkonditionierung Die kausalrichtigen Datensätze enthalten nun alle Prozesszustände und deren Resultate, die während der Produktion aufgetreten sind. In den Datensätzen sind im Idealfall alle Ursachen (Prozessgrößen) und Wirkungen (Qualität, Kosten) enthalten. Ist dies der Fall, ist die Verteilung der Prozessvariablen zu betrachten. Ideal ist eine gleichmäßige Verteilung der Daten in den betrachteten Wertebereichen, damit eine Funktion auch mit einer hinreichenden Anzahl an Stützstellen hinterlegt ist. Datensätze mit Variablen, deren Wertebereiche sehr wenige Stützstellen aufweisen, sollten bei allen Variablen entfernt werden. Beispiel (Bild 5): Eine Messgröße F3 weist Werte zwischen 2 und 6 auf. Im Verteilungsdiagramm kann man erkennen, dass eine hinreichende Anzahl an Datensätzen nur zwischen 2,3 und 3,7 gegeben ist. Alle Datensätze, deren Werte für F3 kleiner 2,3 oder größer 3,7 liegen, werden entfernt. 6.4 Plausibilitätsfilter Um eine Analyse mit Daten durchführen zu können, müssen die Daten konsistent, also widerspruchsfrei, sein. Sind die Daten nicht konsistent, fehlen eventuell Bild 5. Datenverteilung www.vdi.de wichtige Einflussgrößen (Störgrößen), die nicht bekannt sind oder nicht gemessen werden. Ist dies der Fall, sind die Datensätze überwiegend inkonsistent und können nicht für eine sinnvolle Datenanalyse oder Modellierung verwendet werden. Dies bedeutet aber auch, dass der Prozess nicht kontrolliert oder systematisch betrieben werden kann. In diesem Falle ist eine Suche nach den Ursachen notwendig. 6.4.1 Gleichungsgetriebene Plausibilitätsfilter Die Datensätze werden Zeile für Zeile auf Einhaltung bekannter physikalischer Gesetzmäßigkeiten überprüft, beispielsweise durch Berechnung der Massenund Energiebilanzen. In einzelnen Apparaten, Schritten oder im gesamten Prozess wird untersucht, ob der geprüfte Bilanzraum genauso viel Massenströme, Stückzahlen und Enthalpieströme aufnimmt, wie er abgibt. Dabei ist zu beachten, dass solche Bilanzen in sehr kurzen Zeiträumen wegen der stets vorhandenen Messfehler und (vor der Herstellung der Kausalrichtigkeit) der zeitlichen Verzögerung zwischen den Orten der Anlage nicht exakt stimmen werden. Über langfristige Mittelwerte (ab mehreren Stunden) muss die Massenbilanz aber stimmen bzw. der Fehler der Massenbilanz über einen größeren Zeitraum betrachtet annähernd normalverteilt sein. In kontinuierlichen Anlagen ist die Durchflussmesstechnik oft wenig präzise (Messblenden). Ist dieser Messfehler aber relativ konstant, muss dies nicht störend sein für eine Datenanalyse. Springt dieser Fehler oder ändert er sich beobachtbar, sind die Daten für eine Datenanalyse nicht direkt verwendbar. Hier können als Maßnahme, Korrekturen an den Daten durchgeführt werden, oder aber die Messtechnik ist zu verbessern. Big Data – Best Practice 6.4.2 Statistische Plausibilitätsfilter Die Daten werden ausführlich auf ihre statistische Konsistenz, Gleichmäßigkeit und Plausibilität hin überprüft. Dazu finden sowohl statistische Berechnungen als auch grafische Auswertungen der Daten statt. Mögliche Verfahren sind beispielsweise: n Anwendung von Regeln der statistischen Prozesskontrolle. Mittels dieser Regeln können „auffällige“ Datensätze mit abweichendem statistischem Verhalten (Sprünge, Oszillationen etc.) identifiziert und ausgesondert werden. Da physikalische Messgrößen selten allen Regeln der Normalverteilung gehorchen, sind nur die statistischen Regeln (Go Rules oder SPC Rules) verwendbar, die in weniger als 5 % der Datensätze aktiv werden. n Prüfung von Histogrammen auf die erwartete Normal- oder Gleichverteilung der Messwerte n grafische Prüfung von bekannten Korrelationen n statistische Tests auf Ausreißer n Inkonsistenzanalyse: Wenn innerhalb des Messfehlers alle Eingangsmerkmale des Datensatzes (Störgrößen und manipulierbare Variablen) identisch sind, müssen auch alle Ausgangsmerkmale (Zielgrößen) des Datensatzes innerhalb des Messfehlers identisch sein. Ist das nicht der Fall, ist mindestens einer der Messwerte oder eine der Variablen fehlerhaft, oder eine Eingangsvariable fehlt in der Betrachtung, was zu fehlender Prozessfähigkeit führt. Zu beachten ist, dass jede Abweichung von erwarteten Regeln, Verteilungen und Korrelationen sowohl auf den Prozess als auch auf die Messung bzw. Datenaufzeichnung zurückzuführen sein kann. Eine Auffälligkeit kann sowohl aufgrund eines gesuchten Zusammenhangs entstehen, als auch durch fehlende Informationen, durch Messfehler oder Probenahmefehler. Deshalb kann ein auffälliger Datensatz entfernt werden, wenn ein Messfehler wahrscheinlicher ist als eine Ursache, die bei der Datenanalyse gefunden werden soll. Dies lässt sich durch heuristische Überlegungen abschätzen: Treten „Abweichungen“ häufig auf, gehören sie vermutlich zum typischen Verhalten des Prozesses. Treten „Abweichungen“ selten oder nur in besonderen Betriebssituationen auf, weisen sie auf Ausnahmesituationen hin und sollten zu der Entscheidung führen, die Daten zu entfernen. Zu beachten ist, dass solche Entscheidungen immer nur dann korrekt gefällt werden können, wenn ausreichendes Betriebswissen vorhanden ist. Aus diesem Grunde ist die 19 Einbindung des Anlagenbetreibers in solche Entscheidungen immer zwingend notwendig. Inkonsistenzen, also Widersprüche zwischen Datensätzen, sind ein Sonderfall: Sie weisen regelmäßig auf ein Problem mit den Daten hin, nämlich entweder auf einzelne fehlerhafte Datensätze oder fehlende Variablen. Einzelne fehlerhafte Datensätze sind bei BigData-Projekten zu erwarten und können einfach durch Vergleich aller Datensätze mit allen anderen Datensätzen erkannt und entfernt werden. Eine große Zahl von Inkonsistenzen deutet auf ein systematisches Problem hin, das vor einer Datenanalyse gelöst werden muss (fehlende Variablen, mangelhafte Zuordnung von Ursache und Wirkung, zu viele fehlerhafte Messungen). 6.5 Redundanzfilter Prozesse sind so ausgelegt, dass sie zuverlässig über lange Zeit ihren Sollwerten folgen und dabei reproduzierbar das gleiche Ergebnis liefern sollen. Das führt dazu, dass die zu analysierenden Daten zahlreiche nahezu identische Datensätze enthalten, also eine erhebliche Redundanz aufweisen. Bei Datenanalysen führt das dazu, dass diese häufig repräsentierten Zustände in Modellen sehr genau abgebildet werden, während die davon abweichenden Zustände weniger genau abgebildet werden. Das ist in dieser Form nicht wünschenswert, da Aussagen somit nur sehr nah am üblichen Zustand des Prozesses möglich wären, während eine Optimierung für besondere Zustände oder die Suche nach einer besseren Fahrweise nicht mit der notwendigen Genauigkeit möglich wären. Deshalb müssen Redundanzen zusammengefasst werden. Hierzu werden in der Regel Clusterverfahren eingesetzt, die gleichartige Datensätze finden und zusammenfassen. Es entsteht eine Datenbasis mit weniger, jedoch redundanzfreien Datensätzen. Das Clustern hat darüber hinaus noch den Vorteil, die Messfehler einzelner Datensätze zu verringern. Durch die Beseitigung der Redundanzen ist es nicht mehr möglich, fehlerhafte Datensätze durch das reine Übergewicht der sich wiederholenden korrekten Daten, zu unterdrücken. Datenfehler haben nun den gleichen Einfluss wie tatsächlich interessante, vom üblichen Zustand abweichende und korrekte Datensätze. Die Erkennung und Bereinigung von fehlerhaften Daten und insbesondere Inkonsistenzen hat deshalb große Bedeutung. 6.6 Analyse- und Modellierungsverfahren Liegen kausalrichtige Datensätze vor, aus denen alle inkonsistenten und redundanten Zustände entfernt www.vdi.de 20 Big Data – Best Practice sind, kann an diesen Datensätzen nun die eigentliche Analyse durchgeführt werden. Zur Analyse gibt es eine ganze Reihe statistischer Methoden, die Korrelationen auffinden können und diese in Form von Modellen für die Optimierung des Prozesses nutzbar machen können. Streudiagramme 6.6.1 Dieser Diagrammtyp ist nicht gut für die Darstellung von diskreten Daten geeignet, da die sich ergebende Überlagerung der Punkte die Interpretation erschwert. Korrelationsanalysen Der einfachste Weg zum Auffinden von Ursachen und Wirkungen in einem Prozess sind Korrelationsanalysen. Es empfiehlt sich in jedem Falle als ersten Schritt immer die Anwendung dieser Verfahren, um eine Orientierung zu erhalten, welche Variablen wichtig für einen Prozess sind und welche nicht. Die Korrelationsverfahren sind für die Beurteilung unbekannter Zusammenhänge sehr wichtig, sollten jedoch immer mit vorhandenem A-priori-Wissen über Prozesszusammenhänge kombiniert werden. Dieses Prozesswissen ist bei der Nutzung solcher Methoden wichtig, um sie mit Erfolg verwenden zu können. Zudem ist auch zu beachten, dass eine Korrelation keine Kausalität sein muss, jedoch auf eine solche hinweisen kann. Auch diese Beurteilung erfordert fundamentales Prozesswissen. Im einfachsten Falle sind Korrelationen deutlich und linear; im komplexesten Falle sind sie nichtlinear und mehrdimensional. Die folgenden Methoden sind die typischen Verfahren zur Ermittlung von Korrelationen und gehen von sehr einfachen Verfahren bis zu den komplexesten Verfahren, die erst in den letzten Jahren entwickelt wurden. Bild 6. Streudiagramm www.vdi.de In einem zweidimensionalen Koordinatensystem werden die Daten entsprechend zweier (in der Regel stetig verteilter) zu korrelierender Merkmale aufgetragen (Bild 6). Durch farbliche Codierung oder Symbole kann eine weitere Dimension in das Diagramm eingebracht werden (das ist dann in der Regel ein diskretes Merkmal, z. B. der Lieferant eines Rohstoffs). Das menschliche Auge erkennt in solchen Diagrammen sehr schnell auch nichtlineare Zusammenhänge, die bei der linearen Korrelationsanalyse (siehe unten) nicht erkannt werden. Prozessdatenanalyse mit Klassifizierungsmethoden In der Datenanalyse entlang einer gesamten Produktionskette tritt immer wieder der Fall auf, dass man sehr viele Variablen hat und die Zahl der Fälle vergleichsweise gering ist. In diesem Stadium der Analyse ist eine Vorauswahl der signifikanten Variablen mithilfe einer Diskriminanzanalyse sinnvoll. Hierzu ist die Einteilung der Zielgröße in verschiedene Klassen notwendig. Oftmals bietet sich die Einteilung in oder außerhalb der Spezifikation an. Hierbei ist bei relativ gut geführten Prozessen darauf zu achten, dass beide Gruppen für die Analyse ausreichend viele Fälle aufweisen. Selbst gewählte Einteilungen wie: „gut“, Big Data – Best Practice „sehr gut“, „schlecht“ erlaubt es, die Basis für eine erfolgreiche Analyse zu legen. Die Diskriminanzanalyse sucht nach einer Linearkombination von Variablen, die eine möglichst gute Trennung der Gruppen erlauben. Darstellen lassen sich die Trennungen mithilfe von kategorisierten Streudiagrammen, bei denen die einzelnen Fälle farblich sichtbar werden, und mithilfe von Parallelkoordinaten. Auch Entscheidungsbäume mit den automatisch gewählten Variablen helfen beim Prozessverständnis und bei der weiteren Analyse der Daten. Ebenso können hier Assoziations- und Abweichungsanalyse-Methoden helfen, um wichtige Einflussgrößen zu analysieren, und (komplexe) Zusammenhänge in charakteristischen Subgruppen zu identifizieren. Beispiel: In Bild 7 wurde eine Analyse eines dreistufigen Produktionsprozesses mit mehr als 100 Prozessparametern untersucht. Die Diskriminanzanalyse ergab eine signifikante Trennung von „sehr guten“ und „guten“ Anwendungstests von einer Gruppe eher „schlechter“ Anwendungstest. Aufbauend auf diesen Erkenntnissen konnte dann der Prozess weiter analysiert werden und ähnliche Variablen für die Beschreibung des Ergebnisses des Anwendungstests gefunden werden 21 Prozessdatenanalyse mit Parallelkoordinaten Zur einfachen ersten Visualisierung der Zusammenhänge zwischen mehreren Variablen in Prozessen kann es hilfreich sein, die Datensätze in einem Parallelkoordinatensystem zu visualisieren. Insbesondere, wenn es einfache Zusammenhänge gibt und wenige Datensätze gegeben sind, kann diese Analysemethode sehr schnell hilfreich sein. Ebenso gibt sie eine erste Orientierung über Zusammenhänge. Durch Färbung (Schichtung) verschiedener Produkttypen, Ausbeuten oder Betriebszustände lassen sich sofort einfache Zusammenhänge erkennen, die in Betriebsanweisungen umgesetzt werden können. Beispiel: In Bild 8 werden die kausalrichtigen Daten eines Reaktors gegeneinander gestellt. Die Datensätze in einem gewünschten Betriebsbereich (Yield) sind in diesem Beispiel blau gefärbt, sodass man leicht erkennen kann, welche Werte der manipulierbaren Variablen und der Störgrößen zu dem gewünschten Verhalten des Prozesses führen. Deutlich ist aber auch erkennbar, dass die Schwankungsbreite einzelner Größen sehr groß ist (Feed2, Temp2, Temp6 etc.). Hier lässt sich auch die Grenze der Methode erkennen, da komplexe Zusammenhänge zwischen mehreren Eingangsgrößen damit nicht identifiziert werden können. Bild 7. Diskriminanzanalyse www.vdi.de 22 Big Data – Best Practice Bild 8. Parallelkoordinaten Entscheidungsbäume Entscheidungsbäume sind eine Methode zur formalen Darstellung von Entscheidungsproblemen und Regeln zu deren Lösung. Werden sie aus Datensätzen automatisch generiert, können sie Daten in formale Entscheidungen umwandeln und diese damit verdeutlichen. Ein Entscheidungsbaum hat immer einen Wurzelknoten und einen bis mehrere innere Knoten sowie mindestens zwei Blätter. Jeder Knoten repräsentiert eine logische Regel und jedes Blatt steht für eine Antwort auf das Entscheidungsproblem. Entscheidungsbäume sind die logische Folge einer Prozessanalyse mit Parallelkoordinaten, in dem sie daraus logische Entscheidungsdiagramme generieren. Daraus folgt, dass diese Algorithmen nur dann erfolgreich eingesetzt werden, wenn die Resultate der Prozessanalyse mit Parallelkoordinaten eindeutig ausfallen. Die Komplexität der Regeln ist bei Entscheidungsbäumen unbeschränkt. Bei binären Entscheidungsbäumen kann jede Regel nur einen von zwei Werte annehmen. Alle Entscheidungsbäume lassen sich immer in binäre Entscheidungsbäume überführen. www.vdi.de Beispiel (Wikipedia): Der in Bild 9 dargestellte binäre Entscheidungsbaum gibt eine Antwort auf die Frage, ob ein Apfelbaum Früchte tragen wird. Als Eingabe benötigt der Baum einen Vektor mit Angaben zu den Attributen eines Apfelbaums. Ein Apfelbaum kann beispielsweise die Attribute „alt“, „natürliche Sorte“ und „reichhaltiger Boden“ besitzen. Beginnend mit dem Wurzelknoten werden nun die Entscheidungsregeln des Baums auf den Eingabevektor angewendet. Dabei wird im Beispielbaum an jedem Knoten ein Attribut des Eingabevektors abgefragt und am Wurzelknoten etwa das Alter des Apfelbaums. Die Antwort entscheidet über den Folgeknoten und damit über die nächste anzuwendende Entscheidungsregel. In diesem Falle die Frage zur Sorte, und danach die Frage nach der Bodenbeschaffenheit. Gelangt man nach einer Folge von ausgewerteten Regeln an ein Blatt, hat man die Antwort auf die ursprüngliche Frage. Nicht immer müssen alle Ebenen des Entscheidungsbaums durchlaufen werden. Für den unten beschriebenen Apfelbaum ist die Antwort „ja“, also dass der Baum Früchte tragen wird. Diesen Entscheidungsvorgang nennt man formal Klassifikation. Big Data – Best Practice Bild 9. Entscheidungsbaum Entscheidungsbäume können entweder von Experten manuell erstellt oder mithilfe von Techniken des maschinellen Lernens automatisch aus Beispieldatensätzen generiert werden. Für diese Induktion gibt es mehrere konkurrierende Algorithmen. Aus der gleichen Prozessdatenanalyse wie oben wurden die Variablen aus der Diskriminanzanalyse für eine Darstellung als Entscheidungsbaum gewählt (Bild 10). Die Induktion der Entscheidungsbäume wird rekursiv im Top-down-Prinzip berechnet. Verlässliche und 23 vollständige Trainings-Datensätze mit zuverlässigen Erfahrungswerten sind für diese Verfahren notwendig. Bei jedem Schritt der Induktion wird das Attribut gesucht, mit dem sich die Trainingsdaten in diesem Schritt bezüglich des Zielattributs am besten klassifizieren lassen. Als Maß für die Bestimmung der besten Klassifizierung können z. B. Entropie, Gini-Index oder andere Verfahren zur Anwendung kommen. Das auf diese Weise ermittelte Attribut wird zur Aufteilung der Daten verwendet. Auf die derart generierten Teilmengen wird die Prozedur solange rekursiv angewendet, bis in jeder Teilmenge nur noch Objekte mit einer Klassifikation enthalten sind. Am Ende entsteht ein Entscheidungsbaum, der das implizite Wissen aus den Trainingsdatensätzen in formalen Regeln beschreibt. Für diesen Vorgang stehen einige etablierte Algorithmen zur Verfügung, die alle sehr spezifische Vorteile und Nachteile haben. Der Vorteil von Entscheidungsbäumen liegt darin, auch komplexe Probleme in wenige Entscheidungen zu codieren, die im besten Fall auch verständlich sind und Prozesskenntnis generieren. Es zeigt sich meist, dass entweder so viele Regeln generiert werden, dass diese nicht mehr interpretierbar sind oder aber die Ergebnisse der Entscheidungsbäume können die Datensätze sehr ungenau abbilden. Bild 10. Variablen der Diskriminanzanalyse dargestellt als Entscheidungsbaum www.vdi.de 24 Big Data – Best Practice Eine einfache Möglichkeit zur Abschätzung dafür, ob Entscheidungsbäume erfolgversprechend sind, ist die Anwendung von Parallelkoordinaten. Zeigt sich hier für wichtige Betriebszustände eine eindeutige Zuordenbarkeit, ist die Anwendung von Entscheidungsbäumen erfolgversprechend. Lineare Korrelationsanalyse Stark miteinander korrelierende Eingangsvariablen können (müssen aber nicht) redundante Informationen enthalten, das heißt eine der beiden Variablen wäre dann zweckmäßigerweise von der weiteren Datenanalyse auszunehmen. Im Extremfall – bei exakter Übereinstimmung – ist schließlich gar nicht erkennbar, welche der beiden variablen Ursache für eine gemachte Beobachtung ist und eine gemeinsame Analyse damit zwecklos ist. Sollen stark korrelierende Eingangsmerkmale untersucht werden, kann die Korrelation durch Berechnungen wie das Verhältnis oder die Differenz der Variablen aufgehoben und die Datenanalyse so erleichtert werden. Beispiel: In Bild 11 ist – beispielhaft – eine Variablenauswahl aus einem Kohlekraftwerk aufgetragen. Für jede Kombination aus zwei Variablen wurde der Korrelationskoeffizient berechnet. Felder mit grüner Farbe zeigen eine positive Korrelation und Felder mit gelber Farbe eine negative Korrelation. Das statistische Maß der Korrelation ist nicht eindeutig interpretierbar, weil es linear und eindimensional ist und somit nur einen sehr begrenzten Einblick in tatsächliche Zusammenhänge ermöglicht, die ja z. B. nichtlinear sein können. Es gibt aber gute erste Hinweise auf bestehende Zusammenhänge. Gibt es eine hohe Korrelation zwischen Ein- und Ausgängen, ist es eventuell sinnvoll, die Differenz Bild 11. Lineare Korrelationsanalyse www.vdi.de zwischen der Zielgröße und dem Vielfachen der Einflussgröße zu modellieren. Assoziations- und Abweichungsanalyse mittels Subgruppenentdeckung Mittels der Assoziationsanalyse kann das gemeinsame häufige Vorkommen kategorieller oder binärer Variablen untersucht werden. Dazu eignen sich grundsätzlich einfache Verfahren wie Assoziationsregeln, die ausgehend von einer Kombination von binären (beschreibenden) Variablen eine (Kombination) von Zielvariable(n) mit einem vorgegeben Mindestsupport und einer gewissen Konfidenz vorhersagen. Dabei ist die Konfidenz durch den relativen Anteil der Zielvariable(n) in der Subgruppe der Datenmenge gegeben, der Mindestsupport durch deren Größe, die durch die beschreibenden Variablen definiert wird. Beispielsweise könnte eine Regel: ParameterDruck=zuHoch und Temperatur=zuHoch è Ausschussrate=hoch zur ersten Orientierung und Identifikation wichtiger Zusammenhänge hinsichtlich des Zielkonzepts Ausschussrate (als Zielvariable: Ausschussrate=hoch) dienen. Die relevante Subgruppe sind nun alle Objekte in der Datenmenge, die die Eigenschaften ParameterDruck=zuHoch und Temperatur=zuHoch aufweisen. Im Vergleich zu Assoziationsregeln ist die Subgruppenentdeckung eine mächtigere Methode, um auch mit analogen Variablen, also kontinuierlichen Messgrößen umgehen zu können. Bei der Subgruppenentdeckung geht es darum, möglichst interessante Subgruppen hinsichtlich eines bestimmten Zielkonzepts zu identifizieren, beispielsweise für eine analoge Messgröße Ausschussrate als Zielvariable. Grundsätzlich wird meist auf möglichst große Subgruppen mit Big Data – Best Practice einer möglichst hohen Abweichung dieser Zielvariablen im Vergleich zur Gesamtdatenmenge abgezielt. Im binären Fall wird der Anteil der Zielvariable in der Subgruppe betrachtet, die durch die beschreibenden Variablen (z. B. Parameter Druck und Temperatur) gegeben ist. Diese Beschreibung kann als Kondition einer Regel aufgefasst werden, die Konklusion der Regel als das Zielkonzept. Die Interessantheit wird durch eine Qualitätsfunktion definiert. Bei analogen Zielgrößen kann hier einfach der Durchschnitt über die Datenmenge der Subgruppe gebildet werden, um möglichst auffällige Subgruppen zu identifizieren. Im obigen Beispiel ergäbe sich hier beispielsweise ParameterDruck=zuHoch und Temperatur=zuHoch è Ausschussrate>1000 25 Hauptkomponentenanalyse – PCA (Principal Components Analysis) Die PCA (deutsch auch: Hauptkomponentenanalyse) ist ein mathematisches Verfahren der multivariaten Statistik, bei dem vieldimensionale Daten in einem gedachten Koordinatensystem so gedreht werden, dass für jede Achse eine möglichst hohe Varianz erreicht wird. Nach dieser Rotation entsprechen die Achsen nicht mehr bestimmten physikalischen Größen, sondern jeweils einer Linearkombination mehrerer Variablen. Die Linearkombinationen mit der höchsten Varianz werden als „Hauptkomponenten“ bezeichnet. Durch die PCA kann die Zahl von Variablen reduziert werden, weil eine geringe Anzahl von Komponenten meist ausreicht, um die vieldimensionalen Daten mit ihrer gesamten Varianz abzubilden. Die oben beschriebene Assoziationsregel lässt sich damit als „Class Association Rule“, als Spezialfall mittels Subgruppenentdeckung, abbilden. Zusätzlich zu einfachen Qualitätsfunktionen, die relative Anteile oder Durchschnitte von Zielvariablen in Subgruppen (meist in Kombination mit deren Größe) betrachten, können auch mächtigere Qualitätsfunktionen angewandt werden, die eine Menge von Zielvariablen untersuchen. Mit der Subgruppenentdeckungstechnik des Exceptional Model Mining können dann Subgruppen identifiziert werden, in denen beispielsweise mehrere Zielvariablen stark korreliert sind, für die dies jedoch in der Gesamtdatenmenge gerade nicht gilt. Das Ergebnis einer PCA ist nicht immer klar interpretierbar. Wenn physikalisch ähnliche oder miteinander zusammenhängende Größen zu einer Hauptkomponente beitragen, kann man diese mit einem sprechenden Namen bezeichnen (z. B. „Größe“, wenn die variablen Länge, Breite und Höhe eines Werkstücks am meisten zu einer Komponente beitragen). Kann eine solche Bezeichnung nicht gefunden werden, bleibt die Komponente abstrakt und die Interpretation sowohl der PCA an sich, als auch eventuell nachfolgender Datenanalysen ist erschwert. Assoziations- und Abweichungsanalyse kann damit als eine Technik zur initialen Untersuchung komplexerer Zusammenhänge dienen. Diese werden als leicht interpretierbare Regeln präsentiert. Im Vergleich zu Entscheidungsbäumen werden diskriminierende Regeln für ein Zielkonzept bestimmt, die lokal für sich stehen, und auch losgelöst von den anderen Regeln betrachtet werden können (vgl. auch Diskriminanzanalyse). Damit liegt der Vorteil der Subgruppenentdeckung auch darin, komplexe Probleme einer übersichtlichen Menge von Subgruppen abzubilden, die verständlich sind, um Prozesskenntnis generieren. Subgruppenentdeckung lässt sich beispielsweise auch als statistischer Plausibilitätsfilter (siehe Kapitel 6.4.2) nutzen, um lokale Abweichungen zu entdecken. Eine wichtige Anwendung in technischen Produktionsprozessen ist beispielsweise auch die Fehleranalyse, in der Einflussgrößen für Zielvariablen wie Ausschuss- oder Reparaturrate mittels Subgruppenentdeckung analysiert werden. Mutual Information (auch Transinformation, Synentropie oder gegenseitige Information) ist eine Größe aus der Informationstheorie, die im Zusammenhang von Big-Data-Projekten angibt, wie viel Information eine (Eingangs-)Variable über eine andere (Ausgangs-)Variable enthält. Sie ist maximal, wenn eine der Variablen sich aus der jeweils anderen berechnen lässt. Sie ist minimal, wenn die untersuchten Variablen statistisch unabhängig sind. Mutual Information Bei einer Mutual-Information-Analyse wird zunächst die wichtigste Eingangsvariable für die Zielgröße ermittelt, das heißt die Variable mit dem größten Informationsgehalt über die Zielgröße. Für das dann noch fehlende Maß an Information wird wiederum die wichtigste Eingangsvariable gesucht usw., bis ein möglichst großer Anteil der notwendigen Information vorliegt, um die Zielgröße zu bestimmen. Auf diese Weise werden die wichtigsten Variablen für die weitere Datenanalyse ermittelt. www.vdi.de 26 Big Data – Best Practice Entropieanalyse Der Begriff Entropie aus der shannonschen Theorie ist eine Maßzahl für die Informationsdichte oder den Informationsgehalt von zu untersuchenden Datenreihen. Die Informationsdichte berechnet sich aus der Wahrscheinlichkeitsverteilung. Eine maximale Entropie zeichnet sich durch eine gleichmäßige Verteilung einer Datenfolge über den Wertebereich aus. Die Daten sind maximal chaotisch und zufällig, da sie sich über den ganzen Werteraum verteilen und sich nicht auf einen Datenpunkt konzentrieren. Datenfolgen mit einer maximalen Entropie lassen sich nicht verdichten oder komprimieren, da zur Datenverdichtung immer Redundanzen notwendig sind. Die Entropieanalyse ermittelt im ersten Schritt den Informationsgehalt einer einzelnen Datenspalte. Dieser ist am geringsten, wenn die Datenspalte eine Konstante enthält, und maximal, wenn die Daten gleichverteilt sind. Mit einer Entropieanalyse können irrelevante Variablen identifiziert und entfernt werden. Im zweiten Schritt kann mit diesem Verfahren die sogenannte Verbundentropie berechnet werden, die einem nicht linearen Korrelationsmaß ähnelt. Die Verbundentropie H(x,y) zweier Größen x und y definiert den Erwartungswert der (abhängigen) Informationsgehalte beider Vektorräume x und y. Durch die Verwendung der bedingten Entropie in der Verbundentropie ermöglicht die Verbundentropie eine Aussage über die Abhängigkeit von x und y. In der Praxis Bild 12. Entropieanalyse www.vdi.de berechnet sich die Verbundentropie über die Wahrscheinlichkeit des Auftretens eines Musters in x mit dem eines anderen Musters vom y. Somit stellt die Verbundentropie eine völlig neue Größe dar, die von der Wahrscheinlichkeitstheorie nicht geliefert wird. Große Werte der Verbundentropie bedeuten, dass x weniger stark von y abhängt und mehr von anderen Einflussgrößen. Kleine Werte bedeuten eine hohe relative Abhängigkeit. Das Problem ist, dass die Verbundentropie einheitenlos ist und die Größenordnung sehr stark von den Wertebereichen der untersuchten Variablen abhängt. Ein Lösungsansatz besteht darin, dass die größte Verbundentropie auf 1 normiert wird und die kleinste auf 0. Dann kann die relative Verbundentropie ähnlich ausgewertet werden wie ein Korrelationskoeffizient. In der Praxis kann aus den Berechnungen abgeleitet werden, welche Eingangsgrößen den größten Einfluss auf eine Ausgangsgröße haben. Dazu werden die Größen wie im folgenden Beispiel einem Ranking unterzogen. In der Darstellung ist TI19 die wichtigste Einflussgröße, TI11 die zweitwichtigste und FI02 die drittwichtigste Größe etc. Die Verbundentropie wirkt auf den ersten Blick wie ein nichtlinearer Korrelationskoeffizient, berücksichtigt aber die zusätzliche Tatsache, dass die Güte einer Korrelation auch von anderen Größen abhängen kann. Big Data – Best Practice Beispiel: Betrachtet man die Abhängigkeit der Änderung einer Fahrbahnposition eines Autos von den Lenkbewegungen des Fahrers, wird eine einfache Korrelation zwischen Lenkwinkel und Bahnänderung zu einem schlechten Ergebnis führen. Dies könnte zu der Fehlannahme führen, Lenkwinkel und Fahrrichtungsänderung seien nur schwach korreliert. Führt man in diese Betrachtung zusätzlich die Geschwindigkeit ein, wird sich eine gute Korrelation zwischen Lenkwinkel und Reaktion des Autos ergeben. Führt man im nächsten Durchgang die Augenfarbe des Fahrers mit ein, wird sich die Korrelation nicht verbessern. Damit hat man die wichtigen Einflussgrößen auf die gefahrene Bahn eines Autos gefunden: Geschwindigkeit und Lenkwinkel. 6.6.2 Modellierungsverfahren Datengetriebene Modellierungsverfahren dienen der Erstellung von Modellen, die funktionelle Zusammenhänge aus Datensätzen erzeugen. Aus einer Zeitreihe der voneinander abhängigen Größen x und y wird also beispielsweise eine Funktion y = f(x) abgeleitet. In der Six-Sigma-Terminologie wird diese Funktion als Transferfunktion bezeichnet. Ist eine solche Funktion verfügbar, kann diese untersucht werden und als Modell eines technischen Verfahrens verwendet werden. Die Modellierungsverfahren unterscheiden sich vor allem in folgenden Punkten voneinander und sind dem Problem angepasst auszuwählen: n Linearität oder Nichtlinearität der Funktion n Anzahl der Koeffizienten einer Funktion n Dimensionalität einer Funktion n Verteilung der Information in Funktionsknoten vs. einheitliche Funktionen n Möglichkeit der geschlossenen Lösbarkeit und Differenzierbarkeit einer Funktion n Anzahl der Datensätze, die zur Erstellung einer Funktion notwendig sind (steigt mit der Komplexität der Funktion) n Verfahren zur Anpassung der Funktion an die Datensätze Dabei gilt: Der einfachste Ansatz mit hinreichender Genauigkeit ist der beste Ansatz. Der verbleibende Fehler einer Modellbildung auf Basis von Datensätzen wird „Residuen“ genannt und lässt Aussagen über die 27 Genauigkeit von Datensätzen zu. Der Mittelwert der Residuen liefert ein wichtiges Beurteilungskriterium der Güte der Funktion und ihrer Anpassung an die Datensätze. Einzelne Residuen geben eine Information über die Messgenauigkeit und das Rauschen in den Messwerten. Wenn die Daten einen systematischen Fehler aufweisen, wird natürlich auch die Funktion verfälscht. Die hier beschriebenen Verfahren und Methoden sind beispielhaft und haben ihre Wirksamkeit in industriellen Praxisanwendungen nachgewiesen. Ausgleichsrechnung/Fitting-Verfahren Die Ausgleichungsrechnung (auch Parameterschätzung, Regression oder Fit(ting) ist eine mathematische Methode, um für einen Datensatz die Parameter einer Funktion zu bestimmen oder zu schätzen. Die Funktion und damit die Ordnung der Funktion wird vorgegeben oder muss mit heuristischen Methoden geschätzt werden. Die Ausgleichsrechnung variiert die Parameter der gegebenen Gleichung in einer Weise, um die Gleichung den zugrunde liegenden Datensätzen anzupassen. Da in den Daten auch immer Widersprüche oder Rauschen vorhanden sind, muss die Ausgleichsrechnung einen Kompromiss anstreben, bei dem die Mehrheit der Datensätze von der Funktion gut wiedergegeben wird. Häufig wird hierfür die Methode der kleinsten Quadrate verwendet. Die Funktion wird so lange variiert, bis die Summe der Quadrate aller einzelnen Abweichungen zwischen Mess- und Modelldaten minimal wird. Gerade bei zufälliger Verteilung der Daten führt dies zu der besten möglichen Anpassung einer Funktion an Datensätze. Die verschiedenen Verfahren unterscheiden sich in der Ordnung der Funktion von einer einfachen Geradengleichung bis hin zu Polynomen höherer Ordnung und in den Fittingverfahren, also den mathematischen Methoden, mit denen die Parameter der Gleichung den Datensätzen angepasst wird. Fittingverfahren werden üblicherweise nur für Funktionen mit bis zu zwei Eingängen und einem Ausgang verwendet. Multivariate Modellierung Mithilfe von multivariaten statistischen Verfahren (auch: Multivariate Analysemethoden) werden in der multivariaten Statistik mehrere statistische Variablen oder Zufallsvariablen zugleich untersucht. Beispielsweise können für Fahrzeuge die variablen Anzahlen der Sitze, Leistung, Gewicht, Länge usw. erhoben werden. In der univariaten Analyse hingegen wird jede Variable einzeln analysiert. www.vdi.de 28 Big Data – Best Practice Zusammenhangs- bzw. Abhängigkeitsstrukturen zwischen den Variablen, z. B. größere Anzahl von Sitzen bedingt ein größeres Gewicht, können nur mit einer multivariaten, nicht aber mit einer univariaten Analyse erkannt werden. Eigentlich sind auch neuronale Netze gemäß deren Definition ein Sonderfall multivariater Verfahren. In der Praxis werden diese aber davon abgegrenzt, da sie auf völlig unterschiedlichen Wegen hergeleitet wurden. Multivariate Verfahren sind, wie alle statistischen Methoden, sehr beschränkt in der Ordnung der Probleme, die sie lösen können. Mehr als fünf bis sieben Eingangsgrößen lassen sich mit dieser Methode nicht mit hinreichender Genauigkeit auf einen Ausgang funktional abbilden. Daher ist die Reduktion der Variablen, ohne die darin enthaltene Information wesentlich zu reduzieren, ein wichtiges Ziel dieser Methodik. Dazu wird die Struktur der Daten und Zusammenhänge analysiert. Die zu findende Funktion wird entweder vorgegeben und es wird geprüft, ob die Daten mit der vorgegebenen Struktur zusammenpassen (strukturprüfende Verfahren, induktive Statistik), oder die Struktur wird aus den Daten extrahiert (strukturentdeckende Verfahren, explorative Statistik). Das „Lernen“ neuronaler Netze bedeutet, dass die Trainingsdatensätze dem Neuronalen Netz gezeigt werden und das Lernverfahren die Koeffizienten (Gewichte) der Gleichung solange systematisch verändern, bis das Gleichungssystem dasselbe Ergebnis ausgibt, wie in dem Datensatz enthalten. Klassische Verfahren stellen besondere Anforderungen an die verwendeten Daten. So sollten die Daten keine Ausreißer enthalten und symmetrisch verteilt sein. Weichen die Daten von der geforderten Struktur ab, unterzieht man Daten einer nichtlinearen Transformation. Um die hohen Anforderungen dieser Methoden an die Daten zu erfüllen, setzen die meisten multivariaten Verfahren eine Versuchsplanung und Versuche voraus, um Daten in der notwendigen Verteilung zu generieren, damit das Verfahren zu verwertbaren Ergebnissen führt. Insgesamt sind diese Verfahren also vielen Bedingungen unterworfen, was die Anwendbarkeit im Umfeld von Big Data stark einschränkt. Zwar gibt es für jede Einschränkung diverse Methoden, diese aufzuweichen oder zu umgehen, diese sind aber nur absoluten Experten für Statistik zugänglich. Beispiel (Bild 13): Das dargestellte neuronale Netz hat drei Schichten (Layer) mit insgesamt 13 Neuronen. Jede der Linien ist ein Signal. Die Signale werden mit Gewichten in den Neuronen multipliziert, im Neuron aufsummiert und über eine nicht lineare Funktion weitergegeben. Gegenstand des Trainingsverfahrens ist die Anpassung der insgesamt 76 Gewichte (an den schwarzen Linien), bis das Neuronale Netz allen Trainingsdatensätzen möglichst optimal entspricht. In diesem Beispiel lernt das Neuronale Netz das Temperaturprofil eines Festbettkatalysators auf Umsatz und Selektivität einer exothermen katalytischen Reaktion abzubilden. Wenn eine ausreichende Anzahl unterschiedlicher Datensätze aus dem Betrieb eines zu modellierenden Prozesses vorhanden sind, die das Verhalten dieses Prozesses vollständig repräsentieren, kann man KNNAlgorithmen einsetzen, um diese impliziten Zusammenhänge algorithmisch abzubilden. Neuronale Netze können als Folgetechnologie der multivariaten Statistik angesehen werden, da sie die meisten Probleme dieser Verfahren lösen: n Die Zahl der Eingänge eines solchen Modells ist theoretisch unbegrenzt. Praktisch steigt dann aber auch die Zahl der notwendigen Trainingsdatensätze zu stark. n Im Gegensatz zu multivariaten Statistikverfahren sind die neuronalen Netze sehr robust gegenüber Autokorrelationen von Eingängen. n Probleme bei der Verteilung und der Homogenität der Daten spielen für neuronale Netze keine Rolle. n Die Modellierung jedes funktionalen Zusammenhanges ist mit neuronalen Netzen möglich. Neuronale Feedforward Netzwerke Künstliche neuronale Feedforward-Netze sind spezielle Funktionen, die auf der Basis von Beispieldaten mit Lernverfahren einen bestehenden impliziten Zusammenhang zwischen Größen „erlernen“ und diesen dann – durch Interpolation – auf neue Daten anwenden können. Im Falle der Modellierung von Anlagen erlernen sie das Verhalten eines Prozesses, in dem sie – analog zu einem konventionellen Modell – Eingangsgrößen (Störgrößen und manipulierbare Variablen) eines Prozesses auf Ausgangsgrößen (Qualitätsgrößen, Ausbeuten etc.) abbilden. www.vdi.de Big Data – Best Practice 29 Bild 13. Neuronale Netze Einfache neuronale Netze weisen jedoch auch eine Reihe von Schwierigkeiten auf, die sich teilweise aus den Vorteilen ergeben: n Klassische Lernverfahren für neuronale Netze konvergieren nicht sicher. n Die Konfiguration ist kompliziert und erfordert Fachwissen. n Die Zuverlässigkeit der Modelle hängt von der Dichte der Datensätze in der Nähe eines prognostizierten Werts ab. Für diese Probleme gibt es etablierte Lösungsansätze am Markt. So gibt es selbstkonfigurierende Produkte, die ihren Prognosefehler schätzen und die Konvergenz mindestens zu einem lokalen Minimum z. B. mit konjugierten Gradientenverfahren sicherstellen. Gaußprozess-Regression Als Gaußprozess wird ein stochastischer Prozess verstanden, bei dem jede endliche Teilmenge von Zufallsvariablen mehrdimensional normalverteilt ist. Dieses Konzept kann zur Datenanalyse genutzt werden, da eine approximative Darstellung der Gaußprozess-Funktion aus Trainingsdaten berechnet werden kann, die wie die vorher beschriebenen Verfahren den impliziten Zusammenhang zwischen den Größen aus diesen erlernen. Im Vergleich zu anderen Analyseverfahren ist die numerische Berechnung eines solchen Modells überschaubar, sie basiert letztendlich auf linearer Algebra. Die wie üblich vorhandenen MetaParameter des Lernverfahrens können auf Basis von stochastischen Methoden konsistent innerhalb des Ansatzes berechnet werden. In einem gewissen Sinn wird bei der GaußprozessRegression die wahrscheinlichste Funktion berechnet, die die vorhandenen Daten beschreibt. Neben der Vorhersage der Funktionswerte ist auch die Berechnung der Varianz des Gaußprozess-Modells möglich. Mit anderen Worten, die Unsicherheit des Modells kann punktweise geschätzt werden und erlaubt somit insbesondere eine Beurteilung der Validität der Interpolation auf neuen Daten, was bei anderen Modellierungsverfahren in der Form nicht möglich ist. Es kann also bei neuen Daten der Schwankungsbereich der Vorhersage bestimmt werden und darauf angemessen reagiert werden. Dargestellt wird das Modell mithilfe sogenannter Kernfunktionen. Nur in deren Auswertung geht die Zahl der Eingänge ein und ist somit im Prinzip nicht beschränkt, wobei auch hier die Zahl der notwendigen Trainingsdaten in der Praxis typischerweise mit der Zahl der Eingänge steigt. Der Berechnungsaufwand für die Gaußprozess-Regression steigt quadratisch mit der Zahl der Trainingsdaten. Es existieren verschiedene approximative Realisierungen für sehr große Datenmengen, allerdings kann von diesen noch keine als allgemein akzeptierte Lösung angesehen werden. www.vdi.de 30 Big Data – Best Practice In Bild 14 werden hier von einer einfachen Funktion (blau gestrichelt) sechs Stichproben genommen, wobei diese leicht gestört sind. Das mit der GaußprozessRegression berechnete Vorhersagemodell (rot) approximiert an den Stichproben diese recht gut, insbesondere zwischen den Stichproben ist die geschätzte Unsicherheit (grau unterlegt) zum Teil groß. tensatz in den Trainingsdaten mindestens ein Neuron, das benachbart ist zu ähnlichen Neuronen. Daraus ergeben sich einige interessante Anwendungsmöglichkeiten: n Die neuronalen Karten können grafisch dargestellt werden und sortieren Prozesszustände in Cluster. Damit kann jeder Prozesszustand einem Cluster zugeordnet werden. Erkennt man dann die Eigenschaften aller Daten in dem Cluster (z. B. „spezifikationsgerecht“ und „nicht spezifikationsgerecht“), kann man Betriebszustände dann später diesen Eigenschaften zuordnen. Somit ist eine Bewertung von Datensätzen möglich. n Werden trainierte neuronale Karten mit Messwerten online verglichen, können damit Messfehler erkannt werden. Diese Verfahren funktionieren daher sehr gut, da Messwerte häufig redundante Informationen enthalten. Werden alle OnlineMesswerte mit einem trainierten SOM verglichen, können diese damit korrigiert werden. Neuronale Karten Neuronale Karten (SOM – Self Organising Maps) sind im Grunde spezielle Clusterverfahren, die eine Technologie zum Training einsetzen, die den neuronalen Netzen sehr ähnlich ist. Beispiele für solche Karten sind Kohonen-Netzwerke. Das Prinzip besteht darin, dass Datensätze auf eine Karte miteinander verbundener Neuronen mit einem speziellen Lernverfahren verteilt werden. Jedes Neuron hat dabei so viele Parameter, wie der Datensatz Variablen hat. Da die Neuronen während des Lernverfahrens einerseits bestrebt sind, dem ähnlichsten Datensatz durch Iteration noch ähnlicher zu werden, dabei aber auch ihre Nachbarn in diese Richtung beeinflussen, sammeln sich ähnliche Datensätze in räumlichen Gruppen von Neuronen an. Wenn das Training beendet ist, gibt es für jeden typischen Da- Bild 14. Gaußprozess-Regression www.vdi.de Es gibt eine Vielzahl von Varianten dieses Ansatzes, insbesondere existiert mit Generative Topographic Map (GTM) eine probabilitische Variante, die eine Kostenfunktion nutzt und dadurch sowohl eine quantitative Aussage über die Güte der Karte möglich ist, Big Data – Best Practice als auch gut fundierte Berechnungsverfahren existieren. Darüber hinaus sind diese Verfahren auch unter dem Namen „nicht lineare Dimensionsreduktion“ bekannt, und können als eine Art nicht lineare Hauptkomponentenanalyse interpretiert werden. Hier gibt es weitere Verfahren, die bei der Berechnung der sogenannten Karte zur Visualisierung der Cluster besondere Eigenschaften der Daten bei der nicht linearen Dimensionsreduktion berücksichtigen können, was sich für manche Anwendungen als vor- 31 teilhaft erweist, aber in der bisherigen Nutzung der Verfahren mehr Wissen vom Anwender erfordert. Bild 15 zeigt die Anwendung einer neuronalen Karte. Ein Datensatz wird gemessen und mit dem SOM verglichen. Der ähnlichste dort abgelegte Zustand zeigt für M2 und M4 etwas andere Werte und gibt diese aus. Damit wird erkannt, dass die Messwertgeber M2 und M4 gestört sind und die Messwerte fehlerhaft. Bild 15. Neuronale Karte www.vdi.de 32 Big Data – Best Practice 7 Nutzung von Modellen/Improve-Schritt Wenn valide Modelle erstellt wurden, lassen sich daraus Folgerungen für die Optimierung des Prozesses ableiten und es können Technologien mit den Modellen unterstützt werden, die eine verbesserte Kontrolle über den Prozess geben und Abweichungen minimieren. Wesentlich für die Nutzung der Modelle sind eine hohe Transparenz der Modellierungswerkzeuge und ein grundlegendes Prozessverständnis des Ingenieurs, der mit diesen Werkzeugen arbeitet. 7.1 Prozessanalyse Die einfachste Anwendung eines Modells ist die Prozessanalyse. Durch verschiedene Betrachtungen können Schlussfolgerungen aus den Modellen gezogen werden, die eine systematische Verbesserung der Prozesse ermöglichen. Die grundlegenden Methoden seien hier kurz dargestellt: n n Ist es möglich, aus diversen Prozessgrößen ein validiertes Modell zu erstellen und die Hinzunahme anderer Eingangsgrößen verbessert das Modell nicht signifikant, sind nur die Modellgrößen hinsichtlich der im Modell betrachteten Ausgangsgröße wirklich relevant. Alle anderen vermuteten Einflussgrößen sind dann irrelevant Variiert man die Eingänge eines Modells systematisch, erhält man eine Sensitivitätsanalyse. Es lässt sich also analysieren, wie stark der Einfluss eines Eingangs im Mittel und maximal auf eine Ausgangsgröße ist und in welche Richtung diese Größe wirkt. Bei linearen statistischen Funktionen reicht hier eine Ableitung eines Ausgangs auf den Eingang. n Für beliebige Zustände lässt sich die Änderung des Ausgangs bei Änderung eines oder zweier Eingänge grafisch auftragen. Daraus kann eine Erkenntnis gezogen werden, wie die Änderung bestimmter manipulierbarer Variablen wirkt. n Aktuelle Betriebszustände lassen sich in das Modell eingeben und es lässt sich durch Verändern der manipulierbaren Variablen herausfinden, in welche Richtung diese verändert werden müssten, um den Prozess zu verbessern. Diese Analysen am Modell erfordern eine gute Prozesskenntnis und sind sehr komplex. Das Modell liefert ein datentechnisches Abbild des Prozesses, an dem sich gefahrlos Versuche durchführen lassen, ohne den Prozess zu stören. www.vdi.de Bei der Interpretation dieser Methoden ist Vorsicht nötig: Die Sensitivitätsanalyse zeigt Zusammenhänge zwischen Eingangs- und Ausgangsgrößen auf. Ob die Zusammenhänge kausal sind (und man von einer „Wirkung“ sprechen darf), ist nicht gesagt. Es könnten rein statistische Zusammenhänge bestehen, die bei Nutzung als manipulierbare Variable genau das Gegenteil bewirken. Ausgehend von Erkenntnissen in diesem Schritt sind Erkenntnisse möglich, die sofort zur Prozessverbesserung eingesetzt werden können. Hier einige Beispiele für Erkenntnisse aus einer solchen Prozessanalyse: n Reagiert der Prozess auf die Rezeptur empfindlich, ist diese genau zu überwachen. n Spielen bestimmte Rohstoffparameter eine Rolle, ist der Rohstoff darauf zu überwachen oder danach einzukaufen. n Spielen Verweilzeiten eine Rolle, sind diese zu regeln oder die Prozessvolumina sind entsprechend dem Ziel der Optimierung anzupassen. n Sind Temperaturen wichtig, sind diese zu regeln oder es sind Kühlung oder Heizung einzubauen. 7.2 Datenvalidierung und ConditionMonitoring Der Zustand eines gesamten Prozesses, von Apparaten, Katalysatoren oder von Messungen kann sich während der Prozessnutzung verschlechtern. Entscheidend ist dann, dass der Prozessbetreiber sehr schnell die Veränderung bemerkt und darauf dann reagieren kann. Mit Modellen ist dies sehr leicht möglich, indem ein gutes Modell von Teilen des Prozesses oder vom gesamten Prozess erstellt wird und dieses Modell dann mit den Daten verglichen wird. Weicht ein valides Modell von den Messdaten eines Prozesses ab, so lässt sich daraus folgern, dass sich der Prozess verändert hat. Die Anwendung der Modelle für diesen Zweck erfordert, dass die Modelle, die aus historischen Daten erstellt wurden, online an den Prozess angeschlossen werden. Big Data – Best Practice Beispiel: Wärmeübertrager. Es wird aus Messdaten eines Wärmeübertrager berechnet, wie sich die Ausgangstemperatur eines Mediums in Abhängigkeit von der Temperatur eines Kühlmediums, der Durchflussmenge Kühlmedium, der Durchflussmenge Produkt und der Eingangstemperatur Produkt ändert. Diese Prognose des Modells wird mit der gemessenen Temperatur ständig verglichen. Weicht der Messwert von der Modellprognose ab, hat sich der Wärmeübergang des Wärmeübertragers durch Fouling (Ablagerungen) verändert. Der Grad der Abweichung zeigt den Grad des Fouling an und gibt dem Nutzer einen Hinweis auf den Wartungsbedarf des Wärmeübertrager. Bildet man in einem Prozess alle Datensätze mit allen möglichen Modellen aufeinander ab, lässt sich damit der Zustand jedes Details des Prozesses diagnostizieren. Zeigen alle Modelle eine Abweichung, die eine bestimmte Messgröße enthält, so ist dieser Sensor gestört und muss getauscht oder gereinigt werden. Weichen alle Modelle von den Messgrößen ab, die einem bestimmten Apparat zugeordnet sind, ist dieser Apparat gestört. Durch logisches Schließen können mit großen Matrizen von statistischen Modellen alle Teile eines Prozesses genau überwacht werden. Jede Veränderung im Prozess oder seinen Teilprozessen oder Messwertgebern wird sich in der Abweichung eines oder mehrerer Modelle zeigen. Die komplexeste Methode ist die Verwendung von selbstorganisierenden Karten. Ein Satz von Messwerten wird dem SOM „gezeigt“, das ähnlichste Neuron wird gesucht und die Werte aus dem Messwertvektor werden mit den Werten aus dem SOM-Vektor verglichen. Die SOMWerte werden als richtig angesehen und die Messwertfehler können leicht berechnet werden. 7.3 Softsensoren Das Wort „Softsensor“ ist gebildet aus den Worten Software und Sensor. Es bezeichnet ein Modell, das aus leicht messbaren oder erfassbaren physikalischen Variablen andere Variablen berechnet, die nur aufwendig (z. B. durch Laboranalysen oder Versuche) ermittelt werden können. Die Anwendung der Modelle für diesen Zweck erfordert, dass die Modelle, die aus historischen Daten erstellt wurden, online an den Prozess angeschlossen werden. 33 Beispiel: Die Mittentemperatur einer Brennerdüse kann nur schwer gemessen werden, da jeder Temperatursensor bei sehr hohen Temperaturen schnell zerstört wird. Misst man in Laborversuchen diese Temperatur, indem man stündlich diesen Temperatursensor ersetzt und ermittelt man die anderen Messwerte des Brenners, kann aufgrund dieser Daten datengetrieben ein Softsensor entwickelt werden, der aus den anderen Messwerten die Mittentemperatur berechnet. Softsensoren können Analysatoren oder Laboranalysen ersetzen oder aufwendig analysierbare Messgrößen online und ohne Zeitverzug liefern. Auf diese Weise liefern Softsensoren präzise Messwerte für Regler, sodass weitere Zustandsgrößen einer Regelung zugänglich gemacht werden können. Ein besonderer Einsatzfall eines Softsensors ist dessen Einsatz als Prädiktor. Durch spezielle Entwurfsmethoden kann man Softsensoren so auslegen, dass sie zukünftige Zustände des Prozesses vorhersagen können. Oft ist der Ausgang eines solchen Prädiktors so zu deuten, dass er die zukünftige Entwicklung einer wichtigen Zustandsgröße vorhersagt, wenn alle anderen Variablen eines Prozesses konstant gehalten würden. 7.4 What-if-Modelle und OSS Hat ein Anlagenbediener einen Softsensor oder Prädiktor verfügbar, der online an den Prozess angeschlossen ist, kann dieses Modell dem Bediener eine Prognose darüber liefern, welche Auswirkungen die Änderungen von Sollwerten oder Fahrweisen haben, ohne den Prozess stören zu müssen. Ein solches System nennt man Bedienerunterstützungssystem (Operator Support System, OSS). Es unterstützt den Anlagenfahrer bei Entscheidungen. So kann dieses Modell den Anlagenfahrer bei der Entscheidung über einen optimalen Satz von Sollwerten unterstützen, indem es Auswirkungen von Eingriffen vorwegnimmt und suboptimale oder fehlerhafte Eingriffe verhindert. 7.5 Online-Optimierer Ein Online-Optimierer nutzt ein Modell zur ständigen Berechnung des optimalen Betriebszustands. Oft besteht dieser aus einem Betriebszustand, bei dem eine gewünschte Qualität zu minimalen spezifischen Produktionskosten hergestellt werden kann. Ein Optimierer führt den Prozess. Der Einsatz eines OnlineOptimierers ist der komplexeste Fall der Anwendung datengetriebener Modelle in übergeordneten Regel- www.vdi.de 34 Big Data – Best Practice verfahren Advanced Process Control (APC). Er setzt folgende Komponenten voraus: n gültiges und validiertes Prozessmodell n aufwendige Plausibilitätskontrolle n Optimierer hinreichender mathematischer Ordnung (Linearität) n Schranken in Form von Ungleichungen n eindeutige Zielfunktion Der Online-Optimierer simuliert einen idealen menschlichen Anlagenbediener mit einer mathematischen Methode, kann aber im Gegensatz zu ihm in komplexen Situationen sekundenschnell optimale Entscheidungen fällen. Damit eignet er sich insbesondere für die Führung kostensensibler großtechnischer Prozesse. Der Online-Optimierer berechnet auf der Basis seiner Schranken und einer (meist ökonomischen) Zielfunktion für jede Situation des Prozesses einen optimalen Satz von Sollwerten für alle manipulierbaren Variablen. 8 Bewertung von Lösungen/Control-Schritt Die Bewertung von Lösungen wird in der Regel durch Vergleich der Effizienz eines Prozesses vor und nach Einsatz einer Lösung durchgeführt. Je nach behandeltem Problem kann dies eine Reduktion von Ausschuss, die Verbesserung der Produktqualität gemessen an der Streuung einer qualitätsrelevanten Antwortgröße oder aber die Minimierung der relativen Produktionskosten sein. Mit Modellen lässt sich sogar vor Implementierung einer Lösung schätzen, welche Einsparungen mit der Lösung zu erwarten wäre. Ist der KPI eine Kostenfunktion in Euro oder Dollar pro Stunde oder pro Tonne, kann die Einsparung über ein gesamtes Betriebsjahr berechnet werden. Das Vorgehen dazu sieht wie folgt aus: www.vdi.de n Aus dem vergangenen Betriebsjahr werden alle Messdaten im Stundenmittelwert oder Stichprobenraster vorgelegt und durch das Modell gefahren. Für jede Modellschätzung wird der Ziel KPI berechnet. n Dann wird für jeden Datensatz mit einem nichtlinearen Optimierer ein optimaler Satz von manipulierbaren Variablen berechnet und auf das Modell gegeben. Wieder wird der KPI berechnet. n Für jede Stunde oder jede Stichprobe lässt sich die Differenz der KPI berechnen. n Die gewichtete Summe (Integral) der Verbesserung der KPI über das ganze Jahr ist das Potenzial, das in einem typischen Betriebsjahr gegeben wäre. Big Data – Best Practice 35 9 Zusammenfassung Dieser Statusreport beschreibt als Best Practice die Abläufe (Workflows) in Big-Data-Projekten für die Industrie. Zur Beschreibung wird die aus Six Sigma bekannte DMAIC-Methode verwendet und wichtige Gesichtspunkte zu Big Data anhand jeden Einzelschritts erläutert. Im Schritt „Define“ steht die Potenzialanalyse, die bei verschiedenen Produktionsarten (diskrete, hybride, kontinuierliche Prozesse) spezifische Merkmale aufweist, im Mittelpunkt. Anhand von Indikatoren werden diese Potenziale quantifiziert. Der Schritt „Measure“ widmet sich der Tätigkeit der Datenerhebung. Die Qualität der Daten ist hier ein relevanter Faktor. Für den nachfolgenden „Analyze“Schritt beschreibt der Statusreport eine Vielzahl von Datenanalyse-Methoden, die alle ihre Wirksamkeit in realen Anwendungen bereits gezeigt haben. Aus der Anwendung dieser Methoden können die produktionstechnischen Prozesse analysiert, Effekte diagnostiziert, eine Vorausschau und Verbesserung des Prozesses abgeleitet werden. Diesem „Improve“-Schritt folgt der letzte Schritt, der „Control-Schritt“. Hier wird die erreichte Verbesserung durch Bestimmung der Werte für die im Schritt „Define“ ausgewählten Indikatoren bewertet. Der Bericht ist ein Ergebnis des Fachausschusses GMA-FA 7.24, weitere Arbeiten werden sich in der Erweiterung der Methoden, Arbeiten zur Standardisierung und dem Wissenstransfer zur verbesserten Anwendung von Big Data in der produzierenden Industrie unter der Perspektive Mess- und Automatisierungstechnik widmen. Durch die Verwendung von Grey-Box-Modellen kann Anwendungswissen und auch Produkt- und Produktions-Know-how mit der Datenanalyse kombiniert werden. Dies wird die Anwendungsziele von Big Data, von Prozess- und Anlagendiagnosen bis zur vorausschauenden und verbesserten Führung von Produktionsprozessen stärken. Durch parallele Technologwie-Trends und –entwicklungen wie Smart Devices und dem Internet der Dinge (IoT) wird die Verfügbarkeit von Daten weiter ansteigen. Damit wächst die Bedeutung von Big Data. www.vdi.de 36 Big Data – Best Practice Literatur DIN 19226-2:1994-02 Leittechnik; Regelungstechnik und Steuerungstechnik; Begriffe zum Verhalten dynamischer Systeme (Control technology; terms and definitions; dynamic systems behaviour). Zurückgezogen 2009-06, Nachfolgedokument DIN IEC 60050-351 VDI 1000:2010-06 VDI-Richtlinienarbeit; Grundsätze und Anleitungen (VDI Guideline Work; Principles and procedures). Berlin: Beuth Verlag Atzmueller, M.:Subgroup Discovery, WIREs: Data Mining and Knowledge Discovery 5(1), Wiley, 2015 Hochrein, Alig et al.: Prozessmesstechnik in der Kunstoffaufbereitung, Vogel Verlag, 2011 Toutenburg H, Gösl, R.: Versuchsplanung in der Industrie, Prentice Hall, 1996 WIKIPEDIA, www.wikipedia.de Freie Enzyklopädie mit dem Stand vom 1. März 2015 Zell A.: Simulation Neuronaler Netze, Addison Weslay, 1994 Zimmermann H.-J., Neuro + Fuzzy – Technologien – Anwendungen, VDI Verlag Der VDI Sprecher, Gestalter, Netzwerker Die Faszination für Technik treibt uns voran: Seit 160 Jahren gibt der VDI Verein Deutscher Ingenieure wichtige Impulse für neue Technologien und technische Lösungen für mehr Lebensqualität, eine bessere Umwelt und mehr Wohlstand. Mit rund 155.000 persönlichen Mitgliedern ist der VDI der größte technisch-wissenschaftliche Verein Deutschlands. Als Sprecher der Ingenieure und der Technik gestalten wir die Zukunft aktiv mit. Mehr als 12.000 ehrenamtliche Experten bearbeiten jedes Jahr neueste Erkenntnisse zur Förderung unseres Technikstandorts. Als drittgrößter Regelsetzer ist der VDI Partner für die deutsche Wirtschaft und Wissenschaft. www.vdi.de Verein Deutscher Ingenieure e.V. Technik und Wissenschaft Dr. Thomas Sowa Tel. +49 211 6214-223 [email protected] www.vdi.de