PRIMEFLEX for Hadoop Analyse von Maschinendaten Mainframe Day 25. Januar 2017 Fujitsu München Dr. Fritz Schinkel 0 Copyright 2016 FUJITSU Big Data Hands-On Platform Disk failure prediction Machine Tool Anomaly Detection Production Idle Time Classification 1 Copyright 2016 FUJITSU Big Data Wertschöpfungskette Forschung & Entwicklung, Wissenschaft Strukturierte & unstrukturierte Daten Big Data Geräte, Sensoren, Internet der Dinge Soziale Medien, offene Daten, verknüpfte Daten Interaktive Berichte, Werbung Entdecken Entscheiden Handeln Extrahieren Sammeln Bereinigen Transformieren Analysieren Betrieb, Automatisierung, Produktion Strukturierter Ansatz durch Beratung, Infrastruktur und Tooling. 2 Copyright 2016 FUJITSU Big Data Infrastruktur Referenz Architektur: Plattform passend zur Geschäftsidee Datenquellen Datenbanken Analyseplattform Zugriff Apps Dienste Abfragen BatchVerarbeitung Applikationserver DialogVerarbeitung WebInhalte Sensordaten Vielfältige Data Extrahieren, Sammeln EreignisVerarbeitung Visualisierung Reporting Mitteilungen Konsolidierte Daten Destillierte Essenz Bereinigung, Transformation Analyse, Visualisierung 3 Angewandtes Wissen Entscheiden, Handeln Copyright 2016 FUJITSU Mehr als Map Reduce – Hadoop Software Stack (Auswahl) Hive SQL Spark Spark Spark Spark SQL Stream- GraphX MLlib ing TEZ Execution Engine (DAG) Spark Res. Distr. Data Execution Engine (In-Memory) (DAG) SAP Vora SQL HDFS Redundant, Reliable Persistent Storage 4 Kafka Hbase SQL Queueing NoSQL Key value store Resource Mgt. Storage YARN Cluster Resource Management SAP HANA engine Impala Data Mgt. MapReduce Execution Engine (Linear) Datameer Visual Analytics Data Access Pig Script Copyright 2016 FUJITSU Bedienung: Daten statt Technik Strukturierte & unstrukturierte Daten Geräte, Sensoren, Internet der Dinge Sammlung Analyse Action Soziale Medien, offene / verknüpfte Daten 5 Copyright 2016 FUJITSU Big Data Hands-On Platform Disk failure prediction Machine Tool Anomaly Detection Production Idle Time Classification 6 Copyright 2016 FUJITSU Formulate Use Case Evaluate Predictive Maintenance for Disk Arrays Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate Develop Model and Visualiztion Goals Early detection of disk failures 101 Log files Prevent onsite interventions at night and weekends from 71 systems Asset: Storage system system logs Error statistics per disk Disk replacements Approach: Pattern finding / Training Find early warning criteria Evaluate criteria against historical data (economical value) 7 Copyright 2016 FUJITSU Overview – Flow of Analysis Error points on 58% of faulted disks 875 disks faulted 101 Log files from 71 systems Import to analysis tool Financial model Check potential Find indicators Search for criteria Training data Result weighting Split input data Define metrics Best parameters Evaluation data What-if analysis Visualize Result Use best parameter 8 Improve and repeat Copyright 2016 FUJITSU Formulate Use Case Evaluate Data Selection and Transformation Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate Develop Model and Visualiztion Suspect: Error point value and frequency grow in forefront of failure Use error point histories with failure as endpoint 13 days 4 days 9 3 days Copyright 2016 FUJITSU Formulate Use Case Evaluate Develop Model (and Visualiztion) Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate Develop Model and Visualiztion Find suitable test criteria Time series of error points Heavily oscillating No obvious trend and threshold disk failure Moving average of error points Get smoother time series Trend becomes visible Moving average of error frequency Try thresholds for Short / mid / long moving average linear combinations of averages Modulate moving average window 13 days 10 Copyright 2016 FUJITSU Data Selection and Transformation revisited: Error Careers of Failing vs. Non-Failing Disks Formulate Use Case Evaluate Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate Develop Model and Visualiztion Higher frequency of points in forefront of error Strong growth in the „final“ phase, means spontanuous healing of surviving disks! Plausible? 11 Copyright 2016 FUJITSU Formulate Use Case Evaluate Observation: Gaps in the log files Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate Develop Model and Visualiztion begin / end Day without entry 12 Copyright 2016 FUJITSU Formulate Use Case Evaluate Data Selection: Gap Free Log Files Data Preparation and Exploration and Monitor Data Selection and Transformation Deploy Validate 13 Develop Model and Visualiztion Copyright 2016 FUJITSU Result Positive economic effect Savings for onsite interventions vs. Cost for untimely removed disk Hit ratio depending on reason for degrading Over all hit ratio is between 40 and 50% Excellent for degraded by “Disk statistics”: 91-94% 20% of disks degraded “At once” detected Further improvements by direct data sources 14 Copyright 2016 FUJITSU Big Data Hands-On Platform Disk failure prediction Machine Tool Anomaly Detection Production Idle Time Classification 15 Copyright 2016 FUJITSU Analyze Sensor Data From CNC Lathe Sensor logs from turning machine using multiple tools on a work piece Many files (one per tool application) with sensor readings (100/second) Short Target: Find unusual sensor readings pointing to production failure Mid Target: Find metrics and thresholds to detect faulty tool application in real time sensor data Long Target: Find rules to predict tool failure before it happens 16 Copyright 2016 FUJITSU Step 1: Import data 1) Import of many files to HDFS from various shared or remote sources (NFS, SSH, FTP, HTTP,…) Import wizards for many source formats (CSV, JSON, XML, …) Transformation to Excel like table format 1) Evaluation data set kindly provided by Prof. Dr.-Ing. Joachim Imiela, Geschäftsführer Optvia Unternehmensberatung (http://www.optvia.de) 17 Copyright 2016 FUJITSU Step 2: Get a quick overview 8017 is the most used tool Use Flip Sheet to view standard column statistics Build Drag&Drop Infographics to discover more details 18 Copyright 2016 FUJITSU Step 3: Create Metric for Automatic Detection Idea: Build average of all graphs and calculate distance of each graph to average graph by using L2 norm 19 Copyright 2016 FUJITSU Step 4: Visualize Metric And Eliminate Anomalies Tools with two different workflows. Find criteria in data to separate them 20 Copyright 2016 FUJITSU Step 5: Determine Threshold Application failure of tool 8017 Threshold of 0.6 can be used in real time metric processing to quickly detect defect parts 21 Copyright 2016 FUJITSU Big Data Hands-On Platform Disk failure prediction Machine Tool Anomaly Detection Production Idle Time Classification 22 Copyright 2016 FUJITSU Zielstellung Maschinendaten verstehen lernen Verbesserung der Produktions- und Instandhaltungsplanung Fokus: differenzierte Erfassung von Verlustzeiten zur Ableitung von gezielten Verbesserungsmaßnahmen notwendig Nettobetriebszeit Wartung Anfahrverluste Werkzeugwechsel Rüsten Kurzstillstände Störungen Materialmangel Verlustzeit Produktionszeit Wil/86773 © IFW 23 Copyright 2016 FUJITSU Vorgehensweise zur Problemlösung Whitebox-Modell Umfassende Beobachtung und Datenerhebung Detailliertes Verständnis aller Parameter Präzise Auswertung Rechenaufwand gering Modellbildung aus Kombination von Parametern Blackbox-Modell Beobachtung der grundlegenden Parameter Gruppierung der Stillstandsereignisse Modellbildung anhand typischer Einzelereignisse 24 Modellierungsaufwand gering Modell Übertragbarkeit Unerwartete Erkenntnisse Copyright 2016 FUJITSU Unsupervised Learning: k-Means Clustering (Lloyd, 1957) Gesucht: Gruppen benachbarter Individuen (Cluster) Kleiner Abstand der Individuen zum Clusterschwerpunkt („Kosten“) Algorithmus Start: Positioniere k verschiedenfarbige Kreuze Iteration: „Färben“ und „Mitteln“ • Färbe Individuum wie nächstes Kreuz • Setze Kreuz in die Mitte der gleichfarbigen Individuen Stopp wenn sich nichts mehr ändert Start Färben Mitteln Färben Mitteln Färben / Stopp = 25 Copyright 2016 FUJITSU k-means Clustering Experimente Aufbau Dimensionen: Zeit und mittlere Spindelpositionen Versuche für k= 5, 6, 7, 8,15 Durchführung Kosten für k=5,6,7,8,15 PRIMEFLEX for Hadoop Ergebnis Ellbogen der Kostenkurve für k=6 Gut strukturierter Cluster (Silhouetten-Koeffizient 0,76) Stillstandphasen 0.0 0.5 0.8 Zwischen -1 und 1, Hoch ist gut Gruppiere Stillstände in 6 Cluster Silhouetten-Koeffizienten (Gesamtsystem stark strukturiert 0.76) 26 Copyright 2016 FUJITSU Ergebnis für k=6 Gute räumliche Trennung(x-Koordinate) Cluster #1 Position Cluster #2, #5 und #6 Deutliche zeitliche Trennung Cluster #4 100.000 10.000 Zeitdauer Zeitliche Trennung und Fokussierung Cluster #3 Schlecht trennbar in allen Dimensionen 1.000 100 10 1 0,1 Cluster Index 27 Copyright 2016 FUJITSU Interpretation der Cluster #1: Hohe Dauer (Tage) Pausen Position #2: Dauer (Sekunden), Streuung Produktion #6: Fokussierte Dauer ~10 Sekunden Werkzeugwechsel #5: Fokussierte Positionen Rüsten? #4: Fokussierte Dauer ~12 Minuten Unklar 100.000 Zeitdauer 10.000 Zeitreihe: Konturbewegung bei Spindelstillstand Messen #3: Nicht fokussiert 1.000 100 10 1 0,1 Sonstiges Cluster Index 28 Copyright 2016 FUJITSU Relevanz der Cluster Analyse (Blackbox) Rüsten, Wartung und Sonstiges noch nicht scharf trennbar Cluster #4 gibt Hinweis auf Messvorgänge (unerwartetes Ergebnis) Detailanalyse in Cluster #4: 4h Messen 8h Rüsten Plausible Aufteilung der Stillstandszeiten durch Clustering 100.000 10.000 ! 1.000 100 Zeitdauer Produktion, Pausen und Werkzeugwechselzeiten gut erkannt 10 1 0,1 Cluster Index Profil Whitebox Cluster Blackbox Produktion 3,77 Tage #2 3,59 Tage Pausen 2,93 Tage #1 2,99 Tage Rüstzeit 8,7 h #5 0,18 h Werkzeugwechsel 1,14 h #6 1,14 h Mess- und Rüstzeit - #4 12,36h Sonstiges 1,41 h #3 0,24h 29 8h 4h Copyright 2016 FUJITSU Big Data Hands-On Platform Fast end-to-end import, analysis and visualization Disk failure prediction What-if optimized combination of metrics Machine Tool Anomaly Detection Generalization from visualized torque time series Production Idle Time Classification k-means based blackbox model 30 Copyright 2016 FUJITSU 31 Copyright 2016 FUJITSU