Define - Fujitsu

Werbung
PRIMEFLEX for Hadoop
Analyse von
Maschinendaten
Mainframe Day
25. Januar 2017
Fujitsu München
Dr. Fritz Schinkel
0
Copyright 2016 FUJITSU
Big Data Hands-On Platform
Disk failure prediction
Machine Tool Anomaly Detection
Production Idle Time Classification
1
Copyright 2016 FUJITSU
Big Data Wertschöpfungskette
Forschung &
Entwicklung,
Wissenschaft
Strukturierte &
unstrukturierte Daten
Big Data
Geräte,
Sensoren,
Internet der Dinge
Soziale Medien,
offene Daten,
verknüpfte Daten
Interaktive
Berichte,
Werbung
Entdecken
Entscheiden
Handeln
Extrahieren
Sammeln
Bereinigen
Transformieren
Analysieren
Betrieb,
Automatisierung,
Produktion
Strukturierter Ansatz durch Beratung, Infrastruktur und Tooling.
2
Copyright 2016 FUJITSU
Big Data Infrastruktur Referenz Architektur:
Plattform passend zur Geschäftsidee
Datenquellen
Datenbanken
Analyseplattform
Zugriff
Apps
Dienste
Abfragen
BatchVerarbeitung
Applikationserver
DialogVerarbeitung
WebInhalte
Sensordaten
Vielfältige Data
Extrahieren, Sammeln
EreignisVerarbeitung
Visualisierung
Reporting
Mitteilungen
Konsolidierte Daten
Destillierte Essenz
Bereinigung, Transformation
Analyse, Visualisierung
3
Angewandtes
Wissen
Entscheiden, Handeln
Copyright 2016 FUJITSU
Mehr als Map Reduce –
Hadoop Software Stack (Auswahl)
Hive
SQL
Spark Spark
Spark Spark
SQL Stream- GraphX MLlib
ing
TEZ
Execution
Engine
(DAG)
Spark
Res. Distr. Data
Execution Engine
(In-Memory)
(DAG)
SAP
Vora
SQL
HDFS
Redundant, Reliable Persistent Storage
4
Kafka
Hbase
SQL
Queueing
NoSQL
Key
value
store
Resource Mgt. Storage
YARN
Cluster Resource Management
SAP
HANA
engine
Impala
Data Mgt.
MapReduce
Execution
Engine (Linear)
Datameer
Visual
Analytics
Data Access
Pig
Script
Copyright 2016 FUJITSU
Bedienung: Daten statt Technik
Strukturierte &
unstrukturierte Daten
Geräte,
Sensoren,
Internet der Dinge
Sammlung
Analyse
Action
Soziale Medien,
offene / verknüpfte
Daten
5
Copyright 2016 FUJITSU
Big Data Hands-On Platform
Disk failure prediction
Machine Tool Anomaly Detection
Production Idle Time Classification
6
Copyright 2016 FUJITSU
Formulate Use Case
Evaluate
Predictive Maintenance for Disk Arrays
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
Develop Model and
Visualiztion
 Goals
 Early detection of disk failures
101 Log
files
 Prevent onsite interventions at night and weekends
from 71
systems
 Asset: Storage system system logs
 Error statistics per disk
 Disk replacements
 Approach: Pattern finding / Training
 Find early warning criteria
 Evaluate criteria against historical data (economical value)
7
Copyright 2016 FUJITSU
Overview – Flow of Analysis
Error points on
58% of faulted
disks
875 disks
faulted
101 Log
files
from 71
systems
Import to
analysis tool
Financial
model
Check
potential
Find
indicators
Search
for criteria
Training
data
Result
weighting
Split
input data
Define
metrics
Best
parameters
Evaluation
data
What-if
analysis
Visualize
Result
Use best
parameter
8
Improve
and repeat
Copyright 2016 FUJITSU
Formulate Use Case
Evaluate
Data Selection and Transformation
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
Develop Model and
Visualiztion
 Suspect: Error point value and frequency grow in forefront of failure
 Use error point histories with failure as endpoint
13 days
4 days
9
3 days
Copyright 2016 FUJITSU
Formulate Use Case
Evaluate
Develop Model (and Visualiztion)
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
Develop Model and
Visualiztion
Find suitable test criteria
 Time series of error points
 Heavily oscillating
 No obvious trend and threshold
disk failure
 Moving average of error points
 Get smoother time series
 Trend becomes visible
 Moving average of error frequency
 Try thresholds for
 Short / mid / long moving average
 linear combinations of averages
 Modulate moving average window
13 days
10
Copyright 2016 FUJITSU
Data Selection and Transformation revisited:
Error Careers of Failing vs. Non-Failing Disks
Formulate Use Case
Evaluate
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
Develop Model and
Visualiztion
Higher frequency of points
in forefront of error
Strong growth in the „final“
phase, means spontanuous
healing of surviving disks!
Plausible?
11
Copyright 2016 FUJITSU
Formulate Use Case
Evaluate
Observation: Gaps in the log files
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
Develop Model and
Visualiztion
begin / end
Day without entry
12
Copyright 2016 FUJITSU
Formulate Use Case
Evaluate
Data Selection: Gap Free Log Files
Data Preparation and
Exploration
and Monitor
Data Selection and
Transformation
Deploy
Validate
13
Develop Model and
Visualiztion
Copyright 2016 FUJITSU
Result
 Positive economic effect
 Savings for onsite interventions vs.
 Cost for untimely removed disk
 Hit ratio depending on reason for degrading
 Over all hit ratio is between 40 and 50%
 Excellent for degraded by “Disk statistics”: 91-94%
 20% of disks degraded “At once” detected
 Further improvements by direct data sources
14
Copyright 2016 FUJITSU
Big Data Hands-On Platform
Disk failure prediction
Machine Tool Anomaly Detection
Production Idle Time Classification
15
Copyright 2016 FUJITSU
Analyze Sensor Data From CNC Lathe
 Sensor logs from turning machine using multiple
tools on a work piece
 Many files (one per tool application) with sensor
readings (100/second)
 Short Target: Find unusual sensor readings pointing
to production failure
 Mid Target: Find metrics and thresholds to detect
faulty tool application in real time sensor data
 Long Target: Find rules to predict tool failure before
it happens
16
Copyright 2016 FUJITSU
Step 1: Import data
1)
Import of many files to
HDFS from various shared
or remote sources
(NFS, SSH, FTP, HTTP,…)
Import wizards for
many source formats
(CSV, JSON, XML, …)
Transformation to Excel
like table format
1) Evaluation data set kindly provided by Prof. Dr.-Ing. Joachim Imiela, Geschäftsführer Optvia Unternehmensberatung (http://www.optvia.de)
17
Copyright 2016 FUJITSU
Step 2: Get a quick overview
8017 is
the most
used tool
Use Flip Sheet to view
standard column statistics
Build Drag&Drop Infographics to discover more details
18
Copyright 2016 FUJITSU
Step 3: Create Metric for Automatic Detection
Idea: Build average of all graphs
and calculate distance
of each graph to average
graph by using L2 norm
19
Copyright 2016 FUJITSU
Step 4: Visualize Metric And Eliminate Anomalies
Tools with two different
workflows. Find criteria in
data to separate them
20
Copyright 2016 FUJITSU
Step 5: Determine Threshold
Application failure
of tool 8017
Threshold of 0.6 can be used
in real time metric processing
to quickly detect defect parts
21
Copyright 2016 FUJITSU
Big Data Hands-On Platform
Disk failure prediction
Machine Tool Anomaly Detection
Production Idle Time Classification
22
Copyright 2016 FUJITSU
Zielstellung
 Maschinendaten verstehen lernen
 Verbesserung der Produktions- und Instandhaltungsplanung
 Fokus: differenzierte Erfassung von Verlustzeiten zur Ableitung von
gezielten Verbesserungsmaßnahmen notwendig
Nettobetriebszeit
Wartung
Anfahrverluste
Werkzeugwechsel
Rüsten
Kurzstillstände
Störungen
Materialmangel
Verlustzeit
Produktionszeit
Wil/86773 © IFW
23
Copyright 2016 FUJITSU
Vorgehensweise zur Problemlösung
 Whitebox-Modell
 Umfassende Beobachtung und Datenerhebung
 Detailliertes Verständnis aller Parameter
 Präzise Auswertung
 Rechenaufwand gering
 Modellbildung aus Kombination von Parametern
 Blackbox-Modell
 Beobachtung der grundlegenden Parameter
 Gruppierung der Stillstandsereignisse
 Modellbildung anhand typischer Einzelereignisse
24
 Modellierungsaufwand
gering
 Modell Übertragbarkeit
 Unerwartete Erkenntnisse
Copyright 2016 FUJITSU
Unsupervised Learning:
k-Means Clustering (Lloyd, 1957)
 Gesucht: Gruppen benachbarter Individuen (Cluster)
 Kleiner Abstand der Individuen zum Clusterschwerpunkt („Kosten“)
 Algorithmus
 Start: Positioniere k verschiedenfarbige Kreuze
 Iteration: „Färben“ und „Mitteln“
• Färbe Individuum wie nächstes Kreuz
• Setze Kreuz in die Mitte der gleichfarbigen Individuen
 Stopp wenn sich nichts mehr ändert
Start
Färben
Mitteln
Färben
Mitteln
Färben / Stopp
=
25
Copyright 2016 FUJITSU
k-means Clustering Experimente
 Aufbau
 Dimensionen: Zeit und mittlere Spindelpositionen
 Versuche für k= 5, 6, 7, 8,15
 Durchführung
Kosten für k=5,6,7,8,15
 PRIMEFLEX for Hadoop
 Ergebnis
 Ellbogen der Kostenkurve für k=6
 Gut strukturierter Cluster (Silhouetten-Koeffizient 0,76)
Stillstandphasen
0.0
0.5
0.8
Zwischen -1 und 1,
Hoch ist gut
 Gruppiere Stillstände in 6 Cluster
Silhouetten-Koeffizienten
(Gesamtsystem stark strukturiert 0.76)
26
Copyright 2016 FUJITSU
Ergebnis für k=6
 Gute räumliche Trennung(x-Koordinate)
 Cluster #1
Position
 Cluster #2, #5 und #6
 Deutliche zeitliche Trennung
 Cluster #4
100.000
10.000
Zeitdauer
 Zeitliche Trennung und Fokussierung
 Cluster #3
 Schlecht trennbar in allen Dimensionen
1.000
100
10
1
0,1
Cluster Index
27
Copyright 2016 FUJITSU
Interpretation der Cluster
 #1: Hohe Dauer (Tage)
 Pausen
Position
 #2: Dauer (Sekunden), Streuung
 Produktion
 #6: Fokussierte Dauer ~10 Sekunden
 Werkzeugwechsel
 #5: Fokussierte Positionen
 Rüsten?
 #4: Fokussierte Dauer ~12 Minuten
 Unklar
100.000
Zeitdauer
10.000
Zeitreihe: Konturbewegung bei Spindelstillstand
 Messen
 #3: Nicht fokussiert
1.000
100
10
1
0,1
Sonstiges
Cluster Index
28
Copyright 2016 FUJITSU
Relevanz der Cluster Analyse (Blackbox)
 Rüsten, Wartung und Sonstiges
noch nicht scharf trennbar
 Cluster #4 gibt Hinweis auf
Messvorgänge (unerwartetes
Ergebnis)
 Detailanalyse in Cluster #4:
 4h Messen
 8h Rüsten
 Plausible Aufteilung der
Stillstandszeiten durch Clustering
100.000
10.000

!
1.000

100
Zeitdauer
 Produktion, Pausen und
Werkzeugwechselzeiten gut
erkannt
10

1

0,1
Cluster Index
Profil
Whitebox
Cluster
Blackbox
Produktion
3,77 Tage
#2
3,59 Tage
Pausen
2,93 Tage
#1
2,99 Tage
Rüstzeit
8,7 h
#5
0,18 h
Werkzeugwechsel
1,14 h
#6
1,14 h
Mess- und Rüstzeit
-
#4
12,36h
Sonstiges
1,41 h
#3
0,24h
29
8h 4h
Copyright 2016 FUJITSU
Big Data Hands-On Platform
Fast end-to-end import, analysis and visualization
Disk failure prediction
What-if optimized combination of metrics
Machine Tool Anomaly Detection
Generalization from visualized torque time series
Production Idle Time Classification
k-means based blackbox model
30
Copyright 2016 FUJITSU
31
Copyright 2016 FUJITSU
Herunterladen