Data Mining und datenbasierte Modellierung für den

Werbung
Data Mining und datenbasierte Modellierung zur
Unterstützung des Kläranlagenbetriebs
David Dürrenmatt, Rittmeyer AG
68. VSA-HMV, 27. April 2012
Swiss Water
Pollution Control
Association
Associazione svizzera
dei professionisti
della protezione
delle acque
Association suisse
des professionnels
de la protection
des eaux
Verband Schweizer
Abwasser- und
Gewässerschutzfachleute
Anzahl
Hunderte Signale
Gigabyteweise
Daten
Nur einfache
Analysewerkzeuge
Clustering von UV/Vis Absorptionsspektren
EINFÜHRUNGSBEISPIEL
Ziele und Ausgangslage
a) Identifikation charakteristischer Abwasserzusammensetzungen
b) Falls Zuordnung zu Produzent möglich: Können Einleitvorgänge
erkannt werden?
Messstelle Zulauf ARA:
UV/Vis Absorptionsspektren
Ziele und Ausgangslage
a) Identifikation charakteristischer Abwasserzusammensetzungen
b) Falls Zuordnung zu Produzent möglich: Können Einleitvorgänge
erkannt werden?
Daten:
- 1 Spektrum/Minute während
18 Tagen (26’000 Spektren)
- 100 Messpunkte pro Spektrum
- Über 2.6 Mio. Datenpunkte
Messstelle Zulauf ARA:
UV/Vis Absorptionsspektren
Clustering- und Klassifikationsmodell
(Beschreibung)
(Prognose)
Validierungsexperiment
Validierung Klassifikationsmodell:
(10 Tage Daten, 98 Einleitvorgänge)
95 erkannt, 2 falsch positiv und
5 falsch negativ
DATA MINING MIT
KLÄRANLAGENDATEN
Was ist Data Mining?
Data Mining ist die mit Hilfe (semi-)automatischer Methoden
durchgeführte Exploration und Analyse grosser
Datenmengen zur Entdeckung neuer und sinnvoller
Muster und Regeln.
(nach Berry und Linoff, 1997)
Data Mining Aufgabenstellungen
Beschreibung
Clusteranalyse
Änderungs- und
Ausreissererkennung
Prognose
Regressionsanalyse
Assoziationsanalyse
Zusammenfassung
Klassifikation
Data Mining auf Kläranlagen
Unterstützung des ARA-Betreibers durch automatisierte systematische
Extraktion von Mustern und Regeln aus vorhandenen Betriebsdaten
Grösste Herausforderungen:
- Grosse Dynamik, instationäre Prozesse
- Heterogene Daten, Qualität unbekannt
- Überanpassung an Daten (Overfitting)
- Formulierung geeigneter Fragestellungen
- Implementierung, Kommunikation der Resultate
Erfolgreiche Implementierung und Betrieb verlangen:
- Adaptive Algorithmen, angepasste Komplexität
- Verlässliche und sichere Anwendung vor Ort
- Wirtschaftliche Implementierung
“Knowledge Discovery Process Model”
Ziel:
Systematische Führung durch den iterativen und interaktiven
Data Mining Prozess, um ein optimales Resultat zu erhalten.
1.
2.
3.
4.
5.
6.
Gesucht: Optimale Verarbeitungskette
Beispiel Clustering UV/Vis Absorptionsspektren:
Rohdaten
Kalibrierung/
Validierung
VerdünnungsKompensation
Datenpartitionierung
Spektren
Normalisieren
Daten-Reduktion, Agglomerativ hierEntrauschen
archische Analyse
Self-Organizing
Map (SOM)
Ward
Clustering
Clustering
Modell
Expertenwissen vs. Modelleigenschaften
vs. Datenmenge
CV(RMSD) [-]
Beispiel Software-Sensor:
(lineare Modelle)
“Knowledge Discovery Process Model”
Ziel:
Systematische Führung durch den iterativen und interaktiven
Data Mining Prozess, um ein optimales Resultat zu erhalten.
Vielfältige Anwendungsgebiete
Z.B. Unterstützung der dynamischen Simulation von Kläranlagen:
Zulaufdaten-Generator
Daten
> 40 ARAs
Fourier-Reihe
Reaktorhydraulik
Tin
Tout
Genetische
Programmierung
Data Mining Mythen und Fallstricke
Fünf Mythen:
#1: Es geht nur um Algorithmen
#2: Einzig die Vorhersagegenauigkeit zählt
#3: Setzt ein Daten-Warenhaus voraus
#4: Riesige Datenmengen erforderlich
#5: Ist Aufgabe eines Data Mining Experten
Fünf Fallstricke:
#1: Unhandliche Datenmenge
#2: Planloses Data Mining
#3: Fehlende ARA-Prozesskenntnisse
#4: Mangelhafte Datenkenntnisse
#5: Fehlerhafte Annahmen (auch von Experten)
(nach Khabaza, 2005, bearbeitet)
AUSBLICK UND
ZUSAMMENFASSUNG
Ausblick: Optimierungssoftware für ARA
Innovationsprojekt Rittmeyer AG:
Zusammenfassung
Betriebsdaten
Data Mining und
Datenbasierte Modellierung
+
Prozesskenntnis
Hunderte
Signale
Information
Gigabyteweise
Daten
Nur einfache
Analysewerkzeuge
[email protected]
Herunterladen