Data Mining und datenbasierte Modellierung zur Unterstützung des Kläranlagenbetriebs David Dürrenmatt, Rittmeyer AG 68. VSA-HMV, 27. April 2012 Swiss Water Pollution Control Association Associazione svizzera dei professionisti della protezione delle acque Association suisse des professionnels de la protection des eaux Verband Schweizer Abwasser- und Gewässerschutzfachleute Anzahl Hunderte Signale Gigabyteweise Daten Nur einfache Analysewerkzeuge Clustering von UV/Vis Absorptionsspektren EINFÜHRUNGSBEISPIEL Ziele und Ausgangslage a) Identifikation charakteristischer Abwasserzusammensetzungen b) Falls Zuordnung zu Produzent möglich: Können Einleitvorgänge erkannt werden? Messstelle Zulauf ARA: UV/Vis Absorptionsspektren Ziele und Ausgangslage a) Identifikation charakteristischer Abwasserzusammensetzungen b) Falls Zuordnung zu Produzent möglich: Können Einleitvorgänge erkannt werden? Daten: - 1 Spektrum/Minute während 18 Tagen (26’000 Spektren) - 100 Messpunkte pro Spektrum - Über 2.6 Mio. Datenpunkte Messstelle Zulauf ARA: UV/Vis Absorptionsspektren Clustering- und Klassifikationsmodell (Beschreibung) (Prognose) Validierungsexperiment Validierung Klassifikationsmodell: (10 Tage Daten, 98 Einleitvorgänge) 95 erkannt, 2 falsch positiv und 5 falsch negativ DATA MINING MIT KLÄRANLAGENDATEN Was ist Data Mining? Data Mining ist die mit Hilfe (semi-)automatischer Methoden durchgeführte Exploration und Analyse grosser Datenmengen zur Entdeckung neuer und sinnvoller Muster und Regeln. (nach Berry und Linoff, 1997) Data Mining Aufgabenstellungen Beschreibung Clusteranalyse Änderungs- und Ausreissererkennung Prognose Regressionsanalyse Assoziationsanalyse Zusammenfassung Klassifikation Data Mining auf Kläranlagen Unterstützung des ARA-Betreibers durch automatisierte systematische Extraktion von Mustern und Regeln aus vorhandenen Betriebsdaten Grösste Herausforderungen: - Grosse Dynamik, instationäre Prozesse - Heterogene Daten, Qualität unbekannt - Überanpassung an Daten (Overfitting) - Formulierung geeigneter Fragestellungen - Implementierung, Kommunikation der Resultate Erfolgreiche Implementierung und Betrieb verlangen: - Adaptive Algorithmen, angepasste Komplexität - Verlässliche und sichere Anwendung vor Ort - Wirtschaftliche Implementierung “Knowledge Discovery Process Model” Ziel: Systematische Führung durch den iterativen und interaktiven Data Mining Prozess, um ein optimales Resultat zu erhalten. 1. 2. 3. 4. 5. 6. Gesucht: Optimale Verarbeitungskette Beispiel Clustering UV/Vis Absorptionsspektren: Rohdaten Kalibrierung/ Validierung VerdünnungsKompensation Datenpartitionierung Spektren Normalisieren Daten-Reduktion, Agglomerativ hierEntrauschen archische Analyse Self-Organizing Map (SOM) Ward Clustering Clustering Modell Expertenwissen vs. Modelleigenschaften vs. Datenmenge CV(RMSD) [-] Beispiel Software-Sensor: (lineare Modelle) “Knowledge Discovery Process Model” Ziel: Systematische Führung durch den iterativen und interaktiven Data Mining Prozess, um ein optimales Resultat zu erhalten. Vielfältige Anwendungsgebiete Z.B. Unterstützung der dynamischen Simulation von Kläranlagen: Zulaufdaten-Generator Daten > 40 ARAs Fourier-Reihe Reaktorhydraulik Tin Tout Genetische Programmierung Data Mining Mythen und Fallstricke Fünf Mythen: #1: Es geht nur um Algorithmen #2: Einzig die Vorhersagegenauigkeit zählt #3: Setzt ein Daten-Warenhaus voraus #4: Riesige Datenmengen erforderlich #5: Ist Aufgabe eines Data Mining Experten Fünf Fallstricke: #1: Unhandliche Datenmenge #2: Planloses Data Mining #3: Fehlende ARA-Prozesskenntnisse #4: Mangelhafte Datenkenntnisse #5: Fehlerhafte Annahmen (auch von Experten) (nach Khabaza, 2005, bearbeitet) AUSBLICK UND ZUSAMMENFASSUNG Ausblick: Optimierungssoftware für ARA Innovationsprojekt Rittmeyer AG: Zusammenfassung Betriebsdaten Data Mining und Datenbasierte Modellierung + Prozesskenntnis Hunderte Signale Information Gigabyteweise Daten Nur einfache Analysewerkzeuge [email protected]