Analyse von Warmwasser-Verbrauchsdaten Masterthesis zur Erlangung des akademischen Grades Master of Science des Studienganges Energietechnik und Energiewirtschaft an der Fachhochschule Vorarlberg Vorgelegt von: Stefan Tobias Kleiner Betreut von: Mag. Peter Kepplinger Dornbirn, den 25.08.2016 Danksagung Hiermit bedanke ich mich bei allen, die mich während meiner Masterstudienzeit unterstützt haben. Besonderer Dank gilt meinem Betreuer Peter Kepplinger, der diese Arbeit erst ermöglicht hat. Er war stets bereit, Probleme offen zu diskutieren und Anstöße für den Fortschritt dieser Arbeit zu geben. Bedanken möchte ich mich auch bei Dane George vom Renewable Energy Storage Laboratory. Er hat die Daten aus dem Feldversuch in Kanada, welche von Thermo Dynamics Ltd. aufgezeichnet wurden, für diese Arbeit bereitgestellt. Weiter bedanke ich mich bei Aled Stephens vom Energy Saving Trust in Lancaster. Er hat die Daten aus deren Feldversuch bereitgestellt, so dass eine breite Datenstruktur für diese Arbeit vorhanden ist. Bei Thomas Grützmacher bedanke ich mich besonders für die technische Unterstützung. Zum Schluss bedanke ich mich bei Bettina Berlinger, welche mich immer motiviert und unterstützt hat. Durch Korrekturlesen hat sie auch zum Erfolg dieser Arbeit beigetragen und einige Stunden investiert. Stefan Tobias Kleiner ETW 14 I Kurzreferat In dieser Masterarbeit wird mit Blick auf einen aktuellen Feldversuch in Vorarlberg untersucht, ob sich aus realen volumetrischen und energetischen Warmwasserverbrauchsprofilen von Privathaushalten Standardlastprofile entwickeln lassen. Dafür war es zu Beginn notwendig reale Daten zu beschaffen. Da sich mit dieser Thematik bisher nur wenige Studien tiefer auseinandergesetzt haben und es daher auch nur wenige Messversuche gibt, ist die verfügbare Datenbasis sehr klein. Es wurden zwei Versuchsreihen aus Kanada und England gefunden, von denen die Daten für diese Arbeit (teilweise) bereitgestellt wurden. Da die Aufzeichnung der Daten aus dem Versuch in Vorarlberg parallel zur Erstellung dieser Arbeit stattgefunden hat, war es leider nicht möglich diese Daten in die Untersuchung miteinzubeziehen. Dafür ist es anschließend möglich, die Ergebnisse dieser Arbeit mit den in Vorarlberg gewonnenen Daten zu validieren. Die verfügbaren Datensätze mussten nach Erhalt genauestens begutachtet und aufbereitet werden. Dies war notwendig, da die Daten völlig unterschiedliche Strukturen aufweisen, diese aber gemeinsam untersucht werden sollen. Aus den aufbereiteten Daten wurden Dateien mit unterschiedlichen zeitlichen Messpunktabständen generiert. Dadurch kann untersucht werden, bei welcher zeitlichen Auflösung (Genauigkeit) das Ergebnis die bestmögliche Qualität aufweist. Leider kann durch die Untersuchungen in dieser Arbeit nicht eindeutig festgestellt werden, ob es möglich ist, Standardlastprofile zu erzeugen, welche allgemeingültig sind. Es konnten weder durch unterschiedliche zeitliche Auflösungen noch durch unterschiedliche Abstandsmessungen für die Clustererzeugung Standardlastprofile mit einer Qualität erzeugt werden, die ein eindeutiges Clustering gewährleisten. Es wurden Unterteilungen von bis zu 500 Clustern untersucht. Die berechneten Cluster weisen sehr große Standardabweichungen auf. Auch die gewählten Gütekriterien zeugen von nur eher schwachen Clusteringergebnissen. Die Untersuchungen dieser Arbeit lassen vermuten, dass die Datenbasis einen sehr großen Einfluss auf die Ergebnisse hat. Somit bleibt jedoch nicht ausgeschlossen, dass allgemeingültige Standardlastprofile aufgrund anderer Clustering Methoden erstellt werden könnten. Stefan Tobias Kleiner ETW 14 II Abstract With a view to a present field test in Vorarlberg (Austria) this master thesis is analyzing if it is possible to generate standard load profiles for the hot water consumption of private households based on real volumetric and energetic hot water consumption profiles. For this it was necessary to provide real data at the beginning. As there are only few studies existing that are focusing on this topic the database is small. Two test series from Canada and England were found from which the data was (partially) made available for this scientific work. Unfortunately it was not possible to include the Vorarlberg data in this consideration since the records took place concurrently to creating this work. However it is possible to validate the results of this work with the data generated in Vorarlberg. The available records had to be examined and prepared precisely. This had to be done as the individual records had completely different structures but they should be examined together. Files with different time lags between the measurements were created from the prepared data files. In doing so it could be analyzed with which temporal resolution (accuracy) the result shows the best possible quality. Unfortunately in the course of this work it could not be indicated clearly if it is possible to generate standard load profiles that are generally valid. Standard load profiles with a quality good enough to ensure explicit clustering could neither be generated through different temporal resolutions nor through different distance measurements for cluster generation. Subdivisions up to 500 clusters were analyzed. The calculated clusters had high standard deviations. The chosen quality criteria also show only weak clustering results. The investigations from this work suggest that the quality and the extent of the underlying data have a major influence on the results. Consequently it cannot be excluded that generally valid standard load profiles for the hot water consumption of private households can be generated on the basis of other clustering methods. Stefan Tobias Kleiner ETW 14 III Inhaltsverzeichnis Abbildungsverzeichnis .......................................................................................... VII Tabellenverzeichnis ............................................................................................... XII Formelverzeichnis .................................................................................................. XII Abkürzungsverzeichnis ......................................................................................... XII 1. Motivation und Ausgangslage .........................................................................13 2. Forschungsfrage ...............................................................................................16 3. Vorgehensweise ................................................................................................17 4. Stand der Technik .............................................................................................21 4.1. Demand Side Management ......................................................................... 21 4.2. Warmwasserbereitstellung .......................................................................... 23 4.3. Bekanntes Warmwassernutzungsverhalten ................................................ 24 4.3.1. Solar City Program in Halifax ................................................................ 24 4.3.2. Sonstiges bekanntes Verhalten ............................................................ 29 4.4. Mögliche Vorhersagemodelle für die Nutzung von Warmwasser ................ 29 4.4.1. Nearest neighbour data-mining ............................................................. 29 4.4.2. ARIMA Modelle ..................................................................................... 30 4.4.3. AEG Haustechnik.................................................................................. 31 5. Datenaufbereitung ............................................................................................32 5.1. Verwendete Software und Daten ................................................................. 32 5.2. Berechnung der Energieströme ................................................................... 32 5.3. Halifax-Daten ............................................................................................... 33 5.3.1. Datenstruktur ........................................................................................ 33 5.3.2. Korrektur der Warmwassertemperatur .................................................. 34 5.3.3. Aufzeichnungspausen ........................................................................... 35 Stefan Tobias Kleiner ETW 14 IV 5.3.4. Korrektur der Winterzeit und Sommerzeit ............................................. 38 5.3.5. Auswertung der Entnahmemengen....................................................... 39 5.4. Lancaster-Daten .......................................................................................... 40 5.4.1. Datenstruktur ........................................................................................ 40 5.4.2. Daten konvertieren................................................................................ 41 5.4.3. Daten in gleichmäßige Zeitschritte konvertieren ................................... 42 5.4.4. Aufzeichnungspausen ........................................................................... 45 5.4.5. Korrektur der Winterzeit und Sommerzeit ............................................. 49 5.4.6. Anpassung an die einheitliche Datenstruktur ........................................ 50 5.4.7. Anpassung von extremen Entnahmewerten ......................................... 52 5.5. Zusammenführen der Datensätze ............................................................... 53 6. Korrelationsanalyse ..........................................................................................55 7. Volumetrisches Clustering...............................................................................59 7.1. Funktionsweise K-Means Clustering ........................................................... 59 7.2. Gütekriterien ................................................................................................ 63 7.3. Datenfilterung auf Basis von Clusteringergebnissen (ein Beispiel) ............. 65 7.4. Euklidisches Clustering bei minütlicher Auflösung ...................................... 72 7.5. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 30 Cluster ................................................................................................................... 76 7.6. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 500 Cluster ................................................................................................................... 79 7.7. Clustering mit Manhattan Abstand............................................................... 91 7.8. Vergleich zwischen euklidischem Clustering und Clustering mit Manhattan- Abstand ................................................................................................................. 95 7.9. 7.10. Euklidisches Clustering bei genormten Verbrauchsprofilen ......................... 97 Clustering mit Manhattan Abstand von genormten Ausgangsdaten ....... 103 Stefan Tobias Kleiner ETW 14 V 7.11. Vergleich zwischen dem Clustering von genormten und nicht genormten Verbrauchsprofilen .............................................................................................. 105 8. Diskussion der Ergebnisse ............................................................................106 9. Zusammenfassung .........................................................................................109 10. Literaturverzeichnis .....................................................................................110 11. Anhang .........................................................................................................115 11.1. Fehlerbeschreibung der Originaldaten aus Lancaster ............................ 115 11.2. Clusterzentroiden bei dem Clustering der volumetrischen Verbrauchswerte bei minütlicher Auflösung des reduzierten Gesamtdatensatzes .......................... 119 Eidesstattliche Erklärung......................................................................................121 Stefan Tobias Kleiner ETW 14 VI Abbildungsverzeichnis Abbildung 3-1: Ablaufplan zur Vorgehensweise der Erarbeitung der Masterarbeit... 20 Abbildung 4-1: Korrelation zwischen Strompreis und Bedarf (Amann u. a. 2013, S. 1) ................................................................................................................. 22 Abbildung 4-2: Durchschnittlicher Tagesbedarf an Warmwasser bezogen auf die Haushaltsgröße (George ; Pearre ; Swan 2015, S. 309) ......................... 25 Abbildung 4-3: Durchschnittlicher stündlicher Bedarf an Warmwasser (George ; Pearre ; Swan 2015, S. 310) ................................................... 26 Abbildung 4-4: Warmwasserverbrauch nach Wochentag (George ; Pearre ; Swan 2015, S. 311) ................................................... 27 Abbildung 4-5: Vergleich des Warmwasserverbrauchs sonntags zu wochentags (George; Pearre; Swan 2015, S. 311) ..................................................... 28 Abbildung 4-6: Funktionsweise des intelligenten Boilers der Firma AEG (EHT Haustechnik GmbH / Markenvertrieb AEG o. J.) ..................................... 31 Abbildung 5-1: Dauer und Häufigkeit von Aufzeichnungspausen bis 120 Minuten Dauer im Datensatz aus Halifax .............................................................. 35 Abbildung 5-2: Häufigkeit von Aufzeichnungspausen mit einer Dauer von mehr als 120 Minuten im Datensatz aus Halifax .................................................... 36 Abbildung 5-3: Häufigkeit von Aufzeichnungsunterbrechungen bis zu einer Dauer von 120 Minuten ohne Tagesüberschreitung im Datensatz aus Halifax .. 37 Abbildung 5-4: Häufigkeit von Aufzeichnungsunterbrechungen über 120 Minuten Dauer ohne Tagesüberschreitung im Datensatz aus Halifax ................... 38 Abbildung 5-5: Entnahmemengen und deren Häufigkeit über 5 l/min im Datensatz aus Halifax ............................................................................................... 39 Abbildung 5-6: Ablaufplan der Konvertierung der Daten aus Lancaster in einen Datensatz mit konstanten Zeitschritten .................................................... 44 Abbildung 5-7: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten aus Lancaster ....................................................... 46 Abbildung 5-8: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen ab 120 Minuten in den Daten aus Lancaster ....................................................... 47 Stefan Tobias Kleiner ETW 14 VII Abbildung 5-9: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten aus Lancaster ................................................................................................. 48 Abbildung 5-10: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen größer 120 Minuten in den Daten aus Lancaster bei einer Zusammenfassung von je 30 Minuten zu einem Balken...................................................................................................... 49 Abbildung 5-11: Histogramm mit den Häufigkeiten von ungültigen (>=330 l/min) Entnahmemengen in den Daten aus Lancaster ....................................... 53 Abbildung 6-1: Volumetrischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße in dem zusammengesetzten Datensatz ......................... 55 Abbildung 6-2: Energetischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße ....................................................................................... 56 Abbildung 6-3: Beziehung zwischen maximalem Entnahmevolumenstrom und Haushaltsgröße ....................................................................................... 56 Abbildung 6-4: Beziehung zwischen maximaler entnommener Leistung und der Haushaltsgröße ....................................................................................... 57 Abbildung 6-5: Korrelation zwischen dem Tagesbedarf und dem maximalen Volumenstrom.......................................................................................... 58 Abbildung 6-6: Korrelation zwischen dem Tagesbedarf und dem maximalen Energiestrom ........................................................................................... 58 Abbildung 7-1: Ablaufdiagramm des K-Means Clustering ........................................ 60 Abbildung 7-2: Gütekurve nach dem Davies-Bouldin-Index des K-Means Clustering bei minütlicher Auflösung ......................................................................... 65 Abbildung 7-3: Gütekurve nach dem Silhouette-Index des K-Means Clustering bei minütlicher Auflösung .............................................................................. 66 Abbildung 7-4: Standardabweichung über die Anzahl der Cluster bei euklidischem Clustering und minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung .......................................................................................... 67 Abbildung 7-5: Abstand der Clusterzentroiden nach Anzahl der Cluster bei euklidischem Clustering und minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung ........................................................ 67 Stefan Tobias Kleiner ETW 14 VIII Abbildung 7-6: Clusterzentroiden 0 (a) bis 17 (r) bei 30 Clustern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min. .................................................................. 68 Abbildung 7-7: Clusterzentroiden 18 (a) bis 29 (l) bei 30 Clustern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min. .................................................................. 69 Abbildung 7-8: Tagesverläufe der 12 wichtigsten Clusterzentroiden bei dem ersten Clusteringversuch um die Daten weiter zu filtern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit ........................................................ 70 Abbildung 7-9: Gütekurven bei dem weiter gefilterten Datensatz und minütlicher Auflösung ................................................................................................. 73 Abbildung 7-10: Standardabweichung der Cluster aller Daten bei dem weiter gefilterten Datensatz und minütlicher Auflösung ...................................... 74 Abbildung 7-11: Überlagerung der Tagesverläufe der 30 Clusterzentroiden bei einem euklidischen Clustering des reduzierten Datensatzes mit minütlicher Auflösung ................................................................................................. 75 Abbildung 7-12: Überlagerung der Tagesverläufe von 29 der 30 Clusterzentroiden bei euklidischem Clustering und einer minütlichen Auflösung ................. 75 Abbildung 7-13: Beispiel eines Clusterzentroides (rot) mit der Standardabweichung in blau bei euklidischem Clustering von minütlichen Daten bei 30 erzeugten Clustern ................................................................................................... 76 Abbildung 7-14: Silhouette-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern .................. 77 Abbildung 7-15: Davies-Bouldin-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern ........... 78 Abbildung 7-16: Erster von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt mit der Standardabweichung .................................... 79 Abbildung 7-17: Zweiter von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt mit der Standardabweichung .................................... 79 Abbildung 7-18: Silhouette-Indizes bis 500 Cluster mit euklidischem Distanzmaß ... 80 Abbildung 7-19: Davies-Bouldin-Indizes bis zu 500 Clustern bei euklidischem Distanzmaß.............................................................................................. 81 Stefan Tobias Kleiner ETW 14 IX Abbildung 7-20: Silhouette-Indizes im Bereich zwischen 250 und 325 Cluster ........ 82 Abbildung 7-21: Davies-Bouldin-Indizes bei 250 bis 325 Clustern bei euklidischem Distanzmaß.............................................................................................. 82 Abbildung 7-22: Verteilung der Datentage auf die Cluster ........................................ 83 Abbildung 7-23: Aufsummierte Datentaganzahl über die Anzahl der Cluster. In Rot dargestellt der Schnittpunkt bei 20 % der Cluster .................................... 84 Abbildung 7-24: Anzahl der einem Haushalt zugeordneten Cluster bei euklidischem Clustering von 315 Clustern bei 120 minütlicher Auflösung ..................... 85 Abbildung 7-25: Anzahl der einem Cluster zugeordneten Haushalte bei euklidischem Clustering von 315 Clustern bei 120 minütlicher Auflösung ..................... 85 Abbildung 7-26: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 1) ......................................................... 86 Abbildung 7-27: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 2) ......................................................... 87 Abbildung 7-28: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 3) ......................................................... 88 Abbildung 7-29: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 4) ......................................................... 89 Abbildung 7-30: Verteilung der Haushalte auf die Cluster, welche als Standardlastprofile generiert wurden ....................................................... 90 Abbildung 7-31: Verteilung der Cluster, welche als Standardlastprofile generiert wurden, auf die Haushalte ....................................................................... 90 Abbildung 7-32: Silhouette-Indizes bei unterschiedlichen zeitlichen Auflösungen und unterschiedlichen Clusteranzahlen bis 30 Cluster ................................... 91 Abbildung 7-33: Silhouette-Indizes von Verbrauchsprofilen mit Manhattan-Abstand als Optimierung bei bis zu 500 Clustern .................................................. 92 Abbildung 7-34: Silhouette-Indizes bei 225 bis 325 Clustern und Optimierung nach Manhattan-Abstand ................................................................................. 93 Abbildung 7-35: Verteilung der Daten auf die Cluster ............................................... 94 Abbildung 7-36: Summe der Datentage über die Anzahl der Cluster bei 260 Clustern und Optimierung nach Manhattan-Abstand. In Rot dargestellt der Schnittpunkt bei 20 % der Cluster............................................................ 94 Stefan Tobias Kleiner ETW 14 X Abbildung 7-37: Korrelation zwischen Cluster und Haushalten bei einem Clustering nach Manhattan-Abstand und 260 erzeugten Clustern............................ 95 Abbildung 7-38: Silhouette-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen Clusteranzahlen bis 30 Cluster ................................... 97 Abbildung 7-39: Davies-Bouldin-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen Clusteranzahlen bis 30 Cluster ............................ 98 Abbildung 7-40: Beide Clusterzentroiden der genormten Verbrauchsprofile bei einer zeitlichen Auflösung von 120 Minuten und zwei Clustern ........................ 99 Abbildung 7-41: Silhouette-Indizes bei genormten Profilen bei bis zu 500 Cluster ... 99 Abbildung 7-42: Silhouette-Indizes bei genormten Verbrauchsprofilen im Bereich zwischen 220 und 325 Clustern ............................................................. 100 Abbildung 7-43: Verteilung der Haushalte auf die erzeugten 265 Cluster bei einem Clustering von genormten Verbrauchsprofilen ....................................... 101 Abbildung 7-44: Verteilung der 265 erzeugten Cluster auf die 141 Haushalte bei einem Clustering von genormten Verbrauchsprofilen ............................ 101 Abbildung 7-45: Pareto-Diagramm zu dem Clustering von genormten Verbrauchsprofilen bei 265 erzeugten Clustern. In Rot dargestellt der Schnittpunkt bei 20% der Cluster........................................................... 102 Abbildung 7-46: Silhouette-Indizes bei genormten Verbrauchsprofilen, verschiedenen zeitlichen Auflösungen und verschiedenen Clusteranzahlen bis 30 Cluster ............................................................................................................... 103 Abbildung 7-47: Silhouette-Indizes bei genormten Verbrauchsprofilen bis 500 Cluster im Manhattan-Abstand........................................................................... 104 Abbildung 7-48: Silhouette-Index zwischen 275 und 375 Cluster bei genormten Verbrauchsprofilen und Optimierung nach Manhattan-Abstand ............ 105 Abbildung 11-1: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 1). Die horizontale Achse beschreibt den Tagesverlauf mit Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute. ............................................................................................................... 119 Abbildung 11-2: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 2). Die horizontale Achse beschreibt den Tagesverlauf mit Stefan Tobias Kleiner ETW 14 XI Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute. ............................................................................................................... 120 Tabellenverzeichnis Tabelle 5-1: Beispieldatenaufbau von den Daten aus Halifax mit der Spaltenbeschriftung (Thermo Dynamics Ltd. ; George ; Swan 2015, S. WEL5010_Data) .................................................................................. 34 Tabelle 5-2: Beispieldaten aus einem Datensatz aus Lancaster (Energy Saving Trust 2008b, S. 7978.all) ......................................................................... 41 Tabelle 7-1: Clusterinformationen bei 30 Clustern bei dem ersten Clustering zur weiteren Datenfilterung ............................................................................ 71 Formelverzeichnis Formel 1: Energieberechnung .................................................................................. 32 Formel 2: Davies-Bouldin-Index („Davies–Bouldin index“ 2016) .............................. 64 Formel 3: Dunn-Index („Dunn index“ 2016) .............................................................. 64 Formel 4: Silhouette-Index („Silhouette (clustering)“ 2016) ...................................... 64 Abkürzungsverzeichnis DSM Demand Side Management HAL Halifax LAN Lancaster ARIMA Auto-Regressive Integrated Moving Average nan Not a Number – Keine Zahl k Kaltwassertemperatur w Warmwassertemperatur e Volumetrische Entnahmemenge Stefan Tobias Kleiner ETW 14 XII 1. Motivation und Ausgangslage Stellen Sie sich vor es wäre der 8. August und Sie hätten ihr jährliches Budget an Ressourcen verbraucht. Knapp 40% des Jahres lägen noch vor Ihnen und Sie müssten die nächsten 145 Tage von Erspartem und Geliehenem leben. So geht es der Erdbevölkerung an diesem Weltüberlastungstag 2016. Alle Ressourcen, die in einem Jahr von der Erde regeneriert werden können sind bereits jetzt aufgebraucht. Dieses Phänomen wird sich in Zukunft weiter zuspitzen, weil es immer mehr Menschen gibt, die immer mehr Zugang zu immer weiter schrumpfenden Ressourcen haben und diese weiter nutzen. („Earth Overshoot Day 2016“ 2016) Energieeffizienz und Einsparpotentiale sind entscheidende Faktoren für das zukünftige Leben auf der Erde, um unter anderem der Klimaerwärmung entgegenzusteuern. Trotz des durch die stetig steigende Effizienz insgesamt rückläufigen Energieverbrauchs (vgl. Bundesministerium für Wirtschaft und Energie 2015) schwinden unsere Energieressourcen weiter. Daher macht sich die Forschung Gedanken darüber, wo noch mehr Energie eingespart werden kann. Ein potentieller Bereich in dem Energie eingespart werden kann, sind private Haushalte, in denen, zumindest in Deutschland, etwa 13% (vgl. Ministerium für Umwelt, Klima und Energiewirtschaft Baden-Württemberg 2012) des gesamten Energieverbrauchs der Volkswirtschaft verbraucht werden. In diesen wird den ganzen Tag über unnötig Energie verbraucht. Beispielsweise ist dies beim Speichern von Warmwasser der Fall. Hierauf entfallen zwischen 8% (vgl. Ministerium für Umwelt, Klima und Energiewirtschaft Baden-Württemberg 2004) und 12% (vgl. EControl 2010) der im Haushalt benötigten Energie. Eine Zusammenfassung der Statistiken ergibt, dass zwischen 1,04% und 1,56% des Energieverbrauchs der gesamten Volkswirtschaft für das Erwärmen und Speichern von Warmwasser in Privathaushalten aufgewendet wird. Dies ist eine beachtliche Menge. Die verbauten Boiler heizen über ihr gesamtes Fassungsvolumen auf eine eingestellte Temperatur auf. Die Temperatur ist dabei nicht im ganzen Boiler konstant, sondern es entsteht eine Schichtung. Durch eine intelligente Steuerung im Rahmen eines Demand-SideManagements lassen sich im Bereich der Warmwasserbereitstellung in privaten Stefan Tobias Kleiner ETW 14 13 Haushalten hohe Energiemengen einsparen. Dieses Ziel hat sich unter anderen auch eine Forschungsgruppe der FHV in Kooperation mit den Illwerken VKW gesetzt. Für dieses Projekt werden in einem Feldversuch in Vorarlberg etwa 20 Haushalte mit intelligenten Warmwasserzählern an Boilern ausgestattet. Diese Warmwasserzähler messen nicht nur das Volumen an Wasser in Litern sondern auch den Volumenstrom zu jedem Zeitpunkt. Diese Daten werden über einen längeren Zeitraum aufgezeichnet und gespeichert, so dass auf Basis dieser Daten verschiedene Analysen getätigt werden können. Eine dieser umfangreichen Datenanalysen stellt diese Arbeit dar. Mit dieser Datenanalyse soll zunächst herausgefunden werden, ob sich die Haushalte in verschiedene Verbrauchermuster einordnen lassen. Anhand dieser Verbrauchermuster werden gegebenenfalls Standardlastprofile entwickelt. Als Fortsetzung dieser Arbeit kann später untersucht werden, ob anhand der Verbrauchsdaten aus der Vergangenheit der Verbrauch der Zukunft sinnvoll vorausgesagt werden kann. Hierfür gibt es schon diverse Ansätze (siehe z.B. (Kepplinger ; Huber ; Petrasch 2015 oder Gelažanskas ; Gamage 2015)), welche überprüft werden müssen. Ist es möglich einem Haushalt ein gewisses Verbrauchsmuster zuzuordnen, so lassen sich in Zukunft Boilersysteme installieren, welche durch dieses Wissen den Energieverbrauch senken bzw. die Lastkurve des Stromnetzes glätten können. Solch ein intelligentes Boilersystem könnte bei zusätzlicher Berücksichtigung eines aktuellen Börsenstrompreises zusätzlich auch die Kosten für Warmwasser erheblich senken (Vgl. Kepplinger; Huber; Petrasch 2015). Bei einer flächendeckenden Ausstattung mit solchen Systemen kommt hinzu, dass das Stromnetz stabiler wird, da die Gesamtstromverbrauchskurve geglättet wird und die Boiler nicht zu Spitzenstromzeiten heizen und elektrische Energie verbrauchen, sondern überwiegend dann wenn gerade überschüssige Energie aus dem Netz entnommen werden kann. In verschiedenen aktuellen Publikationen wird genau diese Thematik beschrieben. Es wurden auch bereits diverse Feldversuche durchgeführt, um tatsächliche Verbrauchsdaten für Warmwasser zu erhalten. Es gibt auch schon Simulationsmodelle, bei denen die Vorhersagen (für einige Stunden) relativ Stefan Tobias Kleiner ETW 14 14 zuverlässig funktionieren (vgl. Kepplinger ; Huber ; Petrasch 2015; und George; Pearre; Swan 2015). Auffällig bei den Publikationen ist, dass die wenigsten den Energieverbrauch angeben, sondern lediglich den Volumenstrom des Warmwassers betrachten. Da in Boilern in der Regel eine Schichtung vorhanden ist, ist es allerdings nicht möglich vom Volumenstrom direkt auf die Wärmeenergiemenge des ausfließenden Wassers zurückzuschließen, da die Auslauftemperatur nicht konstant ist. In dieser Arbeit soll überprüft werden, warum einige andere Forschungsgruppen nicht die Energiemengen betrachten, da diese grundsätzlich sehr viel aussagekräftiger sind. Wenn möglich und sinnvoll sollte diese Betrachtung nachgeholt werden und die Aussagen der Arbeiten auf Basis der Energiemengen überprüft werden. Stefan Tobias Kleiner ETW 14 15 2. Forschungsfrage Aus der aktuellen Problematik und dem Ziel dieser Arbeit ergibt sich folgende Forschungsfrage, welche den Kern dieser Arbeit wiederspiegelt. Das Ziel dieser Arbeit ist die Beantwortung dieser Frage: Lassen sich aus den in mehreren Feldversuchen aufgezeichneten Warmwasserzapfdaten einige wenige Verbrauchertypen ableiten, und daraus Standardlastprofile generieren? Stefan Tobias Kleiner ETW 14 16 3. Vorgehensweise Zunächst werden verschiedene Studien aus verschiedenen Ländern analysiert und untersucht und die darin enthaltenen Zusammenhänge und Verbrauchermuster werden genauer betrachtet. Es wird auch analysiert, aus welchen Gründen in verschiedenen Publikationen Energieströme betrachtet lediglich werden. Da die die Volumenströme und Datengrundlagen nicht die verschiedener Publikationen teilweise erhältlich sind, werden zunächst die Autoren der publizierten Arbeiten angeschrieben, mit der Bitte die gesammelten Daten bereit zu stellen. Die Publikationen sollen auch auf ihre Konsistenz überprüft und analysiert werden. Außerdem soll herausgefunden werden ob es möglich ist, aus den gegebenen Daten die Energiemengen zu bestimmen. Ist es möglich aus den Daten die Energiemengen zu bestimmen, so soll dies nachgeholt werden. Die Aussagen der Publikationen werden, sofern möglich, bezüglich der Übertragbarkeit auf die Energiemengen überprüft. Ursprünglich war geplant, die von den Messzählern aus dem aktuellen Feldversuch in Vorarlberg aufgenommenen Daten zunächst zu begutachten und zu bereinigen. Das heißt, Datensätze von der Analyse auszuschließen, welche offensichtlich außerhalb des regulären Bereichs liegen. Solche Daten entstehen beispielsweise wenn der Haushalt eine gewisse Zeit nicht bewohnt ist (z.B. Urlaub; Geschäftsreise). Oder wenn in einem Haushalt eine Veranstaltung stattfindet und dadurch ungewöhnlich viel Warmwasser in kurzer Zeit verbraucht wird. Die Sensoren können durch Störungen oder Stromausfälle eventuell auch eine gewisse Zeit keine Daten aufnehmen, wodurch Aufzeichnungslücken entstehen. Hier muss festgelegt werden, inwieweit diese Daten noch auszuwerten sind. Mit den eigenen gewonnen Daten soll verglichen werden, ob sich daraus dieselben Schlüsse ziehen lassen, wie aus den Datenauswertungen der bekannten Publikationen. Ist dies nicht der Fall muss analysiert werden worin die Unterschiede begründet sind. Da der Feldversuch allerdings aktuell noch läuft, sind die daraus gewonnenen Daten nur in begrenzter Anzahl verfügbar. Aus diesem Grund wurde schlußendlich entschieden, die Auswertung und Analyse in dieser Arbeit allein auf Basis der aus anderen Versuchen erhaltenen Daten durchzuführen. Stefan Tobias Kleiner ETW 14 17 Sollten irgendwann genügend repräsentative Daten aus dem Feldversuch in Vorarlberg vorhanden sein, so kann das Ergebnis dieser Arbeit damit validiert und auf seine Allgemeingültigkeit überprüft werden. Auf Grundlage der verschiedenen Feldversuche in Kanada und England und den daraus gewonnenen Daten und gefundenen Zusammenhängen sollen Standardlastprofile entwickelt werden. Dafür ist es zunächst notwendig die Daten entsprechend aufzubereiten und zu vereinheitlichen. Da die Daten aus den verschiedenen Studien zusammengefasst werden sollen, ist eine Vereinheitlichung der Daten unabdingbar um sie vergleichbar zu machen. Es wird auch notwendig sein, die Daten entsprechend zu bereinigen um fehlerhafte Daten aus der Analyse auszuschließen. Hierfür müssen gewisse Kriterien festgelegt werden. Sind die Ausgangsdaten alle vereinheitlicht und bereinigt, so kann mit der eigentlichen Arbeit, der Datenanalyse, begonnen werden. Ziel dabei ist, durch statistische Methoden mit Hilfe einer numerischen Software die Daten zu gruppieren um verschiedene Lastprofilgruppen zu generieren. Von jeder Lastprofilgruppe muss dann der Schwerpunkt, also das gewichtete Mittel, bestimmt werden um die Standardlastprofile festzulegen. Ist dies geschehen, so muss analysiert werden, wie groß die Standardabweichung ist und ob sich die einzelnen Datensätze eindeutig zuordnen lassen oder ob die Zuordnung zu mehreren Gruppen möglich ist. Dieser Prozess soll mit verschiedenen statistischen Methoden durchgeführt werden um festzustellen, ob die Lösung nicht durch eine andere Methode besser gefunden werden kann. Ist es möglich mit Hilfe einer Berechnungsmethode Standardlastprofile zu finden, zu welchen sich die einzelnen Profile größtenteils eindeutig zuordnen lassen, so ist das Forschungsziel erreicht. Ist dies nicht der Fall, so kann mit dieser Vorgehensweise keine erfolgreiche Beantwortung der Forschungsfrage formuliert werden. Zusätzlich sollen in dieser Arbeit auf den Standardlastprofilen aufbauend Verhaltensmuster analysiert werden. Dazu werden die Daten, welche für die einzelnen Standardlastprofile Beispielsweise können Stefan Tobias Kleiner die herangezogen Wochentage ETW 14 werden, ermittelt weiter werden, ausgewertet. welche für ein 18 Standardlastprofil verwendet werden. Ist hier dann eine Auffälligkeit erkennbar, also sind die Anzahl der zugrundeliegenden Wochentage nicht gleichmäßig verteilt, so kann das Standardlastprofil dahingehend interpretiert werden. Andere mögliche Ergebnisse sind jahreszeitliche Schwankungen. Dies kann anhand der genauen Daten der Aufzeichnungen festgestellt werden. Auch der Frage nach dem Einfluss der Haushaltsgröße wird nachgegangen. Ist hier lediglich der Gesamttagesbedarf an Warmwasser höher oder ergeben sich hier auch verschiedene tageszeitliche Wasserentnahmekurven? Wird auf die Standardlastprofile aufbauend zukünftig eine Methode gefunden, mit welcher sich durch geringen Rechenaufwand die Entnahmemengen an Warmwasser zuverlässig vorhersagen lassen, so ist es eventuell auch an einigen bereits bestehenden Boilersystemen, mit relativ geringem Aufwand möglich, eine intelligente Regelung zu integrieren. In dem Ablaufplan, welcher in Abbildung 3-1 dargestellt ist, ist die Vorgehensweise der Arbeit dargestellt. Begonnen wird mit dem Einlesen in die ganze Thematik, daran anschließend werden Daten für die Auswertung beschafft. Diese Daten werden begutachtet, aufbereitet und auf ein gleiches Format konvertiert. Anschließend werden die Daten bereinigt. Hier werden Daten aussortiert, welche fehlerhaft sind oder aus einem anderen Grund nicht in die Auswertung miteinbezogen werden sollen. Diese bereinigten Daten werden auf Korrelationen überprüft und entsprechend geclustert. Die Cluster werden ausgewertet und darauf aufbauend werden die Daten gegebenenfalls weiter bereinigt und erneut geclustert. Stefan Tobias Kleiner ETW 14 19 Einlesen Daten beschaffen Daten begutachten Daten aufbereiten Daten konvertieren Daten bereinigen Korrelationsanalyse Daten Clustern Cluster auswerten Standardlastprofile Abbildung 3-1: Ablaufplan zur Vorgehensweise der Erarbeitung der Masterarbeit Stefan Tobias Kleiner ETW 14 20 4. Stand der Technik 4.1. Demand Side Management Demand Side Management (DSM) ist ein Begriff für die Netzsteuerung auf der Seite der Verbrauchenden. Herkömmliche Netze werden von den erzeugenden bzw. netzbetreibenden Unternehmen aus gesteuert, jedoch ist hier vor allem bei Stromnetzen ein Umdenken notwendig. Durch die steigende Erzeugung von elektrischem Strom aus erneuerbaren Energiequellen, steigt auch die Notwendigkeit, die Netze besser zu regeln. Die Erzeugung von elektrischer Energie aus erneuerbaren Energiequellen, wie vor allem der Photovoltaik und der Windkraft, ist nicht so gut berechenbar und steuerbar wie die elektrische Energieerzeugung aus herkömmlichen Energiequellen wie Kohle, Gas, Öl oder Atomenergie. In der Vergangenheit waren einige Großkraftwerke am Netz um dieses mit Energie zu versorgen. Durch den Ausbau der erneuerbaren Energien entstehen viele kleine Kraftwerke mit großen Leistungsschwankungen, wodurch sich jedoch die Erzeugungskapazitäten sowohl örtlich als auch zeitlich verlagern. Und der Ausbau für die Nutzung von erneuerbaren Energieträgern ist nicht aufzuhalten. Am 12.12.2015 einigten sich sogar 195 Staaten bei der Weltklimakonferenz in Paris darauf, die Verstromung von fossilen Brennstoffen bis zum Jahr 2050 komplett einzustellen und diese durch 100% erneuerbare Energien zu ersetzen (vgl. Bals; Kreft; Weischer 2015, S. 1). Dieses Ziel kann nur gemeinsam und mit einem gut funktionierenden DSM erfolgreich umgesetzt werden. Bei einem System mit DSM werden die verbrauchenden Geräte gesteuert. Es gibt einige Geräte, die am Netz angeschlossen sind, welche zeitlich flexibel mit der Entnahme von Energie sind und/oder Geräte welche elektrische Energie speichern und wieder abgeben können. Hierzu zählen vor allem akkubetriebene Geräte. So kann beispielsweise ein Elektroauto, welches während der Arbeitszeit oder über Nacht am Stromnetz angeschlossen wird, Energie aufnehmen und wieder abgeben, da es nicht die gesamte Zeit am Netz benötigt um aufzuladen bzw. auch nicht unbedingt ein voll aufgeladener Akku benötigt wird. Es muss auch nicht zwingend sofort aufgeladen werden wenn es an das Netz angeschlossen wird, sondern kann Stefan Tobias Kleiner ETW 14 21 unter Umständen eine Zeit lang warten oder den Ladevorgang zwischendurch unterbrechen. Um hier den Nutzenden keinen erheblichen Nachteil zuzufügen, müssen deren Verhaltensweisen bekannt sein. Beispielsweise wann ein Fahrzeug benötigt wird und welche Entfernung es nach dem Trennen vom Netz zurücklegen soll. Ähnlich verhält es sich auch bei Boilern, welche elektrische Energie benutzen um das Wasser aufzuheizen. Deshalb können auch Warmwasserboiler in solche DSMSysteme integriert werden. Diese Boiler speichern Energie in Form von Wärme, können diese Energie allerdings nicht wieder an das Netz zurückgeben. Dafür haben sie die Eigenschaft, dass sie nicht immer vollgeladen sein müssen und die Energie lange speichern können. Diese Eigenschaft kann genutzt werden um Warmwasserboiler in einem DSM Programm zu betreiben (vgl. Hu; Han; Wen 2013, S. 259f.). Der Boiler kann beispielsweise über einen zeitaktuellen Börsenstrompreis gesteuert werden, da der Strompreis, wie in Abbildung 4-1 zu sehen ist, einen starken Zusammenhang mit dem aktuellen Bedarf aufweist (vgl. Amann u. a. 2013, S. 1). Ist der Preis gering so heizt der Boiler auf, ist der Preis hoch so schaltet die Heizpatrone ab. Auch hier ist es allerdings wichtig, das Verhalten der Nutzenden zu kennen um sicher zu stellen, dass genügend Warmwasser zur Verfügung steht, wenn dieses benötigt wird. Durch die Vorgabe des Strompreises haben alle Beteiligten Vorteile bei der Nutzung eines Systems im DSM. Das netzbetreibende Unternehmen kann durch die Veränderung des Strompreises die anliegende Last regulieren und so schnell auf Einspeiseschwankungen reagieren und die Nutzenden sparen Geld, da die Boiler selbständig günstige Energie aus dem Netz entnehmen. Abbildung 4-1: Korrelation zwischen Strompreis und Bedarf (Amann u. a. 2013, S. 1) Stefan Tobias Kleiner ETW 14 22 4.2. Warmwasserbereitstellung Zur Bereitstellung von Warmwasser an den entsprechenden Entnahmestellen gibt es mehrere Möglichkeiten. Zum einen kann es durch eine Zentralheizung mit Warmwasserspeicher realisiert werden. Hier sind (meist im Keller des Hauses) ein Heizkessel und ein Pufferspeicher installiert. Der Heizkessel heizt den Pufferspeicher auf eine eingestellt Solltemperatur auf. Bei den aktuellen Systemen wird diese Temperatur über den Tag möglichst konstant hoch gehalten. Der Heizkessel kann dabei über eine Verbrennung oder elektrisch Wärme erzeugen. Wieder andere Systeme laden den Speicher über Nacht und lassen diesen dann tagsüber entladen. Eine weitere Möglichkeit sind Durchlauferhitzer, welche mit Gas, Heizöl oder elektrischem Strom betrieben werden können. Diese erwärmen das Wasser nur bei Bedarf und haben somit keinerlei Speicherverluste. Allerdings ist hier auch die Energieentnahme aus dem Stromnetz nicht zeitlich variabel sondern erfolgt zeitlich parallel zur Nutzung vom Warmwasser. Eine dritte Möglichkeit der Warmwasserbereitstellung sind mehrere kleine Boiler, welche möglichst nahe an den Entnahmestellen installiert sind. Dies hat den Vorteil, dass weniger Leitungen durch das Gebäude verlegt werden müssen und somit Wärmeverluste bei dem Transport verringert werden. Diese Boiler sind in der Regel elektrisch betrieben. Diese Arbeit zielt auf Warmwasserbereitstellungsanlagen ab, welche einen Warmwasserspeicher verwenden. Hauptaugenmerk dabei liegt bei zentralen Speichersystemen. Stefan Tobias Kleiner ETW 14 23 4.3. Bekanntes Warmwassernutzungsverhalten 4.3.1. Solar City Program in Halifax (Vgl. George ; Pearre ; Swan 2015) In dem Solar City Programm in Halifax, Kanada, wurden Messgeräte an Boilern von 119 Haushalten angebracht. Diese Messgeräte zeichnen die Volumenströme von Warm- und Kaltwasser bei einer zeitlichen Auflösung von einer Minute auf. Dies sind für diese Anwendung erstaunlich kleine Zeitschritte. Durch diese kleinen Zeitschritte ist es auf jeden Fall möglich, in Folge ausreichend genaue Auswertungen anzustellen und exakte Aussagen zu treffen. Zusätzlich zu den Volumenströmen wurden auch die Temperaturen von Zu- und Abfluss gemessen. Bei diesem Programm muss allerdings beachtet werden, dass die Repräsentativität der Versuchsgruppe nur eingeschränkt gegeben ist. Die Messgeräte wurden nur in Häusern installiert, welche zur Erwärmung ihres Warmwassers auch SolarthermieAnlagen installiert haben. Zusätzlich wurden auch im Zeitraum der Messungen in einigen Haushalten Wassersparmaßnahmen durchgeführt, wie beispielsweise die Installation von Durchflussminderern. Hinzu kommt, dass die Teilnahme an dem Projekt auf freiwilliger Basis beruht. Dadurch kann es zu Abweichungen verglichen mit „dem Durchschnittshaushalt“ kommen. Ein Beispiel für die Fragwürdigkeit der Repräsentativität ist die durchschnittliche Personenzahl pro Haushalt, welche in dem Projekt bei 3,8 liegt wohingegen der durchschnittliche Haushalt in Kanada 2,5 Personen beherbergt. Der Aufbau der Messanlage ist sehr simpel gestaltet. Der Volumenstrom wird auf der Kaltwasserseite vor dem Boiler gemessen, wobei dieser Volumenstrom im gesamten System konstant ist. Die Temperaturen werden direkt vor und direkt nach dem Boiler gemessen. Diese Sensoren sind allerdings nur außerhalb der Rohrleitungen angebracht, sodass sich hier eine Abweichung zur tatsächlichen Wassertemperatur ergibt. Dies wird auch der Hauptgrund sein, warum die Auswertung hauptsächlich auf Basis der Volumenströme und nicht der Energiemengen durchgeführt wurde. Stefan Tobias Kleiner ETW 14 24 In Abbildung 4-2 ist der durchschnittliche Tagesbedarf an Warmwasser in Bezug zur Haushaltsgröße dargestellt. Hier ist gut ersichtlich, dass der Tagesbedarf mit der Personenzahl fast linear zunimmt. Ausnahmen sind hier die sehr großen Haushalte mit neun und zehn Personen. Dies kann aber auch an der sehr geringen und damit nicht repräsentativen Anzahl (je zwei) der Haushalte liegen. Zusätzlich wurde ein Vergleich zu den Werten mit denen das Programm HOT2000 rechnet angestellt. Diese Software ist ein Programm um die Energieflüsse und Verbräuche in Gebäuden mit wenigen Stockwerken zu simulieren (vgl. Government of Canada 2015). Bei diesem Vergleich ist erkennbar, dass die Software deutlich mehr Warmwasserverbrauch annimmt als in dieser Studie tatsächlich festgestellt wurde. Abbildung 4-2: Durchschnittlicher Tagesbedarf an Warmwasser bezogen auf die Haushaltsgröße (George ; Pearre ; Swan 2015, S. 309) George et al. stellten fest, dass die durchschnittlich verbrauchte Warmwassermenge pro Haushalt und Tag 172 Liter entspricht, der Medianwert jedoch nur bei 159 Litern Stefan Tobias Kleiner ETW 14 25 liegt. Das heißt, dass die meisten Haushalte deutlich unter dem Durchschnittswert und dafür einige wenige deutlich darüber liegen. In Abbildung 4-3 sind die durchschnittlich stündlichen Entnahmemengen aus dem Feldversuch in Kanada verglichen mit einer Studie aus 1985 von Perlman und Mills (Perlman ; Mills 1985) dargestellt. Hierbei ist deutlich zu erkennen, dass sich die benötigte Menge an Warmwasser seit der Studie von 1985 reduziert hat und auch, dass sich der Tagesrhythmus der Menschen in den vergangenen 30 Jahren um ein bis zwei Stunden nach vorne verschoben hat. Abbildung 4-3: Durchschnittlicher stündlicher Bedarf an Warmwasser (George; Pearre; Swan 2015, S. 310) Weiterhin wurde in dieser Studie der Verbrauch pro Wochentag untersucht. Dabei wurde festgestellt, dass auch hier Unterschiede vorhanden sind. In Abbildung 4-4 ist Stefan Tobias Kleiner ETW 14 26 zu erkennen, dass der Verbrauch freitags auffällig gering ausfällt, wohingegen der Verbrauch sonntags auffällig hoch ist. Für den Freitag haben George et al. keine Erklärung gefunden, wohingegen der Sonntag verständlich erscheint. Sonntags sind die bewohnenden Personen in der Regel den ganzen Tag über zu Hause und können so auch den ganzen Tag über Wasser verbrauchen. Abbildung 4-4: Warmwasserverbrauch nach Wochentag (George ; Pearre ; Swan 2015, S. 311) In Abbildung 4-5 ist der durchschnittliche Verbrauch zwischen Wochentagen und Sonntagen im Vergleich dargestellt. Hier lässt sich auch der Unterschied erkennen und erklären. Die Peaks am Wochenende sind zum einen breiter und das Mittagsloch ist weniger tief als an Wochentagen. Zum anderen ist der Verbrauch generell etwas höher als an den Wochentagen wodurch sich der insgesamt höhere Verbrauch ergibt. Stefan Tobias Kleiner ETW 14 27 Abbildung 4-5: Vergleich des Warmwasserverbrauchs sonntags zu wochentags (George; Pearre; Swan 2015, S. 311) Weiterhin wurde in der Studie herausgefunden, dass der Wasserverbrauch im Winter um 9,6% höher ist als im Sommer. Dies wird darauf zurückgeführt, dass die Menschen vermutlich im Winter lieber warmes Wasser verwenden als kaltes, auch wenn dies nicht notwendig wäre. Beispielsweise zum Händewaschen oder Zähneputzen. Stefan Tobias Kleiner ETW 14 28 4.3.2. Sonstiges bekanntes Verhalten Becker und Stogsdill (Becker ; Stogsdill 1990) fanden schon 1990 heraus, dass es regionale Unterschiede im Nutzungsverhalten von Warmwasser bezogen auf den Wohnort der Nutzenden gibt. Es ist auch anzunehmen, dass sich das Verhalten bei der Nutzung von Warmwasser durch den demographischen Wandel verändert hat und sich auch weiterhin verändern wird. Auch die Veränderung am Arbeitsmarkt, weg von festen Arbeitszeiten hin zu immer flexiblerem Personal, hat vermutlich Auswirkungen auf den Warmwasserkonsum. Hinzu kommt die Weiterentwicklung der Technik, welche es auch ohne Einschränkung der Lebensqualität ermöglicht, mit weniger Wasser auszukommen. Diese Thesen lassen sich auch durch die Statistik belegen, welche besagt, dass der Warmwasserverbrauch in Deutschland zwischen 2005 und 2014 um 1,1% zurückgegangen ist (vgl. Statista 2015). Auch wurden in verschiedenen Studien jahreszeitliche Unterschiede festgestellt. Hierbei gibt es allerdings beachtliche Unterschiede, so haben Perlman und Mills (Perlman ; Mills 1985) einen Mehrverbrauch von 45% im Winter festgestellt, wohingegen Becker und Stogsdill (Becker ; Stogsdill 1990) lediglich eine Erhöhung des Verbrauchs um 13% im Vergleich zum Sommer feststellen konnten. Diese sehr große Diversität könnte sich durch die 15 Jahre Differenz, die verschiedenen Orte der Feldversuche, die Unterschiede in den Versuchsgruppen und viele weitere Faktoren erklären lassen. Hierbei wird deutlich, dass das menschliche Verhalten sehr individuell ist und von vielen Faktoren beeinflusst wird. 4.4. Mögliche Vorhersagemodelle für die Nutzung von Warmwasser 4.4.1. Nearest neighbour data-mining (Vgl. Kepplinger ; Huber ; Petrasch 2015) Kepplinger et al. haben eine Methode entwickelt um den Warmwasserbedarf von Privathaushalten vorauszusagen. Dazu haben sie zunächst Lastprofile mit dem Stefan Tobias Kleiner ETW 14 29 Programm DHWcalc generiert. Diese Software generiert Trinkwassernutzungsprofile basierend auf einer statistischen Basis (vgl. Jordan ; Vajen 2003, S. 1). Dieses Vorgehen wurde gewählt, da zu dem aktuellen Forschungsstand keine realen Nutzungsprofile zur Verfügung standen. Diese Lastprofile dienten als Basis für das weitere Vorgehen. Es wurde ein „nearest-neighbour“ Algorithmus mit der Software Matlab geschrieben. Solch ein Algorithmus muss zunächst mit Vergangenheitsdaten gespeist werden. Hierfür wurden einige Tage mit DHWcalc generiert und in den Algorithmus gespeist. Anschließend beobachtet der Algorithmus die fortlaufend weiter gespeisten Daten und errechnet, welchem bereits bekannten Verhalten der aktuelle Verbrauch am nächsten kommt und nimmt dieses bereits gespeicherte Nutzungsprofil als Vorhersage für die weitere Nutzung. Bei einem „nearestneighbour“ Algorithmus können, je nach Wahl der Parameter, beliebig viele Datensätze, welche dem aktuellen am nächsten kommen, zur Vorhersage gemittelt werden. Kepplinger et al. haben sich allerdings aufgrund der bereits guten Vorhersage bei nur einem „nearest-neighbour“ dazu entschieden auch nur einen „nearest-neighbour“ zu betrachten. 4.4.2. ARIMA Modelle ARIMA Modelle sind Modelle um Zeitreihen zu beschreiben und deren Verlauf in der Zukunft vorauszusagen. In der Studie aus 2015 von Linas Gelažanskas und Kelum A. A. Gamage (Vgl. Gelažanskas ; Gamage 2015) werden ARIMA Modelle als die genauesten Vorhersagemodelle für den Verbrauch von Warmwasser beschrieben. ARIMA steht dabei für „Auto-Regressive Integrated Moving Average“. Dabei sind drei Berechnungsteile zu unterscheiden: Ein autoregressiver Teil, welcher die Zeitreihe als lineares Modell darstellt, ein gleitender Mittelwert bei dem die Schätzfehler der Vergangenheit berücksichtigt werden und ein integrierender Teil, wobei die Zeitreihe zuvor differenziert werden muss. Dadurch lassen sich Trends filtern. Stefan Tobias Kleiner ETW 14 30 4.4.3. AEG Haustechnik (Vgl. EHT Haustechnik GmbH / Markenvertrieb AEG o. J.) In der Industrie ist auch bekannt, dass sich durch eine intelligente Ansteuerung von Warmwasserboilern Energie und somit für die Endnutzenden auch Geld einsparen lässt. So hat die Firma AEG Haustechnik bereits einen Boiler bzw. eine Regelung welche den Boiler regelt entwickelt, mit der Energie eingespart werden soll. Dabei wird der bereits erwähnte Vorteil, dass ein Boiler nicht immer voll aufgeladen sein muss herangezogen. Die Regelung beobachtet das Entnahmeverhalten und speichert dieses ab. Nach der ersten Woche bereits beginnt die intelligente Regelung. Dabei fällt der Ladegrad nie unter 40% und die Wassertemperatur nie unter 60°C. Die 60°C sind aus hygienischen Gründen mindestens notwendig, da sich bei einer geringeren Temperatur beispielsweise Legionellen sehr gut entwickeln und vermehren können (Vgl. Dr. Schreff ; Dr. Schindler ; Nickel 2016). In Abbildung 4-6 ist die Funktionsweise des Boilers grafisch dargestellt. Die Firma AEG wirbt beim Einsatz dieses Boilers mit möglichen Energieeinsparungen zwischen 10 % und 15 %. Abbildung 4-6: Funktionsweise des intelligenten Boilers der Firma AEG (EHT Haustechnik GmbH / Markenvertrieb AEG o. J.) Stefan Tobias Kleiner ETW 14 31 5. Datenaufbereitung 5.1. Verwendete Software und Daten Die Berechnungen in dieser Arbeit wurden alle mit der Software Python (Van Rossum; Drake 1995) und den darin verwendeten Paketen IPython (Pérez ; Granger 2007), NumPy (Van der Walt ; Colbert ; Varoquaux 2011), SciPy (Jones u. a. 2001), Matplotlib (Hunter 2007), scikit-learn (Pedregosa u. a. 2011) und Spectral Python (Boggs 2014b) erstellt. Durch die ausschließliche Nutzung von Freeware kann diese Arbeit besser nachvollzogen werden. Die Abbildungen in den folgenden Kapiteln wurden ebenfalls alle mit dieser Software und den aufgeführten Paketen erzeugt. Für diese Arbeit werden die Daten von zwei Feldversuchen verwendet. Eine Aufzeichnung davon wurde in den Jahren 2006 und 2007 in Großbritannien (Energy Saving Trust 2008b) und eine Aufzeichnung in den Jahren 2014 und 2015 in Kanada (Thermo Dynamics Ltd. ; George ; Swan 2015) durchgeführt. Von den Daten aus Kanada wurden 45 der 119 aufgenommenen Datensätze zur Verfügung gestellt. Von den Daten aus Großbritannien wurden sogar alle verwendbaren 112 Datensätze zur Verfügung gestellt. 5.2. Berechnung der Energieströme Da die Energieströme für die Verwendung im DSM interessanter sind, als die Volumenströme, wird eine zusätzliche Spalte mit den Energiemengen eingefügt. Die Energiemengen werden für jede Minute bestimmt. Berechnet wird der Wert durch die Formel: 𝐸 = 𝑐𝑝 ∗ 𝜟𝑻 ∗ 𝑽 ∗ 𝝆 Formel 1: Energieberechnung Zur Vereinfachung werden die Werte für die spezifische Wärmekapazität c p und die Dichte ρ als konstant angenommen. Für die spezifische Wärmekapazität cp in dem Datensatz aus Halifax ergibt sich der Wert 4,179 kJ/kg/K (Vgl. Moran u. a. 2010, S. 924), für die mittlere Temperatur von Stefan Tobias Kleiner ETW 14 32 27,34 °C über alle Datensätze (mittlere Warmwassertemperatur: 45,04 °C; mittlere Kaltwassertemperatur: 9,64 °C). Daraus ergibt sich auch die Dichte ρ mit dem Wert von 996,3 kg/m³ (Vgl. Moran u. a. 2010, S. 924). Die durchschnittliche Zuführ-Wassertemperatur liegt in dem Datensatz aus Lancaster bei 22,18°C. Die durchschnittliche Warmwassertemperatur liegt bei 39,62°C. Dadurch ergibt sich eine mittlere Aufheiztemperatur von 30,9°C. Aus diesem Wert leiten sich die Werte für die mittlere spezifische Wärmekapazität mit c p=4,1795 kJ/kg/K (Vgl. Moran u. a. 2010, S. 924) und die mittlere Dichte mit ρ=994,977kg/m³ (Vgl. Moran u. a. 2010, S. 924) ab. Da sich die beiden Werte für die Dichte und die spezifische Wärmekapazität durch den schmalen Temperaturbereich auch nur geringfügig ändern, wird das Ergebnis durch diese Maßnahmen nicht maßgeblich verfälscht. 5.3. Halifax-Daten 5.3.1. Datenstruktur Die Daten aus dem Feldversuch in Halifax (Thermo Dynamics Ltd.; George; Swan 2015) sind sehr einheitlich und gleichmäßig aufgebaut. Hier ist auch bei jedem Datensatz eine Beschriftung vorhanden, wodurch es sehr einfach möglich ist, die einzelnen Spalten zuzuordnen. Aus diesem Feldversuch wurden freundlicherweise 45 Datensätze für die Auswertungen in dieser Masterarbeit zur Verfügung gestellt. Die Datensätze umfassen alle genau ein Jahr vom 30.07.2014 00:00 Uhr bis zum 29.07.2015 23:59 Uhr. Die zeitliche Auflösung ist minütlich. Die Temperaturen sind in Grad Celsius angegeben und die Entnahmemengen sind zu jeder Minute in Litern aufgezeichnet. Durch die Umstellung auf Winterzeit gibt es eine Stunde doppelt und durch die Umstellung auf Sommerzeit ist eine Lücke von einer Stunde in dem Datensatz. Alle Datensätze beinhalten die Spalten: Jahr, Monat, Tag, Stunde, Minute, Wasserentnahmemenge (Original), Wasserentnahmemenge (korrigiert), Kaltwasserzuführtemperatur (wöchentliches Minimum) und Warmwassertemperatur. In Tabelle 5-1 ist ein Datenbeispiel aus einem Datensatz dargestellt. Die Daten in der Stefan Tobias Kleiner ETW 14 33 Spalte Wasserentnahmemenge (korrigiert) sind durch Kriterien entstanden, welche in der ersten Auswertung des Datensatzes durch die Initiatoren festgelegt wurden. Dabei wurden zum Beispiel sehr geringe Entnahmemengen mit dem Wert Null korrigiert, da davon ausgegangen wird, dass diese durch Messfehler oder Leckagen in den Leitungen entstehen (vgl. George ; Pearre ; Swan 2015, S. 308). An Zeitabschnitten zu denen die Sensoren keinen Wert ausgegeben haben (technische Störung, Defekt, …) wurde vermutlich die Entnahmemenge eines anderen Tages eingefügt. Da in dieser Auswertung die originalen Daten herangezogen werden, ist diese Spalte uninteressant. Tabelle 5-1: Beispieldatenaufbau von den Daten aus Halifax mit der Spaltenbeschriftung (Thermo Dynamics Ltd. ; George ; Swan 2015, S. WEL5010_Data) Year Month Day of Month Hour Minute 2014. 7.0000 30.0000 0.0000 0.0000 Water Draw Origin al (L) 0.0000 Water Draw Adjusted (L) 0.0000 Tank Inlet Temperature Minimum During Week (deg C) 8.8750 Tank Outlet Temperature Original (deg C) 46.3120 0000 5.3.2. Korrektur der Warmwassertemperatur Da die Temperatursensoren in diesem Feldversuch alle außen an den Rohren angebracht waren, zeichnen diese die Temperatur des Wassers nur indirekt und somit zeitlich verzögert auf. Bei längeren Entnahmen ist davon auszugehen, dass der Temperaturwert erst nach einer gewissen Zeit korrekt gemessen wird. Bei kürzeren Entnahmen muss davon ausgegangen werden, dass die Rohrwandung außen beim Temperaturfühler nie die tatsächliche Temperatur des Wassers erreicht und somit eine fehlerhafte Temperatur gemessen wird. Um den Fehler durch die Zeitverzögerung Warmwasser zu minimieren, bestimmt. Es wird wird eine korrigierte während Temperatur jedes für Abflusses das die Warmwassertemperatur beobachtet und die höchste gemessene Temperatur eines Abflusses wird als Warmwassertemperatur für den gesamten Abfluss angenommen. Um das Ergebnis noch weiter zu optimieren, wird auch die Temperatur eine Minute nach dem Abfluss miteinbezogen, da es durch die verzögerte Wärmeleitung durch das Rohrmaterial hier zu Zeitverzögerungen kommen kann. Stefan Tobias Kleiner ETW 14 34 5.3.3. Aufzeichnungspausen In den Datensätzen finden sich an mehreren Stellen Aufzeichnungspausen. Das sind Zeiten, zu denen keine Daten vorhanden sind. Diese Lücken könne beispielsweise auf einen Stromausfall oder einen anderen technischen Defekt zurückgeführt werden. Um eine Aussage darüber treffen zu können, ob diese Aufzeichnungspausen relevant sind oder nicht, wurden verschiedene Histogramme dazu angefertigt. In diesen wird die Dauer der Pausen in Minuten über die Häufigkeit des Auftretens in allen Datensätzen aufgezeigt. Aus Darstellungsgründen wurde der Zeitbereich in zwei Abschnitte gegliedert. Der erste Bereich umfasst alle Unterbrechungen von 5 Minuten bis 120 Minuten Dauer. Dieser ist in Abbildung 5-1 dargestellt. Abbildung 5-1: Dauer und Häufigkeit von Aufzeichnungspausen bis 120 Minuten Dauer im Datensatz aus Halifax Der zweite Bereich umfasst alle Unterbrechungen, welche sich über eine längere Dauer erstrecken. Dieser ist in Abbildung 5-2 dargestellt. Die längste Unterbrechung dauert 27601 Minuten und somit mehr als 19 Tage an. Um in der Grafik etwas erkennen zu können, wurde die senkrechte Achse bei einem Wert von 50 begrenzt und alle Unterbrechungen in 120 Minutenschritten zusammengefasst. Das heißt, Stefan Tobias Kleiner ETW 14 35 jeder Balken im Diagramm beinhaltet die Anzahl an Unterbrechungen in einem Zeitbereich von 120 Minuten. Würde die senkrechte Achse nicht begrenzt werden, so wäre die Achse bei etwa 180 für die ersten dargestellten Werte. Abbildung 5-2: Häufigkeit von Aufzeichnungspausen mit einer Dauer von mehr als 120 Minuten im Datensatz aus Halifax Da bei der weiteren Verarbeitung der Daten jeweils ganze Tage weiterverarbeitet werden sollen, sind ganztägige Unterbrechungen uninteressant, da diese Tage dann nicht berücksichtigt werden. Somit wurden weitere Histogramme erzeugt, bei denen die Aufzeichnungsunterbrechungen ohne Tagesüberschreitung dargestellt sind. Das heißt, hier wird jede Unterbrechung welche sich über den Tageswechsel erstreckt in zwei Unterbrechungen aufgeteilt. Ganztägige Unterbrechungen werden nicht dargestellt. In Abbildung 5-3 sind alle Aufzeichnungsunterbrechungen bis 120 Minuten ohne Tagesüberschreitung dargestellt. Es lässt sich erkennen, dass die meisten aller Unterbrechungen weniger als 20 Minuten andauern. Dies sind 2809 von insgesamt Stefan Tobias Kleiner ETW 14 36 4412 Unterbrechungen und damit etwa 64 %. Eine weitere Auffälligkeit ist die Erhöhung bei 60 Minuten. Dies lässt sich vermutlich auf die Zeitverschiebung zurückführen. Da bei der Umstellung von Sommer- auf Winterzeit bzw. umgekehrt die Zeit um exakt 60 Minuten verschoben wird. Auffällig ist auch die dritte Anhäufung von Aufzeichnungsunterbrechungen zwischen 95 Minuten und 115 Minuten Länge. Hier sind weitere 683 der 4412 Unterbrechungen zu finden. Dies entspricht etwa 15,5 % aller Unterbrechungen. Allerdings konnte hierfür keine plausible Erklärung gefunden werden. Abbildung 5-3: Häufigkeit von Aufzeichnungsunterbrechungen bis zu einer Dauer von 120 Minuten ohne Tagesüberschreitung im Datensatz aus Halifax Im darauffolgenden Zeitbereich über 120 Minuten, welcher in Abbildung 5-4 dargestellt ist, kann man erkennen, dass hier nur noch vereinzelt Aufzeichnungsunterbrechungen vorhanden sind. Um eine bessere Übersicht zu erhalten, wurden Unterbrechungen in 30 Minuten Abschnitten zusammengefasst. In Summe sind in diesem Zeitbereich nur 612 und damit 13,9 % der insgesamt 4412 Unterbrechungen. Diese Unterbrechungen verteilen sich auf 593 Datentage. Stefan Tobias Kleiner ETW 14 37 Um möglichst wenige Daten zu verlieren werden deshalb alle Tage mit einer Unterbrechung größer als 120 Minuten von der späteren Clusteranalyse ausgeschlossen. Die Tage mit Unterbrechungen bis 120 Minuten bleiben für die Auswertung gültig. Die fehlenden Werte werden mit 0 angenommen. Abbildung 5-4: Häufigkeit von Aufzeichnungsunterbrechungen über 120 Minuten Dauer ohne Tagesüberschreitung im Datensatz aus Halifax 5.3.4. Korrektur der Winterzeit und Sommerzeit Da die Uhrumstellungszeiten, bedingt durch die Zeitumstellung, nachts stattfinden und somit die Wahrscheinlichkeit einer Wasserentnahme zu dieser Zeit sehr gering ist, wurde entschieden, die doppelte Stunde zu löschen und die fehlende Stunde mit der Entnahmemenge 0 einzufügen. Stefan Tobias Kleiner ETW 14 38 5.3.5. Auswertung der Entnahmemengen Um sicherzustellen, dass die Entnahmemengen korrekt gemessen wurden, wird analysiert, ob die gemessenen Werte alle in einem realistischen Bereich liegen. Dafür wurde die DIN EN ISO 4064-1:2014 (DIN 2014) Norm herangezogen. Nach dieser gibt es für Hausanschlüsse drei Größen von Wasserzählern. Der größte von diesen arbeitet bei einem Nenndurchfluss von 10 m³/h und erlaubt einen Höchstdurchfluss von 20 m³/h. Dies entspricht einem maximalen Durchfluss von 333,3 l/min. Daraus lässt sich schließen, dass Messwerte, welche einen Durchfluss größer als 333 l/min aufweisen, auf jeden Fall fehlerhaft sein müssen. Auch für diesen Zweck wurden Histogramme erzeugt. Da es sehr viele Minuten mit einer Entnahmemenge von wenigen Litern gibt, wird in Abbildung 5-5 nur der Bereich oberhalb von 5 l/min dargestellt. Hier lässt sich eine starke Abnahme der Häufigkeit mit der Zunahme der Entnahmemenge erkennen. Dieses Verhalten wurde so auch erwartet. Der höchste Entnahmewert beträgt 44,142 l/min. Da dies deutlich unter dem Wert von 330 l/min liegt und das Verhalten, welches im Histogramm in Abbildung 5-5 dargestellt ist, plausibel ist, kann davon ausgegangen werden, dass die gemessenen Entnahmewerte korrekt sind und hier keine Anpassung notwendig ist. Zu beachten ist, dass die senkrechte Achse in Abbildung 5-5 logarithmisch skaliert ist. Abbildung 5-5: Entnahmemengen und deren Häufigkeit über 5 l/min im Datensatz aus Halifax Stefan Tobias Kleiner ETW 14 39 5.4. Lancaster-Daten 5.4.1. Datenstruktur Die Daten, welche aus dem Feldversuch in Großbritannien stammen (Energy Saving Trust 2008b), sind sehr unterschiedlich formatiert. Zudem kommt hinzu, dass hier, in den zur Verfügung gestellten Dateien, nicht sauber dokumentiert ist, wie die Daten aufgebaut sind. Gemeinsam ist allen Datensätzen, dass das Datum im Regelfall mit sekundengenauer Uhrzeit zu jedem Messpunkt abgespeichert ist. Es gibt eine Kaltwassertemperatur für das Wasser, welches dem Boiler zugeführt wird. Allerdings ist dieser Temperaturwert in den unterschiedlichen Datensätzen an unterschiedlichen Stellen/Spalten dokumentiert. Da es keine Dokumentation gibt, die Aufschluss darüber geben könnte bei welchem Datensatz diese Temperatur in welcher Spalte steht, muss dies für jeden Datensatz zunächst manuell analysiert werden. In den Datensätzen ist auch immer mindestens eine Warmwassertemperatur aufgezeichnet. Diese Temperatur/en ist/sind wie auch der Messwert für das Kaltwasser in jedem Datensatz an einer anderen Stelle dokumentiert. Dadurch ist es sehr schwierig bzw. teilweise unmöglich herauszufinden, welcher der Werte für das entnommene Wasser gilt. In der zugehörigen Dokumentation (Energy Saving Trust 2008a, S. 2) steht dazu: „Hot water consumption, delivery temperature and incoming cold feed temperature were measured in all dwellings. In those with a system boiler an additional measurement was made of the primary pipework temperature, to enable the times of day at which water was heated to be identified. In a limited number of properties additional temperature measurements were made at each hot water outlet, allowing the destination of each run-off to be determined.“ Leider ist aus dieser Aussage nicht ersichtlich, in welchen Datensätzen welche Temperaturen gemessen wurden und in welchen Spalten diese jeweils dokumentiert sind. Es ist lediglich klar, dass bei Systemboilern zusätzlich die Temperatur der Verrohrung nahe am Boiler gemessen wurde, nicht aber welche von den mindestens zwei Warmwassertemperaturen diese ist. Die erste Vermutung, dass diese Temperatur nahe am Boiler immer wärmer sein müsste, als diejenige an der Stefan Tobias Kleiner ETW 14 40 Entnahmestelle, erwies sich als falsch. Nachdem einige Datensätze genauer betrachtet wurden, war erkennbar, dass beide Temperaturen höher als die jeweils andere sein können. Dadurch lässt sich keine sichere Aussage treffen, welche Temperatur für die Energiemengenberechnung herangezogen werden kann. Von den 112 Datensätzen sind lediglich 36 eindeutig, da diese jeweils nur zwei Temperaturwerte beinhalten: Einen für die Kaltwassertemperatur und einen für die Warmwassertemperatur. In weiteren 52 Datensätzen sind zwei Warmwassertemperaturen enthalten. In 24 Datensätzen sind bis zu acht Messwerte vorhanden, die Temperaturen für Warmwasser wiedergeben. Hier ist es ohne explizite Dokumentation unmöglich die einzelnen Messwerte zuzuordnen. Zusätzlich zu den Temperaturen ist auch die Entnahmemenge dokumentiert. Diese ist mit einer Auflösung von 100 Millilitern gemessen worden. Wobei es auch hier der Fall ist, dass dieser Messwert in den unterschiedlichen Datensätzen in unterschiedlichen Spalten aufgenommen wurde. Dieser lässt sich jedoch vergleichsweise einfach bestimmen, da die Werte ganzzahlig sind und sich zwischen 0 und meist etwa 30 bewegen. Hier ist es wie bei den Warmwassertemperaturen, dass teilweise mehrere Durchflussmesser verbaut wurden und dementsprechend mehrere Spalten mit Entnahmemengen vorliegen. Dies ist jedoch unproblematisch, da die Werte für die Gesamtentnahmemenge addiert werden können. In Tabelle 5-2 ist ein Beispieldatenauszug aus einem der Datensätze aus Lancaster dargestellt. Tabelle 5-2: Beispieldaten aus einem Datensatz aus Lancaster (Energy Saving Trust 2008b, S. 7978.all) "28/06/06 12:41:22" 27.4 60.7 43.1 0 "28/06/06 12:46:59" 28.7 60.0 42.1 1 "28/06/06 12:47:04" 28.5 62.2 42.1 2 5.4.2. Daten konvertieren Um mit den Datensätzen arbeiten zu können und Unregelmäßigkeiten in diesen festzustellen, wurden die Datensätze von einem „.all“-Format in ein „.csv“-Format konvertiert. Dazu wurde ein Python-Script zur Stapelverarbeitung genutzt. Es musste Stefan Tobias Kleiner ETW 14 41 als Vorbereitung lediglich ein Liste mit den Dateinamen angelegt werden, welche dann nacheinander abgearbeitet werden. Da das Datum mit Uhrzeit als Text abgespeichert ist, wurde hier Zeichenweise ausgelesen um die einzelnen Zahlenwerte separat zu erhalten. Bei den Temperatur- und Entnahmewerten konnten die Spalten automatisch ausgelesen werden. Diese Stapelverarbeitung in Python gibt allerdings in 12 Datensätzen aufgrund von Unregelmäßigkeiten eine Warnmeldung aus. Die Fehler in den Datensätzen wurden einzeln analysiert und behoben. Die detaillierte Beschreibung ist im Anhang unter Kapitel 11.1 zu finden. 5.4.3. Daten in gleichmäßige Zeitschritte konvertieren Da die Daten aus Großbritannien (Energy Saving Trust 2008b) mit unterschiedlichen Zeitschritten aufgenommen sind, muss dies angepasst werden um die verschiedenen Datensätze vergleichbar zu machen. Dafür wurde eine minütliche Auflösung gewählt, da die Daten aus Halifax (Thermo Dynamics Ltd.; George; Swan 2015) bereits in minütlicher Auflösung vorliegen und minütliche Daten eine hinreichend große Genauigkeit zur weiteren Analyse aufweisen. Die Zeitschritte in den Lancaster-Daten betragen im Regelfall zwischen 5 Sekunden und 10 Minuten. Wird ein Abfluss erkannt, so sinkt die Zeitspanne zwischen den Messpunkten. Um die Daten in minütlicher Auflösung zu erhalten, müssen die Originaldaten angepasst werden. In einer Stapelverarbeitung hat ein Python-Script alle Datensätze neu berechnet. Die Vorgehensweise, welche im Folgenden beschrieben wird, ist auch in einem Ablaufdiagramm in Abbildung 5-6 dargestellt. Dabei wurde der Originaldatensatz zeilenweise abgearbeitet. Zunächst wurde angepasst, dass der Datensatz um 0:00 Uhr startet. Dafür wurden die Messwerte zwischen 0:00 Uhr am Tag des ersten Datenpunktes und dem Zeitpunkt der ersten aufgezeichneten Messung auf "nan" gesetzt. Dann wurde jede Zeile geprüft, ob sich die Minute geändert hat. Sind mehrere Messwerte in einer Minute aufgenommen worden, so wurden die Entnahmemengen addiert und die Temperaturwerte über die Minute gemittelt. Voraussetzung für dieses Vorgehen ist allerdings, dass bekannt ist, in welchen Spalten welche Informationen zu finden sind. Da diese Informationen nicht Stefan Tobias Kleiner ETW 14 42 zusammen mit dem Datensatz zur Verfügung gestellt wurden, musste jeder Datensatz einzeln begutachtet werden um herauszufinden, in welcher Spalte welche Information steht. Bekannt ist lediglich, dass es jeweils eine Kaltwassertemperatur gibt. Allerdings können die Anzahl der Warmwassersensoren sowie der Volumenstromsensoren variieren. Auch die Spalte in der die jeweilige Information steht, kann variieren. Entstanden ist dabei eine .csv-Datei, welche die notwendigen Informationen für jeden Datensatz enthält. In der ersten Spalte steht die Nummer des Datensatzes, in den weiteren Spalten stehen die Informationen zu den OriginalDatensatzspalten. Dabei steht „k“ für die Kaltwassertemperatur, „w“ für die Warmwassertemperatur und „e“ für die Entnahmemenge. Sind Minuten vorhanden, in denen keine Aufzeichnung stattgefunden hat, so wurde die Entnahmemenge auf den Wert 0 bestimmt. Die Temperaturwerte wurden mit denen des darauffolgenden Datenpunktes gleichgesetzt. Dies ist möglich, da bei einem Abfluss die Zeitschritte verkürzt sind und es somit nicht vorkommt, dass mehrere Minuten lang kein aufgezeichneter Messpunkt mit einer Entnahme vorhanden ist. Die Temperaturen sind in diesem Falle zweitrangig, da diese lediglich für eine Energieflussbestimmung notwendig sind. Zu Zeitpunkten an denen keine physische Entnahme stattfindet, findet auch keine energetische Entnahme statt Der letzte Tag der Aufzeichnung wird wie bereits auch der erste Tag bis 23:59 Uhr mit den Sensorwerten „nan“ aufgefüllt. Dies wird gemacht, um später einfacher Tagesvektoren aus den Daten generieren zu können. Stefan Tobias Kleiner ETW 14 43 Daten begutachten und Tabelle erstellen mit Informationen zu den einzelnen Spalten Original-Datensatz in Software einlesen Bestimmen der Uhrzeit des ersten Datenpunktes Fehlende Minuten seit 0:00 mit den Werten „nan“ in eine neue Matrix einfügen Zeilenweise Abarbeitung des Original-Datensatzes Ändert sich die Minute? ja nein In der letzten Zeile der Matrix die Entnahmewerte addieren und die Temperaturen mitteln Wie groß ist der Zeitsprung? >120 Minuten <=120 Minuten Zeilen für die fehlenden Minuten mit 0 Liter Entnahme und eine Zeile mit OriginalDaten in die Matrix einfügen nein Zeilen für die fehlenden Minuten mit „nan“ und eine Zeile mit den Original-Daten in die Matrix einfügen War das der letzte Datenpunkt? ja Fehlende Minuten bis 23:59 mit den Werten „nan“ in die neue Matrix einfügen Abbildung 5-6: Ablaufplan der Konvertierung der Daten aus Lancaster in einen Datensatz mit konstanten Zeitschritten Stefan Tobias Kleiner ETW 14 44 5.4.4. Aufzeichnungspausen Die Daten weisen auch mehrere Aufzeichnungspausen auf. Als Aufzeichnungspause wird gewertet, wenn in den Original Daten zwischen zwei Messpunkten der zeitliche Abstand größer als 10 Minuten ist. Der Wert von 10 Minuten, deshalb da die regulären Zeitabstände zwischen 5 Sekunden und 10 Minuten liegen (vgl. Energy Saving Trust 2008a, S. 2). Als Entscheidungsgrundlage bis zu welcher Länge einer Aufzeichnungspause es vertretbar ist, die fehlenden Daten auf den Wert 0 zu setzen, wurden Histogramme erstellt mit der Häufigkeit der Aufzeichnungsunterbrechungen über die Dauer der Unterbrechungen in Minuten. Aus Darstellungsgründen wurde der Zeitbereich der möglichen Aufzeichnungspausenlängen in zwei Abschnitte geteilt. Im ersten Histogramm (siehe Abbildung 5-7) sind die Anzahl der Unterbrechungen von 11 Minuten bis 120 Minuten dargestellt. Im zweiten Histogramm (siehe Abbildung 5-8) sind die restlichen Unterbrechungen bis zur längsten Unterbrechung von 72288 Minuten (entspricht etwa 50 Tagen) dargestellt. Es ist sehr gut zu sehen, dass der Großteil der Unterbrechungen zwischen 11 Minuten und 20 Minuten liegt. Dies sind 836 und damit etwa 74% von insgesamt 1133 Aufzeichnungsunterbrechungen. Eine weitere Häufung an Aufzeichnungsunterbrechungen ist zwischen 55 Minuten und 80 Minuten. Diese Häufung ist auf die Zeitumstellung zurückzuführen. In diesem Zeitbereich finden sich 100 der 1133 Aufzeichnungspausen wieder. Dies entspricht etwa 9%. Stefan Tobias Kleiner ETW 14 45 Abbildung 5-7: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten aus Lancaster Im zweiten Histogramm (Abbildung 5-8) sieht man deutlich, dass Aufzeichnungsunterbrechungen über 120 Minuten nur noch selten und vereinzelt vorkommen. Jedoch sind Unterbrechungen bis zu einer Dauer von 50 Tagen vorhanden. Die Anzahl von Aufzeichnungsunterbrechungen in diesem Zeitbereich beträgt 183 von 1133 und damit nur einen Anteil von 16%. Um eine bessere Übersicht zu erhalten, wurden in Abbildung 5-8 die Aufzeichnungspausen von je 120 Minuten-Intervallen zu einem Balken in der Darstellung zusammengefasst. Stefan Tobias Kleiner ETW 14 46 Abbildung 5-8: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen ab 120 Minuten in den Daten aus Lancaster Da für die spätere Auswertung von Tagenverläufen die Unterbrechungen, welche ganze Tage betreffen, und diejenigen, die über den Tageswechsel stattfinden, in dieser Form uninteressant sind, wurde die Berechnung und Erstellung der Histogramme erneut durchgeführt mit dem Unterschied, dass jetzt nur die Unterbrechungen berücksichtigt sind, die an je einem Tag stattfinden. Das heißt, tagesüberschreitende Unterbrechungen sind aufgeteilt auf die jeweiligen Tage. Fehlen ganze Tage, so werden diese in der Betrachtung nicht berücksichtigt. Die beiden Histogramme sind wieder in unterschiedliche Zeitbereiche aufgeteilt. Das erste Histogramm (siehe Abbildung 5-9) enthält wieder die Anzahl der Aufzeichnungspausen von 11 Minuten bis 120 Minuten. Bei diesem ist dasselbe Phänomen wie auch bei dem Histogramm für die Gesamtaufzeichnungspausen zu erkennen. Der Großteil der Unterbrechungen ist zwischen 11 Minuten und 20 Minuten lang. Insgesamt dauern 64,5% (843 von 1307) aller Unterbrechungen 20 Minuten oder weniger an. Die zweite Häufung zwischen 55 Minuten und 80 Minuten, Stefan Tobias Kleiner ETW 14 47 die auf die Zeitverschiebung zurückzuführen ist, ist ebenfalls wieder vorhanden. Hier sind es 102 von 1307 Unterbrechungen und damit knapp 8%. Abbildung 5-9: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten aus Lancaster Im zweiten Histogramm (siehe Abbildung 5-10) welches die Häufigkeit der Unterbrechungen zwischen 120 Minuten und 1438 Minuten darstellt, ist wieder zu erkennen, dass solche längeren Unterbrechungen nur vereinzelt vorkommen. Insgesamt sind es 325 von 1307 Unterbrechungen. Dies entspricht knapp 25%. Betroffen von diesen Unterbrechungen über zwei Stunden sind lediglich 14 von den 112 Datensätzen. Und davon jeweils nur einzelne Tage. Für die übersichtliche Darstellung sind in Abbildung 5-10 die Häufigkeiten von Zeitintervallen mit je 30 Minuten zusammengefasst. Stefan Tobias Kleiner ETW 14 48 Abbildung 5-10: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen größer 120 Minuten in den Daten aus Lancaster bei einer Zusammenfassung von je 30 Minuten zu einem Balken Um für die Auswertung eine möglichst große Anzahl an Daten zur Verfügung zu haben, werden Aufzeichnungsunterbrechungen bis 120 Minuten akzeptiert und die entsprechenden Werte mit dem Wert 0 angepasst. Dadurch müssen lediglich 317 Tage und damit etwa 25% der Tage mit Aufzeichnungsunterbrechungen von der Analyse ausgeschlossen werden. Da die Unterbrechungen bis 120 Minuten hauptsächlich auf einzelne, fehlende Messpunkte, beziehungsweise auf die Zeitumstellung zurückzuführen sind, wird aufgrund dieses Vorgehens keine wesentliche Beeinträchtigung des Ergebnisses erwartet. 5.4.5. Korrektur der Winterzeit und Sommerzeit Bei einer genaueren Analyse der Datensätze ist aufgefallen, dass diese zum Großteil zwischen Winter- bzw. Sommerzeit umstellen. Das heißt, im Herbst ist eine Stunde doppelt aufgezeichnet und im Frühjahr dafür eine Stunde weniger. Das Problem mit Stefan Tobias Kleiner ETW 14 49 der fehlenden Stunde wurde bereits mit der Konvertierung der Daten in minütliche Werte erledigt. Hier ist bereits überall der Wert „0“ eingetragen. Die zusätzliche Stunde im Herbst wurde allerdings noch nicht berücksichtigt und muss somit noch entfernt werden. Dies wurde mittels eines Python-Skripts gelöst. Hierbei konnte allerdings keine Stapelverarbeitung angewendet werden, da jeder Datensatz genauer analysiert und individuell entschieden werden musste, ob die Daten weiter verwendet werden können oder nicht. Um die Notwendigkeit der Korrektur festzustellen, bzw. um festzustellen, ob die Datensätze korrekt auf Winter- bzw. Sommerzeit umgestellt wurden, sind von allen Datensätzen die Zeitsprünge größer +15Minuten und die Zeitsprünge rückwärts analysiert worden. Dabei musste festgestellt werden, dass bei sechs Datensätzen („7990.all“, „7994.all“, „8000.all“, „8025.all“, „8035.all“, „8058.all“) die Winterzeit vermutlich erst am 18.01.2007 eingestellt wurden. Das korrekte Datum für die Zeitverschiebung wäre allerdings der 29.10.2006 gewesen. Vier der Datensätze („7973.all“, „8048.all“, „8062.all“, „9026.all“) machen nicht erklärbare Zeitsprünge um bis zu vier Stunden zurück. Bei acht Datensätzen („7971.all“, „7973.all“, „7978.all“, „7989.all“, „8007.all“, „8036.all“, „8075.all“, „9026.all“) ist jeweils eine der beiden Zeitumstellungen nicht zu erkennen. Da bei diesen erwähnten 16 Datensätzen die korrekte Zeit nicht eindeutig ist, werden diese von der weiteren Auswertung ausgeschlossen um dadurch mögliche Verzerrungen des Ergebnisses zu vermeiden. 5.4.6. Anpassung an die einheitliche Datenstruktur Da die Daten nun komplett aufbereitet sind, jedoch noch eine andere Struktur aufweisen als die bereits vollständig vorbereiteten Daten von dem Feldversuch in Halifax, müssen diese in einem weiteren Schritt an diese Datenstruktur angeglichen werden, um mit demselben Algorithmus für beide Datensätze fortfahren zu können. Der Inhalt der einzelnen Spalten der Halifax-Datensätze nach deren Aufbereitung ist in der folgenden Auflistung der Reihe nach dargestellt: Jahr, Monat, Tag, Stunde, Minute, Wasserverbrauch Stefan Tobias Kleiner (Original), ETW 14 Wasserverbrauch (korrigiert), 50 Kaltwassertemperatur, Warmwassertemperatur, Warmwassertemperatur (korrigiert), Energiemenge. Ein Problem entsteht bei einigen Datensätzen mit dem Warmwasser. Hier konnte keine Information gefunden werden, die belegt, welcher der jeweiligen Sensoren die Wassertemperatur des aus dem Boiler ausfließenden Wassers misst. Somit kann bei Datensätzen mit mehreren Warmwassersensoren keine eindeutige Warmwassertemperatur angegeben werden, die für den gemessenen Ausfluss gilt. Bei 29 der 112 Datensätzen ist die Warmwassertemperatur eindeutig, da hier nur ein Messwert dafür vorhanden ist. Leider sind bereits vier dieser Datensätze ausgeschlossen worden, da bei diesen die Zeit nicht korrekt oder nicht nachvollziehbar ist (siehe Kapitel 5.4.5). Bei den restlichen Datensätzen werden die verschiedenen verglichen. Warmwassertemperaturen Die jeweils höchste zum selben Temperatur Zeitpunkt wird als miteinander geltende Warmwassertemperatur für diesen Zeitpunkt für den Abfluss angenommen. Dies führt vermutlich zu einem Ergebnis, welches der Realität am Nächsten liegt. Es ist anzunehmen, dass der Temperaturfühler mit dem höchsten Wert auch derjenige ist, der am nächsten zum Boiler installiert ist bzw. derjenige, der den aktuellen Abfluss aufnimmt. Anders als bei den Daten aus Halifax haben diese Temperaturwerte eine sehr schnelle Reaktionszeit, sodass zwischen der ersten Minute der Entnahme und der zweiten die Temperatur am Fühler im Regelfall um weniger als zwei Kelvin steigt, teilweise sogar gleich bleibt oder abnimmt. Aus diesem Grund wird hier nicht wie im Datensatz aus Halifax eine Anpassung der Temperatur durchgeführt. Hier wird mit der Warmwassertemperatur gerechnet, so wie diese gemessen wurde. Die Spalten Wasserverbrauch (korrigiert) und Warmwassertemperatur (korrigiert) sind für die Daten aus Lancaster nicht notwendig. Trotzdem werden diese befüllt um ein einheitliches Fortfahren gewährleisten zu können. Dafür werden die Werte aus den Spalten Wasserverbrauch (Original) und Warmwassertemperatur kopiert. Diese Informationen sind also doppelt vorhanden. Die Information zu der Energiemenge wird wie bereits in Kapitel 5.2 dargestellt berechnet und eingefügt. Stefan Tobias Kleiner ETW 14 51 5.4.7. Anpassung von extremen Entnahmewerten Wie bereits in Kapitel 5.3.5 beschrieben, gibt es drei Größen von Wasserzählern für den Hausanschluss (DIN 2014). Durch Betrachtung des größten von diesen drei mit einem Höchstdurchfluss von 333,3 l/min, ergibt sich, dass folglich alle darüberliegenden Werte technisch nicht möglich sind und entsprechende Messungen damit fehlerhaft. In den Datensätzen aus dem Feldversuch in Lancaster (Energy Saving Trust 2008b) gibt es insgesamt 754 Messwerte die pro Minute über 300 bis zu 6458 Liter an Abfluss gemessen haben. Auf die Gesamtzahl der aufgezeichneten Minuten (46.949.760) entspricht dies einem Anteil von 0,0016 % an fehlerhaften Datenpunkten. Die Verteilung dieser fehlerhaften Datenpunkte ist in dem Histogramm in Abbildung 5-11 zu sehen. Hier ist zu erkennen, dass die meisten dieser Fehler bis 3000 l/min auftreten. Darüber liegen lediglich noch vereinzelt Fehler. Nach genauerer Betrachtung der Datensätze wurde festgestellt, dass einige dieser Fehler direkt nach einer Aufzeichnungspause auftreten. Dies hat vermutlich den Hintergrund, dass der Sensor weiter misst, jedoch der Wert über eine längere Zeit nicht abgefragt und somit nicht zurückgesetzt wird. Erst bei Wiederaufnahme der Aufzeichnung wird dann der Sensor ausgelesen und zurückgesetzt. Um eine übersichtliche Darstellung zu gewährleisten, sind in Abbildung 5-11 die Häufigkeiten über Entnahmemengen in einem Intervall von je 30 l/min zusammengefasst. Die meisten der Fehler (679 von 754) treten allerdings im Datensatz „8089.all“ innerhalb von elf Tagen zwischen dem 02.06.2006 und dem 12.06.2006 auf. Aus diesem Grund werden diese elf Tage von der Auswertung ausgeschlossen, da davon ausgegangen werden muss, dass in diesem Datensatz innerhalb dieses Zeitraums noch weitere Fehler vorhanden sind. Ebenso wurden die restlichen Datentage, welche mehrfach ungültige Werte enthalten von der Analyse ausgeschlossen. Stefan Tobias Kleiner ETW 14 52 Abbildung 5-11: Histogramm mit den Häufigkeiten von ungültigen (>=330 l/min) Entnahmemengen in den Daten aus Lancaster Um mit möglichst wenigen fehlerhaften Messwerten weiterzurechnen, werden alle restlichen Messwerte, welche über dem Wert von 330 l/min liegen, auf 0 gesetzt. 5.5. Zusammenführen der Datensätze Nachdem die unterschiedlichen Datensätze nun auf einen einheitlichen Stand gebracht wurden, können diese zusammengeführt werden. Dazu wird ein PythonSkript entwickelt, welches aus den vielen einzelnen Datensätzen vier Dateien generiert. Die erste davon soll die Verbrauchswerte als Tagesvektoren beinhalten. Das heißt, jeder aufgezeichnete Tag wird in eine Zeile geschrieben. So erhält man Vektoren mit einer Länge von 1440 Elementen, da 24 Stunden 1440 Minuten beinhalten. Dasselbe wird mit den Energieverbräuchen angestellt. Dies ist dann die zweite Datei. Die dritte und vierte Datei beinhalten zusätzliche Informationen zu den einzelnen Zeilen der anderen beiden Dateien. Diese Informationen umfassen die Stefan Tobias Kleiner ETW 14 53 Herkunft der Daten („LAN“ für Lancaster und „HAL“ für Halifax), die Datensatznummer, das Datum mit Jahr, Monat und Tag, den Wochentag, die Personenzahl, welche in dem zugehörigen Haushalt lebt und die Informationen, ob der volumetrische Verbrauch und der Energieverbrauch für die Auswertung gültig sind. Da die Informationen über die Herkunft der Daten und der Wochentag als Text und nicht als Zahl dargestellt wird, werden diese Informationen von den restlichen Informationen in einer separaten Datei abgespeichert. So ist es einfacher mit der Datenstruktur zu rechnen, da klar ist, ob die entsprechenden Informationen von dem Python-Skript als Text oder als Zahl behandelt werden müssen. Wie bereits bei den einzelnen Datensätzen beschrieben, werden Datentage ausgeschlossen, welche eine Unterbrechung von mehr als 120 Minuten am Stück aufweisen. Durch dieses Vorgehen werden zwar Fehler zugelassen, jedoch liegen diese, wie bereits in den entsprechenden Kapiteln dargestellt, in einem vertretbaren Rahmen. Des Weiteren werden für den jeweiligen Auswertungsfall (volumetrischer Verbrauch und energetischer Verbrauch), diese Dateien separat erzeugt mit den jeweils verwendbaren Datentagen. Die restlichen, von dem jeweiligen Anwendungsfall ausgeschlossenen Tage, werden dabei gelöscht. Dadurch erhält man einen Datensatz, welcher volumetrisch auswertbar ist und einen, der energetisch auswertbar ist. Diese Datensätze können dann direkt für den Clustering-Algorithmus verwendet werden. Um verschiedene zeitliche Auflösungen schneller auswerten zu können, werden die Daten noch zusätzlich in verschiedenen Zeitschritten erzeugt. Dabei werden der volumetrische Verbrauch und der energetische Verbrauch für die jeweilige Auflösung addiert. Zusätzlich zu den Dateien mit der minütlichen Auflösung werden Dateien erstellt, welche eine 5minütliche, eine 10minütliche, eine 15minütliche, eine 20minütliche, eine 30minütliche, eine 40minütliche, eine stündliche und eine zweistündliche Auflösung beinhalten. Stefan Tobias Kleiner ETW 14 54 6. Korrelationsanalyse Bevor mit dem eigentlichen Clustering begonnen wird, werden noch vermutete Korrelationen, wie der Zusammenhang zwischen Tagesbedarf und Haushaltsgröße, sowie der Zusammenhang zwischen Haushaltsgröße und Maximalbedarf, in den Daten überprüft. Es wird überprüft, ob zwischen dem Tagesbedarf und der Haushaltsgröße ein Zusammenhang besteht. In Abbildung 6-1 und Abbildung 6-2 wird der Zusammenhang zwischen der Haushaltsgröße in Personen auf der horizontalenAchse mit dem Tagesbedarf in Litern bzw. in kWh auf der vertikalen Achse dargestellt. Hier lässt sich auch entgegen den Erwartungen erkennen, dass größere Haushalte nicht zwingend mehr Warmwasser benötigen als kleinere. Bei SingleHaushalten ist es allerdings in diesen Daten der Fall, dass diese deutlich weniger Warmwasser verbrauchen als größere Haushalte. Abbildung 6-1: Volumetrischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße in dem zusammengesetzten Datensatz Stefan Tobias Kleiner ETW 14 55 Abbildung 6-2: Energetischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße Eine ähnliche Beziehung besteht auch zwischen der Haushaltsgröße und der maximalen Leistung bzw. dem maximalen Volumenstrom, welcher dem System entnommen wird. In Abbildung 6-3 ist der Zusammenhang zwischen dem maximalen Volumenstrom und der Haushaltsgröße grafisch dargestellt. Abbildung 6-3: Beziehung zwischen maximalem Entnahmevolumenstrom und Haushaltsgröße Stefan Tobias Kleiner ETW 14 56 Hier erkennt man auch, dass es bei Haushalten zwischen zwei und sechs Personen kaum Unterschiede gibt. Die maximalen Entnahmewerte scheinen in diesen Haushaltsgrößen unabhängig von der Haushaltsgröße zu sein. Dies zeigt sich nicht nur im Volumenstrom, sondern auch in der entnommenen Leistung. Diese ist in Abbildung 6-4 dargestellt. Abbildung 6-4: Beziehung zwischen maximaler entnommener Leistung und der Haushaltsgröße Betrachtet man auch den Zusammenhang zwischen dem maximalen Volumenstrom und dem Tagesverbrauch in Abbildung 6-5, lässt sich erkennen, dass hier ein breites Streufeld vorhanden ist. Es gibt Datentage an denen nur wenige starke Abflüsse vorhanden sind, aber auch Tage an denen über längere Entnahmen mit einem geringeren Volumenstrom Wasser entnommen wird. Es ist zwar die Tendenz zu erkennen, dass Tage mit einem hohen Tagesbedarf auch Minuten mit einem hohen Volumenstrom aufweisen, jedoch kann nicht von dem einen auf das andere geschlossen werden. Die Korrelation zwischen energetischem Tagesbedarf und maximaler Leistung, welche in Abbildung 6-6 zu sehen ist, ist sehr ähnlich zu der zwischen Tagesbedarf und maximalem Volumenstrom. Stefan Tobias Kleiner ETW 14 57 Abbildung 6-5: Korrelation zwischen dem Tagesbedarf und dem maximalen Volumenstrom Abbildung 6-6: Korrelation zwischen dem Tagesbedarf und dem maximalen Energiestrom Stefan Tobias Kleiner ETW 14 58 7. Volumetrisches Clustering 7.1. Funktionsweise K-Means Clustering Der Ablauf und die allgemeine Funktionsweise von K-Means Clustering ist in dem Flussdiagramm in Abbildung 7-1 dargestellt. Bei einem Clusterverfahren nach dem K-Means Prinzip, wird zunächst die Anzahl der Cluster festgelegt. Der Algorithmus wählt zufällig so viele Datenpunkte wie gewünschte Cluster aus. Diese werden als Zentroiden betrachtet. Anschließend berechnet der Algorithmus für jeden Datenpunkt den zugehörigen, am nächsten gelegenen, Zentroiden aus und weist dem Datenpunkt den entsprechenden Cluster zu. Als Optimierungswert wird beispielsweise die Summe aller Fehler zum Quadrat (das euklidische Distanzmaß) herangezogen. Nachdem alle Punkte einem Cluster zugeordnet wurden, werden die Zentroiden neu berechnet, da sich der Schwerpunkt der in dem Cluster enthaltenen Daten durch das Vorgehen verändert hat. Das Verfahren ist ein iterativer Prozess, bei dem mehrere Durchgänge berechnet werden müssen, bis ein zuvor festgelegtes Abbruchkriterium erfüllt ist. Diese Abbruchkriterien sind zum einen die Genauigkeit, also ändern sich in einer iterativen Schleife die Zentroiden nur noch geringfügig (wie gering muss festgelegt werden) oder ist die maximale Anzahl an iterativen Schleifen, welche ebenso zuvor festgelegt werden muss, erreicht, so stoppt der Algorithmus und gibt als Ergebnis die Zentroiden und die Zuordnung aller Daten zu den Zentroiden aus. Das Ergebnis ist unter Umständen stark davon abhängig, welche Punkte als Startpunkte für die Zentroiden ausgewählt wurden. Aus diesem Grund wird im Allgemeinen empfohlen den gesamten Prozess mehrmals mit unterschiedlichen zufällig gewählten Startpunkten auszuführen. Wie oft dies geschieht kann je nach verwendetem Algorithmus gewählt werden. Das Ergebnis mit dem geringsten euklidischen Distanzwert wird als Endergebnis ausgegeben. (Vgl. Witten ; Frank 2005, S. 136– 142) Stefan Tobias Kleiner ETW 14 59 Anzahl Anzahl Cluster Startversuche Zufällige Daten als Zentroiden festlegen nein Zentroiden bestimmen Abstand jedes Ist ein Abbruch- Elements zu Zentroiden kriterium erfüllt? ja bestimmen ja Elemente dem Ändert sich die Zentroiden mit dem Zuordnung? geringsten Abstand zuordnen nein Zentroiden und Zuordnung der einzelnen Daten Ist die Anzahl an nein ja Startversuchen Ergebnisse mit der geringsten erreicht? Standardabweichung Abbildung 7-1: Ablaufdiagramm des K-Means Clustering Stefan Tobias Kleiner ETW 14 60 Für die Berechnungen in dieser Arbeit wird für das Clustering mit euklidischem Distanzmaß der Python-Algorithmus „KMeans“ aus dem Python-Package scikit-learn (Pedregosa u. a. 2011) verwendet. Hier werden als Abbruchkriterien eine maximale Iterationsanzahl von 1000 und eine Abbruchtoleranz von 0,0001 bei 50 Versuchen mit unterschiedlichen Startzentroiden verwendet. Die beschriebene Funktion „KMeans“ hat folgende Parameter (scikit-learn developers 2014): - n_clusters: optional; Voreinstellung: 8 Anzahl der zu erzeugenden Cluster - max_iter: Voreinstellung: 300 Anzahl der Iterationsschleifen pro Durchlauf - n_init Voreinstellung: 10 Anzahl der Startversuche mit neuen Startzentroiden - init: Voreinstellung: `k-means` Methode zur Auswahl der Startzentroiden: intelligente Auswahl (k-means++); Zufällige Auswahl (random) oder mit vorgegebenen Zentroiden - precompute_distances: Sollen die Abstäde vorberechnet werden? (‚auto‘; True oder False) - tol: Voreinstellung: 1e-4 Abbruchtoleranz - n_jobs: Anzahl der zur Berechnung verwendeten Kerne der CPU - random_state: optional; Voreinstellung: numpy.RandomState Der genutzte Generator zur Auswahl der Startzentroiden - verbose: Voreinstellung: 0 Ausführlichkeit von Meldungen Stefan Tobias Kleiner ETW 14 61 - copy_x: Voreinstellung: True Numerische Genauigkeit (True oder False) Eine andere Methode für die Bestimmung der Distanz zwischen zwei Vektoren ist der sogenannte Manhattan-Abstand. Dieser Abstand summiert nicht die Quadrate aller Fehler, sondern summiert den Betrag aller Fehler. Dadurch werden einzelne starke Abweichungen nicht stärker bestraft, als geringe Abweichungen. Diese Art der Abstandsberechnung ist auch unter dem Begriff Taxi-Metrik bekannt. Dieses Clustering wird in dieser Arbeit ebenfalls mit Python berechnet. Für das eigentliche Clustering wird hier der kmeans-Algorithmus aus dem Package Spectralpython (Boggs 2014b) verwendet. Dieser Algorithmus hat gegenüber dem aus dem Package Scikit-learn (Pedregosa u. a. 2011) den Vorteil, dass hier die Berechnungsart für den Abstand zwischen euklidisch und Manhattan-Abstand gewählt werden kann. Nachteilig ist allerdings, dass dieser Algorithmus nicht mehrfach mit unterschiedlichen Startzentroiden durchlaufen wird. Dadurch kann es sein, dass bei mehrmaliger Anwendung des Algorithmus auf dieselben Daten unterschiedliche Ergebnisse erreicht werden. Ein weiterer Nachteil ist, dass zwar angegeben werden muss, wieviele Cluster man erzeugen möchte. Es kann aber trotzdem durchaus vorkommen, dass das gelieferte Ergebnis weniger Cluster enthält. Dadurch ist es aufwendiger, das Ergebnis zu verarbeiten, da man zunächst die genaue Anzahl an letztendlich erzeugten Clustern zunächst nicht kennt. Allerdings gibt der Algorithmus so viele Clusterzentroiden aus, wie ursprünglich angegeben wurden. Dabei haben einige dieser Cluster zwar Zentroiden aber unter Umständen keine zugeordneten Daten. Die beschriebene Funktion „kmeans“ hat folgende Parameter (Boggs 2014a): - image: Die Matrix auf die das Clustering angewendet wird - nclusters: Voreinstellung: 10 Anzahl der Cluster. Die Anzahl im Ergebnis kann geringer sein - max_iterations: Stefan Tobias Kleiner Voreinstellung: 20 ETW 14 62 Anzahl der Iterationsschleifen pro Durchlauf - start_clusters: Voreinstellung: None Array mit Startzentroiden - compare: Voreinstellung: None Optionale Vergleichsfunktion - distance: Voreinstellung: L2 Verwendete Abstandsfunktion. Euklidisch (L2) oder Manhattan-Abstand (L1) - frames: Voreinstellung: None Liste in der die zwischenzeitlichen Clusterergebnisse gespeichert werden 7.2. Gütekriterien Da der gesamte Clustering Prozess beurteilt werden muss, müssen Gütekriterien festgelegt werden, nach denen bestimmt werden kann, ob die Cluster für das weitere Vorgehen geeignet sind oder nicht. Für die Bestimmung der Güte von Clustern gibt es mehrere Möglichkeiten (Vgl. Runkler 2015, S. 126–127). Im Folgenden wird auf den Davies-Bouldin-Index, den Dunn-Index und den Silhouette-Index näher eingegangen. Der erste Index ist der Davies-Bouldin-Index („Davies–Bouldin index“ 2016). Hierbei ist n die Anzahl an erzeugten Cluster. entspricht der Standardabweichung des Clusters. Die Funktion d() bestimmt den Abstand zwischen zwei Elementen. Und c steht für den Clusterzentroiden. Somit wird beim Davies-Bouldin-Index die durchschnittliche Überschneidung der Cluster bestimmt. Ergibt die Berechnung den Wert 1, so berühren sich die Cluster, sind aber getrennt. Ist der Wert größer als 1, so überschneiden sich die Cluster. Ist der Wert kleiner als 1, so sind die Cluster eindeutig voneinander getrennt. Stefan Tobias Kleiner ETW 14 63 𝒏 𝒊 + 𝒋 𝟏 𝑫𝑩 = ∑ 𝐦𝐚𝐱( ) 𝒋≠𝒊 𝒅(𝒄𝒊 , 𝒄𝒋 ) 𝒏 Formel 2: Davies-Bouldin-Index („Davies–Bouldin index“ 2016) 𝒊=𝟏 Eine weitere Möglichkeit ist der Dunn-Index („Dunn index“ 2016). Hierbei ist ebenfalls n die Anzahl an generierten Cluster. Dabei ist d(i, j) der Abstand zwischen den Clusterzentroiden von i und j. Der Wert d‘(k) entspricht dem größten Abstand von zwei Elementen in dem Cluster k. Somit setzt der Dunn-Index, wie auch der DaviesBouldin-Index, den Abstand in dem Cluster mit dem Abstand zwischen Clustern ins Verhältnis, wobei hier nicht gemittelt wird sondern die Extrema betrachtet werden. Somit werden einzelne Ausreißer sehr stark bestraft. Hier ist das Clustering umso besser, je kleiner der Dunn-Index ist. 𝒅= 𝒎𝒊𝒏𝟏≤𝒊<𝒋≤𝒏 𝒅(𝒊, 𝒋) 𝒎𝒂𝒙𝟏≤𝒌≤𝒏 𝒅′(𝒌) Formel 3: Dunn-Index („Dunn index“ 2016) Oder aber man zieht den Silhouette-Index heran („Silhouette (clustering)“ 2016), wobei a(i) der durchschnittliche Abstand des Elements i, als Bestandteil des Clusters a, zu allen anderen Elementen im Cluster a ist. Vereinfacht gesagt, ist a(i) der Abstand des Elements i zu seinem Clusterzentroiden. Und b(i) entspricht dem geringsten durchschnittlichen Abstand des Elements i zu allen Elementen eines Clusters b. Der Cluster b ist dabei dem Element i nächstgelegenen Cluster, welchem i nicht zugeordnet ist. Oder vereinfacht: Der geringste Abstand von dem Element i zu einem anderen Clusterzentroiden. Der Wert muss für jedes Element einzeln berechnet werden. Um eine Aussage über den gesamten Cluster oder über alle Cluster treffen zu können, muss der Wert dann noch entsprechend gemittelt werden. Der Wert für s liegt zwischen -1 (Element liegt am Schwerpunkt des benachbarten Clusters) und +1 (Element liegt im Schwerpunkt des eigenen Clusters). 0 bedeutet, das Element liegt exakt zwischen den beiden Clusterzentroiden. Das heißt, je größer der Wert ist, desto besser ist das Clustering. 𝒔(𝒊) = 𝒃(𝒊) − 𝒂(𝒊) 𝒎𝒂𝒙{𝒂(𝒊), 𝒃(𝒊)} Formel 4: Silhouette-Index („Silhouette (clustering)“ 2016) Es gibt noch weitere Möglichkeiten, wie z.B. den Partitionskoeffizienten, die Klassifikationsentropie, den Calinski-Harabasz-Index oder den Gap-Index, nach Stefan Tobias Kleiner ETW 14 64 denen die Güte von Clustern bestimmt werden kann (vgl. Runkler 2015, S. 126–127), diese werden hier allerdings nicht weiter ausgeführt. Für die Cluster, welche in dieser Arbeit berechnet werden, werden der DaviesBouldin-Index und der Silhouette-Index herangezogen um eine Aussage über die Güte und die optimale Anzahl an Clustern zu treffen. Beide Indizes berücksichtigen auch die Eindeutigkeit der Zuordnung. Somit muss diese nicht separat überprüft werden. 7.3. Datenfilterung auf Basis von Clusteringergebnissen (ein Beispiel) Wird das K-Means Clustering Verfahren mit euklidischem Distanzmaß als Optimierungsmaß auf den Datensatz mit den Abflussraten in minütlicher Auflösung angewandt, so erhält man die beiden Gütekurven, welche in Abbildung 7-2 und Abbildung 7-3 dargestellt sind. Hier sieht man einen stark schwankenden Verlauf der Kurven. Dieses Verhalten war so zuvor nicht erwartet. Durch diese Kurve kann bei den verwendeten Parametern (maximale Iterationsschleifen: 1000 und Abbruchtoleranz: 0,0001) nicht bestimmt werden, welche Anzahl an Clustern die geeignetste ist. Abbildung 7-2: Gütekurve nach dem Davies-Bouldin-Index des K-Means Clustering bei minütlicher Auflösung Stefan Tobias Kleiner ETW 14 65 Abbildung 7-3: Gütekurve nach dem Silhouette-Index des K-Means Clustering bei minütlicher Auflösung Betrachtet man den Verlauf der Standardabweichung in Abbildung 7-4 über die Anzahl der Cluster, so sieht man, dass diese stetig abnimmt. Dadurch, dass die Standardabweichung nahezu konstant abfällt und die Kurve des mittleren Zentroidenabstandes, welche in Abbildung 7-5 dargestellt ist, ein sprunghaftes Verhalten aufweist, lässt sich auch der Verlauf in den Gütekurven erklären. Schaut man sich die Verteilung der Datensätze auf die Cluster an, so sieht man, dass ein einzelner Cluster 30773 der 47740 Datensätze beinhaltet. Weitere 11 Cluster beinhalten 16927 der Datensätze. Somit bleiben für die restlichen 18 Cluster lediglich 40 Datensätze übrig. Dies sind vermutlich Ausreißer, welche dieses unerwartete Verhalten der Gütekurve auslösen. Stefan Tobias Kleiner ETW 14 66 Abbildung 7-4: Standardabweichung über die Anzahl der Cluster bei euklidischem Clustering und minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung Abbildung 7-5: Abstand der Clusterzentroiden nach Anzahl der Cluster bei euklidischem Clustering und minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung Um genauer zu analysieren, welche Ursachen die Ausreißercluster verursachen, werden die 30 Zentroiden in Abbildung 7-6 und Abbildung 7-7 grafisch dargestellt. Stefan Tobias Kleiner ETW 14 67 (a) (g) (m) (b) (h) (n) (c) (i) (o) (d) (j) (p) (e) (k) (q) (l) (r) (f) Abbildung 7-6: Clusterzentroiden 0 (a) bis 17 (r) bei 30 Clustern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min. Stefan Tobias Kleiner ETW 14 68 (a) (e) (i) (b) (f) (j) (c) (g) (k) (d) (h) (l) Abbildung 7-7: Clusterzentroiden 18 (a) bis 29 (l) bei 30 Clustern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min. Plottet man alle Clusterzentroiden mit mehr als zehn beinhalteten Datentagen in einem Graphen übereinander, so erhält man Abbildung 7-8. Stefan Tobias Kleiner ETW 14 69 Abbildung 7-8: Tagesverläufe der 12 wichtigsten Clusterzentroiden bei dem ersten Clusteringversuch um die Daten weiter zu filtern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit Hier erkennt man Tagesverläufe, welche entweder eher vormittags mehr Verbrauch haben und andere, welche eher nachmittags mehr Verbrauch haben. Einige haben in den Morgenstunden zwischen 5 Uhr und 10 Uhr einen sehr hohen Verbrauch, dafür den Rest des Tages nur wenig. Dies sind vermutlich Haushalte in denen morgens geduscht wird. Andere haben abends zwischen 17 Uhr und 20 Uhr einen hohen Verbrauch und dafür morgens nur einen geringen Verbrauch. Wiederum andere haben über die Mittagszeit einen höheren Verbrauch als den Rest des Tages. Bereits in Abbildung 7-6 und Abbildung 7-7 ist optisch zu erkennen, dass einige der übrigen Clusterzentroiden einen sehr unerwarteten Verlauf aufzeigen. Deshalb werden in Tabelle 7-1 noch einige Informationen zu den Zentroiden dargestellt, um beurteilen zu können, ob die Daten eventuell weiter gefiltert werden sollten, bevor mit dem Clustern fortgefahren wird. Stefan Tobias Kleiner ETW 14 70 Tabelle 7-1: Clusterinformationen bei 30 Clustern bei dem ersten Clustering zur weiteren Datenfilterung Nummer Anzahl an maximaler Verbrauch in Datensätzen Liter/Minute 0 1194 4,32 244,48 1 2198 1,70 291,94 2 30773 0,14 86,24 3 5 108,82 1249,98 4 1 161,10 3455,3 5 1246 4,04 226,06 6 2 120,00 1815,05 7 1240 5,12 241,08 8 1 108,20 2377,00 9 1210 4,96 228,16 10 2 70,75 1805,85 11 1232 3,86 250,70 12 8 33,75 919,61 13 1 120,70 3637,30 14 1 125,00 2853,70 15 1 118,00 3173,10 16 1 116,60 2366,80 17 2 138,90 1821,50 18 2040 1,45 380,31 19 1 208,80 1949,70 20 1 123,80 12471,90 21 1643 3,40 206,36 22 9 34,38 1579,72 23 1585 2,66 248,46 24 1 116,30 2165,40 25 1776 1,55 265,84 26 1 117,80 3748,90 27 1 96,60 1076,30 28 1 97,80 1362,20 29 1563 3,06 262,42 ∑=30 ∑=47740 Stefan Tobias Kleiner ETW 14 Tagesverbrauch in Liter 71 Auffällig in Tabelle 7-1 ist, dass bei den Clustern mit mehr als 10 Datensätzen der höchste Verbrauch bei 5,12 l/min liegt. Da dies der Clusterzentroid ist, kann dies bei den einzelnen Datensätzen um einiges höher liegen. Allerdings ist bei den Clustern mit weniger als 10 beinhalteten Daten der Maximalwert der Entnahme zwischen 33,75 l/min und 208,80 l/min. Dies ist um mehr als den Faktor 6 höher als bei den restlichen Zentroiden. Da hier davon ausgegangen werden muss, dass dies durch Messfehler entstanden ist, wird analysiert, wie viele Datensatztage einen Messwert von 50 oder mehr Litern pro Minute aufweisen. Das Ergebnis dieser Untersuchung ist, dass 236 Tagesdatensätze zwei- oder mehrmals täglich einen Abfluss von 50 oder mehr Litern pro Minute aufweisen. Dies sind auf die Gesamtdatenmenge gesehen 0,5% der Daten. Auffällig ist, dass diese Daten alle aus dem Gesamtdatensatz von Lancaster stammen. Zudem sind davon nur 16 der 96 aus Lancaster stammenden Originaldatensätze betroffen. Betrachtet man die Anzahl der bewohnenden Personen, der Haushalte der Datenherkunft, so sieht man, dass entgegen der Erwartung, kaum große Haushalte betroffen sind. Einer der Tage stammt aus einem Haushalt mit sieben bewohnenden Personen, weitere elf der Tagesdatensätze stammt von drei Haushalten mit je fünf bewohnenden Personen. Die restlichen 224 Daten stammen aus Haushalten mit vier und weniger Personen. Aus diesem Grund wird entschieden, die 236 Tagesdaten ebenfalls von der Auswertung auszuschließen, da angenommen wird, dass hier Messfehler vorliegen müssen. 7.4. Euklidisches Clustering bei minütlicher Auflösung Wird dieselbe Clusteranalyse nochmals auf den um 236 Tage reduzierten Datensatz angewandt, so ergeben sich die folgenden, in Abbildung 7-9, dargestellten Gütekurven. Stefan Tobias Kleiner ETW 14 72 Abbildung 7-9: Gütekurven bei dem weiter gefilterten Datensatz und minütlicher Auflösung Bei diesen Kurven liegt der Verlauf schon deutlich näher an dem erwarteten Ergebnis. Allerdings ist hier weder bei dem Verlauf des Davies-Bouldin-Indexes ein deutlicher Tiefpunkt der Kurve zu erkennen, noch ist bei dem Verlauf des Silhouette-Indexes ein eindeutiger Hochpunkt zu erkennen. Beide Kurven verlaufen stetig in die Richtung des besseren Wertes. Ausnahme hierbei ist der erste Wert des DaviesBouldin-Indexes bei zwei Clustern. Von zwei auf drei Cluster verändert sich die Güte nach Davies-Bouldin sehr stark in Positive Index-Richtung. Das Bedeutet, die Güte nimmt sehr stark ab. Dieses Verhalten ist nach dem Silhouette-Index nicht vorhanden. Dass hier kein Hoch- bzw. Tiefunkt in den Kurven erkenntlich ist, bedeutet entweder dass es hier kein Optimum gibt oder das Optimum bei einer höheren Anzahl an Clustern als 30 liegt. Betrachtet man dazu noch den Verlauf der Standardabweichung, so erhält man die Abbildung 7-10. Dieser Verlauf ist wie bei dem vollen Datensatz bereits nahezu linear. Jedoch ist der niedrigste Wert mit einer Standardabweichung von 28,02 immer noch sehr hoch. Stefan Tobias Kleiner ETW 14 73 Abbildung 7-10: Standardabweichung der Cluster aller Daten bei dem weiter gefilterten Datensatz und minütlicher Auflösung Die Verteilung der Daten auf die Cluster ist nun ebenfalls um einiges gleichmäßiger, als mit dem vollen Datensatz. Es gibt nur noch einen Cluster mit lediglich einem Datentag, einen Cluster mit 26.895 Datentagen und die restlichen 28 Cluster setzen sich aus jeweils 463 bis 1261 Datentagen zusammen. Betrachtet man den Verlauf der Clusterzentroiden in Abbildung 7-11 im Vergleich, so sieht man Kurven mit je einem Peak am Tag. Ausnahme dabei ist der Cluster mit nur einem Datentag (gelbe Kurve). Um die einzelnen Kurven deutlicher zu erkennen wurde dasselbe Bild ohne den Clusterzentroiden mit nur einem Datensatz in Abbildung 7-12 erstellt. Hier erkennt man wieder, dass die Hauptverbräuche anscheinend in den Morgenstunden zwischen 6 Uhr und 10 Uhr, über die Mittagszeit zwischen 10 Uhr und 13 Uhr und wieder am Abend zwischen 16:30 Uhr und 22:30 Uhr liegen. Stefan Tobias Kleiner ETW 14 74 Abbildung 7-11: Überlagerung der Tagesverläufe der 30 Clusterzentroiden bei einem euklidischen Clustering des reduzierten Datensatzes mit minütlicher Auflösung Abbildung 7-12: Überlagerung der Tagesverläufe von 29 der 30 Clusterzentroiden bei euklidischem Clustering und einer minütlichen Auflösung Stefan Tobias Kleiner ETW 14 75 Betrachtet man nun die Cluster genauer, so erkennt man die große Standardabweichung auch optisch. In Abbildung 7-13 ist einer der Cluster beispielhaft dargestellt. In blau dargestellt ist die Standardabweichung der Kurve. In rot dargestellt ist der Clusterzentroid, also der Schwerpunkt der einzelnen Tagesverläufe. Im Anhang unter Kapitel 11.2 sind alle 30 dieser Grafiken zu finden. Abbildung 7-13: Beispiel eines Clusterzentroides (rot) mit der Standardabweichung in blau bei euklidischem Clustering von minütlichen Daten bei 30 erzeugten Clustern 7.5. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 30 Cluster In den Untersuchungen aus Kapitel 7.1 und Kapitel 7.4 ist klar zu erkennen, dass ein Clustering bei einer zeitlichen Auflösung von einer Minute keine Aussichten auf Erfolg verspricht. Aus diesem Grund wurde entschieden, die zeitliche Auflösung zu verringern. Um eine optimale zeitliche Auflösung herauszufinden, wurden Cluster für Stefan Tobias Kleiner ETW 14 76 verschiedene Zeitschritte erstellt. Und zwar für 5-, 10-, 15-, 20-, 30-, 40-, 60- und 120-minütliche Zeitabstände. In Abbildung 7-14 sind die Silhouette-Indizes für einige verschiedenen zeitlichen Auflösungen bei den verschiedenen Clusteranzahlen dargestellt. Der größte Silhouette-Index mit einem Wert von 0,1479 wird dabei bei einer Auflösung von 60 Minuten und einer Anzahl von 25 Clustern erreicht. Abbildung 7-14: Silhouette-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern Dieser Wert ist immer noch sehr gering und lässt auf keine starke Clusterbildung schließen. Der Davies-Bouldin-Index beträgt an dieser Stelle 1,6678 und ist damit an Stelle 34 der besten erstellten Cluster nach dem Davis-Bouldin-Index. Um die Qualität der Clusterbildung zu validieren wird die Abbildung 7-15 herangezogen. Hier sind die Verläufe der Davies-Bouldin-Indizes bei den unterschiedlichen zeitlichen Auflösungen und den unterschiedlichen Clusteranzahlen Stefan Tobias Kleiner ETW 14 77 dargestellt. Der geringste Wert wird mit einem Wert von 1,2952 bei einer Auflösung von 120 Minuten und einer Clusteranzahl von 2 Clustern erreicht. Abbildung 7-15: Davies-Bouldin-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern Betrachtet man die Verteilung der einzelnen Daten auf die beiden Cluster so sieht man, dass etwa 23,5% der Daten in einem Cluster liegen und die anderen 76,5% in dem anderen Cluster. Der Silhouette-Index beträgt hier 0,03215 und ist damit ein sehr geringer Silhouette-Index, der somit auf eine niedrige Clusterqualität hinweist. In Abbildung 7-16 und Abbildung 7-17 sieht man die beiden Clusterzentroiden (rote Kurven) mit allen ihren Standardabweichungen (blaue Balken). Dabei kann man deutlich erkennen, dass die Clusterzentroiden weit entfernt von den einzelnen beinhalteten Datensätzen liegen. Dies spiegelt auch die hohe Gesamtstandardabweichung mit einem Wert von 84,72 wieder. Stefan Tobias Kleiner ETW 14 78 Abbildung 7-16: Erster von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt mit der Standardabweichung Abbildung 7-17: Zweiter von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt mit der Standardabweichung 7.6. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 500 Cluster Da die Clusteranzahl von 30 Clustern zu keinem erfolgreichen Ergebnis geführt hat, wird die Anzahl der möglichen Cluster erhöht. Diese Untersuchung wird nur noch für die zeitlichen Auflösungen von 60 und 120 Minuten durchgeführt. Die kleineren Zeitschritte haben in den vorhergehenden Versuchen keinerlei Aussichten auf Erfolg versprochen, so dass diese nicht weiter berücksichtigt werden. Um die Rechenzeit Stefan Tobias Kleiner ETW 14 79 zu verkürzen, wurde das Clustering nicht für jede mögliche Anzahl an Clustern berechnet, sondern in Schritten von 25. Das heißt, Cluster wurden je für die Clusteranzahlen von 25, 50, 75, … gebildet. Betrachtet man nun wieder die Gütekurven, so erkennt man, dass sowohl die Güte nach dem Silhouette-Index in Abbildung 7-18 einen Hochpunkt, zumindest bei einer zeitlichen Auflösung von 120 Minuten, aufweist, als auch die Gütekurve nach DaviesBouldin in Abbildung 7-19 bei einer Auflösung von 120 Minuten einen Tiefpunkt. Der Hochpunkt beim Silhouette-Index liegt bei etwa 300 Clustern. Der Tiefpunkt bei dem Davies-Bouldin-Index liegt bei etwa 125 Clustern. Da der Verlauf des DaviesBouldin-Indexes jedoch nur eine geringe Schwankung aufweist, der Verlauf des Silhouette-Indexes jedoch einen deutlichen Hochpunkt erkennen lässt, wird der Schwerpunkt der Untersuchung auf den Bereich des Höhepunktes um 300 Cluster gelegt. Abbildung 7-18: Silhouette-Indizes bis 500 Cluster mit euklidischem Distanzmaß Stefan Tobias Kleiner ETW 14 80 Abbildung 7-19: Davies-Bouldin-Indizes bis zu 500 Clustern bei euklidischem Distanzmaß Da die Bereiche um den Hochpunkt des Verlaufs der Silhouette-Indizes am interessantesten erscheinen, werden für diese Bereiche weitere Cluster mit einem Abstand von je 5 Clustern berechnet. Wird nun der Verlauf der Güte nach dem Silhouette-Index in diesem Bereich betrachtet, erkennt man in Abbildung 7-20, dass das Optimum mit 0,227 bei etwa 315 Clustern liegt. Allerdings ist die Schwankung zwischen 290 und 325 Clustern sehr gering, so dass kein eindeutiger Wert bestimmt werden kann. Dies ist vermutlich stark von den verwendeten Daten abhängig. Nach dem Güteindex gemäß Davies-Bouldin kann in diesem Bereich, wie in Abbildung 7-21 zu erkennen kein Optimum bestimmt werden. Die Schwankung des DaviesBouldin-Indexes ist sehr gering und lässt keine Aussage darüber zu, ob das eine Clustering besser ist als das andere. Stefan Tobias Kleiner ETW 14 81 Abbildung 7-20: Silhouette-Indizes im Bereich zwischen 250 und 325 Cluster Abbildung 7-21: Davies-Bouldin-Indizes bei 250 bis 325 Clustern bei euklidischem Distanzmaß Stefan Tobias Kleiner ETW 14 82 Betrachtet man die Verteilung der Daten auf die einzelnen Cluster so kann man in Abbildung 7-22 sehen, dass die meisten Cluster nur wenige Datentage und nur einige wenige Cluster mehrere hundert Datentage beinhalten. Abbildung 7-22: Verteilung der Datentage auf die Cluster 41 der 315 Cluster beinhalten nur zehn oder weniger Datentage. 20 davon beinhalten sogar je nur einen Datentag. In Abbildung 7-23 ist die Anzahl der Datentage nach Clustergröße sortiert und aufsummiert dargestellt. Hier erkennt man das Prinzip nach Pareto, welches besagt, dass mit 20 % Aufwand etwa 80 % des Ergebnisses abgedeckt werden kann („Paretoprinzip“ 2016). In diesem Fall entsprechen 20 % der Cluster (63 Cluster) etwa 69 % der Datentage (32810 von 47504 Datentagen). Der kleinste dieser 63 größten Cluster beinhaltet 177 Datentage. Stefan Tobias Kleiner ETW 14 83 Abbildung 7-23: Aufsummierte Datentaganzahl über die Anzahl der Cluster. In Rot dargestellt der Schnittpunkt bei 20 % der Cluster Betrachtet man anschließend die Anzahl der Cluster pro Haushalt in Abbildung 7-24, so sieht man, dass jeder Haushalt zwischen 10 und 160 Clustern zugeordnet ist. Im Durchschnitt werden jedem Haushalt etwa 74 der 315 Cluster zugeordnet. Betrachtet man die Verteilung der Haushalte auf die Cluster in Abbildung 7-25, so erkennt man, dass jedem Cluster zwischen einem und 124 der 141 Haushalte zugeordnet ist. Im Durchschnitt beinhaltet jeder Cluster Daten aus etwa 33 verschiedenen Haushalten. Stefan Tobias Kleiner ETW 14 84 Abbildung 7-24: Anzahl der einem Haushalt zugeordneten Cluster bei euklidischem Clustering von 315 Clustern bei 120 minütlicher Auflösung Abbildung 7-25: Anzahl der einem Cluster zugeordneten Haushalte bei euklidischem Clustering von 315 Clustern bei 120 minütlicher Auflösung Stefan Tobias Kleiner ETW 14 85 Die Zentroiden der größten 63 (20 %) aller hier gebildeten Cluster werden als Standardlastprofile bewertet. Durch diese können knapp 70 % aller bewerteten Datentage abgedeckt werden. In den folgenden Abbildungen (Abbildung 7-26, Abbildung 7-27, Abbildung 7-28, Abbildung 7-29) sind die Graphen der Zentroiden mit den Standardabweichungen an jedem Datenpunkt dargestellt. Abbildung 7-26: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 1) Stefan Tobias Kleiner ETW 14 86 Abbildung 7-27: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 2) Stefan Tobias Kleiner ETW 14 87 Abbildung 7-28: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 3) Stefan Tobias Kleiner ETW 14 88 Abbildung 7-29: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem Abstand (Teil 4) Betrachtet man die Verteilung der Haushalte für diese 63 Cluster auf die einzelnen Cluster, so sieht man in Abbildung 7-30, dass die meisten Cluster zwischen 60 und 110 Haushalte beinhalten. Interessanter erscheint allerdings Abbildung 7-31. Hier ist ersichtlich, dass die Haushalte nicht nur einigen wenigen Clustern zugeordnet sind, sondern mit einer durchschnittlichen Vertretung in 34 Clustern recht stark auf die Cluster verteilt sind. Es gibt allerdings kein Haushalt, welcher allen Clustern zugeordnet werden kann. Der höchste Wert liegt bei 56 von 63 zugeordneten Clustern. Stefan Tobias Kleiner ETW 14 89 Abbildung 7-30: Verteilung der Haushalte auf die Cluster, welche als Standardlastprofile generiert wurden Abbildung 7-31: Verteilung der Cluster, welche als Standardlastprofile generiert wurden, auf die Haushalte Stefan Tobias Kleiner ETW 14 90 7.7. Clustering mit Manhattan Abstand Da das Clustering mit kleinstem euklidischem Abstand nur einen mittelmäßig vielversprechenden Erfolg aufzeigt, wird das Clustering mit einem anderen Abstandsmaß durchgeführt. In diesem Kapitel wird der Manhattan-Abstand als zweite Berechnungsvariante verwendet. Da die bisherigen Untersuchungen eher auf dem Silhouette-Index beruhen, wird hier zunächst auch nur der Silhouette-Index berechnet um Rechenzeit einzusparen. Wird das Clustering auf den gesamten Datensatz bei unterschiedlichen zeitlichen Auflösungen und unterschiedlichen Clusteranzahlen bis 30 Cluster durchgeführt, so ergibt sich für die Güte nach dem Silhouette-Index die Abbildung 7-32. Bei dem Verlauf der Silhouette-Indizes in Abbildung 7-32 sieht man eine Zunahme des Wertes bei der Zunahme der Clusteranzahl. Auch erkennt man hier, dass bei einer gröberen zeitlichen Auflösung der Wert größer ist. Allerdings liegt hier der höchste Wert bei lediglich 0,0701 und ist damit deutlich geringer als bei dem Clustering nach dem geringsten euklidischen Abstand. Abbildung 7-32: Silhouette-Indizes bei unterschiedlichen zeitlichen Auflösungen und unterschiedlichen Clusteranzahlen bis 30 Cluster Stefan Tobias Kleiner ETW 14 91 Der größte Silhouette-Index liegt bei einer zeitlichen Auflösung von 120 Minuten und einer Anzahl von 29 Clustern. Die durchschnittliche Abweichung, welche mit Manhattan-Abstand berechnet wurde und nicht euklidisch, beträgt an dieser Stelle 123,8067 und ist damit relativ hoch. Da hier bei bis zu 30 Clustern ebenfalls keine vielversprechenden Ergebnisse erscheinen, wird die Anzahl der möglichen Cluster erhöht. Dafür wird für bis zu 500 Cluster die Güte berechnet. Allerdings nicht für jeden Fall, sondern in Schritten von 25 Clustern. Die Grafik ist in Abbildung 7-33 dargestellt. Der höchste Punkt, also das beste Clusteringergebnis mit 0,0851, liegt bei 325 Clustern. Das zweitbeste Ergebnis liegt bei 225 Clustern. Dies ist eine große Streuung und lässt darauf schließen, dass das Ergebnis stark von den Startclustern abhängig ist. Abbildung 7-33: Silhouette-Indizes von Verbrauchsprofilen mit Manhattan-Abstand als Optimierung bei bis zu 500 Clustern Da das tatsächlich beste Clustering in dem Bereich zwischen 225 und 325 Clustern erwartet wird, wird für diesen Bereich das Clustering mit einem feineren Raster erneut durchgeführt. Hierbei werden Cluster im Abstand von je 5 Clustern berechnet. Stefan Tobias Kleiner ETW 14 92 In Abbildung 7-34 ist der Verlauf des Silhouette-Indexes bei den zeitlichen Auflösungen von 60 und 120 Minuten in dem Bereich zwischen 225 und 325 Clustern zu sehen. Nach diesem Schaubild liegt der beste Wert mit etwa 0,080 bei einer zeitlichen Auflösung von 120 Minuten und einer Anzahl von 260 Clustern. Der Wert von 0,08 ist sehr nahe an 0, so dass hier nicht von einem zuverlässigen Clusteringergebnis gesprochen werden kann. Abbildung 7-34: Silhouette-Indizes bei 225 bis 325 Clustern und Optimierung nach Manhattan-Abstand Betrachtet man in Abbildung 7-35 die Verteilung der Datentage auf die Cluster, so sieht man, dass die meisten der Cluster nur wenige Datentage beinhalten. Nur einige wenige beinhalten mehrere 100 Datentage. 52 der 260 Cluster beinhalten zehn oder weniger Datentage. Davon beinhalten drei Cluster sogar nur einen Tag. Es gibt auch hier ein Ausreißercluster, welches über 15000 Datentage beinhaltet. Dieses Ausreißercluster wird in dem Schaubild nicht dargestellt, um die Übersichtlichkeit zu bewahren. Die Verteilung der Daten auf die Cluster wird in dem Pareto-Diagramm in Abbildung 7-36 nochmals dargestellt. Hier ist erkenntlich, dass 20 % der Cluster (52 Stefan Tobias Kleiner ETW 14 93 Cluster) etwa 84,7% (40247 von 47504) der Daten wiedergeben. Dies ist ein besseres Ergebnis als bei dem euklidischen Clustering. Abbildung 7-35: Verteilung der Daten auf die Cluster Abbildung 7-36: Summe der Datentage über die Anzahl der Cluster bei 260 Clustern und Optimierung nach Manhattan-Abstand. In Rot dargestellt der Schnittpunkt bei 20 % der Cluster Stefan Tobias Kleiner ETW 14 94 Schaut man sich die Beziehung zwischen den Clustern und den Haushalten an, so sieht man in Abbildung 7-37 im linken Schaubild, dass die Daten jedes Haushaltes auf 3 bis 157 Cluster verteilt sind. Im Durchschnitt wird jeder Haushalt etwa 54 Clustern zugeordnet. Betrachtet man das rechte Schaubild, so sieht man, dass die meisten Cluster Daten aus nur einigen wenigen Haushalten beinhalten. Im Durchschnitt Datentage aus etwa 24 der 144 Haushalte. Einige Cluster enthalten jedoch Daten aus bis zu 134 Haushalten. Abbildung 7-37: Korrelation zwischen Cluster und Haushalten bei einem Clustering nach ManhattanAbstand und 260 erzeugten Clustern 7.8. Vergleich zwischen euklidischem Clustering und Clustering mit Manhattan-Abstand Ein Vergleich der beiden Clusteringmethoden, das K-Means-Clustering mit euklidischem Abstand und das K-Means-Clustering mit Manhattan-Abstand, ist nicht so einfach möglich. Es ist zwar für beide Varianten der Güteindex nach Silhouette berechnet worden, allerdings kann damit nur schwer verglichen werden. Der Silhouette-Index beim euklidischen Abstand wurde euklidisch berechnet. Der Silhouette-Index beim Manhattan-Abstand wurde mit Manhattan-Abstand berechnet. Dadurch ergeben sich unterschiedliche Berechnungsmethoden. Würde für beide Clusteringvarianten dasselbe Distanzmaß zur Berechnung des Silhouette-Indexes verwendet werden, so führt das voraussichtlich dazu, dass das Clustering mit demselben Distanzmaß wie die Indexberechnung als das bessere Stefan Tobias Kleiner ETW 14 95 betrachtet wird. Diese Vermutung wird dadurch begründet, dass wenn nach einem Distanzmaß optimiert wird und der Fehler nach einem anderen Distanzmaß berechnet wird, der Fehler voraussichtlich stärker bestraft wird, als wenn der Fehler nach dem selben Distanzmaß wie das Clustering berechnet wird. Vergleicht man jedoch trotzdem die Werte des jeweils besten Silhouette-Indexes so sieht man, dass bei dem euklidischen Clustering der beste Wert mit 0,227 bei 315 Clustern und einer zeitlichen Auflösung von 120 Minuten liegt. Der beste Wert des Clusterings mit dem Manhattan-Abstand als Optimierungswert hat allerdings nur einen Bestwert von 0,080 bei 260 Clustern und einer zeitlichen Auflösung von 120 Minuten. Damit wäre das euklidische Clustering theoretisch um den Faktor drei besser. Dies kann jedoch wie bereits beschrieben nicht direkt verglichen werden. Da die Parameter mit 260 und 315 Clustern bei jeweils 120minütlicher Auflösung nahe beieinander liegen, kann aber gesagt werden, dass das optimale Clustering vermutlich in diesem Bereich liegt. Unabhängig von dem Optimierungswert. Stefan Tobias Kleiner ETW 14 96 7.9. Euklidisches Clustering bei genormten Verbrauchsprofilen Da die vorhergehenden Versuche Cluster zu erzeugen weniger erfolgreich verlaufen sind, wird nun versucht mit genormten Verbrauchsprofilen Cluster zu erzeugen. Dafür werden die Datensätze in prozentuale Verbräuche umgerechnet. Das heißt, jeder Tag erhält in Summe den Wert 100. Es gibt allerdings auch Tage ohne Verbrauch, wenn die bewohnenden Personen beispielsweise im Urlaub sind. Diese Tage werden weiterhin mit Null Verbrauch berechnet. In Abbildung 7-38 sieht man die Verläufe der Silhouette-Indizes bei verschiedenen zeitlichen Auflösungen und unterschiedlichen Clusteranzahlen bis zu 30 Cluster. Den höchsten Wert erreicht der Index mit 0,2122 bei 17 Clustern und einer zeitlichen Auflösung von 120 Minuten. Damit ist der höchste Silhouette-Index bei einem Clustering von genormten Clusterdaten kaum höher als bei einem Clustering von nicht genormten Clusterdaten. Der Davies-Bouldin-Index liegt an dieser Stelle bei einem Wert von 1,4341. Beide Indizes weisen keine Werte für ein eindeutiges Clusteringergebnis auf. Somit ist ein Clustering nach diesen Faktoren nicht geeignet. Abbildung 7-38: Silhouette-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen Clusteranzahlen bis 30 Cluster Stefan Tobias Kleiner ETW 14 97 In Abbildung 7-39 ist der analoge Verlauf der Davies-Bouldin-Indizes zu sehen. Hier liegt der geringste Wert mit 0,8612 bei einer zeitlichen Auflösung von 120 Minuten und einer Anzahl von 2 Clustern. Dies ist von den Faktoren des Optimums ein sehr ähnliches Ergebnis zu dem Clustering ohne genormte Verbrauchsprofile. Allerdings ist der Güteindex nach Davies-Bouldin um etwa den Faktor 1,5 besser. Der Güteindex nach Silhouette ist mit 0,0794 ein sehr geringer Wert. Das heißt, dieses Clustering ist kein eindeutiges aussagefähiges Clusteringergebnis. Abbildung 7-39: Davies-Bouldin-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen Clusteranzahlen bis 30 Cluster Betrachtet man die Verläufe der Clusterzentroiden mit ihren zugeordneten Daten, dann lässt sich auch hier optisch erkennen, dass das Clustering nicht optimal ist. Im ersten Cluster (Vgl. Abbildung 7-40 linke Grafik) entspricht der Verlauf der Zentroiden auch etwa dem Verlauf der Daten, allerdings ist dies im zweiten Cluster (Vgl. Abbildung 7-40 rechte Grafik) nicht mehr der Fall. Der zweite Cluster enthält mit 37820 Datentagen auch etwa 80% aller Daten. Stefan Tobias Kleiner ETW 14 98 Abbildung 7-40: Beide Clusterzentroiden der genormten Verbrauchsprofile bei einer zeitlichen Auflösung von 120 Minuten und zwei Clustern Bildet man Cluster mit mehr als 30 Zentroiden, so ergibt sich für den Verlauf des Silhouette-Indexes die Abbildung 7-41. Hier erkennt man, dass die Werte höher sind als bei den nicht genormten Verbrauchsprofilen. Das Maximum liegt hier mit 0,316 bei einer Auflösung von 120 Minuten und 225 Clustern. Allerdings ist hier ein Bereich bis 325 Cluster in dem der Wert recht hoch ist. Abbildung 7-41: Silhouette-Indizes bei genormten Profilen bei bis zu 500 Cluster Stefan Tobias Kleiner ETW 14 99 Aus diesem Grund werden für den Bereich zwischen 220 und 325 Clustern die Cluster in einer feineren Abstufung berechnet. In Abbildung 7-42 sieht man den Verlauf des Silhouette-Indexes in diesem Bereich bei einer Abstufung von 5 Clustern. Auch hier ist zu erkennen, dass der Wert über den dargestellten Bereich nur kaum schwankt und ein Optimum nicht eindeutig bestimmt werden kann. Der höchste Wert liegt mit 0,3187 bei 265 Clustern. Bei 300 Clustern ist ein Wert von 0,3186 berechnet worden. Abbildung 7-42: Silhouette-Indizes bei genormten Verbrauchsprofilen im Bereich zwischen 220 und 325 Clustern Betrachtet man hier bei einer Clusteranzahl von 265 Clustern die Verteilung der Haushalte auf die Cluster, so erkennt man, dass bei dem genormten Profil die Haushalte tendenziell auf mehr Cluster verteilt werden, als bei dem Clustering von nicht genormten Profilen. In Abbildung 7-43 ist die Verteilung der Haushalte auf die Cluster dargestellt. Hier ist deutlich, dass es keine Haushalte gibt, die nur auf wenige Cluster verteilt sind. Die Daten der einzelnen Haushalte sind jeweils auf 40 bis 195 Cluster der erzeugten 265 Cluster verteilt. In Abbildung 7-44 wird auch ersichtlich, Stefan Tobias Kleiner ETW 14 100 dass die Cluster ebenso jeweils Daten aus einigen Haushalten beinhalten. Jeder Cluster enthält Daten aus 15 bis 95 der 141 Haushalte. Abbildung 7-43: Verteilung der Haushalte auf die erzeugten 265 Cluster bei einem Clustering von genormten Verbrauchsprofilen Abbildung 7-44: Verteilung der 265 erzeugten Cluster auf die 141 Haushalte bei einem Clustering von genormten Verbrauchsprofilen Schaut man sich zudem das Pareto-Diagramm in Abbildung 7-45 an, so spiegelt sich die gleichmäßige Verteilung der Daten auf die verschiedenen Cluster hier auch Stefan Tobias Kleiner ETW 14 101 wieder. Es ist im Gegensatz zu der Kurve, bei dem Clustering von nicht genormten Verbrauchsprofilen ein sehr flacher Verlauf der Summe der Datentage. So können hier bei 20 % der Cluster (53 Cluster) lediglich 34,4 % der Daten wiedergespiegelt werden. Durch diese gleichmäßige Verteilung der Daten auf die Cluster können hier keine Standardlastprofile erzeugt werden, welche einen Großteil der Daten wiedergeben. Abbildung 7-45: Pareto-Diagramm zu dem Clustering von genormten Verbrauchsprofilen bei 265 erzeugten Clustern. In Rot dargestellt der Schnittpunkt bei 20% der Cluster Stefan Tobias Kleiner ETW 14 102 7.10. Clustering mit Manhattan Abstand von genormten Ausgangsdaten Wird dasselbe Clustering auf den genormten Datensatz angewendet, so erhält man die Silhouette-Index-Verläufe, welche in Abbildung 7-46 dargestellt sind. Hier liegt der höchste Index mit 0,1775 bei einer zeitlichen Auflösung von 120 Minuten und einer Anzahl von 28 Clustern. Auch die Standardabweichung ist mit 55,6366 deutlich geringer, als bei dem Clustering mit den realen Verbrauchsprofilen. Allerdings stellen auch diese Werte kein zuverlässiges Clustering-Ergebnis dar. Abbildung 7-46: Silhouette-Indizes bei genormten Verbrauchsprofilen, verschiedenen zeitlichen Auflösungen und verschiedenen Clusteranzahlen bis 30 Cluster Betrachtet man den Verlauf des Silhouette-Indexes über den Bereich bis 500 Cluster bei einer Genauigkeit von 120 Minuten in Abbildung 7-47, so sieht man die höchsten Punkte um den Bereich mit 300 Clustern. Stefan Tobias Kleiner ETW 14 103 Abbildung 7-47: Silhouette-Indizes bei genormten Verbrauchsprofilen bis 500 Cluster im ManhattanAbstand Für eine genauere Betrachtung wird für diesen Bereich die Berechnung mit einem geringeren Abstand zwischen den Punkten erneut durchgeführt. Das Resultat ist in Abbildung 7-48 zu sehen. Hier sieht man auch wieder die breite Streuung. Es ist ein recht starkes auf und ab. Dies kann an der Vorgehensweise des Algorithmus liegen, welcher die Berechnungen nicht für verschiedenen Startzentroiden wiederholt. Der beste Wert liegt hier mit 0,292 bei 342 Clustern. Stefan Tobias Kleiner ETW 14 104 Abbildung 7-48: Silhouette-Index zwischen 275 und 375 Cluster bei genormten Verbrauchsprofilen und Optimierung nach Manhattan-Abstand 7.11. Vergleich zwischen dem Clustering von genormten und nicht genormten Verbrauchsprofilen Zwischen den beiden Clusteringverfahren mit euklidischem Distanzmaß und Manhattan-Abstand ist ein Vergleich nicht ohne weiteres möglich. Es kann jedoch gesagt werden, dass das Clustering von genormten Profilen gegenüber nicht genormten Profilen deutlich besser ist. Bei dem genormten Clustering ergibt sich ein Silhouette-Index von 0,319. Bei dem nicht genormten Clustering ist der beste Wert mit 0,227 deutlich geringer. Stefan Tobias Kleiner ETW 14 105 8. Diskussion der Ergebnisse Beim Vergleich zwischen Haushaltsgröße und Warmwasserverbrauch wurde ein Skalierungsfaktor erwartet, welcher in etwa der Haushaltsgröße entspricht. Es konnte zwar die Tendenz festgestellt werden, dass größere Haushalte grundsätzlich mehr Warmwasser benötigen als kleinere, allerdings ist diese Tendenz nicht so stark ausgeprägt wie erwartet. Für das Clustering wurde entschieden eine zeitliche Auflösung bis zu einer Ungenauigkeit von maximal 120 Minuten zu untersuchen. Durch eine noch gröbere Unterteilung können zwar bessere Clusteringergebnisse erwartet werden, allerdings ist für den angestrebten Verwendungszweck in einem DSM eine gewisse zeitliche Genauigkeit notwendig, um das entsprechende System integrieren zu können. Bei der Betrachtung der Güte nach Davies-Bouldin ist aufgefallen, dass der Wert bei einer Anzahl von drei Clustern sehr stark steigt und bei mehr als drei Clustern nur sehr langsam wieder abnimmt. Ein geringerer Wert zeugt von einem besseren Clustering als ein höherer Wert. Das Verhalten lässt sich eventuell durch die Art der Berechnung erklären. Bei dem Davies-Bouldin-Index wird die Überschneidung der Cluster bestimmt. Dass dieses Verhalten bei dem Silhouette-Index nicht vorhanden ist, liegt an der unterschiedlichen Beurteilung der Cluster. Hier wird nicht der gesamte Cluster auf einmal betrachtet, sondern jedes Datenelement einzeln. Werden Cluster gebildet mit bis zu 500 Zentroiden, so sieht man bei all diesen Untersuchungen, dass in einem Bereich um den vermeintlichen Optimalwert die Werte der Silhouette-Indizes sich nur kaum vom besten Wert unterscheiden. Dies kann mehrere Ursachen haben. Zum einen kann es sein, dass die Qualität in diesem Bereich nahezu konstant ist, es also kaum einen Unterschied macht, ob ein paar Cluster mehr oder weniger gebildet werden. Zum anderen kann es auch an den verwendeten Startclustern liegen. Wie eingangs beschrieben, hat die Wahl der Startzentroiden unter Umständen einen großen Einfluss auf das Ergebnis und damit die Qualität des Clusterings. Vor allem bei dem verwendeten Algorithmus mit Manhattan-Abstand als Optimierungswert sind die Startcluster ausschlaggebend für das Ergebnis, da hier das Clustering nicht mehrfach mit verschiedenen Stefan Tobias Kleiner ETW 14 106 Startzentroiden durchgeführt wird, sondern nur einmal für eine Auswahl an Startzentroiden. Bei keinem, in dieser Arbeit durchgeführten Clustering-Ansätze, wurden Güteindizes ermittelt, welche auf ein eindeutiges, starkes Clusteringergebnis hinweisen. Der höchste und damit beste Wert des Silhouette-Indexes beträgt 0,319 bei dem euklidischen Clustering von genormten Verbrauchsprofilen bei einer Clusteranzahl von 265 Clustern. Dieser Wert von 0,319 liegt damit immer noch deutlich entfernt von dem (nicht erreichbaren) Optimalwert von 1. Die meisten Ergebnisse liegen sogar noch deutlich darunter. Bei solchen geringen Werten kann nicht automatisch von starken wiederholbaren Clusterbildungen gesprochen werden. Die Berechnungen müssten mit unterschiedlichen Datensätzen validiert werden, um eine Allgemeingültigkeit der Standardlastprofile zu zeigen. Dafür kann zum einen ein Cross-Validation-Verfahren genutzt werden, aber auch Daten, welche bisher nicht verwendet wurden, wie beispielsweise die aus dem Feldversuch in Vorarlberg (Vgl. Witten; Frank 2005, S. 149–152). Aus dem euklidischen Clustering von den realen Verbrauchsprofilen mit 315 Clustern konnten 63 Cluster als Standardlastprofile generiert werden. Mit diesen 63 Clustern lassen sich knapp 70 % der verwendeten Datentage abdecken. Allerdings muss davon ausgegangen werden, dass die Cluster sehr stark von dem Datensatz abhängig sind, da lediglich ein Silhouette-Index von 0,227 erreicht werden konnte. Die meisten der erzeugten Standardlastprofile haben eine Entnahmespitze pro Tag, einige haben auch zwei Spitzen pro Tag. Der Rest des Tages (außerhalb der Spitzenzeiten) verläuft bei den meisten Standardlastprofielen sehr flach. Für die Berechnung des Güteindexes wurde jeweils entsprechend des Distanzmaßes, welches für die Optimierung bei der Clusterbildung verwendet wurde, dasselbe Distanzmaß verwendet. Dies wurde so durchgeführt, da davon ausgegangen werden muss, dass wenn ein Cluster nach einem Distanzmaß optimiert wird und die Qualität mit einem anderen Distanzmaß berechnet wird, die berechnete Qualität voraussichtlich einen schlechteren Wert aufweist, obwohl das Clustering für das gewählte Distanzmaß eventuell gut geeignet ist. Stefan Tobias Kleiner ETW 14 107 Die unterschiedliche Berechnung der Güteindizes ist der Hauptgrund, warum die Verfahren nicht direkt miteinander vergleichbar sind. Dadurch kann auch keine klare Aussage getroffen werden, welche Methode letztendlich die geeignetere von beiden ist. Bei der Untersuchung mit den unterschiedlichen Distanzmaßen, euklidisch und Manhattan-Distanz, wurde festgestellt, dass die besten Cluster beider Methoden in einer ähnlichen Größenordnung wiederzufinden sind. Auch dadurch wird es schwer festzulegen, welches Clustering das bessere von beiden ist. In einer weiteren Arbeit könnte zusätzlich untersucht werden, ob es möglich ist, geeignete Cluster anhand weiterer anderer Abstandsmessungen zu erhalten. Als Alternative zu dem Versuch mit genormten Verbrauchsprofilen könnte auch ein zweistufiges Clustering durchgeführt werden. Dabei könnte zuerst nach dem Tagesgesamtverbrauch geclustert werden. Anschließend könnten die gebildeten Cluster nach ihrem Tagesprofilverlauf geclustert werden. Die durch den Feldversuch in Vorarlberg erhaltenen Daten können analysiert werden und mit den Erkenntnissen aus dieser und anderen Arbeiten abgeglichen werden. So könnten die aufgestellten Thesen validiert werden. Um diese Arbeit auf ihre Allgemeingültigkeit zu überprüfen muss eine deutlich größere Datenbasis geschaffen werden. Da in dieser Arbeit lediglich Daten aus zwei verschiedenen Feldversuchen verwendet wurden, kann dadurch nicht automatisch auf alle anderen Haushalte geschlossen werden. Die Daten aus Halifax beispielsweise sind nicht zwingend repräsentativ, da dort nur Haushalte mit einer Solarthermieanlage an dem Versuch teilgenommen haben. Zudem lag in diesen Haushalten die durchschnittliche Anzahl an bewohnenden Personen deutlich über dem Landesdurchschnitt. Stefan Tobias Kleiner ETW 14 108 9. Zusammenfassung In dieser Arbeit wurde mit dem Hintergrund einer möglichen Integration von Warmwasserboilern in ein DSM Programm untersucht, ob es möglich ist, die Warmwasser-Verbrauchsprofile von Haushalten in geeigneten Clustern zu sortieren. Wäre dies möglich, so könnte eine Vorhersage des benötigten Warmwassers in Privathaushalten vereinfacht werden und eine Integration von Warmwasserboilern in ein DSM Programm wäre deutlich einfacher zu realisieren. Leider ist es im Rahmen dieser Arbeit nicht gelungen die Frage, ob es möglich ist geeignete Cluster zu erstellen, eindeutig positiv zu beantworten. Untersucht worden sind volumetrische Verbrauchsprofile mit unterschiedlichen zeitlichen Auflösungen. Auch durch die verwendeten unterschiedlichen Abstandsmessungen konnten die Ergebnisse nicht wesentlich verbessert werden. Angewandt wurden die Untersuchungen auf die bereitgestellten Datensätze aus Halifax und Lancaster. Durch den geringen Standardlastprofilen wird Silhouette-Index vermutet, mit dass 0,227 die bei den erzeugten Allgemeingültigkeit dieser Standardlastprofile nicht gegeben ist. Es wird mit dieser Arbeit aber nicht grundsätzlich ausgeschlossen, dass allgemeingültige Standardlastprofile aufgrund anderer Clustering Methoden und anderer Datengrundlagen erstellt werden könnten. Nur allein aufgrund der in dieser Arbeit verwendeten Methoden und Daten konnten leider keine eindeutigen Standardlastprofile herausgearbeitet werden. Stefan Tobias Kleiner ETW 14 109 10. Literaturverzeichnis Ahmed, Kaiser ; Kurnitski, Jarek (2015): Domestic Hot Water Profiles for Energy Calculation in Finnish Residential Buildings Amann, Peter u. a. (2013): Domestic Hot Water Heater for Active Demand Side Management and Efficiency Improvements Tagungsband zum 7.Forschungsforum der österreichischen Fachhochschulen Online im Internet: http://www.fhv.at/media/pdf/forschung/energie/forschung/hot-water-heater (Zugriff am: 01.01.2016). Bals, Christoph ; Kreft, Sönke ; Weischer, Lutz (2015): Signal für neue Epoche der globalen Klima- und Energiepolitik. Die Ergebnisse des Pariser Klimagipfels 13920.pdf Online im Internet: https://germanwatch.org/de/download/13920.pdf (Zugriff am: 29.12.2015). Becker, B.R. ; Stogsdill, K.E. (1990): Development of a hot water use data base Paper Presented at the 1990 Annual Meeting of the American Society of Heating, Refrigerating and Air-Conditioning Engineers, Technical and Symposium Papers , S. 422–427. Boggs, Thomas (2014a): Class/Function Documentation — Spectral Python 0.18 documentation. Online im Internet: http://www.spectralpython.net/class_func_ref.html#spectral.kmeans (Zugriff am: 14.08.2016). Boggs, Thomas (2014b): Spectral Python (SPy) — Spectral Python 0.18 documentation. Online im Internet: http://www.spectralpython.net/ (Zugriff am: 27.07.2016). Bundesministerium für Wirtschaft und grafiken. Online Energie (2015): energiestatistikenim Internet: https://www.bmwi.de/BMWi/Redaktion/PDF/E/energiestatistiken-grafiken (Zugriff am: 28.12.2015). DIN (2014): DIN EN ISO 4064-1:2014 DIN. Stefan Tobias Kleiner ETW 14 110 Dr. Schreff, Anna Maria ; Dr. Schindler, Peter ; Nickel, Silke (2016): Gesundheit Legionellen - die am häufigsten gestellten Fragen - Internetangebot. Online im Internet: https://www.lgl.bayern.de/gesundheit/hygiene/wasser/legionellen.htm (Zugriff am: 12.08.2016). „Earth Overshoot Day 2016“ (2016): Earth Overshoot Day 2016 Earth Overshoot Day Online im Internet: http://www.overshootday.org/ (Zugriff am: 08.08.2016). E-Control (2010): Thema Energieverbrauch - E-Control. Online im Internet: http://www.e-control.at/konsumenten/energie-sparen/thema-energieverbrauch (Zugriff am: 28.12.2015). EHT Haustechnik GmbH Warmwasserboiler und / Markenvertrieb moderne – AEG (o. J.): Wandspeicher Boiler-Technik. Online im Internet: https://www.aeg-haustechnik.de/de/home/produkteloesungen/warmwassergeraete/wandspeicher/ratgeber.html (Zugriff am: 26.02.2016). Energy Saving Trust (2008a): Measurement of Domestic Hot Water Consumption in Dwellings Energy Saving Trust (2008b): Measurement of Domestic Hot Water Consumption in Dwellings Field Trial Gelažanskas, Linas ; Gamage, Kelum A. A. (2015): „Forecasting Hot Water Consumption in Residential Houses“ In: Energies, 8 (2015), S. 12702–12717. George, Dane ; Pearre, Nathaniel S. ; Swan, Lukas G. (2015): „High resolution measured domestic hot water consumptionof Canadian homes“ In: Energy and Buildings, 109 (2015), S. 304–315. Government of Canada (2015): HOT2000 Software Suite | Natural Resources Canada. Online im Internet: https://www.nrcan.gc.ca/energy/efficiency/housing/home-improvements/17725 (Zugriff am: 31.12.2015). Stefan Tobias Kleiner ETW 14 111 Hu, Zhaoguang ; Han, Xinyang ; Wen, Quan (2013): Integrated Resource Strategic Planning and Power Demand-Side Management. Berlin Heidelberg: Springer Berlin Heidelberg. Online im Internet: http://link.springer.com/book/10.1007/978-3-642-37084-7 (Zugriff am: 29.12.2015). Hunter, John D. (2007): „Matplotlib: A 2D Graphics Environment“ In: Computing in Science & Engineering, 9 (2007), 3, S. 90–95. Jones, Eric u. a. (2001): SciPy: Open Source Scientific Tools for Python. Online im Internet: http://www.scipy.org/ (Zugriff am: 16.07.2016). Jordan, Ulrike ; Vajen, Klaus (2003): Handbuch DHWcalc. Online im Internet: https://www.unikassel.de/maschinenbau/fileadmin/datas/fb15/ITE/icons/Bilder_re2/Bilder_Op enSorp/dhw-calc_1-10_handbuch.pdf (Zugriff am: 02.01.2016). Kepplinger, Peter ; Huber, Gerhard ; Petrasch, Jörg (2015): „Autonomous optimal control for demand side management with resistive domestic hot water heaters using linear optimization“ In: ENERGY BUILDINGS, (2015)Online im AND Internet: http://dx.doi.org/10.1016/j.enbuild.2014.12.016 Ministerium für Umwelt, Klima Württemberg (2012): Betrieblicher und Energiewirtschaft Umweltschutz in Baden- Baden-Württemberg : Energieeffizienz. Online im Internet: http://www.bubw.de/?lvl=6106 (Zugriff am: 28.12.2015). Ministerium für Umwelt, Klima und Energiewirtschaft Württemberg (2004): Betrieblicher Umweltschutz Kennzeichnungsgesetz -verordnungen. Online und in Baden- Baden-Württemberg : im Internet: http://www.bubw.de/?lvl=2559 (Zugriff am: 28.12.2015). Moran, Michael J. u. a. (2010): Fundamentals of Engineering Thermodynamics. John Wiley & Sons. Stefan Tobias Kleiner ETW 14 112 Pedregosa, u. a. (2011): „Scikit-learn: Fabian Machine Learning in Python“ In: Journal of Machine Learning Research, 12 (2011), Oct, S. 2825– 2830. Pérez, Fernando ; Granger, Brian E. (2007): „IPython: A System for Interactive Scientific Computing“ In: Computing in Science & Engineering, 9 (2007), 3, S. 21–29. Perlman, M. ; Mills, B.E. (1985): „Development of residential hot water use patterns“In: ASHRAE Transactions (1985), 2A, S. 657–679. Runkler, Thomas A. (2015): Data Mining: Modelle und Algorithmen intelligenter Datenanalyse. Springer-Verlag. scikit-learn developers (2014): sklearn.cluster.KMeans documentation. Online im — scikit-learn Internet: 0.17.1 http://scikit- learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.clust er.KMeans (Zugriff am: 14.08.2016). Statista (2015): Veränderung des Endenergieverbrauchs von Privathaushalten in Deutschland im Vergleich der Jahre Anwendungsbereich. Online 2014 zu im 2005 nach Internet: http://de.statista.com/statistik/daten/studie/165469/umfrage/veraenderungdes-energieverbrauchs-von-privathaushalten-2009-zu-2005/ (Zugriff am: 30.12.2015). Thermo Dynamics Ltd. ; George, Dane ; Swan, Lukas (2015): Prepared Data from the Halifax Solar City program Van der Walt, Stéfan ; Colbert, S. Chris ; Varoquaux, Gaël (2011): „The NumPy Array: A Structure for Efficient Numerical Computation“ In: Computing in Science & Engineering, 13 (2011), 2, S. 22–30. Van Rossum, Guido ; Drake, Frad L. Jr. (1995): Python Tutorial. Amsterdam, The Netherlands: Centrum voor Wiskunde en Informatica. Stefan Tobias Kleiner ETW 14 113 Witten, Ian H. ; Frank, Eibe (2005): Data Mining: Practical Machine Learning Tools and Techniques, Second Edition. Morgan Kaufmann. „Davies–Bouldin index“ (2016): In: Wikipedia, the free encyclopedia. Online im Internet: https://en.wikipedia.org/w/index.php?title=Davies%E2%80%93Bouldin_index& oldid=724614456 (Zugriff am: 16.07.2016). „Dunn index“ (2016): In: Wikipedia, the free encyclopedia. Online im Internet: https://en.wikipedia.org/w/index.php?title=Dunn_index&oldid=722704161 (Zugriff am: 16.07.2016). „Paretoprinzip“ (2016): In: Wikipedia. Online im Internet: https://de.wikipedia.org/w/index.php?title=Paretoprinzip&oldid=156752732 (Zugriff am: 15.08.2016). „Silhouette (clustering)“ (2016): In: Wikipedia, the free encyclopedia. Online im Internet: https://en.wikipedia.org/w/index.php?title=Silhouette_(clustering)&oldid=72993 6979 (Zugriff am: 16.07.2016). Stefan Tobias Kleiner ETW 14 114 11. Anhang 11.1. Fehlerbeschreibung der Originaldaten aus Lancaster Hier ist eine Auflistung der Ursachen für Fehler in der automatisierten Abarbeitung der einzelnen Datensätze aus Lancaster: - „7978.all“: Hier sind 3 Zeilen welche ein Spalte mehr aufweisen. In der Zeile 870027 steht bei der Abflussmenge „4 61“. Da hier ein Leerzeichen innerhalb der Spalte vorhanden ist, interpretiert die Einlesefunktion von Python hier zwei Spalten. Dieser Wert ist der erste nach einer Aufzeichnungslücke. Aus diesem Grund wird der Wert auf 0 korrigiert. Der Zweite Fehler in Zeile 922024 entsteht durch den Wert „3 51“ und ist ebenfalls wegen des Leerzeichens entstanden. Auch dieser Wert ist der erste nach einer Aufzeichnungslücke. Und auch dieser wird auf 0 korrigiert. Der dritte Fehler in Zeile 1164288 entsteht durch den Wert „3 58“. Dieser verhält sich wie die anderen beiden Fehler und wird somit ebenfalls auf 0 korrigiert. - „7980.all“: Hier bringt das Programm eine Warnung, da im Datensatz ab einem Zeitpunkt ein Sensorwert entfällt und sich dadurch die Spaltenanzahl verringert. Der Sensor der entfernt wurde war vermutlich fehlerhaft, da zu diesem nur der Messwert „Low“ abgespeichert wurde. Um den Datensatz verwenden zu können wurde die zugehörige Spalte mit dem Wert „Low“ gelöscht, sodass das gesamte File durchgehend dieselbe Spaltenzahl aufweist. - „8021.all“: Dieser Datensatz besitzt zwei Spalten für Messwerte von Durchflusssensoren. Eine dieser beiden Spalten hat zwischenzeitlich keinen Messwert, so dass davon ausgegangen wird, dass der Sensor defekt war und später ausgetauscht oder repariert wurde. Die fehlenden Einträge wurden durch die Bezeichnung „nan“ ersetzt. So kann der Datensatz eingelesen werden und die entsprechenden Tage können später aus der Durchflussmengenanalyse ausgeschlossen werden. - „8024.all“: Hier erscheint eine Warnung, da im Datensatz ab einem Zeitpunkt ein Sensor weniger aufgezeichnet wird und dadurch eine Spalte weniger vorhanden Stefan Tobias Kleiner ETW 14 115 ist. Die fehlende Spalte wurde mit „nan“ aufgefüllt. Dadurch kann der Datensatz eingelesen werden und die Tage mit unvollständigen Daten können von der Auswertung ausgeschlossen werden. - „8027.all“: Hier hat eine Zeile (259173) eine Spalte mehr als alle anderen Zeilen. Dies kommt zustande durch den aufgezeichneten Wert „11 41“. Da in dem Wert ein Leerzeichen ist wird dieser als zwei Werte interpretiert. Der fehlerhafte Wert ist wie bei den anderen Datensätzen mit diesem Problem der erste nach einer Aufzeichnungspause. Dieser wird wie bei den anderen Datensätzen auch auf 0 korrigiert. - „8037.all“: In diesem Datensatz hat ein Sensor in der ersten Zeile den Wert „No Data“. Die Stapelverarbeitung kann dies nicht als Spalte erkennen und läuft deshalb auf den Fehler, da sich die Spaltenanzahl ändert. Dieser Wert wird auf 0 korrigiert. - „8048.all“: Hier sind wieder zwei Zeilen mit je einer Spalte weniger als alle anderen. Dieser Datensatz enthält zwei Spalten mit Entnahmemengen. Für den ersten Entnahmewert enthält die Zeile 98447 den Wert „02115“ und die Zeile 98452 enthält den Wert „03131“. In beiden Zeilen gibt es keinen Messwert für den zweiten Entnahmesensor. Der darauffolgende Messwert für den ersten Sensor beträgt je „-39“. Da diese Werte nicht sinnvoll erscheinen. Weder die Entnahmemenge von 211,5 Liter bzw. 3131,1 Liter innerhalb je 10 Minuten, noch ein negativer Wert, werden diese Werte alle auf 0 korrigiert. - „8057.all“: Dieser Datensatz besitzt in der Zeile 233146 eine Spalte mehr als die anderen Zeilen des Datensatzes. Der Entnahmewert an dieser Stelle beträgt „38 16“. Durch das Leerzeichen kann die Software den Datensatz nicht korrekt interpretieren. Der Wert wird auf 0 korrigiert. - „8063.all“: Dieser Datensatz besitzt in der Zeile 79002 eine Spalte mehr als die anderen Zeilen des Datensatzes. Der Entnahmewert an dieser Stelle beträgt „42 63“. Durch das Leerzeichen kann die Software den Datensatz nicht korrekt interpretieren. Der Wert wird auf 0 korrigiert. Stefan Tobias Kleiner ETW 14 116 - „8067.all“: In diesem Datensatz wird nach etwa einer Woche Aufzeichnungszeitraum ein zusätzlicher Temperatursensor installiert und mit aufgezeichnet. Dadurch ändert sich die Spaltenanzahl in dem Datensatz. Für den Zeitraum vor dem Einsatz des zusätzlichen Sensors, erhält dieser den Wert „nan“. - „8080.all“: Dieser Datensatz beinhaltet dasselbe Problem wie der Datensatz „8037.all“. Durch den Wert „No Data“ in der ersten Zeile kann die Software diese nicht korrekt interpretieren. Der Wert wird auf 0 korrigiert. - „8081.all“: In diesem Datensatz wird nach etwa einer Woche Aufzeichnungszeitraum ein zusätzlicher Temperatursensor installiert und mit aufgezeichnet. Dadurch ändert sich die Spaltenanzahl in dem Datensatz. Für den Zeitraum vor dem Einsatz des zusätzlichen Sensors, erhält dieser den Wert „nan“. - „8088.all“: In diesem Datensatz sind zeitweise zwei Messwerte für die Entnahmemenge vorhanden und zeitweise nur einer. Es gibt je sechs Zeitbereiche mit zwei Werten und sechs Zeitbereiche mit einem Wert. Die Zeitbereiche mit nur einem Wert wurden durch einen zweiten Wert „nan“ ergänzt um den Datensatz einlesen zu können. Die fehlerhaften Zeitabschnitte werden später von der Auswertung ausgeschlossen. Bei der späteren Weiterverarbeitung der Daten wurden noch in sechs weiteren Datensätzen Unregelmäßigkeiten festgestellt. Betroffen sind die Datensätze „7973.all“, „7998.all“, „8017.all“, „8020.all“, „8039.all“ und „8070.all“. In diesen Datensätzen ist die Formatierung der Spalte mit Datum und Uhrzeit teilweise oder durchgehend abweichend zu den restlichen Datensätzen. Die Formatierung der Datum/Uhrzeit-Spalte ist üblicherweise nach folgendem Schema aufgebaut: - "dd/mm/yy hh:mm:ss" Die davon abweichende Formatierung ist nach diesem Schema: - dd/mm/yyyy hh:mm Abweichend vom Regelfall ist, dass das Datum mit der Uhrzeit nicht in Anführungszeichen steht, sodass bei der Stapelverarbeitung, bei der zeichenweise Stefan Tobias Kleiner ETW 14 117 ausgelesen wird, Fehler entstehen. Zudem ist das Jahr 4-stellig anstatt 2-stellig und die Zeit nicht mit Sekunden angegeben, wodurch die zeichenweise Abarbeitung weitere Fehler produziert. Diese Datensätze sind im Nachgang nochmals neu überarbeitet und korrigiert abgespeichert worden. Die fehlenden Sekunden wurden alle mit 0 aufgefüllt um die Datensätze gleich wie die anderen behandeln zu können. Stefan Tobias Kleiner ETW 14 118 11.2. Clusterzentroiden bei dem Clustering der volumetrischen Verbrauchswerte bei minütlicher Auflösung des reduzierten Gesamtdatensatzes Abbildung 11-1: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 1). Die horizontale Achse beschreibt den Tagesverlauf mit Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute. Stefan Tobias Kleiner ETW 14 119 Abbildung 11-2: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 2). Die horizontale Achse beschreibt den Tagesverlauf mit Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute. Stefan Tobias Kleiner ETW 14 120 Eidesstattliche Erklärung Ich erkläre hiermit an Eides statt, dass ich die vorliegende Masterarbeit selbstständig und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die aus fremden Quellen direkt oder indirekt übernommenen Stellen sind als solche kenntlich gemacht. Die Arbeit wurde bisher weder in gleicher noch in ähnlicher Form einer anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht. Dornbirn, den 25.08.2016 Stefan Tobias Kleiner Stefan Tobias Kleiner ETW 14 121