Analyse von Warmwasser-Verbrauchsdaten

Werbung
Analyse von Warmwasser-Verbrauchsdaten
Masterthesis
zur Erlangung des akademischen Grades
Master of Science
des Studienganges Energietechnik und Energiewirtschaft
an der Fachhochschule Vorarlberg
Vorgelegt von:
Stefan Tobias Kleiner
Betreut von:
Mag. Peter Kepplinger
Dornbirn, den 25.08.2016
Danksagung
Hiermit bedanke ich mich bei allen, die mich während meiner Masterstudienzeit
unterstützt haben.
Besonderer Dank gilt meinem Betreuer Peter Kepplinger, der diese Arbeit erst
ermöglicht hat. Er war stets bereit, Probleme offen zu diskutieren und Anstöße für
den Fortschritt dieser Arbeit zu geben.
Bedanken möchte ich mich auch bei Dane George vom Renewable Energy Storage
Laboratory. Er hat die Daten aus dem Feldversuch in Kanada, welche von Thermo
Dynamics Ltd. aufgezeichnet wurden, für diese Arbeit bereitgestellt.
Weiter bedanke ich mich bei Aled Stephens vom Energy Saving Trust in Lancaster.
Er hat die Daten aus deren Feldversuch bereitgestellt, so dass eine breite
Datenstruktur für diese Arbeit vorhanden ist.
Bei Thomas Grützmacher bedanke ich mich besonders für die technische
Unterstützung.
Zum Schluss bedanke ich mich bei Bettina Berlinger, welche mich immer motiviert
und unterstützt hat. Durch Korrekturlesen hat sie auch zum Erfolg dieser Arbeit
beigetragen und einige Stunden investiert.
Stefan Tobias Kleiner
ETW 14
I
Kurzreferat
In dieser Masterarbeit wird mit Blick auf einen aktuellen Feldversuch in Vorarlberg
untersucht,
ob
sich
aus
realen
volumetrischen
und
energetischen
Warmwasserverbrauchsprofilen von Privathaushalten Standardlastprofile entwickeln
lassen. Dafür war es zu Beginn notwendig reale Daten zu beschaffen. Da sich mit
dieser Thematik bisher nur wenige Studien tiefer auseinandergesetzt haben und es
daher auch nur wenige Messversuche gibt, ist die verfügbare Datenbasis sehr klein.
Es wurden zwei Versuchsreihen aus Kanada und England gefunden, von denen die
Daten für diese Arbeit (teilweise) bereitgestellt wurden. Da die Aufzeichnung der
Daten aus dem Versuch in Vorarlberg parallel zur Erstellung dieser Arbeit
stattgefunden hat, war es leider nicht möglich diese Daten in die Untersuchung
miteinzubeziehen. Dafür ist es anschließend möglich, die Ergebnisse dieser Arbeit
mit den in Vorarlberg gewonnenen Daten zu validieren.
Die verfügbaren Datensätze mussten nach Erhalt genauestens begutachtet und
aufbereitet werden. Dies war notwendig, da die Daten völlig unterschiedliche
Strukturen aufweisen, diese aber gemeinsam untersucht werden sollen. Aus den
aufbereiteten
Daten
wurden
Dateien
mit
unterschiedlichen
zeitlichen
Messpunktabständen generiert. Dadurch kann untersucht werden, bei welcher
zeitlichen Auflösung (Genauigkeit) das Ergebnis die bestmögliche Qualität aufweist.
Leider kann durch die Untersuchungen in dieser Arbeit nicht eindeutig festgestellt
werden, ob es möglich ist, Standardlastprofile zu erzeugen, welche allgemeingültig
sind. Es konnten weder durch unterschiedliche zeitliche Auflösungen noch durch
unterschiedliche Abstandsmessungen für die Clustererzeugung Standardlastprofile
mit einer Qualität erzeugt werden, die ein eindeutiges Clustering gewährleisten. Es
wurden Unterteilungen von bis zu 500 Clustern untersucht. Die berechneten Cluster
weisen sehr große Standardabweichungen auf. Auch die gewählten Gütekriterien
zeugen von nur eher schwachen Clusteringergebnissen. Die Untersuchungen dieser
Arbeit lassen vermuten, dass die Datenbasis einen sehr großen Einfluss auf die
Ergebnisse hat. Somit bleibt jedoch nicht ausgeschlossen, dass allgemeingültige
Standardlastprofile aufgrund anderer Clustering Methoden erstellt werden könnten.
Stefan Tobias Kleiner
ETW 14
II
Abstract
With a view to a present field test in Vorarlberg (Austria) this master thesis is
analyzing if it is possible to generate standard load profiles for the hot water
consumption of private households based on real volumetric and energetic hot water
consumption profiles. For this it was necessary to provide real data at the beginning.
As there are only few studies existing that are focusing on this topic the database is
small. Two test series from Canada and England were found from which the data
was (partially) made available for this scientific work. Unfortunately it was not
possible to include the Vorarlberg data in this consideration since the records took
place concurrently to creating this work. However it is possible to validate the results
of this work with the data generated in Vorarlberg.
The available records had to be examined and prepared precisely. This had to be
done as the individual records had completely different structures but they should be
examined together. Files with different time lags between the measurements were
created from the prepared data files. In doing so it could be analyzed with which
temporal resolution (accuracy) the result shows the best possible quality.
Unfortunately in the course of this work it could not be indicated clearly if it is possible
to generate standard load profiles that are generally valid. Standard load profiles with
a quality good enough to ensure explicit clustering could neither be generated
through different temporal resolutions nor through different distance measurements
for cluster generation. Subdivisions up to 500 clusters were analyzed. The calculated
clusters had high standard deviations. The chosen quality criteria also show only
weak clustering results. The investigations from this work suggest that the quality and
the extent of the underlying data have a major influence on the results. Consequently
it cannot be excluded that generally valid standard load profiles for the hot water
consumption of private households can be generated on the basis of other clustering
methods.
Stefan Tobias Kleiner
ETW 14
III
Inhaltsverzeichnis
Abbildungsverzeichnis .......................................................................................... VII
Tabellenverzeichnis ............................................................................................... XII
Formelverzeichnis .................................................................................................. XII
Abkürzungsverzeichnis ......................................................................................... XII
1. Motivation und Ausgangslage .........................................................................13
2. Forschungsfrage ...............................................................................................16
3. Vorgehensweise ................................................................................................17
4. Stand der Technik .............................................................................................21
4.1.
Demand Side Management ......................................................................... 21
4.2.
Warmwasserbereitstellung .......................................................................... 23
4.3.
Bekanntes Warmwassernutzungsverhalten ................................................ 24
4.3.1.
Solar City Program in Halifax ................................................................ 24
4.3.2.
Sonstiges bekanntes Verhalten ............................................................ 29
4.4.
Mögliche Vorhersagemodelle für die Nutzung von Warmwasser ................ 29
4.4.1.
Nearest neighbour data-mining ............................................................. 29
4.4.2.
ARIMA Modelle ..................................................................................... 30
4.4.3.
AEG Haustechnik.................................................................................. 31
5. Datenaufbereitung ............................................................................................32
5.1.
Verwendete Software und Daten ................................................................. 32
5.2.
Berechnung der Energieströme ................................................................... 32
5.3.
Halifax-Daten ............................................................................................... 33
5.3.1.
Datenstruktur ........................................................................................ 33
5.3.2.
Korrektur der Warmwassertemperatur .................................................. 34
5.3.3.
Aufzeichnungspausen ........................................................................... 35
Stefan Tobias Kleiner
ETW 14
IV
5.3.4.
Korrektur der Winterzeit und Sommerzeit ............................................. 38
5.3.5.
Auswertung der Entnahmemengen....................................................... 39
5.4.
Lancaster-Daten .......................................................................................... 40
5.4.1.
Datenstruktur ........................................................................................ 40
5.4.2.
Daten konvertieren................................................................................ 41
5.4.3.
Daten in gleichmäßige Zeitschritte konvertieren ................................... 42
5.4.4.
Aufzeichnungspausen ........................................................................... 45
5.4.5.
Korrektur der Winterzeit und Sommerzeit ............................................. 49
5.4.6.
Anpassung an die einheitliche Datenstruktur ........................................ 50
5.4.7.
Anpassung von extremen Entnahmewerten ......................................... 52
5.5.
Zusammenführen der Datensätze ............................................................... 53
6. Korrelationsanalyse ..........................................................................................55
7. Volumetrisches Clustering...............................................................................59
7.1.
Funktionsweise K-Means Clustering ........................................................... 59
7.2.
Gütekriterien ................................................................................................ 63
7.3.
Datenfilterung auf Basis von Clusteringergebnissen (ein Beispiel) ............. 65
7.4.
Euklidisches Clustering bei minütlicher Auflösung ...................................... 72
7.5.
Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 30
Cluster ................................................................................................................... 76
7.6.
Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung bis 500
Cluster ................................................................................................................... 79
7.7.
Clustering mit Manhattan Abstand............................................................... 91
7.8.
Vergleich zwischen euklidischem Clustering und Clustering mit Manhattan-
Abstand ................................................................................................................. 95
7.9.
7.10.
Euklidisches Clustering bei genormten Verbrauchsprofilen ......................... 97
Clustering mit Manhattan Abstand von genormten Ausgangsdaten ....... 103
Stefan Tobias Kleiner
ETW 14
V
7.11.
Vergleich zwischen dem Clustering von genormten und nicht genormten
Verbrauchsprofilen .............................................................................................. 105
8. Diskussion der Ergebnisse ............................................................................106
9. Zusammenfassung .........................................................................................109
10.
Literaturverzeichnis .....................................................................................110
11.
Anhang .........................................................................................................115
11.1.
Fehlerbeschreibung der Originaldaten aus Lancaster ............................ 115
11.2.
Clusterzentroiden bei dem Clustering der volumetrischen Verbrauchswerte
bei minütlicher Auflösung des reduzierten Gesamtdatensatzes .......................... 119
Eidesstattliche Erklärung......................................................................................121
Stefan Tobias Kleiner
ETW 14
VI
Abbildungsverzeichnis
Abbildung 3-1: Ablaufplan zur Vorgehensweise der Erarbeitung der Masterarbeit... 20
Abbildung 4-1: Korrelation zwischen Strompreis und Bedarf (Amann u. a. 2013, S. 1)
................................................................................................................. 22
Abbildung 4-2: Durchschnittlicher Tagesbedarf an Warmwasser bezogen auf die
Haushaltsgröße (George ; Pearre ; Swan 2015, S. 309) ......................... 25
Abbildung 4-3: Durchschnittlicher stündlicher Bedarf an Warmwasser
(George ; Pearre ; Swan 2015, S. 310) ................................................... 26
Abbildung 4-4: Warmwasserverbrauch nach Wochentag
(George ; Pearre ; Swan 2015, S. 311) ................................................... 27
Abbildung 4-5: Vergleich des Warmwasserverbrauchs sonntags zu wochentags
(George; Pearre; Swan 2015, S. 311) ..................................................... 28
Abbildung 4-6: Funktionsweise des intelligenten Boilers der Firma AEG (EHT
Haustechnik GmbH / Markenvertrieb AEG o. J.) ..................................... 31
Abbildung 5-1: Dauer und Häufigkeit von Aufzeichnungspausen bis 120 Minuten
Dauer im Datensatz aus Halifax .............................................................. 35
Abbildung 5-2: Häufigkeit von Aufzeichnungspausen mit einer Dauer von mehr als
120 Minuten im Datensatz aus Halifax .................................................... 36
Abbildung 5-3: Häufigkeit von Aufzeichnungsunterbrechungen bis zu einer Dauer
von 120 Minuten ohne Tagesüberschreitung im Datensatz aus Halifax .. 37
Abbildung 5-4: Häufigkeit von Aufzeichnungsunterbrechungen über 120 Minuten
Dauer ohne Tagesüberschreitung im Datensatz aus Halifax ................... 38
Abbildung 5-5: Entnahmemengen und deren Häufigkeit über 5 l/min im Datensatz
aus Halifax ............................................................................................... 39
Abbildung 5-6: Ablaufplan der Konvertierung der Daten aus Lancaster in einen
Datensatz mit konstanten Zeitschritten .................................................... 44
Abbildung 5-7: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen bis 120
Minuten in den Daten aus Lancaster ....................................................... 46
Abbildung 5-8: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen ab 120
Minuten in den Daten aus Lancaster ....................................................... 47
Stefan Tobias Kleiner
ETW 14
VII
Abbildung 5-9: Dauer und Häufigkeit von tagesspezifischen
Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten aus
Lancaster ................................................................................................. 48
Abbildung 5-10: Dauer und Häufigkeit von tagesspezifischen
Aufzeichnungsunterbrechungen größer 120 Minuten in den Daten aus
Lancaster bei einer Zusammenfassung von je 30 Minuten zu einem
Balken...................................................................................................... 49
Abbildung 5-11: Histogramm mit den Häufigkeiten von ungültigen (>=330 l/min)
Entnahmemengen in den Daten aus Lancaster ....................................... 53
Abbildung 6-1: Volumetrischer Zusammenhang zwischen dem Tagesbedarf und der
Haushaltsgröße in dem zusammengesetzten Datensatz ......................... 55
Abbildung 6-2: Energetischer Zusammenhang zwischen dem Tagesbedarf und der
Haushaltsgröße ....................................................................................... 56
Abbildung 6-3: Beziehung zwischen maximalem Entnahmevolumenstrom und
Haushaltsgröße ....................................................................................... 56
Abbildung 6-4: Beziehung zwischen maximaler entnommener Leistung und der
Haushaltsgröße ....................................................................................... 57
Abbildung 6-5: Korrelation zwischen dem Tagesbedarf und dem maximalen
Volumenstrom.......................................................................................... 58
Abbildung 6-6: Korrelation zwischen dem Tagesbedarf und dem maximalen
Energiestrom ........................................................................................... 58
Abbildung 7-1: Ablaufdiagramm des K-Means Clustering ........................................ 60
Abbildung 7-2: Gütekurve nach dem Davies-Bouldin-Index des K-Means Clustering
bei minütlicher Auflösung ......................................................................... 65
Abbildung 7-3: Gütekurve nach dem Silhouette-Index des K-Means Clustering bei
minütlicher Auflösung .............................................................................. 66
Abbildung 7-4: Standardabweichung über die Anzahl der Cluster bei euklidischem
Clustering und minütlicher Auflösung bei dem ersten Versuch zur weiteren
Datenfilterung .......................................................................................... 67
Abbildung 7-5: Abstand der Clusterzentroiden nach Anzahl der Cluster bei
euklidischem Clustering und minütlicher Auflösung bei dem ersten
Versuch zur weiteren Datenfilterung ........................................................ 67
Stefan Tobias Kleiner
ETW 14
VIII
Abbildung 7-6: Clusterzentroiden 0 (a) bis 17 (r) bei 30 Clustern. Die horizontale
Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt
die Entnahmemenge in l/min. .................................................................. 68
Abbildung 7-7: Clusterzentroiden 18 (a) bis 29 (l) bei 30 Clustern. Die horizontale
Achse beschreibt die Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt
die Entnahmemenge in l/min. .................................................................. 69
Abbildung 7-8: Tagesverläufe der 12 wichtigsten Clusterzentroiden bei dem ersten
Clusteringversuch um die Daten weiter zu filtern. Die horizontale Achse
beschreibt die Tageszeit mit Uhrzeit ........................................................ 70
Abbildung 7-9: Gütekurven bei dem weiter gefilterten Datensatz und minütlicher
Auflösung ................................................................................................. 73
Abbildung 7-10: Standardabweichung der Cluster aller Daten bei dem weiter
gefilterten Datensatz und minütlicher Auflösung ...................................... 74
Abbildung 7-11: Überlagerung der Tagesverläufe der 30 Clusterzentroiden bei einem
euklidischen Clustering des reduzierten Datensatzes mit minütlicher
Auflösung ................................................................................................. 75
Abbildung 7-12: Überlagerung der Tagesverläufe von 29 der 30 Clusterzentroiden
bei euklidischem Clustering und einer minütlichen Auflösung ................. 75
Abbildung 7-13: Beispiel eines Clusterzentroides (rot) mit der Standardabweichung in
blau bei euklidischem Clustering von minütlichen Daten bei 30 erzeugten
Clustern ................................................................................................... 76
Abbildung 7-14: Silhouette-Indizes bei unterschiedlicher zeitlicher Auflösung und
unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern .................. 77
Abbildung 7-15: Davies-Bouldin-Indizes bei unterschiedlicher zeitlicher Auflösung
und unterschiedlicher Clusteranzahl zwischen 2 und 30 Clustern ........... 78
Abbildung 7-16: Erster von zwei euklidischen Clustern bei einer Auflösung von 120
Minuten dargestellt mit der Standardabweichung .................................... 79
Abbildung 7-17: Zweiter von zwei euklidischen Clustern bei einer Auflösung von 120
Minuten dargestellt mit der Standardabweichung .................................... 79
Abbildung 7-18: Silhouette-Indizes bis 500 Cluster mit euklidischem Distanzmaß ... 80
Abbildung 7-19: Davies-Bouldin-Indizes bis zu 500 Clustern bei euklidischem
Distanzmaß.............................................................................................. 81
Stefan Tobias Kleiner
ETW 14
IX
Abbildung 7-20: Silhouette-Indizes im Bereich zwischen 250 und 325 Cluster ........ 82
Abbildung 7-21: Davies-Bouldin-Indizes bei 250 bis 325 Clustern bei euklidischem
Distanzmaß.............................................................................................. 82
Abbildung 7-22: Verteilung der Datentage auf die Cluster ........................................ 83
Abbildung 7-23: Aufsummierte Datentaganzahl über die Anzahl der Cluster. In Rot
dargestellt der Schnittpunkt bei 20 % der Cluster .................................... 84
Abbildung 7-24: Anzahl der einem Haushalt zugeordneten Cluster bei euklidischem
Clustering von 315 Clustern bei 120 minütlicher Auflösung ..................... 85
Abbildung 7-25: Anzahl der einem Cluster zugeordneten Haushalte bei euklidischem
Clustering von 315 Clustern bei 120 minütlicher Auflösung ..................... 85
Abbildung 7-26: Standardlastprofile bei nicht genormten Daten nach dem Clustering
nach euklidischem Abstand (Teil 1) ......................................................... 86
Abbildung 7-27: Standardlastprofile bei nicht genormten Daten nach dem Clustering
nach euklidischem Abstand (Teil 2) ......................................................... 87
Abbildung 7-28: Standardlastprofile bei nicht genormten Daten nach dem Clustering
nach euklidischem Abstand (Teil 3) ......................................................... 88
Abbildung 7-29: Standardlastprofile bei nicht genormten Daten nach dem Clustering
nach euklidischem Abstand (Teil 4) ......................................................... 89
Abbildung 7-30: Verteilung der Haushalte auf die Cluster, welche als
Standardlastprofile generiert wurden ....................................................... 90
Abbildung 7-31: Verteilung der Cluster, welche als Standardlastprofile generiert
wurden, auf die Haushalte ....................................................................... 90
Abbildung 7-32: Silhouette-Indizes bei unterschiedlichen zeitlichen Auflösungen und
unterschiedlichen Clusteranzahlen bis 30 Cluster ................................... 91
Abbildung 7-33: Silhouette-Indizes von Verbrauchsprofilen mit Manhattan-Abstand
als Optimierung bei bis zu 500 Clustern .................................................. 92
Abbildung 7-34: Silhouette-Indizes bei 225 bis 325 Clustern und Optimierung nach
Manhattan-Abstand ................................................................................. 93
Abbildung 7-35: Verteilung der Daten auf die Cluster ............................................... 94
Abbildung 7-36: Summe der Datentage über die Anzahl der Cluster bei 260 Clustern
und Optimierung nach Manhattan-Abstand. In Rot dargestellt der
Schnittpunkt bei 20 % der Cluster............................................................ 94
Stefan Tobias Kleiner
ETW 14
X
Abbildung 7-37: Korrelation zwischen Cluster und Haushalten bei einem Clustering
nach Manhattan-Abstand und 260 erzeugten Clustern............................ 95
Abbildung 7-38: Silhouette-Index Verläufe bei unterschiedlichen Zeitschritten und
unterschiedlichen Clusteranzahlen bis 30 Cluster ................................... 97
Abbildung 7-39: Davies-Bouldin-Index Verläufe bei unterschiedlichen Zeitschritten
und unterschiedlichen Clusteranzahlen bis 30 Cluster ............................ 98
Abbildung 7-40: Beide Clusterzentroiden der genormten Verbrauchsprofile bei einer
zeitlichen Auflösung von 120 Minuten und zwei Clustern ........................ 99
Abbildung 7-41: Silhouette-Indizes bei genormten Profilen bei bis zu 500 Cluster ... 99
Abbildung 7-42: Silhouette-Indizes bei genormten Verbrauchsprofilen im Bereich
zwischen 220 und 325 Clustern ............................................................. 100
Abbildung 7-43: Verteilung der Haushalte auf die erzeugten 265 Cluster bei einem
Clustering von genormten Verbrauchsprofilen ....................................... 101
Abbildung 7-44: Verteilung der 265 erzeugten Cluster auf die 141 Haushalte bei
einem Clustering von genormten Verbrauchsprofilen ............................ 101
Abbildung 7-45: Pareto-Diagramm zu dem Clustering von genormten
Verbrauchsprofilen bei 265 erzeugten Clustern. In Rot dargestellt der
Schnittpunkt bei 20% der Cluster........................................................... 102
Abbildung 7-46: Silhouette-Indizes bei genormten Verbrauchsprofilen, verschiedenen
zeitlichen Auflösungen und verschiedenen Clusteranzahlen bis 30 Cluster
............................................................................................................... 103
Abbildung 7-47: Silhouette-Indizes bei genormten Verbrauchsprofilen bis 500 Cluster
im Manhattan-Abstand........................................................................... 104
Abbildung 7-48: Silhouette-Index zwischen 275 und 375 Cluster bei genormten
Verbrauchsprofilen und Optimierung nach Manhattan-Abstand ............ 105
Abbildung 11-1: Clusterzentroiden bei minütlicher Auflösung und reduziertem
Datensatz (Teil 1). Die horizontale Achse beschreibt den Tagesverlauf mit
Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute.
............................................................................................................... 119
Abbildung 11-2: Clusterzentroiden bei minütlicher Auflösung und reduziertem
Datensatz (Teil 2). Die horizontale Achse beschreibt den Tagesverlauf mit
Stefan Tobias Kleiner
ETW 14
XI
Uhrzeit. Die vertikale Achse beschreibt den Verbrauch in Liter / Minute.
............................................................................................................... 120
Tabellenverzeichnis
Tabelle 5-1: Beispieldatenaufbau von den Daten aus Halifax mit der
Spaltenbeschriftung (Thermo Dynamics Ltd. ; George ; Swan 2015,
S. WEL5010_Data) .................................................................................. 34
Tabelle 5-2: Beispieldaten aus einem Datensatz aus Lancaster (Energy Saving
Trust 2008b, S. 7978.all) ......................................................................... 41
Tabelle 7-1: Clusterinformationen bei 30 Clustern bei dem ersten Clustering zur
weiteren Datenfilterung ............................................................................ 71
Formelverzeichnis
Formel 1: Energieberechnung .................................................................................. 32
Formel 2: Davies-Bouldin-Index („Davies–Bouldin index“ 2016) .............................. 64
Formel 3: Dunn-Index („Dunn index“ 2016) .............................................................. 64
Formel 4: Silhouette-Index („Silhouette (clustering)“ 2016) ...................................... 64
Abkürzungsverzeichnis
DSM
Demand Side Management
HAL
Halifax
LAN
Lancaster
ARIMA
Auto-Regressive Integrated Moving Average
nan
Not a Number – Keine Zahl
k
Kaltwassertemperatur
w
Warmwassertemperatur
e
Volumetrische Entnahmemenge
Stefan Tobias Kleiner
ETW 14
XII
1. Motivation und Ausgangslage
Stellen Sie sich vor es wäre der 8. August und Sie hätten ihr jährliches Budget an
Ressourcen verbraucht. Knapp 40% des Jahres lägen noch vor Ihnen und Sie
müssten die nächsten 145 Tage von Erspartem und Geliehenem leben. So geht es
der Erdbevölkerung an diesem Weltüberlastungstag 2016. Alle Ressourcen, die in
einem Jahr von der Erde regeneriert werden können sind bereits jetzt aufgebraucht.
Dieses Phänomen wird sich in Zukunft weiter zuspitzen, weil es immer mehr
Menschen gibt, die immer mehr Zugang zu immer weiter schrumpfenden Ressourcen
haben und diese weiter nutzen. („Earth Overshoot Day 2016“ 2016)
Energieeffizienz und Einsparpotentiale sind entscheidende Faktoren für das
zukünftige Leben auf der Erde, um unter anderem der Klimaerwärmung
entgegenzusteuern. Trotz des durch die stetig steigende Effizienz insgesamt
rückläufigen Energieverbrauchs (vgl. Bundesministerium für Wirtschaft und Energie
2015) schwinden unsere Energieressourcen weiter. Daher macht sich die Forschung
Gedanken darüber, wo noch mehr Energie eingespart werden kann.
Ein potentieller Bereich in dem Energie eingespart werden kann, sind private
Haushalte, in denen, zumindest in Deutschland, etwa 13% (vgl. Ministerium für
Umwelt, Klima und Energiewirtschaft Baden-Württemberg 2012) des gesamten
Energieverbrauchs der Volkswirtschaft verbraucht werden. In diesen wird den
ganzen Tag über unnötig Energie verbraucht. Beispielsweise ist dies beim Speichern
von Warmwasser der Fall. Hierauf entfallen zwischen 8% (vgl. Ministerium für
Umwelt, Klima und Energiewirtschaft Baden-Württemberg 2004) und 12% (vgl. EControl 2010) der im Haushalt benötigten Energie. Eine Zusammenfassung der
Statistiken ergibt, dass zwischen 1,04% und 1,56% des Energieverbrauchs der
gesamten Volkswirtschaft für das Erwärmen und Speichern von Warmwasser in
Privathaushalten aufgewendet wird. Dies ist eine beachtliche Menge. Die verbauten
Boiler heizen über ihr gesamtes Fassungsvolumen auf eine eingestellte Temperatur
auf. Die Temperatur ist dabei nicht im ganzen Boiler konstant, sondern es entsteht
eine Schichtung. Durch eine intelligente Steuerung im Rahmen eines Demand-SideManagements lassen sich im Bereich der Warmwasserbereitstellung in privaten
Stefan Tobias Kleiner
ETW 14
13
Haushalten hohe Energiemengen einsparen. Dieses Ziel hat sich unter anderen auch
eine Forschungsgruppe der FHV in Kooperation mit den Illwerken VKW gesetzt.
Für dieses Projekt werden in einem Feldversuch in Vorarlberg etwa 20 Haushalte mit
intelligenten Warmwasserzählern an Boilern ausgestattet. Diese Warmwasserzähler
messen nicht nur das Volumen an Wasser in Litern sondern auch den Volumenstrom
zu jedem Zeitpunkt. Diese Daten werden über einen längeren Zeitraum
aufgezeichnet und gespeichert, so dass auf Basis dieser Daten verschiedene
Analysen getätigt werden können. Eine dieser umfangreichen Datenanalysen stellt
diese Arbeit dar. Mit dieser Datenanalyse soll zunächst herausgefunden werden, ob
sich die Haushalte in verschiedene Verbrauchermuster einordnen lassen. Anhand
dieser Verbrauchermuster werden gegebenenfalls Standardlastprofile entwickelt.
Als Fortsetzung dieser Arbeit kann später untersucht werden, ob anhand der
Verbrauchsdaten aus der Vergangenheit der Verbrauch der Zukunft sinnvoll
vorausgesagt werden kann. Hierfür gibt es schon diverse Ansätze (siehe z.B.
(Kepplinger ; Huber ; Petrasch 2015 oder Gelažanskas ; Gamage 2015)), welche
überprüft
werden
müssen.
Ist
es möglich
einem
Haushalt ein
gewisses
Verbrauchsmuster zuzuordnen, so lassen sich in Zukunft Boilersysteme installieren,
welche durch dieses Wissen den Energieverbrauch senken bzw. die Lastkurve des
Stromnetzes glätten können. Solch ein intelligentes Boilersystem könnte bei
zusätzlicher Berücksichtigung eines aktuellen Börsenstrompreises zusätzlich auch
die Kosten für Warmwasser erheblich senken (Vgl. Kepplinger; Huber; Petrasch
2015). Bei einer flächendeckenden Ausstattung mit solchen Systemen kommt hinzu,
dass das Stromnetz stabiler wird, da die Gesamtstromverbrauchskurve geglättet wird
und die Boiler nicht zu Spitzenstromzeiten heizen und elektrische Energie
verbrauchen, sondern überwiegend dann wenn gerade überschüssige Energie aus
dem Netz entnommen werden kann.
In verschiedenen aktuellen Publikationen wird genau diese Thematik beschrieben.
Es wurden auch bereits diverse Feldversuche durchgeführt, um tatsächliche
Verbrauchsdaten
für
Warmwasser
zu
erhalten.
Es
gibt
auch
schon
Simulationsmodelle, bei denen die Vorhersagen (für einige Stunden) relativ
Stefan Tobias Kleiner
ETW 14
14
zuverlässig funktionieren (vgl. Kepplinger ; Huber ; Petrasch 2015; und George;
Pearre; Swan 2015). Auffällig bei den Publikationen ist, dass die wenigsten den
Energieverbrauch angeben, sondern lediglich den Volumenstrom des Warmwassers
betrachten. Da in Boilern in der Regel eine Schichtung vorhanden ist, ist es
allerdings nicht möglich vom Volumenstrom direkt auf die Wärmeenergiemenge des
ausfließenden Wassers zurückzuschließen, da die Auslauftemperatur nicht konstant
ist. In dieser Arbeit soll überprüft werden, warum einige andere Forschungsgruppen
nicht
die
Energiemengen
betrachten,
da
diese
grundsätzlich
sehr
viel
aussagekräftiger sind. Wenn möglich und sinnvoll sollte diese Betrachtung
nachgeholt werden und die Aussagen der Arbeiten auf Basis der Energiemengen
überprüft werden.
Stefan Tobias Kleiner
ETW 14
15
2. Forschungsfrage
Aus der aktuellen Problematik und dem Ziel dieser Arbeit ergibt sich folgende
Forschungsfrage, welche den Kern dieser Arbeit wiederspiegelt. Das Ziel dieser
Arbeit ist die Beantwortung dieser Frage:
Lassen
sich
aus
den
in
mehreren
Feldversuchen
aufgezeichneten
Warmwasserzapfdaten einige wenige Verbrauchertypen ableiten, und daraus
Standardlastprofile generieren?
Stefan Tobias Kleiner
ETW 14
16
3. Vorgehensweise
Zunächst werden verschiedene Studien aus verschiedenen Ländern analysiert und
untersucht und die darin enthaltenen Zusammenhänge und Verbrauchermuster
werden genauer betrachtet. Es wird auch analysiert, aus welchen Gründen in
verschiedenen
Publikationen
Energieströme
betrachtet
lediglich
werden.
Da
die
die
Volumenströme
und
Datengrundlagen
nicht
die
verschiedener
Publikationen teilweise erhältlich sind, werden zunächst die Autoren der publizierten
Arbeiten angeschrieben, mit der Bitte die gesammelten Daten bereit zu stellen. Die
Publikationen sollen auch auf ihre Konsistenz überprüft und analysiert werden.
Außerdem soll herausgefunden werden ob es möglich ist, aus den gegebenen Daten
die Energiemengen zu bestimmen. Ist es möglich aus den Daten die Energiemengen
zu bestimmen, so soll dies nachgeholt werden. Die Aussagen der Publikationen
werden, sofern möglich, bezüglich der Übertragbarkeit auf die Energiemengen
überprüft.
Ursprünglich war geplant, die von den Messzählern aus dem aktuellen Feldversuch
in Vorarlberg aufgenommenen Daten zunächst zu begutachten und zu bereinigen.
Das heißt, Datensätze von der Analyse auszuschließen, welche offensichtlich
außerhalb des regulären Bereichs liegen. Solche Daten entstehen beispielsweise
wenn der Haushalt eine gewisse Zeit nicht bewohnt ist (z.B. Urlaub; Geschäftsreise).
Oder wenn in einem Haushalt eine Veranstaltung stattfindet und dadurch
ungewöhnlich viel Warmwasser in kurzer Zeit verbraucht wird. Die Sensoren können
durch Störungen oder Stromausfälle eventuell auch eine gewisse Zeit keine Daten
aufnehmen, wodurch Aufzeichnungslücken entstehen. Hier muss festgelegt werden,
inwieweit diese Daten noch auszuwerten sind. Mit den eigenen gewonnen Daten soll
verglichen werden, ob sich daraus dieselben Schlüsse ziehen lassen, wie aus den
Datenauswertungen der bekannten Publikationen. Ist dies nicht der Fall muss
analysiert werden worin die Unterschiede begründet sind. Da der Feldversuch
allerdings aktuell noch läuft, sind die daraus gewonnenen Daten nur in begrenzter
Anzahl verfügbar. Aus diesem Grund wurde schlußendlich entschieden, die
Auswertung und Analyse in dieser Arbeit allein auf Basis der aus anderen Versuchen
erhaltenen Daten durchzuführen.
Stefan Tobias Kleiner
ETW 14
17
Sollten irgendwann genügend repräsentative Daten aus dem Feldversuch in
Vorarlberg vorhanden sein, so kann das Ergebnis dieser Arbeit damit validiert und
auf seine Allgemeingültigkeit überprüft werden.
Auf Grundlage der verschiedenen Feldversuche in Kanada und England und den
daraus
gewonnenen
Daten
und
gefundenen
Zusammenhängen
sollen
Standardlastprofile entwickelt werden. Dafür ist es zunächst notwendig die Daten
entsprechend aufzubereiten und zu vereinheitlichen. Da die Daten aus den
verschiedenen Studien zusammengefasst werden sollen, ist eine Vereinheitlichung
der Daten unabdingbar um sie vergleichbar zu machen. Es wird auch notwendig
sein, die Daten entsprechend zu bereinigen um fehlerhafte Daten aus der Analyse
auszuschließen. Hierfür müssen gewisse Kriterien festgelegt werden.
Sind die Ausgangsdaten alle vereinheitlicht und bereinigt, so kann mit der
eigentlichen Arbeit, der Datenanalyse, begonnen werden. Ziel dabei ist, durch
statistische Methoden mit Hilfe einer numerischen Software die Daten zu gruppieren
um verschiedene Lastprofilgruppen zu generieren. Von jeder Lastprofilgruppe muss
dann der Schwerpunkt, also das gewichtete Mittel, bestimmt werden um die
Standardlastprofile festzulegen. Ist dies geschehen, so muss analysiert werden, wie
groß die Standardabweichung ist und ob sich die einzelnen Datensätze eindeutig
zuordnen lassen oder ob die Zuordnung zu mehreren Gruppen möglich ist. Dieser
Prozess soll mit verschiedenen statistischen Methoden durchgeführt werden um
festzustellen, ob die Lösung nicht durch eine andere Methode besser gefunden
werden kann. Ist es möglich mit Hilfe einer Berechnungsmethode Standardlastprofile
zu finden, zu welchen sich die einzelnen Profile größtenteils eindeutig zuordnen
lassen, so ist das Forschungsziel erreicht. Ist dies nicht der Fall, so kann mit dieser
Vorgehensweise keine erfolgreiche Beantwortung der Forschungsfrage formuliert
werden.
Zusätzlich sollen in dieser Arbeit auf den Standardlastprofilen aufbauend
Verhaltensmuster analysiert werden. Dazu werden die Daten, welche für die
einzelnen
Standardlastprofile
Beispielsweise
können
Stefan Tobias Kleiner
die
herangezogen
Wochentage
ETW 14
werden,
ermittelt
weiter
werden,
ausgewertet.
welche
für
ein
18
Standardlastprofil verwendet werden. Ist hier dann eine Auffälligkeit erkennbar, also
sind die Anzahl der zugrundeliegenden Wochentage nicht gleichmäßig verteilt, so
kann das Standardlastprofil dahingehend interpretiert werden. Andere mögliche
Ergebnisse sind jahreszeitliche Schwankungen. Dies kann anhand der genauen
Daten der Aufzeichnungen festgestellt werden. Auch der Frage nach dem Einfluss
der Haushaltsgröße wird nachgegangen. Ist hier lediglich der Gesamttagesbedarf an
Warmwasser höher oder ergeben sich hier auch verschiedene tageszeitliche
Wasserentnahmekurven?
Wird auf die Standardlastprofile aufbauend zukünftig eine Methode gefunden, mit
welcher sich durch geringen Rechenaufwand die Entnahmemengen an Warmwasser
zuverlässig vorhersagen lassen, so ist es eventuell auch an einigen bereits
bestehenden Boilersystemen, mit relativ geringem Aufwand möglich, eine intelligente
Regelung zu integrieren.
In dem Ablaufplan, welcher in Abbildung 3-1 dargestellt ist, ist die Vorgehensweise
der Arbeit dargestellt. Begonnen wird mit dem Einlesen in die ganze Thematik, daran
anschließend werden Daten für die Auswertung beschafft. Diese Daten werden
begutachtet, aufbereitet und auf ein gleiches Format konvertiert. Anschließend
werden die Daten bereinigt. Hier werden Daten aussortiert, welche fehlerhaft sind
oder aus einem anderen Grund nicht in die Auswertung miteinbezogen werden
sollen.
Diese
bereinigten
Daten
werden
auf
Korrelationen
überprüft
und
entsprechend geclustert. Die Cluster werden ausgewertet und darauf aufbauend
werden die Daten gegebenenfalls weiter bereinigt und erneut geclustert.
Stefan Tobias Kleiner
ETW 14
19
Einlesen
Daten beschaffen
Daten begutachten
Daten aufbereiten
Daten konvertieren
Daten bereinigen
Korrelationsanalyse
Daten Clustern
Cluster auswerten
Standardlastprofile
Abbildung 3-1: Ablaufplan zur Vorgehensweise der Erarbeitung der Masterarbeit
Stefan Tobias Kleiner
ETW 14
20
4. Stand der Technik
4.1. Demand Side Management
Demand Side Management (DSM) ist ein Begriff für die Netzsteuerung auf der Seite
der Verbrauchenden. Herkömmliche Netze werden von den erzeugenden bzw.
netzbetreibenden Unternehmen aus gesteuert, jedoch ist hier vor allem bei
Stromnetzen ein Umdenken notwendig. Durch die steigende Erzeugung von
elektrischem Strom aus erneuerbaren Energiequellen, steigt auch die Notwendigkeit,
die Netze besser zu regeln. Die Erzeugung von elektrischer Energie aus
erneuerbaren Energiequellen, wie vor allem der Photovoltaik und der Windkraft, ist
nicht so gut berechenbar und steuerbar wie die elektrische Energieerzeugung aus
herkömmlichen Energiequellen wie Kohle, Gas, Öl oder Atomenergie. In der
Vergangenheit waren einige Großkraftwerke am Netz um dieses mit Energie zu
versorgen. Durch den Ausbau der erneuerbaren Energien entstehen viele kleine
Kraftwerke
mit
großen
Leistungsschwankungen,
wodurch
sich
jedoch
die
Erzeugungskapazitäten sowohl örtlich als auch zeitlich verlagern. Und der Ausbau
für die Nutzung von erneuerbaren Energieträgern ist nicht aufzuhalten. Am
12.12.2015 einigten sich sogar 195 Staaten bei der Weltklimakonferenz in Paris
darauf, die Verstromung von fossilen Brennstoffen bis zum Jahr 2050 komplett
einzustellen und diese durch 100% erneuerbare Energien zu ersetzen (vgl. Bals;
Kreft; Weischer 2015, S. 1). Dieses Ziel kann nur gemeinsam und mit einem gut
funktionierenden DSM erfolgreich umgesetzt werden.
Bei einem System mit DSM werden die verbrauchenden Geräte gesteuert. Es gibt
einige Geräte, die am Netz angeschlossen sind, welche zeitlich flexibel mit der
Entnahme von Energie sind und/oder Geräte welche elektrische Energie speichern
und wieder abgeben können. Hierzu zählen vor allem akkubetriebene Geräte. So
kann beispielsweise ein Elektroauto, welches während der Arbeitszeit oder über
Nacht am Stromnetz angeschlossen wird, Energie aufnehmen und wieder abgeben,
da es nicht die gesamte Zeit am Netz benötigt um aufzuladen bzw. auch nicht
unbedingt ein voll aufgeladener Akku benötigt wird. Es muss auch nicht zwingend
sofort aufgeladen werden wenn es an das Netz angeschlossen wird, sondern kann
Stefan Tobias Kleiner
ETW 14
21
unter Umständen eine Zeit lang warten oder den Ladevorgang zwischendurch
unterbrechen. Um hier den Nutzenden keinen erheblichen Nachteil zuzufügen,
müssen deren Verhaltensweisen bekannt sein. Beispielsweise wann ein Fahrzeug
benötigt wird und welche Entfernung es nach dem Trennen vom Netz zurücklegen
soll.
Ähnlich verhält es sich auch bei Boilern, welche elektrische Energie benutzen um
das Wasser aufzuheizen. Deshalb können auch Warmwasserboiler in solche DSMSysteme integriert werden. Diese Boiler speichern Energie in Form von Wärme,
können diese Energie allerdings nicht wieder an das Netz zurückgeben. Dafür haben
sie die Eigenschaft, dass sie nicht immer vollgeladen sein müssen und die Energie
lange
speichern
können.
Diese
Eigenschaft
kann
genutzt
werden
um
Warmwasserboiler in einem DSM Programm zu betreiben (vgl. Hu; Han; Wen 2013,
S. 259f.). Der Boiler kann beispielsweise über einen zeitaktuellen Börsenstrompreis
gesteuert werden, da der Strompreis, wie in Abbildung 4-1 zu sehen ist, einen
starken
Zusammenhang
mit
dem
aktuellen
Bedarf
aufweist
(vgl.
Amann u. a. 2013, S. 1). Ist der Preis gering so heizt der Boiler auf, ist der Preis
hoch so schaltet die Heizpatrone ab. Auch hier ist es allerdings wichtig, das
Verhalten der Nutzenden zu kennen um sicher zu stellen, dass genügend
Warmwasser zur Verfügung steht, wenn dieses benötigt wird. Durch die Vorgabe des
Strompreises haben alle Beteiligten Vorteile bei der Nutzung eines Systems im DSM.
Das netzbetreibende Unternehmen kann durch die Veränderung des Strompreises
die anliegende Last regulieren und so schnell auf Einspeiseschwankungen reagieren
und die Nutzenden sparen Geld, da die Boiler selbständig günstige Energie aus dem
Netz entnehmen.
Abbildung 4-1: Korrelation zwischen Strompreis und Bedarf (Amann u. a. 2013, S. 1)
Stefan Tobias Kleiner
ETW 14
22
4.2. Warmwasserbereitstellung
Zur Bereitstellung von Warmwasser an den entsprechenden Entnahmestellen gibt es
mehrere Möglichkeiten. Zum einen kann es durch eine Zentralheizung mit
Warmwasserspeicher realisiert werden. Hier sind (meist im Keller des Hauses) ein
Heizkessel und ein Pufferspeicher installiert. Der Heizkessel heizt den Pufferspeicher
auf eine eingestellt Solltemperatur auf. Bei den aktuellen Systemen wird diese
Temperatur über den Tag möglichst konstant hoch gehalten. Der Heizkessel kann
dabei über eine Verbrennung oder elektrisch Wärme erzeugen. Wieder andere
Systeme laden den Speicher über Nacht und lassen diesen dann tagsüber entladen.
Eine weitere Möglichkeit sind Durchlauferhitzer, welche mit Gas, Heizöl oder
elektrischem Strom betrieben werden können. Diese erwärmen das Wasser nur bei
Bedarf und haben somit keinerlei Speicherverluste. Allerdings ist hier auch die
Energieentnahme aus dem Stromnetz nicht zeitlich variabel sondern erfolgt zeitlich
parallel zur Nutzung vom Warmwasser.
Eine dritte Möglichkeit der Warmwasserbereitstellung sind mehrere kleine Boiler,
welche möglichst nahe an den Entnahmestellen installiert sind. Dies hat den Vorteil,
dass weniger Leitungen durch das Gebäude verlegt werden müssen und somit
Wärmeverluste bei dem Transport verringert werden. Diese Boiler sind in der Regel
elektrisch betrieben.
Diese Arbeit zielt auf Warmwasserbereitstellungsanlagen ab, welche einen
Warmwasserspeicher verwenden. Hauptaugenmerk dabei liegt bei zentralen
Speichersystemen.
Stefan Tobias Kleiner
ETW 14
23
4.3. Bekanntes Warmwassernutzungsverhalten
4.3.1. Solar City Program in Halifax
(Vgl. George ; Pearre ; Swan 2015)
In dem Solar City Programm in Halifax, Kanada, wurden Messgeräte an Boilern von
119 Haushalten angebracht. Diese Messgeräte zeichnen die Volumenströme von
Warm- und Kaltwasser bei einer zeitlichen Auflösung von einer Minute auf. Dies sind
für diese Anwendung erstaunlich kleine Zeitschritte. Durch diese kleinen Zeitschritte
ist es auf jeden Fall möglich, in Folge ausreichend genaue Auswertungen
anzustellen und exakte Aussagen zu treffen. Zusätzlich zu den Volumenströmen
wurden auch die Temperaturen von Zu- und Abfluss gemessen.
Bei diesem Programm muss allerdings beachtet werden, dass die Repräsentativität
der Versuchsgruppe nur eingeschränkt gegeben ist. Die Messgeräte wurden nur in
Häusern installiert, welche zur Erwärmung ihres Warmwassers auch SolarthermieAnlagen installiert haben. Zusätzlich wurden auch im Zeitraum der Messungen in
einigen Haushalten Wassersparmaßnahmen durchgeführt, wie beispielsweise die
Installation von Durchflussminderern. Hinzu kommt, dass die Teilnahme an dem
Projekt auf freiwilliger Basis beruht. Dadurch kann es zu Abweichungen verglichen
mit „dem Durchschnittshaushalt“ kommen. Ein Beispiel für die Fragwürdigkeit der
Repräsentativität ist die durchschnittliche Personenzahl pro Haushalt, welche in dem
Projekt bei 3,8 liegt wohingegen der durchschnittliche Haushalt in Kanada 2,5
Personen beherbergt.
Der Aufbau der Messanlage ist sehr simpel gestaltet. Der Volumenstrom wird auf der
Kaltwasserseite vor dem Boiler gemessen, wobei dieser Volumenstrom im gesamten
System konstant ist. Die Temperaturen werden direkt vor und direkt nach dem Boiler
gemessen. Diese Sensoren sind allerdings nur außerhalb der Rohrleitungen
angebracht, sodass sich hier eine Abweichung zur tatsächlichen Wassertemperatur
ergibt. Dies wird auch der Hauptgrund sein, warum die Auswertung hauptsächlich auf
Basis der Volumenströme und nicht der Energiemengen durchgeführt wurde.
Stefan Tobias Kleiner
ETW 14
24
In Abbildung 4-2 ist der durchschnittliche Tagesbedarf an Warmwasser in Bezug zur
Haushaltsgröße dargestellt. Hier ist gut ersichtlich, dass der Tagesbedarf mit der
Personenzahl fast linear zunimmt. Ausnahmen sind hier die sehr großen Haushalte
mit neun und zehn Personen. Dies kann aber auch an der sehr geringen und damit
nicht repräsentativen Anzahl (je zwei) der Haushalte liegen. Zusätzlich wurde ein
Vergleich zu den Werten mit denen das Programm HOT2000 rechnet angestellt.
Diese Software ist ein Programm um die Energieflüsse und Verbräuche in Gebäuden
mit wenigen Stockwerken zu simulieren (vgl. Government of Canada 2015). Bei
diesem
Vergleich
ist
erkennbar,
dass
die
Software
deutlich
mehr
Warmwasserverbrauch annimmt als in dieser Studie tatsächlich festgestellt wurde.
Abbildung 4-2: Durchschnittlicher Tagesbedarf an Warmwasser bezogen auf die Haushaltsgröße
(George ; Pearre ; Swan 2015, S. 309)
George et al. stellten fest, dass die durchschnittlich verbrauchte Warmwassermenge
pro Haushalt und Tag 172 Liter entspricht, der Medianwert jedoch nur bei 159 Litern
Stefan Tobias Kleiner
ETW 14
25
liegt. Das heißt, dass die meisten Haushalte deutlich unter dem Durchschnittswert
und dafür einige wenige deutlich darüber liegen.
In Abbildung 4-3 sind die durchschnittlich stündlichen Entnahmemengen aus dem
Feldversuch in Kanada verglichen mit einer Studie aus 1985 von Perlman und Mills
(Perlman ; Mills 1985) dargestellt. Hierbei ist deutlich zu erkennen, dass sich die
benötigte Menge an Warmwasser seit der Studie von 1985 reduziert hat und auch,
dass sich der Tagesrhythmus der Menschen in den vergangenen 30 Jahren um ein
bis zwei Stunden nach vorne verschoben hat.
Abbildung 4-3: Durchschnittlicher stündlicher Bedarf an Warmwasser (George; Pearre; Swan 2015,
S. 310)
Weiterhin wurde in dieser Studie der Verbrauch pro Wochentag untersucht. Dabei
wurde festgestellt, dass auch hier Unterschiede vorhanden sind. In Abbildung 4-4 ist
Stefan Tobias Kleiner
ETW 14
26
zu erkennen, dass der Verbrauch freitags auffällig gering ausfällt, wohingegen der
Verbrauch sonntags auffällig hoch ist. Für den Freitag haben George et al. keine
Erklärung gefunden, wohingegen der Sonntag verständlich erscheint. Sonntags sind
die bewohnenden Personen in der Regel den ganzen Tag über zu Hause und
können so auch den ganzen Tag über Wasser verbrauchen.
Abbildung 4-4: Warmwasserverbrauch nach Wochentag (George ; Pearre ; Swan 2015, S. 311)
In Abbildung 4-5 ist der durchschnittliche Verbrauch zwischen Wochentagen und
Sonntagen im Vergleich dargestellt. Hier lässt sich auch der Unterschied erkennen
und erklären. Die Peaks am Wochenende sind zum einen breiter und das
Mittagsloch ist weniger tief als an Wochentagen. Zum anderen ist der Verbrauch
generell etwas höher als an den Wochentagen wodurch sich der insgesamt höhere
Verbrauch ergibt.
Stefan Tobias Kleiner
ETW 14
27
Abbildung 4-5: Vergleich des Warmwasserverbrauchs sonntags zu wochentags (George; Pearre; Swan
2015, S. 311)
Weiterhin wurde in der Studie herausgefunden, dass der Wasserverbrauch im Winter
um 9,6% höher ist als im Sommer. Dies wird darauf zurückgeführt, dass die
Menschen vermutlich im Winter lieber warmes Wasser verwenden als kaltes, auch
wenn dies nicht notwendig wäre. Beispielsweise zum Händewaschen oder
Zähneputzen.
Stefan Tobias Kleiner
ETW 14
28
4.3.2. Sonstiges bekanntes Verhalten
Becker und Stogsdill (Becker ; Stogsdill 1990) fanden schon 1990 heraus, dass es
regionale Unterschiede im Nutzungsverhalten von Warmwasser bezogen auf den
Wohnort der Nutzenden gibt.
Es ist auch anzunehmen, dass sich das Verhalten bei der Nutzung von Warmwasser
durch den demographischen Wandel verändert hat und sich auch weiterhin
verändern wird. Auch die Veränderung am Arbeitsmarkt, weg von festen
Arbeitszeiten hin zu immer flexiblerem Personal, hat vermutlich Auswirkungen auf
den Warmwasserkonsum. Hinzu kommt die Weiterentwicklung der Technik, welche
es auch ohne Einschränkung der Lebensqualität ermöglicht, mit weniger Wasser
auszukommen. Diese Thesen lassen sich auch durch die Statistik belegen, welche
besagt, dass der Warmwasserverbrauch in Deutschland zwischen 2005 und 2014
um 1,1% zurückgegangen ist (vgl. Statista 2015).
Auch wurden in verschiedenen Studien jahreszeitliche Unterschiede festgestellt.
Hierbei gibt es allerdings beachtliche Unterschiede, so haben Perlman und Mills
(Perlman ; Mills 1985) einen Mehrverbrauch von 45% im Winter festgestellt,
wohingegen Becker und Stogsdill (Becker ; Stogsdill 1990) lediglich eine Erhöhung
des Verbrauchs um 13% im Vergleich zum Sommer feststellen konnten. Diese sehr
große Diversität könnte sich durch die 15 Jahre Differenz, die verschiedenen Orte
der Feldversuche, die Unterschiede in den Versuchsgruppen und viele weitere
Faktoren erklären lassen. Hierbei wird deutlich, dass das menschliche Verhalten sehr
individuell ist und von vielen Faktoren beeinflusst wird.
4.4. Mögliche Vorhersagemodelle für die Nutzung von Warmwasser
4.4.1. Nearest neighbour data-mining
(Vgl. Kepplinger ; Huber ; Petrasch 2015)
Kepplinger et al. haben eine Methode entwickelt um den Warmwasserbedarf von
Privathaushalten vorauszusagen. Dazu haben sie zunächst Lastprofile mit dem
Stefan Tobias Kleiner
ETW 14
29
Programm DHWcalc generiert. Diese Software generiert Trinkwassernutzungsprofile
basierend auf einer statistischen Basis (vgl. Jordan ; Vajen 2003, S. 1). Dieses
Vorgehen wurde gewählt, da zu dem aktuellen Forschungsstand keine realen
Nutzungsprofile zur Verfügung standen. Diese Lastprofile dienten als Basis für das
weitere Vorgehen. Es wurde ein „nearest-neighbour“ Algorithmus mit der Software
Matlab geschrieben. Solch ein Algorithmus muss zunächst mit Vergangenheitsdaten
gespeist werden. Hierfür wurden einige Tage mit DHWcalc generiert und in den
Algorithmus gespeist. Anschließend beobachtet der Algorithmus die fortlaufend
weiter gespeisten Daten und errechnet, welchem bereits bekannten Verhalten der
aktuelle Verbrauch am nächsten kommt und nimmt dieses bereits gespeicherte
Nutzungsprofil als Vorhersage für die weitere Nutzung. Bei einem „nearestneighbour“ Algorithmus können, je nach Wahl der Parameter, beliebig viele
Datensätze, welche dem aktuellen am nächsten kommen, zur Vorhersage gemittelt
werden. Kepplinger et al. haben sich allerdings aufgrund der bereits guten
Vorhersage bei nur einem „nearest-neighbour“ dazu entschieden auch nur einen
„nearest-neighbour“ zu betrachten.
4.4.2. ARIMA Modelle
ARIMA Modelle sind Modelle um Zeitreihen zu beschreiben und deren Verlauf in der
Zukunft vorauszusagen. In der Studie aus 2015 von Linas Gelažanskas und Kelum
A. A. Gamage (Vgl. Gelažanskas ; Gamage 2015) werden ARIMA Modelle als die
genauesten Vorhersagemodelle für den Verbrauch von Warmwasser beschrieben.
ARIMA steht dabei für „Auto-Regressive Integrated Moving Average“. Dabei sind drei
Berechnungsteile zu unterscheiden: Ein autoregressiver Teil, welcher die Zeitreihe
als lineares Modell darstellt, ein gleitender Mittelwert bei dem die Schätzfehler der
Vergangenheit berücksichtigt werden und ein integrierender Teil, wobei die Zeitreihe
zuvor differenziert werden muss. Dadurch lassen sich Trends filtern.
Stefan Tobias Kleiner
ETW 14
30
4.4.3. AEG Haustechnik
(Vgl. EHT Haustechnik GmbH / Markenvertrieb AEG o. J.)
In der Industrie ist auch bekannt, dass sich durch eine intelligente Ansteuerung von
Warmwasserboilern Energie und somit für die Endnutzenden auch Geld einsparen
lässt. So hat die Firma AEG Haustechnik bereits einen Boiler bzw. eine Regelung
welche den Boiler regelt entwickelt, mit der Energie eingespart werden soll. Dabei
wird der bereits erwähnte Vorteil, dass ein Boiler nicht immer voll aufgeladen sein
muss herangezogen. Die Regelung beobachtet das Entnahmeverhalten und
speichert dieses ab. Nach der ersten Woche bereits beginnt die intelligente
Regelung. Dabei fällt der Ladegrad nie unter 40% und die Wassertemperatur nie
unter 60°C. Die 60°C sind aus hygienischen Gründen mindestens notwendig, da sich
bei einer geringeren Temperatur beispielsweise Legionellen sehr gut entwickeln und
vermehren können (Vgl. Dr. Schreff ; Dr. Schindler ; Nickel 2016). In Abbildung 4-6
ist die Funktionsweise des Boilers grafisch dargestellt. Die Firma AEG wirbt beim
Einsatz dieses Boilers mit möglichen Energieeinsparungen zwischen 10 % und 15 %.
Abbildung 4-6: Funktionsweise des intelligenten Boilers der Firma AEG (EHT Haustechnik GmbH /
Markenvertrieb AEG o. J.)
Stefan Tobias Kleiner
ETW 14
31
5. Datenaufbereitung
5.1. Verwendete Software und Daten
Die Berechnungen in dieser Arbeit wurden alle mit der Software Python (Van
Rossum;
Drake 1995)
und
den
darin
verwendeten
Paketen
IPython
(Pérez ; Granger 2007), NumPy (Van der Walt ; Colbert ; Varoquaux 2011), SciPy
(Jones u. a. 2001), Matplotlib (Hunter 2007), scikit-learn (Pedregosa u. a. 2011) und
Spectral Python (Boggs 2014b) erstellt. Durch die ausschließliche Nutzung von
Freeware kann diese Arbeit besser nachvollzogen werden. Die Abbildungen in den
folgenden Kapiteln wurden ebenfalls alle mit dieser Software und den aufgeführten
Paketen erzeugt.
Für diese Arbeit werden die Daten von zwei Feldversuchen verwendet. Eine
Aufzeichnung davon wurde in den Jahren 2006 und 2007 in Großbritannien (Energy
Saving Trust 2008b) und eine Aufzeichnung in den Jahren 2014 und 2015 in Kanada
(Thermo Dynamics Ltd. ; George ; Swan 2015) durchgeführt. Von den Daten aus
Kanada wurden 45 der 119 aufgenommenen Datensätze zur Verfügung gestellt. Von
den Daten aus Großbritannien wurden sogar alle verwendbaren 112 Datensätze zur
Verfügung gestellt.
5.2. Berechnung der Energieströme
Da die Energieströme für die Verwendung im DSM interessanter sind, als die
Volumenströme, wird eine zusätzliche Spalte mit den Energiemengen eingefügt. Die
Energiemengen werden für jede Minute bestimmt. Berechnet wird der Wert durch die
Formel:
𝐸 = 𝑐𝑝 ∗ 𝜟𝑻 ∗ 𝑽 ∗ 𝝆
Formel 1: Energieberechnung
Zur Vereinfachung werden die Werte für die spezifische Wärmekapazität c p und die
Dichte ρ als konstant angenommen.
Für die spezifische Wärmekapazität cp in dem Datensatz aus Halifax ergibt sich der
Wert 4,179 kJ/kg/K (Vgl. Moran u. a. 2010, S. 924), für die mittlere Temperatur von
Stefan Tobias Kleiner
ETW 14
32
27,34 °C über alle Datensätze (mittlere Warmwassertemperatur: 45,04 °C; mittlere
Kaltwassertemperatur: 9,64 °C). Daraus ergibt sich auch die Dichte ρ mit dem Wert
von 996,3 kg/m³ (Vgl. Moran u. a. 2010, S. 924).
Die durchschnittliche Zuführ-Wassertemperatur liegt in dem Datensatz aus Lancaster
bei 22,18°C. Die durchschnittliche Warmwassertemperatur liegt bei 39,62°C.
Dadurch ergibt sich eine mittlere Aufheiztemperatur von 30,9°C. Aus diesem Wert
leiten sich die Werte für die mittlere spezifische Wärmekapazität mit c p=4,1795
kJ/kg/K (Vgl. Moran u. a. 2010, S. 924) und die mittlere Dichte mit ρ=994,977kg/m³
(Vgl. Moran u. a. 2010, S. 924) ab.
Da sich die beiden Werte für die Dichte und die spezifische Wärmekapazität durch
den schmalen Temperaturbereich auch nur geringfügig ändern, wird das Ergebnis
durch diese Maßnahmen nicht maßgeblich verfälscht.
5.3. Halifax-Daten
5.3.1. Datenstruktur
Die Daten aus dem Feldversuch in Halifax (Thermo Dynamics Ltd.; George; Swan
2015) sind sehr einheitlich und gleichmäßig aufgebaut. Hier ist auch bei jedem
Datensatz eine Beschriftung vorhanden, wodurch es sehr einfach möglich ist, die
einzelnen Spalten zuzuordnen. Aus diesem Feldversuch wurden freundlicherweise
45 Datensätze für die Auswertungen in dieser Masterarbeit zur Verfügung gestellt.
Die Datensätze umfassen alle genau ein Jahr vom 30.07.2014 00:00 Uhr bis zum
29.07.2015 23:59 Uhr. Die zeitliche Auflösung ist minütlich. Die Temperaturen sind in
Grad Celsius angegeben und die Entnahmemengen sind zu jeder Minute in Litern
aufgezeichnet. Durch die Umstellung auf Winterzeit gibt es eine Stunde doppelt und
durch die Umstellung auf Sommerzeit ist eine Lücke von einer Stunde in dem
Datensatz. Alle Datensätze beinhalten die Spalten: Jahr, Monat, Tag, Stunde,
Minute, Wasserentnahmemenge (Original), Wasserentnahmemenge (korrigiert),
Kaltwasserzuführtemperatur (wöchentliches Minimum) und Warmwassertemperatur.
In Tabelle 5-1 ist ein Datenbeispiel aus einem Datensatz dargestellt. Die Daten in der
Stefan Tobias Kleiner
ETW 14
33
Spalte Wasserentnahmemenge (korrigiert) sind durch Kriterien entstanden, welche in
der ersten Auswertung des Datensatzes durch die Initiatoren festgelegt wurden.
Dabei wurden zum Beispiel sehr geringe Entnahmemengen mit dem Wert Null
korrigiert, da davon ausgegangen wird, dass diese durch Messfehler oder Leckagen
in
den
Leitungen
entstehen
(vgl.
George ; Pearre ; Swan 2015, S. 308).
An
Zeitabschnitten zu denen die Sensoren keinen Wert ausgegeben haben (technische
Störung, Defekt, …) wurde vermutlich die Entnahmemenge eines anderen Tages
eingefügt. Da in dieser Auswertung die originalen Daten herangezogen werden, ist
diese Spalte uninteressant.
Tabelle 5-1: Beispieldatenaufbau von den Daten aus Halifax mit der Spaltenbeschriftung (Thermo
Dynamics Ltd. ; George ; Swan 2015, S. WEL5010_Data)
Year
Month
Day of
Month
Hour
Minute
2014.
7.0000
30.0000
0.0000
0.0000
Water
Draw
Origin
al (L)
0.0000
Water
Draw
Adjusted
(L)
0.0000
Tank Inlet
Temperature
Minimum During
Week (deg C)
8.8750
Tank Outlet
Temperature
Original
(deg C)
46.3120
0000
5.3.2. Korrektur der Warmwassertemperatur
Da die Temperatursensoren in diesem Feldversuch alle außen an den Rohren
angebracht waren, zeichnen diese die Temperatur des Wassers nur indirekt und
somit zeitlich verzögert auf. Bei längeren Entnahmen ist davon auszugehen, dass
der Temperaturwert erst nach einer gewissen Zeit korrekt gemessen wird. Bei
kürzeren Entnahmen muss davon ausgegangen werden, dass die Rohrwandung
außen beim Temperaturfühler nie die tatsächliche Temperatur des Wassers erreicht
und somit eine fehlerhafte Temperatur gemessen wird. Um den Fehler durch die
Zeitverzögerung
Warmwasser
zu
minimieren,
bestimmt.
Es
wird
wird
eine
korrigierte
während
Temperatur
jedes
für
Abflusses
das
die
Warmwassertemperatur beobachtet und die höchste gemessene Temperatur eines
Abflusses wird als Warmwassertemperatur für den gesamten Abfluss angenommen.
Um das Ergebnis noch weiter zu optimieren, wird auch die Temperatur eine Minute
nach dem Abfluss miteinbezogen, da es durch die verzögerte Wärmeleitung durch
das Rohrmaterial hier zu Zeitverzögerungen kommen kann.
Stefan Tobias Kleiner
ETW 14
34
5.3.3. Aufzeichnungspausen
In den Datensätzen finden sich an mehreren Stellen Aufzeichnungspausen. Das sind
Zeiten, zu denen keine Daten vorhanden sind. Diese Lücken könne beispielsweise
auf einen Stromausfall oder einen anderen technischen Defekt zurückgeführt
werden.
Um
eine
Aussage
darüber
treffen
zu
können,
ob
diese
Aufzeichnungspausen relevant sind oder nicht, wurden verschiedene Histogramme
dazu angefertigt. In diesen wird die Dauer der Pausen in Minuten über die Häufigkeit
des Auftretens in allen Datensätzen aufgezeigt. Aus Darstellungsgründen wurde der
Zeitbereich in zwei Abschnitte gegliedert. Der erste Bereich umfasst alle
Unterbrechungen von 5 Minuten bis 120 Minuten Dauer. Dieser ist in Abbildung 5-1
dargestellt.
Abbildung 5-1: Dauer und Häufigkeit von Aufzeichnungspausen bis 120 Minuten Dauer im Datensatz aus
Halifax
Der zweite Bereich umfasst alle Unterbrechungen, welche sich über eine längere
Dauer erstrecken. Dieser ist in Abbildung 5-2 dargestellt. Die längste Unterbrechung
dauert 27601 Minuten und somit mehr als 19 Tage an. Um in der Grafik etwas
erkennen zu können, wurde die senkrechte Achse bei einem Wert von 50 begrenzt
und alle Unterbrechungen in 120 Minutenschritten zusammengefasst. Das heißt,
Stefan Tobias Kleiner
ETW 14
35
jeder Balken im Diagramm beinhaltet die Anzahl an Unterbrechungen in einem
Zeitbereich von 120 Minuten. Würde die senkrechte Achse nicht begrenzt werden, so
wäre die Achse bei etwa 180 für die ersten dargestellten Werte.
Abbildung 5-2: Häufigkeit von Aufzeichnungspausen mit einer Dauer von mehr als 120 Minuten im
Datensatz aus Halifax
Da bei der weiteren Verarbeitung der Daten jeweils ganze Tage weiterverarbeitet
werden sollen, sind ganztägige Unterbrechungen uninteressant, da diese Tage dann
nicht berücksichtigt werden. Somit wurden weitere Histogramme erzeugt, bei denen
die Aufzeichnungsunterbrechungen ohne Tagesüberschreitung dargestellt sind. Das
heißt, hier wird jede Unterbrechung welche sich über den Tageswechsel erstreckt in
zwei Unterbrechungen aufgeteilt. Ganztägige Unterbrechungen werden nicht
dargestellt.
In Abbildung 5-3 sind alle Aufzeichnungsunterbrechungen bis 120 Minuten ohne
Tagesüberschreitung dargestellt. Es lässt sich erkennen, dass die meisten aller
Unterbrechungen weniger als 20 Minuten andauern. Dies sind 2809 von insgesamt
Stefan Tobias Kleiner
ETW 14
36
4412 Unterbrechungen und damit etwa 64 %. Eine weitere Auffälligkeit ist die
Erhöhung bei 60 Minuten. Dies lässt sich vermutlich auf die Zeitverschiebung
zurückführen. Da bei der Umstellung von Sommer- auf Winterzeit bzw. umgekehrt
die Zeit um exakt 60 Minuten verschoben wird. Auffällig ist auch die dritte Anhäufung
von Aufzeichnungsunterbrechungen zwischen 95 Minuten und 115 Minuten Länge.
Hier sind weitere 683 der 4412 Unterbrechungen zu finden. Dies entspricht etwa 15,5
% aller Unterbrechungen. Allerdings konnte hierfür keine plausible Erklärung
gefunden werden.
Abbildung 5-3: Häufigkeit von Aufzeichnungsunterbrechungen bis zu einer Dauer von 120 Minuten ohne
Tagesüberschreitung im Datensatz aus Halifax
Im darauffolgenden Zeitbereich über 120 Minuten, welcher in Abbildung 5-4
dargestellt
ist,
kann
man
erkennen,
dass
hier
nur
noch
vereinzelt
Aufzeichnungsunterbrechungen vorhanden sind. Um eine bessere Übersicht zu
erhalten, wurden Unterbrechungen in 30 Minuten Abschnitten zusammengefasst. In
Summe sind in diesem Zeitbereich nur 612 und damit 13,9 % der insgesamt 4412
Unterbrechungen. Diese Unterbrechungen verteilen sich auf 593 Datentage.
Stefan Tobias Kleiner
ETW 14
37
Um möglichst wenige Daten zu verlieren werden deshalb alle Tage mit einer
Unterbrechung
größer
als
120
Minuten
von
der
späteren
Clusteranalyse
ausgeschlossen. Die Tage mit Unterbrechungen bis 120 Minuten bleiben für die
Auswertung gültig. Die fehlenden Werte werden mit 0 angenommen.
Abbildung 5-4: Häufigkeit von Aufzeichnungsunterbrechungen über 120 Minuten Dauer ohne
Tagesüberschreitung im Datensatz aus Halifax
5.3.4. Korrektur der Winterzeit und Sommerzeit
Da die Uhrumstellungszeiten, bedingt durch die Zeitumstellung, nachts stattfinden
und somit die Wahrscheinlichkeit einer Wasserentnahme zu dieser Zeit sehr gering
ist, wurde entschieden, die doppelte Stunde zu löschen und die fehlende Stunde mit
der Entnahmemenge 0 einzufügen.
Stefan Tobias Kleiner
ETW 14
38
5.3.5. Auswertung der Entnahmemengen
Um sicherzustellen, dass die Entnahmemengen korrekt gemessen wurden, wird
analysiert, ob die gemessenen Werte alle in einem realistischen Bereich liegen.
Dafür wurde die DIN EN ISO 4064-1:2014 (DIN 2014) Norm herangezogen. Nach
dieser gibt es für Hausanschlüsse drei Größen von Wasserzählern. Der größte von
diesen arbeitet bei einem Nenndurchfluss von 10 m³/h und erlaubt einen
Höchstdurchfluss von 20 m³/h. Dies entspricht einem maximalen Durchfluss von
333,3 l/min. Daraus lässt sich schließen, dass Messwerte, welche einen Durchfluss
größer als 333 l/min aufweisen, auf jeden Fall fehlerhaft sein müssen.
Auch für diesen Zweck wurden Histogramme erzeugt. Da es sehr viele Minuten mit
einer Entnahmemenge von wenigen Litern gibt, wird in Abbildung 5-5 nur der Bereich
oberhalb von 5 l/min dargestellt. Hier lässt sich eine starke Abnahme der Häufigkeit
mit der Zunahme der Entnahmemenge erkennen. Dieses Verhalten wurde so auch
erwartet. Der höchste Entnahmewert beträgt 44,142 l/min. Da dies deutlich unter
dem Wert von 330 l/min liegt und das Verhalten, welches im Histogramm in
Abbildung 5-5 dargestellt ist, plausibel ist, kann davon ausgegangen werden, dass
die gemessenen Entnahmewerte korrekt sind und hier keine Anpassung notwendig
ist. Zu beachten ist, dass die senkrechte Achse in Abbildung 5-5 logarithmisch
skaliert ist.
Abbildung 5-5: Entnahmemengen und deren Häufigkeit über 5 l/min im Datensatz aus Halifax
Stefan Tobias Kleiner
ETW 14
39
5.4. Lancaster-Daten
5.4.1. Datenstruktur
Die Daten, welche aus dem Feldversuch in Großbritannien stammen (Energy Saving
Trust 2008b), sind sehr unterschiedlich formatiert. Zudem kommt hinzu, dass hier, in
den zur Verfügung gestellten Dateien, nicht sauber dokumentiert ist, wie die Daten
aufgebaut sind. Gemeinsam ist allen Datensätzen, dass das Datum im Regelfall mit
sekundengenauer Uhrzeit zu jedem Messpunkt abgespeichert ist. Es gibt eine
Kaltwassertemperatur für das Wasser, welches dem Boiler zugeführt wird. Allerdings
ist dieser Temperaturwert in den unterschiedlichen Datensätzen an unterschiedlichen
Stellen/Spalten dokumentiert. Da es keine Dokumentation gibt, die Aufschluss
darüber geben könnte bei welchem Datensatz diese Temperatur in welcher Spalte
steht, muss dies für jeden Datensatz zunächst manuell analysiert werden. In den
Datensätzen ist auch immer mindestens eine Warmwassertemperatur aufgezeichnet.
Diese Temperatur/en ist/sind wie auch der Messwert für das Kaltwasser in jedem
Datensatz an einer anderen Stelle dokumentiert. Dadurch ist es sehr schwierig bzw.
teilweise unmöglich herauszufinden, welcher der Werte für das entnommene Wasser
gilt. In der zugehörigen Dokumentation (Energy Saving Trust 2008a, S. 2) steht dazu:
„Hot water consumption, delivery temperature and incoming cold feed
temperature were measured in all dwellings. In those with a system boiler
an additional measurement was made of the primary pipework
temperature, to enable the times of day at which water was heated to be
identified. In a limited number of properties additional temperature
measurements were made at each hot water outlet, allowing the
destination of each run-off to be determined.“
Leider ist aus dieser Aussage nicht ersichtlich, in welchen Datensätzen welche
Temperaturen gemessen wurden und in welchen Spalten diese jeweils dokumentiert
sind. Es ist lediglich klar, dass bei Systemboilern zusätzlich die Temperatur der
Verrohrung nahe am Boiler gemessen wurde, nicht aber welche von den mindestens
zwei Warmwassertemperaturen diese ist. Die erste Vermutung, dass diese
Temperatur nahe am Boiler immer wärmer sein müsste, als diejenige an der
Stefan Tobias Kleiner
ETW 14
40
Entnahmestelle, erwies sich als falsch. Nachdem einige Datensätze genauer
betrachtet wurden, war erkennbar, dass beide Temperaturen höher als die jeweils
andere sein können. Dadurch lässt sich keine sichere Aussage treffen, welche
Temperatur für die Energiemengenberechnung herangezogen werden kann. Von
den 112 Datensätzen sind lediglich 36 eindeutig, da diese jeweils nur zwei
Temperaturwerte beinhalten: Einen für die Kaltwassertemperatur und einen für die
Warmwassertemperatur.
In
weiteren
52
Datensätzen
sind
zwei
Warmwassertemperaturen enthalten. In 24 Datensätzen sind bis zu acht Messwerte
vorhanden, die Temperaturen für Warmwasser wiedergeben. Hier ist es ohne
explizite Dokumentation unmöglich die einzelnen Messwerte zuzuordnen. Zusätzlich
zu den Temperaturen ist auch die Entnahmemenge dokumentiert. Diese ist mit einer
Auflösung von 100 Millilitern gemessen worden. Wobei es auch hier der Fall ist, dass
dieser Messwert in den unterschiedlichen Datensätzen in unterschiedlichen Spalten
aufgenommen wurde. Dieser lässt sich jedoch vergleichsweise einfach bestimmen,
da die Werte ganzzahlig sind und sich zwischen 0 und meist etwa 30 bewegen. Hier
ist
es
wie
bei
den
Warmwassertemperaturen,
dass
teilweise
mehrere
Durchflussmesser verbaut wurden und dementsprechend mehrere Spalten mit
Entnahmemengen vorliegen. Dies ist jedoch unproblematisch, da die Werte für die
Gesamtentnahmemenge addiert werden können.
In Tabelle 5-2 ist ein Beispieldatenauszug aus einem der Datensätze aus Lancaster
dargestellt.
Tabelle 5-2: Beispieldaten aus einem Datensatz aus Lancaster (Energy Saving Trust 2008b, S. 7978.all)
"28/06/06 12:41:22"
27.4
60.7
43.1
0
"28/06/06 12:46:59"
28.7
60.0
42.1
1
"28/06/06 12:47:04"
28.5
62.2
42.1
2
5.4.2. Daten konvertieren
Um mit den Datensätzen arbeiten zu können und Unregelmäßigkeiten in diesen
festzustellen, wurden die Datensätze von einem „.all“-Format in ein „.csv“-Format
konvertiert. Dazu wurde ein Python-Script zur Stapelverarbeitung genutzt. Es musste
Stefan Tobias Kleiner
ETW 14
41
als Vorbereitung lediglich ein Liste mit den Dateinamen angelegt werden, welche
dann nacheinander abgearbeitet werden. Da das Datum mit Uhrzeit als Text
abgespeichert ist, wurde hier Zeichenweise ausgelesen um die einzelnen
Zahlenwerte separat zu erhalten. Bei den Temperatur- und Entnahmewerten konnten
die Spalten automatisch ausgelesen werden. Diese Stapelverarbeitung in Python gibt
allerdings in 12 Datensätzen aufgrund von Unregelmäßigkeiten eine Warnmeldung
aus. Die Fehler in den Datensätzen wurden einzeln analysiert und behoben. Die
detaillierte Beschreibung ist im Anhang unter Kapitel 11.1 zu finden.
5.4.3. Daten in gleichmäßige Zeitschritte konvertieren
Da die Daten aus Großbritannien (Energy Saving Trust 2008b) mit unterschiedlichen
Zeitschritten
aufgenommen
sind,
muss
dies
angepasst
werden
um
die
verschiedenen Datensätze vergleichbar zu machen. Dafür wurde eine minütliche
Auflösung gewählt, da die Daten aus Halifax (Thermo Dynamics Ltd.; George; Swan
2015) bereits in minütlicher Auflösung vorliegen und minütliche Daten eine
hinreichend große Genauigkeit zur weiteren Analyse aufweisen. Die Zeitschritte in
den Lancaster-Daten betragen im Regelfall zwischen 5 Sekunden und 10 Minuten.
Wird ein Abfluss erkannt, so sinkt die Zeitspanne zwischen den Messpunkten.
Um die Daten in minütlicher Auflösung zu erhalten, müssen die Originaldaten
angepasst werden. In einer Stapelverarbeitung hat ein Python-Script alle Datensätze
neu berechnet. Die Vorgehensweise, welche im Folgenden beschrieben wird, ist
auch in einem Ablaufdiagramm in Abbildung 5-6 dargestellt. Dabei wurde der
Originaldatensatz zeilenweise abgearbeitet. Zunächst wurde angepasst, dass der
Datensatz um 0:00 Uhr startet. Dafür wurden die Messwerte zwischen 0:00 Uhr am
Tag des ersten Datenpunktes und dem Zeitpunkt der ersten aufgezeichneten
Messung auf "nan" gesetzt. Dann wurde jede Zeile geprüft, ob sich die Minute
geändert hat. Sind mehrere Messwerte in einer Minute aufgenommen worden, so
wurden die Entnahmemengen addiert und die Temperaturwerte über die Minute
gemittelt. Voraussetzung für dieses Vorgehen ist allerdings, dass bekannt ist, in
welchen Spalten welche Informationen zu finden sind. Da diese Informationen nicht
Stefan Tobias Kleiner
ETW 14
42
zusammen mit dem Datensatz zur Verfügung gestellt wurden, musste jeder
Datensatz einzeln begutachtet werden um herauszufinden, in welcher Spalte welche
Information steht. Bekannt ist lediglich, dass es jeweils eine Kaltwassertemperatur
gibt.
Allerdings
können
die
Anzahl
der
Warmwassersensoren
sowie
der
Volumenstromsensoren variieren. Auch die Spalte in der die jeweilige Information
steht, kann variieren. Entstanden ist dabei eine .csv-Datei, welche die notwendigen
Informationen für jeden Datensatz enthält. In der ersten Spalte steht die Nummer des
Datensatzes, in den weiteren Spalten stehen die Informationen zu den OriginalDatensatzspalten. Dabei steht „k“ für die Kaltwassertemperatur, „w“ für die
Warmwassertemperatur und „e“ für die Entnahmemenge.
Sind Minuten vorhanden, in denen keine Aufzeichnung stattgefunden hat, so wurde
die Entnahmemenge auf den Wert 0 bestimmt. Die Temperaturwerte wurden mit
denen des darauffolgenden Datenpunktes gleichgesetzt. Dies ist möglich, da bei
einem Abfluss die Zeitschritte verkürzt sind und es somit nicht vorkommt, dass
mehrere Minuten lang kein aufgezeichneter Messpunkt mit einer Entnahme
vorhanden ist. Die Temperaturen sind in diesem Falle zweitrangig, da diese lediglich
für eine Energieflussbestimmung notwendig sind. Zu Zeitpunkten an denen keine
physische Entnahme stattfindet, findet auch keine energetische Entnahme statt
Der letzte Tag der Aufzeichnung wird wie bereits auch der erste Tag bis 23:59 Uhr
mit den Sensorwerten „nan“ aufgefüllt. Dies wird gemacht, um später einfacher
Tagesvektoren aus den Daten generieren zu können.
Stefan Tobias Kleiner
ETW 14
43
Daten begutachten und
Tabelle erstellen mit
Informationen zu den
einzelnen Spalten
Original-Datensatz
in Software
einlesen
Bestimmen der
Uhrzeit des
ersten
Datenpunktes
Fehlende Minuten seit 0:00
mit den Werten „nan“ in eine
neue Matrix einfügen
Zeilenweise Abarbeitung
des Original-Datensatzes
Ändert sich
die Minute?
ja
nein
In der letzten Zeile der Matrix
die Entnahmewerte addieren
und die Temperaturen mitteln
Wie groß ist
der Zeitsprung?
>120 Minuten
<=120 Minuten
Zeilen für die fehlenden
Minuten mit 0 Liter Entnahme
und eine Zeile mit OriginalDaten in die Matrix einfügen
nein
Zeilen für die fehlenden
Minuten mit „nan“ und eine
Zeile mit den Original-Daten in
die Matrix einfügen
War das der
letzte
Datenpunkt?
ja
Fehlende Minuten bis 23:59
mit den Werten „nan“ in die
neue Matrix einfügen
Abbildung 5-6: Ablaufplan der Konvertierung der Daten aus Lancaster in einen Datensatz mit konstanten
Zeitschritten
Stefan Tobias Kleiner
ETW 14
44
5.4.4. Aufzeichnungspausen
Die Daten weisen auch mehrere Aufzeichnungspausen auf. Als Aufzeichnungspause
wird gewertet, wenn in den Original Daten zwischen zwei Messpunkten der zeitliche
Abstand größer als 10 Minuten ist. Der Wert von 10 Minuten, deshalb da die
regulären Zeitabstände zwischen 5 Sekunden und 10 Minuten liegen (vgl. Energy
Saving Trust 2008a, S. 2).
Als Entscheidungsgrundlage bis zu welcher Länge einer Aufzeichnungspause es
vertretbar ist, die fehlenden Daten auf den Wert 0 zu setzen, wurden Histogramme
erstellt mit der Häufigkeit der Aufzeichnungsunterbrechungen über die Dauer der
Unterbrechungen in Minuten.
Aus
Darstellungsgründen
wurde
der
Zeitbereich
der
möglichen
Aufzeichnungspausenlängen in zwei Abschnitte geteilt. Im ersten Histogramm (siehe
Abbildung 5-7) sind die Anzahl der Unterbrechungen von 11 Minuten bis 120 Minuten
dargestellt. Im zweiten Histogramm (siehe Abbildung 5-8) sind die restlichen
Unterbrechungen bis zur längsten Unterbrechung von 72288 Minuten (entspricht
etwa 50 Tagen) dargestellt. Es ist sehr gut zu sehen, dass der Großteil der
Unterbrechungen zwischen 11 Minuten und 20 Minuten liegt. Dies sind 836 und
damit etwa 74% von insgesamt 1133 Aufzeichnungsunterbrechungen. Eine weitere
Häufung an Aufzeichnungsunterbrechungen ist zwischen 55 Minuten und 80
Minuten. Diese Häufung ist auf die Zeitumstellung zurückzuführen. In diesem
Zeitbereich finden sich 100 der 1133 Aufzeichnungspausen wieder. Dies entspricht
etwa 9%.
Stefan Tobias Kleiner
ETW 14
45
Abbildung 5-7: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen bis 120 Minuten in den Daten
aus Lancaster
Im
zweiten
Histogramm
(Abbildung
5-8)
sieht
man
deutlich,
dass
Aufzeichnungsunterbrechungen über 120 Minuten nur noch selten und vereinzelt
vorkommen. Jedoch sind Unterbrechungen bis zu einer Dauer von 50 Tagen
vorhanden. Die Anzahl von Aufzeichnungsunterbrechungen in diesem Zeitbereich
beträgt 183 von 1133 und damit nur einen Anteil von 16%. Um eine bessere
Übersicht zu erhalten, wurden in Abbildung 5-8 die Aufzeichnungspausen von je 120
Minuten-Intervallen zu einem Balken in der Darstellung zusammengefasst.
Stefan Tobias Kleiner
ETW 14
46
Abbildung 5-8: Dauer und Häufigkeit von Aufzeichnungsunterbrechungen ab 120 Minuten in den Daten
aus Lancaster
Da für die spätere Auswertung von Tagenverläufen die Unterbrechungen, welche
ganze Tage betreffen, und diejenigen, die über den Tageswechsel stattfinden, in
dieser Form uninteressant sind, wurde die Berechnung und Erstellung der
Histogramme erneut durchgeführt mit dem Unterschied, dass jetzt nur die
Unterbrechungen berücksichtigt sind, die an je einem Tag stattfinden. Das heißt,
tagesüberschreitende Unterbrechungen sind aufgeteilt auf die jeweiligen Tage.
Fehlen ganze Tage, so werden diese in der Betrachtung nicht berücksichtigt.
Die beiden Histogramme sind wieder in unterschiedliche Zeitbereiche aufgeteilt. Das
erste
Histogramm
(siehe
Abbildung
5-9)
enthält
wieder
die
Anzahl
der
Aufzeichnungspausen von 11 Minuten bis 120 Minuten. Bei diesem ist dasselbe
Phänomen wie auch bei dem Histogramm für die Gesamtaufzeichnungspausen zu
erkennen. Der Großteil der Unterbrechungen ist zwischen 11 Minuten und 20
Minuten lang. Insgesamt dauern 64,5% (843 von 1307) aller Unterbrechungen 20
Minuten oder weniger an. Die zweite Häufung zwischen 55 Minuten und 80 Minuten,
Stefan Tobias Kleiner
ETW 14
47
die auf die Zeitverschiebung zurückzuführen ist, ist ebenfalls wieder vorhanden. Hier
sind es 102 von 1307 Unterbrechungen und damit knapp 8%.
Abbildung 5-9: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen bis 120
Minuten in den Daten aus Lancaster
Im zweiten Histogramm (siehe Abbildung 5-10) welches die Häufigkeit der
Unterbrechungen zwischen 120 Minuten und 1438 Minuten darstellt, ist wieder zu
erkennen, dass solche längeren Unterbrechungen nur vereinzelt vorkommen.
Insgesamt sind es 325 von 1307 Unterbrechungen. Dies entspricht knapp 25%.
Betroffen von diesen Unterbrechungen über zwei Stunden sind lediglich 14 von den
112 Datensätzen. Und davon jeweils nur einzelne Tage. Für die übersichtliche
Darstellung sind in Abbildung 5-10 die Häufigkeiten von Zeitintervallen mit je 30
Minuten zusammengefasst.
Stefan Tobias Kleiner
ETW 14
48
Abbildung 5-10: Dauer und Häufigkeit von tagesspezifischen Aufzeichnungsunterbrechungen größer 120
Minuten in den Daten aus Lancaster bei einer Zusammenfassung von je 30 Minuten zu einem Balken
Um für die Auswertung eine möglichst große Anzahl an Daten zur Verfügung zu
haben, werden Aufzeichnungsunterbrechungen bis 120 Minuten akzeptiert und die
entsprechenden Werte mit dem Wert 0 angepasst. Dadurch müssen lediglich 317
Tage und damit etwa 25% der Tage mit Aufzeichnungsunterbrechungen von der
Analyse ausgeschlossen werden. Da die Unterbrechungen bis 120 Minuten
hauptsächlich auf einzelne, fehlende Messpunkte, beziehungsweise auf die
Zeitumstellung zurückzuführen sind, wird aufgrund dieses Vorgehens keine
wesentliche Beeinträchtigung des Ergebnisses erwartet.
5.4.5. Korrektur der Winterzeit und Sommerzeit
Bei einer genaueren Analyse der Datensätze ist aufgefallen, dass diese zum Großteil
zwischen Winter- bzw. Sommerzeit umstellen. Das heißt, im Herbst ist eine Stunde
doppelt aufgezeichnet und im Frühjahr dafür eine Stunde weniger. Das Problem mit
Stefan Tobias Kleiner
ETW 14
49
der fehlenden Stunde wurde bereits mit der Konvertierung der Daten in minütliche
Werte erledigt. Hier ist bereits überall der Wert „0“ eingetragen. Die zusätzliche
Stunde im Herbst wurde allerdings noch nicht berücksichtigt und muss somit noch
entfernt werden. Dies wurde mittels eines Python-Skripts gelöst. Hierbei konnte
allerdings keine Stapelverarbeitung angewendet werden, da jeder Datensatz
genauer analysiert und individuell entschieden werden musste, ob die Daten weiter
verwendet werden können oder nicht.
Um die Notwendigkeit der Korrektur festzustellen, bzw. um festzustellen, ob die
Datensätze korrekt auf Winter- bzw. Sommerzeit umgestellt wurden, sind von allen
Datensätzen die Zeitsprünge größer +15Minuten und die Zeitsprünge rückwärts
analysiert worden. Dabei musste festgestellt werden, dass bei sechs Datensätzen
(„7990.all“, „7994.all“, „8000.all“, „8025.all“, „8035.all“, „8058.all“) die Winterzeit
vermutlich erst am 18.01.2007 eingestellt wurden. Das korrekte Datum für die
Zeitverschiebung wäre allerdings der 29.10.2006 gewesen. Vier der Datensätze
(„7973.all“, „8048.all“, „8062.all“, „9026.all“) machen nicht erklärbare Zeitsprünge um
bis zu vier Stunden zurück. Bei acht Datensätzen („7971.all“, „7973.all“, „7978.all“,
„7989.all“, „8007.all“, „8036.all“, „8075.all“, „9026.all“) ist jeweils eine der beiden
Zeitumstellungen nicht zu erkennen. Da bei diesen erwähnten 16 Datensätzen die
korrekte Zeit nicht eindeutig ist, werden diese von der weiteren Auswertung
ausgeschlossen um dadurch mögliche Verzerrungen des Ergebnisses zu vermeiden.
5.4.6. Anpassung an die einheitliche Datenstruktur
Da die Daten nun komplett aufbereitet sind, jedoch noch eine andere Struktur
aufweisen als die bereits vollständig vorbereiteten Daten von dem Feldversuch in
Halifax, müssen diese in einem weiteren Schritt an diese Datenstruktur angeglichen
werden, um mit demselben Algorithmus für beide Datensätze fortfahren zu können.
Der Inhalt der einzelnen Spalten der Halifax-Datensätze nach deren Aufbereitung ist
in der folgenden Auflistung der Reihe nach dargestellt: Jahr, Monat, Tag, Stunde,
Minute,
Wasserverbrauch
Stefan Tobias Kleiner
(Original),
ETW 14
Wasserverbrauch
(korrigiert),
50
Kaltwassertemperatur, Warmwassertemperatur, Warmwassertemperatur (korrigiert),
Energiemenge.
Ein Problem entsteht bei einigen Datensätzen mit dem Warmwasser. Hier konnte
keine Information gefunden werden, die belegt, welcher der jeweiligen Sensoren die
Wassertemperatur des aus dem Boiler ausfließenden Wassers misst. Somit kann bei
Datensätzen
mit
mehreren
Warmwassersensoren
keine
eindeutige
Warmwassertemperatur angegeben werden, die für den gemessenen Ausfluss gilt.
Bei 29 der 112 Datensätzen ist die Warmwassertemperatur eindeutig, da hier nur ein
Messwert dafür vorhanden ist. Leider sind bereits vier dieser Datensätze
ausgeschlossen worden, da bei diesen die Zeit nicht korrekt oder nicht
nachvollziehbar ist (siehe Kapitel 5.4.5). Bei den restlichen Datensätzen werden die
verschiedenen
verglichen.
Warmwassertemperaturen
Die
jeweils
höchste
zum
selben
Temperatur
Zeitpunkt
wird
als
miteinander
geltende
Warmwassertemperatur für diesen Zeitpunkt für den Abfluss angenommen. Dies
führt vermutlich zu einem Ergebnis, welches der Realität am Nächsten liegt. Es ist
anzunehmen, dass der Temperaturfühler mit dem höchsten Wert auch derjenige ist,
der am nächsten zum Boiler installiert ist bzw. derjenige, der den aktuellen Abfluss
aufnimmt. Anders als bei den Daten aus Halifax haben diese Temperaturwerte eine
sehr schnelle Reaktionszeit, sodass zwischen der ersten Minute der Entnahme und
der zweiten die Temperatur am Fühler im Regelfall um weniger als zwei Kelvin steigt,
teilweise sogar gleich bleibt oder abnimmt. Aus diesem Grund wird hier nicht wie im
Datensatz aus Halifax eine Anpassung der Temperatur durchgeführt. Hier wird mit
der Warmwassertemperatur gerechnet, so wie diese gemessen wurde.
Die Spalten Wasserverbrauch (korrigiert) und Warmwassertemperatur (korrigiert)
sind für die Daten aus Lancaster nicht notwendig. Trotzdem werden diese befüllt um
ein einheitliches Fortfahren gewährleisten zu können. Dafür werden die Werte aus
den Spalten Wasserverbrauch (Original) und Warmwassertemperatur kopiert. Diese
Informationen sind also doppelt vorhanden.
Die Information zu der Energiemenge wird wie bereits in Kapitel 5.2 dargestellt
berechnet und eingefügt.
Stefan Tobias Kleiner
ETW 14
51
5.4.7. Anpassung von extremen Entnahmewerten
Wie bereits in Kapitel 5.3.5 beschrieben, gibt es drei Größen von Wasserzählern für
den Hausanschluss (DIN 2014). Durch Betrachtung des größten von diesen drei mit
einem
Höchstdurchfluss
von
333,3
l/min,
ergibt
sich,
dass
folglich
alle
darüberliegenden Werte technisch nicht möglich sind und entsprechende Messungen
damit fehlerhaft.
In den Datensätzen aus dem Feldversuch in Lancaster (Energy Saving Trust 2008b)
gibt es insgesamt 754 Messwerte die pro Minute über 300 bis zu 6458 Liter an
Abfluss gemessen haben. Auf die Gesamtzahl der aufgezeichneten Minuten
(46.949.760) entspricht dies einem Anteil von 0,0016 % an fehlerhaften
Datenpunkten. Die Verteilung dieser fehlerhaften Datenpunkte ist in dem
Histogramm in Abbildung 5-11 zu sehen. Hier ist zu erkennen, dass die meisten
dieser Fehler bis 3000 l/min auftreten. Darüber liegen lediglich noch vereinzelt
Fehler. Nach genauerer Betrachtung der Datensätze wurde festgestellt, dass einige
dieser Fehler direkt nach einer Aufzeichnungspause auftreten. Dies hat vermutlich
den Hintergrund, dass der Sensor weiter misst, jedoch der Wert über eine längere
Zeit nicht abgefragt und somit nicht zurückgesetzt wird. Erst bei Wiederaufnahme der
Aufzeichnung wird dann der Sensor ausgelesen und zurückgesetzt. Um eine
übersichtliche Darstellung zu gewährleisten, sind in Abbildung 5-11 die Häufigkeiten
über Entnahmemengen in einem Intervall von je 30 l/min zusammengefasst.
Die meisten der Fehler (679 von 754) treten allerdings im Datensatz „8089.all“
innerhalb von elf Tagen zwischen dem 02.06.2006 und dem 12.06.2006 auf. Aus
diesem Grund werden diese elf Tage von der Auswertung ausgeschlossen, da davon
ausgegangen werden muss, dass in diesem Datensatz innerhalb dieses Zeitraums
noch weitere Fehler vorhanden sind. Ebenso wurden die restlichen Datentage,
welche mehrfach ungültige Werte enthalten von der Analyse ausgeschlossen.
Stefan Tobias Kleiner
ETW 14
52
Abbildung 5-11: Histogramm mit den Häufigkeiten von ungültigen (>=330 l/min) Entnahmemengen in den
Daten aus Lancaster
Um mit möglichst wenigen fehlerhaften Messwerten weiterzurechnen, werden alle
restlichen Messwerte, welche über dem Wert von 330 l/min liegen, auf 0 gesetzt.
5.5. Zusammenführen der Datensätze
Nachdem die unterschiedlichen Datensätze nun auf einen einheitlichen Stand
gebracht wurden, können diese zusammengeführt werden. Dazu wird ein PythonSkript entwickelt, welches aus den vielen einzelnen Datensätzen vier Dateien
generiert. Die erste davon soll die Verbrauchswerte als Tagesvektoren beinhalten.
Das heißt, jeder aufgezeichnete Tag wird in eine Zeile geschrieben. So erhält man
Vektoren mit einer Länge von 1440 Elementen, da 24 Stunden 1440 Minuten
beinhalten. Dasselbe wird mit den Energieverbräuchen angestellt. Dies ist dann die
zweite Datei. Die dritte und vierte Datei beinhalten zusätzliche Informationen zu den
einzelnen Zeilen der anderen beiden Dateien. Diese Informationen umfassen die
Stefan Tobias Kleiner
ETW 14
53
Herkunft
der
Daten
(„LAN“
für
Lancaster
und
„HAL“
für
Halifax),
die
Datensatznummer, das Datum mit Jahr, Monat und Tag, den Wochentag, die
Personenzahl, welche in dem zugehörigen Haushalt lebt und die Informationen, ob
der volumetrische Verbrauch und der Energieverbrauch für die Auswertung gültig
sind. Da die Informationen über die Herkunft der Daten und der Wochentag als Text
und nicht als Zahl dargestellt wird, werden diese Informationen von den restlichen
Informationen in einer separaten Datei abgespeichert. So ist es einfacher mit der
Datenstruktur zu rechnen, da klar ist, ob die entsprechenden Informationen von dem
Python-Skript als Text oder als Zahl behandelt werden müssen.
Wie bereits bei den einzelnen Datensätzen beschrieben, werden Datentage
ausgeschlossen, welche eine Unterbrechung von mehr als 120 Minuten am Stück
aufweisen. Durch dieses Vorgehen werden zwar Fehler zugelassen, jedoch liegen
diese, wie bereits in den entsprechenden Kapiteln dargestellt, in einem vertretbaren
Rahmen.
Des Weiteren werden für den jeweiligen Auswertungsfall (volumetrischer Verbrauch
und energetischer Verbrauch), diese Dateien separat erzeugt mit den jeweils
verwendbaren Datentagen. Die restlichen, von dem jeweiligen Anwendungsfall
ausgeschlossenen Tage, werden dabei gelöscht. Dadurch erhält man einen
Datensatz, welcher volumetrisch auswertbar ist und einen, der energetisch
auswertbar ist. Diese Datensätze können dann direkt für den Clustering-Algorithmus
verwendet werden.
Um verschiedene zeitliche Auflösungen schneller auswerten zu können, werden die
Daten noch zusätzlich in verschiedenen Zeitschritten erzeugt. Dabei werden der
volumetrische Verbrauch und der energetische Verbrauch für die jeweilige Auflösung
addiert. Zusätzlich zu den Dateien mit der minütlichen Auflösung werden Dateien
erstellt, welche eine 5minütliche, eine 10minütliche, eine 15minütliche, eine
20minütliche, eine 30minütliche, eine 40minütliche, eine stündliche und eine
zweistündliche Auflösung beinhalten.
Stefan Tobias Kleiner
ETW 14
54
6. Korrelationsanalyse
Bevor mit dem eigentlichen Clustering begonnen wird, werden noch vermutete
Korrelationen, wie der Zusammenhang zwischen Tagesbedarf und Haushaltsgröße,
sowie der Zusammenhang zwischen Haushaltsgröße und Maximalbedarf, in den
Daten überprüft.
Es wird überprüft, ob zwischen dem Tagesbedarf und der Haushaltsgröße ein
Zusammenhang
besteht.
In
Abbildung
6-1
und
Abbildung
6-2
wird
der
Zusammenhang zwischen der Haushaltsgröße in Personen auf der horizontalenAchse mit dem Tagesbedarf in Litern bzw. in kWh auf der vertikalen Achse
dargestellt. Hier lässt sich auch entgegen den Erwartungen erkennen, dass größere
Haushalte nicht zwingend mehr Warmwasser benötigen als kleinere. Bei SingleHaushalten ist es allerdings in diesen Daten der Fall, dass diese deutlich weniger
Warmwasser verbrauchen als größere Haushalte.
Abbildung 6-1: Volumetrischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße in
dem zusammengesetzten Datensatz
Stefan Tobias Kleiner
ETW 14
55
Abbildung 6-2: Energetischer Zusammenhang zwischen dem Tagesbedarf und der Haushaltsgröße
Eine ähnliche Beziehung besteht auch zwischen der Haushaltsgröße und der
maximalen Leistung bzw. dem maximalen Volumenstrom, welcher dem System
entnommen wird. In Abbildung 6-3 ist der Zusammenhang zwischen dem maximalen
Volumenstrom und der Haushaltsgröße grafisch dargestellt.
Abbildung 6-3: Beziehung zwischen maximalem Entnahmevolumenstrom und Haushaltsgröße
Stefan Tobias Kleiner
ETW 14
56
Hier erkennt man auch, dass es bei Haushalten zwischen zwei und sechs Personen
kaum Unterschiede gibt. Die maximalen Entnahmewerte scheinen in diesen
Haushaltsgrößen unabhängig von der Haushaltsgröße zu sein. Dies zeigt sich nicht
nur im Volumenstrom, sondern auch in der entnommenen Leistung. Diese ist in
Abbildung 6-4 dargestellt.
Abbildung 6-4: Beziehung zwischen maximaler entnommener Leistung und der Haushaltsgröße
Betrachtet man auch den Zusammenhang zwischen dem maximalen Volumenstrom
und dem Tagesverbrauch in Abbildung 6-5, lässt sich erkennen, dass hier ein breites
Streufeld vorhanden ist. Es gibt Datentage an denen nur wenige starke Abflüsse
vorhanden sind, aber auch Tage an denen über längere Entnahmen mit einem
geringeren Volumenstrom Wasser entnommen wird. Es ist zwar die Tendenz zu
erkennen, dass Tage mit einem hohen Tagesbedarf auch Minuten mit einem hohen
Volumenstrom aufweisen, jedoch kann nicht von dem einen auf das andere
geschlossen werden.
Die Korrelation zwischen energetischem Tagesbedarf und maximaler Leistung,
welche in Abbildung 6-6 zu sehen ist, ist sehr ähnlich zu der zwischen Tagesbedarf
und maximalem Volumenstrom.
Stefan Tobias Kleiner
ETW 14
57
Abbildung 6-5: Korrelation zwischen dem Tagesbedarf und dem maximalen Volumenstrom
Abbildung 6-6: Korrelation zwischen dem Tagesbedarf und dem maximalen Energiestrom
Stefan Tobias Kleiner
ETW 14
58
7. Volumetrisches Clustering
7.1. Funktionsweise K-Means Clustering
Der Ablauf und die allgemeine Funktionsweise von K-Means Clustering ist in dem
Flussdiagramm in Abbildung 7-1 dargestellt.
Bei einem Clusterverfahren nach dem K-Means Prinzip, wird zunächst die Anzahl der
Cluster festgelegt. Der Algorithmus wählt zufällig so viele Datenpunkte wie
gewünschte Cluster aus. Diese werden als Zentroiden betrachtet. Anschließend
berechnet der Algorithmus für jeden Datenpunkt den zugehörigen, am nächsten
gelegenen, Zentroiden aus und weist dem Datenpunkt den entsprechenden Cluster
zu. Als Optimierungswert wird beispielsweise die Summe aller Fehler zum Quadrat
(das euklidische Distanzmaß) herangezogen. Nachdem alle Punkte einem Cluster
zugeordnet wurden, werden die Zentroiden neu berechnet, da sich der Schwerpunkt
der in dem Cluster enthaltenen Daten durch das Vorgehen verändert hat. Das
Verfahren ist ein iterativer Prozess, bei dem mehrere Durchgänge berechnet werden
müssen,
bis
ein
zuvor
festgelegtes
Abbruchkriterium
erfüllt
ist.
Diese
Abbruchkriterien sind zum einen die Genauigkeit, also ändern sich in einer iterativen
Schleife die Zentroiden nur noch geringfügig (wie gering muss festgelegt werden)
oder ist die maximale Anzahl an iterativen Schleifen, welche ebenso zuvor festgelegt
werden muss, erreicht, so stoppt der Algorithmus und gibt als Ergebnis die
Zentroiden und die Zuordnung aller Daten zu den Zentroiden aus. Das Ergebnis ist
unter Umständen stark davon abhängig, welche Punkte als Startpunkte für die
Zentroiden ausgewählt wurden. Aus diesem Grund wird im Allgemeinen empfohlen
den gesamten Prozess mehrmals mit unterschiedlichen zufällig gewählten
Startpunkten auszuführen. Wie oft dies geschieht kann je nach verwendetem
Algorithmus gewählt werden. Das Ergebnis mit dem geringsten euklidischen
Distanzwert wird als Endergebnis ausgegeben. (Vgl. Witten ; Frank 2005, S. 136–
142)
Stefan Tobias Kleiner
ETW 14
59
Anzahl
Anzahl Cluster
Startversuche
Zufällige Daten als
Zentroiden festlegen
nein
Zentroiden bestimmen
Abstand jedes
Ist ein Abbruch-
Elements zu Zentroiden
kriterium erfüllt?
ja
bestimmen
ja
Elemente dem
Ändert sich die
Zentroiden mit dem
Zuordnung?
geringsten Abstand
zuordnen
nein
Zentroiden und
Zuordnung der
einzelnen Daten
Ist die Anzahl an
nein
ja
Startversuchen
Ergebnisse mit der
geringsten
erreicht?
Standardabweichung
Abbildung 7-1: Ablaufdiagramm des K-Means Clustering
Stefan Tobias Kleiner
ETW 14
60
Für die Berechnungen in dieser Arbeit wird für das Clustering mit euklidischem
Distanzmaß der Python-Algorithmus „KMeans“ aus dem Python-Package scikit-learn
(Pedregosa u. a. 2011) verwendet. Hier werden als Abbruchkriterien eine maximale
Iterationsanzahl von 1000 und eine Abbruchtoleranz von 0,0001 bei 50 Versuchen
mit unterschiedlichen Startzentroiden verwendet.
Die
beschriebene
Funktion
„KMeans“
hat
folgende
Parameter
(scikit-learn
developers 2014):
-
n_clusters:
optional; Voreinstellung: 8
Anzahl der zu erzeugenden Cluster
-
max_iter:
Voreinstellung: 300
Anzahl der Iterationsschleifen pro Durchlauf
-
n_init
Voreinstellung: 10
Anzahl der Startversuche mit neuen Startzentroiden
-
init:
Voreinstellung: `k-means`
Methode zur Auswahl der Startzentroiden: intelligente
Auswahl (k-means++); Zufällige Auswahl (random)
oder mit vorgegebenen Zentroiden
-
precompute_distances:
Sollen die Abstäde vorberechnet werden? (‚auto‘; True
oder False)
-
tol:
Voreinstellung: 1e-4
Abbruchtoleranz
-
n_jobs:
Anzahl der zur Berechnung verwendeten Kerne der
CPU
-
random_state:
optional; Voreinstellung: numpy.RandomState
Der
genutzte
Generator
zur
Auswahl
der
Startzentroiden
-
verbose:
Voreinstellung: 0
Ausführlichkeit von Meldungen
Stefan Tobias Kleiner
ETW 14
61
-
copy_x:
Voreinstellung: True
Numerische Genauigkeit (True oder False)
Eine andere Methode für die Bestimmung der Distanz zwischen zwei Vektoren ist der
sogenannte Manhattan-Abstand. Dieser Abstand summiert nicht die Quadrate aller
Fehler, sondern summiert den Betrag aller Fehler. Dadurch werden einzelne starke
Abweichungen nicht stärker bestraft, als geringe Abweichungen. Diese Art der
Abstandsberechnung ist auch unter dem Begriff Taxi-Metrik bekannt.
Dieses Clustering wird in dieser Arbeit ebenfalls mit Python berechnet. Für das
eigentliche Clustering wird hier der kmeans-Algorithmus aus dem Package
Spectralpython (Boggs 2014b) verwendet. Dieser Algorithmus hat gegenüber dem
aus dem Package Scikit-learn (Pedregosa u. a. 2011) den Vorteil, dass hier die
Berechnungsart für den Abstand zwischen euklidisch und Manhattan-Abstand
gewählt werden kann. Nachteilig ist allerdings, dass dieser Algorithmus nicht
mehrfach mit unterschiedlichen Startzentroiden durchlaufen wird. Dadurch kann es
sein, dass bei mehrmaliger Anwendung des Algorithmus auf dieselben Daten
unterschiedliche Ergebnisse erreicht werden. Ein weiterer Nachteil ist, dass zwar
angegeben werden muss, wieviele Cluster man erzeugen möchte. Es kann aber
trotzdem durchaus vorkommen, dass das gelieferte Ergebnis weniger Cluster enthält.
Dadurch ist es aufwendiger, das Ergebnis zu verarbeiten, da man zunächst die
genaue Anzahl an letztendlich erzeugten Clustern zunächst nicht kennt. Allerdings
gibt der Algorithmus so viele Clusterzentroiden aus, wie ursprünglich angegeben
wurden. Dabei haben einige dieser Cluster zwar Zentroiden aber unter Umständen
keine zugeordneten Daten.
Die beschriebene Funktion „kmeans“ hat folgende Parameter (Boggs 2014a):
-
image:
Die Matrix auf die das Clustering angewendet wird
-
nclusters:
Voreinstellung: 10
Anzahl der Cluster. Die Anzahl im Ergebnis kann
geringer sein
-
max_iterations:
Stefan Tobias Kleiner
Voreinstellung: 20
ETW 14
62
Anzahl der Iterationsschleifen pro Durchlauf
-
start_clusters:
Voreinstellung: None
Array mit Startzentroiden
-
compare:
Voreinstellung: None
Optionale Vergleichsfunktion
-
distance:
Voreinstellung: L2
Verwendete Abstandsfunktion. Euklidisch (L2) oder
Manhattan-Abstand (L1)
-
frames:
Voreinstellung: None
Liste in der die zwischenzeitlichen Clusterergebnisse
gespeichert werden
7.2. Gütekriterien
Da der gesamte Clustering Prozess beurteilt werden muss, müssen Gütekriterien
festgelegt werden, nach denen bestimmt werden kann, ob die Cluster für das weitere
Vorgehen geeignet sind oder nicht.
Für die Bestimmung der Güte von Clustern gibt es mehrere Möglichkeiten (Vgl.
Runkler 2015, S. 126–127). Im Folgenden wird auf den Davies-Bouldin-Index, den
Dunn-Index und den Silhouette-Index näher eingegangen.
Der erste Index ist der Davies-Bouldin-Index („Davies–Bouldin index“ 2016). Hierbei
ist n die Anzahl an erzeugten Cluster.  entspricht der Standardabweichung des
Clusters. Die Funktion d() bestimmt den Abstand zwischen zwei Elementen. Und c
steht für den Clusterzentroiden. Somit wird beim Davies-Bouldin-Index die
durchschnittliche Überschneidung der Cluster bestimmt. Ergibt die Berechnung den
Wert 1, so berühren sich die Cluster, sind aber getrennt. Ist der Wert größer als 1, so
überschneiden sich die Cluster. Ist der Wert kleiner als 1, so sind die Cluster
eindeutig voneinander getrennt.
Stefan Tobias Kleiner
ETW 14
63
𝒏
𝒊 + 𝒋
𝟏
𝑫𝑩 = ∑ 𝐦𝐚𝐱(
)
𝒋≠𝒊 𝒅(𝒄𝒊 , 𝒄𝒋 )
𝒏
Formel 2: Davies-Bouldin-Index
(„Davies–Bouldin index“ 2016)
𝒊=𝟏
Eine weitere Möglichkeit ist der Dunn-Index („Dunn index“ 2016). Hierbei ist ebenfalls
n die Anzahl an generierten Cluster. Dabei ist d(i, j) der Abstand zwischen den
Clusterzentroiden von i und j. Der Wert d‘(k) entspricht dem größten Abstand von
zwei Elementen in dem Cluster k. Somit setzt der Dunn-Index, wie auch der DaviesBouldin-Index, den Abstand in dem Cluster mit dem Abstand zwischen Clustern ins
Verhältnis, wobei hier nicht gemittelt wird sondern die Extrema betrachtet werden.
Somit werden einzelne Ausreißer sehr stark bestraft. Hier ist das Clustering umso
besser, je kleiner der Dunn-Index ist.
𝒅=
𝒎𝒊𝒏𝟏≤𝒊<𝒋≤𝒏 𝒅(𝒊, 𝒋)
𝒎𝒂𝒙𝟏≤𝒌≤𝒏 𝒅′(𝒌)
Formel 3: Dunn-Index
(„Dunn index“ 2016)
Oder aber man zieht den Silhouette-Index heran („Silhouette (clustering)“ 2016),
wobei a(i) der durchschnittliche Abstand des Elements i, als Bestandteil des Clusters
a, zu allen anderen Elementen im Cluster a ist. Vereinfacht gesagt, ist a(i) der
Abstand des Elements i zu seinem Clusterzentroiden. Und b(i) entspricht dem
geringsten durchschnittlichen Abstand des Elements i zu allen Elementen eines
Clusters b. Der Cluster b ist dabei dem Element i nächstgelegenen Cluster, welchem
i nicht zugeordnet ist. Oder vereinfacht: Der geringste Abstand von dem Element i zu
einem anderen Clusterzentroiden. Der Wert muss für jedes Element einzeln
berechnet werden. Um eine Aussage über den gesamten Cluster oder über alle
Cluster treffen zu können, muss der Wert dann noch entsprechend gemittelt werden.
Der Wert für s liegt zwischen -1 (Element liegt am Schwerpunkt des benachbarten
Clusters) und +1 (Element liegt im Schwerpunkt des eigenen Clusters). 0 bedeutet,
das Element liegt exakt zwischen den beiden Clusterzentroiden. Das heißt, je größer
der Wert ist, desto besser ist das Clustering.
𝒔(𝒊) =
𝒃(𝒊) − 𝒂(𝒊)
𝒎𝒂𝒙⁡{𝒂(𝒊), 𝒃(𝒊)}
Formel 4: Silhouette-Index
(„Silhouette (clustering)“ 2016)
Es gibt noch weitere Möglichkeiten, wie z.B. den Partitionskoeffizienten, die
Klassifikationsentropie, den Calinski-Harabasz-Index oder den Gap-Index, nach
Stefan Tobias Kleiner
ETW 14
64
denen die Güte von Clustern bestimmt werden kann (vgl. Runkler 2015, S. 126–127),
diese werden hier allerdings nicht weiter ausgeführt.
Für die Cluster, welche in dieser Arbeit berechnet werden, werden der DaviesBouldin-Index und der Silhouette-Index herangezogen um eine Aussage über die
Güte und die optimale Anzahl an Clustern zu treffen. Beide Indizes berücksichtigen
auch die Eindeutigkeit der Zuordnung. Somit muss diese nicht separat überprüft
werden.
7.3. Datenfilterung auf Basis von Clusteringergebnissen (ein Beispiel)
Wird das K-Means Clustering Verfahren mit euklidischem Distanzmaß als
Optimierungsmaß auf den Datensatz mit den Abflussraten in minütlicher Auflösung
angewandt, so erhält man die beiden Gütekurven, welche in Abbildung 7-2 und
Abbildung 7-3 dargestellt sind. Hier sieht man einen stark schwankenden Verlauf der
Kurven. Dieses Verhalten war so zuvor nicht erwartet. Durch diese Kurve kann bei
den
verwendeten
Parametern
(maximale
Iterationsschleifen:
1000
und
Abbruchtoleranz: 0,0001) nicht bestimmt werden, welche Anzahl an Clustern die
geeignetste ist.
Abbildung 7-2: Gütekurve nach dem Davies-Bouldin-Index des K-Means Clustering bei minütlicher
Auflösung
Stefan Tobias Kleiner
ETW 14
65
Abbildung 7-3: Gütekurve nach dem Silhouette-Index des K-Means Clustering bei minütlicher Auflösung
Betrachtet man den Verlauf der Standardabweichung in Abbildung 7-4 über die
Anzahl der Cluster, so sieht man, dass diese stetig abnimmt. Dadurch, dass die
Standardabweichung nahezu konstant abfällt und die Kurve des mittleren
Zentroidenabstandes, welche in Abbildung 7-5 dargestellt ist, ein sprunghaftes
Verhalten aufweist, lässt sich auch der Verlauf in den Gütekurven erklären.
Schaut man sich die Verteilung der Datensätze auf die Cluster an, so sieht man,
dass ein einzelner Cluster 30773 der 47740 Datensätze beinhaltet. Weitere 11
Cluster beinhalten 16927 der Datensätze. Somit bleiben für die restlichen 18 Cluster
lediglich 40 Datensätze übrig. Dies sind vermutlich Ausreißer, welche dieses
unerwartete Verhalten der Gütekurve auslösen.
Stefan Tobias Kleiner
ETW 14
66
Abbildung 7-4: Standardabweichung über die Anzahl der Cluster bei euklidischem Clustering und
minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung
Abbildung 7-5: Abstand der Clusterzentroiden nach Anzahl der Cluster bei euklidischem Clustering und
minütlicher Auflösung bei dem ersten Versuch zur weiteren Datenfilterung
Um genauer zu analysieren, welche Ursachen die Ausreißercluster verursachen,
werden die 30 Zentroiden in Abbildung 7-6 und Abbildung 7-7 grafisch dargestellt.
Stefan Tobias Kleiner
ETW 14
67
(a)
(g)
(m)
(b)
(h)
(n)
(c)
(i)
(o)
(d)
(j)
(p)
(e)
(k)
(q)
(l)
(r)
(f)
Abbildung 7-6: Clusterzentroiden 0 (a) bis 17 (r) bei 30 Clustern. Die horizontale Achse beschreibt die
Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min.
Stefan Tobias Kleiner
ETW 14
68
(a)
(e)
(i)
(b)
(f)
(j)
(c)
(g)
(k)
(d)
(h)
(l)
Abbildung 7-7: Clusterzentroiden 18 (a) bis 29 (l) bei 30 Clustern. Die horizontale Achse beschreibt die
Tageszeit mit Uhrzeit. Die vertikale Achse beschreibt die Entnahmemenge in l/min.
Plottet man alle Clusterzentroiden mit mehr als zehn beinhalteten Datentagen in
einem Graphen übereinander, so erhält man Abbildung 7-8.
Stefan Tobias Kleiner
ETW 14
69
Abbildung 7-8: Tagesverläufe der 12 wichtigsten Clusterzentroiden bei dem ersten Clusteringversuch um
die Daten weiter zu filtern. Die horizontale Achse beschreibt die Tageszeit mit Uhrzeit
Hier erkennt man Tagesverläufe, welche entweder eher vormittags mehr Verbrauch
haben und andere, welche eher nachmittags mehr Verbrauch haben. Einige haben in
den Morgenstunden zwischen 5 Uhr und 10 Uhr einen sehr hohen Verbrauch, dafür
den Rest des Tages nur wenig. Dies sind vermutlich Haushalte in denen morgens
geduscht wird. Andere haben abends zwischen 17 Uhr und 20 Uhr einen hohen
Verbrauch und dafür morgens nur einen geringen Verbrauch. Wiederum andere
haben über die Mittagszeit einen höheren Verbrauch als den Rest des Tages.
Bereits in Abbildung 7-6 und Abbildung 7-7 ist optisch zu erkennen, dass einige der
übrigen Clusterzentroiden einen sehr unerwarteten Verlauf aufzeigen. Deshalb
werden in Tabelle 7-1 noch einige Informationen zu den Zentroiden dargestellt, um
beurteilen zu können, ob die Daten eventuell weiter gefiltert werden sollten, bevor mit
dem Clustern fortgefahren wird.
Stefan Tobias Kleiner
ETW 14
70
Tabelle 7-1: Clusterinformationen bei 30 Clustern bei dem ersten Clustering zur weiteren Datenfilterung
Nummer
Anzahl an
maximaler Verbrauch in
Datensätzen
Liter/Minute
0
1194
4,32
244,48
1
2198
1,70
291,94
2
30773
0,14
86,24
3
5
108,82
1249,98
4
1
161,10
3455,3
5
1246
4,04
226,06
6
2
120,00
1815,05
7
1240
5,12
241,08
8
1
108,20
2377,00
9
1210
4,96
228,16
10
2
70,75
1805,85
11
1232
3,86
250,70
12
8
33,75
919,61
13
1
120,70
3637,30
14
1
125,00
2853,70
15
1
118,00
3173,10
16
1
116,60
2366,80
17
2
138,90
1821,50
18
2040
1,45
380,31
19
1
208,80
1949,70
20
1
123,80
12471,90
21
1643
3,40
206,36
22
9
34,38
1579,72
23
1585
2,66
248,46
24
1
116,30
2165,40
25
1776
1,55
265,84
26
1
117,80
3748,90
27
1
96,60
1076,30
28
1
97,80
1362,20
29
1563
3,06
262,42
∑=30
∑=47740
Stefan Tobias Kleiner
ETW 14
Tagesverbrauch in Liter
71
Auffällig in Tabelle 7-1 ist, dass bei den Clustern mit mehr als 10 Datensätzen der
höchste Verbrauch bei 5,12 l/min liegt. Da dies der Clusterzentroid ist, kann dies bei
den einzelnen Datensätzen um einiges höher liegen. Allerdings ist bei den Clustern
mit weniger als 10 beinhalteten Daten der Maximalwert der Entnahme zwischen
33,75 l/min und 208,80 l/min. Dies ist um mehr als den Faktor 6 höher als bei den
restlichen Zentroiden. Da hier davon ausgegangen werden muss, dass dies durch
Messfehler entstanden ist, wird analysiert, wie viele Datensatztage einen Messwert
von 50 oder mehr Litern pro Minute aufweisen.
Das Ergebnis dieser Untersuchung ist, dass 236 Tagesdatensätze zwei- oder
mehrmals täglich einen Abfluss von 50 oder mehr Litern pro Minute aufweisen. Dies
sind auf die Gesamtdatenmenge gesehen 0,5% der Daten. Auffällig ist, dass diese
Daten alle aus dem Gesamtdatensatz von Lancaster stammen. Zudem sind davon
nur 16 der 96 aus Lancaster stammenden Originaldatensätze betroffen. Betrachtet
man die Anzahl der bewohnenden Personen, der Haushalte der Datenherkunft, so
sieht man, dass entgegen der Erwartung, kaum große Haushalte betroffen sind.
Einer der Tage stammt aus einem Haushalt mit sieben bewohnenden Personen,
weitere elf der Tagesdatensätze stammt von drei Haushalten mit je fünf
bewohnenden Personen. Die restlichen 224 Daten stammen aus Haushalten mit vier
und weniger Personen. Aus diesem Grund wird entschieden, die 236 Tagesdaten
ebenfalls von der Auswertung auszuschließen, da angenommen wird, dass hier
Messfehler vorliegen müssen.
7.4. Euklidisches Clustering bei minütlicher Auflösung
Wird dieselbe Clusteranalyse nochmals auf den um 236 Tage reduzierten Datensatz
angewandt, so ergeben sich die folgenden, in Abbildung 7-9, dargestellten
Gütekurven.
Stefan Tobias Kleiner
ETW 14
72
Abbildung 7-9: Gütekurven bei dem weiter gefilterten Datensatz und minütlicher Auflösung
Bei diesen Kurven liegt der Verlauf schon deutlich näher an dem erwarteten
Ergebnis.
Allerdings ist hier weder bei dem Verlauf des Davies-Bouldin-Indexes ein deutlicher
Tiefpunkt der Kurve zu erkennen, noch ist bei dem Verlauf des Silhouette-Indexes
ein eindeutiger Hochpunkt zu erkennen. Beide Kurven verlaufen stetig in die
Richtung des besseren Wertes. Ausnahme hierbei ist der erste Wert des DaviesBouldin-Indexes bei zwei Clustern. Von zwei auf drei Cluster verändert sich die Güte
nach Davies-Bouldin sehr stark in Positive Index-Richtung. Das Bedeutet, die Güte
nimmt sehr stark ab. Dieses Verhalten ist nach dem Silhouette-Index nicht
vorhanden.
Dass hier kein Hoch- bzw. Tiefunkt in den Kurven erkenntlich ist, bedeutet entweder
dass es hier kein Optimum gibt oder das Optimum bei einer höheren Anzahl an
Clustern
als
30
liegt.
Betrachtet
man
dazu
noch
den
Verlauf
der
Standardabweichung, so erhält man die Abbildung 7-10. Dieser Verlauf ist wie bei
dem vollen Datensatz bereits nahezu linear. Jedoch ist der niedrigste Wert mit einer
Standardabweichung von 28,02 immer noch sehr hoch.
Stefan Tobias Kleiner
ETW 14
73
Abbildung 7-10: Standardabweichung der Cluster aller Daten bei dem weiter gefilterten Datensatz und
minütlicher Auflösung
Die Verteilung der Daten auf die Cluster ist nun ebenfalls um einiges gleichmäßiger,
als mit dem vollen Datensatz. Es gibt nur noch einen Cluster mit lediglich einem
Datentag, einen Cluster mit 26.895 Datentagen und die restlichen 28 Cluster setzen
sich aus jeweils 463 bis 1261 Datentagen zusammen.
Betrachtet man den Verlauf der Clusterzentroiden in Abbildung 7-11 im Vergleich, so
sieht man Kurven mit je einem Peak am Tag. Ausnahme dabei ist der Cluster mit nur
einem Datentag (gelbe Kurve). Um die einzelnen Kurven deutlicher zu erkennen
wurde dasselbe Bild ohne den Clusterzentroiden mit nur einem Datensatz in
Abbildung 7-12 erstellt. Hier erkennt man wieder, dass die Hauptverbräuche
anscheinend in den Morgenstunden zwischen 6 Uhr und 10 Uhr, über die Mittagszeit
zwischen 10 Uhr und 13 Uhr und wieder am Abend zwischen 16:30 Uhr und 22:30
Uhr liegen.
Stefan Tobias Kleiner
ETW 14
74
Abbildung 7-11: Überlagerung der Tagesverläufe der 30 Clusterzentroiden bei einem euklidischen
Clustering des reduzierten Datensatzes mit minütlicher Auflösung
Abbildung 7-12: Überlagerung der Tagesverläufe von 29 der 30 Clusterzentroiden bei euklidischem
Clustering und einer minütlichen Auflösung
Stefan Tobias Kleiner
ETW 14
75
Betrachtet
man
nun
die
Cluster
genauer,
so
erkennt
man
die
große
Standardabweichung auch optisch. In Abbildung 7-13 ist einer der Cluster
beispielhaft dargestellt. In blau dargestellt ist die Standardabweichung der Kurve. In
rot dargestellt ist der Clusterzentroid, also der Schwerpunkt der einzelnen
Tagesverläufe. Im Anhang unter Kapitel 11.2 sind alle 30 dieser Grafiken zu finden.
Abbildung 7-13: Beispiel eines Clusterzentroides (rot) mit der Standardabweichung in blau bei
euklidischem Clustering von minütlichen Daten bei 30 erzeugten Clustern
7.5. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung
bis 30 Cluster
In den Untersuchungen aus Kapitel 7.1 und Kapitel 7.4 ist klar zu erkennen, dass ein
Clustering bei einer zeitlichen Auflösung von einer Minute keine Aussichten auf
Erfolg verspricht. Aus diesem Grund wurde entschieden, die zeitliche Auflösung zu
verringern. Um eine optimale zeitliche Auflösung herauszufinden, wurden Cluster für
Stefan Tobias Kleiner
ETW 14
76
verschiedene Zeitschritte erstellt. Und zwar für 5-, 10-, 15-, 20-, 30-, 40-, 60- und
120-minütliche Zeitabstände.
In Abbildung 7-14 sind die Silhouette-Indizes für einige verschiedenen zeitlichen
Auflösungen bei den verschiedenen Clusteranzahlen dargestellt. Der größte
Silhouette-Index mit einem Wert von 0,1479 wird dabei bei einer Auflösung von 60
Minuten und einer Anzahl von 25 Clustern erreicht.
Abbildung 7-14: Silhouette-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher
Clusteranzahl zwischen 2 und 30 Clustern
Dieser Wert ist immer noch sehr gering und lässt auf keine starke Clusterbildung
schließen. Der Davies-Bouldin-Index beträgt an dieser Stelle 1,6678 und ist damit an
Stelle 34 der besten erstellten Cluster nach dem Davis-Bouldin-Index.
Um die Qualität der Clusterbildung zu validieren wird die Abbildung 7-15
herangezogen. Hier sind die Verläufe der Davies-Bouldin-Indizes bei den
unterschiedlichen zeitlichen Auflösungen und den unterschiedlichen Clusteranzahlen
Stefan Tobias Kleiner
ETW 14
77
dargestellt. Der geringste Wert wird mit einem Wert von 1,2952 bei einer Auflösung
von 120 Minuten und einer Clusteranzahl von 2 Clustern erreicht.
Abbildung 7-15: Davies-Bouldin-Indizes bei unterschiedlicher zeitlicher Auflösung und unterschiedlicher
Clusteranzahl zwischen 2 und 30 Clustern
Betrachtet man die Verteilung der einzelnen Daten auf die beiden Cluster so sieht
man, dass etwa 23,5% der Daten in einem Cluster liegen und die anderen 76,5% in
dem anderen Cluster. Der Silhouette-Index beträgt hier 0,03215 und ist damit ein
sehr geringer Silhouette-Index, der somit auf eine niedrige Clusterqualität hinweist.
In Abbildung 7-16 und Abbildung 7-17 sieht man die beiden Clusterzentroiden (rote
Kurven) mit allen ihren Standardabweichungen (blaue Balken). Dabei kann man
deutlich erkennen, dass die Clusterzentroiden weit entfernt von den einzelnen
beinhalteten
Datensätzen
liegen.
Dies
spiegelt
auch
die
hohe
Gesamtstandardabweichung mit einem Wert von 84,72 wieder.
Stefan Tobias Kleiner
ETW 14
78
Abbildung 7-16: Erster von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt
mit der Standardabweichung
Abbildung 7-17: Zweiter von zwei euklidischen Clustern bei einer Auflösung von 120 Minuten dargestellt
mit der Standardabweichung
7.6. Euklidisches Clustering bei unterschiedlicher zeitlicher Auflösung
bis 500 Cluster
Da die Clusteranzahl von 30 Clustern zu keinem erfolgreichen Ergebnis geführt hat,
wird die Anzahl der möglichen Cluster erhöht. Diese Untersuchung wird nur noch für
die zeitlichen Auflösungen von 60 und 120 Minuten durchgeführt. Die kleineren
Zeitschritte haben in den vorhergehenden Versuchen keinerlei Aussichten auf Erfolg
versprochen, so dass diese nicht weiter berücksichtigt werden. Um die Rechenzeit
Stefan Tobias Kleiner
ETW 14
79
zu verkürzen, wurde das Clustering nicht für jede mögliche Anzahl an Clustern
berechnet, sondern in Schritten von 25. Das heißt, Cluster wurden je für die
Clusteranzahlen von 25, 50, 75, … gebildet.
Betrachtet man nun wieder die Gütekurven, so erkennt man, dass sowohl die Güte
nach dem Silhouette-Index in Abbildung 7-18 einen Hochpunkt, zumindest bei einer
zeitlichen Auflösung von 120 Minuten, aufweist, als auch die Gütekurve nach DaviesBouldin in Abbildung 7-19 bei einer Auflösung von 120 Minuten einen Tiefpunkt. Der
Hochpunkt beim Silhouette-Index liegt bei etwa 300 Clustern. Der Tiefpunkt bei dem
Davies-Bouldin-Index liegt bei etwa 125 Clustern. Da der Verlauf des DaviesBouldin-Indexes jedoch nur eine geringe Schwankung aufweist, der Verlauf des
Silhouette-Indexes jedoch einen deutlichen Hochpunkt erkennen lässt, wird der
Schwerpunkt der Untersuchung auf den Bereich des Höhepunktes um 300 Cluster
gelegt.
Abbildung 7-18: Silhouette-Indizes bis 500 Cluster mit euklidischem Distanzmaß
Stefan Tobias Kleiner
ETW 14
80
Abbildung 7-19: Davies-Bouldin-Indizes bis zu 500 Clustern bei euklidischem Distanzmaß
Da die Bereiche um den Hochpunkt des Verlaufs der Silhouette-Indizes am
interessantesten erscheinen, werden für diese Bereiche weitere Cluster mit einem
Abstand von je 5 Clustern berechnet. Wird nun der Verlauf der Güte nach dem
Silhouette-Index in diesem Bereich betrachtet, erkennt man in Abbildung 7-20, dass
das Optimum mit 0,227 bei etwa 315 Clustern liegt. Allerdings ist die Schwankung
zwischen 290 und 325 Clustern sehr gering, so dass kein eindeutiger Wert bestimmt
werden kann. Dies ist vermutlich stark von den verwendeten Daten abhängig. Nach
dem Güteindex gemäß Davies-Bouldin kann in diesem Bereich, wie in Abbildung
7-21 zu erkennen kein Optimum bestimmt werden. Die Schwankung des DaviesBouldin-Indexes ist sehr gering und lässt keine Aussage darüber zu, ob das eine
Clustering besser ist als das andere.
Stefan Tobias Kleiner
ETW 14
81
Abbildung 7-20: Silhouette-Indizes im Bereich zwischen 250 und 325 Cluster
Abbildung 7-21: Davies-Bouldin-Indizes bei 250 bis 325 Clustern bei euklidischem Distanzmaß
Stefan Tobias Kleiner
ETW 14
82
Betrachtet man die Verteilung der Daten auf die einzelnen Cluster so kann man in
Abbildung 7-22 sehen, dass die meisten Cluster nur wenige Datentage und nur
einige wenige Cluster mehrere hundert Datentage beinhalten.
Abbildung 7-22: Verteilung der Datentage auf die Cluster
41 der 315 Cluster beinhalten nur zehn oder weniger Datentage. 20 davon
beinhalten sogar je nur einen Datentag. In Abbildung 7-23 ist die Anzahl der
Datentage nach Clustergröße sortiert und aufsummiert dargestellt. Hier erkennt man
das Prinzip nach Pareto, welches besagt, dass mit 20 % Aufwand etwa 80 % des
Ergebnisses abgedeckt werden kann („Paretoprinzip“ 2016). In diesem Fall
entsprechen 20 % der Cluster (63 Cluster) etwa 69 % der Datentage (32810 von
47504 Datentagen). Der kleinste dieser 63 größten Cluster beinhaltet 177 Datentage.
Stefan Tobias Kleiner
ETW 14
83
Abbildung 7-23: Aufsummierte Datentaganzahl über die Anzahl der Cluster. In Rot dargestellt der
Schnittpunkt bei 20 % der Cluster
Betrachtet man anschließend die Anzahl der Cluster pro Haushalt in Abbildung 7-24,
so sieht man, dass jeder Haushalt zwischen 10 und 160 Clustern zugeordnet ist. Im
Durchschnitt werden jedem Haushalt etwa 74 der 315 Cluster zugeordnet. Betrachtet
man die Verteilung der Haushalte auf die Cluster in Abbildung 7-25, so erkennt man,
dass jedem Cluster zwischen einem und 124 der 141 Haushalte zugeordnet ist. Im
Durchschnitt beinhaltet jeder Cluster Daten aus etwa 33 verschiedenen Haushalten.
Stefan Tobias Kleiner
ETW 14
84
Abbildung 7-24: Anzahl der einem Haushalt zugeordneten Cluster bei euklidischem Clustering von 315
Clustern bei 120 minütlicher Auflösung
Abbildung 7-25: Anzahl der einem Cluster zugeordneten Haushalte bei euklidischem Clustering von 315
Clustern bei 120 minütlicher Auflösung
Stefan Tobias Kleiner
ETW 14
85
Die Zentroiden der größten 63 (20 %) aller hier gebildeten Cluster werden als
Standardlastprofile bewertet. Durch diese können knapp 70 % aller bewerteten
Datentage abgedeckt werden. In den folgenden Abbildungen (Abbildung 7-26,
Abbildung 7-27, Abbildung 7-28, Abbildung 7-29) sind die Graphen der Zentroiden
mit den Standardabweichungen an jedem Datenpunkt dargestellt.
Abbildung 7-26: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem
Abstand (Teil 1)
Stefan Tobias Kleiner
ETW 14
86
Abbildung 7-27: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem
Abstand (Teil 2)
Stefan Tobias Kleiner
ETW 14
87
Abbildung 7-28: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem
Abstand (Teil 3)
Stefan Tobias Kleiner
ETW 14
88
Abbildung 7-29: Standardlastprofile bei nicht genormten Daten nach dem Clustering nach euklidischem
Abstand (Teil 4)
Betrachtet man die Verteilung der Haushalte für diese 63 Cluster auf die einzelnen
Cluster, so sieht man in Abbildung 7-30, dass die meisten Cluster zwischen 60 und
110 Haushalte beinhalten. Interessanter erscheint allerdings Abbildung 7-31. Hier ist
ersichtlich, dass die Haushalte nicht nur einigen wenigen Clustern zugeordnet sind,
sondern mit einer durchschnittlichen Vertretung in 34 Clustern recht stark auf die
Cluster verteilt sind. Es gibt allerdings kein Haushalt, welcher allen Clustern
zugeordnet werden kann. Der höchste Wert liegt bei 56 von 63 zugeordneten
Clustern.
Stefan Tobias Kleiner
ETW 14
89
Abbildung 7-30: Verteilung der Haushalte auf die Cluster, welche als Standardlastprofile generiert wurden
Abbildung 7-31: Verteilung der Cluster, welche als Standardlastprofile generiert wurden, auf die
Haushalte
Stefan Tobias Kleiner
ETW 14
90
7.7. Clustering mit Manhattan Abstand
Da das Clustering mit kleinstem euklidischem Abstand nur einen mittelmäßig
vielversprechenden Erfolg aufzeigt, wird das Clustering mit einem anderen
Abstandsmaß durchgeführt. In diesem Kapitel wird der Manhattan-Abstand als
zweite Berechnungsvariante verwendet. Da die bisherigen Untersuchungen eher auf
dem Silhouette-Index beruhen, wird hier zunächst auch nur der Silhouette-Index
berechnet um Rechenzeit einzusparen.
Wird das Clustering auf den gesamten Datensatz bei unterschiedlichen zeitlichen
Auflösungen und unterschiedlichen Clusteranzahlen bis 30 Cluster durchgeführt, so
ergibt sich für die Güte nach dem Silhouette-Index die Abbildung 7-32.
Bei dem Verlauf der Silhouette-Indizes in Abbildung 7-32 sieht man eine Zunahme
des Wertes bei der Zunahme der Clusteranzahl. Auch erkennt man hier, dass bei
einer gröberen zeitlichen Auflösung der Wert größer ist. Allerdings liegt hier der
höchste Wert bei lediglich 0,0701 und ist damit deutlich geringer als bei dem
Clustering nach dem geringsten euklidischen Abstand.
Abbildung 7-32: Silhouette-Indizes bei unterschiedlichen zeitlichen Auflösungen und unterschiedlichen
Clusteranzahlen bis 30 Cluster
Stefan Tobias Kleiner
ETW 14
91
Der größte Silhouette-Index liegt bei einer zeitlichen Auflösung von 120 Minuten und
einer Anzahl von 29 Clustern. Die durchschnittliche Abweichung, welche mit
Manhattan-Abstand berechnet wurde und nicht euklidisch, beträgt an dieser Stelle
123,8067 und ist damit relativ hoch.
Da hier bei bis zu 30 Clustern ebenfalls keine vielversprechenden Ergebnisse
erscheinen, wird die Anzahl der möglichen Cluster erhöht. Dafür wird für bis zu 500
Cluster die Güte berechnet. Allerdings nicht für jeden Fall, sondern in Schritten von
25 Clustern. Die Grafik ist in Abbildung 7-33 dargestellt. Der höchste Punkt, also das
beste Clusteringergebnis mit 0,0851, liegt bei 325 Clustern. Das zweitbeste Ergebnis
liegt bei 225 Clustern. Dies ist eine große Streuung und lässt darauf schließen, dass
das Ergebnis stark von den Startclustern abhängig ist.
Abbildung 7-33: Silhouette-Indizes von Verbrauchsprofilen mit Manhattan-Abstand als Optimierung bei
bis zu 500 Clustern
Da das tatsächlich beste Clustering in dem Bereich zwischen 225 und 325 Clustern
erwartet wird, wird für diesen Bereich das Clustering mit einem feineren Raster
erneut durchgeführt. Hierbei werden Cluster im Abstand von je 5 Clustern berechnet.
Stefan Tobias Kleiner
ETW 14
92
In Abbildung 7-34 ist der Verlauf des Silhouette-Indexes bei den zeitlichen
Auflösungen von 60 und 120 Minuten in dem Bereich zwischen 225 und 325 Clustern
zu sehen. Nach diesem Schaubild liegt der beste Wert mit etwa 0,080 bei einer
zeitlichen Auflösung von 120 Minuten und einer Anzahl von 260 Clustern. Der Wert
von 0,08 ist sehr nahe an 0, so dass hier nicht von einem zuverlässigen
Clusteringergebnis gesprochen werden kann.
Abbildung 7-34: Silhouette-Indizes bei 225 bis 325 Clustern und Optimierung nach Manhattan-Abstand
Betrachtet man in Abbildung 7-35 die Verteilung der Datentage auf die Cluster, so
sieht man, dass die meisten der Cluster nur wenige Datentage beinhalten. Nur einige
wenige beinhalten mehrere 100 Datentage. 52 der 260 Cluster beinhalten zehn oder
weniger Datentage. Davon beinhalten drei Cluster sogar nur einen Tag. Es gibt auch
hier ein Ausreißercluster, welches über 15000 Datentage beinhaltet. Dieses
Ausreißercluster wird in dem Schaubild nicht dargestellt, um die Übersichtlichkeit zu
bewahren. Die Verteilung der Daten auf die Cluster wird in dem Pareto-Diagramm in
Abbildung 7-36 nochmals dargestellt. Hier ist erkenntlich, dass 20 % der Cluster (52
Stefan Tobias Kleiner
ETW 14
93
Cluster) etwa 84,7% (40247 von 47504) der Daten wiedergeben. Dies ist ein
besseres Ergebnis als bei dem euklidischen Clustering.
Abbildung 7-35: Verteilung der Daten auf die Cluster
Abbildung 7-36: Summe der Datentage über die Anzahl der Cluster bei 260 Clustern und Optimierung
nach Manhattan-Abstand. In Rot dargestellt der Schnittpunkt bei 20 % der Cluster
Stefan Tobias Kleiner
ETW 14
94
Schaut man sich die Beziehung zwischen den Clustern und den Haushalten an, so
sieht man in Abbildung 7-37 im linken Schaubild, dass die Daten jedes Haushaltes
auf 3 bis 157 Cluster verteilt sind. Im Durchschnitt wird jeder Haushalt etwa 54
Clustern zugeordnet. Betrachtet man das rechte Schaubild, so sieht man, dass die
meisten Cluster Daten aus nur einigen wenigen Haushalten beinhalten. Im
Durchschnitt Datentage aus etwa 24 der 144 Haushalte. Einige Cluster enthalten
jedoch Daten aus bis zu 134 Haushalten.
Abbildung 7-37: Korrelation zwischen Cluster und Haushalten bei einem Clustering nach ManhattanAbstand und 260 erzeugten Clustern
7.8. Vergleich zwischen euklidischem Clustering und Clustering mit
Manhattan-Abstand
Ein Vergleich der beiden Clusteringmethoden, das K-Means-Clustering mit
euklidischem Abstand und das K-Means-Clustering mit Manhattan-Abstand, ist nicht
so einfach möglich. Es ist zwar für beide Varianten der Güteindex nach Silhouette
berechnet worden, allerdings kann damit nur schwer verglichen werden. Der
Silhouette-Index beim euklidischen Abstand wurde euklidisch berechnet. Der
Silhouette-Index beim Manhattan-Abstand wurde mit Manhattan-Abstand berechnet.
Dadurch ergeben sich unterschiedliche Berechnungsmethoden.
Würde für beide Clusteringvarianten dasselbe Distanzmaß zur Berechnung des
Silhouette-Indexes verwendet werden, so führt das voraussichtlich dazu, dass das
Clustering mit demselben Distanzmaß wie die Indexberechnung als das bessere
Stefan Tobias Kleiner
ETW 14
95
betrachtet wird. Diese Vermutung wird dadurch begründet, dass wenn nach einem
Distanzmaß optimiert wird und der Fehler nach einem anderen Distanzmaß
berechnet wird, der Fehler voraussichtlich stärker bestraft wird, als wenn der Fehler
nach dem selben Distanzmaß wie das Clustering berechnet wird.
Vergleicht man jedoch trotzdem die Werte des jeweils besten Silhouette-Indexes so
sieht man, dass bei dem euklidischen Clustering der beste Wert mit 0,227 bei 315
Clustern und einer zeitlichen Auflösung von 120 Minuten liegt. Der beste Wert des
Clusterings mit dem Manhattan-Abstand als Optimierungswert hat allerdings nur
einen Bestwert von 0,080 bei 260 Clustern und einer zeitlichen Auflösung von 120
Minuten. Damit wäre das euklidische Clustering theoretisch um den Faktor drei
besser. Dies kann jedoch wie bereits beschrieben nicht direkt verglichen werden. Da
die Parameter mit 260 und 315 Clustern bei jeweils 120minütlicher Auflösung nahe
beieinander liegen, kann aber gesagt werden, dass das optimale Clustering
vermutlich in diesem Bereich liegt. Unabhängig von dem Optimierungswert.
Stefan Tobias Kleiner
ETW 14
96
7.9. Euklidisches Clustering bei genormten Verbrauchsprofilen
Da die vorhergehenden Versuche Cluster zu erzeugen weniger erfolgreich verlaufen
sind, wird nun versucht mit genormten Verbrauchsprofilen Cluster zu erzeugen.
Dafür werden die Datensätze in prozentuale Verbräuche umgerechnet. Das heißt,
jeder Tag erhält in Summe den Wert 100. Es gibt allerdings auch Tage ohne
Verbrauch, wenn die bewohnenden Personen beispielsweise im Urlaub sind. Diese
Tage werden weiterhin mit Null Verbrauch berechnet.
In Abbildung 7-38 sieht man die Verläufe der Silhouette-Indizes bei verschiedenen
zeitlichen Auflösungen und unterschiedlichen Clusteranzahlen bis zu 30 Cluster. Den
höchsten Wert erreicht der Index mit 0,2122 bei 17 Clustern und einer zeitlichen
Auflösung von 120 Minuten. Damit ist der höchste Silhouette-Index bei einem
Clustering von genormten Clusterdaten kaum höher als bei einem Clustering von
nicht genormten Clusterdaten. Der Davies-Bouldin-Index liegt an dieser Stelle bei
einem Wert von 1,4341. Beide Indizes weisen keine Werte für ein eindeutiges
Clusteringergebnis auf. Somit ist ein Clustering nach diesen Faktoren nicht geeignet.
Abbildung 7-38: Silhouette-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen
Clusteranzahlen bis 30 Cluster
Stefan Tobias Kleiner
ETW 14
97
In Abbildung 7-39 ist der analoge Verlauf der Davies-Bouldin-Indizes zu sehen. Hier
liegt der geringste Wert mit 0,8612 bei einer zeitlichen Auflösung von 120 Minuten
und einer Anzahl von 2 Clustern. Dies ist von den Faktoren des Optimums ein sehr
ähnliches Ergebnis zu dem Clustering ohne genormte Verbrauchsprofile. Allerdings
ist der Güteindex nach Davies-Bouldin um etwa den Faktor 1,5 besser. Der
Güteindex nach Silhouette ist mit 0,0794 ein sehr geringer Wert. Das heißt, dieses
Clustering ist kein eindeutiges aussagefähiges Clusteringergebnis.
Abbildung 7-39: Davies-Bouldin-Index Verläufe bei unterschiedlichen Zeitschritten und unterschiedlichen
Clusteranzahlen bis 30 Cluster
Betrachtet man die Verläufe der Clusterzentroiden mit ihren zugeordneten Daten,
dann lässt sich auch hier optisch erkennen, dass das Clustering nicht optimal ist. Im
ersten Cluster (Vgl. Abbildung 7-40 linke Grafik) entspricht der Verlauf der Zentroiden
auch etwa dem Verlauf der Daten, allerdings ist dies im zweiten Cluster (Vgl.
Abbildung 7-40 rechte Grafik) nicht mehr der Fall. Der zweite Cluster enthält mit
37820 Datentagen auch etwa 80% aller Daten.
Stefan Tobias Kleiner
ETW 14
98
Abbildung 7-40: Beide Clusterzentroiden der genormten Verbrauchsprofile bei einer zeitlichen Auflösung
von 120 Minuten und zwei Clustern
Bildet man Cluster mit mehr als 30 Zentroiden, so ergibt sich für den Verlauf des
Silhouette-Indexes die Abbildung 7-41. Hier erkennt man, dass die Werte höher sind
als bei den nicht genormten Verbrauchsprofilen. Das Maximum liegt hier mit 0,316
bei einer Auflösung von 120 Minuten und 225 Clustern. Allerdings ist hier ein Bereich
bis 325 Cluster in dem der Wert recht hoch ist.
Abbildung 7-41: Silhouette-Indizes bei genormten Profilen bei bis zu 500 Cluster
Stefan Tobias Kleiner
ETW 14
99
Aus diesem Grund werden für den Bereich zwischen 220 und 325 Clustern die
Cluster in einer feineren Abstufung berechnet. In Abbildung 7-42 sieht man den
Verlauf des Silhouette-Indexes in diesem Bereich bei einer Abstufung von 5 Clustern.
Auch hier ist zu erkennen, dass der Wert über den dargestellten Bereich nur kaum
schwankt und ein Optimum nicht eindeutig bestimmt werden kann. Der höchste Wert
liegt mit 0,3187 bei 265 Clustern. Bei 300 Clustern ist ein Wert von 0,3186 berechnet
worden.
Abbildung 7-42: Silhouette-Indizes bei genormten Verbrauchsprofilen im Bereich zwischen 220 und 325
Clustern
Betrachtet man hier bei einer Clusteranzahl von 265 Clustern die Verteilung der
Haushalte auf die Cluster, so erkennt man, dass bei dem genormten Profil die
Haushalte tendenziell auf mehr Cluster verteilt werden, als bei dem Clustering von
nicht genormten Profilen. In Abbildung 7-43 ist die Verteilung der Haushalte auf die
Cluster dargestellt. Hier ist deutlich, dass es keine Haushalte gibt, die nur auf wenige
Cluster verteilt sind. Die Daten der einzelnen Haushalte sind jeweils auf 40 bis 195
Cluster der erzeugten 265 Cluster verteilt. In Abbildung 7-44 wird auch ersichtlich,
Stefan Tobias Kleiner
ETW 14
100
dass die Cluster ebenso jeweils Daten aus einigen Haushalten beinhalten. Jeder
Cluster enthält Daten aus 15 bis 95 der 141 Haushalte.
Abbildung 7-43: Verteilung der Haushalte auf die erzeugten 265 Cluster bei einem Clustering von
genormten Verbrauchsprofilen
Abbildung 7-44: Verteilung der 265 erzeugten Cluster auf die 141 Haushalte bei einem Clustering von
genormten Verbrauchsprofilen
Schaut man sich zudem das Pareto-Diagramm in Abbildung 7-45 an, so spiegelt sich
die gleichmäßige Verteilung der Daten auf die verschiedenen Cluster hier auch
Stefan Tobias Kleiner
ETW 14
101
wieder. Es ist im Gegensatz zu der Kurve, bei dem Clustering von nicht genormten
Verbrauchsprofilen ein sehr flacher Verlauf der Summe der Datentage. So können
hier bei 20 % der Cluster (53 Cluster) lediglich 34,4 % der Daten wiedergespiegelt
werden. Durch diese gleichmäßige Verteilung der Daten auf die Cluster können hier
keine Standardlastprofile erzeugt werden, welche einen Großteil der Daten
wiedergeben.
Abbildung 7-45: Pareto-Diagramm zu dem Clustering von genormten Verbrauchsprofilen bei 265
erzeugten Clustern. In Rot dargestellt der Schnittpunkt bei 20% der Cluster
Stefan Tobias Kleiner
ETW 14
102
7.10. Clustering
mit
Manhattan
Abstand
von
genormten
Ausgangsdaten
Wird dasselbe Clustering auf den genormten Datensatz angewendet, so erhält man
die Silhouette-Index-Verläufe, welche in Abbildung 7-46 dargestellt sind. Hier liegt
der höchste Index mit 0,1775 bei einer zeitlichen Auflösung von 120 Minuten und
einer Anzahl von 28 Clustern. Auch die Standardabweichung ist mit 55,6366 deutlich
geringer, als bei dem Clustering mit den realen Verbrauchsprofilen. Allerdings stellen
auch diese Werte kein zuverlässiges Clustering-Ergebnis dar.
Abbildung 7-46: Silhouette-Indizes bei genormten Verbrauchsprofilen, verschiedenen zeitlichen
Auflösungen und verschiedenen Clusteranzahlen bis 30 Cluster
Betrachtet man den Verlauf des Silhouette-Indexes über den Bereich bis 500 Cluster
bei einer Genauigkeit von 120 Minuten in Abbildung 7-47, so sieht man die höchsten
Punkte um den Bereich mit 300 Clustern.
Stefan Tobias Kleiner
ETW 14
103
Abbildung 7-47: Silhouette-Indizes bei genormten Verbrauchsprofilen bis 500 Cluster im ManhattanAbstand
Für eine genauere Betrachtung wird für diesen Bereich die Berechnung mit einem
geringeren Abstand zwischen den Punkten erneut durchgeführt. Das Resultat ist in
Abbildung 7-48 zu sehen. Hier sieht man auch wieder die breite Streuung. Es ist ein
recht starkes auf und ab. Dies kann an der Vorgehensweise des Algorithmus liegen,
welcher die Berechnungen nicht für verschiedenen Startzentroiden wiederholt. Der
beste Wert liegt hier mit 0,292 bei 342 Clustern.
Stefan Tobias Kleiner
ETW 14
104
Abbildung 7-48: Silhouette-Index zwischen 275 und 375 Cluster bei genormten Verbrauchsprofilen und
Optimierung nach Manhattan-Abstand
7.11. Vergleich zwischen dem Clustering von genormten und nicht
genormten Verbrauchsprofilen
Zwischen den beiden Clusteringverfahren mit euklidischem Distanzmaß und
Manhattan-Abstand ist ein Vergleich nicht ohne weiteres möglich. Es kann jedoch
gesagt werden, dass das Clustering von genormten Profilen gegenüber nicht
genormten Profilen deutlich besser ist. Bei dem genormten Clustering ergibt sich ein
Silhouette-Index von 0,319. Bei dem nicht genormten Clustering ist der beste Wert
mit 0,227 deutlich geringer.
Stefan Tobias Kleiner
ETW 14
105
8. Diskussion der Ergebnisse
Beim Vergleich zwischen Haushaltsgröße und Warmwasserverbrauch wurde ein
Skalierungsfaktor erwartet, welcher in etwa der Haushaltsgröße entspricht. Es konnte
zwar die Tendenz festgestellt werden, dass größere Haushalte grundsätzlich mehr
Warmwasser benötigen als kleinere, allerdings ist diese Tendenz nicht so stark
ausgeprägt wie erwartet.
Für das Clustering wurde entschieden eine zeitliche Auflösung bis zu einer
Ungenauigkeit von maximal 120 Minuten zu untersuchen. Durch eine noch gröbere
Unterteilung können zwar bessere Clusteringergebnisse erwartet werden, allerdings
ist für den angestrebten Verwendungszweck in einem DSM eine gewisse zeitliche
Genauigkeit notwendig, um das entsprechende System integrieren zu können.
Bei der Betrachtung der Güte nach Davies-Bouldin ist aufgefallen, dass der Wert bei
einer Anzahl von drei Clustern sehr stark steigt und bei mehr als drei Clustern nur
sehr langsam wieder abnimmt. Ein geringerer Wert zeugt von einem besseren
Clustering als ein höherer Wert. Das Verhalten lässt sich eventuell durch die Art der
Berechnung erklären. Bei dem Davies-Bouldin-Index wird die Überschneidung der
Cluster bestimmt. Dass dieses Verhalten bei dem Silhouette-Index nicht vorhanden
ist, liegt an der unterschiedlichen Beurteilung der Cluster. Hier wird nicht der
gesamte Cluster auf einmal betrachtet, sondern jedes Datenelement einzeln.
Werden Cluster gebildet mit bis zu 500 Zentroiden, so sieht man bei all diesen
Untersuchungen, dass in einem Bereich um den vermeintlichen Optimalwert die
Werte der Silhouette-Indizes sich nur kaum vom besten Wert unterscheiden. Dies
kann mehrere Ursachen haben. Zum einen kann es sein, dass die Qualität in diesem
Bereich nahezu konstant ist, es also kaum einen Unterschied macht, ob ein paar
Cluster mehr oder weniger gebildet werden. Zum anderen kann es auch an den
verwendeten Startclustern liegen. Wie eingangs beschrieben, hat die Wahl der
Startzentroiden unter Umständen einen großen Einfluss auf das Ergebnis und damit
die Qualität des Clusterings. Vor allem bei dem verwendeten Algorithmus mit
Manhattan-Abstand als Optimierungswert sind die Startcluster ausschlaggebend für
das Ergebnis, da hier das Clustering nicht mehrfach mit verschiedenen
Stefan Tobias Kleiner
ETW 14
106
Startzentroiden durchgeführt wird, sondern nur einmal für eine Auswahl an
Startzentroiden.
Bei keinem, in dieser Arbeit durchgeführten Clustering-Ansätze, wurden Güteindizes
ermittelt, welche auf ein eindeutiges, starkes Clusteringergebnis hinweisen. Der
höchste und damit beste Wert des Silhouette-Indexes beträgt 0,319 bei dem
euklidischen Clustering von genormten Verbrauchsprofilen bei einer Clusteranzahl
von 265 Clustern. Dieser Wert von 0,319 liegt damit immer noch deutlich entfernt von
dem (nicht erreichbaren) Optimalwert von 1. Die meisten Ergebnisse liegen sogar
noch deutlich darunter. Bei solchen geringen Werten kann nicht automatisch von
starken wiederholbaren Clusterbildungen gesprochen werden. Die Berechnungen
müssten
mit
unterschiedlichen
Datensätzen
validiert
werden,
um
eine
Allgemeingültigkeit der Standardlastprofile zu zeigen. Dafür kann zum einen ein
Cross-Validation-Verfahren genutzt werden, aber auch Daten, welche bisher nicht
verwendet wurden, wie beispielsweise die aus dem Feldversuch in Vorarlberg (Vgl.
Witten; Frank 2005, S. 149–152).
Aus dem euklidischen Clustering von den realen Verbrauchsprofilen mit 315 Clustern
konnten 63 Cluster als Standardlastprofile generiert werden. Mit diesen 63 Clustern
lassen sich knapp 70 % der verwendeten Datentage abdecken. Allerdings muss
davon ausgegangen werden, dass die Cluster sehr stark von dem Datensatz
abhängig sind, da lediglich ein Silhouette-Index von 0,227 erreicht werden konnte.
Die meisten der erzeugten Standardlastprofile haben eine Entnahmespitze pro Tag,
einige haben auch zwei Spitzen pro Tag. Der Rest des Tages (außerhalb der
Spitzenzeiten) verläuft bei den meisten Standardlastprofielen sehr flach.
Für
die
Berechnung
des
Güteindexes
wurde
jeweils
entsprechend
des
Distanzmaßes, welches für die Optimierung bei der Clusterbildung verwendet wurde,
dasselbe
Distanzmaß
verwendet.
Dies wurde
so
durchgeführt,
da
davon
ausgegangen werden muss, dass wenn ein Cluster nach einem Distanzmaß
optimiert wird und die Qualität mit einem anderen Distanzmaß berechnet wird, die
berechnete Qualität voraussichtlich einen schlechteren Wert aufweist, obwohl das
Clustering für das gewählte Distanzmaß eventuell gut geeignet ist.
Stefan Tobias Kleiner
ETW 14
107
Die unterschiedliche Berechnung der Güteindizes ist der Hauptgrund, warum die
Verfahren nicht direkt miteinander vergleichbar sind. Dadurch kann auch keine klare
Aussage getroffen werden, welche Methode letztendlich die geeignetere von beiden
ist.
Bei der Untersuchung mit den unterschiedlichen Distanzmaßen, euklidisch und
Manhattan-Distanz, wurde festgestellt, dass die besten Cluster beider Methoden in
einer ähnlichen Größenordnung wiederzufinden sind. Auch dadurch wird es schwer
festzulegen, welches Clustering das bessere von beiden ist.
In einer weiteren Arbeit könnte zusätzlich untersucht werden, ob es möglich ist,
geeignete Cluster anhand weiterer anderer Abstandsmessungen zu erhalten.
Als Alternative zu dem Versuch mit genormten Verbrauchsprofilen könnte auch ein
zweistufiges Clustering durchgeführt werden. Dabei könnte zuerst nach dem
Tagesgesamtverbrauch geclustert werden. Anschließend könnten die gebildeten
Cluster nach ihrem Tagesprofilverlauf geclustert werden.
Die durch den Feldversuch in Vorarlberg erhaltenen Daten können analysiert werden
und mit den Erkenntnissen aus dieser und anderen Arbeiten abgeglichen werden. So
könnten die aufgestellten Thesen validiert werden.
Um diese Arbeit auf ihre Allgemeingültigkeit zu überprüfen muss eine deutlich
größere Datenbasis geschaffen werden. Da in dieser Arbeit lediglich Daten aus zwei
verschiedenen Feldversuchen verwendet wurden, kann dadurch nicht automatisch
auf alle anderen Haushalte geschlossen werden. Die Daten aus Halifax
beispielsweise sind nicht zwingend repräsentativ, da dort nur Haushalte mit einer
Solarthermieanlage an dem Versuch teilgenommen haben. Zudem lag in diesen
Haushalten die durchschnittliche Anzahl an bewohnenden Personen deutlich über
dem Landesdurchschnitt.
Stefan Tobias Kleiner
ETW 14
108
9. Zusammenfassung
In dieser Arbeit wurde mit dem Hintergrund einer möglichen Integration von
Warmwasserboilern in ein DSM Programm untersucht, ob es möglich ist, die
Warmwasser-Verbrauchsprofile von Haushalten in geeigneten Clustern zu sortieren.
Wäre dies möglich, so könnte eine Vorhersage des benötigten Warmwassers in
Privathaushalten vereinfacht werden und eine Integration von Warmwasserboilern in
ein DSM Programm wäre deutlich einfacher zu realisieren.
Leider ist es im Rahmen dieser Arbeit nicht gelungen die Frage, ob es möglich ist
geeignete Cluster zu erstellen, eindeutig positiv zu beantworten. Untersucht worden
sind volumetrische Verbrauchsprofile mit unterschiedlichen zeitlichen Auflösungen.
Auch durch die verwendeten unterschiedlichen Abstandsmessungen konnten die
Ergebnisse
nicht
wesentlich
verbessert
werden.
Angewandt
wurden
die
Untersuchungen auf die bereitgestellten Datensätze aus Halifax und Lancaster.
Durch
den
geringen
Standardlastprofilen
wird
Silhouette-Index
vermutet,
mit
dass
0,227
die
bei
den
erzeugten
Allgemeingültigkeit
dieser
Standardlastprofile nicht gegeben ist. Es wird mit dieser Arbeit aber nicht
grundsätzlich ausgeschlossen, dass allgemeingültige Standardlastprofile aufgrund
anderer Clustering Methoden und anderer Datengrundlagen erstellt werden könnten.
Nur allein aufgrund der in dieser Arbeit verwendeten Methoden und Daten konnten
leider keine eindeutigen Standardlastprofile herausgearbeitet werden.
Stefan Tobias Kleiner
ETW 14
109
10. Literaturverzeichnis
Ahmed, Kaiser ; Kurnitski, Jarek (2015): Domestic Hot Water Profiles for Energy
Calculation in Finnish Residential Buildings
Amann, Peter u. a. (2013): Domestic Hot Water Heater for Active Demand Side
Management
and
Efficiency
Improvements Tagungsband
zum
7.Forschungsforum der österreichischen Fachhochschulen Online im Internet:
http://www.fhv.at/media/pdf/forschung/energie/forschung/hot-water-heater
(Zugriff am: 01.01.2016).
Bals, Christoph ; Kreft, Sönke ; Weischer, Lutz (2015): Signal für neue Epoche der
globalen Klima- und Energiepolitik. Die Ergebnisse des Pariser Klimagipfels 13920.pdf Online im Internet: https://germanwatch.org/de/download/13920.pdf
(Zugriff am: 29.12.2015).
Becker, B.R. ; Stogsdill, K.E. (1990): Development of a hot water use data
base Paper Presented at the 1990 Annual Meeting of the American Society of
Heating, Refrigerating and Air-Conditioning Engineers, Technical and
Symposium Papers , S. 422–427.
Boggs, Thomas (2014a): Class/Function Documentation — Spectral Python 0.18
documentation. Online
im
Internet:
http://www.spectralpython.net/class_func_ref.html#spectral.kmeans
(Zugriff
am: 14.08.2016).
Boggs,
Thomas (2014b): Spectral
Python
(SPy)
—
Spectral
Python
0.18
documentation. Online im Internet: http://www.spectralpython.net/ (Zugriff am:
27.07.2016).
Bundesministerium
für
Wirtschaft
und
grafiken. Online
Energie (2015): energiestatistikenim
Internet:
https://www.bmwi.de/BMWi/Redaktion/PDF/E/energiestatistiken-grafiken
(Zugriff am: 28.12.2015).
DIN (2014): DIN EN ISO 4064-1:2014 DIN.
Stefan Tobias Kleiner
ETW 14
110
Dr. Schreff, Anna Maria ; Dr. Schindler, Peter ; Nickel, Silke (2016): Gesundheit
Legionellen - die am häufigsten gestellten Fragen - Internetangebot. Online im
Internet: https://www.lgl.bayern.de/gesundheit/hygiene/wasser/legionellen.htm
(Zugriff am: 12.08.2016).
„Earth Overshoot Day 2016“ (2016): Earth Overshoot Day 2016 Earth Overshoot
Day Online im Internet: http://www.overshootday.org/ (Zugriff am: 08.08.2016).
E-Control (2010): Thema
Energieverbrauch
-
E-Control. Online
im
Internet:
http://www.e-control.at/konsumenten/energie-sparen/thema-energieverbrauch
(Zugriff am: 28.12.2015).
EHT
Haustechnik
GmbH
Warmwasserboiler
und
/
Markenvertrieb
moderne
–
AEG (o. J.): Wandspeicher
Boiler-Technik. Online
im
Internet:
https://www.aeg-haustechnik.de/de/home/produkteloesungen/warmwassergeraete/wandspeicher/ratgeber.html
(Zugriff
am:
26.02.2016).
Energy Saving Trust (2008a): Measurement of Domestic Hot Water Consumption in
Dwellings
Energy Saving Trust (2008b): Measurement of Domestic Hot Water Consumption in
Dwellings Field Trial
Gelažanskas, Linas ; Gamage, Kelum A. A. (2015): „Forecasting Hot Water
Consumption in Residential Houses“ In: Energies, 8 (2015), S. 12702–12717.
George, Dane ; Pearre, Nathaniel S. ; Swan, Lukas G. (2015): „High resolution
measured domestic hot water consumptionof Canadian homes“ In: Energy
and Buildings, 109 (2015), S. 304–315.
Government of Canada (2015): HOT2000 Software Suite | Natural Resources
Canada. Online
im
Internet:
https://www.nrcan.gc.ca/energy/efficiency/housing/home-improvements/17725
(Zugriff am: 31.12.2015).
Stefan Tobias Kleiner
ETW 14
111
Hu, Zhaoguang ; Han, Xinyang ; Wen, Quan (2013): Integrated Resource Strategic
Planning and Power Demand-Side Management. Berlin Heidelberg: Springer
Berlin
Heidelberg. Online
im
Internet:
http://link.springer.com/book/10.1007/978-3-642-37084-7
(Zugriff
am:
29.12.2015).
Hunter, John D. (2007): „Matplotlib: A 2D Graphics Environment“ In: Computing in
Science & Engineering, 9 (2007), 3, S. 90–95.
Jones, Eric u. a. (2001): SciPy: Open Source Scientific Tools for Python. Online im
Internet: http://www.scipy.org/ (Zugriff am: 16.07.2016).
Jordan, Ulrike ; Vajen, Klaus (2003): Handbuch DHWcalc. Online im Internet:
https://www.unikassel.de/maschinenbau/fileadmin/datas/fb15/ITE/icons/Bilder_re2/Bilder_Op
enSorp/dhw-calc_1-10_handbuch.pdf (Zugriff am: 02.01.2016).
Kepplinger, Peter ; Huber, Gerhard ; Petrasch, Jörg (2015): „Autonomous optimal
control for demand side management with resistive domestic hot water
heaters
using
linear
optimization“ In: ENERGY
BUILDINGS, (2015)Online
im
AND
Internet:
http://dx.doi.org/10.1016/j.enbuild.2014.12.016
Ministerium
für
Umwelt,
Klima
Württemberg (2012): Betrieblicher
und
Energiewirtschaft
Umweltschutz
in
Baden-
Baden-Württemberg :
Energieeffizienz. Online im Internet: http://www.bubw.de/?lvl=6106 (Zugriff
am: 28.12.2015).
Ministerium
für
Umwelt,
Klima
und
Energiewirtschaft
Württemberg (2004): Betrieblicher
Umweltschutz
Kennzeichnungsgesetz
-verordnungen. Online
und
in
Baden-
Baden-Württemberg :
im
Internet:
http://www.bubw.de/?lvl=2559 (Zugriff am: 28.12.2015).
Moran,
Michael
J.
u. a. (2010): Fundamentals
of
Engineering
Thermodynamics. John Wiley & Sons.
Stefan Tobias Kleiner
ETW 14
112
Pedregosa,
u. a. (2011): „Scikit-learn:
Fabian
Machine
Learning
in
Python“ In: Journal of Machine Learning Research, 12 (2011), Oct, S. 2825–
2830.
Pérez, Fernando ; Granger, Brian E. (2007): „IPython: A System for Interactive
Scientific
Computing“ In: Computing
in
Science
&
Engineering, 9 (2007), 3, S. 21–29.
Perlman, M. ; Mills, B.E. (1985): „Development of residential hot water use
patterns“In: ASHRAE Transactions (1985), 2A, S. 657–679.
Runkler, Thomas A. (2015): Data Mining: Modelle und Algorithmen intelligenter
Datenanalyse. Springer-Verlag.
scikit-learn
developers (2014): sklearn.cluster.KMeans
documentation. Online
im
—
scikit-learn
Internet:
0.17.1
http://scikit-
learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.clust
er.KMeans (Zugriff am: 14.08.2016).
Statista (2015): Veränderung des Endenergieverbrauchs von Privathaushalten in
Deutschland
im
Vergleich
der
Jahre
Anwendungsbereich. Online
2014
zu
im
2005
nach
Internet:
http://de.statista.com/statistik/daten/studie/165469/umfrage/veraenderungdes-energieverbrauchs-von-privathaushalten-2009-zu-2005/
(Zugriff
am:
30.12.2015).
Thermo Dynamics Ltd. ; George, Dane ; Swan, Lukas (2015): Prepared Data from
the Halifax Solar City program
Van der Walt, Stéfan ; Colbert, S. Chris ; Varoquaux, Gaël (2011): „The NumPy
Array: A Structure for Efficient Numerical Computation“ In: Computing in
Science & Engineering, 13 (2011), 2, S. 22–30.
Van Rossum, Guido ; Drake, Frad L. Jr. (1995): Python Tutorial. Amsterdam, The
Netherlands: Centrum voor Wiskunde en Informatica.
Stefan Tobias Kleiner
ETW 14
113
Witten, Ian H. ; Frank, Eibe (2005): Data Mining: Practical Machine Learning Tools
and Techniques, Second Edition. Morgan Kaufmann.
„Davies–Bouldin index“ (2016): In: Wikipedia, the free encyclopedia. Online im
Internet:
https://en.wikipedia.org/w/index.php?title=Davies%E2%80%93Bouldin_index&
oldid=724614456 (Zugriff am: 16.07.2016).
„Dunn index“ (2016): In: Wikipedia, the free encyclopedia. Online im Internet:
https://en.wikipedia.org/w/index.php?title=Dunn_index&oldid=722704161
(Zugriff am: 16.07.2016).
„Paretoprinzip“ (2016): In: Wikipedia. Online
im
Internet:
https://de.wikipedia.org/w/index.php?title=Paretoprinzip&oldid=156752732
(Zugriff am: 15.08.2016).
„Silhouette (clustering)“ (2016): In: Wikipedia, the free encyclopedia. Online im
Internet:
https://en.wikipedia.org/w/index.php?title=Silhouette_(clustering)&oldid=72993
6979 (Zugriff am: 16.07.2016).
Stefan Tobias Kleiner
ETW 14
114
11. Anhang
11.1. Fehlerbeschreibung der Originaldaten aus Lancaster
Hier ist eine Auflistung der Ursachen für Fehler in der automatisierten Abarbeitung
der einzelnen Datensätze aus Lancaster:
-
„7978.all“: Hier sind 3 Zeilen welche ein Spalte mehr aufweisen. In der Zeile
870027 steht bei der Abflussmenge „4 61“. Da hier ein Leerzeichen innerhalb der
Spalte vorhanden ist, interpretiert die Einlesefunktion von Python hier zwei
Spalten. Dieser Wert ist der erste nach einer Aufzeichnungslücke. Aus diesem
Grund wird der Wert auf 0 korrigiert. Der Zweite Fehler in Zeile 922024 entsteht
durch den Wert „3 51“ und ist ebenfalls wegen des Leerzeichens entstanden.
Auch dieser Wert ist der erste nach einer Aufzeichnungslücke. Und auch dieser
wird auf 0 korrigiert. Der dritte Fehler in Zeile 1164288 entsteht durch den Wert „3
58“. Dieser verhält sich wie die anderen beiden Fehler und wird somit ebenfalls
auf 0 korrigiert.
-
„7980.all“: Hier bringt das Programm eine Warnung, da im Datensatz ab einem
Zeitpunkt ein Sensorwert entfällt und sich dadurch die Spaltenanzahl verringert.
Der Sensor der entfernt wurde war vermutlich fehlerhaft, da zu diesem nur der
Messwert „Low“ abgespeichert wurde. Um den Datensatz verwenden zu können
wurde die zugehörige Spalte mit dem Wert „Low“ gelöscht, sodass das gesamte
File durchgehend dieselbe Spaltenzahl aufweist.
-
„8021.all“:
Dieser
Datensatz
besitzt
zwei
Spalten
für
Messwerte
von
Durchflusssensoren. Eine dieser beiden Spalten hat zwischenzeitlich keinen
Messwert, so dass davon ausgegangen wird, dass der Sensor defekt war und
später ausgetauscht oder repariert wurde. Die fehlenden Einträge wurden durch
die Bezeichnung „nan“ ersetzt. So kann der Datensatz eingelesen werden und die
entsprechenden Tage können später aus der Durchflussmengenanalyse
ausgeschlossen werden.
-
„8024.all“: Hier erscheint eine Warnung, da im Datensatz ab einem Zeitpunkt ein
Sensor weniger aufgezeichnet wird und dadurch eine Spalte weniger vorhanden
Stefan Tobias Kleiner
ETW 14
115
ist. Die fehlende Spalte wurde mit „nan“ aufgefüllt. Dadurch kann der Datensatz
eingelesen werden und die Tage mit unvollständigen Daten können von der
Auswertung ausgeschlossen werden.
-
„8027.all“: Hier hat eine Zeile (259173) eine Spalte mehr als alle anderen Zeilen.
Dies kommt zustande durch den aufgezeichneten Wert „11 41“. Da in dem Wert
ein Leerzeichen ist wird dieser als zwei Werte interpretiert. Der fehlerhafte Wert
ist wie bei den anderen Datensätzen mit diesem Problem der erste nach einer
Aufzeichnungspause. Dieser wird wie bei den anderen Datensätzen auch auf 0
korrigiert.
-
„8037.all“: In diesem Datensatz hat ein Sensor in der ersten Zeile den Wert „No
Data“. Die Stapelverarbeitung kann dies nicht als Spalte erkennen und läuft
deshalb auf den Fehler, da sich die Spaltenanzahl ändert. Dieser Wert wird auf 0
korrigiert.
-
„8048.all“: Hier sind wieder zwei Zeilen mit je einer Spalte weniger als alle
anderen. Dieser Datensatz enthält zwei Spalten mit Entnahmemengen. Für den
ersten Entnahmewert enthält die Zeile 98447 den Wert „02115“ und die Zeile
98452 enthält den Wert „03131“. In beiden Zeilen gibt es keinen Messwert für den
zweiten Entnahmesensor. Der darauffolgende Messwert für den ersten Sensor
beträgt je „-39“. Da diese Werte nicht sinnvoll erscheinen. Weder die
Entnahmemenge von 211,5 Liter bzw. 3131,1 Liter innerhalb je 10 Minuten, noch
ein negativer Wert, werden diese Werte alle auf 0 korrigiert.
-
„8057.all“: Dieser Datensatz besitzt in der Zeile 233146 eine Spalte mehr als die
anderen Zeilen des Datensatzes. Der Entnahmewert an dieser Stelle beträgt „38
16“. Durch das Leerzeichen kann die Software den Datensatz nicht korrekt
interpretieren. Der Wert wird auf 0 korrigiert.
-
„8063.all“: Dieser Datensatz besitzt in der Zeile 79002 eine Spalte mehr als die
anderen Zeilen des Datensatzes. Der Entnahmewert an dieser Stelle beträgt „42
63“. Durch das Leerzeichen kann die Software den Datensatz nicht korrekt
interpretieren. Der Wert wird auf 0 korrigiert.
Stefan Tobias Kleiner
ETW 14
116
-
„8067.all“:
In
diesem
Datensatz
wird
nach
etwa
einer
Woche
Aufzeichnungszeitraum ein zusätzlicher Temperatursensor installiert und mit
aufgezeichnet. Dadurch ändert sich die Spaltenanzahl in dem Datensatz. Für den
Zeitraum vor dem Einsatz des zusätzlichen Sensors, erhält dieser den Wert „nan“.
-
„8080.all“: Dieser Datensatz beinhaltet dasselbe Problem wie der Datensatz
„8037.all“. Durch den Wert „No Data“ in der ersten Zeile kann die Software diese
nicht korrekt interpretieren. Der Wert wird auf 0 korrigiert.
-
„8081.all“:
In
diesem
Datensatz
wird
nach
etwa
einer
Woche
Aufzeichnungszeitraum ein zusätzlicher Temperatursensor installiert und mit
aufgezeichnet. Dadurch ändert sich die Spaltenanzahl in dem Datensatz. Für den
Zeitraum vor dem Einsatz des zusätzlichen Sensors, erhält dieser den Wert „nan“.
-
„8088.all“: In diesem Datensatz sind zeitweise zwei Messwerte für die
Entnahmemenge vorhanden und zeitweise nur einer. Es gibt je sechs
Zeitbereiche mit zwei Werten und sechs Zeitbereiche mit einem Wert. Die
Zeitbereiche mit nur einem Wert wurden durch einen zweiten Wert „nan“ ergänzt
um den Datensatz einlesen zu können. Die fehlerhaften Zeitabschnitte werden
später von der Auswertung ausgeschlossen.
Bei der späteren Weiterverarbeitung der Daten wurden noch in sechs weiteren
Datensätzen Unregelmäßigkeiten festgestellt. Betroffen sind die Datensätze
„7973.all“, „7998.all“, „8017.all“, „8020.all“, „8039.all“ und „8070.all“.
In diesen
Datensätzen ist die Formatierung der Spalte mit Datum und Uhrzeit teilweise oder
durchgehend abweichend zu den restlichen Datensätzen. Die Formatierung der
Datum/Uhrzeit-Spalte ist üblicherweise nach folgendem Schema aufgebaut:
-
"dd/mm/yy hh:mm:ss"
Die davon abweichende Formatierung ist nach diesem Schema:
-
dd/mm/yyyy hh:mm
Abweichend vom Regelfall ist, dass das Datum mit der Uhrzeit nicht in
Anführungszeichen steht, sodass bei der Stapelverarbeitung, bei der zeichenweise
Stefan Tobias Kleiner
ETW 14
117
ausgelesen wird, Fehler entstehen. Zudem ist das Jahr 4-stellig anstatt 2-stellig und
die Zeit nicht mit Sekunden angegeben, wodurch die zeichenweise Abarbeitung
weitere Fehler produziert. Diese Datensätze sind im Nachgang nochmals neu
überarbeitet und korrigiert abgespeichert worden. Die fehlenden Sekunden wurden
alle mit 0 aufgefüllt um die Datensätze gleich wie die anderen behandeln zu können.
Stefan Tobias Kleiner
ETW 14
118
11.2. Clusterzentroiden bei dem Clustering der volumetrischen
Verbrauchswerte bei minütlicher Auflösung des reduzierten
Gesamtdatensatzes
Abbildung 11-1: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 1). Die
horizontale Achse beschreibt den Tagesverlauf mit Uhrzeit. Die vertikale Achse beschreibt den Verbrauch
in Liter / Minute.
Stefan Tobias Kleiner
ETW 14
119
Abbildung 11-2: Clusterzentroiden bei minütlicher Auflösung und reduziertem Datensatz (Teil 2). Die
horizontale Achse beschreibt den Tagesverlauf mit Uhrzeit. Die vertikale Achse beschreibt den Verbrauch
in Liter / Minute.
Stefan Tobias Kleiner
ETW 14
120
Eidesstattliche Erklärung
Ich erkläre hiermit an Eides statt, dass ich die vorliegende Masterarbeit selbstständig
und ohne Benutzung anderer als der angegebenen Hilfsmittel angefertigt habe. Die
aus fremden Quellen direkt oder indirekt übernommenen Stellen sind als solche
kenntlich gemacht. Die Arbeit wurde bisher weder in gleicher noch in ähnlicher Form
einer anderen Prüfungsbehörde vorgelegt und auch noch nicht veröffentlicht.
Dornbirn, den 25.08.2016
Stefan Tobias Kleiner
Stefan Tobias Kleiner
ETW 14
121
Herunterladen