Wissenschaftliches Arbeiten Studiengang „Energiewirtschaft“ - Auswerten von Daten - Prof. Dr. Ulrich Hahn WS 2012/2013 nicht numerische Daten Text-Daten: Namen, Eigenschaften, … Datenbank: Matrix-Tabellenform übliche Anordnung: Spalten: Feld: gemeinsame Merkmale der Daten Zeilen: Datensatz: Gesamtheit der Merkmale eines Objektes/Subjektes Filtern Datensätze mit bestimmten Feldinhalten auswählen Sortieren Datensätze in einer bestimmte Reihenfolge anordnen Sortierkriterien in den einzelnen Feldern Zählen Auswertung von Daten Wie oft kommen bestimmte Werte von Feldern vor? Excel: Pivottabelle Modus/Modalwert: häufigster Wert 2 numerische Daten mehrere Daten (Zahlenwerte) einer (physikalischen) Größe, z. B. das aktuelle Alter der Deutschen 81.726.000 Werte Mit welchen Kenngrößen können die Daten charakterisiert werden? Lagemaße ohne die wesentlichen Eigenschaften der Gesamtheit zu verfälschen: welchen Wert müsste man nehmen, wenn alle Daten gleich sind? Streumaße wie stark unterscheiden sich die individuellen Daten von dem Lagemaß? Verteilung wie oft kommen welche Werte vor? Werte der Größe nach ordnen Werte der Häufigkeit nach ordnen Auswertung von Daten 3 Lagemaße arithmetischer Mittelwert 1 n xa : xi n i 1 Summe aus n gleichen Summanden 𝒙 harmonischer Mittelwert 1 1 n 1 : xh n i 1 xi Summe aus n gleichen Summanden 𝟏/𝒙 geometrischer Mittelwert x g : n x1 x2 x3 ... xn Produkt aus n gleichen Faktoren 𝒙 „Ausreißer“: wenige extreme Werte Abhilfe: „gestutzte Mittel“: 5% der großen/kleinen Werte weglassen Auswertung von Daten 4 Lagemaße Modus/Modalwert am häufigsten vorkommender Wert der Daten auch nicht numerischen Werten oft wenig repräsentativ Medianwert teilt die Daten in 2 Gruppen mit gleicher Anzahl von Werten: * kleiner gleich Medianwert * größer gleich Medianwert unempfindlich gegenüber Ausreißern auch bei geordneten nicht numerischen Werten Auswertung von Daten 5 Streumaße Differenz größter_Wert – kleinster_Wert Ausreißer 1 n mittlere Abweichung vom Lagemaß 𝒙 m. A. ( xi x ) n i 1 wenn 𝑥 das arithmetische Mittel ist 1 n m. A. | xi x | n i 1 1 n 2 ( x x ) Standardabweichung s : i n 1 i 1 Spannweite unempfindlich gegenüber Ausreißern n – 1: Freiheitsgrade, Zahl der unabhängigen (𝑥𝑖 − 𝑥 )² Quantil Auswertung von Daten teilt die nach Größe geordnete Gesamtheit in 2 Gruppen: p% aller Werte sind kleiner als das p%Quantil, 100% - p% sind größer. Median: 50% Quantil 6 Verteilung der Werte genauere Beschreibung der Gesamtheit aller Werte: welche Werte treten wie häufig auf? Anzahl Anzahl eines bestimmten Wertes xi Häufigkeit h(xi) := Gesamtzahl der Werte n h( x ) 1 i 1 i numerische Werte vorher der Größe nach ordnen Summenkurve, Summenhäufigkeit (kumulierte Häufigkeit): Summe der Anzahlen/Häufigkeiten bis zu einem bestimmten Wert xj j N ( x j ) : n( xi ) nur numerische Werte! i 1 Auswertung von Daten 7 0 Auswertung von Daten Ziegenkäse Unkraut Sahnetorte Pfirsich Orangen Mohnkuchen Landjäger Kuchen Jägerschnit… Hasenkeule Fisch Eintopf Dorsch Chili cC Auflauf Anzahl → Verteilung der Werte Verteilung der Anzahlen nicht numerischer Werte 6 5 4 3 2 1 8 Verteilung der Werte Verteilung numerischer Werte 14 100% Anzahl Kumulierte Häufigkeit 12 80% Anzahl → 10 60% 8 6 40% 4 20% 2 0 0% 160 170 180 190 200 cm 210 Größe → Auswertung von Daten 9 Verteilung der Werte Privathaushalte 1,2 Problem: 1 Anzahl → nicht äquidistante Werte, geringe Häufigkeiten pro Wert 0,8 0,6 0,4 0,2 0 3000 Auswertung von Daten 6000 kWh 16 90% kumulierte Häufigkeit 12 80% 70% Anzahl → 7000 100% Anzahl 14 Klassen definieren: gleich große Werteintervalle Anzahlen/Häufigkeit in den Intervallen bestimmen 5000 Energieverbrauch → 10 60% 8 50% 6 40% 30% 4 kumulierte Häufigkeit → Abhilfe: Histogramm 4000 20% 2 10% 0 0% 3000 3500 4000 4500 5000 5500 6000 Energieverbrauch in kWh 6500 7000 und größer 10 Kenngrößen von Verteilungen Häufigkeiten h(xi) sind (z. B. aus der Theorie) bekannt: Erwartungswert welchen Wert erwarte ich bei einer neuen Beobachtung oder Messung? n E ( x) h( xi ) xi gewichteter Mittelwert aller Werte x: i 1 Varianz welche Streuung erwarte ich bei Messungen von x? analog zur Standardabweichung: V ( x) E ( x E ( x)) 2 V ( x) E ( x ²) ( E ( x)) 2 Häufigkeiten von xi bei realen Beobachtungen Wahrscheinlichkeiten, mit denen xi auftreten können Auswertung von Daten 11 kontinuierliche Verteilungen Die Größe x kann alle Werte in einem bestimmten Intervall annehmen Darstellung der Häufigkeit h(x), mit der Werte x auftreten können durch eine Dichtefunktion f(x) h([ x, x dx]) f ( x) dx xmax f ( x) dx 1 xmin kumulierte Häufigkeit (Summenkurve): H ( ) xmax f ( x) dx xmin E ( x) Erwartungswert: xmax x f ( x) dx xmin xmax Varianz: V ( x) ( x E ( x)) f ( x) dx 2 Auswertung von Daten xmin xmax 2 2 x f ( x ) d x ( E ( x )) xmin 12 spezielle Verteilungen Binomialverteilung 2 Ereignisse, die sich gegenseitig ausschließen, treten mit einer bekannten, konstanten Wahrscheinlichkeit p bzw. 1 – p auf. Münzwurf: „Kopf“ oder „Zahl“ Umfrage: „gut“ oder „schlecht“ radioaktive Atomkerne: „zerfallen“ oder „nicht zerfallen“ m Beobachtungen/Messungen: Die Häufigkeit, dass das Ereignis (Wahrscheinlichkeit p) x-mal eintritt (x ≤ m), beträgt m x h( x) p (1 p ) m x x h(x) : 2 Parameter, p, m Auswertung von Daten 13 Binomialverteilung Erwartungswert: E ( x) m p Varianz: V ( x) m p (1 p ) p aus h(x) bestimmen Auswertung von Daten statistische Verfahren 14 spezielle Verteilungen Poissonverteilung 2 Ereignisse, die sich gegenseitig ausschließen: Die Zahl der Beobachtungen ist groß: m → ∞ Die Wahrscheinlichkeit für eins der Ereignisse ist klein: p → 0 Der Erwartungswert E(x) := µ = m.p ist bekannt Grenzfall der Binomialverteilung Die Häufigkeit, dass das Ereignis x-mal eintritt (x ≤ ∞), beträgt µ x µ h( x ) e x! Erwartungswert: E ( x) µ Varianz: V ( x) µ h(x): 1 Parameter µ Auswertung von Daten 15 0,1 Poisson-Verteilung Binomial m = 100, p = 0,75 µ = 75, V(x) = 18,75 h(x) → 0,08 Poisson 0,06 0,04 0,02 0,1 0 50 Binomial h(x) → 0,08 60 70 80 90 100 90 100 16 x → Poisson 0,06 m = 1000, p = 0,075 µ = 75, V(x) = 69,38 0,04 0,02 0,1 0 50 60 70 80 90 100 Binomial x → 0,08 h(x) → Poisson m = 10.000, p = 0,0075 µ = 75, V(x) = 74,44 Auswertung von Daten 0,06 0,04 0,02 0 50 60 70 80 x → spezielle Verteilungen Gaußverteilung 2 Ereignisse, die sich gegenseitig ausschließen: Die Zahl der Beobachtungen ist groß: m → ∞ Der Erwartungswert E(x) = µ ist groß gegen die Schrittweite Dx Dichte der Häufigkeiten: h( x) f ( x) Dx 1 e 2 Poisson , µ Dx ( x µ )² 2µ Dx 0,05 Binomial 0,04 Poisson h(x) → Gauß 0,03 0,02 0,01 0 Auswertung von Daten 50 60 70 80 x → 90 100 17 Gaußverteilung (Normalverteilung) x: nicht nur zählbare Ereignisse, sondern auch andere, kontinuierliche Größen Abweichungen vom Erwartungswert E(x) = µ werden durch zufällige Effekte bewirkt Die Varianz V(x) := s² wird durch die zufälligen Effekte bestimmt (unabhängig von µ) h(x): 2 Parameter g(s_1) g(s_2) 0,3 g(s_3) f (x) → 1 f ( x) e 2 s 0,4 1 xµ ( )² 2 s g(s_4) 0,2 0,1 0 50 Auswertung von Daten 60 70 80 x → 90 100 18 Eigenschaften der Gaußverteilung 0,1 f (x) → 0,08 0,06 0,04 0,02 0 50 60 70 80 90 100 x → Definitionsbereich: - ∞ < x < ∞ jeder Wert kann auftreten Maximum bei x = µ, Wendepunkte bei xW,1 = µ - s, xW,2 = µ + s 68,3% der Werte x liegen im Intervall [µ - s, µ + s] 95,4% der Werte x liegen im Intervall [µ - 2s, µ + 2s] 99,7% der Werte x liegen im Intervall [µ - 3s, µ + 3s] Auswertung von Daten 19 Messfehler & Gaußverteilung Messtechnik: Bestimmen des Zahlenwertes einer Größe Es gibt einen „wahren Wert“ dieser Größe unkontrollierbare Einflüsse: angezeigter Wert ≠ wahrer Wert zufällige Fehler ∞ viele Messungen: gemessene Werte streuen gemäß einer Gaußverteilung um den wahren Wert µ mit einer Varianz s Varianz s wird bestimmt durch das Messverfahren! endlich viele Messungen: µ und s schätzen n 1 n 1 n 1 2 schätzen 2 2 2 ~ µ x xi s s ( xi x ) s s2 n i 1 n i 1 n schätzen Auswertung von Daten Prüfung, ob xi normalverteilt sind: c² - Test 20 Vertrauensbereiche Stichproben mit n Werten xi aus einer normalverteilten Grundgesamtheit: Mittelwerte 𝑥j streuen normalverteilt um den Erwartungswert µ ∞ viele Stichproben: Varianz der Mittelwerte 𝑥j : s x2 s2 n 2 s 2 s endlich viele Stichproben: Varianz der Mittelwerte 𝑥j : x n auch bei nur einer Stichprobe! die Wahrscheinlichkeit P, dass 𝑥 um 𝜎𝑥 , 2𝜎𝑥 oder 3𝜎𝑥 von µ abweicht, beträgt 68,3%, 95,4% oder 99,7% Auswertung von Daten 22 Vertrauensbereiche Umkehrschluss: Der Erwartungswert µ befindet sich mit einer Wahrscheinlichkeit P im Intervall um 𝑥 x kP s n µ x kP s n Vertrauensbereich kP = 1, 2 oder 3 Varianz s ² geschätzt aus der Standardabweichung s²: Vergrößerung der Vertrauensbereiche: kP tP x tP Auswertung von Daten s s µ x tP n n 23 Vertrauensbereiche Anzahl n der Werte 2 3 4 5 6 7 8 9 10 20 30 50 100 200 > 200 Auswertung von Daten P = 68,3% t0,68 1,84 1,32 1,20 1,14 1,11 1,09 1,08 1,07 1,06 1,03 1,02 1,01 1,01 1,00 1,00 P = 95,4% t0,95 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,05 2,01 1,98 1,97 1,97 P = 99,7% t0,99 235,8 19,21 9,22 6,62 5,51 4,90 4,53 4,28 4,09 3,45 3,28 3,16 3,08 3,04 3,00 24 Fehlerfortpflanzung Berechnung einer Größe E aus einer/mehreren experimentell bestimmten Größen x (y, z, …): E = f(x) {E = f(x, y, z, …)} Erwartungswert µE : µE E f (x ) Standardabweichung der berechneten Größe E? f (x ) lineare Näherung: f(x) in der Umgebung von 𝒙 durch Gerade ersetzen, Steigung 𝒇′(𝒙) E + dE E E dE d f ( x) sE | | sx dx x x dx Auswertung von Daten x + dx x x 25 Fehlerfortpflanzung E = f(x, y, …) : µE E f ( x , y , ...) partielle Standardabweichungen für jede „Dimension“: sE , x f ( x, y,...) x sx x , y ,... x, y, … sind nicht voneinander abhängig: f ( x, y,...) sE ( x f ( x, y,...) sx ) ( y x , y ,... s y ) 2 ... 2 x , y ,... Gaußsches Fehlerfortpflanzungsgesetz Auswertung von Daten 26 lineare Regression zwischen 2 experimentell bestimmten Größen x, y besteht ein linearer Zusammenhang y = m.x + b Steigung und Ordinatenabschnitt aus den Messdaten? Spannung U 3,5 V 3 2,5 2 1,5 1 0,5 0 0 50 100 150 200 Strom I 250 300 mA 350 xi, yi zufallsbeeinflusst Gerade soll Zufallseffekte ausgleichen Summe der Abstände der Geraden zu den Datenpunkten xi, yi minimal Ausgleichsgerade geht durch den Datenschwerpunkt (𝑥 , 𝑦) Excel: „RGP-Funktion“ m, b, sm, sb, r² Auswertung von Daten 27 Korrelation Besteht ein linearer Zusammenhang y = m.x + b zwischen zwei experimentell bestimmten Größen x, y ? Maß für den Zusammenhang: n r : ( xi x )( yi y ) Korrelationskoeffizient -1 ≤ r ≤ 1 i 1 n n i 1 i 1 ( ( xi x ) 2 )( ( yi y ) 2 ) r²: Bestimmtheitsmaß r = 1: perfekter linearer Zusammenhang, steigende Gerade r > 0,8: linearer Zusammenhang, steigende Gerade r = 0: kein linearer Zusammenhang r = -1: perfekter linearer Zusammenhang, fallende Gerade Auswertung von Daten 28 y → y → y → Korrelation r=1 r = 0,7 r = 0,93 x x x y → r=0 y → y → r = -0,93 r = 0,5 x Auswertung von Daten x x 29 spezielle Probleme Vergleich Messergebnis – „Literaturwert“ Kann die Abweichung des Messergebnisses vom Literaturwert durch zufallsbedingte Einflüsse erklärt werden? Literaturwert = wahrer Wert Literaturwert im Vertrauensbereich des Messergebnisses: wahrer Wert liegt mit Wahrscheinlichkeit P im Vertrauensb. Abweichungen sind mit P durch den Zufall erklärbar Messung hat den Literaturwert reproduziert Literaturwert außerhalb des Vertrauensbereiches: Abweichungen sind nur mit 1- P durch den Zufall erklärbar oder mit P nicht zufällig Auswertung von Daten 30 spezielle Probleme Ausreißer In einer Messreihe kommt ein Wert vor, der stark von den anderen abweicht. ist die Abweichung zufällig? Mittelwert und Standardabweichung mit Ausreißer bestimmen Differenz Ausreißer – Mittelwert > 3 s ? wenn ja, dann Ausreißer verwerfen! Mittelwert und Standardabweichung ohne Ausreißer bestimmen Auswertung von Daten 31 spezielle Probleme Vergleich der Mittelwerte zweier Messungen der gleichen physikalischen Größe ist die Abweichung zufällig? Mittelwerte befinden sich im jeweiligen Vertrauensbereich der anderen Messung Vertrauensbereiche überlappen sich, aber ein Mittelwert ist nicht im Vertrauensbereich der anderen Messung Vertrauensbereiche überlappen sich nicht Mittelwerte mehrerer Messungen zusammenfassen gewichteter Mittelwert Auswertung von Daten n xi 2 i 1 vi x n 1 2 v i 1 i 32 Daten-Matrix Auswertung von Daten 33