Teil IV Deskriptive Statistik Woche 5: Deskriptive Statistik WBL 15/17, 18.05.2015 Alain Hauser <[email protected]> Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences Berner Fachhochschule, Technik und Informatik Lernziele 2 / 31 Arbeitsschritte der Datenanalyse Sie können. . . I . . . Kenngrössen von Stichproben berechnen, auf Papier und mit R: arithmetisches Mittel, empirische Standardabweichung und Varianz, Median, Quantile I . . . die empirische Korrelation zweier Grössen mit Hilfe verschiedener Kennzahlen berechnen I . . . die Unterschide der empirischen Kenngrössen zu den entsprechenden Kennzahlen bei Zufallsvariablen nennen I . . . Plots zeichnen und lesen, die eine numerische Stichprobe visualisieren: Histogramm, Boxplot, empirische kumulative Verteilungsfunktion, Dichtekurve I Modell generieren Wahrscheinlichkeitsrechnung Daten messen Daten inspizieren deskriptive Statistik statistische Inferenz schliessende Statistik Interpretation . . . Vor- und Nachteile der obenstehenden Plots benennen. Vorlesung basiert auf Kapitel 4.3 des Skripts. Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 3 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 4 / 31 Deskriptive und schliessende Statistik Deskriptive Statistik Von Modellen zu Daten I Bisher probabilistische Modelle betrachtet I Rest des Kurses: Analyse von Daten, die von realen System erzeugt wurden I Im Folgenden nehmen wir an, x1 , x2 , . . . , xn seien n Messungen “derselben Grösse” I Übliche Annahme: n unabhängige Messungen von gleicher Wahrscheinlichkeitsverteilung I Formal: Schliessende Statistik I Überblick über Datensätze I aus Daten Schlüsse ziehen I Verteilungen visualisieren I Parameter schätzen I auffällige Eigenschaften finden I Hypothesen testen I Verteilungen mit wenigen Kenngrössen beschreiben i.i.d. Modell: X1 , X2 , . . . , Xn ∼ FX (·) , Stichprobe: x1 , x2 , . . . , xn i.i.d.: “independent and identically distributed”, unabhängig und identisch verteilt Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 5 / 31 Kenngrössen für eine einzelne Stichprobe Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 6 / 31 Deskriptive Statistik für eine einzelne Stichprobe I empirische Varianz und Standardabweichung I I empirischer Median I Messwerte x1 bis x1 8 empirische Quantile I MAO: Enzym, das vermutlich das Verhalten beeinflusst, und dessen Aktivität durch Schizophrenie beeinträchtigt sein kann MAO activity 10 Mittelwert ● ● ● ● ● ● ● ● ● ● ● ● ● ● 5 I Beispieldatensatz: Aktivitätsniveau von Monoamine-Oxidase (MAO) in 18 Patienten mit einem gewissen Typ Schizophrenie 15 ● I ● ● (Quelle: Potkin et al. (1978)) Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 7 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 8 / 31 ● Arithmetisches Mittel ist ein konsistenter Schätzer für den Erwartungswert µ = E [X ]: I Xi → µ wenn n → ∞ i=1 Arithmetisches Mittel ist erwartungstreu (engl. “unbiased”): ● ● I R-Funktionen: var, sd I Empirische Varianz ist ein konsistenter Schätzer für σ 2 = Var(X ): ● ● ● ● ● ● sx2 ● 9 / 31 Empirischer Median I x x − sx ● ● Berechnung: Messwerte ordnen x(1) ≤ x(2) ≤ . . . ≤ x(n) . Median: mx 15 ● ● MAO activity 10 grösser (oder gleich) ist als die Hälfte der Datenpunkte kleiner (oder gleich) ist als die andere Hälfte der Datenpunkte ( x , m = 1((n+1)/2) 2 (x(n/2) + x(n/2+1) ), ● ● ● ● Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences ● falls n gerade ist, sonst 5 I ● 10 / 31 Mittelwert und Median: Vergleich Empirischer Median: Wert, der I → σ wenn n → ∞ x + sx ● E [sx2 ] = σ 2 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences I ● ● ● ● ● ● ● ● 2 Empirische Varianz ist erwartungstreu: I ● E [X ] = µ I ● x ● ● ● ● ● ● 5 1 X = n MAO activity 10 R-Funktion: mean I 15 i=1 I n X Empirische Varianz: n 1 X 2 sx = (xi − x)2 (sx : n−1 i=1 empirische Standardabweichung) I 15 Arithmetisches Mittel: n x1 + . . . + xn 1X x= = xi n n 5 I Empirische Varianz MAO activity 10 Mittelwert (arithmetisches Mittel) ●● ●●●● ● ●● ● ●● mx ●● ● ● ● ●● ●●●● ● ●● ● ●● ● ●● ● ● 10 ● 20 30 MAO activity ● ● ● ● ● ● ● ● ● ● ● x m 40 50 10 mx ● ● ●● ●●●● ● ●● ● ●● 20 30 MAO activity 40 50 mx ● ●● ● ● ●● ●●●● ● ●● ● ●● ● ●● ● ● 10 R-Funktion: median Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 20 30 MAO activity 40 50 10 20 30 MAO activity 40 50 Median ist robust, Mittelwert nicht! 11 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 12 / 31 Quantile I I Verallgemeinerung des Konzepts des Medians Empirisches α-Quantil: Wert qα , der I I I grösser (oder gleich) ist als α · n Messwerte, und kleiner (oder gleich) ist als (1 − α) · n Messwerte Berechnung: I I I Graphische Darstellungen einer einzelnen Stichprobe Daten sortieren: x(1) ≤ x(2) ≤ . . . ≤ x(n) Falls α · (n − 1) eine ganze Zahl ist, ist qα = x(α(n−1)+1) ; ansonsten interpoliert qα zwischen x(bα(n−1)c+1) und x(dα(n−1)e+1) I Histogramm I Boxplot I Empirische kumulative Verteilungsfunktion I später: Q-Q (Quantil-Quantil)-Plot R-Funktion: quantile Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 13 / 31 Histogramm Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 14 / 31 Histogramm: Wahl der Intervall-Breite Wie wählen wir die Intervall-Breite eines Histogramms? 5 10 15 MAO activity 20 Über Intervall (ck−1 , ck ] hk Dichte n(ck − ck−1 ) einzeichnen (oder absolute Häufigkeiten hk ) Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 15 / 31 Density 0.06 0.12 0.00 Density 0.04 0.08 0.00 0 5 10 MAO activity 15 20 5 15 bins 10 15 MAO activity 20 30 bins Density 0.10 0.20 0.00 I Anzahl Messwerte in jedem Intervall zählen: hk := #{i|xi ∈ (ck−1 , ck ]} Bsp.: hk = 2, 5, 4, 3, 1, 2, 0, 1 8 bins 0.00 0.04 I 4 bins Density 0.10 0.20 Density 0.08 0.12 Histogram of x Bereich der gemessenen Werte wird in Intervalle (ck−1 , ck ] unterteilt Bsp.: ck = 4, 6, 8, 10, 12, 14, 16, 18, 20 0.00 I 5 10 MAO activity 15 5 10 MAO activity 15 Herumspielen, oder R automatisch wählen lassen Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 16 / 31 Histogramm für bimodale Verteilung RNA−Expression Nichtparametrische Dichteschätzung RNA−Expression Density 0.10 I I 0.00 0.00 I 0 2 4 6 8 10 12 14 Expressionsniveau 0 2 4 6 8 10 Expressionsniveau 12 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences I 17 / 31 Kerndichteschätzer Gegeben: Messwerte x1 , x2 , . . . , xn I Kerndichteschätzer für Dichte der erzeugenden Verteilung ist n 1 X fˆ(x) = K nh i=1 x − xi h ; K heisst Kern und kann eine beliebige, symmetrische Wahrscheinlichkeitsdichte sein. Häufig verwendet: I Datenpunkte nicht in vordefiniertem Intervall zählen, sondern in “sliding window” Punkte in der Mitte des “sliding window” mehr Gewicht geben als Punkte am Rand Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 18 / 31 Wahl der Bandbreite I I Darstellungsqualität stark von Histogrammbreite abhängig Sprünge der geschätzten Wahrscheinlichkeitsdichte an Intervallgrenzen unrealistisch Alternative: nichtparametrische Dichteschätzung Verbesserungen ggü. Histogramm: I Achtung: schlecht gewählte Intervall-Breite kann Eigenschaften (hier: Bimodalität) verschleiern! I Nachteile von Histogrammen I Density 0.10 0.20 0.20 I I Bandbreite h hat grossen Einfluss auf Kerndichteschätzer I Kleine Bandbreite lässt Schätzer stark oszillieren I Grosse Bandbreite flacht Schätzer ab I Automatische Bandbreitenwahl in R (Funktion density) Rechteck-Kern: K ist Dichte der uniformen Verteilung auf [− 21 , 21 ]; gibt allen Datenpunkten in [x − h, x + h] gleiches Gewicht Gauss-Kern: K ist Dichte der Standard-Normalverteilung; gibt Punkten, die weit von x entfernt sind, weniger Gewicht Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 19 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 20 / 31 Beispiel: Kerndichteschätzer für RNA-Expressionsdaten Boxplot RNA expression ● ● ● ● ● ● ● ● ● ● ● ● ● 0.05 Density 0.10 0.15 MAO activity 10 15 0.20 ● 5 ● 0.00 ● 0 5 10 RNA exp. level 15 R-Funktion: boxplot Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 21 / 31 Boxplot Vergleich: Histogramm, Kerndichteschätzer und Boxplot für bimodale Stichprobe: 12 ● Expressionsniveau 4 6 8 10 0.15 0.25 Density 0.10 Density 0.15 0.20 ● 0.05 2 0 2 4 6 8 10 Expressionsniveau 12 0 Ausreisser RNA−Expression 0.20 RNA expression 0.00 Kleinster normaler Messwert “Normale Messwerte”: Messwerte, die nicht mehr als 1.5 · IQR von den Quartilen entfernt sind RNA−Expression 0.10 Median Unteres Quartil q0.25 Interquartilsabstand IQR (“interquartile range”) IQR = q0.75 − q0.25 0.05 Ausreisser Grösster normaler Messwert Oberes Quartil q0.75 ◦ 22 / 31 Boxplot für bimodale Stichproben 0.00 ◦◦ Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 0 5 10 RNA exp. level 15 Boxplot verschleiert Bimodalität vollständig! Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 23 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 24 / 31 Empirische kumulative Verteilungsfunktion Verschiedene Darstellungen einer bimodalen Stichprobe 0.20 1.0 RNA−Expression 0.8 Fn(x) 0.4 0.6 0.15 Density 0.10 Density 0.15 0.20 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 0 25 / 31 Deskriptive Statistik für mehrere Messgrössen 2 4 6 8 10 Expressionsniveau 12 0.0 0.00 5 10 Expressionsniveau 0.2 0.05 0.10 0.05 0 0.00 0.0 #{k|xk ≤ x} n F̂ (x) = RNA expression 0.25 0.8 Empirische kumulative Verteilungsfunktion einer Stichprobe x1 , x2 , . . . , xn : Fn(x) 0.4 0.6 I RNA−Expression 0.2 Zur Erinnerung: kumulative Verteilungsfunktion einer Zufallsvariablen X ist definiert als FX = P[X ≤ x] 1.0 RNA−Expression I 0 5 10 RNA exp. level 15 0 5 10 Expressionsniveau Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 26 / 31 Pearsons Korrelationskoeffizient I Streudiagramm: 120 (Pearsons) Korrelationskoeffizient: ● ● NO2 (µ g m3) 60 80 100 ● ● ● ● ● ● ● ● ● ●● sxy i=1 ● ● ● ● ●● ● ● ● 40 ● ● Pearsons Korrelationskoeffizient misst die lineare Beziehung zwischen 2 Stichproben {xi } and {yi }: I r = +1 falls yi = a + bxi für eine reelle Zahl b > 0 I r = −1 falls yi = a + bxi für eine reelle Zahl b < 0 Achtung: verschiedene nichtlineare Abhängigkeiten können zum selben Korrelationskoeffizienten führen! In R: ● ● sxy ∈ [−1, 1] , sx sy n 1 X = (xi − x)(yi − y ) n−1 r= > cor(no2$NO2, no2$Temp) ● ● −5 0 Temp (°C) 5 [1] 0.6799612 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 27 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 28 / 31 Pearsons Korrelationskoeffizient II 1 0.8 0.4 0 Rangkorrelation -0.4 -0.8 I -1 (Spearsons) Rangkorrelationskoeffizient: Alternative zu Pearsons Korrelationskoeffizient I 1 1 1 -1 -1 -1 I I I 0 0 0 0 0 0 Berechnung: I 0 I I Streudiagramme verschiedener simulierter Datensätze und ihr Korrelationskoeffizient I In R: [1] 0.6160592 29 / 31 Literatur Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Are paranoid schizophrenics biologically different from other schizophrenics? New England Journal of Medicine, 298(2):61–66, 1978. Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences Ränge ki der Datenpunkte x1 , x2 , . . . , xn berechnen: kleinster Messwert hat Rang 1, zweitkleinster Rang 2, etc. Ränge li der Datenpunkt y1 , y2 , . . . , yn berechnen Spearsons Rangkorrelationskoeffizient: ρ = rkl (d.h., Pearsons Korrelationskoeffizient zwischen ki und li ) > cor(no2$NO2, no2$Temp, method = "spearman") Quelle: http://de.wikipedia.org/wiki/Korrelationskoeffizient Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences Misst, wie “monoton” Zusammenhang zwischen zwei Stichproben ist Misst auch nichtlineare Zusammenhänge Robust gegen Ausreisser 31 / 31 Berner Fachhochschule | Haute école spécialisée bernoise | Bern University of Applied Sciences 30 / 31