Biostatistik I Jürgen Dippon Institut für Stochastik und Anwendungen (ISA) Universität Stuttgart 11. Dezember 2012 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 1 / 435 11. Dezember 2012 2 / 435 Teil I Deskriptive Statistik Jürgen Dippon (ISA) Biostatistik I Deskriptive Statistik 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 3 / 435 11. Dezember 2012 4 / 435 1. Einführung 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Biostatistik I 1. Einführung Einführung Grundaufgabe der Statistik Beschreiben (Deskription) Suchen (Exploration) Schlieÿen (Induktion) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 5 / 435 1. Einführung Die deskriptive Statistik dient zur beschreibenden und graschen Aufarbeitung und Komprimierung von Daten. Beschrieben werden Merkmale oder Variablen, die gewisse Ausprägungen oder Werte besitzen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 6 / 435 1. Einführung Unterschiedliche Typen von Variablen Zielgröÿen Einussgröÿen oder Faktoren Störgröÿen oder latente Gröÿen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 7 / 435 1. Einführung Deskriptive Statistik wird auch zur Datenvalidierung eingesetzt: Sind die erhobenen Daten plausibel und vertrauenswürdig? Mögliche Probleme: Passt die Gröÿenordnung? Gibt es Ausreiser? Gibt es Hinweise auf Übertragungs- oder Eingabefehler? Wurden die Daten eventuell gefälscht? Deskriptive Statistik verwendet im Gegensatz zur induktiven Statistik keine Wahrscheinlichkeitstheorie. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 8 / 435 1. Einführung Die explorative Statistik sucht Strukturen oder Besonderheiten in den Daten und dient zur Hypothesengewinnung. Hypothesen können schlieÿlich in der induktiven Statistik formal mit wahrscheinlichkeitstheoretischen Methoden überprüft werden, z.B. kann mit groÿer Sicherheit geschlossen werden, dass ein in der Stichprobe gefundener Zusammenhang auch in der Grundgesamtheit vorliegt ? Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 9 / 435 1. Einführung Wichtige Grundbegrie Statistische Einheit: Objekte, an denen interessierende Gröÿen erfasst werden Grundgesamtheit, Population: Menge aller für die Fragestellung relevanten statistischen Einheiten Teilgesamtheit: Teilmenge der Grundgesamtheit Stichprobe: tatsächlich untersuchte Teilmenge der Grundgesamtheit Merkmal: interessierende Gröÿe, Variable Merkmalsausprägung: konkreter Wert des Merkmals für eine statistische Einheit Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 10 / 435 1. Einführung Charakterisierung von Merkmalen diskretes Merkmal: Menge der Merkmalsausprägung ist abzählbar stetiges Merkmal: Merkmale nehmen Werte aus einem Intervall an quasistetige Merkmale: Merkmal ist von seiner Natur her stetig, mögliche Werte aber, z.B. aufgrund des Messprozesses, abzählbar Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 11 / 435 1. Einführung Unterscheidung von Merkmalen aufgrund ihrer Skalenniveaus: 1 Nominalskala: Merkmalsausprägungen sind Namen oder Kategorien (z.B. Haarfarbe, Religion) (endliche Menge) 2 Ordinalskala: Ausprägungen können geordnet werden (z.B. Tumorstadien, Schulnoten) 3 Intervallskala: Abstände zwischen Ausprägungen können interpretiert werden (z.B. Temperatur auf der Celsius-Skala, Jahreszahlen, IQ-Skala) 4 Verhältnisskala: Quotienten zwischen Ausprägungen können interpretiert werden (z.B. Temperatur in Kelvin, Gewicht in kg, Preis in Euro) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 12 / 435 1. Einführung Weitere Unterscheidung: Qualitative Merkmale (endlich viele Ausprägungen, höchstens ordinal skaliert) versus quantitative Merkmale (spiegeln eine Intensität wider) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 13 / 435 1. Einführung Elemente der Versuchsplanung Notwendigkeit eines Versuchsplans Wie lautet das Ziel der Studie oder des Experiments ? Wie soll das Ziel erreicht werden ? Statistische Methoden Fallzahl Wie lassen sich Störvariablen kontrollieren ? (z.B. durch Homogenisierung, Randomisierung, Parallelisierung, Kontrolle der Störvariablen im Rahmen eines statistischen Modells) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 14 / 435 1. Einführung Datengewinnung kann erfolgen in einem Experiment einer Erhebung I I im Rahmen einer Vollerhebung einer Stichprobe Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 15 / 435 1. Einführung Verschiedene Methoden der Stichprobenbildung einfache Zufallsstichprobe systematische Ziehung (z.B. jeder siebte Patient) geschichtete Zufallsstichproben (z.B. ziehe je eine Zufallsstichprobe aus der Gruppe der Männer und der Frauen) Klumpenstichprobe (z.B. Vollerhebung aller Tiere aus zufällig ausgewählten Herden). mehrstuge Auswahlverfahren Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 16 / 435 1. Einführung Studiendesigns Querschnittstudie: mehrere Objekte werden zu einem Zeitpunkt beobachtet Zeitreihe: ein Objekt wird zu mehreren Zeitpunkten beobachtet Längsschnittstudie, Panel: mehrere Objekte und zwar immer die gleichen werden zu Jürgen Dippon (ISA) mehreren Zeitpunkten beobachtet Biostatistik I 11. Dezember 2012 17 / 435 11. Dezember 2012 18 / 435 2. Deskriptive Statistik univariater Daten 1 Einführung 2 Deskriptive Statistik univariater Daten Verteilungen und ihre Darstellungen Beschreibung von Verteilungen Lagemaÿe Quantile und Box-Plot Streuungsmaÿe Maÿzahlen für Schiefe und Wölbung Dichtekurven und Normalverteilung 3 Deskriptive Statistik multivariater Daten Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten Deskriptive Statistik univariater Daten In diesem Kapitel betrachten wir Merkmalsträger mit nur einem Merkmal. Im nächsten Kapitel betrachten wir auch Merkmalsträger mit mehreren Merkmalen. Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 19 / 435 2.1. Verteilungen und ihre Darstellungen Häugkeitsverteilung X x| , .{z. . , xn} Ein Merkmal werde an n Untersuchungseinheiten beobachtet: 1 sog. Urliste, Roh- oder Primärdaten Problem: schon bei moderatem Stichprobenumfang unübersichtlich a , . . . , ak h(aj ) = hj f (aj ) = fj = hnj h , . . . , fk f , . . . , fk k n Die dabei auftretenden verschiedenen Merkmalsausprägungen werden mit bezeichnet 1 ( ≤ ) xi x , . . . , xn aj Anzahl der aus 1 mit d.h. relative Häugkeit von 1 absolute Häugkeitsverteilung 1 relative Häugkeitsverteilung Jürgen Dippon (ISA) aj xi = aj absolute Häugkeit der Ausprägung Biostatistik I 11. Dezember 2012 20 / 435 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Grasche Methoden für univariate Daten Stabdiagramm: Trage über a1 , . . . , ak senkrechten Strich (Stab) mit Höhe h , . . . , hk f jeweils einen zur 1 x fk -Achse (oder 1 , . . . , ) ab. Säulendiagramm: Wie Stabdiagramm, aber mit Rechtecken statt Strichen Balkendiagramm: Wie Säulendiagramm, aber mit vertikal statt horizontal gelegter x -Achse Kreisdiagramm: Flächen der Kreissektoren proportional zu den Häugkeiten: Winkel des Kreissektors Jürgen Dippon (ISA) j : fj · Biostatistik I 2. Deskriptive Statistik univariater Daten 360 ◦ 11. Dezember 2012 21 / 435 2.1. Verteilungen und ihre Darstellungen ## Anzahl der Tiere je Wurf in 12 Würfen x <- c ("2" ,"2" ,"3" ,"3" ,"3" ,"4" ,"2" ,"5" ,"5" ,"4" ,"4" ,"3") n <- length ( x ) h <- table ( x ) ## absolute Haeufigkeitsverteilung f <- h /n ## relative Haeufigkeitsverteilung ## Stabdiagramm plot ( h ) plot ( h / n ) ## Säulendiagramm barplot ( h ) barplot ( h / n ) ## Balkendiagramm barplot (h , horiz = TRUE ) ## Kreisdiagramm pie ( h ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 22 / 435 2. Deskriptive Statistik univariater Daten Jürgen Dippon (ISA) 2.1. Verteilungen und ihre Darstellungen Biostatistik I 11. Dezember 2012 Abbildung: Grasche Methoden zur Datenvisualisierung 2. Deskriptive Statistik univariater Daten 23 / 435 2.1. Verteilungen und ihre Darstellungen Stamm-Blatt-Diagramm: Die Urliste wird bis auf Rundungen in einer dem Histogramm ähnlichen Darstellung reproduziert.Das Diagramm wird erzeugt mittels: x <- c (2.46 , 2.3 , 3.1 , 3.6 , 3.8 , 4.4 , 2.7 , 5.9 , 5.9 , 4.1 , 4.4 , 3.6) stem ( x ) Das ausgegebene Diagramm ist: 2 3 4 5 | | | | 357 1668 144 99 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 24 / 435 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Histogramm Für gröÿere Datensätze besser geeignet: c c ), [c , c ), . . . , [ck , ck ) Histogramme: Gruppiere die Daten in Klassen, bestehend aus benachbarten [ 0, Intervallen 1 1 2 −1 Zeichne über diesen Klassen Rechtecke mit: dj = cj − cj Breite : Höhe : gleich (oder proportional zu) Fläche : gleich (oder proportional zu) −1 Jürgen Dippon (ISA) hj dj hj bzw bzw Biostatistik I 2. Deskriptive Statistik univariater Daten fj dj fj 11. Dezember 2012 25 / 435 2.1. Verteilungen und ihre Darstellungen Histogramm ist so konstruiert, dass die dargestellten Flächen proportional zu den absoluten bzw. relativen Häugkeiten (Prinzip der Flächentreue). Wähle, falls möglich, die Klassenbreiten d , . . . , dk 1 gleich. Faustregeln für die Klassenzahl: k = [√n] oder k = [√n ] 2 oder k=[ 10 log10 n] ... oder nach subjektivem Empnden. Hierbei ist x [ ] die gröÿte ganze Zahl kleiner gleich der reellen Zahl Jürgen Dippon (ISA) Biostatistik I x 11. Dezember 2012 . 26 / 435 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen ## Normalverteilte Zufallszahlen x <- rnorm (20) ## Stamm - Blatt - Diagramm stem ( x ) ## Histogramm hist ( x ) hist (x , freq = FALSE ) ## Empirische Verteilungsfunktion F <- ecdf ( x ) plot ( F ) Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 27 / 435 2.1. Verteilungen und ihre Darstellungen Abbildung: Weitere Methoden zur Datenvisualisierung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 28 / 435 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Viele empirische Verteilungen sind unimodal (eingipig), es sind aber auch bi- oder multimodale (zwei- oder mehrgipige) Verteilungen zu beobachten (z.B. bei geschichteten Daten) Symmetrische Verteilung linkssteile oder rechtsschiefe Verteilungen rechtssteile oder linksschiefe Verteilungen Ist das betrachtete Merkmal ordinalskaliert, so lassen sich die beobachteten Ausprägungen ordnen: Jürgen Dippon (ISA) a 1 a < ... < k Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 29 / 435 2.1. Verteilungen und ihre Darstellungen Kumulierte Häugkeitsverteilung Absolute kumulierte Häugkeitsverteilung: ∀ x ∈R H (x ) Hierbei ist = = aj xi ≤ x h(a ) + . . . + h(aj ) = Pi ai x hi aj ≤ x Anzahl der Werte xi mit 1 : ≤ die gröÿte Ausprägung mit Jürgen Dippon (ISA) Biostatistik I (also ist aj +1 > x ) 11. Dezember 2012 30 / 435 2. Deskriptive Statistik univariater Daten 2.1. Verteilungen und ihre Darstellungen Empirische Verteilungsfunktion Wichtiger: Relative kumutierte Häugkeitsverteilung oder Verteilungsfunktion F (x ) = H (nx ) = = f (a ) + . . . + f (aj ) = relativer Anzahl der Werte 1 wobei aj ≤ x und aj +1 > x X i : ai ≤x fi xi empirische mit xi ≤ x . Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 31 / 435 2.2. Beschreibung von Verteilungen Lagemaÿe Gesucht sind Maÿzahlen oder Parameter von Verteilungen Ein Lagemaÿ (im engeren Sinne) ist eine Abbildung L : Rn → R, falls ∀ a∈R ∀ x1 ,...,xn ∈R Jürgen Dippon (ISA) L(x + a, . . . , xn + a) = L(x , . . . , xn) + a 1 1 Biostatistik I 11. Dezember 2012 32 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Arithmetisches Mittel Beispiele für Lagemaÿe: Arithmetisches Mittel: x̄ = n (x 1 1 f fk =1 Für Häugkeitsdaten mit Ausprägungen Häugkeiten 1 , . . . , gilt x̄ = a f 1 1 n X x n xi i a , . . . , ak + . . . + n) = 1 und relativen 1 af + ... + k k = k X j =1 aj fj (gewichtetes Mittel) Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 33 / 435 2.2. Beschreibung von Verteilungen Das arithmetische Mittel ist i.a. nur für quantitative Merkmale sinnvoll deniert. Für das arithmetische Mittel gilt (Schwerpunkteigenschaft) Umfängen x x̄ r n , . . . , nr x̄ . . . , x̄r r X x̄ = n (n x̄ + . . . + nr x̄r ) = n ni x̄i i Stichprobe vom Umfang 1 n n X ( i− )=0 i =1 , verteilt auf und arith. Mitteln Schichten mit jeweiligen , so gilt 1 1 1 1 1 =1 Beobachtung: arithmetische Mittel reagieren empndlich gegen Ausreiÿer, wohingegen der Median ein Jürgen Dippon (ISA) robustes Lagemaÿ ist. Biostatistik I 11. Dezember 2012 34 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Median Urliste x , . . . , xn 1 geordnete Urliste Der (empirische) x (1) ≤ ... ≤ Median von xn x , . . . , xn ( ) 1 ist deniert durch xmed = x (nx n + x n ( 1 ( + 2 ) 1 2 (2) für ( 2 +1) ) für n n ungerade gerade Denition sinnvoll für ordinale Merkmale (oder besser) Eigenschaften des Medians: Mindestens 50% der Daten sind x x ( ≤ med ≥ med Median häug einfacher zu interpretieren als das arithmetische Mittel Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 35 / 435 2.2. Beschreibung von Verteilungen Modus Der Modus von x1 , . . . , xn xmod = ist deniert durch Ausprägung mit gröÿter Häugkeit Modus nur eindeutig, falls die Häugkeitsverteilung ein eindeutiges Maximum besitzt. Denition schon für nominalskalierte Merkmale sinnvoll. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 36 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Lageregeln Symetrische Verteilungen Linkssteile Verteilungen Rechtssteile Verteilungen x̄ ≈ xmed ≈ xmod x̄ > xmed > xmod x̄ < xmed < xmod Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 37 / 435 2.2. Beschreibung von Verteilungen Im Folgenden stellen wir noch weitere Maÿe für die Lage einer Verteilung vor, die jedoch keine Lageparameter im oben genannten Sinne sind ri Zur Motivation ein Beispiel: Sei Dann beträgt die Populationsgröÿe im 0 1 0 Jürgen Dippon (ISA) i Pn n Pn = P ( + r ) · . . . · ( + rn) n Y =P ( + ri ) die Wachstumsrate einer Tierpopulation im 1 -ten Jahr -ten Jahr 1 1 i =1 Biostatistik I 11. Dezember 2012 38 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Geometrisches Mittel Das geometrische Mittel zu den Faktoren x1 , . . . , xn xgeom = (x 1 Dann ist x ist 1 · . . . · n) n !1 n n Y (1 + i ) i =1 r der mittlere Wachstumsfaktor und n Y i =1 r !1 n (1 + i ) −1 die mittlere Wachstumsrate. Da xgeom ≤ x̄ täuscht x̄ statt Jürgen Dippon (ISA) xgeom überhöhte Wachstumsraten vor. Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 39 / 435 2.2. Beschreibung von Verteilungen Harmonisches Mittel Das harmonische Mittel xharm = 1 Pn 1 1 n i =1 x i ist z.B. zur Ermittlung der Durchschnittsgeschwindigkeit geeignet. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 40 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Quantile und Box-Plot x Jeder Wert ≤ p xp mit 0 p < p< und mindestens ein Anteil 1 (empirisches) np] [ Speziell: x x x 0.25 0.5 = = 0.75 − der Daten -Quantil der Stichprobe. Damit gilt für das Dabei ist p p x 1, für den mindestens ein Anteil ≥ p p der Daten ist, heiÿt -Quantil: xp = x np , xp ∈ [x np , x np np ([ ]+1) wenn ( ) +1) ], wenn ( die gröÿte ganze Zahl mit nicht ganzzahlig np ≤ np ganzzahlig 25%-Quantil = unteres Quartil 50%-Quantil = Median = 75%-Quantil = oberes Quartil Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 41 / 435 2.2. Beschreibung von Verteilungen Quantile und Box-Plot Abbildung: Darstellung der Quantile Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 42 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen dQ = x Interquartilsabstand: − 0.75 x 0.25 5-Punkte-Zusammenfassung einer Verteilung: x ,x ,x ,x ,x min 0.25 med 0.75 max Grasche Darstellung der 5-Punkte-Zusammenfassung einer Verteilung mittels eines Box-Plots Abbildung: Box-Plot Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 43 / 435 2.2. Beschreibung von Verteilungen x <- airquality$Ozone x quantile (x , probs = c (0.25 ,0.75)) ## 25% - und 75% - Quantil summary ( x ) ## 5 - Punkte - Zusammenfassung einer Verteilung boxplot ( x ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 44 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Streuungsmaÿe Ein die Streuungsmaÿ (im engeren Sinne) ist eine Abbildung S : Rn → R, für ∀ a∈R S (x + a, . . . , xn + a) = S (x , . . . , xn) ∀ x1 ,...,xn 1 1 Beispiele für Streuungsmaÿe: Stichprobenspannweite x(n) − x(1) Interquartilsabstand dQ = x0.75 − x0.25 Standardabweichung s̃ wobei s̃ = n {(x − x ) 2 die sog. 1 1 2 x x 2 + ... + ( n − ) } = n X ni x x 1 ( i − )2 =1 empirische Varianz der Stichprobe. Beachte: s̃ ist nur für metrische Merkmale deniert! Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 45 / 435 2.2. Beschreibung von Verteilungen Im Falle von Häugkeitsdaten gilt: s̃ 2 a − x) f =( 1 2 1 a x f 2 + ... + ( k − ) k = s̃ n X (xi − x ) Häug wird statt der empirischen Varianz s = n− 2 1 2 k X j =1 auch die a x f ( j − )2 j Stichprobenvarianz 2 1 i =1 verwendet. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 46 / 435 2. Deskriptive Statistik univariater Daten Da x x 2.2. Beschreibung von Verteilungen x x n n ( n − ) bereits durch die ersten ( − 1) festgelegt. ( − 1) ist deshalb auch die Anzahl der P ( i − ) = 0, Abweichungen ist Freiheitsgrade. Verschiebungssatz: n X ∀ Für c= i ∈R i =1 x c n X 2 ( i− ) = i =1 x x nx c ( i − )2 + ( − )2 0 folgt die praktische Darstellung s̃ ( 2 = n 1 X n i xi − x xi yi = a + bxi ) 2 =1 Bei linearer Transformation der Daten Transformationssatz s̃y = b s̃x 2 2 2 2 Jürgen Dippon (ISA) zu s̃y = |b|s̃x bzw. Biostatistik I 2. Deskriptive Statistik univariater Daten folgt der 11. Dezember 2012 47 / 435 2.2. Beschreibung von Verteilungen Standardabweichung und Varianz sind sehr empndlich gegen Ausreiÿer. Robuste Alternativen: Mittlere absolute Abweichung vom Median n X n i |xi − x 1 0.5 | =1 Mediane absolute Abweichung vom Median Median von x −x {| 1 0.5 Ein Streumaÿ im weiteren Sinne ist der x x |, . . . , | n − 0.5 |} Variationskoezient v = xs̃ welcher für Merkmale mit nichtnegativen Ausprägungen und positivem arithmetischem Mittel sinnvoll deniert ist. Der Variationskoezient liefert ein maÿstabsunabhängiges Streumaÿ. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 48 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen max ( x ) - min ( x ) ## Stichprobenspannweite iqr ( x ) ## Interquartilsabstand sd ( x ) ## Standardabweichung ( mit Nenner n -1) var ( x ) ## Stichprobenvarianz ( mit Nenner n -1) var ( x +10) ## Verschiebungsinvarianz der Varianz mean ( abs (x - median ( x ))) ## mittlere Abweichung vom Median sd ( x )/ mean ( x ) ## Variationskoeffizient Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 49 / 435 2.2. Beschreibung von Verteilungen Maÿzahlen für Schiefe und Wölbung Verteilungen können sich nicht nur hinsichtlich Lage und Schiefe, sondern auch in Bezug auf Symmetrie oder Schiefe und durch ihre Wölbung (Kurtosis) unterscheiden. (Empirischer) gp = (x p= . Quantilskoezient der Schiefe: 1− Für x x x x 0 25 erhält man den Bei x p − med ) − ( med − p ) 1−p − p symmetrischen p∈( , 0 0.5) Quartilskoezienten. Verteilungen gilt linkssteilen rechtssteilen Jürgen Dippon (ISA) für ein festes Biostatistik I gp ≈ gp > gp < 0 0 0 11. Dezember 2012 50 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen Maÿzahlen für Schiefe und Wölbung gp Der Nenner in stellt sicher, dass g −1 ≤ p ≤ 1. Quantilskoezienten sind robust im Gegensatz zum der Schiefe: gm = ms̃ 3 mit 3 s̃ gm Momentenkoezient n X m = n (xi − x̄ ) i 1 3 3 =1 Interpretation wie beim Quantilskoezienten. Division mit 3 macht maÿstabsunabhängig. Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 51 / 435 2.2. Beschreibung von Verteilungen Wölbungsmaÿ von Fisher Das (empirische) Wölbungsmaÿ von Fisher ist deniert durch m γ= s̃ 4 4 −3 mit m =n 1 4 n X ( i − )4 i =1 Bei Normalverteilung gilt bei spitzeren Verteilungen gilt bei acheren Verteilungen gilt Jürgen Dippon (ISA) Biostatistik I x x̄ γ≈0 γ>0 γ<0 11. Dezember 2012 52 / 435 2. Deskriptive Statistik univariater Daten 2.2. Beschreibung von Verteilungen ## Herzgewicht von Katzen library ( MASS ) help ( cats ) attach ( cats ) ## ab jetzt Spalten direkt ansprechen hist ( Hwt ); density ( Hwt ) q12 <- quantile ( Hwt , c (0.25 ,0.75)) names ( q12 ) <- NULL ## Kosmetik dQ <- q12 [2] - q12 [1] ## Interquartilsabstand ## Quartilskoeeffizient für die Schiefe m <- median ( Hwt ) (( q12 [2] - m ) -(m - q12 [1]))/ dQ ## Momentenkoeffizient für die Schiefe m3 <- mean (( Hwt - mean ( Hwt ))^3) m3 / sd ( Hwt )^3 ## Daten linkssteil ## Wölbungsmaÿ von Fisher m4 <- mean (( Hwt - mean ( Hwt ))^4) m4 / sd ( Hwt )^4 -3 ## Daten spitzer als Normalverteilung Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten 11. Dezember 2012 53 / 435 2.3. Dichtekurven und Normalverteilung Dichtekurven und Normalverteilung Zur Darstellung der Verteilung eines metrischen Merkmals kann z.B. die empirische Verteilungsfunktion oder instruktiver das Histogramm verwendet werden. Abbildung: Empirische Verteilungsfunktion Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 54 / 435 2. Deskriptive Statistik univariater Daten 2.3. Dichtekurven und Normalverteilung Nachteil: selbst bei stetigen Merkmalen ist das Histogramm eine Treppenfunktion, die u.U. groÿe Sprünge ausweist. f Dichte(kurve), wenn f (x ) ≥ 0 und Deshalb: Approximiere das Histogramm durch eine stetige Dichtefunktion. f (x )dx = p ∈ ( , ) xp Eine stetige Funktion R R 1 Für ist eine p-Quantil 0 1 ist das p= Z xp f (x )dx −∞ der Dichte und Jürgen Dippon (ISA) 1 f − , falls p= Z xp Biostatistik I 2. Deskriptive Statistik univariater Daten ∞ f (x )dx ! 11. Dezember 2012 55 / 435 2.3. Dichtekurven und Normalverteilung Dichte der Normalverteilung Wichtiges Beispiel einer Dichtekurve: Dichte der Normalverteilung f (x |µ, σ) = σ√ π 1 2 µ∈R heiÿt Mittelwert, exp σ>0 − 1 x −µ 2 σ , Standardabweichung von (genaue Denitionen dieser beiden Begrie später) Jürgen Dippon (ISA) x ∈R 2 ! Biostatistik I f (x |µ, σ) 11. Dezember 2012 56 / 435 2. Deskriptive Statistik univariater Daten 2.3. Dichtekurven und Normalverteilung Viele in der Anwedung auftretende Verteilungen können unter Verwendung einer Normalverteilung gut approximiert werden. Sind und x , . . . , xn σ s̃ 1 durch Beobachtungen eines solchen Merkmals, so wird Biostatistik I 2. Deskriptive Statistik univariater Daten f 11. Dezember 2012 σ, x̃ 57 / 435 2.3. Dichtekurven und Normalverteilung die Dichtekurve einer normalverteilten Variablen und Standardabweichung X mit Mittelwert µ dann besitzt die standardisierte Variable Z = X σ− µ die Dichtekurve einer Normalverteilung mit Z durch approximiert. Jürgen Dippon (ISA) Ist µ µ=0 und σ=1 Standardnormalverteilung und die Variable entsprechend standardnormalverteilt. Diese Normalverteilung heiÿt Die zugehörige Dichtekurve wird mit z φ 1 φ( ) = √ 2π bezeichnet, also exp z − 2 2 Quantile der Standardnormalverteilung ndet man in Tabellen oder mittels Statistiksoftware. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 58 / 435 2. Deskriptive Statistik univariater Daten Quantile xp zp 2.3. Dichtekurven und Normalverteilung einer Normalverteilung mit Mittelwert mit den den Quantilen Transformation µ und Varianz σ stehen der Standardnormalverteilung über die lineare xp = µ + σzp in Beziehung. -σ-Regel für normalverteilte Merkmale: Daraus ergibt sich die 3 68% der Beobachtungen liegen im Intervall 95% der Beobachtungen liegen im Intervall 99, 7% der Beobachtungen liegen im Intervall Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten µ±σ µ ± 2σ µ ± 3σ 11. Dezember 2012 59 / 435 2.3. Dichtekurven und Normalverteilung Normal-Quantil-Plots Statt die Häugkeitsverteilung der Beobachtungen einer Variablen X direkt mit einer Normalverteilung zu vergleichen, werden bei Normal-Quantil-Plots die Quantile der Häugkeitsverteilung mit den entsprechenden Quantilen der Standardnormalverteilung verglichen: x z x ,...,z n (1) , . . . , (n) geordnete Stichprobe (1) n -Quantil, ( ) 1 1−0,5 n n -Quantil oder besser n n−0,5 -Quantil der ..., n ..., -Quantil, Standardnormalverteilung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 60 / 435 2. Deskriptive Statistik univariater Daten Der Normal-Quantil-Plot besteht aus den Punkten z ,x ( im 2.3. Dichtekurven und Normalverteilung zx (1) z x (1) ), . . . , ( (n) , (n) ) - -Koordinatensystem. z x Ist die empirische Verteilung der Beobachtung approximativ z =x standard-normalverteilt, liegen die Punkte oder auf der Winkelhalbierenden Jürgen Dippon (ISA) Biostatistik I 2. Deskriptive Statistik univariater Daten ( (i ) , (i ) ) des NQ-Plots nahe an 11. Dezember 2012 61 / 435 2.3. Dichtekurven und Normalverteilung ## Erzeugung normalverteilter ( Pseudo -) Zufallszahlen x <- rnorm (100 , mean =2 , sd =2) plot ( ecdf ( x ) , verticals = TRUE ) hist (x , freq = FALSE ) rug ( x ) ## Standardisieren z <- (x - mean ( x ))/ sd ( x ) hist (z , freq = FALSE ) ## Hinzufügen der Dichtekurve einer N (0 ,1) - Verteilung g <- seq ( -3 ,3 , by =0.01) lines (g , dnorm ( g ) , col =" blue ") ## Normal - Quantil - Plot qqnorm ( x ) qqline ( x ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 62 / 435 3. Deskriptive Statistik multivariater Daten 1 Einführung 2 Deskriptive Statistik univariater Daten 3 Deskriptive Statistik multivariater Daten Diskrete multivariate Daten Quantitative multivariate Merkmale Grasche Darstellungen quantitativer Merkmale Zusammenhangsmaÿe bei quantitativen Merkmalen Lineare Regression R Beispiel Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 63 / 435 3. Deskriptive Statistik multivariater Daten Deskriptive Statistik multivariater Daten In diesem Abschnitt stellen wir grasche und rechnerische Methoden zur Darstellung multivariater Daten vor. Insbesondere geht es um die Frage, wie eventuelle Zusammenhänge von Merkmalen erkannt werden können. Gemäÿ dem deskriptive Ansatz können wir diese Frage hier nur recht vorläug beantworten. Erst unter Verwendung von wahrscheinlichkeitstheoretischen Methoden kann im Rahmen der induktiven Statistik diese Frage zufriedenstellend gelöst werden. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 64 / 435 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Diskrete multivariate Daten Eine Sonntagsfrage lieferte folgende Häugkeitstabelle oder Kontigenztafel: CDU/CSU SPD FDP Grüne Rest Männer 144 153 17 26 95 435 Frauen 200 145 30 50 71 496 344 298 47 76 166 931 Y Besteht ein Zusammenhang zwischen dem Geschlecht Parteipräferenz ? Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten X und der 11. Dezember 2012 65 / 435 3.1. Diskrete multivariate Daten Kontingenztafel der absoluten Häugkeiten a . . . , ak X b , . . . , bm Y (k × m)-Kontingenztafel der absoluten Häugkeiten 1 Merkmalswerte der Variablen 1 Merkmalswerte der Variablen X hij = h(ai , bj ) h , . . . , hk h ,...,hm n 1· ·1 · · b a h ak hk h Y 1 ... 1 11 ... . . . . . . 1 ... ·1 ... bm hm h hkm hk hm 1 1· . . . . . . · · n X Y absolute Häugkeit der Kombination Randhäugkeiten der Variablen Randhäugkeiten der Variablen Stichprobenumfang Jürgen Dippon (ISA) Biostatistik I ab ( i, j) (Zeilensummen) (Spaltensummen) 11. Dezember 2012 66 / 435 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Kontingenztafel der relativen Häugkeiten k m)-Kontingenztafel der relativen Häugkeiten ( × X fij = Phnij m fi = j fij = hni f j = Pki fij = fnj · · · =1 · =1 Jürgen Dippon (ISA) b a f ak fk f Y 1 ... 1 11 ... . . . . . . bm fm f fkm fk fm 1 . . . 1 ... ·1 ... · 1· . . . · 1 relative Häugkeit der Kombination ab X Y ( i, j) relative Randhäugkeiten der Variablen (Zeilensummen) relative Randhäugkeiten der Variablen (Spaltensummen) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 67 / 435 3.1. Diskrete multivariate Daten Grasche Darstellung von (k × m)-Kontingenztafeln Säulendiagramm Säulenhöhe proportional zu hij bzw. fij Mosaikplot Flächeninhalt der Rechtecke proportional zu Jürgen Dippon (ISA) Biostatistik I hij 11. Dezember 2012 bzw. fij 68 / 435 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) , nrow =2 , byrow = TRUE ); h f <- h / sum ( h ) f dimnames ( h )[[1]] <- c (" Männer " ," Frauen ") dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ") h barplot (h , beside = TRUE ) mosaicplot (h , col = c (" black " ," red " ," yellow " ," green " ," gray ")) Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 69 / 435 3.1. Diskrete multivariate Daten Zusammenhangsanalyse in Kontingenztafeln Wie kann ein Zusammenhang von nominalen Merkmalen quantiziert werden? X Sind die beiden Merkmale b a h ak hk h Y 1 ... 1 11 ... . . . . . . X und 1 ... ·1 ... Y bm hm h hkm hk hm 1 1· . . . . . . · · n unabhängig, würde man erwarten, dass die Spalten proportional proportional zur Spalte der Zeilensummen sind. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 70 / 435 3. Deskriptive Statistik multivariater Daten 3.1. Diskrete multivariate Daten Also: ∀ j ∈{1,...,m} hj ≈ hkj 1 . . . h hk proportional zu 1· . . . · oder äquivalent h j /h j ≈ hkj /h j X ∀ j ∈{1,...,m} Y = bj 1 . . . proportional zu · Denn dann wäre die Verteilung von · Kurz: ∀ i ,j Jürgen Dippon (ISA) h /n hk /n · 1· . . . · unabhängig von der Ausprägung hij ≈ hi n· h j · · Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 71 / 435 3.1. Diskrete multivariate Daten Wir bezeichnen jetzt mit hij h h e hij = i n j ·· · die beobachteten Häugkeiten Zusammenhang zwischen den Merkmalen vorliegt Der sog. X Y die Häugkeiten, die zu erwarten sind, wenn kein χ2 -Koezient und ist deniert durch h h h k X m X ( ij − eij )2 2 χ = eij i =1 j =1 ∈ [0, ∞) und dient zur Messung der Diskrepanz zwischen der beobachteten Verteilung und der Verteilung, die man bei Unabhängigkeit der beiden Merkmale erwarten würde. Der Nenner dient zur Normierung. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 72 / 435 3. Deskriptive Statistik multivariater Daten Zur Interpretation des Hängen Hängen X X und und Y Y 3.1. Diskrete multivariate Daten χ2 -Koezienten: voneinander ab, sollte χ2 groÿ sein. nicht voneinander ab, sollte χ2 nahe bei Null sein. Erst die induktive Statistik stellt Methoden zur Verfügung, um zu X Y entscheiden, ob die beobachteten Daten Anlass geben, an der Unabhängigkeit der Merkmale Jürgen Dippon (ISA) und zu zweifeln. Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 73 / 435 3.1. Diskrete multivariate Daten h <- matrix ( c (144 ,153 ,17 ,26 ,95 ,200 ,145 ,30 ,50 ,71) , nrow =2 , byrow = TRUE ); h f <- h / sum ( h ); f dimnames ( h )[[1]] <- c (" Männer " ," Frauen ") dimnames ( h )[[2]] <- c (" CDU / CSU " ," SPD " ," FDP " ," Grüne " ," Rest ") h z . sum <- apply (h ,1 , sum ) # Zeilensummen ; z. sum s . sum <- apply (h ,2 , sum ) # Spaltensummen ; s . sum n <- sum ( h ) htilde <- z . sum %*% t ( s . sum )/ n # erw . Häufigkeiten bei Unabh . htilde chisquare . coeff <- sum (( h - htilde )^2/ htilde ) # chi ^2 - Koeff . chisquare . coeff Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 74 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Multivariate quantitative Merkmale Zur Untersuchung quantitativer multivariater Daten sind die im letzten Abschnitt vorgestellten Methoden zur Untersuchung qualitativer multivariater Daten meist ungeeignet. Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 75 / 435 3.2. Quantitative multivariate Merkmale Grasche Darstellungen quantitativer Merkmale Für bivariate Daten: Streudiagramme 2-dimensionale Histogramme und Dichten Für multivariate Daten: Matrix von Streudiagrammen Matrix von 2-dimensionalen Histogrammen und Dichten pairs ( trees ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 76 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Zusammenhangsmaÿe bei quantitativen Merkmalen Bravais-Pearson-Korrelationskoezient zur Stichprobe x y ), . . . , (xn, yn) Pn r = pPn (ixi −(xx̄i )−px̄ )(Pyin −(ȳy)i − ȳ ) Der ( 1, ist deniert durch 1 =1 2 i =1 2 i =1 ∈ [−1, 1] Der Bravais-Pearson-Korrelationskoezient ist ein Maÿ für die Stärke des linearen Zusammenhangs zweier metrischer Merkmale. r> r< r= |r | < 0 positive Korrelation, gleichsinniger linearer Zusammenhang 0 negative Korrelation, gegensinniger linearer Zusammenhang 0 keine Korrelation, kein linearer Zusammenhang 0.5 r r schwache Korrelation < | | < 0.8 0.8 < | | 0.5 mittlere Korrelation starke Korrelation Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 77 / 435 3.2. Quantitative multivariate Merkmale Beispiel Obwohl der Bravais-Pearson-Koezient nur für metrische Variablen deniert ist, liefert er auch für dichotome, d.h. binäre, Variablen X und Y ein sinnvolles Ergebnis, falls man 0 und 1 als Kodierung für die Merkmalsvariable verwendet. Damit lassen sich die Ergebnisse in einer (2 × 2)-Tabelle zusammenfassen: Y X Jürgen Dippon (ISA) 0 1 0 1 11 12 1· 21 22 2· ·1 ·2 h h h h h h h h Biostatistik I n 11. Dezember 2012 78 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Bemerkung In diesem Fall besteht ein Zusammenhang mit dem χ2 -Koezienten für Häugkeitstabellen: r = h√hh h−hh hh 11 22 12 21 1· 2· Jürgen Dippon (ISA) r = ·1 ·2 Biostatistik I 3. Deskriptive Statistik multivariater Daten χ2 n 11. Dezember 2012 79 / 435 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Stichprobe x , ..., xn 1 Geordnete Stichprobe Der Rang rg(xi ) von x xi x (1) , ..., (n) ist deniert als die Position von geordneten Stichprobe. Es gilt also: x rg( (i ) ) = xi in der i Beispiel: Stichprobe 4, 2, 5, 0 geordnete Stichprobe 0, 2, 4, 5 Ränge der Stichprobe 3, 2, 4, 1 Ränge der geordneten Stichprobe 1, 2, 3, 4 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 80 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Treten gewisse Werte mehrfach in der Stichprobe auf, verwendet man den mittleren Rang: Stichprobe 4, 3, 2, 3, 5 geordnete Stichprobe 2, 3, 3, 4, 5 Ränge 1, 2.5, 2.5, 4, 5 x̄ ȳ Ersetzt man im Korrelationskoezienten von Bravais-Pearson die X- und Y-Werte durch ihre Ränge und 1 (= n+ ), 2 so erhält man den rsp = qPn Pn i =1 i =1 Jürgen Dippon (ISA) und durch die Mittelwerte der Ränge Korrelationskoezient von Spearman: xi ) − n y n +1 · rg( i ) − 2 2 q ∈ [−1, 1] P 2 2 n n+1 · n +1 rg( i ) − i =1 rg( i ) − 2 2 rg( x +1 y Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 81 / 435 3.2. Quantitative multivariate Merkmale Korrelationskoezient von Spearman Der Korrelationskoezient von Spearman ist ein Maÿ für die Stärke des monotonen Zusammenhangs zweier ordinaler Merkmale. rsp > rsp < rsp = 0 gleichsinniger monotoner Zusammenhang 0 gegensinniger monotoner Zusammenhang 0 kein monotoner Zusammenhang Der Spearmansche Korrelationskoezient eignet sich oensichtlich auch für Messungen, die nur als Rangreihen vorliegen. Beispiel: Vergleich zweier Weinkenner, die zehn Weinproben der Qualität nach ordnen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 82 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Invarianzeigenschaften Werden die ursprünglichen Merkmale x und y linear transformiert, so bleibt der Korrelationskoezient von Bravais-Pearson (betragsmäÿig) invariant. Werden die ursprünglichen Merkmale x und y mittels zweier streng monotoner (wachsender oder fallender) Transformationen transformiert, so bleibt der Korrelationskoezient von Spearman-Korrelation (betragsmäÿig) invariant. Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 83 / 435 3.2. Quantitative multivariate Merkmale Korrelation und Kausalität y Korrelation ist ein Maÿ für die Stärke des Zusammenhangs zwischen x und . Über die Richtung der Wirkung falls überhaupt vorhanden kann damit prinzipiell keine Aussage getroen werden. Probleme Scheinkorrelation: Eine hohe Korrelation zweier Merkmale x entsteht dadurch, dass korreliert sind. x und y und über ein drittes Merkmal hoch y Beispiel: Gesundheitszustand ∼ Abstand zur Hochspannungsleitung Verdeckte Korrelation: Obwohl keine statistische Korrelation berechnet wurde, besteht sachlich eine eindeutige Korrelation. Beispiel: Blutdrucksenkung und Dosierung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 84 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Beispiel Abbildung: Blutdrucksenkung und Dosierung Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 85 / 435 3.2. Quantitative multivariate Merkmale help ( trees ) attach ( trees ) ## Scatterplot - Matrix pairs ( trees ) ## Korrelation zweier Merkmale cor ( Girth , Volume , method =" pearson ") cor ( Girth , Volume , method =" spearman ") ## Korrelations - Matrizen cor ( trees , method =" pearson ") cor ( trees , method =" spearman ") Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 86 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Lineare Regression Y f :R→R X Y = f (X ) Problem: Gesucht ist eine Funktion Merkmal f in Abhängigkeit des Merkmals , welche das metrische beschreibt. Im Allgemeinen existiert jedoch kein solch klarer Zusammenhang. Deshalb: Suche Y so, dass obiger Zusammenhang nur ungefähr erfüllt ist: Y = f (X ) + mit einem von Fehlerterm , wobei ein möglichst groÿer Anteil der Variabilität durch f erklärt werden soll. Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten Ein solches Modell heiÿt Bei einem 11. Dezember 2012 87 / 435 3.2. Quantitative multivariate Merkmale Regressionsmodell. linearen Regressionsmodell nimmt man f (X ) = α + β X an. Für eine Stichprobe und eine Steigung β x y ), . . . , (xn, yn) ( 1, 1 sind also ein gesucht, so dass y -Achsenabschnitt α yi = α| +{zβx}i +i ŷi mit möglichst kleinen Fehlern (Residuen) Jürgen Dippon (ISA) i . Biostatistik I 11. Dezember 2012 88 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Methode der kleinsten Quadrate Wähle α und β so, dass n X Q (α, β) = n 1 2i i =1 n 1 X = ( i − i )2 i =1 n 1 X = ( i − (α + β i ))2 i =1 n y ŷ n y x minimal. Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten Nullstellen der partiellen Ableitung von α̂ Q β̂ von α bzw. β nach α und β : und als n ∂ (α, β) 2 X ! =− ( i − (α + β i )) = 0 ∂α i =1 n ∂ (α, β) 2 X ! =− ( i − (α + β i )) i = 0 ∂β i =1 Q 89 / 435 3.2. Quantitative multivariate Merkmale Ermittle die Kleinste-Quadrate-Schätzer Q 11. Dezember 2012 n y x n y x x (1) (2) (sog. Normalengleichungen). Also n X n X n i yi − α̂ − n β̂ i xi = n n n X X X n yi xi − n α̂ xi − n β̂ xi = 1 1 =1 1 Jürgen Dippon (ISA) (3) 0 (4) =1 1 i =1 0 1 i =1 Biostatistik I 2 i =1 11. Dezember 2012 90 / 435 3. Deskriptive Statistik multivariater Daten (3): Aus α̂ = Eingesetzt in 3.2. Quantitative multivariate Merkmale ȳ − β̂x̄ (4): n X n X n X n X n i yi xi − n ȳ i xi + n β̂x̄ i xi − n β̂ i xi 1 1 =1 1 =1 1 =1 2 =0 =1 Dies ist äquivalent zu n 1 X n i yi xi − ȳ x̄ = n β̂ 1 =1 Also n X i =1 xi − nx̄ 2 ! 2 y x ȳ x̄ = n PniP(nxi − x̄ )(yi − ȳ ) = s̃xy s̃x x nx̄ n i (xi − x̄ ) Pn i i− β̂ = Pin=1 2 i =1 i − 1 2 Jürgen Dippon (ISA) =1 1 Biostatistik I 3. Deskriptive Statistik multivariater Daten 2 2 =1 11. Dezember 2012 91 / 435 3.2. Quantitative multivariate Merkmale Bestimmtheitsmaÿ und Residualanalyse Zerlegung der Gesamtstreuung (sum of squares total) SQT = = = n X i =1 n X i =1 n X i =1 = y ȳ ( i − )2 y ŷ ŷ ȳ ( i − i + i − )2 y ŷ ( i − i )2 + n X i =1 (ŷi − ȳ ) 2 +2 n X |i =1 y ŷ )(ŷi − ȳ ) ( i− i {z = 0 mit (1) und (2) SQR + SQE } Residualstreuung (sum of squares residual) und die erklärte Streuung (sum of squares explained). in die Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 92 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Der dritte Term ist gleich Null, da n X y ŷ )ȳ = ȳ ( i− i n X y ŷ ( i − i) = 0 mit (1) i =1 i =1 n n n X X X ( i− i i= ( i − i )α̂ + ( i − i )β̂ i i =1 i =1 i =1 n n X X ( i − i) i = α̂ ( i − i ) +β̂ |i =1 {z } |i =1 {z } y ŷ )ŷ y ŷ y ŷ x y ŷ x y ŷ = 0 mit (1) Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten Das = 0 mit (2) 11. Dezember 2012 93 / 435 3.2. Quantitative multivariate Merkmale Bestimmtheitsmaÿ Pn SQE R = SQT = Pnii ((ŷyii −− ȳȳ )) 2 2 =1 2 =1 ∈ [0, 1] gibt den relativen Anteil der erklärten Streuung an der Gesamtstreuung an. Beziehung zum Korrelationskoezienten: R = rxy 2 Jürgen Dippon (ISA) 2 Biostatistik I 11. Dezember 2012 94 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Begründung: Es gilt n X n X ŷ¯ = n ŷi = n i i = (ȳ − β̂x̄ ) + β̂x̄ = ȳ 1 1 =1 x (α̂ + β̂ i ) = α̂ + =1 mit β̂x̄ (3) daraus n X i =1 (ŷi − ȳ ) 2 = = n X i =1 n X (ŷi − ŷ¯) 2 x (α̂ + β̂ i − α̂ − β̂x̄ ) 2 i =1 n X 2 = β̂ ( i − )2 i =1 x x̄ Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 95 / 435 3.2. Quantitative multivariate Merkmale und schlieÿlich R Je näher R 2 2 (ŷ ȳ y ȳ x x̄ y ȳ Pn Pn 2 2 2 − ) β̂ i i = 1 i = 1( i − ) = Pn = Pn 2 2 ( − ) i i =1 i =1 ( i − ) 2 2 2 xy xy x 2 = = = xy 2 2 2 x y x) y s̃ s̃ (s̃ s̃ s̃ s̃ s̃ r bei 1 liegt, umso besser ist die Modellanpassung. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 96 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale Graphische Methode zur Überprüfung der Modellanpassung Residualplots {(xi , i ) : Frage, ob i ∈ { , . . . , n}} 1 eignen sich zur Untersuchung der die Daten durch ein lineares Modell hinreichend gut erklärt werden können die Residuen von der erklärenden Variablen abhängen eine Transformation einer Variablen sinnvoll sein könnte Ausreiÿer vorliegen Jürgen Dippon (ISA) Biostatistik I 3. Deskriptive Statistik multivariater Daten 11. Dezember 2012 97 / 435 3.2. Quantitative multivariate Merkmale attach ( trees ) ## Lineare Regression plot ( Volume ~ Girth , ylim = c (0 ,80)) mymodel <- lm ( Volume ~ Girth ) mymodel abline ( mymodel ) ## Bestimmtheitskoeffizient summary ( mymodel ) $r . squared ## Residualanalyse plot ( Girth , mymodel$residuals ) abline ( h =0) ## In im folgenden Fall ist das lineare Modell ungeeignet plot ( Girth ~ Height ) mymodel <- lm ( Girth ~ Height ) mymodel summary ( mymodel ) $r . squared plot ( Girth , mymodel$residuals ) abline ( h =0) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 98 / 435 3. Deskriptive Statistik multivariater Daten 3.2. Quantitative multivariate Merkmale R Beispiel Jürgen Dippon (ISA) Abbildung: Beispiel mit trees Datensatz Biostatistik I 11. Dezember 2012 99 / 435 Teil II Wahrscheinlichkeitstheorie Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 100 / 435 Wahrscheinlichkeitstheorie 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 101 / 435 4. Wahrscheinlichkeitsrechnung 4 Wahrscheinlichkeitsrechnung Denition und Begri der Wahrscheinlichkeit Laplace-Experimente Kombinatorik Modell mit Zurücklegen Modell ohne Zurücklegen Permutation Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge Bedingte Wahrscheinlichkeiten Unabhängigkeit von zwei Ereignissen Totale Wahrscheinlichkeit Der Satz von Bayes Unendliche Grundgesamtheit 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 102 / 435 4. Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsrechnung Problem der Generalisierung: Besteht eine oensichtliche Korrelation zweier Merkmale (oder eine andere Eigenschaft) nur zufällig in der Stichprobe oder aber auch mit hoher Sicherheit in der Gesamtpopulation? Dieses Problem kann nur gelöst werden, wenn man in der Lage ist, zufälligen Ereignissen eine Wahrscheinlichkeit zuzuweisen. Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 103 / 435 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Ein Zufallsvorgang führt zu einem von mehreren sich gegenseitig ausschlieÿenden Ereignissen. Es ist vor der Durchführung ungewiss, welches Ergebnis tatsächlich eintreten wird. Der Ergebnisraum oder Stichprobenraum Ω ist die Menge aller Ergebnisse ω des Zufallsvorgangs. Ereignisse. Die einelementigen Teilmengen ω von Ω werden als Elementarereignisse bezeichnet. Teilmengen von Ω Jürgen Dippon (ISA) heiÿen (Zufalls-) Biostatistik I 11. Dezember 2012 104 / 435 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Sei A⊂Ω ein Ereignis. Das Ergebnis A ω ∈ Ā A=∅ A=Ω Ā = Ω \ A A∪B A∩B Falls ω∈ ω∈Ω werde beobachtet. , so sagt man, dass das Ereignis A eintritt. Falls , so sagt man A tritt nicht ein. Falls , ist A das unmögliche Ereignis Falls , ist A das sichere Ereignis ist das Ereignis, dass A nicht eintritt. ist das Ereignis, dass A oder B eintritt (im nichtexklusiven Sinne). ist das Ereignis, dass A und B eintritt. Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 105 / 435 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit Beispiel: Einmaliges Werfen eines Würfels. Ω = {1, 2, 3, 4, 5, 6} = {2, 4, 6} = {1 , 2 } ∩ = {4, 6} A B A B̄ Jürgen Dippon (ISA) Grundraum, gleichzeitig das sichere Ereignis Ereignis, dass eine gerade Zahl geworfen wird Ereignis, dass eine Zahl ≤2 geworfen wird Ereignis, dass eine gerade Zahl Biostatistik I ≥3 geworfen wird 11. Dezember 2012 106 / 435 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Denition und Begri der Wahrscheinlichkeit A⊂Ω P : {A : A ⊂ Ω} A Um den unsicheren Ausgang eines Zufallsvorganges zu bewerten, ordnet man jedem Ereignis P (A) heiÿt eine reelle Zahl ∈ [0, 1] zu: → [0, 1] 7→ P (A) Wahrscheinlichkeit des Ereignisses A. Wahrscheinlichkeitsmaÿ, muss die Axiome Diese Abbildung P, das sog. von Kolmogorov erfüllen (hier für Ω endlich) (K1) (K2) (K3) P (A) ≥ P (Ω) = A∩B =∅ 0 1 Falls , dann gilt P ( A ∪ B ) = P ( A) + P ( B ) Diese Axiome werden motiviert durch die Eigenschaften relativer Häugkeiten, die zur Interpretation der Wahrscheinlichkeit herangezogen werden. Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 107 / 435 4.1. Denition und Begri der Wahrscheinlichkeit Beispiel Beispiel: n-malige unabhängige Wiederholung eines Würfelexperiments, das den Ergebnissraum Ω = {1, ..., 6} fi A={ ≤ f (A) f (A) = f + f + f besitzt. relative Häugkeit, dass die Zahl i oben liegt eine Zahl 3 liegt oben} = {1, 2, 3} relative Häugkeit des Eintretens von Ereignis A 1 Jürgen Dippon (ISA) 2 3 Biostatistik I 11. Dezember 2012 108 / 435 4. Wahrscheinlichkeitsrechnung 4.1. Denition und Begri der Wahrscheinlichkeit Beispiel Oder für allgemeines A⊂Ω f ( A) = f (Ω) = : X i ∈A f i |{z} ∈ [0, 1] ≥0 1 Für wachsendes n erwarten wir, dass sich f(A) bei einem gewissen Wert P (A) stabilisiert (empirisches Gesetz der groÿen Zahlen). Dieser Wert wird als Wahrscheinlichkeit des Eintretens von A angesehen (frequentistische oder objektivistische Interpretation des Wahrscheinlichkeitsbegris). Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 109 / 435 4.1. Denition und Begri der Wahrscheinlichkeit Rechenregeln für Wahrscheinlichkeiten 1 2 3 4 5 0 PA ≤ ( )≤1 für alle A⊂Ω P (∅) = P (A) ≤ P (B ) A ⊂ B A, B ⊂ Ω P (Ā) = − P (A) Ā = Ω \ A P (A ∪ ... ∪ An) = P (A ) + ... + P (An) Ai ⊂ Ω P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B ) 0 falls 1 1 und mit 1 disjunkt und 6 falls A , ..., An A, B ⊂ Ω paarweise 1 für beliebige Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 110 / 435 4. Wahrscheinlichkeitsrechnung 4.2. Laplace-Experimente Laplace-Experimente N Bei manchen Zufallsexperimenten mit endlichem Grundraum (also Ω = {1, ..., }) ist es sinnvoll davon auszugehen, dass alle Elementarereignisse dieselbe Wahrscheinlichkeit, die sog. Laplace-Wahrscheinlichkeit, besitzen: P ({j }) = pj = N = |Ω| 1 1 für alle j ∈ { , ..., N } 1 Unter Verwendung der 5. Rechenregel folgt für jedes Ereignis A in einem Laplace-Experiment P (A) = X j ∈A = |A| P ({j }) = |Ω| Anzahl der für A günstigen Ergebnisse Anzahl aller möglichen Ergebnisse Achtung: Es gibt viele Zusallsexperimente, in denen die Elementarereignisse nicht gleichwahrscheinlich sind. Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 111 / 435 4.2. Laplace-Experimente Laplace-Experimente Beispiel: Wie groÿ ist die Wahrscheinlichkeit bei dreimaligem Münzwurf mindestens einmal Wappen zu erzielen. Ergebnisraum: W , W , W ), (W , W , Z ), ..., (Z , Z , Z )} P ({ω}) = |Ω| = ∀ } |A| = |A| P (A) = |Ω| = } |Ā| = P (Ā) = − P (A) = − = Ω = {( |Ω| = 8 1 A={ 1 8 ω∈Ω mindestens einmal Wappen , 7. Also 7 Ā = { keinmal Wappen , 8 1. Also 1 Jürgen Dippon (ISA) 1 Biostatistik I 7 1 8 8 11. Dezember 2012 112 / 435 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Zufallsvariablen und Kombinatorik Modell: N n Kugeln mit Nummern 1,...,N benden sich in einer Urne. Ziehe in zufälliger Weise Kugeln, entweder mit oder ohne Zurücklegen. Ergebnis: geordnetes n-Tupel ( E , ..., En) 1 mit Besitzt jede dieser Stichproben vom Umfang Ei ∈ G = { , ..., N } n 1 . dieselbe Wahrscheinlichkeit, so spricht man von einer einfachen Stichprobe. Aufgabe: Bestimme diese Wahrscheinlichkeit Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 113 / 435 4.3. Kombinatorik Modell mit Zurücklegen N n Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang ist die Anzahl der möglichen Stichproben vom Umfang N| · N{z· ... · N} = N n gegeben als: n−mal Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 114 / 435 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell ohne Zurücklegen N n Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang ist die Anzahl der möglichen Stichproben vom Umfang gegeben als: N · (N − | 1) N −n+ · ... · ( {z n−Faktoren 1) = } = Jürgen Dippon (ISA) N · (N − ) · ... · (N − n) · ... · N! (N − n)! 1 1 Biostatistik I 4. Wahrscheinlichkeitsrechnung 1 11. Dezember 2012 115 / 435 4.3. Kombinatorik Permutation Werden alle N Permutation der Nummern {1, ..., N }. der Reihenfolge des Ziehens angeordnet, so ist Bei N E , ..., EN ) Kugeln aus der Urne ohne Zurücklegen gezogen und gemäÿ ( 1 eine unterscheidbaren Objekten gibt es N · (N − 1) · ··· · 1 = N! verschiedene Permutationen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 116 / 435 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge N n Bei einer Ziehung ohne Zurücklegen aus einer Grundgesamtheit vom Umfang ist die Anzahl der möglichen Stichproben vom Umfang Nichtbeachten der Reihenfolge: N · (N − 1) N −n+ · ... · ( ! n 1) = = N n heiÿt N 1 1 Binomialkoezient und es gilt: 0 N · (N − ) · ... · n!(N − n)! N n bei N N N = 1, = 1, = 1 Jürgen Dippon (ISA) N , Nn Biostatistik I 4. Wahrscheinlichkeitsrechnung = 1, falls N<n 11. Dezember 2012 117 / 435 4.3. Kombinatorik Beispiel Ziehung der Lottozahlen Anzahl der Möglichkeiten 6 Zahlen aus 49 Zahlen zu ziehen, wobei die Reihenfolge nicht beachtet wird, 49 6 Alle diese 49 6 = 49! 43!6! = 13983816 Zahlen können als gleichwahrscheinliche Elementarereignisse angesehen werden. Damit P( 6 Richtige ) = = Jürgen Dippon (ISA) Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse 1 13983816 Biostatistik I = 0.000000072 11. Dezember 2012 118 / 435 4. Wahrscheinlichkeitsrechnung 4.3. Kombinatorik Modell mit Zurücklegen und ohne Berücksichtigung der Reihenfolge N n Bei einer Ziehung mit Zurücklegen aus einer Grundgesamtheit vom Umfang ist die Anzahl der möglichen Stichprobem vom Umfang Nichtbeachten der Reihenfolge gegeben durch: Begründung: Durch N− N +n− n 1 bei N Ei 1 Trennzeichen können voneinander abgegrenzt werden. Auf diese N n verschiedene Zellen Zellen werden insgesamt i Kreuze verteilt, wobei Mehrfachbesetzungen erlaubt sind. Die Anzahl der Kreuze gibt an, wieviele Kugeln vom Typ in Zelle liegen, z.B. ×|| × ×| × | . . . | × ×| Die Anzahl solcher Aufteilungen der Jürgen Dippon (ISA) n Kreuze ist N +n−1. n Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 119 / 435 4.3. Kombinatorik Übersicht ohne Zurücklegen mit Berücksichtigen der Reihenfolge ohne Berücksichtigen der Reihenfolge Jürgen Dippon (ISA) N! (N −n)! N n Biostatistik I mit Zurücklegen Nn N +n−1 n 11. Dezember 2012 120 / 435 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Analog zum (empirischen) Begri der bedingten relativen Häugkeit A B denieren wir den (theoretischen) Begri der bedingten Wahrscheinlichkeit eines Ereignisses gegeben ein Ereignis Jürgen Dippon (ISA) . Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 121 / 435 4.4. Bedingte Wahrscheinlichkeiten Beispiel: einmaliges Werfen eines Würfels A B Ereignis, dass Augenzahl gerade Ereignis, dass Augenzahl ≤3 P ( A) = 3 6 Wie groÿ ist die Wahrscheinlichkeit von Augenzahl ≤ 3? P (A|B ) = = Jürgen Dippon (ISA) Anzahl der für A Anzahl der für 1 = A und B 1 2 , wenn bekannt ist, dass B günstigen Ergebnisse möglichen Ergebnisse 3 Biostatistik I 11. Dezember 2012 122 / 435 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Allgemein denieren wir (unter Verwendung der Beziehung zwischen relativen Häugkeiten und Wahrscheinlichkeiten): A, B ⊂ Ω A B Seien von unter und P (B ) > deniert als Jürgen Dippon (ISA) 0. Dann ist die bedingte Wahrscheinlichkeit P (A|B ) = P (PA(∩B )B ) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 123 / 435 4.4. Bedingte Wahrscheinlichkeiten Rechenregeln für bedingte Wahrscheinlichkeiten Seien A, B ⊂ Ω und P (B ) > P (·|B ) : {A : A ⊂ Ω} → [ , ] A 7→ P (A|B ) P (B |B ) = 0. Dann gilt bei fest gehaltenem B 0 1 ist wieder eine Wahrscheinlichkeit mit Jürgen Dippon (ISA) Biostatistik I 1 11. Dezember 2012 124 / 435 4. Wahrscheinlichkeitsrechnung 4.4. Bedingte Wahrscheinlichkeiten Die Axiome von Kolmogorov gelten entsprechend für Wahrscheinlichkeiten Zu bedingte K ) A , A , B ⊂ Ω, A ∩ A = ∅, P (B ) > P (A ∪ A |B ) = P ((A P∪(BA )) ∩ B ) P ((A ∩ B ) ∪ (A ∩ B )) = P (B ) P (A ∩ B ) + P (A ∩ B ) = P (B ) = P (A |B ) + P (A |B ) ( 3 : 1 2 1 1 0: 2 1 2 2 1 2 1 2 1 Jürgen Dippon (ISA) 2 Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 125 / 435 4.4. Bedingte Wahrscheinlichkeiten Aus der Denition der bedingten Wahrscheinlichkeit folgt sofort der Produktsatz: Seien A, B ⊂ Ω und P (B ) > 0. Dann gilt P (A ∩ B ) = P (A|B ) · P (B ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 126 / 435 4. Wahrscheinlichkeitsrechnung 4.5. Unabhängigkeit von zwei Ereignissen Unabhängigkeit von zwei Ereignissen B Ist die Wahrscheinlichkeit des Ereignisses Ereignis eingetreten ist, d.h. A unabhängig davon, ob das P (A|B ) = P (A) A B P (A ∩ B ) = P (A) ⇐⇒ P (A ∩ B ) = P (A) · P (B ) ( ) ⇐⇒ P (B ) so werden die Ereignisse Da und (1) als stochastisch unabhängig angesehen. 1 denieren wir: Zwei Ereignisse falls A⊂Ω B⊂Ω (stochastisch) unabhängig P (A ∩ B ) = P (A) · P (B ) und heiÿen Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 , 127 / 435 4.5. Unabhängigkeit von zwei Ereignissen Beispiel: Zweimaliges Würfeln Ω = {(1, 1), . . . , (1, 6), (2, 1), . . . , (6, 6)} |Ω| = 36 1 ∀ ({ω}) = 36 P A = {( , ), . . . , ( , )} B = {( , ), . . . , ( , )} P (A) = P (B ) = = A ∩ B = {( , )} ω∈Ω 1 1 1 6 1 1 6 1 6 36 1 1 ⇒ A und B eine 1 im ersten Wurf eine 1 im zweiten Wurf 1 6 eine 1 im ersten und im zweiten Wurf P| (A{z∩ B}) = P| {z(A}) · P| {z(B}) 1 36 1 6 1 6 sind stochastisch unabhängige Ereignisse Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 128 / 435 4. Wahrscheinlichkeitsrechnung 4.5. Unabhängigkeit von zwei Ereignissen Beispiel: Urne mit den Zahlen 1, 2, 3, 4 Zweimaliges Ziehen mit Zurücklegen: Ω = {(1, 1), (1, 2), . . . , (4, 4)} mit |Ω| = 16 Zweimaliges Ziehen ohne Zurücklegen: Ω = {(1, 2), (1, 3), . . . , (4, 3)} mit |Ω| = 12 A={ B={ Die Eins wird beim ersten Mal gezogen} Die Zwei wird beim zweiten Mal gezogen} Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung Also sind und 4 16 4 16 = = 1 16 1 16 129 / 435 4.5. Unabhängigkeit von zwei Ereignissen Ziehen mit Zurücklegen P (A) P (B ) P (A) · P (B ) P (A ∩ B ) A B 11. Dezember 2012 Ziehen ohne Zurücklegen 1 4 1 4 3 12 3 12 = = 1 16 1 12 1 4 1 4 beim Ziehen mit Zurücklegen stochastisch unabhängig, nicht jedoch beim Ziehen ohne Zurücklegen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 130 / 435 4. Wahrscheinlichkeitsrechnung 4.6. Totale Wahrscheinlichkeit Totale Wahrscheinlichkeit A A Ω = 1 ∪ 2 eine disjunkte Zerlegung des ( 1 ∩ 2 = ∅), so gilt für ein Ereignis ⊂ Ω Ω A A B B = (B ∩ A ) ∪ (B ∩ A ) (B ∩ A ) ∩ (B ∩ A ) = ∅ (K ) P (B ) = P (B ∩ A ) + P (B ∩ A ) = P (B |A ) · P (A ) + P (B |A ) · P (A ) Ist 1 und mit Axiom wobei 2 2 2 1 Jürgen Dippon (ISA) 1 2 Biostatistik I 4. Wahrscheinlichkeitsrechnung Etwas allgemeiner gilt der 2 11. Dezember 2012 131 / 435 4.6. Totale Wahrscheinlichkeit Satz der totalen Wahrscheinlichkeit: A , . . . , Ak B⊂Ω 1 1 3 1 Sei Ergebnisraumes eine disjunkte Zerlegung von Ω. Dann gilt für k X P (B ) = P (B |Ai ) · P (Ai ) i =1 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 132 / 435 4. Wahrscheinlichkeitsrechnung 4.6. Totale Wahrscheinlichkeit Beispiel: Alarmanalyse A={ } E ={ P (A|E ) = , P (A|Ē ) = , P (E ) = , Alarm , Einbruch}, Ē = { kein Einbruch} 0 99 W für Alarm bei Einbruch 0 005 W für Fehlalarm 0 001 W für Einbruch Wie groÿ ist die Wahrscheinlichkeit für einen Alarm? P (A) = P (A|E ) · P (E ) + P (A|Ē ) · P (Ē ) = 0, 99 · 0, 001 + 0, 005 · (1 − 0, 001) ≈ 0, 006 Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 133 / 435 4.7. Der Satz von Bayes Der Satz von Bayes Ist A 1 A ∪ ··· ∪ k = Ω Ω P (Ai ) > j ∈ { , . . . , k} P (Aj |B ) = P (PA(j B∩)B ) P (B |Aj ) · P (Aj ) = P (B ) P (B |Aj ) · P (Aj ) = Pk i P (B |Ai ) · P (Ai ) eine Zerlegung von Ereignis, so gilt für jedes 1 mit 0 und B ein =1 wobei im letzten Schritt der Satz von der totalen Wahrscheinlichkeit verwendet wurde. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 134 / 435 4. Wahrscheinlichkeitsrechnung 4.7. Der Satz von Bayes Satz von Bayes A , . . . , Ak B⊂Ω 1 ein Ereignis mit Dann gilt für alle Ω P (A ) > 0, . . . , P (B ) > j ∈ { , . . . , k} P (Aj |B ) = PkP (BP|(ABj )|A· P) (· APj()A ) disjunkte Zerlegung von mit 0 1 P (Ak ) > 0 1 i i =1 Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung i 11. Dezember 2012 135 / 435 4.7. Der Satz von Bayes Interpretation: A , . . . , Ak P (B |Ai ) Ai Werden die Ereignisse angesehen, so gibt Vorliegen von Ereignis 1 als mögliche Ursachen für das Ereignis B B die (bedingte) Wahrscheinlichkeit an, dass bei die Wirkung B eintritt. Aj Die Formel von Bayes erlaubt jetzt einen wahrscheinlichkeitstheoretischen Rückschluss von der Wirkung Jürgen Dippon (ISA) auf die mögliche Ursache Biostatistik I 11. Dezember 2012 136 / 435 4. Wahrscheinlichkeitsrechnung 4.7. Der Satz von Bayes Beispiel: Fortsetzung Alarmanalyse Wie groÿ ist die Wahrscheinlichkeit, dass ein Einbruch im Gange ist, wenn ein Alarm ertönt? P (E |A) = P (A|E ) ·PP((AE|)E+) ·PP((AE|)Ē ) · P (Ē ) ≈ 0, 99 · 0, 001 0, 006 ≈ 0.165 Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 137 / 435 4.8. Unendliche Grundgesamtheit Unendliche Grundgesamtheit Beispiel: Anzahl der Würfe eines Würfels bis zur ersten 6 Ω = {1, 2, 3, ...}, also P ({ = P( = P( |Ω| = ∞ 2 Würfe bis zur ersten 6}) P ) · P( 1. Wurf keine 6) 1. Wurf keine 6 = 5 6 · · (2. Wurf eine 6|1. Wurf keine 6) 2. Wurf eine 6) 1 6 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 138 / 435 4. Wahrscheinlichkeitsrechnung 4.8. Unendliche Grundgesamtheit Unendliche Grundgesamtheit Ai = { Bi = { Ci = { Allgemeiner: i-ter Wurf keine 6} i-ter Wurf eine 6} Spiel endet nach i Würfen} P (Ci ) = P (A ∩ ... ∩ Ai ∩ Bi ) = P (A ) · P (A ) · ... · P (Ai 1 −1 1 = = 5 6 · 5 6 2 5 1 6 6 · ... · i −1 5 6 · −1 ) PB · ( i) 1 6 Da hier i beliebig groÿ werden kann, sollte das 3. Axiom von Kolmogorov auch für abzählbar unendliche Vereinigungen von Ereignissen verallgemeinert werden. Jürgen Dippon (ISA) Biostatistik I 4. Wahrscheinlichkeitsrechnung 11. Dezember 2012 139 / 435 4.8. Unendliche Grundgesamtheit Axiome von Kolmogorov K K K P ( A) ≥ P (Ω) = P (A ∪ A A⊂Ω A⊂Ω P (Ai ) Axiome von Kolmogorov für unendliche Ergebnisräume: ( 1) ( 2) ( f3) 0 für alle Ereignisse 1 Für paarweise disjunkte Ereignisse 1 P∞ ∪ ...) = 2 i =1 gilt: Alle bislang hergeleiteten Rechenregeln gelten auch für unendliche Ergebnisräume. Später werden wir sehen, dass sich die Wahrscheinlichkeit eines überabzählbaren Ereignisses nicht als Summe der Wahrscheinlichkeiten der einzelnen Ergebnisse darstellen lässt. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 140 / 435 5. Diskrete Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Die hypergeometrische Verteilung Die Poisson-Verteilung 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 141 / 435 5. Diskrete Zufallsvariablen Diskrete Zufallsvariablen In den Kapiteln 57 werden grundlegende Begrie und Eigenschaften von univariaten (d.h. eindimensionalen) Zufallsvariablen eingeführt. Insbesondere wird zwischen diskreten und stetigen Zufallsvariablen unterschieden. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 142 / 435 5. Diskrete Zufallsvariablen 5.1. Zufallsvariablen Zufallsvariablen Beispiel: 2-maliges Würfeln Ω = {(1, 1), . . . , (6, 6)}, |Ω| = 36 Summe der Augenzahlen werde beschrieben durch die Variable: X : Ω → { ,..., } ω 7→ X (ω) = i + j |{z} 2 X 12 (i ,j ) ist Beispiel einer Zufallsvariablen, die jedem Ergebnis ω∈Ω eine reelle Zahl zuordnet. Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 143 / 435 5.1. Zufallsvariablen Zufallsvariablen P (A) Frage: Wie groÿ ist die Wahrscheinlichkeit, dass die Augensumme Gesucht ist also ≤4 ist? mit: A = {X ≤ } = {( , ), ( , ), ( , ), . . . , ( , ), ( , ), ( , P (A) = |P ({X{z= })} + P| ({X{z= })} + P| ({X{z= })} = 4 1 1 1 2 2 1 2 1 36 Jürgen Dippon (ISA) 1 3 2 2 3 2 36 Biostatistik I 4 3 36 3 1)} 1 6 11. Dezember 2012 144 / 435 5. Diskrete Zufallsvariablen 5.1. Zufallsvariablen Zufallsvariablen Eine Variable oder ein Merkmal X, dessen Werte oder Ausprägungen die Ergebnisse eines Zufallsvorgangs sind, heiÿt Die Zahl heiÿt x ∈R Zufallsvariable X. , die X bei Durchführung des Zufallsvorgangs annimmt, Realisierung oder Wert von X. Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 145 / 435 5.1. Zufallsvariablen Zufallsvariablen Von Interesse sind oft Ereignisse der Form: X = x } = {ω ∈ Ω|X (ω) = x } {X 6= x } = {ω ∈ Ω|X (ω) 6= x } {X ≤ x } = {ω ∈ Ω|X (ω) ≤ x } B⊂R {X ∈ B } = {ω ∈ Ω|X (ω) ∈ B } P (X ∈ B ) { oder allgemein für einen Bereich : Die Menge aller Wahrscheinlichkeiten Wahrscheinlichkeitsverteilung von X. Jürgen Dippon (ISA) Biostatistik I für Bereiche B nennt man 11. Dezember 2012 146 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen unendlich viele Werte diskret, falls sie nur endlich oder abzählbar x ,x ,... Eine Zufallsvariable X heiÿt 1 2 annehmen kann. Die Wahrscheinlichkeitsverteilung von X ist durch die Wahrscheinlichkeiten: P (X = xi ) = pi = f (xi ), i = (pi ) f gegeben. Die Folge bzw. die Funktion Die Wertemenge von X wird auch als 1, 2, .. heiÿt auch Zähldichte von X . Träger von X bezeichnet: x x , . . .} T = { 1, 2 Ist B eine Teilmenge des Trägers von X, so folgt mit Axiom P (X ∈ B ) = Jürgen Dippon (ISA) X i :xi ∈B pi Biostatistik I 5. Diskrete Zufallsvariablen K ( f3): 11. Dezember 2012 147 / 435 5.2. Verteilungen diskreter Zufallsvariablen Verteilungen und Parameter von diskreten Zufallsvariablen Wahrscheinlichkeitsverteilung f , . . . , fk x x p { 1 , . . . , k } ist die (Zähldichte) 1 , . . . k das Bei einem endlichen Wertebereich p wahrscheinlichkeitstheoretische Analogon zur relativen Häugkeitsverteilung 1 . Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 148 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Bernoulli-Verteilung Besitzt der Wertebereich von X nur zwei Werte binäre oder dichothome Zufallsvariable. Beispiel: Sei X= x 1 und x 2 , so ist X eine 1, falls Kunde kreditwürdig 0, falls Kunde nicht kreditwürdig A={ P (A) = P (X = Kunde kreditwürdig}. Dann 1) = p P (Ā) = P (X = X ∼ ( , p) und Bernoulli-Variable, kurz Verteilung heiÿt Bernoulli-Verteilung. X ist eine Bin 1 0) =1− p . Die dazugehörige Grasche Darstellung durch ein Stab- oder Säulendiagramm oder ein Wahrscheinlichkeitsdiagramm. Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 149 / 435 5.2. Verteilungen diskreter Zufallsvariablen Verteilungsfunktion Verteilungsfunktion einer diskreten Zufallsvariable: F (x ) = P (X ≤ x ) = X i :x i ≤ x f (xi ) Diese Verteilungsfunktion besitzt viele Eigenschaften der empirischen Verteilungsfunktion: monoton wachsende Treppenfunktion F (x ) → F (x ) → F (x ) F (x ) 0 für 1 für x → −∞ x →∞ macht Sprünge der Höhe f (xi ) = pi xi an rechtsstetig an den Sprungstellen (Die empirische Verteilungsfunktion macht Sprünge der Höhe Vielfache davon.) Jürgen Dippon (ISA) Biostatistik I 1 n oder 11. Dezember 2012 150 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Abbildung: Zähldichte und Verteilungsfunktion Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 151 / 435 5.2. Verteilungen diskreter Zufallsvariablen Gleichverteilung x x X∼ Eine diskrete Zufallsvariable X heiÿt T = { 1, . . . , k } kurz ∀ Unif (T ), falls gilt: i ∈{1,...,k } Jürgen Dippon (ISA) gleichverteilt auf dem Träger P (X = xi ) = k 1 Biostatistik I 11. Dezember 2012 152 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Geometrische Verteilung X∼ p) geometrisch(p)-verteilt, kurz Eine diskrete Zufallsvariable X heiÿt Geo( , falls gilt: P (X = i ) = ( − p)i p ∀ p) Eine Geo( −1 1 i ∈N0 -verteilte Zufallvariable X zählt die Anzahl der Versuche in p∈( , einer Folge von unabhängigen Zufallsexperimenten mit jeweiliger Erfolgswahrscheinlichkeit A = ( |, 0 1) bis zum ersten Erfolg: 0 0, . . . , 0 {z } , |{z} 1 ) i −1 Misserfolge 1. Erfolg ( ) = (1 − ) · (1 − ) · . . . · (1 − ) · PA p Jürgen Dippon (ISA) p p p = ( − p)i p Biostatistik I 5. Diskrete Zufallsvariablen 1 −1 11. Dezember 2012 153 / 435 5.2. Verteilungen diskreter Zufallsvariablen Unabhängigkeit y y , . . .} y TY = { 1 , ∈ TY gilt: und 2 heiÿen unabhängig, wenn für x x x TX = { 1 , 2 , . . .} beliebige ∈ TX und Zwei diskrete Zufallsvariablen X und Y mit den Trägern P (X = x , Y = y ) = P (X = x ) · P (Y = y ) X , . . . , Xn unabhängig x , . . . , xn P (X = x , . . . , Xn = xn) = P (X = x ) · . . . · P (Xn = xn) Allgemeiner heiÿen n diskrete Zufallsvariablen wenn für beliebige Werte 1 Jürgen Dippon (ISA) 1 1 1 , aus den jeweiligen Trägern gilt: 1 Biostatistik I 1 11. Dezember 2012 154 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Unabhängigkeit X ∈ A} {Y ∈ B } P ( X ∈ A, Y ∈ B ) = P ( X ∈ A) · P ( Y ∈ B ) f) (K Sind zwei diskrete Zufallsvariablen X und Y unabhängig, folgt die Unabhängigkeit der Ereignisse Nachweis mit Axiom { und , d.h. 3 . Beispiel: Unabhängigkeit beim Werfen zweier Würfel X Augenzahl im 1. Wurf, Y Augenzahl im 2. Wurf P| (X ={zi , Y = j}) = |P (X{z= i}) · P| (Y{z= j}) 1 36 1 6 Jürgen Dippon (ISA) 1 6 Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 155 / 435 5.2. Verteilungen diskreter Zufallsvariablen Lageparamter einer diskreten Verteilung Analog zum arithmetischen Mittel einer Stichprobe denieren wir: Erwartungswert E (X ) einer diskreten Zufallsvariable mit den Werten x ,x ,... Der 1 2 f (x ) E (X ) = X xi pi i X = xi f (xi ) und der Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsfunktion p ,p ,... 1 2 bzw. der ist deniert durch: ∈N i ∈N Der Erwartungswert einer Zufallsvariable X ist damit das mit der Wahrscheinlichkeit des Auftretens gewichtete Mittel der Werte. fi xi Beim arithmetischen Mittel relative Häugkeit Jürgen Dippon (ISA) von x̄ einer Stichprobe wird statt in der Stichprobe verwendet. Biostatistik I pi bzw. f (xi ) 11. Dezember 2012 die 156 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Erwartungswert beim Würfel Die Variable X gebe die Augenzahlen an E (X ) = xi pi = i · 6 X X i =1 Jürgen Dippon (ISA) 1 6 1 21 6 6 = (1 + . . . + 6 ) = Biostatistik I 5. Diskrete Zufallsvariablen = 3, 5 11. Dezember 2012 157 / 435 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Mittlere Anzahl der Versuche bis zum 1. Erfolg bei unabhängigen Bernoulli-Versuchen mit jeweiliger Erfolgswahrscheinlichkeit X∼ Geo( p) , d.h. P (X = i ) = ( − p)i p, i ∈ { , 1 E (X ) = i ∞ X i =0 −1 0 1) 1 2, . . .} p p p i ( − p)i (1 − )i −1 = p∈( , ∞ X 1 −1 i =0 ∞ X d d i = −p (1 − p ) = −p (1 − p )i dp dp i =0 i =0 d 1 d 1 =p· 1 = −p = −p dp 1 − (1 − p) dp p p2 = Jürgen Dippon (ISA) 1 ∞ X p> 1 Biostatistik I 11. Dezember 2012 158 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Erwartungswert Ist g (x ) eine reelle Funktion, dann gilt für die Zufallsvariable Y = g (X ) : E (Y ) = E (g (X )) = g (xi )pi = g (xi )f (xi ) X X i ≥1 i ≥1 Beispiel: g (x ) = x 2 E (X ) = xi pi = x p + x p X 2 Beispiel: g (x ) = ax + b E (aX + b) = X i ≥1 2 i ≥1 2 1 1 2 2 2 + ... ax b p a xi pi +b pi = aE (x ) + b ( i+ ) i= X X i ≥1 | {z } E (X ) i ≥1 | {z } 1 Erwartungswertbildung ist also linear. Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 159 / 435 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Beispiel: Ist die Wahrscheinlichkeitsfunktion f (x ) symmetrisch um c, so gilt: E (X ) = EX(X − c ) + Ec = (xi − c )f (xi ) +c i ≥1 | = Jürgen Dippon (ISA) c {z 0 Biostatistik I } 11. Dezember 2012 160 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Weitere Eigenschaften Die folgende Tatsache ist aufwändig zu zeigen: Für zwei diskrete Zufallsvariablen X und Y gilt: E (X + Y ) = E (X ) + E (Y ) a , . . . , an E (a X + . . . + anXn) = a E (X ) + . . . + anE (Xn) und allgemeiner für beliebige Konstanten 1 1 Jürgen Dippon (ISA) 1 : 1 1 Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 161 / 435 5.2. Verteilungen diskreter Zufallsvariablen Produktregel Für zwei unabhängige diskrete Zufallsvariablen gilt die Produktregel: E (X · Y ) = E (X ) · E (Y ) Beispiel: Beim 2-maligen Würfeln gilt für die Augenzahlen X (erster Wurf ) und Y (zweiter Wurf ): E (X · Y ) = E (X ) · E (Y ) = Jürgen Dippon (ISA) Biostatistik I 7 2 · 7 2 = 49 4 11. Dezember 2012 162 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Weitere Lageparameter Der Modus xmod ist derjenige macht. x -Wert, der p ∈ ( , ) xp P (X ≤ xp ) = F (xp ) ≥ p xp Für jeden Wert 0 1 Mit dieser Denition ist ist ein f (x ) = P (X = x ) maximal p-Quantil, falls und P (X ≥ xp ) ≥ 1 − p u.U. nicht eindeutig deniert. Sind mehrere Werte möglich, so kann man z.B. den mittleren Wert wählen. Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 163 / 435 5.2. Verteilungen diskreter Zufallsvariablen Streungsparameter für eine diskrete Zufallsvariable X Die Varianz einer diskreten Zufallsvariable ist: σ2 = wobei Die EX Var (X ) = X(xi − µ) f (xi ) = E ((X − µ) ) 2 2 i ≥1 µ = ( ). Standardabweichung ist: Var (X ) p σ=+ Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 164 / 435 5. Diskrete Zufallsvariablen 5.2. Verteilungen diskreter Zufallsvariablen Streuungsparameter für eine diskrete Zufallsvariable X Wie bei empirischen Varianzen gilt die Verschiebungsregel: Var (X ) = E (X ) − (E (X )) = E (X ) − µ Y = aX + b Var (Y ) = Var (aX + b) = a Var (X ) σY = |a|σX 2 2 2 2 und für 2 Jürgen Dippon (ISA) und Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 165 / 435 5.2. Verteilungen diskreter Zufallsvariablen Beispiel Augenzahl X beim Würfeln Var (X ) = E (X ) − (E (X )) 2 = 12 · = 1 6 1 6 2 + 22 · 1 6 + . . . + 62 · · (12 + 22 + . . . + 62 ) − | {z } 1 6 2 − 7 2 2 7 2 91 = ... = Jürgen Dippon (ISA) 70 24 = 2, 92 Biostatistik I 11. Dezember 2012 166 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Folge von n p unabhängigen Bernoulli-Versuchen Erfolgswahrscheinlichkeiten Xi = , wobei X , . . . , Xn 1 p 0 mit Wahrscheinlichkeit 1 1 mit Wahrscheinlichkeit Gesucht ist nun die Wahrscheinlichkeit für genau k − mit jeweiligen p Erfolge: 0...01...1 | {z } | {z } n −k k Wahrscheinlichkeit für genau dieses Ergebnis: Anzahl verschiedener Permutationen: p p (1 − )n−k · k n k Alle Permutatonen sind gleich wahrscheinlich. Also: P ({ n pk ( − p)n k k Erfolge bei n Versuchen}) Jürgen Dippon (ISA) = 1 Biostatistik I 5. Diskrete Zufallsvariablen −k 11. Dezember 2012 167 / 435 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung X = X + . . . + Xn E (X ) = E (X + . . . + Xn) = E (X ) + . . . + E (Xn) = n |E ({zX }) sei die Anzahl der Erfolge bei n Versuchen. Dann ist: 1 1 = 1 1 0·(1− np p)+1·p X , . . . , Xn Var (X ) = Var (X + . . . + Xn) = Var (X ) + . . . + Var (Xn) = nVar (X ) = n(E (X ) − (E (X )) ) = n( · ( − p ) + · p − p ) = np ( − p ) Wegen Unabhängigkeit der folgt: 1 1 1 2 1 2 0 Jürgen Dippon (ISA) 1 1 1 2 1 2 2 Biostatistik I 1 11. Dezember 2012 168 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Die Binomialverteilung Additionseigenschaft der Binomialverteilung Sind X∼ Bin( n, p ) und Y ∼ (m, p) X + Y ∼ (n + m, p) Bin unabhängig, so gilt: Bin Symmetrieeigenschaft Sei X∼ n, p ) Bin( und Y =n−X Y ∼ (n, − p) , dann gilt Bin Jürgen Dippon (ISA) 1 Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 169 / 435 5.3. Spezielle diskrete Verteilungsmodelle Beispiel Beispiel: Qualitätskontrolle In einer Zucht von Austern entstehen mit Wahrscheinlichkeit fehlerfreie Perlen. Aus der Population werden n= 20 Perlen entnommen. Sei der fehlerfreien Perlen, also: X∼ Bin(20, 0.9) und Y =n−X ∼ X p= 0.9 die Anzahl Bin(20, 0.1) Wie groÿ ist die Wahrscheinlichkeit, dass höchstens 18 der 20 Perlen fehlerfrei sind? Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 170 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Beispiel P (X ≤ 18) PX X = 1 − ( = 19 oder = 20) 20 20 19 1 20 =1− 0.9 · 0.1 − 0.9 · 0.10 19 20 = 1 − 20 · 0.919 · 0.1 − 0.920 ≈ 0.61 P (X = ) = · . · . ≈ E (X ) = n · p = · . = Var (X ) = n · p( − p) = · . 20 18 0 9 18 20 18 2 0 1 0 9 1 0.285 18 20 0 9 · 0.1 = 1.8, also σ ≈ 1.34 Im Zusammenhang mit dem zentralen Grenzwertsatz werden wir sehen, dass X ungefähr normalverteilt ist mit Erwartungswert 18 und Varianz 1.8 Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen Es werden n N 171 / 435 5.3. Spezielle diskrete Verteilungsmodelle Die hypergeometrische Verteilung In einem Aquarium benden sich 11. Dezember 2012 Fische, M davon sind männlich. . . . 0} 11 . . . 1} |00 {z | {z M N −M | {z } N Fische ohne Zurücklegen herausgezogen. Wie groÿ ist die W., genau Stichprobe X =k männliche Fische zu ziehen? 0...0 1...1 | {z } | {z } k n−k | {z } n P (X = k ) = Anzahl der günstigen Ergebnisse Anzahl der möglichen Ergebnisse M · N −M = k N n−k n Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 172 / 435 5. Diskrete Zufallsvariablen X 5.3. Spezielle diskrete Verteilungsmodelle n, (M , ( kann nicht gröÿer werden als X kann nicht kleiner werden als X falls falls n≤M n>M 0, n − (N − M ), n N − M )) , . . . , min(n, M )} Also gilt für den Träger von T = {max (0, − ( : Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen n, M , N 5.3. Spezielle diskrete Verteilungsmodelle hypergeometrisch verteilt mit Parametern , wenn sie die Wahrscheinlichkeitsfunktion M N −M ( k )( n−k ) (Nn ) ( )= fk Es gilt 0 , falls N M (N , N ) Bin x ∈T , sonst M M M E (X ) = n N , Var (X ) = n N − N NN −− n n n X N ≤ . Y ∼ N , MN E (Y ) = n MN = E (X ) M M Var (Y ) = n N − N > Var (X ) 1 Ist 173 / 435 X ∼ Hyp(n, M , N ) Eine Zufallsvariable heiÿt , kurz 11. Dezember 2012 groÿ im Vergleich yu (Faustregel 1 0 05), so kann als nahezu -verteilt angesehen werden. Zum Vergleich: Sei Bin . Dann 1 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 174 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Abbildung: Zähldichte- und Verteilungsfunktion der Jürgen Dippon (ISA) Hyp(6, 6, 10)-Verteilung Biostatistik I 5. Diskrete Zufallsvariablen 11. Dezember 2012 175 / 435 5.3. Spezielle diskrete Verteilungsmodelle Die Poisson-Verteilung n n Binomial- und hypergeometrisch verteilte Zufallsvariablen zählen, wie oft bei -maligem Ziehen ein bestimmtes Ereignis eintritt: T = {0, 1, . . . , } Die geometrische Verteilung zählt, wie lange man warten muss bis ein bestimmtes Ereignis zum ersten Mal eintrit: Eine T =N Poisson-verteilte Zufallsvariable zählt, wie oft ein bestimmtes Ereignis innerhalb eines (Zeit-)Intervalles eingetreten ist: T = N0 Die Poisson-Verteilung lässt sich herleiten 1 als Grenzfall der Binomial-Verteilung oder 2 aus den Poisson-Annahmen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 176 / 435 5. Diskrete Zufallsvariablen zu 5.3. Spezielle diskrete Verteilungsmodelle 1): Die Wahrscheinlichkeit, dass das Erbgut eines Einzellers nach p= Röntgenbestrahlung eine Mutation aufweist, sei In einer Kultur benden sich k n= 1 . 1000 500000 Einzeller. Wie groÿ ist die Wahrscheinlichkeit, dass sich in der Kultur nach Röntgenbestrahlung X= mutierte Individuen benden? Anzahl der Mutationen P (X = k ) = kn pk ( − p)n k n · . . . · (n − k + ) p k = k! | {z } − 1 1 k ≈ nk ! Jürgen Dippon (ISA) 1 + n1 n → 1 (1−p ) p Biostatistik I 5. Diskrete Zufallsvariablen Da p e n→∞ für np ≈1 11. Dezember 2012 177 / 435 5.3. Spezielle diskrete Verteilungsmodelle folgt für kleines λk = )≈ ! p (1 − )n (1 − )−k | {z } | {z } p und groÿes n und λ= np P (X k k e , k ∈ { , , . . . , n} X ( k k ∈N f (k ) = P (X = k ) = k e Eine Zufallsvariable −λ 0 1 mit der Wahrscheinlichkeitsfunktion −λ λ für ! 0 sonst heiÿt Poisson-verteilt mit Parameter (oder Rate) Es gilt Jürgen Dippon (ISA) λ > 0, E (X ) = λ, Var (X ) = λ Biostatistik I 0 kurz X∼ 11. Dezember 2012 Pois(λ) 178 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Finden im Zeitintervall [0, 1] zufällig Ereignisse statt, so ist die Anzahl X der in [0, 1] beobachteten Ereignisse Pois(λ)-verteilt, falls die folgenden Poisson-Annahmen gelten: Zwei Erreignisse können nicht gleichzeitig auftreten P( P( N Anzahl der Ereignisse in Anzahl der Ereignisse in N tt t [t , t + ∆t ]) I ,I ⊂ [ , [ , + ∆ ]) ≈ λ∆ Für zwei disjunkte Intervalle 1 1 und Ii t für ∆ t kein nur abhängig von 0 1] gilt: 2 2 sind zwei unabhängige Zufallsvariablen, wobei der Ereignisse in Jürgen Dippon (ISA) Biostatistik I 5. Diskrete Zufallsvariablen X Ni = Anzahl 179 / 435 5.3. Spezielle diskrete Verteilungsmodelle Poisson-verteilte Zufallsvariablen sind X +Y ∼ t 11. Dezember 2012 X∼ Ähnlich wie bei der Binomial-Verteilung gilt eine unabhängig, so gilt ∆ Additionseigenschaft für Pois(λ) und Pois(λ Y∼ Pois(µ) + µ) Damit lässt sich dann zeigen: Z Ist die Anzahl von Ereignissen in [0, 1] Pois(λ)-verteilt, so ist die Anzahl von Ereignissen in [0, t] Pois(λ t) -verteilt. Beispiele für Poisson-verteilten Zufallsvariablen: Anzahl radioaktiver Zerfälle in einem gegebenen Zeitintervall Anzahl der durch Blitzschlag in einem Jahr getöteten Personen Anzahl von Morden in einer Groÿstadt Anzahl von HIV-Inzierten in einem Stadtteil Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 180 / 435 5. Diskrete Zufallsvariablen 5.3. Spezielle diskrete Verteilungsmodelle Abbildung: Zähldichte- und Verteilungsfunktion der Jürgen Dippon (ISA) Biostatistik I Pois (3)-Verteilung 11. Dezember 2012 181 / 435 6. Stetige Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen Spezielle stetige Verteilungsmodelle Gleichverteilung Exponentialverteilung Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen Erwartungswert Modus, Quantil und Median Varianz und Standardabweichung Normalverteilung 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 182 / 435 6. Stetige Zufallsvariablen Stetige Zufallsvariablen Zur Erinnerung: Eine diskrete Zufallsvariable X x x ,...} nimmt Werte in einer T = { 1, endlichen oder abzählbaren, also diskreten, Menge Für deren Verteilungsfunktion F an. gilt F (x ) = P (X ≤ x ) = Jürgen Dippon (ISA) 2 X i : xi ≤x f (xi ) Biostatistik I (1) 11. Dezember 2012 183 / 435 6. Stetige Zufallsvariablen Eine stetige Zufallsvariable kontinuierlichen Menge T, X z.B. nimmt Werte in einer überabzählbaren T = R, T = [0, 1] Für deren Verteilungsfunktion kann die Gleichung oder (1) T = (0, ∞) an. jetzt NICHT mehr gelten. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 184 / 435 6. Stetige Zufallsvariablen Stattdessen und genauer: dass für jedes X x ∈R Eine Zufallsvariable heiÿt stetig, wenn es eine Funktion f (t ) ≥ 0 gibt, so F (x ) = P (X ≤ x ) = f (x ) Z x −∞ heiÿt (Wahrscheinlichkeits-)Dichte von Jürgen Dippon (ISA) X Biostatistik I f (t ) dt . 11. Dezember 2012 185 / 435 6. Stetige Zufallsvariablen Für stetige Zufallsvariablen gilt: P (a ≤ X ≤ b) = P (a < X < b) = P (a ≤ X < b) Z b = P (a < X ≤ b) = f (t ) dt = F (b) − F (a) a P (X = x ) = x ∈R P (−∞ < X < ∞) = Z f (t ) dt = und Da 0 für jedes 1 gilt auch ∞ 1 −∞ Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 186 / 435 6. Stetige Zufallsvariablen Weitere Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable: 1 2 3 F (x ) limx F (x ) = limx F (x ) = x f (x ) F (x ) = dFdx(x ) = f (x ) ist stetig und monoton wachsend mit Werten in [0, 1] 0, →−∞ Für Werte 1 →∞ , an denen stetig ist, gilt 0 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 187 / 435 6. Stetige Zufallsvariablen x ∈R X Y y ∈R P (X ≤ x , Y ≤ y ) = P (X ≤ x ) · P (Y ≤ y ) = FX (x ) · FY (y ) X , . . . , Xn x , . . . , xn ∈ R P (X ≤ x , . . . , Xn ≤ xn) = P (X ≤ x ) · . . . · P (Xn ≤ xn) Zwei stetige Zufallsvariablen und und sind unabhängig, wenn für alle Allgemeiner: Die stetigen Zufallsvariablen für alle sind unabhängig, falls 1 1 1 Jürgen Dippon (ISA) 1 1 Biostatistik I 1 11. Dezember 2012 188 / 435 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Gleichverteilung X ∼ Unif ([a, b]) f (x ) = b Eine stetige Zufallsvariable heiÿt kurz gleichverteilt auf dem Intervall [a, b], , wenn sie eine Dichte 1 −a 0 für a≤x ≤b sonst besitzt. Dazugehörige Verteilungsfunktion Fx x <a a≤x ≤b x >b x =b F 0 x −a ( )= b −a An den Knickstellen Jürgen Dippon (ISA) x =a 1 und ist Biostatistik I 6. Stetige Zufallsvariablen nicht dierenzierbar. 11. Dezember 2012 189 / 435 6.1. Spezielle stetige Verteilungsmodelle Abbildung: Dichte- und Verteilungsfunktion der Gleichverteilung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 190 / 435 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Exponentialverteilung Die geometrische Verteilung dient zur Beschreibung der Wartezeit bis zu einem bestimmten Ereignis. Ein stetiges Analogon hierzu ist die Exponentialverteilung: X exponentialverteilt mit dem Parameter λ > 0, kurz X Eine stetige Zufallsvariable die Dichte f (x ) = Exp(λ) mit nichtnegativen Werten heiÿt λ e −λx für 0 für x≥ x< ∼ , wenn sie 0 0 besitzt. Jürgen Dippon (ISA) Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 191 / 435 6.1. Spezielle stetige Verteilungsmodelle Exponentialverteilung Dazugehörige Verteilungsfunktion F (x ) = 1 − e −λx 0 für für x≥ x< 0 0 t Pois (λt ) Man kann zeigen, dass die Anzahl von Ereignissen in einem Zeitintervall der Länge -verteilt ist, wenn die Zeitdauern zwischen aufeinander folgenden Ereignissen unabhängig und exponentialverteilt mit Parameter λ sind. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 192 / 435 6. Stetige Zufallsvariablen 6.1. Spezielle stetige Verteilungsmodelle Abbildung: Dichte- und Verteilungsfunktion der Exponentialverteilung Jürgen Dippon (ISA) Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 193 / 435 6.2. Lageparameter, Quantile und Varianz Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen Approximation der Dichte f x einer stetigen Zufallsvariablen Histogramm mit Intervallbreite ∆ Biostatistik I für Xd durch ein zu einer diskreten Zufallsvariable E (Xd ) = X xi pi = X x i f (xi )∆x Z → xf (x ) dx Jürgen Dippon (ISA) X : x ∆ →0 11. Dezember 2012 194 / 435 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Erwartungswert Jürgen Dippon (ISA) Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 195 / 435 6.2. Lageparameter, Quantile und Varianz Erwartungswert Der Erwartungswert E (X ) einer stetigen Zufallsvariable ist deshalb deniert als E (X ) = Jürgen Dippon (ISA) Z ∞ −∞ X mit Dichte f (x ) xf (x ) dx Biostatistik I 11. Dezember 2012 196 / 435 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Eigenschaften von Erwartungswerten 1 Ist g (x ) eine reelle Funktion, dann gilt für E (Y ) = E (g (X )) = Y = aX + b E (Y ) = E (aX + b) = aE (X ) + b f c f (c − x ) = f (c + x ) E (X ) = c X Y E (X + Y ) = E (X ) + E (Y ) a , . . . , an E (a X + . . . + anXn) = a E (X ) + . . . + anE (Xn) Z ∞ −∞ 2 Für 3 Ist 4 Additivität: Für zwei Zufallsvariablen 5 Linearität: Für beliebige Konstanten gilt symmetrisch um 1 , d.h. , so gilt 1 gilt gilt 1 1 Biostatistik I 6. Stetige Zufallsvariablen Beispiele X und 1 Jürgen Dippon (ISA) 1 Y = g (X ) g (x )f (x ) dx gleichverteilt auf ab [ , ]. E (X ) = 11. Dezember 2012 197 / 435 6.2. Lageparameter, Quantile und Varianz Dann Z b xf (x ) dx = a x b − a dx b a (b − a)(b + a) − = = b−a (b − a ) a+b = Z ∞ −∞ 2 1 2 2 X ∼ Exp(λ) 2 2 2 2 E (X ) = Z ∞ −∞ xf (x ) dx = = ··· = Jürgen Dippon (ISA) 1 Z 0 ∞ xe x dx −λ 1 λ Biostatistik I 11. Dezember 2012 198 / 435 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Modus, Quantil und Median Ist X dem f (x ) <p< eine stetige Zufallsvariable mit Dichte ein (lokales) Maximum annimmt, Für 0 p-Quantil xp F (xp ) = p Median xmed F (xmed ) = . p 1 heiÿt der Wert von X . Der f (x ) Modus von X , kurz xmod . , so heiÿt der Wert, an mit ist das 50%-Quantil, also 0 5 Ist F streng monoton, so sind das Jürgen Dippon (ISA) -Quantil und der Median eindeutig. Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 199 / 435 6.2. Lageparameter, Quantile und Varianz Varianz und Standardabweichung Die Varianz einer stetigen Zufallsvariable ist deniert als die mittlere oder EX (x − µ) f (x ) dx erwartete quadratische Abweichung vom Erwartungswert 2 σ = Var (X ) = E ((X − µ) ) = 2 Z ∞ −∞ µ = ( ): 2 Die Standardabweichung ist Var (X ) p σ=+ Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 200 / 435 6. Stetige Zufallsvariablen 6.2. Lageparameter, Quantile und Varianz Wie im diskreten Fall gelten 1 2 3 Var (X ) = E (X ) − (E (X )) = E ((X − c ) ) − (µ − c ) Var (aX + b) = a Var (X ) X Y Var (X + Y ) = Var (X ) + Var (Y ) 2 2 2 2 2 für unabhängige Zufallsvariablen Beispiel: Sei X auf ab [ , ] und gleichverteilt Var (X ) = |E ({zX }) EX 2 b a ( − )2 2 − ( ( )) = · · · = | {z } Rb 2 1 ( a+2 b ) a x 2 b−a dx Jürgen Dippon (ISA) 12 Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 201 / 435 6.3. Normalverteilung Normalverteilung Eine Zufallsvariable X mit Dichte f (x ) = √ πσ 1 2 exp x ( − µ)2 − 2σ 2 , x ∈ R, normalverteilt mit den Parametern µ ∈ R und σ2 > 0, kurz X ∼ N (µ, σ ) heiÿt 2 . Es gilt E (X ) = √ πσ 1 Z 2 ∞ −∞ xe x ( −µ)2 2σ2 Var (X ) = E (X ) − (E (X )) 2 Jürgen Dippon (ISA) 2 Biostatistik I dx = · · · = µ = · · · = σ2 11. Dezember 2012 202 / 435 6. Stetige Zufallsvariablen Die Verteilungsfunktion von 6.3. Normalverteilung X ∼ N (µ, σ ) 2 Z x ist gegeben durch t F (x ) = P (X ≤ x ) = √ πσ e dt Z x t X −µ x −µ =P dt ≤ =√ e σ σ πσ Z z t x −µ =Φ dt e , Φ(z ) = √ σ π 1 2 ( −µ)2 2σ2 −∞ −µ σ 1 2 2 −2 2 −∞ X ∼ N (µ, σ ) ⇐⇒ X σ− µ ∼ N ( , 2 Jürgen Dippon (ISA) −∞ 1 wobei Also gilt 2 −2 0 1) Biostatistik I 6. Stetige Zufallsvariablen 11. Dezember 2012 203 / 435 6.3. Normalverteilung Abbildung: Dichte- und Verteilungsfunktion der Normalverteilung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 204 / 435 7. Grenzwertsätze 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze Gesetz der groÿen Zahlen Der zentrale Grenzwertsatz 8 Mehrdimensionale Zufallsvariablen Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 205 / 435 7. Grenzwertsätze Grenzwertsätze Fragen: 1 Unter welchen Voraussetzungen liegt die relative Häugkeit für das Eintreten eines Ereignisses nahe bei der Wahrscheinlichkeit für das Ereignis? 2 Unter welchen Voraussetzungen kann die Verteilung einer Summe von Zufallsvariablen durch eine einfachere Verteilung approximiert werden? Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 206 / 435 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Gesetz der groÿen Zahlen Sei X Also A A X= A X ∼ Bin( , p) p = P (A) = P (X = eine binäre Zufallsvariable und 1 ein Ereignis mit 1 falls eintritt 0 falls nicht eintritt mit Wir nehmen an, dass das Zufallsexperiment wiederholt werden kann: Xi = ,, Xi ∼ Bin( , p) Klar: 1 falls 0 falls 1 für alle A i A i 1). n -mal und in identischer Weise im -ten Versuch eintritt im -ten Versuch nicht eintritt i ∈ { , . . . , n} 1 Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 207 / 435 7.1. Gesetz der groÿen Zahlen Empirisches Gesetz der groÿen Zahlen Für groÿes n liegt die relative Häugkeit nahe bei der Wahrscheinlichkeit von A: fn(A) → P (A) Da fn(A) für für das Eintreten von n→∞ fn(A) = n Pni Xi = X̄n P (A) = E (X ) X̄n → E (X ) n → ∞ 1 =1 und kann A (1) (1) auch in die Form für (2) gebracht werden. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 208 / 435 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Fragen: 1 Wie ist die Konvergenz in 2 Gilt (2) (1) und (2) zu verstehen? auch für nicht-binäre Zufallsvariablen? Auf beide Fragen gibt das Gesetz der groÿen Zahlen eine Antwort. Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze Sei X σ2 = Seien Var (X ) X , . . . , Xn 11. Dezember 2012 7.1. Gesetz der groÿen Zahlen eine Zufallsvariable mit Erwartungswert . 1 unabhängige wie Dann gilt n 1 X X µ= EX und Varianz verteilte Zufallsvariablen. n X n X E X̄n = E n Xi = n EXi = n µ = µ i i i ! n n n X X X Var (X̄n) = Var n Xi = n Var (Xi ) = n σ =1 1 Für groÿe n X̄n ist Jürgen Dippon (ISA) ! 1 1 =1 =1 1 i =1 209 / 435 2 1 i =1 damit immer mehr um Biostatistik I µ 2 2 = i =1 σ2 n herum konzentriert. 11. Dezember 2012 210 / 435 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Gesetz der groÿen Zahlen Für beliebig kleines In Worten: X̄n c> P (|X̄n − µ| < c ) → 0 gilt 1 für n→∞ konvergiert nach Wahrscheinlichkeit gegen µ. Zum Beweis verwenden wir die Ungleichung von Tschebyschev Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 211 / 435 7.1. Gesetz der groÿen Zahlen Ungleichung von Tschebyschev Für jede Zufallsvariable X ∀ c >0 mit endlicher Varianz gilt P (|X − E (X )| ≥ c ) ≤ Varc(X ) 2 Beweis: Setze Y= 0, falls 1, falls (3) X − E (X )| < c X − E (X )| ≥ c | | Damit P (|X − E (X )| ≥ c ) = E (Y ) = E (Y ) |X − E (X )| ≤E = Var (X ) c c 2 2 2 Jürgen Dippon (ISA) Biostatistik I 1 2 11. Dezember 2012 212 / 435 7. Grenzwertsätze 7.1. Gesetz der groÿen Zahlen Beweis des Gesetzes der groÿen Zahlen P (|X̄n − µ| < c ) = 1 − P (|X̄n −{zµ| ≥ c}) | (3) 2 ≤ 12 Var (X̄n )= 12 σn →0 c c n → 1 ( → ∞) Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 213 / 435 7.1. Gesetz der groÿen Zahlen Satz von Bernoulli Spezialfall des starken Gesetzes der groÿen Zahlen: Die relative Häugkeit, mit der ein Ereignis P (A) A n bei unabhängigen Wiederholungen eines Zufallsvorgangs eintritt, konvergiert nach Wahrscheinlichkeit gegen Jürgen Dippon (ISA) . Biostatistik I 11. Dezember 2012 214 / 435 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Der zentrale Grenzwertsatz Die Zufallsvariable X Bin( , p) X , . . . , Xn X Sn = X + · · · + Xn ∼ Bin(n, p) E (Sn) = np Var (Sn) = np( − p) sei Die Zufallsvariablen 1 -verteilt. seien unabhängig wie 1 verteilt. Dann 1 1 Bin(n, p) N (np, np( − p)) Man stellt experimentell leicht fest, dass die Dichte einer -verteilten Zufallsvariablen durch die Dichte einer 1 -verteilten Zufallsvariablen approximiert werden kann. Der formale Beweis ist jedoch schwierig. Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 215 / 435 7.2. Der zentrale Grenzwertsatz Approximation von Summen von Zufallsvariablen Standardisierung von Sn : − E (Sn ) Zn = Spn Var (Sn ) Dann gilt: E (Zn) = 0, Var (Zn) = Var (Sn) Var (Sn) = 1 1 Damit kann obige Beobachtung reformuliert werden: Die Dichte von N( , Zn kann für groÿe 0 1)-Verteilung, also Jürgen Dippon (ISA) f (x ) = √1 n 2π gut durch die Dichte der e 2 − x2 , approximiert werden. Biostatistik I 11. Dezember 2012 216 / 435 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Daraus folgt: Die Verteilungsfunktion Fn(z ) = P (ZnR≤ z ) Znx z Φ(z ) = e dx von durch die Verteilungsfunktion N( , −∞ √1 2π 2 − 2 kann für groÿe n gut einer 0 1)-verteilten Zufallsvariablen approximiert werden. Bin( , p) Diese Tatsache gilt nicht nur für Summen von unabhängigen 1 -verteilten Zufallsvariablen, sondern unter viel allgemeineren Voraussetzungen. Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 217 / 435 7.2. Der zentrale Grenzwertsatz Zentraler Grenzwertsatz X , . . . , Xn 1 seien unabhängig identisch verteilte Zufallsvariablen mit E (Xi ) = µ und Var (Xi ) = σ Fn(z ) = P (Zn ≤ z ) 2 Dann konvergiert die Verteilungsfunktion standardisierten Summe Zn = X 1 für n→∞ X n der X n + ··· + n − µ 1 X i −µ √ =√ σ σ i =1 n an jeder Stelle Standardnormalverteilung z ∈R n gegen die Verteilungsfunktion z Φ( ) der Fn(z ) → Φ(z ) (n → ∞) Unter den Voraussetzungen dieses Satzes gilt deshalb: Sn = X 1 Jürgen Dippon (ISA) X + ··· + n ist approximativ Biostatistik I N (nµ, nσ ) 2 -verteilt 11. Dezember 2012 218 / 435 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Grenzwertsatz von Moivre-Laplace Bin( , p) X , . . . , Xn Als Spezialfall des zentralen Grenzwertsatzes gilt damit für die Summe von unabhängigen 1 -verteilten Zufallsvariablen 1 der Grenzwertsatz von Moivre-Laplace P ∀ z ∈R S np z np p − p n ≤ (1 − ) z ! → Φ( ) für n→∞ oder Sn = n N (np, np( − p)) Anzahl der Erfolge in ist approximativ Jürgen Dippon (ISA) unabhänigen Bernoulli-Versuchen 1 -verteilt Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 219 / 435 7.2. Der zentrale Grenzwertsatz Approximation der Binomialverteilung mit Stetigkeitskorrektor Für moderate n wird die Approximation besser, wenn die Treppenfunktion N( , ) Sn ∼ Bin(n, p) des Wahrscheinlichkeitshistogramms von der Dichtekurve der 0 1 -Verteilung etwa in der Mitte getroen wird. n( − p ) ! P (Sn ≤ x ) = Bin(x |n, p) ≈ Φ px +np.( −−npp) ! ! P (Sn = x ) ≈ Φ px +np.( −−npp) − Φ px −np.( −−npp) Sei -verteilt. Falls np und 1 groÿ genug sind, gilt 0 5 1 0 5 1 n( − p ) ≥ 0 5 1 Faustregel: Die Approximation ist für praktische Zwecke gut, falls und 1 5 Jürgen Dippon (ISA) Biostatistik I np ≥ 11. Dezember 2012 5 220 / 435 7. Grenzwertsätze 7.2. Der zentrale Grenzwertsatz Beispiel Eine Tierart trägt mit Wahrscheinlichkeit 0.1 einen Gendefekt. Es werde eine Stichprobe vom Umfang Sn n= 100 der Population untersucht. sei die Anzahl der gesunden Tiere. Also Sn ∼ Bin(n, p) = Bin( , np = n( − p ) 100 0.9). Wegen 90 und 1 =10 ist die Faustregel erfüllt. Jürgen Dippon (ISA) Biostatistik I 7. Grenzwertsätze 11. Dezember 2012 7.2. Der zentrale Grenzwertsatz Beispiel Wie groÿ ist die Wahrscheinlichkeit, dass höchstens sind? P (Sn ≤ 88) ≈Φ − 90 √ 100 · 0.9 · 0.1 88+0.5 221 / 435 =Φ −1.5 x= 88 Tiere gesund 3 = Φ(−0.5) = 0.309 Die Addition von 0.5 verbessert die Approximation (Stetigkeitskorrektur). Wie groÿ ist die Wahrscheinlichkeit, dass genau gesund sind? P (Sn = 90) PS x= 90 ES = ( n) Tiere PS = ( n ≤ 90) − ( n ≤ 89) 0.5 −0.5 0.5 ≈Φ −Φ =2·Φ − 1 = 0.134 3 3 3 | {z } 1−Φ( 03.5 ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 222 / 435 8. Mehrdimensionale Zufallsvariablen 4 Wahrscheinlichkeitsrechnung 5 Diskrete Zufallsvariablen 6 Stetige Zufallsvariablen 7 Grenzwertsätze 8 Mehrdimensionale Zufallsvariablen Begri mehrdimensionale Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen Zweidimensionale stetige Zufallsvariablen Unabhängigkeit von Zufallsvariablen Kovarianz und Korrelation Die zweidimensionale Normalverteilung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 223 / 435 8. Mehrdimensionale Zufallsvariablen Mehrdimensionale Zufallsvariablen In vielen Anwendungen interessiert nicht nur ein Merkmal, sondern mehrere Merkmale, welche überdies oft nicht unabhängig sind. Das Studium der Abhängigkeit ist häug von zentralem Interesse. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 224 / 435 8. Mehrdimensionale Zufallsvariablen 8.1. Begri mehrdimensionale Zufallsvariablen Begri mehrdimensionale Zufallsvariablen X (ω) Bei einer reellen, also 1-dimensionalen Zufallsvariablen, wird jedem ω Ergebnis n Bei einer eines Zufallsvorganges genau eine reelle Zahl X n X (ω), . . . , Xn(ω) X = (X , . . . , Xn) : Ω −→ Rn ω 7−→ (X (ω), . . . , Xn (ω)) -dimensionalen Zufallsvariablen eines Zufallsvorganges genau zugeordnet. werden jedem Ergebnis reelle Zahlen 1 ω zugeordnet: 1 1 Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 11. Dezember 2012 225 / 435 8.2. Zweidimensionale diskrete Zufallsvariablen Zweidimensionale diskrete Zufallsvariablen X y ,y ,... Seien 1 Die und Y zwei diskrete Zufallsvariablen mit Werten x ,x ,... 1 2 bzw. 2 gemeinsame Wahrscheinlichkeitsfunktion oder gemeinsame diskrete XY x ∈ {x , x , . . . }, y ∈ {y , y , . . . } Dichte der bivariaten diskreten Zufallsvariable f (x , y ) = Jürgen Dippon (ISA) P (X = x , Y = y ) ( , ) für 1 1 0 ist bestimmt durch 2 2 sonst Biostatistik I 11. Dezember 2012 226 / 435 8. Mehrdimensionale Zufallsvariablen Die 8.2. Zweidimensionale diskrete Zufallsvariablen gemeinsame Verteilungsfunktion zu X F (x , y ) = P (X ≤ x , Y ≤ y ) = Jürgen Dippon (ISA) und Y XX xi ≤x yj ≤y Biostatistik I 8. Mehrdimensionale Zufallsvariablen ist gegeben durch f (xi , yj ) 11. Dezember 2012 227 / 435 8.3. Zweidimensionale stetige Zufallsvariablen Zweidimensionale stetige Zufallsvariablen eine auf R 2 X Y gemeinsam stetig verteilt, wenn es f (x , y ) Z bZ d P (a ≤ X ≤ b, c ≤ Y ≤ d ) = a c f (x , y )dxdy Die Zufallsvariablen und sind denierte Dichtefunktion ab cd gibt, so dass z = f (x , y ) gemeinsame Verteilungsfunktion X Y Z x Z y F (x , y ) = f (s , t )dsdt ist gegeben durch Jürgen Dippon (ISA) 11. Dezember 2012 Diese Wahrscheinlichkeit entspricht dem Volumen des Körpers über dem Rechteck Die [ , ]×[ , ] bis zur durch gegebenen Fläche. zu −∞ und −∞ Biostatistik I 228 / 435 8. Mehrdimensionale Zufallsvariablen 8.4. Unabhängigkeit von Zufallsvariablen Unabhängigkeit von Zufallsvariablen Die Zufallsvariable Y kann als unabhängig von der Zufallsvariablen angesehen werden, falls X fY X (y |x ) = ff(Xx(,xy)) = fY (y ) | (vorausgesetzt fX (x ) > f (x , y ) = fX (x ) · fY (y ) 0). In diesem Fall gilt Deshalb deniert man: Y unabhängig ∀ ∀ f (x , y ) = fX (x ) · fY (y ) xy X Y abhängig Die Zufallsvariablen Ansonsten heiÿen X und und heiÿen (stochastisch) (stochastisch) Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen , falls . 11. Dezember 2012 229 / 435 8.5. Kovarianz und Korrelation Kovarianz und Korrelation X Y Die Wahrscheinlichkeitsfunktion beiden Zufallsvariablen X und Y f (x , y ) liefert alle Informationen über die , auch über deren mögliche Abhängigkeit. Kovarianz und Korrelation sind zwei Begrie zur Beschreibung der Abhängigkeit von Sind X und Y und linearen unter Verwendung einer einzigen Maÿzahl. unabhängig, so gilt E (X · Y ) = E (X ) · E (Y ) (ohne Beweis) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 230 / 435 8. Mehrdimensionale Zufallsvariablen Sind die Zufallsvariablen X und Y 8.5. Kovarianz und Korrelation abhängig, so liefert die Dierenz E (XY ) − E (X ) · E (Y ) = E [(X − E (X )) · (Y − E (Y ))] eine Maÿzahl für die Stärke der Abhängigkeit. Wir denieren deshalb: X Y Cov (X , Y ) = E ((X − E (X )) · (Y − E (Y ))) Die Kovarianz der Zufallsvariablen Jürgen Dippon (ISA) und Biostatistik I 8. Mehrdimensionale Zufallsvariablen Die Kovarianz liefert ein Maÿ für die ist gegeben durch 11. Dezember 2012 231 / 435 8.5. Kovarianz und Korrelation lineare Abhängigkeit und lässt sich berechnen durch Cov (X , Y ) = falls X Y Z Cov (X , Y ) = X Y und XX i diskret sind, bzw. ∞ −∞ falls und j f (xi , yj )(xi − E (X ))(yj − E (Y )) Z ∞ −∞ f (x , y )(x − E (X ))(y − E (Y ))dxdy stetig sind. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 232 / 435 8. Mehrdimensionale Zufallsvariablen Ye = cY + d Werden die Zufallsvariablen und , so gilt X und 8.5. Kovarianz und Korrelation Y linear transformiert zu Xe = aX + b Cov (Xe , Ye ) = a · c · Cov (X , Y ) Da die Kovarianz oensichtlich maÿstabsabhängig ist, wird in der Praxis der durch XY % = %( , ) = p denierte Cov (Xp, Y ) Var (X ) · Var (Y ) Korrelationskoezient bevorzugt. Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 11. Dezember 2012 233 / 435 8.5. Kovarianz und Korrelation Eigenschaften des Korrelationskoezienten: XY −1 ≤ %( , ) ≤ 1 XY Y aX b ab X aX b Y cY d a c e, Y e )| = |%(X , Y )| |%(X X Y unkorreliert %(X , Y ) = %(X , Y ) 6= korreliert |%( , )| = 1 ⇔ = + für Konstanten , e= + , e = + mit , = 6 0: Zwei Zufallsvariablen und heiÿen , falls 0 Ist 0, so heiÿen sie . Man kann zeigen, dass zwei unabhängige Zufallsvariablen auch immer unkorreliert sind. Die Umkehrung gilt im Allgemeinen nicht. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 234 / 435 8. Mehrdimensionale Zufallsvariablen 8.5. Kovarianz und Korrelation Varianz der Summe zweier u.U. abhängigen Zufallsvariablen: Var (X + X ) = E (X + X − E (X ) − E (X )) = E (X − E (X )) + E ((X − E (X )) (X − E (X ))) + E (X − E (X )) = Var (X ) + Var (X ) + Cov (X , X ) 1 2 1 2 1 1 1 2 1 2 Jürgen Dippon (ISA) 2 2 2 2 2 2 Biostatistik I 8. Mehrdimensionale Zufallsvariablen 2 1 1 2 2 1 2 11. Dezember 2012 235 / 435 8.5. Kovarianz und Korrelation Linearkombination von Zufallsvariablen Sei X Bioreaktor mit ai n z.B. die zufallsabhängige Tagesproduktion von Hefe in einem zufälligen Faktor betragen: Xi verschiedenen Hefekulturen, die sich pro Tag um den vermehren und deren relativen Anteile zu Tagesbeginn X =a X 1 Jürgen Dippon (ISA) 1 aX + ··· + n n Biostatistik I 11. Dezember 2012 236 / 435 8. Mehrdimensionale Zufallsvariablen 8.5. Kovarianz und Korrelation Dann gilt: E (X ) = a E (X ) + · · · + anE (Xn) Var (X ) = E ((X − E (X )) ) ! n X ai (Xi − E (Xi )) =E 1 1 2 2 i =1 n X X 2 2 = i j ( i − ( i ))( j − ( j )) i ( i − ( i )) + i =1 i 6=j n X X 2 ( i) + 2 ( i, j) = i j i i =1 i <j E a X EX a Var X aa X E X X E X a a Cov X X Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 11. Dezember 2012 237 / 435 8.5. Kovarianz und Korrelation Beispiel: Optimierung eines Bioreaktors X ,X Zwei Hefekulturen werden in den Anteilen einen Bioreaktor eingebracht. a 1 und a 2 mit a +a 1 2 =1 in 2 seien die zufallsabhängigen 1 Vermehrungsraten (pro Tag) der beiden Hefearten. Der gesamte X =a X +a X Tagesertrag ist somit 1 1 2 2 Und der zu erwartende Tagesertrag ist E (X ) = a E (X ) + a E (X ) 1 1 2 2 Die Varianz der Tagesertrages kann als ein Risikomaÿ für den Tagesertrag interpretiert werden: Var (X ) = a Var (X ) + a Var (X ) + a a Cov (X , X ) 2 1 Jürgen Dippon (ISA) 1 2 2 Biostatistik I 2 2 1 2 1 2 11. Dezember 2012 238 / 435 8. Mehrdimensionale Zufallsvariablen Mit σi2 = 8.5. Kovarianz und Korrelation Var (Xi ), ρ = Cor (X , X ) Var (X ) = a σ + a σ 1 2 1 2 ist: 2 1 2 2 2 2 +2 aaσσρ 1 2 1 2 Je nachdem, ob die Wachstumsfaktoren der beiden Hefekulturen positiv oder negativ korreliert sind, ist das Risikomaÿ für den Tagesertrag gröÿer oder kleiner als die Summe der Einzelrisiken. Spezialfall: σ = σ1 = σ2 , ρ = 1 Var (X ) = a σ + a σ 2 1 Spezialfall: Falls 2 2 2 +2 aaσ 1 2 σ = σ1 = σ2 , ρ = −1 a =a 1 2 Var (X ) = a σ + a σ 2 1 2 = 0.5, 2 2 2 2 2 aaσ −2 1 2 a +a ) σ =( 2 1 2 2 2 = σ2 a −a ) σ =( 1 2 2 2 ist das Gesamtrisiko gleich Null. Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 11. Dezember 2012 239 / 435 8.6. Die zweidimensionale Normalverteilung Die zweidimensionale Normalverteilung Dichte einer 1-dimensional normalverteilten Zufallsvariablen f (x ) = √ πσ exp 1 2 wobei EX µ = ( ), σ 2 = Jürgen Dippon (ISA) Var (X ) ( − 1 x −µ 2 σ 2 ) , X : x ∈ R, . Biostatistik I 11. Dezember 2012 240 / 435 8. Mehrdimensionale Zufallsvariablen 8.6. Die zweidimensionale Normalverteilung Erweiterung der Normalverteilung auf 2-dimensionale Zufallsvariablen: Die Zufallsvariablen X und Y heiÿen gemeinsam normalverteilt, wenn ihre gemeinsame Dichte bestimmt ist durch f (x , y ) = wobei 1 1/2 2π det(Σ) exp ( − 1 2 x −µ y −µ 1 t Σ−1 2 x , y ∈ R, µ = E (X ), µ = E (Y ) Var (X ) Cov (X , Y ) σ Σ= = Cov (X , Y ) Var (Y ) σ σ ρ 1 x −µ y −µ 1 ) 2 und 2 2 1 1 Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 2 σ1 σ2 ρ σ22 11. Dezember 2012 241 / 435 8.6. Die zweidimensionale Normalverteilung Beispiel: Seien X1 das Körpergewicht und X2 die Körpergröÿe. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 Abbildung: 2-dimensionale Normalverteilung 242 / 435 8. Mehrdimensionale Zufallsvariablen 8.6. Die zweidimensionale Normalverteilung Abbildung: 2-dimensionale Normalverteilung Jürgen Dippon (ISA) Biostatistik I 8. Mehrdimensionale Zufallsvariablen 11. Dezember 2012 8.6. Die zweidimensionale Normalverteilung Abbildung: 2-dimensionale Normalverteilung Jürgen Dippon (ISA) 243 / 435 Biostatistik I 11. Dezember 2012 244 / 435 8. Mehrdimensionale Zufallsvariablen 8.6. Die zweidimensionale Normalverteilung Der unkorrelierte Fall X Y Sind die Zufallsvariablen X und Y mit gemeinsamer Normalverteilung ρ = 0, unkorreliert, d.h. so ist Fall: σ12 Σ= f (x , y ) = 0 σ 0 exp πσ σ 1 2 1 2 1 , ( − 2 1 x −µ 1 2 1 Jürgen Dippon (ISA) 1 2 1 σ1 2 x −µ exp − σ πσ = fX (x ) · fY (y ) =√ ( sogar unabhängig, da in diesem det (Σ) = σ σ , 2 2 und 1 2 2 2 − Σ−1 = 1 x −µ 0 2 σ2 ·√ exp πσ 1 2 Biostatistik I 2 0 σ2−2 2 ) 2 2 ) 1 σ1−2 ( − 1 2 y −µ 2 2 ) σ2 11. Dezember 2012 245 / 435 11. Dezember 2012 246 / 435 Teil III Induktive Statistik Jürgen Dippon (ISA) Biostatistik I Induktive Statistik 9 Parameterschätzung 10 Testen von Hypothesen 11 Einfache lineare Regression 12 Varianzanalyse 13 Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 247 / 435 Schlieÿende Statistik Wie kann man basierend auf einer Stichprobe Informationen über die Verteilung eines interessierenden Merkmals erhalten? Schätzverfahren dienen zur näherungsweisen Ermittlung unbekannter Parameter der Verteilung Testverfahren dienen zur Überprüfung von Hypothesen über die unbekannte Verteilung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 248 / 435 9. Parameterschätzung 9 Parameterschätzung Parameterschätzung Eigenschaften von Schätzstatistiken Erwartungstreue Erwartete mittlere quadratische Abweichung und Konsistenz Konstruktion von Schätzfunktionen Maximum-Likelihood-Schätzung Kleinste-Quadrate-Schätzung Intervallschätzung Kondenzintervalle für Erwartungswert und Varianz 10 Testen von Hypothesen 11 Einfache lineare Regression 12 Varianzanalyse 13 Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 249 / 435 9. Parameterschätzung Beispiel: Wie hoch ist der relative Anteil von Frauen unter den Hochschullehrern in Deutschland? Da eine Totalerhebung viel zu aufwändig wäre, bestimmt man den relativen Anteil der Frauen in einer Zufallsstichprobe. Dieser relative Anteil in der Stichprobe ist ein Schätzer für den wahren Anteil in der Grundgesamtheit. Da eine zweite Stichprobe einen anderen Schätzwert liefern würde, stellt sich u.a. die Frage nach der Qualität des Schätzers. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 250 / 435 9. Parameterschätzung 9.1. Parameterschätzung Parameterschätzung Einer Schätzfunktion oder Schätzstatistik für den Parameter θ der Verteilung der Grundgesamtheit ist eine Funktion T = g (X , . . . , Xn) X , . . . , Xn x , . . . , xn g (x , . . . , xn) 1 der Stichprobenvariablen Der aus den Realisationen . 1 resultierende numerische Wert 1 1 ist der zugehörige Schätzwert. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 251 / 435 9.1. Parameterschätzung Beispiele: X̄ = g (X , . . . , Xn) = n Pni Xi µ = E (X ) x̄ S = g (X , . . . , Xn) = n Pni (Xi − X̄ ) σ = Var (X ) 1 1 =1 Schätzfunktion für den Erwartungswert zugehörige Realisation der Stichprobe 2 1 1 =1 −1 Schätzfunktion für die Varianz Jürgen Dippon (ISA) 2 2 Biostatistik I 11. Dezember 2012 252 / 435 9. Parameterschätzung 9.2. Eigenschaften von Schätzstatistiken Eigenschaften von Schätzstatistiken Erwartungstreue Eine Schätzstatistik T = g (X , . . . , Xn) 1 unverzerrt für den Parameter θ, falls heiÿt erwartungstreu oder E (T ) = θ θ Sie heiÿt asymptotisch erwartungstreu für θ, falls lim n→∞ Die E (T ) = θ θ Verzerrung oder der Bias ist deniert durch Bias (T ) = E (T ) − θ θ Das tief gestellte θ E in θ θ soll andeuten, dass der Erwartungswert von bezüglich der Verteilung berechnet werden soll, die θ T als wahren Parameter besitzt. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 253 / 435 9.2. Eigenschaften von Schätzstatistiken Beispiele: E (X̄ ) = E ( n Pni Xi ) = n Pni E| {z(Xi}) = µ X̄ E (S ) = E ( n Pni (Xi − X̄ ) ) = · · · = σ S E (S̃ ) = E ( n Pni (Xi − X̄ ) ) = · · · = n n σ S̃ Bias (S̃ ) = E (S̃ ) − σ = − n σ S̃ σ µ 1 µ 1 =1 µ =1 µ Also ist σ2 2 Also ist σ2 ein erwartungstreuer Schätzer für den Erwartungswert 2 2 Also ist σ2 Also ist 1 σ2 1 −1 2 2 =1 kein erwartungstreuer Schätzer für die Varianz 2 2 2 ein erwartungstreuer Schätzer für die Varianz σ2 2 2 =1 −1 µ σ2 2 2 1 2 asymptotisch erwartungstreu für Jürgen Dippon (ISA) σ2 Biostatistik I 2 11. Dezember 2012 254 / 435 9. Parameterschätzung Frage: Wie genau schätzt X̄ 9.2. Eigenschaften von Schätzstatistiken den Erwartungswert? n 1 X Var (X̄ ) = Var n Xi i ! = =1 Der 1 n 2 n X i =1 Var (Xi ) = n σ2 Standardfehler einer Schätzstatistik ist bestimmt durch die Standardabweichung der Schätzstatistik Var (g (X , . . . , Xn)) p σg = 1 Achtung: Der Begri des Standardfehlers ist nur sinnvoll für erwartungstreue Schätzstatistiken! Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung Der Standardfehler von X̄ 11. Dezember 2012 255 / 435 9.2. Eigenschaften von Schätzstatistiken ist damit σ σX̄ = √ n Da σ2 X̄ meist unbekannt sein dürfte, muss es geschätzt werden. Ein σX̄ von ist s Pn 1 i =1 ( i − = n−1 Schätzer für den Standardfehler r σ̂X̄ = Jürgen Dippon (ISA) S n 2 n Biostatistik I X X̄ ) 2 11. Dezember 2012 256 / 435 9. Parameterschätzung 9.2. Eigenschaften von Schätzstatistiken Erwartete mittlere quadratische Abweichung und Konsistenz Die erwartete mittlere quadratische Abweichung (mean squared error) ist bestimmt durch MSE =E (T − θ) =E (T − E (T ) + E (T ) − θ) =E ((T − E (T )) + E ((T − E (T )) ((E (T ) − θ)) {z } | + E ((E (T ) − θ) )) =Var (T ) + (Bias (T )) 2 2 2 2 =0 2 2 Diese Zerlegung des MSE zeigt, dass der Standardfehler nur dann ein Bias (T ) = brauchbares Vergleichsmaÿ für die Güte eines Schätzers ist, wenn der Schätzer erwartungstreu ist, d.h. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung Eine Schätzstatistik heiÿt 11. Dezember 2012 konsistent im quadratischen Mittel, falls 2 0 für 0 für schwach konsistent, falls ∀ ε>0 257 / 435 9.2. Eigenschaften von Schätzstatistiken MSE = E ((T − θ) ) → und 0. P (|T − θ| ≥ ε) → n→∞ n→∞ Konsistenz im quadratischen Mittel impliziert schwache Konsistenz. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 258 / 435 9. Parameterschätzung 9.2. Eigenschaften von Schätzstatistiken Beispiel: Arithmetisches Mittel X , . . . , Xn ∼ N (µ, σ ) 2 1 unabhängige Zufallsvariablen Schätzen des Erwartungswertes µ mittels n X X̄ = n Xi 1 Da Da E X̄ = · · · = µ X̄ Var (X̄ ) = · · · = n → , ist σ2 Mittel. Ferner gilt i =1 erwartungstreu. 0 n ( → ∞) X̄ ∼ N Jürgen Dippon (ISA) X̄ ist konsistent im quadratischen σ2 µ, n Biostatistik I 9. Parameterschätzung 11. Dezember 2012 259 / 435 9.2. Eigenschaften von Schätzstatistiken Also P (|X̄ − µ| ≤ ε) = P X̄ ! − µ ε ≤ √σ √σ n n ε =Φ ! −Φ − √σ n =2 Φ ε √σ ε ! √σ n ! n {z } →1 für n → ∞ −1 | →1 Damit ist X̄ für n→∞ auch schwach konsistent. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 260 / 435 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Konstruktion von Schätzfunktionen Wir diskutieren drei Ideen zur Konstruktion von Schätzfunktionen: Maximum-Likelihood-Schätzung Kleinste-Quadrate-Schätzung Intervallschätzung Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 261 / 435 9.3. Konstruktion von Schätzfunktionen Maximum-Likelihood-Schätzung Beispiel: Gesucht ist die Wahrscheinlichkeit p für das Auftreten eines Ereignisses A im Rahmen eines Experiments X= Die Ausgänge von n 0 falls 1 falls Klar: Pn i =1 nicht eintritt eintritt X unabhängigen Wiederholungen des Experimentes X , . . . , Xn Xi ∼ Bin(n, p) werden dann beschrieben durch die Zufallsvariablen n A A unabhängigen wie verteilten 1 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 262 / 435 9. Parameterschätzung Hierbei ist n 9.3. Konstruktion von Schätzfunktionen natürlich bekannt, nicht jedoch die Erfolgswahrscheinlichkeit L(p) = P n X i =1 Xi = k p ! n p k ( − p )n k p̂ L(p) = 1 −k Das Maximum-Likelihood-Prinzip wählt als Schätzwert für die unbekannte Wahrscheinlichkeit maximiert. Jürgen Dippon (ISA) den Wert, welcher Biostatistik I 9. Parameterschätzung Allgemein: Sei θ p 11. Dezember 2012 263 / 435 9.3. Konstruktion von Schätzfunktionen f (x |θ) n der gesuchte ein- oder mehrdimensionale Parameter einer (diskreten oder stetigen) Dichte . Dann ist die gemeinsame Dichte von Wiederholungen gegeben durch unabhängigen identischen f (x , . . . , xn|θ) = f (x |θ) · . . . · f (xn|θ) 1 Jürgen Dippon (ISA) 1 Biostatistik I 11. Dezember 2012 264 / 435 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Anstatt diese Dichte als eine Funktion zu beliebigen Werten einem festen Parameter Likelihoodfunktion θ x , . . . , xn 1 zu interpretieren, interpretieren wir die sog. L(θ) = f (x , . . . , xn|θ) 1 als eine Funktion von θ und zu den gegebenen festen Realisationen und wählen als Parameterschätzung denjenigen Parameter θ, x , . . . , xn 1 für welchen die Likelihood maximal ist, d.h. L(θ̂) = L(θ) T = θ̂(x , . . . , xn) max θ Eine so konstruierte Schätzfunktion 1 Maximum-Likelihood-Schätzer. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung heiÿt 11. Dezember 2012 265 / 435 9.3. Konstruktion von Schätzfunktionen Das Maximum bestimmt man meist durch Ableiten und Nullsetzen der Ableitung. Häug ist es jedoch geschickter, die sog. ln in θ L(θ) = n X ln i =1 Log-Likelihood f (xi |θ) zu maximieren, welche an denselben Stellen maximal wird, da die Logarithmusfunktion ln eine streng monoton wachsende Funktion ist. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 266 / 435 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Beispiel: Poisson-Verteilung Gesucht: Parameter λ Pois (λ) x , . . . , xn X , . . . , Xn einer Gegeben: Realisationen X von unabhängigen identisch wie 1 verteilten Zufallsvariablen Likelihoodfunktion -verteilten Zufallsgröÿe X 1 x1 xn L(λ) = e x ! · . . . · e xn! −λ λ −λ λ 1 Log-Likelihoodfunktion ln n X n X xi L(λ) = e xi ! = i i n L(λ) = X(− + xi ) = −λ λ ln =1 ∂ ln ∂λ 1 x x (−λ + i ln λ − ln ( i !)) =1 0 λ̂ iP =1 n i =⇒ λ̂ = i =1 = x x̄ n Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 267 / 435 9.3. Konstruktion von Schätzfunktionen Beispiel: Normalverteilung X , . . . , Xn Gesucht: Parameter 1 µ, σ einer N (µ, σ ) 2 X -verteilten Zufallsgröÿe unabhängige Wiederholungen einer wie Zufallsgröÿe. -verteilten X Likelihoodfunktion zu den Realisierungen (x −µ) − 1 2 2σ 2 1 2 ln xn −µ)2 2 L(µ, σ) = √ πσ e · ... · √ e πσ n X (xi − µ) √ L(µ, σ) = − σ πσ i n X √ (xi − µ) = − π− σ− 1 − ( 2σ 2 2 1 ln 2 2 2 =1 2 ln 2 i =1 Jürgen Dippon (ISA) Biostatistik I ln 2σ 2 11. Dezember 2012 268 / 435 9. Parameterschätzung Partielles Dierenzieren nach µ und L σ 9.3. Konstruktion von Schätzfunktionen und Nullsetzen x n ∂ ln (µ, σ) X i − µ̂ = =0 ∂µ σ̂ 2 i =1 n 2 ∂ ln (µ, σ) X 1 2( i − µ̂) = − + =0 ∂σ σ̂ 2σ̂ 3 i =1 L x Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung Aus (1): n X i =1 µ̂ = i =1 0, 2 2σ̂ 3 =0 v v u n u n u1 X u1 X σ̂ = t ( i − µ̂)2 = t ( i − )2 i =1 i =1 n x n x x̄ Oensichtlich erhält man die bereits bekannten Schätzstatistiken Jürgen Dippon (ISA) 269 / 435 x̄ 2 also 11. Dezember 2012 n X n (xi − µ̂) − + σ̂ (2) 9.3. Konstruktion von Schätzfunktionen xi − nµ̂ = also Aus (2): (1) Biostatistik I X̄ 11. Dezember 2012 und S̃ . 270 / 435 9. Parameterschätzung 9.3. Konstruktion von Schätzfunktionen Kleinste-Quadrate-Schätzung Prinzip der kleinsten Quadrate: Wähle den Parameter so, dass die Summe der quadrierten Abweichungen zwischen Beobachtungswert und geschätztem Wert minimal wird. Wichtig im Rahmen der Regressionsanalyse. Beispiel: Schätze den Lageparameter µ so, dass n X Q (µ) := (Xi − µ) i dQ = Xn (Xi − µ) = dµ i n X =⇒ µ̂ = n Xi = X̄ 2 minimal =1 2 0 =1 1 i =1 Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 271 / 435 9.4. Intervallschätzung Intervallschätzung Wie der Name schon sagt, liefert die Punktschätzung einen (zufälligen) Wert θ̂ für den gesuchten Parameter θ, der aber in den meisten Fällen mit dem gesuchten Wert nicht übereinstimmt. Ist der Schätzer erwartungstreu, liefert der Standardfehler ein sinnvolles Maÿ für die Präzision des Schätzverfahrens. Ein alternatives Vorgehen steht in Form der Intervallschätzung zur Verfügung, welches ein (zufallsabhängiges) Intervall angibt, in dem der gesuchte Parameter mit einer vorgegebenen (Mindest-)Wahrscheinlichkeit liegt: Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 272 / 435 9. Parameterschätzung 9.4. Intervallschätzung Irrtumswahrscheinlichkeit α werden aus den X , . . . , Xn Gu = gu (X , . . . , Xn) ≤ Go = go (X , . . . , Xn) Zu vorgegebener Stichprobenvariablen Schätzstatistiken 1 1 P (θ ∈ [Gu , Go ]) ≥ so konstruiert, dass d.h. 1 1 −α P (Gu ≤ θ ≤ Go ) ≥ − α [Gu , Go ] (1 − α)-Kondenzintervall 1 . Dann heiÿt (1 − α)-Vertrauensintervall) Typische Werte für für den unbekannten Parameter Biostatistik I 9. Parameterschätzung Setzt man prinzipiell 1 θ. α: 0.1, 0.05, 0.01. Jürgen Dippon (ISA) X , . . . , Xn (oder Gu = −∞ ) erhält man ein oder 11. Dezember 2012 273 / 435 9.4. Intervallschätzung Go = ∞ (für alle Werte von einseitiges (1 − α)-Kondenzintervall P (θ ≤ Go ) ≥ Go P (Gu ≤ θ) ≥ Gu . mit der oberen Kondenzschranke 1 −α , bzw. 1 −α mit der unteren Kondenzschranke Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 274 / 435 9. Parameterschätzung x , . . . , xn Ist 1 9.4. Intervallschätzung X , . . . , Xn [gu (x , . . . , xn ), go (x , . . . , xn )] eine Realisation von , so ergibt sich durch 1 1 ein 1 realisiertes Kondenzintervall, das den unbekannten Parameter θ entweder enthält oder nicht enthält. G G (1 − α)-Kondenzintervall [ u , o ] für θ muss so interpretiert werden, dass [ u , o ] in (1 − α) · 100% der Fälle, in denen Kondenzintervalle geschätzt werden, die resultierenden Kondenzintervalle den wahren Wert θ Das G G enthalten. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 275 / 435 9.4. Intervallschätzung Kondenzintervalle für Erwartungswert und Varianz X , . . . , Xn 1 unabhängige Wiederholungen von X ∼ N (µ, σ ) 2 . Gesucht: Kondenzintervalle für den unbekannten Erwartungswert µ. 1. Fall: σ2 bekannt X̄ ist ein Schätzer für µ X̄ ∼ N n X̄ − µ ∼ N ( , ) σ2 µ, √σ n Jürgen Dippon (ISA) 0 1 Biostatistik I 11. Dezember 2012 276 / 435 9. Parameterschätzung Sei z das 1− α 2 (1 − α2 )-Quantil der Dann gilt 1 −α= P −z 1− α 2 9.4. Intervallschätzung N( , 0 1)-Verteilung. ≤ X̄ − µ ≤ z ! 1− α 2 √σ n P z n X̄ z n σ σ √ ≤ µ ≤ X̄ + z √ = P X̄ − z n n = σ − 1− α2 √ ≤ 1− α 2 Damit ist G G [ u, o] = ein X̄ z (1 − α)-Kondenzintervall Jürgen Dippon (ISA) Biostatistik I Breite von n 11. Dezember 2012 9.4. Intervallschätzung [ u, o] → 0 In ähnlicher Weise ndet man die einseitigen Kondenzintervalle für − ∞, Jürgen Dippon (ISA) 277 / 435 G G [Gu , Go ] → ∞ : Breite von α → 0: n X̄ z σ + 1− α2 √ µ. 9. Parameterschätzung n→∞ 1− α 2 σ − 1− α2 √ , für σ − µ ≤ 1− α2 √ X̄ z σ i + 1− α2 √ n bzw. Biostatistik I X̄ z h µ: σ − 1− α2 √ , ∞ n 11. Dezember 2012 278 / 435 9. Parameterschätzung 9.4. Intervallschätzung Beispiel: Proteingehalt eines Biolms in mg/g Trockenmasse Modellannahme: Proteingehalt ist Stichprobe (n=80) N (µ, σ ) 2 -verteilt x <- c (321 ,334 ,356 ,398 ,376 ,343 ,312 ,334 ,365 ,376 ,334 ,355 ,388 , 322 ,311 ,388 ,339 ,350 ,354 ,334 ,324 ,323 ,345 ,376 ,352 ,383 , 326 ,327 ,334 ,385 ,332 ,312 ,385 ,360 ,398 ,399 ,360 ,310 ,334 , 323 ,335 ,372 ,383 ,372 ,382 ,389 ,389 ,311 ,325 ,327 ,373 ,382 , 314 ,315 ,317 ,318 ,311 ,390 ,380 ,370 ,385 ,392 ,399 ,373 ,335 , 336 ,335 ,335 ,335 ,335 ,334 ,335 ,334 ,336 ,334 ,331 ,339 ,335 , 331 ,338) Punktschätzung für die unbekannte Varianz (Stichprobenvarianz) x̄ Schätzer für den Standardfehler von Jürgen Dippon (ISA) : σ̂x̄ = Biostatistik I 9. Parameterschätzung σ 2 : q x̄ µ: µ̂ = = 349.25 σ̂ = 2 = 27.12 s Punktschätzung für den unbekannten Erwartungswert 2 s 2 = 3.03 n 11. Dezember 2012 279 / 435 9.4. Intervallschätzung 95%-Kondenzintervall für den Erwartungswert bei bekannter Standardabweichung (die hier nicht bekannt ist, deshalb nehmen wir mal σ = 27 an): x̄ z n x̄ z σ σ − 1− α2 √ , + 1− α2 √ 27 27 = 349.25 − 1.96 · √ , 349.25 + 1.96 · √ n 80 80 = [343.31, 355.19] Berechnung des konkreten 95%-Kondenzintervalles in R: > mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) [1] 343.3061 > mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) [1] 355.1939 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 280 / 435 9. Parameterschätzung 9.4. Intervallschätzung In einer kleinen Simulationsstudie überprüfen wir, ob das oben angegebene (theoretische) Kondenzintervall das vorgeschriebene Niveau einhält: in . conf . int <- rep ( FALSE ,1000) for (i in 1:1000){ x <- rnorm (80 , mean =350 , sd =27) lower <- mean ( x ) - qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) upper <- mean ( x )+ qnorm (0.975)* sd ( x )/ sqrt ( length ( x )) cat (" i =" ,i ,":" , c ( lower , upper ), "\ n ") if ( lower <= 350 & 350 <= upper ){ in . conf . int [ i ] <- TRUE } } table ( in . conf . int )/1000 Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 281 / 435 9.4. Intervallschätzung 2. Fall: σ2 unbekannt Da σ2 wird unbekannt ist, ist auch die Verteilung von σ durch S v u u =t geschätzt. Die Zufallsvariable n X 1 n− 1 i =1 X̄ −µ σ √ n unbekannt. Deshalb X X̄ ) ( i− 2 X̄ − µ √S n n ist jetzt allerdings nicht mehr normalverteilt, sondern ( − 1) Freiheitsgraden. Jürgen Dippon (ISA) Biostatistik I tn −1 - verteilt mit 11. Dezember 2012 282 / 435 9. Parameterschätzung Sind Z , Z , . . . , Zn 1 9.4. Intervallschätzung N( , 0 1)-verteilte Zufallsvariablen, dann unabhängige T = qZ Z heiÿt die Verteilung von t - oder Student-verteilt mit n 2 2 1 +···+Zn n Freiheitsgraden. Die Tails (Flanken) der Dichten fallen nur wie bei der Normalverteilung. Jürgen Dippon (ISA) sei das (1 −1,1− α 2 Konstruktion eines 1 −α= − α2 )-Quantil der P −tn −1,1− α 2 P X̄ − tn ≤ tn [ u, o] = ein X̄ − tn X̄ − µ ≤ tn √S 11. Dezember 2012 283 / 435 für den Erwartungswert −1,1− α 2 µ: ! −1,1− α 2 S √ ≤ µ ≤ X̄ + tn n (1 − α)-Kondenzintervall 2 −1 -Verteilung. n −1,1− α 2 ∼ exp(− x2 ) 9.4. Intervallschätzung Damit ist G G −n und nicht (1 − α)-Kondenzintervalles = x Biostatistik I 9. Parameterschätzung tn ∼ S √ , X̄ + tn n −1,1− α 2 −1,1− α 2 für den Erwartungswert µ, S√ n S√ n falls σ2 unbekannt ist. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 284 / 435 9. Parameterschätzung n N (µ, n ) [Gu , Go ] = X̄ − z Da für groÿe Stichprobenumfänge approximativ σ2 9.4. Intervallschätzung das arithmetische Mittel -verteilt ist, kann man zeigen, dass für 1− α 2 ein approximatives falls σ 2 S √ , X̄ + z n 1− α 2 (1 − α)-Kondenzintervall S√ n X̄ n≥ 30 für den Erwartungswert µ ist, unbekannt ist. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung Konstruktion eines 11. Dezember 2012 285 / 435 9.4. Intervallschätzung (1 − α)-Kondenzintervalles für die Varianz bei normalverteilter Grundgesamtheit: σ2 kann mittels Sind Z , . . . , Zn 1 S 2 geschätzt werden. N( , ) Z + · · · + Zn χ -Verteilung n unabhängige 0 1 -verteilte Zufallsvariablen, so besitzt 2 1 eine so genannte 2 Man kann zeigen, dass 2 mit n− S σ 1 2 Jürgen Dippon (ISA) Freiheitsgraden. 2 ∼ χ2n−1 Biostatistik I 11. Dezember 2012 286 / 435 9. Parameterschätzung Seien mit χ2n−1, α n ( − 1) und 2 χ2n−1, 1−α α die 2 2 - bzw. (1 − α2 )-Quantile der χ2 -Verteilung Freiheitsgraden. Dann gilt: 1 −α= = Also ist ein 9.4. Intervallschätzung P χ2n−1, α ≤ 2 P n S ( − 1) 2 χ2n−1,1− α " 2 n− S σ 1 n S 2 S 2 ( − 1) ( − 1) , χ2n−1,1− α χ2n−1, α 2 2 (1 − α)-Kondenzintervall 2 ≤ χn−1,1− α 2 ! ( − 1) 2 2 ≤σ ≤ χ2n−1, α 2 S n n 2 2 # für die Varianz bei einer normalverteilten Grundgesamtheit. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung Bei einem dichotomen Merkmal Bin( , p) bei Vorliegen der Stichprobe 1 X 11. Dezember 2012 287 / 435 9.4. Intervallschätzung wird die Auftretenswahrscheinlichkeit p = P (X = X , . . . , Xn 1) von unabhängigen 1 -verteilten Zufallsvariablen mittels n X p̂ = n Xi 1 i =1 geschätzt. Da X Bin(n, p) X̄p− E (X̄ ) = qp̂ − p Var (X̄ ) p n p Pn i =1 i ∼ , ist nach dem zentralen Grenzwertsatz (1− ) approximativ N( , 0 1)-verteilt. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 288 / 435 9. Parameterschätzung Da p p p̂ p̂ − p ≤ z − α ∼ P −z ≤q p̂ −p̂ unbekannt ist, wird 1 9.4. Intervallschätzung durch 1− α 2 = P p̂ − z geschätzt. Dann gilt (1 ) n r α 1− 2 1− α 2 p̂( − p̂) ≤ p ≤ p̂ + z n r 1 α 1− 2 p̂( − p̂) n 1 ! Also ist G G " [ u, o] = ein approximatives p̂ − z r α 1− 2 p̂( − p̂) , p̂ + z n r 1 (1 − α)-Kondenzintervall α 1− 2 p̂( − p̂) n 1 # für die Wahrscheinlichkeit in einer Bernoulli-verteilten Grundgesamtheit. Jürgen Dippon (ISA) Biostatistik I 9. Parameterschätzung 11. Dezember 2012 p 289 / 435 9.4. Intervallschätzung Beispiel: Sonntagsfrage Von n= p̂ = 496 befragte Frauen zeigten Unionsparteien. Also ist p = P (X = 200 . 496 X Pn i =1 i = 200 Bei einer Sicherheitswahrscheinlichkeit von 1 eine Präferenz für die − α = 0.95 erhält man für 1) ein approximatives 95%-Kondenzintervall " p̂ − z r α 1− 2 p̂( − p̂) , p̂ + z n 1 " = − 1.96 α 1− 2 r 0.403 r 0.403 · 0.597 496 p̂( − p̂) n # 1 # ,··· + ... = [0.360, 0.446] Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 290 / 435 10. Testen von Hypothesen 9 10 Parameterschätzung Testen von Hypothesen Binomial- und Gauÿ-Test Approximativer Binomialtest Gauÿ-Test Prinzipien des Testens Fehlentscheidungen Zusammenhang zwischen statistischen Tests und Kondenzintervallen Überschreitungswahrscheinlichkeit Gütefunktion Durchführung eines Tests mit R 11 Einfache lineare Regression 12 Varianzanalyse 13 Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 291 / 435 10. Testen von Hypothesen Testen von Hypothesen Neben dem Schätzen von Parametern theoretischer Verteilungen ist es oft von Interesse, Vermutungen über einen Parameter oder eine Verteilung in der Grundgesamtheit zu überprüfen. Die Vermutung wird in Bezug auf die Grundgesamtheit aufgestellt, deren Überprüfung jedoch unter Verwendung einer Stichprobe durchgeführt. Inwieweit der Schluss von der Stichprobe auf die Grundgesamtheit zulässig ist, ist Teil des statistischen Tests. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 292 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Binomial- und Gauÿ-Test Beispiel: Eine Klausur besteht aus n= 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. Frage: Hat der Student geraten oder tatsächlich etwas gewusst? Xi = i 1, falls 0, sonst -te Antwort des Studenten richtig X , ..., X P Bin( , p) S = i Xi Bin( , p) p= 30 seien unabhängige 30 Also ist 30 =1 1 1 -verteilte Zufallsvariablen. -verteilt. Wenn der Student nichts weiÿ, ist 1 . 2 Besitzt der Student gewisse Kenntnisse, so ist Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen Auf Grundlage der Daten Nullhypothese und der S ( = 19) p> 1 2 11. Dezember 2012 293 / 435 10.1. Binomial- und Gauÿ-Test wollen wir uns zwischen der Ho : p = 1 H :p> 1 Alternativhypothese 1 2 2 entscheiden. Ist die Prüfgröÿe oder Teststatistik S = Xi 30 X i =1 gröÿer als ein kritischer Wert c , entscheiden wir uns für H1 . Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 294 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Wie ist der kritische Wert c nun zu wählen? c = ,c = ,c = H 16 c wird so gewählt, dass 17 18, . . .? 0 höchstens mit Wahrscheinlichkeit fälschlicherweise abgelehnt wird: P S| {z> c} |H ) H − P (S ≤ c |H ) α = 0.05 > ( α = 0.05 0 0 wird abgelehnt =1 =1− 0 c i X 30 1 i =0 i 2 1 − 1 30−i 2 Es ist also die kleinste natürliche Zahl c gesucht, so dass c 30 X 30 1 i =0 Jürgen Dippon (ISA) i 2 > 0.95 Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 295 / 435 10.1. Binomial- und Gauÿ-Test Bestimmung des kritischen Wertes c mittels R: > qbinom (0.95 , size =30 , prob =0.5) > 19 Damit wählen wir Da S= H dass c= 19 als kritischen Wert. 19, können wir H 0 nicht ablehnen, wenn wir sicherstellen wollen, 0 höchstens mit Wahrscheinlichkeit Niveau, fälschlicherweise abgelehnt wird. Jürgen Dippon (ISA) Biostatistik I α = 0.05, dem sogenannten 11. Dezember 2012 296 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Abbildung: Binomialverteilung Erstellung der Graken mittels: plot ( dbinom (0:30 , size =30 , prob =0.5) , type =" h "); plot ( pbinom (0:30 , size =30 , prob =0.5) , type =" s "); Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 297 / 435 10.1. Binomial- und Gauÿ-Test In unserem Beispiel wird {0, 1, . . . , 19} {20, 21, . . . , 30} als Annahmebereich als Ablehnungsbereich bezeichnet. Der so konstruierte statistische Hypothesentest heiÿt Binomialtest. exakter Da der kritische Wert c für groÿe Stichprobenumfänge n aufwändig zu berechnen ist, verwendet man stattdessen den approximativen Binomialtest. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 298 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Approximativer Binomialtest Beispiel: statistische Qualitätskontrolle n= Bei der Produktion von Speicherchips entstehen 10% unbrauchbare Chips. Anhand einer Stichprobe mit Umfang 1000 soll überprüft werden, ob der Produktionsprozess sich verschlechtert hat, also mehr als 10% Ausschuss entsteht. Wie oben seien und Xi = X , ..., Xn 1 i 1, falls 0, sonst -tes Stichprobenelement Ausschuss ist unabhängige Bin( , p) 1 Jürgen Dippon (ISA) -verteilte Zufallsvariablen. Biostatistik I 10. Testen von Hypothesen Dann ist 11. Dezember 2012 299 / 435 10.1. Binomial- und Gauÿ-Test n X S = Xi ∼ Bin(n, p) i =1 und nach dem zentralen Grenzwertsatz von Moivre-Laplace Z = pnpS −( np− p) 1 ungefähr N( , 0 1)-verteilt Das Testproblem ist: H :p=p 0 0 = 0.1 gegen H :p>p 1 0 = 0.1 Der eigentlich interessierende Sachverhalt wird durch die Alternativhypothese ausgedrückt. Wir lehnen H S E (S ) = np 0 ab, falls S bzw. Z zu groÿ ist. Dabei soll sichergestellt werden, dass die Abweichung von zu 0 bei Vorliegen der Nullhypothese nicht alleine durch den Zufall erklärt werden kann. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 300 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Hierbei ist es günstig, den kritischen Wert für Z anstatt für S zu ermitteln: 0.05 Also ist c =z P Z c H) c Z ∼ N( , ) − α) N( , ) = α > ( | {z >} | H0 ablehnen ≈ 1 − Φ( ), da 1−α , das (1 0 0 1 -Quantil der unter H 0 0 1 -Verteilung, als kritischer Wert zu wählen. Daraus ergibt sich der Ablehnungsbereich ( H 0 wird also zum Niveau α z 1−α , ∞) abgelehnt, falls Z = pnpS −( np− p ) > z 0 0 1 Jürgen Dippon (ISA) 1−α 0 Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 301 / 435 10.1. Binomial- und Gauÿ-Test Abbildung: Ablehnungsbereich Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 302 / 435 10. Testen von Hypothesen Für n= 1000, p= 0.1, α = 0.05 10.1. Binomial- und Gauÿ-Test wird Z = S √− H 0 abgelehnt, falls 100 90 S> d.h. Jürgen Dippon (ISA) > 1.64 115.56 Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 303 / 435 10.1. Binomial- und Gauÿ-Test Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verbessert hat, ist das Testproblem: H :p=p 0 H :p<p gegen 0 1 0 zu betrachten. Der dazugehörige Ablehnungsbereich lautet z (−∞, − 1−α ) = (−∞, z) α Soll überprüft werden, ob sich der Produktionsprozess hinsichtlich der Ergebnisqualität verändert hat, ist das Testproblem: H :p=p 0 H : p 6= p gegen 0 1 0 zu betrachten. Der dazugehörige Ablehnungsbereich lautet c = (−∞, z α/2 ) Jürgen Dippon (ISA) z ∪( Biostatistik I 1−α/2 , ∞) 11. Dezember 2012 304 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Abbildung: Beidseitiger Ablehnungsbereich Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 305 / 435 10.1. Binomial- und Gauÿ-Test Zusammenfassung: Approximativer Binomialtest Bin(n, p) Gegeben seien folgende Testprobleme über den Parameter -Verteilung: a b c ( ) ( ) ( ) H :p=p H :p=p H :p=p 0 0 gegen 0 0 gegen 0 0 gegen H : p 6= p H :p<p H :p>p 1 0 1 0 1 0 p in einer Basierend auf der Prüfgröÿe Z = pnpS −( np− p ) N( , ) H (a), |z | > z (b), z < −z (c ), z >z 0 welche unter Niveau α H 0 1 0 näherungsweise 0 1 -verteilt ist, und dem vorgegebenen entscheidet man sich für 1 im Testproblem falls 1−α/2 falls 1−α falls Jürgen Dippon (ISA) 0 Biostatistik I 1−α 11. Dezember 2012 306 / 435 10. Testen von Hypothesen 10.1. Binomial- und Gauÿ-Test Gauÿ-Test Beispiel: Kontrollkarten X [cm] N (µ, σ ) Es sei bekannt, dass ein Produktionsprozess Bleistifte produziert, deren Längen µ = 17 approximativ 2 cm ] -verteilt sind mit Erwartungswert und bekannter Varianz σ 2 = 2.25[ 2 EX = µ Um zu überprüfen, ob die produzierten Bleistifte dem Sollwert (mit erlaubter zufälliger Abweichung) entsprechen, d.h. betrachtet man das Testproblem H 0 : µ = µ0 = 17 X , ..., Xn ∼ N (µ, σ ) H gegen 1 0 = 17, : µ 6= 17 X̄ Dazu entnimmt man der laufenden Produktion Bleistifte mit Längen 2 1 und untersucht die Prüfgröÿe standardisierte Prüfgröÿe oder die Z = X̄ −σ µ √n 0 welche unter H N( , 0 0 1)-verteilt ist. Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen H 0 wird dann zum Niveau α abgelehnt, falls Z z 1−α/2 n = , x̄ = . , α = . z = x̄ −σ µ √n = . .− z =. H α= . 5 18 1 0 01 0 18 1 17 √ 1 5 Da z z | |≤ 1−α/2 1−α/2 kann 307 / 435 10.1. Binomial- und Gauÿ-Test | |> Zahlenbeispiel: 11. Dezember 2012 5 = 1.64 2 5758 0 zum Niveau 0 01 nicht abgelehnt werden. Ein Eingri in den Produktionsprozess ist also nicht nötig. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 308 / 435 10. Testen von Hypothesen x̄ 10.1. Binomial- und Gauÿ-Test In der statistischen Qualitätskontrolle werden für jede Stichprobe die Mittelwerte über der Stichprobennummer in einer Grak eingetragen und mit den Kontrollgrenzen µ0 − z σ ·√ n 1−α/2 verglichen. Bendet sich x̄ und µ0 + z 1−α/2 σ ·√ n auÿerhalb dieses dadurch denierten horizontalen Streifens, gilt der Prozess als statistisch auÿer Kontrolle. Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 10.1. Binomial- und Gauÿ-Test Zusammenfassung: Gauÿ-Test X , ...Xn N (µ, σ ) σ n n≥ E (Xi ) = µ, Var (Xi ) = σ Unabhängige Zufallsvariablen bekannter Varianz 2 oder, falls a b c ( ) ( ) ( ) 2 H H H 0 (d.h. 0 σ : µ = µ0 0 : µ = µ0 0 : µ = µ0 0 H µ=µ X̄ −µ √ Z= n N( , Unter 30) mit beliebiger . Betrachte folgende gegen gegen gegen H H H : µ 6= µ0 1 : µ < µ0 1 : µ > µ0 1 0 ) ist N( , H 0 1)-verteilt bzw. näherungsweise Basierend auf der Prüfgröÿe a b c Z ( ), ( ), ( ), Jürgen Dippon (ISA) -verteilt mit groÿ (Faustregel: stetiger Verteilung, Testprobleme: 2 jeweils 1 309 / 435 fällt die Entscheidung für falls falls falls z z z z z z 0 1)-verteilt 1 im Testproblem | | > 1−α/2 < − 1−α > 1−α Biostatistik I 11. Dezember 2012 310 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Prinzipien des Testens 1. Schritt: Quantizierung der Fragestellung 2. Schritt: Formulierung der Modellannahmen 3. Schritt: Festlegung der Null- und Alternativhypothese 4. Schritt: Wahl des Signikanzniveaus H H 5. Schritt: Wahl einer Prüfgröÿe (Teststatistik), die in der Lage ist, zwischen 0 und 1 zu dierenzieren. Bestimmung der Verteilung der Prüfgröÿe unter der Nullhypothese. Konstruktion des Ablehnungsbereiches. 6. Schritt: Berechnung des Wertes der Prüfgröÿe für die konkrete Stichprobe 7. Schritt: Testentscheidung Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 311 / 435 10.2. Prinzipien des Testens Falls Abweichungen nach oben und unten interessieren, wie im Fall (a) im zweiseitig, falls nur Abweichungen in Gauÿ-Test, heiÿt das Testproblem eine Richtung interessieren, wie im Fall (b) und (c) im Gauÿ-Test, heiÿt das Testproblem H einseitig. Besteht die Hypothese bzw. 1 H 0 oder H 1 nur aus einem Punkt, nennt man einfach, sonst zusammengesetzt X Xn H 0 Tests, die keine genaueren Annahmen über die Verteilung der Zufallsvariablen 1 , ... machen, heiÿen nichtparametrisch. Werden Annahmen über den Verteilungstyp gemacht, so heiÿen die Tests parametrisch. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 312 / 435 10. Testen von Hypothesen Fehlentscheidungen Bei einem statistischen Testproblem 10.2. Prinzipien des Testens H 0 gegen statistischen Test spricht man von einem H 1 und einem geeigneten Fehler 1. Art, wenn H0 verworfen wird, obwohl H0 wahr ist Fehler 2. Art, wenn H0 beibehalten wird, obwohl H1 wahr ist Es sind dehalb folgende Ausgänge bei einem statistischen Test denkbar: H H Entscheidung für 0 H 0 wahr 1 falsch richtig Fehler 1. Art (α-Fehler) H falsch 1 wahr Fehler 2. Art richtig (β -Fehler) Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 313 / 435 10.2. Prinzipien des Testens Test zum Signikanzniveau α (wobei 0 < α < 1) oder Signikanztest, falls: Ein statistischer Test heiÿt P (H 1 annehmen P( d.h. H | 0 wahr Fehler 1. Art) Typische Werte für das Signikanzniveau α )≤α ≤α sind 0.1, 0.05, 0.01. Interpretation: Es werden 100 Stichproben vom Umfang gelte die Nullhypothese. Bei 100 Tests zum Niveau α n gezogen und es wird die Nullhypothese dann im Mittel höchstens in 5% der Fälle (fälschlicherweise) abgelehnt werden. Im Falle einer Ablehnung der Nullhypothese sagt man, dass das Ergebnis statistisch signikant zum Niveau α sei. Die Wahrscheinlichkeit für einen Fehler 2. Art kann man meist nicht kontrollieren. Diese Ungleichbehandlung der Fehler 1. und 2. Art ist der Grund dafür, dass die zu sichernde Behauptung als Alternativhypothese formuliert wird. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 314 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Zusammenhang zwischen statistischen Tests und Kondenzintervallen Beispiel Gauÿ-Test Verwerfe Behalte H H 0 , falls 0 , falls z n z n z z x̄ z √ 0 | | = x̄ −µ σ > 1−α/2 − µ0 √ ≤ 1−α/2 | | = σ | {z } σ ⇔ − µ0 | ≤ 1−α/2 · √n h i σ σ ⇔ µ0 ∈ − 1−α/2 · √n , + 1−α/2 · √n z x̄ |x̄ Damit ist x̄ z H 0 genau dann beizubehalten, wenn (1 − α)-Kondenzintervall für µ µ0 im liegt. Allgemein: Ein 2-seitiges (1 − α)-Kondenzintervall entspricht dem Annahmebereich des zugehörigen 2-seitigen Signikanztests zum Niveau Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 α. 315 / 435 10.2. Prinzipien des Testens Überschreitungswahrscheinlichkeit p-Wert oder die Überschreitungswahrscheinlichkeit ist deniert als Der die Wahrscheinlichkeit den beobachteten Prüfgröÿenwert oder einen in Richtung der Alternative extremeren Wert zu beobachten: H Ist der p-Wert kleiner oder gleich dem vorgegebenen Signikanzniveau, wird 0 verworfen, andernfalls beibehalten. Fortsetzung des Beispiels zum Gauÿ-Test: z= Dort wurde die Teststatistik Wert z | | betrachtet, welche für die Stichprobe den 1.64 lieferte. Der p-Wert ist jetzt gegeben durch p = P (|Z | ≥ Jürgen Dippon (ISA) H )= 1, 64| 0 2(1 Biostatistik I − Φ(1.64)) ≈ 0.1 11. Dezember 2012 316 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Abbildung: P-Wert (Inhalt der hellgrauen Fläche beträgt α − p . Inhalt der dunkleren Fläche ist p ) Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 317 / 435 10.2. Prinzipien des Testens Gütefunktion Für vorgegebenes Signikanzniveau die α und festen Stichprobenumfang n gibt Gütefunktion g die Wahrscheinlichkeit für einen statistischen Test an, die Nullhypothese zu verwerfen: g (µ) = P (H 0 verwerfen Ist Ist µ∈ µ∈ H H 0 , so ist g (µ) ≤ α − g (µ) 1 , so ist 1 Jürgen Dippon (ISA) | µ |{z} ) wahrer Parameter die Wahrscheinlichkeit für den Fehler 2. Art Biostatistik I 11. Dezember 2012 318 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Abbildung: Verlauf der idealen Gütefunktion, die aber praktisch nicht möglich ist. Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 319 / 435 10.2. Prinzipien des Testens Abbildung: Verlauf der Gütefunktion beim einseitigen Gauÿ-Test. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 320 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Berechnung der Gütefunktion für den einseitigen Gauÿ-Test: g (µ) = = = = P (H | µ) X̄ −µ √ P σ n > z µ X̄ −µ+µ−µ √ µ P n >z σ X̄ − µ√ µ − µ √ P σ n>z − σ nµ 0 verworfen 0 1−α 0 1−α 0 1−α | {z } ∼N (0,1) µ − µ0 √ = 1 − Φ 1−α − σ n z Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen 11. Dezember 2012 321 / 435 10.2. Prinzipien des Testens Abbildung: Verlauf der Gütefunktion beim zweiseitigen Gauÿ-Test. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 322 / 435 10. Testen von Hypothesen 10.2. Prinzipien des Testens Eigenschaften der Gütefunktionen eines statistischen Tests Für Werte aus Für Werte aus H H n 1 heiÿt die Gütefunktion Trennschärfe oder Macht 0 ist die Gütefunktion kleiner oder gleich Für wachsendes α wird die Macht eines Tests gröÿer, d.h. die Gütefunktion wird steiler Für wachsendes α wird die Macht eines Tests gröÿer Für einen wachsenden Abstand zwischen Werten aus die Macht eines Tests gröÿer. Jürgen Dippon (ISA) Biostatistik I 10. Testen von Hypothesen H 1 und H 11. Dezember 2012 0 wird 323 / 435 10.3. Durchführung eines Tests mit R Durchführung eines Tests mit R Beispiel: Eine Klausur besteht aus n = 30 Aufgaben, bei der jeweils eine von zwei Antworten auszuwählen ist. Ein Student beantwortet 19 Fragen korrekt und 11 Fragen falsch. > binom . test ( x =19 , n =30 , p =0.5 , alternative =" greater ") Exact binomial test data : 19 and 30 number of successes = 19 , number of trials = 30 , p - value = 0.1002 alternative hypothesis : true probability of success is greater than 95 percent confidence interval : 0.4669137 1.0000000 sample estimates : probability of success 0.6333333 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 324 / 435 11. Einfache lineare Regression 9 Parameterschätzung 10 Testen von Hypothesen 11 Einfache lineare Regression Einfache lineare Regression Methode der kleinsten Quadrate Gütemaÿ für die Anpassung der Geraden Stochastisches Modell 12 Varianzanalyse 13 Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 325 / 435 11.1. Einfache lineare Regression Einfache lineare Regression Beispiel: Rohöl und Benzinpreise yi Die folgenden Daten geben die mittleren Rohöl-Preise und Benzinpreise Jürgen Dippon (ISA) (in Cent/Gallone) wieder: yi (in Dollar/Barrel) xi i Jahr i 1 1980 125 28.07 2 1981 138 35.24 3 1982 129 31.87 . . . . . . . . . . . . 21 2000 151 28.26 22 2001 146 22.96 Biostatistik I xi 11. Dezember 2012 326 / 435 11. Einfache lineare Regression 11.1. Einfache lineare Regression Zu diesen Daten stellen sich einige Fragen: Ist ein Zusammenhang zwischen Rohölpreis und Benzinpreis feststellbar? Welchen Benzinpreis würde man im Mittel anhand der Daten prognostizieren, wenn der Rohölpreis auf 50$ pro Barerel steigt? In welchem Bereich würde der Benzinpreis nicht nur sein Erwartungswert mit groÿer Wahrscheinlichkeit liegen? Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 327 / 435 11.1. Einfache lineare Regression Schritt 1: Veranschaulichung mit Hilfe eines Streudiagramms Abbildung: Darstellung der Daten als Streudiagramm Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 328 / 435 11. Einfache lineare Regression 11.1. Einfache lineare Regression Schritt 2: Vermutung über Zusammenhang anstellen. Nicht unerwartet korrespondieren gröÿere Ölpreise mit höheren xy xi yi Benzinpreisen. Man könnte näherungsweise einen linearen Zusammenhang mutmaÿen. Seien ( i, i) die Datenpaare, wobei den Benzinpreisen entspricht, dann gilt: wobei die ei yi = a + bxi + ei die Abweichungen von der Gerade den Rohölpreisen und a + bx beschreiben. Schritt 3: Ermittlung einer Geraden, die den Zusammenhang zwischen den Daten möglichst gut beschreibt. Dazu wird die Methode der kleinsten Quadrate verwendet. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 329 / 435 11.2. Methode der kleinsten Quadrate Methode der kleinsten Quadrate Ausgehend von der Beziehung: yi = a + bxi + ei , ei = yi − (a + bxi ) Fehler (Residuum) sucht man nach einer Gerade, für die alle Fehlerterme (error) klein werden. Das erreicht man z.B. in dem man n X Q (a, b) := ei = i =1 2 n X i =1 Jürgen Dippon (ISA) Biostatistik I möglichst y a bxi )] 2 [ i −( + minimiert. Wir gehen im Folgenden davon aus, dass die identisch sind. ei xi nicht alle 11. Dezember 2012 330 / 435 11. Einfache lineare Regression 11.2. Methode der kleinsten Quadrate Abbildung: Darstellung der Fehlerquadrate Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 331 / 435 11.2. Methode der kleinsten Quadrate Das Minimierungsproblem ist: Q (a, b) = n X i =1 y a bxi )] [ i −( + 2 → Min Die kritischen Stellen werden ermittelt: Qab a Qab b n X ∂ ( , ) = 2·[ i −( + ∂ i =1 n X ∂ ( , ) = 2·[ i −( + ∂ i =1 Jürgen Dippon (ISA) y a bxi )] · (− ) 1 y a bxi )] · (−xi ) Biostatistik I 11. Dezember 2012 332 / 435 11. Einfache lineare Regression 11.2. Methode der kleinsten Quadrate Die Lösung des linearen Gleichungssystems Qab ∂Q (a, b) = a ∂b â b̂ Pn b̂ = Pi n xxi yi −−nnx̄x̄ ȳ , â = ȳ − b̂x̄ i i ∂ ( , )=0 ∂ führt auf genau eine Lösung , =1 =1 Jürgen Dippon (ISA) 0 , die Q minimiert: 2 2 Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 333 / 435 11.2. Methode der kleinsten Quadrate Einfache lineare Regression und Kleinste-Quadrate-Methode x y ), ..., (xn, yn) yi = a + bxi + ei , i = , ..., n Gegeben seien die reellwertigen Beobachtungswerte Dann heiÿt ( 1, . 1 1 einfache lineare Regressionsgleichung wobei a den Achsenabschnitt, b sX > Annahme 2 0 sind die gegeben durch: â = ȳ − b̂x̄ , b̂ die Residuen (Fehler) bezeichnen. Unter der x y nx̄ ȳ x nx̄ Pn 1 i i − = Pi = n 2 i =1 i − 2 x x̄ y ȳ x x̄ Pn i =1 ( i − )( i − ) n −1 = Pn 1 2 n−1 i =1 ( i − ) 1 Kleinste-Quadrate-Gerade (KQ-Gerade) ergibt sich durch ŷ (x ) = â + b̂x Die ei Kleinste-Quadrate-Koezienten für a und b den Steigungsparameter und . Die Werte yˆi = â + b̂xi und KQ-gettete Werte bzw. KQ-Residuen. Jürgen Dippon (ISA) Biostatistik I eˆi = yi − yˆi bezeichnen wir als 11. Dezember 2012 334 / 435 11. Einfache lineare Regression Eigenschaften 11.2. Methode der kleinsten Quadrate (x̄ , ȳ ) â = ȳ − b̂x̄ ⇒ ȳ = â + b̂x̄ = ŷ /(x̄ ). Die KQ-Gerade geht durch den Mittelpunkt . Die Summe der KQ-Residuen ist gleich 0: n X i =1 ŷ¯ = ȳ Wenn alle Punkte x êi = 0 xy a + bx â = a, b̂ = b, yˆi = yi , eˆi = ( i, i) auf der Geraden liegen, dann sind: 0 Eine Prognose wird mit der KQ-Geraden vorgenommen. Für einen Wert prognostiziert man den y-Wert: ŷ (x ) = â + b̂x Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 335 / 435 11.3. Gütemaÿ für die Anpassung der Geraden Gütemaÿ für die Anpassung der Geraden Wie gut lassen sich die Daten mit einer Geraden beschreiben? Streuungszerlegung der Regression n n n X X X ( i − )2 = ( ˆi − )2 + ( i − ˆi )2 i =1 i =1 i =1 y ȳ y ȳ y y Ansatz: Die Residualstreuung ist die Summe der verbliebenen quadrierten Fehler nach Anpassung der Geraden. Die Anpassung ist gut, falls der Anteil der erklärten Streuung an der Gesamtstreuung groÿ ist: R Jürgen Dippon (ISA) 2 y ȳ y ȳ Pn 2 i = 1 ( ˆi − ) = Pn = 2 ( − ) i =1 i Biostatistik I Erklärte Streuung Gesamtstreuung 11. Dezember 2012 336 / 435 11. Einfache lineare Regression 11.3. Gütemaÿ für die Anpassung der Geraden Bestimmtheitsmaÿ Gegeben seien die reellwertigen Beobachtungswerte sX > 2 Dann ist das 0 sY > 2 und x y ), ..., (xn, yn) ( 1, 1 mit 0 Bestimmtheitsmaÿ der KQ-Regression gegeben durch: R 2 y ȳ y ȳ y y y ȳ Pn Pn 2 2 ˆ ( − ) i =1 i i =1 ( i − ˆi ) P P = n =1− n 2 2 ( − ) i i =1 i =1 ( i − ) Eigenschaften 0 R ≤ 2≤1 2 2 = XY 2 = 1 genau dann, wenn alle Punkte ( i , i ) 2 = 0 genau dann, wenn XY = 0 ist. R r R R xy s R auf einer Geraden liegen. R Eine gute Beschreibung der Daten durch eine Gerade liegt bei groÿen Werten von (nahe 0). 2 (nahe 1) vor, eine schlechte bei kleinen Werten von Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 2 337 / 435 11.3. Gütemaÿ für die Anpassung der Geraden Beispiel (fortgesetzt): Ölpreise Direkte Berechnung der Regressionsgeraden: x̄ = X i sX sY 2 = 2 = sXY = ȳ = 21.572, yi 2 2 2 Daher: b̂ = ssXY = 2 X 69.342 40.026 Jürgen Dippon (ISA) 117.635, i = 309218, x nx̄ = n y nȳ = n x y nx̄ ȳ = n P 2 i i − −1 P 2 i i − P −1 i i i− −1 = 1.732, X X i 11078.277 xi xi yi = 2 = 11078.277 57284.35 − 22 · 21.5722 = 40.026 21 57284.35 − 22 · 117.6362 21 57284.35 = 227.475 − 22 · 21.572 · 117.636 21 â = ȳ −b̂x̄ = Biostatistik I = 69.342 117.636−1.732·21.572 = 80.273 11. Dezember 2012 338 / 435 11. Einfache lineare Regression 11.3. Gütemaÿ für die Anpassung der Geraden Und für das Bestimmtheitsmaÿ ergibt sich: rXY = qsXY = √ sX sY x= 2 2 Prognose für x= 50 ergibt 69.342 40.026 · 227.475 2 2 0.529 ŷ ( 50) ŷ (x ) = â + b̂x , ≈ 166.9. Biostatistik I 11. Einfache lineare Regression R R = rXY = 50 durch Einsetzen in KQ-Gleichung Jürgen Dippon (ISA) In = 0.727, 11. Dezember 2012 339 / 435 11.3. Gütemaÿ für die Anpassung der Geraden lässt sich die Regressionsgerade mit eine paar einfachen Kommandos berechnen und in das Streudiagramm einzeichnen: plot ( oelpreis , benzinpreis ) ## Scatterplot myregression <- lm ( benzinpreis ~ oelpreis ) myregression ## zeigt Ergebnis der Regressionsrechnung an abline ( myregression ) ## zeichnet Regressionsgerade Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 340 / 435 11. Einfache lineare Regression 11.3. Gütemaÿ für die Anpassung der Geraden Abbildung: Streudiagramm mit Regressionsgeraden Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 11.3. Gütemaÿ für die Anpassung der Geraden Vorhersage des Blutdrucks y Für 15 zufällig ausgewählte Frauen wurde das Alter Blutdruck ( i) 341 / 435 gemessen. x ( i) festgestellt und der Wie kann zu gegebenem Alter der zu erwartende Blutdruck vorhergesagt werden? i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Jürgen Dippon (ISA) xi ) Alter ( 47 52 30 35 59 44 63 38 49 41 32 55 46 51 63 Blutdruck 129 139 112 119 145 133 152 117 145 136 115 137 134 141 157 Biostatistik I (yi ) 11. Dezember 2012 342 / 435 11. Einfache lineare Regression 11.3. Gütemaÿ für die Anpassung der Geraden Die Berechnung der KQ-Daten und des Bestimmtheitsmaÿes wird R überlassen. Abbildung: Regression zu Blutdruckdaten Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression Der Fit der Geraden ist hier besser: Im Mittel ŷ ( 45) 11. Dezember 2012 343 / 435 11.3. Gütemaÿ für die Anpassung der Geraden R 2 ist gröÿer als im vorigen Beispiel. = 77.363 + 1.2065 · 45 = 131.6 ≈ 132 würde man bei einer 45-jährigen Frau einen Blutdruck von 132 erwarten. Wie genau ist der Wert und wie groÿ ist der normale Schwankungsbereich dieses Wertes für einzelne Frauen? Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 344 / 435 11. Einfache lineare Regression Stochastisches Modell n ( i , i ), = 1, ..., , für die man lineare zwischen den i und i -Werten vermutet, Um für Datenpaare Zusammenhänge xy i 11.4. Stochastisches Modell x y Wahrscheinlichkeitsaussagen ableiten zu können, muss man sie mit einem geeigneten statistischen Modell breschreiben. Wie im letzten Abschnitt sollen die Daten durch eine Geradenbeziehung yi = α + βxi + ei beschrieben werden. Wenn die yi xi ei ei funktional beschrieben werden durch die xi bezeichnet man abhängige oder endogene Variablen als unabhängige oder exogene Variablen oder Regressoren und als die Die yi als latente Variablen oder Störvariablen. können nicht beobachtet werden und die Parameter α und β sind unbekannt. Wo gibt es im Modell zufällige Komponenten? Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 345 / 435 11.4. Stochastisches Modell Beispiel: College-Absolventen xi Die folgenden Daten geben die Anzahl der Absolventen eines kleinen yi Colleges an, die im Jahr ( Die Anzahl ( ) ihres Abschlusses einen Job gefunden haben. ) der Absolventen soll über die Jahre etwa gleich groÿ gewesen sein. Jahr Berufseinsteiger Die Jahre xi yi 1 2 3 4 5 6 121 138 115 162 160 174 sind nichtzufällig, während die konkreten Berufseinsteigerzahlen nicht vorhersehbar waren und als zufällig interpretiert werden können. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 346 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Streudiagramm Abbildung: Berufseinsteiger Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 347 / 435 11.4. Stochastisches Modell Modell mit deterministischen Regressoren xi Yi sind deterministisch und yi ei = yi − α − βxi εi = Yi − α − β xi sind als Realisierungen von Zufallsvariablen aufzufassen. Dann sind aber auch die Realisierungen von Zufallsvariablen Modellansatz: Jürgen Dippon (ISA) als aufzufassen. Yi = α + βxi + εi Biostatistik I 11. Dezember 2012 348 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Beispiel (fortgesetzt): Blutdruckdaten x y Im Rahmen der Datenerhebung wurden 15 Frauen ausgewählt. Im Vorfeld der Erhebung ist i.A. sowohl das Alter ( i) nicht bekannt und muss als Realisierung von Zufallsvariablen aufgefasst werden. Modell mit stochastischen Regressoren: Xi , Yi Das zufällige Verhalten der Beobachtung beschrieben mit Zufallsvariablen und Xi als auch der Blutdruck xi und εi , yi sowie ei ( i) bzw. Yi werden die in folgender Beziehung Yi = α + βXi + εi stehen: Dabei wird die Zusatzannahme getroen, dass Xi und εi unabhängig sind. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 349 / 435 11.4. Stochastisches Modell Beide Regressionsmodelle haben groÿe Gemeinsamkeiten: Die Schätzer für die Parameter Formeln berechnet, s.u. Die bedingte Verteilung von Yi α und β gegeben werden mit den gleichen Xi = xi ist gleich der Verteilung, die sich aus dem deterministischen Ansatz ergibt. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 350 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Wir beschränken uns im Folgenden auf die nähere Untersuchung des Modells mit deterministischen Regressoren. Standardmodell der linearen Einfachregression x , . . . , xn Y , . . . , Yn (x , Y ), . . . , (xn , Yn ) Standardmodell der linearen Einfachregression α, β σ > Yi = α + βxi + εi , i = , . . . , n εi E (εi ) = Var (εi ) = σ seien reelle Zahlen und 1 Die Vektoren 1 seien reelle Zufallsvariablen. 1 erfüllen das 1 mit den Parametern 2 und 0, wenn 1 gilt, wobei u.i.v. Zufallsvariablen sind, für die 2 0 und gilt. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 351 / 435 11.4. Stochastisches Modell Anmerkungen: Die Zufallsvariablen εi x beschreiben die Abweichungen der Regressionsgeraden Die xi Yi können nicht beobachtet werden. Sie α+β . -Werte von der zufällige, Regressoren oder als Realisierungen von Zufallsvariablen aufzufassen. xi Xi -Werte sind entweder als einstellbare deterministische, d.h. nicht y β beschreibt die lineare Abhängigkeit der i β = 0, gibt es keine (lineare) Abhängigkeit. Der Parameter -Werten. Ist Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 von den 352 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Die Schätzer im Standardmodell berechnen wir wie oben durch Minimierung von n X Q (α, β) := sX > Y x [ i − (α + β · i )]2 → Minα,β i =1 Als Ergebnis erhalten wir in Analogie zu oben: 2 Wenn 0 ergeben sich als Schätzer Ȳ x Y nx̄ Ȳ x nx̄ und β̂ und β̂ im Standardmodell x̄ x x̄ Y Ȳ x x̄ α̂ = n − β̂ · , Pn 1 n i −1 ( i − )( i − n ) XY n −1 = 2 . = Pn 1 2 2 X n −1 i =1 ( i − ) Pn i =1 i i − β̂ = P n 2 i =1 i − α̂ α̂ sind erwartungstreue Schätzer von E (α̂) = α und Schätzer α bzw. β, s s d.h. E (β̂) = β . Schätzwerte Anmerkung zur Bezeichnung: Wie in der Literatur gebräuchlich bezeichnen α̂ und β̂ i.F. sowohl die als auch die für α und β. Die jeweilige Bedeutung erschlieÿt sich aus dem Kontext. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 11.4. Stochastisches Modell Beispiel (fortgesetzt): College-Absolventen. x̄ = 3.5, ȳ = X 145, i xi 2 = 91, x n x̄ n y n ȳ n x y n x̄ ȳ n s s 353 / 435 X i yi 2 = 129030, X i xi yi = 3234 P 2 2 − · 2 91 − 6 · 3.5 2 i i = = 3.5 X = −1 5 P 2 2 − · 2 29030 − 6 · 145 2 i i = = 576 Y = − 1 5 P i i i − · · = 3234 − 6 · 3.5 · 145 = 37.8 XY = −1 5 s sXY = . = . sX . α̂ = ȳ − β̂ · x̄ = − rXY = q sXY = √ . .· sX · sY Daher β̂ = 37 5 2 3 5 10 8 10.8 145 · 3.5 = 107.2 37 5 2 2 Jürgen Dippon (ISA) 3 5 576 = 0.8419 Biostatistik I R = rXY = 2 2 0.8419 2 11. Dezember 2012 = 0.788 354 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Abbildung: Streudiagramm mit Regressionsgeraden Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 355 / 435 11.4. Stochastisches Modell Zur näheren Beschreibung der Verteilung von α̂ und β̂ kann man die Varianzen berechnen. Dazu macht man sich zunutze, dass β̂ = β + n X i =1 ci εi und α̂ = α + n X 1 i =1 n − ci x̄ εi ci = Pni xi(x−i −x̄ x̄ ) mit =1 2 gilt. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 356 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Die Varianzen berechnen sich als Var Var σ2 (β̂) = σβ̂ = Pn 2 i =1 (Pi − ) σ 2 ni=1 i2 2 P (α̂) = σα̂ = · ni=1 ( i − )2 x x̄ x x x̄ 2 n Diese Varianzen kann man nicht direkt berechnen, da sie noch vom unbekannten Parameter Aber: α̂ bzw. β̂ σ2 abhängen. α sind MSE- und schwach konsistent für Konsistenzbedingung n X ( i − )2 → ∞ i =1 x x̄ für bzw. β, wenn die n→∞ gilt. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 357 / 435 11.4. Stochastisches Modell Ausgehend von der Denition des Bestimmtheitsmaÿ kann man die Konstruktion eines erwartungstreuen Schätzers Gröÿen zurückführen: σ̂ 2 σ2 von y ŷ y ȳ y ȳ R P2 2 2 i = 1( i − i ) = 1 − Pn 2 i =1 ( i − ) n n X X 2 2 ⇒ ( i − i ) = (1 − ) ( i − )2 = (1 − i =1 i =1 y ŷ R Damit denieren wir σ̂ 2 := n n X ( i − i )2 = −2 i =1 y ŷ 1 Die letzte Identität folgt wegen auf bekannte R )(n − )sY 2 1 2 n − ( − R )sY = n − sY − sXY n− n− sX R = rXY = sXY /(sX sY ) 1 2 2 2 1 1 2 2 2 2 2 2 2 . Beispiel (fortgesetzt): Für die College-Daten gilt dann σ̂ 2 = n − sY ( − R ) = n− Jürgen Dippon (ISA) 1 2 2 1 2 5 4 576 · (1 − 0.7088) = 209.664 Biostatistik I 11. Dezember 2012 358 / 435 11. Einfache lineare Regression Mit dem Schätzer für α̂ und β̂ σ2 11.4. Stochastisches Modell kann man die Varianzen bzw. Standardfehler von schätzen x Pn 2 2 σ̂ 2 i = 1 i P σ̂α̂ = · ni=1 ( i − )2 σ̂ 2 2 σ̂β̂ = Pn 2 i =1 ( i − ) n q σ̂α̂ = σ̂α̂2 x x̄ x x̄ q σ̂β̂ = σ̂ 2 β̂ Unter präziseren Verteilungsannahmen kann auch die Verteilung der Schätzer genauer beschrieben werden und es können Tests konstruiert werden. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 359 / 435 11.4. Stochastisches Modell Normalverteilungsannahme: Die Störvariablen sind normalverteilt, also εi u.i.v. und εi ∼ N ( , σ ). 2 0 Unter der Normalverteilungsannahme gilt α̂ n und β̂ sind gemeinsam normalverteilt. ( − 2) · σ̂ 2 /σ 2 α̂ und σ̂ 2 bzw. Jürgen Dippon (ISA) ist β̂ χ2 -verteilt und σ̂ 2 mit n− 2 Freiheitsgraden. sind unabhängig. Biostatistik I 11. Dezember 2012 360 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Aus der Normalverteilungsannahme und der Denition der folgt t -Verteilung σ̂α̂ α̂ − α σ̂ = σα̂ σα̂ σ s s 2 α̂ − α ( − 2)σ̂ 2 = = ∼ n−2 σα̂ σ 2 ( − 2) ( − 2) α̂ − α α̂ − α = σ̂α̂ σα̂ mit Z α̂ = σα̂ n n ∼ N ( , ), W 0 1 Eine analoge Aussage gilt für 2 W n Z n t ( − 2)σ̂ 2 = ∼ χ2n−1 . 2 σ β̂ Unter der Normalverteilungsannahme gilt t α̂ − α ∼ n −2 σ̂α̂ und t β̂ − β ∼ n−2 σ̂β̂ Mit Hilfe dieser Aussagen lassen sich Tests für Jürgen Dippon (ISA) α und Biostatistik I 11. Einfache lineare Regression β konstruieren: 11. Dezember 2012 361 / 435 11.4. Stochastisches Modell Tests für die Regressionskoezienten sX > β H β=β H β≥β H β≤β Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung sowie H H H H H H Testprobleme über die Parameter a) b) c) α = α0 0 :α ≥ α 0 0 :α ≤ α 0 0: gegen gegen gegen α 6= α0 1 :α < α 0 1 :α > α 0 1: α α0 und : d) 0: 0 gegen , e) 0: 0 gegen , f) 0: 0 gegen α̂ − α0 = q σ̂α̂2 bzw. T β0 α∗ im Testproblem a) , falls b) , falls c ) , falls | α0 −2,1−α∗ /2 , d) , falls α0 −2,1−α∗ , e) , falls , f ) , falls α0 Jürgen Dippon (ISA) −2,1−α∗ H H H β= 6 β0 , 1 :β < β 0 , 1 :β > β 0 . 1: β̂ − β0 = q σ̂ 2 β̂ und dem vorgegebenen Signikanzniveau T | > tn T < −tn T > tn 0. Wir betrachten folgende , Basierend auf der Teststatistik T 2 Biostatistik I fällt die Entscheidung für T | > tn T < −tn T > tn | β0 −2,1−α∗ /2 β0 −2,1−α∗ β0 H 1 −2,1−α∗ 11. Dezember 2012 362 / 435 11. Einfache lineare Regression Insbesondere der Test H :β= 0 11.4. Stochastisches Modell yi xi 0 ist wichtig, da hiermit überprüft wird, ob es einen linearen Zusammenhang zwischen den - und -Werten gibt. Beispiel (fortgesetzt) College-Daten. β=0 Wir wollen überprüfen, ob Dazu berechnen wir den Schätzer für den Standardfehler von σ̂ 2 σ̂ 2 = σ̂β̂ = Pn = 2 2 ( − ) ( − 1 ) i i =1 X x x̄ 2 n Damit ist s t = β̂q−σ̂β 0 = 2 Der kritische Wert ist ist die Nullhypothese tn β̂ = −2,1−α∗ /2 β=0 α∗ = 0.05. β̂ . ist. Das Signikanzniveau sei 209.664 5 · 3.5 10.8 −0 3.4613 t 4,0.975 = 11.9808 ⇒ σ̂β̂ = 3.4613. = 3.12. = 2.7764. Wegen 3.12 > 2.7 abzulehnen. Es gibt also einen signikanten linearen Trend bei den Berufseinsteigerzahlen. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 363 / 435 11.4. Stochastisches Modell Statistische Tests für die Regressionsparameter mit R > x <- 1:6 > y <- c (121 ,138 ,115 ,162 ,160 ,174) > mymodel <- lm (y ~ x ) > summary ( mymodel ) Call : lm ( formula = y ~ x ) Residuals : 1 2 3 3.0 9.2 -24.6 4 11.6 5 -1.2 6 2.0 Coefficients : Estimate Std . Error t value Pr ( >| t |) ( Intercept ) 107.200 13.481 7.952 0.00135 ** x 10.800 3.462 3.120 0.03553 * Residual standard error : 14.48 on 4 degrees of freedom Multiple R - squared : 0.7087 , Adjusted R - squared : 0.6359 F - statistic : 9.734 on 1 and 4 DF , p - value : 0.03553 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 364 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Kondenzintervalle für die Regressionsparameter Parameter α Ausgehend von der Verteilungsaussage zu Kondenzintervalle für die α̂ und β̂ und β kann man herleiten: Gegeben sei das Standardmodell der linearen Einfachregression mit Normalverteilungsvorraussetzung. Dann sind t h β̂ − tn bzw. t σ̂ , β̂ + tn α̂ − n−2,1−α∗ /2 σ̂α̂ , α̂ + n−2,1−α∗ /2 σ̂α̂ −2,1−α∗ /2 β̂ (1 − α∗ )-Kondenzintervalle −2,1−α∗ /2 σ̂β̂ für die Parameter α i β. bzw. Anmerkung: Diese Struktur von Kondenzintervallen ist sehr typisch. θ̂ sei ein Parameterschätzer für einen Parameter θ und σθ̂ sein Standardfehler. θ̂ − θ ∼ σθ̂ h ⇒ θ̂ − N( , z 0 1) für alle zulässigen 1−α/2 σθ̂ , θ̂ + z 1−α/2 Jürgen Dippon (ISA) σθ̂ i θ ist (1 − α)-Kondenzintervall Biostatistik I 11. Einfache lineare Regression für 11. Dezember 2012 θ 365 / 435 11.4. Stochastisches Modell Beispiel: Kondenzintervall für µ bei bekanntem σ2 . X , . . . , Xn ∼ N (µ, σ ) 2 Var (X̄n) = σ /n q q X̄n − z σ /n, X̄n + z σ /n = X̄n − z σX̄n , X̄n + z σX̄n 1 . Dann gilt für den Schätzer X̄n 1−α/2 für 2 µ: 2 θ̂ 2 1−α/2 1−α/2 : 1−α/2 sei ein Parameterschätzer für einen Parameter θ und σ̂θ̂ ein Schätzer für seinen Standardfehler. t t θ̂ − θ ∼ m für alle zullässigen θ σ̂θ̂ h i ⇒ θ̂ − m,1−α/2 σ̂θ̂ , θ̂ + m,1−α/2 σ̂θ̂ Jürgen Dippon (ISA) t ist Biostatistik I (1 − α)-Kondenzintervall 11. Dezember 2012 für θ 366 / 435 11. Einfache lineare Regression Anmerkung: i.A. m=n 11.4. Stochastisches Modell Anzahl der geschätzten Parameter. Beispiel: Kondenzintervall für µ bei unbekanntem σ2 . X , . . . , Xn ∼ N (µ, σ ) µ : Var (X̄n ) = σ /n 2 1 2 S n . Dann gilt für den Schätzer und 2 2 σ̂X̄ = n / n X̄n − tn = X̄n − t Sn /n, X̄n + tn σ̂X̄n , X̄n + tn q −1,1−α/2 , 2 Sn /n 2 −1,1−α/2 σ̂X̄n Biostatistik I 11. Einfache lineare Regression für q −1,1−α/2 −1,1−α/2 Jürgen Dippon (ISA) X̄n 11. Dezember 2012 367 / 435 11.4. Stochastisches Modell Viele Statistikprogramme liefern als Ergebnis von komplexeren statistischen t Modellen Schätzwerte für die Parameter und Standardfehler. Wenn die zugehörigen standardisierten Schätzer -verteilt oder asymptotisch normal verteilt sind, kann man obige Kondenzintervallkonstruktion direkt verwenden. Beispiel: College-Absolventen. β . σ̂β̂ = 3.4613 und β̂ = 10.8 bereits früher berechnet. Mit n−2,1−α∗ = 4,0.975 = 2.7764 gilt h i β̂ − n−2,1−α∗ /2 σ̂β̂ , β̂ + n−2,1−α∗ /2 σ̂β̂ t Wir berechnen ein 0.95-Kondenzintervall für wurde t t t = [10.8 − 2.7764 · 3.4613, 10.8 + 2.7764 · 3.4613] = [1.19, 20.41] Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 368 / 435 11. Einfache lineare Regression Falls die Normalverteilungsannahme 11.4. Stochastisches Modell εi ∼ Konsistenzbedingung N( , σ ) n X ( i − )2 → ∞ i =1 x x̄ 0 für 2 verletzt, aber die n→∞ erfüllt ist, gelten die Verteilungsaussagen für die standardisierten Schätzer auch approximativ. Dann gelten auch die angegebenen Tests und Kondenzintervalle approximativ. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 369 / 435 11.4. Stochastisches Modell Beispiel (Fortsetzung): College-Daten. Die nächste Tabelle bezieht sich auf die Streuungszerlegung bei der linearen Regression, n n n X X X 2 2 ( i− ) = ( i − i )2 i− ) + |i =1 {z } |i =1 {z } |i =1 {z } y ȳ Gesamtstreuung (SQT) Jürgen Dippon (ISA) (ŷ ȳ Erklärte Streuung (SQE) Biostatistik I y ŷ Reststreuung (SQR) 11. Dezember 2012 370 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Kondenzintervalle für die Regressionsparameter mit R > x <- 1:6 > y <- c (121 ,138 ,115 ,162 ,160 ,174) > mymodel <- lm (y ~ x ) > confint ( mymodel ) 2.5 % 97.5 % ( Intercept ) 69.770472 144.62953 x 1.188984 20.41102 Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 371 / 435 11.4. Stochastisches Modell Prognose Ausgehend vom Regressionsmodell Yi = α + βxi + εi interessiert man sich für die Regressionsgerade y (x ) = α + β x x y (x ) : Ŷ (x ) = α̂ + β̂ · x E (Ŷ (x )) = E (α̂ + β̂ · x ) = E (α̂) + E (β̂) · x = α + β· x = y (x ) (x − x̄ ) σŶ x = Var (Ŷ (x )) = Var (α̂ + β̂ · x ) = . . . = σ n + Pi (xi − x̄ ) . Ŷ (x ) (x − x̄ ) σ̂Ŷ x = σ̂ n + Pi (xi − x̄ ) . für einen Vorgabewert . Schätzung von Dann gilt 2 2 1 2 2 ( ) ist also erwartungstreu und MSE- bzw. schwach konsistent. Die Varianz können wir schätzen mit 2 2 1 2 ( ) Jürgen Dippon (ISA) 2 Biostatistik I 11. Dezember 2012 372 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Prognose für y(x): Ŷ (x ) = α̂ + β̂ · x ist der Schätzer für Normalverteilungsannahme ist h ein Ŷ (x ) − tn −2,1−α∗ /2 σ̂Ŷ (x ) , (1 − α)-Kondenzintervall y (x ) Y 0 . Unter der Ŷ (x ) + tn y (x ) −2,1−α∗ /2 σ̂Ŷ (x ) i . beschreibt nur die Mittellage einer Zufallsvariable Regressor wir x y (x ) für y (x ) Y 0 , die zu einem 0 erhoben wird. Interessant ist häug der Wertebereich, in dem 0 mir groÿer Wahrscheinlichkeit nden. Dazu muss nicht nur die Mittellage 0 , sondern auch der Schwankung um diese Mittellage mit einem Störterm ε0 Rechnung getragen werden. Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 373 / 435 11.4. Stochastisches Modell Ansatz: Ỹ wobei 0 = α̂ + β̂ · ε0 x 0 + ε0 = unabhängig von Ŷ (x ) + ε , E (ε ) = 0 0 0 0, 0 2 ε1 , . . . , ε n . Damit ist Var (Ỹ ) = Var (Ŷ (x )) + Var (ε ) = σ 0 Var (ε ) = σ , 0 0 2 1 + 1 n x x̄ x x̄ ( 0 − )2 P + 2 i( i − ) und σ̂Ỹ2 = σ̂ 2 0 Jürgen Dippon (ISA) 1 + 1 n x x̄ x x̄ ( 0 − )2 +P 2 i( i − ) Biostatistik I . 11. Dezember 2012 374 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Prognose der Werte der Zufallsvariablen Y0 zu gegebenen x0 : Unter der Normalverteilungsannahme ist h Ŷ (x ) − tn 0 ein (1 − α)-Kondenz- −2,1−α∗ /2 σ̂Ŷ0 , Ŷ (x ) + tn 0 oder Prognoseintervall für Beispiel: College-Absolventen. 3.5, sx = 2 3.5, σ̂ = 14.461 Y y (x ) , t Wir berechnen ein 0.95-Kondenzintervall für x̄ = −2,1−α∗ /2 σ̂Ŷ0 0 i 0. und 4,0.975 Y 0 zu x 0 = 7. Aus = 2.7764 ergibt sich σ̂Ŷ2 (7) = σ̂ 2 1 n x x̄ x x̄ ( 0 − )2 +P 2 i( i − ) σ̂Ỹ2 = σ̂ 2 + σ̂Ŷ2 (7) = 391.44, 0 Jürgen Dippon (ISA) = 209.7 · und h Biostatistik I Ŷ ( ) = α̂ + β̂ · 7 Ŷ ( ) − t 7 6−2,0.975 6 (7 − 3.5)2 + 5 · 3.5 σ̂Ŷ (7) = 13.4811, 11. Einfache lineare Regression Damit sind 1 7 Ŷ = 181.74 σ̂Ỹ0 = 19.7848 11. Dezember 2012 375 / 435 11.4. Stochastisches Modell = 107.2 + 10.8 · 7 = 182.8, σ̂Ŷ (7) , (7) + t 6−2,0.975 t 4,0.975 = 2.7764, i σ̂Ŷ (7) = [145.37, 220.23] das gesuchte 95%-Kondenzintervall für den unbekannten Erwartungswert y( ) 7 und Ŷ ( ) − t h 7 6−2,0.975 Ŷ σ̂Ỹ0 , (7) + t 6−2,0.975 i σ̂Ỹ0 = [127.87, 237.73] das 95%-Prognoseintervall für die zufälligen Werte von x= 7. Jürgen Dippon (ISA) Biostatistik I Ỹ 0 an der Stelle 11. Dezember 2012 376 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Abbildung: Prognose und Kondenzintervalle Jürgen Dippon (ISA) Biostatistik I 11. Einfache lineare Regression 11. Dezember 2012 377 / 435 11.4. Stochastisches Modell Ŷ (x ) In das Streudiagramm der College-Absolventen wurde in der jedem x Ŷ (x ) Ỹ x= x obenstehenden Abbildung die geschätzte Regressionsgerade 0 die Kondenzintervalle zu 0 und Punkt kennzeichnet den Prognosenpunkt zu 0 Die Kondenzintervalle werden gröÿer, je weiter Jürgen Dippon (ISA) Biostatistik I und zu 0 eingezeichnet. Der rote 7. 0 von x̄ = 3.5 entfernt ist. 11. Dezember 2012 378 / 435 11. Einfache lineare Regression 11.4. Stochastisches Modell Kondenz- und Prognosestreifen mit R x <- 1:6; y <- c (121 ,138 ,115 ,162 ,160 ,174) plot (x ,y , xlim = c (0 ,8.5) , ylim = c (50 ,260) , xlab =" Jahr " , ylab =" Berufseinsteiger " , col =" blue ") mymodel <- lm ( y ~ x ) y0 <- sum ( mymodel$coefficients * c (1 ,0)) y8 <- sum ( mymodel$coefficients * c (1 ,8)) lines ( matrix ( c (0 , y0 ,8 , y8 ) , byrow = TRUE , ncol =2)) newx <- data . frame (x = seq (0 ,8 , by =0.1)) predEY <- predict ( mymodel , newx , interval =" confidence ") lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,2]) , col =" red ") lines ( data . matrix ( newx ) , data . matrix ( predEY [ ,3]) , col =" red ") predY <- predict ( mymodel , newx , interval =" prediction ") lines ( data . matrix ( newx ) , data . matrix ( predY [ ,2]) , col =" green ") lines ( data . matrix ( newx ) , data . matrix ( predY [ ,3]) , col =" green ") points (7 , predict ( mymodel , data . frame ( x =7)) , col =" red " , pch =15) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 379 / 435 11. Dezember 2012 380 / 435 12. Varianzanalyse 9 Parameterschätzung 10 Testen von Hypothesen 11 Einfache lineare Regression 12 Varianzanalyse Einfache Klassikation Einfache Varianzanalyse mit R 13 Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse Varianzanalyse Modelle der Varianzanalyse (ANOVA Analysis of Variance) dienen zur Untersuchung der Frage, ob eine oder mehrere kategoriale Gröÿen (Faktoren) einen Einuss auf die metrische Kriteriumsvariable besitzen. Je nach Anzahl der Faktoren spricht man von einer Varianzanalyse mit Einfach-, Zweifach-, . . . Klassikation. Ausprägungen eines Faktors werden als Stufen des Faktors bezeichnet. Ist jede Stufe eines Faktors mit jeder Stufe eines anderen kombiniert, so spricht man von (einem Versuchsplan mit) Kreuzklassikation, andernfalls von hierarchischer Klassikation. Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 381 / 435 12.1. Einfache Klassikation Einfache Klassikation Y Welchen (Mittelwert-) Einuss haben die k Stufen eines Faktors auf die Kriteriumsvariable Gruppe ? EW Umfang Stichprobe Mittelwert (=Faktorstufe) 1 µ1 . . . . . . i µi . . . k Jürgen Dippon (ISA) . . . µk n ni nk 1 . . . . . . Y Yi Yk 11 ... . . . 1 . . . 1 ... . . . Biostatistik I Yn Yini Yknk . . . 1 ... 1 Ȳ Ȳi Ȳk 1 . . . . . . 11. Dezember 2012 382 / 435 12. Varianzanalyse Ȳi = ni 1 n=n 1 Ȳ = = 1 ni X j =1 n + ··· + k ni k X X ni Yij =1 j =1 12.1. Einfache Klassikation Mittelwert der Gruppe i Umfang der gesamten Stichprobe Yi j , Mittelwert der gesamten Stichprobe k 1 X n i ni Ȳi =1 Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 383 / 435 12.1. Einfache Klassikation Modell 1 Yij = µi + eij i = , . . . , k, j = e , . . . , ek nk 1 mit unabhängigen Zufallsvariablen Gruppen-Erwartungswerten Annahmen: Jürgen Dippon (ISA) 11 , 1, . . . , ni (Fehlervariablen) und µ1 , . . . , µ k . E(eij ) = 0 Var(eij ) = σ2 (Varianzhomogenität) Biostatistik I 11. Dezember 2012 384 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Matrixschreibweise der Modellgleichungen: Y = Xβ + e Y Y = Yknk mit 11 . . . β= µ1 . . . k µk n-dim. Beobachtungsvektor -dim. Vektor der unbekannten Parameter Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse X X ist eine n×k 1 0 .. . 1 0 .. . = 0 .. . 0 .. . . . . 0 1 ··· . . . 1 ··· . . . 0 ··· . . . 0 0 -Matrix mit ··· 0 ) 0 ) 0 . . . 0 ) 1 . . . n 1 Zeilen n 2 Zeilen . . . nk Zeilen 1 Rang(X ) = k , die sog. Designmatrix. e e = ek nk 385 / 435 12.1. Einfache Klassikation . . . ··· ··· 11. Dezember 2012 11 . . . n-dim. Fehlervektor , Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 386 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Andere Parametrisierung µi = µ0 |{z} P := n1 ki=1 i µi αi |{z} + n := µi − µ0 mittlerer EW Jürgen Dippon (ISA) Eekt der Gruppe Biostatistik I 12. Varianzanalyse i 11. Dezember 2012 387 / 435 12.1. Einfache Klassikation Modell 2 (Eektdarstellung) Yij = µ + αi + eij Pk i ni αi = i= 0 Hier gilt =1 1, . . . , k, j = 1, . . . , ni 0 (Reparametrisierungsbedingung). Aufgabe: Schreibe das Modell in Matrixschreibweise mit geeigneter Designmatrix X Schätzen des Parametervektors Y = Xβ + e und Parametervektor β β. in Modell 1 mittels Methode der kleinsten Quadrate: Minimiere liefert die Schätzwerte Jürgen Dippon (ISA) Ȳ µ̂i = i ni k X X i =1 j =1 Biostatistik I Y ( ij − µi )2 11. Dezember 2012 388 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Für Modell 2 erhält man: Ȳ µ̂0 = i und Ȳ Ȳ α̂i = i − Schätzung der Varianz in beiden Modellen durch: σ̂ 2 = SSE n−k (mittlere Fehlerquadratsumme) wobei SSE := ni k X X i =1 j =1 Y Ȳ ( ij − i )2 (Sum of Squares due to Errors Summe der quadrierten Residuen). Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 389 / 435 12.1. Einfache Klassikation Es gilt die folgende Streuungszerlegung: ni k X X i =1 j =1 Y Ȳ ) ( ij − 2 = k X i =1 ni (Ȳi − Ȳ ) 2 + ni k X X i =1 j =1 Y Ȳ ( ij − i )2 Kurz: SST = SSA + SSE Sum of Squares Sum of Squares Sum of Squares Total due to factor A due to Errors zwischen innerhalb Die Variation der gesamten Stichprobe (SST) ist also die Summe der Variation Jürgen Dippon (ISA) den Gruppen und der Variation Biostatistik I der Gruppen. 11. Dezember 2012 390 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Begründung: SST = = = ni k X X i =1 j =1 ni k X X i =1 j =1 ni k X X i =1 j =1 Y Ȳ ) ( ij − 2 Y Ȳ Ȳ Ȳ ) Y Ȳ Y Ȳ Ȳ Ȳ ) + (Ȳi − Ȳ ) ( ij − i )2 + 2( ij − i )( i − k X = SSA + 2 ( i− i =1 Ȳ Ȳ ) = 2 ( ij − i + i − ni X Y Ȳ ( ij − i ) +SSE j =1 | {z =0 SSA + SSE Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 2 } 11. Dezember 2012 391 / 435 12.1. Einfache Klassikation Man sagt auch, dass die Gesamtvariation SST der Daten sich aus der erklärten Variation SSA und der unerklärten Restvariation SSE zusammensetzt. Zur Überprüfung der globalen Nullhypothese H 0 : µ 1 = · · · = µk (oder äquivalent α1 = · · · = αk = 0 ) vergleicht man SSA und SSE, genauer MSA := kSSA − 1 und MSE := nSSE −k SSA/(k − 1) klein im Vergleich zu SSE/(n − k ). Haben die Faktorstufen von A keinen unterschiedlichen Einuss auf die Zielgröÿe, dann ist Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 392 / 435 12. Varianzanalyse Sind die Fehlervariablen 12.1. Einfache Klassikation ei N( , σ ) /(k − ) MSA F := SSA = SSE/(n − k ) MSE normalverteilt (also 0 2 -verteilt), so ist 1 unter der Nullhypothese F-verteilt mit den Freiheitsgraden Denition: Seien Z1 , . . . , Zm , Z̃1 , . . . , Z̃n unabhängige k− 1 und n−k N(0, 1)-verteilte Zufallsvariablen. Dann heiÿt die Verteilung von F Z + · · · + Zm)/m Z̃ + · · · + Z̃n )/n m n ( := ( 2 1 2 1 F-verteilt mit den Freiheitsgraden Jürgen Dippon (ISA) 2 2 und . Biostatistik I 12. Varianzanalyse 11. Dezember 2012 393 / 435 12.1. Einfache Klassikation F-Test Damit ergibt sich der F-Test der einfaktoriellen (oder einfachen) Varianzanalyse: F Lehne > H F| k 0 zum Niveal α ab, falls −1,n−k ;1−α {z } (1 − α)-Quantil der F-Verteilung ( − ) Freiheitsgraden. n k Jürgen Dippon (ISA) Biostatistik I mit k ( − 1) und 11. Dezember 2012 394 / 435 12. Varianzanalyse Zur Beurteilung der Teststatistik von 12.1. Einfache Klassikation F verwendet man idealerweise die folgende Tafel der einfachen Varianzanalyse: Quadrat- mittlere Variationsursache summen Freiheitsgrade Quadratsummen zwischen den Stufen des Faktors A SSA (k − 1) MSA innerhalb der Stufen des Faktors A SSE (n − k ) MSE Gesamt SST (n − 1) Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse F = MSA MSE 11. Dezember 2012 395 / 435 12.1. Einfache Klassikation Überprüfung der Vorraussetzung zur Varianzhomogenität Grasch mit parallelen Boxplots Inferenzstatistisch mit I I Levene-Test oder Bartlett-Test zur Überprüfung der Nullhypothese: H 0 Jürgen Dippon (ISA) : σ12 = · · · = σk2 wobei Biostatistik I Y σi2 = Var( ij ) 11. Dezember 2012 396 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Multiple Mittelwertvergleiche Führt der F-Test zur Ablehnung der globalen Nullhypothese, so sind zumindest nicht alle Gruppen-Erwartungswerte identisch. Welche (Kombination von) Gruppen sind für die Ablehnung verantwortlich? Zur Beantwortung dieser Frage gibt es mehrere Methoden: Scheé-Test: Lehne H0 : µi = µj zum Niveau k α ab, falls: F q |µ̂i − µ̂j | > ( − 1) k −1,n−k ,1−α (µ̂i − µ̂j ) se wobei se (µ̂i − µ̂j ) = nSSE · −k ni + nj s r Jürgen Dippon (ISA) 1 1 Biostatistik I 12. Varianzanalyse 11. Dezember 2012 12.1. Einfache Klassikation Den Scheé-Test gibt es auch in einer allgemeineren Version für Kontraste zur Überprüfung von Hypothesen der Form H 0 : k X i =1 Wichtiges Beispiel (s.o.): ci µi = 0 wobei ci = , cj = − 1 397 / 435 k X i =1 ci = lineare 0. 1, alle übrigen cs= 0 0. Anderer populärer Test zum simultanen Vergleich von Mittelwerten: Tukey-Test. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 398 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Kumulierung der Fehlerwahrscheinlichkeit beim multiplen Testen Werden alle Nullhypothesen: H ij : µi = µj 0 z.B. mittels 2-Stichproben-t-Test durchgeführt, so sind insgesamt l= k = 2 k · (k − 1) 2 multiplen α-Fehlers Einzeltests erforderlich. Wird jeder Einzeltest zum Niveau so führt dies zu einer Ination des α durchgeführt, (auch experimentwise oder familywise error rate), deniert durch p = P( mindestens eine Nullhypothese Jürgen Dippon (ISA) Sei ) 0 fälschlicherweise ablehnen Biostatistik I 12. Varianzanalyse Aij H ij H ij p = das Ereignis, 11. Dezember 2012 399 / 435 12.1. Einfache Klassikation 0 fälschlicherweise abzulehnen: P(A12 ∪ A13 ∪ · · · ∪ A(i −1)j ) A [ ij = P i 6=j \ ij = 1−P i 6=j | {z } Y ≥ P( ij ) | {z } i 6=j =1−α ≤ 1 − (1 − α)l A A wobei l A die Gesamtzahl der Einzeltests zum Niveau Bei Unabhängigkeit der Ereignisse Beispiel: α = 0.05, Jürgen Dippon (ISA) k= 5, also l= ij 10 α. gilt Gleichheit. ⇒ p≤ Biostatistik I 1 − (1 − 0.05)10 ≈ 0.4 11. Dezember 2012 400 / 435 12. Varianzanalyse 12.1. Einfache Klassikation Paarvergleiche nach dem Bonferroni-Verfahren Nach der Bonferroni-Ungleichung gilt: P A A X ij ∩ ≥1− P( ij ) | {z } l ·α p α ≤ p ≤ lα Also gilt für die multiple Fehlerrate : Werden die Einzelvergleiche statt zum Niveau α durchgeführt, so ist die multiple Fehlerrate höchstens gleich l α/ α! zum Niveau Die Bonferroni-Korrektur ist jedoch sehr konservativ, der resultierende multiple Test besitzt eine geringe Power! Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 12.1. Einfache Klassikation H Äquivalente Formulierung des Bonferroni-Verfahrens: Seien zu den Tests mit den Hypothesen 401 / 435 ij 0 : µ i = µj pij die p-Werte Dann ist der Bonferroni-korrigierte multiple p-Wert gegeben durch: pBonf = l · i j pij max 6= Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 402 / 435 12. Varianzanalyse 12.2. Einfache Varianzanalyse mit R Einfache Varianzanalyse mit R Im Datensatz survey aus dem Paket (Pulsrate pro Minute), Smoke MASS nden sich die Variablen Pulse (Rauchverhalten) und weitere. Frage: Besteht ein Zusammenhang zwischen Pulsrate und Rauchverhalten? > library ( MASS ) > attach ( survey ) > summary ( Pulse ) Min . 1 st Qu . 35.00 66.00 Median 72.50 Mean 3 rd Qu . 74.15 80.00 Max . 104.00 NA ' s 45.00 > summary ( Smoke ) Heavy Never Occas Regul 11 189 19 17 Jürgen Dippon (ISA) NA ' s 1 Biostatistik I 12. Varianzanalyse 11. Dezember 2012 403 / 435 12.2. Einfache Varianzanalyse mit R > boxplot ( Pulse ~ Smoke ) > aov ( Pulse ~ Smoke ) Call : aov ( formula = Pulse ~ Smoke ) Terms : Sum of Squares Deg . of Freedom Smoke Residuals 127.433 25926.797 3 187 Residual standard error : 11.77480 Estimated effects may be unbalanced 46 observations deleted due to missingness > summary ( aov ( Pulse ~ Smoke )) Df Sum Sq Mean Sq F value Pr ( > F ) Smoke 3 127.4 42.478 0.3064 0.8208 Residuals 187 25926.8 138.646 46 observations deleted due to missingness Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 404 / 435 12. Varianzanalyse 12.2. Einfache Varianzanalyse mit R Abbildung: Puls in Abhängigkeit vom Rauchverhalten Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 405 / 435 12.2. Einfache Varianzanalyse mit R Besteht ein Zusammenhang zwischen Pulsrate und Geschlecht? Überprüfen Sie, dass die Varianzanalyse bei einem Merkmal mit zwei Gruppen der Vergleich der Gruppenmittel identisch ist zum 2-Stichproben-t-Test: > summary ( aov ( Pulse ~ Sex )) Df Sum Sq Mean Sq F value Pr ( > F ) Sex 1 177.6 177.56 1.2953 0.2565 Residuals 189 25909.7 137.09 46 observations deleted due to missingness Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 406 / 435 12. Varianzanalyse 12.2. Einfache Varianzanalyse mit R > t . test ( Pulse ~ Sex , var . equal = TRUE ) Two Sample t - test data : Pulse by Sex t = 1.1381 , df = 189 , p - value = 0.2565 alternative hypothesis : true difference in means is not equal to 0 95 percent confidence interval : -1.413995 5.270794 sample estimates : mean in group Female mean in group Male 75.12632 73.19792 Wird im linearen Modell für die Gruppenmittel angenommen, dass µ i = µ + αi , mit unbekannten µ und αi , i= 1, . . . , I so sind diese Parameter nicht eindeutig bestimmt. Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 407 / 435 12.2. Einfache Varianzanalyse mit R In R wird standardmäÿig angenommen, dass α1 = 0 (Berechne α2 , . . . αI die Behandlungskontraste) I sind dann die Abweichungen vom ersten Gruppenmittel in den Gruppen 2, . . . , . > lm ( Pulse ~ Smoke ) Call : lm ( formula = Pulse ~ Smoke ) Coefficients : ( Intercept ) SmokeNever 78.286 -4.292 SmokeOccas -4.348 SmokeRegul -4.598 > mean ( Pulse [ Smoke == " Heavy "] , na . rm = TRUE ) Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 408 / 435 12. Varianzanalyse 12.2. Einfache Varianzanalyse mit R Eine andere Wahl der Parametrisierung liefert die Nebenbedingung: I X i =1 αi = 0 Jürgen Dippon (ISA) Berechne die Kontraste so, dass deren Summe Biostatistik I 12. Varianzanalyse =0 11. Dezember 2012 409 / 435 12.2. Einfache Varianzanalyse mit R In R: > model1 <- lm ( Pulse ~ Smoke , + contrasts = list ( Smoke =" contr . treatment ")); > dummy . coef ( model1 ) Full coefficients are ( Intercept ): Smoke : 78.28571 Heavy Never Occas Regul 0.000000 -4.292293 -4.348214 -4.598214 > model2 <- lm ( Pulse ~ Smoke , + contrasts = list ( Smoke =" contr . sum ")) > dummy . coef ( model2 ) Full coefficients are ( Intercept ): 74.97603 Smoke : Heavy Never Occas Regul 3.3096805 -0.9826128 -1.0385338 -1.2885338 > sum ( dummy . coef ( model2 ) $Smoke ) [1] 1.110223 e -16 Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 410 / 435 12. Varianzanalyse Die Faktorstufen werden in R 12.2. Einfache Varianzanalyse mit R standardmäÿig in alphabetischer Reihenfolge dargestellt. Referenzkategorie (Baseline) ist damit die Faktorstufe, welche alphabetisch gesehen als erste auftaucht. In obigem Beispiel ist dies die Faktorstufe Heavy. Vermutlich ist es jedoch sinnvoller, Never als Referenzkategorie zu wählen: Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 411 / 435 12.2. Einfache Varianzanalyse mit R > levels ( Smoke ) [1] `` Heavy ' ' `` Never ' ' `` Occas ' ' `` Regul '' > levels ( Smoke ) <- c ( ` ` Never ' ' , ' ' Occas ' ' , ' ' Regul ' ' , ' ' Heavy ' ') > levels ( Smoke ) [1] `` Never ' ' `` Occas ' ' `` Regul ' ' `` Heavy '' > model1 <- lm ( Pulse ~ Smoke , contrasts = list ( Smoke = ' ' contr . treatment ' > dummy . coef ( model1 ) Full coefficients are ( Intercept ): Smoke : 78.28571 Never Occas Regul Heavy 0.000000 -4.292293 -4.348214 -4.598214 > model2 <- lm ( Pulse ~ Smoke , contrasts = list ( Smoke = ' ' contr . sum ' ')) > dummy . coef ( model2 ) Full coefficients are ( Intercept ): Smoke : Jürgen Dippon (ISA) 74.97603 Never Occas Regul Heavy 3.3096805 -0.9826128 -1.0385338 -1.2885338 Biostatistik I 11. Dezember 2012 412 / 435 12. Varianzanalyse 12.2. Einfache Varianzanalyse mit R Überprüfung auf gleiche Varianzen: > bartlett . test ( Pulse ~ Smoke ) Bartlett test of homogeneity of variances data : Pulse by Smoke Bartlett ' s K - squared = 2.8627 , df = 3 , p - value = 0.4133 > library ( car ) > leveneTest ( Pulse ~ Smoke , data = survey ) Levene 's Test for Homogeneity of Variance ( center = median ) Df F value Pr ( > F ) group 3 0.6535 0.5817 187 Jürgen Dippon (ISA) Biostatistik I 12. Varianzanalyse 11. Dezember 2012 413 / 435 12.2. Einfache Varianzanalyse mit R Multipler paarweiser Vergleich von Hypothesen: > pairwise . t . test ( Pulse , Smoke , pool . sd = FALSE ) Pairwise comparisons using t tests with non - pooled SD data : Pulse and Smoke Heavy Never 1 Occas 1 Regul 1 Never 1 1 Occas 1 P value adjustment method : holm Hier könnte die Varianz auch aus der gesamten Stichprobe ermittelt werden: pool.sd=TRUE. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 414 / 435 13. Versuchsplanung 9 Parameterschätzung 10 Testen von Hypothesen 11 Einfache lineare Regression 12 Varianzanalyse 13 Versuchsplanung Wahl geeigneter Merkmale Bedeutung der Versuchsplanung in der biowissenschaftlichen Forschung Grundlegende Aspekte der Versuchsplanung Varianzquellen in biowissenschaftlichen Untersuchungen Allgemeine Prinzipien der Versuchsplanung Typen von Stichproben Einige wichtige Versuchspläne Bestimmung optimaler Stichprobenumfänge Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 415 / 435 13. Versuchsplanung Versuchsplanung Die folgende Darstellung orientiert sich an Köhler et alt., Biostatistik, 2007, und Rudolf et alt., Biostatistik, 2008. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 416 / 435 13. Versuchsplanung 13.1. Wahl geeigneter Merkmale Wahl geeigneter Merkmale Objektivität, Reliabilität, Validität Liegt dem Fachwissenschaftler eine Fragestellung vor, so muss er sich entscheiden, welche Merkmale er zur Beantwortung seiner Frage sinnvollerweise untersucht. Dazu sollte er zunächst die folgenden drei Kriterien bei der Auswahl seiner Merkmale beachten: Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 417 / 435 13.1. Wahl geeigneter Merkmale Objektivität Die Ausprägung des zu ermittelnden Merkmals ist unabhängig von der Person des Auswerters eindeutig festzustellen. Beispiel: die Bewertung von Deutsch-Aufsätzen ist oft stark vom beurteilenden Lehrer abhängig und somit wenig objektiv. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 418 / 435 13. Versuchsplanung 13.1. Wahl geeigneter Merkmale Reliabilität Das Merkmal gestattet reproduzierbare Mess- (bzw. Beobachtungs-) Ergebnisse, bei Wiederholung liegen also gleiche Resultate vor. Statt Reliabilität wird auch von Zuverlässigkeit gesprochen. Beispiel: Beim Test einer neuen Methode zur Messung der Enzymaktivität wurde das untersuchte Homogenat in mehrere gleiche Proben aufgeteilt und jeweils gemessen. Die erhaltenen Ergebnisse unterschieden sich teilweise um eine Gröÿenordnung (Faktor 10). Die Methode musste als unzuverlässig verworfen werden. Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 419 / 435 13.1. Wahl geeigneter Merkmale Validität Das Merkmal in seinen Ausprägungen spiegelt die für die Fragestellung wesentlichen Eigenschaften wider. Statt Valitität wird auch von Gültigkeit oder Aussagekraft gesprochen. Beispiel: Bei der Zulassung zum Medizin-Studium spielt die Durchschnittsnote im Abitur eine wichtige Rolle. Hat dieses Merkmal tatsächlich eine zentrale Bedeutung für die Beurteilung, ob die Fähigkeit zum Arztberuf vorliegt? Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 420 / 435 13. Versuchsplanung 13.1. Wahl geeigneter Merkmale Grundlegende Elemente der fachwissenschaftlichen Planung Ableitung einer durch einen Versuch zu bearbeitenden Fragestellung. Überführung dieser Fragestellung in ein biowissenschaftliches Modell mit entsprechenden Forschungshypothesen. Erarbeitung einer Untersuchungsmethode zur Überprüfung der Hypothese. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 421 / 435 13.2. Bedeutung der Versuchsplanung in der 13. Versuchsplanung biowissenschaftlichen Forschung Grundlegende Elemente der biostatistischen Versuchsplanung Formalisierung des biowissenschaftlichen Modells durch ein entpsrechendes mathematisch-statistisches Modell mit den entsprechenden statistischen Hypothesen. Festlegung der Stichprobengewinnung. Detaillierte Festlegung des Versuchsplanes (zum Beispiel Anzahl der Faktorstufen, Anzahl der Wiederholungen, Umgang mit Störvariablen, Verteilung der Untersuchungseinheiten auf die unterschiedlichen Versuchsbedingungen). Festlegung der Verfahren zur Datenanalyse einschlieÿlich der Untersuchung der notwendigen Voraussetzungen. Bestimmung des optimalen Stichprobenumfangs. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 422 / 435 13.2. Bedeutung der Versuchsplanung in der 13. Versuchsplanung biowissenschaftlichen Forschung Zusammenhang von fachwissenschaftlicher und biostatistischer Versuchsplanung Eine abgestimmte fachwissenschaftliche und biostatistische Versuchsplanung schat die Voraussetzungen für die Genauigkeit der Versuchsergebnisse und ihre Kontrolle bei der Auswertung die Kontrolle oder die Elimination vor Störgröÿen die sachgerechte Beschreibung der Versuchsergebnisse durch grasche Darstellungen und statistische Maÿzahlen die Quantizierung und kritischen Wertung charakteristischer Beziehungen (Zusammenhänge, Unterschiede) und die ökonomische Durchführung des Versuchs. Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 423 / 435 13.3. Grundlegende Aspekte der Versuchsplanung Grundlegende Aspekte der Versuchsplanung Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 424 / 435 13. Versuchsplanung 13.3. Grundlegende Aspekte der Versuchsplanung Varianzquellen in biowissenschaftlichen Untersuchungen Denition: Als Primärvarianz wird der Varianzanteil der Zielvariablen bezeichnet, der auschlieÿlich auf die Variation der experimentellen Bedingungen zurückgeführt werden kann. Die biostatistische Versuchsplanung soll die Voraussetzungen dafür schaen, dass dieser Varianzanteil möglichst groÿ sein kann, damit die interessierenden Eekte nachgewiesen werden können. Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung Denition: Als 11. Dezember 2012 425 / 435 13.3. Grundlegende Aspekte der Versuchsplanung Sekundärvarianz wird der Varianzanteil bezeichnet, der durch die Wirkung von Störvariablen hervorgerufen wird. Die biostatistische Versuchsplanung soll eine Kontrolle potentieller Störvariablen sicherstellen. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 426 / 435 13. Versuchsplanung Denition: Als 13.3. Grundlegende Aspekte der Versuchsplanung Fehlervarianz wird der aus zufälligen Unterschieden zwischen den Untersuchungseinheiten oder aus unsystematischen, zufälligen Einüssen der Untersuchung resultierende Varianzanteil bezeichnet. Die biostatistische Versuchsplanung hat die Aufgabe, diesen Varianzanteil so gering wie möglich zu halten. Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 427 / 435 13.3. Grundlegende Aspekte der Versuchsplanung Merksatz: ein wichtiges Ziel der biostatistischen Versuchsplanung besteht darin, die Primärvarianz zu maximieren, die Sekundärvarianz zu kontrollieren und die Fehlervarianz zu minimieren. Das Verhältnis der Anteil von Primär-, Sekundär- und Fehlervarianz ist eng mit dem Begri der internen Validität einer Untersuchung verbunden. Denition: eine Untersuchung ist intern valide (nach innen gültig), wenn die Unterschiede in der abhängigen Variablen (dem interessierenden Merkmal) zwischen den verschiedenen Versuchbedingungen eindeutig auf die Veränderungen der unabhängigen Variablen, d.h. auf die unterschiedlichen Versuchsbedingungen zurückgeführt werden können. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 428 / 435 13. Versuchsplanung Denition: Eine Untersuchung ist 13.3. Grundlegende Aspekte der Versuchsplanung extern valide (nach auÿen gültig), wenn die Ergebnisse der Untersuchung auf die Population und auf andere Situationen übertragen werden können. Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 429 / 435 13.3. Grundlegende Aspekte der Versuchsplanung Allgemeine Prinzipien der Versuchsplanung Maximieren der Primärvarianz Konstanthalten von Störgröÿen Randomisierung von Versuchsbedingungen Matching Blockbildung Verblindung (einfach oder mehrfach) Wiederholungen mehrfaktorielle Strukturen statistische Kontrolle von Störfaktoren mittels Regressionsmethoden Einbeziehung einer Kontrollgruppe Symmetrie Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 430 / 435 13. Versuchsplanung 13.3. Grundlegende Aspekte der Versuchsplanung Typen von Stichproben Einfache Zufallsstichproben Geschichtete Stichproben (zB hinsichtlich Alter und/oder Geschlecht) Klumpenstichproben (zB Herden oder Familien) Mehrstuge zufällige Auswahlverfahren Jürgen Dippon (ISA) Biostatistik I 13. Versuchsplanung 11. Dezember 2012 431 / 435 13.3. Grundlegende Aspekte der Versuchsplanung Einige wichtige Versuchspläne Einfaktorielle Randomisierungspläne für groÿe Stichprobenumfänge, dreifache Zufallszuordnung Blockversuchspläne Messwiederholungspläne Mehrfaktorielle Pläne Mischversuchspläne Unvollständige Versuchspläne wie hierarchische Pläne oder Lateinische Quadrate Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 432 / 435 13. Versuchsplanung 13.4. Bestimmung optimaler Stichprobenumfänge Bestimmung optimaler Stichprobenumfänge X , . . . , Xn Einfaches Beispiel: 1-Stichproben-Gauÿtest 1 unabhängige Zufallsgröÿen, verteilt wie µ unbekanntem Erwartungswert N (µ, σ ) 2 und bekannter Varianz mit σ 2 > 0. Zu testen ist H 0 : µ ≤ µ0 H gegen 1 : µ > µ0 mit dem rechtsseitigen Gauÿ-Test: Lehne √ n x̄ −σ µ > z 0 (Signikanztest) H 0 zum Niveau α ∈ (0, 1) ab, falls := Φ−1 (1 − α) 1−α Gütefunktion dieses Tests: G n z √ µ − µ0 (µ) = Φ − σ 1−α Die Wahrscheinlichkeit für einen Fehler 2. Art liegt damit für ein wenig gröÿer ist als µ0 , Biostatistik I 13. Versuchsplanung Sind wir nur an gewählte Gröÿe H 0 11. Dezember 2012 13.4. Bestimmung optimaler Stichprobenumfänge H gegen ∆ : µ > µ0 + ∆ Für diesen Test kann die Wahrscheinlichkeit kontrolliert werden: β =1− G (µ 0 + ∆) = Φ nz σ ∆= √ ( 1−α Zu vorgegebenen Wahrscheinlichkeiten α β z Diese Beziehung ist äquivalent mit σ 433 / 435 µ-Werten interessiert sind, die um mindestens eine von ∆ > 0 von µ0 abweichen, testen wir die Hypothesen : µ ≤ µ0 Art, Streuung das nur − α. knapp unterhalb von 1 Jürgen Dippon (ISA) µ, − uns (Relevanztest) für einen Fehler 2. Art n √ ∆ 1−α − σ z) und β β für einen Fehler 1. bzw. 2. (geschätzt z.B. im Rahmen einer Pilotstudie) und minimaler relevanter Abweichung (Mindesteekt) minimalen Stichprobenumfang n≥ Jürgen Dippon (ISA) z σ2( 2 1−α + ∆2 Biostatistik I z 2 1−β ∆ ergibt sich für den ) 11. Dezember 2012 434 / 435 14. Literatur Literatur L. Fahrmeir et al.: Springer 2010. Statistik Der Weg zur Datenanalyse , 7. Auage, Grundlegende Statistik mit R Eine anwendungsorientierte Einführung in die Verwendung der Statistik Software R J. Groÿ: , Vieweg+Teubner 2010. J. Hain: Statistik mit R Grundlagen der Datenanalyse , RRZN-Handbuch, Leibniz Universität Hannover 2011 (erhältlich in der Benutzerberatung des RUS). Biostatistik: Eine Einführung für Biologen und Agrarwissenschaftler Biostatistik eine Einführung für Biowissenschaftler Biostatistics with R An Introduction to Statistics Through Biological Data W. Köhler, G. Schachtel, P. Voleske: , Springer 2007. M. Rudolf und W. Kuhlisch: , Pearson Studium 2008 B. Shababa: , Springer 2012. Jürgen Dippon (ISA) Biostatistik I 11. Dezember 2012 435 / 435