Weitere Files findest du auf www.semestra.ch/files DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN. DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR. WS 02 / 03 Notizen Statistik © by Al_Sub et al. Beschreibende Statistik Im Bsp der Mietspiegel und Kreditwürdigkeit beschreiben wir eine Grundgesamtheit oder Population von einzelnen Objekten oder Personen. Merkmalstypen Nach Anzahl der Nach Skalenniveau Nach quant . / qualitativen (siehe Skript EmpirSoz) möglichen Ausprägungen Ausprägungen endlich oder abzählbar unendlich diskret stetig nominalskaliert viele Ausprägungen alle Werte innerhalb eines Intervalls ordinalskaliert intervallskaliert verhältnisskaliert quantitativ qualitativ Ausprägungen sind Namen, keine Ordnung möglich Ausprägungen können geo rdnet werden, Abstände nicht interpretierbar Ausprägungen sind Zahlen, Abstände interpretierbar Sinnvoller absoluter Nullpunkt Ausprägungen geben Intensität wieder Endlich viele Ausprägungen, höchstens Ordinalskala Wir unterscheiden verschiedene Typen von Variablen: Kategorielle Merkmale Quantitative/Numerische Merkmale Ordinale Merkmale Endliche Anzahl Antworten auf eine Jahreseinkommen Eigentlich Kategoriale Merkmale, aber Frage. Mietpreis die möglichen Werte sind in einer Geschlecht (w/m; dichotom) IQ natürlichen Reihenfolge. Beruf(sgruppe) (z.B. Mietpreise) Raucher? (Ne in, Gelegentlich, Ja) âÞ wenn kategorielle Merkmale in einer Reihenfolge dargestellt werden können Þá Die mög lichen Werte eines Merkmals nennt man auch Merkmalsausprägungen. Anmerkungen zur Versuchsplanung – Grundgesamtheit – Welche Fragen sollen mit der Studie beantwortet sollen? Welche Variablen von Interesse? – Art der Stichprobenziehung? - Teilerhebung - Zufallst ichprobe (Im Idealfall wählt man rein zufällig n Einheiten der Grundgesamtheit. In der Praxis oft schwierig) – Geschichtete Stichproben (Wenn die Grundgesamtheit in bestimmte Teilpopulationen zerfällt und deren Grössen bekannt sind und wenn die interessanten Merkmale in diesen Teilpopulationen unterschiedlich verteilt sind, dann ist es sinnvoll, aus jeder Teilpopulation eine Zufallsstichprobe zu ziehen. Darstellung und Speicherung von Datensätzen Datenmatrix: Tabelle mit Eintragungen jede Zeile: entspricht ei ner Einheit (Person) jede Spalte entspricht einer Variable Deskription und Exploration von Daten (Kapitel 2) Absolute und relative Häufigkeiten Gegeben ist ein Datensatz mit n Elementen (Einheiten). Für eine bestimmte Eigenschaft sei h(Eigenschaft) die A nzahl aller Stichprobenelemente mit dieser Eigenschaft. f(Eigenschaft) beschreibt den relativen Anteil aller Stichprobenelemente mit der Eigenschaft = h(Eigenschaft) / n; [0,1]. n ist der Stichprobenumfang. Stabdiagramme und Kuchendiagramme Betrachte ein kategoriales Merkmal mit Ausprägungen a 1,a 2…a k, (z.B. „Raucher“ mit Ausprägungen 0, 1, 2). Die absoluten Häufigkeiten h 1,h 2, ….h k sowie die relativen Häufigkeiten f a1 , f a2 , ….f ak. Stabdiagramm: Horizontal die Ausprägungen, vertikal f oder h http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Kuchendiagramm: f=1 Þ 360°, die einzelnen Winkel berechnen sich mit der relativen Häufigkeit: j = f j * 360° Stamm- Blatt-Diagramm 1. Gerundete Urliste der Reihe nach geordnet 2. Bilden des Stammes mit den Klassen (Intervalle). (z.B. 100, 200, 300, 400 Þ 1, 2, 3, 4) 3. Erstellen der Blätter: Aufrunden der Werte der Urliste, der Grösse nach geordnet rechts an den Baum anreihen. 4. Angabe der Einheit: z.B. 1 | 3 = 130 Methoden für ein numerisches Merkmal Stab - und Kuchendiagramme sind für numerische Merkmale meistens ungeeigne t, da zu viele verschiedene Werte auftreten. Ein möglicher Ausweg ist die Gruppierung: Man unterteilt den Wertebereich der numerischen Variable in Intervalle [a 0,a 1), [a 1,a 2), …, [a n-1 ,a n) Nun bestimmt man die Häufigkeiten dieser Bereiche. Anstelle eines Stabdiagramms zeichnet man nun ein sogenanntes Histogramm Zeichne über den Klassen [c 0 ,c 1),…,[ck-1, c k) Rechtecke mit der Klassenbreite d j = c j – c j-1. Höhe ist gleich oder proportional zu h j /d j bzw. f j /d j . Horizontal: Intervallgrenzen Vertikal: Über jedem Intervall zeichnet man ein Rechteck (dh. Balken berühren sich!). Für die Höhe des Rechtecks gibt es zwei Konventionen: – Höhe ~absolute Häufigkeit: ( ÞHier sollen die Intervalle identisch sein) – Fläche proportional zur absoluten oder relativen Häufi gkeit. Höhe ~ Häufigkeit Intervallä nge Dh. im Histogramm wird die Grösse des Intervalls berücksichtigt. Diese Konvention hat den Vorteil, dass man unterschiedlich lange Intervalle verwenden kann. Warnung: Histogramme sind zwar sehr beliebt, aber sehr unstabil, wen n man die Intervalleinteilung variiert! Verteilungsfunktionen Die Verteilungsfunktion einer numerischen Variable ist definiert als Abbildung R ' f ® rel . Anteil von Beobachtun gen £ t ® F (t ) Diese Verteilungsfunktion f ist stets monoton wachsend, dh. t1 < t 2 ® F (t 1 ) £ F ( t 2 ) relativer Anteil von Beobachtungen, die £ r sind. F ist eine monoton wachsende Treppenfunktion mit Werten in {0, 1/n, 2/n, …, (n -1)/n, 1} Konkrete Berechnung / Erzeugung von Histogramm und Verteilungsfunktion – – X1 X2 X3 … Xn Hilfreich, die Daten zu sortieren. Þ Ordnungsstatistiken X(1) £X(2) £…£ X(n) Sprechweise: X (k! ist die k -te Ordnungsstatistik der Stichprobe (X 1…., X n) X(1) X(2) Anz. h 1 Þ jeweiliges f X(3) berechnen für die einzelnen Abschnitte } Anz. h 2 hn X(n) } Anz h 3 Anhand der sortierten Liste kann man auch die Intervallgrenzen für ein Histogramm angeben. Für die Verteilungsfunktion F gilt: 0 1/n 2/n (n -1)/n 1 ¦ ¦ ¦ …………….. ¦ ¦ X(1) X(2) X(3) X(n-1) X(n) In Formeln: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. k falls X ( k ) £ X ( im Buch k = H(x)); Anzahl der Werte x i mit x i £ x n F ( r) = 0 für r < X (1) F ( r) = F ( r) = 1 für r ³ X ( n ) , jedoch treppenförmig. Auf der y -Achse ist f angegeben. An einer bestimmten Stelle r springt die Funktion F um den Betrag k/n, wenn es k Stichprobenelemente X i = r gibt. Am Graphen der Verteilungsfunktion F kann man ver schiedene Dinge ablesen: – Minimaler (wo ist erstmalig F>0) und maximaler (wo ist erstmalig F=1) Wert der Stichprobe – Für festes r kann man den relativen Anteil F(r) ablesen – Für eine vorgegebene Zahl p mit 0<p<1 kann man den (oder die) Zahlenwert(e) X p ablese n, so dass gilt: F(r)£p für r<x p F(r)³p für r ³x p Bedeutung von x p: Mindestens n*p Beobachtungen sind £ x p, mindestens n(1 -p) Beobachtungen sind ³ x p Quantile (werden in kleinen Buchstaben dargestellt) Bezeichnung: x p ist ein p -Quantil der Stichprobe (X 1, …, X n). Spezialfälle: – p= ¼ Þ x p ist das untere Quartil – p= ½ Þ x p ist das mittlere Quartli, dh. auch Median – p= ¾ Þ x p ist das obere Quartil Konkrete Bestimmung von Quantilen Wenn n*p keine ganze Zahl ist, dann gibt es genau ein p -Quantil, nämlich: X(é np ù ) (é…ù nach oben runden, ë…û nach unten runden) Index in Klammer X ( ) bedeutet, dass die Werte der Grösse nach geordnet wurden. Wenn n*p eine ganze Zahl ist, dann ist jeder Punkt aus [X(np) , X (np+1)) ein p-Quantil. Typischerweise nennt man dann X ( np ) + X ( np +1) 2 " das " p - Quantil Spezialfall: Median (p= ½) n ungerade: X½ = X ((n+1)/2) n gerade: X½ = X ( n / 2 ) + X ( n / 2 +1 ) 2 Zahlenbeispiel: Befragung der Vorlesungsteilnehmer, darunter n=161 Herren. Betrachte Körpergrössen X i (in cm). X(1) = 168, X (n) =199 Median: x 1/2=X(81) =180 unteres Quartil: x 1/4=X(41) (die 41kleinste Beobachtung) = 177 oberes Quartil: x 3/4= X (121) = 184 Anmerkung zu den Quartilen: – mindestens n/2 Beobachtungen liegen im Intervall [x 1/4 ,x 3/4] Box Plot Einfache grafische Darstellung einer Stichprobe, die sich vor allem für den Vergleich mehrerer Stichproben eignet. Man braucht 5 Zahlen: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. – Minimalbeobachtung X (1) (Whisker) – Unteres Quartil x 1/4 (Anfang der Schachtel) – Median x 1/2 (Strich / Punkt in der Schachtel) – Oberes Quartil x 3/4 (Ende der Schachtel) – Maximale Beobachtung (Whisker) – (d Q = Länge der Schachtel) (oftmals zeichnet man Box -Plots vertikal, hier jedoch horizonta l:) Der Box -Plot gibt einen groben Eindruck, wo die meisten Daten liegen und ob sie symmetrisch um den Median liegen oder nicht. Beim modifizierten Box -Plot gehen die Whiskers nur bis zu den Zaunwerten. Die Werte ausserhalb der Zäune werden einzeln eingezeichnet. Symmetrisch: Box in zwei gleichgrosse Teilhälften geteilt, Whiskers etwa gleich lang. Problem: Wenn die Extremwerte X (1) , X (n) weit weg vom Median liegen (rel. zur Länge der Box), dann weiss man nicht, ob es sich um einzelne „Ausreisser“ handelt, oder ob viele Punkte weit weg vom Median liegen. Þ Ausweg: Box -Whisker-Plot Die Länge der Box bestimmt man mit dem Inter QuartilAbstand I QR = x 3/4 – x ¼ Man betrachtet Beobachtungen, die – grösser sind als x 3/4 + 1.5 IQR – kleiner sind als x 1/4 – 1.5 IQR als Ausreisser. Man bestimmt die kleinste Beobachtung b 1 und die grösste Beobachtung b 2, die keine Ausreisser sind. Ausreisser werden durch einzelne Punkte (Sterne) markiert. 2.2 Beschreibung von Verteilungen Anstelle von graphischen Darstellungen möchten wir nun Variablen durch Kenngrössen charakterisieren. Und zwar betrachten wir ein numerisches Merkmal mit Werten X 1, X 2, …, Xn . – Zentrum (Wo liegen die Werte?) – Streuung (Wie stark unterscheiden sich die Werte?) – Form der Verteilung (Symmetrie?) Zentrum Streuung Form Wo liegen die Werte? Unterschiede zwischen den Werten, Abstand zum Symmetrie? Zentrum Lageparameter: Skalenparameter Gesucht ist ein Parameter, der Gesucht ist ein Mass für die durchschnittliche beispielsweise Symmetrie / Suche eine Zahl m, die mögli chst im Zentrum der Streuung der Werte. Beispiele: Unsymmetrie bewertet. Werte X1, …, X n liegt. – Standardabweichung – Schiefe: Vorschlag 1: Versuche m zu finden, so dass die n Summe der Abweichungs -quadrate minimal wird: n 1 ~ 2 ( X 1 - m ) + ( X 2 - m ) + ... + ( X n - m ) 2 Lösung: Quadratische Ergänzung. Ausmultiplizieren: n å (X i i= 1 - m)2 å = å X i + n ( m - 2m 2 2 i =1 Dies wird minimal, wenn n m=å i =1 Xi n åX i =1 n - X )2 n In der Regel verwendet man eine etwas andere Normierung (von der Stichprobenvarianz herge leitet: S = n n i i= 1 i =1 2 å( X n i 1 n -1 n å (X i - X )2 i= 1 Dieser Parameter reagiert (wie der Mittelwert) empfindlich auf Ausreisser / extreme Werte. – Interquartilsabstand IQR = x 3/4-x 1/4 – Mittlere absolute Abweichung http://www.cx.unibe.ch/~duembgen/statwiwi å (X i - X )3 / S 3 i= 1 1 n Xi - X 3 å ( S~ ) n i= 1 3 typische Situationen: Histogramm rechtsschief (linkssteil) 1 - m ) soll minimal sein i 1 symmetrisch 2 å( X 2 linksschief (rechtssteil) 3 ~ s = n Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik (arithmetischer Mittelwert der Beobachtungen X i.) Vorschlag 2: Ich suche eine Zahl m, so dass die Summe der absoluten Abweichungen mi nimal wird.: 1 n 1 n | X i - x1 / 2 | å | X i - X | oder n å n i =1 i =1 – Median der absoluten Abweichungen (median absolute derivation) MAD := Median (|X 1-x 1/4|, …, |X n-x 1/2|) n å¦ X i - m ¦ (Aufsummierung all dieser i= 1 Abstände) Lösung (ohne Herleitung) Die obige Summe ist minimal, genau dann, wenn diese Zahl m ein Median der Stichprobe ist. Also wenn m=x 1/2. Definition und Zusammenfassung: Vorschlag 1: Der Mittelwert der Stichprobe (X 1, …, Xn) ist definiert als die Zahl n X 1 + X 2 + ... + X n i= 1 n X := 1 / n å X i = © by Al_Sub et al. Robustheit: Von diesen vier Skalenparametern sind IQR und MAD unempfindlich gegenüber Aus reissern / extremen Werten. Transformationen Sei S(X 1, …, X n) einer dieser vier Skalenparameter. Dann gilt für beliebige Zahlen a, b (b ¹ 0): S ( a + bX 1, …, a + bX n) = |b|S(X 1 , …, Xn) – Wölbung /Kurtose Kurtose := 1 n Xi -X 4 å ( S~ ) - 3 (76) n i= 1 Transformat ionen Ersetzt man alle Werte X i durch a + bX (b>0), dann bleiben Schiefe und Kurtose unverändert. Diese Zahl X hat folgende Eigenschaft: Für eine beliebige andere Zahl m ist n n i =1 i =1 å ( X i - m ) 2 = å X i2 - n (X ) 2 + n ( X - m )2 Die Summe der n Funktionen m Þ |X i - m| ist stückweise linear auf Knotenpunkten in den Beobachtungen X (1) , …, X (n) . Um das Minimum dieser Funktion (genauer : die Minimalstellen) zu bestimmen, bestimmt man die Steigungen der Funktion. -n 2-n | X(1) 4 -n | X(2) … | X(3) Steigung | | | | | n Allgemein: Die Steigung der Funktion m Þ å| X ( i) - m | hat den Wert i= 1 – 2i-n auf d em Intervall ](X (i) , X (i+1) [ (1£i<n) – -n auf dem Intervall ] -¥, X (1) ] – +n auf dem Intervall ]X (n) , ¥[ Falluntersuchung ( n gerade oder ungerade) – n gerade: Minimalstellen in [X(n/2),X (n/2+1)] ] – n ungerade: Minimalstelle bei X ((n+1)/2) Mittelwert vs. Median: Robustheit Der Mittelwert kann durch eine einzelne Beobachtung beliebig abgefälscht werden. Er reagiert empfindlich auf Ausreisser. In Gegensatz dazu ist der Median robust gegenüber Ausreissern. Genauer: Sei n ungerade, dann ist x 1/2 =X (m) mit m = n +1 2 Wenn man k Datenpunkte beliebig abfälschen darf,. dann bleibt der Median im Intervall [X(m-k),X (m+k)] (k £ n/2). http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Diese Robustheitseigenschaft ist nicht nur bei Ausreissern im Sinne von falschen Daten wichtig, sondern auch bei sehr unsymmetrischen Verteilungen wie z.B. Gehälter, das Alter in Kursen, Studiendauern uvm. Transformationseigenschaft von Lageparametern Sei M ein Lageparameter wie der Mittelwert X oder X 1/2. Schreibe M(X1, X 2 , X 3, …, X n). Wenn man die Dat en „affin linear“ transformiert, sollte auch M entsprechend reagieren: Für beliebige Zahlen a, b (b ¹0) sollte gelten: M(a + b X1, a + b X2, …, a + b Xn) = a + bM(X 1,… ,Xn) (Beispiele: Umrechnung von Temperaturen °C Û °F oder Währungen) Der Mittelwert und der Median haben diese Eigenschaft. Auch andere Quantil x p(0<p<1) erfüllen diese Eigenschaft, sind also Lageparameter. Unterschiede zwischen den Werten, Abstand zum Zentrum Skalenparameter Gesucht ist ein Mass für die durchschnittliche Streuung der Werte. Bei spiele: – Standardabweichung ~s = S = ~ s = 1 n å ( X i - X ) 2 In der Regel verwendet man eine etwas andere Normierung: n i= 1 1 n ( X i - X ) 2 (Begründung dafür interessiert keine Sau) å n - 1 i= 1 Dieser Parameter reagiert (wie der Mittelwert) empfindlich auf Ausreisser / ext reme Werte. – Interquartilsabstand IQR = x 3/4-x 1/4 – Mittlere absolute Abweichung 1 n 1 n | X X | oder å i å | X i - x1 / 2 | n i =1 n i =1 – Median der absoluten Abweichungen (median absolute derivation) MAD := Median (|X 1-x 1/4|, …, |X n-x 1/2|) Robustheit: Von diesen vier Skalenparametern sind IQR und MAD unempfindlich gegenüber Ausreissern / extremen Werten. Mass x Arithm.Mittel Aussage Empfindlich gegenüber Ausreissern Formel n åx i k i=1 x n x med Median x mod Modus x geom med,grupp = åfm i i i= 1 Die mittlere oder das arithm. Mittel der beiden mittleren Beobachtungen in einer geordneten Urliste . Robust Gibt an, welche Ausprägung am häufigsten vorkommt. Die Ausprägung mit der höchsten Säule / Stab. x med, grupp = c i-1 + (d i *(0.5 – F(c i-1))/fi) Durchschnittliches Wachstum (x 1*…*x n) / n x ~xmed ~ xmod x > xmed > xmod Rechtssteil: x < xmed < x mod Symm Vert: Linkssteil: Geometrisches Mittel x 1 har n 1 1 å n i =1 x i quartile Varianz Analog Median (= 0.5 -Quantil) Streuung um das Mittel x (Modifizierte und brauchbare Kennzahl) 1 n 1 n ~ s 2 = å ( X i - X ) 2 = ( å xi2 ) - x 2 123 n i=1 Wie stark n i =1 die Daten um den MIttelwert streuen Standardabweichung Streuung um das Mittel x in derselben Masseinheit wie die Werte selbst. ~ s = 1 n å( X n i - X )2 i= 1 http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Dichtekurven und Normalverteilung Alle bisherigen grafischen Darstellungen und Kenngrössen kann man für Stichproben aber auch die entsprechende Grundgesamtheiten definier en (Totalerhebung). Nun betrachte ein numerisches Merkmal eine sehr grosse Grundgesamtheit. Angenommen hierfür erzeugt man ein Histogramm (Konvention mit relativem Anteil = Flächen). Wenn die zugrundegelegten Intervalle sehr schmal sind, sieht die Histogr ammfunktion näherungsweise wie eine stetige Funktion aus (Das gilt meistens). Definition Wahrscheinlichkeitsdichtefunktion Eine Wahrscheinlichkeitsdichtefunktion (oder eine Dichte) ist eine Funktion f: |R Þ |R mit nichtnegativen Werten, so dass ¥ ò f ( x ) dx = 1 -¥ Allgemein bezeichnet b ò f ( x ) dx = 1 a die Fläche zwischen dem Graphen von f und der korrelierten Achse über dem Intervall [a, b] (Fläche = 1) . Anwendung: Eine Wahrscheinlichkeitsdichte f dient als idealisiertes Modell für die Verteilu ng von einem numerischen Merkmal in einer grossen Grundgesamtheit. Genauer: relativen Anteil von Individuen mit Merkmalswert in [a, b§] b » ò f ( x )dx a Darstellung von bisher eingeführten Objekten mit Hilfe der Wahrscheinlichkeitsdichte – Verteilung sfunktion F F(r):= rel.Anteil von Individuen mit Merkmal £ r r » ò f ( x )dx -¥ Eigenschaften von F F ist stetige, monoton wachsende Funktion. Ihre Grenzwerte sind F( -¥)=0, F( ¥)=1 Zusammenhang zw. F und f: f(x)= F’(x) = lim g - >x F ( g ) - F ( x) (Steigung von F im Punkt x) y-x Beispiel 1: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. ì0, falls x < 0 ï f ( x) = í 1 ï ( x + 1) 2 , falls x ³ 0 î Dies ist eine Dichtefunktion, denn für x > 0 ist f(x) = F’(x) mit F(x):= x/(x+1). Nachweis hiervon: F’(x) = 1* ( x + 1) - x * 1 1 = = f ( x) 2 ( x + 1) ( x + 1) 2 Wir haben also eine Stammfunktion F von f (auf ]0, ¥[) gefunden. Dh. b ò f ( x ) dx =F ( b) - F (a ) a Ausserdem ist F(0) = 0, und F( ¥)=1. Dies zeigt, dass ¥ ¥ ò f ( x ) dx = ò f ( x ) dx = F ( ¥) - F (0 ) = 1 -¥ 0 Die Verteilungsfunktion von f ist gegeben durch ì r , falls r ³ 0 ï F ( x ) := í r + 1 ïî0, falls r = 0 Man kann beliebige Beispiele erzeugen, indem man von einer Verteilungsfunktion F ausgeht. F: |R Þ|R ist differenzierbar und monoton wachsend mit Grenzwerten F( -¥)=0 und F( ¥)=1. Dann ist f:=F’ eine Wahrscheinlichkeitsdichte, und b ò f ( x )dx = F (b ) - F ( a) a Beispiel 2 ì0, falls r £ 0 ï F ( r) := í r 2 (rot) , falls r ³ 0 ï 2 î1 + r Dichtefunktion f = F’ 2 ¶ x ¶x 1 + x 2 ì0, falls x = 0 ï f ( x) = í 2 x (blau) ï (1 + x 2 ) 2 î F’(x)= http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Gauss-Verteilungen bzw. Nomalverteilungen (parametrische Approximation) Eine spezielle Klasse von Dichtefunktionen, die für viele Grundgesamtheiten gute Approximationen liefert: Def: Die Normalverteilungsdichte funktion mit Mittelwert m (Maximum) und Standardabweichung s (entspricht der empirischen Standardabweichung; je kleiner s desto spitzer) ist definiert als: x ® f ( x) := 1 (x - m) 2 exp( ) 2s 2 2 xs Gestalt dieser Dichtefunktion: symmetrisch, unimodal und glockenförmig – f ist symmetrisch um den Punk t m. D.h. f(m+D) = f(m-D) für beliebige D – f ist maximal an der Stelle m und fällt zu beiden Seiten monoton ab. – f ist im Bereich [m- s, m+ s] konkav und in den Bereichen ]-¥, m- s] sowie [m+ s, ¥[ konvex. m-s m m+s Diese Dichtefunktion nennt man auch Gau sssche Glockenkurve (mit Parametern m und s). Beispiele für numerische Merkmale, die näherungsweise durch Normalverteilung beschrieben werden: – Körpergrösse (unterschieden nach Geschlecht) – IQ (m=100, s=15) Problem mit diesen Dichtefunktionen: Die entsprechende Verteilungsfunktion F kann man nicht durch eine einfache Formel darstellen. xK =å K = 0 K! n Anmerkung: exp(x) = e x = 1+ x + x 2/2 + x 2/3! + …. = Wichtige Eigenschaften: – exp(1) = e (Eulerische Zahl) – exp(x+y)= exp(x) * exp(y) – exp(x) ist streng monoton wachsend in x – exp’ = exp exp( x ) – ® ¥ für x ® ¥ xk exp(1) ® 0 für x ® -¥ Zur Berechnung der Verteilungsfunktion von f(| m, s) benötigt man einen Spezialfall: Def ( Standardverteilungsdichte) Die Normalverteilungsdichte mit m=0 und s=1 nennt man Standardnormalve rteilungsdichte. Anstelle von f(x|0,1) schreibt man http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. 1 exp( - x 2 / 2) 2x j ( x) = Def Standardnormalverteilungsfunktion Verteilungsfunktion von j: r F (r ) := ò j ( x )dx -¥ Diese Funktion F kann man nicht durch einen einfachen mathematischen Ausdruck darstellen, stattdessen benötigt man entweder Tabellen (z.B. Tabelle A von Fahrmeir et.Al) oder Computerfunktionen (standard normal distribution function). Anwendung auf beliebige Normalverteilungen Regel: Ein Merkmal X ist normalverteilt mit Mittelwert m und Standa rdabweichung s genau dann, wenn das standardisierte Merkmal (Z) Z := X -m (z= (x -m)/s)) s standardnormalverteilt ist. X -m « X = m + sZ s 1 x-m f(x|m,s) = j( ) s s Z = x p = m + szp 0 Für die entsprechende Verteilungsfunktion gilt: r F( r|m,s) = ò f ( x | m , s ) dx = F ( -¥ r -m s ) = [ rel .Ant .mit Z = r-m s ] Zahlenbsp. 1: Der IQ wird so festgesetzt, dass er in der Gesamtbevölkerung normalverteilt ist mit m=100 und s=15. Demnach ist der Anteil aller Personen mit einem IQ £ 115 gleich F(115|100, 15) = F((115-100)/15) = F(1) (man r echnet die Variable Z aus) = 0.8413 ( ÞTabelle A) Zahlenbsp. 2: Der relative Anteil mit IQ £ 75 ist F(75|100, 15) = F((75 -100)/15) = F(-5/3) = 1 - F(1.67) Þ in Tabelle nachschauen Þ 1 - 0.9525 = 0.0475 Zahlenbsp 3: Der relative Anteil von Personen mit IQ £136 ist F(136|100, 15)= F (36/15) = 0.9918 Aus Symmetriegründen ist F(-r) = 1 - F(r) denn die beiden Flächen unter der symmetrischen Kurve sind unter und über 0 gleich gross. (siehe Gra fik oben) Zahlenbsp 2 ~ In einer Population ist mittlere Körpergrösse 18 0cm (m @ X ) bei einer Standardabweichung von 6 cm ( s @ s ). Unter der zusätzlichen Annahme, dass die Körpergrösse normalverteilt ist, kann man verschiedene relative Anteile der Population berechnen: rel. Anteil von Personen £ 176cm @ F(176|180, 6)= F((176-180)/6) @ F (-0.67) = 0.2514 Warnung: Ist nur im Zentrum zuverlässig wenn überhaupt! http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Die 65 -95-99.7%-Regel Der relative Anteil in [m ± s] ~ 0.68 (dh. 68% der Beobachtungen liegen im Intervall [m ± s] etc.) relative Anteil in [ m ± 2 s] ~0.95 (dh. 95% der Beobachtungen liegen im Intervall [ m ± 2 s] etc.) relative Anteil in [ m ± 3 s] > 0.99 (dh. 99% der Beobachtungen liegen im Intervall [ m ± 3 s] etc.) Überprüfung der Normalverteilungsannahme: Wenn wir wieder von Gru ndgesamtheiten zu echten Stichproben ausgehen, dann ist – – Stichprobenmittelwert X ein Schätzer für m ~ Stichprobenstandardabweichung s ein Schätzer für s Frage: Wie kann man überprüfen, ob die Daten / das Merkmal no rmalverteilt sind / ist (dh. obiges Verfahren angewendet werden kann)? Graphisches Verfahren: Normalquantil-Plot Ordne die Stichprobenwerte X(1) £ X(2) £ … £ X(n) Betrachte X (i) als Schätzwert für das ( i - 0. 5 ) - Quantil in der Grundgesam theit n Formal für das Quantil: m + s* F( (i-0.5) / n ) Dabei ist F -1 die Umkehrfunktion von F Bei grossen Stichproben umfang n , dass X(1) ~m + s F -1( (i-0.5) / n ) Wenn man die Punktepaare (F -1 ( i - 0.5 ), X (i ) ) n in ein Diagramm einträgt, dann sollten sie in etwa auf einer Geraden mit Absc hnitt m und Steigung s liegen. Das „Streudiagramm“ dieser Punktepaare ist der sogenannte Normalverteilungsplot oder Normalquantilplot der Daten X 1, …, Xn. Typische Situationen: Histogramm Normalverteilungsplot http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik Wiederholung Stichprobe X 1, …Xn © by Al_Sub et al. Grundgesamtheit m s X ~ s Histogramm Dichtefunktion f Verteilungsfunktion Siehe rechts, jedoch stufenweise (treppenförmig) . Quantile xP = X ([ np]) + X ([np +1]) 2 Speziell für Normalverteilungen gilt 1 f ( x) = exp( - ( s 2p F ( r) = F ((r - m ) / s ) x-m 2 ) / 2) s r F (r ) = ò j ( x )dx -¥ Für das theoretische p Quantil gilt x p = m + sF -1(r) Normalquantilplot : Vergleiche Stichprobenquantile mit theo retischen Quantilen für Standardnormalverteilung Streudiagramm der Punktepaare (F -1 ( i - 0.5 n ), X (i ) ) = F -1 (i /( n + 1)), F -1 ( i - 1/ 3 ) n + 2/3 Im Falle einer normalverteilten Grundgesamtheit sollten diese Prunkte im auf einer Gerade liegen. Was bedeutet „in etwa“? 1. Auch bei tatsächlich norma lverteilten Grundgesamtheiten liegen die Punkte nicht exakt auf einer Geraden. Man simuliere mehrere Stichproben vom gleichen Umfang n aus einer Normalverteilung und vergleiche deren NQ -Plot mit dem der Originaldaten. 2. Man verwende einen statistischen Test (siehe Teil 2 der Vorlesung) Anmerkung zu F -1 F(F -1(r)) = p Bei Verwendung einer Tabelle A such t man also den Wert p und liest das entsprechende Argument r= F -1(r) ab (dh. man sucht den nächsten Wert innerhalb der Tabelle und liest dann die Werte auf den „A chsen“ ab) . Zahlenbeispiel: p= 60% In der Tabelle findet man F(0.25) = 0.5987. Mit 0.5987 ist man am nächsten von 0.6. Also ist F -1(0.6) = 0.25 (Verfeinerung: Lineare Interpolation). http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. p = 0.9 F -1(0.9) ~1.28 p = 0.95 F -1(0.95) = 1.695 p = 0.99 F -1(0.99) = 2.33 Wenn beispielsweise die Körpergrösse in einer Grundgesamtheit normalverteilt ist mit m = 180cm und s = 6 cm, dann ist x 0.9 = m + sF -1(0.9) = 180 + 6*1.28 = 187.68 (Buch Kapitel 3:) Kapitel 3 - Multivariate (mehrdimensionale) Deskription und Explora tion Betrachte einen Datensatz mit mindestens zwei Variablen X und Y. Frage: gibt es mögliche (Þ Stichprobenfehler) Zusammenhänge zwischen den X- und Y-Werten? Typische Darstellung zweidimensionaler Daten: Kontingenztabelle (Kontingenz = Zusammenhang zwis chen 2 Var) Die möglichen Ausprägungen von X Þ Zeilen Die möglichen Ausprägungen von Y Þ Spalten In der i -ten Teile und der j -ten Spalte steht die absolute Häufigkeit h i,j := Anzahl aller Stichprobenelementen mit X = i, Y = j Ausserdem berechnet man die Häufigkeiten h i+ = åh i, j = Anzahl aller Stichprobe n mit X = i h +j = Anzahl aller Stichprobenelementen mit Y= j Y 1 2 X 3 … m Randhäufig keiten von X j 1 h 11 h 12 h 1m h 1+ 2 h 21 h 22 h 2m h 2+ 3 h i,j … k h k1 h k2 h km h k+ Randhäufigkeiten h +1 h +2 h +m n Die Ra ndsummen sind die Häufigkeiten, mit der X die Werte a 1, …, a k annimmt, wenn Y nicht berücksichtigt wird. Anstelle der absoluten Häufigkeiten könnte man die relativen Häufigkeiten fi,j = h i,j / n eintragen. Um systematische Vergleiche anzustellen, kann man mit „ bedingten Häufigkeiten “ arbeiten: Variante 1 : Man normiert alle Werte zeilenweise und berechnet die Werte fY(j|i) = hij hi + relativer Anteil aller Stichproben mit Y = j unter demjenigen mit X = i ( åf Y ( j | i) = 1 ) X (i | j ) = 1 ) j Variante 2: Normieren Spaltenweise f X (i | j ) = hij h+ j relativer Anteil von Beobachtungen mit X = i unter demjenigen mit Y = j ( åf i Beispiel 1: Wahlen X = Geschlecht Y = gewählte Partei http://www.cx.unibe.ch/~duembgen/statwiwi Grundgesamtheit: Alle Wahlberechtigten Do not copy – it’s dangerous WS 02 / 03 Y Notizen Statistik CDK/ SPD FDP Grüne © by Al_Sub et al. Rest X Männer 144 0.33 153 0.35 17 0.04 26 0.06 95 0.22 435 1 160.73 139.24 21.96 35.51 33.31 Frauen 200 0.4 145 0.29 30 0.06 50 0.1 71 0.15 496 1 183.27 139.76 25.04 40.46 88.44 344 0.37 298 0.32 47 0.05 76 0.08 166 0.18 931 1 (Die letzte Ze ile enthält jetzt keine Spaltensummen, sondern fY(i) = h +j / n (rel ativer Anteil aller Beobachtungen mit Y=j)). Fett Rot = hij ; angenommener Wert, wenn beide Stichprobengruppen (M/F ) gleich viele Probanden hätten (bedingte Häufigkeitsverteilung) Hier ergib t sich c2 = 20.065 (Erwarteter Wert bei Unabhängigkeit der Merkmale wäre 4. Dieser weicht bedeutend von c2 ab, dies zeigt, dass es tatsächlich einen nachweisbaren Unterschied zwischen Männer und Frauen gibt.) Nachtrag zu den Kontingenztabellen: „Simpson P aradoxon“ Wenn man die Ergebnisse von mehreren Studien zusammenfasst, dann kann es vorkommen, dass die Auswertung der Gesamtdaten andere Ergebnisse liefert als die Auswertung jedes Teildatensatzes. Beispiel 1: Zusammenfassen von Vierfeldertafeln: Siehe Übu ngsserie 4 Beispiel 2: Steuerbelastung In einem Wahlkampf behauptet ein Präsidentschaftskandidat, dass sein Konkurrent (der jetzige Präsident) die mittlere Steuerlast pro Einwohner gesteigert hat. Der Präsident selber behauptet, dass er alle Einkommensste uersätze gesenkt hat. Beide haben Recht. Mögliche Ursache: Der Steuersatz einer einzelnen Person steigt mit ihrem Einkommen. In jeder Einkommensklasse blieb der Steuersatz identisch oder wurde gesenkt, aber das durchschnittliche Einkommen ist gestiegen. Da die Steuerabgaben nicht proportional zum Einkommen sind, kann dies eine Erhöhung der durchschnittlichen Steuerzahlungen pro Person bewirken. Zusammenhangsanalyse Methoden, die Stärke des Zusammenhangs zweier Variablen zu quantifizieren: Quantifizierung des möglichen Zusammenhangs zwischen X und Y: Betrachte den hypothetischen Fall, dass kein Zusammenhang besteht. Dann würde man erwarten, dass die Zeilen proportional sind bzw. dass die Spalten proportional sind. Tatsache: Drei äquivalente Aussagen: – Die Z eilen der Kontingenztabelle sind proportional – Die Spalten sind proportional – h ij = h ij = (h i1 * h 1j ) /n Begründung: Angenommen die Zeilen sind proportional. Das bedeutet, dass die normierten Zeilen identisch sind. h ij = h i1 ist für alle i identisch Þ h ij /h i1 = h 1j /n Þ h ij = (h i1 * h 1j ) / n Selbst wenn kein echter Zusammenhang besteht, wird man gewisse Abweichungen von h ij zu h ij erwarten. Brauche ein Mass dafür, wie stark diese Abweichungen sind. hij = hi + h+ j n c 2-Koeffizient 6474 8 ( hij - hij ) 2 quadrierte Dis tan z k c2 := m åå i= 1 j = 1 hij c2 gross/ klein = starke/ kleine Diskrepanz Þ X und Y hängen nicht von einander ab (Anmerkung: Der Normierungsfaktor h ij liefert einen Kompromiss zwischen absoluten Abweichungsquadraten (h ij – h ij )2 und relativen Abweichungsquadraten (h ij / h ij – 1) 2) Faustregel: Falls kein Zusammenhang zwischen X und Y besteht, sollte c2 in etwa gleich (k -1)(m-1) sein. (Genaueres interessiert NOCH keine Sau, erst im zweiten Teil) Läge kein Z usammenhang vor, dann würde man in jeder Zeile dieselbe Verteilung erw arten (die Verteilung ohne Berücksichtigung des anderen Merkmals!). Im Buch ist ~ h h hi , j = hij = i + + j die Häufigkeit, die man bei fehlendem n Zusammenhang erwarten würde. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Doch: Es ist nicht auf Anhieb klar, wie gross c2 sein muss, um auf einen Zusammenhang hinzuweisen. Die Grösse ist abhängig von der Dimension der Tafel. Dies wird mit dem korrigierten Kontingenzkoeffizienten ausgeglichen: K*= c2 n+ c2 M -1 M M = min{ k , m} ; Spezialfall: Vierfeldertafeln X und Y nehmen nur zwei mögliche Wert e an (oder man betrachtet jeweils nur 2 Ausprägungen) . In diesem Fall ist die Kontingenztafel eine sog. Vierfeldertafel: h 11 h 12 h 1+ h 21 h 22 h 2+ h +1 h +2 Anstelle von c2 bietet sich hier eine andere Grösse an: Kreuzproduktverhältnis = Relative Chancen (Odds Ratio): g = h11 * h22 h21 * h12 = h11 / h12 ( Zeilenverg leich ) h21 / h12 = h11 / h21 (Spaltenver gleich ) h12 / h22 g = 1 (Chancen in beiden Population en gleich) wenn c 2 = 0 g >< 1 Chancen in Population X = 1 besser/schlechter als in Population X = 2 Die Chance, dass das eine Mermal eintritt im Verhältnis zum anderen. Bsp. : Kreuztabelle Datensatz Studenten Sport / Geschlecht C2 m w Total 0 89 93 182 ? 1 0 1 Familie 2 0 2 Fernsehen 2 0 2 Fiktion 4 2 6 Film 2 2 4 Kunst 1 1 2 Literatur 0 1 1 Medizin 1 2 3 Musik 7 2 9 Politik 18 10 28 Sport 16 3 19 Tanz 0 1 1 Wirtschaft 8 2 10 Wissenschaft 11 2 13 Total 162 121 283 The number of rows with at least one missing value is 0 c2=6.033 gegenüber dem erwarteten Wert 1 ( -(2-1)*(2 -1)). Dies deutet auf Unterschied hin. Kein Sport Sport m 145 16 161 w 117 3 120 262 14 231 g = 145 *3/ 117 *16 = 0.2326 Beispiel 4: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Xi = Swiss Market Index am Tag Yi = Nasdaq am Tag Beispiel 5: Xi = Körpergrösse von Person i Yi = Körpergewicht von Person i Um den Zusammenhang zu quantifizieren betrachte ein etwas anderes Problem. Wie gut kann man die Y-Werte aus den XWerten vorhersagen? Genauer: Für Zahlen a, b Î |R betrachte die Werte Ŷ i := Ŷ i(a,b) := a + bX i Abweichung zwischen den tatsächlichen Werten Y i und den n å (Y Ŷ i: n i i= 1 - Yˆi ) 2 = å (Yi - a - bX i ) 2 i= 1 Bestimme Werte â, ^b für a,b so, dass die Quadratsumme möglichst klein ist. Zunächst Lösung â = Yˆ - bˆX i n bˆ = å( X i - X ) * Yi i =1 n = å (X i - X )2 å ( XY ) - (å ( X ) å (Y ) / n) å( X ) - å( X ) / n 2 2 i =1 â und bˆ sind Regressionskoeffizienten. Beobachtungen (X 1,Y 1), .., (X n, Y n) Gesucht sind Koeffizienten a, b, so dass die Quadratsumme n Q( a, b) = å (Yi - a - bX i ) 2 minimal wird. i =1 Schritt 1: Versuche Q(a,b) bei festem b zu minimieren. n Q(a , b ) = å ((Yi - bX i ) - a ) 2 i =1 Die Überlegungen zum Stichprobenmittelwert zeigen, dass ein optimaler Wert a gegeben ist durch a= 1 n å (Y - bX i ) = Y - bX n i= 1 i a = a (b) = Y - bX Schritt 2: Setze für e den Wert Y - bX ein und minimiere Q(Y - bX , b) Q(Y - bX , b) = å (Y n i - Y - b ( X i - X )) 2 i =1 Hilfsgrössen n SQXX = å (X i - X )2 i= 1 n SQYY = å (Y - Y )2 i i= 1 n SQXY = å (X i - X )(Yi - Y ) i= 1 http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Mit diesen Hilfsgrössen kann man schreiben 2 Q(Y - b X , b ) = SQxx * b - 2SQxy * b + SQyy SQxy = SQxx (b 2 - 2 = SQxx (b - * b ) + SQyy SQxx SQxy 2 SQxy 2 ) + SQyy SQxx SQxx Dies ist minimal als Funktion von b genau dann, wenn b= SQxy SQxx Zusammenfassung: Die Regenerationskoeffizienten , dh. Kleinste Quadrate -Schätzer (die Werte von a und b, für die Q(a , b ) = 1 n 2 ( yi - yˆi ) minimal ist), sind: å n i =1 aˆ = Y - bˆX SQxy bˆ = SQxx Die entsprechende Quadratsumme ist 2 n å (Y i i= 1 SQxy - aˆ - bˆX i ) 2 = SQyy SQxx Zur konkreten Berechnung der Koeffizienten : n SQxx = å ( X i - X ) 2 = å X i - ( å X i ) 2 / n 2 i= 1 i i SQyy analog. SQxy = å X i Yi - (å X i )(å Yi ) / n i i i Interpolation: Das Zusammenhangsmass Frage: Wie quantifiziert man de n Zusammenhang zwischen X und Y? Naive Antwort: Je kleiner die Summe å (Y i - â - bˆX i ) 2 ist, desto stärker ist der Zusammenhang. Das Problem an i diesem Ansatz: Bei Ersetzen von Y i durch c*Y i mit einer Konstanten c>0 (Umrechnung in andere Einheiten) ände rt sich die obige Quadratsumme um den Faktor c 2 . Ausweg: Wir betrachten eine andere Grösse: n å (Y 2 - â - bˆX i ) i i= 1 å (Y i - Y )2 i Interpretation: Zähler: Approx Y i, durch lineare Funktion der Xi. Nenner : Approx. Yi durch Konstante Definition Bestimmtheitsmass å (Y - â - bˆX =1 å (Y - Y ) i R2 i )2 i 2 i i Dies ist der relative Anteil der Streuung in den Y-Werten, welcher durch die X -Werte erklärt wird. Konkrete Formel mit den Hilfsgrössen SQ..: R2= 1 – (SQ YY -SQXY 2/SQXX )/SQYY R2 = SQxy 2 SQxx * SQyy http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Anmerkung 1 : Die Grösse R 2 ist symmetrisch in X- und Y-Werten, dh. bei Vorhersage von X- aus Y -Werten ergibt sich die gleiche Kenngrösse ( Þ Skaleninvarianz) Anmerkung 2 : Die Grösse R 2 bleibt unverändert, wenn man die X -Werte oder die Y-Werte verschiebt bzw. skaliert. Definition Korrelationskoeffiz ient von Bravais -Pearson n rx , y := SQxy = SQxx SQyy å (x i - x )( y i - y ) i =1 n n i =1 i =1 = å ( xi - x )2 å ( y i - y )2 (å( X å ( XY ) - å ( X )å (Y ) / n ) - E ( X ) / n )(å (Y ) - å (Y ) 2 2 2 2 / n) Diese Zahl liegt stets zwischen -1 und 1. Es gilt: R2 = r 2 SQxy bˆ = = r* SQxx SQyy SQxx r ist eine dimensionslose Grösse; dh. sie hat keine Einheit. Mit den Stichprobenstandardabweichungen ~ s X := 1 (X i - X )2 = å n -1 i ~ s y := 1 (Yi - Y ) 2 = å n -1 i SQxx n -1 SQyy n -1 1 n ~ s XY = å ( x i - x )( yi - y ) n i =1 Kann man schreiben Empirische Kovarianz sy bˆ = r * sx Würde man die Rollen von x und y Werten vertauschen, dann verändern sich R 2 und r nicht. Aber die Geradensteigung wäre dann r* r 1 -1 sy sx Korrelationskoeffizient erfasst nur lineare Zusammenhänge! Gerade positiver Steigung Gerade negativer Steigung (gegensinniger linearer Zusammenhang) Einige Übungsaufgaben Aufgabe 3.2: Wirkung von Alkohol auf Reaktionszeit n=400 Versuchspersonen werden rein zufällig in zwei Gruppen unterteilt. Gruppe 1: ohne Alkohol (X=1) Gruppe 2: mit Alkohol (X=2) Gemessen werde Reaktionszeit, diese werde umgerechnet in ordinale Variable: Gute Reaktion: (Y=1) normale Reaktion (Y=2) deutlich verzögerte Reaktion (Y=3) gut normal verzögert ohne Alkohol 120 60 20 mit Alkohol 60 100 40 180 160 60 Berechne nun die hypothetischen Werte h j := (h i1 *h 1j ) / n hi,j g m v ohne 90 80 30 http://www.cx.unibe.ch/~duembgen/statwiwi 200 200 400 200 Do not copy – it’s dangerous WS 02 / 03 mit Notizen Statistik 90 180 © by Al_Sub et al. 80 160 30 60 c 2 = å å (hij - h ij ) 2 / hij = 36 i j 2 = 200 2 3 2 (180 - 90 ) (60 - 80) (30 - 30) + + 80 80 30 2 (Faustregel: Wenn kein tatsächlicher Zusammenhang besteht sollte c in etwa gleich ( k – 1)*( m – 1) = (2 – 1) * ( 3 - 1) = 2 sein. Anmerkung: Der grosse Wert von c2 deutet auf einen Zusammenhang zwischen Alkohol und Reaktionsgeschwindigkeit hin. Er sagt nichts aus über die Art des Zusammenhangs! Möglicher Ausweg: Betrachte geeignete Vierfeldertafeln! ~ ì1 falls Y = 1 oder Y = 2 Y =í 2 falls Y = 3 î Die resultierende Vierfeldertafel: gut –normal verzögert ohne Alk 180 20 200 mit Alk 160 40 200 340 60 400 Kreuzproduktverhältnis ist g = 180*40 / 160*20 = 2.25 > 1 Þ Alkohol bei den Versuchspersonen verringert die Reaktionsgeschwindigkeit. Ist es signifikant? (Man hat 400 unterschiedliche Leute und angenommen, Alkohol hat keinen Einfluss auf die Reaktionsgeschwindigkeit, sondern die Versuchspersonen unterschiedliche Reaktionszeiten von Natur aus…?) Aufgabe 3.3: Zehn umsatzstärkste Unternehmen in D Unternehmen Nr. i: Xi = Anzahl der Beschäftigten in 1000 Yi = Umsatz in Mia. DM Frage: Wie stark ist der Zusammenhang zwischen diesen Variablen? Regressionsparameter: Yi approx durch â + ^b* X i å X Y - nX Y b= å X - nX i i @ 0 .194 i 2 2 i i â = Y - bˆ * X @ 30 .461 Korrelationskoeffizient åX Y i r= i - nX Y i åX i - nX 2 i åY i 2 - nY 2 i Allgemeine Anmerkung Korrelation und / Zusammenhang ist nicht unbedingt Ursache / Wirkung! Aus einem Zusammenhang zwischen zwei Merkmalen kann man noch nicht schliessen, dass eines direkten Einfluss auf das andere hat. Diese Schlussfolgerung ist nur zulässig bei randomisierten Experimenten, wenn eine der beiden Variablen zufällig gewählt wurde. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Rangkorrelation nach Spearman Bei zwei numerischen Merkmalen X und Y definierten wir å (X r = i - X )(Y i - Y ) i å(X i -X) i 2 å (Y i -Y ) 2 i Diese Grösse beurteilt, ob ein linearer Zusammenhang zw. X - und Y- Werten besteht r~1 Û Die (X i, Y i) liegen in etwa auf einer Geraden mit positiver Steigung r~-1 Û Die Paare (X i , Y i) liegen in etwa auf einer Geraden mit negativer Steigung Schwachpunkt 1: Bei ~perfekten monotonem Zu sammenhang zw. X und Y kann R 2 beliebig klein sein. (z.B. Y i=SQ(Xi), X i > 0) Schwachpunkt 2: r und R 2 reagieren empfindlich auf Ausreisser Mit Abänderung eines einzigen Punktes kann man r beliebig nahe an +/- 1 bringen. Schwachpunkt 3: R 2 /r kann nicht bestimmt werden bei ordinalen Daten. Þ Ausweg aus allen drei Problemen: Ersetze die Daten X i und Y i durch ihre Ränge: X1 X2 Þ sortieren Þ X(1) X(2) Þ Ränge Þ 1 2 … n Xn X(n) Dies ist korrekt, wenn die Werte X i paarweise verschieden sind, also X(1) < X(2) < … < X(n) Im Falle von mehreren identischen Werten (Bindungen, Ties) arbeitet man mit mittleren Werten: X(i-1) <X(1) = X(i+1) = …X(i) < X(i+1) Dann ordnet man den Werten ein und denselben Rang zu, nämlich i + (i + 1) + ... + j i + j = j - i +1 2 Zahlenbeispiel: Xi 3 1 4 2 2.5 3 1 Rx i 5.5 1.5 7 3 4 5.5 1.5 Gruppen von gleichen Werten werden zusammengefasst und als Mittel bei der Rangfolge angegeben. Definition (Rangkorrelationskoeffizient) Der Spearman -Rangkorrelationskoeffizient wird genauso definiert wie der Pearson -Bravais-Korrelationskoeffizient, allerdings mit den Rängen anstelle von Originalwerten. (R X1,… ,R Xn : Ränge von (X 1, …, X n) (R Y1, …, R Yn) Ränge von (Y1 , …, Y n) Dann åR i rsp = i å(R i X 2 X RiY - n * ( n +1 2 ) 2 2 ) - n * (( n + 1) / 2 ) * ... = å ( rg ( x ) - rg )(rg ( y ) - r g ) å ( rg ( x ) - rg ) å (rg ( y ) - r g i X i Y 2 i X i Y )2 i Vorteile des Spearmans -Korrelationskoeffizient : – Unempfindlichkeit gegenüber Ausreisser – Kann auch mit ordinalen Merkmalen berechnet werden – Invariant unter streng monoton wachsenden Transformationen der X- bzw. Y- Werte. Dh. wenn man alle X i durch f(X i) und alle Y i durch g(Y i) ersetzt, wobei f und g streng monoton wachsende Funktionen sind, dann bleiben die Ränge unverändert, und auch r sp ändert sich nicht. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Datenbeispiel n = 263 professionelle Baseballspieler, X i = Anzahl von Jahren in der Profiliga Y i = Gehalt Bravais-Pearson: r=0.401 Spearman: r sp = 0.62 6 Zusammenhang zwischen X- und Y- Werten monoton wachsend aber nicht linear. Überblick Deskriptive Methoden – Stichproben (Totalerhebungen, Zufallsstichproben) – Beschreibungen einzelner Variablen o Kategorielle Variablen: Stabdiagramm und Kuchendiagramm o numerische Variablen: Verteilungsfunktion und BoxPlots, Lageparameter (Mittelwert, Median), Skalenparameter, Formparameter, Quantile / Quartile ?? – Beschreibung einer grossen Grundgesamtheit mit Hilfe von Dichtefunktionen (idealisierte Histogramme), Normalverteilungen Zusammenhang zwischen zwei Variablen: – zwei kategorielle Merkmale Þ Kontingenztabelle, c2-Testgrösse, Kreuzproduktverh ? ältnis – Zwei numerische Variablen – Streudiagramm – Regresssionsgerade Korre lation – zwei ordinale oder numerische Var iablen , Ränge, Spearman -Rang Dabei ist F -1 die Umkehrfunktion von F (Tabelle A), nicht 1/ F ! Konkrete Bestimmung von F -1(r) - Computerprogramm (inverse Gaussian derivation funktion) - Suche in der Tabelle A eine Zahl r, so dass F(r)~p. F -1(p) ~ r Für p < 0.5 ka nn man ausnutzen dass F -1 (r) = -F -1(1 - p) 2) Noch ein Beispiel zu Regression und Korrelation n= 30 Probanden in einem Experiment zu pos. Wirkungen von Koffein. Xi : Dosis von Koffein Yi : Anzahl von Tastenanschlägen pro Minute (sie mussten eine Taste s o schnell wie möglich drücken) Hilfsgrössen n= 30 Regression Zusammenhang zwischen metrisch skalierten Merkmalen liesse sich durch eine Funktion beschreiben, mit Fehlerterm Î: Y = f(X) + Î Þ y i = a + bx i + Îi . Die Regenerationskoeffizienten, dh. Kleinst e Quadrate -Schätzer (die Werte von a und b, für die Q(a , b ) = 1 n å ( y - yˆi )2 minimal ist [erhält man durch jeweiliges Ableiten nach a bzw.b und nullsetzen], wobei n i =1 i ŷ i die prognostizierten Werte sind), sind: aˆ = Y - bˆX SQxy bˆ = SQxx Die Streuungszerlegung ist ein Mass für die Güte der Regression: (Gesamtstreuung) SQT = (erklärte Streuung) SQE + n å ( yi - y) 2 = i= 1 n å ( yˆ i - y ) 2 + i= 1 Variation der Datenpunkte auf der Geraden um y http://www.cx.unibe.ch/~duembgen/statwiwi (Residualstreuung) SQR n å( y i= 1 i - yˆ i ) 2 Je grösser die Residualstreuung, umso schlechter beschreibt das Modell die Daten. Als Masszahl für die Güte der Modellanpassung verwendet man das Bestimmtheitsmass. Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Definition Bestimmtheitsmass 2 R =1- n å (Yi - â - bˆX i ) 2 i å (Y - Y ) 2 å( y - yˆi )2 i = 1- i =1 n å( y i i = i - y) 2 SQE SQT i= 1 Wenn SQE = 0: Modell schlecht; wenn R 2=1: Modell sehr gut Dies ist der relative Anteil der Streuung in den Y-Werten, welcher durch die X -Werte erklärt wird. Konkrete Formel mit den Hilfsgrössen SQ..: AUFRUF AN ALLE! R2= 1 – (SQ YY -SQXY 2/SQXX )/SQYY åX i ***KAMPF DER LINEAREN REGRESSION!!!*** = 3000 ® X = 100 i Lasst nicht zu , dass unsere Welt in einfachen Modellen wiedergegeben wird! å Yi = 7395 ® Y = 246 .5 i åX 2 i = 500000 ® å X i2 - n ( X 2 ) = 200000 i i å X i Yi = 743000 ® å X i Yi - n XY = 3500 i åY Unser Ökosystem ist ein hochstrukturiertes und komplexes System, welches in der Forschung und Entwicklung nicht vereinfacht dargestellt werden darf. Aus Vereinfachungen werden rasch di e falschen Schlüsse gezogen und zugleich überzeugend argumentiert, was auf schnelle Anwendung der neuen Erkenntnisse führt. Erst nach deren Anwendung wird bewusst, dass die getroffenen Massnahmen nicht mit unserer Welt in Einklang zu bringen sind und in de r sozialen Gesellschaft nicht durchgeführt werden können. Die schwerwiegenden Folgen sind immens! i 2 i = 14790 ® å Yi 2 - n (Y ) 2 = 195 .5 i Lasst nicht zu, dass einfache Kurven komplexe Datenstrukturen annähern sollen! In der heutigen Gesellschaft sind wir endlich soweit, dass jedes Individuum sei ne persönliche Integrität bewahren kann. Schaut nicht mit eigenen Augen zu, wie wir wieder in mittelalterliche Verhältnisse zurückkehren, in denen unsere geliebten Kurven von streuenden Merkmalen angenähert und belästigt werden! Deshalb: *** KAMPF DER LINEAREN REGRESSION*** i Regressionsparameter 3500 Wir treffen uns am 30.02.03 um 13.36 Uhr vor der Website des Instituts für bˆ = = 0.0175 Statistik. Lasst uns den hölzernen Lutz verbrennen, um unseren Gefühlen Ausdruck zu verleihen!!! 200000 Achsenabschnitt â = Y - bˆX = 246 .5 - 0.0175 *100 = 244 .75 3500 r= = 0.5597 Bestimmtheitsmass / Korrelation 200000 * 195 .5 R 2 = r 2 = 0.3133 Steigung Kapitel 4 - Grundbegriffe der Wahrscheinlichkeitsrechnung Es geht um mathematische Beschreibung von zufälligen Vor gängen wie z.B. Stichprobenziehen. Ziel: Aussagen anhand von empirischen (fehlerbehafteten / unvollständigen) Daten mit einer gewissen Sicherheit. Beschreibung eines Experiments mit ungewissem, zufälligem Ausgang: – Grundraum / Ereignisraum W : Dies ist die Menge aller möglichen Versuchsergebnisse (Bsp. Würfel: W ={1,2,…,6} ) Eine Teilmenge A von W nennt man Ereign is. (Bsp Würfel: [gerade Zahl] = A = {2,4,6}) Ein einzelner Punkt w Î W ist ein Elementarereignis. – Wahrscheinlichkeitsmass / Wahrscheinlichkeitsverte ilung P auf W Jedem Ereignis A Ì W ordnet man eine Zahl P(A) Î [0,1] zu. Diese Zahl P(A) ist „die Wahrscheinlichkeit des Ereignisses A“. Zwei Deutungen von P(A) 1) P(A) als Wetteinsatz P(A) ist ein Mass dafür, wie sehr man an das Eintreten von Ereignis A g laubt. P(A) = 0: Bin sicher, dass A nicht eintritt P(A) = 1: Bin sicher, dass A eintritt Wetteinsatz: Setze einen Betrag E auf das Eintreten von A. Wenn A tatsächlich eintritt, dann erhalte ich Gewinn G. Auf dieses Spiel lasse ich mich ein, wenn folgendes gilt: E £ P (A) G Subjektivistische Deutung von Wahrscheinlichkeiten 2) P(A) als Grenzwert von relativen Häufigkeiten http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Angenommen, wir könnten das Experiment beliebig oft und „unabhängig“ wiederholen. Die Ergebnisse der einzelnen Experimente sei en w1,w 2 ,w 3 , …. Nun betrachte ich empirische Wahrscheinlichkeiten: Pn ( A) := # {i Î {1,..., n} : wi Î A} n # = „Anzahl“ Postulat: Es existiert ein Grenzwert P(A) dieser rel. Häufigkeiten. Pˆn ( A ) für n Þ ¥: P ( A) = lim Pˆn ( A) (Dieser Grenzwert ist be i jeder Versuchsreihe identisch.) n -> ¥ Dies ist die frequentistische Deutung von Wahrscheinlichkeiten. Zusammenhang zwischen den Interpretationen 1) und 2) Geht man vom Postulat in 2) aus, dann ist P(A) der „richtige Wetteinsatz“ in Betrachtung 1). Führe das Ex periment beliebig oft durch und erhalte w1,w 2 ,w 3 , … ÎW Vor jeder Durchführung setze Betrag E auf das Eintreten von A. Wenn A eintritt (w iÎA), dann erhalte Gewinn G. Nach n Runden ist der Nettogewinn gleich #{ i £ n : w i Î A} * G – nE # {i £ n : w i Î A} - E /G) n E = n{ * G( Pˆn ( A ) - ) 123 G ®¥ ®P ( A ) = n * G( Wenn also E / G < P ( A ) ® auf langer Sicht beliebig grosser Gewinn E / G > P ( A ) ® beliebig grosser Verlust Beispiel 1: Beim Roulette kann der Spieler auf diverse Ereignisse A Ì {1,2…,36} setzen. Der Gewinn ist G = E * 36 / #A Das Spiel erscheint auf den ersten Blick fair. Aber: Es wird rein zufällig eine Zahl aus {0,1,…,36} gewählt, und P(A) = #A / 37 <E/G Die Spielbank macht auf lange Sicht beliebig grosse Gewinne, die Spieler beliebig grosse Verluste. Beispiel 2: Drei gleichwertige Becher. Unter einem wird eine Kugel gelegt. Dann permutiert der Spielanbieter die drei Becher. Der Spieler muss danach r aten, wo sich die Kugel befindet. A = [richtiger Becher genannt] E/G = ½ Naive Spieler: P(A) ~1 Gute Spielanbieter: P(A) £ 1 / 3 A \B A ÇB B \A A B Rechenregeln für Mengen http://www.cx.unibe.ch/~duembgen/statwiwi Î: Ist Element von Ì: Ist Teilmenge von Ç : Ist Schnittmenge (dh. Elemente, die in beiden Mengen sind) È : Vereinigungsmenge (dh. Elemente, die in der einen oder der anderen Menge sind). \: Differenzmenge (Elemente, die in der einen, aber nicht in der anderen Menge sind) #: Mächtigkeit (Anzahl) P(A): Menge aller Teilmenge n von A (also z.B. BÌA und C ÌA) Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Laplace-Wahrscheinlichkeiten Sei W eine endliche Menge. Die Laplace -Wahrscheinlichkeit von A ist definiert als P ( A) = # A Anz. für A günstigen Ereignisse = # W Anz. aller möglichen Ereignisse Man nennt P (A | à P(A)) die Laplace -Verteilung oder die Gleichverteilung oder uniforme Verteilung auf W . Jedes Elementarereignis wÎW hat die gleiche Wahrscheinlichkeit P({w}) = 1 / #W Þ Modell für das rein zufällige Anwählen eines Punktes in W . Typische Anwendungen: – Glücksspiele – Kartenspiele (Mischen der Karten) – Stichprobenerhebungen Beispiel (Wurf zweier Würfel) W ={1,…,6}*{1,…,6} = {(w 1, w 2): w 1, w 2Î{1,…,6}} #W =36 (allgemein; #(M * S) = (#M)*(#S) P[Pash] = P ({(1,1), (2,2),…,(6,6)}) = 1/6 P[Augensumme = 3] = P({(1,2),(2,1)}) = 2/36 P[Augensumme = k] = 6 5 4 3 2 1 7 6 5 4 3 2 1 8 7 6 5 4 3 2 9 8 7 6 5 4 3 10 9 8 7 6 5 4 11 10 9 8 7 6 5 1 |7-k | 6 36 12 11 10 9 8 7 6 Bei spiel Jass: 36 Karten werden den viel Spieler ausgeteilt . Nummern die Karten durch Þ W = {(w 1, …, w 36 ) : {w 1, …, w 36 } = {1,2,…,36}} aller Permutationen von (1,2,…,36) Deutung: (w1 ,..., w9 , w10 ,..., w18 , w19 ,..., w 27 , w 28 ,..., w36 ) 1 424 3 14243 142 43 14243 Spieler 1 Spieler 2 Spieler 3 Spieler 4 Hier ist # W = 36! (Für w 1 36 Möglichkeiten, dann für w 2 noch 35 Möglichkeiten, dann für w 3 noch 34 Möglichkeiten etc.) A:= [Spieler 1 erhält Kreuz-Bauer , Kreuz -9 und Kreuz -Ass] #A = 9 (Wo landet Kreuz -Bauer?) * 8 (Wo landet Kreuz-Neun?) * 7 (Wo landet Kreuz -Ass?) * 33! (Übrige zu verteilende Karten) Þ P(A) = ( 9 * 8 * 7 * 33!) / 36! = 0.0118 Für das Ereignis B = Spieler 1 erhält von irgendeiner Farbe Ass, 9, Bube] gilt nicht P ( B) = 4P(A)! Um den korrekten Wert auszurechnen, beschäftigen wir uns allgemein mit Rechenregeln für Wahrscheinlichkeiten: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Rechenregeln für Wahrscheinlichkeiten (Kolmogorov’s Axiome) – 0£P(A)£1, P( W )=1 – Für disjunkte Ereignisse A, B (dh. die Ereignisse schliessen sich aus; dh. A Ç B=0) ist P(AÈ B)=P(A)+P(B) Diese Regeln sind plausibel, wenn man an Laplace -Wahrscheinlichkeiten denkt, oder wenn man empirische Wahrscheinlichkeiten betrachtet. Folgerungen: Ì = enthalten – Falls A Ì B, ist P(A) £ P(B). Denn aus A Ì B folgt, dass B = A È (B\A) A B Da A und B\A disjunkt sind, ist P(B) = P(A) + P(B\A) ³ P(A) – Für jede Zahl n Î |N und paarweise disjunkt Ereignisse A 1, A 2, …, A n ist P(A 1È …È An) = P(A 1) + …+ P(An) = = n n i= 1 i= 1 P (U Ai ) = å P ( Ai ) (Dies folgt induktiv aus der Regel für zwei Mengen…) – Für zwei beliebige Ereignisse A,B (nicht notwendig disjunkt) ist P(AÈ B) = P(A) + P(B) – P(A Ç B), denn A \B A ÇB B \A A B A = ( A\B) È (AÇ B) B = (A Ç B) È ( B\A) P(A) = P(A \B) + P(A Ç B) P(B) = P(AÇ B) + P(B\A) AÈB = (A \B) È (AÇ B)È(B\A) P(AÈ B) = P(A\B) + P(AÇB)+P(B \A) = P(A) + P(B) – P(A ÇB) – P(Æ) = 0 Denn = = Æ = Æ È Æ Þ P( Æ)=P(Æ)+P(Æ) – Für ein Ereignis A sei AC = W \A das komplementäre Ere ignis. Dann ist P(A C) = 1 -P(A) (Im Buch A ) denn W =AÈAC 1= P( W )=P(Æ)+P(Æ) – Für beliebige Ereignisse A 1, …, A n gilt n P (U Ai ) = å P ( Ai ) i =1 i - å P ( Ai Ç A j ) i< j + å P( A i Ç A j Ç Ak ) Wahrscheinlichkeit, dass jedes Ereignis A i eintritt. i < j< k .... + ( - 1) n -1 P ( A1 Ç A2 Ç ... Ç An ) “Siebformel“: Bei jedem Schritt wird das Sie b vergröbert. Beispiel Jass (Fortsetzung) A= [Spieler 1 erhält von irgendeiner Farbe die Karten Bube, 9, Ass] A= A 1È A2ÈA3È A4 Ai = [Spieler erhält Bube, 9, Ass von Farbe i] http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. w = ( w1 , w 2 ,..., w 9 ,..., wi ) 142 4 43 4 Spieler 1 9 * 8 * 7 * (33!) P ( Ai ) = 36! @ 0. 01... P(A iÇ Aj) = 9*8*7 (setze Bube, 9 , Ass von Farbe i) 6*5*4 ( setze 3 Sonderkarten von Farbe j) 30! (Setze übrige Karten) 36! = 9 * 8 * 7 * 6 * 5 * 4 * (30! ) -8 @ 11 * 10 36! Zusammenhang aus der Siebformel P(A 1 È , …, È QA4 = 4 4 * P ( A1 ) - ( ) * P ( A1 Ç A2 ) 2 { =6 + 4*P(A 1 Ç A2 Ç A3) - P(A 1ÇA2Ç A3Ç A4) = 0.0468 Objektive Wahrscheinlichkeiten Subjek tive Wahrscheinlichkeiten Vom Betrachter aufgrund seiner Kenntnisse beurteilt; „Wettquotient“. Häufigkeitsinterpretation unnötig. n - >¥ f n ( A) ® P ( A ) frequentistisch überprüfbar Stichproben ziehen Ausgangspunkt: Grundgesamtheit M mit N Elementen (N Kugeln in einer Urne) Nun wählt man rein zufällig ein Tupel w=(w 1, …, w n) bestehend aus Elementen w i der Grundgesamtheit M. w: Stichprobe vom Umfang n aus M Zwei unterschiedliche Varianten: Ziehen mit zurücklegen Nach jeder Ziehung einer Kugel wird dies e notiert und zurückgelegt: w Î W = Mn =(Im Buch N n)= M *M *2 M4 * ... M 14 44 4*4 3 = {(w 1, …, w n): w j ÎM} n -mal Gesamtzahl #W =Nn Beispiel: (n -faches Würfeln) M={1,2,…,6} W = {1,…,6} n #W =6 n Beispiel (n -faches Roulettespiel) M={0,1,…,36} #W =37 n Zahlenbeispiel A = [keine Null fällt] A = {w ÎMn: w i ¹ 0 für alle i} = {1,2,…,36} n Þ P(A) = # A 36 n = # W 37 n n=1 : 0.973 n=10 : 0.7603 n=50 : 0.2541 n=100: 0.0646 Ziehen ohne zurücklegen Man zieht nacheinander rein zufällig n Kugeln aus der Urne, ohne sie zurückzulegen. W = {(w i)ny=i :w i ¹ w j falls i ¹y} (alle n -Kugeln mit paarweise verschiedenen Komponenten aus M) http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. #W = N (N -1)*(N-2)…(N-n+1) (N Möglichkeiten bei erster Ziehung, dann M-1 Möglichkeiten bei zweiter Ziehung, M-2 Möglichkeiten bei dritter Ziehung etc.) N! / (N -n)! Zahlenbeispiel (Ziehung der Lottozahlen) M = {1,2,…,45} n=6 #W = 45*44*…*40 = 5864443200 Aber man interessiert sich nur für die Menge {w 1,w 2 , …, w n} (Sortieren). Zu jeder Menge T ÌM mit #T = 6 gibt es genau 6! verschiedene Tupel w ÎW , so dass {w 1,…,w 6} = T Nach Sortieren #W =(45*44*…*40)/6! = 8145060 P[6 Richtige] = 1 / 8145060 P[nur ungerade Zahlen] : Betrachte wieder ursprünglichen Grundraum W mit #W = 45*44*…*40 (sortieren weglassen). Dann betrachte A= [nur gerade Zahlen] = {wÎW :w i ungerade für alle i}. Es gibt 23 ungerade Zahlen in {1,2,…,45}. Aber ist #A = 23*22*…*18 Þ P[nur ungerade Zahlen] = (23*22*…*18)/ 45*44*…*40 = 0.0124 1) n = N : In diesem Fa ll enthält je des Tupel w alle Elemente von M in d iesem Falle spricht man auch von einer Permutation von M. Es gibt Þ N * (N-1) * (N-2) *…* 1 = : N! solches Tupel . (Beispiel Kartenmischen) 2) Im allgemeinen Fall (1 £ n £ N) ist #W = N * (N-1) *…* (N – n + 1) = N! / (N-n)!. Dabei verwendet man die Konvention 0! = 1. 3) Manchmal interessiert nicht die Reihenfolge von (w 1, …, w n) sondern nur die Menge {w 1, … , wn} (Bsp. Lotto) Zu jeder n -elementigen Teilmenge T von M gibt es genau n! mögliche Stichproben w ÎW , so dass {w 1, …, w n} = T. Beispiel: M = {1,2,…,45}, n= 3, T = {2,3,4} {w 1,w 2, w 3} = T für folgen de Tupel 2,3,4 2,4,3 3,2,4 3,4,2 4,2,3 … Dies impliziert folgende Tatsache Es gilt # W N ( N - 1) * ... * ( N - n + 1) N! = = n! n! n!( N - n )! n-elementige Teilmenge von M. Definition (Binomialkoeffizient) Für ganze Zahlen 0 £ n £ N ist N N! ( ) := n n!( N - n)! der Binomialkoeffizient N tief n N ( ) ist die Anzahl von n-elementigen Teilmengen einer N-elementigen Menge; dh. er gibt die Anzahl der Möglichkeiten n an, aus N Objekten n auszuwählen. Zahlenbeispiel: Gruppe von N = 20 Personen. Man möchte eine Kommission von n=4 Per sonen festlegen. N 20 20 * 19 * 18 *17 ( )=( )= = 4845 n 4 4 * 3* 2 *1 Induktionsformel für Binomialkoeffizienten N N N +1 ( )+ ( )=( ) Þ Pascalsches Dreieck für Binomialkoeffizienten n n -1 n http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik N=0 N=1 N=2 N=3 N=4 N=5 1 N=6 1 2 Beweise der obigen Formel: Beweis 1 © by Al_Sub et al. 1 1 1 1 1 3 4 5 6 1 2 1 3 6 10 15 1 4 10 20 1 5 15 1 6 1 N N N! N! N! N - n +1 + n ( )+ ( )= + = ( ) n n -1 n! ( N - n )! ( n - 1)!( N - n + 1)! ( n - 1)!( N - n)! n( N - n + 1) = N +1 ( N + 1)! =( ) n!( N + 1 - n )! n Beweis 2: ( N +1 ) = Anzahl aller n -elementigen Teilmengen von {1,2,…,N+1}. Sei T eine beliebige solche Teilmenge: n Fall 1 : T enthält N+1 Þ T enthält genau n -1 Punkte aus {1,…,N} Þ( N ) Möglichkeiten für T n -1 Fall 2 : T enthält nur Zahlen aus {1,…,N} N ( ) Möglichkeiten für T n N N Beide Fälle zusammen: ( ) + ( ) Möglichkeiten n -1 n Þ Übungsaufgabe Für ganze Zahlen 0<n £N gilt folgende Formel: n n +1 n+2 N N +1 ( )+ ( )+( ) + ... + ( ) = ( ) n n n n n +1 Beweisen / Begründen Sie diese Formel! Hinweis: Betrachten Sie eine beliebige (n+1) -elementige Teilmenge von {1,…,N+1}. Betrachten Sie der en Maximum. 2 Beispiele zu LaPlace -Wahrscheinlichkeiten Beispiel 1: Ziegenproblem Spielshow mit drei verschlossenen Türen, hinter zwei Türen eine Ziege, hinter einer ein Auto. Ablauf: Kandidat wählt eine Tür, diese bleibt vorerst verschlossen, Moderator we iss, wo der Hauptgewinn ist, der Moderator öffnet eine der anderen Türen und zeigt eine Ziege. Frage: Wechseln oder nicht? Beste Strategie: Wechsle grundsätzlich zur dritten Tür. Begründung Spielablauf liefert 3 zufällig gewählte Türen. Tür 1: erster Wahl des Kandidaten Tür 2: vom Moderator geöffnete Tür (Ziege) Tür 3: verbleibende Tür Hauptgewinn ist hinter Tür 1 oder Tür 2. P[Hauptgewinn hinter Tür 1] = 1/3 P[Hauptgewinn hinter Tür 3] = 2/3 Stichprobenziehen (Wiederholung) Grundgesamtheit M mit N Elementen. Stichprobe w = (w 1 ,w 2 , …, w n) vom Umfang n aus M (w 1 ,w 2 Î M). Ziehen mit Zurücklegen: W =Mn^,# W = N n Ziehen ohne Zurücklegen W ={wÎMn : w i ¹ w j, falls i ¹ j} #W = N(N -1)(N -2)….(N-n+1) Aufgabe 4.5 M = {1,2,3,4} n= 2 http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Ziehen mit Zurücklegen: W = {(1,1), (1,2)…,(4,4)} #W = 4 2 = 16 Ziehen ohne Zurücklegen: W = {(1,2), (1,3), (1,4), … ohne (1,1), (2,2), (3,3), (4,4)} Wie gross ist P (i landet in Stichprobe) für ein beliebiges i Î M ? Vermutuung: n/N = 2/4 = 0.5 Ziehen mit Zurücklegen: #W = 12 A = {w ÎMn : i Î {w 1 ,w 2 , …, w n}} = {w Î{1,…,4} 2 : w 1 = i oder w 2 = i} #A* = 7 Þ Also P(A) = 7/16 < 0.5! Ziehen ohne Zurücklegen: A = {w ÎW :i Î {w 1, …, w n}} = {w ÎW :w 1 = i oder w 2 = i } #A = 6 #W = 12 Þ P(A) = 6/12 = 0.5 Wie gross ist P[1 und 2 landen in Stichprobe]? A= {w ÎW : {1,2} Ì {w 1, w 2}} = {w ÎW :(w 1,w 2) =(1,2) oder (w 2,w 1) = (1,2)} Ziehen mit Zurücklegen: #A=2 #W =16 Þ P(A) = 1/8 = 0.125 Ziehen ohne Zurücklegen: #A=2 #W =12 ÞP(A) = 1/6 = 0.166 Aufgabe 4.6 Gruppe von 3 Männern und 4 Frauen. 3 Positionen in untersch iedlichen Kommissionen sind zu besetzen. Diese werden rein zufällig besucht. Frage: P[mindestens eine Position wird von einer Frau besetzt]. 2 Varianten: Mehrfachnennung möglich / nicht möglich. Formal: M = {Personen} #M=7 Stichprobe w = (w 1 ,w 2 ,w 3) wi: Person für i -te Kommission A= {w: mindestens eine Frau in { w1, w 2, w 3}} Gegenereignis A Ì = {w: keine Frau in { w1, w 2, w 3} Ziehen mit Zurücklegen: #(AÌ) = 3 3 = 27 #W =7 3 Þ P(A) = 1 - P(A Ì) = 1 – (3/7) 3 = 0.921283 Ziehen ohne Zurücklegen: #(AÌ) = 3*2*1 = 6 #W = 7*6*5 = 210 Þ P(A) = 1 - P(A Ì) = 1 – 6/210 ~1 n: Umfang der Stichprobe . N: Umfang der Grundgesamtheit Anzahl der möglichen Stichprobe n mit Berücksichtigung der Reihenfolge ohne Berücksichtigun g d. Reihenfolge ohne Zurücklegen mit Zurücklegen Nn N! ( N - n )! N N! =( ) ( N - n )!n! n ( N + n -1 ) n Bedingte Wahrscheinlichkeiten Ausgangspunkt sind zwei Ereignisse A, B Ì W . P(A): Wetteinsatz auf das Eintreten von A bei Gewinn 1. Angenommen man weiss bzw. erfährt, dass das Ereignis B e ingetreten ist, wie beurteilt man nun das Ereignis A? Definition Bedingte Wahrscheinlichkeiten: Die bedingte Wahrscheinlichkeit des Ereignisses A gegeben dass B eingetreten ist, ist definiert als die Zahl P ( A | B ) := P( A Ç B) P( B) dabei vorausgesetzt, dass P(B) > 0 . B AÇB A http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Anmerkung: Bei festem Ereignis B ist A |Þ P (A|B) ein neues Wahrscheinlichkeitsmass auf W mit P(B|B) = 1 P(B Ì|B) = 0 Speziell für Laplace -Wahrscheinlichkeiten gilt P(A) = #A / # W P( A | B) = P ( A Ç B ) # (A Ç B) = P( B) #B Beispiel W ist eine Population von Personen. A die Teilmenge aller Personen mit bestimmter Krankheit B die Teilmenge aller Personen, bei denen ein medizinischer Test positiv ausfällt (z.B. Bluttest) Aus Sicht eines Patienten oder eines Mediziners der eine Einzelperson untersucht, ist f olgende Grösse interessant: P(A|B) = Die Wahrscheinlichkeit, dass die Person krank ist, gegeben, dass der Test positiv ist. P(A Ì|B Ì) = der relative Anteil von Personen, die gesund sind, unter allen Personen mit negativem Testergebnis. P(A) ist Anteil der Kranken in Gesamtbevölkerung P(B|A) ist Anteil von Personen mit positivem Testbefund „Sensitivität“ unter allen Kranken P(B Ì|A Ì) rel. Anteil von Personen mit negativem Testbefund unter allen Gesunden „Spezifität“ Umrechnung dieser Grössenb in die interessie renden Grössen P(A|B) bzw. P(AÌ|B Ì) P( A Ç B) P( B | A) * P( A) = Ì Ì P( B) P (B | A) * P ( B ) + P ( B | A ) * P ( A ) P( B | A) * P( A) = P (B | A) * P ( A ) + (1 - P ( B Ì | A Ì )) * (1 - P ( A )) P( A | B) = Zahlenbeispiel: P(A) = 0.001 P(B|A) = 1 P(B Ì|A Ì) = 0.9 1 * 0.001 = 0 .01 1 * 0. 001 + 0.1 * 0.999 P( AÌ | B Ì ) = 1 P( A | B) = Diese Rechnungen sind Spezialfall von zwei allgemeinen Formeln: Der Produktsatz P(AÇ B) = P(A|B) * P(B) (Wahrscheinli chkeit von A geg . B mal W’keit von B; Wahrscheinlichkeit für gemeinsames Eintreten von A und B) führt zum Satz der totalen Wahrscheinlichkeit: Sei W = A1 È A2 È A3 È … È Ak (W zerlegt in einzelne Teilbereiche) mit paarweise disjunkten Ereignissen A 1, …, A k. Dann gilt für ein beliebiges Ereignis B k P ( B ) = å P ( B | Ai ) * P ( Ai ) i= 1 Bild für k = 4 Beweis der Formel k B = U ( B Ç Ai) i= 1 Die Mengen BÇ A1, …, BÇAk sind paarweise disjunkt. Satz von Bayes: k Sei W = U Ai i= 1 http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. mit paarweise disjunkten Mengen A1, A2 , …, A k . Für ein beliebiges Ereignis B mit P(B)>0 und jedes Index j Î{1,…,k} gilt P( Aj | B) = P( B | Aj ) * P( Aj ) k = å P( B | A ) * P( A ) i P( B | Aj ) * P( A j ) P( B) i i= 1 Begründung: P(A j |B) P(A jÇ B)/ P(B) k P(B) = å P( B | A ) * P( A ) i i i= 1 nach dem Satz der totalen Wahrscheinlichkeit. Beispiel Aufg 4.11 Neben einer Kasse wird ein Gerät zur Prüfung von 100 CHF Scheinen aufgestellt. W = Menge aller 100 CHF-Scheine (echt oder gefälscht) A = Menge der gefälschten Scheine B = Menge der Scheine, bei dem das Gerät aufblinkt P(A) = 0.0015 (15 von 10000 Scheinen ist gefälscht) P(B|A) = 0.95 P(B|AÌ) = 0.1 (Wahrscheinlichkeit, dass das Gerät aufblinkt, obwohl es ein echter Schein ist) P( A | B) = P ( B | A) * P ( A) 0.95 * 0.0015 = » 0. 015 Ì Ì P ( B | A) * P ( A) + P ( B | A ) * P ( A ) 0.95 * 0.0015 + 0.1 * 0.9985 Das Gerät ist unbrauchbar. Definition (Unabhängigkeit zweier Ereignisse) Zwei Ereignisse A, B heissen stochastisch unabhängig, falls P(AÇ B) = P(A)*P(B) Sind A und B stochastisch unabhängig, dann ist P(A|B) = P(A) P(B|A) = P(B) A, B, unabhängig Û P(A Ç B) = P(A)P(B) Û A und B Ì unabhängig. Verallgemeinerung auf mehr als 2 Ereignisse Seien A1, A 2, …, An beliebige Ereignisse. Die se nennt man stochastisch unabhängig, wenn gilt: Für jedes i Î {1,2,…,n} und ein beliebiges Ereignis B, das nur von A j , j ¹i, abhängt, sind A i und B stochastisch unabhängig. In Formeln: Ì P(à 1Ç Ã2Ç …Ç Ãn) = P(à 1)*…*P(Ãn) wobei Ãi gleich Ai oder Ai ist. Beispiel: n-facher Münzwurf Eine Münze wird n mal unabhängig geworfen, und wir notieren Kopf oder Zahl. n = 1: W = {0,1} P({0})= 1 -p P({0})=p Dabei ist p eine Zahl aus [0,1] Kopf oder Zahl wurden durch 0 oder 1 codiert. n = 2: W = {0,1} 2 = {(w 1,w 2) : w 1 Î{0,1}} P({(1,1)} = p 2 P({(1,0)} = p(1-p) P({(0,1)} = (1 -p)p P({(0,0)} = (1 -p) 2 Wir wissen bereits, dass P({w}) = p k(1-p) für alle Tupel w mit X(w) = k. Es gibt n ( ) Tupel . k Allgemeines n ³ 2: W = {0,1} n (#W = 2 n) i P ({w}) = Õ p wi (1 - p )1- wi Dem Ausdruck p wi (1-p) 1-wi gleich ist i =1 p falls w i = 1 1-p falls w i = 0 http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Andere Schreibweise n P({w}) = p s(w)(1-p) n-s(w) mit S(w) = åw i (Anzahl von Einsen im Tupel) i= 1 Dieses Modell des n -fachen Münzwurfs ist in vielen Kontexten hilfreich. Beispie l 1: Testen von n gleichartigen Anlagen p = w i, dass eine einzelne Anlage ausfällt Beispiel 2: Befragung von n Personen. p = w i , dass eine einzelne Person eine bstimmte Frage mit „Ja“ beantwortet. Unendliche Grundgesamtheiten Wird so oft gewürfelt, bis di e gewünschte Zahl eintritt, dann werden die vorhergehenden Durchgänge mit der Wahrscheinlichkeit eines Nicht-Eintretens bewertet, der letzte Durchgang mit der Wahrscheinlichkeit des Eintretens. Axiome von Kolmogorov auf unendliche Ergebnisräume: - P(A) ³0 - P( W )=1 ¥ - Wenn A 1, …, Ak , … Ì W paarweise disjunkt, dann P(A1È…È AkÈ…)= å P( A ) i i=1 Kapitel 5 /6 – Zufallsvariablen Wir betrachten ein Zufallsexperiment, das durch ( W , P) beschrieben wird. Oftmals interessiert man sich nur für einen bestimmten T eilaspekt des Experiments. Dies beschreibt man durch eine Abbildung X: W à c mit irgendeinem Wertebeweich c. Meistens ist c eine Teilmenge von |R. Mann nennt X eine Zufallsvariable mit Werten in c. Der Begriff „Zufallsvariable“ anstelle von „Abbildung“ d eutet an, dass auf dem Definitionsbereich W ein Wahrscheinlichkeitsmass P definiert ist. X W {w:X(w)ÎB) P B c Bsp: w = (Z,W,W,Z) Þ X(w)=2 (wenn X = „Anzahl Wappen“). Die Zufallsvariable X liefert ein neues Wahrscheinlichkeitsmass P X auf der Menge c: Für B Ì c gilt PX(B) = P(XÎB) = P({w:X(w) ÎB}) Dieses neue Wahrscheinlichkeitsmass PX ist die sogenannte Verteilung von X. P(X=x i)=p i wobei å pi = 1 i³ 1 ì P ( X = x i ) = pi , wenn X = x i Î {x 1 , x 2 ,..., x k ,...} f ( x) = í î0, sonst Verteilungsfunktion: F ( x ) = P ( X £ x ) = å f ( xi ) Wahrscheinlichkeitsfunktion: i: xi £ x Beispiel (Sum mer zweier Würfel) Werfe zwei ideale Würfel und betrachte nur deren Augensumme. W = {1,2,…,6} 2 P = Laplace -Verteilung auf W X(w) := w1 + w 2 (w= (w 1 + w 2) ,w i Î{1,…,6} c := {2,3,…,12} PX= Wahrscheinlichkeitsmass auf c PX({k}) = P(X = k) = # {w : w1 + w2 = k } 6- | 7 - k | = 36 36 Diskrete Gleichverteilung X = Augenzahl beim einmaligen Würfeln P(X=x i)=1/k http://www.cx.unibe.ch/~duembgen/statwiwi für i=1,…,k Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Unabhängigkeit von diskreten Zufallsvariablen X und Y sind unabhängig, wenn gilt P(X 1 = x 1, …, X n = x n)=P(X1=x 1)*…*P(Xn=x n) bei X1, X 2, …, X n Zufallsvariablen Bernoulli- Experiment: Zufallsvorgang, bei dem eine binäre Zufallsvariable resultiert. Þ Bernoulli -Verteilung: P(X=1) = p P(X=0)=1-p bei n unabh. Bernoulli- Experimenten und gleichbleibender Trefferwahrscheinlichkeit der Anzahl X Treffer Þ Definition (Binomia lverteilung) Eine Zufallsvariable X mit Werten in {0,1,…,n} heisst binomialverteilt mit Parametern n und p Î[0,1], wenn n P ( X = k ) = ( ) p k (1 - p ) n - k k für k = 0,1, 2,..., n Das entsprechende Wahrscheinlichkeitsmass P X auf {0,1,…,n} ist die Binomialverteilung mit Parametern n und p. Symbol: B(n, p) oder Bin(n,p) Skizzen von P(X=k) p = ½ P(X=k) = n ( )(1 / 2) n k Zeichnen für p -Werte Zufallsvariablen beim Stichprobenziehen M : Grundgesamtheit von N Objekten (Personen, Kugeln in Urne) Ziehe rein zufällig eine Stichprobe w = (w 1, …, w n) aus M. Sei M0 eine bestimmte Teilmenge von M (z.B. alle Personen, die einer bestimmten Initiative zustimmen würden). Nun konzentrieren wir uns nur auf die Zahl n X(w) := Anzahl von Stichprobenelementen w i Î M0 = å1{w i Î M 0} i= 1 Frage: Wie i st X verteilt? Fall 1: Ziehen mit Zurücklegen. Bei jeder Ziehung erhält man mit Wahrscheinlichkeit p = # M0 ein Element von M 0 . Die #M einzelnen Ziehungen sind unabhängig. (Wir sind also in der Situation des n -fachen Münzwurfs) Þ n k n- k P ( X = k ) = ( ) p (1 - p ) k für k = 0,1,..., n Also ist hier X binomialverteilt mit Parametern n und p. Fall 2: Ziehen ohne Zurücklegen. Hier ist der Grundraum W gleich der Menge aller Tupel {w Î Mn : wi ¹ wj für i ¹ j}. Jetzt betrachte nur die Menge {w 1, …, w n}. Dann betrachten wir also de n neuen Grundraum von M., Dann kann man schreiben ~ W aller n -elementigen Teilmengen ~ ) = # (M Ç w ~) X (w 0 Es gibt insgesamt n N ( ) Möglichkeiten. Es gibt ( 0 ) k-elementige Teilmengen von M 0 wobei N o = # M0 k k N - N0 ) Teilmengen von M \ M0 mit n-k Elementen, n- k N N - N0 Þ Es gibt ( 0 ) * ( ) Teilmengen von M, so dass genau k Elemente aus M0 und n -k Elemente aus M \ M0 dabei k n-k Es gibt ( sind. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Folgerung: N 0 N - N0 )( ) k n-k P( X = k ) = N ( ) n ( für k = 0,1,..., n N (Konvention: ( 0 ) := 0 falls k > N 0 k Definition (Hypergeometrische Verteilung) Eine Zufallsvariable X mit Werten in {0,1,…,} heisst hypergeometrisch verteilt, mit Parametern N, N 0 und n, falls die Wahrscheinlichkeit N 0 N - N0 )( ) k n-k P( X = k ) = N ( ) n ( für k = 0,1,..., n Die Verteilung P X ist die hypergeometrische Verteilung mit Parametern N, N 0 und n. Symbol: Hyp(N, N 0 , n). Die Reihenfolge der Parameter in Klammer ist scheissegal. Wiederholung 10.01. 3 wesentliche Beispiele - n-facher Münzwurf: W = {0,1} n (alle n -Tupel von Ziffern in {0,1}) n Für ein einze lnes w=(w 1, …, w n) definiert: P({w})=p S(w)(1-p) n-S(w) mit S(w) := å wi i =1 Dabei ist die Wahrscheinlichkeit pÎ[0,1] dass bei einem einzelnen Wurf 1 („Zahl“) auftritt. Dieses Modell ist in v ielen Anwendungen von Interesse , z.B . Qualitätskontr olle. - Stichprobenziehen Population M. Ziehe n -mal rein zufällig ein Element aus M Þ Stichprobe w=(w 1,…w n) von Individuen w iÎM Ziehen ohne Zurücklegen Ziehen mit Zurücklegen Keine weiteren Einschränkungen an wi ¹ w j für i ¹ j die Stichproben. Grundraum W = M n Grundraum W besteht aus N(N-1) (N -n+1) Stichproben. Dabei i st mit N n möglichen Stichproben N =#M Eine Zufallsvariable ist eine Kenngrösse X(w), wenn w ein Elementarereignis aus W ist. Genauer: X: W à c ( in der Regel ist cÌ|R) Beispiel: Beim n -fachen Münzwurf betrachte nur die Zahl von Erfolgen: X(w) = #{iÎn : w i = 1} Diese Zufallsvariable X ist binomialverteilt mit Parametern n und p. Dh für k Î{0,1,…,n} ist n P ( X = k ) = ( ) p k (1 - p )n -k k n ( )Möglichkei ten festzulege n, welche Komponente der Elementare reignismen ge = 1 k Für jedes Tupel w mit X(w)=k ist Beispiel Stichprobenziehen mit Zurücklegen bei M * eine spezielle Teilmenge von M (z.B. M = Menge aller Stimmberechtigten, M* = Menge aller Befürworter einer Initiative). Bei p = #M * / M Die Zufallsvariable X(w):= #{i În:wi Î M *} (Anz Befürworter in der Stichprobe ) ist ebenfalls binomialverteilt mit Parametern n und p. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Stichprobenziehen ohne Zurücklegen. Definiert wenn X(w) wie oben, dann ist X hypergeometrisch verteilt mit Parametern N = #M, L = #M * und n= Stichprobenumfang. Das bedeutet: L N-L ( )( ) k n-k P( X = k ) = N ( ) n Zwischen der hypergeometrischen Verteilung Hyp(N,L,n) und der Binomialverteilung Bin(n,L/N) ist kein wesentlicher Unterschied, wenn n<<N. Deshalb rechnet man aus Bequemlichkeit mit Binomialverteilungen (Ziehen mit Zurücklegen), obwohl eigentlich die hypergeometrischen angebracht wären (ziehen ohne Zurücklegen) . Konkrete Rechnungen mit der Binomialverteilung – Computerprogramme – Tabellen (z.B. Tabelle B ) – Approximationen durch Normalverteilungen Zahlenbeispiel Umfrage zu einer bestimmten Initiative p = tatsäc hlicher rel. Anteil von Befürwortern X = Anzahl von Befürwortern in er Stichprobe. X ~Bin (n,p). Tabelle B enthält für diverse Paare (n,p) die Werte F(k) = F n,p(k) := P(X Îk) Beispiel: n=10, p=0.5 Hier ist P (relativer Anteil in Stichprobe ist £ 0.2) = P( X£2) = F 10,0.5(2) = 0.0547 P(rel. Anteil in Stichprobe ist £0.4) = P(X £4) = F 10,0.5(4) = 0.377 Für n= 30 und p = 0.5 ist P (rel. Anteil in Stichprobe £ 0.2) = P(X £6) = F 30,0.5(6) = 0.0007 Diese Tabelle enthält nur Werte p £ 0.5. Im Falle von p > 0.5 verw ende die Tatsache, dass X ~Bin (n,p) n-X ~Bin(n,1 -p) P(X £k) = P(n - X ³ n -k) = 1 -p(n -X £ n -k-1) = 1 - F n, 1-p(n-k-1) Fn,p(k) = 1 -Fn,1-p(n-k-1) Zahlenbeispiel n = 20, p=0.7 .P(relativer Anteil Befürwortern in Stichprobe) £0.5 = P(X£10) = F 20,0.7(10) = 1 - F 20,0.3 (9) = 0.0480 Beispiel zur stochastischen Unabhängigkeit Computernetzwerk mit vier Knoten (Rechnern) sind fünf Verbindungen. Angenommen, jede Leitung funktioniert mit Wahrscheinlichkeit p Î (0,1), und diese fünf Ereignisse seien stochastisch unabhän gig. Frage: Mit welcher Wahrscheinlichkeit gibt es eine Verbindung, zwischen den Knoten (1) und (4)? Lösung 1: Man betrachtet alle 2 5 = 32 Möglichkeiten, welche Leitungen funktionieren und welche nicht. Nun addiert man die Wahrscheinlichkeiten aller Konfigurationen, bei denen 1 und 4 verbunden sind. Lösung 2: A = [1 und 4 verbunden] B2 = [Leitung 1-2-4 intakt] B3 = [Leitung 1-3-4 intakt] P (B 2) = p 2 P(B 3) = p 2 P(B 2Ç B3) = p 4 Þ P(B 2È B3) = 2p 2-p 4 Jetzt bringe die Leitung 2 -3 ins Spiel: A = (B 2 È B3) È (A \ ( B 2ÇB3) Das Ereignis A \(B2È B3) besteht aus zwei Konfigurationen: http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Die Wahrscheinlichkeit einer solchen Konfiguration ist p 3(1-p) 2. Also ist P(A \(B2È B3)) = 2p 3(1-p). Insgesamt erhält man P(A) = 2p 2-p 4+2p 3(1-p) 2. Weitere wichtige Verteilungen Poisson- Verteilungen Wir betrachten Binomialverteilung Bin(n,p). In vielen Anwendungen (siehe später) ist p sehr klein und n recht gross. In diesem Fall kann man Bin(n,p) durch die Poisson -Verteilung mit Poiss( l) approximieren. Definition Poisson: Eine Zufallsvariable X mit Werten in {0,1,2,…} heisst poissonverteilt mit Parameter l, falls folgende Tatsache gilt: P( X = k ) = e -l lk * für k = 0,1,2,3... k! Die Verteilung von X ist die Poisson -Verteilung mit Parameter l, Symbol Poiss( l) Anmerkung: ¥ åe -l k =0 lk 0 * = e =1 k! Zusammenhang mit Bin(n,p) l := np Betrachte l als fest und lasse n à ¥ (p= l/n) n n ( n - 1)...( n - k + 1) l k l ( ) p k (1 - p ) n - k = ( ) (1 - )n -k k k! n n lk k -1 l 1(1 - 1 / n )(1 - 2 / n )...(1 ) * (1 - 2 / n ) - k * (1 - ) n k! n n Für n - > ¥ gilt = (1 - 1 / n )(1 - 2 / n )...(1 (1 (1 - l n l n k -1 )->1 n ) -k - > 1 ) n = exp(log( 1 - l n )n )) = exp( - l ) Þ Für n ॠund p = l/n gilt n lk ( ) p k (1 - p) n - k - > e - l k k! Anwendungen von Poisson Allgemein kann man sagen, dass die Summe von vielen statistisch unabhängigen Zufallsvariablen X 1,…, Xn mit Werten 0 oder 1 näherungsweise poissonverteilt ist, wenn fürp i := P(X i=1) = 1 -P(X i = 0) gilt: maxp i bei i £n << 1 Der entsprechende Parameter l der Poissonverteilung ist dann n l = å pi i =1 Beispiel 1: Aufträgen bei der Telefonauskunft zwischen 8.00 Uhr und 8.05 Uhr. Wir haben eine riesengrosse Menge von Potentiellen Anrufern. Doch die Wahrscheinlichkeit für jeden einzelnen (anzurufen) ist extrem klein. Die Potentiellen Anrufer nummerieren von 1 bis n (n sehr gross). Sei ì1,ite Person ruft an X i := í 0, sonst î http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. n Hier ist anzunehmen, dass alle p i sehr klein sind. Daher ist die Zahl der Anrufe åX i näherungsweise poissonverteilt mit i =1 n unbekanntem Parameter l = å pi i =1 Beispiel 2: Schadensfälle bei einer Haftpflichtversicherung in e iner bestimmten Woche . Hier nummerieren der Kunden der Versicherung durch und definiere ì1, ite Kunde meldet Schadenfal l X i := í î0, sonst p i = P(X i=1)= 1 -P(X i=0) Auch hier gehe davon aus, dass alle p i sehr klein sind. Also ist die Zahl von Schadensmeldungen gleich n åX i und approximativ poissonverteilt. Gegenbeispiel sind Versicherungen gegen Sturm- oder Hochwasserschäden. Hier i =1 sind die Zufallsgrössen X i abhängig! Warnung: Die Unabhängigkeit der X i wesentliche Voraussetzung! Geometrische Verteilungen Zwei Situati onen, in denen geometrische Verteilungen auftreten: 1. Spiele „Mensch ärgere Dich nicht“ und würfle… bis endlich eine 6 fällt. Y := Anzahl von Würfen bis zur ersten 6 2. Suchen einer bestimmten Strasse in einer fremden Stadt und fragen von Passanten nach dem Weg . Y:= Anzahl von Befragungen, bis man eine Auskunft erhält. Man hat ein Zufallsexperiment mit {0,1}, das wiederholt wird, bis einmal das gewünschte 1 oder 0 eintritt. Dann zählt man die Durchgänge. Allgemeiner Rahmen: Man hat unabhängige Zufallsgrössen X 1, X2, … mit Werten in {0,1}, wobei P(X i = 1) = p = 1 -P(X i=0). (In 1. ist X i=1{beim iten Wert eine 6} mit p = 1/6. In 2. ist X i=1{ite befr. Person weiss Bescheid}) Im Buch: X= „Anzahl der Versuche bis zum ersten Mal A eintritt“ = Zufallsvariable. Es tritt k-1mal das Komplementärereignis ein, bis A eintritt. Jetzt betrachte Y := min {k Î|N: X k = 1} (min( Æ) := ¥) P(Y>k)=P(X 1=X2=…=Xk = 0) = P(X 1=0)*…*P(Xk=0) = (1 -p) k P(Y=k) = P(X i=0 für i<k, Xk = 1) = (1 -p) k-1p Im Buch: P(X=x)=(1-p)x-1p bei p = P(A) Definition: Eine Zufallsvariable Y mit Werten in |N = {1,2,3,…} heisst geometrisch verteilt mit Parameter p Î (0,1], wenn P(Y=k)=(1 -p) k-1p für k = 1,2,3,… Die Verteilung von Y ist die geometrische Verteilung mit Parameter p. Symbol: Geom(p) Eine Zufallsvariable X hat eine diskrete Verteilung (ist diskret verteilt), wenn sie nur endlich viele oder abzählbar unendlich viele Werte (mit positiver Wahrscheinlichkeit) annehmen kann. Seien x 1,x 2, … die möglichen Werte von X. Dann wird die Verteilung von X durch die Gew ichte P(X=x i) eindeutig festgelegt. Kenngrössen von Zufallsvariablen, Masszahlen für die Streuung Kenngrösse Definition Erwartungswert Für eine diskret verteilte Zufallsvariable X mit Masszahl für das möglichen We rten x 1,x 2,… (wenn X nur Zentrum einer endlich viele Werte oder abzählbar unendlich Verteilung. viele Werte annehmen kann) ist ihr Erwartungswert definiert als die Zahl E ( X ) = m = å P( X = x i ) * xi = å xi pi xi 1 n Xi å n- > ¥ n i =1 E ( X ) = lim i ³1 = å x i f ( xi ) i ³1 (Voraussetzung: Die Summe / Reihe ist überhaupt definiert) Rechenregeln: - E(l*X) = l*E(X) für beliebige Zufallsvariablen X und feste Zahlen l. http://www.cx.unibe.ch/~duembgen/statwiwi Interpretation 1.Angenommen, man wiederholt das Zufallsexperiment, welches X liefert, beliebig oft und unabhängig und seien X1, X2, … die Werte von X in diesen Wiederholungen, dann ist der Erwartungswert von X 2. Betrachte einen beliebig langen Stab und bringe an diesem Gewichte an: An der Stelle x i ist das Gewicht P(X=x i) = p i Wenn der Stab kein Eigengewicht hat, so gibt E(X) an, wo der Schwerpunkt dieser Massenverteilung ist. Beweis 1: Sei X verteilt nach Bin (n,p). Dann ist E(X)=np. Beweis: Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik Begründung: E ( lX ) = å P( lX = yi ) yi = lE ( X ) yi - Für Zufallsvariablen X und Y (zu einem Experiment) gilt E(X+Y) = E(X) + E(Y) Begründung: Seien x1, x2, … die möglichen Werte von X, und y 1,y2, … die möglichen We rte von Y, dann ist E (X + Y ) = å P(X + Y = z) z åå xi = å y P ( X = x i ,Y = y j ) x i + åå xi j P ( X = xi ) xi + xi å n n E ( X ) = å ( ) k * p k (1 - p) n - k k= 0 k n -1 n - 1 i +1 n - 1 -i = å n( ) p (1 - p ) i i =0 n -1 n -1 i = npå ( ) p (1 - p) n -1 - i i i= 0 1444 424444 3 =1 z = © by Al_Sub et al. y P ( X = x i ,Y = y j ) y j j P (Y = yj ) yj = E ( X ) + E (Y ) yj Beweis 2: X ist verteilt wie Sie Summe von X i mit unabhängigen Zufallsgrössen Xi Î {0,1}, wobei P(X i=1)=p=1-P(Xi=0) Aus den Rechenregeln für Erwartungswerte ergibt sich E(X)= np Andere Be trachtungsweisen Wenn der Grundraum W endlich oder abzählbar ist, dann ist E(X ) = å P ( X = x ) * x = å ( å P ({w }) ) * x E(X ) = å P ({w }) * X ( w ) x x w: X ( w ) = x wÎ W Aus dieser Darstellung kann man gut obenstehende Rechenregeln ableiten. W c Y g x Betrachte Zufallsvariable Y(w):= g(X(w)) Wund c seien endlich oder abzählbar E ( X ) = å P (Y = g ) g g å P ({ w}) * Y ( w) = å P ( X = x) g ( x) Modus x mod ein Wert, für den f(x)=P(X=x) maximal. Median Quantile Je der Wert x p zwischen 0 und 1, für den P(X £x p)=F(x p)³p und P(X ³x p)³1-p gilt, heisst p-Quantil der diskreten Zufallsvar X. Varianz s 2 = Var ( X ) = å ( xi - m )2 f ( x i ) i ³1 Standardabwe ichung x Îc Bei symmetrischen Verteilungen mit eindeutigem x mod ist E(X)=x mod m=E(X) Var(X) = E(X2)-(E(X)) 2 = E(X2)-m2 Var(X) = E(X-m)2 s=+Wurzel(Var(X)) Beispiele zu Erwartungswert x 0 P(X=x) 0.1 E(X) = 0.1*0 + 0.3*1+0.2*(2+3+4) 1 0.3 2 0.2 3 0.2 4 0.2 Würfle eine Zahl X Î{1,2,3,4,5,6} Unter der Annahme dass P(X=k) = 1/6 für k =1,2,3,4,5,6 ist 6 E ( X ) = å P ( X = k )k = 3.5 (Wenn man unendlich oft würfeln würde, würde sich das Arithmetische Mittel bei 3.5 einpendeln. k =1 X sei Poissonverteilt mit Parameter l > 0, dh P(X=k)= e -l*( lk/k!) für k = 0,1,2,3,… ¥ ¥ E ( X ) = å P ( X = k ) * k = å e -l k =1 k =1 lk k! ¥ * k = e -l å k =0 li + 1 i! = E( X ) = l X sei hypergeometrisch verteilt mit Parametern N, L, n. L N-L N P( X = k ) = ( )( ) /( ) k n-k n E(X ) = für k = 0,1,2,3,.. ., min(L, n) nL N Begründung: Urne mit N Kugeln, davon sind L markiert. Ziehe rein zufällig ohne Zurücklegen n Kugeln aus Urne. X:=Anzahl markierter Kugeln in Stichprobe. http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous Wahrscheinlichkeoiten wÎ W Analog empirischer Verteilungen, jedoch Ersetzen vorn rel. Häufig. durch = WS 02 / 03 Notizen Statistik © by Al_Sub et al. Nummereire die markierten Kugeln durch mit 1,2,…,L L X = å X i . Es ist Xi := 1 {Kugel Nr.i landet in S tichprobe}. Dann ist i =1 E ( X i ) = P( Xi = 0) * 0 + P ( Xi = 1) * 1 = P ( Xi = 1), P ( Xi = 1) = P ( Kugel Nr.i landet in Stichprobe ) N -1 N n =( ) /( ) = n -1 n N Also ist n N E( X ) = L * Beispiel: Geometrische Verteilungen Sei X geometrisch verteilt mit Parameter p Î(0,1]. ( z.B. werfe eine Münze beliebig oft. Bei einzelnem Wurf erhalten mit Wahrscheinlichkeit p „ Zahl“ und mit Wahrscheinlichkeit 1 -p „kopf“. X:= Anzahl von Würfen bis erstmalig „Zahl“ auftritt.) P(X=k) := (1 -p) k-1p P(X ³k) := (1 -p) k-1 Vermutung: Je grösser (kleiner) p desto kleiner (grösser) E(X). Formel: E(X)=1/p Beweis: ¥ E ( X ) = å (1 - p )k -1 pk k =1 ¥ å P( X = k )k k =1 = P(X=1)+ P(X=2)+ P(X=2)+ P(X=3)+ P(X=3)+ P(X=3)+ P(X=4)+ P(X=4)+ P(X=4)+ P(X=4)+ etc P(X³1)+ P(X³2)+ P(X³3)+ P(X³4)+ Allgemeine Formeln für Zufallsvariablen X mit Werten in |N 0: ¥ E ( X ) = å P( X ³ k) k =1 ¥ Hier : E ( X ) = å (1 - p ) k =1 k -1 = 1 = 1/ p 1 - (1 - p) Erwartungswerte X: W Þ |R E ( X ) = å P( X = x) * x x = å P ({w}) * X ( w) w ÎW W endlich oder endlich abzählbar. Stetige Zufallsvariablen nehmen Werte in einem Intervall an. Jedes gleichgrosse Intervall hat dieselbe Wahrscheinlichkeit, egal wo es örtlich oder zeitlich positioniert ist (stetige Entsprechung). b Wahrscheinlichkeitsdichte ist die Fläche zwischen a und b und darüberliegender f(x) : P ( a £ X £ b) = ò f ( x ) dx a P(a £X£b) = P(a<X£b) = P(a £X<b) = P(a<X<b) P(X=x) = 0 für jedes x Î |R (dh. a=b) P(-¥<X<+ ¥) = 1. Die Wahrscheinlichkeit, dass X exakt einen Wert annimmt (dh. das Gl ücksrad exakt an einer bestimmten Stelle anhält), ist gleich 0. x Verteilungsfunktion: F ( x) = P( X £ x) = ò f (t )dt -¥ http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Eigenschaften der Verteilungsfunktion einer stetigen Zufallsvariable Eigenschaften der Verteilungsfunktion einer stetigen Eigenschaften der Verteilungsfunktion einer diskreten Zufallsvariable Zufallsvariable F(x) ist stetig und monoton wachsend mit Werten im Treppenfunktion, springt an x i um p i = f(x i) nach oben. Intervall [0,1] Rechtsseitig stetig. F ( -¥ ) = lim F ( x) = 0 lim F ( x ) = 1 x - > -¥ x - > +¥ F ( +¥ ) = lim F ( x) = 1 x - > +¥ F’(x)=f(x) (Dichte ist Ableitung der Verteilungsfunktion) P(a £X£b) = F(b) – F(a) P(X ³a)=1 -F(a) Unabhängigkeit von stetigen Zufallsvariablen: P(X £x 1, …, X n £x n) = P(X 1 £x 1)*…*P(Xn £x n) Kenngrössen von stet. Zufallsvar . Erwartungswert Definition Interpretation +¥ m = E( X ) = ò xf ( x ) dx -¥ Allgemeiner: ¥ E ( g ( x )) = ò g ( x ) f ( x ) dx -¥ Modus Median und Quantile Varianz Standardabweichung Bei unimodial und symmetrisch: c = x mod = E(X) p-Quantil x p = Zahl auf x -Achse, für die F(x p) =p Median F(x med) = 0.5 x mod ist das Maximum der Dichte f(x) Median teilt Fläche in 2 gleich grosse Teile. Wenn in Punkt c symmetrisch: x mod = E(X) = x med +¥ s 2 = Var ( X ) = =E((X- E(X)) 2) ò( x - m ) 2 f ( x ) dx -¥ s = +Wurzel aus Var(X) Lageregeln x med – x p = x 1-p – x med und x mod = x med = E(X) Þ symm x med – x p £ x 1-p – x med und x mod < x med < E(X) Þ linkssteil x med – x p ³ x 1-p – x med und x mod > x med > E(X) Þ rechtssteil Markov -Ungleichung Frage: Kann man mit Hilfe von E(X) Aussagen über P(X ³c) machen? Beispiel: X sei die Anzahl von Anrufen in einer Auskun ftsstelle an einem bestimmten Freitag zwischen 8.00 und 8.10 Uhr. Aus Erfahrung ist bekannt, dass E(X)= 10. Frage: P(X ³50)=? Antwort 1: Betrachte X als poissonverteilt mit Parameter l=10. Dann ist P(X ³50) gleich ¥ å P( X k = 50 49 49 k =0 k=0 = k ) = 1 - å P ( X = k ) = 1 - å e -10 * 10k k! Antwort 2: (Misstraue dem POisson-Modell): In jedem Fall kann man sagen, dass P ( X ³ 50) £ E( X ) * 10 / 50 = 0.2 50 Dies folgt aus der Markov-Gleichung. Lemma Markov -Gleichung Sei X eine Zufallsvariable mit Werten in [0, ¥). Dann ist http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik P( X ³ c) £ E( X ) c © by Al_Sub et al. für alle c > 0 und nur nützlich, wenn c > E(X) Beweis: Da X ³0, ist E ( X ) ³ E (11 { X42 *4X ) 4³ c}43 =0 falls X < c X falls X ³ c ³ E (1{X ³ c} * c ) 14243 = 0 falls X < c c falls X ³ c = c * P( X ³ c) Dividiere beide Seiten durch x, dann ergibt sich die Behauptung. Verfeinerungen / Verallgemeinerungen: Betrachte Transformationen von X. Definition Varianz Die Varianz einer Zufallsvariable X ist definiert als Var(X)= E((X- E(X)) 2) ³ 0 (mittlere quadratische Abweichung von X zu ihrem Erwartungswert E(X)). Die Varianz ist eine Kenngrösse, mit der man Wahrscheinlichkeiten der Form P( |X -E(X)| ³ c) abschätzen kann. Lemma (Tschebyschev -Ungleichung; im Buch Kapitel 7) Für eine beliebige reelwertige Zufallsvariable X und Konstanten c > 0 ist P (| X - E ( X ) |³ c ) £ Var ( X ) c2 Definition Standardabweichung Die Standardabweichung von X ist definiert als die Zahl sigma ( x ) := Var ( X ) Mit s(X) kann man schreiben P (| X - E ( X ) ³ c ) £ ( s(X ) ) c Konkrete Berechnung von Varianzen und Standardabweichung E((X- E(X)) 2) = å P( X = x) * ( x - E ( X ))2 = å P ({w}) * ( X (w) - E ( X )) 2 w ÎW x Vereinfach ung : E (( X - E ( X ))2 ) = E ( X 2 - 2 * E ( X ) X + E ( X ) 2 ) = E ( X 2 ) - 2 E ( X )E ( X ) + E ( X ) 2 = E ( X 2 ) - ( E ( X )) 2 2 Var ( X ) = E ( X ) - (E ( X )) Zahlenbeispiel: XÎ{0,1,2,} x 0 P(X=x) 0.3 E(X) = 0.3*0+0.5*1+0.2*2 = 0.4 2 1 0.5 2 0.2 E(X 2) = 1.3 Also ist Var(X) = E(X2) - (E(X)) 2 = 1.3 – 0.9 2 = 0.49 s(X) = 0.49 = 0.7. Aus der ursprünglichen Definition ergibt sich Var(X) = 0.3(0 -0.9) 2 + 0.5(1-0.9)2 + 0.2(2-0.9) 2 Sei X verteilt nach Poiss( l), l>0. Dann ist E(X)= l, Var(X) = l Û s(X)= Beweis: http://www.cx.unibe.ch/~duembgen/statwiwi l Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik ¥ ¥ © by Al_Sub et al. k l k{ k =1 (k - 1)! = ( k -1) +1 E ( X 2 ) = å P ( X = k )k 2 = e - l å k =0 ¥ lk lk -l 2 =e å +e å =l + l 2 k = 2 (k - 2 )! k =1 (k - 1) -l ¥ Folgerung : Var ( X ) = E ( X 2 ) - E ( X )2 = l Beispiel: Varianz einer Poissonverteilung X verteilt sich mit Poiss(10) E(X) = 10 s(X) = 3.162 Interpretation der Kenngrössen E(X) s(X) ( Standardabweichung ) Varianz ist ein typischer Wert von X und liefert die Grössenordnung von X beschreibt die Variabilität von X und liefert die Grössenordnung von |X-E(X)|. Die Varianz benötigt man nur aus technischen Gründen. Leider werden die Standardabweichung und die Varianz oft verwechselt. Erwartungswerte von Produkten von Zufallsgrössen, Varianzen von Summen Für Zufallsvariablen X, Y gilt die Formel E(X+Y) = E(X) + E(Y). Für Produkte (XY) gilt die analoge Formel nicht! Dies gilt aber in einem Spezialfall. Lemma: Seien X und Y zwei stochastisch unabhängige Zufallsvariablen. Dann gilt E(XY)= E(X)*E(Y). Begründ ung: E ( XY ) = å å P ( X = x ,Y = y ) * xy = ( å P ( X = x ) x)( å P (Y = y ) y ) = E ( X ) E (Y ) x y x y Folgerung: Sind X und Y stochastisch unabhängig, dann ist Var(X+Y) = Var(X) + Var(Y) . Anwendung auf Stichprobenmittelwerte Wiederhole ein bestimmtes Experiment n mal unabhängig. Bei der i -ten Durchführung erhalte eine Zufallsgr össe X i. m = E(X i) s= s(X i). Als Schätzwert für m betrachte 1 n X = å Xi n i =1 Wie präzise ist dieser Schätzwert? Satz: E (X ) = m s(X) = s n Interpretation: Durch n -malige Wiederholung erhöht sich die Präzision des Schätzwertes um den Faktor Beweis: E (X ) = E ( n. 1 n 1 1 n X ) = E ( X ) = m=m i i nå nå nå i= 1 i i =1 1 1 2 n 2 1 2 X ) = ( s = s å i n) å n i n i =1 s Insbesonde re ist s ( X ) = n Var ( X ) = Var ( Beispiel: Population von vielen Personen. Für einzelne Person betrachte ihr Jahreseinkommen. m: Mittleres Jahreseinkommen in Population s: Standardabweichung in Jahreseinkommen in der Population. Um die Grössen zu schätzen, ziehe Stichprobe vom Umfang n aus der Population (n<< Populationsgrösse, Ziehen mit Zurücklegen). Seien X 1, …, Xn die Jahreseinkommen der n personen in der Stichprobe. Hier ist der zufall das Stichprobenziehen. E(X i) = m , s( Xi) = s Als Schätzwert von m betrachte E( X . Dann ist X )=m http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 s( Notizen Statistik © by Al_Sub et al. X )= s/Wurzel(n) Übungsaufgaben A 5.10 Samstagslotto „6 aus 49“. Wie gross ist P(in einem Jahr nie mind. drei richtige? Wie gross ist P( in einem Jahr mind. dreimal mind. drei Richtige)? In einem Jahr: 52 Spiele, unabhängige Wiederholungen. Betrachte zunächst ein Spiel: P(mind. 3 Richtige) = ? Urne mit 49 Kugeln, auf 6 davon wurde getippt. Urne mit 49 Kugeln, auf 6 davon wurde getippt. Nun w erden 6 Kugeln rein zufällig gezogen. (ohne zurücklegen). 6 43 ( )( ) k 6-k X: = Anzahl der Richtigen Þ X verteilt mit Hyp (49,6,6). Also ist P(X=k) = 49 ( ) 6 P(³3)=1 -P(X£2) = 1 -P(X=0) – P(X=1) - P(X=2) ~ 1 -0.436 – 0.413 -0.132 = 0.019 = P(mind drei Richtige). Jetzt betrachte ich die 52 Spiele im Verlaufe eines Jahres: Y: = Anzahl von Spielen mit mindestens 3 Richtigen. Y ist verteilt nach Bin(52,p). P(Y=k)= ( 52 k ) p k (1 - p) 52 -k P(in einem Jahr niemals 3 oder mehr Richtige) = P(Y=0) = (1 -p) 52 = 0.376 P(in ein em Jahr mind. 3mal 3 oder mehr Richtige) = P(Y ³3) = 1 - P(Y £2) = 1 -P(Y=0) -P(Y=1) -P(Y=2) = 1 -0.376-0.371-0.18 =0.073 A 5.12 20 Verkäuferinnen eines Geschäfts. 4 davon sind mit längeren Öffnungszeiten einverstanden. Journalist befragt 5 Verkäuferinnen. P(keine der Befragten ist für längere Öffnungszeiten) = ? P(genau 2 Befragte einverstanden) = ? P(mind. 3 Befragte einverstanden) = ? X : = Anzahl der Einverstandenen (Ziehe 5mal ohne Zurücklegen aus Grundgesamtheit von 20 Personen, von denen 4 einverstanden sind). X verteilt nach Hyp(20,4,5) 4 16 ( )( ) k 5- k P(X=k) = 20 ( ) 5 16 20 P(X=0) = ( ) /( ) = 0.282 5 5 4 16 ( )( ) 2 3 P ( X = 2) = 20 5 P ( X ³ 3) = P ( X = 3) + P ( X = 4) = 0.032 Wiederholung: Erwartungswert Varianz E(a+bX) = a + bE(X) E(X+Y) = E(X) + E(Y) Var(a+bX) = b 2Var(X) Var(X+Y) = Var(X) + Var(Y) nur wenn X und Y stochastisch unabhängig sind. Standardabweichung b Þ skalieren a Þverschieben s(a+bX) = |b| s(X) s(X+Y) = s ( X ) 2 + s (Y ) 2 falls X und Y unabhängig. Anwendungen auf Stichprobenerhebungen Ziehe rein zufällig Stichprobe vom Umfang n a us einer Grundgesamtheit M http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Ziehen mit Zurücklegen Ziehen ohne Zurücklegen Bei #M >> n identisch, mathematisch ist Ziehen mit Zurücklegen einfacher! Die einzelnen Ziehungen sind stochastisch unabhängig Betrachte ein qualitatives Merkmal Betrachte ein quantitatives Merkmal Aus den Rechenregeln für Erwartungswerte und m = Mittelwert de s Merkmals in M Standardabweichung en folt s = Standardabweichung des Merkmals in M Schätzwerte: X 1 , X 2, …, X n seien die Merkmalswerte in X E (X ) E ( pˆ ) = E ( ) = =p Stichprobe. Dies sind unabhängige Zufallsvariablen mit n n E(X i) = m, s( Xi) = s s ( pˆ ) = s ( X / n ) = 1 / n * s ( x ) Aus den Rechenregeln für Erwartungswerte und Varianzen folgt E (X ) = m s(X ) = s / n Anmerkung 1 : Die Präzision eines einzelnen Stichprobenwertes ( s) = p (1 - p ) n nimmt durch n -maliges Wiederholen und Mitteln um den Faktor n zu. Verdoppelung der Präzision: n Ü 4n Verzehnfachung der Präzision: Ü 100n Anmerkung 2: Den unbekannten Wert s kann man mit Hilfe der Stichproben – Standardabweichung S schätzen. Auswertung: X = Schätzer für m S/ n = Schätzer für s( X ) E(^p) = p s(^p) = p (1 - p ) n Verteilungsfunktion Betrachte ein numerisches Merkmal. Für beliebige Schranke t Î|R definiere: F(t) : = relativer Anteil von Elementen der Grundgesamtheit mit Merkmalswert £ t F ist die Verteilungsfunktion des Merkmals in der Grundgesamtheit. Stichprobenwerte: X1, …, Xn P(X i £t ) = F(t). Schätzer für F ist die empirische Verteilungsfunktion ( Stichprobenverteilungsfunktion) Anz{i £ n : X i £ t } Fˆ (t ) = n Mit wachsendem n nähert sich ^F (stufige Verteilungsfunktion) der theoretischen Verteilungsfunktion F (siehe Bild ) an . Fˆ (i ) : E ( Fˆ (t )) = F (t ) F (t )(1 - F (t )) s ( Fˆ (t )) = n (Spezialfall von Übertragung 2) M A: Elemente der Grundgesamtheit mit Merkmalswert £ t) Anmerkung / Übungsaufgabe: p(1 -p)£ ¼ s ( pˆ ) ü 1 ý s (Fˆ (t ))þ 2 n Folgerung aus Tschebyshev - Ungleichung P(|^p -p|³ e) £ 1 / (4n e2) http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Stetig verteilte Zufallsvariablen (Kapitel 6) In Zusammenhang mit deskriptiven Methoden betrachten wir stetige Verteilungsfunkt ionen und Dichtefunktionen als Approximation für grosse Grundgesamtheiten. Wenn man aus einer solchen Grundgesamtheit Stichproben zieht, erhält man stetige verteilte Zufallsgrössen. Zur Erinnerung: Eine Zufallsgrösse X ist diskret verteilt, wenn sie nur e ndlich viele oder abzählbar viele Werte annehmen kann. Definition: Eine reelwertige Zufallsvariable X heisst stetig verteilt mit Verteilungsfunktion F und Dichtefunktion f, wenn für beliebige Schranken -¥ £ a < b £ ¥ gilt: b P ( X Î [a , b]) = ò f ( x ) dx a b P ( X £ b) = F (b) = ò f ( x) dx -¥ Anmerkung : Für eine Zufallsvariable mit Dichtefunktion f ist P(X=x) = 0! f(x) ist nicht gleich P(X=x), sondern f ( x ) = lim e ¯0 P ( X Î [ x , x + e ]) P ( X £ [ x - e , x ]) = lim e ¯0 e e Beispiel Exponentialverteilungen: Eine Zufallsvariable X heisst exponentialverteilt mit Parameter l > 0, falls gilt ìl e - lx für x ³ 0 f ( x) = í î0 für x < 0 -lx ì1 - e für x ³ 0 F ( x) = í î0 für x < 0 Die empirische Dichtefunktion f ist f(x) = f l(x) = F l’(x). Exponentialverteilungen sind das kontinuierliche Analogon zu geometrischen Verteilungen. Y mit Werten in |N ist geometrisch verteilt mit Parameter p Î(0,1], wenn P(Y=k) = (1-p) k-1 P(Y>k)= (1 -p) k E(Y) = 1/p Jetzt betrachte sehr kleiner Werte p: p = l/n. Dann ist E(Y)= N/l. Deshalb betrachte neue Grösse X:= Y/n. Dann gilt für beliebige Zahlen r > 0 P(X>r) = P(Y>rn) = (1-p) [rn] = (1 - (l/n) [rn] = exp([rn]*log(1 -(l/r)) Þ exp( -lr). Also ist X näherungsweise exponentialverteilt mit Parameter 1/ l. Anwendungen von Exponentialverteilungen – Wartezeiten: Wie lange dauert es bis in einer Auskunftsstelle der erste Anruf ankommt? – Zuverlässigkeitsanalyse: Lebensdauern von technischen Anlagen Siehe Tabe lle Kenngrössen von stetigen Zufallsvariablen Seite 40 Normalverteilte Zufallsvariablen Eine Zufallsvar X heisst normalverteilt mit Mittelwert m und Standardabweichung s, wenn gilt: X hat Dichte Funktion f ( x) = f ( x) = 1 2p 1 2ps exp( - ( x - m) 2 2s 2 ) exp( - 0.5 x 2 ) bei m = 0, s 2 = 1 Anm erkung 1 : Sei Z normalverteilt mit Mittelwert 0 und Standardabweichung 1 (standardnormalverteilt). Dann ist die Zufallsvariable X:= m+ sZ normalverteilt mit Mittelwert m und Standardabweichung |s|. Anmerkung 2: Sei verteilt mit N( m, s2). Dann ist E(X)= m Var(X)= s2 im Sinne der allgemeinen Definition. Stetige Gleichverteilungen Eine Zufallsvariable X heisst (stetig) gleichverteilt auf einem Intervall [a,b] ( -¥<a<b<¥) wenn gilt: P(X Î[a,b])=1 P ( X Î [c , d ]) = d -c b- a http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. für Intervalle [c,d] Ì [a,b] . Das heisst X ist stetig verteilt mit Dichtefunktion ì1 /( b - a ) f ( x) = í sonst î0 für x Î [ a, b ] Die entsprechende Verteilungsfunktion F ì0 ïr - a ï F ( r) = í ïb - a ïî1 für r £ a für a £ r £ b für r ³ b Anmerkung 1: Computerprogramme / Taschenrechner bieten Pseudozufallsvariablen X 1, X 2, … an. Diese initiieren unabhängige und auf [0 ,1] uniform verteilte Zufallsvariablen. Bei jedem Aufruf von „Random“ wird die nächste Zahl in dieser Sequenz X 1, X 2 , … ausgegeben. Mögliche Anwendung: Angenommen man möchte Zufallszahlen Y 1 , Y 2 etc. simulieren, wobei diese unabhängig sind, und es soll gel ten, dass eine einzelne Variable die Wahrscheinlichkeit P(Y i=k) = 1/M für k=1, …, M. Mit Hilfe der Zufallszahlen aus dem Rechner definiere Yi = M (M-1)/M £Xi £1. Anderes Beispiel: Man möchte den n -fachen Münzwurf mit Parameter p simulieren falls X i £ p ì1 Yi = í î0 falls X i > p Dann beschreibt (Y 1, …, Yn) das n - malige Werfen einer Münze, wobei P(Yi=1)=p, P(Yi=0)=1 -p. Anmerkung 2: Uniforme Verteilungen treten approximativ bei Rundungsresten auf. Das heisst, sei X eine stetig verteilte Zufallsvariable, die über einen sehr gr ossen Bereich streut. Betrachte nun Y= X - ë Xû (Abrunden auf ganze Zahl) Dann ist Y Î (0,1) approximativ uniform verteilt auf (0,1). Beispiel: An einer Bushaltestelle fahren Busse zu den Zeitpunkten 0,1,2,… in irgendeiner Zeiteinheit (z.B. 1 oder alle 10 min). Angenommen man kommt zu einem zufälligen Zeitpunkt X ³0 an die Haltestelle. Die Wartezeit bis zur nächsten Abfahrt ist 1 -(X-ë Xû) in etwa uniform verteiolt auf [0,1]. Die mittlere Wartezeit ist +¥ E (X ) { uniform verteilt auf ( 0 ,1 ) = ò y * f ( y )dy -¥ Wobei Y = 1 -(X-ë Xû) nach Dichtefu nktion ì0 für y Ï ( 0,1) f ( y) = í î1 für y Î ( 0,1) Also ist 1 y2 1 E (Y ) = ò ydy = | 0 = 0.5 2 0 Denkaufgabe Sie möchten aus einer Menhe von 20 Personen rein zufällig 10 Personen auswählen. Sie haben nur a) eine Münze dabei b) einen taschenrechner mit Random- Funktion Wie können Sie die Auswahl treffen? a) liefert X 1, X 2, X3, … mit X i={0,1}, P(X i=1)= ½ b) liefert eine Folge U 1,U 2, U 3, … von Zufallsvariablen, die unabhängig sind, und P (U i Î [a,b]) = b -a für Intervalle [a,b] Î[0,1]. Random: Aufstellen einer Liste mit den jeweiligen Zufallszahlen. Münzwerfen: Alle Personen mit einer 1, in einer zweiten Runde nochmals alle Personen mit einer 1. Danach haben wir sehrwahrscheinlich zu viele ausgewählt; nochmals eine Runde etc. Stetig verteilte Zufallsvariablen ( Wiederholung) http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. ¥ ò f ( x ) dx = 1 Dichtefunktion: f ³0 -¥ ¥ Verteilung sfkt F ( r) = ò f ( x ) dx -¥ Transformationen Die Zufallsvariable X sei nach f bzw. F verteilt. Mit ¥ P ( X Î [a , b]) = ò f ( x ) dx -¥ P ( X £ r ) = F ( r) Jetzt betrachte für Konstanten mÎ|R mit s>0 der Zufallsgrösse Y:=m+ sX Verteilungsfunktion von Y P(Y £r) = P(m+ sX£r) = P( sX£r-m) = P(X£ (r-m)/s) = F((r -1)/s) Verteilungsfunktion von Y ist also FY (r ) = F X ( r-m ) s Dichtefunktion von Y: Berechne die Ableitung von F Y: ¶ ¶ r-m r-m ¶ r -m r-m 1 FY (r ) = FX ( ) = f x( )* = fx ( )* ¶r ¶r s s ¶r s s s Dichtefunktion von Y ist also fY ( x) = fX ( r-m 1 )* s s Anwendungen dieser Transformationsregeln - Normalver teilungen :Sei Y eine Zufallsgrösse mit Normalverteilung N( m, s2). Dh. Verteilung von Y wird beschreibt durch Dichtefunktion fY ( x) = 1 r-m j( ) s s Dabei ist j die Gaussche Glockenkurve. Betrachtet man d ie allgemeine Transformationsre geln, dann ist Y gena uso verteilt wie m+sX, wobei X eine standardnormalverteilte Zufallsvariable ist. Dg die Verteilung von X wird durch j beschrieben. Insbesondere ist P (Y £ r ) = F ( r -m ) s Ausserdem ist E(Y)= E( m+ sX) = m+ sE(X) s(Y) = s*s(X) Mann kann zeigen, dass E(X)= 0 Var (X)=1, dass s(X)=1 Einsetzen in obigen Gleichungen liefert Y~N(m, s2) Þ E(Y)=m, d(Y)= s <Einfügen Abb für Transformation Normalverteilung> Bedeutung der Normalverteilung – Standardmodell für Messfehler von technischen Geräten – Approximation für verschiedne Verteilungen, die uns schon begegnet sind; wie z.B: - Bin(n,p)~N(np, np(1 -p)), falls np(1-p) gross( ³5) - Pois( l)~N( l,l) falls l grösser ( ³10) Dahinter steht der Zentrale Grenzwertsatz. Kernaussagen in Worten: Eine Zufallsgrösse X von der Form X = X 1+X2+…+Xn mit unabhängigen Summanden, die jeweils nur geringen Einfluss auf das Gesamtergebnis X haben, ist näherungsweise normalverteilt. – log -Aktienkurse werden oft durch Normalverteilungen beschrieben (log -Normalverteilungen) Summen von normalverteilten Zufallsvariablen Seien X und Y stochastisch unabhängig und normalverteilt nach N( mX, s2X) bzw. N( mY, s2Y). Dann ist X+Y ebenfalls normalverteilt. Genauer: X+Y = N( mX+mY, s2X+ s2Y). http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik © by Al_Sub et al. Allgemeiner: Seien X 1 , X 2, .., X n stochastisch unabhängig und normalverteilt X i = N( mi, s2i). Dann gilt für beliebige Konstanten a 1,a 2, …, a n: a 1X1 +…+a nXn ~N(a 1m1+ …+ a nmn,a 21 s21+…+a 2n s2 n) Aufgabe 6.9 X = Geburtsgewicht eines (zukünftigen) Frühgeborenen (28. Schwangerschaftswoche). Aus Erfahrung weiss man, dass X verteilt ist nach N(1000g, (50g) 2) a) P(892 £X£1050) = ? Mit der standardisierten Grösse Z := (X-m)/s= (X-1000)/50 gilt P(892 £X£1050) = P((892 -1000)/50 £Z £(1050 -1000)/50)=P(-0.36 £Z£1) = P(Z £1)- P(Z< -0.36) = F(1)+ F(0.36) -1 Þ in Tabelle nachschauen = 0.3413 +0.6406 -1 = Aufgabe 6.10 Firma verschickt Holzkisten mit jeweils 10 Teepackungen. H: Gewicht Holzkiste in kg ~N(5, (0.05)2) T1, …, T 10 : Gewicht der Teepackungen jeweils ~N(6, (0.06) 2). Diese 11 Zufallsgrössen seien stochastisch unabhängig. Also ist das Gesamtgewicht G = H + T 1+…+T10 normalverteilt mit Mittelwert = 65 Varianz= 0.05 2+10(0.06) 2 = (0.01) 2(25+10*36)=(0.01) 2*385 Standardabweichung ~s = 0.2 In 45% aller Fälle liegt das Gesamtgewicht G im Intervall [ m+1.96 s] = Zusammenfassung /Wiederholungen - Variablen und Datenmatrixen, Stichproben (kategorielle, ordinale, numerische Variablen. Siehe Tabelle Seite 1) - Grafische Darstellungen kategorielle / ordinale Variable Stabdiagramme Kuchendiagramme numerische Variablen Empirische Verteilungsfunktion Histogramme Box -Whisker-Plot Beispiel: Datensatz mit n=10 Beständen. Eine numerische Variable mit folgenden Werten: 1. Sortieren: Einfügen HP48 169.5 169.5 <Empirische Verteil ungsfunktion> 183 174 <Histogramm Intervalle L=4> 176 174.5 197.5 176 174 178 <Box -Plot X (1) =169.5, Q 0.25=174.5, Q 0.5= 178.75, Q 0.75= 182.5, X(10) =197.5; 182.5 179.5 modifizierter BOX-Plot benötigt IQR zur Berechnung der Schranke, welche nicht 171.5 181.5 eingezeichnet wird.> 181.5 182.5 178 183 176.5 197.5 (Totalerhebung: Verteilungsfunktio n. Stichprobe: Empirische Verteilungsfunktion Kenngrössen einer numerischen Variable – Lageparameter (Mittelwert x ; Median) – Skalenparameter (Stichprobenstandardabweichung S, IQR) Multivariate Deskription - X un d Y kategoriell Þ c2 (Kontingenztafeln, Kreuzproduktverhältnis) Fˆ ) aˆ + bˆX . Die Regressionskoeffizienten bestammt man nach der - X und Y numerisch: Regression: Approximieren Y durch Methode der kleinsten Quadrate: n bˆ = å( X i =1 n i - X ) * Yi å (X i - X )2 = å ( XY ) - (å ( X ) å (Y ) / n) ; â = Yˆ - bˆX å( X ) - å( X ) / n 2 2 i i =1 Bestimmtheitsmass und Korrelationskoeffizient (Pearson) http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous WS 02 / 03 Notizen Statistik å (Y - â - bˆX =1å (Y - Y ) i R 2 i 2 n i å(y )2 = 1- i - yˆ i ) 2 SQE = å i i i =1 n ( yi - y ) SQT 2 rsp = åR Y Ri - n * ( i n +1 2 ) 2 n+1 å (R ) - n * ( 2 )2 * ... i X i i =1 X i © by Al_Sub et al. 2 = å (rg ( x ) - r g )( rg ( y ) - r g ) å (rg (x ) - r g ) å (rg ( y ) - r g i X i Y 2 i X i Y )2 - X und Y numerisch oder kategorial, ordinal: Ersetze X - und Y-Werte durch die Ränge R x,i und R y,i. Þ Spearman Korrelationskoeffizient r sp= Pearson -Koeffizient mit Rängen an Stelle der Originalwerte. Vereinfachung: Angenommen alle X -Werte sind paarweise verschieden. Dann ist (R X,1 , …, R x, n ) eine Permutiation von (1,2,…,n). In diesem Falle ist n å R 2x, i - n( i= 1 = n n +1 2 n + 1 2 n ( n + 1) ) = å i 2 - n( ) = ( 2(2 n + 1) - 3(n + 1)) 44 43 2 2 12 1444=2 i =1 n -1 n( n 2 - 1) 12 Wenn alle X -Werte pa arweise verschieden sind, dann ist n å R 2x, i - n( i= 1 2 n + 1 2 n (n - 1) ) = 2 12 Wenn alle X -Werte und alle Y-Werte jeweils paarweise verschieden sind, dann ist rsp = åR i n +1 2 ) 2 n (n 2 - 1) / 12 x ,i RY ,i - n( Interpretation von r Pearson und r spearman Spearman bewertet den monotonen Zusammenh ang zwischen X und Y. |r| nahe bei 1: X i ist nahe zu einer monoton wachsenden oder monoton fallenden Funktion von Y i und umgekehrt. Pearson bewertet den linearen Zusammenhang zwischen X und Y. |r| nahe um 1 Þ ( X i, Yi) liegen nahe an einer Geraden mit Steigung ¹ 0. Besprechungen zu den Übungsaufgabe n Wahrscheinlichkeitsrechnung, Laplace -Wahrscheinlichkeiten, Kombinatorik Für ganze Zahlen 0 £k£n ist n n n! . ( ) ist die Anzahl aller k -elementigen Teilmengen von {1,2,…,n} . ( )= k k !(n - k )! k Zeigen Si e, dass folgende Formel gilt: ( N +1 )= k N +1 M -1 å ( k -1 ) M=k Beweis mit Kombinatorik: linke Seite = Anzahl aller k-elementigen Teilmengen von {1,2,…,N+1}. Man kann die Gesamtheit aller k -elementigen Teilmengen in Teilgruppen aufteilen, je nachdem welchen Wert da s grösste Element der Teilmenge hat. Anzahl aller kelementigen Teilmengen von {1,…,N+1} mit Maximum M = Anzahl aller (k -1)-elementigen Teilmengen von {1,2,…,M-1}. M =( M -1 ) Die Möglichen Werte liegen zwischen k und N+1. k -1 o ? http://www.cx.unibe.ch/~duembgen/statwiwi Do not copy – it’s dangerous