Lehrmaterial Statistik 2 1. Vorlesung, September 8, 2010 Art des Unterrichtes Vorlesung (einbezüglich Musteraufgaben und deren Lösung) einmal 2 Stunden in jeder zweiten Woche (Mi 8.00-9.30). Praktikum: in 2 Gruppen je 2 Stunden in jeder Woche Bitte bringen Sie Taschenrechner mit! Statistische Untersuchung: Grundgesamtheit Wir möchten genaue Ergebnisse bekommen durch eine repräsentative Stichprobe. Daten können je nach Erfassung Bewegungsmassen (entsprechen einer Zeitintervall: z.B.: alle Besucher unser Hotels in 2005) oder Bestandmassen (entsprechen einen Zeitpunkt: Besucher unser Hotels am 31.12.2005) sein. Das Grundgesamtheit besteht aus Merkmalsträgern, die mehrere Merkmale aufweisen können (Alter, Einkommen, Geschlecht usw). Die Merkmalswerte (Merkmalausprägungen) sind unsere Beobachtungen. Literatur: Götze-Deutschmann-Link: Statistik (Kap. 3 und Teile aus Kap. 1,2,5) +Aufgaben+Mündliche/schriftliche Ergänzungen Thema: Schliessende Statistik (Entscheidungen zu treffen aufgrund der Stichprobe) Bewertung am Ende des Semesters Während der Semester werden 2 Klausuren geschrieben (Maximales Punktenzahl be beiden Klausuren:60). Man braucht mindestens 30 Punkte aus beiden Klausuren um Statistik 2 zu bestanden. Auf jeden Vorlesung (von 2ten) werden Blitzfragen gestellt, womit Sie können Punkte bekommen zur Prüfung. Die Noten werden aufgrund der Klausuren und extra Punkten (maximales Punktenzahl:ca. 130) vorausgesehen wie folgendes ausgerechnet: Punkten 0-59 60-71 72-83 84-95 96-130 Note 1 2 3 4 5 Falls jemand hat an die Praktiken teligenommen, aber hat die nötige Punktenzahl nicht erreicht, darf während der Prüfungszeit höchstens drei Mal (Nach)prüfung schreiben. Der Material der Vorlesungen und die Praktiken wird an der üblichen Web-Seite: www.cs.elte.hu/~zempleni/statistik.htm veröffentlicht. Zufallsstichproben Bei Zufallsstichproben nähert sich die Verteilung der Variablen in der Stichprobe der Verteilung in der Grundgesamtheit an Je größer die Stichprobe und je homogener die Grundgesamtheit, desto besser die Annäherung Der Stichprobenfehler kann bei Zufallsstichproben berechnet werden. Das heisst, es können Intervalle angegeben werden, innerhalb derer der gesuchte Wert der Grundgesamtheit mit einer gewissen Wahrscheinlichkeit zu finden ist. 1 Zufallsstichprobe Reine Zufallsstichprobe: alle Stichprobenelemente werden in einem Schritt per Zufall ermittelt Systematische Zufallsstichprobe: Geschichtete Stichprobe-beispiel nur das erste Stichprobenelement wird per Zufall ermittelt alle übrigen Elemente werden - ausgehend von diesem systematisch ermittelt (z.B. „jeder zwanzigste Fall“) zweistufiger Auswahlverfahren: Geschichtete Stichprobe. Elemente der Auswahlgesamtheit werden in Gruppen (Schichten) eingeteilt; aus allen Schichten werden getrennt Zufallsstichproben gezogen werden. Stichprobenausfälle Unterscheidung Item-Nonresponse (nur etliche Fragen sind nicht beantwortet) Unit-Nonresponse (überhaupt kein Information vom Testperson) Aufteilung (Unit-Nonresponse) Nicht-Befragbare („unable-to-answers“) Schwer-Erreichbare („not-at-homes“) Verweigerer („refusals“) Hängt Grund des Ausfalls mit untersuchten Variablen zusammen? Unsystematische (stichprobenneutrale) Ausfälle sind weitgehend unproblematisch. Systematische Ausfälle (Grund des Ausfalls hängt mit den untersuchten Variablen zusammen) gefährden die Repräsentativität. Typisierung Mit einer sinnvoll geschichteten Stichprobe lassen sich kleinere Stichprobenfehler erzielen, wenn sich die Verteilung des Merkmals in den einzelnen Schichten unterscheidet. Hypothetisches Beispiel: In einer Gesellschaft leben 50% Männer und 50% Frauen. Alle Männer verfügen über ein Monatseinkommen von 2000 Eur, alle Frauen über ein Einkommen von 1000 Eur (Streuung in den Schichten gleich null). Bei einer einfachen Stichprobe, mit der das Durchschnittseinkommen der Gesellschaft bestimmt werden soll, kommt es zu Stichprobenfehlern (Anteil der Männer/Frauen schwankt zufällig um den wahren Wert). Wird eine geschichtete Stichprobe gezogen, ist der Stichprobenfehler gleich null. Wiederholung: Skalierung der Merkmalen • Nominalskaliert (nur Gleichheit oder Ungleichheit kann man untersuchen: Geschlecht, Farben usw) • Ordinalskaliert: es gibt eine natürliche Ordnung (Qualität), aber differenzen zwischen die Nachbarwerte sind nicht zu berechnen. • Intervallskaliert (Temperaturen: Differenz ist zu rechnen, aber dividieren ist nicht zu empfehlen) • Kardinalskaliert/Verhältnisskaliert: man kann alle mathematische Funktionen berechnen (gemessene Daten, Anzahl usw…) Mittelwerte/Lagemasse: der Daten Diskret (natürliche Zahlen sind die Werte: Stückzahl) Stetig: die Werte sind reelle Zahlen: z. B.Temperatur der Analyse Querschnittanalyse: Vielzahl der Merkmalsträger ist untersucht Längschnittanalyse: wiederholte Beobachtungen an dem selben Merkmalsträger (Zeitreihen) Median Modus Arithmetisches Mittel (es gibt 0 für zentrierte Daten). Arithmetisches Mittel is empfindlich für Extremwerte. Beispiel (Reisezeiten in Minuten in einer Studentengruppe): (10x10+10x30+1700)/21=100, (10x10+10x30)/20=20 2 Rechtsteile/linkssteile Verteilungen -6 -5 -4 -3 -2 -1 0 0 1 2 3 4 5 6 Der Wert xα, für den 100α% aller Beobachtungen ist kleiner , als xα und 100(1-α)% aller Beobachtungen ist grösser als xα wo x(1) ≤ x(2) ≤...≤ x(n) ist die grösse nach geordnete Stichprobe. Graphisch: von der Summenkurve ablesbar. Jetzt y ist gegeben, und x ist gesucht. 0.6 0.8 1.0 x( nα ) nα gebrochen xα = ( x( nα ) + x(nα +1) ) / 2 nα ganz rel.kum.Hfg. Für rechtssteile: Arithmetisches Mittel< Median Für linkssteile: Arithmetisches Mittel> Median Für symmetrische: Arithmetisches Mittel≈ Median 0.4 0.3 0.2 0.1 0.0 0.2 0.0 0.1 0.3 0.2 L in k s s te il 0.0 R e c h ts s te il α-Quantile 50 100 150 200 Gehalt (TFt) Beispiel Streumasse (Streuungsmasse) α=0,75 oder α=0,25 heisst Quartile (obere und untere) Quantile sind berechnbar auch für klassierte (klassifizierte) Daten von Angestellten: Gehaltklasse (TFt/Monat) 40-80 80-120 Hfgkeit 26 Rel. Kum. Hfg. 0,26 34 0,6 120-160 160-240 32 0,92 8 1 Für den oberen Quartil, y=0,75: (x-120)/(160-120)= (y-0,6)/(0,92-0,6) Also: x=x0.75 =138,75 TFt. Der untere Quartil ist x0,25 =78,5 TFt Konzentrationsmessung Relativ: was für ein Anteil des Umsatzes gehört zu einen gegebenen Teil aller Unternehmen? Die Lorenz-Kurve gibt die Antwort für verschiedene Teile. Spannweite: x(n) -x(1) Quartilabstand: x0,75 -x0,25 (Ausbreitung der mittleren 50% der Beobachtungen) Varianz: s2 Standardabweichung: s Variationskoeffizient (Relative Streuung) s/ x Absolute Konzentration Nicht die Merkmalausprägungen, sondern die Anzahl der Merkmalsträger und deren (Markt)anteil ist untersucht. Herfindahl-Index: n H = ∑ pi 2 i =1 wo pi ist die Marktanteil der einzelnen Unternehmen Beispiel: 2 gleich grosse Unternehmen: H=1/2 n gleich grosse Unternehmen: H=1/n. 3 Stetige Verteilungen Standard Normalverteilung für die Standard Normal Verteilung 0.4 0.3 Der Erwartungswert: „mittlere Wert” ∞ E ( X ) = ∫ xf ( x) dx =0 f(x) −∞ Die Varianz: ∞ 0.1 0.2 Dichtefunktion: f(x) (grösser gleich Null, der Fläche unter f(x)=1) 0.1 f(x) 0.3 Dichtefunktion von Gamma-Verteilung 0.2 Dichtefunktion von Standard Normal Verteilung zur Beschreibung stetige Merkmale (Umsatz, Wartezeit, Distanz usw) Var ( X ) = ∫ (x − E ( X ) ) 2 −∞ 2 4 6 -4 8 -2 Normalverteilung Parametern: (µ,σ)= (Erwartungswert, Streuung) 0.8 0.6 f ( x )dx − (E ( X ) ) = 1 2 0 2 4 Wahrscheinlichkeitsrechnung Dichtefunktion von verschiedene Normal Verteilungen (0,2) (1,2) (0,0.5) 0.2 Diese sind alle symmetrische Funktionen Die Summe von unabhängigen normalverteilten Zufallsvariablen ist wieder normalverteilt. Erwartungswert: m=m1+...+mn. Varianz: σ2=σ12+...+σn2. Mit Tabelle (oder Computer): z.B. für die Standard Normal Verteilung P(X>2)=0.023, P(X>3)=0.0014 Ebenso für N(m, σ) P(X-m>2σ)=0.023, P(X-m >3σ)=0.0014 Aus der symmetrie: P(|X-m|>2σ)=0.046, P(|X-m|>3σ)=0.0028 (zentrale Schwankungsintervalle) 0.0 f(x) 2 x x 0.4 ∫x −∞ für die Standard Normal Verteilung 0.0 0.0 0 ∞ f ( x)dx = -5 0 5 Grenzwertsatz Wenn Yn ist die Summe von unabhängigen, identisch verteilten Zufallsvariablen: Yn=X1+...+Xn Z n := Anwendungen X 1 + ... + X n − nm nσ E(Xi)=m, D(Xi)=σ dann für die standardisierte Variable Zn : X + ... + X n − nm P 1 < z → Φ( z ) nσ also die Verteilung von Zn kann man mit der Standard Normal Verteilung nähern, falls n ist gross genug. Ebenso, die Verteilung von Yn kann man mit der Normalverteilung nähern. für Merkmale, die durch mehrere additive Faktoren beeinflusst sind: Körpergrösse, Füllgewicht eines Zuckertütes, Intelligenzquotient, Benzinverbrauch usw. Aber nicht alle Zufallsgrössen sind Normalverteilt: Lebensdauer, Einkommen usw. sind linkssteil (nicht symmetrisch) und so nicht Normalverteilt. Aber wenn man Durchschnitt bildet von diese Zufallsgrössen, dann wegen den Grenzwertsatz es liegt nahe zur Normal Verteilung. n>30 ist im allgemein gross genug zu einen guten Approximation. 4