Wiederholung und offene Fragen Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2008/09 Standardfehler • Was genau ist der Standardfehler bzw. was sagt er denn überhaupt aus? • Hintergrund – Verteilung mit metrischen Werten • Mittelwert SEMittelwert • Varianz • Standardabweichung ! • Variationskoeffizient • Quasi eine Dimension höher: – Mehrere gleich große Verteilungen mit metrischen Werten (= mehrere Zufallsstichproben einer unbekannten Gesamtheit) • Standardabweichung der Mittelwerte = Standardfehler 11. 12. 2008 1 Standardfehler • Großer Standardfehler= ungenaue Schätzung von des Populationsmittelwerts durch den Stichprobenmittelwert • Je größer der Stichprobenumfang, je kleiner der Standardfehler • Voraussetzung: Stichprobe n≥30, normalverteilt SE Mittelwert = 11. 12. 2008 var n 2 Standardfehler • Wichtig für die Berechnung von Konfidenzintervallen CI = x ± t " SE ! 11. 12. 2008 3 p-Funktionen in R • Was bedeutet es, wenn man in R folgendes hinschreibt: lower.tail = FALSE? • “Linke, untere Ecke der Kurve”: X<=x • In R ist die Standardeinstellung lower.tail=TRUE pnorm(x) =Wahrscheinlichkeit{Normalverteilung} [X<=x] • • • • “Rechter, oberer Teil der Kurve”: X>x Theoretisch: q = 1-p Aber: numerische Ungenauigkeit! Daher direkte Berechnung mit pnorm(x, lower.tail=FALSE) =Wahrschlkt.{Normalvtl.} [X>x] 11. 12. 2008 4 Freiheitsgrade • Was sollen wir über Freiheitsgrade wissen? Oder sollen die Anzahl der Freiheitsgrade für bestimmte Szenarien einfach auswendig lernen? • • • • • Kurz: Anzahl der frei wählbaren Elemente in einer bestimmten Berechnung, zum Beispiel Mittelwert aus 3 Zahlen -> 2 Freiheitsgrade. 1+2+3 / 3 = 2 2+2+2 / 3 = 2 4+2+0 / 3 = 2 Für einzelne Szenarien am Besten sich merken 11. 12. 2008 5 Assocplot • In Kapitel 9 Folie 46: Wie gut müssen wir den assocplot erklären können? • flächenproportionale Darstellung der Abweichungen • Veranschaulichung, ob einzelne Werte größer oder kleiner als erwartet waren • Direkte Analyse der Residuen (Residuals) assocplot(table(KONSTRUKTION, BEKANNTHEIT), col=c("black", "darkgrey")) 11. 12. 2008 6 Assocplot Höhe ist proportional zu Residuals; Breite proportional zu Wurzel der zu erwartenden Häufigkeit; Fläche ist proportional zu Differenz zwischen beobachteter und erwarteter Häufigkeit assocplot(table(KONSTRUKTION, BEKANNTHEIT), col=c("black", "darkgrey")) 11. 12. 2008 7 chisq.test() In Kapitel 9 Folie 47: Warum nicht bei zu kleinen Werten correct = T? Bzw. was ist der Unterschied zu correct = T? • correct=TRUE ist (Yates-) Korrektur der diskreten Verteilung. Sinnvoll bei 15 ≤ n ≤ 60. • correct – a logical indicating whether to apply continuity correction when computing the test statistic for 2x2 tables: one half is subtracted from all |O-E| differences. No correction is done if simulate.p.value = TRUE. • simulate.p.value=TRUE – wenn erwartete Häufigkeiten zu klein 11. 12. 2008 8