Wiederholung und offene Fragen

Werbung
Wiederholung und offene Fragen
Statistische Methoden in der Korpuslinguistik
Heike Zinsmeister
WS 2008/09
Standardfehler
• Was genau ist der Standardfehler bzw. was sagt er
denn überhaupt aus?
• Hintergrund
– Verteilung mit metrischen Werten
• Mittelwert
SEMittelwert
• Varianz
• Standardabweichung
!
• Variationskoeffizient
• Quasi eine Dimension höher:
– Mehrere gleich große Verteilungen mit metrischen Werten (=
mehrere Zufallsstichproben einer unbekannten Gesamtheit)
• Standardabweichung der Mittelwerte = Standardfehler
11. 12. 2008
1
Standardfehler
• Großer Standardfehler= ungenaue Schätzung
von des Populationsmittelwerts durch den
Stichprobenmittelwert
• Je größer der Stichprobenumfang, je kleiner
der Standardfehler
• Voraussetzung: Stichprobe n≥30,
normalverteilt
SE Mittelwert =
11. 12. 2008
var
n
2
Standardfehler
• Wichtig für die Berechnung von
Konfidenzintervallen
CI = x ± t " SE
!
11. 12. 2008
3
p-Funktionen in R
• Was bedeutet es, wenn man in R folgendes
hinschreibt: lower.tail = FALSE?
• “Linke, untere Ecke der Kurve”: X<=x
• In R ist die Standardeinstellung lower.tail=TRUE
pnorm(x) =Wahrscheinlichkeit{Normalverteilung} [X<=x]
•
•
•
•
“Rechter, oberer Teil der Kurve”: X>x
Theoretisch: q = 1-p
Aber: numerische Ungenauigkeit!
Daher direkte Berechnung mit
pnorm(x, lower.tail=FALSE) =Wahrschlkt.{Normalvtl.} [X>x]
11. 12. 2008
4
Freiheitsgrade
• Was sollen wir über Freiheitsgrade wissen? Oder
sollen die Anzahl der Freiheitsgrade für bestimmte
Szenarien einfach auswendig lernen?
•
•
•
•
•
Kurz: Anzahl der frei wählbaren Elemente in einer
bestimmten Berechnung, zum Beispiel Mittelwert aus
3 Zahlen -> 2 Freiheitsgrade.
1+2+3 / 3 = 2
2+2+2 / 3 = 2
4+2+0 / 3 = 2
Für einzelne Szenarien am Besten sich merken
11. 12. 2008
5
Assocplot
• In Kapitel 9 Folie 46: Wie gut müssen wir den
assocplot erklären können?
• flächenproportionale Darstellung der
Abweichungen
• Veranschaulichung, ob einzelne Werte größer
oder kleiner als erwartet waren
• Direkte Analyse der Residuen (Residuals)
assocplot(table(KONSTRUKTION, BEKANNTHEIT), col=c("black",
"darkgrey"))
11. 12. 2008
6
Assocplot
Höhe
ist
proportional
zu
Residuals;
Breite
proportional
zu
Wurzel
der
zu
erwartenden
Häufigkeit;
Fläche
ist
proportional
zu
Differenz
zwischen
beobachteter
und
erwarteter
Häufigkeit
assocplot(table(KONSTRUKTION, BEKANNTHEIT), col=c("black",
"darkgrey"))
11. 12. 2008
7
chisq.test()
In Kapitel 9 Folie 47: Warum nicht bei zu kleinen
Werten correct = T? Bzw. was ist der Unterschied zu
correct = T?
• correct=TRUE ist (Yates-) Korrektur der diskreten
Verteilung. Sinnvoll bei 15 ≤ n ≤ 60.
• correct
– a logical indicating whether to apply continuity correction
when computing the test statistic for 2x2 tables: one half is
subtracted from all |O-E| differences. No correction is done if
simulate.p.value = TRUE.
• simulate.p.value=TRUE
– wenn erwartete Häufigkeiten zu klein
11. 12. 2008
8
Herunterladen