Analytische Statistik I Statistische Methoden in der Korpuslinguistik Heike Zinsmeister WS 2009/10 Testen • Anpassungstests (goodness of fit) – Weicht eine gegebene Verteilung signifikant von einer bekannten Verteilung ab? – Weicht der Mittelwert oder die Standardabweichung einer gegebenen Stichprobe signifikant von einem anderweitig gegebenen Mittelwert oder Standardabweichung ab? • Unterschiedstests – Weicht eine gegebene Verteilung signifikant von einer anderen ebenfalls gegebenen Verteilung ab? 20. 01. 2010 1 Vorüberlegungen • Testen über das Bilden einer Nullhypothese H0, die widerlegt werden soll • der statistische Test erzeugt eine TestStatistik mit bekannter Verteilung • Idee – H0 nimmt an, dass die Teststatistik keinen extremen Wert annimmt – Hypothese H1 nimmt an, dass die Teststatistik einen extremen Wert annimmt – extrem = weit außen in den Rändern/Flügeln der Distribution 20. 01. 2010 2 Vorüberlegungen • "weit draußen" – p-Wert: Wahrscheinlichkeit aller summierten Teststatistik-Werte vom statistischen Prüfwert q bis zum Ende der Kurve (bzw. Fläche unter der Kurve) • Irrtumswahrscheinlichkeit, dass fälschlicherweise H1 angenommen wird – Festlegung: Signifikanzniveau α • p=0.05 (95%) • p=0.01 (99%) • p=0.001 (99,9%) 20. 01. 2010 3 Normalverteilung library(languageR) shadenormal.fnc(qnts= 20. 01. 2010 c(0.025,0.975)) 4 Schätzen des Mittelwerts • Problem: die Varianz eines Merkmals in der Grundgesamtheit ist unbekannt • Vorgehen: Schätzen aufgrund von einer Stichprobenvarianz • Beobachtung: der standardisierte Mittelwert normalverteilter Daten ist bei dieser Schätzung nicht mehr normalverteilt, sondern weist für kleine Werte des Parameters n eine größere Breite und Flankenbetonung ⇒ der Mittelwert ist t-verteilt (“Students t-Verteilung”) • Hypothesentests, bei denen die t-Verteilung Verwendung wird: verschiedene “t-Tests” 20. 01. 2010 5 t-Verteilung 20. 01. 2010 Code: siehe ab Folie 9. df = degrees of freedom. Anzahl der frei veränderbaren Parameter. Hier: n-1 6 t-Verteilung 20. 01. 2010 7 t-Verteilung 20. 01. 2010 8 t-Verteilung • mit zunehmender Anzahl an Freiheitsgraden df (d.h. veränderbaren Parametern), nähert sich die t-Verteilung der Normalverteilung an • ab df>30 ist der Unterschied redundant • das heißt, ab einer Datengrundlage von mehr als 30 Dateneinheiten können selbst bei unbekannter Varianz Tests verwendet werden, die auf der Normalverteilung basieren. 20. 01. 2010 9 Code für die t-Verteilungsfolien x=seq(-6,6,0.1) # Intitialisierung # par(mfrow=c(2,2)) # mehrere Diagramme y1=dt(x,2) # df=2 # 1. Diagramm plot(x,y1, xlab="x", ylab="Dichte", ylim=c(0,0.4), type="l", main="t-Verteilung (df=2)") # 2. Diagramm plot(x,y1, xlab="x", ylab="Dichte", ylim=c(0,0.4), type="l", main="t-Verteilung (df=2,df=5)") y2=dt(x,5) # df=5 lines(x,y2, type="l", lty= 2) # lty: line type # 3. Diagramm plot(x,y1, xlab="x", ylab="Dichte", ylim=c(0,0.4), type="l", main="t-Verteilung (df=2,df=5 vgl.dnorm)") lines(x,y2, type="l", lty= 2) y3=dnorm(x) # vgl. Normalverteilung lines(x,y3, type="l", lty= 3) 20. 01. 2010 10 Anpassungstest • Fall 1 – eine abhängige Variable auf Verhältnisniveau – Test: sind die Daten normalverteilt? – Methode • Shapiro-Wilk-Test, shapiro.test() • Ablaufschema 1. Formulieren der Hypothesen 2. Graphische Betrachtung 3. Ermittlung der Prüfstatistik W und der Irrtumswahrscheinlichkeit p 20. 01. 2010 11 Anpassungstest: Fall 1 • Beispiel: • eine abhängige Variable auf Verhältnisniveau • Normalverteilung? – Spracherwerbsdaten des Russischen zur Aspekthypothese (vgl. Stoll und Gries, Ms.) • anfänglich starke Korrelation von Präsens und imperfektivem Aspekt sowie Präteritum und perfektivem Aspekt – Frage: wie entwickelt sich das Korrelationsmaß über die Zeit? – Test: sind die Korrelationsmaße von 117 Aufnahmen normalverteilt? 20. 01. 2010 12 Anpassungstest: Fall 1 • Hypothesen • eine abhängige Variable auf Verhältnisniveau • Normalverteilung? – H0: Die Datenpunkte weisen eine Normalverteilung auf; W = 1. – H1: Die Datenpunkte weisen keine Normalverteilung auf; W ≠ 1 . 20. 01. 2010 13 Anpassungstest: Fall 1 Graphische Betrachtung: • eine abhängige Variable auf Verhältnisniveau • Normalverteilung? # Datei: /Users/cluser/Korpuslinguistik/_sflwr/_inputfiles/g_data_chapters_1-5/041-1-1_tempus-aspekt.txt Russisch=read.table(file=file.choose(), header=T) attach(Russisch) hist(TEMPUS_ASPEKT, xlim=c(0, 1), freq=F, xlab="Tempus-Aspekt-Korrelation", ylab="Dichte", main="") 14 20. 01. 2010 lines(density(TEMPUS_ASPEKT)) Anpassungstest: Fall 1 • eine abhängige Variable auf Verhältnisniveau • Normalverteilung? • Prüfstatistik shapiro.test(TEMPUS_ASPEKT) Shapiro-Wilk normality test data: TEMPUS_ASPEKT W = 0.9942, p-value = 0.9132 p>0.05 H0 gilt: Daten sind normalverteilt H1 darf nicht angenommen werden 20. 01. 2010 15 Anpassungstest: Fall 1 • eine abhängige Variable auf Verhältnisniveau • Normalverteilung? • Schriftliche Zusammenfassung der Ergebnisse – "Die Verteilung der Cramers V-Werte [des Korrelationsmaßes] für die Tempus-AspektKorrelation bei diesem Kind weicht gemäß einem Shapiro-Wilk-Test nicht signifikant von der Normalverteilung ab: W= 0,9942; p = 0,9132." (nach Gries 2008: 156) 20. 01. 2010 16 Weiterer Test auf Normalverteilung • Quantile-quantile Plot – Quantilen der Standardnormalverteilung auf der xAchse – Quantilen der beobachteten Verteilung auf der yAchse – Bei Normalverteilung bildet Plot eine diagonale Linie (unabhängige von Mittelwert und Standardabweichung) – ermöglicht eine intuitive "positive" Überprüfung von Normalverteilung, ersetzt aber nicht einen statistischen Test 20. 01. 2010 17 Weiterer Test auf Normalverteilung qqnorm(TEMPUS_ASPEKT) qqline(TEMPUS_ASPEKT) • Unsere Beispieldaten: 20. 01. 2010 18 Anpassungstest: Fall 2 • Fall 2 – eine abhängige Variable auf Nominal- oder Kategorialniveau – Frage: sind zwei Ausprägungen einer Variable gleich häufig? – Test: sind die Daten so verteilt, dass sie einer bekannten Verteilung entsprechen? – Methode: • Chi-Quadrat-Test; chisq.test() 20. 01. 2010 19 Anpassungstest: Fall 2 • Methode: Chi-Quadrat-Test; chisq.test() • Voraussetzungen – Alle Beobachtungen sind von einander unabhängig – 80% der erwarteten Häufigkeiten sind größer oder gleich 5 – Alle erwarteten Häufigkeiten sind größer als 1 20. 01. 2010 20 Anpassungstest: Fall 2 • • Methode: Chi-Quadrat-Test; chisq.test() Ablaufschema 1. Formulierung der Hypothesen 2. Tabellierung der beobachteten Häufigkeiten; graphische Betrachtung 3. Ermitteln der Häufigkeiten, die gemäß H0 zu erwarten wären. 4. Testen der Voraussetzungen 5. Berechnen der Abweichungsmaße für alle beobachteten Häufigkeiten 6. Summierung der Abweichungsmaße zur Ermittlung der Prüfstatistik χ2 7. Ermittlung der Freiheitsgrade df und der Irrtumswahrscheinlichkeit p 20. 01. 2010 21 Anpassungstest: Fall 2 • Beispiel – Worstellungsalternation a. He picked up the book Verb-Partikel-direktes_Objekt b. He picked the book up Verb-direktes_Objekt-Partikel • Frage – Beide Konstruktionen werden von vielen für bedeutungsgleich gehalten. Sind sie gleich häufig? 20. 01. 2010 22 Anpassungstest: Fall 2 • Hypothesen • eine abhängige Variable auf Nominal-/Kategorialniveau • Chi-Quadrat-Verteilung? – H0: Die Häufigkeit der Variablenausprägungen der Variable Konstruktion sind identisch; die Variation in der gezogenen Stichprobe ist zufällig. – H1: Die Häufigkeiten der Variablenausprägungen der Variable Konstruktion sind nicht identisch; die Variation in der Stichprobe ist nicht zufällig. • In statistischer Form: – H0: nV PART DO = n V DO PART – H1: nV PART DO ≠ n V DO PART 20. 01. 2010 23 Anpassungstest: Fall 2 • eine abhängige Variable auf Nominal-/Kategorialniveau • Chi-Quadrat-Verteilung? • Tabellierung der beobachteten Häufigkeiten • Experiment – Beschreibungen von Bildern (Peters 2001) Verb-Partikel-direktes_Objekt Verb-direktes_Objekt-Partikel 247 150 pie(VPCs, labels=c("VerbPartikel-Direktes Objekt", "Verb-Direktes Objekt20. 01. 2010 Partikel")) 24 Anpassungstest: Fall 2 • eine abhängige Variable auf Nominal-/Kategorialniveau • Chi-Quadrat-Verteilung? • Ermitteln der Häufigkeiten, die gemäß H0 zu erwarten wären. Verb-Partikel-direktes_Objekt Verb-direktes_Objekt-Partikel 198,5 198,5 • In R: VPCs.erw<-rep(sum(VPCs)/length(VPCs), length(VPCs)) • Testen der Voraussetzungen: OK 20. 01. 2010 25 Anpassungstest: Fall 2 • • eine abhängige Variable auf Nominal-/Kategorialniveau • Chi-Quadrat-Verteilung? Berechnen der Abweichungsmaße für alle beobachteten Häufigkeiten und Summierung der Abweichungsmaße zur Ermittlung der Prüfstatistik χ2 beobachtet " erwartet ) ( 2 Chi " Quadrat = # = $ i=1 erwartet n • 2 In R: sum(((VPCs-VPCs.erw)^2)/VPCs.erw) ! • ca. 23,7 20. 01. 2010 26 Einschub: Werte von χ2 • Große Abweichung – höherer Chi-Quadrat-Wert • Keine Abweichung – Chi-Quadrat-Wert = 0 • Statistische Hypothesen - reformuliert – H0: χ2 = 0. – H1: χ2 > 0. 20. 01. 2010 27 Anpassungstest: Fall 2 • eine abhängige Variable auf Nominal-/Kategorialniveau • Chi-Quadrat-Verteilung? • Interpretation des Chi-Quadrat-Werts • Ermittlung der Freiheitsgrade df und der Irrtumswahrscheinlichkeit p • df =1 • Kritische χ2-Werte für pzweiseitig df=1 df=2 df=3 20. 01. 2010 p=0,05 3,841 5,991 7,815 p=0,01 6,635 9,21 11,345 p=0,001 10,827 13,815 16,266 28 Kritische Werte in R erstellen # ermittle den kritischen Chi-Quadrat-Wert fuer p=0,05, 0,01 und 0,001 (bei df=1) qchisq(c(0.05, 0.01, 0.001), 1, lower.tail=F) [1] 3.841459 6.634897 10.827566 # ermittle die kritischen Chi-Quadrat-Wert fuer p=0,05, 0,01 und 0,001 (bei df=1, df=2 und df=3) p.werte<-matrix(rep(c(0.05, 0.01, 0.001), 3), byrow=T, ncol=3) df.werte<-matrix(rep(1:3, 3), byrow=F, ncol=3) qchisq(p.werte, df.werte, lower.tail=F) [,1] [,2] [,3] [1,] 3.841459 6.634897 10.82757 [2,] 5.991465 9.210340 13.81551 [3,] 7.814728 11.344867 16.26624 (Gries 2008: 160) 20. 01. 2010 29 Anpassungstest: Fall 2 • Interpretation des Ergebnisses – 23,7 > 10,827 – Ablehnung der Nullhypothese "Die Verteilung der beiden Konstruktionen weicht gemäß einem Chi-Quadrat-Anpassungstest hoch signifikant von der erwarteten Gleichverteilung ab (χ2 =23,7; df= 1; pzweiseitig < 0,001): Die Konstruktion V-PTK-DO wurde 247 Mal beobachtet, obwohl sie nur 199 Mal erwartet wurde. Die Konstruktion V-DO-PTK wurde nur 150 Mal beobachtet, obwohl sie 199 Mal erwartet wurde." (nach Gries 2008: 161) 20. 01. 2010 30 Der Chi-Quadrat-Test in R • Ermittlung des genauen p-Werts in R pchisq(23.7, 1, lower.tail=F) [1] 1.125825e-06 • Der eigentliche Test chisq.test(VPCs, p=c(0.5, 0.5)) Chi-squared test for given probabilities data: VPCs X-squared = 23.7003, df = 1, p-value = 1.126e06 20. 01. 2010 31 Der Chi-Quadrat-Test in R • Ermittlung der gesamten Information von chisq.test() test<-chisq.test(VPCs, p=c(0.5, 0.5)) str(test) • Daraus abgeleitet: die erwarteten Häufigkeiten test$expected [1] 198.5 198.5 20. 01. 2010 32 Schlusskommentar • Der Chi-Quadrat-Test ist ein zweiseitiger Test • Bei df=1 ist auch ein einseitiger Test möglich – durch Halbierung des pchisq()-Werts • Analoger Test für relative Häufigkeiten: prop.test() – Test auf signifikante Abweichungen einer relativen Häufigkeit zu einer erwarteten relativen Häufigkeit 20. 01. 2010 33