Statistische Methoden in der Korpuslinguistik Musterlösung 2 Aufgabe 2-1 Leseaufgabe. Aufgabe 2-2 2-2-a. Die Nullhypothese: Es besteht keine Korrelation zwischen der Position einer NP auf der einen Seite und der Funktion und Definitheit der NP auf der anderen Seite. Die Alternativhypothese: Es besteht eine Korrelation zwischen der Position einer NP auf der einen Seite und der Funktion und Definitheit der NP auf der anderen Seite. Die Alternativhypothese H1 ist ungerichtet (two-tailed ) 2-2-b. Variable Grammatische Funktion Definitheit Position im Satzfeld 0.1 Ausprägung Subjekt/Objekt definit/indefinit/pronominal Vorfeld / Mittelfeld Type nominal kategorial nominal Abhängigkeit unabhängig uinabhängig abhängig 2-2-c. Index 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Satz s1 s1 s2 s2 s4 s6 s8 s10 s11 s12 s13 s14 s15 s15 s16 s17 Grammatische Funktion SUBJ OBJ OBJ SUBJ SUBJ SUBJ SUBJ SUBJ SUBJ SUBJ SUBJ SUBJ SUBJ OBJ SUBJ SUBJ Definitheit Definit Indefinit Pronominal Pronominal Indefinit Pronominal Pronominal Definit Definit Indefinit Pronominal Indefinit Pronominal Indefinit Indefinit Pronominal 1 Satzfeld des Auftretens Vor Mittel Vor Mittel Mittel Mittel Vor Vor Mittel Mittel Mittel Mittel Mittel Mittel Mittel Vor Aufgabe 2-3 Fall 1 2 3 4 5 6 7 8 Verb bedrohen beleidigen einliefern eröffnen impfen suchen schreiben überschwemmen Häufigkeit der Verwendung im Passiv (von 100) 53 70 97 90 77 62 12 80 Einlesen der Datenstruktur: VERBS<-c("bedrohen", "beleidigen", "einliefern", "eroeffnen", "impfen", "suchen", "schreiben", "ueberschwemmen") FREQ<-c(53,70,97,90,77,62,12,80) data <- data.frame(VERBS,FREQ) 2.3-a. Mittelwert mean(FREQ) [1] 67.625 2-3-b. Median median(FREQ) [1] 73.5 2-3-c. Quartilen quantile(FREQ) 0% 25% 50% 75% 100% 12.00 59.75 73.50 82.50 97.00 Kommentar: Die Quartilen werden über die Defaulteinstellung der Funktion quantile() ermittelt. Zusatz: Zusammenfassende Statistik summary(FREQ) Min. 1st Qu. 12.00 59.75 Median 73.50 Mean 3rd Qu. 67.62 82.50 Max. 97.00 2-4-d. Bewertung Der Mittelwert reflektiert die zentrale Tendenz der Verteilung nicht richtig. Der Mittelwert ist duch Ausreißer 12 nach unten gesunken, und ist demzufolge wenig repräntativ für die Mehrheit der Werte. Der Median scheint ein besserer Zentralwert für die allgemeine Verteilung zu sein. 2