Grundlagen empirischer Forschung 04.11. 2011 Korpuslinguistik Heike Zinsmeister WS 2010/11 Grundlagen • Vorbereitung einer empirischen Studie – Allgemeine Beschreibung des zu untersuchenden Phänomens – Literaturstudien – Erkundigungen (z.B. Gespräche mit Kollegen) – Beobachtungen, um induktiv auf allgemeine Regularitäten zu schließen – Deduktive Schlussfolgerungen Hypothesenbildung (nach Gries 2008: 15) 1 Operationalisierung: Beispiel (1) “L2-Lernende verwenden das Vorfeld anders als L1-Sprecher.” – Funktion: Subjekt, Objekt, ... – Kategorie: Nominalphrase, Adverbphrase,.. – “Gewicht” • Wortanzahl • Buchstabenanzahl • Morphemanzahl • Silbenanzahl → Vokalanzahl? • Verhältnis Vorfeld / restlicher Satz 2 Operationalisierung: Beispiel (2) • Festlegung, an welchen beobachtbaren Ereignissen die Variablenausprägungen gemessen werden sollen. – Beispiel.: Länge von Subjekt vs. Objekt (The younger bachelors) ate (the nice little parrot). • Anzahl der Morpheme: 5 vs. 4 • Anzahl Wörter: 3 vs. 4 • Anzahl Buchstaben: 19 vs. 19 (nach Gries 2008:24) 3 Operationalisierung: Beispiel (3) • Beispiel: Informationsstatus von referenziellen Ausdrücken – Hörer-alt • Evoked (Referent ist im Text bereits eingeführt) – Pronomen, vorerwähnte Eigennamen: er, S. Gries • Unused – (Allg. bekannte, aber) nicht-vorerwähnte Eigennamen – Hörer-neu • Brand-new – Eigennamen, die von Relativsatz oder Apposition begleitet werden: Peter Jackson, der Regisseur von „Herr der Ringe“,... (vereinfacht nach Strube&Hahn 1999, basierend auf der Familiarity-Skala von Prince 1981, 92) 4 Ergebnis der Operationalisierung: Variablen • Merkmal (Variable) – ein Symbol für eine Menge von Merkmalsausprägungen – kann in mindestens zwei Abstufungen vorkommen – Bsp.: Kategorie • Merkmalsausprägung (Wertelabel, Level) – Bsp: Nominalphrase (NP), Adverbphrase (AdvP), Präpositionalphrase (PP), Satz (S), ... – Ausprägungen werden in R numerisch erfasst – Wie „gut“ sie in Zahlen erfasst werden können, liegt am Typ der Variable 5 Typen von Variablen: Skalenniveaus Merkmal Beispiel Rechnerische Handhabung Nominal- / Kategorialskala qualitative Eigenschaftsausprägungen Kategorie: NP, AdvP, PP, S Bildung von Häufigkeiten Ordinalskala Rangwert mit Ordinalzahlen Vokabelschwierigkeit: leicht, mittel, schwer Median, Quantile Intervallskala Skala mit gleich großen Abschnitten, ohne Nullpunkt Celsius-Skala: -273..0 ..17,3 ... Subtraktion, Mittelwert Ratioskala (Verhältnisskala) Skala mit gleich großen Abschnitten, mit Nullpunkt • Kontoguthaben ...-500..0..100,34.. • Häufigkeiten eines Wortes in verschiedenen Subkorpora eines Korpus: 0,...70... Summe, Division, Multiplikation Skala Nichtmetrische Skala Metrische Skalen Wertebereich einer Ratioskala: • ganze Zahlen / rationale Zahlen, ... 11.11.2010 • Minimum / Maximum (frei nach Backhaus et al. 2006: 6) 6 Hypothesen allgemein • Aussagen oder Behauptungen über – eine Variable – Die Beziehung(en) zwischen zwei oder mehr Variablen in einem bestimmten Kontext • Nullhypothese H0 – (Normalerweise) zu falsifizieren • Alternativhypothese H1 – (Normalerweise) die Hypothese, für die man Evidenz sucht 7 Ungerichtete Alternativhypothese • Nullhypothese – H0: die Länge des Objekts (gemessen in Morphemen) unterscheidet sich nicht von der Länge des Subjekts. – lobjekt = lsubjekt • Ungerichtete Alternativhypothese – H1: die Länge des Objekts (gemessen in Morphemen) unterscheidet sich von der Länge des Subjekts. – lobjekt ≠ lsubjekt 8 Gerichtete Alternativhypothese • Nullhypothese – H0: die Länge des Objekts (gemessen in Morphemen) unterscheidet sich nicht von der Länge des Subjekts. – lobjekt = lsubjekt • Gerichtete Alternativhypothese – H1: die Länge des Objekts (gemessen in Morphemen) ist länger als die Länge des Subjekts. – lobjekt > lsubjekt 9 Datensets • Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) – H1: die Länge des Objekts (gemessen in Morphemen) ist länger als die Länge des Subjekts. • Fragen 1. Was sind die Variablen (deren Ausprägungen)? 2. Gibt es unabhängige Variablen? 3. Gibt es abhängige Variablen? 10 Datensets • Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Länge: 1 Länge: 2 Länge: 3 Länge: 4 Funktion: ⎮⎮⎮⎮ Subjekt ⎮⎮ ⎮⎮ ⎮⎮ Funktion: ⎮⎮ Objekt ⎮⎮⎮ ⎮⎮⎮⎮⎮ ⎮⎮⎮ 11 Datensets • Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Länge: 1 Länge: 2 Länge: 3 Länge: 4 Funktion: ⎮⎮⎮⎮ Subjekt ⎮⎮ ⎮⎮ ⎮⎮ Funktion: ⎮⎮ Objekt ⎮⎮⎮ ⎮⎮⎮⎮⎮ ⎮⎮⎮ Ungünstiges Format: keine eindeutige Zeilen- oder Spalteninterpretation 12 Datensets • Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Fall Funktion Länge 1 Subjekt 1 2 Objekt 3 3 Subjekt 2 4 Subjekt 1 5 Objekt 1 6 Subjekt 2 Besseres Format: • Spalten= Variablen • Zeilen= untersuchte Elemente 13 Datensets • Beispiel: Erhebung der Länge von Subjekten und Objekten (in Morphemen) Fall Satz-ID Funktion Länge 1 1 Subjekt 1 2 1 Objekt 3 3 2 Subjekt 2 4 3 Subjekt 1 5 3 Objekt 1 6 4 Subjekt 2 Erweitertes Format 14 Referenzen • Stefan Th. Gries. 2008. Statistik für Sprachwissenschaftler. Vandenhoeck & Ruprecht. – Kapitel 1 und 3. • Andere: – K. Backhaus, W. Plinke und B. Erichson. 2006. Multivariate Analysemethoden – Eine anwendungsorientierte Einführung, Berlin: Springer. – Ellen F. Prince. 1981. Toward a taxonomy of given-new information. In Peter Cole (Hrsg.) Radical Pragmatics. New York: Academic Press. 223–255. – Ellen F. Prince. 1999. How not to mark topics: ‘Topicalization’ in English and Yiddish. 8 Texas Linguistics Forum. – Lothar Sachs und Jürgen Hedderich. 2009. Angewandte Statistik, Berlin: Springer. 1-2 – Michael Strube und Udo Hahn. 1999. Functional Centering Grounding Referential Coherence in Information Structure. Computational Linguistics, Volume 25, Number 3, September 1999. 309 - 344. 15