Grundlagen empirischer Forschung

Werbung
Grundlagen empirischer Forschung
04.11. 2011
Korpuslinguistik
Heike Zinsmeister
WS 2010/11
Grundlagen
•  Vorbereitung einer empirischen Studie
–  Allgemeine Beschreibung des zu untersuchenden
Phänomens
–  Literaturstudien
–  Erkundigungen (z.B. Gespräche mit Kollegen)
–  Beobachtungen, um induktiv auf allgemeine
Regularitäten zu schließen
–  Deduktive Schlussfolgerungen
Hypothesenbildung
(nach Gries 2008: 15)
1
Operationalisierung: Beispiel (1)
“L2-Lernende verwenden das Vorfeld anders
als L1-Sprecher.”
–  Funktion: Subjekt, Objekt, ...
–  Kategorie: Nominalphrase, Adverbphrase,..
–  “Gewicht”
•  Wortanzahl
•  Buchstabenanzahl
•  Morphemanzahl
•  Silbenanzahl → Vokalanzahl?
•  Verhältnis Vorfeld / restlicher Satz
2
Operationalisierung: Beispiel (2)
•  Festlegung, an welchen beobachtbaren
Ereignissen die Variablenausprägungen
gemessen werden sollen.
–  Beispiel.: Länge von Subjekt vs. Objekt
(The younger bachelors) ate (the nice little parrot).
•  Anzahl der Morpheme: 5 vs. 4
•  Anzahl Wörter: 3 vs. 4
•  Anzahl Buchstaben: 19 vs. 19
(nach Gries 2008:24)
3
Operationalisierung: Beispiel (3)
•  Beispiel:
Informationsstatus von referenziellen Ausdrücken
–  Hörer-alt
•  Evoked (Referent ist im Text bereits eingeführt)
–  Pronomen, vorerwähnte Eigennamen: er, S. Gries
•  Unused
–  (Allg. bekannte, aber) nicht-vorerwähnte Eigennamen
–  Hörer-neu
•  Brand-new
–  Eigennamen, die von Relativsatz oder Apposition begleitet
werden: Peter Jackson, der Regisseur von „Herr der
Ringe“,...
(vereinfacht nach Strube&Hahn 1999, basierend auf der
Familiarity-Skala von Prince 1981, 92)
4
Ergebnis der Operationalisierung: Variablen
•  Merkmal (Variable)
–  ein Symbol für eine Menge von
Merkmalsausprägungen
–  kann in mindestens zwei Abstufungen vorkommen
–  Bsp.: Kategorie
•  Merkmalsausprägung (Wertelabel, Level)
–  Bsp: Nominalphrase (NP), Adverbphrase (AdvP),
Präpositionalphrase (PP), Satz (S), ...
–  Ausprägungen werden in R numerisch erfasst
–  Wie „gut“ sie in Zahlen erfasst werden können,
liegt am Typ der Variable
5
Typen von Variablen: Skalenniveaus
Merkmal
Beispiel
Rechnerische
Handhabung
Nominal- /
Kategorialskala
qualitative
Eigenschaftsausprägungen
Kategorie: NP,
AdvP, PP, S
Bildung von
Häufigkeiten
Ordinalskala
Rangwert mit
Ordinalzahlen
Vokabelschwierigkeit: leicht, mittel,
schwer
Median,
Quantile
Intervallskala
Skala mit gleich
großen
Abschnitten, ohne
Nullpunkt
Celsius-Skala:
-273..0 ..17,3 ...
Subtraktion,
Mittelwert
Ratioskala
(Verhältnisskala)
Skala mit gleich
großen
Abschnitten, mit
Nullpunkt
•  Kontoguthaben
...-500..0..100,34..
•  Häufigkeiten
eines Wortes in
verschiedenen
Subkorpora eines
Korpus: 0,...70...
Summe,
Division,
Multiplikation
Skala
Nichtmetrische
Skala
Metrische
Skalen
Wertebereich einer
Ratioskala:
•  ganze Zahlen /
rationale Zahlen, ...
11.11.2010
•  Minimum
/ Maximum
(frei nach Backhaus et al. 2006: 6)
6
Hypothesen allgemein
•  Aussagen oder Behauptungen über
–  eine Variable
–  Die Beziehung(en) zwischen zwei oder mehr
Variablen in einem bestimmten Kontext
•  Nullhypothese H0
–  (Normalerweise) zu falsifizieren
•  Alternativhypothese H1
–  (Normalerweise) die Hypothese, für die man
Evidenz sucht
7
Ungerichtete Alternativhypothese
•  Nullhypothese
–  H0: die Länge des Objekts (gemessen in
Morphemen) unterscheidet sich nicht von der
Länge des Subjekts.
–  lobjekt = lsubjekt
•  Ungerichtete Alternativhypothese
–  H1: die Länge des Objekts (gemessen in
Morphemen) unterscheidet sich von der Länge
des Subjekts.
–  lobjekt ≠ lsubjekt
8
Gerichtete Alternativhypothese
•  Nullhypothese
–  H0: die Länge des Objekts (gemessen in
Morphemen) unterscheidet sich nicht von der
Länge des Subjekts.
–  lobjekt = lsubjekt
•  Gerichtete Alternativhypothese
–  H1: die Länge des Objekts (gemessen in
Morphemen) ist länger als die Länge des
Subjekts.
–  lobjekt > lsubjekt
9
Datensets
•  Beispiel:
Erhebung der Länge von Subjekten und
Objekten (in Morphemen)
–  H1: die Länge des Objekts (gemessen in
Morphemen) ist länger als die Länge des
Subjekts.
•  Fragen
1. Was sind die Variablen (deren Ausprägungen)?
2. Gibt es unabhängige Variablen?
3. Gibt es abhängige Variablen?
10
Datensets
•  Beispiel: Erhebung der Länge von Subjekten
und Objekten (in Morphemen)
Länge: 1
Länge: 2
Länge: 3
Länge: 4
Funktion: ⎮⎮⎮⎮
Subjekt
⎮⎮
⎮⎮
⎮⎮
Funktion: ⎮⎮
Objekt
⎮⎮⎮
⎮⎮⎮⎮⎮
⎮⎮⎮
11
Datensets
•  Beispiel: Erhebung der Länge von Subjekten
und Objekten (in Morphemen)
Länge: 1
Länge: 2
Länge: 3
Länge: 4
Funktion: ⎮⎮⎮⎮
Subjekt
⎮⎮
⎮⎮
⎮⎮
Funktion: ⎮⎮
Objekt
⎮⎮⎮
⎮⎮⎮⎮⎮
⎮⎮⎮
Ungünstiges Format: keine eindeutige
Zeilen- oder Spalteninterpretation
12
Datensets
•  Beispiel: Erhebung der Länge von Subjekten
und Objekten (in Morphemen)
Fall
Funktion
Länge
1
Subjekt
1
2
Objekt
3
3
Subjekt
2
4
Subjekt
1
5
Objekt
1
6
Subjekt
2
Besseres Format:
• Spalten= Variablen
• Zeilen= untersuchte
Elemente
13
Datensets
•  Beispiel: Erhebung der Länge von Subjekten
und Objekten (in Morphemen)
Fall
Satz-ID
Funktion
Länge
1
1
Subjekt
1
2
1
Objekt
3
3
2
Subjekt
2
4
3
Subjekt
1
5
3
Objekt
1
6
4
Subjekt
2
Erweitertes
Format
14
Referenzen
•  Stefan Th. Gries. 2008. Statistik für Sprachwissenschaftler.
Vandenhoeck & Ruprecht.
–  Kapitel 1 und 3.
•  Andere:
–  K. Backhaus, W. Plinke und B. Erichson. 2006. Multivariate
Analysemethoden – Eine anwendungsorientierte Einführung,
Berlin: Springer.
–  Ellen F. Prince. 1981. Toward a taxonomy of given-new
information. In Peter Cole (Hrsg.) Radical Pragmatics. New York:
Academic Press. 223–255.
–  Ellen F. Prince. 1999. How not to mark topics: ‘Topicalization’ in
English and Yiddish. 8 Texas Linguistics Forum.
–  Lothar Sachs und Jürgen Hedderich. 2009. Angewandte Statistik,
Berlin: Springer. 1-2
–  Michael Strube und Udo Hahn. 1999. Functional Centering
Grounding Referential Coherence in Information Structure.
Computational Linguistics, Volume 25, Number 3, September 1999.
309 - 344.
15
Herunterladen