Skript2

Werbung
GKC Statistische Grundlagen für die Korpuslinguistik
Kapitel 2: Univariate Deskription von Daten
8.11.2004
Univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals.
1
1.1
Verteilungen und ihre Darstellung
Häufigkeiten
Erhebung vom Umfang n: an den n Untersuchungseinheiten werden die Werte x1 , x2 , ..., xn eines Merkmals X beobachtet = Urliste (Rohdaten).
Beispiel: Merkmal Wortart“. An den ersten n = 20 Wörtern eines Korpus werden die folgenden Ausprä”
gungen beobachtet (x1 , ..., x20 ):
Konj, Pron, Det, N, V, Konj, Pron, Präp, Adj, N, Präp, N, Konj, N, V, Adv, V, Pron, Adv, Präp
Eine solche Urliste wird schnell unübersichtlich, wenn der Umfang n groß ist. → Urliste nach den verschiedenen vorkommenden Ausprägungen durchsuchen und die Vorkommen zählen:
a1
a2
a3
a4
a5
a6
a7
a8
Konj:
Pron:
Det:
N:
V:
Präp:
Adj:
Adv:
III
III
I
IIII
III
III
I
II
Die Urliste x1 , x2 , ..., xn wird umgewandelt in eine Liste der vorkommenden Ausprägungen a1 , a2 , ..., ak .
Bei kategorialen Merkmalen ist k gleich der Anzahl der Kategorien (im Beispiel der acht Wortarten)
und daher ist k wesentlich kleiner als n (k ≤ n). Besonders bei stetigen Merkmalen dagegen kann es
passieren, dass beide Listen gleich lang werden, wenn keine Ausprägung zweimal vorkommt. In solchen
Fällen müssen die Daten zur übersichtlichen Darstellung gruppiert werden.
Die Anzahl der Vorkommen einer Ausprägung aj in der Urliste bezeichnet man als die absolute Häufigkeit von aj . Im Beispiel ist die absolute Häufigkeit der Ausprägung Konj gleich drei. Man schreibt:
h(aj ) = hj , z.B. h(Konj) = 3.
Die Summe aller Häufigkeiten h(a1 ) + h(a2 ) + ... + h(ak ) ist gleich dem Stichprobenumfang n. Statt
Pk
h(a1 ) + h(a2 ) + ... + h(ak ) schreibt man abkürzend auch j=1 h(aj ).
Als relative Häufigkeit der Ausprägung aj bezeichnet man den Anteil von Werten in der Urliste, die
h
mit aj übereinstimmen: f (aj ) = nj .
3
Z.B. f (Konj) = h(Konj)
= 20
= 0, 15 = 15%. D.h. in der Stichprobe bestehen 15% der Wörter aus
n
Konjunktionen.
1
1.2
Graphische Darstellungen
Häufigkeitsverteilungen können graphisch dargestellt werden. Für kategoriale oder diskrete Merkmale
eignen sich zur graphischen Darstellung Säulen- und Kreisdiagramme, insbesondere, wenn die Zahl der
verschiedenen Merkmalsausprägungen k klein ist.
Säulendiagramm
Für jede Merkmalsausprägung wird ein senkrechtes Rechteck der Höhe hj (oder fj ) aufgemalt.
Kreisdiagramm
Im Kreisdiagramm sind die Flächen der Kreissegmente proportional zu den Häufigkeiten. Sie drücken den
Anteil der jeweiligen Merkmalsausprägung an der Urliste aus.
2
Liniendiagramm (Polygon)
Verbindet man im Säulendiagramm die Spitzen der Säule durch Linien, entsteht ein Liniendiagramm.
Je mehr Merkmalsausprägungen vorhanden sind, desto glatter wird die Kurve. Diese Darstellungsform
findet man häufig bei Zeitreihen.
3
Histogramm
Für Merkmale mit vielen verschiedenen Ausprägungen werden Säulen- und Kreisdiagramme sehr unübersichtlich. Die Daten müssen dann in Klassen gruppiert werden. Dazu bestimmt man zuerst, wieviele
Klassen man haben will. Hat man in√
einer Stichprobe n unterschiedliche Ausprägungen gemessen, gilt als
Faustregel: Anzahl der Klassen k = n.
Beispiel: Häufigkeitsverteilung der Tokenlängen (in Zeichen) im PAROLE-Korpus (23.699.894 Token).
1
2
3
4
5
6
7
8
9
10
3564430
1742674
5226684
2282737
2004860
1775106
1489365
1175359
985117
861835
11
12
13
14
15
16
17
18
19
20
693824
484361
373814
257697
192147
147870
115291
90033
67285
50051
21
22
23
24
25
26
27
28
29
30
35344
26020
17548
13768
9134
5727
3928
2717
1744
1266
√
Zur übersichtlicheren Darstellung wird die Zahl der Ausprägungen von 30 auf 30 = 5, 4, gerundet 5
Klassen verringert. Es werden jeweils 30/5=6 Ausprägungen in eine Klasse eingeordnet, also die Ausprägungen 1-6 in Klasse 1, die Ausprägungen 7-12 in Klasse 2 usw. Die Häufigkeiten werden jeweils
addiert:
1-6
7-12
13-18
16.596.491
5.689.861
1.176.852
4
19-24
25-30
210.016
24.516
1.3
Exkurs: Diagramme mit Excel erstellen
Mit dem Tabellenkalkulationsprogramm Microsoft Excel (Teil des Office-Pakets) kann man mit wenigen
Mausklicks eigene Diagramme erstellen. Hier wird kurz beschrieben, wie man dabei vorgeht.
Nach dem Start des Programms erscheint eine leere Tabelle. Die Spalten sind mit Buchstaben bezeichnet
(A, B, C, ...), die Zeilen sind nummeriert (1, 2, 3, ...). Ein Feld der Tabelle heißt Zelle. Die erste Zelle oben links hat die Koordinaten A1. Durch Anklicken mit der Maus kann man eine Zelle aktivieren,
sie erhält dann einen hervorgehobenen Rahmen. In eine aktivierte Zelle können Daten eingegeben werden.
Aktivieren Sie die Zelle A1 und geben Sie eine Zahl ein! Aktivieren Sie dann die darunterliegende Zelle A2 und geben dort eine andere Zahl ein. Geben Sie z.B. in die Zellen von A1 bis A4 jeweils eine Zahl ein.
Markieren Sie jetzt die Zellen A1 bis A4, indem Sie mit gedrückter linker Maustaste über diese vier Zellen
fahren. Die markierten Zellen werden blau hervorgehoben. Dann klicken Sie das Diagramm-Symbol in
der Menüleiste an. Es erscheint ein Auswahlfenster.
Wählen Sie den gewünschten Diagrammtyp aus (z.B. Säule) und klicken Sie auf Weiter. Klicken Sie wieder
auf Weiter, im folgenden Fenster können Sie Beschriftungen eingeben. Wenn Sie auf Fertig stellen klicken,
wird das Diagramm in die Excel-Tabelle kopiert. Sie können dann mit Speichern unter das Diagramm als
.xls-Datei abspeichern, die Sie dann z.B. in ein Word-Dokument einfügen können.
5
1.4
Kumulierte Häufigkeitsverteilung
Oft stellt sich die Frage, welcher Anteil der Daten kleiner oder gleich einem interessierenden Wert x ist.
Diese Frage ist natürlich nur für Merkmale sinnvoll, bei denen die Beziehung kleiner“ definiert ist, d.h.
”
für mindestens ordinalskalierte Merkmale.
Zur Beantwortung der Frage bildet man die bis zur Schranke x aufsummierten absoluten oder relativen
Häufigkeiten.
Die absolute kumulierte Häufigkeitsverteilung eines Merkmals X erhält man, indem man für die
vorgegebene Zahl x die Anzahl der Beobachtungswerte bestimmt, die kleiner oder gleich x sind.
Meist verwendet man jedoch die relative kumulierte Häufigkeitsverteilung oder empirische Verteilungsfunktion, bei der statt der absoluten die relativen Häufigkeiten aufsummiert werden.
Beispiel: Wortlänge in Silben in Fabeln von Novalis:
Zahl der Silben
1
2
3
4
5
6
Summe
Häufigkeit
750
423
117
52
7
1
1350
rel. H.
0,556
0,313
0,087
0,039
0,005
0,001
rel. kum. H
0,556
0,869
0,956
0,995
1,000
1,001
In der Spalte rel. H“ kann man zwar ablesen, wieviele der Wörter z.B. zweisilbig sind (31,3%), aber nicht,
”
wieviele der Wörter höchstens dreisilbig sind. Dazu muss man die Prozentzahlen der ein-, zwei- und dreisilbigen Wörter addieren. Das ergibt 95,6% (Spalte 4). Stellt man die relative kumulierte Häufigkeit als
Liniendiagramm dar, ergibt sich eine Treppenkurve. Den Anteil der Daten bis zum jeweiligen Punkt x
kann man direkt ablesen (der letzte Wert ist aufgrund von Rundungsfehlern größer als 1,0).
1,0
0,8
0,6
0,4
0,2
1
2
2 3
4
5
6
Beschreibung von Verteilungen
Verteilungen mit nur einem Gipfel heißen unimodal (z.B. Abb. 1 a). Verteilungen mit zwei Gipfeln heißen bimodal (z.B. Abb. 1 b), Verteilungen mit mehr als zwei Gipfeln multimodal.
Eine Verteilung heißt symmetrisch, wenn es eine Symmetrieachse gibt, so dass die rechte und die linke
Hälfte der Verteilung ungefähr deckungsgleich sind (Abb. 1 a). Unsymmetrische Verteilungen heißen
6
12 345 678 9
1 234 567 89
123 456 789
12 345 67 89
a)
b)
c)
d)
Abbildung 1: Eine unimodale, symmetrische (a), eine bimodale(b), eine linkssteile (c) und eine rechtssteile
Verteilung (d).
schief. Eine Verteilung ist linkssteil (oder rechtsschief), wenn der größte Teil der Daten linksseitig liegt
(Abb. 1 c). Umgekehrt heißt eine Verteilung rechtssteil (bzw. linksschief), wenn die Daten auf der rechten
Seite konzentriert sind (Abb. 1 d).
2.1
Lagemaße
Lagemaße beschreiben das Zentrum einer Verteilung durch einen numerischen Wert. Das bekannteste Lagemaß ist das arithmetische Mittel, das z.B. bei der Berechnung von Notendurchschnitten angewandt
wird. Hat man die Noten 1, 3 und 5 erhalten, berechnet man die Durchschnittsnote indem man die Noten
aufsummiert (1 + 3 + 5 = 9) und durch die Notenanzahl teilt (9/3 = 3). Die Formel für das arithmetische
Mittel x̄ lautet also:
x1 + x2 + ... + xn
x̄ =
n
In Excel berechnet man das arithmetische Mittel, indem man die entsprechenden Datenzellen markiert
und die Funktion MITTELW“ auswählt.
”
Angenommen die Urliste mit den Schulnoten lautet: 2; 1,5; 2; 2,5, dann berechnet sich das arithmetische
= 2, 0. Kommt als weiterer Wert 5 hinzu, steigt das Mittel auf 2,6.
Mittel zu x̄ = 2+1,5+2+2,5
4
Das arithmetische Mittel reagiert also empfindlich auf Ausreißer in den Daten. Ein weiteres Lagemaß,
das weniger empfindlich reagiert, ist der Median. Er heißt daher resistent oder robust. Der Median wird
so in die Datenmitte platziert, dass eine Hälfte der Daten unterhalb und die andere Hälfte oberhalb des
Medians liegen. Dazu ordnet man die Werte der Urliste x1 , ..., xn nach Größe an. Für gerades n ist der
x
+x
Median xmed das arithmetische Mittel der beiden in der Mitte liegenden Beobachtungen, d.h. n/2 2 n/2+1 .
Im Schulnoten-Beispiel werden die Noten erst nach Größe geordnet:
1,5; 2; 2; 2,5. Das arithmetische Mittel der beiden mittleren Werte ist 2. Also xmed = 2.
Für ungerades n ist der Median gleich der mittleren Beobachtung der geordneten Urliste. Kommt also zu
den vier Schulnoten der Wert 5 hinzu, lautet die geordnete Urliste:
1,5; 2; 2; 2,5; 5 und daher xmed = 2.
Weil die Urliste geordnet werden muss, setzt der Median ein mindestens ordinalskaliertes Merkmal voraus.
Mindestens 50% der Daten sind kleiner oder gleich dem Median, und mindestens 50% der Daten sind
größer oder gleich xmed .
Der Modus xmod gibt an, welche Ausprägung am häufigsten vorkommt. Er ist eindeutig, wenn die
Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Der Modus ist auch auf Nominalskalenniveau
sinnvoll. In der Darstellung durch ein Säulendiagramm ist der Modus die Ausprägung mit der höchsten
Säule.
7
Lageregeln
Bei metrisch skalierten Merkmalen können arithmetisches Mittel, Median und Modus dazu benutzt werden, Symmetrie und Schiefe einer Verteilung zu beurteilen:
Symmetrische Verteilung:
Linkssteile Verteilung:
Rechtssteile Verteilung:
2.2
x̄ ≈ xmed ≈ xmod
x̄ > xmed > xmod
x̄ < xmed < xmod
Varianz und Standardabweichung
Die bisher aufgeführten Lagemaße reichen nicht aus, um eine Verteilung zu charakterisieren. Die beiden
folgenden Verteilungen z.B. besitzen gleiche Werte für arithmetisches Mittel und Median, sehen aber
trotzdem sehr unterschiedlich aus:
2,5; 3,0; 3,0; 3,5: x̄ = 3, 0, xmed = 3, 0
1,0; 2,0; 4,0; 5,0: x̄ = 3, 0, xmed = 3, 0
Man sieht, dass die zweite Kurve eine größere Schwankungsbreite aufweist. Man sagt, sie streut mehr
als die erste Kurve. Ein Maß für die Streuung einer Verteilung um ihren Mittelwert ist die Varianz. Sie
berechnet sich aus den Werten der Urliste x1 , ..., xn mit Hilfe des arithmetischen Mittels x̄ wie folgt:
s̃2 =
(x1 − x̄)2 + ... + (xn − x̄)2
1X
n(xi − x̄)2
=
n
n i=1
Es werden also die Abweichungen jedes Wertes der Urliste vom Mittelwert quadriert und aufaddiert.
Diese Summe wird durch den Umfang der Stichprobe n dividiert. Je größer die einzelnen Abweichungen
8
vom Mittelwert, desto größer wird die Varianz.
Für die erste Datenreihe oben ergibt sich eine Varianz von 0,125, für die zweite Reihe eine Varianz von 2,5.
In Excel berechnet man die Varianz einer Liste von Zahlen mit der Funktion VARIANZEN.
Die Standardabweichung s̃ ist die Wurzel aus der Varianz:
√
s̃ = + s̃2
9
Herunterladen