GKC Statistische Grundlagen für die Korpuslinguistik Kapitel 2: Univariate Deskription von Daten 8.11.2004 Univariate (= eindimensionale) Daten bestehen aus Beobachtungen eines einzelnen Merkmals. 1 1.1 Verteilungen und ihre Darstellung Häufigkeiten Erhebung vom Umfang n: an den n Untersuchungseinheiten werden die Werte x1 , x2 , ..., xn eines Merkmals X beobachtet = Urliste (Rohdaten). Beispiel: Merkmal Wortart“. An den ersten n = 20 Wörtern eines Korpus werden die folgenden Ausprä” gungen beobachtet (x1 , ..., x20 ): Konj, Pron, Det, N, V, Konj, Pron, Präp, Adj, N, Präp, N, Konj, N, V, Adv, V, Pron, Adv, Präp Eine solche Urliste wird schnell unübersichtlich, wenn der Umfang n groß ist. → Urliste nach den verschiedenen vorkommenden Ausprägungen durchsuchen und die Vorkommen zählen: a1 a2 a3 a4 a5 a6 a7 a8 Konj: Pron: Det: N: V: Präp: Adj: Adv: III III I IIII III III I II Die Urliste x1 , x2 , ..., xn wird umgewandelt in eine Liste der vorkommenden Ausprägungen a1 , a2 , ..., ak . Bei kategorialen Merkmalen ist k gleich der Anzahl der Kategorien (im Beispiel der acht Wortarten) und daher ist k wesentlich kleiner als n (k ≤ n). Besonders bei stetigen Merkmalen dagegen kann es passieren, dass beide Listen gleich lang werden, wenn keine Ausprägung zweimal vorkommt. In solchen Fällen müssen die Daten zur übersichtlichen Darstellung gruppiert werden. Die Anzahl der Vorkommen einer Ausprägung aj in der Urliste bezeichnet man als die absolute Häufigkeit von aj . Im Beispiel ist die absolute Häufigkeit der Ausprägung Konj gleich drei. Man schreibt: h(aj ) = hj , z.B. h(Konj) = 3. Die Summe aller Häufigkeiten h(a1 ) + h(a2 ) + ... + h(ak ) ist gleich dem Stichprobenumfang n. Statt Pk h(a1 ) + h(a2 ) + ... + h(ak ) schreibt man abkürzend auch j=1 h(aj ). Als relative Häufigkeit der Ausprägung aj bezeichnet man den Anteil von Werten in der Urliste, die h mit aj übereinstimmen: f (aj ) = nj . 3 Z.B. f (Konj) = h(Konj) = 20 = 0, 15 = 15%. D.h. in der Stichprobe bestehen 15% der Wörter aus n Konjunktionen. 1 1.2 Graphische Darstellungen Häufigkeitsverteilungen können graphisch dargestellt werden. Für kategoriale oder diskrete Merkmale eignen sich zur graphischen Darstellung Säulen- und Kreisdiagramme, insbesondere, wenn die Zahl der verschiedenen Merkmalsausprägungen k klein ist. Säulendiagramm Für jede Merkmalsausprägung wird ein senkrechtes Rechteck der Höhe hj (oder fj ) aufgemalt. Kreisdiagramm Im Kreisdiagramm sind die Flächen der Kreissegmente proportional zu den Häufigkeiten. Sie drücken den Anteil der jeweiligen Merkmalsausprägung an der Urliste aus. 2 Liniendiagramm (Polygon) Verbindet man im Säulendiagramm die Spitzen der Säule durch Linien, entsteht ein Liniendiagramm. Je mehr Merkmalsausprägungen vorhanden sind, desto glatter wird die Kurve. Diese Darstellungsform findet man häufig bei Zeitreihen. 3 Histogramm Für Merkmale mit vielen verschiedenen Ausprägungen werden Säulen- und Kreisdiagramme sehr unübersichtlich. Die Daten müssen dann in Klassen gruppiert werden. Dazu bestimmt man zuerst, wieviele Klassen man haben will. Hat man in√ einer Stichprobe n unterschiedliche Ausprägungen gemessen, gilt als Faustregel: Anzahl der Klassen k = n. Beispiel: Häufigkeitsverteilung der Tokenlängen (in Zeichen) im PAROLE-Korpus (23.699.894 Token). 1 2 3 4 5 6 7 8 9 10 3564430 1742674 5226684 2282737 2004860 1775106 1489365 1175359 985117 861835 11 12 13 14 15 16 17 18 19 20 693824 484361 373814 257697 192147 147870 115291 90033 67285 50051 21 22 23 24 25 26 27 28 29 30 35344 26020 17548 13768 9134 5727 3928 2717 1744 1266 √ Zur übersichtlicheren Darstellung wird die Zahl der Ausprägungen von 30 auf 30 = 5, 4, gerundet 5 Klassen verringert. Es werden jeweils 30/5=6 Ausprägungen in eine Klasse eingeordnet, also die Ausprägungen 1-6 in Klasse 1, die Ausprägungen 7-12 in Klasse 2 usw. Die Häufigkeiten werden jeweils addiert: 1-6 7-12 13-18 16.596.491 5.689.861 1.176.852 4 19-24 25-30 210.016 24.516 1.3 Exkurs: Diagramme mit Excel erstellen Mit dem Tabellenkalkulationsprogramm Microsoft Excel (Teil des Office-Pakets) kann man mit wenigen Mausklicks eigene Diagramme erstellen. Hier wird kurz beschrieben, wie man dabei vorgeht. Nach dem Start des Programms erscheint eine leere Tabelle. Die Spalten sind mit Buchstaben bezeichnet (A, B, C, ...), die Zeilen sind nummeriert (1, 2, 3, ...). Ein Feld der Tabelle heißt Zelle. Die erste Zelle oben links hat die Koordinaten A1. Durch Anklicken mit der Maus kann man eine Zelle aktivieren, sie erhält dann einen hervorgehobenen Rahmen. In eine aktivierte Zelle können Daten eingegeben werden. Aktivieren Sie die Zelle A1 und geben Sie eine Zahl ein! Aktivieren Sie dann die darunterliegende Zelle A2 und geben dort eine andere Zahl ein. Geben Sie z.B. in die Zellen von A1 bis A4 jeweils eine Zahl ein. Markieren Sie jetzt die Zellen A1 bis A4, indem Sie mit gedrückter linker Maustaste über diese vier Zellen fahren. Die markierten Zellen werden blau hervorgehoben. Dann klicken Sie das Diagramm-Symbol in der Menüleiste an. Es erscheint ein Auswahlfenster. Wählen Sie den gewünschten Diagrammtyp aus (z.B. Säule) und klicken Sie auf Weiter. Klicken Sie wieder auf Weiter, im folgenden Fenster können Sie Beschriftungen eingeben. Wenn Sie auf Fertig stellen klicken, wird das Diagramm in die Excel-Tabelle kopiert. Sie können dann mit Speichern unter das Diagramm als .xls-Datei abspeichern, die Sie dann z.B. in ein Word-Dokument einfügen können. 5 1.4 Kumulierte Häufigkeitsverteilung Oft stellt sich die Frage, welcher Anteil der Daten kleiner oder gleich einem interessierenden Wert x ist. Diese Frage ist natürlich nur für Merkmale sinnvoll, bei denen die Beziehung kleiner“ definiert ist, d.h. ” für mindestens ordinalskalierte Merkmale. Zur Beantwortung der Frage bildet man die bis zur Schranke x aufsummierten absoluten oder relativen Häufigkeiten. Die absolute kumulierte Häufigkeitsverteilung eines Merkmals X erhält man, indem man für die vorgegebene Zahl x die Anzahl der Beobachtungswerte bestimmt, die kleiner oder gleich x sind. Meist verwendet man jedoch die relative kumulierte Häufigkeitsverteilung oder empirische Verteilungsfunktion, bei der statt der absoluten die relativen Häufigkeiten aufsummiert werden. Beispiel: Wortlänge in Silben in Fabeln von Novalis: Zahl der Silben 1 2 3 4 5 6 Summe Häufigkeit 750 423 117 52 7 1 1350 rel. H. 0,556 0,313 0,087 0,039 0,005 0,001 rel. kum. H 0,556 0,869 0,956 0,995 1,000 1,001 In der Spalte rel. H“ kann man zwar ablesen, wieviele der Wörter z.B. zweisilbig sind (31,3%), aber nicht, ” wieviele der Wörter höchstens dreisilbig sind. Dazu muss man die Prozentzahlen der ein-, zwei- und dreisilbigen Wörter addieren. Das ergibt 95,6% (Spalte 4). Stellt man die relative kumulierte Häufigkeit als Liniendiagramm dar, ergibt sich eine Treppenkurve. Den Anteil der Daten bis zum jeweiligen Punkt x kann man direkt ablesen (der letzte Wert ist aufgrund von Rundungsfehlern größer als 1,0). 1,0 0,8 0,6 0,4 0,2 1 2 2 3 4 5 6 Beschreibung von Verteilungen Verteilungen mit nur einem Gipfel heißen unimodal (z.B. Abb. 1 a). Verteilungen mit zwei Gipfeln heißen bimodal (z.B. Abb. 1 b), Verteilungen mit mehr als zwei Gipfeln multimodal. Eine Verteilung heißt symmetrisch, wenn es eine Symmetrieachse gibt, so dass die rechte und die linke Hälfte der Verteilung ungefähr deckungsgleich sind (Abb. 1 a). Unsymmetrische Verteilungen heißen 6 12 345 678 9 1 234 567 89 123 456 789 12 345 67 89 a) b) c) d) Abbildung 1: Eine unimodale, symmetrische (a), eine bimodale(b), eine linkssteile (c) und eine rechtssteile Verteilung (d). schief. Eine Verteilung ist linkssteil (oder rechtsschief), wenn der größte Teil der Daten linksseitig liegt (Abb. 1 c). Umgekehrt heißt eine Verteilung rechtssteil (bzw. linksschief), wenn die Daten auf der rechten Seite konzentriert sind (Abb. 1 d). 2.1 Lagemaße Lagemaße beschreiben das Zentrum einer Verteilung durch einen numerischen Wert. Das bekannteste Lagemaß ist das arithmetische Mittel, das z.B. bei der Berechnung von Notendurchschnitten angewandt wird. Hat man die Noten 1, 3 und 5 erhalten, berechnet man die Durchschnittsnote indem man die Noten aufsummiert (1 + 3 + 5 = 9) und durch die Notenanzahl teilt (9/3 = 3). Die Formel für das arithmetische Mittel x̄ lautet also: x1 + x2 + ... + xn x̄ = n In Excel berechnet man das arithmetische Mittel, indem man die entsprechenden Datenzellen markiert und die Funktion MITTELW“ auswählt. ” Angenommen die Urliste mit den Schulnoten lautet: 2; 1,5; 2; 2,5, dann berechnet sich das arithmetische = 2, 0. Kommt als weiterer Wert 5 hinzu, steigt das Mittel auf 2,6. Mittel zu x̄ = 2+1,5+2+2,5 4 Das arithmetische Mittel reagiert also empfindlich auf Ausreißer in den Daten. Ein weiteres Lagemaß, das weniger empfindlich reagiert, ist der Median. Er heißt daher resistent oder robust. Der Median wird so in die Datenmitte platziert, dass eine Hälfte der Daten unterhalb und die andere Hälfte oberhalb des Medians liegen. Dazu ordnet man die Werte der Urliste x1 , ..., xn nach Größe an. Für gerades n ist der x +x Median xmed das arithmetische Mittel der beiden in der Mitte liegenden Beobachtungen, d.h. n/2 2 n/2+1 . Im Schulnoten-Beispiel werden die Noten erst nach Größe geordnet: 1,5; 2; 2; 2,5. Das arithmetische Mittel der beiden mittleren Werte ist 2. Also xmed = 2. Für ungerades n ist der Median gleich der mittleren Beobachtung der geordneten Urliste. Kommt also zu den vier Schulnoten der Wert 5 hinzu, lautet die geordnete Urliste: 1,5; 2; 2; 2,5; 5 und daher xmed = 2. Weil die Urliste geordnet werden muss, setzt der Median ein mindestens ordinalskaliertes Merkmal voraus. Mindestens 50% der Daten sind kleiner oder gleich dem Median, und mindestens 50% der Daten sind größer oder gleich xmed . Der Modus xmod gibt an, welche Ausprägung am häufigsten vorkommt. Er ist eindeutig, wenn die Häufigkeitsverteilung ein eindeutiges Maximum besitzt. Der Modus ist auch auf Nominalskalenniveau sinnvoll. In der Darstellung durch ein Säulendiagramm ist der Modus die Ausprägung mit der höchsten Säule. 7 Lageregeln Bei metrisch skalierten Merkmalen können arithmetisches Mittel, Median und Modus dazu benutzt werden, Symmetrie und Schiefe einer Verteilung zu beurteilen: Symmetrische Verteilung: Linkssteile Verteilung: Rechtssteile Verteilung: 2.2 x̄ ≈ xmed ≈ xmod x̄ > xmed > xmod x̄ < xmed < xmod Varianz und Standardabweichung Die bisher aufgeführten Lagemaße reichen nicht aus, um eine Verteilung zu charakterisieren. Die beiden folgenden Verteilungen z.B. besitzen gleiche Werte für arithmetisches Mittel und Median, sehen aber trotzdem sehr unterschiedlich aus: 2,5; 3,0; 3,0; 3,5: x̄ = 3, 0, xmed = 3, 0 1,0; 2,0; 4,0; 5,0: x̄ = 3, 0, xmed = 3, 0 Man sieht, dass die zweite Kurve eine größere Schwankungsbreite aufweist. Man sagt, sie streut mehr als die erste Kurve. Ein Maß für die Streuung einer Verteilung um ihren Mittelwert ist die Varianz. Sie berechnet sich aus den Werten der Urliste x1 , ..., xn mit Hilfe des arithmetischen Mittels x̄ wie folgt: s̃2 = (x1 − x̄)2 + ... + (xn − x̄)2 1X n(xi − x̄)2 = n n i=1 Es werden also die Abweichungen jedes Wertes der Urliste vom Mittelwert quadriert und aufaddiert. Diese Summe wird durch den Umfang der Stichprobe n dividiert. Je größer die einzelnen Abweichungen 8 vom Mittelwert, desto größer wird die Varianz. Für die erste Datenreihe oben ergibt sich eine Varianz von 0,125, für die zweite Reihe eine Varianz von 2,5. In Excel berechnet man die Varianz einer Liste von Zahlen mit der Funktion VARIANZEN. Die Standardabweichung s̃ ist die Wurzel aus der Varianz: √ s̃ = + s̃2 9