Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005) Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion Text als homogene Einheit • einer Norm • eines Standards „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text Aus der Geschichte der WortlängenForschung (Anfänge) Augustus de Morgan (1806-1871) Professor für Mathematik am University College (London) 1851: Erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren Mittelwert als Maß der zentralen Tendenz Das arithmetische Mittel (x ) : n x 1 x ( x1 x2 ... xn ) i 1 n n 10 Stichprobe Stichprobe rot Stichprobe rot blau 10 9 Stichprobe rot 98 Stichprobe blau 87 76 65 54 43 32 x= 3.00 21 10 0 1 2 3 4 5 1 2 3 4 5 50 Anzahl der Wörter (in %) Bednaja Liza Vystrel 40 30 20 10 0 0 1 2 3 4 5 6 7 Silben pro Wort Mittelwert: x1 = 2.10 x2 = 2.12 2 ( x x ) ( x2 x)² ...( xn x)² SAQ ( x x )² s ² 1 Streuung (Varianz): s² = 1.29 s² = 1.52 n Mittelwert als Maß der zentralen Tendenz Varianz als Maß der Streuung um den Mittelwert Ivan Cankar: “Hiša Marije Pomočnice“ Mittlere Wortlänge: Einzelkapitel vs. Gesamtext 2 Mittlere Wortlänge in Silben 1,9 1,8 1,7 1,6 Einzelkapitel Gesam tmittelwert 1,5 1 2 3 4 GM 5 6 7 8 9 Thomas Corwin Mendenhall (1841-1924) Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer” Fortführen der Ideen von de Morgan Mittelwert, Häufigkeitsverteilung (= graphische Repräsentation, mathematische Interpretation) Sergej Grigor'evič Čebanov (1897-1966) Russischer Armee-Arzt aus Petersburg Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) Mathematische Interpretation der Häufigkeitsverteilung ("Čebanov-Fucks-Verteilung") ea a x Px x! x 0,1,2,... e a a x 1 Px ( x 1)! x 1,2,3,... Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“ Normalverteilung nach C.F. Gauss Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit Px = g(x) Px-1 g ( x) a x b a g ( x) b x a g ( x) x Conway-Maxwell-Poisson-Verteilung PoissonVerteilung (a cx) g ( x) x Pos. Binomial- (a cx) g ( x) x Neg. Binomial- Verteilung Verteilung e a a x Px x! Px p q n x x n x 1 qn Px k xx 1 p k q x Wortlängenhäufigkeiten in Durch die Wüste von Karl May 100 Häufigkeit (in Tausend) beobachtet theoretisch 80 60 40 20 0 1 2 3 4 5 6 7 8 9 Wortlänge (in Silben) Theoretisches Modell: Neg. Binomial-Verteilung (C = 0.002) Px k xx 1 p k q x Εrweiterte positive Binomialverteilung Èapek: Rekord (1928) Rekord (1928) n x n x p q x Px Px 1 n 1 q 50 50 n=6 p = 0.25 α = 0.98 Anzahl Anzahlder derWörter Wörter(in (in%) %) 40 40 30 30 20 20 10 10 00 00 n=4 p = 0.37 α = 0.97 n = 14 p = 0.13 α = 0.96 Anzahl der Wörter (in %) 50 40 30 30 20 20 10 10 0 1 2 3 4 Silben pro Wort 33 44 55 6 6 Èapek: Noviny a vìda (1917) 40 0 22 Silben Silbenpro proWort Wort Erben: Lilie (1861) 50 11 Anzahl der Wörter (in %) 0 0 1 2 3 4 Silben pro Wort 5 6 7 m1 (x) 1 x N m2 (s2) m3 1 2 1 3 ( x x) ( x x) N N Arme Liza 2,10 1,29 0,88 Vystrel 2,12 1,52 1,17 1. m1 Mittelwert Die Lokalisierung im 2. m2 2. Zentralmoment 3. m3 3.Zentralmoment xy-Koordinatensystem y = M3 / M2 m3 m2 y-Achse 0 0 x = M2 / M1 m2 m1 x-Achse “Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel” M2 0.72 M1 M3 0.77 M2 M2 0.61 M1 M3 0.68 M2 1,5 1,0 ,5 0,0 TYP -,5 S = M3 / M2 Poesie journ. Prosa -1,0 lit. Prosa -1,5 y = 2.08 - 0.44x 0,0 I = M2 / M1 ,5 1,0 1,5 1,5 1,0 ,5 TYP Poesie S Journalistik 0,0 Prosa 0,00 I ,50 1,00 2,5 2,0 1,5 1,0 Textkategorie ,5 Briefe Charms Briefe Puskin 0,0 S Gedichte Charms -,5 0,0 I Gedichte Puskin ,2 ,4 ,6 ,8 1,0 1,2 1,4 Pilotstudie zum Slowenischen Korpus: N = 153 Prosa n1 = 102 n1.1.= 52 liter. Prosa Poesie n2 = 51 n1.2. = 50 Journalistik 1-Silber 2-Silber 3-Silber Texttyp journal. Prosa 4-Silber Poesie 5-Silber literar. Prosa 25 2 2 22 2 2 22 2 2 222 2 2 2 2 2 2 2 2 2 22 2 2 2 2 22 2 2 22 222 2 2 22 2 2 2 2 2 2 1 3 1 1 1 1 1 11 2 11 1 1 1 1 1 1 1 1 1 111 1 2 111 11 11 1 1111 1 1 1 1 1 1 1 111 1 3 3 11 1 1 3 3 333 3 3 3 33 33 3 33 33 3 333 333 3 3 3 3 333 3 3 3 3 33 333 3 33 3 3 3 3 dim1 20 2 6 3 6 10 15 6 -6 -4 -2 0 dim2 2 4 Scatterplot der Diskriminanzvariablen TEXTSORTE Prosa Poesie journalistisch Zeitung 1 Rubrik 1 Autor Autor Rubrik 2 Autor Autor Zeitung 2 Rubrik 1 Autor Autor Rubrik 2 Autor Autor literarisch Erzählungen 19. Jhd. Autor Autor Autor 20. Jhd. Autor Autor Autor Romane 19. Jhd. Autor Autor Autor 20. Jhd. Autor Autor Autor wissenschaftl. geisteswiss.-philos. naturwiss. Brief 19. Jhd. Autor Autor 20. Jhd. Autor Autor versgebunden 19. Jhd. Autor Autor Autor 20. Jhd. Autor Autor Autor freier Vers 20. Jhd. Autor Autor 1 30 2 30 1 30 2 30 1 30 2 30 1 30 2 30 240 1 30 2 30 3 30 1 30 2 30 3 30 1 30 2 30 3 30 1 30 2 30 3 30 360 30 30 60 1 30 2 30 1 30 2 30 120 1 30 2 30 3 30 1 30 2 30 3 30 180 1 30 2 30 60 gesamt 1020