Peter Grzybek ( Graz ) Wortlängen(häufigkeiten) in Texten slawischer Sprachen FWF-Projekt #15485 (2002-2005) Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion Text als homogene Einheit • einer Norm • eines Standards „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text Aus der Geschichte der WortlängenForschung (Anfänge) Augustus de Morgan (1806-1871) Professor für Mathematik am University College (London) Brief vom 18. August 1851: De Morgan erwägt die Möglichkeit, den Autor eines Buches oder eines Textes aufgrund der mittleren Wortlänge zu identifizieren Mittelwert als Maß der zentralen Tendenz 50 Anzahl der Wörter (in %) Bednaja Liza Vystrel 40 30 20 10 0 0 1 2 3 4 5 6 7 Silben pro Wort Mittelwert: x1 = 2.10 x2 = 2.12 2 ( x x ) ( x2 x)² ...( xn x)² SAQ ( x x )² s ² 1 Streuung (Varianz): s² = 1.29 s² = 1.52 n Thomas Corwin Mendenhall (1841-1924) Professor für Physik (Ohio, Tokio) 1887/1901: „[…] it is proposed to analyze a composition by forming what may be called a 'word spectrum' or 'characteristic curve‘, which shall be a graphic representation of the arrangement of words according to their length and to the relative frequency of their occurrence.“ „the normal curve of a writer” Fortführen der Ideen von de Morgan Mittelwert, Häufigkeitsverteilung = graphische Repräsentation, mathematische Interpretation Mathematische Interpretationen der Häufigkeitsverteilung Normalverteilung nach C.F. Gauss Gustav Herdan The Advanced Theory of Language as Choice and Chance (1966) Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit William P. Elderton (1877-??) Englischer Statistiker 1949: Geometrische Verteilung Px p q x Px p q x 1 x 1, 2,3,... x 0,1, 2,... 1 p , q 1 p x 800 Anzahl der Wörter beobachtet theoretisch 600 400 200 0 1 2 3 4 Silben pro Wort 5 6 Sergej Grigor'evič Čebanov (1897-1966) Russischer Armee-Arzt aus Petersburg 1947: Poisson-Verteilung ea a x Px x! x 0,1,2,... e a a x 1 Px ( x 1)! x 1,2,3,... Wilhelm Fucks (*1902) Professor für Physik (TH Aachen) e a a x 1 Px ( x 1)! x 1,2,3,... ("Čebanov-Fucks-Verteilung") Fucks (1955): „[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“ Rüdiger Grotjahn 1982: Negative Binomialverteilung Px k xx 1 p k q x 100 Häufigkeit (in Tausend) beobachtet theoretisch 80 60 40 20 0 1 2 3 4 5 6 7 8 9 Wortlänge (in Silben) Wortlängenhäufigkeiten in Durch die Wüste von Karl May Negative Binomialverteilung Px k xx 1 p k q x Geometrische Verteilung ist Spezialfall der negativen Binomialverteilung, wenn: Konvergiert mit der PoissonVerteilung, wenn: k , q 0, kq a k=1 Px pq x ea a x Px x! x 0,1,2,... Folge: Nicht mehr Annahme eines (einheitlichen) Modells, sondern eines System von Modellen (mit best. Einflussfaktoren) Px = g(x) Px-1 Altmann Grotjahn Köhler Wimmer g ( x) a x b=0 b a b x Conway-Maxwell-Poisson-Verteilung 0<a<1 g ( x) a b=1 Geometrische Px p q x Verteilung g ( x) a x PoissonVerteilung (a cx) g ( x) x Neg. Binomial- (a cx) x Pos. Binomial- g ( x) Verteilung Verteilung e a a x Px x! Px k xx 1 p k q x Px p q n x x n x 1 qn Εrweiterte positive Binomialverteilung Èapek: Rekord (1928) Rekord (1928) n x n x p q x Px Px 1 n 1 q 50 50 n=6 p = 0.25 α = 0.98 Anzahl Anzahlder derWörter Wörter(in (in%) %) 40 40 30 30 20 20 10 10 00 00 n=4 p = 0.37 α = 0.97 22 n = 14 p = 0.13 α = 0.96 Anzahl der Wörter (in %) 33 44 55 6 6 Silben Silbenpro proWort Wort Èapek: Noviny a vìda (1917) Erben: Lilie (1861) 50 11 50 40 40 30 30 20 20 10 10 Anzahl der Wörter (in %) 0 0 0 1 2 3 4 Silben pro Wort 0 1 2 3 4 Silben pro Wort 5 6 7 Ein Modell für alle (silbenbildenden) Sprachen ?? • alle Texte einer gegebenen Sprache ?? • alle Texte eines Autors einer gegebenen Sprache ?? • alle Texte eines bestimmten Typs einer gegebenen Sprache ?? • etc. Einflussfaktoren Autorenschaft ? Sprache ? u.a.m. ? Texttyp ? Entstehungszeit ? Einheitliche Modelle oder Modifikation(en)? Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion Text als homogene Einheit • einer Norm • eines Standards „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text m1 (x) 1 x N Бедная Лиза Выстрел m2 (s2) m3 1 2 1 3 ( x x) ( x x) N N 2,10 1,29 0,88 2,12 1,52 1,17 1. m1 Mittelwert Die Lokalisierung im 2. m2 2. Zentralmoment 3. m3 3.Zentralmoment xy-Koordinatensystem y = M3 / M2 m3 m2 y-Achse 0 0 x = M2 / M1 m2 m1 x-Achse “Bednaja Liza” M1 = 2.10 M2 = 1.29 M3 = 0.88 “Vystrel” M2 0.72 M1 M3 0.77 M2 M2 0.61 M1 M3 0.68 M2 1,0 journal. Text literar. Text ,5 poet. Text 0,0 S = M3 / M2 y = 2.08x - 0.44 -,5 -1,0 ,0 I = M2 / M1 ,5 1,0 1,5 1,5 1,0 ,5 TYP Poesie S Journalistik 0,0 Prosa 0,00 I ,50 1,00 2,5 2,0 1,5 1,0 Textkategorie ,5 Gedichte Puskin Briefe Puskin 0,0 S Gedichte Charms -,5 Briefe Charms 0,0 I ,2 ,4 ,6 ,8 1,0 1,2 1,4 Pilotstudie zum Slowenischen Korpus: N = 153 Prosa n1 = 102 n1.1.= 52 liter. Prosa Poesie n2 = 51 n1.2. = 50 Journalistik