Peter Grzybek (Graz) Gesetzmäßigkeiten des Sprichworts Die sprachliche Organisation von Sprichwörtern . . . ist nicht zufällig („chaotisch“) sondern . . . folgt bestimmten Gesetzmäßigkeiten • Satzlänge • Wortlänge • Silbenlänge • Wortfrequenz Korpus-Analyse vs. Text-Analyse Vermeintliche (Re-)Konstruktion Text als homogene Einheit • einer Norm • eines Standards „Text-Mischung“ Selbstregulierendes System („Quasi-Text“) Text-Ausschnitt vs. Vollständiger Text Problem: Sprichwörter sind kein fortlaufender Fließ-Text, sondern: jedes einzelne Sprichwort ist ein in sich abgeschlossener (homogener) Text; die Ebene eines Gesamttextes existiert also nicht Frage: Folgt ein Sprichwort-Korpus den selbst-regulatorischen Gesetzmäßigkeiten eines homogenen Textes? Zwei mögliche Antworten: Fall 1: Sprichwort-Korpus = "Quasi-Text" , d.h. Text-Mischung ohne notwendige Datenhomogenität als Voraussetzung für selbst-regulatorische Prozesse Chaos, kein Modell Fall 2: Sprichwort-Korpus verhält sich wie eine Lexikonstruktur, d.h. wie ein paradigmatisches Inventar von Einheiten, im gegebenen Fall von Sätzen, nicht von Lexemen (vgl. Sprichwörterlexikon) Modell Fran Kocbek: Pregovori, prilike in reki. Ljubljana, 1887. Erste umfassende, eigenständige Sprichwortsammlung des Slowenischen: 2.429 Sprichwörter (Sätze) 15.467 Wörter 27.977 Silben Die Satzlänge von Sprichwörtern . . . ist nicht zufällig („chaotisch“) sondern . . . folgt bestimmten Gesetzmäßigkeiten Durchschnittliche Satzlänge Das arithmetische Mittel (x ) als Maß der zentralen Tendenz: n x 1 x ( x1 x2 ... xn ) i 1 n n 2.429 Sprichwörter (15.467 Wörter / 27.977 Silben) x = 6,37 Wörter pro Satz x = 11,67 Silben pro Satz 10 Stichprobe Stichprobe rot Stichprobe rot blau 10 9 Stichprobe rot 98 Stichprobe blau 87 76 65 54 43 32 x= 3.00 21 10 0 1 2 3 4 5 1 2 3 4 5 Durchschnittliche Satzlänge Die Varianz (s) als Streuungsmaß: 2 ( x x ) SAQ ( x1 s ²x)² ( x2 x)² ...( xn Mittelwert-Vergleiche von Sprichwörtern n x)² unterschiedliche Sprachen 2.429 Sprichwörter unterschiedliche Typen Wörter pro Satz: x = 6,37 unterschiedliche Bekanntheit Silben pro Satz: usw. x = 11,67 s = 2,48 s = 4,32 Satzlängenhäufigkeiten (Worte pro Satz) Vorkommenshäufigkeit 500 400 300 200 100 0 10 11 11 12 13 14 15 1 1 2 2 3 3 4 4 5 5 66 77 88 99 10 15 16 16 17 17 18 18 Wörter pro pro Satz Satz Wörter Material: Slowenische Sprichwörter von Kocbek Px = g(x) Px-1 a bx g ( x) cx a bx g ( x) cx d a g ( x) xd neg. BinomialVerteilung HyperpascalVerteilung HyperpoissonVerteilung r x 1 r x Px p q x k x 1 x qxP Px 0 m x 1 x ax Px ( x) 1 F1 (1; b; a )b Satzlängenhäufigkeiten (Worte pro Satz) Vorkommenshäufigkeit 1000 F[i] NP[i] 800 600 400 200 0 1 2 3 4 5 6 7 Wörter pro Satz Material: Slowenische Sprichwörter von Kocbek Theoretisches Modell: Hyperpoisson-Verteilung (C < 0.002) ax Px ( x) 1 F1 (1; b; a )b Vorkommenshäufigkeit (Tausende) Satzlängenhäufigkeiten (Worte pro Satz) 4 F[i] NP[i] - Hyperpoisson 3 2 1 0 2/3 4/5 6/7 8/9 10/11 12/13 14/15 16/17 18/19 20/21 22/23 24/25 Wörter pro Satz Material: Deutsche Sprichwörter von Simrock Theoretisches Modell: Hyperpoisson-Verteilung (C < 0.002) ax Px ( x) 1 F1 (1; b; a )b Px = g(x) Px-1 a bx g ( x) cx d HyperpascalVerteilung k x 1 x qxP Px 0 m x 1 x b = 0, c = 1 a g ( x) xd HyperpoissonVerteilung ax Px ( x) 1 F1 (1; b; a )b Die Wortlänge von Sprichwörtern . . . ist nicht zufällig („chaotisch“) sondern . . . folgt bestimmten Gesetzmäßigkeiten Wortlängenhäufigkeiten (Silben pro Wort) Worthäufigkeit (Tausende) 7 beobachtet theoretisch 6 5 4 3 2 1 0 0 1 2 3 4 5 Silben pro Wort Material: Slowenische Sprichwörter von Kocbek Theoretisches Modell: Hyperbinomial-Verteilung (C < 0.002) n x Px m x 1 x Die Abhängigkeit der Wortlänge von der Satzlänge . . . ist nicht zufällig („chaotisch“) sondern . . . folgt bestimmten Gesetzmäßigkeiten Die Wortlänge hängt von der Satzlänge ab (Altmann-Menzerath-Gesetz) y ax b y Ce a/x Wortlänge (in Silben) 2,7 beobachet ax^b [R²=.89] Ce^(a/x) [R²=.98] 2,5 2,3 2,1 1,9 1,7 1,5 2 3 4 5 6 7 8 9 10 11 12 Wörter pro Satz Material: Slowenische Sprichwörter von Kocbek Die Silbenlänge der Wörter hängt von der Wortlänge ab (Altmann-Menzerath-Gesetz) y ax b y Ce a / x Silbenlänge (in Graphemen) 2,6 beobachet ax^b [R²=.97] Ce^(a/x) [R²=.94] 2,5 2,4 2,3 2,2 2,1 1 2 3 4 5 Silben pro Wort Material: Slowenische Sprichwörter von Kocbek Die Vorkommenshäufigkeit von Wörtern . . . ist nicht zufällig („chaotisch“) sondern . . . folgt bestimmten Gesetzmäßigkeiten (b x) a Px F ( n) Zipf-Mandelbrot-Gesetz Wie viele Wortformen kommen genau 1, 2, 3, …n mal vor? 3000 Anzahl der Wörter beobachtet theoretisch 2500 2000 1500 1000 500 0 1 11 21 31 41 Vorkommenshäufigkeit Theoretisches Modell: Zipf-Mandelbrot-Verteilung (C < 0.002) (b x) a Px F ( n) Wie oft kommt, die häufigste, zweithäufigste, dritthäufigste, usw. Wortform vor? 600 Anzahl der Wörter beobachtet theoretisch 500 400 300 200 100 0 1 21 41 61 81 101 121 141 161 181 201 221 241 Rang Theoretisches Modell: Zipf-Mandelbrot-Verteilung (C < 0.01) (b x) a Px F ( n) Kumulative Abdeckung der lexikalischen Frequenzen 0,3 0,25 0,2 0,15 0,1 0,05 0 120 120 100 100 80 80 60 60 40 40 20 20 0 -1000 0 1000 2000 3000 4000 5000 N Logarithmische Anpassung: y = a + b ln(x) 0 -1000 0 1000 2000 3000 4000 5000 N Exponentielle Anpassung: y = axb Resümee Ein Sprichwort-Korpus ist kein fortlaufender FließText (kein homogener Text) Ein Sprichwort-Korpus folgt selbst-regulatorischen Gesetzmäßigkeiten der sprachlichen Organisation Diese Gesetzmäßigkeiten sind nicht die eines homogenen Textes, doch sie sind aus ihnen ableitbar