Gesetzmäßigkeiten des Sprichworts

Werbung
Peter Grzybek
(Graz)
Gesetzmäßigkeiten des
Sprichworts
Die sprachliche Organisation von
Sprichwörtern
. . . ist nicht zufällig („chaotisch“)
sondern
. . . folgt bestimmten Gesetzmäßigkeiten
• Satzlänge
• Wortlänge
• Silbenlänge
• Wortfrequenz
Korpus-Analyse
vs.
Text-Analyse
Vermeintliche (Re-)Konstruktion
Text
als
homogene Einheit
• einer Norm
• eines Standards
„Text-Mischung“
Selbstregulierendes System
(„Quasi-Text“)
Text-Ausschnitt
vs.
Vollständiger Text
Problem:
Sprichwörter sind kein fortlaufender Fließ-Text, sondern: jedes
einzelne Sprichwort ist ein in sich abgeschlossener (homogener)
Text; die Ebene eines Gesamttextes existiert also nicht
Frage:
Folgt ein Sprichwort-Korpus den selbst-regulatorischen
Gesetzmäßigkeiten eines homogenen Textes?
Zwei mögliche Antworten:
Fall 1:
Sprichwort-Korpus = "Quasi-Text" , d.h. Text-Mischung ohne notwendige
Datenhomogenität als Voraussetzung für selbst-regulatorische Prozesse
 Chaos, kein Modell
Fall 2:
Sprichwort-Korpus verhält sich wie eine Lexikonstruktur, d.h. wie ein
paradigmatisches Inventar von Einheiten, im gegebenen Fall von
Sätzen, nicht von Lexemen (vgl. Sprichwörterlexikon)
 Modell
Fran Kocbek: Pregovori, prilike in reki. Ljubljana, 1887.
Erste umfassende, eigenständige Sprichwortsammlung des
Slowenischen:
 2.429 Sprichwörter (Sätze)
 15.467 Wörter
 27.977 Silben
Die Satzlänge von Sprichwörtern
. . . ist nicht zufällig („chaotisch“)
sondern
. . . folgt bestimmten Gesetzmäßigkeiten
Durchschnittliche Satzlänge
Das arithmetische Mittel (x ) als
Maß der zentralen Tendenz:
n
x
1
x  ( x1  x2  ...  xn )  i 1
n
n
2.429 Sprichwörter (15.467 Wörter / 27.977 Silben)
x = 6,37 Wörter pro Satz
x = 11,67 Silben pro Satz
10
Stichprobe
Stichprobe
rot Stichprobe
rot
blau
10
9
Stichprobe rot
98
Stichprobe blau
87
76
65
54
43
32
x= 3.00
21
10
0
1
2
3
4
5
1
2
3
4
5
Durchschnittliche Satzlänge
Die Varianz (s) als Streuungsmaß:
2
(
x

x
)
SAQ  ( x1 s ²x)² ( x2  x)²  ...( xn
Mittelwert-Vergleiche von Sprichwörtern
n
 x)²
 unterschiedliche Sprachen
2.429 Sprichwörter
 unterschiedliche Typen
Wörter pro Satz:
x = 6,37
 unterschiedliche Bekanntheit
Silben pro Satz:
 usw.
x = 11,67
s = 2,48
s = 4,32
Satzlängenhäufigkeiten (Worte pro Satz)
Vorkommenshäufigkeit
500
400
300
200
100
0
10 11
11 12 13 14 15
1 1 2 2 3 3 4 4 5 5 66 77 88 99 10
15 16
16 17
17 18
18
Wörter pro
pro Satz
Satz
Wörter
Material: Slowenische Sprichwörter von Kocbek
Px = g(x) Px-1
a  bx
g ( x) 
cx
a  bx
g ( x) 
cx  d
a
g ( x) 
xd
neg. BinomialVerteilung
HyperpascalVerteilung
HyperpoissonVerteilung
 r  x  1 r x
Px  
p q
x


 k  x  1


x

 qxP
Px 
0
 m  x  1


x


ax
Px 
( x)
1 F1 (1; b; a )b
Satzlängenhäufigkeiten (Worte pro Satz)
Vorkommenshäufigkeit
1000
F[i]
NP[i]
800
600
400
200
0
1
2
3
4
5
6
7
Wörter pro Satz
Material: Slowenische Sprichwörter von Kocbek
Theoretisches Modell:
Hyperpoisson-Verteilung
(C < 0.002)
ax
Px 
( x)
1 F1 (1; b; a )b
Vorkommenshäufigkeit (Tausende)
Satzlängenhäufigkeiten (Worte pro Satz)
4
F[i]
NP[i] - Hyperpoisson
3
2
1
0
2/3
4/5
6/7
8/9 10/11 12/13 14/15 16/17 18/19 20/21 22/23 24/25
Wörter pro Satz
Material: Deutsche Sprichwörter von Simrock
Theoretisches Modell:
Hyperpoisson-Verteilung
(C < 0.002)
ax
Px 
( x)
1 F1 (1; b; a )b
Px = g(x) Px-1
a  bx
g ( x) 
cx  d
HyperpascalVerteilung
 k  x  1


x

 qxP
Px 
0
 m  x  1


x


b = 0, c = 1
a
g ( x) 
xd
HyperpoissonVerteilung
ax
Px 
( x)
1 F1 (1; b; a )b
Die Wortlänge von Sprichwörtern
. . . ist nicht zufällig („chaotisch“)
sondern
. . . folgt bestimmten Gesetzmäßigkeiten
Wortlängenhäufigkeiten (Silben pro Wort)
Worthäufigkeit (Tausende)
7
beobachtet
theoretisch
6
5
4
3
2
1
0
0
1
2
3
4
5
Silben pro Wort
Material: Slowenische Sprichwörter von Kocbek
Theoretisches Modell:
Hyperbinomial-Verteilung
(C < 0.002)
n
 
 x
Px 
 m  x  1


x


Die Abhängigkeit der Wortlänge von der
Satzlänge
. . . ist nicht zufällig („chaotisch“)
sondern
. . . folgt bestimmten Gesetzmäßigkeiten
Die Wortlänge hängt von der Satzlänge ab
(Altmann-Menzerath-Gesetz)
y  ax b
y  Ce
a/x
Wortlänge (in Silben)
2,7
beobachet
ax^b [R²=.89]
Ce^(a/x) [R²=.98]
2,5
2,3
2,1
1,9
1,7
1,5
2
3
4
5
6
7
8
9
10
11
12
Wörter pro Satz
Material: Slowenische Sprichwörter von Kocbek
Die Silbenlänge der Wörter hängt von der Wortlänge ab
(Altmann-Menzerath-Gesetz)
y  ax b
y  Ce a / x
Silbenlänge (in Graphemen)
2,6
beobachet
ax^b [R²=.97]
Ce^(a/x) [R²=.94]
2,5
2,4
2,3
2,2
2,1
1
2
3
4
5
Silben pro Wort
Material: Slowenische Sprichwörter von Kocbek
Die Vorkommenshäufigkeit von Wörtern
. . . ist nicht zufällig („chaotisch“)
sondern
. . . folgt bestimmten Gesetzmäßigkeiten
(b  x)  a
Px 
F ( n)
Zipf-Mandelbrot-Gesetz
Wie viele Wortformen kommen genau 1, 2, 3, …n mal vor?
3000
Anzahl der Wörter
beobachtet
theoretisch
2500
2000
1500
1000
500
0
1
11
21
31
41
Vorkommenshäufigkeit
Theoretisches Modell:
Zipf-Mandelbrot-Verteilung
(C < 0.002)
(b  x)  a
Px 
F ( n)
Wie oft kommt, die häufigste, zweithäufigste,
dritthäufigste, usw. Wortform vor?
600
Anzahl der Wörter
beobachtet
theoretisch
500
400
300
200
100
0
1
21
41
61
81
101 121 141 161 181 201 221 241
Rang
Theoretisches Modell:
Zipf-Mandelbrot-Verteilung
(C < 0.01)
(b  x)  a
Px 
F ( n)
Kumulative Abdeckung der lexikalischen Frequenzen
0,3
0,25
0,2
0,15
0,1




















0,05

0
120
120
100
100
80
80
60
60
40
40
20
20
0
-1000
0
1000
2000
3000
4000
5000
N
Logarithmische Anpassung:
y = a + b ln(x)
0
-1000
0
1000
2000
3000
4000
5000
N
Exponentielle Anpassung:
y = axb
Resümee
 Ein Sprichwort-Korpus ist kein fortlaufender FließText (kein homogener Text)
 Ein Sprichwort-Korpus folgt selbst-regulatorischen
Gesetzmäßigkeiten der sprachlichen Organisation
 Diese Gesetzmäßigkeiten sind nicht die eines
homogenen Textes, doch sie sind aus ihnen ableitbar
Herunterladen