Zur Geschichte der Wortlängenforschung. Hintergründe des Grazer

Peter Grzybek
( Graz )
Wortlängen(häufigkeiten) in Texten
slawischer Sprachen
FWF-Projekt #15485
(2002-2005)
Korpus-Analyse
vs.
Text-Analyse
Vermeintliche (Re-)Konstruktion
Text
als
homogene Einheit
• einer Norm
• eines Standards
„Text-Mischung“
Selbstregulierendes System
(„Quasi-Text“)
Text-Ausschnitt
vs.
Vollständiger Text
Aus der Geschichte der WortlängenForschung
(Anfänge)
Augustus de Morgan (1806-1871)
Professor für Mathematik am University College
(London)
Brief vom 18. August 1851:
De Morgan erwägt die Möglichkeit, den Autor
eines Buches oder eines Textes aufgrund der
mittleren Wortlänge zu identifizieren
Mittelwert als Maß der zentralen Tendenz
50
Anzahl der Wörter (in %)
Bednaja Liza
Vystrel
40
30
20
10
0
0
1
2
3
4
5
6
7
Silben pro Wort
Mittelwert:
x1 = 2.10
x2 = 2.12
2
(
x

x
)
 ( x2  x)²  ...( xn  x)²
SAQ

(
x

x
)²
s
²

1
Streuung (Varianz):
s² = 1.29
s² = 1.52
n
Thomas Corwin Mendenhall (1841-1924)
Professor für Physik (Ohio, Tokio)
1887/1901:
„[…] it is proposed to analyze a composition by forming what
may be called a 'word spectrum' or 'characteristic curve‘, which
shall be a graphic representation of the arrangement of words
according to their length and to the relative frequency of their
occurrence.“

„the normal curve of a writer”
 Fortführen der Ideen von de Morgan
 Mittelwert,  Häufigkeitsverteilung
= graphische Repräsentation,
 mathematische Interpretation

Mathematische Interpretationen
der Häufigkeitsverteilung
Normalverteilung
nach C.F. Gauss
Gustav Herdan
The Advanced Theory of Language as Choice and
Chance (1966)
Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit
William P. Elderton (1877-??)
Englischer Statistiker
1949: Geometrische Verteilung
Px  p  q x
Px  p  q x 1 x  1, 2,3,...
x  0,1, 2,...
1
p  , q  1 p
x
800
Anzahl der Wörter
beobachtet
theoretisch
600
400
200
0
1
2
3
4
Silben pro Wort
5
6
Sergej Grigor'evič Čebanov (1897-1966)
Russischer Armee-Arzt aus Petersburg
1947: Poisson-Verteilung
ea a x
Px 
x!
x  0,1,2,...
e  a a x 1
Px 
( x  1)!
x  1,2,3,...
Wilhelm Fucks (*1902)
Professor für Physik (TH Aachen)
e  a a x 1
Px 
( x  1)!
x  1,2,3,...
("Čebanov-Fucks-Verteilung")
Fucks (1955):
„[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“
Rüdiger Grotjahn
1982: Negative Binomialverteilung
Px   k xx 1  p k q x
100
Häufigkeit (in Tausend)
beobachtet
theoretisch
80
60
40
20
0
1
2
3
4
5
6
7
8
9
Wortlänge (in Silben)
Wortlängenhäufigkeiten in Durch die Wüste von Karl May
Negative Binomialverteilung
Px   k xx 1  p k q x
Geometrische Verteilung ist
Spezialfall der negativen
Binomialverteilung, wenn:
Konvergiert mit der PoissonVerteilung, wenn:
k  , q  0, kq  a
k=1
Px  pq
x
ea a x
Px 
x!
x  0,1,2,...
Folge:
Nicht mehr Annahme eines (einheitlichen)
Modells, sondern eines System von
Modellen (mit best. Einflussfaktoren)
Px = g(x) Px-1
Altmann
Grotjahn
Köhler
Wimmer
g ( x)  a  x
b=0
b
a
 b
x
Conway-Maxwell-Poisson-Verteilung
0<a<1
g ( x)  a
b=1
Geometrische
Px  p  q x
Verteilung
g ( x) 
a
x
PoissonVerteilung
(a  cx)
g ( x) 
x
Neg. Binomial-
(a  cx)
x
Pos. Binomial-
g ( x) 
Verteilung
Verteilung
e a a x
Px 
x!
Px   k xx 1  p k q x
Px
p q



n
x
x
n x
1  qn
Εrweiterte positive
Binomialverteilung
Èapek:
Rekord
(1928)
Rekord
(1928)
 n  x n x
   p q
x

Px 
Px 1
n
1 q
50
50
n=6
p = 0.25
α = 0.98
Anzahl
Anzahlder
derWörter
Wörter(in
(in%)
%)
40
40
30
30
20
20
10
10
00
00
n=4
p = 0.37
α = 0.97
22
n = 14
p = 0.13
α = 0.96
Anzahl der Wörter (in %)
33
44
55
6 6
Silben
Silbenpro
proWort
Wort
Èapek: Noviny a vìda (1917)
Erben: Lilie (1861)
50
11
50
40
40
30
30
20
20
10
10
Anzahl der Wörter (in %)
0
0
0
1
2
3
4
Silben pro Wort
0
1
2
3
4
Silben pro Wort
5
6
7
Ein Modell für
alle (silbenbildenden) Sprachen ??

• alle Texte einer gegebenen Sprache ??
• alle Texte eines Autors einer gegebenen Sprache ??
• alle Texte eines bestimmten Typs einer gegebenen Sprache ??
• etc.
Einflussfaktoren
Autorenschaft ?
Sprache ?
u.a.m. ?
Texttyp ?
Entstehungszeit ?
Einheitliche Modelle oder Modifikation(en)?
Korpus-Analyse
vs.
Text-Analyse
Vermeintliche (Re-)Konstruktion
Text
als
homogene Einheit
• einer Norm
• eines Standards
„Text-Mischung“
Selbstregulierendes System
(„Quasi-Text“)
Text-Ausschnitt
vs.
Vollständiger Text
m1 (x)
1
x
N
Бедная
Лиза
Выстрел
m2 (s2)
m3
1
2 1
3
 ( x  x)
 ( x  x)
N
N
2,10
1,29
0,88
2,12
1,52
1,17
1. m1
Mittelwert
Die Lokalisierung im
2. m2
2. Zentralmoment
3. m3
3.Zentralmoment
xy-Koordinatensystem
y = M3 / M2
m3
m2
y-Achse
0
0
x = M2 / M1
m2
m1
x-Achse
“Bednaja Liza”
M1 = 2.10
M2 = 1.29
M3 = 0.88
“Vystrel”
M2
 0.72
M1
M3
 0.77
M2
M2
 0.61
M1
M3
 0.68
M2
1,0
journal. Text
literar. Text
,5
poet. Text
0,0
S = M3 / M2
y = 2.08x - 0.44
-,5
-1,0
,0
I = M2 / M1
,5
1,0
1,5
1,5
1,0
,5
TYP
Poesie
S
Journalistik
0,0
Prosa
0,00
I
,50
1,00
2,5
2,0
1,5
1,0
Textkategorie
,5
Gedichte Puskin
Briefe Puskin
0,0
S
Gedichte Charms
-,5
Briefe Charms
0,0
I
,2
,4
,6
,8
1,0
1,2
1,4
Pilotstudie zum
Slowenischen
Korpus: N = 153
Prosa
n1 = 102
n1.1.= 52
liter. Prosa
Poesie
n2 = 51
n1.2. = 50
Journalistik