Was sagen Silben über die Textstruktur aus? Das Grazer

Werbung
Peter Grzybek
( Graz )
Wortlängen(häufigkeiten) in Texten
slawischer Sprachen
FWF-Projekt #15485
(2002-2005)
Korpus-Analyse
vs.
Text-Analyse
Vermeintliche (Re-)Konstruktion
Text
als
homogene Einheit
• einer Norm
• eines Standards
„Text-Mischung“
Selbstregulierendes System
(„Quasi-Text“)
Text-Ausschnitt
vs.
Vollständiger Text
Aus der Geschichte der WortlängenForschung
(Anfänge)
Augustus de Morgan (1806-1871)
Professor für Mathematik am University College
(London)
1851:
Erwägt die Möglichkeit, den Autor eines Buches
oder eines Textes aufgrund der mittleren Wortlänge
zu identifizieren
Mittelwert als Maß der zentralen Tendenz
Das arithmetische Mittel (x ) :
n
x
1
x  ( x1  x2  ...  xn )  i 1
n
n
10
Stichprobe
Stichprobe
rot Stichprobe
rot
blau
10
9
Stichprobe rot
98
Stichprobe blau
87
76
65
54
43
32
x= 3.00
21
10
0
1
2
3
4
5
1
2
3
4
5
50
Anzahl der Wörter (in %)
Bednaja Liza
Vystrel
40
30
20
10
0
0
1
2
3
4
5
6
7
Silben pro Wort
Mittelwert:
x1 = 2.10
x2 = 2.12
2
(
x

x
)
 ( x2  x)²  ...( xn  x)²
SAQ

(
x

x
)²
s
²

1
Streuung (Varianz):
s² = 1.29
s² = 1.52
n
Mittelwert als Maß der zentralen Tendenz
Varianz als Maß der Streuung um den Mittelwert
Ivan Cankar: “Hiša Marije Pomočnice“
Mittlere Wortlänge: Einzelkapitel vs. Gesamtext
2
Mittlere Wortlänge in Silben

1,9




1,8





1,7
1,6
Einzelkapitel  Gesam tmittelwert
1,5
1
2
3
4
GM
5
6
7
8
9
Thomas Corwin Mendenhall (1841-1924)
Professor für Physik (Ohio, Tokio)
1887/1901:
„[…] it is proposed to analyze a composition by forming what
may be called a 'word spectrum' or 'characteristic curve‘, which
shall be a graphic representation of the arrangement of words
according to their length and to the relative frequency of their
occurrence.“
„the normal curve of a writer”
 Fortführen der Ideen von de Morgan
 Mittelwert,
 Häufigkeitsverteilung
(= graphische Repräsentation,
 mathematische Interpretation)
Sergej Grigor'evič Čebanov (1897-1966)
Russischer Armee-Arzt aus Petersburg
Wilhelm Fucks (*1902)
Professor für Physik (TH Aachen)
Mathematische Interpretation der Häufigkeitsverteilung
("Čebanov-Fucks-Verteilung")
ea a x
Px 
x!
x  0,1,2,...
e  a a x 1
Px 
( x  1)!
x  1,2,3,...
Fucks (1955):
„[...] allgemeines Gesetz der Bildung von Wörtern aus Silben“
Normalverteilung
nach C.F. Gauss
Gustav Herdan
The Advanced Theory of Language as Choice and
Chance (1966)
Lognormal-Verteilung als „optimales Modell“ der Wortlängenhäufigkeit
Px = g(x) Px-1
g ( x)  a  x  b
a
g ( x)  b
x
a
g ( x) 
x
Conway-Maxwell-Poisson-Verteilung
PoissonVerteilung
(a  cx)
g ( x) 
x
Pos. Binomial-
(a  cx)
g ( x) 
x
Neg. Binomial-
Verteilung
Verteilung
e a a x
Px 
x!
Px
p q



n
x
x
n x
1  qn
Px   k xx 1  p k q x
Wortlängenhäufigkeiten in Durch die Wüste von Karl May
100
Häufigkeit (in Tausend)
beobachtet
theoretisch
80
60
40
20
0
1
2
3
4
5
6
7
8
9
Wortlänge (in Silben)
Theoretisches Modell:
Neg. Binomial-Verteilung
(C = 0.002)
Px   k xx 1  p k q x
Εrweiterte positive
Binomialverteilung
Èapek:
Rekord
(1928)
Rekord
(1928)
 n  x n x
   p q
x

Px 
Px 1
n
1 q
50
50
n=6
p = 0.25
α = 0.98
Anzahl
Anzahlder
derWörter
Wörter(in
(in%)
%)
40
40
30
30
20
20
10
10
00
00
n=4
p = 0.37
α = 0.97
n = 14
p = 0.13
α = 0.96
Anzahl der Wörter (in %)
50
40
30
30
20
20
10
10
0
1
2
3
4
Silben pro Wort
33
44
55
6 6
Èapek: Noviny a vìda (1917)
40
0
22
Silben
Silbenpro
proWort
Wort
Erben: Lilie (1861)
50
11
Anzahl der Wörter (in %)
0
0
1
2
3
4
Silben pro Wort
5
6
7
m1 (x)
1
x
N
m2 (s2)
m3
1
2 1
3
 ( x  x)
 ( x  x)
N
N
Arme
Liza
2,10
1,29
0,88
Vystrel
2,12
1,52
1,17
1. m1
Mittelwert
Die Lokalisierung im
2. m2
2. Zentralmoment
3. m3
3.Zentralmoment
xy-Koordinatensystem
y = M3 / M2
m3
m2
y-Achse
0
0
x = M2 / M1
m2
m1
x-Achse
“Bednaja Liza”
M1 = 2.10
M2 = 1.29
M3 = 0.88
“Vystrel”
M2
 0.72
M1
M3
 0.77
M2
M2
 0.61
M1
M3
 0.68
M2
1,5
1,0
,5
0,0
TYP
-,5
S = M3 / M2
Poesie
journ. Prosa
-1,0
lit. Prosa
-1,5
y = 2.08 - 0.44x
0,0
I = M2 / M1
,5
1,0
1,5
1,5
1,0
,5
TYP
Poesie
S
Journalistik
0,0
Prosa
0,00
I
,50
1,00
2,5
2,0
1,5
1,0
Textkategorie
,5
Briefe Charms
Briefe Puskin
0,0
S
Gedichte Charms
-,5
0,0
I
Gedichte Puskin
,2
,4
,6
,8
1,0
1,2
1,4
Pilotstudie zum
Slowenischen
Korpus: N = 153
Prosa
n1 = 102
n1.1.= 52
liter. Prosa
Poesie
n2 = 51
n1.2. = 50
Journalistik
1-Silber
2-Silber
3-Silber
Texttyp
journal. Prosa
4-Silber
Poesie
5-Silber
literar. Prosa
25
2
2
22
2
2
22 2 2 222 2 2
2
2
2
2
2
2
2
22 2
2
2 2
22 2
2
22
222 2
2
22 2
2 2
2
2
2
1
3
1 1 1 1
1 11
2
11 1 1 1
1
1
1
1
1 1
111 1
2
111 11 11
1 1111
1
1
1
1
1
1
1
111 1
3 3
11
1 1 3
3 333
3 3
3 33
33 3
33
33
3 333
333 3
3
3 3
333 3 3
3 3 33 333 3
33 3
3
3
3
dim1
20
2
6
3
6
10
15
6
-6
-4
-2
0
dim2
2
4
Scatterplot der Diskriminanzvariablen
TEXTSORTE
Prosa
Poesie
journalistisch Zeitung 1
Rubrik 1 Autor
Autor
Rubrik 2 Autor
Autor
Zeitung 2
Rubrik 1 Autor
Autor
Rubrik 2 Autor
Autor
literarisch
Erzählungen
19. Jhd. Autor
Autor
Autor
20. Jhd. Autor
Autor
Autor
Romane
19. Jhd. Autor
Autor
Autor
20. Jhd. Autor
Autor
Autor
wissenschaftl. geisteswiss.-philos.
naturwiss.
Brief
19. Jhd. Autor
Autor
20. Jhd. Autor
Autor
versgebunden
19. Jhd. Autor
Autor
Autor
20. Jhd. Autor
Autor
Autor
freier Vers
20. Jhd. Autor
Autor
1 30
2 30
1 30
2 30
1 30
2 30
1 30
2 30 240
1 30
2 30
3 30
1 30
2 30
3 30
1 30
2 30
3 30
1 30
2 30
3 30 360
30
30 60
1 30
2 30
1 30
2 30 120
1 30
2 30
3 30
1 30
2 30
3 30 180
1 30
2 30 60
gesamt
1020
Herunterladen