2005_pg_trnava

Werbung
Peter Grzybek
Graphem-Häufigkeiten im Slowakischen
im Vergleich zu anderen (slawischen) Sprachen
Projekt # 15485 (FWF)
http://www-gewi.uni-graz.at/quanta
Projekt # 43s9 (OEAD/SAIA)
http://www-uni-graz.at/staff/grzybek
Slowakische Graphem-Häufigkeiten
Anfänge in den 50er Jahren:
Praktische Bedürfnisse
• Stenographie
• Tastaturbelegung auf Schreibmaschinen
• Vergleich Graphematik – Phonologie
1.
2.
3.
4.
5.
Milan (1957):
35 – 10.000
Mistrík (1957):
41 – 100.000
Bosák (1965):
46 – 10.000
Krauszová/Jarušek (wiss.):
43 – 585.207
Krauszová/Jarušek (journ.):
43 – 627.797
Slowakische Graphematik (Bosák 1965)
1.
2.
3.
4.
5.
Bosák:
Milan:
Mistrík:
Krauszová/Jarušek (wiss.):
Krauszová/Jarušek (journ.):
46
35
41
43
43
– 10.000
– 10.000
– 100.000
– 585.207
– 627.797
99.97%
98.93 %
90.68 %
91.09 %
93.72 %
• Unterschiedliche Inventar-Größen
• Unvollständige (Roh-)Daten
• Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen)
Notwendig:
Erforschung des graphematischen Systems insgesamt unter
Berücksichtigung möglicher Stil-Differenzen
Synergetische Grundlagen
Frequenzen und Abhängigkeiten
SENTENCE

Frequency

Frequency

Frequency
Length
↕
CLAUSE
Length
↕
WORD / LEXEME
Length
↕
SYLLABLE / MORPHEME Length
↕
PHONEME / GRAPHEME Length
Frequency
Frequency
Frequency
Frequency
Frequency
Annahme:
Regularitäten auf höheren Ebenen setzen Regularitäten
auf niedrigeren Ebenen voraus.
Rang-Häufigkeit
Proportionale Relation einer Klasse x
zur jeweils niedrigeren Klasse x-1
Px  g ( x) Px1
Ist die proportionale
Relation für verschiedene
Texte und/oder Sprachen
systematisch ?
F
r
e
q
u
e
n
n
z
R a n g 1
b i s
R a n g
n
Analyse von Graphem-Frequenzen
Methodologische Entscheidungen
•
Daten-Homogenität
Graphematische Daten (keine Phoneme)
•
Kontrolle der Daten-Homogenität
Texte vs. Text-Segmente vs. Text-Kumulationen vs. TextMischungen (Korpus)
•
Diskrete Häufigkeits-Modelle (keine stetigen)
(a) theoretische Entropie, Repeat Rate, etc.
(b)
•
pi = 1
Test relevanter Modelle
Goodness-of-Fit-Test
²-Test  C = ² / N
(C < 0.02 = * ; C < 0.01 = **)
Analyse von Graphem-Frequenzen: Russisch
АБ В ГД Е Ё ЖЗ И Й К Л МНОПР С ТУФ Х Ц Ч ШЩ Ъ Ы Ь Э ЮЯ
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Autor
No. No.
Author
1
A.S.
Puškin
26 A.S. Puškin
2 Tolstoj
27 L.N.
Text
Text
Evgenij
Onegin
Evgenij Onegin
Anna Karenina
3
4
28 F.M.
Dostojevskij
Prestuplenie i nak azanie
5
6 Puškin
29 A.S.
&7L.N. Tolstoj
8 Puškin
30 A.S.
&9F.M. Dostojevskij
10 Puškin
31 A.S.
&11text 24
32 L.N.
12 Tolstoj
&13text 24
33 F.M.
14 Dostojevskij
&15text 25
34 M.
& text 25
16 Gor'kij
L.N. Tolstoj
17
35 Puškin, A.S.
18 F.M. Dostojevskij
19 Dostojevskij
36 F.M.
20 A.P. Čechov
21
37 L.N.
Tolstoj
22 M.
Gor'kij
23
38 Gesamtkorpus
24 www.rusmet.ru
25 www.phyton.ru
27
Kap.
N
Kap.Abk.
Abk.
1Kap. 1& ASP-EO
1
15830
8
ASP-EO1+8
2T. 8 (Kap.
ASP-EO
2
11544
18) & LNT-AK8+1
N
31694
7720
3T. 1 (Kap.
ASP-EO
3
13597
1)
4T. 1 (Kap.
ASP-EO
12475
1) & 4 FMD-PN1+6
5T. 6 (Kap.
ASP-EO
5
12018
8)
29498
6Gesamttexte
ASP-EO 6
Evgenij Onegin &
7
ASP-EO 7
Anna Karenina
8Gesamttexte
ASP-EO 8
Evgenij Onegin &
1-2
ASP-EO 1-2
Prestuplenie i nak azanie
1-3
ASP-EO 1-3
Evgenij Onegin &
Gesamttexte
Text 24
1-4
ASP-EO 1-4
Anna Karenina &
Gesamttexte
1-5
ASP-EO 1-5
Text 24
1-6
ASP-EO 1-6
Prestuplenie i nak azanie & 1-7
Gesamttexte
ASP-EO 1-7
Text 25
ges. Text
ASP-EO 1-8
Na dne
& Text 25
Anna
Karenina
ges. Gesamttexte
Text
LNT-AK
Otročestvo
ges.
Text
LNT-O
Evgenij Onegin
Kap. 5, Verse
Prestuplenie i nak azanie
ges. 1-5
Textpro Kap.
FMD-PN
Zapisk
i iz podpol'ja
Text
FMD-ZAP
Prestuplenie
i nak azanie ges. Epilog,
jede
Čajk a
ges. Text
APČ-Č
2. Zeile
Djadja Vanja
ges. Text
APČ-DV
Anna Karenina
4 (Kap. MG-MA
1-5),
Mat'
ges. T.
Text
Na dne
ges. jede
Text 4. Zeile
MG-ND
Ural'sk ij rynok metallov
Instr. sredstva […]
28 29 30 31 32 33
techn. Text
techn. Text
UR
IN
12742
ASP+LNT
1445733
15180
15864
ASP+FMD
947135
27374
40971
ASP+UR
117311
53446
LNT+UR
65464
1344544
78206
FMD+IN
93386
856596
109250
MG+IN
1336483
113954
ASP1-5
837885
95312
4323
188249
FMD-2
14464
145735
60871
LNT-4
433177
76039
CC
8061
18711
7141
3328454
Zipf-Verteilung
(Zeta-Verteilung)
Grundannahme:
r x fr = c  fr = c / r
c
Pr  a ,
r
r  1, 2,3,...,

a  1, c  
1
j 1
1
ja
1400000
beobachtet f(i)
Zeta NP(i)
1200000
1000000
800000
GesamtKorpus:
600000
400000
200000
0
1
11
21
31
C = 0.12
Zipf-Mandelbrot-Verteilung
Grundannahme:
 fr = c / (r + b)a
c
Pr 
,
a
(b  r )

1
r 1, 2,3,..., a 1, b  1, c  
a
j 1 (b  j )
1
25000
f(i)

NP(i)
20000

15000

10000
5000
0








GesamtKorpus:
  


  

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
C = 0.03
Zipf‘sche und Zipf-Mandelbrot‘sche
Verteilung: Goodness-of-Fit-Tests
(38 Russische Datensätze)
0,20
rt. Zeta  Zipf-Mandelbrot

0,15

 





0,10


0,05 
 




 






 




 


 















0,00
1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132333435363738
Geometrische Verteilung und Good-Verteilung
Pr  p  q
a r
Pr  b  c ,
r
r 1
r  1, 2,..., n
cj
a  b
j 1 j
1
n
0,20
rt. geometric Good1
0,15




  






 


0,10
0,05





 







  








 
 
    


0,00
1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132333435363738
Gesamt-Korpus:
Gesamt-Korpus:
C = 0.0211
C = 0.13
Analyse Russischer Graphem-Frequenzen
(Korpus)
Negativ-hypergeometrische Verteilung
1200000
beobachtet f(i)
 n  neg.
x  hypergeom. NP(i)
 M  x  2  K  M



x

1
n

x

1


Px  
 K  n  1

n = Inventargröße,
x= Klasse
n


1000000
800000
600000
2 Parameter: K, M
400000
200000
0
1
11
21
Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme
C = 0.0043
31
Negativ hypergeometrische Verteilung
Analyse russischer Graphem-Frequenzen
Vergleich von Texten, Text-Segmenten, TextKumulationen, Text-Mischungen, und dem
Gesamt-Korpus
0,10
0,08
0,06
0,04
0,02
0,00

 

  
 






1
11
21
31
Konstanz des Goodness-of-Fit-Tests
(C)
Konstanz der Parameter (K, M)
K  3.15
M  0.81
Analyse slowenischer Graphem-Frequenzen
abcčdefghijklmnoprsštuvzž
Negativ hypergeometrische Verteilung
18000
beobachtet
neg.hypergeom.
16000
14000
12000
10000
8000
6000
4000
2000
0
1 2 3
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29
Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme
(C= 0.0094)
Analyse slowenischer Graphem-Frequenzen
(Korpus)
Negativ hypergeometrische Verteilung
0,20
NHG
3,50

3,00  
               

2,50
0,15
2,00
K
0,10
M
1,50
1,00
0,05
0,00
                   
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20
Konstanz des Goodness-of-Fit-Tests:
(C)










1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20










0,50
0,00
Konstanz der Parameter (K, M)
K  2.89
M  0.81
Vergleich: Russisch (33) – Slowenisch (25)
Werte der Parameter K und M für jeweils 30 Texte
(mit 95%-Konfidenzintervall für K)
K (rus) 
 M (rus) K (slo)   M (slo)
5
4
3




 



      





   



2
1














 















0
R U S S I S C H
S L OWE N I S C H
Analysis von Graphem-Häufigkeiten
in slawischen Alphabeten
InventarUmfang
minimal
25
Slowenisch
mittel
32/33
Russisch
maximal
43/46
Slowakisch
(е / ё)
(m. Digraphen)
Slowakische Graphem-Häufigkeiten
• Folgt auch das Slowakische der neg. hypergeometrischen Verteilung?
Wenn ja:
• Wie verhalten sich die Parameter K und M ?
• Wie wirkt sich die Anzahl der (Graphem)Klassen aus ?
• Lassen sich die Parameter K und M interpretieren ?
Slowakische Graphem-Häufigkeiten: Korpus-Analyse
(ca. 150.000 Grapheme)
43 Grapheme
46 Grapheme
C = 0.0102
C = 0.0139
K = 3.97
K = 4.16
M = 0.85
M = 0.83
Slowakische Graphem-Häufigkeiten: Text-Analysen
(30 Texte verschiedener Textsorten)
0,05
0,04

C (sk,oD)  C (sk, mD)



0,03

0,02



 

  



 





 
  





0,01






 




0
S L O W A K I S CH 43



   

S L O W A K I S CH 46
xC  0.0139

Slowakische Graphem-Häufigkeiten: Parameter K und M
(mit 95%-Konfidenzintervall)
K (sk,oD) 
 M (sk,oD)  K (sk,mD)   M (sk,mD)
6
5

 





 
















 
 
 












4 




   
 
 

3
2
1






























0
S L O W A K I S CH
43
S L O W A K I S CH
46
K = 4.06  0.06
K = 4.31  0.08
M = 0.85  0.01
M = 0.84  0.01
Graphem-Häufigkeiten in drei slawischen Sprachen:
Fehlerbalken-Diagramme für K und M
K
M
4
95% CI
3
1.
Slowenisch: 25
2.
Russisch: 32 (ohne ё)
3.
Russisch: 33 (mit ё)
4.
Slowakisch: 43 (ohne Digraphen)
5.
Slowakisch: 46 (mit Digraphen)
2
1. Überlappung von M
1
2. Keine Überlappung von K
25
32
33
43
Inventarumfang (Grapheme)
46
3. Korrelation von K und n ?
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter:
Abhängigkeit der Parameter K und M von n
M
K
Beobachtet
5,0000
Beobachtet
0,9500
Linear
Linear
4,5000
0,9000
4,0000
0,8500
3,5000
0,8000
3,0000
0,7500
2,5000
25
25
30
35
40
45
50
j
30
35
40
45
50
j
K korreliert hoch signifikant mit
dem Inventarumfang n:
M korreliert signifikant, aber deutlich
schwächer mit dem Inventarumfang n:
(r = 0.94, p < 0.001)
(r = 0.26, p = 0.01)
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter:
Abhängigkeit der Parameter K und M von n
K korreliert signifikant mit
dem Inventarumfang n:
M korreliert nicht signifikant mit
dem Inventarumfang n:
(r = 0.99, p = 0.002)
(r = 0.33, p = 0.22)
Graphem-Häufigkeiten in drei slawischen Sprachen
Interpretation der Parameter K und M
Abhängigkeit Mi von Ki (i=1,2,…,n)
j
1,0000
25
32
33
43
0,9500
46
M
0,9000
0,8500
0,8000
0,7500
0,7000
2,5000
3,0000
3,5000
4,0000
4,5000
5,0000
K
gesamt
r =.51, p < .001
 SPRACHSPEZIFIK !!!
Sprachspezifische Abhängigkeit des Parameters
Mi von Ki (i = 1,2,…,n)
Slowenisch:
r =.88, p < .001
Slowakisch (43):
r =.82, p < .001
Russisch (32):
r =.86, p < .001
Russisch (33)
r =.85. p < .001
Slowakisch (46)
r = .59, p = .001
Sprachspezifische Abhängigkeit des Parameters Mi von Ki
Mi = ai  Ki
Slowenisch:
M1 = 0.2823 K1
Slowakisch (43):
M4 = 0.2123 K4
Russisch (32):
M2 = 0.2434 K2
Russisch (33)
M3 = 0.2529 K3
Slowakisch (46)
M5 = 0.1953 K5
Abhängigkeit des Faktors ai von ni
ai = c  ni + d
ai = c‘  nid‘
Slowenisch
n1 = 25 M1 = 0.2823 K1
Russisch
n2 = 32
n3 = 33
M2 = 0.2434 K2
M3 = 0.2529 K3
Slowakisch
n4 = 43
n5 = 46
M4 = 0.2123 K4
M5 = 0.1953 K5
r =.99 ( p = 0.001)
Resümee und Schlussfolgerungen
1.
Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert;
die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung
2.
Das Slowakische ordnet sich systematisch in den Kontext anderer
slawischer Graphemsysteme ein
3.
Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie
lassen sich interpretieren, indem sie sich auf den Inventarumfang n
zurückführen lassen
4.
Nur Textanalysen, keine Korpusanalysen führen zu einer
entsprechenden Interpretation der Parameter
ai
f(ni)
c · ni + d
-0.004 ni + 0.379
Mi
g(Ki)
K
h(n)
ai · Ki
u·n+v
0.067 n + 1.163
Däkujem
za
pozornost !
Stichprobengröße und C
0,05
0,04
0,04
0,04
0,03
0,03
0,03
C
C
0,05
C
0,05
0,02
0,02
0,02
0,01
0,01
0,01
0,00
0,00
0,00
10000
15000
20000
25000
0
30000
5000
10000
15000
20000
25000
30000
0
5000
10000
N
N
15000
N
0,05
0,05
0,04
0,04
0,03
0,03
C
5000
C
0
0,02
0,02
0,01
0,01
0,00
0,00
0
5000
10000
15000
N
20000
25000
30000
0
5000
10000
15000
N
20000
25000
30000
20000
25000
30000
Post-Hoc-Mittelwert-Vergleich
(Parameter K)
K
Tukey-B-Tes ta
Scheffé-Prozedura
s prache
s lo
rus_32
rus_33
s k_43
s k_46
s lo
rus_32
rus_33
s k_43
s k_46
Signifikanz
N
30
30
30
30
30
30
30
30
30
30
1
2,956421
Untergruppe für Alpha = .05.
2
3
4
5
3,174537
3,352635
4,057377
4,313710
2,956421
3,174537
3,352635
4,057377
1,000
1,000
1,000
1,000
4,313710
1,000
Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt.
a. Verwendet ein harmonis ches Mittel für Stichprobengröße = 30,000.
M
Tukey-B-Tes ta
Scheffé-Prozedura
s prache
rus_32
rus_33
s lo
s k_46
s k_43
rus_32
rus_33
s lo
s k_46
s k_43
Signifikanz
N
30
30
30
30
30
30
30
30
30
30
Untergruppe für Alpha = .05.
1
2
3
,803555
,816581
,816581
,835117
,835117
,843017
,853580
,803555
,816581
,816581
,835117
,835117
,843017
,843017
,853580
,702
,066
,360
Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden
angezeigt.
a. Verwendet ein harmonis ches Mittel für Stichprobengröße = 30,000.
Diskriminanzanalyse
(Parameter K und M als
Diskriminanzvariablen)
Klassifizierungsergebnissea
Original
Anzahl
%
s prache
s lo
rus _32
rus _33
s k_43
s k_46
s lo
rus _32
rus _33
s k_43
s k_46
s lo
30
1
0
0
0
100,0
3,3
,0
,0
,0
Vorherges agte Gruppenzugehörigkeit
rus _32
rus _33
s k_43
0
0
0
23
6
0
6
23
1
0
0
28
0
0
6
,0
,0
,0
76,7
20,0
,0
20,0
76,7
3,3
,0
,0
93,3
,0
,0
20,0
s k_46
0
0
0
2
24
,0
,0
,0
6,7
80,0
Ges amt
30
30
30
30
30
100,0
100,0
100,0
100,0
100,0
a. 85,3% der ursprünglich gruppierten Fälle wurden korrekt klas s ifiziert.
Klassifizierungsergebnissea
Original
Anzahl
%
s prache
s lo
rus _32
rus _33
s k_43
s k_46
s lo
rus _32
rus _33
s k_43
s k_46
s lo
7
4
4
4
7
23,3
13,3
13,3
13,3
23,3
Vorherges agte Gruppenzugehörigkeit
rus _32
rus _33
s k_43
3
5
10
19
4
3
13
6
3
4
3
15
6
4
12
10,0
16,7
33,3
63,3
13,3
10,0
43,3
20,0
10,0
13,3
10,0
50,0
20,0
13,3
40,0
a. 32,0% der ursprünglich gruppierten Fälle wurden korrekt klas s ifiziert.
s k_46
5
0
4
4
1
16,7
,0
13,3
13,3
3,3
Ges amt
30
30
30
30
30
100,0
100,0
100,0
100,0
100,0
Herunterladen