Peter Grzybek Graphem-Häufigkeiten im Slowakischen im Vergleich zu anderen (slawischen) Sprachen Projekt # 15485 (FWF) http://www-gewi.uni-graz.at/quanta Projekt # 43s9 (OEAD/SAIA) http://www-uni-graz.at/staff/grzybek Slowakische Graphem-Häufigkeiten Anfänge in den 50er Jahren: Praktische Bedürfnisse • Stenographie • Tastaturbelegung auf Schreibmaschinen • Vergleich Graphematik – Phonologie 1. 2. 3. 4. 5. Milan (1957): 35 – 10.000 Mistrík (1957): 41 – 100.000 Bosák (1965): 46 – 10.000 Krauszová/Jarušek (wiss.): 43 – 585.207 Krauszová/Jarušek (journ.): 43 – 627.797 Slowakische Graphematik (Bosák 1965) 1. 2. 3. 4. 5. Bosák: Milan: Mistrík: Krauszová/Jarušek (wiss.): Krauszová/Jarušek (journ.): 46 35 41 43 43 – 10.000 – 10.000 – 100.000 – 585.207 – 627.797 99.97% 98.93 % 90.68 % 91.09 % 93.72 % • Unterschiedliche Inventar-Größen • Unvollständige (Roh-)Daten • Untersuchungen einzelner Grapheme / Phoneme (Graphem-Phonem-Gruppen) Notwendig: Erforschung des graphematischen Systems insgesamt unter Berücksichtigung möglicher Stil-Differenzen Synergetische Grundlagen Frequenzen und Abhängigkeiten SENTENCE Frequency Frequency Frequency Length ↕ CLAUSE Length ↕ WORD / LEXEME Length ↕ SYLLABLE / MORPHEME Length ↕ PHONEME / GRAPHEME Length Frequency Frequency Frequency Frequency Frequency Annahme: Regularitäten auf höheren Ebenen setzen Regularitäten auf niedrigeren Ebenen voraus. Rang-Häufigkeit Proportionale Relation einer Klasse x zur jeweils niedrigeren Klasse x-1 Px g ( x) Px1 Ist die proportionale Relation für verschiedene Texte und/oder Sprachen systematisch ? F r e q u e n n z R a n g 1 b i s R a n g n Analyse von Graphem-Frequenzen Methodologische Entscheidungen • Daten-Homogenität Graphematische Daten (keine Phoneme) • Kontrolle der Daten-Homogenität Texte vs. Text-Segmente vs. Text-Kumulationen vs. TextMischungen (Korpus) • Diskrete Häufigkeits-Modelle (keine stetigen) (a) theoretische Entropie, Repeat Rate, etc. (b) • pi = 1 Test relevanter Modelle Goodness-of-Fit-Test ²-Test C = ² / N (C < 0.02 = * ; C < 0.01 = **) Analyse von Graphem-Frequenzen: Russisch АБ В ГД Е Ё ЖЗ И Й К Л МНОПР С ТУФ Х Ц Ч ШЩ Ъ Ы Ь Э ЮЯ 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Autor No. No. Author 1 A.S. Puškin 26 A.S. Puškin 2 Tolstoj 27 L.N. Text Text Evgenij Onegin Evgenij Onegin Anna Karenina 3 4 28 F.M. Dostojevskij Prestuplenie i nak azanie 5 6 Puškin 29 A.S. &7L.N. Tolstoj 8 Puškin 30 A.S. &9F.M. Dostojevskij 10 Puškin 31 A.S. &11text 24 32 L.N. 12 Tolstoj &13text 24 33 F.M. 14 Dostojevskij &15text 25 34 M. & text 25 16 Gor'kij L.N. Tolstoj 17 35 Puškin, A.S. 18 F.M. Dostojevskij 19 Dostojevskij 36 F.M. 20 A.P. Čechov 21 37 L.N. Tolstoj 22 M. Gor'kij 23 38 Gesamtkorpus 24 www.rusmet.ru 25 www.phyton.ru 27 Kap. N Kap.Abk. Abk. 1Kap. 1& ASP-EO 1 15830 8 ASP-EO1+8 2T. 8 (Kap. ASP-EO 2 11544 18) & LNT-AK8+1 N 31694 7720 3T. 1 (Kap. ASP-EO 3 13597 1) 4T. 1 (Kap. ASP-EO 12475 1) & 4 FMD-PN1+6 5T. 6 (Kap. ASP-EO 5 12018 8) 29498 6Gesamttexte ASP-EO 6 Evgenij Onegin & 7 ASP-EO 7 Anna Karenina 8Gesamttexte ASP-EO 8 Evgenij Onegin & 1-2 ASP-EO 1-2 Prestuplenie i nak azanie 1-3 ASP-EO 1-3 Evgenij Onegin & Gesamttexte Text 24 1-4 ASP-EO 1-4 Anna Karenina & Gesamttexte 1-5 ASP-EO 1-5 Text 24 1-6 ASP-EO 1-6 Prestuplenie i nak azanie & 1-7 Gesamttexte ASP-EO 1-7 Text 25 ges. Text ASP-EO 1-8 Na dne & Text 25 Anna Karenina ges. Gesamttexte Text LNT-AK Otročestvo ges. Text LNT-O Evgenij Onegin Kap. 5, Verse Prestuplenie i nak azanie ges. 1-5 Textpro Kap. FMD-PN Zapisk i iz podpol'ja Text FMD-ZAP Prestuplenie i nak azanie ges. Epilog, jede Čajk a ges. Text APČ-Č 2. Zeile Djadja Vanja ges. Text APČ-DV Anna Karenina 4 (Kap. MG-MA 1-5), Mat' ges. T. Text Na dne ges. jede Text 4. Zeile MG-ND Ural'sk ij rynok metallov Instr. sredstva […] 28 29 30 31 32 33 techn. Text techn. Text UR IN 12742 ASP+LNT 1445733 15180 15864 ASP+FMD 947135 27374 40971 ASP+UR 117311 53446 LNT+UR 65464 1344544 78206 FMD+IN 93386 856596 109250 MG+IN 1336483 113954 ASP1-5 837885 95312 4323 188249 FMD-2 14464 145735 60871 LNT-4 433177 76039 CC 8061 18711 7141 3328454 Zipf-Verteilung (Zeta-Verteilung) Grundannahme: r x fr = c fr = c / r c Pr a , r r 1, 2,3,..., a 1, c 1 j 1 1 ja 1400000 beobachtet f(i) Zeta NP(i) 1200000 1000000 800000 GesamtKorpus: 600000 400000 200000 0 1 11 21 31 C = 0.12 Zipf-Mandelbrot-Verteilung Grundannahme: fr = c / (r + b)a c Pr , a (b r ) 1 r 1, 2,3,..., a 1, b 1, c a j 1 (b j ) 1 25000 f(i) NP(i) 20000 15000 10000 5000 0 GesamtKorpus: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 C = 0.03 Zipf‘sche und Zipf-Mandelbrot‘sche Verteilung: Goodness-of-Fit-Tests (38 Russische Datensätze) 0,20 rt. Zeta Zipf-Mandelbrot 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132333435363738 Geometrische Verteilung und Good-Verteilung Pr p q a r Pr b c , r r 1 r 1, 2,..., n cj a b j 1 j 1 n 0,20 rt. geometric Good1 0,15 0,10 0,05 0,00 1 2 3 4 5 6 7 8 9 1011121314151617181920212223242526272829303132333435363738 Gesamt-Korpus: Gesamt-Korpus: C = 0.0211 C = 0.13 Analyse Russischer Graphem-Frequenzen (Korpus) Negativ-hypergeometrische Verteilung 1200000 beobachtet f(i) n neg. x hypergeom. NP(i) M x 2 K M x 1 n x 1 Px K n 1 n = Inventargröße, x= Klasse n 1000000 800000 600000 2 Parameter: K, M 400000 200000 0 1 11 21 Goodness-of-Fit-Test: Korpus, ca. 8.5 Mio. Grapheme C = 0.0043 31 Negativ hypergeometrische Verteilung Analyse russischer Graphem-Frequenzen Vergleich von Texten, Text-Segmenten, TextKumulationen, Text-Mischungen, und dem Gesamt-Korpus 0,10 0,08 0,06 0,04 0,02 0,00 1 11 21 31 Konstanz des Goodness-of-Fit-Tests (C) Konstanz der Parameter (K, M) K 3.15 M 0.81 Analyse slowenischer Graphem-Frequenzen abcčdefghijklmnoprsštuvzž Negativ hypergeometrische Verteilung 18000 beobachtet neg.hypergeom. 16000 14000 12000 10000 8000 6000 4000 2000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Goodness-of-Fit-Test: Korpus, ca. 130.000 Grapheme (C= 0.0094) Analyse slowenischer Graphem-Frequenzen (Korpus) Negativ hypergeometrische Verteilung 0,20 NHG 3,50 3,00 2,50 0,15 2,00 K 0,10 M 1,50 1,00 0,05 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Konstanz des Goodness-of-Fit-Tests: (C) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0,50 0,00 Konstanz der Parameter (K, M) K 2.89 M 0.81 Vergleich: Russisch (33) – Slowenisch (25) Werte der Parameter K und M für jeweils 30 Texte (mit 95%-Konfidenzintervall für K) K (rus) M (rus) K (slo) M (slo) 5 4 3 2 1 0 R U S S I S C H S L OWE N I S C H Analysis von Graphem-Häufigkeiten in slawischen Alphabeten InventarUmfang minimal 25 Slowenisch mittel 32/33 Russisch maximal 43/46 Slowakisch (е / ё) (m. Digraphen) Slowakische Graphem-Häufigkeiten • Folgt auch das Slowakische der neg. hypergeometrischen Verteilung? Wenn ja: • Wie verhalten sich die Parameter K und M ? • Wie wirkt sich die Anzahl der (Graphem)Klassen aus ? • Lassen sich die Parameter K und M interpretieren ? Slowakische Graphem-Häufigkeiten: Korpus-Analyse (ca. 150.000 Grapheme) 43 Grapheme 46 Grapheme C = 0.0102 C = 0.0139 K = 3.97 K = 4.16 M = 0.85 M = 0.83 Slowakische Graphem-Häufigkeiten: Text-Analysen (30 Texte verschiedener Textsorten) 0,05 0,04 C (sk,oD) C (sk, mD) 0,03 0,02 0,01 0 S L O W A K I S CH 43 S L O W A K I S CH 46 xC 0.0139 Slowakische Graphem-Häufigkeiten: Parameter K und M (mit 95%-Konfidenzintervall) K (sk,oD) M (sk,oD) K (sk,mD) M (sk,mD) 6 5 4 3 2 1 0 S L O W A K I S CH 43 S L O W A K I S CH 46 K = 4.06 0.06 K = 4.31 0.08 M = 0.85 0.01 M = 0.84 0.01 Graphem-Häufigkeiten in drei slawischen Sprachen: Fehlerbalken-Diagramme für K und M K M 4 95% CI 3 1. Slowenisch: 25 2. Russisch: 32 (ohne ё) 3. Russisch: 33 (mit ё) 4. Slowakisch: 43 (ohne Digraphen) 5. Slowakisch: 46 (mit Digraphen) 2 1. Überlappung von M 1 2. Keine Überlappung von K 25 32 33 43 Inventarumfang (Grapheme) 46 3. Korrelation von K und n ? Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n M K Beobachtet 5,0000 Beobachtet 0,9500 Linear Linear 4,5000 0,9000 4,0000 0,8500 3,5000 0,8000 3,0000 0,7500 2,5000 25 25 30 35 40 45 50 j 30 35 40 45 50 j K korreliert hoch signifikant mit dem Inventarumfang n: M korreliert signifikant, aber deutlich schwächer mit dem Inventarumfang n: (r = 0.94, p < 0.001) (r = 0.26, p = 0.01) Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter: Abhängigkeit der Parameter K und M von n K korreliert signifikant mit dem Inventarumfang n: M korreliert nicht signifikant mit dem Inventarumfang n: (r = 0.99, p = 0.002) (r = 0.33, p = 0.22) Graphem-Häufigkeiten in drei slawischen Sprachen Interpretation der Parameter K und M Abhängigkeit Mi von Ki (i=1,2,…,n) j 1,0000 25 32 33 43 0,9500 46 M 0,9000 0,8500 0,8000 0,7500 0,7000 2,5000 3,0000 3,5000 4,0000 4,5000 5,0000 K gesamt r =.51, p < .001 SPRACHSPEZIFIK !!! Sprachspezifische Abhängigkeit des Parameters Mi von Ki (i = 1,2,…,n) Slowenisch: r =.88, p < .001 Slowakisch (43): r =.82, p < .001 Russisch (32): r =.86, p < .001 Russisch (33) r =.85. p < .001 Slowakisch (46) r = .59, p = .001 Sprachspezifische Abhängigkeit des Parameters Mi von Ki Mi = ai Ki Slowenisch: M1 = 0.2823 K1 Slowakisch (43): M4 = 0.2123 K4 Russisch (32): M2 = 0.2434 K2 Russisch (33) M3 = 0.2529 K3 Slowakisch (46) M5 = 0.1953 K5 Abhängigkeit des Faktors ai von ni ai = c ni + d ai = c‘ nid‘ Slowenisch n1 = 25 M1 = 0.2823 K1 Russisch n2 = 32 n3 = 33 M2 = 0.2434 K2 M3 = 0.2529 K3 Slowakisch n4 = 43 n5 = 46 M4 = 0.2123 K4 M5 = 0.1953 K5 r =.99 ( p = 0.001) Resümee und Schlussfolgerungen 1. Die Graphemhäufigkeiten im Slowakischen sind gesetzmäßig organisiert; die Verteilung folgt der negativ hypergeometrischen (nhg) Verteilung 2. Das Slowakische ordnet sich systematisch in den Kontext anderer slawischer Graphemsysteme ein 3. Die Parameter K und M der NHG Verteilung verhalten sich regulär; sie lassen sich interpretieren, indem sie sich auf den Inventarumfang n zurückführen lassen 4. Nur Textanalysen, keine Korpusanalysen führen zu einer entsprechenden Interpretation der Parameter ai f(ni) c · ni + d -0.004 ni + 0.379 Mi g(Ki) K h(n) ai · Ki u·n+v 0.067 n + 1.163 Däkujem za pozornost ! Stichprobengröße und C 0,05 0,04 0,04 0,04 0,03 0,03 0,03 C C 0,05 C 0,05 0,02 0,02 0,02 0,01 0,01 0,01 0,00 0,00 0,00 10000 15000 20000 25000 0 30000 5000 10000 15000 20000 25000 30000 0 5000 10000 N N 15000 N 0,05 0,05 0,04 0,04 0,03 0,03 C 5000 C 0 0,02 0,02 0,01 0,01 0,00 0,00 0 5000 10000 15000 N 20000 25000 30000 0 5000 10000 15000 N 20000 25000 30000 20000 25000 30000 Post-Hoc-Mittelwert-Vergleich (Parameter K) K Tukey-B-Tes ta Scheffé-Prozedura s prache s lo rus_32 rus_33 s k_43 s k_46 s lo rus_32 rus_33 s k_43 s k_46 Signifikanz N 30 30 30 30 30 30 30 30 30 30 1 2,956421 Untergruppe für Alpha = .05. 2 3 4 5 3,174537 3,352635 4,057377 4,313710 2,956421 3,174537 3,352635 4,057377 1,000 1,000 1,000 1,000 4,313710 1,000 Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a. Verwendet ein harmonis ches Mittel für Stichprobengröße = 30,000. M Tukey-B-Tes ta Scheffé-Prozedura s prache rus_32 rus_33 s lo s k_46 s k_43 rus_32 rus_33 s lo s k_46 s k_43 Signifikanz N 30 30 30 30 30 30 30 30 30 30 Untergruppe für Alpha = .05. 1 2 3 ,803555 ,816581 ,816581 ,835117 ,835117 ,843017 ,853580 ,803555 ,816581 ,816581 ,835117 ,835117 ,843017 ,843017 ,853580 ,702 ,066 ,360 Die Mittelwerte für die in homogenen Untergruppen befindlichen Gruppen werden angezeigt. a. Verwendet ein harmonis ches Mittel für Stichprobengröße = 30,000. Diskriminanzanalyse (Parameter K und M als Diskriminanzvariablen) Klassifizierungsergebnissea Original Anzahl % s prache s lo rus _32 rus _33 s k_43 s k_46 s lo rus _32 rus _33 s k_43 s k_46 s lo 30 1 0 0 0 100,0 3,3 ,0 ,0 ,0 Vorherges agte Gruppenzugehörigkeit rus _32 rus _33 s k_43 0 0 0 23 6 0 6 23 1 0 0 28 0 0 6 ,0 ,0 ,0 76,7 20,0 ,0 20,0 76,7 3,3 ,0 ,0 93,3 ,0 ,0 20,0 s k_46 0 0 0 2 24 ,0 ,0 ,0 6,7 80,0 Ges amt 30 30 30 30 30 100,0 100,0 100,0 100,0 100,0 a. 85,3% der ursprünglich gruppierten Fälle wurden korrekt klas s ifiziert. Klassifizierungsergebnissea Original Anzahl % s prache s lo rus _32 rus _33 s k_43 s k_46 s lo rus _32 rus _33 s k_43 s k_46 s lo 7 4 4 4 7 23,3 13,3 13,3 13,3 23,3 Vorherges agte Gruppenzugehörigkeit rus _32 rus _33 s k_43 3 5 10 19 4 3 13 6 3 4 3 15 6 4 12 10,0 16,7 33,3 63,3 13,3 10,0 43,3 20,0 10,0 13,3 10,0 50,0 20,0 13,3 40,0 a. 32,0% der ursprünglich gruppierten Fälle wurden korrekt klas s ifiziert. s k_46 5 0 4 4 1 16,7 ,0 13,3 13,3 3,3 Ges amt 30 30 30 30 30 100,0 100,0 100,0 100,0 100,0