Multivariate Verfahren der Statistik bei der quantitativen Textanalyse Ernst Stadlober und Mario Djuzelic Institut für Statistik Technische Universität Graz 21. Juni 2002 Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen – TLS: Textlänge gegeben durch Anzahl der Silben – log(TLS): logarithmierte Textlänge – m1: mittlere Wortlänge aus Anzahl der Silben (Silbenanzahl pro Wort); – I: das erste Ord´sche Kriterium – m2: empirische Varianz der Wortlänge I = m2 / m1 – S: das zweite Ord´sche Kriterium S= m3 / m2 2 Je zwei slowenische Texte der drei Texttypen mit sechs Kenngrößen (Variablen) Anzahl der Texte, Mittelwertvektoren Texttyp 1 2 liter. Prosa liter. Prosa TLS 4943 2791 m1 m2 1.89 1.93 n1 52 , x1 4000, 1.84, Texttyp 1 2 journ. Prosa journ. Prosa TLS 1537 1200 n2 50 , x2 1084, Texttyp 1 2 Poesie Poesie TLS 312 402 n3 51, x3 270, m1 2.21 2.31 log(TLS) 1.02 1.06 0.96, m2 1.75 1.62 2.25, 1.59, m1 m2 I 8.51 7.93 8.05, log(TLS) 0.54 0.55 0.52, I 7.34 7.09 6.78, log(TLS) S 0.95 0.86 0.90 S 0.79 0.70 0.71, I 1.09 0.74 0.85 S 1.81 1.75 0.72 0.91 5.74 6.00 0.40 0.52 1.74, 0.68, 5.41, 0.39, 0.50 1.27 0.69 3 Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1 TLS 8664007.55 TLS log(TLS) 1961.689 S1 m1 80.34962 75.17015 m2 18.00747 I S 27.43391 TLS log(TLS) R1 m1 m2 I S log(TLS) m2 I 1961.689 0.504000 0.019240 m1 80.34962 0.019240 0.004470 75.17016 0.016770 0.005908 18.00747 0.003593 0.001961 0.016770 0.005908 0.009193 0.003362 0.003593 0.005252 0.001961 0.000984 0.003362 0.002700 0.001291 0.001193 m TLS log(TLS) 1 27.43391 0.005252 0.000984 0.002700 0.001193 0.007376 S 2 0.27 I S 0.94 m 1 0.41 0.17 0.11 0.94 1 0.41 0.25 0.14 0.09 0.41 0.41 1 0.92 0.82 0.17 0.27 0.25 0.92 1 0.98 0.33 0.17 0.14 0.82 0.98 1 0.39 0.11 0.09 0.17 0.33 0.39 1 4 Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj 1 Sij ni 1 Si n j 1 S j ni n j 2 Berechnung der multivariaten statistischen Distanz zwischen je zwei sechs-dimensionalen Mittelwertvektoren Dx1 , x2 ( x1 x2 )t S121 ( x1 x2 ) 5.5167 Dx1 , x3 ( x1 x3 )t S131 ( x1 x3 ) 4.7661 1 Dx2 , x3 ( x2 x3 )t S 23 ( x2 x3 ) 5.4022 5 Literarische Prosa | Journalistische Prosa Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen Variable Texttypen TLS log(TLS) m1 m2 I S liter. Prosa journ. Prosa liter. Prosa journ. Prosa liter. Prosa journ. Prosa liter. Prosa journ. Prosa liter. Prosa journ. Prosa liter. Prosa journ. Prosa x (j1) xk( 2 ) s (j1) sk( 2 ) 3999.981 1084.160 8.048456 6.779708 1.835296 2.245394 0.960981 1.590828 0.522562 0.706622 0.901816 0.847358 2943.470 784.4691 0.709929 0.644858 0.066855 0.129881 0.958800 0.204583 0.035925 0.063032 0.085883 0.220750 D ( x (j1) , x k( 2 ) ) 1.342088 1.869038 3.993534 0.900370 3.606251 0.327563 6 Literarische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen Variable Texttypen TLS log(TLS) m1 m2 I S liter. Prosa Poesie liter. Prosa Poesie liter. Prosa Poesie liter. Prosa Poesie liter. Prosa Poesie liter. Prosa Poesie x (j1) xk( 3) s (j1) sk( 3) 3999.981 269.8627 8.048456 5.405739 1.835296 1.736755 0.960981 0.682410 0.522562 0.390475 0.901816 0.691990 2943.470 191.7464 0.709929 0.619947 0.066855 0.115021 0.958800 0.173353 0.035925 0.079062 0.085883 0.248753 D ( x (j1) , x k( 3) ) 1.779660 3.943007 1.044861 0.400473 2.147370 1.126393 7 Journalistische Prosa | Poesie Univariate Statistiken der sechs Charakteristika - Mittelwerte - Standardabweichungen - Univariate statistische Distanzen Variable Texttypen TLS log(TLS) m1 m2 I S journ. Prosa Poesie journ. Prosa Poesie journ. Prosa Poesie journ. Prosa Poesie journ. Prosa Poesie journ. Prosa Poesie x (j 2 ) xk( 3) s (j2 ) sk( 3) 1084.160 269.8627 6.779708 5.405739 2.245394 1.736755 1.590828 0.682410 0.706620 0.390475 0.847358 0.691990 784.4691 191.7464 0.644858 0.619947 0.129881 0.115021 0.204583 0.173353 0.063032 0.079062 0.220750 0.248753 D ( x (j 2 ) , x k( 3) ) 1.432441 2.172629 4.148725 4.794906 4.416786 0.660270 8 Auswahl guter Kombinationen von Variablen aus dem Pool von p = 6 Variablen l i t e r a r i s c h e P r o s a j o u r n a l i s t i s c h e P r o s a 0 . 8 Scatterplot des Variablenpaares (log(TLS),I) 0 . 7 0 . 6 0 . 7 P o e s i e l i t e r a r i s c h e P r o s a 0 . 5 0 . 6 0 . 4 0 . 5 1 . 9 2 . 1 2 . 3 I 1 . 7 2 . 5 m 1 0 . 4 Scatterplot des Variablenpaares (m1,I) 0 . 3 0 . 2 3 4 5 6 7 l o g ( T L S ) 8 9 9 1 0 I Scatterplot des Variablenpaares (m2,I) 0 . 8 P o e s i e j o u r n a l i s t i s c h e P r o s a 0 . 6 I 0 . 4 0 . 2 0 . 2 5 0 . 5 0 0 . 7 5 1 . 0 0 1 . 2 5 1 . 5 0 1 . 7 5 2 . 0 0 m 2 10 Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion Linearkombination der p=6 Variablen Yij aij 1 TLS aij 2 log( TLS ) aij 3 m1 aij 4 m2 aij 5 I aij 6 S Y ij -Werte für alle Beobachtungen Y ij( i ) , Y ij( j ) Mittelwerte der Gruppen: Mittelpunkt: m ij Yij( i ) Yij( j ) 2 Standardisierte Größe: Z ij 1 Yij mij Dij 11 Histogramm der Diskriminante Z13 Multivariate statistische Distanz D13 = 4.7661 Histogramm der Diskriminante Z12 Multivariate statistische Distanz D12 = 5.5167 j o u r n a l i s t i s c h e P r o s a l i t e r a r i s c h e P r o s a P o e s i e l i t e r a r i s c h e P r o s a 1 2 1 2 1 0 8 8 absoluteHäfigkn absoluteHäfigkn 6 4 4 2 0 4 , 5 3 , 5 2 , 5 1 , 5 0 , 4 0 , 6 1 , 6 2 , 6 3 , 6 4 , 6 5 , 6 D i s k r i m i n a n t e 0 4 , 8 4 , 0 3 , 2 2 , 4 1 , 5 0 , 7 0 , 1 1 , 0 1 , 8 2 , 6 3 , 5 D i s k r i m i n a n t e 12 Histogramm der Diskriminante Z23 Multivariate statistische Distanz D23 = 5.4022 P o e s i e j o u r n a l i s t i s c h e P r o s a 1 5 . 0 1 2 . 5 1 0 . 0 absoluteHäfigkn 7 . 5 5 . 0 2 . 5 0 . 0 4 , 9 3 , 9 3 , 0 2 , 0 1 , 0 0 , 1 0 , 9 1 , 8 2 , 8 3 , 7 4 , 7 D i s k r i m i n a n t e 13 Elimination redundanter Variablen in der Diskriminante Y12 mit Hilfe der t-Statistik Trennung der literarischen Prosatexte von den journalistischen Prosatexten Analyse auf Grundlage aller sechs Variablen Variable TLS log(TLS) m1 m2 I S Koeffizienten b12( k ) 0.0002 4.0731 -117.3995 129.0193 -314.3848 0.6883 Standardfehler sf (b12( k ) ) 0.0005 1.5774 22.2230 32.5310 68.9248 4.7043 t-Statistik t12( k ) -Werte 0.3897 2.5822 -5.2828 3.9660 -4.5613 0.1463 Reduzierte Distanz Dˆ 12( k ) 5.5130 5.3086 4.7574 5.0550 4.9256 5.5163 14 Analyse ohne die Variable S Variable TLS log(TLS) m1 m2 I Koeffizienten b12( k ) 0.00016 4.10485 -118.0241 128.8789 -312.4976 Standardfehler sf (b12( k ) ) 0.00051 1.55328 21.65793 32.35038 67.43930 t-Statistik t12( k ) -Werte Reduzierte Distanz Dˆ 12( k ) 0.31350 2.64270 -5.44946 3.98384 -4.63376 5.51311 5.30094 4.72372 5.05529 4.91432 Analyse ohne die Variablen S und TLS Variable log(TLS) m1 m2 I Koeffizienten b12( k ) 4.52910 -116.36175 126.89840 -308.88416 Standardfehler sf (b12( k ) ) 0.77546 20.96482 31.64950 66.27222 t-Statistik t12( k ) -Werte 5.84053 -5.57593 4.00949 -4.66084 Reduzierte Distanz Dˆ 12( k ) 4.63313 4.69730 5.05128 4.91072 15 Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable 5,60 5,40 5,20 5,00 4,80 4,60 4,40 4,20 4,00 Literarische Prosa und journalistische Prosa Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne m2 Distanz ohne I Literarische Prosa und Poesie Journalistische Prosa und Poesie 5,60 5,50 5,20 4,90 4,60 4,30 4,00 3,70 3,40 3,10 2,80 2,50 2,20 5,40 5,20 5,00 4,80 4,60 4,40 Distanz ohne TLS Distanz ohne log(TLS) Distanz ohne m2 Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne I 16 Literarische Prosa und journalistische Prosa Reduzierte lineare Diskriminanzfunktion mit 4 Variablen Y12red 4.52910 * log( TLS ) 116.36175 * m1 126.8984 * m2 308.88416 * I D12(red) = 5.5131 vs. D12 = 5.5167 Literarische Prosa und Poesie Reduzierte lineare Diskriminanzfunktion mit 3 Variablen Y13red 0.0014 * TLS 9.0437 * log( TLS ) 13.6011 * m2 D13(red) = 4.7311 vs. D13 = 4.7661 Journalistische Prosa und Poesie Reduzierte lineare Diskriminanzfunktion mit 3 Variablen red Y23 3.0937 * log( TLS ) 22.9766 * m1 39.6065 * I D23(red) = 5.3366 vs. D23 = 5.4022 17 Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I) Scatterplot der Veränderlichen m1 und Y12(log(TLS),m2,I) 2 . 5 9 l i t e r a r i s c h e P r o s a j o u r n a l i s t i s c h e P r o s a l i t e r a r i s c h e P r o s a j o u r n a l i s t i s c h e P r o s a 2 . 3 m1 8 log(TLS) 2 . 1 7 1 . 9 6 1 . 7 5 2 3 6 2 3 1 2 2 6 2 2 1 2 1 6 2 1 1 2 0 6 2 0 1 1 9 6 Y ( m , m , I ) 1 2 1 2 3 0 2 0 1 0 0 Y ( l o g ( T L S ) , m , I ) 1 2 2 1 0 18 Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2) 9 log(TLS) 7 P o e s i e l i t e r a r i s c h e P r o s a 5 3 3 . 56 . 08 . 51 1 . 01 3 . 51 6 . 01 8 . 52 1 . 02 3 . 5 Y ( T L S , m ) 1 3 2 19 Scatterplot der Veränderlichen log(TLS) und Y23(m1,I) Scatterplot der Veränderlichen m1 und Y23(log(TLS),I) P o e s i e j o u r n a l i s t i s c h e P r o s a 8 P o e s i e j o u r n a l i s t i s c h e P r o s a 2 . 4 2 . 2 7 m1 2 . 0 log(TLS) 6 1 . 8 5 1 . 6 4 1 . 4 4 0 5 0 6 0 7 0 Y ( m , I ) 2 3 1 8 0 9 0 3 0 4 0 5 0 Y ( l o g ( T L S ) , I ) 2 3 6 0 20 7 0 Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I)) mit Gruppenmittelwerten und Konzentrationsellipsen -6 -4 -2 0 2 1 1 33 1 3 3 1 3 3 1 11 5 . 9 9 . 9 9 3 3 5 1 1 1 1 1 3 1 3 3 3 3 1 1 3 3 3 3 3 1 1 1 1 3 1 3 1 3 1 1 3 3 1 1 1 1 3 1 3 1 1 3 1 3 3 3 3 1 1 3 3 1 1 3 3 1 3 3 3 1 1 1 3 1 3 1 1 1 2 1 1 3 3 1 3 3 3 3 1 3 2 2 3 1 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 5 . 9 9 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 . . . P o e s i e Z 2 2 . . . l i t e r a r i s c h e P r o s a 3 . . . j o u r n a l i s t i s c h e P r o s a 1 0 1 2 1 4 1 6 Z 1 1 8 2 0 2 2 21 Offene Fragen • Definition der Texttypologie - Einteilung von Texten in Textkategorien? - welche Kriterien sind anzulegen? - statistische Eigenschaften (Population)? • Definition eines Variablenpools Basis sind Textlänge und Wortlänge - welche abgeleiteten Merkmale soll man betrachten? - welche sind geeignet für Charakterisierung von Textgruppen? • Diskriminanzfunktionen - welche Merkmale bestimmen gute Diskriminanzfunktionen? - lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale getrennt werden wie im Slowenischen?) 22