Multivariate Verfahren der Statistik bei der quantitativen Textanalyse

Werbung
Multivariate Verfahren der
Statistik bei der quantitativen
Textanalyse
Ernst Stadlober und Mario Djuzelic
Institut für Statistik
Technische Universität Graz
21. Juni 2002
Sechs statistische Kenngrößen zur Charakterisierung
von Texten aus dem Slowenischen
– TLS: Textlänge gegeben
durch Anzahl der Silben
– log(TLS): logarithmierte Textlänge
– m1: mittlere Wortlänge aus
Anzahl der Silben
(Silbenanzahl pro Wort);
– I: das erste Ord´sche Kriterium
– m2: empirische Varianz
der Wortlänge
I = m2 / m1
– S: das zweite Ord´sche Kriterium
S= m3 / m2
2
Je zwei slowenische Texte der drei Texttypen
mit sechs Kenngrößen (Variablen)
Anzahl der Texte, Mittelwertvektoren
Texttyp
1
2
liter. Prosa
liter. Prosa
TLS
4943
2791
m1
m2
1.89
1.93
n1  52 , x1  4000, 1.84,
Texttyp
1
2
journ. Prosa
journ. Prosa
TLS
1537
1200
n2  50 , x2  1084,
Texttyp
1
2
Poesie
Poesie
TLS
312
402
n3  51, x3  270,
m1
2.21
2.31
log(TLS)
1.02
1.06
0.96,
m2
1.75
1.62
2.25, 1.59,
m1
m2
I
8.51
7.93
8.05,
log(TLS)
0.54
0.55
0.52,
I
7.34
7.09
6.78,
log(TLS)
S
0.95
0.86
0.90
S
0.79
0.70
0.71,
I
1.09
0.74
0.85
S
1.81
1.75
0.72
0.91
5.74
6.00
0.40
0.52
1.74,
0.68,
5.41,
0.39,
0.50
1.27
0.69
3
Literarische Prosa
Abhängigkeitsstruktur der sechs Variablen
Kovarianzmatrix S1, Korrelationsmatrix R1
TLS


8664007.55
 TLS
 log(TLS) 1961.689
S1   m1
80.34962

75.17015
 m2
18.00747
 I
 S
27.43391



 TLS
 log(TLS)

R1   m1

 m2
 I

 S

log(TLS)
m2
I
1961.689
0.504000
0.019240
m1
80.34962
0.019240
0.004470
75.17016
0.016770
0.005908
18.00747
0.003593
0.001961
0.016770
0.005908
0.009193
0.003362
0.003593
0.005252
0.001961
0.000984
0.003362
0.002700
0.001291
0.001193
m
TLS
log(TLS)
1


27.43391 
0.005252 
0.000984 

0.002700

0.001193 
0.007376 
S
2
0.27
I
S
0.94
m
1
0.41
0.17
0.11
0.94
1
0.41
0.25
0.14
0.09
0.41
0.41
1
0.92
0.82
0.17
0.27
0.25
0.92
1
0.98
0.33
0.17
0.14
0.82
0.98
1
0.39
0.11
0.09
0.17
0.33
0.39
1












4
Gepoolte Kovarianzmatrix aus Gruppenkovarianzen Si und Sj

1
Sij 
 ni  1  Si  n j  1 S j
ni  n j  2

Berechnung der multivariaten statistischen Distanz
zwischen je zwei sechs-dimensionalen Mittelwertvektoren
Dx1 , x2   ( x1  x2 )t S121 ( x1  x2 )  5.5167
Dx1 , x3   ( x1  x3 )t S131 ( x1  x3 )  4.7661
1
Dx2 , x3   ( x2  x3 )t S 23
( x2  x3 )  5.4022
5
Literarische Prosa | Journalistische Prosa
Univariate Statistiken der sechs Charakteristika
- Mittelwerte
- Standardabweichungen
- Univariate statistische Distanzen
Variable Texttypen
TLS
log(TLS)
m1
m2
I
S
liter. Prosa
journ. Prosa
liter. Prosa
journ. Prosa
liter. Prosa
journ. Prosa
liter. Prosa
journ. Prosa
liter. Prosa
journ. Prosa
liter. Prosa
journ. Prosa
x (j1) xk( 2 )
s (j1) sk( 2 )
3999.981
1084.160
8.048456
6.779708
1.835296
2.245394
0.960981
1.590828
0.522562
0.706622
0.901816
0.847358
2943.470
784.4691
0.709929
0.644858
0.066855
0.129881
0.958800
0.204583
0.035925
0.063032
0.085883
0.220750
D ( x (j1) , x k( 2 ) )
1.342088
1.869038
3.993534
0.900370
3.606251
0.327563
6
Literarische Prosa | Poesie
Univariate Statistiken der sechs Charakteristika
- Mittelwerte
- Standardabweichungen
- Univariate statistische Distanzen
Variable Texttypen
TLS
log(TLS)
m1
m2
I
S
liter. Prosa
Poesie
liter. Prosa
Poesie
liter. Prosa
Poesie
liter. Prosa
Poesie
liter. Prosa
Poesie
liter. Prosa
Poesie
x (j1) xk( 3)
s (j1) sk( 3)
3999.981
269.8627
8.048456
5.405739
1.835296
1.736755
0.960981
0.682410
0.522562
0.390475
0.901816
0.691990
2943.470
191.7464
0.709929
0.619947
0.066855
0.115021
0.958800
0.173353
0.035925
0.079062
0.085883
0.248753
D ( x (j1) , x k( 3) )
1.779660
3.943007
1.044861
0.400473
2.147370
1.126393
7
Journalistische Prosa | Poesie
Univariate Statistiken der sechs Charakteristika
- Mittelwerte
- Standardabweichungen
- Univariate statistische Distanzen
Variable Texttypen
TLS
log(TLS)
m1
m2
I
S
journ. Prosa
Poesie
journ. Prosa
Poesie
journ. Prosa
Poesie
journ. Prosa
Poesie
journ. Prosa
Poesie
journ. Prosa
Poesie
x (j 2 ) xk( 3)
s (j2 ) sk( 3)
1084.160
269.8627
6.779708
5.405739
2.245394
1.736755
1.590828
0.682410
0.706620
0.390475
0.847358
0.691990
784.4691
191.7464
0.644858
0.619947
0.129881
0.115021
0.204583
0.173353
0.063032
0.079062
0.220750
0.248753
D ( x (j 2 ) , x k( 3) )
1.432441
2.172629
4.148725
4.794906
4.416786
0.660270
8
Auswahl guter Kombinationen von Variablen
aus dem Pool von p = 6 Variablen
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
0
.
8
Scatterplot des Variablenpaares
(log(TLS),I)
0
.
7
0
.
6
0
.
7
P
o
e
s
i
e
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
0
.
5
0
.
6
0
.
4
0
.
5
1
.
9
2
.
1
2
.
3
I
1
.
7
2
.
5
m
1
0
.
4
Scatterplot des Variablenpaares
(m1,I)
0
.
3
0
.
2
3
4
5
6
7
l
o
g
(
T
L
S
)
8
9
9
1
0
I
Scatterplot des Variablenpaares
(m2,I)
0
.
8
P
o
e
s
i
e
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
0
.
6
I
0
.
4
0
.
2
0
.
2
5
0
.
5
0
0
.
7
5
1
.
0
0
1
.
2
5
1
.
5
0
1
.
7
5
2
.
0
0
m
2
10
Lineare Diskriminanzfunktion Yij der Texttypen i und j
maximiert die statistische Distanz zwischen den
Gruppenmittelwerten der Diskriminanzfunktion
Linearkombination der p=6 Variablen
Yij   aij 1  TLS  aij 2  log( TLS )  aij 3  m1  aij 4  m2  aij 5  I  aij 6  S
Y ij -Werte für alle Beobachtungen
Y ij( i ) , Y ij( j )
Mittelwerte der Gruppen:
Mittelpunkt:


m ij  Yij( i )  Yij( j ) 2
Standardisierte Größe:
Z ij 
1
 Yij  mij 
Dij
11
Histogramm der Diskriminante Z13
Multivariate statistische Distanz
D13 = 4.7661
Histogramm der Diskriminante Z12
Multivariate statistische Distanz
D12 = 5.5167
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
P
o
e
s
i
e
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
1
2
1
2
1
0
8
8
absoluteHäfigkn
absoluteHäfigkn
6
4
4
2
0
4
,
5
3
,
5
2
,
5
1
,
5
0
,
4
0
,
6
1
,
6
2
,
6
3
,
6
4
,
6
5
,
6
D
i
s
k
r
i
m
i
n
a
n
t
e
0
4
,
8
4
,
0
3
,
2
2
,
4
1
,
5
0
,
7
0
,
1
1
,
0
1
,
8
2
,
6
3
,
5
D
i
s
k
r
i
m
i
n
a
n
t
e
12
Histogramm der Diskriminante Z23
Multivariate statistische Distanz
D23 = 5.4022
P
o
e
s
i
e
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
1
5
.
0
1
2
.
5
1
0
.
0
absoluteHäfigkn
7
.
5
5
.
0
2
.
5
0
.
0
4
,
9
3
,
9
3
,
0
2
,
0
1
,
0
0
,
1
0
,
9
1
,
8
2
,
8
3
,
7
4
,
7
D
i
s
k
r
i
m
i
n
a
n
t
e
13
Elimination redundanter Variablen in der Diskriminante Y12
mit Hilfe der t-Statistik
Trennung der
literarischen Prosatexte von den journalistischen Prosatexten
Analyse auf Grundlage aller sechs Variablen
Variable
TLS
log(TLS)
m1
m2
I
S
Koeffizienten
b12( k )
0.0002
4.0731
-117.3995
129.0193
-314.3848
0.6883
Standardfehler
sf (b12( k ) )
0.0005
1.5774
22.2230
32.5310
68.9248
4.7043
t-Statistik
t12( k ) -Werte
0.3897
2.5822
-5.2828
3.9660
-4.5613
0.1463
Reduzierte Distanz
Dˆ 12(  k )
5.5130
5.3086
4.7574
5.0550
4.9256
5.5163
14
Analyse ohne die Variable S
Variable
TLS
log(TLS)
m1
m2
I
Koeffizienten
b12( k )
0.00016
4.10485
-118.0241
128.8789
-312.4976
Standardfehler
sf (b12( k ) )
0.00051
1.55328
21.65793
32.35038
67.43930
t-Statistik
t12( k ) -Werte
Reduzierte Distanz
Dˆ 12(  k )
0.31350
2.64270
-5.44946
3.98384
-4.63376
5.51311
5.30094
4.72372
5.05529
4.91432
Analyse ohne die Variablen S und TLS
Variable
log(TLS)
m1
m2
I
Koeffizienten
b12( k )
4.52910
-116.36175
126.89840
-308.88416
Standardfehler
sf (b12( k ) )
0.77546
20.96482
31.64950
66.27222
t-Statistik
t12( k ) -Werte
5.84053
-5.57593
4.00949
-4.66084
Reduzierte Distanz
Dˆ 12(  k )
4.63313
4.69730
5.05128
4.91072
15
Multivariate Distanzwerte nach Elimination einer redundanten bzw.
nicht redundanten Variable
5,60
5,40
5,20
5,00
4,80
4,60
4,40
4,20
4,00
Literarische Prosa und
journalistische Prosa
Distanz ohne log(TLS)
Distanz ohne m1
Distanz ohne m2
Distanz ohne I
Literarische Prosa und Poesie
Journalistische Prosa und Poesie
5,60
5,50
5,20
4,90
4,60
4,30
4,00
3,70
3,40
3,10
2,80
2,50
2,20
5,40
5,20
5,00
4,80
4,60
4,40
Distanz ohne TLS
Distanz ohne log(TLS)
Distanz ohne m2
Distanz ohne log(TLS)
Distanz ohne m1
Distanz ohne I
16
Literarische Prosa und journalistische Prosa
Reduzierte lineare Diskriminanzfunktion mit 4 Variablen
Y12red  4.52910 * log( TLS )  116.36175 * m1  126.8984 * m2  308.88416 * I
D12(red) = 5.5131 vs. D12 = 5.5167
Literarische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
Y13red  0.0014 * TLS  9.0437 * log( TLS )  13.6011 * m2
D13(red) = 4.7311 vs. D13 = 4.7661
Journalistische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
red
Y23
 3.0937 * log( TLS )  22.9766 * m1  39.6065 * I
D23(red) = 5.3366 vs. D23 = 5.4022
17
Scatterplot der Veränderlichen
log(TLS) und Y12(m1,m2,I)
Scatterplot der Veränderlichen
m1 und Y12(log(TLS),m2,I)
2
.
5
9
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
2
.
3
m1
8
log(TLS)
2
.
1
7
1
.
9
6
1
.
7
5
2
3
6
2
3
1
2
2
6
2
2
1
2
1
6
2
1
1
2
0
6
2
0
1
1
9
6
Y
(
m
,
m
,
I
)
1
2
1
2
3
0
2
0
1
0
0
Y
(
l
o
g
(
T
L
S
)
,
m
,
I
)
1
2
2
1
0
18
Scatterplot der Veränderlichen
log(TLS) und Y13(TLS, m2)
9
log(TLS)
7
P
o
e
s
i
e
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
5
3
3
.
56
.
08
.
51
1
.
01
3
.
51
6
.
01
8
.
52
1
.
02
3
.
5
Y
(
T
L
S
,
m
)
1
3
2
19
Scatterplot der Veränderlichen
log(TLS) und Y23(m1,I)
Scatterplot der Veränderlichen
m1 und Y23(log(TLS),I)
P
o
e
s
i
e
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
8
P
o
e
s
i
e
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
2
.
4
2
.
2
7
m1
2
.
0
log(TLS)
6
1
.
8
5
1
.
6
4
1
.
4
4
0
5
0
6
0
7
0
Y
(
m
,
I
)
2
3
1
8
0
9
0
3
0
4
0
5
0
Y
(
l
o
g
(
T
L
S
)
,
I
)
2
3
6
0
20
7
0
Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))
mit Gruppenmittelwerten und Konzentrationsellipsen
-6 -4 -2 0 2
1
1
33
1
3
3
1
3 3
1
11
5
.
9
9
.
9
9
3 3 5
1
1
1
1
1
3
1
3
3
3 3
1
1
3
3
3
3
3
1
1
1
1
3
1
3
1
3
1
1
3
3
1
1
1
1
3
1
3
1
1
3
1
3
3 3
3
1
1
3
3
1
1
3
3
1
3
3
3
1
1
1
3
1
3
1
1 1
2
1
1
3
3
1
3
3
3
3
1
3
2
2
3
1
2
2
2
3
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
5
.
9
9
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
1
.
.
.
P
o
e
s
i
e
Z
2
2
.
.
.
l
i
t
e
r
a
r
i
s
c
h
e
P
r
o
s
a
3
.
.
.
j
o
u
r
n
a
l
i
s
t
i
s
c
h
e
P
r
o
s
a
1
0
1
2
1
4
1
6
Z
1
1
8
2
0
2
2
21
Offene Fragen
• Definition der Texttypologie
- Einteilung von Texten in Textkategorien?
- welche Kriterien sind anzulegen?
- statistische Eigenschaften (Population)?
• Definition eines Variablenpools
Basis sind Textlänge und Wortlänge
- welche abgeleiteten Merkmale soll man betrachten?
- welche sind geeignet für Charakterisierung von Textgruppen?
• Diskriminanzfunktionen
- welche Merkmale bestimmen gute Diskriminanzfunktionen?
- lassen sich Gemeinsamkeiten in slawischen Sprachen finden?
(können Textkategorien im Kroatischen durch ähnliche Merkmale
getrennt werden wie im Slowenischen?)
22
Herunterladen