0. Einleitung

Werbung
Emmerich Kelih & Gordana Antić
(Graz)
Klassifikation von Autor und/oder Text?
Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen«
QuanTA, FWF-Projekt #15485
0. Einleitung
•
Methoden der (quantitativen) Textklassifikation
•
Beispiel Wortlänge:
Eigenschaft von Sprache, Text und Autoren?
•
Multivariate Diskriminanzanalyse
•
Balancierte Textstudie:
Gedichte und Briefe russischer Autoren (190 Texte)
1. Textbasis für multivariate Diskriminanzanalyse
Autor
A.A.Achmatova
D. Charms
A.S. Puškin
Funktionalstil
Textsorte
Anzahl
Alltag
Briefe
30
Kunstprosa
Gedichte
30
Alltag
Briefe
29
Kunstprosa
Gedichte
30
Alltag
Briefe
36
Kunstprosa
Gedichte
35
Textkorpus
190
Wortlänge als Stilmerkmal: Autor oder Textsorte?
2. Quantitative Methoden und Parameter zur Klassifizierung von
Texten
(quantitative Texttypologie, Stilometrie, Autorenattribution)
Set von textbeschreibenden statistischen Kenngrößen:
• Lexikalischer Reichtum (Type-Token Verhältnis)
• Frequenz von Wortarten
• Phrasenlänge
• Satzlänge
• …, …
• Wortlänge
3. Wortlänge als inhärente Eigenschaft von Sprache und Text
Phonemanzahl in
Sprachen
Bedeutungsanzahl
von Worten
(Polysemie)
Wortlänge
Wortfrequenz
(Zipf’sche Gesetz)
Lexikonumfang
 Wortlänge als zentrale Größe in einem synergetischen Regelkreis
4. Auf welcher Ebene kann die Wortlänge bestimmt werden?
Wortlänge
Sprache
Russisch
Texte
(Funktionalstil
Textsorten)
Autoren
Alltag Briefe
A. Achmatova
Kunst Gedichte
D. Charms
A. Puškin
4.1 Textklassifizierung nach Funktionalstilen/Textsorten und
Autoren
Funktionalstil
A.A.
Achmatova
Stil der Alltagsrede
Künstlerischer Stil
Privatbriefe
Gedichte
D. Charms
A.S. Puškin
A.A.
Achmatova
D. Charms
A.S. Puškin
0,6
0,6
0,5
0,5
0,4
0,4
Privatbrief Puškin
0,3
rel. Anteil
rel. Anteil
4.2 Bestimmung der Wortlänge im Textkorpus
0,3
0,2
0,2
0,1
0,1
0
Gedicht Charms
0
1
2
3
4
5
6
1
2
x-silbige Wörter
3
4
5
6
x-silbige Wörter
Brief Puškin
Gedicht Charms
0,6
rel. Anteil
0,5
0,4
0,3
Gesamttexte
Materialbasis
x
s
0,2
Brief Puškin
3,20
1,95
0,1
Gedicht Charms
1,62
0,78
Korpus
2,15
0,23
0
1
2
3
4
x-silbige Wörter
Gesamtkorpus
5
6
4.3
Warum Konzentration auf Wortlänge?
(Das Problem der Textlänge)
Gedichte
Privatbriefe
50
20
40
Häufigkeit
Häufigkeit
15
30
10
20
5
10
Mean = 204,3684
Std. Dev. = 178,59195
N = 95
0
0,00
200,00
400,00
600,00
800,00 1000,00 1200,00 1400,00
Mean = 238,20
Std. Dev. = 170,37241
N = 95
0
0,00
200,00
Mittleretextlänge
400,00
600,00
800,00
1000,00
Mittleretextlänge
Variable
Gedichte
Briefe
mittlere Textlänge in Worten
204,37
238,2
Standardabweichung
170,37
178,59
 Mit Textlänge verbundene Variablen werden ausgeschlossen!
4.4 Klassifizierung der Autoren nach der Wortlänge?
Kanonische Diskriminanzfunktion
AUTOR
Achmatova
Charms
2
Puskin
Funktion 2
Gruppenmittelpunk
te
Puskin
0
Achmatova
Charms
-2
-4
-3
-2
-1
0
1
2
3
Funktion 1
 57,4% korrekt zugeordnete Texte
 Nach Autoren ist keine sinnvolle Trennung von Texten möglich!
4.5 Ergebnisse der multivariaten Textklassifizierung
Differenzierung
Texttyp
Autor
—
38,40
{Briefe}{Gedichte}
{Briefe}
{Gedichte}
Texttrennung in %
{Achmatova: A}
{Charms: C}
{Puškin: P}
46,30
55,80
54,70
Differenzierung
Texttyp
{Briefe}
{Gedichte}
Autor
Texttrennung in %
{A} {C}
62,70
{A} {P}
71,20
{C} {P}
67,70
{A} {C}
76,70
{A} {P}
0,00
{C} {P}
73,80
4.6 Ergebnisse der multivariaten Textklassifzierung
 Wortlänge lässt offensichtlich keine Trennung von Autoren zu!
Systematische Untersuchung auf Ebene der Texttypen!
Differenzierung
Texttyp
Briefe vs. Gedichte
Autor
Texttrennung in %
Achmatova
81,70
Charms
93,00
Puškin
93,20
 Eliminierung der irrelevanten Variablen
5. Bestimmung der relevanten Variablen
Variable
Bezeichnung


2
1 N
m 
xi  x

2 N i 1
Varianz (2. Zentralmoment)
Ord’sches Kriterium i
m
oi  2
m1


4
1 N
m 
xi  x

4 N i 1
f
p  4
4
N
v 
m2
m1
d
m
2
m 1
1
4. Zentralmoment
rel. Häufigkeit 4-silb. Wörter
Variationskoeffizient
Dispersionsquotient
 Texte werden als 6-dimensionaler Vektor dargestellt
6. Analyseschritte
Texte als 6-dimensionaler Vektor
xij   m2 i, j  , m4 i, j  , v i, j  , d i, j  , oi i, j  , p4 i, j   i  PB, GE, j  1, 2,...95
Mittelwertvektoren für beide Texttypen
xi   m2  i  , m4  i  , v  i  , d  i  , oi  i  , p4  i   , i  PB,GE
Bildung des Distanzmaßes:
Variable
Bezeichnung
x x
D x ,x  1 2
1 2
s
pool



univariate statistische Distanz


 
1
s2

n 1 s 2  n 1 s 2
1
2
2
pool n  n  2 1
1 2
gepoolte Varianz
6.1. Distanz „D“ als Maß für die Trennung von Texten in 2 Gruppen
Variable
Texttyp
m2
Briefe
1,47
0,43
Gedichte
0,92
0,17
Briefe
7,86
6,75
Gedichte
2,57
1,09
Briefe
0,53
0,06
Gedichte
0,47
0,03
Briefe
1,17
0,15
Gedichte
0,88
0,11
Briefe
0,64
0,11
Gedichte
0,45
0,06
Briefe
0,11
0,04
Gedichte
0,06
0,03
m4
v
d
oi
p4
x PB xGE
s PB sGE

D xPB , xGE

5,20
0,23
24,87
16,53
23,66
36,17
 größtes „D“ bei p4 ergibt größte diskriminierende Kraft!
 p4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor!
6.2 Darstellung der Textdiskriminierung
FUNKSTIL
1,80
Privatbrief
Kanonische Diskriminanzfunktion
1,60
Gedicht
AUTOR
Achmatova
Charms
2
1,40
Puskin
Funktion 2 d
Gruppenmittelpunk
te
Puskin
1,20
0
Achmatova
Charms
1,00
-2
0,80
-4
0,60
0,0000
-3
-20,0500 -1 0,1000 0
0,15001
0,2000
2
0,2500
3
p4 1
Funktion
 Klassifizierung nach Autor führt zu Chaos
 Klassifizierung nach Texttypen ergibt Ordnung
6.3 Trennung der Texttypen (nach p4, d)
FUNKSTIL
200
Privatbrief
Gedicht
Textnummer
150
100
50
0
-4,00000
-2,00000
0,00000
2,00000
4,00000
6,00000
Werte der Diskriminanzfunktion aus Analyse
 korrekte Klassifizierung:
88,4% der Briefe
90,5% der Gedichte
Klassifizierungsergebnisse
Texttyp
Briefe
Gedichte Gesamt
Briefe
84
11
95
Gedichte
9
86
95
7. Zusammenfassung:
 minimales Set an Variablen für Textdiskriminierung
 Textlänge als Faktor a-priori ausgeschlossen
 Wortlänge durch die Textsorte/Funktionalstil determiniert
 Allgemeine Problematik der Wortlänge bei Autoren-Attribution
Herunterladen