Emmerich Kelih & Gordana Antić (Graz) Klassifikation von Autor und/oder Text? Grazer Projekt zu »Wortlängenhäufigkeiten in Texten slawischer Sprachen« QuanTA, FWF-Projekt #15485 0. Einleitung • Methoden der (quantitativen) Textklassifikation • Beispiel Wortlänge: Eigenschaft von Sprache, Text und Autoren? • Multivariate Diskriminanzanalyse • Balancierte Textstudie: Gedichte und Briefe russischer Autoren (190 Texte) 1. Textbasis für multivariate Diskriminanzanalyse Autor A.A.Achmatova D. Charms A.S. Puškin Funktionalstil Textsorte Anzahl Alltag Briefe 30 Kunstprosa Gedichte 30 Alltag Briefe 29 Kunstprosa Gedichte 30 Alltag Briefe 36 Kunstprosa Gedichte 35 Textkorpus 190 Wortlänge als Stilmerkmal: Autor oder Textsorte? 2. Quantitative Methoden und Parameter zur Klassifizierung von Texten (quantitative Texttypologie, Stilometrie, Autorenattribution) Set von textbeschreibenden statistischen Kenngrößen: • Lexikalischer Reichtum (Type-Token Verhältnis) • Frequenz von Wortarten • Phrasenlänge • Satzlänge • …, … • Wortlänge 3. Wortlänge als inhärente Eigenschaft von Sprache und Text Phonemanzahl in Sprachen Bedeutungsanzahl von Worten (Polysemie) Wortlänge Wortfrequenz (Zipf’sche Gesetz) Lexikonumfang Wortlänge als zentrale Größe in einem synergetischen Regelkreis 4. Auf welcher Ebene kann die Wortlänge bestimmt werden? Wortlänge Sprache Russisch Texte (Funktionalstil Textsorten) Autoren Alltag Briefe A. Achmatova Kunst Gedichte D. Charms A. Puškin 4.1 Textklassifizierung nach Funktionalstilen/Textsorten und Autoren Funktionalstil A.A. Achmatova Stil der Alltagsrede Künstlerischer Stil Privatbriefe Gedichte D. Charms A.S. Puškin A.A. Achmatova D. Charms A.S. Puškin 0,6 0,6 0,5 0,5 0,4 0,4 Privatbrief Puškin 0,3 rel. Anteil rel. Anteil 4.2 Bestimmung der Wortlänge im Textkorpus 0,3 0,2 0,2 0,1 0,1 0 Gedicht Charms 0 1 2 3 4 5 6 1 2 x-silbige Wörter 3 4 5 6 x-silbige Wörter Brief Puškin Gedicht Charms 0,6 rel. Anteil 0,5 0,4 0,3 Gesamttexte Materialbasis x s 0,2 Brief Puškin 3,20 1,95 0,1 Gedicht Charms 1,62 0,78 Korpus 2,15 0,23 0 1 2 3 4 x-silbige Wörter Gesamtkorpus 5 6 4.3 Warum Konzentration auf Wortlänge? (Das Problem der Textlänge) Gedichte Privatbriefe 50 20 40 Häufigkeit Häufigkeit 15 30 10 20 5 10 Mean = 204,3684 Std. Dev. = 178,59195 N = 95 0 0,00 200,00 400,00 600,00 800,00 1000,00 1200,00 1400,00 Mean = 238,20 Std. Dev. = 170,37241 N = 95 0 0,00 200,00 Mittleretextlänge 400,00 600,00 800,00 1000,00 Mittleretextlänge Variable Gedichte Briefe mittlere Textlänge in Worten 204,37 238,2 Standardabweichung 170,37 178,59 Mit Textlänge verbundene Variablen werden ausgeschlossen! 4.4 Klassifizierung der Autoren nach der Wortlänge? Kanonische Diskriminanzfunktion AUTOR Achmatova Charms 2 Puskin Funktion 2 Gruppenmittelpunk te Puskin 0 Achmatova Charms -2 -4 -3 -2 -1 0 1 2 3 Funktion 1 57,4% korrekt zugeordnete Texte Nach Autoren ist keine sinnvolle Trennung von Texten möglich! 4.5 Ergebnisse der multivariaten Textklassifizierung Differenzierung Texttyp Autor — 38,40 {Briefe}{Gedichte} {Briefe} {Gedichte} Texttrennung in % {Achmatova: A} {Charms: C} {Puškin: P} 46,30 55,80 54,70 Differenzierung Texttyp {Briefe} {Gedichte} Autor Texttrennung in % {A} {C} 62,70 {A} {P} 71,20 {C} {P} 67,70 {A} {C} 76,70 {A} {P} 0,00 {C} {P} 73,80 4.6 Ergebnisse der multivariaten Textklassifzierung Wortlänge lässt offensichtlich keine Trennung von Autoren zu! Systematische Untersuchung auf Ebene der Texttypen! Differenzierung Texttyp Briefe vs. Gedichte Autor Texttrennung in % Achmatova 81,70 Charms 93,00 Puškin 93,20 Eliminierung der irrelevanten Variablen 5. Bestimmung der relevanten Variablen Variable Bezeichnung 2 1 N m xi x 2 N i 1 Varianz (2. Zentralmoment) Ord’sches Kriterium i m oi 2 m1 4 1 N m xi x 4 N i 1 f p 4 4 N v m2 m1 d m 2 m 1 1 4. Zentralmoment rel. Häufigkeit 4-silb. Wörter Variationskoeffizient Dispersionsquotient Texte werden als 6-dimensionaler Vektor dargestellt 6. Analyseschritte Texte als 6-dimensionaler Vektor xij m2 i, j , m4 i, j , v i, j , d i, j , oi i, j , p4 i, j i PB, GE, j 1, 2,...95 Mittelwertvektoren für beide Texttypen xi m2 i , m4 i , v i , d i , oi i , p4 i , i PB,GE Bildung des Distanzmaßes: Variable Bezeichnung x x D x ,x 1 2 1 2 s pool univariate statistische Distanz 1 s2 n 1 s 2 n 1 s 2 1 2 2 pool n n 2 1 1 2 gepoolte Varianz 6.1. Distanz „D“ als Maß für die Trennung von Texten in 2 Gruppen Variable Texttyp m2 Briefe 1,47 0,43 Gedichte 0,92 0,17 Briefe 7,86 6,75 Gedichte 2,57 1,09 Briefe 0,53 0,06 Gedichte 0,47 0,03 Briefe 1,17 0,15 Gedichte 0,88 0,11 Briefe 0,64 0,11 Gedichte 0,45 0,06 Briefe 0,11 0,04 Gedichte 0,06 0,03 m4 v d oi p4 x PB xGE s PB sGE D xPB , xGE 5,20 0,23 24,87 16,53 23,66 36,17 größtes „D“ bei p4 ergibt größte diskriminierende Kraft! p4 + d führt zu 89,5% Texttypentrennung, unabhängig vom Autor! 6.2 Darstellung der Textdiskriminierung FUNKSTIL 1,80 Privatbrief Kanonische Diskriminanzfunktion 1,60 Gedicht AUTOR Achmatova Charms 2 1,40 Puskin Funktion 2 d Gruppenmittelpunk te Puskin 1,20 0 Achmatova Charms 1,00 -2 0,80 -4 0,60 0,0000 -3 -20,0500 -1 0,1000 0 0,15001 0,2000 2 0,2500 3 p4 1 Funktion Klassifizierung nach Autor führt zu Chaos Klassifizierung nach Texttypen ergibt Ordnung 6.3 Trennung der Texttypen (nach p4, d) FUNKSTIL 200 Privatbrief Gedicht Textnummer 150 100 50 0 -4,00000 -2,00000 0,00000 2,00000 4,00000 6,00000 Werte der Diskriminanzfunktion aus Analyse korrekte Klassifizierung: 88,4% der Briefe 90,5% der Gedichte Klassifizierungsergebnisse Texttyp Briefe Gedichte Gesamt Briefe 84 11 95 Gedichte 9 86 95 7. Zusammenfassung: minimales Set an Variablen für Textdiskriminierung Textlänge als Faktor a-priori ausgeschlossen Wortlänge durch die Textsorte/Funktionalstil determiniert Allgemeine Problematik der Wortlänge bei Autoren-Attribution