Lexikalischer Spracherwerb im Vorschulalter. Eine

Werbung
Lexikalischer Spracherwerb im Vorschulalter
Eine Annäherung an die Komposition des Lexikons von deutschsprachigen
Kindern im Alter von drei bis fünf Jahren
Erstellung eines Korpuslexikons auf der Basis spontaner Sprachdaten
vorgelegt von
Julia Schulze M.A. phil.
geb. in Neuruppin
von der Fakultät I - Geistes- und Bildungswissenschaften
an der Technischen Universität Berlin
zur Erlangung des akademischen Grades
Doktorin der Philosophie
- Dr. phil. genehmigte Dissertation
Promotionsausschuss:
Vorsitzender: Prof. Dr. Stefan Weinzierl
Gutachter: Prof. Dr. em. Peter Erdmann
Gutachter: PD Dr. See Young-Cho
Tag der wissenschaftlichen Aussprache: 7. Dezember 2016
Berlin 2017
Inhaltsverzeichnis
1 Einleitung
9
2 Das Lexikon in der Linguistik
2.1 Das Lexikon - Definition . . . . . . . . . . . . . . . . . . . . . .
2.2 Das Lexikon als Modell . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Modulares Stufenmodell (Levelt) . . . . . . . . . . . . .
2.2.2 Interaktives Aktivierungsmodell (Dell) . . . . . . . . . .
2.2.3 Welches ist das richtige Modell? . . . . . . . . . . . . .
2.3 Das Lexikon bis zu einem Alter von drei Jahren . . . . . . . . .
2.3.1 Von Konstruktionsgrammatiken und anderen Theorien
zum Erwerb des Lexikons . . . . . . . . . . . . . . . . .
2.3.2 Der Erwerb des Lexikons - allgemeiner Verlauf . . . . .
2.3.3 Der frühe Wortschatzerwerb nach Kauschke . . . . . .
3 Wortarten in der Linguistik
3.1 Wort und Wortart - Definition . . . . . . . . . . . . .
3.2 Die Kategorisierung von Wortarten . . . . . . . . . .
3.2.1 Kategorisierung nach Kauschke . . . . . . .
3.2.2 Stuttgart-Tübingen-Tagsets (STTS) . . . . .
3.2.3 Die Wahl einer geeigneten Kategorisierung
und Begründung . . . . . . . . . . . . . . . .
.
.
.
.
.
. . . . .
. . . . .
. . . . .
. . . . .
Auswahl
. . . . .
4 Beobachtungsstudie - Ziele und Methodik
4.1 Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.1 Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . .
4.1.2 Die Probandinnen und Probanden . . . . . . . . . . . .
4.1.3 Diktiergerät . . . . . . . . . . . . . . . . . . . . . . . . .
4.1.4 Transkription der Daten mit FOLKER . . . . . . . . . . .
4.1.5 Bearbeitung der Audio-Dateien mit AUDACITY . . . . .
4.1.6 Bearbeitung der Transkripte mit dem EXMARaLDA
Partitur-Editor . . . . . . . . . . . . . . . . . . . . . . . .
3
.
.
.
.
.
.
13
14
16
17
19
20
22
. 23
. 29
. 33
.
.
.
.
37
37
42
42
44
. 47
.
.
.
.
.
.
49
50
59
63
66
66
70
. 71
4
INHALTSVERZEICHNIS
4.1.7 Kriterien für das Taggen der Wortarten nach den
Richtlinien der STTS . . . . . . . . . . . . . . . . . . . . . 74
4.1.8 Kriterien für die Lemmatisierung der syntaktischen Wörter 84
5 Die Arbeit mit dem CorpusAnalyser
5.1 Die Inhalte im Überblick . . . . . . . . . . . . . . . .
5.2 Die Funktionen des CorpusAnalysers . . . . . . . .
5.2.1 01_wave_convert . . . . . . . . . . . . . . . .
5.2.2 02_create_database . . . . . . . . . . . . . .
5.2.3 03_import_data . . . . . . . . . . . . . . . . .
5.2.4 04_query_db . . . . . . . . . . . . . . . . . .
5.2.4.1 01_tag_count . . . . . . . . . . . .
5.2.4.2 02_typetoken . . . . . . . . . . . . .
5.2.4.3 03_typetoken_lemma . . . . . . . .
5.2.4.4 04_lemma_tag . . . . . . . . . . . .
5.2.4.5 05_lemma_bedeutung . . . . . . .
5.2.4.6 06_typetoken_bedeutung . . . . . .
5.3 Möglichkeiten für die Arbeit mit dem CorpusAnalyser
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
89
90
97
97
98
100
101
101
106
110
117
122
123
126
6 Analyse der Wortarten
129
6.1 Gruppierung der POS-Tags . . . . . . . . . . . . . . . . . . . . . 130
6.2 Altersgruppen im Vergleich . . . . . . . . . . . . . . . . . . . . . 133
6.2.1 Verteilung der Tokens . . . . . . . . . . . . . . . . . . . . 133
6.2.2 Verteilung der Types . . . . . . . . . . . . . . . . . . . . . 138
6.2.3 Das Verhältnis der Types zu den Tokens . . . . . . . . . . 140
6.2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 143
6.3 Individuelle Unterschiede in den Altersgruppen . . . . . . . . . . 144
6.3.1 Gruppe 1281 bis 1495 . . . . . . . . . . . . . . . . . . . . 146
6.3.2 Gruppe 1496 bis 1708 . . . . . . . . . . . . . . . . . . . . 148
6.3.3 Gruppe 1709 bis 1983 . . . . . . . . . . . . . . . . . . . . 150
6.3.4 Vergleich der individuellen Verläufe mit den Altersgruppen 151
6.3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 164
6.4 Analyse der ersten einhundert Wörter je Kind . . . . . . . . . . . 166
6.5 Die Wortartenverteilung bei Erwachsenen . . . . . . . . . . . . . 172
7 Der Grundwortschatz semantisch betrachtet
7.1 Die Bedeutungskategorien . . . . . . . . .
7.1.1 Adjektive . . . . . . . . . . . . . . .
7.1.2 Adverbien . . . . . . . . . . . . . . .
7.1.3 Präpositionen . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
177
. 179
. 180
. 181
. 183
INHALTSVERZEICHNIS
7.2
7.3
7.4
7.5
5
7.1.4 Artikel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.1.5 Fremdsprachliches Material . . . . . . . . . . . . . . . . . 184
7.1.6 Interjektionen . . . . . . . . . . . . . . . . . . . . . . . . . 184
7.1.7 Konjunktionen und Subjunktionen . . . . . . . . . . . . . 185
7.1.8 Substantive . . . . . . . . . . . . . . . . . . . . . . . . . . 187
7.1.9 Pronomen . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
7.1.10 Partikeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192
7.1.11 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Tendenzen in der Verwendung von Inhaltswörtern . . . . . . . . 198
7.2.1 Nomen
(n-abstr-eig,
n-abstr-hdlg,
n-abstr-maß,
n-abstr-vorg, n-abstr-vorst, n-abstr-zeit, n-abstr-zust,
n-belebt, n-unbelebt, ne) . . . . . . . . . . . . . . . . . . 198
7.2.2 Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand)203
7.2.3 Adjektive (ad-part, ad-qual, ad-quant, ad-rel) . . . . . . . 206
7.2.4 Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod,
adv-temp) . . . . . . . . . . . . . . . . . . . . . . . . . . . 211
Tendenzen in der Verwendung von Funktionswörtern . . . . . . . 212
7.3.1 Interjektionen (itj) . . . . . . . . . . . . . . . . . . . . . . . 212
7.3.2 Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus,
kon-spez, kon-temp, kon-vgl) und Subjunktionen
(sub-fin, sub-kaus, sub-kond, sub-konz, sub-mod-instr,
sub-neutr, sub-temp) . . . . . . . . . . . . . . . . . . . . . 213
7.3.3 Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos,
prels, prf, pwat, pwav, pws) . . . . . . . . . . . . . . . . . 214
7.3.4 Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp) 215
7.3.5 Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad,
ptk-neg, ptkvz, ptkzu) . . . . . . . . . . . . . . . . . . . . 215
Hinweise zur Verwendung des Lexikons . . . . . . . . . . . . . . 216
7.4.1 Beispielhafte Ausgabedateien . . . . . . . . . . . . . . . . 217
Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . 219
8 Diskussion
223
9 Ausblick
245
Abbildungsverzeichnis
249
Tabellenverzeichnis
251
Literaturverzeichnis
253
6
INHALTSVERZEICHNIS
Vorwort
Für Richard - meine Inspiration
Danke Alex
Die vorliegende Arbeit enstand durch die Mitwirkung und Unterstützung
zahlreicher Personen, denen ich an dieser Stelle meinen Dank aussprechen
möchte.
Mein besonderer Dank gilt Herrn Prof. Dr. Peter Erdmann und Herrn PD
Dr. habil. See-Young Cho, die mir zu jeder Zeit mit kompetentem fachlichen
Rat zur Seite standen. Ich verdanke beiden hilfreiche Unterstützung und
viele anregende Gespräche. Sie begleiteten mich während der gesamten
Entstehungszeit dieser Arbeit mit vielen kreativen Ideen und wertvoller
professioneller Hilfe.
Darüber hinaus bedanke ich mich sehr herzlich bei allen Kindern und
MitarbeiterInnen der Kita des Studentenwerks an der Technischen Universität
Berlin. Ohne die Mitwirkung dieser Menschen hätten die Daten für diese
Arbeit nicht erhoben werden können.
Meiner Familie danke ich für den ständigen Zuspruch und die seelische
Unterstützung. Ich bedanke mich für das Verständnis, vor allem dann, wenn
ich nur wenig Zeit für sie hatte.
Nicht zu vergessen sind meine lieben Kommilitoninnen und Unimädels, die
die vorliegende Arbeit Korrektur lasen und mich in meinem Vorhaben immer
bestärkten.
7
8
INHALTSVERZEICHNIS
Kapitel 1
Einleitung
Diese Arbeit widmet sich dem Lexikonerwerb, genauer gesagt dem
fortgeschrittenen Lexikonerwerb von Kindern im Vorschulalter. Untersucht
wird die Komposition des Lexikons deutschsprachiger Kinder im Alter von
3;5 bis 5;5 Jahren unter unterschiedlichen Aspekten. An dieser Stelle lässt
sich gewiss darüber streiten, ob es sich tatsächlich noch um den Erwerb
von Sprache handelt. Man möchte meinen, dass Kinder in diesem Alter
schon richtig sprechen können. Und das tun mit Sicherheit auch die meisten
von ihnen. Nichtsdestotrotz gibt es Unterschiede zwischen dem Lexikon
von Vorschulkindern und dem Lexikon Erwachsener. Die Besonderheiten
des kindlichen Wortschatzes sollen in dieser Arbeit herausgearbeitet und
dokumentiert werden.
„Although aspects of the sound, communicative, morphological,
and syntactic systems continue to develop after the age of 5 years,
the acquisition of words exhibits the most significant improvements
after the preschool years. If the language development of an
individual would was mysteriously halted at the age of 5 years,
this individual would possess most of the sound, morphological,
syntactic, and communicative systems of her native language.
However, her vocabulary, at best, would be 25% of that of a normal
adult.“ ([Kuczaj (1999)], S. 134)
Anknüpfend an Kuczajs Zitat stellt sich die Frage, wie genau sich das
Vokabular des Vorschulkindes zusammensetzt. Ein Ziel ist es deshalb,
die Verteilung jener Wortarten darzustellen und zu analysieren, die Kinder
im Alter von 3 bis 5 Jahren verwenden. Des Weiteren möchte ich im
Hinblick auf die Wortarten relevante inhaltliche Aspekte verdeutlichen und
wichtige Entwicklungsschritte im Erwerb des Lexikons unter semantischen
Gesichtspunkten aufzeigen. Abschließend soll ein Lexikon des Vorschulalters
erstellt werden, das den produktiven Wortschatz der hier untersuchten Kinder
9
10
KAPITEL 1. EINLEITUNG
mit entsprechenden Bedeutungskategorien enthält. Bei einer anfänglichen
Recherche zu bereits bestehenden Erkenntnissen im Hinblick auf dieses
Thema stellte sich schnell heraus, dass so gut wie keine Studien, Literatur
oder Beschreibungen dazu vorliegen. Dadurch gestaltete sich die Anfertigung
der vorliegenden Arbeit zwar sehr mühselig, weil alle gewonnenen Daten
und Eindrücke selbst genauestens analysiert werden mussten. Es schaffte
jedoch auch eine gewisse Freiheit in der Durchführung der Studie und
der anschließenden Analyse der Daten. Es sei an dieser Stelle erwähnt,
dass alle Ergebnisse auf reinen Beobachtungsdaten beruhen und nicht
experimentell begründet sind. Dennoch sind die Ergebnisse sehr einheitlich
und schlüssig im Hinblick auf die bisherige Forschungslage, so dass
davon ausgegangen werden kann, diese als wertvollen Beitrag zu bereits
bestehenden linguistischen Arbeiten im Bereich der Lexikonentwicklung
verstehen zu können. In den meisten Fällen soll auf bisher ermittelte Daten
eingegangen werden, die die Lexikonentwicklung bis zu einem Alter von 3;0
Jahren untersuchten. Dies erschien sinnvoll, da ohne diesen Bezug keine
Aussagen getroffen werden können. Zu Beginn der Arbeit wird deshalb der
aktuelle Forschungsstand im Hinblick auf das mentale Lexikon in Kapitel 2
dargestellt. Es werden relevante Lexikonmodelle präsentiert und versucht,
diese in Bezug zu den später ermittelten Daten zu setzen. Ferner werden
in diesem Kapitel wichtige Erkenntnisse zum Spracherwerb erörtert. Die
in diesem Kapitel erwähnte Konstruktionsgrammatik wird hinzugezogen,
da sie meines Erachtens wertvolle Hinweise gibt auf Parallelen zwischen
dem Syntaxerwerb und dem Erwerb des Lexikons und weil sie als moderne
Spracherwerbstheorie meinen Vorstellungen diesbezüglich entspricht. Im
Anschluss daran wird der Erwerb des Lexikons sowie dessen Komposition
bis zu einem Alter von 3;0 Jahren auf der Basis einer bereits durchgeführten
Untersuchung beschrieben ([Kauschke (2000)]). Diese Studie wird auch
an weiteren Stellen in dieser Arbeit zitiert. Der Grund für die häufige
Einbeziehung dieser Ergebnisse ist, wie bereits erwähnt, dass es zu diesem
Thema keine weiteren mir bekannten Arbeiten gibt, die als Referenz zur
vorliegenden Arbeit herangezogen werden könnten.
In Kapitel 3 wird definiert, was genau als Wort und als Wortart verstanden
wird und wie die Begriffe hier verwendet werden. In Anlehnung an die
spätere Durchführung und Analyse der Sprachdaten muss zudem eine
geeignete Klassifikation der Wortarten vorgenommen werden. Hierzu werden
verschiedene Klassifikationssysteme gesichtet und zwei von ihnen vorgestellt.
Insbesondere im Hinblick darauf, dass sich die Sprache des Kindes von jener
des Erwachsenen unterscheidet, muss das Klassifikationssystem mehreren
Anforderungen genügen. Es sollte alle Wortarten enthalten, die im Lexikon
11
von Kindern im Vorschulalter vertreten sind. Im Idealfall enthält es auch alle
Wortarten, die im erwachsenen Lexikon vertreten sind, um so einen späteren
Vergleich zu ermöglichen. Ferner ist es wichtig, ein System auszuwählen, das
allgemein zugänglich ist und den Anspruch einer gewissen Popularität erfüllt.
Im weiteren Verlauf werden in Kapitel 4 die Grundlagen für das
Durchführen der Beobachtungsstudie zur Erlangung von spontanen
Sprachdaten gelegt. Die Probandinnen und Probanden werden in Bezug
auf das Geburtsdatum, das Geschlecht sowie auf weitere soziolinguistische
Merkmale vorgestellt. Anschließend erfolgt eine Vorstellung und Erläuterung
aller Softwareprogramme, die in der vorliegenden Arbeit Anwendung finden.
Im Verlauf der Analysetätigkeit häufte sich eine enorme Datenmenge an,
weshalb zur Verarbeitung selbiger ein elektronisches Korpus erstellt wurde.
Durch dessen funktionale Basis als Datenbank können vielfältige Aspekte der
Sprache untersucht werden, was später gezeigt wird.
Nachfolgend soll in Kapitel 5 eine spezielle Software erläutert werden,
die zunächst eigens für die Zwecke der vorliegenden Arbeit konzipiert wurde
und ohne welche die Ergebnisse dieser Arbeit nicht in der Form vorliegen
würden, wie sie es jetzt tun. Da sich durch die ständige und interaktive
Weiterentwicklung des Programms zahlreiche unerwartete Möglichkeiten für
die Arbeit mit der Software auftaten, wird dieser ein eigenes Kapitel gewidmet.
Diesbezüglich werde ich inspirierend weitere Möglichkeiten für linguistische
Arbeiten aufzeigen, die dieses Programm bietet.
In Kapitel 6 wird in einer Analyse der aus der Beobachtung erhaltenen
Sprachdaten die Wortartenverteilung unter unterschiedlichen Aspekten
untersucht, unter anderem im Vergleich zwischen zuvor festgelegten
Altersgruppen sowie unter Beachtung individueller Unterschiede zwischen
den Kindern in unterschiedlichen Altersgruppen.
In Kapitel 7 erfolgt schließlich der Hauptteil der vorliegenden Arbeit. Es
wird eine Aufstellung aller von den beobachteten Kindern geäußerten Wörter,
die in ihrer Form als Lemmata vorliegen, im Hinblick auf ihre semantische
Kategorisierung getätigt. Dabei werden, sortiert nach Altersgruppen,
alle geäußerten (syntaktischen) Wörter mit den jeweiligen Häufigkeiten,
Bedeutungskategorien sowie den jeweiligen Wortartenkategorien annotiert.
Als Resultat dieser Arbeit wird ein Lexikon des Vorschulalters in Form
eines Korpuslexikons erstellt, das dieser Arbeit als Anhang beigefügt ist.
Darin werden alle Lemmata, die in den Daten der vorliegenden Arbeit
vorkommen, bezugnehmend auf ihre Bedeutungskategorien aufgeführt und
mit authentischen Beispielen versehen. Das erstellte Korpuslexikon bildet
damit sehr übersichtlich den ermittelten Wortschatz der hier untersuchten
Kinder ab. Ferner wird eine inhaltliche Analyse aller Wortartenkategorien und
12
KAPITEL 1. EINLEITUNG
hier insbesondere der Inhaltswörter vorgenommen, um die zuvor ermittelten
Daten besser in die bisherige Forschungslandschaft einordnen zu können.
In der anschließenden Diskussion (Kapitel 8) sollen die gewonnenen
Ergebnisse in Bezug zu den bisherigen Erkenntnissen bezüglich der
Komposition des Lexikons gesetzt werden. Ferner wird versucht, aus den
ermittelten Daten ein konsistentes Bild der Wortartenverteilung von Kindern
im Alter zwischen 3;5 und 5;5 Jahren zu schaffen, das den Ansprüchen neuer
wissenschaftlicher Erkenntnisse gerecht wird und als Grundlage für weitere
linguistische Arbeiten dienen kann. Diese möglichen weiterführenden Arbeiten
sollen in Kapitel 9 aufgezeigt werden. Selbstverständlich sind weitere als dort
genannte anschließende Arbeiten möglich und erwünscht.
Kapitel 2
Das Lexikon in der Linguistik
Im Folgenden soll der Begriff Lexikon definiert werden. Zudem werden
einige ausgewählte Ansätze vorgestellt, die den Erwerb des Lexikons bis
zu einem Alter von etwa 3;0 Jahren zu erklären versuchen. Detaillierte
Beschreibungen der Sprachentwicklung in einem Zeitraum von 3;0 bis
5;5 Jahren sind mir nicht bekannt. Es existiert hingegen einige Literatur
zur Entwicklung der zunehmenden Diskursfähigkeit bei Kindern, zur
sich entwickelnden Syntax (z. B. [Klann-Delius (1999)]; [Szagun (2006)];
[Tomasello (2005)]) und weiteren linguistischen Teilgebieten. Eine Arbeit, die
sich auf die Lexik von älteren Kindern bezieht, liefert Augst (1985). Augst
erarbeitete ein Wörterbuch des aktiven gesprochenen Wortschatzes von
Kindern kurz vor der Einschulung. Dazu verwendete er über 200 Stunden
Material (Audiomaterial und Mitschriften), das über vier Monate hinweg
von Angehörigen der untersuchten Kinder gesammelt wurde. Das Ergebnis
seiner aufbereiteten und analysierten Daten ist ein alphabetischer und
nach Sachgebieten geordneter Wortschatz von zehn Kindern im Alter von
6 Jahren ([Augst (1985)], S. IV). Da dieser Wortschatz eine thematisch
abweichende Ausrichtung besitzt als jener, der in der vorliegenden Arbeit
im Mittelpunkt steht, soll im Folgenden nicht mehr darauf eingegangen
werden. Stattdessen wird eine Untersuchung von Kauschke (1999, 2000) zu
Teilen herangezogen ([Kauschke (1999)]; [Kauschke (2000)]). In Abschnitt
2.2 möchte ich auf zwei Modelle eingehen, die das Lexikon in seiner Gänze
abzubilden versuchen. Dabei beziehe ich mich auf die wohl bekanntesten
Modelle - das Modulare Stufenmodell nach Levelt und das Interaktive
Aktivierungsmodell nach Dell. Im Anschluss an die Thematisierung des
Lexikons werde ich mich den Wortarten in der Linguistik widmen. Wortarten
an sich sind zwar nicht der Hauptuntersuchungsgegenstand dieser Arbeit, sie
werden aufgrund der Identifikation von Lemmata als Nomen, Verb, Adjektiv,
Adverb und als Funktionswörter jedoch zwangsläufig analysiert und sollen
13
14
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
deshalb nicht gänzlich unbeachtet bleiben. Zudem können sie insbesondere
für weiterführende Arbeiten von Interesse sein.
2.1
Das Lexikon - Definition
„Sprache funktioniert so, indem das Gehirn jedes Menschen ein
Lexikon mit Wörtern und den Konzepten, für die sie stehen (also
ein mentales Lexikon), enthält sowie eine Menge an Regeln, nach
denen die Wörter kombiniert werden, um Beziehungen zwischen
den Konzepten zu bezeichnen (also eine mentale Grammatik).“
([Pinker (1996)], S. 99)
Dieses Zitat Pinkers definiert zwar nicht das Lexikon an sich, doch es zeigt
deutlich, welche zentrale Rolle das Lexikon bei der Sprachproduktion spielt.
Wie später zu sehen sein wird, spielt neben dem Lexikon die Grammatik eine
wichtige Rolle und insbesondere bei der Beschreibung des Wortschatzes
von älteren Kindern kann die Grammatik nicht völlig außer Acht gelassen
werden. Für Pinker (1996) ist Grammatik ein diskretes kombinatorisches
System, welches den Gebrauch unendlicher Mittel ermöglicht. Dabei legt
die Grammatik die möglichen Kombinationen von Wörtern fest, die eine
Bedeutung ausdrücken können ([Pinker (1996)], S. 99 ff.).
Daneben existieren zahlreiche weitere Definitionen für den Begriff Lexikon.
Einige von ihnen sollen hier vorgestellt werden und mit der Vorstellung des
mentalen Lexikons, wie sie in dieser Arbeit Anwendung findet, in Einklang
gebracht werden. Nach Rohde (2005) stellt das Lexikon die Grundgesamtheit
aller Wörter einer Einzelsprache dar. Das Vokabular hingegen ist nur eine
begrenzte Menge von Wörtern ([Rohde (2005)], S. 4 f.). Clark (1993)
beschreibt das Lexikon als Speicher von bereits etablierten Wörtern, die ein/e
Sprecher/in während des Sprechens in Anspruch nehmen kann und auf die
er/sie während des Hörens zurückgreifen kann ([Clark (1993)], S. 2). Wörter
sind demnach die kleinsten semantischen Einheiten in einer Äußerung.
Ungeklärt sei allerdings, welche Informationen zusammen mit jedem Wort im
Lexikon gespeichert werden. Lexikalische Einträge sollten aber mindestens
vier Arten der Information über jeden Gegenstand enthalten, so Clark: die
Bedeutung (1), die syntaktische Form (2), die morphologische Form (3), die
phonologische Gestalt (4). Ein möglicher Lexikoneintrag könnte dann so
aussehen:
• Skier
• a) one who skis
2.1. DAS LEXIKON - DEFINITION
15
• b) Noun countable
• c) stem + -er
• d) /skir/
a) und b) sind jene Informationen, die im Lemma enthalten sind, c) und d)
geben Aufschluss über die Form ([Clark (1993)], S. 3). Im obigen Beispiel
handelt es sich um einen Lexikoneintrag für ein Nomen. Einträge für Verben
wiederum würden ausführlichere Informationen enthalten, z. B. die Anzahl der
Argumente, so Clark. Bis zu diesem Punkt wird deutlich, dass mit dem Begriff
Lexikon, so wie er in dieser Arbeit verwendet wird, keineswegs ein literarisches
Lexikon bzw. Wörterbuch gemeint sein kann. So unterscheidet auch Aitchison
(2003) zwischen mental lexicon (mentales Lexikon) und dictionary
(Wörterbuch) und führt zahlreiche Argumente für eine Unterscheidung
beider Begriffe an. Wörterbücher, so Aitchison, listen Wörter alphabetisch
auf. Allein diese Tatsache sei bereits ein Grund, weshalb ein Wörterbuch
nicht mit dem mentalen Lexikon vergleichbar ist. Wären Wörter im mentalen
Lexikon alphabetisch organisiert, so würden Sprecher, wenn sie Fehler
beim Sprechen machen, viel öfter einen alphabetisch benachbarten Eintrag
wählen, so die Autorin ([Aitchison (2003)], S. 10-14). Bei einem Versprecher
des Wortes bewusst, müssten demnach die Wörter bewurzeln oder Bey
gewählt werden ([Duden (1996)], S. 165). Die Fehler, die beim Versprechen
tatsächlich auftreten, sind allerdings sehr unterschiedlich und lassen nicht
auf eine alphabetische Organisation des mentalen Lexikons schließen.
Hinweise darauf, dass es sich um keine alphabetische Anordnung der Wörter
im mentalen Lexikon handeln kann, gibt auch die Versprecherforschung
und die Erforschung des Tip-of-the-tongue-Phänomens. Brown et al. (1966)
untersuchten bereits im Jahre 1966 dieses Phänomen. Befinden sich
Sprecher in der Situation, dass ihnen ein Wort buchstäblich auf der Zunge
liegt, können sie laut Brown et al. oft trotzdem angeben, welcher Artikel zum
Wort gehört oder wieviele Silben es enthält. Ebenso ist oft die Betonung
bekannt oder aber die Nennung bedeutungs- oder formähnlicher Wörter
möglich. Demnach kann ein Wort nicht als Ganzes und schon gar nicht in
alphabetischer Reihenfolge im mentalen Lexikon gespeichert sein. Vielmehr
muss es sich um zahlreiche unterschiedliche Eigenschaften handeln, die
eng miteinander verbunden sind und im Normalfall gleichzeitig funktionieren
([Brown und McNeill (1966)]; siehe auch [Spalek (2012)]).
Einen weiteren Grund dafür, dass das mentale Lexikon keinesfalls im
Stile eines Wörterbuches organisiert sein kann, sieht Aitchison (2003) in
der Tatsache, dass Menschen ständig neue Wörter zum mentalen Lexikon
16
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
hinzufügen ([Aitchison (2003)], ebd.). Letzteres kann also nicht fixiert sein,
denn Menschen verändern fortwährend die Aussprache und Bedeutung
bereits existierender Wörter. Sie erschaffen neue Wörter und Bedeutungen
für mentale Konzepte während des Sprechens. Diese Flexibilität des mentalen
Lexikons stehe folglich in Kontrast zum festen Vokabular eines Wörterbuches.
Auch Kauschke (2012) spricht im Hinblick auf das mentale Lexikon von einem
flexiblen System ([Kauschke (2012)]). Demzufolge besteht der Lexikonerwerb
im Anwachsen des Wortschatzes sowie im Aufbau des mentalen Lexikons
als Bestandteil des kognitiv-sprachlichen Systems. Das mentale Lexikon
ist laut Kauschke ein aktives Speichersystem und es ist als Komponente
des Langzeitgedächtnisses zu verstehen. Auch Engelkamp et al. (1999)
postulieren die Veränderlichkeit des mentalen Lexikons und schreiben diesem
ein hohes Maß an Flexibilität zu ([Engelkamp und Rummer (1999)]).
Weiteren Anlass zur Differenzierung in mentales Lexikon und Wörterbuch
sei durch die Menge der enthaltenen Informationen gegeben. Das mentale
Lexikon enthalte deutlich mehr Informationen über jeden Eintrag als ein
Wörterbuch, so Aitchison. Wörterbücher geben nicht viele Informationen
preis über die Häufigkeiten des Gebrauchs von Wörtern, wohingegen
Menschen beim unbewussten Zugriff auf das mentale Lexikon sich darüber
sehr wohl bewusst sind. Das mentale Lexikon enthält zudem Angaben über
die syntaktischen Muster, die zum jeweiligen Wort passen sowie mögliche
Aussprachevarianten. Wörterbücher hingegen enthalten oft nur eine mögliche
Aussprachevariante eines Wortes, obwohl Muttersprachler oft mehrere
Varianten verstehen und beherrschen ([Aitchison (2003)], ebd.).
Aitchison hat mit ihrer Argumentation die Unterschiede zwischen dem
mental lexicon und dem dictionary deutlich gemacht. Da in dieser Arbeit
das mentale Vokabular und dessen Komposition im Lexikon von Kindern im
Vorschulalter thematisiert wird, soll auch im Folgenden der Begriff (mentales)
Lexikon im Sinne von Aitchisons Ausführungen verwendet werden.
2.2
Das Lexikon als Modell
Im folgenden Abschnitt werden zwei Theorien vorgestellt, die versuchen, das
mentale Lexikon modellhaft darzustellen. Ich habe mich dabei auf die zwei
wohl populärsten Modelle konzentriert, obgleich es einige weitere gibt. Zum
einen wird das Modulare Stufenmodell von Levelt (1992) vorgestellt, zum
anderen möchte ich das Interaktive Aktivierungsmodell nach Dell (1992)
näher betrachten ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]). Beide
Modelle sind nach wie vor von Bedeutung, wenn es um die Beschreibung
2.2. DAS LEXIKON ALS MODELL
17
des Lexikons in der Sprache geht und sollen in dieser Arbeit in Bezug zur
Komposition des Lexikons im fortgeschrittenen Spracherwerb gesetzt werden.
2.2.1
Modulares Stufenmodell (Levelt)
Levelt (1992) beschäftigte sich eingehend mit der Funktion des mentalen
Lexikons und erschuf sehr detaillierte Theorien, die sich mit den lexikalischen
Verarbeitungsprozessen beschäftigen ([Levelt (1992)]). Nach Levelt sind
folgende Prozesse beim Zugriff auf lexikalische Information beteiligt: Zunächst
muss durch eine lexikalische Auswahl das passende Wort unter vielen
tausenden Alternativen im Lexikon erreicht werden. Danach erfolgt die
phonologische Enkodierung durch das Berechnen der phonetischen Form
aus dem phonologischen Code des ausgewählten Elementes. Um seine
kommunikativen Ziele deutlich zu machen, muss der Sprecher seine Nachricht
zunächst enkodieren. Dabei stellt eine Nachricht eine konzeptuelle Struktur
dar, die verankert ist in der propositionalen Sprache der Gedanken, so Levelt
(ebd.). Der Konzeptualisierer (1) beansprucht alle perzeptuellen, motorischen,
emotionalen, konzeptuellen und eventuell weiteren Informationen und liefert
die Nachrichtenstrukturen als Input an den Formulator (2). Die Aufgabe des
Formulators ist es, die Nachricht auf eine sprachliche Form abzubilden und
diese grammatisch zu organisieren ([Bierwisch und Schreuder (1992)]). Der
endgültige Output ist ein phonetisches Abbild, das durch das artikulatorische
motorische System, den Artikulator (3), ausgeführt wird. Dabei involviert
der Formulator zwei Verarbeitungskomponenten: den grammatischen und
den phonologischen Enkodierer. Der grammatische Enkodierer bedient
sich einer Nachricht als Input, ruft lexikalische Elemente vom mentalen
Lexikon ab und liefert eine Oberflächenstruktur als Output, so Levelt. Die
endgültigen Elemente sind Lemmata, die unspezifizierte Elemente in ihrer
phonologischen Form darstellen, nicht aber in ihrer semantischen und
syntaktischen Form. Die semantische Spezifikation der Lemmata ist wiederum
an eine Reihe konzeptueller Bedingungen geknüpft. So müssen zunächst
alle anderen Bedingungen erfüllt sein, um eine Nachricht zu erreichen. Dazu
gehört die syntaktische Spezifikation der Lemmata, die Kategorisierungsund Subkategorisierungsinformationen beinhaltet. Die Lemmata werden
dann erreicht, wenn ihre semantischen Bedingungen in der Nachricht
angetroffen werden. Dadurch werden syntaktische Prozeduren angestoßen,
die mit ihren syntaktischen Spezifikationen korrespondieren. Spalek (2012)
beschreibt die Modellierung des Lexikons in neueren Arbeiten von Levelt
als Netzwerk mit untereinander verbundenen Knoten. Diese Modelle, so
Spalek, seien inspiriert von der Informationsweiterleitung, wie sie neuronal im
18
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
Gehirn stattfindet und bei welcher untereinander verbundene Nervenzellen
mit Hilfe elektrischer Signale untereinander kommunizieren. Sobald die
Aktivierungsenergie eines Knotens einen Schwellenwert überschreitet,
wird dieser Knoten ausgewählt. Der ausgewählte Knoten steht dann zur
weiteren Verarbeitung zur Verfügung. Spalek führt weiterhin an, dass während
des Formulierungsprozesses zunächst eine abstrakte Repräsentation von
der Bedeutung und vom grammatischen Inhalt eines Wortes im Lexikon
ausgewählt wird. Anhand dieser Repräsentation werde in einem späteren
Verarbeitungsschritt auf die Repräsentation der Wortform zurückgegriffen
([Spalek (2012)], S. 53-63; vgl. [Levelt, Roelofs und Meyer (1999)]). Im Modell
von Levelt (1992) werden drei Ebenen unterschieden: lexikalische Konzepte
(Bedeutung), Lemmaebene (Grammatik) und die Wortformebene (Form)
([Levelt, Roelofs und Meyer (1999)]). Das entsprechende lexikalische Konzept
wird aus dem Lexikon ausgewählt, wobei dieser Knoten wiederum mit einem
Knoten auf der Lemmaebene verbunden ist, der die abstrakten syntaktischen
Eigenschaften des Wortes enthält. Der Lemmaknoten wiederum hat
Verbindungen zu einem Wortartknoten, z. B. Nomen und dementsprechend
zu einem Genusknoten, z. B. Femininum ([Spalek (2012)], S. 62). In Levelts
Modell (1992) sind alle Lemmata der gleichen Wortart mit demselben
Wortartknoten verbunden und alle Lemmata, die Wörter des gleichen
grammatischen Geschlechts repräsentieren, mit demselben Genusknoten.
Sobald Aktivierungsenergie von der Konzeptebene auf die Lemmaebene
fließt, wird der zum Konzept gehörende Lemmaknoten ausgewählt und
aktiviert wiederum die mit ihm verbundenen Wortart- und Genusknoten.
Nach Levelt enthält jede Lemmarepräsentation mehrere Optionen, aus
denen je nach Äußerungskontext ausgewählt werden kann. Dabei handele
es sich um wortinhärente Eigenschaften (z. B. Nomen und Genus) sowie
veränderliche Eigenschaften (Kasus, Numerus, Tempus, Person), die je
nach Kontext festgelegt werden. Nachdem ein Lemma ausgewählt wurde,
wird der entsprechende Wortformknoten aktiviert und die phonologische
Gestalt eines Wortes kodiert. Gleichzeitig werden je nach Bedarf mögliche
Flexionsmorpheme aktiviert.
So ausgefeilt dieses Modell des Lexikons auch erscheint, ergeben sich
doch einige Fragen. Angesichts der Tatsache, dass es sich um eine serielle
Verarbeitung aller hier aufgeführten Schritte handelt, bei der es quasi kein
Zurück mehr gibt, erscheint gerade das Phänomen der Versprecher meines
Erachtens nicht damit erklärt werden zu können. Es kann zwar erklären,
weshalb bei Versprechern oft form- oder bedeutungsähnliche Lexeme erreicht
werden, nämlich aufgrund ihrer ortsnahen Speicherung im Lexikon, wodurch
es zu einer Aktivierung zweier oder mehrerer Lexeme kommen kann. Es
2.2. DAS LEXIKON ALS MODELL
19
erklärt jedoch nicht, weshalb Versprecher, oft noch bevor sie vollständig
geäußert werden, anscheinend mental korrigiert und letztendlich als korrektes
Lexem hervorgebracht werden können. Dies spräche meines Erachtens für
eine interaktive Verarbeitung (Abschnitt 2.2.2), bei welcher auch Rückschritte
zu vorhergehenden Stufen erlaubt sind.
2.2.2
Interaktives Aktivierungsmodell (Dell)
Nach Dell (1992) besteht kein Zweifel daran, dass lexikalischer Zugang
die Abbildung zwischen einer konzeptuellen Repräsentation und der
phonologischen Form eines Wortes beinhaltet ([Dell und O’Seaghdha (1992)]).
Dells Hypothese ist, dass der lexikalische Zugang, der bei der
Sprachproduktion eine Rolle spielt, in zwei Schritte aufgeteilt werden
kann: den Lemmatazugang (1), bei dem eine Abbildung erreicht wird
zwischen einem zu lexikalisierenden Konzept und einem Lemma sowie dem
phonologischen Zugang (2), bei dem ein Lemma in seine phonologische
Form übersetzt wird. Eine Frage, die Dell diesbezüglich beschäftigt,
ist der zeitliche Verlauf dieser beiden Schritte. Nach Levelts (1992)
Ansicht überlappen sich diese nicht, sondern erfolgen nacheinander
([Levelt (1992)]). Dell erklärt, dass es bereits während des Lemmazugangs
zu einer Aktivierung der phonologischen Information kommt sowie zu einer
Aktivierung der semantischen Information während des phonologischen
Zugangs. Formal sieht Dells Interaktives Modell zahlreiche Einheiten vor,
die in einem Netzwerk organisiert sind. In diesem Netzwerk erlauben
die Verbindungen eine bidirektionale Aktivierung zwischen den Einheiten
an den angrenzenden Stufen. Formal erfolgen in diesem interaktiven
Lexikonmodell sechs Schritte beim Zugang zum Lexikon in der Produktion
(nach ([Dell und O’Seaghdha (1992)], S. 295):
1. Die semantischen Einheiten des zu lexikalisierenden Konzeptes erhalten
externen Input.
2. Die Aktivierung breitet sich im Netzwerk aus, bestimmt durch die
activation-update-function.
3. Die am meisten aktivierte Worteinheit wird ausgewählt.
4. Wenn ein Wort bereit ist für die phonologische Enkodierung, erhält es
einen auslösenden Anstoß zur Aktivierung.
5. Die Aktivierung fährt wie zuvor fort mit der Ausbreitung, aber die
passende phonologische Einheit wird zusätzlich signifikant aktiviert.
20
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
6. Die am meisten aktivierten phonologischen Einheiten werden gewählt
und mit freien Slots in einer konstruierten phonologischen Wortform
verbunden.
Im Gegensatz zu Levelts Modell des Lexikons sind im Interaktiven
Aktivierungsmodell interaktive Prozesse zwischen den beteiligten
Komponenten möglich. Dadurch ist augenscheinlich gegeben, dass
beispielsweise bei einer irrtümlichen Wahl eines Lemmas zum
entsprechenden Konzept auch ein Weg zurück möglich ist, um Korrekturen
vornehmen zu können.
2.2.3
Welches ist das richtige Modell?
Ob eines der eben vorgestellten Modelle das mentale Lexikon in seiner
Gänze abbilden kann, kann nicht mit Sicherheit gesagt werden. Es gibt jedoch
experimentelle Studien, die dies zu überprüfen versuchten sowie zahlreiche
Meinungen für oder gegen die Existenz von Modellen, die das Lexikon
schemenhaft darstellen. Klabunde (1998) äußerte sich in einem Artikel zur
Wahl dimensionaler Präpositionen und Adverbien in der Sprachproduktion
auch zu der Art und Weise des lexikalischen Zugriffs ([Klabunde (1998)]).
Wie viele andere Forscher geht Klabunde davon aus, dass eine Zweiteilung
des lexikalischen Zugriffs angenommen werden kann. In einem ersten Schritt
wird dabei semantisch-syntaktische Information einer lexikalischen Einheit
verfügbar; in einem zweiten Schritt wird phonologische Information aktiviert.
Diese beiden Schritte können ebenso als Lemmaabruf (1) und Lexemabruf
(2) dargestellt werden ([Kempen und Huijbers (1983)]). Diese Zweiteilung, so
Klabunde, ist in der heutigen Forschungslandschaft weitestgehend akzeptiert.
Uneinig sei man sich darüber, ob es sich bei beiden Prozessen um diskrete
sowie interagierende Abläufe handelt.
In Bezug auf den Lemmaabruf wiederum existieren dekompositionale
([Levelt (1989)], S. 181-234) und nichtdekompositionale Ansätze (z. B.
[Bierwisch und Schreuder (1992)]; [Roelofs (1992)]; [Roelofs (1996)]). Im
Hinblick auf dekompositionale Ansätze wird der Abruf der Lemmata durch
eine Reihe konzeptuell primitiver Prozesse gesteuert, wobei die Aktivierung
weniger, hinreichender Abläufe die Aktivierung eines Lemmas zur Folge hat, so
Klabunde (siehe auch [Dell (1986)]). Ein wichtiger Vertreter dieser Theorie ist
Morton (1960) mit seinem Logogen-Modell sowie die Autoren Dell et al. (1992),
die mit ihrem Interaktiven Aktivierungsmodell postulieren, dass Knoten, die
für konzeptuelle Merkmale stehen, mit sogenannten Lemma-Knoten
verbunden sind ([Morton (1969)]; [Dell und O’Seaghdha (1992)], siehe auch
Abschnitt 2.2.2). Die wohl wichtigste Annahme betrifft das Erreichen von
2.2. DAS LEXIKON ALS MODELL
21
Wortbedeutungen, welche mittels bestimmter Mengen von Merkmalen
charakterisiert werden können ([Klabunde (1998)]). Demzufolge soll immer
genau ein Lemma eines Wortes erreicht werden, wenn ein Konzept
ausgedrückt werden soll und auch dann, wenn das mentale Lexikon im
Zuge dessen ein passendes Wort enthält ([Levelt (1989)], ebd.). Probleme
beim Erreichen eines Lemmas bestehen vor allem dann, wenn es sich um
sogenannte Hyperonyme handelt sowie beim Erreichen von Synonymen
([Roelofs (1992)]). Wenn Wort A die Bedeutung von B impliziert, ist B
ein Hyponym von A und A ein Hyperonym von B. Wenn man nun die
konzeptuellen Bedingungen eines Hyponyms (z. B. father ) hinzuzieht,
werden die Bedingungen seiner Hyperonyme ebenso erfüllt. Demzufolge
werden immer alle Hyperonyme eines bestimmten Wortes mit aktiviert
([Levelt (1989)], ebd.). Weiterhin können dekompositionale Theorien nicht
erklären, wie die Prozesse beim Erreichen eines passenden Lemmas sich
diesem wiederum annähern. Im Falle von Synonymie tauchen ähnliche
Probleme auf. Den Abhandlungen Fodors zufolge (1976) haben Äußerungen
wie „is a father“ und „is a male parent“ dieselbe untergeordnete Struktur
([Fodor (1976)], S. 124-156). Ungeklärt ist in einem solchen Fall, woher
der Abrufmechanismus weiß, ob er ein oder mehrere Lemma/ta auswählen
soll ([Roelofs (1992)]). Bei nicht-dekompositionalen Theorien gebe es laut
Roelofs (1992) keine derartigen Probleme. Folglich sind MALE (x), PARENT
(x, y) und FATHER (x, y) alle Teil der zu erreichenden Nachricht. Man spricht
auch von abstrakten Repräsentationen zum Erreichen des Lemmas: z. B.
FATHER (x, y) → father ; die Eigenschaften MALE (x) und PARENT (x, y)
liegen außerhalb der Nachricht . Des Weiteren nimmt man an, dass ein
Konzept einer lexikalischen Einheit entspricht. Demnach sind Lemmata mit
lexikalischen Konzepten in einer eins-zu-eins-Beziehung verbunden; die
lexikalischen Konzepte wiederum besitzen einen Bezug zu konzeptuellen
Merkmalen ([Roelofs (1992)]). Nicht nur Klabunde (1998) steht diesem
Ansatz mit Skepsis gegenüber. So bleibt die Frage, wie der Ansatz die
Kontextabhängigkeit einer lexikalischen Einheit erklären will. In Anlehnung
an den nicht-dekompositionalen Ansatz müsste für jede Bedeutung nur ein
Konzept bestimmt werden. Daraus resultiert jedoch, dass die dynamische
Eigenschaft von Wörtern, mehrere Bedeutungen haben zu können, nicht
ausreichend erklärt werden kann. Das Beispiel: „Ich gehe zur Bank “ macht
das Problem deutlich. Gehe ich nun zur Parkbank, um mich hinzusetzen
oder gehe ich zur Bank (Institution), um Geld abzuheben, Geld einzuzahlen
oder andere finanzielle Angelegenheiten zu erledigen? Die Bedeutung
von Bank kann also nur im Kontext geklärt werden. Ein weiteres Problem,
das Klabunde anspricht, betrifft die Aktivierung von Mehrwortäußerungen
22
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
([Klabunde (1998)]). Ich möchte an dieser Stelle noch weiter gehen und
dies auf Idiome (oder Metaphern) beziehen. Wenn ein Konzept genau
einer lexikalischen Einheit entspricht, wie können dann Idiome wie ins
Gras beißen erklärt werden? Man kann zwar annehmen, dass es - auch
unter der Annahme eines nicht-dekompositionalen Ansatzes - als eine
lexikalische Einheit gespeichert ist. Doch kann an dieser Stelle nicht einfach
die gebräuchliche Bedeutung der Lexeme Gras und beißen angewendet
werden. Die einzige Erklärung wäre, dass das Idiom ins Gras beißen als
eine lexikalische Einheit einem anderen Konzept zugeordnet ist als die
einzelnen syntaktischen Wörter ins, Gras und beißen. Es kann nicht mit
Sicherheit gesagt werden, ob eines der oben aufgeführten Modelle bzw.
Ansätze die Prozesse des mentalen Lexikons korrekt abbildet. Von Interesse
für diese Arbeit ist aber, ob anhand der Erwerbsmuster bezüglich der
Wortartenverteilung der untersuchten Kinder auf die Vorgänge im kindlichen
mentalen Lexikon geschlossen werden kann. Auf diese Frage soll im weiteren
Verlauf der Arbeit erneut eingegangen werden (siehe vor allem Kapitel 8).
2.3
Das Lexikon bis zu einem Alter von drei Jahren
Um im Verlauf der vorliegenden Arbeit und insbesondere in der später
folgenden Analyse der hier erhobenen Daten wichtige Bezugspunkte zu
erhalten, habe ich mich entschlossen, auf die aktuell vorliegende Datenlage
hinsichtlich des Lexikons im Spracherwerb zurückzugreifen. Dies erschien mir
sinnvoll, da ohne jegliche Referenzen keine Einordnung in den bisherigen
Forschungsstand getätigt werden kann. Da, mit Ausnahme der Arbeit von
Augst (1985) ([Augst (1985)]), keine mir bekannten Daten zur Komposition
des Lexikons ab einem Alter von 3;0 Jahren vorliegen, soll in diesem
Abschnitt das Lexikon jüngerer Kinder bis zu einem Alter von 3;0 Jahren
vorgestellt werden. Im Hinblick auf den Zusammenhang des Erwerbs des
Lexikons und der Syntax erschien es angebracht, die Konstruktionsgrammatik
hinzuzuziehen, da diese sich eingehend damit beschäftigt. Ferner möchte
ich einen allgemeinen Überblick über die einzelnen Schritte geben, die beim
Erwerb des Wortschatzes involviert sind. Abschließend wird die Komposition
des Lexikons bis zu 3;0 Jahren beispielhaft an einer von Kauschke (1999)
durchgeführten Studie aufgezeigt, da an dieser Stelle viele Parallelen zu
Teilen der hier vorliegenden Arbeit vorzufinden sind ([Kauschke (1999)], S.
128-157).
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
2.3.1
23
Von Konstruktionsgrammatiken und anderen Theorien zum
Erwerb des Lexikons
Es existieren unterschiedliche Erklärungsansätze, um den Wortschatz
des Kleinkindes zu klassifizieren. Grundlegend sind dabei fast immer die
ersten Lexeme, die ein Kind erlernt und die mit den Kategorien, die im
Wortschatz Erwachsener vorzufinden sind, klassifiziert werden können:
Eigennamen, Nomen, Pronomen, Verben, Adjektive, Adverbien u. a. Eine
mögliche Gruppierung sieht folgendermaßen aus ([Nelson (1973)], zitiert in
[Tomasello (2000a)], S. 45):
• general nominals: apple, shoe
• specific nominals: Sarah, Mommy
• action words: throw, dance
• personal social words: bye-bye, thank you
• modifiers: cold, wet
• functors: of, and
Die meisten Forscher konstatieren, dass Nomen generell vor Verben erworben
werden. Ausnahmen bilden dabei Sprachen wie das Koreanische oder das
Chinesische, die als sehr verblastig gelten (z. B. [Gopnik (1988)]). Neueren
Erkenntnissen zu Folge erlernen die meisten Kinder viele verschiedene
Arten von Wörtern bereits sehr früh in ihrer sprachlichen Entwicklung,
unabhängig von ihrer relativen Häufigkeit. Dementsprechend ist davon
auszugehen, dass Kinder verschiedene Arten von Referenten in ihrer
Umwelt individualisieren können. Ein Großteil der ersten Nomen bezieht
sich auf konkrete Objekte. Erst später werden abstrakte Nomen erworben,
wobei diese nicht unbedingt leichter zu individualisieren sind als Verben
oder relationale Wörter ([Tomasello (2000a)], S. 47). Um diese und weitere
Annahmen Tomasellos zum Lexikon- und zum Spracherwerb im Allgemeinen
aufzugreifen und auszuführen, ist es unvermeidlich, auch andere Aspekte des
Spracherwerbs zu betrachten. Während auf der einen Seite die Sprache als
angeborene Fähigkeit postuliert wird ([Chomsky (1959)]; [Chomsky (1967)];
[Pinker (1984)]), sind auf der anderen Seite Theorien populär, die davon
ausgehen, dass Sprache nach und nach in einem item-basierten Lernprozess1
erworben wird ([Tomasello (2000b)]; [Hilpert (2014)]). Chomsky (1967) nimmt
1
Ich möchte den Begriff item in diesem Zusammenhang nicht ins Deutsche übersetzen, da er folglich
nur schwer wiedergeben würde, was gemeint ist. Item meint eigentlich Einheit und diese Übersetzung
passt auch hier sehr gut.
24
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
an, dass unser Wissen über Sprache ein wesentlicher Bestandteil unserer
genetischen Ausstattung ist ([Chomsky (1967)]). In diesem fest integrierten
Bestandteil existieren sogenannte Universalien, die wiederum angeboren sind
und von denen zwei Arten beschrieben werden: 1) sogenannte Zutaten wie
Parts-of-speech (Nomen, Verben, Adjektive) oder grammatische Relationen
wie Subjekt oder Objekt sowie verschiedene Arten von Lauten (Vokale,
Konsonanten) und 2) Regeln, mit denen die Zutaten angewendet werden, um
eine Sprache zu konstruieren ([Evans (2014)], S. 68).
Im Laufe der Jahre wurden zahlreiche Kritiker laut, die die Existenz
einer solchen Universalgrammatik weitestgehend widerlegt, zumindest aber
angefochten haben (z. B. [Evans (2014)]; [Evans und Levinson (2009)];
[Tomasello (2005)]). Diesen Untersuchungen zufolge ist der frühe
Grammatikerwerb eher item-basiert als dass er bestimmten angeborenen
Mustern folgt. Eine Frage, die sich in allen Theorien auftut, ist, wie Kinder
ein funktionierendes grammatisches System erwerben. Ausgehend von
einer regelbasierten Erklärung, wie Chomsky sie postuliert, geht man
davon aus, dass Kinder die formalen, abstrakten Schemata, so wie sie in
der Sprache vorkommen, unter Berücksichtigung der ihnen angeborenen
Universalgrammatik einfach lernen müssen. Kinder werden demnach mit
den syntaktischen Kategorien sowie Parts-of-speech konfrontiert und
kombinieren diese mit Hilfe des Regelapparates zu einer funktionierenden
Grammatik. Im Gegensatz dazu bietet eine Erklärung in Anlehnung an die
Konstruktionsgrammatik eine andere Perspektive auf den Spracherwerb, wie
sie zum Beispiel von Hilpert (2014) anschaulich dargestellt wird. Hilperts
Ausführungen zufolge sind die formalen Schemata, die Kinder erwerben
müssen, eng mit dem lexikalischen Material verbunden, das in ihnen
vorkommt. Deshalb nimmt man an, dass Kinder zunächst nur konkrete
Phrasen lernen, die erst nach und nach abstrakter werden; und zwar dann,
wenn das Kind Ähnlichkeiten zwischen verschiedenen konkreten Phrasen
entdeckt ([Hilpert (2014)], S. 157). Dies widerspricht nativistischen Theorien,
die davon ausgehen, dass die Sprache der Kinder mental durch die gleichen
Regeln und Kategorien repräsentiert ist wie die Sprache Erwachsener
([Pinker (1984)]). Nach Auffassung eines item-basierten Grammatikerwerbs
sind die mentalen Repräsentationen des Kindes unterschiedlich von denen
erwachsener Sprecher/innen. Denn warum würde ein Kind ansonsten eher
viele konkrete Phrasen verwenden, wenn doch die abstrakten Strukturen
Erwachsener bereits als intergrierter Bestandteil beim Kind vorliegen.
Da Kinder abstrakte Strukturen erfahrungsgemäß nicht von Beginn an
beherrschen, spricht dies eher für einen item-basierten Erwerb der Grammatik.
Nach dieser konstruktionsbasierten Erklärung (Konstruktionsgrammatik)
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
25
erlernen Kinder abstrakte Schemata, von denen man glaubt, dass sie durch
häufiges Hören ähnlich strukturierter Äußerungen hervorgehen und sich nur
in gradueller Weise entwickeln ([Tomasello (2000b)]). Dies impliziert auch,
dass die kindlichen Konstruktionen eigenständig eingeübt werden müssen.
Ein weiteres Kriterium, das für die Konstruktionsgrammatik spricht, führt
Hilpert (2014) an. Hilpert zufolge betrifft dies die soziokognitiven Grundlagen
des Spracherwerbs. Die Konstruktionsgrammatik zweifelt zwar nicht daran,
dass Menschen von Geburt an mit einer gewissen Fähigkeit, Sprache
zu erlernen, ausgestattet sind. Doch die Frage ist, ob diese angeborene
Fähigkeit tatsächlich auch spezifisch für den Erwerb von Sprache ist oder sich
eventuell auch auf andere kognitive Fähigkeiten erstreckt ([Hilpert (2014)],
S. 158 f.). Auf der Basis experimenteller Befunde fasst Hilpert (2014) jene
Faktoren zusammen, die es dem Menschen ermöglichen, Sprache auf
eine sozial begründete Art zu erwerben ([Hilpert (2014)], S. 159-163; vgl.
[Tomasello (2005)]). All diese Qualitäten können schon bei Babies beobachtet
werden, die im Begriff sind, Sprache zu erwerben. Nicht alle Faktoren sind
hierbei spezifisch menschlich bzw. sprachlich, sondern können zum Teil auch
bei Primaten nachgewiesen werden.
1. Joint attention: entsteht in Situationen, in denen das Kind und seine
Bezugsperson ihre Aufmerksamkeit gleichzeitg auf ein drittes Objekt
richten und sich dieser gemeinsamen Aufmerksamkeit bewusst sind.
2. Intention reading: die Fähigkeit von Babies bzw. Kindern, die Handlungen
anderer Akteure als sinnvoll und zielgerichtet zu erachten.
3. Schematisierung: erlaubt Kindern Ähnlichkeiten zwischen Phrasen wie
more juice, more apple, more milk zu erkennen und daraus ein Muster
zu abstrahieren, wie more X, das eine freie Stelle für andere linguistische
Elemente bereit hält.
4. Rollentausch und Imitation: beide Faktoren spielen eine entscheidende
Rolle für das triadische Muster der Joint attention. Die Fähigkeit, Laute,
die von anderen Personen geäußert werden, zu imitieren, ist essentiell,
um Sprache zu erlernen. Umgekehrt muss das Kind lernen, dass es
selbst in die Rolle der Laute produzierenden Person schlüpfen kann und
so zum Sender wird.
5. Musterwiedererkennung: betrifft die Fähigkeit statistische Regularitäten
(Muster) in der Sprache zu erkennen.
Einige dieser Fähigkeiten (zum Beispiel Schematisierung und Musterwiedererkennung sind keine typisch menschlichen, während die Fähigkeiten Joint
26
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
attention, Intention reading und Imitation dem Menschen zuzuschreiben
sind ([Hilpert (2014)], S. 163). Insbesondere weil auch andere Lebewesen
diese Qualitäten aufweisen, muss es laut Tomasello (1999) noch einen
anderen Grund geben, weshalb Menschen Sprache erlernen. Tomasello
(ebd.) zufolge ist kulturelle Intelligenz als typisch menschliche Fähigkeit
ausschlaggebend für das Erlernen von Sprache, die vor allem die Qualitäten
des Intention reading beinhaltet und wodurch sich Sprache als typisch
menschliche Fähigkeit auszeichnet ([Tomasello (1999)]; [Tomasello (2003)]).
Ausgehend von den Annahmen der Konstruktionsgrammatik zum Erwerb von
Sprache im Allgemeinen soll nun noch einmal der Erwerb des Lexikons in
diesem Zusammenhang betrachtet werden. In den verschiedenen Versionen
der Konstruktionsgrammatik geht man davon aus, dass das Verhältnis von
Lexikon und Grammatik nicht als modular angesehen wird ([Behrens (2011)]).
Vielmehr ist es eine Art Kontinuum, bei dem konkrete Morpheme und Wörter
auf der einen Seite stehen und grammatisch abstrakte auf der anderen Seite,
so Behrens. In seiner usage-based theory of language acquisition beschreibt
Tomasello (2000) folgende Prozesse, die grundlegend für den Erwerb des
Lexikons sind:
1. Voraussetzende
referents
2. Grundlegende
learning
Prozesse:
Prozesse:
3. Vereinfachende Prozesse:
([Tomasello (2000a)], S. 58)
segmenting
joint-attention,
lexical
speech,
conceptualizing
intention-reading,
contrast,
linguistic
cultural
context
Demnach stellen sich Kinder während ihres ersten Lebensjahres auf die
Sprachunterschiede und Muster in ihrer Muttersprache ein. Das Erlernen
eines neuen Verbs sei dabei besonders schwierig. Die Gründe dafür sind,
dass die unterschiedlichen Zustände eines Verbs kurzlebig sind, wodurch
die referentielle Situation oft nicht greifbar ist, wenn ein Verb geäußert
wird. Tomasello et al. (1992) fanden zum Beispiel heraus, dass Kinder
Verben am besten in direkt bevorstehenden Situationen erlernen, am
zweitbesten durch gerade abgeschlossene Aktionen und am schlechtesten
in Situationen, die gerade im Gange sind. Für den Erwerb neuer Wörter
spielt außerdem der lexikalische Kontrast eine entscheidende Rolle. Dieser
hilft Kindern, die jeweiligen Referenten in den unmittelbaren Situationen zu
identifizieren. Mit 3 oder 4 Jahren besitzen Kinder ausreichend syntaktisches
Wissen, um damit neue Wörter zu erwerben. Das bedeutet also, dass
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
27
das Erlernen neuer Wörter untrennbar mit dem Erwerb von Sprache im
Allgemeinen verbunden ist. Der Spracherwerb wiederum kann am besten
als Spezialfall kulturellen Lernens beschrieben werden, in welchem Kinder
versuchen, die Ziele Erwachsener im Hinlick auf ihre eigenen Ziele zu
unterscheiden, so Tomasello ([Tomasello und Kruger (1992)]). In dieser
von ihm postulierten Social-Pragmatic-Theory liegt der Fokus auf zwei
sich von Natur aus beschränkenden Aspekten im Wortlern-Prozess: 1) der
strukturierenden sozialen Welt, in welche Kinder hinein geboren werden und
2) den sozial-kognitiven Kapazitäten der Kinder, um in der strukturierten
Welt teilzunehmen (z. B. durch Joint-attention). Menschliche Kommunikation
kann immer nur dann stattfinden, wenn es einen common ground zwischen
Sprecher und Hörer gibt. Sprache wird also ganz nebenbei erworben:
„In social-pragmatic view, then, children acquire linguistic symbols
as a kind of by-product of social interactions with adults, in
much the same way they learn many other cultural conventions.
([Tomasello (2000a)], S. 90)“
Im Gegensatz zu den oben angeführten Theorien (vgl. die Abschnitte 2.2.1,
2.2.2, 2.2.3) hat die Social-Pragmatic-Theory zudem eine Erklärung für den
Beginn des Spracherwerbs. Der Spracherwerb ist folglich abhängig von der
Fähigkeit, Aufmerksamkeit mit anderen Menschen zu teilen, um daraus
wiederum Symbole zu formen. Diese Fähigkeiten setzten mit etwa einem
Jahr ein ([Tomasello (2005)]). Interessanterweise wurde herausgefunden,
dass die lexikalische und grammatische Entwicklung stark interkorrelieren
([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]). Demnach weitet
sich das Vokabular von Kindern rasant aus, kurz nachdem die Anwendung
grammatischer Strukturen in der Sprache zu verzeichnen ist. Dies könne als
eine synergistische Interaktion zwischen Lexikon und Grammatik gedeutet
werden. Bates et al. (1999) fanden diesbezüglich heraus, dass kurz nachdem
Kinder einen Wortschatz von einigen hundert Wörtern besitzen, diese
ernsthaft mit der grammatischen Rede beginnen. Zudem entdeckten sie
eine positive Korrelation zwischen den lexikalischen und grammatischen
Fähigkeiten von Kindern zu allen Zeitpunkten der frühen Entwicklung
([Bates und Goodman (1999)]). Erklärungen für diese Korrelationen seien
Tomasello (2005) zufolge, dass Kinder erst eine gewisse Anzahl an
Wörtern besitzen müssen, bevor sie syntaktische Konstruktionen verstehen.
Das Verstehen von Wörtern helfe also beim Verstehen grammatischer
Konstruktionen. Umgekehrt helfe das Wissen um syntaktische Konstruktionen
beim Erlernen neuer Wörter. Es sei zudem möglich, dass das Erlernen von
Wörtern und das Erlernen grammatischer Konstruktionen gleichermaßen
28
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
Teile derselben übergreifenden Prozesse sind ([Tomasello (2000a)], S. 93).
Auch Clahsen (1990) und Borer (1984) sehen einen starken
Zusammenhang zwischen der lexikalischen und grammatischen Entwicklung
([Clahsen (1990)]; [Borer (1984)]). Die Lexical Learning Hypothesis sieht den
Spracherwerb als Wortschatz-Entwicklungsprogramm: Die grammatische
Entwicklung wird dabei geleitet durch das Lernen lexikalischer Elemente. Um
neue Sätze zu verstehen, müssen Kinder über individuelle Inputäußerungen
hinaus Generalisierungen vornehmen ([Tomasello (2000a)]). Anhänger dieser
Theorie stehen dem Prinzip der Universalgrammatik (z. B. [Chomsky (1967)])
nicht durchweg negativ gegenüber. Die Universalgrammatik sei von
Beginn des Grammatikerwerbs vorhanden. Kinder müssen nur noch die
grammatischen Eigenschaften (Funktionen) der lexikalischen Elemente,
die mit den Parametern verbunden sind, lernen. Nach Borer (1984) äußert
sich eine angeborene Regelfähigkeit darin, dass das Kind einen Wert an
einer offenen Stelle eines Parameters ersetzt, der sich aus den Prinzipien
der Universalgrammatik herleitet. Am Anfang der Entwicklung besitzt ein
Parameter solche Leerstellen, weshalb das Kind nicht ein ganzes Regelwerk
erwerben müsse. Vielmehr würde es jeweils einen Parameter setzen und
erwirbt so ein Lexikon, das nach und nach aufgefüllt wird ([Borer (1984)], S.
1-3; siehe auch [Borer und Wexler (1987)]).
Pinker (1984) präzisiert dieses Konzept dahingehend, dass der Input
syntaktischer Kategorien nach den Wortarten (die das Kind im Input
wahrnimmt) oder gar anderen Kategorisierungen bewertet werden sollte. Er
schlägt daher die Hypothese des Semantischen Bootstrapping vor: Das Kind
nutzt die semantischen Eigenschaften der Sprache, um daraus syntaktische
Regeln abzuleiten ([Pinker (1984)], S. 39 f., siehe auch [McNamara (1982)];
[Grimshaw (1981)]; [Gleitman (1990)])). Dies ergäbe eine Grammatik,
deren syntaktische Kategorien typisch semantische Konzepte enthalten
([Sucharowski (1996)], S. 129). Das heißt, dass bestimmte Verhältnisse
zwischen perzeptuellen und syntaktischen Kategorien, die wiederum durch
semantische Kategorien vermittelt werden, dem Kind helfen können, mit dem
Syntaxerwerb zu beginnen ([Pinker (1994)]). Dafür sind allerdings bestimmte
universale Verbindungsregeln (Linking rules) erforderlich, mit denen das Kind
ausgestattet ist. Eine solche Regel könnte zum Beispiel das Wissen darüber
beinhalten, dass die Agenten von Handlungen immer Subjekte in Aktivsätzen
darstellen. Sobald aus dem perzeptuellen Kontext und der Wortbedeutung
geschlossen werden kann, dass ein bestimmtes Wort auf einen Agenten
einer Handlung referiert, kann das Kind schlussfolgern, dass es sich dabei
um ein Subjekt handeln muss. Sobald diese Subjektposition als Parameter
oder Regel fest verankert ist, kann der Syntaxerwerb zusammen mit weiteren
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
29
Wortlernprozessen voranschreiten. Laut Pinker (1994) kann das Kind dann
schlussfolgern, dass jedes neue Wort in dieser Position ein Subjekt sein muss.
Im Gegensatz zum semantischen Bootstrapping wird beim syntaktischen
Bootstrapping angenommen, dass der Prozess des Lernens neuer
linguistischer Ausdrücke unter Zuhilfenahme des linguistischen Kontextes,
in den die Ausdrücke eingebettet sind, vonstatten geht ([Tomasello (1999)],
S. 122). Genau dies würde aber beide Ansätze inkompatibel machen
([Bowerman und Brown (2008)], zitiert in [Behrens (2011)], S. 380). Beim
semantischen Bootstrapping wäre die Semantik Voraussetzung für den Erwerb
der Syntax, während beim syntaktischen Bootstrapping die syntaktischen
Kategorien und Relationen den Erwerb der Semantik ermöglichen.
Ob und welche der hier erwähnten Ansätze den Lexikonerwerb korrekt
wiedergeben, kann an dieser Stelle nicht beurteilt werden. Es macht jedoch
den Anschein, dass das Erlernen von Wörtern, Wortkategorien und damit
verbunden der Aufbau des mentalen Lexikons nicht losgelöst vom allgemeinen
Prozess des Spracherwerbs betrachtet werden kann.
2.3.2
Der Erwerb des Lexikons - allgemeiner Verlauf
Um den Erwerb des Lexikons zu beschreiben, kann auf zahlreiche Theorien
zurückgegriffen werden, die ihrerseits oft sehr spezielle Aspekte beinhalten.
Dabei werden so unterschiedliche Sichtweisen zu Tage gebracht, dass nur
eine Theorie selten eine Grundlage für weiterführende Untersuchungen
bilden kann. Einigermaßen einheitlich sind glücklicherweise die bloßen
Beschreibungen des Auftretens bestimmter Wortarten zu verschiedenen
Zeitpunkten des Lexikonerwerbs (vorwiegend für das Deutsche und das
Englische). Kinder zwischen 1;0 und 1;6 Jahren haben einen Wortschatz von
annähernd 50 Wörtern aufgebaut ([Klann-Delius (1999)], S. 36). Zwischen 1;6
und 2;0 Jahren ist der Wortschatz auf 50 bis 200 Wörter angewachsen; ab
einem Alter von 2;0 verfügen Kinder über 500 bis 600 Wörter ([Clark (1993)],
S. 21 f.). Laut Clark (1993) sind die Entwicklungsverläufe hinsichtlich
des Wortschatzzuwachses immer individuell. Einige Kinder produzieren
monatelang nur ein Wort und keine Mehrwortäußerungen, während
andere Kinder die Einwortphase komplett weglassen und ausschließlich
Mehrwortäußerungen produzieren ([Clark (1993)], S. 22). Ab 1;9 Jahren
kommt es zu einer sprunghaften Ausweitung des Wortschatzes, wobei
ab einem Alter von 3;6 Jahren eine Verlangsamung zu verzeichnen ist
([Wode (1988)], S. 144 und S. 150). Auch Dittmann (2006) stellte fest, dass
der Wortschatzerwerb starken individuellen Schwankungen unterliegt. In der
Praxis bedeutet das, dass Kinder, die sehr früh erste Wörter erwerben, diesen
30
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
Vorsprung auch im 2. und 3. Lebensjahr behalten ([Dittmann (2006)], S. 45).
Laut Wode (1988) kann davon ausgegangen werden, dass der Lexikonerwerb
mit etwa 12;0 Jahren im Wesentlichen abgeschlossen ist [Wode (1988)], S.
144).
Das Ehepaar Stern (1965) beschäftigte sich bereits zu Beginn
des 20. Jahrhunderts mit der sprachlichen Entwicklung des Kindes
([Stern und Stern (1928)]; [Stern und Stern (1965)]). Sie teilten den
Spracherwerb in Phasen ein, die in der Literatur unter anderem von Augst
(1977) wiedergegeben werden. In der Anfangsphase seien Dingwörter,
die visuell sichtbare Gegenstände bezeichnen, ein großer Bestandteil des
Wortschatzes. Dabei bezeichnet das Kind die Aspekte seiner unmittelbaren
Umgebung, wie Familienmitglieder, Spielsachen, Nahrung, Tiere und anderes
([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) beschreiben
diese Aspekte folgendermaßen:
„Das Kind wählt naturgemäß pädozentrisch; seine Umgebung,
seine Interessen: Eltern, Geschwister, Wärterin, Spielsachen
und Tiere, Eßbares und Trinkbares, Tönendes und Bewegtes,
bilden das ausschließliche Material für seinen ersten Wortschatz.“
([Stern und Stern (1965)], S. 195)
Daneben existieren relationale Wörter, die den Zustand von Objekten
beschreiben ([Klann-Delius (1999)], S. 37). Wenn Kinder nach und nach
neue Wörter zu ihrem Vokabular hinzufügen, bilden sie nach Erkenntnissen
von Clark (1993) weitere Domänen aus. Demnach können Ausdrücke, die
früher in einer Domäne verankert waren, in Untergruppen zergliedert werden.
Dasselbe passiere mit deiktischen Ausdrücken, die separiert werden in
Subjekt (I, me, you), Objekt (me, you) und Possessivpronomen (my, mine,
your ) einerseits und Ausdrücken für Orte (here, there), Objekte (this, that)
und Zeitangaben (now, yesterday ) andererseits ([Clark (1993)], S. 31 f.).
Eine analoge Ausweitung und spätere Unterteilung in einzelne Unterbereiche
findet mit nominalen und verbalen Ausdrücken statt, so Clark (ebd.). Eine
Analyse der Verteilung der Wortarten und der Struktur des Wortschatzes sei
erst dann möglich, wenn Kinder begonnen haben, Wörter zu kombinieren
und diese in Verbindung mit grammatischen Morphemen zu verwenden.
Dies passiert laut Clark (1993) im Englischen zum Beispiel durch den Artikel
the oder das Pluralmorphem -s, welche signalisieren, dass es sich um ein
Nomen handelt. Die Morpheme -ing oder -ed würden hingegen auf ein
Verb hinweisen ([Clark (1993)], S. 38). Szagun (2006) fand diesbezüglich
heraus, dass die ersten Wörter des Kindes folgendermaßen nach Wortarten
klassifiziert werden können: 60,5% Nomen, 28,6% Funktionswörter, 6,7%
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
31
Verben und 4,7% Adjektive. Dabei gebe es allerdings unterschiedliche
Verteilungen bei sogenannten expressiven Kindern im Gegensatz zu
referentiellen Kindern. Erstere würden mehr Funktionswörter als Nomen
verwenden, so Szagun ([Szagun (2006)], S. 121 f.). Bei derartigen Aussagen
über die Verteilung der Wortarten im Lexikon sollte nicht vergessen werden,
dass auch die Muttersprache bzw. deren Input eine entscheidene Rolle spielt.
Im Koreanischen steht das Verb immer am Satzende, die Auslassung von
Nomen ist in gegebenen Kontexten erlaubt. Folglich produzieren koreanische
Kinder Verben mit überwiegend koreanischer Flexion früher als englische
Kinder ([Dittmann (2006)], S. 49). Englischsprachige Kinder hingegen
weisen früher ein differenzierteres Benennvokabular auf und sind besser bei
Aufgaben zur Objektkategorisierung. Koreanischsprachige Kinder verwenden
hingegen früher ein differenziertes Verbsystem, so Dittmann (ebd.). Auch
Meibauer et al. (1999) führen an, dass Nomen im Deutschen und Englischen
einen überwiegenden Anteil am Gesamtwortschatz und damit auch als
Type-Frequenz im Input ausmachen. Zudem bezieht sich ein großer Teil
der Arbeiten zum Wortschatzerwerb auf den Erwerb von Objektwörtern und
Eigennamen, während der Erwerb von Nomen im Allgemeinen, Verben und
Adjektiven bisher eher unerforscht ist ([Meibauer und Rothweiler (1999)],
S. 9-31). Im Anschluss an die durch Stern&Stern (1965) beschriebene
erste Phase vollzieht sich die Phase der Benennung von Aktionen, in
welcher laut Augst (1977) Tätigkeiten und Vorgänge benannt werden
([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) sehen die
dortigen sprachlichen Entwicklungen vor allem im Zusammenhang mit der
Phase der Dingwörter :
„Viel mehr geht mit dem starken Aufschwung der Gegenstandsbezeichnungen schon ein leises Einsetzen der Tätigkeitswörter
Hand in Hand; das „Aktionsstadium“ bereitet sich vor.“
([Stern und Stern (1965)], S. 196)
In der darauffolgenden Phase kommt es zur lexikalischen Strukturierung der
Wörter in Wortfelder ; die zwischen 3;0 und 12;0 Jahren angesiedelt ist und
unter anderem durch das Auftreten polarer Adjektive und relational definierter
Verwandschaftswörter gekennzeichnet ist ([Wode (1988)], S. 144). Dittmann
(2006) konstatiert eine hohe Differenzierung des Wortschatzes mit etwa 3;0
Jahren, welche als Ausdruck von innerpsychischen Prozessen verstanden
werden kann ([Dittmann (2006)], S. 49). Demzufolge verwenden Kinder in
dieser Phase zunehmend Nomen für Gefühle und mentale Prozesse (Idee),
Verben, die sich auf emotionale Vorgänge beziehen (mögen, brauchen,
dürfen, weinen, helfen) und Verben, die mentale Prozesse beschreiben
32
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
(wissen, glauben). In der neueren Forschung beziehen sich Kinder allerdings
bereits zwischen dem zweiten und dritten Lebensjahr mit Wörtern auf
innere Zustände ([Klann-Delius (1999)], S. 37). Bloom et al. (1993) fanden
heraus, dass der Anteil der Nomen, mit denen Objekte bezeichnet werden,
einen Anteil von einem Drittel des gesamten Outputs von Kindern zwischen
9 und 23 Monaten ausmachten, sowohl in ihrem Vorkommen als Types
als auch als Tokens ([Bloom, Tinker und Margulis (1993)]). In einer Studie
von Bates et al. (1994), in der Kinder mit einem durchschnittlichen Alter
von 1;8 Jahren untersucht wurden, lag der Anteil der Nomen bei 55%
in Relation zu einem umfänglichen Vokabular von 100 bis 200 Wörtern
([Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)]).
Kauschke (1999) konnte zeigen, dass der Anteil der Nomen zu Gunsten
eines Anstiegs von Verben und Funktionswörtern danach wieder abfällt
([Kauschke (1999)]; siehe auch Abschnitt 2.3.3).
Die meisten Untersuchungen zum kindlichen Lexikon zielen entweder
darauf ab zu ermitteln, wie viele Wörter das Lexikon des Kindes zu
unterschiedlichen Zeitpunkten enthält oder aber es wird die Dominanz von
Nomen vs. Verben (und gegebenenfalls weiteren Wortarten) bzw. deren
Erwerbsfolge insbesondere zu Beginn des Spracherwerbs untersucht (z.
B. [Goldfield (2000)]; [Gentner (1982)]; [Bassano (2000)]; [Clark (1993)];
[Kauschke (1999)]). Szagun (2006) zeigte, dass viele Wörter im frühen
Vokabular Nomen sind. Sobald Verben im kindlichen Wortschatz auftauchen,
sind diese zunächst Aktionswörter wie gehen, essen oder laufen. Erst
später kämen Verben hinzu, die kausale Wirkungen beinhalten, im zweiten
Lebensjahr tauchen die ersten Adjektive im Vokabular auf ([Szagun (2006)],
S. 115 ff.). Szagun (2006) untersuchte auf der Grundlage von 22 Kindern das
Vorkommen von Nomen, Verben und Adjektiven auf zwei unterschiedlichen
Wortschatzniveaus. Auf einem frühen Wortschatzniveau wies der produktive
Wortschatz der Kinder durchschnittlich 74 Wörter auf, wovon 47,9% Nomen,
10% Verben und 4,1% Adjektive waren. Auf dem späten Wortschatzniveau
beinhaltete der Wortschatz durchschnittlich 187 Wörter, wovon 33,1% Nomen,
23,4% Verben und 5,1% Adjektive waren. Der Anteil der Funktionswörter
belaufe sich in beiden Altersstufen auf einem annähernd ähnlichen Anteil von
37,4% bzw. 38,3% ([Szagun (2006)], S. 121 f.; siehe auch [Szagun (2001a)];
[Szagun (2002)]).
Eine Vielzahl der Untersuchungen umfasst die produktive Lexikonentwicklung, also das expressive Vorkommen von Nomen und Verben im
Wortschatz ([Kauschke (2007)], S. 59). Die vorwiegende Untersuchung
von Nomen und Verben hängt vermutlich damit zusammen, dass diese
Wortkategorien mit einem großen Anteil am Wortschatz vorkommen und
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
33
in ihrer Funktion als Inhaltswörter vor allem im Zusammenhang mit der
grammatischen Entwicklung einem stärkeren Wandel unterliegen. Alle übrigen
Wortklassen sind mit zum Teil nur geringen prozentualen Anteilen vertreten,
was einen Vergleich des Vorkommens dieser Wortklassen schwierig macht.
Die bevorzugte Untersuchung des produktiven, nicht aber des rezeptiven
Wortschatzes, ist darin begründet, dass der produktive Wortschatz leichter,
wenn auch niemals vollständig, erfasst werden kann. Laut Kauschke (2007)
lassen sich jedoch keine Rückschlüsse auf die mentalen Repräsentation
der Wortarten ziehen, nur weil Kinder in ihrer Spontansprache Wörter
bestimmter Kategorien verwenden (ebd.). Die Schwierigkeit hierbei stellt
vermutlich das Alter der Kinder dar, die gerade in sehr frühen Stadien
des Spracherwerbs Wörter verwenden, die den sprachlichen Kategorien
des erwachsenen Lexikons nur schwer zuordenbar sind. Trotz dieser
Schwierigkeiten untersuchte Kauschke (1999) die Verteilung der Wortarten
bei Kindern im Alter von 13 bis 36 Monaten ([Kauschke (1999)]). Für ihre
Auswertungen verwendete sie bei der Kategorisierung der Wortarten eine
dieser Altersspanne entsprechende Klassifikation (Abschnitt 2.3.3). Kauschke
(1999) untersuchte in einer empirischen Studie mehrere Fragestellungen
zum Lexikonerwerb bis zu einem Alter von 3;0 Jahren. Diese Studie soll mit
ihren Ergebnissen im Folgenden näher betrachtet werden, da sie ähnliche
Ziele verfolgt wie die vorliegende Arbeit. Der wesentliche Unterschied der
vorliegenden Arbeit und der Arbeit von Kauschke besteht in Bezug auf
das Alter der Kinder sowie in der Methodik, wodurch ein aussagekräftiger
Vergleich beider Arbeiten hier nicht vorgenommen werden kann. Kauschke
stellt die Wortartenverteilung deutschsprachiger Kinder zwischen 1;0 und
3;0 Jahren dar, während in der vorliegenden Arbeit Kinder von 3;5 bis 5;5
Jahren untersucht wurden. Zudem soll später eine inhaltliche Analyse aller
Kategorien vorgenommen werden, welche bei Kauschke in dieser Form nicht
auftaucht (Kapitel 7).
2.3.3
Der frühe Wortschatzerwerb nach Kauschke
Kauschke (1999) untersuchte eine Stichprobe von 32 Kindern (16 Jungen, 16
Mädchen), welche aus einem bestehenden Datenkorpus2 ausgewählt wurde.
Bei der Untersuchung handelte es sich um eine Längsschnittstudie, die vier
Erhebungszeitpunkte umfasste. Drei Termine lagen im zweiten Lebensjahr
(13, 15, 21 Monate), der Zeitpunkt der letzten Aufnahme mit 36 Monaten
2
Die Daten sind dem von der DFG im Schwerpunkt „Spracherwerb“ und von der Köhler-Stiftung
geförderten Projekt „Die Bedeutung der emotionalen Qualität der Mutter-Kind-Aktion für den Erwerb der
Dialogfähigkeit des Kindes – eine empirische Studie“ unter der Leitung von G. Klann-Delius entnommen
([Kauschke (1999)], S. 138).
34
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
diente als Vergleichspunkt. Die Aufnahmesituation der Daten bestand in der
freien Interaktion zwischen Mutter und Kind in einem Untersuchungsraum. Es
wurden Videoaufnahmen erzeugt, mittels welcher im Anschluss Transkripte
über zehn Minuten erstellt wurden. Festgehalten wurden alle verbalen,
vokalen und paraverbalen Äußerungen von Kind und Mutter. Für die Analyse
wurde jedes einzelne Wort extrahiert und in seiner zielsprachlichen Form
notiert. Anschließend wurde jedes auf diese Weise erhaltene Wort in eine
Datenbank überführt und die Type-Token-Relation ermittelt. Danach wurden
die Wörter folgenden Wortartenkategorien zugeordnet (vgl. 3.2.1):
• Nomen
• Verben
• Adjektive
• personal-social words
• relationale Wörter
• Pronomen
• Funktionswörter
• Onomatopöien
• Sonstige
Die Datenbank umfasste laut Kauschke (1999) insgesamt 751 verschiedene
Wörter, die von allen Kindern 3440 mal als Types und 9115 mal als Tokens
geäußert wurden. Den Ergebnissen nach zu urteilen nimmt die Anzahl
der Wörter im Laufe der Zeit zu. Kauschke zufolge ist ein Type-Zuwachs
zu verzeichnen, was bedeutet, dass die Anzahl unterschiedlicher Wörter
in Abhängigkeit vom Alter ansteigt. Demnach konnte ein exponentielles
Wachstum im zweiten Lebensjahr festgestellt werden ([Kauschke (1999)]
S. 141). Erst im dritten Lebensjahr würde es zu einer Abnahme und
einem anschließenden linearen Verlauf der Types kommen. Hinsichtlich der
Verwendungshäufigkeit der Wörter (Tokens) ist das Wachstumsmuster mit
dem der Types vergleichbar, so Kauschke. Mit zunehmendem Alter sind keine
bedeutsamen Veränderungen mehr feststellbar, was darauf schließen lässt,
dass das Verhältnis der Types zu den Tokens gleich bleibt. Hinsichtlich der
Komposition des Lexikons fand Kauschke heraus, dass relationale Wörter
sowie personal-social-words mit über zwei Dritteln anfangs vorherrschend
2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN
35
sind. Dieser Anteil nimmt während des Verlaufs der Studie sukzessiv ab.
Nomen sind den Ergebnissen zufolge von Anfang an im Wortschatz des
Kindes enthalten, wobei der Anteil zunächst anwächst. Im dritten Lebensjahr
verwendet jedoch kein Kind mehr als 25% Nomen, so Kauschke. Verben
seien erstmals mit 15 Monaten zu verzeichnen, welche im Verlauf ansteigen
und mit etwa 3;0 Jahren den größten Anteil des Lexikons ausmachen.
Auch Adjektive sind von Beginn an vertreten, wobei sich der Anteil von
2,5% auf 6% nicht merklich verändert. Etwas später ist ein Anwachsen der
Funktionswörter erkennbar. Alle Wortarten (gemessen in Types) zeigen laut
Kauschke hochsignifikante lineare Trends, mit Ausnahme der Adjektive. Bei
letzteren sei weder eine bedeutende Zu- oder Abnahme erkennbar. Insgesamt
könne man von einer Zunahme sprechen bei Nomen, Verben, Pronomen,
Funktionswörtern und sonstigen Wörtern. Der Anteil der relationalen Wörter,
personal-social words und der Onomatopöien würde dagegen sinken. Der
Anteil der Nomen erreicht laut Kauschke mit 21 Monaten ein Maximum, um
anschließend wieder zu sinken. Der Anteil der Funktionswörter hingegen
habe zunächst leicht, im dritten Lebensjahr deutlicher zugenommen. Neben
diesen allgemeinen Untersuchungen zur Komposition des Lexikons bis zum
dritten Lebensjahr interessierte Kauschke, ob es unter den teilnehmenden
Kindern der Studie individuelle Unterschiede gibt und ob diese Unterschiede
über den gesamten Zeitraum erhalten bleiben. Sie fand heraus, dass es
deutliche individuelle Unterschiede hinsichtlich der Menge der verwendeten
Wörter gab, was durch die Ermittlung der Spannweite in der Types- und
Tokens-Anzahl zu Tage trat. Die Streuung habe mit jedem Zeitpunkt stärker
zugenommen, das heißt, die Kinder entwickelten sich individuell weiter.
Geschlechtsspezifische Unterschiede seien allerdings nicht erkennbar
gewesen. Individuell unterschiedlich verteilt ist außerdem das Vorkommen
und die Stärke der Wortarten, so Kauschke. Folglich gebe es mit 3 Jahren
große Unterschiede im Anteil der Nomen, Verben, relationalen Wörter und
personal-social words. Ein Rangordnungstest zeigte zudem, dass einige
Kinder durchgehend im unteren, andere durchgehend im oberen Spektrum
lagen. Demnach könnte auf starke individuelle Unterschiede zwischen den
Kindern in der Rate des Lexikonerwerbs geschlossen werden. Kauschke
zufolge können aus der Anzahl der geäußerten Wörter im zweiten Lebensjahr
Prognosen für die Weiterentwicklung des Wortschatzes gemacht werden:
Kinder mit einem geringen produktiven Wortschatz im zweiten Lebensjahr
haben diesen Rückstand im Vergleich zu anderen Kindern aus Kauschkes
Stichprobe auch mit 3 Jahren nicht aufgeholt. Vielmehr würden sie weiterhin
weniger verschiedene Wörter verwenden ([Kauschke (1999)] S. 151).
36
KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK
In einem nächsten Schritt untersuchte Kauschke (2007) zusätzlich den
Input, den die analysierten Kinder erhielten ( [Kauschke (2007)], S. 132).
Sie erstellte ein Transkript, das auf einem informellen und ungesteuerten
Gespräch zwischen zwei Erwachsenen beruht. Von diesem Transkript wurden
die ersten 1000 Wörter analysiert, von denen 319 Types darstellten. Jedes
Wort wurde hinsichtlich seiner Wortart klassifiziert. Hinsichtlich der Types
enthielt das Transkript 18,5% Verben und 19% Nomen. Bei den Tokens waren
es 16,3% Verben und 9% Nomen. Diese Daten sollen später als Referenz für
die hier ermittelten Daten dienen und im besten Falle die Frage beantworten
können, ob die Verteilung der Wortarten von Kindern im Vorschulalter jener
von erwachsenen Sprecherinnen und Sprechern entspricht.
Kapitel 3
Wortarten in der Linguistik
Im diesem Kapitel soll – zusammen mit Kapitel 2 – die Basis für das
weitere Vorgehen ergänzt werden. Ein Teilziel ist es, ein geeignetes
Klassifikationssystem zur Zuordnung der (transkribierten) Wörter zu
bestimmten Wortarten auszuwählen (Abschnitte 4.1.4 und 4.1.6). Eine
solche Kategorisierung ist deshalb notwendig, weil nur aufgrund dieser eine
anschließende Inhaltsanalyse durchgeführt werden kann. Es muss zum
Beispiel zunächst geklärt werden, welche der transkribierten Wörter Nomen,
Verben, Adjektive, Adverbien sowie Funktionswörter sind. Diese Wortarten
bilden zusammen mit den Wörtern und deren Lemmata den Input für eine
semantische Analyse (Kapitel 7). Für die Wortartenanalyse soll an dieser
Stelle auf vorhandene und bewährte Klassifikationen zurückgegriffen werden.
Was bis hierher noch recht einfach klingt, entwickelte sich bei genauer
Recherche zu einem umfangreichen Prozedere. Nicht nur die Tatsache,
dass es unzählige Kategorisierungssysteme gibt, machte die Sache so
schwierig. Vielmehr musste auch darauf Rücksicht genommen werden, dass
es in dieser Arbeit um den Wortschatz von 3- bis 5-Jährigen geht, der nicht
vergleichbar ist mit jenem von erwachsenen Sprecherinnen und Sprechern. Im
Folgenden werden zwei unterschiedliche Modelle vorgestellt und deren Vorund Nachteile im Hinblick auf das vorliegende Thema erörtert. Zuvor sollen
jedoch die Begriffe Wort und Wortart, wie sie in dieser Arbeit Anwendung
finden, erläutert und definiert werden.
3.1
Wort und Wortart - Definition
„Wortarten sind Mengen bestimmter Art, und keine Eigenschaften
(Merkmale o. ä.): Wortartbegriffe wie „Verb“ sollen zur Bezeichnung
von Mengen dienen, und nicht zur Bezeichnung von Eigenschaften,
durch die diese Mengen festgelegt werden.“ ([Budde (2000)], S. 4)
37
38
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
Budde (2000) geht davon aus, dass lexikalische Wörter aus einem
syntaktischen Paradigma P sowie aus einer lexikalischen Bedeutung b
bestehen. Diese lexikalischen Wörter seien die im Idiolektsystem verankerten
abstraktesten und komplexesten Entitäten, für die der Begriff Wort verwendet
werden kann. Diese Gedanken spiegeln sehr gut die Ideen über das mentale
Lexikon wider (Abschnitt 2.1). Zumindest die Rede von einem Idiolektsystem
lässt vermuten, dass Budde vom individuellen mentalen Lexikon und nicht
vom Vorkommen aller Wörter einer Sprache spricht.
Eine etwas andere Annahme vertritt Lehmann (2005). Ausgehend von
seiner Aussage, dass die Genese von Wortarten durch Grammatikalisierung
geschieht, beschreibt er Wortarten als grammatische Klassen.
Dementsprechend sei in einer gegebenen Sprache eine Wortart durch
ihre Distribution abgegrenzt, wobei die Distribution eines Elementes die
Menge der Kontexte sei, in denen ein Wort auftritt. Je kleiner diese Menge
ist, desto eingeschränkter ist die Verteilung des jeweiligen Elementes, so
Lehmann. Im Verlauf seines Aufsatzes stellt Lehmann u. a. die Genese des
Adjektives im Quechua sowie die Genese des Substantives im Nootka dar
([Lehmann (2005)], S. 1-5). Diese Darstellungen sollen hier mangels Relevanz
für die kommenden Ausführungen nicht dargestellt werden. Es sei aber kurz
Lehmanns Fazit erwähnt. Der Autor geht davon aus, dass die Einführung einer
neuen Wortart durch Spaltung einer vorhandenen Wortart sowie durch die
Einführung zusätzlicher Klassen vonstatten geht. Schließlich gebe es durch
diesen Prozess mehr Wortarten, die dementsprechend weniger umfangreich
seien. Einige sehr interessante und hilfreiche Überlegungen stellten Knobloch
et al. (2009) an, die ich an dieser Stelle zum Teil übernehmen und anführen
möchte ([Knobloch und Schaeder (2009)]). Die Autoren äußern einige
nützliche Vorüberlegungen, wenn es um die Klassifikation von Wortarten
geht. Ich zitiere im Folgenden ausschnitthaft, welche Fragen im Vorfeld einer
Klassifikation beantwortet werden sollten:
„1) Was wird klassifiziert? (Lexeme, Wortformen, syntaktische
Wörter)
2) Nach welchen Kriterien wird klassifiziert? (nach grammatischsemantischen, nach morphologischen, nach syntaktischen, mit
einer Kombination aus den Kriterien)
3) Zu welchem Zwecke wird klassifiziert? (zur Beschreibung
der Muttersprache, für die maschinelle Sprachbearbeitung, für
die linguistische Theorie, für die Modellierung des kindlichen
Spracherwerbs)“
([Knobloch und Schaeder (2009)] S. 22 ff.).
3.1. WORT UND WORTART - DEFINITION
39
Da es oft Ziel sei, den Wortschatz zu klassifizieren, wird häufig nach
syntaktischen Kriterien klassifiziert, um Wörter in ihrer Distribution
darzustellen. Knobloch et al. (2009) sehen in der Regel das syntaktische
Wort bzw. dessen lexikalische Basis als häufig untersuchtes Objekt in der
Wortartenklassifikation. Gerade wenn die Distribution von Wortarten ein
übergeordnetes Ziel ist, sei es quasi unvermeidbar, Wörter nach ihren
syntaktischen Kriterien zu beurteilen. Eine genaue Einstufung nach den
Merkmalen der Syntax ist aber häufig nicht einfach, weil die Basis des
Sprachbewusstseins das geschriebene oder phonologische Wort ist, so die
Autoren (ebd.).
In der vorliegenden Arbeit bilden syntaktische Wörter die Grundlage für
eine spätere Klassifizierung, die wiederum aus den daraus resultierenden
Lemmata hervorgeht und möglichst unabhängig vom Kontext erfolgen
soll. Eine zusätzliche Schwierigkeit stellt die oft noch unvollkommene bzw.
abweichende Sprache der hier untersuchten Kinder im Vergleich zur Sprache
von Erwachsenen dar. Oft werden Wörter nicht in ihrer syntaktischen und/oder
lexikalischen Zielform verwendet, sind aber phonologisch korrekt. An anderen
Stellen ist die Aussprache sehr undeutlich, so dass Lücken entstehen, die
den Sprachfluss syntaktisch unterbrechen. Dies soll jedoch kein Hindernis
darstellen und deshalb nicht weiter beachtet werden. Das Ziel ist es, die
Wortarten auf der Basis von syntaktischen Wörtern zu analysieren; etwaige
grammatische Fehler bleiben in dieser Arbeit unbeachtet. Auch Knobloch
et al. (2009) beschreiben in ihren Ausführungen die Vielfältigkeit bei der
Klassifikation von Wortarten. Sie verstehen unter einem Wort die folgenden
Einheiten:
„Wort als Einheit der geschriebenen Sprache
Wort als Einheit
Wort
der gesprochenen Sprache (phonologisches Wort)
als Einheit des sprachlichen Verlaufs (morphologisches Wort,
syntaktisches Wort, grammatisches Wort, Textwort, Wortform,
Lex, Token)
Wort als Einheit des sprachlichen Systems
(lexikalisches Wort, Lexikonwort, Wörterbuchwort, Lexem, Type)“
([Knobloch und Schaeder (2009)] S. 40).
Am häufigsten werde zwischen lexikalischem Wort (Lexem) und
syntaktischem Wort unterschieden. Dass auch diese Aussage auf das
Vorgehen dieser Arbeit zutrifft, wird später zu sehen sein. Durch die
Transkription der phonologischen Wörter in die graphematische Form, erhält
man syntaktische Wörter, welche anschließend ihrer jeweiligen Grundform
(Lemma) zugeordnet werden.
40
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
Im Verlauf der Arbeit wird aber auch deutlich, dass es keine einheitliche
Definition für den Begriff Wort geben kann. Pinker (1996) beschreibt das
Wort bespielsweise als eine Spracheinheit, die von morphologischen Regeln
erzeugt wird, aber durch syntaktische Regeln nicht aufgespalten werden kann.
Einen besonderen Fall bilden Redewendungen, die im mentalen Lexikon
vermutlich als Einheit, also als ein Wort mit der/den jeweiligen Bedeutung/en
abgespeichert ist/sind. Redewendungen werden als Listeme bezeichnet, die
auswendig gelernt werden müssen und wie Einheiten in der Größe eines
Wortes auftreten ([Pinker (1996)], S. 170 ff.). Eine ähnliche Meinung vertreten
auch Di Sciullo et al. (1987), nach denen Listeme sprachliche Größen
darstellen, die von einem Individuum in seinem mentalen Lexikon gespeichert
sind und nicht mit syntaktischen Wörtern oder Lexemen verwechselt werden
dürfen ([Di Sciullo und Williams (1987)], zitiert in: [Gallmann (1991)]). Listeme
können demzufolge auch komplexe Gebilde sein, wie Morphe, Phrasen
oder ganze Sätze. Lexeme dagegen seien keine Einheiten des mentalen
Lexikons, da sie Paradigmen syntaktischer Wörter sind ([Gallmann (1991)],
S. 12). Laut Gallmann (1991) gehören zu den Lexemen auch erlernte
usuelle Bildungen und Ad-hoc-Abbildungen, die wiederum nicht im mentalen
Lexikon gespeichert sind ([Gallmann (1991)], S. 12). Alle usuellen und
okkasionellen Flexionsformen eines Lexems werden laut Gallmann von
der morphologischen Komponente der Grammatik und hier wiederum über
das Inventar an Flexionskategorien bestimmt. An dieser Stelle wird auch
ersichtlich, dass syntaktische Wörter nicht in Form einer Liste im mentalen
Lexikon abgespeichert sein können, denn wo und wie wären dann die Listeme
gespeichert? Zu groß ist die Anzahl an Redewendungen, Idiomen und
anderen feststehenden Wendungen, die in ihrer im Lexikon gespeicherten
Form eher einem eigenständigen Wort gleichen und dementsprechend nicht
in ihre einzelnen Bestandteile zergliedert werden können ohne an Bedeutung
zu verlieren. Im Verlauf dieser Arbeit werden Redewendungen nicht weiter
von Bedeutung sein, weshalb sie an dieser Stelle nicht in die Definition des
Begriffes Wort einfließen sollen. Im weiteren Verlauf soll die Bezeichnung
syntaktisches Wort (auch nur: Wort) für alle in den Daten geäußerten und
transkribierten Wörter verwendet werden; auch, wenn diese mehr als nur
einmal vorkommen. Diese bilden in der späteren Analyse (Kapitel 6) die
sogenannten Tokens ab. Gallmann (1991) definiert den Begriff syntaktisches
Wort mit folgenden Worten, die der Anwendungsweise in dieser Arbeit
weitgehend entsprechen:
„Ein syntaktisches Wort ist eine abgeschlossene morphologische
Einheit mit bestimmten formalen Merkmalen (=Signifiant) sowie
3.1. WORT UND WORTART - DEFINITION
41
bestimmten grammatischen und/oder inhaltlichen Merkmalen
(=Signifé), die eine Position in einer syntaktischen Struktur
einnehmen kann.“ ([Gallmann (1991)], S. 2)
Dieser Definition zufolge verfügen alle syntaktischen Wörter über
Wortartmerkmale und es gibt kein syntaktisches Wort, das nicht hinsichlich
der Wortart spezifiziert werden kann (siehe auch Abschnitt 3.2.2). Geht es um
die Abbildung lexikalischen Wissens in Form von Wörterbüchern oder Lexika,
dann werden ihre Grundeinheiten als Lemmata abgebildet ([Gallmann (1991)]
und siehe Abschnitt 4.1.8).
Zum Erwerb der Wortarten äußert sich Kauschke (2012) vor allem in
neueren Arbeiten. Danach beschreibt sie den Erwerb der Wortarten als
wichtigen Aspekt des Lexikonerwerbs. Jeder Lexikoneintrag enthält neben
Informationen über die Wortform und die Wortbedeutung auch Informationen
über die syntaktische Kategorie, der das Wort angehört. Die Wortarten
ergeben sich dann durch eine Einteilung des lexikalischen Inventars in
Klassen mit Wörtern ähnlicher Eigenschaften. Zu Beginn der Entwicklung
finden sich vor allem interaktive und relationale Wörter sowie Lautmalereien
und Eigennamen (siehe auch Abschnitt 3.2.1). Nomen treten schon früh auf
und breiten sich gerade in den frühen Stadien des Spracherwerbs schnell
aus. Darauffolgend ist ein linearer Anstieg von Verben beobachtbar. Ein
Anstieg von Funktionswörtern markiert laut Kauschke die letzte Stufe in der
Wortartenentwicklung. Gegen Ende des dritten Lebensjahres herrscht in der
Spontansprache von Kindern zumeist jene Wortartenverteilung vor, die auch
im Input vorzufinden ist ([Kauschke (2012)], S. 60-62). Ein solcher Einfluss
des elterlichen Inputs kann in der vorliegenden Arbeit nicht überprüft werden.
Es werden jedoch Vermutungen über einen möglichen Einfluss in Abschnitt
6.5 angestellt. Ein wesentlicher Punkt, den die Wortartenverteilung im dritten
Lebensjahr ausmacht, ist laut Kauschke der Anstieg der Funktionswörter
sowie ein Verbzuwachs. Dies kann und soll mit den hier ermittelten Daten
überprüft werden.
42
3.2
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
Die Kategorisierung von Wortarten
In diesem Abschnitt sollen zwei Möglichkeiten der Wortartenkategorisierung
vorgestellt werden. Dabei wird zunächst nicht unterschieden nach
syntaktisch, semantisch, morphologisch, phonologisch oder lexikalisch
motivierten Klassifikationen. Vielmehr wird im Anschluss an die vorgestellten
Klassifikationssysteme eine Bewertung in Bezug auf das hiesige Vorhaben
vorgenommen und bei Bedarf die Vor- und Nachteile erläutert.
3.2.1
Kategorisierung nach Kauschke
Bereits in Abschnitt 2.3.3 wurde Kauschkes Forschungsvorhaben zum
Wortschatzerwerb im Deutschen dargestellt. Im Folgenden möchte ich
die Klassifikation der Wortarten, mit welcher Kauschke (1999, 2000)
zu den Ergebnissen ihrer Studie gelang, vorstellen ([Kauschke (1999)];
[Kauschke (2000)]). Laut Kauschke (2000) sind Wortarten das Ergebnis
einer theoretisch begründeten Klassifikation der Wörter einer Sprache nach
Form- und Bedeutungsmerkmalen. Für eine Klassifikation können mehrere
Aspekte herangezogen werden: morphologische, syntaktische, semantische
und distributionelle. Uneinheitlichkeiten bei der Bestimmung einer Wortart
können immer auftauchen, z. B., weil es zu Überschneidungen kommt.
Eine weitere Schwierigkeit, die nach Kauschke auftreten kann, ist, dass
die Wortartenzughörigkeit kindlicher Äußerungen noch instabil ist. Dadurch
entstehe das Problem, dass die Entwicklung der Wortartenverwendung
nicht erforscht werden kann. Erforderlich um einen Entwicklungsverlauf
aufzeigen zu können, ist ein einheitliches Klassifikationssystem in allen
Altersstufen. Insbesondere zu Beginn der Satzproduktion ergeben sich laut
Kauschke Veränderungen in der Funktion von Wörtern, weil syntaktische
Aspekte hinzukommen und damit neue Kriterien für eine Klassifikation
benötigt werden ([Kauschke (2000)], S. 86). Damit ergab sich die Aufgabe,
ein geeignetes Klassifikationssystem zu entwickeln, das einerseits die Wörter
des frühkindlichen Lexikons enthält, ungeachtet der syntaktischen Aspekte.
Andererseits sollten auch jene Wortarten erfasst werden, die nach dem
Einstieg in die Satzproduktion auftreten. In Anlehnung an Blooms (1993)
Klassifikationssystem gelangt Kauschke (1999) zu folgender Klassifikation
([Bloom, Tinker und Margulis (1993)], S. 445; Tabelle 3.1):
3.2. DIE KATEGORISIERUNG VON WORTARTEN
Wortart
Nomen
43
Untergruppen und Beispiele
specific: Eigennamen (Holger), specific: Personen und spezifische Objekte
(Mama), general: belebte und unbelebte Objekte (Ball), abstrakte Nomen (Idee),
internal state-Nomen (Angst)
Verben (action words)
objektbezogene Handlungen und Tätigkeiten (suchen), nicht objektbez.
Handlungen: Events, Bewegung, Zustand (pullern), innere Handlungen oder
Tätigkeiten z. B.: mentale, emotionale, volitionale „internal state“-Verben
(weinen, glauben)
Adjektive (modifiers)
modifizierte Elemente wie Attribute, Eigenschaften und Merkmale (heiß, vier),
innerpsychische Zustände, internal state-Adjektive (böse, toll)
Personal-social words
Interaktive und expressive Wörter assertions (ja, nein), social-expressives:
Floskeln, Grüße (hallo, danke), Gesprächssignale (hm), attention getting devices
(guck), auf das persönliche Erleben bezogene expressive Äußerungen, internal
state-Interjektionen (aua)
Relationale Wörter
Relationen zwischen Handlungen/Objekten: Auftauchen/Verschwinden (da,
weg), Ort (oben) Funktionen von/mit Objekten (ran, auf), zeitliche Durchführung
von Handlungen (wieder)
Pronomen
Personalpronomen (du), Demonstrativpronomen (dies), Possessivpronomen
Funktionswörter
Präpositionen (aus), Hilfsverben (haben), Artikel (ein), Konjunktionen (weil),
Onomatopöien
lautmalerische Äußerungen (brumm, tatütata)
Sonstige
Partikeln (eben, denn), nicht klassifizierbare Wörter
(sein) u.a.
Fragewörter (warum) u. a.
Tabelle 3.1: Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S. 140)
Diese Wortartenklassifikation unterscheidet neun Kategorien, die
(offensichtlich) in sich nicht weiter untergliedert sind. Zumindest in ihrer
Analyse und Darstellung der Wortartenverteilung der untersuchten Kinder
geht die Autorin nur von den oben genannten Kategorien aus. Dies mag
für die von Kauschke verfolgten Zwecke – nämlich der Darstellung einer
Wortartendistribution von Kindern im Alter von 13 bis 36 Monaten – sinnvoll
sein. Für die Ziele der vorliegenden Arbeit ist dies in der Form jedoch nicht
übertragbar. Die Klasse der Verben müsste weiter aufgeteilt werden in u. a.
finite und infinite Verben, Auxiliar- und Kopulaverben sowie Modalverben. Die
Klasse der Nomen sollte in Eigennamen und anderen Nomen differenziert
werden können. Insbesondere die Kategorien personal-social words,
Relationale Wörter und Funktionswörter sind für die Ziele der vorliegenden
Arbeit ungeeignet. Die Beispiele und Untergruppen – wie von Kauschke
zu jeder Kategorie aufgeführt – kommen zwar im Wortschatz der hier
untersuchten Drei- bis Fünfjährigen vor, man findet sie allerdings in weitaus
feiner abgestuften Nuancen. Dadurch soll eine Distribution aufgezeigt
werden, die mit jener des Wortschatzes von Erwachsenen vergleichbar
ist. Insbesondere die Klasse der Pronomen erfordert für unser Vorhaben
eine feinere Klassifikation. So soll – vor allem in späteren Arbeiten –
44
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
unterschieden werden können zwischen Possessiv-, Relativ-, Interrogativ-,
Personal- und Demonstrativpronomen, um eventuelle Veränderungen im
Gebrauch festzustellen. All diese Möglichkeiten hängen jedoch immer vom
Ziel und Zweck der jeweiligen Untersuchung ab. Geht man von einem aktiven
Wortschatz von rund 300 Wörtern bei Zweijährigen im Vergleich zu einem
Wortschatz von rund 500 Wörtern bei Dreijährigen und 5000 Wörtern bei
Sechsjährigen aus ([Kauschke (1999)], S. 134), so wird klar, dass für eine
Darstellung der Wortartenverteilung unterschiedliche syntaktische Klassen
herangezogen werden müssen. Eine Einteilung der Verben in viele weitere
Untergruppen ist wenig nützlich, wenn die Kategorie Verb gerade erst im
Begriff ist, sich zu etablieren und infolgedessen nur in seltenen Fällen
vom Kind geäußert wird. Andererseits ist es wenig sinnvoll, die Klasse
der Onomatopöien beizubehalten, wenn doch im Alter von 4 Jahren die
Differenzierung der Klasse der Verben ein hervorstechendes Merkmal
im Sprachgebrauch ist, Onomatopöien jedoch in den Hintergrund treten.
Aufgrund dieser Umstände soll eine Klassifikation, die den Zwecken der
vorliegenden Arbeit entspricht, gefunden werden.
3.2.2
Stuttgart-Tübingen-Tagsets (STTS)
Im Folgenden werden die Stuttgart-Tübingen Tagsets (STTS) vorgestellt,
die am Institut für maschinelle Sprachverarbeitung der Universität Stuttgart
und am Seminar für Sprachwissenschaft der Universität Tübingen entwickelt
wurden.1 Die STTS enthalten insgesamt 54 Tags (Wortartenbezeichner) für
deutsche Textkorpora. Die unten stehende Tabelle2 (3.2) stellt alle 54 Tags
vor:
Tabelle 3.2: STTS Tag Table (1995/1996)
POS-Tag
DESCRIPTION
EXAMPLES
ADJA
attributives Adjektiv
[das] große [Haus]
ADJD
adverbiales oder prädikatives Adjektiv
[er fährt] schnell, [er ist] schnell
Adverb
schon, bald, doch
Präpostion, Zirkumposition links
in [der Stadt], ohne [mich]
Präposition mit Artikel
im [Haus], zur [Sache]
Postposition
[ihm] zufolge, [der Sache] wegen
ADV
APPR
APPRART
APPO
1
Für
weitere
Informationen
verweise
ich
auf
die
folgende
Webseite:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html
(letzter
Zugriff
18.12.2015)
2
Für
weitere
Informationen
verweise
ich
auf
die
folgende
Webseite:
http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html;
siehe
auch
[Schiller, Teufel, Stöckert und Thielen (2009)], S. 6-7)
3.2. DIE KATEGORISIERUNG VON WORTARTEN
APZR
Zirkumposition rechts
[von jetzt] an
bestimmter oder unbestimmter Artikel
der, die, das, ein, eine
Kardinalzahl
zwei [Männer], [im Jahre] 1994
FM
fremdsprachliches Material
[Er hat das mit] A big fish [übersetzt]
ITJ
Interjektion
mhm, ach, tja
unterordnende Konjunktion mit „zu“ und
um [zu leben], anstatt [zu fragen]
ART
CARD
KOUI
Infintiv
KOUS
unterordnende Konjunktion mit Satz
weil, dass, damit, wenn, ob
nebenordnende Konjunktion
und, oder, aber
Vergleichskonjunktion
als, wie
NN
normales Nomen
Tisch, Herr, [das] Reisen
NE
Eigennamen
Hans, Hamburg, HSV
substituierendes
dieser, jener
KON
KOKOM
PDS
Demonstrativpronomen
PDAT
attribuierendes Demonstrativpronomen
jener [Mensch]
PIS
substituierendes Indefinitpronomen
keiner, viele, man, niemand
PIAT
attribuierendes Indefinitpronomen ohne
kein [Mensch], irgendein [Glas]
Determiner
PIDAT
attribuierendes Indefinitpronomen mit
[ein] wenig [Wasser[, [die] beiden [Brüder]
Determiner
PPER
irreflexives Personalpronomen
ich, er, ihm, mich, dir
PPOSS
substituierendes Possessivpronomen
meins, deiner
PPOSAT
attribuierendes Possessivpronomen
mein [Buch], deine [Mutter]
PRELS
substituierendes Relativpronomen
[der Hund], der
PRELAT
attribuierendes Relativpronomen
[der Mann], dessen [Hund]
PRF
reflexives Personalpronomen
sich, einander, dich, mir
PWS
substituierendes Interrogativpronomen
wer, was
PWAT
attribuierendes Interrogativpronomen
welche [Farbe], wessen [Hut]
PWAV
adverbiales Interrogativ- oder
warum, wo, wann, worüber, wobei
Relativpronomen
PAV
Pronominaladverb
dafür, dabei, deswegen, trotzdem
PTKZU
„zu“ vor Infinitoiv
zu [gehen]
PTKNEG
Negationspartikel
nicht
abgetrennter Verbzusatz
[er kommt] an, [er fährt] Rad
Antwortpartikel
ja, nein, bitte, danke
Partikel bei Adjektiv oder Adverb
am [schönsten], zu [schnell]
TRUNC
Kompositionserstglied
An- [und Abreise]
VVFIN
finities Verb, voll
[du] gehst, [wir] kommen [an]
PTKVZ
PTKANT
PTKA
45
46
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
VVIMP
Imperativ, voll
komm [!]
VVINF
Infinitiv, voll
gehen, ankommen
VVIZU
Infinitiv mit „zu“, voll
anzukommen, loszulassen
VVPP
Partizip Perfekt, voll
gegangen, angekommen
VAFIN
finites Verb, aux
[du] bist, [wir] werden
VAIMP
Imperativ, aux
sei [ruhig]!
VAINF
Infinitiv, aux
werden, sein
VAPP
Partizip Perfekt, aux
gewesen
VMFIN
finities Verb, modal
dürfen
VMINF
Infinitiv, Modal
wollen
VMPP
Partizip Perfekt
gekonnt, [er hat gehen] können
XY
Nichtwort, Sonderzeichen enthaltend
3:7, H2O, D2XW3
\$,
Komma
,
\$.
satzbeendende Interpunktion
.?;:
\$(
sonstige Satzzeichen; satzintern
- [,] ()
Mit den in der Tabelle aufgeführten Tags ist eine überaus detaillierte
Wortartenklassifikation entstanden. Die Hauptwortarten (Adjektiv, Adverb,
Präposition, Konjunktion, Substantiv, Verb, Pronomen, Partikel) wurden nach
syntaktischen Kriterien so weit untergliedert, dass sie für eine Darstellung der
Wortartenverteilung in vielen Fällen nutzbar sind. Besonders hervorstechend
ist die Aufsplittung der Kategorie Verb in Vollverb, Auxiliarverb und Modalverb
und diese wiederum jeweils in Imperativ (außer Modalverben), Infinitiv,
finites Verb und Partizip Perfekt. Auch die Klasse der Pronomen erfuhr eine
sehr starke Aufsplittung in Demonstrativ-, Indefinit-, Personal-, Possessiv-,
Relativ- und Interrogativpronomen mit jeweils weiteren Unterscheidungen.
Derart starke Aufsplittungen sind für den Vorgang des Taggens (Bezeichnen
der Wortarten) selbstverständlich enorm zeitaufwendig, doch ermöglichen
sie zum einen eine sehr genaue Darstellung der Verteilung der einzelnen
Wortarten im Sprachgebrauch, zum anderen können Vergleiche innerhalb
einer Klasse unternommen werden, z. B. zwischen dem Vorkommen von
Relativpronomen im Vergleich zum Gesamtvorkommen der Pronomen.
Inwieweit findet ein adäquater Gebrauch der reflexiven
Personalpronomen statt? Stellen Auxiliarverben eine besondere
Schwierigkeit im Sprachgebrauch dar und wenn ja, in welchem
Alter?
Diese und weitere Fragen sind sehr leicht beantwortbar, wenn die Daten
eines Korpus’ mit Hilfe der STTS getaggt und im besten Falle in eine
3.2. DIE KATEGORISIERUNG VON WORTARTEN
47
Datenbank überführt werden, von der aus viele Untersuchungsschritte
gemacht werden können. Zugleich – und diesen Aspekt habe ich bereits
erwähnt – ist die Vielzahl an Tags auch nachteilig für die Person, die das
Taggen übernimmt, da das Verfahren dadurch sehr zeitaufwendig ist. Auch
ist es nicht immer eindeutig, welches Tag für ein bestimmtes Wort gewählt
werden muss. Insbesondere bei der Arbeit an einem Korpus, welches
kindliche Sprache enthält, kommt es zu uneindeutigen Fällen bzw. Fällen,
in denen sich die syntaktische Kategorisierung nicht mit der semantischen
Absicht des Gesagten deckt. Typische uneindeutige Fälle in dieser Arbeit
sind z. B.: „Ich nehme das grüne xxx.“ In diesem Beispiel fehlt recht eindeutig
das Nomen, welches an dieser Stelle akustisch nicht nachvollziehbar war.
Ebenso könnte grüne als NN getaggt werden, weil es in diesem Fall ohne
Nomen (xxx) auftritt und dadurch als substantivierter Infinitiv bezeichnet
werden kann. Als transkribierende Person kann ich durch meine Anwesenheit
während der Aufnahme und durch angefertigte Mitschriften in diesem Fall
nachvollziehen, dass das Kind an Stelle des xxx ein Nomen verwendet
hat und bezeichne grüne mit dem POS-Tag ADJA. Eine besonders häufig
auftretende Diskrepanz zeigt sich bei der Bezeichnung des Verbs sein, das
je nach Kontext Kopulaverb, Auxiliarverb, Vollverb oder gar ein Verb in einem
Funktionsverbgefüge sein kann. In den STTS gibt es nur die Möglichkeit
sein als Auxiliarverb (VA) oder Vollverb (VV) zu bezeichnen. In den Fällen,
in denen sein Auxiliarverb ist, stellt das kein Problem dar. In den überaus
häufigen Fällen, in denen es Kopulaverb ist, kann unter Verwendung der STTS
nur mit VV gekennzeichnet werden, da ein POS-Tag für Kopulaverben nicht
vorliegt. An späterer Stelle in dieser Arbeit werden deshalb alle syntaktischen
Wörter nochmals nach semantischen Kriterien auf Basis der Regeln der
Dudengrammatik getaggt, wodurch unter anderem auch das Problem der
Multifunktionalität von sein gelöst wird (Kapitel 7). Die eben dargestellten
Fälle zeigen, dass es an vielen Stellen zu mehrdeutigen Situationen kommen
kann. Das bedeutet jedoch nicht, dass die eine oder andere Form der
Kategorisierung falsch ist. Vielmehr entstehen derartige Probleme durch
unterschiedliche Sichtweisen der taggenden Person und durch das jeweilige
Ziel, das mit der Klassifikation der Wortarten verfolgt wird.
3.2.3
Die Wahl einer geeigneten Kategorisierung - Auswahl und
Begründung
In diesem Abschnitt möchte ich die Auswahl der für diese Arbeit gewählten
Kategorisierung begründen. Ich beziehe mich dabei nur auf die oben
aufgeführte Wortartenklassifikation von Kauschke sowie die STTS –
48
KAPITEL 3. WORTARTEN IN DER LINGUISTIK
wohlwissend, dass es viele weitere gibt. Doch es ist an dieser Stelle
unmöglich, mich auf alle existierenden Klassifikationsvorschläge zu
beziehen.3
Kauschke (1999) verwendet eine Einteilung, die sich besonders für eine
Analyse von Sprache in einem frühen Stadium im Spracherwerb eignet.
Für eine Beschreibung des Lexikons Drei- bis Fünfjähriger ist sie jedoch
nicht ausreichend. Vor allem für einen späteren Vergleich mit der Sprache
Erwachsener erweisen sich einige Kategorien als unbrauchbar. Die Kategorie
Relationale Wörter beinhaltet beispielsweise Wörter des Ortes, wie oben
oder Funktionen mit Objekten wie ran oder auf. Diese könnten ebenso
der Kategorie Adverb angehören bzw. eine Verbpartikel darstellen im Falle
von ran oder auf. Die Kategorie Pronomen ist nicht weiter aufgesplittet.
Zur Kategorie Funktionswörter gehören Artikel, Hilfsverben, Konjunktionen,
Fragewörter und Präpositionen, die meiner Meinung nach eigene Kategorien
darstellen sollten. Insgesamt halte ich diese Klassifikation zur Beschreibung
der Wortartenverteilung bei Ein- bis Dreijährigen für sehr sinnvoll, für
den Wortschatz von Drei- bis Fünfjährigen ist sie hingegen nicht mehr
ausreichend.
Die STTS sind ein häufig verwendetes Tagset, wenn es darum geht,
eine Wortartendistribution zu erstellen. Aufgrund dieser Popularität und
des logischen Aufbaus habe ich mich dazu entschieden, sie für diese
Arbeit zu verwenden. Das syntaktische Wort steht im Mittelpunkt der
Arbeit und es ist relevant bei jenem Schritt der Analyse, bei dem es um
die Wortartenbezeichnung mittels der STTS geht. Dafür müssen zuvor
die gesprochenen Wörter in graphematische Wörter transkribiert werden
(Abschnitt 4.1.4). Ausgehend vom syntaktischen Wort erweisen sich
die STTS als geeignet. Probleme tauchen dahingehend auf, dass die
gesprochene Sprache der Kinder oft unvollständig bzw. unverständlich ist.
Diese Probleme können jedoch relativ gut klassiert werden. Es wurden
Regelungen geschaffen, so dass eine Bezeichnung mit den jeweiligen
POS-Tags möglich war (Abschnitt 4.1.7). Die STTS haben zudem den Vorteil,
dass Klassen von POS-Tags zusammengefasst werden können, ohne dass
eine Wortart verloren geht. Bei Bedarf kann hingegen die ganze Bandbreite
der Wortarten Anwendung finden (Tabelle 3.2) oder es können Kategorien
nach individuellem Bedarf zusammengefasst werden (Tabelle 6.1).
3
Weitere Literatur zum Thema Wortarten und deren Klassifikation: [Budde (2000),
Bergenholtz und Schaeder (1977), Hoffmann (2009), Ruoff (1981), Vogel und Thieroff (2009)]
Kapitel 4
Beobachtungsstudie - Ziele und
Methodik
In diesem Kapitel soll die für die Ergebnisse der Arbeit zugrunde liegende
Beobachtungsstudie erläutert werden. Eine Voraussetzung für das Erreichen
der Ziele dieser Arbeit war es, ein Korpus der Spontansprache von
deutschsprachigen Kindern zwischen 3;5 und 5;5 Jahren zu erstellen.
Den Input für dieses Korpus bildeten Sprachaufnahmen, die in der Kita
des Studentenwerkes an der Technischen Universität Berlin1 gesammelt
wurden. Die Sammlung wurde durch die Methode der teilnehmenden
Beobachtung erstellt. Diese Methode schien für den übergeordneten Zweck
- dem Sammeln von spontanen Daten - die sinnvollste und zugleich einzige
zu sein. Eine Untersuchung der Kinder unter kontrollierten Bedingungen,
wie zum Beispiel im Labor, sollte für den Erhalt spontaner Daten unbedingt
vermieden werden. Es erwies sich zudem als sehr geeignet, die Daten mit
einem Diktiergerät aufzunehmen, weil die beobachteten Kinder jung genug
waren, um sich aufgrund eines technischen Gerätes nicht beobachtet zu
fühlen. Das sogenannte Beobachterparadoxon konnte somit ausgeschlossen
werden ([Albert und Koster (2002)]). Insgesamt wurden etwa 40 Stunden
Audiomaterial gesammelt. Von diesem Material wurden 26815 Tokens in die
Analyse einbezogen. Alle Daten wurden sowohl quantitativ als auch qualitativ
ausgewertet. Dafür wurden diese zunächst mit dem Transkriptionsprogramm
FOLKER2 transkribiert und anschließend mit dem EXMARaLDA Partitur
Editor (Abschnitt 4.1.6). analysiert. Anschließend wurden alle erstellten
EXMARaLDA-Dateien mit den dazugehörigen Informationen in eine
Datenbank importiert. Mit Hilfe dieser Datenbank ([Mack (2014)]) können
1
Genauere
Informationen
zur
Kita
finden
Sie
http://www.studentenwerk-berlin.de/kita/standorte/kita_tu/index.html.
2
Genauere
Informationen
zu
FOLKER
finden
Sie
http://agd.ids-mannheim.de/folker.shtml
49
im
im
Internet
unter
Internet
unter
50
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
relevante Abfragen getätigt und Ergebnisse ausgegeben werden, die über
die Wortartenverteilung in verschiedenen Altersclustern sowie über die
Type-Token-Verteilung (Paragraph 4.1) Aufschluss geben. Ferner erfolgte eine
Klassifizierung aller Lemmata hinsichtlich ihrer Bedeutungskategorie und eine
anschließende Zusammenstellung dieser in einem Lexikon des Vorschulalters
(Kapitel 7; Anhang).
Im Verlauf der Arbeit sollen vor allem folgende Fragen überprüft werden:
1. Gibt es im Alter von 3;5 bis 5;5 Jahren individuelle Unterschiede in der
Verteilung der Wortarten?
2. Ist hinsichtlich der Verwendung der Wortarten sowie in der inhaltlichen
Entwicklung des Lexikons ein Trend erkennbar (individuell oder
allgemein) oder bleibt die Komposition des Lexikons zwischen 3;5 und
5;5 Jahren konstant?
3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5 und 5;5
Jahren komponiert?
4.1
Methodik
Bevor die einzelnen Teilschritte des methodischen Vorgehens näher betrachtet
werden, möchte ich einige allgemeine Möglichkeiten der Untersuchung des
Wortschatzes bei Kindern aufzeigen. Grundlegend können im Hinblick
auf die Zielstellung zwei verschiedene Untersuchungen des Wortschatzes
vorgenommen werden: eine Analyse des produktiven und/oder eine Analyse
des rezeptiven Wortschatzes. Für welches Vorgehen man sich entscheidet,
ist abhängig davon, wofür die Daten verwendet werden sollen und welche
Ergebnisse erwartet werden. Bei beiden Methoden ist es nahezu unmöglich,
den Wortschatz vollständig zu erfassen.
Um das rezeptive Vokabular eines Kindes zu überprüfen, können
Vokabularchecklisten eingesetzt werden. Diese enthalten eine Zusammenstellung des kindlichen (Gesamt-)vokabulars. Durch unterschiedliche
Methoden wird das Kind auf das Verständnis jeder Vokabel hin überprüft
(siehe auch [Kauschke (2000)], S. 75). Der produktive Wortschatz
bleibt bei diesem Verfahren quasi unberührt, wodurch ein Erfassen
des Gesamtwortschatzes nicht möglich ist. Die wahrscheinlich älteste
Methodik zur Erfassung des produktiven Vokabulars bieten sogenannte
Elterntagebücher (z. B. [Stern und Stern (1965)]). Dabei halten Eltern jedes
neue Wort ihres Kindes in Verbindung mit weiteren Daten wie Zeitangaben,
Gestik, Mimik etc. fest. Ein solches Verfahren bietet sicher umfangreiche
4.1. METHODIK
51
Ergebnisse, die aber einen ebenso umfangreichen Einsatz der Eltern
verlangen.
Kauschke (2000) bietet weiterhin eine gute Übersicht über den Einsatz
von Beobachtungsmethoden, die ich im Folgenden kurz darstellen möchte,
da es sich auch in der vorliegenden Arbeit um eine Beobachtungsstudie
handelt ([Kauschke (2000)], S. 76-82). Beobachtungsdaten können laut
Kauschke durch Video- und/oder Audioaufnahmen erhoben werden. Diese
Aufnahmen können an verschiedenen Orten stattfinden: im Labor, zu Hause,
in Kindertagesstätten etc. Im Anschluss an die Aufnahmen, müssen die
erhobenen Sprachdaten transkribiert werden, wobei die Auswahl eines
geeigneten Transkriptionssystems abhängig von der jeweiligen Fragestellung
ist (siehe dazu auch Abschnitt 4.1.4). Nachdem das Transkript bzw. die
Transkripte erstellt wurden, kommen unterschiedliche Auswertungsmethoden
zum Einsatz. Diese können quantitative und/oder qualitative Aspekte des
Lexikons berücksichtigen (ebd.). In der vorliegenden Arbeit werden - wie
später ersichtlich - quantitative und qualitative Gesichtspunkte untersucht.
Die Vorteile einer solchen Erhebung liegen vor allem darin, dass zahlreiche
Aspekte der Sprache ersichtlich werden. Während bei einer Datenerhebung
mittels Fragebögen lediglich das Wissen um die Lexeme deutlich wird,
gewähren beispielsweise durch Audio- und / oder Videoaufnahmen
gewonnene und später transkribierte Daten Einblick in die phonologische
Realisation von Wörtern. Aber auch gestische und mimische Gesichtspunkte
sowie die Prosodie können untersucht werden. Ebenso können sämtliche
phonetische Untersuchungen mittels akustischer Daten vorgenommen
werden. In der vorliegenden Arbeit wurden Audiodaten mit zusätzlichen
Protokollen der Interviewerin erhoben. Ein solches Verfahren wurde im Vorfeld
(und im Nachhinein) als ausreichend erachtet, da lediglich der Wortschatz
untersucht werden soll. Eine Videoinstallation an jedem der Aufnahmetage
wäre zu aufwendig gewesen, zumal das Lexikon in seiner Entwicklung im
Mittelpunkt der Untersuchung steht, nicht aber die Interaktion zwischen den
Kindern untersucht werden sollte. Nichtsdestotrotz sollten aufgrund der recht
guten Tonqualität auch phonetische Analysen möglich sein, die mit den
vorliegenden Daten bisher jedoch nicht durchgeführt wurden.
Hinsichtlich der zeitlichen Aspekte können zum einen Längsschnittstudien,
zum anderen Querschnittstudien durchgeführt werden. Bei einer
Längsschnittstudie werden einzelne Kinder über einen längeren Zeitraum
beobachtet, wodurch sich die Entwicklung der sprachlichen Fortschritte gut
verfolgen lässt. Eine Querschnittstudie wird zu einem gegebenen Zeitpunkt
mit mehreren Kindern durchgeführt und soll - wie der Name schon sagt - einen
Querschnitt über die sprachlichen Fähigkeiten aller Kinder aufzeigen. In der
52
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
vorliegenden Beobachtung handelt es sich um eine Studie mit vielen Aspekten
einer Längsschnittstudie. Oberste Priorität war es, möglichst spontane und
nicht elizitierte Daten zu erhalten. Aus diesem Grund wurden die einzelnen
Kinder nicht an an jedem Aufnahmezeitpunkt einzeln aufgenommen,
sondern nur an jenen Tagen, an denen sie freiwillig dazu bereit waren.
Dementsprechend können keine (oder nur wenige) Entwicklungsschritte
einzelner Kinder aufgezeigt werden. Wie sich später zeigen wird, ist die für
diese Arbeit gewählte Vorgehensweise ausreichend, da sie zudem nicht den
Anspruch einer experimentellen Untersuchung hat.
Was hier nicht getroffen werden kann und soll ist eine Aussage über
die rezeptiven Sprachleistungen sowie über die Größe des Wortschatzes.
Letzterer ist meiner Meinung nach nie vollständig erfassbar, da sowohl
produktive als auch rezeptive Sprachleistungen berücksichtigt werden
müssen. Da in dieser Arbeit nur die syntaktischen Wörter im Gebrauch
bei Kindern im Vorschulalter erfasst werden, sind die erstellten Transkripte
vollkommen zweckmäßig (siehe auch [Kauschke (2000)], S. 78).
Wie bereits weiter oben angeführt, werden in der vorliegenden
Arbeit sowohl quantitative als auch qualitative Aspekte des kindlichen
Lexikons betrachtet. Aus diesem Grund kommen auch unterschiedliche
Auswertungsmethoden zum Einsatz. Bezüglich der quantitativen
Gesichtspunkte werden (ansatzweise) einerseits die Tokens (alle von
einem Kind geäußerten und später aufbereiteten syntaktischen Wörter) und
andererseits die Types (alle unterschiedlichen von einem Kind geäußerten
Wörter in Bezug auf ihre Lemmata) berechnet und zudem in Relation
zueinander gesetzt, um das Verhältnis der Types zu den Tokens zu ermitteln.
In traditionellen Messungen der Type-Token-Relation wird die Gesamtanzahl
der Types durch die Gesamtanzahl der Tokens dividiert ([Kauschke (2000)],
S. 81). Dies wirft allerdings die Frage auf, was damit genau gemessen
werden soll: altersbedingte Veränderungen und/oder die Abgrenzung von
Kindern mit unterschiedlichen individuellen Fähigkeiten? Zudem nimmt die
Type-Token-Relation (im Folgenden TTR) ab, je mehr Tokens berücksichtigt
werden, da es laut Kauschke (2000) zu Wiederholungen von Wörtern kommt
([Kauschke (2000)], S.81ff.). Mittlerweile wurden verschiedene Möglichkeiten
erprobt, um die TTR zu ermitteln und die im Folgenden kurz erörtert werden
sollen.
In diesem und den folgenden Paragraphen soll das
Verhältnis der Types (alle verschiedenen Wörter im gegebenen Korpus) zu
den Tokens (alle Wörter im gegebenen Korpus) unter allgemeinen Aspekten
Die Type-Token-Relation
4.1. METHODIK
53
analysiert werden. Ziel ist es herauszufinden, ob eine Type-Token-Analyse
mit den Daten der vorliegenden Arbeit notwendig und sinnvoll ist. Eine recht
übersichtliche Definition dazu liefert meiner Meinung nach Wimmer (2005):
„The type-token relation is understood as the ration of the
number of different words to all words in the text, or with other
words, the ration of vocabulary richness to the text length.“
([Wimmer (2005)], S. 361)
Wimmer erläutert sehr übersichtlich die unterschiedlichen Interpretationen,
Methoden zur Berechnung der Type-Token-Ratio sowie auch Möglichkeiten
zur Modellierung. Da der Artikel der Autorin sehr umfassend und übersichtlich
gestaltet ist und die für die vorliegende Arbeit nötigen Grundlagen zum
Thema Type-Token-Ratio enthält, möchte ich mich im Folgenden darauf
stützen ([Wimmer (2005)]). Wimmer geht auf die Vor- und Nachteile jeder
Methode im Hinblick auf die jeweils verfolgten Zwecke ein. Demzufolge
sei dieses Forschungsinteresse heutzutage nicht nur sehr umfassend,
sondern auch äußerst uneinheitlich, da jedes neue Forschungsfeld auch neue
Unregelmäßigkeiten mit sich bringe. Dieser Mangel an Uneinheitlichkeit ist auf
folgende Aspekte zurückzuführen:
1. Identifikation der Types
2. Interpretation
3. Messung
4. Entstehung und theoretische Annäherung
5. Statistische Prozesse (Stichproben etc.)
Ich möchte nachfolgend nicht auf jeden einzelnen Aspekt eingehen, sondern
nur jene betrachten, die für die Zwecke der vorliegenden Arbeit relevant
sein können. Deshalb gehe ich vor allem auf die Punkte 1 bis 3 ein und in
Annäherung auf Punkt 4.
Laut Wimmer gibt es zwei Möglichkeiten, die Types in einem
Text zu identifizieren.
i) Es werden unterschiedliche Wortformen betrachtet. Bei dieser Technik
wird das Konzept des Lexems bzw. des Lemmas völlig außer Acht gelassen.
Das Resultat zeigt lediglich die Formenvielfalt der Sprache, nicht aber die
Vielfalt des Vokabulars.
Identifikation
54
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
ii) Es werden unterschiedliche Lexeme betrachtet. Diese Methode
führt zu komplexen qualitativen Problemen. Die Daten müssten zuvor
adäquat vorbereitet werden (von Hand oder mit Hilfe von Programmen).
Diese Vorbereitung aber hängt von der linguistischen Schule ab, die die
untersuchende Person genossen hat. Demzufolge können Probleme folgender
Art entstehen:
a)
Im Deutschen sind die unbestimmten Artikel ein, eine, einer,
eines vereinigt in dem Lexem ein. Wie verhält es sich dann mit
den bestimmten Artikeln der, die, das oder den dazugehörigen
Pronomen er, sie, es?
In der vorliegenden Arbeit wird mit diesen Erscheinungen folgendermaßen
umgegangen: die unbestimmten Artikel werden beim Vorgang der
Lemmatisierung nur durch die Wortform ein lemmatisiert, ungeachtet
dessen, ob es sich um einen femininen, neutralen oder maskulinen Artikel
handelt. Der Kasus ist immer im Nominativ. Die bestimmten Artikel werden
lediglich unterschieden nach Singular (d) und Plural (d-p). Getaggt wird in
Fällen des unbestimmten und des bestimmten Artikels immer mit ART. Die
Pronomen er, sie, es wurden im Zuge der Lemmatisierung unterschieden
nach Geschlecht und auch sie erhalten das entsprechende Lemma in der
Nominativ-Form mit der jeweiligen Genuszuweisung. Daraus ergeben sich
als mögliche Lemmata nur die Formen ich, du, er, sie, es, wir, ihr und sie.
Alle anderen Wortformen, wie z. B. ihm oder mich werden ebenso in ihrer
Nominativ-Form lemmatisiert. Getaggt wurden solche Pronomen je nach
Kontext als irreflexives Personalpronomen, also PPER oder als reflexives
Personalpronomen (PRF).
b)
Wie geht man um mit analytischen Konstruktionen wie am
schönsten, was in diesem Fall den Superlativ eines Adjektives
darstellt, dessen andere Formen synthetisch sind?
In der vorliegenden Arbeit kann dieses Problem ebenfalls durch die Struktur
der STTS gelöst werden. Für eine solche Konstruktion gibt es klar abgegrenzte
POS-Tags. So wird das Tag PTKA für Partikeln in Verbindung mit Adjektiven
im Superlativ genutzt, also in diesem Falle für am. Handelt es sich bei am um
eine Präposition, würde es mit APPRART getaggt werden. Zudem behält am
(PTKA) nach der Lemmatisierung die Wortform am, während die Präposition
am zu an würde, weil es sich in diesem Fall um die Präposition an + Artikel
handelt. Der Superlativ schönsten wird nach der Lemmatisierung in seiner
Grundform schön notiert und erhält das POS-Tag (ADJA bzw. ADJD).
4.1. METHODIK
c)
55
Wie kann das Problem von Verbformen wie in „ich werde gelobt
werden“. gelöst werden? Handelt es sich hierbei um zwei
Lemmata, drei oder sogar vier?
Diese Verbform tritt in den zu analysierenden Daten dieser Arbeit nicht auf,
wodurch das oben genannte Problem irrelevant ist. Für den hypothetischen
Fall, dass die aufgeführte Verbform mit Hilfe der STTS getaggt werden würde,
ergäbe sich folgende Kennzeichnung: ich (PPER) werde (VAFIN) gelobt
(VVPP) werden (VAINF/VVINF). Die dazugehörigen Lemmata wären: ich (ICH)
werde (WERDEN) gelobt (LOBEN) werden (WERDEN). Würde an dieser Stelle
nur lemmatisiert werden, könnte dies durchaus ein Problem bei der späteren
Zuordnung der Lemmata zu den entsprechenden Wortformen geben. Da die
jeweiligen POS-Tags jedoch immer mit den Wörtern und den Lemmata in der
Datenbank (Kapitel 5) verknüpft sind, ist eine spätere Zuordnung möglich.
In der Datenbank wäre leicht erkennbar, dass das erste Lemma WERDEN
das Tag VAFIN besitzt und das letzte Lemma WERDEN das Tag VAINF bzw.
VVINF.
d)
Wie geht man mit dem Problem der Homonymität um, welches
durch ein Programm leicht verdeckt bzw. nicht erfasst werden
kann, z. B. der Artikel ein, die Zahl ein und das Präfix ein (ich trat
ein).
Auch dieses Problem kann unter der Verwendung der STTS und seinen
POS-Tags nicht auftreten. Der Artikel wird getaggt mit ART, die Zahl wird
getaggt mit CARD und für das Präfix gibt es das Tag PTKVZ. Das Taggen
erfolgt selbstverständlich immer von Hand. Würde es automatisiert werden
können, wäre eine solch genaue Bezeichnung sicher (noch) nicht möglich.
Diese Methode erfolgt - zumindest unter diesen Umständen - auf einer
syntaktischen Basis, was im Grunde den Zielen dieser Arbeit widerspricht. Da
jedoch die STTS die Basis der Wortartenbestimmung bilden, muss in diesen
Fällen von einer rein lexikalisch basierten Wortartenbestimmung abgesehen
werden.
Wie kann das Problem femininer Formen3 von Nomen gelöst
werden, z. B. beau und belle oder actore and actrice?
e)
Die Verwendung von Nomen in der femininen respektive maskulinen Form
stellt auch in der vorliegenden Arbeit zum Teil ein Problem dar. In fast allen
3
An dieser Stelle möchte ich darauf hinweisen, dass diese Problemstellung, wie schon erwähnt,
von Wimmer (2005) formuliert wurde. Selbstverständlich stellen feminine Formen kein Problem dar und
meiner Meinung nach wäre es ebenso möglich, die maskulinen Formen im Zusammenhang mit dem
Taggen zu problematisieren. Da dies jedoch eine gesonderte Diskussion unter Berücksichtigung von
Genderaspekten erfordern würde, möchte ich hier nicht näher darauf eingehen.
56
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Fällen handelt es sich dabei um Nomen, die entweder nur in der einen oder
in der anderen Variante verwendet wurden. Es wurde das Wort Erzieherin
geäußert, nicht aber Erzieher. Oder es kam zu Äußerungen wie Krieger, nicht
aber Kriegerin. In diesen Fällen, in denen also die Verwendung der femininen
oder maskulinen Form möglich ist, aber nur eine Form genutzt wurde, wurde
diese Form auch nach der Lemmatisierung beibehalten.
Hinsichtlich der Interpretation
suggeriert Wimmer zwei Möglichkeiten:
Interpretation
der
Type-Token-Ratio
i) Das Verhältnis ist charakteristisch für die Vielfalt des Wortschatzes eines
Textes.
ii) Das Verhältnis ist ein Modell des Informationsflusses im Text.
Der erste Fall (i) ist nur möglich, wenn die Type-Identifikation laut Punkt
ii) (Abschnitt 4.1) stattgefunden hat. Wenn man annimmt, dass dies so
geschehen ist, dann wird das Verhältnis der Types zu den Tokens durch einen
Index oder eine Kurve charakterisiert werden. Es ist zudem bekannt, dass mit
steigender Textlänge das Ansteigen neuer Wörter verlangsamt ist. Folglich
müssen die Indizes relativiert werden und diese Umstände veranlassen
die Entwicklung von immer neuen Indizes oder einer Transformation
bereits bestehender Indizes, so Wimmer. Demnach seien einige Indizes
irrelevant. Dies betreffe auch Graphen, die das Ansteigen neuer Wörter
beschreiben (dargestellt in ihrer logarithmischen Form). Aufgrund dieser
Mathematisierung würde man sich in einigen Fällen der Unendlichkeit
nähern, was linguistisch gesehen nicht möglich ist. Wimmer erläutert, dass
Mathematiker daraufhin Abhilfe schafften und eine Annäherung gegen einen
finiten Wert erlangten. Eine Möglichkeit war es, den Graphen einfach an
der Stelle abzubrechen, an welcher der Text zu Ende ist. Dieser Vorgang
wurde dann als Vielfalt des Wortschatzes eines Autors bezeichnet. Tatsache
sei jedoch, so Wimmer, dass sich alle Texte eines Autors unterschiedlichen
Punkten nähern. Folglich sei jegliche Prognose illusorisch. So kenne jede
erwachsene Person fast alle Wörter ihrer Sprache, auch wenn sie diese nicht
alle verwendet. Der Unterschied bestehe in einigen tausend Wörtern, die
man nur in speziellen Wörterbüchern findet. Um ihre Hypothese zu stützen
nehmen Mathematiker an, dass der Punkt der Annäherung die Anzahl jener
Wörter meint, die der Autor für seine eigenen Zwecke einbaut, um seinen
Text zu schreiben. Wimmer (2005) steht dieser Behauptung mit Skepsis
gegenüber und betitelt die Bezeichnung der Type-Token-Ratio als eine
Messung der Wortschatzvielfalt als Fehlbezeichnung. Bestenfalls könne die
4.1. METHODIK
57
Type-Token-Ratio als Messung der Wortschatzvielfalt in einem Text fungieren
([Wimmer (2005)], S. 362).
Laut Wimmer ist Fall ii) korrekt. In ihrer Begründung zu dieser Entscheidung
schreibt sie, dass in einem Text immer Information übermittelt wird. Eine
Möglichkeit dies zu tun, sei es, neue Wörter einzubringen oder alte
Wörter auf unterschiedliche Weisen zu kombinieren. In didaktischen
Texten fließe die Information langsamer, weil Wiederholungen notwendig
sind; in lyrischen Texten hingegen fließe die Information schneller, weil
Wiederholungen vermieden werden. Ein Transfer der Information bedeute,
dass der Sprecher oder Schreiber ein Wissenssystem in den Hörer
einbaut, das dem eigenen sehr ähnlich ist und das zwei Dinge benötigt Inputerhaltung und Inputinformation. Die Inputerhaltung besteht laut Wimmer
aus Wiederholungen bekannter Wörter oder ihrer Rekombinationen, die
lediglich die Anzahl der Tokens erhöhen. Die Inputinformation erhöht die
Anzahl der Types, schafft neue Beziehungen im Wissensystem und erweitert
es. Folglich sei die Erhaltung regulierend und stabilisierend, die Information
selbstorganisierend.
Trotz der Kritik Wimmers, Möglichkeit i) der Interpretation sei zu einigen
Teilen Unsinn, wird sie (zumindest teilweise) in dieser Arbeit angewendet.
Allerdings muss betont werden, dass die untersuchten Daten vorher adäquat
aufbereitet wurden - sowohl von Hand als auch mit Hilfe von Programmen.
Sofern dies geschehen ist, ist laut Wimmer auch eine Interpretation nach
Möglichkeit i) zulässig.
Hinsichtlich der Messung der Type-Token-Relation zeigt
Wimmer (2005) drei Methoden auf:
i) Der Position jedes Tokens (x) wird die Anzahl der Types (y) bis zu dieser
Position zugeordnet.
Dies sei die gebräuchlichste Methode, die wiederum einen monoton
steigenden Graphen generiert (<token, type>).
ii) Das Dividieren der Anzahl der Types bis zur Position x durch die Position
selbst.
Dies ergebe eine monoton fallende Funktion (<token, type/token>).
iii) Die Köhler-Galle-Methode ([Köhler und Galle (1993)])
Messung
T T Rx =
tx + T −
N
xT
N
wobei: x = Position im Text (Anzahl von Tokens bis zu dieser Position x),
58
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
tx = Anzahl von Types bis zur Position x (inkl.), T = Anzahl von Types im
gesamten Text, N = Textlänge (Anzahl von Tokens im gesamten Text); <x,
TTRx>.
Methode i) ist für die zu analysierenden Daten dieser Arbeit nicht
praktikabel, da es sich um annähernd 30.000 Tokens handelt.4 Auch Methode
iii) erschien für die hier vorliegenden Daten nicht passend zu sein, da es sich
um gesprochene Daten handelt, die nur schwer in eine bestimmte Textlänge
umgerechnet werden können. Vielmehr wurde aus praktikablen Gründen
Methode ii), wenn auch in abgewandelter Form, durchgeführt.
Wimmer beschreibt drei Annäherungen,
um die Type-Token-Ratio eines Textes zu beschreiben:
Entwicklung und Modellierung
1)
Entwurf eines Index’, der den Wortschatz eines Textes beschreibt.
In der Mehrheit werde dabei die Lexemanzahl und die Textlänge
(Token-Anzahl) berücksichtigt. Aber auch eine spezielle
Häufigkeitsklasse (z. B. Hapax Legomena) oder die gesamte
Verteilung der Lexeme können Berücksichtigung finden. Dieser
Art sind beispielsweise die Arbeiten von Ejiri et al. (1993) oder
Yule (1944), so Wimmer ([Ejiri und Smith (1993)]; [Yule (1944)]).
2)
Entwurf eines Graphen, der den Informationsfluss eines Textes
erfasst.
3)
Ausgehend von einem statistischen Prozess werden neue
Wörter generiert und die Ergebnisse für unterschiedliche Zwecke
verwendet (Wortschatzreichtum, Prognosen, Type-Token-Ratio,
Häufigkeitsverteilungen).
Tatsache sei, dass all diese Hinweise, Graphen, Verteilungen etc. akzeptabel
sind. Problematisch ist das, was wir erfassen wollen und welche theoretische
Tiefe wir erreichen möchten ([Wimmer (2005)], S. 364).
Je nach verwendeter Methode müssen laut Kauschke (2000)
entsprechende Effekte berücksichtigt werden, die bei der Interpretation
zu Tage treten ([Kauschke (2000)], S. 83). Des Weiteren sollte vor
allem aufgrund unterschiedlicher Methoden von einem Vergleich mit den
Ergebnissen anderer Studien Abstand genommen werden. Demzufolge sei
die TTR besonders der Sprechfreudigkeit sowie der allgemeinen Produktivität
4
Eine beispielhafte Übersicht findet sich in dem von Wimmer (2005) verfassten Paper
([Wimmer (2005)], S. 363).
4.1. METHODIK
59
des jeweiligen Kindes unterworfen, wodurch es zu Einbußen bei der
Aussagegenauigkeit kommen kann.
Trotz aller Kritik an der Berechnung der TTR soll diese in der vorliegenden
Arbeit im weiteren Verlauf zu einem kleinen Teil ermittelt werden (Abschnitt
6.2.3). Zum einen aus purer Neugier meinerseits, welche Ergebnisse zu Tage
treten; zum anderen bin ich daran interessiert, ob sich bei den Kindern in den
drei Altersguppen Unterschiede auftun.
In Bezug auf qualitative Beschreibungen des kindlichen Lexikons wurde
in Kapitel 3 bereits auf die Wortarten eingegangen. Demnach beinhaltet
die Analyse qualitativer Aspekte in dieser Arbeit die Identifizierung jener
Wortarten, welche die Kinder im untersuchten Zeitraum verwendeten. Des
Weiteren wird im Anschluss daran eine Veranschaulichung der Verteilung
dieser Wortarten unter unterschiedlichen Gesichtspunkten vorgenommen. In
Kapitel 7 werden alle Lemmata nach semantischen Kriterien kategorisiert.
Zusätzlich wird im Abschnitt 7.2 eine Analyse der inhaltlichen Kategorien
Nomen, Verb, Adjektiv und Adverb sowie im Abschnitt 7.3 der Funktionswörter
vorgenommen. Abschließend wird ein Lexikon des Vorschulalters auf der
Basis aller zuvor getätigten Analysen erstellt.
4.1.1
Sprachaufnahmen
Um dem Anspruch dieser Arbeit gerecht zu werden und möglichst spontane
Sprache analysieren zu können, führte der Weg zum Erhalt der Sprachdaten
in eine Kindertagesstätte. Einzelgespräche im Labor oder auch in der Kita
selbst wurden bereits im Vorfeld ausgeschlossen, da solche Situationen oft
unnatürlich sind und Kinder sich oft anders verhalten als im natürlichen Alltag.
Vor den eigentlichen Aufnahmen wurden die Eltern an einem Elternabend
über das Vorgehen informiert. Aus rechtlichen Gründen mussten alle Eltern,
die sich zu diesen Aufnahmen bereit erklärten, eine Einverständniserklärung
unterschreiben. Insgesamt haben die Eltern von 16 Kindern die Erklärung
unterschrieben. Von diesen 16 Kindern konnten 12 zur Auswertung
herangezogen werden. Gründe für einen Ausschluss der Daten waren
beispielsweise zu leise oder zu kurze Aufnahmen. Äußerten sich Kinder im
Zeitraum der Sprachaufnahmen gar nicht, dann wurden auch diese nicht
in die Auswertung einbezogen. Die Aufnahmen begannen am 15.09.2009
und endeten am 28.04.2010. Sie fanden jeweils einmal wöchentlich für circa
zwei Stunden in der Kita statt. Die Interviewerin stellte sich den Kindern
vor und fungierte nach Außen wie eine neue Erzieherin oder Praktikantin.
Auf Nachfragen einiger Kinder nach dem Grund meines zweistündigen
Besuchs wurde diesen kurz der Ablauf der Aufnahmen erläutert. Keines der
60
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Kinder wirkte daraufhin gehemmter in seinen Ausführungen. Es schien, als
seien die Erläuterungen der Interviewerin eher unwichtig und waren schnell
vergessen. Des Öfteren wurde die Interviewerin als betreuende Person
wahrgenommen, was darauf schließen lässt, dass sich die Kinder spontan
verhielten und folglich spontane Sprache verwandten. In den zweistündigen
Besuchen spielte die Interviewerin meist mit mehreren Kindern, zum Teil
auch gleichzeitig. Dies führte dazu, dass die Kinder oft gleichtzeitig sprachen
und sich die Transkription der Aufnahmen sehr mühselig und zeitaufwendig
gestaltete. Doch nur auf diese Weise war gegeben, dass sich die Kinder
möglichst spontan und ungezwungen verhielten. Ein weiterer Nachteil der
natürlichen Aufnahmesituation war, dass sich auch Kinder an den Aufnahmen
beteiligten, die von Seiten der Eltern aus nicht aufgenommen werden
durften. Diese Daten mussten in einem sehr zeitaufwendigen Verfahren im
Anschluss wieder aus den Aufnahmen gelöscht werden. Die unten stehende
Übersicht zeigt alle Aufnahmen, verbunden mit einer Beschreibung der
Situation während der Aufnahme sowie dem Aufnahmedatum. Die einzelnen
Aufnahmebezeichnungen sind hier bereits nach Kindern aufgeschlüsselt, so
dass erkennbar ist, welche Kinder tatsächlich Redeanteile haben. Insgesamt
konnten auf diese Weise circa 40 Stunden auswertbares Audiomaterial
gesammelt werden. In der späteren Auswertung wurden alle Kinder in
sogenannte Altersgruppen eingeteilt. In Gruppe 1 befinden sich alle Kinder
mit einem Alter von ca. 3;5 bis 4;1 Jahre. Gruppe 2 umfasst die Kinder von
über 4;1 bis 4;7 Jahren und Gruppe 3 umfasst alle Kinder von über 4;7 bis
5;5 Jahren. Für die weitere Arbeit erhalten die Gruppen die Bezeichnungen:
Gruppe 1281_1495 (Gruppe 1), Gruppe 1496_1708 (Gruppe 2) und Gruppe
1709_1983 (Gruppe 3). Die Bezeichnung der Zeiträume mittels der Angabe
in Tagen beruht auf der intensiven Arbeit mit spezieller Software sowie einer
Datenbank, die jeweils mit diesen Angaben arbeiten (Kapitel 5). Um keine
Unstimmigkeiten aufkommen zu lassen, sollen diese Bezeichnungen auch im
weiteren Verlauf beibehalten werden.
Nummer der Aufnahme
Beschreibung des Kontextes zum Zeitpunkt
Datum der Aufnahme
der Aufnahme
009_AV, 009_MM
Gespäch mit AV und MM
15.09.2009
011_MM
Karten spielen mit MM
15.09.2009
013_JS, 013_RD
Im Sandkasten mit JS und RD
15.09.2009
015_MK, 016_MK, 017_MK
Im Garten mit MK
15.09.2009
019_JS, 019_LEO, 019_MK,
Im Garten mit JS, RD, MK und LEO
15.09.2009
019_RD
4.1. METHODIK
Nummer der Aufnahme
61
Beschreibung des Kontextes zum Zeitpunkt
Datum der Aufnahme
der Aufnahme
020_LAR, 020_MM, 020_SO,
LAR, MM, SO und IV spielen Halli Galli
22.09.2009
022_LAR, 022_MM
Gespräch mit LAR und IV
22.09.2009
023_MK, 023_JS, 024_LUA,
MK und LUA spielen Bauernhof; spielen mit
29.09.2009
024_MK, 025_LUA
Steinen; spielen Ritterburg
026_LUA, 026_MK, 027_AV,
MK spielt Bauernhof; später Imbiss
06.10.2009
031_AV, 031_JS, 031_LAR,
Zuerst spielen mit MM, LAR und SO, später
20.10.2009
031_MK, 031_MM, 031_SO
auch mit MK, KO und FLO (KO und FLO dürfen
021_LAR
027_LUA, 027_MK, 030_LUA,
030_MK
nicht aufgenommen werden). Ab und zu spielen
RD und JS mit. Am Ende der Aufnahmen reden
vorwiegend MM und KO und FLO.
033_JK, 033_JS, 033_MK,
MK, ET (wird sehr früh abgeholt) spielen Löwe.
033_RD
Später kommt JK dazu und spielt „telefonieren“.
27.10.2009
RD und JS spielen „Papiermaschine“.
036_JS, 036_LAR, 036_LEO,
Memory spielen mit MM, einer Erzieherin,
036_LL, 036_LUA, 036_MK,
später auch mit OZ (darf nicht aufgenommen
036_MM, 036_RD
werden). Uno spielen mit MK, dann mit MM.
17.11.2009
Lego spielen mit LAR.
038_JK, 038_LL, 038_MK
MM, LL spielen Memory. Danach Versteckspiel
01.12.2009
mit MM und LL. Später spielen andere Kinder
Autobahn.
039_AV, 039_JK, 039_JS,
Malen mit MA, LEO. Kinder gucken
039_LEO, 039_MA, 039_MK
zwischendurch immer wieder zum
08.12.2009
Vogelhäuschen, das draußen vor dem Fenster
ist. Danach Bücher angucken.
040_JK, 040_JS, 040_LAR,
MK erzählt, dass er gerade bastelt. Memory
040_LL, 040_MK, 040_MM,
spielen mit MM, LAR, SO (steigt früh wieder aus
040_RD, 040_SO
dem Spiel aus). Danach andere Spiele. Ab ca.
15.12.2009
01:00.00 spielen auch RD und JS mit.
041_AV, 041_JS, 041_LAR,
Kinder malen mit Glitzerfarbe und Kreide. MM
041_LEO, 041_MK, 041_MM,
hat sich gestoßen. Spielen mit LAR, MM und AV
041_RD, 041_SO
(Memory). Danach Malen. Vorlesen mit MK und
LEO.
05.01.2010
62
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Nummer der Aufnahme
Beschreibung des Kontextes zum Zeitpunkt
Datum der Aufnahme
der Aufnahme
042_JS, 042_LEO, 042_LUA,
MK erzählt, welches Tier er gerade ist. LEO und
042_MK, 042_MM
MK spielen Käpt’n Sharky. Uno spielen mit MK.
12.01.2010
Danach Spiel mit Magneten.
043_AV, 043_JK, 043_JS,
RD und JS haben ein „Mensch ärgere dich
043_LUA, 043_MK, 043_RD,
nicht“-Spiel gebastelt und spielen dieses
044_AV, 044_JK, 044_JS,
zusammen mit MK. Andere Kinder malen mit
044_LEO, 044_MK
Glitzerfarbe.
045_JK, 045_JS, 045_LEO,
MK und LUA sprechen zu Beginn der
045_LUA, 045_MK, 045_MM,
Aufnahme. MK zeigt mir eine Schneekugel. Wir
046_LUA, 046_MK
legen Stifte auf eine Waage, um
19.01.2010
26.01.2010
auszuprobieren, wann Gleichgewicht herrscht.
Memory spielen mit MM, JK, JS, RD und MK.
Gespräche beim Imbiss. Spiel mit Magneten mit
MK.
047_AV, 047_JK, 047_JS,
Spielen mit AV, MK, LEO. Danach spielen mit
047_MK, 047_MM, 047_RD
RD, JS, JK und LEO (Memory). Kneten am
02.02.2010
Tisch.
048_AV, 048_JK, 048_JS,
AV malt ein Bild für mich und zeigt mir danach
048_LEO, 048_MA, 048_MK,
ihre Foto-Mappe. JS, RD und JK spielen Frisbee
048_RD
im Flur. Die Kinder zeigen mir verschiedene
09.02.2010
Sanduhren (vor allem MK und LEO).
049_JK, 049_Mk, 050_JK,
Anfangs spielen MK und JK mit Baufix. Kurzes
050_JS, 050_LEO, 050_LUA,
Spiel mit JS, LEO und JK. Danach spielen alle
050_MK, 050_RD
Kinder durcheinander „Nicht den Boden
17.02.2010
berühren“.
051_LUA, 051_MK
Spielen mit MK, JK, RD und JS. Andere Kinder
24.02.2010
toben umher. Türme bauen mit JK.
052_AV, 052_JS, 052_LEO,
MM, LL, SO und LAR basteln Perlenketten.
052_LL, 052_LUA, 052_MK,
Memory spielen mit MM. Malen mit AV. Buch
052_MM, 052_RD, 052_SO
ansehen mit MK, RD, JS und LEO.
03.03.2010
Zwischendurch spricht LUA.
053_AV, 053_JS, 053_LEO,
MM, SO und LAR basteln Perlenketten. Memory
053_LUA, 053_MK, 053_RD
spielen mit MM. Zwischendurch spricht LUA.
Später malen mit AV. Imbiss: AV, MK und LUA
erzählen.
10.03.2010
4.1. METHODIK
Nummer der Aufnahme
63
Beschreibung des Kontextes zum Zeitpunkt
Datum der Aufnahme
der Aufnahme
054_AV, 054_JK, 054_LEO,
AV, MK, LUA, MM, SO, LAR, LL und andere
054_LUA, 054_MK
Kinder befinden sich im Raum. Malen mit AV
17.03.2010
und MK. LUA und MK führen ein „Theaterstück“
auf. Die anderen Kinder und ich schauen zu.
Danach wieder malen mit AV. Imbiss: AV, MK
und LUA erzählen.
055_AV, 055_JS, 055_LEO
JS und LEO zeigen mir Tiere in einem Buch.
24.03.2010
Kissenschlacht. Danach machen die eben
genannten und weitere Kinder ein
„Farben-Formen-Aktionsspiel“. Imbiss: AV, SO,
LAR, LL und MM erzählen.
057_AV, 057_LEO, 057_LUA,
Malen mit AV. Mit im Raum befinden sich MK,
057_MK, 057_MM
LUA, LEO, MM, MA, SO, LL und LAR, die ab
14.04.2010
und zu reden. Danach bastelt MK ein Spiel.
Versteckspielen mit MK, LUA und LL. Imbiss:
LEO und RD erzählen.
058_AV, 058_JS, 058_LEO,
Im Garten. Ich gucke zu, wie JS und FLO (darf
058_LL, 058_LUA, 058_MK
nicht aufgenommen werden) Fußball spielen.
28.04.2010
AV und LUA klettern. Später Gespräch mit LUA.
4.1.2
Die Probandinnen und Probanden
Tabelle 4.2 veranschaulicht die Zusammensetzung der Gruppe der
Testpersonen (untersuchte Kinder).
Unter den insgesamt 12 untersuchten Kindern befanden sich 5 Jungen
und 7 Mädchen. Aufgrund der Struktur der Geburtsdaten wird ersichtlich,
dass die meisten Kinder im Jahr 2004 geboren sind. Dies ist ein Grund
dafür, weshalb es nur sehr wenige Aufnahmedaten von Dreijährigen gibt,
da die Aufnahmen in der Zeit zwischen September 2009 und April 2010
liegen. Weiterhin haben alle Kinder unterschiedliche Redeanteile, was durch
das Ziel der Arbeit, möglichst spontane Daten zu erhalten, nicht anders
gehandhabt werden konnte. Im Verlauf der Arbeit sollen einerseits die
Sprachdaten aller Kinder insgesamt und andererseits die Sprachdaten in
einer Aufteilung in drei Altersgruppen (siehe dazu Kapitel 6) untersucht
werden. Eine Einteilung in drei Altersgruppen erschien vorab sinnvoll, um
eventuell auftretende Entwicklungsunterschiede aufzeigen zu können. Bisher
ist nicht bekannt, ob es in der Altersspanne von 3;5 bis 5;5 Jahre sprachlich
64
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
auffällige Entwicklungsschritte gibt. Anhand von Altersgruppen sollen diese
Schritte - sofern sie auftreten - festgehalten werden können. Anschließend
soll überprüft werden, ob es individuelle Unterschiede in der Komposition des
Lexikons gibt. Aus diesem Grund werden die Daten aller Kinder auch einzeln
analysiert und interpretiert.
Tabelle 4.2 enthält ferner Angaben zu den Eltern (Alter und Beruf), zu
den Geschwisterkindern sowie zu möglichen Zweitsprachen (dies ist bei nur
einem Kind der Fall). Ich habe diese Angaben hier aufgeführt, da bekannt ist,
dass derartige soziolinguistische Aspekte Einfluss auf die Sprachentwicklung
und in diesem Fall auch auf die Wortschatzstruktur der untersuchten Kinder
haben können. Es ist nicht verwunderlich, dass die meisten Eltern der hier
untersuchten Kinder entweder studieren oder in einem Beruf arbeiten, der
ein Studium erfordert, handelt es sich doch bei der Untersuchungsstätte um
die Kindertagesstätte einer Universität. Zwar können keine Angaben gemacht
werden zum ökonomischen Status der Eltern, doch kann wohl von einem
ausgeprägten akademischen Umfeld gesprochen werden.
Bereits Hetzer et al. (1928) untersuchten die Auswirkungen der
Niveauunterschiede auf die erste Entwicklungsphase des Spracherwerbs
und fanden auf diversen Gebieten der Sprache einen Rückstand von 3
bis 6 Monaten. Kinder aus sozial höher stehenden Schichten würden
früher eine größere Anzahl sinnvoller Wörter verwenden und mehr Zweiund Dreiwortsätze äußern. Die dabei angesprochene Altersgruppe betrifft
jüngere Kinder bis zu einem Alter von 2;6 Jahren, weshalb keine Parallelen
zu den hier untersuchten älteren Kindern gezogen werden können
([Hetzer und Reindorf (1928)]). Laut Oksaar (1987) vergrößern sich diese
Unterschiede sogar mit zunehmendem Alter ([Oksaar (1997)], S. 112).
Es kann deshalb angenommen werden, dass die Elternschaft und somit
die Familienstruktur in allen Fällen mindestens der (oberen) Mittelschicht
angehört.
Neben dem sozioöknomischen Status können relativ genaue Angaben
über die Familienstruktur vorgenommen werden, insbesondere was die
Geschwisterkinder angeht. Bis auf zwei Kinder haben alle Kinder mindestens
ein Geschwisterkind (ein Kind bleibt ohne Angabe). Der Einfluss der Größe
der Familie auf den Spracherwerb wurde schon früh von Stern&Stern
(1928, 1965) untersucht, die ermittelten, dass das Vorhandensein älterer
Geschwister die sprachliche Entwicklung vorantreibt ([Stern und Stern (1928)];
[Stern und Stern (1965)], S. 293 f.). McCarthy (1954) hingegen fand heraus,
dass Kinder, die vorwiegend mit Erwachsenen verkehren, die schnellste
sprachliche Entwicklung vorweisen können. Einzelkinder (insbesondere
Mädchen) seien dabei in allen Aspekten am weitesten fortgeschritten
4.1. METHODIK
65
([McCarthy (1954)]). In der vorliegenden Arbeit wurden derartige Einflüsse
nicht untersucht. Ein Grund dafür war, dass das Sprachverhalten aller Kinder
keinen Anlass zu einer Untersuchung des Einflusses der Geschwisterkinder
auf die Sprachentwicklung gab. Zudem befinden sich alle Kinder in einem
weitaus fortgeschrittenem Stadium des Spracherwerbs, so dass ein Urteil
nicht eindeutig wäre.
Ein weiterer wichtiger Punkt, vor allem für die Analyse der Daten dieser
Arbeit, ist der Umgang mit gleichaltrigen Kindern als soziolinguistisches
Merkmal, das auch Oksaar (1987) anführt. Ab dem vierten Lebensjahr
wird demnach der Kontakt zu anderen Kindern zu einem wichtigen Faktor,
der sich in der sprachlichen Entwicklung niederschlägt. Hierbei haben
Kindertagesstätten eine bedeutende Rolle. Das Kind erfährt eine soziale
Interaktion im Spiel und erhält gleichzeitig die Verhaltensstärkung von
Erwachsenen. Beide Faktoren sind für die hier untersuchten Kinder von
Bedeutung. Die Kind-Kind-Interaktion ist neben der Familieninteraktion laut
Oksaar einer der wichtigsten Einflussfaktoren auf die sprachliche Entwicklung
sowie auf andere Verhaltensweisen ([Oksaar (1997)], S. 117). Gleason
et al. (1973) konnten zum Beispiel zeigen, dass die Sprechweise in der
Kommunikation von Kindern sehr variieren kann, je nachdem, ob das Kind
mit einem Erwachsenen oder einem anderen Kind spricht ([Gleason (1973)]).
Eine derart variierende Kommunikation wurde hier zwar nicht untersucht, alle
Kinder sprachen jedoch vorwiegend mit Gleichaltrigen bzw. befanden sich
stets in einer sozialen Interaktion (z. B. im Spiel) mit anderen Kindern. Das
soziolinguistische Merkmal Geschlecht soll in der vorliegenden Arbeit nur kurz
erwähnt werden. Wie bereits angeführt, wurden 5 Jungen und 7 Mädchen
in die Analyse miteinbezogen. Aufgrund der unterschiedlichen Redeanteile
ist es nicht sinnvoll, nach Unterschieden im Wortschatz zwischen Jungen
und Mädchen zu suchen. Frühere Studien lassen zudem vermuten, dass
zu einem derart frühen Zeitpunkt der Sprachentwicklung keine signifikanten
Unterschiede erkennbar sind. Nach Oksaar (1987) finden sich nur geringe
Geschlechtsunterschiede für die Vorschulzeit zugunsten der Mädchen, wobei
diese Untersuchungen auf einer Reihe amerikanischer Untersuchungen der
dreißiger und vierziger Jahre beruhen. Demnach fangen Mädchen früher
an zu sprechen, verfügen über einen größeren Wortschatz und verwenden
längere Sätze. Diese Unterschiede seien allerdings stärker bei Kindern aus
niedrigen sozioökonomischen Gruppen beobachtet worden. Alle signifikanten
Unterschiede bei Mädchen seien erst ab einem Alter von 5;0 Jahren sichtbar
([Oksaar (1997)], S. 118-120). Da die hier untersuchten Kinder zum Zeitpunkt
der Datenerhebung maximal 5;5 Jahre alt waren, ist eine Untersuchung im
Hinblick auf Geschlechtsunterschiede vermutlich wenig aufschlussreich und
66
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
soll deshalb nicht durchgeführt werden.
4.1.3
Diktiergerät
Das Diktiergerät, welches für die Aufnahmen im Kindergarten benutzt
wurde, war ein Gerät der Marke Philips. Mit dem Philips Voice Tracer
DVT 860 konnten Aufnahmen im MP3-Format erstellt werden. Das
MP3-Format ist im Gegensatz zum Wave-Format besonders geeignet, weil
wenig Speicherplatz benötigt wird. Dadurch konnten mehrere Stunden
Audiomaterial am Stück aufgenommen werden, ohne den Speicher
zwischendurch entleeren zu müssen. Für weitere Informationen verweise
ich auf die Bedienungsanleitung, die unter folgendem Link erreichbar ist:
http://download.p4c.philips.com/files/l/lfh0660_00/lfh0660_00_dfu_deu.pdf
(zuletzt besucht am 20.08.2015).
4.1.4
Transkription der Daten mit FOLKER
Für die im Anschluss an die Aufnahmen geleistete Transkription, wurde
das Transkriptionsprogramm FOLKER5 verwendet. Die insgesamt 39
Aufnahmen wurden einzeln in FOLKER importiert und die Sprechpassagen
nacheinander transkribiert. Dieser Teil der Arbeit stellte sich als besonders
zeitaufwendig heraus, da die meisten Kinder, wie schon erwähnt, oft
durcheinander oder undeutlich sprachen. Die Transkription erfolgte unter
Beachtung der Transkriptionsregeln6 nach FOLKER in Schriftsprache.
In FOLKER werden grundlegend cGAT-Minimaltranskripte erstellt,
die eine leichte Abwandlung zu GAT-2-Minimaltranskripten darstellen
([Selting (2009)]). Laut Transkriptionshandbuch ist eine Abwandlung
der GAT-2-Minimaltranskripte zu cGAT notwendig, weil nur so die
FOLKER-Transkripte regelrecht computergestützt weiterverarbeitet werden
können ([Schmidt und Schütte (2011)], S. 34). In den cGAT-Transkripten
sind folgende Einheiten enthalten ([Schmidt und Schütte (2011)], S. 34 ff.;
Auswahl):
• (syntaktische) Wörter : werden als Folge von Kleinbuchstaben, die an den Grenzen
durch Leerzeichen unterbrochen sind, dargestellt (z. B. ich gehe nach hause).
Die Transkription kann nach orthografischen oder literarischen Gesichtspunkten
erfolgen. Zahlen werden immer ausgeschrieben, Abkürzungen (außer Akronyme) und
Bindestriche werden nicht verwendet. Infolgedessen werden Wörter, bei denen der
5
Auf den folgenden Seiten sind Informationen sowie eine Möglichkeit zum Download von FOLKER zu
finden: http://agd.ids-mannheim.de/folker.shtml (letzter Zugriff 18.12.2015).
6
http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch.pdf
(letzter
Zugriff
18.12.2015)
4.1. METHODIK
67
Bindestrich obligatorisch ist, als zwei Wörter transkribiert (z. B. baden württemberg).
Wörter, bei denen der Bindestrich optional ist, werden als ein Wort transkribiert (z. B.
bildzeitung).
• Verzögerungssignale: werden ausgeschrieben (z. B. äh ähm).
• Lachen, Weinen: wird entweder als Beschreibung ((lacht)), ((weint)) oder bei silbischem
Lachen entsprechend der verwendeten Silben als hahaha oder hihi etc. notiert.
• Rezeptionssignale: kommen in den Daten der vorliegenden Arbeiten gelegentlich vor.
Sie werden in Anlehnung an die Regeln der FOLKER-Transkription als hm, nee, nee_e,
ja_a etc. notiert. Bei der späteren Lemmatisierung (Abschnitt 4.1.8) werden zweisilbige
Signale wieder in ihrer einsilbigen Form notiert.
• Pausen: werden in den FOLKER-Dateien mit (.) für eine Mikropause (ca. 0,2 Sekunden
Dauer) bzw. als längere geschätzte Pause durch eine konkrete Angabe notiert (1.5).
Im FOLKER-Transkriptionshandbuch sind weitere Pausenarten angegeben; dazu
gehören eine kurze geschätzte Pause von 0,2 bis 0,5 Sekunden Dauer (-), eine
mittlere geschätzte Pause von 0,5 bis 0,8 Sekunden Dauer (- -) und eine längere
geschätzte Pause von 0,8 bis 1,0 Sekunden Dauer (- - -). Diese Pausenarten wurden
in den Daten der vorliegenden Arbeit nicht verwendet, da sie zum einen laut dem
Transkriptionshandbuch nicht vorzugsweise verwendet werden sollten und zum
anderen für die Zwecke dieser Arbeit nicht in erster Linie relevant waren. Hier werden
vordergründig die syntaktischen Wörter an sich betrachtet und diese werden zum
Erreichen der Ziele anschließend in den EXMARaLDA-Partitur-Editor (Abschnitt 4.1.6)
importiert und weiter verarbeitet. Alle Pausen sind ab diesem Moment hinfällig, weshalb
sie in erster Linie nur nebenbei gesetzt wurden.
• Nonverbales: wird nach den cGAT-Konventionen durch doppelte runde Klammern
gekennzeichnet, z. B. ((hustet)) oder ((unverständlich)). In Anbetracht der Wichtigkeit
der festgelegten Wörter, nicht aber nebensprachlicher Erscheinungen, wurden in dieser
Arbeit lediglich unverständliche Wörter mit ((unverständlich)) gekennzeichnet.
• Unverständliches: Ein unverständliches Wort kann nicht nur durch doppelte runde
Klammern gekennzeichnet werden. Insofern die Silbenanzahl erkennbar ist, kann diese
durch die Zeichenkette +++ (für eine Silbe) ++++++ (für zwei Silben) etc. dargestellt
werden.
Weitere Konventionen der cGAT-Minimaltranskription sind im FOLKER
Transkriptionshandbuch enthalten. An dieser Stelle sind nur jene Regeln
aufgeführt, die in dieser Arbeit Anwendung fanden. Ein Vorteil der
Transkription in FOLKER ist die automatische Korrektur der Syntax und der
zeitlichen Abfolge, die bei einer korrekten Durchführung durch grüne Häkchen
in den Spalten rechts angezeigt wird. Des Weiteren war es möglich, sich
überlappende Äußerungen in FOLKER kenntlich zu machen, indem der
zeitliche Start- und Endpunkt der Äußerungen identisch eingestellt wurden.
Passagen, in denen Kinder gleichzeitig sprachen und welche sich somit
überlappen, zeigt Abbildung 4.1 in den Zeilen 29 und 30, in denen MM und
68
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
LAR gleichzeitg gelb äußern. Das Ende einer Äußerung wird in FOLKER nicht
gekennzeichnet bzw. geht damit einher, dass das jeweilige Segment in der
jeweiligen Zeile endet und ein nächstes Segment in einer neuen Zeile beginnt.
Würde man beispielsweise ein Segmentende mit / oder // kennzeichnen
wollen, würde dies als Syntaxfehler angezeigt werden.
Abbildung 4.1: Folker-Datei: ic_a_31.flk
FOLKER-Dateien
können
in
unterschiedlichen
Html-Formaten7
ausgegeben sowie zur weiteren Bearbeitung in anderen Programmen
genutzt werden.8 Im Folgenden ist eine beispielhafte Erstellung einer
FOLKER-Transkription für diese Arbeit beschrieben:
Beispiel: Zuerst wird eine entsprechende Wave-Datei in das Programm FOLKER
importiert. Die zuvor im MP3-Format erstellten Audiodateien wurden zuvor mit einem
sogenannten Wave-Konverter in das entsprechende Format gebracht. Anschließend
werden einzelne Passagen von standardmäßig zwei Sekunden Länge angehört
und dann im Textfeld verschriftlicht. Neben jedem Textfeld wird außerdem das
Sprecherkürzel vermerkt. Anstelle von zwei Sekunden Länge können je nach
gesprochener Passage auch kürzere bzw. längere Passagen verschriftlicht werden.
Die Zeitspanne muss in diesen Fällen manuell verändert werden, da FOLKER
standardmäßig nur Intervalle von zwei Sekunden Länge vorgibt. Transkribiert
wurden in der vorliegenden Arbeit alle Audiodaten der Kinder, von denen die
7
https://de.wikipedia.org/wiki/Hypertext_Markup_Language (letzter Zugriff 22.10.2014)
In der vorliegenden Arbeit werden die in FOLKER transkribierten Dateien zur weiteren Analyse in
den EXMARaLDA Partitur Editor überführt (Abschnitt 4.1.6).
8
4.1. METHODIK
69
Einverständniserklärung der Eltern vorlag. Kinder, die nicht aufgenommen werden
durften, wurden nicht transkribiert bzw. später aus den Aufnahmen gelöscht. Die
Sprachdaten der Interviewerin wurden nur an den Stellen transkribiert, die für einen
inhaltlichen Zusammenhang (für eventuelle spätere Analysen) relevant sein könnten
und zum Textverständnis beitragen. Sie gehen nicht in die weitere Analyse mit ein.
In FOLKER war es allerdings lediglich möglich, solche überflüssigen Passagen zu
überspringen, nicht aber, diese auch zu löschen. Ein Grund dafür ist der, dass bei
tatsächlich gelöschten Passagen keine zeitliche Entsprechung zu den jeweiligen
Wave-Dateien mehr vorhanden wäre, wodurch ein Abspielen des Tons nicht mehr
gegeben wäre. Aus diesem Grund wurden alle überflüssigen Passagen im Anschluss
mit dem Programm AUDACITY9 bearbeitet.
.
9
AUDACITY ist ein Programm zur Bearbeitung und Aufnahme von Audiodaten. Nähere
Informationen sowie die Möglichkeit zum Download finden Sie unter folgender Adresse:
http://audacity.sourceforge.net/?lang=de (letzter Zugiff 18.12.2015).
70
4.1.5
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Bearbeitung der Audio-Dateien mit AUDACITY
Aus Gründen der anschließenden Analyse, aber auch aus Datenschutzgründen,
wurde in allen überflüssigen Passagen der Ton entfernt. Ein Ausschneiden
oder Löschen der Passagen war nicht möglich, da die FOLKER-Dateien in
diesem Fall nicht mehr mit den dazu gehörigen Wave-Dateien kompatibel
gewesen wären, was das Abspielen, Ansehen oder Bearbeiten der
FOLKER-Dateien unmöglich gemacht hätte. AUDACITY bietet die Möglichkeit,
einzelne Passagen mit einem sogenannten Silence-Modus zu versehen,
wodurch an den ausgewählten Stellen Stille erzeugt wird. Die FOLKER-Datei
ic_a_16.flk sieht im Programm Audacity nach der Bearbeitung entsprechender
Passagen mit dem Silence-Modus so aus:
Abbildung 4.2: Folker-Datei: ic_a_16.flk
Die grau markierte Passage (01m06.81s bis 01m26.75s) zeigt einen
Bereich, in welchem der Ton entfernt wurde. Dies stellt lediglich ein Beispiel
zur Veranschaulichung dar, alle weiteren überflüssigen Bereiche sind
im Beispiel aus Gründen der Übersichtlichkeit noch nicht grau markiert.
Da sich die Bearbeitung aller FOLKER-Dateien mit AUDACITY als sehr
aufwendig herausstellte, konnte ein OpenSource-Programm10 genutzt
10
Das Programm zur Korpusanalyse wurde für die Ziele dieser Arbeit von Alexander Mack
entwickelt und programmiert. Es ist als OpenSource-Programm unter folgender Adresse zu finden:
https://github.com/fiedler-mack/CorpusAnalyser. Eine genaue Beschreibung der einzelnen Funktionen
4.1. METHODIK
71
werden ([Mack (2014)], Kapitel 5, 5.2.1), welches durch einen Algorithmus
diese Passagen eigenständig entfernt. Nachdem alle Dateien auf diese
Weise bearbeitet wurden, fand ein erneuter Kompatibilitätstest mit den
dazugehörigen Wave-Dateien statt. Alle bearbeiteten Dateien waren weiterhin
abspielbar und standen demnach zur weiteren Bearbeitung zur Verfügung.
4.1.6
Bearbeitung der Transkripte mit dem EXMARaLDA Partitur-Editor
Nachdem eine geeignete Methode zur Bestimmung der Wortarten gefunden
war (Abschnitt 3.2.3), musste ein Bearbeitungsprogramm gefunden werden,
das die Bezeichnung der Wortarten (POS-Tags) mit den dazugehörigen
Wörtern und später auch Lemmata vereint. FOLKER stellte sich dafür als
ungeeignet heraus. Mit dem Programm selbst können zwar Transkripte
erstellt und zu Text- und Html-Dateien exportiert werden, eine weitere
Bearbeitung ist allerdings nicht möglich. Der EXMARaLDA Partitur-Editor11
erwies sich hingegen als geeignet. Laut den Entwicklern ist der Editor
nicht nur zum Datenaustausch mit vielen anderen Systemen kompatibel,
sondern erlaubt eine Analyse der Wortarten unter unterschiedlichen
Transkriptionskonventionen:
„EXMARaLDA ist ein System für das computergestützte
Arbeiten mit mündlichen Korpora. Es besteht aus einem
Transkriptions- und Annotationseditor (Partitur-Editor), einem
Tool zum Verwalten von Korpora (Corpus-Manager) und
einem Such- und Analysewerkzeug (EXAKT). EXMARaLDA
unterstützt die zeitalignierte Transkription von digitalen Audiooder Videodaten, eine flexible Annotation nach frei wählbaren
Analysekategorien, die systematische Dokumentation eines Korpus
durch Metadaten, die flexible Ausgabe von Transkriptdaten in
verschiedenen Notationsformen und Dokumentformaten, sowie
die computergestützte Recherche in Transkriptions-, Annotations
und Metadaten.“ (http://www.exmaralda.org/tool/exmaralda/ (letzter
Zugriff 22.10.2014)
Zunächst wurde jede der 39 Dateien in den Editor importiert. Im Editor selbst
werden die Tonspuren der jeweils teilnehmenden Kinder untereinander in
den entsprechenden Zeilen angezeigt. Pro FOLKER-Datei wurden meistens
mehrere Kinder transkribiert. Dies ist logischerweise in jeder FOLKER-Datei
der Fall, da während der Aufnahmesituationen in der Kita immer mehrere
finden Sie im Abschnitt 5.2.
11
Für weitere Informationen und für die Möglichkeit des Downloads verweise ich auf folgende
Webseite: http://www.exmaralda.org/partitureditor.html (letzter Zugriff 22.10.2014)
72
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Kinder gleichzeitig anwesend waren und somit gemeinsam auf einer
Aufnahmedatei gespeichert sind. In Abbildung 4.3 sind jene Kinder aufgeführt,
die zum Zeitpunkt der Aufnahme anwesend waren (hier: AV, MK, LUA, RD,
MM, LEO sowie die Interviewerin IV). Um eine Analyse einzelner Kinder
vornehmen zu können, wurden zunächst die Tonspuren separiert und einzeln
gespeichert (Abbildung 4.4).
Abbildung 4.3: Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen und
Sprechern
Abbildung 4.4: Separierte Tonspur in einer EXMARaLDA-Datei
Anschließend wurden alle Lücken und unbenutzten Zeitpunkte in den
Tonspuren entfernt und die syntaktischen Wörter voneinander separiert.
Zusätzlich wurde eine Spur (Annotation) angefügt, in welche später die
4.1. METHODIK
73
entsprechenden POS-Tags geschrieben werden konnten (Abbildung 4.5 und
Abschnitt 3.2.2).
Abbildung 4.5: Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur
Auf diese Weise entstanden 155 Einzeldateien von insgesamt 12 Kindern
zwischen 3;5 und 5;5 Jahren. Aufgrund der Fülle der Daten wurden mehrere
(Korrektur-)Durchläufe vorgenommen. Im Anschluss an die Bezeichnung der
syntaktischen Wörter mit den jeweiligen POS-Tags wurde eine dritte Spur
in jede der Dateien eingefügt, in die das zum Wort entsprechende Lemma
eingetragen wurde (Abbildung 4.6).
Abbildung 4.6: EXMARaLDA-Datei: MM_lem.exb
Eine Lemmatisierung erwies sich als notwendig, weil ohne diese bei
der späteren Analyse eine irrtümliche Type-Token-Zuordnung entstehen
würde. Eine Relation der POS-Tags zu den jeweiligen syntaktischen
Wörtern würde bedeuten, dass zum Beispiel alle Flexionsformen eines
Verbs als unterschiedliche Lexeme definiert würden (z. B. spielen - spielte gespielt). Tatsächlich handelt es sich bei diesem Beispiel um nur ein Lemma,
nämlich spielen. Ebenso würden alle deklinierten Nomen und Artikel als
unterschiedlich erkannt, auch wenn sie demselben Lemma angehören. In dem
Beispiel „Ich habe der Frau das Geld gegeben“, gehört „der “ zum Lemma „die“
bzw. „d“. Ein Programm, welches alle Wörter nur aufgrund ihrer äußeren Form
erkennt und auswertet, erkennt dies nicht. Deshalb mussten im nächsten
74
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Schritt alle Wörter ihrem entsprechenden Lemma zugeordnet werden. Bei
diesem Prozedere wurde deutlich, dass eine Lemmatisierung nicht immer
eindeutig durchgeführt werden kann. Häufig traten Fälle auf, in denen ein
vom Kontext isoliertes Wort einen Artikel mit dem entsprechenden Lemma
darstellt. Zum Beispiel „das“ in „Ich nehme das“ würde folgendermaßen
getaggt werden:
• das (syntaktisches Wort)
• ART (POS)
• das bzw. d (Lemma)
Kontextuell betrachtet handelt es sich zwar um ein Demonstrativpronomen
- denn es fehlt das darauf folgende Nomen. Doch um dem Anspruch einer
lexikalisch basierten Analyse gerecht zu werden, wurde tatsächlich mit ART
getaggt sowie mit „das“ bzw. „d“ lemmatisiert (siehe auch Abschnitt 4.1.7 und
4.1.8)., da in diesem Fall eine Ellipse vorliegt.
4.1.7
Kriterien für das Taggen der Wortarten nach den Richtlinien der
STTS
In diesem Abschnitt möchte ich alle Kriterien anführen, nach denen ich
mich beim Taggen der syntaktischen Wörter mittels der STTS (Abschnitt
3.2.2) gerichtet habe. Die Stuttgart Tübingen Tagsets bieten zahlreiche
Beschreibungen und Hinweise, nach denen ein Wort mit einem bestimmten
POS-Tag bezeichnet werden sollte und diese wurden auch hier zu großen
Teilen verwendet ([Schiller, Teufel, Stöckert und Thielen (2009)]). Trotz sehr
detaillierter Beschreibungen kann es in einigen Fälle zu Unstimmigkeiten
kommen, in denen nicht klar ist, welches POS-Tag verwendet werden muss.
Insbesondere vor dem Hintergrund, dass es sich bei den vorliegenden
Daten um Audiodateien von Kindern handelt, war es erforderlich, weitere,
individuelle Regeln hinzuzuziehen. Es kann zum Beispiel vorkommen,
dass je nach Kontext mehrere Bezeichnungen zulässig sind und eine
Entscheidung darüber, welches POS-Tag verwendet werden muss, nur
im Auge der ausführenden Person liegt. Um diesem Problem möglichst
effizient zu begegnen, wurden unter Zuhilfenahme der Dudengrammatik
([Dudenredaktion (2009)]) alle in den STTS vorkommenden POS-Tags
mit den Definitionen des Dudens abgeglichen und daraufhin ein für diese
Arbeit einheitliches Definitionssystem zusammengestellt. Die STTS basieren
vorwiegend auf einer syntaktischen Kategorisierung, welche eigentlich nicht
Gegenstand dieser Arbeit ist. Die aufgeführten POS-Tags sind jedoch äußerst
4.1. METHODIK
75
geeignet, um alle Wörter im Korpus zu bezeichnen - auch nach überwiegend
lexikalischen Kriterien. Durch ein anschließendes Zusammenführen der
POS-Tags in größere Klassen (Tabelle 6.1) konnte der syntaktische Aspekt
jedoch größtenteils, wenn auch nicht in allen Fällen, umgangen werden.
In Anlehnung an die STTS möchte ich im Folgenden alle Tags mit den
Definitionen der Dudengrammatik in Einklang bringen. Die Reihenfolge ist
an die Abfolge der POS-Tags in der entsprechenden Tabelle (Tabelle 3.2)
angelehnt.
• Adjektive (ADJA und ADJD): Alle Adjektive im hier verwendeten
Korpus wurden nach den Regeln der Dudengrammatik getaggt
([Dudenredaktion (2009)], S. 338-388). Eine Ausnahme bilden die
Kardinalzahlen. Laut Duden sind diese der Wortart Adjektiv zuzuordnen
und rein funktionell betrachtet wäre dies auch im vorliegenden Korpus
möglich. Da die STTS dafür eine eigene Kategorie CARD bereit
halten, wurden Kardinalzahlen in dieser Arbeit mit dem POS-Tag
CARD bezeichnet. Die STTS unterscheiden zwischen attributivem
Adjektiv (ADJA) und adverbialem bzw. prädikativem Adjektiv (ADJD).
Diese Unterscheidung wurde beim Taggen beibehalten, wenn auch die
Adjektive bei der späteren Analyse zusammengefasst als ADJ aufgeführt
werden. Eine häufige Erscheinung ist der elliptische Gebrauch von
Nomen in Verbindung mit Adjektiven. In Aussagen wie „Ich möchte gern
das kleine [ ]“ kann ohne den Kontext kleine nicht eindeutig als ADJA
getaggt werden. Es könnte sich ebenso um ein substantiviertes Adjektiv
handeln, das dementsprechend als Nomen (NN) getaggt werden
müsste. Da in dieser Arbeit jedoch die syntaktischen Wörter an sich im
Mittelpunkt stehen und möglichst isoliert betrachtet werden, wurde kleine
dennoch als ADJA12 getaggt.
• Adverbien (ADV und PAV): Eine Abgrenzung des Adverbs gegenüber
anderen Wortarten ist nicht immer eindeutig, insbesondere dann,
wenn es um Adverbien geht, die ähnlich wie Adjektive steigerbar
sind, z. B. oft - öfter (häufiger) - am öftesten (am häufigsten)
([Dudenredaktion (2009)], S. 570). Nichtsdestotrotz gibt es Regeln
für die Abgrenzung eines Wortes als Adverb. Die Dudengrammatik
unterscheidet zehn Adverbientypen: Lokal-, Temporal-, Modal-, Kausal-,
Situierungs-, Interrogativ-, Relativ-, Präpositional- (oder Pronominal-),
Konjunktional- und Kommentaradverb. Die STTS unterscheiden nur
12
Mir ist bewusst, dass durch die Unterscheidung zwischen ADJA und ADJD ein syntaktisches
Kriterium zugrunde gelegt wird. In der späteren Analyse werden die Lemmata jedoch zusammengefasst
als ADJ betrachtet, wodurch distributionelle Aspekte wieder vernachlässigt werden.
76
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
zwischen Adverb (ADV) und Pronominaladverb (PAV). Beim Taggen
nach den Regeln der STTS unterscheide ich dementsprechend ebenso
nach ADV und PAV, wobei die Pronominaladverbien später zu den
Adverbien gezählt werden. Zur Kategorie ADV zählen demnach alle
nach Duden unterschiedenen Adverbien, bis auf das Pronominaladverb.
Das Pronominaladverb (auch Präpositionaladverb) wird laut Duden
mit einer Präposition als zweitem Bestandteil und mit da(r)-, hier- oder
wo(r)- als erstem Bestandteil gebildet ([Dudenredaktion (2009)], S.
579 sowie Regel 860). Auf Basis dieser Definition wurden die Wörter
im Korpus als PAV identifiziert und mit PAV getaggt. Ebenso wurde
trotzdem und außerdem als PAV getaggt, da es in den STTS als
Pronominaladverb aufgeführt wird. In der Dudengrammatik entspricht
es den Konjunktionaladverbien (Regel 864), zu denen noch weitere
Adverbien gehören.
• Präpositionen (APPR, APPRART, APPO und APZR): Im hier
untersuchten Korpus kommen lediglich Präpositionen (APPR) sowie
Präpositionen mit Artikel (APPRART) vor. Postpositionen (APPO)
und Zirkumpositionen rechts des Bezugswortes (APZR) kommen
nicht vor. Die Bezeichnung der Wörter mit den POS-Tags APPR bzw.
APPRART wurde größtenteils in Anlehnung an die Ausführungen
der Dudengrammatik vorgenommen ([Dudenredaktion (2009)], S.
600-619). Bei der späteren Analyse (Kapitel 6) wurden die Präpositionen
zusammengefasst zum POS-Tag APPR.
• Artikel (ART): Die Dudengrammatik führt den definiten Artikel
([Dudenredaktion (2009)], S. 291-302) getrennt vom indefiniten Artikel
auf ([Dudenredaktion (2009)], S. 330-337). In den STTS werden
der definite und der indefinite Artikel unter dem POS-Tag ART
zusammengefasst. In der vorliegenden Arbeit wurden die Artikel
demnach mit ART bezeichnet, unabhängig davon, ob es sich um einen
definiten oder einen indefiniten Artikel handelt. Nicht nur im vorliegenden
Korpus fiel es nicht immer leicht zwischen einem Artikel oder einem
Pronomen zu unterscheiden. Auch in der Dudengrammatik befindet
sich der Eintrag zum Artikel umrahmt von zahlreichen Einträgen zu
den verschiedenen Pronomen des Deutschen. Im Grunde erfüllen viele
Pronomen (z. B. Indefinitpronomen) oft die Funktion eines indefiniten
Artikels. Und obwohl diese Arbeit die Lemmata auf der Basis der
Wortform bzw. in Bezug auf ihre Form im Lexikon untersuchen soll,
ist es an dieser Stelle nahezu unmöglich, syntaktische Gesichtspunkte
außer Acht zu lassen. In der Dudengrammatik sind alle Formen
4.1. METHODIK
77
von irgendein unter dem Eintrag zum indefiniten Artikel aufgeführt
([Dudenredaktion (2009)], S. 334). Dies erscheint insofern sinnvoll, als
dass man die Formen von irgendein oft stellvertretend für die Formen
von ein syntaktisch im Satz positionieren kann. Da die STTS für nahezu
alle Pronomen eine gesonderte Kategorie bereithalten, wurden diese in
der vorliegenden Arbeit auch als Pronomen (z. B. PDAT, PIAT, PIDAT
oder PIS) getaggt. In der späteren Analyse wurden bestimmte Gruppen
von Pronomen zusammengefasst.
• Kardinalzahlen (CARD): Die Kardinalzahlen wurden in Anlehnung
an die Regeln der Dudengrammatik ([Dudenredaktion (2009)], S.
382-388), insbesondere nach den Regeln 510, 511, 512 und 513
bezeichnet. Syntaktisch gesehen gehören die Kardinalzahlen laut Duden
(ebd.) zu den Zahladjektiven, Zahlpronomen, Zahlsubstantiven und
Zahladverbien. In der vorliegenden Arbeit wurden damit vor allem Grundund Ordnungszahlen sowie Jahreszahlen gekennzeichet.
• Fremdsprachliches Material (FM): Mit dem POS-Tag FM wurden alle
Wörter bezeichnet, die nicht in deutscher Sprache geäußert wurden.
• Interjektionen (ITJ): Die Interjektionen gehören laut der Dudengrammatik
zu den Ausdruckspartikeln ([Dudenredaktion (2009)], S. 597-599). In der
gesprochenen Sprache dienen sie demzufolge vor allem dem Ausdruck
spontaner Emotionen oder Bewertungen. Beispiele für Interjektionen,
wie sie in der vorliegenden Arbeit vorkommen sind aua oder hey. Zu
den Interjektionen gehören in Einklang mit den STTS in dieser Arbeit
auch die Onomatopoetika. In der Dudengrammatik werden diese,
ebenso wie die Interjektionen, unter dem Eintrag Partikeln aufgeführt
([Dudenredaktion (2009)], S. 599). Da in dieser Arbeit jedoch die
Kategorisierung nach den STTS im Vordergrund steht, wurden die
Onomatopoetika zu den Interjektionen gezählt.
• Konjunktionen (KOUI, KOUS, KON und KOKOM): Die Dudengrammatik
unterscheidet in ihrer Definition die Konjunktionen und die Subjunktionen
([Dudenredaktion (2009)], S. 619-633). Die STTS unterscheiden
unterordnende Konjunktionen mit zu und Infinitiv (KOUI), unterordnende
Konjunktionen mit Satz (KOUS), nebenordnende Konjunktionen
(KON) und Vergleichskonjunktionen (KOKOM). In der vorliegenden
Arbeit kommen unterordnende Konjunktionen mit zu und Infinitiv nicht
vor. Alle nebenordnenden Konjunktionen (KON) wurden nach den
Regeln der Dudengrammatik (Regeln 934 bis 939) bezeichnet. Die
unterordnenden Konjunktionen (KOUS) entsprechen größtenteils den
78
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Definitionen in den Regeln 941 bis 947 und 949 bis 952, während die
Vergleichkonjunktionen (KOKOM) unter der Regel 940 aufgeführt sind
([Dudenredaktion (2009)], S. 625). Die Dudengrammatik geht in ihren
Defintionen verstärkt auf die Funktion des jeweiligen Satzgliedes im
Satz ein. So müsste beispielsweise die Subjunktion „als ob“ als ein
Lexem/Satzglied mit KOUS bezeichnet werden. Da in dieser Arbeit
jedoch die einzelnen Wortformen untersucht werden, konnte diese
Bezeichnung nicht angewandt werden. Vielmehr wurden als und ob als
zwei separate Formen getaggt.
• Nomen (NN und NE): Das Nomen wird als flektierbare Wortart
beschrieben ([Dudenredaktion (2009)], S. 145-248). Insbesondere
eingegangen wird auf Kasus, Numerus und Genus. All diese nominalen
Eigenschaften sind in der vorliegenden Arbeit irrelevant, da es nur
um das Lemma im Nominativ (Sgl.) geht. Das Genus des jeweiligen
Nomens wird durch den Artikel näher bestimmt (z. B. die Gabel, das
Kind, der Apfel). Da das Nomen jedoch ohne den Artikel getaggt wird,
spielt das Genus hier keine bzw. nur eine untergeordnete Rolle. Die
Dudengrammatik unterscheidet ferner zwischen Konkreta und Abstrakta.
Auch diese Unterscheidung wurde bei der Analyse mittels der STTS nicht
vorgenommen (siehe aber Kapitel 7 für eine derartige Unterscheidung).
Eine weitere Kategorisierung betrifft die Abgrenzung der Eigennamen
von den restlichen Nomen ([Dudenredaktion (2009)], S. 147-151). Dies ist
eine Unterscheidung, die auch in der vorliegenden Arbeit vorgenommen
wurde. Alle Eigennamen wurden mit NE getaggt, alle weiteren Nomen
mit NN. Im Hinblick auf die Definition von Eigennamen, die der Duden
vornimmt, gilt dies auch für die Eigennamen, die im Korpus mit NE
bezeichnet wurden. Abgrenzungsschwierigkeiten gab es bezüglich
substantivierter Infinitive sowie bei Substantivierungen von Farbwörtern.
Kontextuell gesehen müssten substantivierte Infinitive als NN getaggt
werden (z. B. beim Schwimmen → APPRART + NN). Da es wie bereits
erwähnt jedoch lediglich um die separierten Wörter, möglichst losgelöst
vom Kontext gehen soll, wurde in solchen Fällen ein POS-Tag aus der
Kategorie Verb verwendet. Im Beispiel beim Schwimmen also APPRART
+ VVINF, auch wenn dies im Kontext wenig Sinn ergibt. Des Weiteren
kam es beim Taggen mit NN in einigen Fällen zu Schwierigkeiten bei
der Lemmatisierung. In Fällen wie das/der/die Kleine im Gegensatz zu
ein Kleiner/eine Kleine konnte nicht eindeutig ein Lemma zugeordnet
werden. Erst durch das Taggen mit ADJA wurde diese Unstimmigkeit
wieder eliminiert. Zudem könnte es sich je nach Kontext in diesem
4.1. METHODIK
79
Fall um eine Ellipse handeln, wodurch eine Bezeichnung mit ADJA
nochmals bestärkt wird. In der Dudengrammatik sind diese Fälle unter
der Regel 238 aufgeführt mit dem Hinweis, dass für diese Wortarten
eigene Gesetzmäßigkeiten gelten im Gegensatz zu den restlichen
Nomen. Die Regeln zu den substantivierten Farbadjektiven (und Zitaten)
sind in der Dudengrammatik einerseits unter dem Eintrag Substantiv
aufgeführt ([Dudenredaktion (2009)], S. 190-192), andererseits unter
dem Eintrag Adjektiv ([Dudenredaktion (2009)], S. 348-351). Dieser
Umstand lässt bereits vermuten, dass es auch in der vorliegenden
Arbeit nicht leicht fiel, ein einheitliches Bezeichnungssystem zu finden.
Insbesondere Farbwörter kommen im Korpus häufig vor und sind
kontextuell gesehen entweder Adjektiv oder Substantiv. In dieser Arbeit
wurden sie dennoch durchgehend mit dem POS-Tag ADJA (oder ADJD)
als Adjektiv bezeichnet. Gerade in Fällen wie das Blau vs. die Blaue
wären anderenfalls Probleme bei der Lemmatisierung entstanden.
• Demonstrativ- und Indefinitpronomen (PDAT, PIDAT, PDS,
PIS und PIAT): An dieser Stelle möchte ich die Demonstrativund Indefinitpronomen zusammen aufführen, da diese auch bei
der Bezeichnung mit den POS-Tags (später) zu einer Gruppe
zusammengefasst wurden. Dies waren lediglich persönliche
Vorlieben. Man hätte ebenso die Indefinit- und Possessivpronomen
zusammenfassen können. Die Dudengrammatik beschreibt in einem
umfassenden Eintrag Artikelwörter und Pronomen, unter denen
sich auch alle in den STTS aufgeführten Pronomen wiederfinden
([Dudenredaktion (2009)], S. 249-337). Die attribuierenden (PDAT)
und substituierenden Demonstrativpronomen (PDS) sind in der
Dudengrammatik unter den Regeln 372-382 erläutert. In der vorliegenden
Arbeit wurden die Demonstrativpronomen vorwiegend entsprechend der
Regeln in der Dudengrammatik bezeichnet, wenn auch das attribuierende
Demonstrativpronomen (PDAT) zu Teilen nach den Regeln der STTS
markiert wurde ([Schiller, Teufel, Stöckert und Thielen (2009)], S. 39).
Die attribuierenden Demonstrativpronomen mit Determiner (PIDAT)
sind in der Dudengrammatik unter dem Eintrag Indefinitpronomen
aufgeführt (Regel 409). In dieser Arbeit konnten die attribuierenden
Demonstrativpronomen mit Determiner nur deshalb als PIDAT bezeichnet
werden, weil sie zusammen mit dem Artikel als Einheit betrachtet werden.
Dies ist streng genommen eine kontextuelle Analyse, die eigentlich
vermieden werden sollte. Da die STTS als System zur Kategorisierung
von Wortarten jedoch bis auf wenige Ausnahmen sehr geeignet sind,
80
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
wurde an diesen (wenigen) Stellen kontextuell analysiert. Durch das
spätere Zusammenführen der POS-Tags PDS+PDAT+PIDAT+PIS+PIAT
zu den PIDATS wurde diese teilweise syntaktische Analyse jedoch
wieder vernachlässigt, weil dadurch die einzelne Wortart wieder in
den Vordergrund rückte. Das Wort beide ist unter der Regel 413 unter
Umständen als Kardinalzahl einzustufen. Dies ist in der vorliegenden
Arbeit nicht der Fall und beide ist Indefinitpronomen. In allen anderen
Fällen wurden die Indefinitpronomen analog zu den Regeln der
Dudengrammatik als PIS (substituierendes Indefinitpronomen), PIAT
(attribuierendes Indefinitipronomen) oder PIDAT (attribuierendes
Indefinitpronomen mit Determiner) getaggt.
• irreflexives Personalpronomen (PPER): Die irreflexiven Personalpronomen wurden analog zu der Regel der Dudengrammatik mit PPER
getaggt ([Dudenredaktion (2009)], S. 263-271).
• Possessivpronomen (PPOSS und PPOSAT): Die STTS unterscheiden
zwischen
substituierendem
(PPOSS)
und
attribuierendem
Possessivpronomen (PPOSAT). Die Dudengrammatik hält einen
Eintrag zu den Possessivpronomen im Allgemeinen sowie deren
besondere Gebrauchsweisen (Regel 371) bereit. Grundlegend wurden
die Wörter entsprechend der Regeln der Dudengrammatik entweder
mit PPOSS oder mit PPOSAT getaggt. Allein die unter Regel 371
aufgeführten possessiven Adjektive kommen in dieser Arbeit bzw. im
Korpus nicht vor.
• Relativpronomen (PRELS und PRELAT) und reflexives Personalpronomen (PRF): Bezüglich der Relativpronomen unterscheiden die
STTS substituierende (PRELS) und attribuierende Relativpronomen
(PRELAT). Die Dudengrammatik nimmt diese Unterscheidung nicht
explizit vor, sondern äußert sich zu den verschiedenen Pronomen in
ihrer Form und Funktion im Satz ([Dudenredaktion (2009)], S. 302-304).
Relativpronomen kommen im gesamten Korpus sehr selten vor, wurden
aber in Anlehnung an die in der Dudengrammatik aufgeführten Regeln
als Relativpronomen getaggt. Das Reflexivpronomen (PRF) kommt
ebenfalls nur selten vor und wurde, da es keine Besonderheiten
aufweist, nach den Regeln der Dudengrammatik identifiziert und als PRF
bezeichnet ([Dudenredaktion (2009)], S. 271-274).
• Interrogativpronomen (PWAT, PWAV und PWS): Die attribuierenden
(PWAT) und substituierenden Interrogativpronomen (PWS) bzw.
4.1. METHODIK
81
adverbialen Interrogativ- und Relativpronomen (PWAV)13 sind in
der Dudengrammatik definiert und entsprechen in ihrer Einteilung
weitestgehend jener der STTS ([Dudenredaktion (2009)], S. 304-309).
Das Interrogative wer/was ist in den STTS unter dem POS-Tag PWS
aufgeführt. Alle Wörter, die mit PWS bezeichnet wurden, entsprechen
den Regeln in den STTS und weitestgehend der Regel 406 in der
Dudengrammatik
([Schiller, Teufel, Stöckert und Thielen (2009)],
S.
51 ff.). Das Interrogative welch- hat in attribuierender Form in den
STTS die Entsprechung PWAT (attribuierendes Interrogativpronomen).
Wörter, die dieses Tag erhielten, entsprechen den Definitionen der
Dudengrammatik (Regel 407). Das substituierende welch- wurde mit
dem POS-Tag PWS markiert. Welch- kann allerdings in Ausnahmefällen
auch ein substituierendes Indefinitpronomen (PIS) darstellen; nämlich
dann, wenn welch- im Sinne von einige verwendet wird. In diesen Fällen
wurde es mit dem POS-Tag PIS bezeichnet. Das adverbiale Interrogativund Relativpronomen (PWAV) ist in der Dudengrammatik unter dem
Eintrag Adverb verortet ([Dudenredaktion (2009)], S. 577-578). Die
Regeln zum Interrogativadverb (Regel 856) und Relativadverb (Regel
857) entsprechen dem POS-Tag PWAV in den STTS. Da in dieser Arbeit
eine Kategorisierung der Wortarten auf der Einteilung der STTS basiert,
wurden auch hier die Interrogativ- und Relativpronomen den Pronomen
zugeordnet, auch, wenn diese laut Dudengrammatik den Adverbien
angehören.
• Partikeln (PTKZU, PTKNEG, PTKVZ, PTKANT und PTKA): Die
Dudengrammatik differenziert in Gradpartikeln, Fokuspartikeln,
Negationspartikeln,
Abtönungspartikeln,
Gesprächspartikeln,
Interjektionen und Onomatopoetika ([Dudenredaktion (2009)], S.
588-599). Die Interjektionen wurden hier außer Acht gelassen, da
sie bereits an anderer Stelle (ITJ) gesondert aufgeführt wurden. Die
Negationspartikeln können analog zu den in den STTS aufgeführten
Negationspartikeln (PTKNEG) verstanden werden. Die STTS
unterscheiden weiterhin Partikeln mit zu vor Infinfitiv, z. B. zu (gehen).
Diese sind in der Dudengrammatik nicht unter dem Eintrag Partikeln zu
finden, sondern an anderer Stelle bei den Verben und diesbezüglich
beim Infinitiv mit zu. Im vorliegenden Korpus wurde dennoch jedes zu,
das separat vor einem Infinitiv steht, mit PTKZU gekennzeichnet (z.
B. Es ist schön zu singen → ART VVFIN ADJD PTKZU VVINF, aber:
13
An
dieser
Stelle
wurde
die
Kategorisierung
der
STTS-Guidelines
([Schiller, Teufel, Stöckert und Thielen (2009)], S. 54) beibehalten, womit alle POS-Tags der Kategorie
PWAV sowohl Interrogativ- als auch Relativpronomen sein können.
82
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Es macht Spaß, ihr vorzulesen → ART VVFIN NN PPER VVIZU). Die
Gradpartikeln, Fokuspartikeln und Abtönungspartikeln entsprechen
weitestgehend den Partikeln bei einem Adjektiv oder Adverb in den
STTS (PTKA). Eine weitere Kategorie stellen die Gesprächspartikeln
dar (Regel 800), die je nach Kontext den Antwortpartikeln (PTKANT)
entsprechen. In den meisten Fällen wurden sie aber mit PTKA
bezeichnet werden, nämlich dann, wenn sie tatsächlich die Funktion
eines Füllwortes bzw. einer Partikel übernehmen, wie im folgenden
Beispiel: Der (ART) Ball (NN) ist (VVFIN) ja (PTKA) klein (ADJD)!
• Verben (VVFIN, VVIMP, VVINF, VVIZU, VVPP, VAFIN, VAIMP, VAINF,
VAPP, VMFIN, VMINF, VMPP): Die Dudengrammatik widmet sich in
einem umfassenden Eintrag der Wortart Verb ([Dudenredaktion (2009)],
S. 389-566). Dabei unterscheidet sie zunächst nach Bedeutung
und Funktion unterschiedlicher Verbarten (ebd., S. 390-429), was
für die Zwecke der Wortartenanalyse als Teilziel dieser Arbeit nicht
vordergründig relevant ist. Ich möchte an dieser Stelle deshalb nicht
näher darauf eingehen und erst in einem späteren Kapitel wieder darauf
zu sprechen kommen (Kapitel 7). Auf den Seiten 429 bis 476 beschreibt
die Dudengrammatik jene Verbformen, die in ihrer Kategorisierung
durch die STTS dem Korpus dieser Arbeit am ehesten entsprechen.
Unter der Regel 596 werden die finiten Kategorien vorgestellt, die in
den STTS den finiten Vollverben (VVFIN), finiten Auxiliarverben (VAFIN)
und finiten Modalverben (VMFIN) entsprechen. Unter der Regel 597
werden die infiniten Kategorien aufgeführt, die am ehesten mit den
Bezeichnungen infinites Vollverb (VVINF), infinites Auxiliarverb (VAINF)
und infinites Modalverb (VMINF) gleichzusetzen sind. Die Partizipien
VAPP (Partizip Perfekt, auxiliar ), VVPP (Partizip Perfekt, voll) sowie
VMPP (Partizip Perfekt, modal) finden sich am ehesten in der Regel 598
wieder. Mehrteilige Verbformen, wie sie in dieser Regel zu finden sind,
werden in den STTS mit Hilfe der bisher aufgeführten POS-Tags einzeln
getaggt, da es um die Wortart an sich gehen soll, nicht aber um das
funktionale Gefüge. Der Konditionalsatz „Sie würde dir meine Adresse
nicht geben.“ würde nach den Regeln der STTS mit PPER (sie) VAFIN
(würde) PPER (dir) PPOSAT (meine) NN (Adresse) PTKNEG (nicht)
VVINF (geben) getaggt werden. In Bezug auf den Infinitiv mit zu könnte
ein Tagging-Vorgang folgendermaßen aussehen: PPOSAT (mein) NN
(Ziel) VVFIN (ist) PPER (es), VVIZU (anzukommen).
Eine Besonderheit betrifft die Auxiliarverben, wenn diese sich in ihrer
infiniten Form befinden. Den STTS zufolge werden diese dann als
4.1. METHODIK
83
VAINF (infinites Auxiliarverb) getaggt. Das bedeutet, dass in dem Beispiel
„Ich möchte gern erwachsen sein.“
das Verb sein laut den STTS als Auxiliarverb im Infinitiv mit
VAINF getaggt werden müsste. In den Daten dieser Arbeit sollte dies
nicht geschehen und sein sowie die weiteren Auxiliarverben wurden
in ihrer infiniten Form mit VVINF getaggt. Dieses Vorgehen ist darin
begründet, dass sein in dem Beispielsatz „Ich möchte gern erwachsen
sein.“ streng genommen gar kein Auxiliarverb mehr sein kann, sobald
es im Infinitiv steht. Analog verhält es sich mit der Kategorie VAPP
(Auxiliarverb, Partizip Perfekt). Auch diese wurde in dieser Arbeit nicht
verwendet und stattdessen mit VVPP ersetzt.
Im weiteren Verlauf beschreibt die Dudengrammatik vor allem die
Funktionsweise der Verben sowie deren Stellung im Satz. Darauf möchte
ich aus oben genannten Gründen nicht eingehen. Nicht verzichten
möchte ich aber auf die Demonstration zweier Beispiele, da diese
Muster im Korpus gehäuft auftreten. Es handelt sich um die Bezeichnung
der Verben im Passiv (sieh auch die Regeln 667 - 677). Formen wie
„wird geliebt“ wurden getaggt als VAFIN (wird) VVPP (geliebt); „werde
geliebt werden“ sähen bezeichnet mit POS-Tags folgendermaßen aus:
VAFIN (werde) VVPP (geliebt) VVINF (werden). Analog verhält es
sich beim Taggen von Modalverbkomplexen (Regel 679). „Wir können
schwimmen“ würde bezeichnet werden mit PPER (wir) VMFIN (können)
VVINF (schwimmen); „er hat nicht schwimmen dürfen“ würde bezeichnet
werden mit PPER (er) VAFIN (hat) PTKNEG (nicht) VVINF (schwimmen)
VMINF (dürfen). Die syntaktischen Wörter im Beispiel „ich bin groß“
würden bezeichnet werden mit PPER (ich) VVFIN (bin) ADJD (groß). Im
engeren Sinne ist bin in diesem Beispiel ein Kopulaverb. Da die STTS
dies als POS-Kategorie nicht vorgeben, wurden im weiteren Verlauf auch
für Kopulaverben die POS-Tags VVFIN bzw. VVINF verwendet. In einer
späteren Analyse wurden alle Lemmata und somit auch alle Verben einer
Analyse unter semantisch-funktionalen Aspekten unterzogen, wobei
insbesondere Kopulaverben identifiziert wurden (Kapitel 7). Im Hinblick
auf die Bezeichnung der Wörter mit den POS-Tags für Verben wird
deutlich, dass eine rein lexikalisch basierte Bezeichnung nicht möglich
ist. Allein, wenn zwischen einem finitem oder infinitem Verb gewählt wird,
muss der Kontext häufig hinzugezogen werden. Man nehme das Beispiel
„wir schwimmen im See“. Das Verb schwimmen ist in diesem Fall ein
84
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
finites Vollverb, also VVFIN. Losgelöst vom Kontext könnte es ebenso
ein infinites Vollverb, also VVINF, darstellen. An dieser Stelle wurden
alle Verben zunächst unter Berücksichtigung des Kontextes bezeichnet
und erst später zu Unterkategorien zusammengefasst, wodurch dem
lexikalisch begründeten Anspruch wieder Rechnung getragen wird
(Tabelle 6.1). Da ich mich im Vorfeld dazu entschieden habe, die STTS
als populäres Tagging-System für meine Analyse zu nutzen, hielt ich
es dennoch für sinnvoll, dass auch die Möglichkeit einer späteren
syntaktischen Analyse gegeben ist.
Bei der Zusammenfassung der POS-Tags zur Bezeichnung der
Verben gab es mehrere Möglichkeiten. Eine Variante war es, alle Verben
- so wie sie im obigen Abschnitt zusammen erläutert wurden - zu einer
Kategorie zusammenzufassen. Unter lexikalischen Gesichtspunkten
einer Wortartenanalyse wäre dies mit Sicherheit vorteilhaft und
ausreichend. Da insbesondere Verben als Inhaltswörter jedoch sehr
aufschlussreich sind und im weiteren Verlauf zudem einer Inhaltsanalyse
sowie einer semantischen Analyse unterzogen wurden, sollten sie in
drei Kategorien aufgeteilt werden. Dadurch blieben jene Informationen
erhalten, die für das weitere Vorgehen essentiell waren. Die Verben
wurden zusammengefasst in die Unterkategorien:
Auxiliarverb (VAFIN, (VAINF), VAIMP, (VAPP))
Modalverb (VMFIN, VMINF, VMPP)
Vollverb (VVFIN, VVINF, VVPP, VVIMP, VVIZU)
4.1.8
Kriterien für die Lemmatisierung der syntaktischen Wörter
Analog zu den Kriterien für das Bezeichnen der Wortarten mit den POS-Tags
in Abschnitt 4.1.7 möchte ich an dieser Stelle die Kriterien anführen,
nach denen die geäußerten, transkribierten und voneinander separierten
Wörter lemmatisiert wurden, wobei ich insbesondere auf die Sonderfälle
eingehen möchte. Bei der Lemmatisierung stütze ich mich vor allem auf die
Regeln der eben zitierten Dudengrammatik ([Dudenredaktion (2009)]). Die
POS-Tags vor den Klammern bilden die Tags in ihrer gruppierten Form ab
(Tabelle 6.1), die POS-Tags in Klammern sind alle hier vorkommenden, nicht
zusammengefassten Wortarten (Tabelle 3.2).
• ADJ (ADJA und ADJD): Adjektivbezeichnungen sind in ihrer
lemmatisierten Form immer im Positiv angegeben. Grenzfälle gab es
wie bereits weiter oben beschrieben bei substantivierten Adjektiven,
4.1. METHODIK
85
insbesondere bei den Farbwörtern. Da in dieser Arbeit nur die Wortart
an sich im Mittelpunkt steht, wurden an dieser Stelle die Positivformen
angegeben; auch wenn in Sonderfällen in der lemmatisierten Form ein
Artikel vor dem Lemma steht. Die Aussage „ich nehme das Große/große“
würde dementsprechend „ich (ich) nehmen (nehme) d (das) groß
(Große/große)“ lemmatisiert. Analog verhält es sich mit folgendem
Beispiel: „du hast eine Blaue/blaue“ → „du (du) haben (hast) ein (eine)
blau (Blaue/blaue)“. Dies ist insbesondere deshalb logisch, weil in diesen
Fällen eine Ellipse vorliegt, durch die das Nomen an dieser Stelle nicht
expilizit angeführt wird.
• ADV (ADV und PAV): Adverbien und Pronominaladverbien unterliegen
keinen besonderen Grenzfällen. Sie bilden bereits als Wort die
lemmatisierte Form ab und wurden dementsprechend auch so
übernommen.
• APPR (APPR, APPRART, APPO, APZR): Präpositionen ohne Artikel
(APPR) behielten ihre Form, die sie als Wort aufweisen, auch als Lemma
bei. Präpositionen mit Artikel (APPRART) verloren in der lemmatisierten
Form ihren Artikel (beim → bei, ans → an). Die Präpostionen APPO und
APZR kommen im Korpus nicht vor.
• ART: Die bestimmten Artikel (der, die, das, die (Pl.) wurden als d (im
Singular) bzw. d-p (im Plural) lemmatisiert. Die unbestimmten Artikel (ein,
eine) wurden zu ein.
• CARD: Da die Kardinalzahlen häufig einen adjektivischen Charakter
aufweisen, wurden sie in ihrer Form als Lemma ebenso nach den
Regeln der Adjektivlemmatisierung lemmatisiert. Die Ordnungszahlen
veränderten sich folgendermaßen: erste → erst, dritte → dritt, wobei die
Grundzahlen ihre Form als Wort auch als Lemma beibehielten: eins →
eins, zweihundert → zweihundert.
• FM: Fremdsprachliches Material kommt im gesamten Korpus nur
sehr selten vor und blieb in der lemmatisierten Form in seiner
fremdsprachlichen Wortform erhalten.
• ITJ: Interjektionen erfuhren keine Änderung in der lemmatisierten Form.
• KON (KOUI, KOUS, KOKOM, KON): Konjunktionen erfuhren keine
Änderung in der lemmatisierten Form.
• N (NE und NN): Nomen (NN) und Eigennamen (NE) wurden als Lemma
in der Nominativform im Singular angeführt.
86
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
• PIDATS (PDAT, PDS, PIAT, PIDAT, PIS): Unter den substituierenden
(PDS) und attribuierenden Demonstrativpronomen (PDAT) findet sich
im Korpus lediglich dies/e/er/es; jene/r/s kommt nicht vor. Dies/e/er/es
wurde in der lemmatisierten Form immer als dies angeführt. Ein Grenzfall
stellt das substituierende Demonstrativpronomen in Äußerungen wie
„das ist großartig“ dar. In diesem Fall ist das ein Demonstrativpronomen,
wurde dementsprechend mit dem POS-Tag PDS getaggt und erhielt das
Lemma dies. Mir ist bewusst, dass ich an dieser Stelle eine kontextuelle
Analyse durchführe, doch da die STTS als Kategorisierungssystem
angewendet wurden und die Ergebnisse für weiterführende Arbeiten
relevant sein können, habe ich mich an dieser Stelle dazu entschlossen
([Dudenredaktion (2009)], Regeln 372 und 373, S. 280-281). Hinsichtlich
der attribuierenden Demonstrativpronomen (PDAT) lassen sich in dieser
Arbeit nur wenige Fälle finden, die sich auf Wendungen mit dies- +
Nomen beschränken. Dementsprechend wurde das entsprechende
Wort nach der Lemmatisierung mit dies- gekennzeichnet. Im weiteren
Verlauf ergab sich allerdings folgende Besonderheit, die erst später
in Kapitel 7 zum Tragen kommt. Bei der Analyse der Lemmata nach
semantischen Kriterien musste streng genommen kontextuell analysiert
werden. Demnach ist ein attribuierendes Demonstrativpronomen in
Fällen wie „Ich spiele mit diesem Ball“ kein Demonstrativpronomen
mehr, sondern Artikel. Aufgrund der sehr selten auftretenden Fälle und
aufgrund der Übersichtlichkeit wurde später auch in diesen Fällen mit
dem POS-Tag PDAT bzw. der entsprechenden Bedeutungskategorie
pdat bezeichnet, wohlwissend, dass es in anderen Analysen eine
abweichende Kennzeichnung erhalten könnte (siehe auch Kapitel 7).
Die Lemmatisierung der Indefinitpronomen (PIS, PIAT, PIDAT) wurde in
Anlehnung an die Dudengrammatik (Regeln 409 bis 440) durchgeführt.
Beispiele für lemmatisierte Indefinitpronomen sind: manche/r/s →
manch, wenig/e/er/es → wenig, viel/e → viel. Einen Sonderfall bildet
die Lemmatisierung von Wendungen wie „ein bisschen“ oder „ein
paar “. Diese wurden separat als ART (ein) + PIS (bisschen) getaggt
und lemmatisiert, obwohl es sich streng genommen um feststehende
Wendungen handelt.
• PPER: Die irreflexiven Personalpronomen blieben immer im Nominativ
(Singular oder Plural): z. B. ich → ich, ihr (2. P. Pl.) → ihr, ihm → er, uns
→ wir.
• PPOS (PPOSS und PPOSAT): Die substituierenden (PPOSS)
und attribuierenden Possessivpronomen (PPOSAT) blieben immer
4.1. METHODIK
87
im Nominativ (Singular) in Anlehnung an die Dudengrammatik
([Dudenredaktion (2009)], S. 276): meine → mein, meinem → mein,
unsere → unser, ihr → ihr.
• PREL (PRELS und PRELAT): Das attribuierende Relativpronomen
(PRELAT) kommt im vorliegenden Korpus nicht vor. Das substituierende
Personalpronomen (PRELS) blieb in der lemmatisierten Form immer im
Nominativ.
• PRF: Das reflexive Personalpronomen blieb in der lemmatisierten Form
immer im Nominativ (Singular): „ich sah mich im Spiegel“ → „ich (PPER)
sehen (VVFIN) ich (PRF) in (APPRART) Spiegel (NN)“ (siehe auch
[Dudenredaktion (2009)], S. 274, Regel 367).
• PW (PWS, PWAT, PWAV): Die substituierenden Interrogativpronomen
(PWS) stehen aufgrund ihres Vorkommens durch die Formen wer, was
und welch- in der lemmatisierten Form ebenfalls als wer, was oder
welch-. Die attribuierenden Interrogativpronomen (PWAT) wurden in
Anlehung an die Dudengrammatik durch ihre Stammform repräsentiert
([Dudenredaktion (2009)], S. 328, Regel 439). In diesem Eintrag handelt
es sich zwar um die Abhandlung von welch- als Indefinitpronomen (als
Interrogativpronomen wird welch- in Regel 407 diskutiert). Aufgrund
der Einheitlichkeit sollte eine Lemmatisierung mit welch- auch an
dieser Stelle beibehalten werden. Andere Interrogativpronomen (z. B.
wessen) kommen im Korpus nicht vor. Die adverbialen Interrogativ- oder
Relativpronomen (PWAV) konnten aufgrund der Unveränderlichkeit ihrer
Wortform in dieser auch als Lemma beibehalten werden.
• PTK (PTKA, PTKANT, PTKNEG, PTKVZ, PTKZU): Die Partikeln wurden
aufgrund ihrer unveränderlichen Form als Wort dementsprechend in der
lemmatisierten Form aufgeführt.
• VA (VAFIN, VAIMP, (VAINF), (VAPP)): Alle Auxiliarverben wurden in der
lemmatisierten Form immer im Infinitiv aufgeführt.
• VM (VMFIN, VMINF, VMPP): Alle Modalverben wurden in der
lemmatisierten Form immer im Infinitiv aufgeführt.
• VV (VVFIN, VVINF, VVIMP, VVPP, VVIZU): Alle Vollverben wurden in der
lemmatisierten Form immer im Infinitiv aufgeführt.
88
KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK
Kürzel
Ge-
Sprache
Erst-
Zweit-
Geburts-
Angaben
Angaben
schl.
während
sprache
sprache
datum
zur Mutter
zum Vater
Geschw.
dt.
k.A.
2005-07-27
geb. 1972,
geb. 1972,
zwei
wiss.
Architekt
Geschwister
der
Aufnahmen
AV
MM
f
f
deutsch
deutsch
dt.
k.A.
2004-09-04
Mitarb.
(geb. 1995
Geschichte
und 2003)
geb. 1980,
geb. 1972,
ein Bruder
Studentin
Koch
(geb. 2008)
geb. 1977,
keine
der
Architektur
JS
m
deutsch
dt.
k.A.
2004-12-31
geb. 1974,
Deutsch-
Psychologe
lehrerin
RD
MK
m
m
deutsch
deutsch
dt.
dt.
k.A.
k.A.
2004-10-08
2005-09-09
geb. 1975,
geb. 1971,
eine
Soziologin
Sozialwiss.
Schwester
IPR
(geb. 2008)
geb. 1975,
Studentin
der
Biotechno-
geb. 1976,
Diplom-
ein Bruder
(geb. 2008)
Ingenieur
logie
LEO
m
deutsch
dt.
k.A.
2005-06-13
geb. 1964,
geb. 1965,
eine
Architektin
Architekt
Schwester
geb. 1977,
geb. 1973,
Studentin
Student der
Schwester
DaF,
Informatik
(geb. 2007)
geb. 1957,
eine
(geb. 2004)
LAR
f
deutsch
dt.
k.A.
2004-10-05
eine
Erz.-Wiss.
und Neuere
Dt.
Philologie
SO
f
deutsch
dt.
k.A.
2004-12-21
LUA
f
deutsch
dt.
k.A.
2005-07-02
JK
m
deutsch
dt.
k.A.
2004-09-20
LL
f
deutsch
dt.
franzö-
2005-03-02
geb. 1975,
keine
keine
Schwester
Angabe
Angabe
(geb. 2003)
zum Beruf
zum Beruf
geb. 1972,
Diplom-
geb. 1972,
Diplom-
Biologin
Ingenieur
k.A.
k.A.
geb. 1971,
geb. 1936,
eine
HS-Lehrerin
Künstler
Schwester
(Maler)
(geb. 2003)
geb. 1978,
geb. 1975,
zwei Brüder
Studentin
Kaufmann
(geb. 2002
sisch
MA
f
deutsch
dt.
k.A.
2006-05-23
Landsch.-Pl.
Tabelle 4.2: Gruppe der Testpersonen
keine
k.A.
und 2007)
Kapitel 5
Die Arbeit mit dem
CorpusAnalyser
In diesem Kapitel möchte ich den CorpusAnalyser vorstellen und
insbesondere die Anwendung im Hinblick auf die Zwecke der vorliegenden
Arbeit dokumentieren. Der CorpusAnalyser ist ein Open-Source-Programm
und wurde von Alexander Mack ([Mack (2014)]) den Anforderungen
dieser Arbeit entsprechend programmiert. Es kann kostenfrei verwendet
und/oder modifiziert werden nach den Richtlinien der GNU General Public
License1 . Die programmierte Datenbank basiert auf der Sprache SQlite3,
die dazugehörigen Skripte sind Perl- bzw. Bash-Shell-Skripte. In meiner nun
folgenden Beschreibung möchte ich detailliert auf die einzelnen Funktionen
eingehen, wobei ich mich an die Strukur halte, die der genannten Webseite
zugrunde liegt. 2
Grundlage für die Arbeit mit dem CorpusAnalyser (folgend CA) bilden
XML-Dateien, die zuvor in FOLKER (Abschnitt 4.1.4) oder EXMARaLDA
(Abschnitt 4.1.6) bearbeitet wurden. Relevante Teile der jeweiligen XML-Datei
wurden anschließend in eine SQlite3-Datenbank (Mack (2014)) überführt. Die
Datenbank selbst wurde als Datei auf einer Festplatte gespeichert. Nachdem
die Daten erstellt und in die Datenbank importiert worden sind, konnten
spezifische Abfragen an die Datenbank gestellt werden. Der Output wurde als
CSV-Datei3 in ein Zielverzeichnis geschrieben. Daneben existieren Skripte,
mit denen Audio (.wav)-Dateien modifiziert werden können. Auf diese Weise
konnten zum Beispiel nicht verwendete Teile der Audio-Dateien, die im Zuge
dieser Arbeit entstanden, stumm geschaltet werden, wobei die Informationen
dafür aus einer FOLKER-Datei gezogen wurden.
1
Weitere Informationen unter http://www.gnu.org/copyleft/gpl.html (zuletzt besucht am 22.10.14)
Alle Abbildungen in diesem Kapitel mit Bezug zum CA stammen von der Webseite:
https://github.com/fiedler-mack/CorpusAnalyser.
3
https://de.wikipedia.org/wiki/CSV_(Dateiformat) (letzter Zugriff 22.10.2014)
2
89
90
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
Die nun folgenden Beschreibungen nehme ich vor, weil ich dazu
ermutigen möchte, die Software zu installieren und zu nutzen. Vor allem
jenen, die auf dem Gebiet der Informationstechnik Erfahrung haben, dürfte
es nicht schwer fallen, eine Installation durchzuführen. Allen anderen
Interessierten empfehle ich, sich Hilfe bei erfahrenen Personen zu holen.
Nachdem die Software installiert und die jeweiligen Daten in die Datenbank
importiert worden sind, sollte es keine Schwierigkeiten bei der Anwendung
geben. Weiterführende Informationen befinden sich auf der Webseite
https://github.com/fiedler-mack/CorpusAnalyser. Im Folgenden sind die
Bezeichnungen für Skripte und Ordner in grüner Schrift, Befehle und
Befehlszeilen, die im Textfluss erwähnt werden, sind kursiv. Da die Skripte
auf die Ziele der vorliegenden Arbeit abgestimmt sind, werden auch
Abschnitte und Bezeichnungen enthalten sein, die erst in den folgenden
Kapiteln nachvollziehbar werden. Diese sind mit den entsprechenden
Querverweisen gekennzeichnet. Dennoch war es wichtig, das vorliegende
Kapitel vor den Analyse- und Diskussionsteil zu positionieren, da hier
wichtige methodische Schritte erläutert werden. Es sei daher empfohlen,
die vorliegenden Skripte nach der eigentlichen Analyse erneut zu lesen,
um die gewonnenen Ergebnisse in das Gesamtbild der Arbeit einordnen zu
können. Alle nun folgenden Arbeitsschritte wurden auf der Grundlage eines
Linux-Betriebssystems erstellt.
5.1
Die Inhalte im Überblick
Project folder structure
Die unten stehende Abbildung (Abbildung 5.1) veranschaulicht die für die
Datenbank empfohlene Ordnerstruktur (folder structure). Diese kann geändert
werden, wenn Skripte manuell aufgerufen oder Pfade in den Hilfsskripten
(xxx_all.sh) manuell bearbeitet werden.
Wie zu erkennen ist, existiert ein übergeordneter Ordner project root folder
mit mehreren Unterordnern. Der erste Unterordner ist zwangsläufig der CA
mit dem dazugehörigen Skript 01_wav_convert (siehe: 01_wav_convert).
Die einzelnen Skripte und deren Einsatz werden an späterer Stelle noch
besprochen (Abschnitt 5.2).
5.1. DIE INHALTE IM ÜBERBLICK
91
Abbildung 5.1: CA: project folder structure
Installation / Preparation
Für die Installation der Datenbank muss die eben beschriebene Ordnerstruktur
erstellt werden. Der project folder wird im Ordner root gespeichert (Abbildung
5.2).
Abbildung 5.2: CA: Installation
Copy / save your files to the right place
Abbildung 5.3 enthält die Anweisungen für ein korrektes Kopieren und Sichern
aller Dateien. Zunächst müssen die Wave-Dateien (wav-files) in den Ordner
01_input_files/wav kopiert werden. Anschließend werden FOLKER-Dateien
mit dem Programm FOLKER erstellt und im XML-Format mit dem Namen
name.flk gesichert. Der Name darf keine Leerzeichen enthalten und muss
den gleichen Namen tragen wie die dazugehörige Wave-Datei. Die so erstellte
FOLKER-Datei wird in den Ordner 01_input_files/folker kopiert. Anschließend
wird eine EXMARaLDA-Datei (.exb) mit dem Programm EXMARaLDA erstellt
92
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
und in den Ordner 01_input_files/exmaralda kopiert und dort gesichert.
Abbildung 5.3: CA: copy and save files
Convert wav-files
In einem vierten Schritt werden die Wave-Dateien konvertiert und alle nicht
verwendeten Passagen stumm geschaltet. Dies ist notwendig, weil nicht von
allen Probandinnen und Probanden die Einverständniserklärung der Eltern für
eine Veröffentlichung der Aufnahme vorliegt. Die Passagen werden auf diese
Weise entfernt.
Abbildung 5.4: CA: convert wav-files
Um die nicht verwendeten Passagen zu überschreiben, muss folgendes
Skript aufgerufen werden:
01_wav_convert/remove_non_used_area_in_wav_all.sh.
In einer Konsole/einem Terminal sollte nun zum project folder gewechselt
werden. Wenn alle Schritte aus Abbildung 5.4 erfolgreich durchgeführt wurden,
sollten die neu erstellten Wave-Dateien im folgenden Output-Directory zu
finden sein: 02_generated_files/wav.
Create the SQLite3 Database
In diesem Abschnitt geht es um die Frage, wie die SQLite3-Datenbank erstellt
wird. Auch dafür wird erneut mit einer Konsole/einem Terminal gearbeitet,
5.1. DIE INHALTE IM ÜBERBLICK
93
wobei zunächst in den project folder gewechselt wird. Von dort aus erfolgt
ein Wechsel zum CA, von wo aus mit dem Befehl ./create_database.sh
die Datenbank (Abbildung 5.5) erstellt wird. Nach einem erfolgreichen
Ausführen aller Schritte befindet sich die erstellte leere Datenbank im Ordner
02_generated_files/corpus.db.
Abbildung 5.5: CA: create database
Import exmaralda files to sqlite db
Im vorigen Abschnitt wurde gezeigt, wie eine zunächst leere Datenbank
erzeugt werden kann. Da zu einem großen Teil mit EXMARaLDA-Dateien
gearbeitet wird, soll nun gezeigt werden, wie diese wiederum in die Datenbank
importiert werden können.
Abbildung 5.6: CA: import exmaralda files
In einer Konsole/einem Terminal erfolgt dafür zunächst ein Wechsel in
den project folder. Durch das Ausführen des Befehls ./db_import_all.sh
../../01_input_files/exmaralda/ ../../02_generates_files/corpus.db befindet sich
94
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
eine aktualisierte Version der SQLite3-Datenbank unter
02_generated_files/corpus.db. In eben diesem Ordner befindet sich nun die
Datei corpus.db, welche geöffnet werden kann, um die importierten Daten auf
Richtigkeit zu überprüfen. Ein zweiter (und schnellerer) Weg zum Erstellen
der Datenbank ist laut Mack (2014) mit einer Administrator-Berechtigung
zu erreichen, wodurch über ein temporäres Dateisystem im Arbeitsspeicher
(tmpfs) gearbeitet wird ([Mack (2014)]). Die einzelnen Schritte sind in
Abbildung 5.6 unter Punkt 5.2 zu nachzulesen.
Generate all results (step 7-12) from db
Durch das Ausführen des Skriptes Generate all results (step 7-12) from db
(Abbildung 5.7) können alle (folgend beschriebenen) Skripte zusammen
ausgeführt werden, ohne dass diese einzeln aufgerufen werden müssen. Dies
ist dann hilfreich, wenn tatsächlich alle Abfragen (Tag count results, Typetoken
results, Typetoken Lemma results, Lemma Tag results, Lemma Bedeutung
results und Typetoken Bedeutung results) getätigt werden sollen, da somit
viele Arbeitsschritte gespart werden.
Abbildung 5.7: CA: generate all results
Generate Tag count results from db
An dieser Stelle wird der erste Schritt erläutert, der für die Analyse
der Verteilung der Wortarten unternommen wurde. Wie bereits in 4.1.6
beschrieben, wurden alle transkribierten Wörter mit ihren dazugörigen
POS-Tags und den entsprechenden Lemmata versehen. Da insbesondere
das Vorkommen der POS-Tags in Entsprechung zu den jeweiligen Lemmata
interessant ist, wurde unter anderem dieses Skript geschrieben. Mit
diesem werden zunächst alle unterschiedlichen Tags gezählt und dann
je nach Wunsch im Zielverzeichnis sortiert nach dem Namen, dem Alter
oder einer Kombination aus beidem abgelegt. Dazu erfolgt wieder ein
Wechsel in den project folder und anschließend in den CA-Ordner. Durch
den Befehl ./db_query_all-tag_count.sh werden alle Tags gezählt und
5.1. DIE INHALTE IM ÜBERBLICK
95
durch ./db_query_all_tag_count_name.sh in separaten Ordnern unter dem
jeweiligen Namen der Probandin/des Probanden gespeichert.
Abbildung 5.8: CA: generate tag count results
Typetoken results from db
Analog zu den Schritten im vorigen Abschnitt können alle Types mit den
entsprechenden Tokens ausgezählt werden. Wie gewohnt muss in project
folder denund anschließend in den CA gewechselt werden. Durch den
Befehl ./db_query_all_typetoken werden alle Tokens (also jedes syntaktische
Wort) und alle entsprechenden Types (alle unterschiedlichen Wörter
in ihrer lemmatisierten Form) gezählt und im Zielverzeichnis mit dem
dazugehörigen Kürzel der Probandin/des Probanden sowie in der jeweiligen
Altersgruppe abgelegt. Eine solche Analyse ist hilfreich bei der Ermittlung der
Type-Token-Relation. Wenn es um die Verteilung der POS-Tags geht, können
interessante Passagen zudem mit konkreten Beispielen belegt werden.
Abbildung 5.9: CA: type-token results
Typetoken Lemma results from db
Durch das Ausführen der Schritte in Abbildung 5.10 werden zusätzlich zu den
Tokens und Types je POS-Tag die Lemmata angezeigt. Nach dem Wechseln in
den project folder und anschließend in den CA-Ordner muss dazu der Befehl
./db_query_all_typetoken_lemma.sh ausgeführt werden.
96
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
Abbildung 5.10: CA: type-token-lemma results
Lemma Tags results from db
Der wahrscheinlich am häufigsten genutzte Befehl zur Ermittlung der
Wortartenverteilung in der vorliegenden Arbeit ist in Abbildung 5.11
beschrieben. Durch den Befehl ./db_query_all_lemma_tag.sh werden alle
Tags mit ihren dazugehörigen Lemmata in einzelne Ordner geschrieben.
Diese sind sortiert nach den Kürzeln der Probandinnen und Probanden in den
jeweiligen Altersgruppen.
Abbildung 5.11: CA: lemma tag results
Lemma Bedeutung results from db
Ein ebenso häufig verwendeter Befehl ist ./db_query_all_lemma_bedeutung.sh.
Durch das Ausführen werden alle Bedeutungen mit ihren dazugehörigen
Lemmata in einzelne Ordner, sortiert nach den jeweiligen Altersgruppen,
geschrieben.
Abbildung 5.12: CA: lemma bedeutung results
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
97
Typetoken_Bedeutung results from db
Der Befehl ./db_query_all_typetoken_lemma.sh bewirkt, dass alle Lemmata,
die pro Bedeutungskategorie vorkommen, sortiert und gezählt werden.
Die derartig sortierten Lemmata werden dann ihren Bedeutungskategorien
zugeordnet und in CSV-Dateien abgelegt.
Abbildung 5.13: CA: typetoken bedeutung results
5.2
Die Funktionen des CorpusAnalysers
Im nun folgenden Abschnitt möchte ich die für die vorliegende Arbeit
besonders wichtigen Funktionen bzw. Skripte des CA näher erläutern und
die Zwecke, die damit für diese Arbeit verfolgt werden, darstellen. Der CA
wurde, wie bereits erwähnt, für die Zwecke dieser Arbeit entwickelt. Dennoch,
oder gerade deswegen, hält er eine Fülle von Funktionen bereit, die jedoch
nicht immer zusammen genutzt werden müssen. Jede Unterfunktion kann
einzeln oder in Kombination unterschiedliche Zwecke erfüllen. Ich werde
auf jedes einzelne Skript eingehen, aber nur die für diese Arbeit relevanten
Befehlszeilen ausführlich beschreiben.
5.2.1
01_wave_convert
Diese Funktion hält die Skripte remove_non-used_area_in_wav.pl und
remove_non-used_area_in_wav_all.sh bereit. Das Perlskript überschreibt
nicht verwendete Passagen in den FOLKER-Dateien mit einem Stille-Modus.
Dafür zieht sich der CA die benötigten Zeitstempel aus der FOLKER-Datei
- also Anfang und Ende der zu überschreibenden Stelle. Zudem reagiert
der CA auf bereits transkribierte Passagen. Alle Passagen in FOLKER,
die nicht in irgendeiner Form transkribiert sind, wurden in dieser Arbeit mit
dem Stille-Modus überschrieben (siehe auch Abschnitt 4.1.5). Das Skript
remove_non-used_area_in_wav_all.sh ist ein sogenanntes Hilfsskript. Es
konvertiert alle Wave-Dateien vom Quellordner INPUT_WAV_DIR in den
Zielordner OUTPUT_WAV_DIR. Es verwendet außerdem FOLKER-Dateien
aus dem Ordner INPUT_FLK_DIR.
98
5.2.2
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
02_create_database
Hinter dieser Funktion befinden sich die Skripte create_database.sh
sowie db_table_structure.sqlite3. Ersteres erstellt eine SQLite3-Datenbank
corpus.db und initialisiert die Tabellen, die im zweiten Skript erläutert sind.
Wenn bereits eine Datenbank exisitiert, wird diese gelöscht und mit der neu
erstellten Datenbank überschrieben. Das Skript db_table_structure.sqlite3
enthält die Tabellenstruktur der Datenbank. Im Wesentlichen gehören dazu:
sprecher, aufnahme, textpostags, wavdatei. Abbildung 5.14 zeigt einen
Ausschnitt des Skripts zur Erstellung der Untertabelle sprecher. Enthalten
sind id (aufnahme-id), name (des kindes), kuerzel (des kindes), geschlecht,
sprache, erstsprache, geburtstdatum. Die ID, die auch bei den dazugehörigen
Aufnahmen als Fremdschlüssel (FOREIGN KEY ) unter der sprecher_id
vorkommt, wird dort eingetragen.
Abbildung 5.14: CA: table structure sprecher
Im Teil aufnahme (Abbildung 5.15) sind die Informationen id, sprecher_id
und wavdatei_id enthalten. Ferner sind enthalten der esb_name, datum,
kommentar und FOREIGN KEYs, die die IDs der entsprechenden sprecherund wavdatei-Tabellen auf die Informationen sprecher-id und wavdatei-id
verlinken. Die ID, welche auch bei der dazugehörigen textpostags-Tabelle als
Fremdschlüssel unter der aufnahme-id vorkommt, wird dort eingetragen. Der
esb_name ist die entsprechende EXMARaLDA-Datei. Das datum enspricht
dem Aufnahmedatum der Audio-Datei.
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
99
Abbildung 5.15: CA: table structure aufnahme
Der Unterpunkt textpostags (Abbildung 5.16) enthält alle Informationen
zu den einzelnen Wörtern, POS-Tags und Lemmata. Dazu gehören die
id, aufnahme_id, wort (bzw. Wort, das geäußert wurde), lemma (das
dem Wort entspricht), postag (POS-Tag des jeweiligen Lexems bzw.
Lemmas), unverständlich (einige geäußerte Wörter wurden als unverständlich
markiert und werden an dieser Stelle ausgeklammert). Die Punkte tli_start,
tli_start_intp, tli_end und tli_end_intp beziehen sich auf die Timeline-Start
und -endpunkte, an denen sich wort+postag+lemma+bedeutung in der
EXMARaLDA-Datei befinden. tli_start_intp und tli_end_intp stellen dabei
interpolierte Start- bzw. Endwerte in den Zeitabschnitten dar. Die Funktion der
Interpolierung, also das Schätzen von Zeitwerten, ist mit dem EXMARaLDA
Partitur Editor möglich. Bei der Arbeit mit EXMARaLDA kann es zu
unbenutzten Spalten oder Lücken in der Zeitskala kommen (z. B., weil ein
Wort entfernt wurde). Entstehen in einer Datei mehrerer solcher unbenutzter
Punkte, kann dies durch die Interpolierung ausgeglichen werden, indem die
leeren Spalten oder Lücken entfernt werden. Jeder Spalte werden dann
neue Zeitwerte zugeordnet. Hierbei ist allerdings Vorsicht geboten, wenn
die EXMARaLDA-Datei bei der späteren Analyse noch mit der jeweiligen
Wave-Datei kooperieren muss (etwa bei phonetischen Analysen). Durch
die Interpolierung verändern sich die absoluten Zeitwerte und entsprechen
nicht mehr denen der Wave-Datei. Durch die textpostags-vorgaenger_id
und die textpostags-nachfolger_id koennen in der Ausgabedatei Vorgänger
und Nachfolger zugeordnet und dadurch die geäußerten Wörter angezeigt
werden. Insbesondere bei der Analyse von Konnotationen ist dies hilfreich.
100
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
Abbildung 5.16: CA: table structure: textpostags
Abbildung 5.17 zeigt den Tabelleneintrag wavdatei. Dieser enthält die
Punkte id und name (der jeweiligen Wave-Datei). Jeder Wave-Datei wird
ein Name und eine ID in der Datenbank zugeordnet, welche auch bei den
entsprechenden Aufnahmen als Fremdschlüssel (FOREIGN KEY ) unter der
wavdatei-id eingetragen wird.
Abbildung 5.17: CA: table structure wav_datei
5.2.3
03_import_data
Unter der Funktion 03_import_data verbergen sich die Skripte
db_import_all.sh und db_import_exb_to_db3.pl. Das Perlskript liest
EXMARaLDA-Dateien im exportierten XML-Format aus und zieht die
relevanten Daten aus der jeweiligen Datei. Dann schreibt es die so erhaltenen
Werte in die SQLite3-Datenbank. Wenn ein Eintrag in der Datenbank bereits
existiert, wird der neue Eintrag ignoriert. Zum Erstellen einer aktualisierten
Datenbank, muss das Skript create_database.sh reinitialisiert werden.
Das Skript db_import_all.sh wird verwendet, um EXMARaLDA-Dateien
in die Datenbank zu importieren. Durch diesen Schritt werden alle
EXMARaLDA-Dateien (.exb) aus einem gegebenen Ordner gelesen und
der Inhalt der Dateien in die Datenbank geschrieben. Der Inhalt der
EXMARaLDA-Dateien wird durch das Unterskript db_import_exb_to_db3.pl in
SQLite3 importiert und exportiert.
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
5.2.4
101
04_query_db
Unter 04_query_db finden sich sechs Unterfunktionen mit den jeweiligen
Skripten, die im Folgenden genauer beschrieben werden sollen. Die
Skripte sind für die Analyse der Daten (Kapitel 6 und 7) essentiell. Durch
leichte Änderungen in den Befehlszeilen können beispielweise die gleichen
Untersuchungen in anderen Sprachen unternommen werden. Auch das
Untersuchen von Morphemen und Phonemen ist mit den Skripten möglich.
Doch dazu später mehr (Abschnitt 5.3). Alle Skripte bzw. deren wesentlichen
Teile befinden sich im Folgenden mit der entsprechenden Kennzeichnung in
blau unterlegter Schrift. Weiterhin wurden zu Zwecken der Übersichtlichkeit
die Kommentare in den Skripten ausgespart.
5.2.4.1
01_tag_count
Hinter dieser Funktion verbergen sich vier Skripte, deren Funktionen im
Folgenden näher erläutert werden.
db_query_tag_count.sh: Dieses Skript fragt die POS-Tags zwischen
den Zeitstempeln in der Datenbank ab und schreibt die Ergebnisse in eine
CSV-Datei. Anhand des nun folgenden Ausschnitts aus dem Skript sollen die
relevanten Befehle im Hinblick auf die Zwecke dieser Arbeit erläutert werden:
Skript: db_query_tag_count.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax postag outputdir"
exit
fi
DAYMIN=$1
DAYMAX=$2
POSTAG="$3"
OUTPUTDIR=$4
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sql
echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sql
echo -n ’textpostags.postag, textpostags.id ’ >> query.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sql
echo -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql
102
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"
cat query.sql | sqlite3 $DB > \
$OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
rm query.sql
Durch die Befehle DAYMIN und DAYMAX wird die Zeitspanne eingegrenzt,
innerhalb welcher die POS-Tags gezählt und geordnet werden sollen. Ferner
wird der Name und das Geburts- sowie Aufnahmedatum jeder Sprecherin
und jedes Sprechers zu jedem Zeitpunkt benötigt. Durch die Berechnung in
Juliandays4 können die Zeitangaben in Tagen gemacht werden. Das ist sehr
sinnvoll, weil nicht alle Monate die gleiche Anzahl an Tagen aufweisen. Zudem
rechnen Programme häufig in Tagen, wodurch weniger Ungenauigkeiten
entstehen können. Durch die Befehlszeilen
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sql
erfolgt zunächst die Ausgabe der Sprecherin/des Sprechers, die/der zu
einer der hier verwendeten drei Altersgruppen zugeordnet werden kann.
Die Zuordnung wird errechnet durch die Information des Geburts- und
Aufnahmedatums. Zusätzlich erhält man die POS-Tags der jeweiligen
Sprecherin/des jeweiligen Sprechers in einem bestimmten Zeitraum in
Verbindung mit dem jeweilig geäußerten Wort und der zugeordneten ID.
Diese Informationen zieht das Skript aus der erstellten Datenbank aus
den Untertabellen sprecher, aufnahme und textpostags. Dabei werden (in
einem folgenden Skript) für den Startpunkt ein Tagesminimum (DAYMIN)
sowie ein Tagesmaximum (DAYMAX ), also eine Zeitspanne von DAYMIN
bis DAYMAX, in Juliandays festgelegt, die für die jeweilige Abfrage in Frage
kommt. Weiterhin können ausgewählte oder alle POS-Tags gleichzeitig für
eine Abfrage festgelegt werden (Skript: db_query_all_tag_count.sh). Des
Weiteren ist eine Festlegung ausgewählter bzw. aller Sprecher/innen möglich,
die in Verbindung mit diesen Informationen analysiert werden sollen.
db_query_all_tag_count.sh: Dieses Skript fragt die angeforderten
POS-Tags zwischen den definierten Zeitstempeln aus der SQLite3-Datenbank
ab und schreibt die Ergebnisse in eine CSV-Datei. Die Abfrage der
Datenbank wird durch das Unterskript db_query_tag_count.sh ausgeführt.
Laut Mack (2014) müssen die Variblen DAYMINMAX, POSTAGS und
OUTPUT_DIR je nach dem Ziel der Abfrage im Skript geändert bzw.
4
https://en.wikipedia.org/wiki/Julian_day (letzter Zugriff 22.10.2014)
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
103
angepasst werden ([Mack (2014)]). Im unten aufgeführten Skript wird
ersichtlich, dass die Zeitspanne alle drei Altersgruppen enthält: 1281:1495,
1496:1708, 1709:1983. An dieser Stelle kann variiert werden. Es kann in einer
nächsten Abfrage zum Beispiel nur die Altersgruppe 1281:1495 berücksichtigt
werden. Dementsprechend sieht die Befehlszeile folgendermaßen aus:
DAYMINMAX=“1281:1495“. Im Anschluss daran stehen hinter der Variable
POSTAGS alle POS-Tags, die in der Analyse auftreten können. Sollen
zum Beispiel lediglich die Eigennamen (NE) in der gewählten Altersgruppe
untersucht werden, so wird nur POSTAGS=“NE“ in die Befehlszeile gesetzt.
Soll untersucht werden, welche und wieviele Adjektive und Konjunktionen in
der gewählten Altersgruppe je Kind vorkommen, dann würde die Befehlszeile
POSTAGS=“ADJA ADJD KOKOM KON KOUS“ lauten (alle POS-Tags
ohne Kommata, nur mit Leerzeichen, voneinander getrennt aufführen!).
Werden hingegen alle POSTAGS je Kind untersucht, dann müssen alle
POS-Tags aufgeführt werden. Hinter OUTPUT_DIR= wird der Pfad für
das Ausgabeverzeichnis angegeben, also der Ort, an dem der Ordner mit
den Ergebnissen liegen soll. Im Falle der vorliegenden Arbeit liegt das
OUTPUT_DIR unter ../../../03_db_query_results/tag_count.
Skript: db_query_all_tag_count.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
OUTPUT_DIR=../../../03_db_query_results/tag_count
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_tag_count.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
db_query_tag_count_name.sh: Das Skript arbeitet im Wesentlichen wie
das Skript db_query_tag_count.sh. Der Unterschied ist, dass die POS-Tags
nicht nur nach der Altersgruppe sortiert werden, sondern dass auch eine
Zuordnung zur jeweiligen Sprecherin/zum jeweiligen Sprecher stattfindet.
Die Ergebnisse werden wie gewohnt in eine CSV-Datei geschrieben. Die
104
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
Befehlszeilen des vorliegenden Skripts entsprechen größtenteils denen des
Skripts db_query_tag_count.sh. Zusätzlich existieren die Befehlszeilen
echo -n $NAME >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql
echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
Durch das Einfügen dieser Befehle wird erreicht, dass sich die Abfrage
speziell auf eine/n Sprecher/in bezieht (mehr dazu im nächsten Skript).
Skript: db_query_tag_count_name.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ] then
echo "usage $0 daymin daymax postag outputdir name"
exit
fi
DAYMIN=$1
DAYMAX=$2
POSTAG="$3"
OUTPUTDIR=$4
NAME=$5
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql
echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sql
echo -n ’textpostags.postag, textpostags.id ’ >> query.sql
echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sql
echo -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND sprecher.kuerzel = "’ >> query.sql
echo -n $NAME >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql
echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘
if [ $COUNT -gt 0 ] ; then
echo -n "$COUNT datarows found: "
echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"
cat query.sql | sqlite3 $DB > \
$OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
else
echo "$COUNT datarows found: "
fi
rm query.sql
db_query_all_tag_count_name.sh: Dieses Skript fragt die POS-Tags zwischen
den Zeitstempeln unter Berücksichtigung des jeweilig gewählten Namen
in Kurzform aus der Datenbank ab. Die Resultate werden wie gewohnt in
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
105
eine CSV-Datei geschrieben. Die Abfrage aus der Datenbank wird durch
das Unterskript db_query_tag_count.sh initiiert. Die Variablen DAYMINMAX,
POSTAGS, NAMES und OUTPUT_DIR können und sollten je nach dem Ziel
der jeweiligen Abfrage eigenständig angepasst werden. Die Befehlszeilen
entsprechen denen des Skripts db_query_all_tag_count.sh mit dem Zusatz,
dass hier auch die einzelnen Sprecher/innen ausgewählt werden können.
Wenn eine derartige Abfrage mit allen Sprecherkürzeln ausgeführt wird, erhält
man alle POS-Tags in Zuordnung zur jeweiligen Sprecherin/zum jeweiligen
Sprecher, sortiert nach der Altersgruppe als Ergebnis. Der entsprechende
Überordner kann zum Beispiel all_tag_count_name heißen. Als Unterordner
können idealerweise drei Unterordner für je eine Altersgruppe angelegt
werden. Hinter jedem dieser drei Ordner sollten in logischer Konsequenz
jeweils Ordner auftauchen, die einer bestimmten Sprecherin/einem
bestimmten Sprecher zuordenbar sind. In diesen Ordnern werden die
jeweiligen POS-Tags in einer CSV-Datei abgelegt, die von der jeweiligen
Sprecherin/vom jeweiligen Sprecher in der betreffenden Altersgruppe
geäußert wurden bzw. dem jeweiligen syntaktischen Wort zugeordnet wurden.
Dies stellt nur eine mögliche Ordnerstruktur dar, die selbstverständlich je
nach Bedarf geändert werden kann. Ferner ist es vorstellbar, dass nicht
immer alle POS-Tags je Sprecher/in und Altersgruppe von der Datenbank
abgefragt werden. Sollen beispielsweise nur die Verben analysiert werden,
die der Sprecher MK im Zeitraum 1496 bis 1708 verwendet hat, dann müsste
die Zeile DAYMINMAX=“1496:1708“ auf diese Weise eingegrenzt werden.
Damit werden lediglich POS-Tags abgefragt, die in diesem Zeitraum geäußert
wurden. Durch Verändern der nächsten Zeile in
POSTAGS="VAFIN VAIMP VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP"
werden ausschließlich alle Verben in der genannten Altersgruppe
berücksichtigt. Da jedoch nicht alle Sprecher/innen in Betracht gezogen
werden, sondern nur MK, muss der Befehl NAMES geändert werden in
NAMES=“MK“. Ein anderes Szenario wäre es beispielsweise herauszufinden,
wie viele Eigennamen (NE) in allen Altersgruppen von jedem einzelenen Kind
geäußert werden. Dann müsste folgende Befehlszeile eingefügt werden:
DAYMINMAX=“1281:1495 1496:1708 1709:1983“
Für die Abfrage der POS-Tags genügt in diesem Falle POSTAGS=“NE“ ; die
Zeile der Sprecher/innen muss wieder alle Namen enthalten, also
106
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
NAMES="AV JK JS LAR LEO LL LUA MA MK MM SO RD".
Das vollständige Skript zum
sieht folgendermaßen aus:
Befehl
db_query_all_tag_count_name.sh
Skript: db_query_all_tag_count_name.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
NAMES="av mm js rd mk leo lar so lua jk ll ma"
OUTPUT_DIR=../../../03_db_query_results/tag_count
for n in $NAMES ; do
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
echo -n "$DAYMIN $DAYMAX $i "
echo "$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n"
./db_query_tag_count_name.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n
done
rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
done
done
5.2.4.2
02_typetoken
db_query_typetoken.sh: Mit diesem Skript werden die Types und die
dazugehörigen Tokens zwischen den Zeitstempeln der EXMARaLDA-Datei
abgefragt und in eine CSV-Datei geschrieben. Des Weiteren werden alle
vorkommenden Wörter je POS-Tag und Altersgruppe in einer separaten
Wortliste aufgeführt. Was sich recht simpel anhört, ist spätestens bei
der Betrachtung des dazugehörigen Skripts eine lange Abfolge von
Befehlszeilen. Der Befehl, mit dem die eben genannte Wortliste erstellt wird,
ist SELECT textpostags.wort; man wählt also das jeweilige POS-Tag mit dem
dazugehörigen Wort (nicht Lemma). Benötigt werden dafür die Informationen
sprecher, aufnahme, textpostags aus der Datenbank. Außerdem soll erneut
die Zeit eingegrenzt und die Ergebnisse geordnet in den drei Altersgruppen
anzeigt werden. Durch die Befehlszeilen:
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
107
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
erhält die Datenbank die Information, dass die POS-Tags jeder
Sprecherin/jedes Sprechers zu jedem Aufnahmedatum abgefragt werden
sollen. Wichtig im vollständigen Skript ist die Variable WORTLIST und die
dazugehörige vollständige Befehlszeile
WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘
Dadurch werden alle vorkommenden Wörter in einer Liste angezeigt.
Abbildung 5.18: CA: Wortliste 1281 bis 1495 ART
Abbildung 5.18 zeigt beispielhaft die Wortliste aller Artikel, die von allen
Kindern im Zeitraum 1281 bis 1495 geäußert wurden. In einer weiteren
Abfrage (query2.sql) sollen schließlich die Types und die Tokens mit den
dazugehörigen Sprecherinnen und Sprechern identifiziert und in eine Datei
geschrieben werden. An dieser Stelle möchte ich die einzelnen Schritte
nicht detailliert beschreiben; das Skript zeigt alle nötigen Befehle, die für
eine Abfrage und Ausgabe der Types und Tokens je Sprecher/in in jeder
Altersgruppe notwendig sind. Es soll jedoch erwähnt werden, dass durch wc -l
(word count, list) alle Wörter gezählt und aufgelistet werden. Insbesondere bei
linguistischen Analysen, die die Häufigkeit von Wörtern, Lemmata und/oder
anderen sprachlichen Einheiten ermitteln, ist dies von großer Relevanz.
Zudem wird durch den Befehl erreicht, dass alle Wörter in alphabetischer
Reihenfolge erscheinen.
108
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
Skript: db_query_typetoken.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax postag outputdir"
exit
fi
DAYMIN=$1
DAYMAX=$2
POSTAG="$3"
OUTPUTDIR=$4
echo -n ’SELECT textpostags.wort ’ > query.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
cat query.sql | sqlite3 $DB | sort | uniq > \
$OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt
WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘
CNT=0
WORDCNTSUM=0
rm -f $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
for j in $WORTLIST ; do
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query2.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query2.sql
echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query2.sql
echo -n ’textpostags.postag, textpostags.id FROM ’ >> query2.sql
echo -n ’sprecher,aufnahme,textpostags WHERE ’ >> query2.sql
echo -n ’julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql
echo -n $DAYMIN >> query2.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql
echo -n $DAYMAX >> query2.sql
echo -n ’ AND textpostags.postag = "’ >> query2.sql
echo -n $POSTAG >> query2.sql
echo -n ’" AND textpostags.wort = ’\’ >> query2.sql
echo -n $j\’ >> query2.sql
echo ’ AND aufnahme.sprecher_id = sprecher.id AND ’ >> query2.sql
echo -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql
echo -n "$j|" \ >>\
$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘
WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1))
echo $WORDCNT >>\
$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
done
echo "—-|—-" >>\
$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
echo "$CNT|$WORDCNTSUM" >>\
$OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
109
rm -f query.sql
rm -f query2.sql
db_query_all_typetoken.sh: Dieses Skript fragt ebenso die Types und
Tokens zwischen den einzelnen Zeitstempeln in der EXMARaLDA-Datei
aus der Datenbank ab und schreibt die Ergebnisse in eine CSV-Datei. Die
Abfrage der Datenbank an sich wird durch das oben angeführte Unterskript
db_query_typetoken.sh ausgeführt. In diesem Skript wird nun einerseits die
Altersgruppe, für die die Types und Tokens erfragt werden, eingegrenzt und
andererseits die POS-Tags festgelegt, für die die entsprechenden Types und
Tokens erfragt werden sollen. Es ist sehr sinnvoll, wenn nicht gar unerlässlich,
an dieser Stelle im Skript die Types und die Tokens an Hand der POS-Tags
zu identifizieren. Anderenfalls käme es an einigen Stellen der Analyse zu
zweideutigen Ergebnissen und die Wörter sowie die Lemmata würden trotz
ihrer Formgleichheit unterschiedlichen POS-Tags zugeordnet. In diesem
Zusammenhang soll das Wort schwimmen mit dem dazugehörigen Lemma
schwimmen betrachtet werden. In einer Aussage könnte es heißen „Wir
schwimmen im See“ und in einer nächsten Aussage „Wir gehen heute mit
dem Kindergarten zum Schwimmen“. In beiden Fällen wäre das Lemma
schwimmen, aber die POS-Tags unterscheiden sich. Demnach ist schwimmen
in der ersten Aussage ein finites Vollverb (VVFIN), Schwimmen in der zweiten
Aussage müsste streng genommen als Nomen (NN) getaggt werden (siehe
dazu aber den Eintrag unter dem Stichwort Nomen in Abschnitt 4.1.7). Das
Skript geht bei seiner Suche aus von den POS-Tags und listet am Ende
sortiert nach den POS-Tags alle Types mit den dazugehörigen Tokens auf.
Eine Möglichkeit wäre es, nur die Types und Tokens abzufragen, die in
der Kategorie VVINF und in der Altersgruppe 1709:1983 vorkommen. In
diesem Fall stünde in der ersten Zeile DAYMINMAX=“1709:1983“ und in
der folgenden Zeile POSTAGS=“VVINF“. Das Programm benötigt also die
Information der POS-Tags für die Ausgabe der Types und Tokens, weil dies in
den EXMARaLDA-Dateien sowie in der Datenbank so organisiert ist.
Skript: db_query_all_typetoken.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
OUTPUT_DIR=../../../03_db_query_results/typetoken
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
110
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_typetoken.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
5.2.4.3
03_typetoken_lemma
db_query_typetoken_lemma.sh: An dieser Stelle werden die Types und
die Tokens abgefragt; die Lemmata werden mit den dazugehörigen
Häufigkeiten in einer CSV-Datei je POS-Tag ausgegeben. Da sich der
erste Teil des Skripts nur unwesentlich vom Skript db_query_typetoken
unterscheidet, soll dieser hier nicht näher beschrieben werden. Die
Funktion Erstellen einer Wortliste entspricht der des eben erwähnten
Skripts db_query_typetoken mit dem Unterschied, dass es sich hier um die
Lemmata (SELECT textpostags.lemma) und nicht die tatsächlich geäußerten
Wörter (SELECT textpostags.wort) handelt. Im unteren Teil des Skripts ist
erkennbar, dass unter anderem die Befehlszeile ’“ AND textpostags.lemma
= ’\’“ an Stelle von ’“ AND textpostags.wort = ’\’“ enthalten ist. Diese
zweite Abfrage (query2.sql) ist insgesamt weniger komplex als die zweite
Abfrage (query2.sql) im Skript db_query_typetoken, weil an dieser Stelle
nur die Lemmata mit den dazugehörigen POS-Tags relevant sind, nicht
aber alle geäußerten Wörter zu jedem Lemma. Zusätzlich ermöglicht das
Skript db_query_typetoken_lemma.sh eine Types-zu-Tokens-Analyse jedes
einzelnen Tags sowie der zusammengefassten POS-Tags. Als Ergebnis erhält
man die prozentualen Anteile, wie sie in Kapitel 6 vorzufinden sind.
Skript: db_query_typetoken_lemma.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)"
exit
fi
DAYMIN=$1
DAYMAX=$2
POSTAGLIST="$3"
OUTPUTDIR=$4
POSTAG_QUERY="AND ( "
for i in $(echo $POSTAGLIST | tr "+" "\n") ; do
POSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’
POSTAG_QUERY=${POSTAG_QUERY}${i}
POSTAG_QUERY=${POSTAG_QUERY}’" ’
POSTAG_QUERY=${POSTAG_QUERY}"OR "
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
111
done
POSTAG_QUERY=${POSTAG_QUERY}’0 ) ’
echo -n ’SELECT textpostags.lemma ’ > query.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql echo -n ’ ’ >> query.sql
echo -n $POSTAG_QUERY >> query.sql
echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘
echo ", $COUNT entries found"
if [ $COUNT -gt 0 ] ; then
cat query.sql | sqlite3 $DB | sort | uniq > \
$OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txt
WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txt‘
CNT=0
WORDCNTSUM=0
rm -f $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv
for j in $WORTLIST ; do
echo -n ’SELECT textpostags.postag ’ > query2.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql
echo -n $DAYMIN >> query2.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql
echo -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sql
echo -n $POSTAG_QUERY >> query2.sql
echo -n ’ AND textpostags.lemma = ’\’ >> query2.sql
echo -n $j\’ >> query2.sql
echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql
echo -n "$j|" \ >>
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv
WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘
WORDCNTSUM=$((WORDCNTSUM + WORDCNT))
CNT=$((CNT + 1))
echo $WORDCNT >>
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv
done
echo "—-|—-" >>\
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv
echo "$CNT|$WORDCNTSUM" >>\
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv
echo "${POSTAGLIST}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM" >>\
$OUTPUTDIR/../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv
rm -f query2.sql
fi
rm -f query.sql
db_query_all_typetoken_lemma.sh: Dieses Skript fragt die Types und
die Tokens zwischen den einzelnen Zeitstempeln in der jeweiligen
EXMARaLDA-Datei aus der Datenbank ab und schreibt die Ergebnisse in
112
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
eine CSV-Datei. Die Abfrage der Datenbank an sich wird durch das oben
angeführte Unterskript db_query_typetoken_lemma.sh ausgeführt. Es ist
mit dieser Abfrage möglich, alle oder nur einige POS-Tags abzufragen und
dadurch nur die Lemmata ausgeben zu lassen, die den jeweiligen POS-Tags
zogeordnet sind. Weiterhin ist es möglich, (wie in allen „_all_...sh“-Skripten)
die Altersgruppen einzugrenzen oder aber alle gleichzeitig abzufragen.
Skript: db_query_all_typetoken_lemma.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD"
POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN"
POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF"
POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWS
POSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP"
POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY"
OUTPUT_DIR=../../../03_db_query_results/typetoken_lemma
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo -n $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_typetoken_lemma.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
CNTSUM=0
WORDCNTSUM=0
if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv ] ; then
FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘
for i in $FILE ; do
if [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then
TAG=‘echo ${BASH_REMATCH[1]}‘
CNT=‘echo ${BASH_REMATCH[2]}‘
WORDCNT=‘echo ${BASH_REMATCH[3]}‘
if [[ $TAG =~ .*\+.* ]] ; then
CNTSUM=$((CNTSUM + CNT))
WORDCNTSUM=$((WORDCNTSUM + WORDCNT))
fi
fi
done
if [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; then
FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘
rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp
for i in $FILE ; do
if [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then
CNT=‘echo ${BASH_REMATCH[1]}‘
WORDCNT=‘echo ${BASH_REMATCH[2]}‘
WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
113
CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘
echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\
>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp
fi
done
echo "—-|—-|—-|—-|—-|—-|—-|—-" >>
$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp
echo "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000" >>
$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp
mv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp
$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv
fi
fi
fi
done
db_query_typetoken_lemma_name.sh: Wie auch die vorhergehenden Skripte
zur Ermittlung der Types und der Tokens fragt dieses Skript die Types
und Tokens zwischen den Zeitstempeln der EXMARaLDA-Dateien aus der
Datenbank ab. Im Gegensatz zum Skript db_query_typetoken_lemma.sh
werden hier nicht die Lemmata aller Sprecher/innen insgesamt abgefragt und
sortiert nach den POS-Tags in den drei Altersgruppen ablegt. Vielmehr erfolgt
die Sortierung bei der Abfrage durch dieses Skript auf eine andere Weise.
Zunächst werden die erfragten Lemmata ihren jeweiligen POS-Tags in den
jeweiligen Altersgruppen zugeordnet. Übergeordnet ist dabei die jeweilige
Sprecherin/der jeweilige Sprecher (in dieser Arbeit immer als Kürzel). Es
könnten zum Beispiel alle Lemmata, die AV in der Zeitspanne 1281 bis
1495 hervorgebracht hat, abgefragt und als Ergebnis in einer CSV-Datei
ausgegeben werden. Es besteht auch hier wieder die Möglichkeit, die
geäußerten Lemmata je Sprecher/in als alphabetisch geordnete Wortliste
anzeigen zu lassen. Im unteren Abschnitt des Skripts stehen jene Befehle
(alle query2.sql-Befehle), die notwendig sind, um die Lemmata unter
Berücksichtigung der einzelnen Sprecher/innen abfragen und anzeigen
lassen zu können. Mit diesem Skript besteht die Möglichkeit einer anteiligen
Berechnung der Types zu den Tokens je POS-Tag und Sprecher/in bzw. je
zusammengefasster POS-Tag-Gruppe je Sprecher/in. Als Ergebnis werden
die prozentualen Anteile ausgegeben, wie sie in Abschnitt 6.3 zu finden sind.
Skript: db_query_typetoken_lemma_name.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ]
then
echo "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)"
exit
fi
DAYMIN=$1
DAYMAX=$2
114
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
POSTAGLIST="$3"
OUTPUTDIR=$4
NAME=$5
POSTAG_QUERY="AND ( "
for i in $(echo $POSTAGLIST | tr "+" "\n") ; do
POSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’
POSTAG_QUERY=${POSTAG_QUERY}${i}
POSTAG_QUERY=${POSTAG_QUERY}’" ’
POSTAG_QUERY=${POSTAG_QUERY}"OR "
done
POSTAG_QUERY=${POSTAG_QUERY}’0 ) ’
echo -n ’SELECT textpostags.lemma ’ > query.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) - ’ >> query.sql
echo -n ’julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ ’ >> query.sql
echo -n $POSTAG_QUERY >> query.sql
echo -n ’ AND sprecher.kuerzel = "’ >> query.sql
echo -n $NAME >> query.sql
echo ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘
echo ", $COUNT entries found"
if [ $COUNT -gt 0 ] ; then
cat query.sql | sqlite3 $DB | sort | uniq \
> $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txt
WORTLIST=\
‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txt‘
CNT=0
WORDCNTSUM=0
rm -f\
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv
for j in $WORTLIST ; do
echo -n ’SELECT textpostags.postag ’ > query2.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql
echo -n $DAYMIN >> query2.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql
echo -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sql
echo -n $POSTAG_QUERY >> query2.sql
echo -n ’ AND sprecher.kuerzel = "’ >> query2.sql
echo -n $NAME >> query2.sql
echo -n ’" AND textpostags.lemma = ’\’ >> query2.sql
echo -n $j\’ >> query2.sql
echo -n ’ AND aufnahme.sprecher_id ’ >> query2.sql
echo -n ’= sprecher.id AND ’ >> query2.sql
echo -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql
echo -n "$j|" \ >>\
$OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv
WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘
WORDCNTSUM=$((WORDCNTSUM + WORDCNT))
CNT=$((CNT + 1))
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
115
echo $WORDCNT \
>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv
done
echo "—-|—-"\
>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv
echo "$CNT|$WORDCNTSUM"\
>> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv
echo "${POSTAGLIST}|${DAYMIN}|${DAYMAX}|${NAME}|$CNT|$WORDCNTSUM"\
>> $OUTPUTDIR/../../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${NAME}.csv
rm -f query2.sql
fi
rm -f query.sql
db_query_all_typetoken_lemma_name.sh: In Entsprechung zu den anderen
„_all_...sh“-Skripten wird die Abfrage durch dieses Skript durch das
dazugehörige Unterskript, in diesem Falle db_query_typetoken_lemma_
name.sh, ausgeführt. Unter Verwendung dieses Skripts bestehen zahlreiche
Möglichkeiten, die Abfragen zu kombinieren und auszuführen. Drei der
wichtigsten Variablen sind: DAYMINMAX, POSTAGS und NAMES. Durch eine
Variation von DAYMINMAX können die Zeitäume eingegrenzt werden. Es
gibt die Möglichkeit alle drei Altersgruppen zusammen zu untersuchen oder
aber nur eine oder zwei. Ebenso können alle POS-Tags zusammen abgefragt
werden (in einer, zwei oder drei Altersgruppe/n) oder nur bestimmte. In diesen
Fällen müssen die Zeilen hinter POSTAGS= angepasst werden. Durch den
Befehl NAMES entsteht die Möglichkeit, alle Sprecher/innen in die Analyse
einzubeziehen oder nur eine/n oder einige ausgewählte. Um dies an einem
Beispiel zu verdeutlichen, soll angenommen werden, dass nur die Lemmata,
die sich unter den Adjektiven (ADJA, ADJD) in der Altersgruppe 1709 bis 1983
befinden, von Interesse sind. Zusätzlich beziehen sich diese Informationen
nur auf den Sprecher LEO. In diesem Fall sehen die Befehle betreffend
DAYMINMAX, POSTAGS und NAMES folgendermaßen aus:
DAYMINMAY=“1709:1983“ POSTAGS=“ADJA ADJD“ NAMES=“LEO“
Das vollständige Skript besteht aus den folgenden Zeilen:
Skript: db_query_all_typetoken_lemma_name.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD"
POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN"
POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF"
POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWS
POSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP"
116
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY"
NAMES="av mm js rd mk leo lar so lua jk ll ma"
OUTPUT_DIR=../../../03_db_query_results/typetoken_lemma
for n in $NAMES ; do
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
echo -n $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
./db_query_typetoken_lemma_name.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n
done
rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
CNTSUM=0
WORDCNTSUM=0
if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv ] ; then
FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘
for i in $FILE ; do
if [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then
TAG=‘echo ${BASH_REMATCH[1]}‘
CNT=‘echo ${BASH_REMATCH[2]}‘
WORDCNT=‘echo ${BASH_REMATCH[3]}‘
if [[ $TAG =~ .*\+.* ]] ; then
CNTSUM=$((CNTSUM + CNT))
WORDCNTSUM=$((WORDCNTSUM + WORDCNT))
fi
fi
done
if [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; then
FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘
rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp
for i in $FILE ; do
if [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then
CNT=‘echo ${BASH_REMATCH[1]}‘
WORDCNT=‘echo ${BASH_REMATCH[2]}‘
WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘
CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘
echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\
>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp
fi
done
echo "—-|—-|—-|—-|—-|—-|—-|—-"\
>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp
echo "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000"\
>> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp
mv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp\
$OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv
fi
fi
fi
done
done
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
5.2.4.4
117
04_lemma_tag
db_query_lemma_tag.sh: Mit dieser Abfrage können die Lemmata (in
Entsprechung zu ihren Wörtern) abgefragt werden. Dabei werden - wie
auch bei den vorhergehenden Skripten - die POS-Tags als Referenz
verwendet. Die Abfolge der Befehle des dazugehörigen Skripts ist unten
dargestellt. Im Ergebnis werden alle Lemmata je POS-Tag und Altersgruppe
in einer CSV-Datei ausgegeben und gespeichert. Relevant für das Skript,
um ein solches Ergebnis zu erhalten, sind daher alle Informationen zum
Alter der Sprecher/innen zu einem gegebenen Zeitpunkt, die geäußerten
Lemmata mit den dazugehörigen POS-Tags sowie den dazugehörigen
Wörtern. Abbildung 5.19 zeigt den Ausschnitt einer solchen CSV-Datei
als Ergebnis dieser Abfrage. Anhand dieser Grafik ist erkennbar, wie das
Programm die geäußerten Wörter einer Altersgruppe zuordnet. In der linken
Spalte steht das Geburtsdatum (2005-07-02) des Kindes (hier: LUA), in
der zweiten Spalte das Aufnahmedatum (2009-09-29). Die Subtraktion
des Aufnahmedatums vom Geburtsdatum ergibt eine Zahl in Juliandays,
die sich einer der hier verwendeten drei Altersgruppen zuordnen lässt. In
diesem Fall fällt diese Aufnahme in Gruppe 1496 bis 1708. Die dritte Spalte
beinhaltet die Aufnahme-ID. In der vierten Spalte befindet sich der Name der
entsprechenden EXMARaLDA-Datei, also 023_LUA_lem.exb. In der fünften
Spalte steht das geäußerte Wort und in der folgenden sechsten Spalte das
entsprechende Lemma. In der ersten Zeile befindet sich die Wortform einen
mit dem dazugehörigen Lemma ein. In der siebten Spalte wird schließlich
das entsprechende POS-Tag vermerkt (hier: ART). Diese Spalte erscheint
zunächst überflüssig, da sie für die vorliegende Datei immer den POS-Tag
ART enthält. Wie später zu sehen sein wird, kann die Abfrage aber auch so
gestaltet werden, dass die Lemmata pro Kind angezeigt werden (und nicht
pro Altersgruppe). Dann ist es wiederum sinnvoll, die POS-Tags mit ausgeben
zu lassen. Die letzte Spalte enthält die Kennzahlen der jeweiligen Zeitslots in
der EXMARaLDA-Datei, was für diese Zwecke aber irrelevant ist.
Skript: db_query_lemma_tag.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax postag outputdir"
exit
fi
DAYMIN=$1
DAYMAX=$2
118
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
POSTAG="$3"
OUTPUTDIR=$4
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql
echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql
echo -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sql
echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
cat query.sql | sqlite3 $DB \
> $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
rm query.sql
Abbildung 5.19: CA: Beispiel lemma_tag 1496 bis 1708
db_query_all_lemma_tag.sh: Auch mit diesem Skript können Abfragen
zu den von den Sprecherinnen und Sprechern verwendeten Lemmata
getätigt werden. Dabei wird die tatsächliche Abfrage durch das Unterskript
db_query_lemma_tag.sh vorgenommen. Es ist möglich, einen oder mehrere
Zeiträume festzulegen. Es können eine, zwei oder alle drei Altersgruppe/n
in die Analyse einbezogen werden. Es können - ebenso wie auch bei den
vorherigen „_all_...sh“-Skripten die POS-Tags festgelegt werden, die in den
angegebenen Gruppen analysiert werden sollen. Analog zu den anderen
„_all_...sh“-Skripten wurden für den Analyseteil der vorliegenden Arbeit die
Lemmata aller POS-Tags in allen Altersgruppen ausgewertet (siehe auch
Kapitel 6 und hier besonders Abschnitt 6.2).
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
119
Abbildung 5.20: CA: Beispiel all_lemma_tag_MA 1281 bis 1495
Skript: db_query_all_lemma_tag.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD"
POSTAGS="$POSTAGS FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER"
POSTAGS="$POSTAGS PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU"
POSTAGS="$POSTAGS PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN"
POSTAGS="$POSTAGS VVIMP VVINF VVIZU VVPP XY"
OUTPUT_DIR=../../../03_db_query_results/lemma_tag
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_lemma_tag.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
db_query_lemma_tag_name.sh: Dieses Skript fragt die Lemmata in Bezug
auf die Sprecher/innen ab und schreibt die Ergebnisse in eine CSV-Datei.
Es werden also alle Lemmata unter Berücksichtigung der POS-Tags und
der Altersgruppe erfragt und dann der jeweiligen Sprecherin/dem jeweiligen
Sprecher zugordnet. Beim Ablegen der CSV-Datei wird zunächst wieder nach
der Altersgruppe unterschieden (analog zum Skript db_query_lemma_tag.sh)
und anschließend nach Sprecherinnen und Sprechern sortiert. Bei der
Abfrage durch das Skript db_query_lemma_tag.sh wurde an dieser Stelle
nach POS-Tags sortiert. Innerhalb einer jeden Datei kann man ersehen,
welche/r Sprecher/in welches Wort geäußert hat. Bei der Abfrage durch
das vorliegende Skript db_query_lemma_tag_name.sh findet man hinter der
Sortierung nach dem Namen die jeweils geäußerten POS-Tags. Abbildung
5.20 zeigt eine beispielhafte CSV-Datei nach der Abfrage. In diesem Fall
handelt es sich nur um die Lemmata bezüglich der Konjunktionen (KON), die
120
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
von MA im Zeitraum 1281 bis 1495 geäußert wurden.
Skript: db_query_lemma_tag_name.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ]
then
echo "usage $0 daymin daymax postag outputdir name"
exit
fi
DAYMIN=$1
DAYMAX=$2
POSTAG="$3"
OUTPUTDIR=$4
NAME=$5
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql
echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql
echo -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sql
echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.postag = "’ >> query.sql
echo -n $POSTAG >> query.sql
echo -n ’" AND sprecher.kuerzel = "’ >> query.sql
echo -n $NAME >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘
echo "Found $COUNT datarows"
if [ $COUNT -gt 0 ] ; then
echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv"
cat query.sql | sqlite3 $DB \ > $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv
fi
rm query.sql
db_query_all_lemma_tag_name.sh: Dieses Skript korrespondiert mit
dem vorherigen Skript db_query_lemma_tag_name.sh, von welchem die
eigentliche Abfrage der Lemmata aus der Datenbank ausgeführt wird. Mit
Hilfe dessen können die Altersgruppen eingegrenzt werden - also nur eine,
zwei oder alle drei Gruppen. Ferner können die Lemmata in Bezug auf alle
POS-Tags abgefragt werden
Abbildung 5.21: CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
121
oder nur einige ausgewählte. Schließlich ist es möglich einzugrenzen,
welche Sprecher/innen für die Analyse in Betracht kommen. Abbildung 5.21
zeigt beispielhaft die Lemmata, die LL im Zeitraum 1709 bis 1983 als Nomen
(NN) geäußert hat. Im Folgenden ist das entprechende Skript für diese
Abfrage abgebildet:
Skript: db_query_all_lemma_NN_LL_1709_1983.sh
DAYMINMAX="1709:1983"
POSTAGS="NN"
NAMES="ll"
OUTPUT_DIR=../../../03_db_query_results/lemma_tag
for n in $NAMES ; do
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
echo $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n
done
rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
done
done
Im Basisskript können die Variablen DAYMINMAX, POSTAGS und NAMES
in Anlehnung an die bisher beschriebenen „_all_...sh“-Skripte modifiziert
werden, um so zu spezifischen Ergebnissen zu gelangen.
Skript: db_query_all_lemma_tag_name.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV"
POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF"
POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP"
POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY"
NAMES="av mm js rd mk leo lar so lua jk ll ma"
OUTPUT_DIR=../../../03_db_query_results/lemma_tag
for n in $NAMES ; do
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $POSTAGS ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
echo $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \
122
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n
done
rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n
fi
done
done
5.2.4.5
05_lemma_bedeutung
db_query_lemma_bedeutung.sh: An dieser Stelle werden alle Lemmata
je Altersgruppe mit den dazugehörigen Wörtern, POS-Tags und
Bedeutungskategorien (für eine detaillierte Beschreibung der Bedeutungskategorien siehe Kapitel 7) ausgegeben und in eine CSV-Datei geschrieben.
Zusätzlich befinden sich in den jeweiligen Spalten die dazugehörigen
EXMARaLDA-Dateien. Relevante Informationen für das Ausführen der
Abfragen sind Informationen zum Alter der Sprecherin/des Sprechers zu
einem gegebenen Zeitpunkt, die geäußerten Wörter und die Lemmata mit
den dazugehörigen POS-Tags und Bedeutungen.
Skript: db_query_lemma_bedeutung.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax bedeutung outputdir"
exit
fi
DAYMIN=$1
DAYMAX=$2
BEDEUTUNG="$3"
OUTPUTDIR=$4
echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql
echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql
echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql
echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql
echo -n ’textpostags.lemma, textpostags.postag, ’ >> query.sql
echo -n ’textpostags.bedeutung, textpostags.id ’ >> query.sql
echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.bedeutung = "’ >> query.sql
echo -n $BEDEUTUNG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
cat query.sql | sqlite3 $DB \
> $OUTPUTDIR/output_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
rm query.sql
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
123
db_query_all_lemma_bedeutung.sh: Dieses Skript arbeitet mit dem
vorhergehenden Skript db_query_lemma_bedeutung.sh zusammen. Es
bietet die Möglichkeit, alle Sprecher/innen in allen Altersgruppen in die
Analyse einzubeziehen und dementsprechend auch alle geäußerten Wörter,
Lemmata, POS-Tags und Bedeutungen ausgeben zu lassen. Ebenso kann die
Auswahl je nach dem Zweck eingegrenzt werden. Es können beispielsweise
nur bestimmte Sprecher/innen, Altersgruppen, POS-Tags oder Bedeutungen
abgefragt und ausgegeben werden.
Skript: db_query_all_lemma_bedeutung.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
BEDEUTUNG="ad-part ad-qual ad-quant ad-rel"
BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok"
BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung"
BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez"
BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß"
BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit"
BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne"
BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds"
BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos"
BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp"
BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr"
BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-kaus ptk-komm ptk-mod ptk-neg"
BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin"
BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp"
BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod"
BEDEUTUNG="$BEDEUTUNG vorgang xy zustand"
OUTPUT_DIR=../../../03_db_query_results/lemma_bedeutung
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $BEDEUTUNG ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_lemma_bedeutung.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
5.2.4.6
06_typetoken_bedeutung
db_query_typetoken_bedeutung.sh: Mit dieser Abfrage werden die Types
in Bezug auf die Lemmata aus der Datenbank abgefragt und mit den
dazugehörigen Häufigkeiten in einer CSV-Datei entsprechend ihrer
Bedeutungskategorie ausgegeben. Das Skript db_query_typetoken_
bedeutung.sh arbeitet ähnlich wie das Skript db_query_typetoken_lemma.sh
124
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
mit dem Unterschied, dass nicht die Lemmata je POS-Tag aufgelistet werden,
sondern die Lemmata je Bedeutungskategorie.
db_query_typetoken_bedeutung.sh
DB=../../../02_generated_files/corpus.db
if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then
echo "usage $0 daymin daymax bedeutung outputdir"
exit
fi
DAYMIN=$1
DAYMAX=$2
BEDEUTUNG="$3"
OUTPUTDIR=$4
echo -n ’SELECT textpostags.lemma ’ > query.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql
echo -n $DAYMIN >> query.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql
echo -n $DAYMAX >> query.sql
echo -n ’ AND textpostags.bedeutung = "’ >> query.sql
echo -n $BEDEUTUNG >> query.sql
echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql
cat query.sql | sqlite3 $DB | sort | uniq > \
$OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txt
WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txt‘
CNT=0
WORDCNTSUM=0
rm -f $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
for j in $WORTLIST ; do
echo -n ’SELECT textpostags.bedeutung ’ > query2.sql
echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql
echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql
echo -n $DAYMIN >> query2.sql
echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql
echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql
echo -n $DAYMAX >> query2.sql
echo -n ’ AND textpostags.bedeutung = "’ >> query2.sql
echo -n $BEDEUTUNG >> query2.sql
echo -n ’" AND textpostags.lemma = ’\’ >> query2.sql
echo -n $j\’ >> query2.sql
echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sql
echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql
echo -n "$j|" \
>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘
WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1))
echo $WORDCNT\
>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
done
echo "—-|—-"
>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
echo "$CNT|$WORDCNTSUM"
>> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv
5.2. DIE FUNKTIONEN DES CORPUSANALYSERS
125
echo "${BEDEUTUNG}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM"
>> $OUTPUTDIR/../output_typetoken_bedeutung_summary.csv
rm -f query.sql
rm -f query2.sql
db_query_all_typetoken_bedeutung.sh: Mit Hilfe dieses Unterskriptes können
die Ergebnisse der Abfrage db_query_typetoken_bedeutung.sh eingegrenzt
werden oder aber es können sämtliche Informationen ausgegeben werden.
Es ist möglich (wie in dieser Arbeit geschehen), alle Altersgruppen und
Bedeutungskategorien in die Analyse einzubeziehen. Dementsprechend
werden alle Bedeutungskategorien je Altersgruppe ausgegeben und die
dazugehörigen Lemmata alphabetisch sortiert aufgelistet und mit deren
Anzahl versehen.
Skript: db_query_all_typetoken_bedeutung.sh
DAYMINMAX="1281:1495 1496:1708 1709:1983"
BEDEUTUNG="ad-part ad-qual ad-quant ad-rel"
BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok"
BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung"
BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez"
BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß"
BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit"
BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne"
BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds"
BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos"
BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp"
BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr"
BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-neg"
BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin"
BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp"
BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod"
BEDEUTUNG="$BEDEUTUNG vorgang xy zustand"
OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutung
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $BEDEUTUNG ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
Es wäre ebenso möglich, nur eine oder zwei Altersgruppen oder ausgewählte
Bedeutungskategorien zu untersuchen. Dies kann im Skript entsprechend
angepasst werden. Soll etwa nur die Altersgruppe 1496_1708 betrachtet
126
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
werden und interessieren in dieser Gruppe nur die Adverbien, so würde das
Skript zur Ausführung folgendermaßen aussehen:
Skript: db_query_ADV_1496_1708_typetoken_bedeutung.sh
DAYMINMAX="1496:1708"
BEDEUTUNG="adv-kaus adv-komm adv-lok"
BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp"
OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutung
for d in $DAYMINMAX ; do
if [[ $d =~ ^(.*):(.*)$ ]]; then
DAYMIN=‘echo ${BASH_REMATCH[1]}‘
DAYMAX=‘echo ${BASH_REMATCH[2]}‘
for i in $BEDEUTUNG ; do
if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then
mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
fi
echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}
./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \
$OUTPUT_DIR/${DAYMIN}_${DAYMAX}
done
fi
done
5.3
Möglichkeiten für die Arbeit mit dem CorpusAnalyser
Der CorpusAnalyser wurde speziell für die Zwecke und Ziele der vorliegenden
Arbeit konzipiert und von Mack (2014) programmiert ([Mack (2014)]).
Während der Konzeption, die parallel zur Entstehung dieser Arbeit lief, wurden
kontinuierlich neue Ideen eingebracht und umgesetzt, wodurch ein komplexes
Programm entstanden ist. Neben den Zwecken, die für diese Arbeit von
Bedeutung waren, sind deshalb noch weitere Szenarien vorstellbar.
Neben dem Deutschen können, analog zum Vorgehen in dieser Arbeit,
zahlreiche weitere Sprachen analysiert und zu einem Vergleich herangezogen
werden. Wenn es um die Analyse von Wortarten und Wortbedeutungen
geht, müssen die syntaktischen Wörter korrekt voneinander separiert
und mit den entsprechenden Wortarten bzw. Wortbedeutungen versehen
werden. Diese Vorarbeit kann - wie auch in der vorliegenden Arbeit - kein
Programm leisten, sondern muss von der durchführenden Person selbst
vorgenommen werden. Dabei können neben den Stuttgart-Tübingen-Tagsets
(STTS) auch andere Tagsets verwendet werden. Gerade bei der Analyse
anderer Sprachen neben dem Deutschen ist es meines Erachtens sogar
notwendig, wenn nicht zumindest sinnvoll, nicht die STTS zu verwenden.
Die STTS enthalten POS-Tags, die sich typischerweise auf das Deutsche
beziehen (Abschnitt 3.2); für alle anderen Sprachen müssten diese zumindest
stark modifiziert werden. Es wäre möglich und wahrscheinlich sinnvoll,
für die Arbeit mit den Daten von sehr jungen Kindern (z. B. im Alter von
5.3. MÖGLICHKEITEN FÜR DIE ARBEIT MIT DEM CORPUSANALYSER
127
1;0 bis 3;0 Jahren), die Klassifikation von Kauschke (1999) zu verwenden
([Kauschke (1999)], S. 140). Diese Klassifikation wurde bisher nur für die
Analyse des Deutschen verwendet, wobei man sie vermutlich auch für
das Englische und die meisten romanischen Sprachen verwenden könnte.
Aufwendiger gestaltet sich womöglich die Arbeit mit Daten von strukturell
sehr von den germanischen und romanischen Sprachen abweichenden
Daten. Man möge an das Ungarische denken, welches im Gegensatz zum
Deutschen einen agglutinierenden Charakter aufweist. In diesem Falle wären
Klassifikationssysteme notwendig, die mit diesen strukturellen Eigenschaften
harmonieren.
Eine weitere Notwendigkeit besteht darin, die Datenbank im Vorfeld
mit allen relevanten Informationen zu füllen, die für die Arbeit mit dem
CA notwendig sind. Auf diese Weise kann im Nachhinein ein Vergleich
von mehreren Sprachen unter unterschiedlichen Aspekten vorgenommen
werden. Es kann zum Beispiel die Verteilung von Wortarten im Hinblick auf
den Anteil dieser wiederum am Gesamtwortschatz ermittelt und verglichen
werden. Durch das Erstellen von Wortlisten können die häufigsten Wörter
in verschiedenen Kategorien ermittelt werden. Interessant wäre auch ein
Vergleich von verschiedenen Sprachen mit gleichen/ähnlichen Wortarten (z.
B. Englisch/Deutsch oder Spanisch/Deutsch). Hierbei muss beachtet werden,
dass dem Vergleich gleiche Voraussetzungen zu Grunde liegen. Dazu gehört
ein einheitlich verwendetes Klassifikationssystem. Es würde wenig Sinn
ergeben, einen mit den STTS analysierten Datensatz mit einem Datensatz
zu vergleichen, der wiederum mit einem abweichenden Klassifikationssystem
analysiert wurde. Aber nicht immer sollen Daten miteinander verglichen
werden. Allein die Analyse von weniger beschriebenen Sprachen und
deren Ermittlung der Wortartenverteilung ist äußerst interessant und
aufschlussreich. Durch die Arbeit mit dem CA kann dabei eine enorme
Erleichterung für die quantitative Analysetätigkeit geschaffen werden.
Normalerweise ist für die Abbildung der Verteilung aller Daten ein enormer
Rechenaufwand notwendig. Mit dem CA können, je nach dem welches
Ziel verfolgt wird, nahezu alle Variablen unter unterschiedlichen Aspekten
quantitativ analysiert werden, wenn die dazugehörigen Skripte entsprechend
angepasst werden.
Es ist weiterhin vorstellbar, dass in einer Analyse nicht nur die Wortarten
und Wortbedeutungen von Interesse sind, sondern die Morpheme oder
Phoneme einer Sprache in einem gegebenen Kontext. Auch dies ließe sich
mit dem CA bewerkstelligen. In der enstprechenden EXMARaLDA-Datei
müssten dann nicht die Wörter voneinander separiert aufgeführt und mit
den jeweiligen POS-Tags bezeichnet werden. Vielmehr wäre es erforderlich,
128
KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER
die Morpheme bzw. Phoneme voneinander zu trennen. Ob und wie diese
Einheiten für eine spätere Analyse gekennzeichnet werden, hängt vom Ziel
der jeweiligen Untersuchung ab.
Kapitel 6
Analyse der Wortarten
Für die Analyse der Daten waren mehrere Schritte erforderlich. In einem
ersten Schritt wurden alle bisher erhaltenen Informationen in die Datenbank1
des CA überführt, mit welcher im Anschluss mehrere Analyseschritte möglich
waren. Zunächst wurden alle Aufnahmen drei Altersgruppen zugeordnet,
da so herausgefunden werden konnte, ob Änderungen im Verlauf des
Lexikerwerbs zwischen 3;5 und 5;5 Jahren zu verzeichnen sind. Wie bereits
in Abschnitt 2.3.3 erwähnt, wurde bisher sehr stark die Gruppe der Einbis Dreijährigen untersucht. Kauschke (1999) fand heraus, dass während
dieser Altersspanne eine starke Veränderung hinsichtlich des Vorkommens
der Wortarten im kindlichen Lexikon zu erkennen ist ([Kauschke (1999)]). Ob
es jenseits des dritten Geburtstages noch zu signifikanten Veränderungen
kommt, soll in der folgenden Analyse überprüft werden. Die erste Gruppe
umfasst alle Zeitpunkte von ca. 3;5 bis 4;1 Jahren bzw. von 1281 bis 1495
Tagen. Das heißt, dass alle Kinder, die zum Zeitpunkt der jeweiligen Aufnahme
in das entsprechende Altersraster fielen, sich in dieser Gruppe befinden.
Die zweite Gruppe umfasst alle Zeitpunkte von über 4;1 bis 4;7 Jahren
bzw. zwischen 1496 und 1708 Tagen, Gruppe 3 umfasst die Zeitpunkte
von über 4;7 bis ca. 5;5 Jahren bzw. zwischen 1709 und 1983 Tagen. Eine
Altersangabe in Tagen war deshalb notwendig, weil der CA und das Skript zur
Ausführung der Analyse mit diesen Angaben (juliandays) arbeitet. Ziel war es
zunächst, die Ergebnisse hinsichtlich der Verteilung der Wortarten dieser drei
Gruppen darzustellen und miteinander zu vergleichen bzw. auf Unterschiede
zu prüfen (Abschnitt 6.2). In einem weiteren Schritt sollte untersucht werden,
ob man in einem Alter von 3;5 bis 5;5 Jahren von individuellen Unterschieden
ausgehen kann, die auch über den Zeitraum der Aufnahmen erhalten bleiben
(Abschnitt 6.3). In jedem Fall soll ein Überblick über die Verteilung der
1
Die Datenbank corpus.db wurde im Zuge der Erstellung des CorpusAnalysers ([Mack (2014)]) für
die Zwecke dieser Arbeit erarbeitet.
129
130
KAPITEL 6. ANALYSE DER WORTARTEN
Wortarten in der Spontansprache der hier untersuchten Kinder geschaffen
werden. Im besten Falle können offene Fragen beantwortet werden, aber
auch neue Fragen entstehen, die es in weiteren Arbeiten zu beantworten gilt.
Im Anschluss an die Analyse der Wortarten soll anknüpfend an dieses Kapitel
eine Untersuchung unter semantischen und inhaltlichen Gesichtspunkten
vorgenommen werden (Kapitel 7). Dabei werden die Kategorien Nomen,
Verb, Adjektiv (und Adverb) in ihrer Funktion als Inhaltswörter sowie die
Funktionswörter betrachtet. Es erschien sinnvoll, die Inhaltskategorien
getrennt von den Funktionswörtern in die Analyse einzubeziehen, weil erstere
bereits in anderen Arbeiten große Aufmerksamkeit gefunden haben (z. B.
[Baker (2003), Bassano (2000), Behrens (1998), Gopnik und Choi (1995),
Kauschke (2007), Stenzel (1997)]). Des Weiteren machen Nomen, Verben,
Adjektive und zum Teil die Adverbien jeweils einen recht großen Anteil am
Gesamtlexikon aus, wodurch am ehesten inhaltliche Veränderungen zwischen
den drei Altersgruppen herausgefunden werden können.
6.1
Gruppierung der POS-Tags
Im einem ersten Teilschritt wurden die Häufigkeiten jedes einzelnen
POS-Tags mit den entsprechenden syntaktischen Wörtern und Lemmata pro
Altersgruppe analysiert. Um einen umfassenderen Überblick zu erhalten,
wurden in einem zweiten Schritt die POS-Tags verwandter Kategorien
zusammengefasst. Eine solche Zusammenfassung war vor allem für
anschließende grafische Darstellungen sowie für den Vergleich der drei
Altersgruppen hilfreich, da die Gegenüberstellung aller 41 Kategorien in jeder
der drei Gruppen sehr unübersichtlich wäre. Die unten stehende Tabelle (6.1)
zeigt die Zusammenfassung der einzelnen POS-Tags. Berücksichtigt wurden
nur jene Tags, die auch tatsächlich in den Daten vorkommen. Auf diese Weise
entstanden 19 Kategorien statt der ursprünglich erhaltenen 41 Kategorien.
Mit der so enstandenen Kategorisierung soll im Verlauf der Arbeit gearbeitet
werden. Sollte ich mich an irgendeiner Stelle auf die ursprüngliche Version
der STTS mit ihren 41 Kategorien beziehen, werde ich dies kenntlich machen.
Abbildung 6.1 zeigt eine Zusammenfassung aller Tokens in der Altersgruppe
1281_1495, so, wie es in der Ausgabe-Datei festgehalten ist2 .
2
Es fehlt die Kategorie FM, weil sie in den Daten dieser Gruppe nicht vorkam. Somit sind hier nur 18
Kategorien enthalten.
6.1. GRUPPIERUNG DER POS-TAGS
131
Abbildung 6.1: POS-Tags: tokens_types_gruppiert_1281_1495
Eine Zusammenfassung der Types ist ebenfalls vorhanden, obwohl diese
erst weiter unten besprochen werden.
Kategorie
POS-Tags
ADJ
ADJA + ADJD
ADV
ADV +PAV
APPR
APPR + APPRART
ART
ART
CARD
CARD
FM
FM
ITJ
ITJ
KON
KOUS + KON + KOKOM
N
NN + NE
PIDATS
PDS+PDAT + PIS + PIAT + PIDAT
PPER
PPER
PPOS
PPOSS + PPOSAT
PREL
(PRELAT)+PRELS + PRF
PW
PWS + PWAT + PWAV
PTK
PTKZU + PTKNEG + PTKVZ + PTKANT + PTKA
VA
VAFIN + (VAINF) + VAIMP + (VAPP)
VM
VMFIN + (VMINF) + (VMIMP)
VV
VVFIN + VVINF + VVIMP + VVPP + VVIZU
XY
XY
Tabelle 6.1: POS-Tags zusammengefasst
132
KAPITEL 6. ANALYSE DER WORTARTEN
Erläuterungen zu Tabelle 6.13 :
• ADJ: Adjektive
• ADV: Adverbien und Pronominaladverbien
• APPR: Präpositionen
• ART: Artikel (unbestimmt und bestimmt)
• CARD: Kardinalzahlen
• FM: Fremdsprachliches Material
• ITJ: Interjektionen
• KON: Konjunktionen und Subjunktionen
• N: Nomen und Eigennamen
• PIDATS: Indefinitpronomen;
substituierende Pronomen
determinierende,
attribuierende
und
• PPER: Personalpronomen (irreflexiv)
• PPOS: Possessivpronomen
• PREL: Relativpronomen und reflexives Personalpronomen
• PW: substituierende, attribuierende und adverbiale Interrogativ- und
Relativpronomen
• PTK: Partikeln
• VA: Auxiliarverben
• VM: Modalverben
• VV: Vollverben
• XY: unverständliche Wörter
3
in Klammern stehende POS-Tags kommen in den Daten dieser Arbeit nicht vor, zählen aber
grundlegend zu der angegebenen Gruppe.
6.2. ALTERSGRUPPEN IM VERGLEICH
6.2
133
Altersgruppen im Vergleich
In diesem Abschnitt und den folgenden Unterabschnitten sollen die
Ergebnisse der getätigten Analysen mittels des CA in Bezug auf die Verteilung
der POS-Tags dargestellt werden. Zunächst wird die Verteilung der Tokens
und die Verteilung der Types aufgezeigt sowie die Relation der Types zu
den Tokens. Dazu wurden jeweils alle Tokens sowie alle Types, die in den
Zeiträumen 1281 bis 1495, 1496 bis 1708 und 1709 bis 1983 geäußert
wurden, addiert. Um das Verhältnis der Types zu den Tokens zu erhalten,
wurde die Anzahl der Types durch die Anzahl der Tokens dividiert. Die unten
stehende Tabelle fasst kurz das Vorkommen aller Tokens und Types in den
jeweiligen Altersgruppen in absoluten Zahlen zusammen, ungeachtet dessen,
welches Kind die jeweiligen Tokens und Types äußerte.
1281-1495
1496-1708
1709-1983
Tokens
2916
12584
11315
Types
462
1058
1088
Tabelle 6.2: Types und Tokens in den Altersgruppen
In der ersten Altersgruppe von 1281 bis 1495 Tagen gibt es im Vergleich
zu den anderen Gruppen nur wenige Tokens. Rückblickend lässt sich das
dadurch erklären, dass die Kinder in diesem Alter in der Regel noch nicht
so aufgeschlossen mir gegenüber waren und deshalb nur wenig aus eigener
Initiative erzählten. Oft musste ich versuchen, die Kinder zum Sprechen zu
animieren. Da dies nicht immer erfolgreich war und die Kinder zudem spontan
und aus eigenem Antrieb heraus sprechen sollten, waren weitere Aufnahmen
nicht möglich. Dennoch lassen die Daten insgesamt vermuten, dass zumindest
ein Trend aufgezeigt werden kann. Die mittlere und die letzte Gruppe weisen
jeweils ähnliche Häufigkeiten auf. So äußerten Kinder im Alter von 1496 bis
1708 Tagen im gesamten Aufnahmezeitraum 12584 Wörter (Tokens), darunter
1058 Types. Im Alter von 1709 bis 1983 Tagen wurden 11315 Wörter (Tokens)
geäußert, wovon sich 1088 voneinander unterschieden (Types).
6.2.1
Verteilung der Tokens
Unter Zuhilfenahme des CA (Kapitel 5) wurden alle tatsächlich geäußerten
Wörter (Tokens) aller Kinder im Hinblick auf ihre Zugehörigkeit zu den
POS-Tags analysiert. Des Weiteren wurde die Anzahl der Wörter je
POS-Tag und je Altersgruppe vermerkt. Für diesen Analyseschritt wurde die
entsprechende Abfrage mit den dazugehörigen Skripten des CA genutzt.
Zur Ermittlung der Vorkommenshäufigkeit je POS-Tag und je Altersgruppe
134
KAPITEL 6. ANALYSE DER WORTARTEN
wurde die Abfrage 5.2.4.2 mit den Skripten db_query_typetoken.sh sowie
db_query_all_typetoken.sh gestellt. Als Ergebnis erhielt man eine Liste
aller geäußerten Wörter je POS-Tag und Altersgruppe. Abbildung 6.5 zeigt
bespielsweise alle geäußerten VVIMP (Vollverben im Imperativ) der Gruppe
1709_1983. Die zusammengefassten und gruppierten Ergebnisse sind in der
unten stehenden Tabelle (6.3) dargestellt.
POS-Tag
1281-1495
POS/
1496-1708
Summe
POS/
1709-1983
Summe
POS/
Summe
ADJ
107
3,7
480
3,8
512
4,5
ADV+PAV
427
14,6
2175
17,3
1462
12,9
APPR
81
2,8
474
3,8
362
3,2
ART
258
8,8
1125
8,9
787
7,0
CARD
26
0,9
177
1,4
329
2,9
FM
0
0
2
0,02
8
0,07
ITJ
6
0,2
38
0,3
73
0,6
KON
235
8,1
897
7,1
635
5,6
11,0
N
264
9,1
971
7,7
1245
PIDATS
153
5,2
625
4,9
452
4,0
PPER
283
9,7
1339
10,6
1432
12,7
PPOS
37
1,3
118
0,9
128
1,1
PREL
8
0,3
56
0,4
38
0,3
PTK
309
10,6
1090
8,7
1073
9,5
PW
44
1,5
175
1,4
137
1,2
VA
34
1,2
158
1,3
165
1,5
VM
90
3,1
441
3,5
421
3,7
VV
493
16,9
2086
16,6
1916
16,9
XY
61
2,1
157
1,2
140
1,2
Tabelle 6.3: Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im Überblick gruppiert
Zunächst sind keine signifikanten Unterschiede in der Verwendungshäufigkeit einzelner Wortklassen im Verlauf von 1281 Tagen bis 1983 Tagen
erkennbar. Im Gegenteil: Es bietet sich dem Betrachter ein nahezu konstantes
Bild der Verteilung hinsichtlich der Verwendung der Wortklassen in den
drei Altersgruppen. Leicht auffällig ist die Entwicklung der Verwendung der
Konjunktionen (KON). Im Alter von 1281 bis 1495 Tagen nehmen KON einen
Anteil von 8,1% hinsichtlich aller verwendeten Wortklassen ein. Im Alter
von 1496 bis 1708 Tagen sind es 7,1% und in der Altersgruppe 1709 bis
1983 Tage sind es nur noch 5,6%. An dieser Stelle kann nicht eindeutig
gesagt werden, ob es sich um einen weiterführenden Trend handelt. Dazu
müssten weitere Altersgruppen getestet werden, die an die letzte Altersgruppe
anschließen, also ab einem Alter von 1984 Tagen. Eine ebenso leichte
Veränderung zeigt der Gebrauch der Personalpronomen (PPER). Während
6.2. ALTERSGRUPPEN IM VERGLEICH
135
Kinder im Alter von 1281 bis 1495 Tagen einen Anteil von 9,7% PPER in ihrer
Verwendung aufweisen, sind es in der Gruppe der 1496 bis 1708 Tage alten
Kinder 10,6% und bei den Kindern im Alter von 1709 bis 1983 Tagen 12,7%.
Auch hier müssten, ähnlich wie bei den Auffälligkeiten bei den KON, weitere
Untersuchungen getätigt werden, um herauszufinden, ob es sich um einen
fortsetzenden Trend handelt. Die Abbildungen 6.2, 6.3 und 6.4 zeigen die
Anteile der gruppierten POS-Tags in den einzelnen Altersgruppen.
Abbildung 6.2: Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage
Es fällt auf, dass in jeder der drei Altersgruppen Auxiliar-, Modal- und
Vollverben (VA, VM, VV) am häufigsten in der spontanen Sprache verwendet
werden, ungeachtet ihrer Vielfalt im kindlichen Wortschatz. Dieses Bild
deckt sich mit den Ergebnissen von Kauschke (1999) ([Kauschke (1999)];
Abschnitt 2.3.3). Sie untersuchte Kinder bis zu einem Alter von 36 Monaten.
Als Referenzpunkt zu den Ergebnissen dieser Arbeit bietet es sich an, die
Verteilung der Wortarten der Kinder im Alter von 36 Monaten mit denen
der Kinder im Alter von 1281 bis 1495 Tagen (das entspricht etwa 3;5 bis
4;1 Jahren) ansatzweise zu vergleichen4 . Im Alter von 36 Monaten machen
Verben einen Anteil von 22% am Gesamtwortschatz aus, bezogen auf die
Tokens. Nomen kommen mit insgesamt 11% vor ([Kauschke (1999)], S. 148).
In der vorliegenden Arbeit machen Verben (VA, VM, VV) einen Anteil von
21,2% aus im Alter von 1281 bis 1495 Tagen, Nomen (N) einen Anteil von
4
Dazu werden folgend die drei Verbkategorien VA, VM und VV zusammengefasst. Dies ist
insofern sinnvoll, als dass bei den Vergleichsdaten ebenfalls keine Unterteilung in weitere Verbklassen
vorgenommen wurde.
136
KAPITEL 6. ANALYSE DER WORTARTEN
Abbildung 6.3: Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage
9,1%. Alle weiteren Wortarten der STTS, wie sie für die hiesige Untersuchung
verwendet wurden, sind meiner Meinung nach nur teilweise mit denen aus
Kauschkes Arbeit vergleichbar, da sie einer anderen Klassifikation unterliegen.
Zudem wurde die Studie mit einer anderen Methodik durchgeführt, was
einen aussagekräftigen Vergleich nicht möglich macht. Die bisherigen
Ergebnisse enstprechen jedoch dem, was Kauschke in Anbetracht ihrer
Studie prognostizierte:
„Nomen sind von Anfang an vorhanden und wachsen insbesondere
während des zweiten Lebensjahres an. [...] Mit drei Jahren
verwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S.
144)
und
„Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblich
ansteigen und mit 3 Jahren den stärksten Anteil am Lexikon
ausmachen.“ ([Kauschke (1999)], S. 145)
Insgesamt wurden durch alle Altersstufen hinweg Partikeln (PTK) zu einem
hohen Anteil verwendet (rund 10% in allen Gruppen). Weiterhin nimmt
der Gebrauch der Adjektive (ADJ) mit zunehmendem Alter leicht zu,
insbesondere, wenn auch die Kardinalzahlen (CARD) zu den Adjektiven
gezählt werden (3,7% Adjektive + 0,9% Kardinalzahlen in Gruppe 1281_1495,
3,8% Adjektive + 1,4% Kardinalzahlen in Gruppe 1496_1708 und 4,5%
6.2. ALTERSGRUPPEN IM VERGLEICH
137
Abbildung 6.4: Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage
Adjektive + 2,9% Kardinalzahlen in Gruppe 1709_1983). An späterer Stelle
soll in dieser Arbeit geklärt werden, ob es sich inhaltlich dabei um neue
Adjektive handelt, die zu den späteren Zeitpunkten auftreten oder aber, ob
alle bisher verwendeten Adjektive nur häufiger gebraucht wurden (Abschnitt
7.2).
Abbildung 6.5: Beispiel: tokens_VVIMP_1709_1983
138
6.2.2
KAPITEL 6. ANALYSE DER WORTARTEN
Verteilung der Types
In einem weiteren Schritt wurde die Anzahl und die Verteilung der Types je
Altersgruppe ausgewertet. Für diesen Analyseschritt wurde (entsprechend
der Analyse der Tokens) die entsprechende Abfrage mit den dazugehörigen
Skripten des CA verwendet. Zur Ermittlung der Vorkommenshäufigkeit je
POS-Tag und je Altersgruppe wurde die Abfrage 5.2.4.3 mit den Skripten
db_query_typetoken_lemma.sh sowie db_query_all_typetoken_lemma.sh an
die Datenbank gestellt. Im Ergebnis erhielt man eine Liste aller Lemmata
je POS-Tag und Altersgruppe. Abbildung 6.6 zeigt einen Ausschnitt aus der
Datei, die alle Types bzw. Lemmata bezogen auf die finiten Verben (VVFIN)
der Kinder der Gruppe 1281_1495 enthält.
Abbildung 6.6: Beispiel: types_VVFIN_1281_1495
Tabelle 6.4 zeigt die Verteilung der Types hinsichtlich der gruppierten
POS-Tags je Altersgruppe. Auf den ersten Blick erscheint die Verteilung
der einzelnen POS-Tags (ähnlich der Tokens) über die drei Zeiträume
hinweg gleichmäßig. Einen leichten Negativtrend zeigt die Verteilung der
Präpositionen (APPR). Kinder der ersten Altersgruppe verwendeten einen
Anteil von 2,4% verschiedenartiger APPR, Kinder der zweiten Altersgruppe
nur noch 1,9% und Kinder der dritten Altersgruppe nur noch 1,7%.
6.2. ALTERSGRUPPEN IM VERGLEICH
POS-Tag
1281-1495
139
POS/Summe
1496-1708
POS/Summe
1709-1983
POS/Summe
ADJ
44
9,5
108
10,2
93
8,5
ADV+PAV
49
10,6
98
9,3
103
9,5
APPR
11
2,4
20
1,9
19
1,7
ART
3
0,6
3
0,3
3
0,3
CARD
9
1,9
20
1,9
22
2
FM
0
0
2
0,2
4
0,4
ITJ
4
0,9
12
1,1
23
2,1
KON
11
2,4
19
1,8
17
1,6
N
141
30,5
428
40,5
423
38,8
PIDATS
12
2,6
21
2,0
24
2,2
PPER
7
1,5
7
0,7
7
0,6
PPOS
4
0,9
5
0,5
5
0,5
PREL
6
1,3
9
0,8
9
0,8
PTK
43
9,3
57
5,4
73
6,7
PW
6
1,3
8
0,8
8
0,7
VA
3
0,6
3
0,3
3
0,3
VM
5
1,1
7
0,7
7
0,6
VV
102
22
229
21,6
240
22
XY
2
0,4
2
0,2
5
0,5
Tabelle 6.4: Vorkommen der POS-Tags (Types) in allen Altersgruppen im Überblick gruppiert
Es fällt weiterhin auf, dass Verben (VA, VM, VV) mit ca. 23% in jeder
der drei Altersgruppen einen gleich großen Anteil am Lexikon einnehmen.
Vergleicht man die Gruppe der 1281 bis 1495 Tage alten Kinder mit
den 36 Monate alten Kindern aus Kauschkes Studie, so decken sich die
Ergebnisse diesbezüglich. In Kauschkes Ergebnissen machen Verben einen
ähnlich hohen Anteil von 23% an der Gesamtkomposition des Lexikons
bei Dreijährigen aus ([Kauschke (1999)], S. 147). Große Abweichungen
können allerdings bei der Verwendung der Nomen beobachtet werden. In der
ersten Altersgruppe verwendeten die untersuchten Kinder 141 oder 30,5%
verschiedene Nomen bezogen auf die Gesamtanzahl der Types. Mit 1496 bis
1708 Tagen nehmen Nomen einen Anteil von 40,5% am gesamten Lexikon
im geäußerten Zeitraum ein. In der letzten Altersgruppe beläuft es sich auf
einen ähnlich hohen Prozentsatz mit 38,8%. Diese Angaben widersprechen
zunächst dem, was Kauschke prognostizierte, nämlich, dass mit 3 Jahren
kein Kind mehr als 25% Nomen verwendet ([Kauschke (1999)], S. 145). Da
Kauschke sich jedoch ausdrücklich auf das Vorkommen von geäußerten
Nomen in Bezug auf ein individuelles Kind bezieht, können diese Angaben
nicht auf die hier vorliegenden Type-Werte bezogen werden, da in diesem
Abschnitt zunächst eine Gruppe von Kindern betrachtet wurde. In Abschnitt
6.2.4 sollen Erklärungsansätze zu diesem Phänomen gegeben werden.
140
KAPITEL 6. ANALYSE DER WORTARTEN
Zudem folgen später Einzelanalysen der hier untersuchten Kinder, welche
eine gänzlich andere Qualität aufweisen (Abschnitt 6.3).
Abbildung 6.7: Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage
6.2.3
Das Verhältnis der Types zu den Tokens
Das Verhältnis der Types zu den Tokens soll dargestellt werden, um
eventuelle Veränderungen in der Häufigkeit der Verwendung verschiedener
Lemmata aufzuzeigen. Nachfolgend ist dieses Verhältnis in Bezug auf die drei
Alterszeiträume dargestellt. Die Types- und Tokensanteile wurden hier anhand
von Analysen der ungruppierten POS-Tags erfasst (Tabelle 6.5).
1281-1495
1496-1708
1709-1983
Types
528
1207
1236
Tokens
2916
12584
11315
Verhältnis Types/Tokens
0,18
0,10
0,11
Tabelle 6.5: Type-Token-Verhältnis in den Altersgruppen
Das Verhältnis des ersten Untersuchungszeitraumes fällt im Gegensatz zur
zweiten und dritten Untersuchungsperiode etwas höher aus (0,18 gegenüber
0,10 bzw. 0,11). Es gibt insgesamt aber viel weniger Tokens (2916) als in den
beiden anderen Gruppen. Das Verhältnis der Types zu den Tokens beträgt
0,18. Im zweiten bzw. dritten Untersuchungszeitraum beträgt das Verhältnis
0,10 bzw. 0,11. An dieser Stelle kann nicht eindeutig festgelegt werden, ob der
Tokens-Wert der ersten Gruppe gewertet werden sollte, weil die untersuchten
6.2. ALTERSGRUPPEN IM VERGLEICH
141
Abbildung 6.8: Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage
Lemmata mengenmäßig unter denen der anderen beiden Gruppen liegen. Es
wäre zum Beispiel möglich, dass selbst bei einer Tokens-Anzahl von >10000
in Gruppe 1 die Types-Anzahl gleich bzw. ähnlich bliebe. Wahrscheinlich wäre
sie höher (und das Verhältnis der Types zu Tokens somit niedriger), doch
das kann auf Basis der Datenlage nicht eindeutig gesagt werden. Bisher
wurden lediglich alle Wörter und Lemmata zusammengefasst pro Gruppe
betrachtet. Dies hat zur Folge, dass insbesondere bei den Inhaltswörtern (vor
allem Nomen und Verben) Abweichungen in Anbetracht der Types auftreten,
da diese je nach Verwendungshäufigkeit seltener gezählt werden (da jedes
verschiedenartige Type nur einmal gezählt wird, unabhängig davon, welches
Kind es äußerte), insgesamt aber der jeweils vollständigen Tokens-Anzahl
(alle geäußerten Wörter) gegenübergestellt werden.
Es ist zum einen denkbar, dass die Schwelle von 1281 bis 1495 Tagen
zu 1496 bis 1708 Tagen eine Art Meilenstein darstellt, nach welchem sich
die Komposition des Lexikons ändert. Dies sollte sich dann auch an der
inhaltlichen Komposition bemerkbar machen. Zum anderen wäre denkbar,
dass die Anzahl der beobachteten Kinder in der ersten Gruppe zu klein ist,
um daraus tragfähige Schlüsse in Bezug auf die Komposition des Lexikons
in dieser Altersgruppe zu ziehen. Interessant ist, dass dieses Ergebnis dem
entspricht, was bereits Kauschke (1999) in ihrer Arbeit mit Ein- bis Dreijährigen
prognostizierte ([Kauschke (1999)]). Die Autorin fand heraus, dass die Anzahl
unterschiedlicher Wörter (Types) abhängig ist vom Alter der Kinder. Kauschke
stellte in ihrer Studie ein exponentielles Wachstum im zweiten Lebensjahr fest.
142
KAPITEL 6. ANALYSE DER WORTARTEN
Abbildung 6.9: Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage
Im dritten Lebensjahr sei eine Abnahme zu verzeichnen, die sich schließlich
in einem linearen Verlauf auszeichnet ([Kauschke (1999)], S. 141). Ähnlich
verhalte es sich mit dem Anstieg der Verwendungshäufigkeit der Wörter
(Tokens), welches mit dem Wachstumsmuster der Types vergleichbar sei.
Demzufolge gibt es einen exponentiellen Anstieg im zweiten Lebensjahr
und eine Abflachung dessen im dritten Lebensjahr (ebd., S. 141-142).
Interessanterweise weist die von Kauschke ermittelte Type-Token-Ratio
in jeder von ihr analysierten Altersgruppe ein anderes Verhältnis auf als
die Type-Token-Ratio, die in dieser Arbeit ermittelt wurde. Die von ihr
untersuchten Kinder im Alter von 13 Monaten, 15 Monaten, 21 Monaten und
36 Monaten zeigten ein Verhältnis von durchschnittlich 0,40 (ebd., S. 141).
Hier ist aber unbedingt anzumerken, dass Kauschke jedes Kind zu jedem
untersuchten Zeitpunkt in die Ermittlung der Type-Token-Ration einbezog
und zudem eine viel geringere Anzahl an Tokens in die Analyse einbrachte.
In der vorliegenden Arbeit wird es allerdings nicht möglich sein, jedes Kind
in jedem der drei Zeiträume heranzuziehen, weil nicht jedes Kind in jedem
Zeitraum interviewt wurde. Zudem ist nicht bekannt, mit welcher Methode
Kauschke die Type-Token-Ratio ermittelte (Abschnitt 4.1). Auch dies kann
erhebliche Unterschiede der Ergebnisse hervorrufen (vgl. Paragraph 4.1).
Es ist ersichtlich, dass die hier beobachteten Kinder eine deutlich höhere
Verwendungshäufigkeit im Hinblick auf die Types aufweisen. Interessant ist
auch, dass die Werte in den drei Gruppen annähernd gleich sind, was auch
Kauschke bereits prognostizierte, wobei sie sich eher auf Kinder in ihrer
6.2. ALTERSGRUPPEN IM VERGLEICH
143
individuellen Entwicklung bezieht:
„Varianzanalysen zeigen, daß mit zunehmendem Alter keine
bedeutsamen Veränderungen stattfinden (F (3,81 = 0,42, p =
0,743). Daraus kann geschlossen werden, daß das Verhältnis
von Types zu Tokens gleich bleibt. Die lexikalische Vielfalt
unterliegt also keinen entwicklungsbedingten Schwankungen,
sondern bleibt relativ konstant (Mittelwerte 0.44, 0.40, 0.38- 0.42).“
([Kauschke (1999)], S. 143-144)
Nichtsdestotrotz sind die Werte in der vorliegenden Arbeit niedriger, wenn
aber konstant. Eine mögliche Erklärung ist, dass die interviewten Kinder
deshalb mehr Tokens aufweisen, weil sie sich in sehr spontanen Situationen
befanden. Sie wurden in keiner Situation befragt, sondern konnten ihrem
Spiel und ihren Gesprächen nachgehen. Vermutlich werden Lexeme in
spontanen Situationen oft wiederholt verwendet, wodurch eine geringere
Type-Token-Ratio entstehen kann. Eine Ermittlung der Type-Token-Ratio
jedes einzelnen Kindes soll in dieser Arbeit nicht vorgenommen werden.
Nach eingehender Betrachtung der Daten wird deutlich, dass jedes Kind in
jeder Altersgruppe unterschiedlich viele Tokens äußerte. Zudem sind nicht
in jeder Gruppe Daten von jedem Kind vorhanden. Eine erste Analyse, die
ich an dieser Stelle nicht verschriftlich habe, zeigte, dass mit zunehmender
Token-Anzahl eine geringere Type-Token-Ratio zu erwarten ist, unabhängig
vom Kind und vom Alter. Weiterführende Analysen sind aufgrund der sehr
geringen Datenlage an dieser Stelle meines Erachtens wenig aufschlussreich
und sollen daher nicht unternommen werden.
6.2.4
Zusammenfassung
Durch die Analyse und einen anschließenden Vergleich der drei Altersgruppen
sollte ein eventuell auftretender Entwicklungsverlauf aufgezeigt werden.
Aufgrund der hier angewandten Methodik der teilnehmenden Beobachtung
kann ein Trend der Ergebnisse aufgezeigt werden, nicht aber Signifikanzen.
Im Hinblick auf die Verwendungshäufigkeit der Wörter (Tokens) fiel auf,
dass Konjunktionen (KON) im Verlauf von 3;5 bis 5;5 Jahren seltener
gebraucht wurden, während bei den Personalpronomen (PPER) einen leichter
Aufwärtstrend erkennbar ist. In Anbetracht der Verschiedenartigkeit der
verwendeten Wörter (Types) gab es zwei Auffälligkeiten. Im Verlauf von
3;5 bis 5;5 Jahren wurden weniger unterschiedliche Präpositionen (APPR)
gebraucht. Die auffälligste Entwicklung zeigte allerdings die Verwendung
verschiedener Nomen (N). Während die Kinder in Gruppe 1 noch 30,5%
144
KAPITEL 6. ANALYSE DER WORTARTEN
N in Bezug auf die Types verwendeten, waren es 40,5% in Gruppe 2
und 38,8% in Gruppe 3. Da dieses Ergebnis unerwartet auftrat, müsste
in folgenden Arbeiten geprüft werden, ob es eventuell zu Situationen
während des Spielens kam, in denen besonders viele verschiedene Nomen
verwendet wurden und ob dies in Anhängigkeit vom Alter geschieht (siehe
auch Abschnitt 6.4). Wie bereits erwähnt, wurde in dieser Arbeit nur mit
spontanen Sprachdaten gearbeitet. Dadurch kann es zu Situationen kommen,
in denen gehäuft ganz bestimmte Wortarten verwendet werden (müssen).
Möglich wäre zudem, dass aufgrund der geringen Tokens-Anzahl in Gruppe
1 ein geringerer Type-Anteil bezüglich der Nomen ermittelt wurde. Von
daher sollte bezugnehmend auf dieses Teilergebnis an dieser Stelle noch
nicht von einer allgemeinen Entwicklungstendenz gesprochen werden. Es
muss zudem beachtet werden, dass die hiesigen Prozentangaben erhöht
sind, wenn POS-Tags zusammengefasst werden. Durch diesen Prozess
entstehen geringere Types-Zahlen, während die Tokens-Anzahl unberührt
bleibt. Bei den Nomen (NN) heißt das, dass auch Eigennamen (NE) in
die zusammengefasste Kategorie Nomen (N) fallen, wodurch ein höherer
prozentualer Anteil der Types entstehen kann.
6.3
Individuelle Unterschiede in den Altersgruppen
In einem Folgeschritt wurden die Daten jedes der zwölf untersuchten Kinder
einzeln analysiert. Dazu wurden die Daten eines jeden Kindes in jeder der drei
Altersgruppen mit Hilfe des CA separiert und anschließend die Art und die
Anzahl der jeweils vorkommenden POS-Tags mit den dazugehörigen Wörtern
und Lemmata aufgelistet. Um beispielsweise die Anzahl aller Types und
Tokens je Kind und Altersgruppe ausfindig zu machen, wurde die Funktion
db_query_typetoken_lemma.sh des CA genutzt (Abschnitt 5.2.4.3).
Durch die Ausführung der Skripte db_query_typetoken_lemma_name.sh
und db_query_all_typetoken_lemma_name.sh (beide Skripte arbeiten
zusammen) erfolgte die Abfrage der Types und Tokens. Dadurch wurden
nicht nur - wie in der Abfrage db_query_all_typetoken_lemma.sh - alle
Lemmata je POS-Tag abgefragt und sortiert nach den Altersgruppen in eine
CSV-Datei geschrieben. Vielmehr ist bei dieser Abfrage zusätzlich der Name
(als Kürzel) übergeordnet, wodurch innerhalb der Altersgruppen noch einmal
eine Sortierung nach den Sprechern erfolgte. Wenn nun beispielsweise eine
solche ausgegebene Datei geöffnet wird, zeigt sich folgendes Bild (Abbildung
6.10). Diese Grafik zeigt alle von JS geäußerten attributiven (ADJA) im
Zeitraum 1709_1983, als JS sich also in einem Altersrahmen von über 4;7 bis
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
145
Abbildung 6.10: Beispiel: JS_lemmata_ADJA_1709_1983
5;5 Jahren befand. Die Ausgabe der CSV-Datei sieht sehr übersichtlich aus,
wobei dennoch alle benötigten Informationen enhalten sind. In der untersten
Zeile befindet sich die Gesamtanzahl der geäußerten Tokens (46), die Anzahl
der Types beläuft sich auf 20 (bis zum Adjektiv weiß). Aufgelistet sind nur
die Lemmata, weil die syntaktischen Wörter an dieser Stelle für die Zwecke
dieser Arbeit zu wenig Informationen bieten.5 Zudem sind alle POS-Tags
der Form ADJA aufgelistet, d.h., sie können auch inhaltlich beurteilt werden,
wenn gewünscht. Ein weiteres Beispiel zeigt Abbildung 6.11, die alle von LEO
geäußerten Nomen (NN) im Zeitraum 1709_1983 enthält.
Nachdem diese Abfrage für alle Kinder in allen Altersgruppen und in
Bezug auf alle POS-Tags unternommen wurde, erhielt man, wie zu erwarten
war, aus Gruppe 1281 bis 1495 nur wenige Daten im Vergleich zu den
anderen Gruppen. Der Hauptgrund dafür ist, dass innerhalb dieser Gruppe
nur zwei Kinder analysierbar waren. Trotzdem wurden diese beiden Kinder
in die Analyse mit einbezogen. Durch die Einzelanalysen entsteht - trotz der
geringen Anzahl an Daten in dieser Gruppe - ein konsistentes Verteilungsbild,
welches sich in das Muster der Gruppen 2 und 3 einfügt. In den unten
stehenden Tabellen sind die Ergebnisse des Vorkommens der POS-Tags
jedes Kindes in jeder Gruppe zusammengefasst. In der weiteren Analyse
werde ich vorwiegend auf das Vorkommen der Nomen (N) und Verben (VA,
5
Die Wörter mit den dazugehörigen Lemmata können durch ein Ausführen des Skriptes
db_query_all_lemma_tag.sh abgerufen werden.
146
KAPITEL 6. ANALYSE DER WORTARTEN
Abbildung 6.11: Beispiel: LEO_lemmata_NN_1709_1983
VM, VV) sowie ansatzweise auf die Adverbien (ADV) und Partikeln (PTK)
eingehen, da diese Kategorien den Hauptanteil aller Tags ausmachen.
Zudem wird in der Literatur ebenso vorwiegend über das Vorkommen von
Nomen und Verben berichtet, so dass ein abschließendes Resumee in Bezug
auf vorhandene Quellen gezogen werden kann (z. B. [Kauschke (1999)];
[Kauschke (2007)]).
6.3.1
Gruppe 1281 bis 1495
In dieser Altersgruppe gab es lediglich zwei Kinder, die analysierbar waren.
Die erste Vermutung war, dass eine Analyse aufgrund der geringen Anzahl
der Tokens nicht möglich oder schwierig werden würde. Im weiteren Verlauf
wurde aber deutlich, dass selbst mit diesen vergleichsweise wenigen Daten
ein Ergebnis zu Tage tritt, welches mit dem anderer Altersgruppen in dieser
Arbeit sowie auch mit den Ergebnissen anderer Arbeiten vergleichbar ist.
Laut Kauschke (1999) kann der Wortgebrauch im zweiten Lebensjahr als ein
prognostisches Mittel für den weiteren Verlauf der Sprachentwicklung genutzt
werden ([Kauschke (1999)], S. 153). Für die Verteilung der Types ermittelte
sie ein Vorkommen von 27% Nomen und 12% Verben bei 21 Monate alten
Kindern. Im Alter von 36 Monaten kann der Anteil der Nomen mit 16% und
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
147
der Anteil der Verben mit 23% angegeben werden.6 ([Kauschke (1999)],
S. 146 ff.) Es wird deutlich, dass die Daten der Kinder im Alter von 36
Monaten durchaus mit den Daten aller hier untersuchten Kinder in allen drei
Altersgruppen in Bezug auf die eben genannten Kategorien vergleichbar
sind. Insbesondere der von Kauschke ermittelte Anteil der Verben mit 23%
bei den 36 Monate alten Kindern entspricht dem der hier untersuchten
Kinder in jedem Alterszeitraum. Der ermittelte Anteil der Nomen liegt mit
16% durchschnittlich unter dem Nomenanteil, der in der vorliegenden Arbeit
ermittelt wurde. Ferner gliedern sich die hier ermittelten Daten ein in das
von Kauschke prognostizierte Erwerbsmuster hinsichtlich der Kinder im Alter
von 21 Monaten. Dort heißt es, dass Nomen von Anfang an vorhanden sind
und während des zweiten Lebensjahres anwachsen. Während des dritten
Lebensjahres verwendet kein Kind mehr als 25% Nomen. Mit 15 Monaten
treten erstmals Verben auf, die dann stark ansteigen und mit 3 Jahren den
größten Anteil des Lexikons ausmachen ([Kauschke (1999)], S. 143 ff.).
Tabelle 6.6 zeigt die Verteilung der gruppierten Tags von MA. Nomen
(N) und Verben (VA, VM, VV) erscheinen mit 24,7% bzw. 22,4%, Adverbien
(ADV) mit einer Häufigkeit von 9,0% bezogen auf die Types. Ein ähnliches
Bild zeigt sich bei der Auswertung der Daten von MK (Tabelle 6.7). In
Bezug auf die Types erscheinen Nomen (N) mit einer Häufigkeit von 27,1%,
Verben (VA, VM, VV) mit einer Häufigkeit von 25,0% und Adverbien (ADV)
mit einer Häufigkeit von 12,1%. In den folgenden Abschnitten (6.3.2; 6.3.3)
wird deutlich, dass ein ähnliches Verteilungsmuster auch in den höheren
Altersgruppen auftritt. Bei einer Betrachtung der Verteilung der Tokens, treten
zum Teil Ergebnisse zu Tage, die in der Form nicht erwartet wurden. Der hohe
Anteil an Nomen in Bezug auf die Types ist bei einer Betrachtung der Tokens
nahezu verschwunden, während die Verteilung der Wortarten insgesamt
bei einem Vergleich von Tokens zu Types nicht stark voneinander abweicht.
Bei beiden hier untersuchten Kindern in Gruppe 1281 bis 1495 beträgt der
Anteil der Types bei den Nomen mehr als doppelt soviel im Vergleich zu den
Tokens. Ein höherer Type-Anteil ist zunächst nicht verwunderlich, aber in
diesem Ausmaß nicht zu erwarten gewesen. Ähnliches kann in umgekehrter
Form bei den Personalpronomen (PPER) beobachtet werden. Ein relativ
geringer Type-Anteil steht einem hohen Token-Anteil gegenüber. Dies ist
jedoch nicht weiter verwunderlich, weil es insgesamt betrachtet nicht viele
verschiedene Personalpronomen im Deutschen gibt, die hätten verwendet
werden können. Bei den Verben (VA, VM, VV) sind solch starke Effekte nicht
zu verzeichnen. Der Tokens-Anteil ist bei beiden Kindern nur etwas geringer
6
Ein Vergleich der Daten zu den Adverbien mit denen Kauschkes war nicht möglich, da Kauschke
diese Kategorie nicht analysierte.
148
KAPITEL 6. ANALYSE DER WORTARTEN
als der Types-Anteil (20,4% gegenüber 22,4% bei MA und 21,3% gegenüber
25,0% bei MK).
Tokens
prozentual %
Types
prozentual %
ADJ
38
6,8
22
12,4
ADV+PAV
58
10,3
16
9,0
APPR
7
1,2
5
2,8
ART
60
10.7
3
1,7
CARD
3
0,5
2
1,1
KON
38
6,8
4
2,2
N
59
10,5
44
24,7
PIDATS
11
2,0
5
2,8
PPER
57
10,2
6
3,4
PPOS
8
1,4
2
1,1
PREL
2
0,4
2
1,1
PTK
74
13,2
21
11,8
PW
19
3,4
4
2,2
VA
12
2,1
2
1,1
VM
12
2,1
4
2,2
VV
91
16,2
34
19,1
12
2,1
2
1,1
XY
561
178
Tabelle 6.6: MA: Verteilung der Types, gruppiert, 1281 bis 1495
6.3.2
Gruppe 1496 bis 1708
In dieser Altersgruppe bewegen sich die Anteile der Adverbien, Nomen und
Verben bezogen auf die Types analog zu denen der Kinder in der ersten
Altersgruppe. Das Vorkommen der Adverbien (ADV) bewegt sich in einer
Spanne von 11,3% bis 12,9%, das Vorkommen der Nomen (N) in einer
Spanne von 24,7% bis 35,0% und die Verben (VA, VM, VV) in einer Spanne
zwischen 22,5% bis 24,3%. Der etwas höhere Anteil hinsichtlich der Nomen
bei MK soll zunächst nicht überwertet werden. Bei einer genauen Analyse
aller Tokens von MK wird deutlich, dass MK eine besonders große Vielfalt an
Eigennamen (NE) im Spiel verwendet, die in dieser Auswertung zusammen
mit den Nomen (NN) zur Kategorie N zusammengefasst sind (Abschnitt
6.1). Da MK besonders häufig in Spielsituationen beobachtet wurde, in
denen es um die eigene Fantasie geht, finden sich hier besonders viele
Wortschöpfungen wie Nemofischchen, Frühlingsfell oder Kriegsstürmer.
Diese Nomen finden sich in der Form nicht in konventiellen Wörterbüchern
(z. B. [Dudenredaktion (2004)]) wieder, wurden hier aber in ihrer Funktion als
Nomen berücksichtigt. Eine andere Erklärung kann in Anlehung an Kauschkes
(1999) Behauptung gemacht werden. Diese konstatiert, dass Kinder im
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
69
2,9
31
8,0
ADV+PAV
369
15,7
47
12,1
APPR
74
3,1
11
2,8
ART
198
8,4
3
0,8
CARD
23
1,0
9
2,3
ITJ
6
0,3
4
1,0
KON
197
8,4
11
2,8
N
205
8,7
105
27,1
PIDATS
142
6,0
11
2,8
PPER
226
9,6
7
1,8
PPOS
29
1,2
4
1,0
PREL
6
0,3
4
1,0
PTK
235
10
37
9,5
PW
25
1,1
5
1,3
VA
22
0,9
3
0,8
VM
78
3,3
5
1,3
VV
402
17,1
89
22,9
49
2,1
1
0,3
XY
2355
149
387
Tabelle 6.7: MK: Verteilung der Types, gruppiert, 1281 bis 1495
Alter von 3 Jahren hohe Unterschiede im Anteil der Nomen, Verben sowie
relational words und personal-social-words aufweisen ([Kauschke (1999)],
S. 150). Da es sich in dieser Altersgruppe in der vorliegenden Arbeit jedoch
nur um ein Kind in einem festgelegten Zeitraum handelt, kann nicht mit
Sicherheit von konstanten individuellen Unterschieden, die unabhängig von
der Situation vorhanden sind, gesprochen werden. Dazu müssten weitere
Probandinnen und Probanden in die Analyse mit einbezogen werden, die
zudem über längere Zeiträume hinweg beobachtet werden. Im Hinblick auf
die Verteilung der Tokens sind auch in dieser Gruppe ähnliche Ergebnisse
zu beobachten, wie sie in Gruppe 1 aufgetreten sind. Die Gruppe der
Personalpronomen (PPER) außer Acht gelassen, weisen die Nomen (N) in
ihrer Verwendungshäufigkeit einen äußerst geringen Anteil auf im Gegensatz
zu ihrer Verschiedenheit, in der sie verwendet wurden. Auch ist die Anzahl der
Nomen (N) bei den Types bei jedem der vier Kinder mehr als doppelt so hoch
im Vergleich zu den Tokens. Besonders auffällig ist die Verteilung bei MK: Mit
einem Anteil von 6,7% in Bezug auf die Tokens sind es mit 35,0% mehr als
fünfmal so viele Types. Dies kann - wie bereits oben erwähnt - mit Sicherheit
als Ausreißer betrachtet werden. Doch gerade MK steuerte mit insgesamt
8706 Tokens einen hohen Anteil am gesamten Token-Satz der Daten bei und
sollte nicht gänzlich außer Acht gelassen werden. Bei den Verben (VA, VM,
VV), wie auch bei den restlichen Wortarten, verhält es sich wie in Gruppe 1
150
KAPITEL 6. ANALYSE DER WORTARTEN
beschrieben und es gibt keine gravierenden individuellen Unterschiede in den
Anteilen von Types gegenüber Tokens.
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
80
5,9
34
11,6
ADV+PAV
207
15,3
36
12,3
APPR
41
3,0
10
3,4
ART
104
7,7
3
1,0
CARD
21
1,6
8
2,7
ITJ
2
0,1
2
0,7
KON
93
6,9
9
3,1
N
103
7,6
72
24,7
PIDATS
60
4,5
12
4,1
PPER
173
12,8
7
2,4
PPOS
8
0,6
2
0,7
PTK
101
7,5
20
6,8
PW
27
2,0
5
1,7
VA
26
1,9
2
0,7
VM
52
3,9
7
2,4
VV
234
17,4
62
21,2
XY
16
1,2
1
0,3
1348
292
Tabelle 6.8: AV: Verteilung der Types, gruppiert, 1496 bis 1708
6.3.3
Gruppe 1709 bis 1983
In der letzten Altersgruppe sind mit einer Anzahl von zehn Kindern die
meisten auswertbaren Daten vorhanden. Mengenmäßig unterscheidet sich
die Token-Anzahl jedoch nur wenig von der vorhergehenden Gruppe - 12584
gegenüber 11315. Die Spanne des Vorkommens der Adverbien (ADV) bewegt
sich zwischen 10,1% und 16,7%, die Spanne der Nomen (N) zwischen 16,7%
und 30,7% und die Spanne der Verben (VA, VM, VV) zwischen 21,0% und
28,1% bezogen auf die Types. Auffällig ist hier die Gruppe der Nomen. Mit
einem Vorkommen von 16,x% unterscheidet sich dieses Muster von denen
der jüngeren Altersgruppen. Dieser geringe Wert kommt in zwei von zehn
Fällen vor (LUA, SO) bzw. nur ein wenig höher mit 18,x% bei drei Kindern
(AV mit 18,0%, JK mit 18,1% und LAR mit 18,8%). Aus diesem Grund kann
meines Erachtens an dieser Stelle nicht mehr von Ausreißern gesprochen
werden. Ein möglicher Grund wäre jener, dass die Anzahl der auswertbaren
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
41
3,9
27
9,4
ADV+PAV
152
14,6
33
11,5
APPR
58
5,6
14
4,9
ART
121
11,6
3
1,0
CARD
6
0,6
3
1,0
ITJ
2
0,2
2
0,7
KON
79
7,6
11
3,8
N
123
11,8
79
27,5
PIDATS
53
5,1
12
4,2
PPER
93
8,9
5
1,7
PPOS
12
1,1
2
0,7
PREL
7
0,7
4
1,4
PTK
56
5,4
18
6,3
PW
13
1,2
4
1,4
VA
9
0,9
2
0,7
VM
33
3,2
6
2,1
VV
174
16,7
60
20,9
12
1,1
2
0,7
XY
1044
151
287
Tabelle 6.9: LEO: Verteilung der Types, gruppiert, 1496 bis 1708
Tokens dieser Kinder zu gering war. Ähnlich geringe Werte weisen jedoch
auch andere Kinder mit einem höheren prozentualen Nomenanteil auf, so
dass eine leichte Veränderung der Verteilung der Wortarten hinsichtlich der
Nomen ab einem Alter von 1709 Tagen angenommen werden kann.
Bei einer Betrachtung der Tokens fällt auf, dass auch hier die Gruppe der
Nomen besonders hervorsticht. Während bei den Types noch immer relativ
hohe Anteile von bis zu 30,7% zu verzeichnen sind, liegt er bei den Tokens weit
darunter und ist vergleichbar mit jenem der vorhergehenden Altersgruppen.
Dennoch sind Types-Anteile bezüglich der Nomen zu verzeichnen, die mit
einem geringen Prozentsatz von ca. 16% bis 18% auf eine allmähliche
allgemeine Veränderung in der Komposition des Lexikons hinweisen. Bei den
Verben sowie allen weiteren Wortarten sind keine Besonderheiten erkennbar.7
6.3.4
Vergleich der individuellen Verläufe mit den Altersgruppen
Nach den bisherigen Analysen der vorliegenden Daten wird ersichtlicht, dass
die Daten aus Abschnitt 6.2 nicht ohne Weiteres vergleichbar sind mit den
Ergebnissen aus Abschnitt 6.3. Sieht man sich die Verteilung der Wortarten
7
Ausgenommen sind an dieser Stelle die Personalpronomen (PPER), die, wie oben erläutert, nie
einen bestimmten Type-Anteil überschreiten können.
152
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
34
2,3
18
5,8
ADV+PAV
213
14,3
40
12,9
APPR
66
4,4
11
3,5
ART
137
9,2
3
1,0
CARD
25
1,7
15
4,8
ITJ
5
0,3
3
1,0
KON
77
5,2
7
2,3
N
159
10,7
81
26,0
PIDATS
84
5,7
14
4,5
PPER
161
10,8
7
2,3
PPOS
26
1,7
2
0,6
PREL
7
0,5
4
1,3
PTK
123
8,3
29
9,3
PW
15
1,0
6
1,9
VA
30
2,0
2
0,6
VM
51
3,4
5
1,6
VV
256
17,2
63
20,3
17
1,1
1
0,3
XY
1486
311
Tabelle 6.10: LUA: Verteilung der Types, gruppiert, 1496 bis 1708
aller Kinder insgesamt in den jeweiligen Altersgruppen an, so können starke
Abweichungen bei einzelnen Kindern in den Altersgruppen verzeichnet
werden. Eine plausible Erklärung dafür sind individuelle Unterschiede im
Wortgebrauch, insbesondere in der Verwendung verschiedener Nomen.
Zudem weisen die Kinder als Individuum voneinander abweichende
Type-Token-Ratios auf. Die Verwendung verschiedender Wörter ist also
individuell sehr unterschiedlich. Betrachtet man nun die Daten aller Kinder
einer Altersgruppe zusammenhängend und ermittelt eine Type-Token-Ratio
sowie eine Verteilung der Wortarten, dann kommt es zu einer starken
Vermischung der individuellen Besonderheiten. Im Folgenden soll dies an
einem Beispiel illustriert und im Hinblick auf Tabelle 6.3 die Ergebnisse für die
Gruppe 1496 bis 1708 betrachtet werden. In dieser Gruppe befinden sich vier
analysierbare Kinder (AV, LEO, LUA und MK). Für einen einfachen Vergleich
soll das prozentuale Vorkommen der Nomen (N) und Verben (VA, VM, VV)
herangezogen werden. Tabelle 6.3 zeigt, dass Nomen mit einer Häufigkeit von
7,7% (40,5% Types) und Verben mit einer Häufigkeit von 21,4% (22,6% Types)
in Gruppe 1496_1708 vorkommen. Hier wurden alle vier Kinder berücksichtigt,
unabhängig von der Gesamtanzahl ihrer Tokens oder Types und unabhängig
von der individuellen Type-Token-Ratio. Die Type-Token-Ratio in der Gruppe
1496 bis 1708 betrug übrigens ca. 0,10.
Eine Betrachtung der Verteilung der Wortarten und insbesondere das
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
325
3,7
90
11,1
ADV+PAV
1603
18,4
91
11,3
APPR
309
3,5
20
2,5
ART
763
8,8
3
0,4
CARD
125
1,4
13
1,6
FM
2
0
2
0,2
ITJ
29
0,3
8
1,0
KON
648
7,4
17
2,1
N
586
6,7
283
35,0
PIDATS
428
4,9
21
2,6
PPER
912
10,5
7
0,9
PPOS
72
0,8
5
0,6
PREL
42
0,5
7
0,9
PTK
810
9,3
50
6,2
PW
120
1,4
6
0,7
VA
93
1,1
3
0,4
VM
305
3,5
7
0,9
VV
1422
16,3
174
21,5
XY
112
1,3
1
0,1
8706
153
808
Tabelle 6.11: MK: Verteilung der Types, gruppiert, 1496 bis 1708
Vorkommen von Nomen und Verben (bezogen auf die Types) bei jedem Kind
separat liefert folgende Ergebnisse:
• AV: Nomen 24,7%, Verben 24,3%
• LEO: Nomen 27,5%, Verben 23,7%
• LUA: Nomen 26,0%, Verben 22,5%
• MK: Nomen 35,0%, Verben 22,8%
Diese Daten entsprechen annähernd den Ergebnissen, die in bisherigen
Untersuchungen diesbezüglich gefunden wurden, wenn auch der Anteil der
Nomen relativ hoch ist. Es wurde bereits erwähnt, dass ähnliche Resultate
in Untersuchungen von Kauschke (1999, 2000, 2007) zu finden sind.
Demzufolge weisen Kinder im Alter von 3 Jahren einen Anteil von 16%
Nomen und 23% Verben auf (bezogen auf die Types) ([Kauschke (1999)];
[Kauschke (2000)]; [Kauschke (2007)]). Der recht hohe Anteil an Nomen in der
vorliegenden Arbeit kann zunächst nicht erklärt werden, es sollen jedoch in
Abschnitt 6.4 einige Erklärungsansätze folgen. Ferner soll an dieser Stelle ein
Blick auf die Daten von MK geworfen werden, insbesondere auf die Nomen.
Zusätzlich sollen die von MK geäußerten Nomen im Zeitraum 1281_1495
hinzugezogen werden, um herauszufinden, ob der hohe Nomenanteil
154
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
4
1,9
3
3,4
ADV+PAV
22
10,6
9
10,1
APPR
13
6,3
7
7,9
ART
15
7,2
3
3,4
CARD
3
1,4
2
2,2
KON
15
7,2
4
4,5
N
22
10,6
16
18,0
PIDATS
4
1,9
3
3,4
PPER
36
17,3
4
4,5
PPOS
2
1,0
2
2,2
PTK
14
6,7
6
6,7
PW
6
2,9
4
4,5
VA
6
2,9
2
2,2
VM
10
4,8
3
3,4
VV
34
16,3
20
22,5
2
1,0
1
1,1
XY
208
89
Tabelle 6.12: AV: Verteilung der Types, gruppiert, 1709 bis 1983
von 35,0% personenabhängig ist (Daten aus Gruppe 1709_1983 zu MK
liegen nicht vor). Ein erster Blick lässt vermuten, dass es sich nicht um die
Eigenheiten einer Person handelt, denn im Zeitraum 1281_1495 machten
Nomen (N) einen Anteil von 8,7% aller von MK geäußerten Tokens aus, wovon
27,1% Types waren. In der unten stehenden Übersicht sind alle von MK
geäußerten Nomen in zwei Zeiträumen aufgeführt, geordnet nach Alphabet
und versehen mit der Anzahl ihres Vorkommen.
• Nomen von MK im Zeitraum 1281_1495: auto (6), bahn (2), bauch
(3), bauernhof (2), baumspitze (1), baustein (1), baustelle (1), bettchen
(1), boden (2), bogen (1), brot (1), bruder (2), burg (1), butzemann (2),
drachentier (1) edelstein (3), ei (1), eingang (1), elefant (1), eltern (3),
erzieher (1), essen (1), feuer (1), freund (2), garten (1), geburtstag (1),
gefängnis (2), geld (2), glas (1), gold (2), happs (1), haufen (1), haus
(1), hause (2), idee (3), igel (1), jahr (2), kakaopulver (1), kanone (2),
karte (5), ketchup (1), kette (1), kind (4), kindergarten (4), kissen (1),
kontrolle (1), krach (1), kraftwerk (3), kralle (1), leiter (1), mai (1), mal (1),
mama (2), mensa (1), mensch (4), milch (1), minute (2), müllauto (2),
murmel (2), mutter (1), papa (4), pfeil (1), pferd (2), räuber (6), räuberkind
(6), rauchen (1), regenbogen (1), richtungswechsel (2), ritterburg (5),
sache (2), sandkasten (1), schachtel (1), schatz (4), schippe (2),
schmetterling (1), schraube (1), schuld (1), schwester (1), schwimmbad
(1), schwimmbecken (1), schwimmerbecken (2), schwimmhalle (1),
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
35
6,2
13
7,8
ADV+PAV
69
12,2
24
14,5
APPR
9
1,6
5
3,0
ART
47
8,3
2
1,2
CARD
20
3,5
9
5,4
ITJ
11
1,9
4
2,4
KON
21
3,7
5
3,0
N
46
8,1
30
18,1
PIDATS
31
5,5
11
6,6
PPER
73
12,9
4
2,4
PPOS
1
0,2
1
0,6
PREL
1
0,2
1
0,6
PTK
57
10,1
14
8,4
PW
8
1,4
5
3,0
VA
7
1,2
1
0,6
VM
28
4,9
4
2,4
VV
89
15,7
32
19,3
14
2,5
1
0,6
XY
567
155
166
Tabelle 6.13: JK: Verteilung der Types, gruppiert, 1709 bis 1983
soldat (1), spielzeugtag (1), stapel (1), stein (1), strafkarte (2), sturm (2),
tiger (1), tobeland (3), toilette (1), tor (1), trampolin (1), turm (8), uno
(14), vater (1), verwandte (1), vorschüler (1), wasser (1), wolf (3) zahl (2),
zaun (1), zigarette (1)
• Nomen von MK im Zeitraum 1496_1708: abfluss (1), affe (1), afrika
(1), anfang (6), anführer (1), angreifer (1), angst (1), aquarium (2),
ärger (2), aussetzer (2), auto (4), baby (3), babyseerobbe (1), backe
(1), ball (4), banane (1), bauernhof (1), becken (1), beispiel (9), benzin
(2), beschützer (2), bild (1), blatt (2), blume (4), brett (1), bruder (1),
buch (2), bücherregal (1), clown (1), dach (1), delfinmama (1), ding (1),
dino (1), dinomama (1), dinowelt (2), drachen (2), ecke (1), edelstein
(2), ei (1), eisenbahn (1), eltern (1), ende (2), erzieherin (1), farbe (3),
feder (2), feinlöwe (1), feld (1), fell (4), fernbedienung (2), fernsehturm
(1), feuer (10), feuerwehrauto (1), figur (4), film (1), fisch (4), fleisch
(1), flieger (1), flur (1), freund (2), frisbee (2), frühling (1), frühlingsfell
(2), fuß (1), fußball (10), fußballer (1), gans (1), gebiet (1), geburtstag
(2), geld (1), geschichte (1), giftgurke (1), glatze (1), gleichgewicht (2),
grütze (1), gurke (1), haar (3), haken (1), hand (2), haufen (2), haus (2),
hause (19), helflöwe (1), herz (1), hexe (1), hilfe (1), hinweis (1), hof
(4), höhe (1), höhle (1), holz (1), hose (1), hubschrauber (2), hut (2),
156
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
94
4,0
44
8,5
ADV+PAV
343
14,4
72
13,9
APPR
98
4,1
14
2,7
ART
183
7,7
3
0,6
CARD
83
3,5
13
2,5
ITJ
20
0,8
13
2,5
KON
171
7,2
13
2,5
N
237
10,0
146
28,2
PIDATS
88
3,7
15
2,9
PPER
294
12,4
7
1,4
PPOS
23
1,0
5
1,0
PREL
13
0,5
5
1,0
PTK
175
7,4
39
7,5
PW
25
1,1
5
1,0
VA
46
1,9
3
0,6
VM
86
3,6
7
1,4
VV
371
15,6
110
21,2
28
1,2
3
0,6
XY
2378
517
Tabelle 6.14: JS: Verteilung der Types, gruppiert, 1709 bis 1983
idee (1), imbiss (1), jagd (1), jahr (1), kanone (1), käpt_n (2), karte (4),
käse (3), käsekugel (1), käsewurst (1), kasten (1), katze (1), ketchup (1),
kind (1), kindergarten (2), kino (1), klappe (1), klebeding (1), klebstoff
(1), kleid (2), knopf (1), knoten (1), kopf (3), körbchen (1), kralle (1),
kreuz (11), krieg (8), kriegsstürmer (3), küche (1), küken (1), länge
(1), laser (11), leinenstoff (1), leiter (1), leuchtturm (1), linie (1), loch
(2), löwe (3), lust (1), lutscher (1), mal (5), mama (2), mannschaft (5),
maske (1), mauer (1), memo (1), memory (5), mensch (6), mikrofon (1),
mitte (3), montag (1), morgenkreis (1), muschel (1), nemofischchen (1),
nummer (1), oma (1), opa (1), ordner (1), osterei (1), papa (6), papier (1),
papierrolle (2), pfannkuchen (1), pferdekutsche (1), pirat (1), piratenschiff
(1), piratenspiel (1), pistole (4), plan (3), platz (1), polizei (1), punkt (4),
quatsch (1), rabe (1), rad (3), rand (1), reh (1), reihe (1), richtungswechsel
(4), riesenstapel (3), ritze (1), ruhe (3), runde (6), rutsche (2), salzbrezel
(1), schere (2), schießgerät (1), schiff (3), schlafen (1), schnabel (1),
schnee (2), schneeballschlacht (1), schraube (1), schritt (2), schuld (3),
schule (1), schwein (1), schwester (3), schwimmhalle (1), schwimmkurs
(1), see (1), seerobbe (2), seil (3), seite (3), senf (1), sohle (1), sommer
(1), spatzenkino (1), spiegel (1), spiel (8), spielsachen (1), spielzeug (2),
spinner (1), spirale (1), spitze (1), spree (1), stabheuschrecke (2), stadion
(1), stapel (3), stern (3), stift (3), stock (1), straße (1), streifen (1), strich
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
50
4,5
19
8,3
ADV+PAV
186
16,6
34
14,8
APPR
19
1,7
7
3,1
ART
66
5,9
3
1,3
CARD
46
4,1
9
3,9
ITJ
5
0,4
5
2,2
KON
58
5,2
8
3,5
N
66
5,9
43
18,8
PIDATS
45
4,0
12
5,2
PPER
154
13,7
6
2,6
PPOS
8
0,7
2
0,9
PREL
3
0,3
3
1,3
PTK
121
10,8
25
10,9
PW
15
1,3
4
1,7
VA
7
0,6
1
0,4
VM
50
4,5
7
3,1
VV
207
18,4
40
17,5
16
1,4
1
0,4
XY
1122
157
229
Tabelle 6.15: LAR: Verteilung der Types, gruppiert, 1709 bis 1983
(4), stunde (1), tank (4), tankwasser (1), tante (1), teil (1), tier (1), tisch
(2), tischspiel (1), tor (1), totenkopf (2), training (3), tuch (1), tür (1), turm
(1), uboot (1), uhr (1), uno (18), verstecke (1), vogel (8), vogelhäuschen
(1), vogelnest (1), vorschau (1), waage (3), wachtmeister (1), waffe
(2), wärme (4), wasser (1), weg (1), welt (1), winter (10), winterfell (1),
wochenende (1), wohnung (2), wolke (2), wünscher (3), würfel (5), wüste
(1), zahn (1), zauber (2), zauberfeuer (1), zauberlaser (1), zauberstab
(4), zeichen (1), zeit (1), zoo (1), zoowärter (2)
Anhand der vorliegenden Inhalte kann zunächst nur schwer ein Grund für
die hohe Type-Anzahl im Zeitraum 1496_1708 ausgemacht werden. Einige
Lemmata treten mit einer leicht erhöhten Häufigkeit auf, wie zum Beispiel
Feuer (10), Fußball (10), Hause (19), Kreuz (11), Krieg (8), Spiel (8), Uno
(18), Winter (10). Diese Nomen kommen zwar zum Teil auch im Zeitraum
1281_1495 vor, jedoch selten derart häufig. Es fällt zudem auf, dass viele
der sehr häufig auftretenden Nomen (aber auch seltener geäußerte) in einer
Spielsituation geäußert wurden. Dies lässt ein Blick in die entsprechenden
EXMARaLDA-Dateien sowie in die entsprechenden Kontextbeschreibungen
vermuten. Man könnte nun annehmen, dass sich der Type-Anteil mit einem
steigenden Token-Anteil aller Wörter ebenso erhöht und bei den meisten hier
untersuchten Kindern ist dies auch der Fall. Es gibt jedoch Ausnahmen, die
158
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
10
5,3
9
8,3
ADV+PAV
22
11,6
14
12,8
APPR
12
6,3
5
4,6
ART
15
7,9
3
2,8
CARD
5
2,6
3
2,8
KON
15
7,9
4
3,7
N
30
15,9
25
22,9
PIDATS
5
2,6
4
3,7
PPER
20
10,6
5
4,6
PPOS
3
1,6
3
2,8
PREL
1
0,5
1
0,9
PTK
5
2,6
5
4,6
PW
1
0,5
1
0,9
VA
6
3,2
2
1,8
VM
3
1,6
3
2,8
VV
33
17,5
21
19,3
XY
3
1,6
1
0,9
189
109
Tabelle 6.16: LEO: Verteilung der Types, gruppiert, 1709 bis 1983
diese These wieder ins Wanken bringen. So weist LL in Gruppe 1709_1983
einen recht hohen Nomenanteil (N) von 30,7% bezüglich der Types auf bei
nur 1175 geäußerten Nomen. In Relation zur Gesamtanzahl der geäußerten
Wörter weist kein anderes Kind einen derart hohen Type-Anteil auf. Dennoch
können anhand der vorliegenden Daten keine Zusammenhänge zwischen
Tokenanzahl, Alter der Kinder, Geschlecht und dem Type-Anteil bezüglich der
Nomen hergestellt werden. Bestenfalls ist eine leichte Tendenz zu erkennen,
nach der der Type-Anteil mit zunehmendem Alter abnimmt. Vielmehr
macht es jedoch den Anschein, dass die unterschiedlichen Nomenanteile
an verschiedene Situationen gebunden sind, was in Abschnitt 6.4 näher
betrachtet werden soll.
Interessant ist zudem ein Vergleich mit sehr altem Datenmaterial von
Templin (1957). Sie untersuchte bereits im Jahre 1957 die Struktur des
Wortschatzes bei 480 Kindern im Alter von 3 bis 8 Jahren, indem sie
die den aktiven Wortschatz testete. Dazu wurde zum einen die Anzahl
der Types in 50 Äußerungen betrachtet und zum anderen die Leistungen
in Lautunterscheidungstests überprüft ([Templin (1957)], S. 30-33; siehe
auch [Kegel (1987)], S. 57). Templin verwendete neun Wortklassen und
eine gemischte Klasse. Zu den neun Wortklassen zählten Substantive,
Verben, Adjektive, Adverbien, Pronomen, Konjunktionen, Präpositionen,
Artikel, Interjektionen. Die gemischte Klasse enthielt u. a. Eigennamen,
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
39
3,3
16
5,3
ADV+PAV
107
9,1
33
11,0
APPR
34
2,9
10
3,3
ART
69
5,9
3
1,0
CARD
46
3,9
7
2,3
FM
6
0,5
2
0,7
ITJ
17
1,4
7
2,3
KON
51
4,3
7
2,3
N
161
13,7
92
30,7
PIDATS
37
3,1
12
4,0
PPER
157
13,4
6
2,0
PPOS
18
1,5
3
1,0
PREL
3
0,3
2
0,7
PTK
125
10,6
28
9,3
PW
11
0,9
4
1,3
VA
22
1,9
3
1,0
VM
28
2,4
5
1,7
VV
224
19,1
57
19,0
XY
20
1,7
3
1,0
1175
159
300
Tabelle 6.17: LL: Verteilung der Types, gruppiert, 1709 bis 1983
unverständliche Ausdrücke etc.8 Templin kam zu folgenden Ergebnissen in
Bezug auf das Vorkommen der Nomen und Verben (hinsichtlich der Types):
• 3 Jahre: 25,5% Nomen, 23,4% Verben
• 3;5 Jahre: 23,8% Nomen, 24,1% Verben
• 4 Jahre: 24,2% Nomen, 24,0% Verben
• 4;5 Jahre: 25% Nomen, 23,3% Verben
• 5 Jahre: 23,7% Nomen, 23,9% Verben ([Templin (1957)], S. 101).
Ferner setze bereits mit 3 Jahren eine Stabilisierung der Wortklassenverteilung
ein, wobei nur schwache Alterstrends zu beobachten sind ([Templin (1957)]).
Dem kann in Anlehnung an die Ergebnisse der vorliegenden Arbeit nur
entsprochen werden. Noch erstaunlicher ist allerdings das recht ähnliche
Ergebnis in der Verteilung der Wortarten Nomen und Verb zu jenem der
vorliegenden Arbeit. Sowohl in den Daten Templins (1957) als auch in den
Daten der vorliegenden Arbeit tauchen Nomen und Verben mit einer Häufigkeit
8
In dieser Arbeit gibt es für Eigennamen sowie für unverständliche Ausdrücke eigene Kategorien, NE
und XY. Da es sich angesichts der Datenlage nur um recht wenige Tokens innerhalb der Kategorie NE
handelt, soll trotzdem ein kurzer Vergleich mit Templins Ergebnissen vorgenommen werden.
160
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
21
5,4
17
10,5
ADV+PAV
56
14,3
27
16,7
APPR
21
5,4
7
4,3
ART
21
5,4
3
1,9
KON
25
6,4
4
2,5
N
39
10,0
27
16,7
PIDATS
15
3,8
7
4,3
PPER
49
12,5
6
3,7
PPOS
11
2,8
2
1,2
PREL
2
0,5
2
1,2
PTK
35
9,0
13
8,0
PW
7
1,8
4
2,5
VA
2
0,5
2
1,2
VM
16
4,1
6
3,7
VV
69
17,6
34
20,9
2
0,5
1
0,6
XY
391
162
Tabelle 6.18: LUA: Verteilung der Types, gruppiert, 1709 bis 1983
von je ca. 25% auf, unabhängig vom Alter (bzw. nach dem dritten Lebensjahr).
Zwar gibt es einige Ausnahmen, wie z. B. MK mit 35,0% Nomen, doch können
derart hohe Werte bei einer Analyse der tatsächlich geäußerten Wörter
vermutlich mit der Verwendung vieler verschiedener Nomen in bestimmten
Situationen, wie Spielsituationen, erklärt werden (siehe auch Abschnitt
6.4). Laut Templin (1957) stellen die ermittelten Werte eine beträchtliche
Überlegenheit von Kindern aus der oberen Mittelschicht gegenüber Kindern
aus unteren Schichten dar. Vor allem in Anbetracht der Tatsache, dass die
hier untersuchten Kinder aus einem akademischen Umfeld kommen, kann
angenommen werden, dass die hier ermittelten Werte mit den Daten von
Templin vergleichbar sind. Sie lassen zudem vermuten, dass die Verteilung
der Wortarten ab 3 Jahren recht stabil ist (siehe auch [Oksaar (1997)]). Es
kann trotzdem noch nicht eindeutig gesagt werden, ob die Ergebnisse dem
entsprechen, was Kauschke (1999) postulierte, nämlich:
„Nomen sind von Anfang an vorhanden und wachsen insbesondere
während des zweiten Lebensjahres an. [...] Mit drei Jahren
verwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S.
144)
und
„Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblich
ansteigen und mit 3 Jahren den stärksten Anteil am Lexikon
ausmachen. ([Kauschke (1999)], S. 145)
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
193
4,8
42
8,0
ADV+PAV
513
12,7
64
12,2
APPR
114
2,8
14
2,7
ART
278
6,9
3
0,6
CARD
100
2,5
13
2,5
ITJ
16
0,4
6
1,1
KON
229
5,7
12
2,3
N
504
12,5
160
30,6
PIDATS
167
4,2
20
3,8
PPER
492
12,2
7
1,3
PPOS
44
1,1
4
0,8
PREL
14
0,3
6
1,1
PTK
397
9,9
46
8,8
PW
45
1,1
6
1,1
VA
42
1,0
3
0,6
VM
159
3,9
6
1,1
VV
677
16,8
110
21,0
44
1,1
1
0,2
XY
4028
161
523
Tabelle 6.19: MM: Verteilung der Types, gruppiert, 1709 bis 1983
Die erste Aussage trifft nicht zu, was die Ergebnisse dieser Arbeit zumindest
hinsichtlich des Vorkommens der Types anbelangt. Allerdings können die
Ergebnisse nicht exakt verglichen werden, da jeweils andere Methoden
verwendet wurden. Unzutreffend ist an dieser Stelle auch die zweite
Aussage, nämlich, dass Verben mit 3 Jahren den stärksten Anteil am Lexikon
ausmachen. Vielmehr nehmen die Verben neben den Nomen sowohl hier
als auch in Templins Ergebnissen einen großen Anteil am Lexikon bei
Kindern im Vorschulalter ein (ca. 25% Nomen und ca. 22% bis 25% Verben)
([Templin (1957)], S. 101).
Weiterhin fällt auf, dass die Anteile der Adverbien (ADV+PAV) und
Partikeln (PTK) durchgehend recht hoch sind. Selbstverständlich ist es nicht
leicht, Resultate aus Studien mit jüngeren Kindern (z. B. [Szagun (2008)];
[Kauschke (1999)]; [Kauschke (2007)]), bei denen beispielweise der Anteil
der Funktionswörter recht hoch ist, zu vergleichen, da die Klassifikation der
Wortarten eine andere sein könnte. Folglich ist der Anteil der Funktionswörter
bei den hier untersuchten Kindern im Alter von 3;5 bis 5;5 Jahren noch
immer hoch, wenn man die entsprechenden Klassen der Funktionswörter
zusammenfasst. Nichtsdestotrotz ist das Vorkommen der Adverbien
prägnant, was auf eine Veränderung in der Struktur des Wortschatzes
hinweisen könnte. Insgesamt wird deutlich, dass für eine Annäherung
an die Komposition des Lexikons bezüglich der Verteilung der Wortarten
162
KAPITEL 6. ANALYSE DER WORTARTEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
33
4,4
22
8,5
ADV+PAV
76
10,1
33
12,7
APPR
33
4,4
10
3,8
ART
73
9,7
3
1,2
CARD
18
2,4
11
4,2
FM
2
0,3
2
0,8
ITJ
2
0,3
2
0,8
KON
30
4,0
6
2,3
N
95
12,6
61
23,6
PIDATS
32
4,2
8
3,1
PPER
88
11,7
5
1,9
PPOS
12
1,6
2
0,8
PREL
1
0,1
1
0,4
PTK
73
9,7
23
8,8
PW
12
1,6
5
1,9
VA
21
2,8
3
1,2
VM
19
2,5
5
1,9
VV
128
17,0
56
21,6
XY
6
0,8
1
0,4
754
259
Tabelle 6.20: RD: Verteilung der Types, gruppiert, 1709 bis 1983
eher die Daten der einzelnen Kinder in den jeweiligen Altersgruppen
herangezogen werden sollten, da diese aussagekräftiger sind. Bei der
Auswertung der gesamten Token-Anzahl in einer Altersgruppe, die mehrere
Sprecher/innen umfasst, kommt es durch die individuellen Unterschiede zu
recht uneinheitlichen Ergebnissen. Der Versuch, die Lemmata je Gruppe
allgemein auszuwerten, wurde trotzdem unternommen, um eine Annäherung
an die allgemeine Struktur des Wortschatzes bei Kindern im Vorschulalter zu
gewinnen. Versuche dieser Art gibt es einige und viele scheiterten an der
Individualität des Wortschatzes sowie der spezifischen Wortartenverteilung
der Probandinnen und Probanden. Bereits Kegel (1987) versuchte sich
diesem Problem zu nähern. Er differenzierte zunächst die Erforschung
des aktiven und des passiven Wortschatzes. Demnach wurde der aktive
Wortschatz bisher vor allem durch Experimente zu erforschen versucht.
Doch ob ein Kind in Experimenten ein Wort äußert, sei abhängig von vielen
Faktoren, so Kegel. Gleichtzeitg würden Kriterien, nach denen ein Wort
als verstanden bewertet werden kann oder nicht, unterschiedlich streng
bewertet werden. Eine weitere Schwierigkeit stellen Variationen im Aufbau
von Wortschatzuntersuchungen dar, wodurch man zu unterschiedlichen
quantitativen Angaben gelangt. Ebenso bedauerlich sei die Tatsache, dass
eine Strukturierung des Wortschatzes lediglich mit Fallstudien auszuwerten
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
POS-Tag
Tokens
prozentual %
Types
prozentual %
ADJ
33
6,6
16
9,3
ADV+PAV
68
13,5
23
13,3
APPR
9
1,8
4
2,3
ART
20
4,0
3
1,7
CARD
8
1,6
5
2,9
ITJ
2
0,4
2
1,2
KON
20
4,0
7
4,0
N
45
8,9
29
16,8
PIDATS
28
5,6
10
5,8
PPER
69
13,7
6
3,5
PPOS
6
1,2
2
1,2
PTK
71
14,1
23
13,3
PW
7
1,4
4
2,3
VA
6
1,2
2
1,2
VM
22
4,4
5
2,9
VV
84
16,7
31
17,9
XY
5
1
1
0,6
503
163
173
Tabelle 6.21: SO: Verteilung der Types, gruppiert, 1709 bis 1983
ist, so Kegel ([Kegel (1987)], S. 49). An dieser Stelle wird deutlich, dass vor
allem das Untersuchen des passiven Wortschatzes eine Herausforderung
darstellt, da nur sehr schwer bewertet werden kann, wann und ob ein Kind
ein Wort tatsächlich verstanden hat. Bisher ist mir keine Arbeit bekannt,
die die gesamte Struktur des Wortschatzes, sei es bei Kindern oder bei
Erwachsenen, abschließend in einer experimentellen Studie untersucht hat.
Wie bereits festgestellt wurde, ist dies nur schwer bis gar nicht möglich.
Eine Untersuchung, die den gesamten aktiven und passiven Wortschatz
eines Individuums erfassen will, setzt unterschiedliche Schritte voraus, die
zum jetzigen Zeitpunkt nicht erfüllbar sind. Es müsste zunächst der gesamte
passive Wortschatz erfasst werden, was weder experimentell noch durch
Beobachtungen, Befragungen, Wortlisten etc. möglich wäre. Selbst wenn es
gelingen würde, zumindest den aktiven Wortschatz zu einem gegebenen
Zeitpunkt eines Individuums zu erfassen, würde doch der passive Wortschatz
niemals erfasst werden können. Doch die Annahme durch Fragebögen
zum Wortverständnis und durch andere Tests sei es möglich den passiven
Wortschatz zu ermitteln, wirft einige Fragen auf. Rechnerisch gesehen könnte
so vielleicht ein Großteil der verstandenen Lexeme erreicht werden, aber was
ist mit Wörtern wie Feinlöwe oder wurstig? Diese Wörter gibt es - laut Duden
- nicht im Wortschatz der deutschen Sprache ([Dudenredaktion (2004)]).
Dennoch ist die Bedeutung je nach Kontext verständlich. Und genau hier liegt
164
KAPITEL 6. ANALYSE DER WORTARTEN
meines Erachtens das Problem bei der Ermittlung des passiven Wortschatzes.
Sprache ist wandelbar, sie verändert sich ständig und ist Teil der gegebenen
kognitiven Fähigkeiten. Dadurch ist Sprache nie stetig, sondern kontinuierlich
und ein passiver Wortschatz könnte allenfalls in Referenz zu etwas anderem
stehen, beispielweise das Deutsche im Vergleich zum Duden, und nur für
einen gegebenen Zeitpunkt erfasst werden. Es ist leicht vorstellbar, welchen
Aufwand dies bedeutet. Wahrscheinlich ist das ein Grund dafür, dass es
eine solche Erfassung bisher nicht gibt. Zu diesem Schluss gelangte auch
Kegel (1987) und stellte fest, dass lediglich nicht-experimentelle Studien
zur Untersuchung des Wortschatzes herangezogen werden können. In
Längsschnittstudien einzelner Kinder könnte zum Beispiel die Produktion
und Perzeption kontinuierlich protokolliert werden. Ein Nachteil wäre, dass
ein solches Verfahren keine statistisch auswertbaren Daten liefern würde
und dies wiederum keine verallgemeinernde Interpretation der Ergebnisse
möglich macht ([Kegel (1987)], S. 50). Eine andere Möglichkeit bieten
sogenannte Wortschatztests ([Smith (1926)]). Am erfolgreichsten ist laut
Kegel (1987) die Untersuchung eines begrenzten Zieles, wie zum Beispiel
eine Verfolgung der Verteilung der Wortklassen, wobei größere Passagen
laufender Rede analysiert werden (ebd.). Dies wurde in der vorliegenden
Arbeit getan und bestätigt. Die bisherigen Ergebnisse anderer Autoren sowie
die Annahmen von Kegel (1987) zeigen, dass eine andere Vorgehensweise
zur Erfassung des kindlichen Wortschatzes sowie zur Beurteilung der
Verteilung von Wortklassen (bisher) nicht möglich ist. In Abschnitt 6.4 werden
in einem nächsten Schritt nicht die Gesamtdaten der hier untersuchten Kinder
berücksichtig, sondern nur die ersten einhundert gesprochenen Wörter je
Kind. Mir ist bewusst, dass einhundert Wörter ein vermutlich zu kleines Korpus
darstellen, um daraus verallgemeinernde Schlüsse abzuleiten. Dennoch soll
dieser Schritt unternommen und in Bezug zu den bisherigen Ergebnissen
dieser Arbeit gesetzt werden.
6.3.5
Zusammenfassung
Durch eine Betrachtung der Wortarten gemäß der STTS (hier vorliegend in
gruppierter Form) wurde zunächst ein Überblick über die Verwendung und
Verteilung der Wortarten bei jedem Kind in jeder Altersgruppe geschaffen.
Auffällig war, dass die Verteilung in den Gruppen sowie bei einem Vergleich
aller Kinder (egal welchen Alters) sehr ähnliche prozentuale Anteile aufweist.
Dabei ist es egal, ob ein Kind im gesamten Aufnahmezeitraum sehr viele
oder nur sehr wenige Tokens zu den Aufnahmen beisteuerte. Die wenigsten
Wörter finden sich bei LEO in Gruppe 3 mit 189 Tokens. Die meisten Wörter
6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN
165
äußerte MK in Gruppe 2 mit 8706 Tokens. Bei beiden Kindern sieht die
Verteilung der Wortarten prozentual betrachtet ähnlich aus, bis auf den hohen
Anteil an Nomen bezogen auf die Types bei MK. Ein Vergleich mit anderen
Kindern, die vergleichsweise viele Tokens äußerten, zeigt, dass niedrigere
Werte bei den Nomen (N) ebenso anzutreffen sind (z. B. JS in Altersgruppe
1709_1983 mit 28,2% Nomen bei insgesamt 2378 Tokens). Wie bereits weiter
oben beschrieben, ist der Anteil der Nomen in Bezug auf die Tokens bei
allen Kindern in allen Altersgruppen sehr viel niedriger als in Bezug auf die
Types. Das ist äußerst interessant, weil für die Ausführungen in dieser Arbeit
bisher nur Vergleichsdaten von Kindern bis zu einem Alter von 36 Monaten
vorliegen (z. B. [Kauschke (1999)]) und diese zwar einen ähnlichen, wenn
auch qualitativ anderen Unterschied aufzeigen. Bei Kindern im Alter von 36
Monaten ermittelte Kauschke (1999) auf der Basis von 6411 Tokens einen
Anteil von 11% Nomen bezogen auf die Tokens und einen Anteil von 16%
Nomen bezogen auf die Types. In der vorliegenden Arbeit ist der Anteil der
Tokens durchaus mit den von Kauschke ermittelten Daten vergleichbar. Was
die Types angeht, kann das nicht behauptet werden. Im Grunde können die
sehr abweichenden Werte in dieser Arbeit nicht durch eine abweichende
Methodik bzw. durch die Wahl der Kategorisierung zu Stande gekommen sein
(obgleich eine andere Methodik zugrunde liegt), weil ansonsten bereits die
Token-Anteile abweichende Werte zu Tage hätten bringen müssen. Vielmehr
kann an dieser Stelle angenommen werden, dass Kinder ab einem Alter
von 3;5 Jahren bis zu einem Alter von 5;5 Jahren (und vermutlich auch
darüber hinaus) einen sprachlichen Entwicklungsschritt durchlaufen, der in
der Verwendung vieler verschiedener Nomen resultiert und sich in einem
erhöhten Type-Anteil äußert. Um diese These zu stützen, müssten allerdings
noch weitere Analysen vorgenommen werden. Ferner ist zu beobachten, dass
extrem hohe Type-Anteile bei den Nomen oft bei einer hohen Token-Anzahl
vorzufinden sind, wobei jedoch kein ursächlicher Zusammenhang behauptet
werden kann. Eine Inhaltsanalyse der Sprachdaten der Kinder kann hilfreich
sein, um die hiesigen Ergebnisse zu stützen. Ferner würden Vergleichsdaten
von Kindern, die sich zum Zeitpunkt der Datenerhebung nicht im Kindergarten
befanden, hilfreich sein. Denn es ist nicht eindeutig feststellbar, ob die
Umgebung in der Kita eine übergeordnete Rolle gespielt hat. Wichtig
festzuhalten ist zudem, dass im gesamten Verlauf von 3;5 bis 5;5 Jahren
keine bedeutenden Veränderungen in der Verteilung der Wortarten bei
Kindern feststellbar waren, weshalb davon auszugehen ist, dass die Anteile
im Wesentlichen so erhalten bleiben oder aber sich nur langsam in eine
abweichende Richtung entwickeln. Die von Kauschke angeführte These, dass
der Spracherwerb im 2. Lebensjahr als ein prognostisches Mittel für den
166
KAPITEL 6. ANALYSE DER WORTARTEN
weiteren Verlauf der Sprache genutzt werden kann ([Kauschke (1999)], S.
153), kann insbesondere erweitert werden um folgende These:
Der Spracherwerb im 3. Lebensjahr kann als ein prognostisches Mittel
für den weiteren Verlauf der Sprachentwicklung verwendet werden.
Vor allem die Verteilung der Verben, sowohl in Bezug auf die Types als auch
auf die Tokens ist vergleichbar mit 36 Monate alten Kindern und bleibt über den
Zeitraum von 3;5 bis 5;5 Jahren nahezu unverändert erhalten.
6.4
Analyse der ersten einhundert Wörter je Kind
In diesem Abschnitt soll untersucht werden, ob die geäußerten Wörter jedes
Kindes, unabhängig vom Alter, den vorgehenden Ergebnissen entsprechen.
Diese Analyse kann deshalb vorgenommen werden, weil die Ergebnisse in
Abschnitt 6.3 andeuten, dass es ab einem Alter von 3 Jahren keine großen
Unterschiede in der Verteilung der Wortarten gibt bzw., dass geringfügige
Unterschiede (vor allem im Hinblick auf die Types) von der individuellen
Situation, nicht aber vom Alter abhängen. Es wurde lediglich festgestellt, dass
es mit zunehmendem Alter vermutlich zu einer Reduktion des Nomenanteils
bezogen auf die Types kommt, da die Anteile in der dritten Altersgruppe
bei fünf Kindern (AV: 18,0%, JK: 18,1%, LAR: 18,8%, LUA: 16,7%, SO:
16,8%) unter 19% lagen im Gegensatz zu den Vergleichsgruppen. Dieser
leichte Abwärtstrend müsste weiter untersucht werden, um bestätigt werden
zu können. Denn insbesondere bei diesen fünf Kindern waren auch die
Tokens-Anteile niedriger als bei Kindern, die besonders hohe prozentuale
Nomen-Anteile aufweisen, so dass nicht ausgeschlossen werden kann, dass
die Tokens-Anzahl einen entscheidenden Einfluss auf die Types-Anzahl hat.
Im Folgenden sind die ersten einhundert gesprochenen Wörter (Tokens)
jedes Kindes aufgeführt. Da diese Tokens aus ihrem ursprünglichen Kontext
extrahiert wurden, sind diese fernab der cGAT-Transkriptionsregeln, wie
sie in den FOLKER-Dateien angewendet wurden, aufgeschrieben. Es wird
lediglich das Ende einer Äußerung durch // gekennzeichnet. Alle Wörter
(sowie die dazugehörigen Lemmata, POS-Tags und Bedeutungskategorien)
befinden sich in der SQLite3-Datenbank des CA sowie in gesonderten
Dateien9 . Des Weiteren sind alle Situationsbeschreibungen der einzelnen
Aufnahmedaten in einer Tabelle in Abschnitt 4.1.1 zusammengefasst.
9
Hierzu zählen sowohl die erstellten EXMARaLDA-Dateien sowie alle Ausgabedateien im
CSV-Format, die im Zuge der Analyse unter der Anwendung des CA entstanden sind.
6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND
167
Detailliertere Beschreibungen befinden sich zudem in den Protokollen, die
während bzw. kurz nach den Aufnahmesituationen angefertigt wurden.
AV: ich mag spielen // auf deinen schoß // nee // sehr sehr lange // ist deiner von zu hause // ist das deiner von
zu hause // aber wir haben auch ’ne kleine schokolade // äh erst aus schokolade // und was ist das // das blau // blau
passt mehr // nein kannst du nehmen wie // ((unverständlich)) // wenn du wenn dann nimm rot // ich spiele nicht mehr
mit // ich guck nur zu // dann darfst du nochmal die alle // und glaube ich // da // deck da mal auf // so schlafmütze //
das muss nee lila ist das // das muss so die lila in der mitte sein // nur nochmal // drei // du // aber das andere
LEO: oder schnecke machen // laterne // ich gehe mit meiner laterne und meine laterne mit mir // da oben
leuchten die sterne und unten leuchten wir // mein licht geht aus // wir gehen nach haus // rabimmelrabammelrabumm
// und gibt es auch die // haben immer verschiedene farben manche // guck mal was ich kann // ich kann was schönes
malen // willst du mich nachmachen // ich male was schönes // das ist ein geheimnis // ein geheimnis darf man nicht
sagen // male ich aber in einer anderen farbe // das sieht aber ähnlich aus // hm dunkler // und ich kann schon mit ein
mit ein schere ganz alleine schneiden // nein kann man trotzdem
LAR: LAR // viereinhalb // ja // wow // ((unverständlich)) // viele fahrt mit die ubahn // ich bin ein krümelmonster
weil ich wieder krümel // muss man strafkarten // und jetzt darf ich das // ich das // ich hab schon // guck mal eins zwei
drei vier fünf // jetzt bin ich // äh doch // guck mal // eins zwei drei vier fünf // geht nicht // geht nicht // ich wollte // und
wir haben ganz wenig hier // geht nicht // wieder geht nicht // MM // ich musste noch ne karte // ich habe gerade nicht
geklingelt // jetzt hab ich strafkarten // ich hab mich // aber du bist dran // jetzt hat julia nur drei // ich hatte schon //
eh_eh geht gar
LL: MM du sollst gewinnen // MM gut gemacht // MM soll gewinnen // das schmeckt nicht // auf der rechten seite
// da_ha // zwei // kannst du mit mir mitkommen // hier // babies // hier schlafen ganz viele krippenkinder // ja_a ganz
mittel // nach dem schwimmen ist immer müde // denn schlaf ich immer im bus ein // ich glaub ich muss mir die tür
zumachen // wo soll ich denn vielleicht // ist er hier irgendwo // warum äh // wo ist die birne // birne bitte // hm // ist da
traktor // ist da ist da schwein // wo ist den schwein // schwein // schwein ist da// männchen ist da // ((unverständlich))
// ja schmetterling ling // da_a // hau_e sonst sind
LUA: sie zieht auch um // ich habe ne große und ne kleine bauernhof // spielen wir // ich habe hier
einen ritter // ich habe hier ein ritterteil // ja was ist das denn // ich kenne mich gut mit pferden aus // ich
kenn // ich kann nämlich ganz gut // ich kenn mich gut mit pferden aus // und mit einer decke und einem und
einem sattel // na weil weil ich mit meiner cousine die heißt laura // aber das ist nicht die aus dem kindergarten
// die heißt laura ne // ja // und die laura meine cousine // die cousine ist von mir // die die kennt sich auch gut mit pferden
MA: drei // ja // aber // ((unverständlich)) geboren // nee der große bruder // die ganze welt // diesmal male ich ne
krone // na die prinzessin // ja und auch den froschkönig // na aus der kita ein buch // gibt es aber // aber eigentlich
kommt jetzt der vogel hier lang geflogen // hm // aber ich hab nicht gesehen // noch einer // da // ja // da siehst du
// der ist da am fenster // oh // jetzt ist er weggeflogen // schwarz // ((unverständlich)) am kopf // na die amseln // äh
länger // guck mal so // ja // da da da // aber ich war doch fertig // aber jetzt nicht // ich // weißt du was ich malen kann
// äh ich kann
MK: nur mit meinen freunden // mit meinem papa // ja // und mit meiner mama // mit meinem bruder
// ((unverständlich)) // mit dem bruder // ((unverständlich)) // na ins tobeland // na toben // na ein tobeland
ist zum toben // ja // und draußen war so // da // ein ähm // ein äh trampolin // na einfach viel mehr
sachen als sonst // so viel kann ich gar nicht erzählen // ja // alle meine freunde // meine verwandten //
ja // sogar zwei // einen in den kindergarten und einen bei den // hm ja // und einen bei äh tobeland // zwei
// stimmt // und guck mal // hier kommen // muss man ein bisschen festhalten weil dann // es bewegt sich doch die kette
MM: ich habe aber mehr als du // nochmal // ich möchte anfangen // ich war schneller // hattest nur ein bisschen
// ein bisschen deine hand // das geht aber nicht mehr // ich verteile die // die rutscht ein bisschen von dem tisch weg
// äh // schon lange // ja // sie studiert schon // ich bin ganz papa // der erzählt mir gar nichts // und ich habe noch
einen kleinen bruder // der ist in der krippe // den kindergarten // äh ein jahr // weißt wie er heißt // ((unverständlich)) //
manchmal // aber ich kann schon gut schlafen // ich schlaf jetzt bei den eltern // ich habe die letzte karte // weißt du
wer da gerade spricht // LL
168
KAPITEL 6. ANALYSE DER WORTARTEN
JK: wer bist du // wer bist du // äh ja // ein groß großen bruder und eine kleine schwester // ich bin schon vier //
und ich bin JK // sechs // ich will nur // ich will nur einen blauen // eins // ich will ein grünes papier // und eigentlich //
eigentlich muss das // musst du das haben weil du der doch der profi bist // na gut // dann bin ich der profi // ich habe
null neun sechs gemacht // hallo // jetzt muss der papiermaschine kommen // wie heißt du // hallo julia // äh JK // äh du
musst paar blätter holen // blätter müssen wir holen // äh grüne // eins // nein // tschüs // hallo hallo papiermaschine // ich
JS: graben ganz tiefe löcher // ja // wir mögen nicht dass sie uns küssen // deswegen machen wir für sie ne falle
// das mögen wir nicht so // die stühle komme hier als festung // die kommt dahin falls wir die noch brauchen // in der
krippe // in der krippe haben wir uns kennengelernt // nein RD // RD schau mal // wir graben nur hier // hier zu diesem
geraden strich // ((unverständlich)) // und das ist der holzeimer // hier kommen die ganzen holzteile und porzellan //
hier ist der eimer wo das ganze porzellan reinkommt // und holz kommt in deinen eimer RD // und in meinen porzellan
aber man muss gut aufpassen
RD: ja // ja damit // wir bauen ne stolperfalle für die mädels weil die küssen uns immer und das mögen wir nicht
// JS noch ein stuhl // meine jacke die // darf ich auch meine jacke ausziehen // mir ist nämlich ziemlich heiß // wo der
bereich ist müssen wir aufpassen // ((unverständlich)) // eine falle damit die hier nicht rangehen // das erste holzstück
// prima schau mal wie viel holz der kleine findus schon hat // darum hackt findus holz // hä komisch // eine muschel //
ich hatte schwimmen // viele zutaten für meinen kuchenteig // ja ich habe // macht kimba im film // der macht da den
kuchen und setzt sich da drauf
SO: äh weiß ich nicht // ich fahr // ich fahr mit der ubahn // MM du machst ((unverständlich)) so viel auf den kopf
// falsch // strafkarten // noch mir eine LAR // doch // hier liegt die doch oder LAR // jetzt haben wir zu wenig // nee
hier geht es doch // oh // so viele // geht nicht // ich und LAR // nee_e // weil du es hm am besten kennst // doch //
eins zwei drei vier fünf // muss ich // muss MM // wir müssen auch mal spielen // aber ich habe auch so wenig //
ja // da muss man auch schneller sein // hab noch so wenig // sind alle weg // jetzt hab ich ((unverständlich)) keine mehr
Was nach einer ersten Durchsicht der geäußerten Tokens recht
überprüfbar erscheint, ist der sehr unterschiedliche Anteil der Nomen an
sich. Aus diesem Grund sollen die ersten einhundert Tokens losgelöst
von ihrer Wortartenzugehörigkeit betrachtet und dahingehend überprüft
werden, ob anhand inhaltlicher Gegebenheiten auf die Verwendung von
mehr bzw. weniger Nomen geschlossen werden kann. Im Folgenden werden
die erkennbaren Situationen entweder einer Erzählsituation oder einer
Spielsituation10 zugeordnet. Zu einer Erzählsituation gehören folgend alle
nicht-fiktiven Gespräche des Kindes, sowohl mit der Interviewerin als auch mit
anderen Kindern. Dies betrifft alle Unterhaltungen, die nicht aus einem Spiel
mit fiktiven Charakteren heraus entstanden sind. Unter einer Spielsituation
werden im Folgenden alle Gegebenheiten, in denen das jeweilige Kind allein
oder mit anderen Kindern ein Spiel spielt, verstanden. Die Spiele können real
(Karten-, Brett-, Puppen-, Autospiele) oder fiktiv (Fantasiespiele, bei denen
Kinder in die Rolle einer anderen Figur schlüpfen) sein.
• AV: Bei den ersten einhundert geäußerten Wörtern handelt es sich
eindeutig um eine Erzählsituation mit der Interviewerin. Lediglich ab
dem 74. Wort ist eine angedeutete Spielsituation erkennbar. AV spielt
jedoch nicht selber, sondern fordert die Interviewerin auf, Karten eines
Kartenspiels aufzudecken.
10
Die Begriffe Erzählsituation und Spielsituation sind von mir eingeführte Bezeichnungen. Es ist
möglich, dass die Begriffe in anderen Arbeiten alternativ verwendet werden.
6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND
169
• LEO: Bis zu Wort 33 singt LEO ein Lied („Ich gehe mit meiner Laterne“).
Darauffolgend handelt es sich eindeutig um eine Erzählsituation mit der
Interviewerin. LEO erzählt, dass er schon gut malen und mit einer Schere
schneiden kann. Außerdem erklärt er, was ein Geheimnis ist.
• LAR: Die Situation bei LAR ist nicht eindeutig zu umschreiben. Einerseits
befindet sie sich im Spiel (Halli Galli) mit weiteren Kindern. Andererseits
kommt es (zumindest während dieser geäußerten einhundert Tokens)
nicht wirklich zu einer Spielsituation. Der inhaltliche Hauptbestandteil ist
eher ein Streitgespräch, in dem es darum geht, wer als nächstes an der
Reihe ist und wer wie viele Karten gezogen hat. Aus diesem Grund kann
diese Situation durchaus als Erzählsituation beschrieben werden, da sie
am Rande eines Spiels stattfindet.
• LL: Die ersten einhundert geäußerten Wörter von LL können sowohl
einer Erzähl- als auch einer Spielsituation zugeordnet werden. Die
gesamte Situation findet während eines Spiels statt, wobei LL in der
ersten Hälfte mit der Interviewerin spricht. Später (ab Wort 57) beteiligt
sich LL auch am Spiel, was durch die Verwendung von Nomen, die als
Elemente zum Spiel gehören, deutlich wird (mehrfache Äußerung der
Nomen Birne, Traktor, Schwein, Schmetterling, die auf den Karten eines
Memory-Spiels abgebildet sind).
• LUA: LUA befindet sich mit der Interviewerin in einer Erzählsituation.
Auffällig sind gehäufte Wiederholungen in den hier geäußerten
Passagen. Ob diese einen Einfluss auf die Anteile und schließlich auf
die Verteilung der Wortarten haben, kann nicht abschließend beurteilt
werden. Da die Wiederholungen jedoch nicht standardmäßig bei LUA
auftreten (im Vergleich zu allen von LUA geäußerten Tokens), ist davon
auszugehen, dass diese keinen Einfluss auf die Verteilung der Wortarten
haben.
• MA: Die ersten einhundert geäußerten Wörter gehören zu einer
Erzählsituation zwischen MA und der Interviewerin. MA erzählt, was
sie gleich malen möchte und beschreibt eine Situation, in der ein Vogel
draußen am Fenster sitzt.
• MK: MK erzählt von den Erlebnissen seines Geburtstages. Es handelt
sich demnach um eine Erzählsituation.
• MM: MM befindet sich zwar gerade in einem (Karten-)Spiel. Es geht
jedoch vorwiegend darum, wer schneller war und wer die Karten verteilt.
170
KAPITEL 6. ANALYSE DER WORTARTEN
Später berichtet MM von ihrem kleinen Bruder. Aus diesem Grund kann
die Situation eher als Erzähl-, denn als Spielsituation bezeichnet werden.
• JK: JK befindet sich in einer Spielsituation mit weiteren Spielern.
Zwischenzeitlich sucht er häufig das Gespräch mit der Interviewerin. Er
erzählt zudem von seinen Geschwistern und er spricht darüber, wie alt
er ist. Von daher kann die Situation nicht eindeutig eingeordnet werden.
• JS: JS befindet sich (zusammen mit RD) eindeutig in einer Spielsituation
draußen im Garten der Kita. Sie spielen ein Fantasiespiel, in dem sie
eine Festung bauen mit einem Graben und anderen Elementen. Die
dazugehörige Konversation spielt sich in dieser konstruierten Situation
ab. Bevorzugte Nomen sind Falle, Festung, Löcher etc.
• RD: RD befindet sich in der oben geschilderten Situation mit JS. Das
Vokabular entspricht dem eben genannten. Zusätzlich finden sich bei
RD Eigennamen von Gestalten aus Kinderbüchern und -filmen (Findus,
Kimba).
• SO: Dem Inhalt der ersten einhundert Tokens nach zu urteilen, befindet
sich SO in einem Spiel zusammen mit anderen Kindern. Da es jedoch zu
einem Streit darüber kommt, welches Kind wie viele Karten bekommt und
welches Kind wann an der Reihe ist, entsteht gar kein Spiel. Demnach
kann die Situation eher einer Erzählsituation zugeordnet werden.
In den meisten Fällen war es eindeutig, die Gegebenheiten einer konkreten
Situation zuzuordnen. Sicherlich ist es möglich, je nach Bedarf die Situationen
weitaus detaillierter im Rahmen einer Gesprächsanalyse zu beschreiben.
Das war jedoch nicht Gegenstand dieser Arbeit. Nach der Analyse der
ersten einhundert syntaktischen Wörter ergaben sich zwei eindeutige
Spielsituationen (JS und RD), eine Gegebenheit, die beiden Situationen
zugeordnet werden kann (LL) und eine nicht zuordenbare Situation (JK).
Alle anderen Kinder befanden sich bei der Äußerung der Wörter in einer
Erzählsituation. In Bezug zum Vorkommen der Nomen fällt auf, dass
besonders dann ein hoher Anteil an Nomen verzeichnet werden kann, wenn
die Kinder in einem Spiel waren. Bei JS sind 18% der ersten einhundert
Wörter Nomen, bei RD 21% und bei LL 18%. Bei allen anderen Kindern
liegt der Anteil deutlich unter 18%11 . Dies ist nicht verwunderlich, da im
Spiel besonders viele Nomen in Form von (Eigen-)namen verwendet
wurden (Fantasiefiguren, Namen von Objekten und Tieren in Kartenspielen).
11
Die hier aufgeführten prozentualen Anteile beziehen sich auf die ersten einhundert syntaktischen
Wörter je Kind. Die Werte sind nicht gesondert in einer Tabelle aufgeführt.
6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND
171
Befanden sich Kinder in einer sogenannten Erzählsituation, verwendeten sie
(zumindest in der vorliegenden Arbeit) tendenziell weniger Nomen, da diese
scheinbar zur Beschreibung von Situationen weniger notwendig sind.
Nicht festzustellen ist ein Zusammenhang zwischen der Verwendung
von Nomen und Verben in den genannten Situationen. So verwendeten
Kinder, die einen hohen Anteil an Nomen aufweisen, nicht weniger Verben als
Kinder mit einem geringen Nomenanteil. Auch ist der Anteil der Verben bei
Kindern mit einem hohen Nomenanteil nicht höher als bei Kindern mit einem
niedrigen Nomenanteil. Ein Vergleich mit dem Nomen- und Verbenanteil
unabhängig vom Alter des Kindes aus Abschnitt 6.3 zeigt, dass es keinen
Zusammenhang gibt zwischen dem gesamten Anteil der geäußerten Nomen
und Verben (sowie auch den restlichen Wortarten) jedes Kindes. Demnach
weisen JS, RD und LL nicht durchgehend einen überdurchschnittlich hohen
Anteil an Nomen auf. Folglich können die Ergebnisse aus diesem Abschnitt
auf die jeweilige Situation, in der sich das Kind während der Äußerung der
Wörter befand, zurückgeführt werden. In Spielsituationen wurden demzufolge
tendenziell mehr Nomen verwendet als in Erzählsituationen. Damit kann
der generell höher ermittelte Nomenanteil in der vorliegenden Arbeit im
Gegensatz zu anderen Arbeiten (z.B. [Kauschke (2007)]; [Kauschke (1999)];
[Kauschke (2000)]) vermutlich erklärt werden. Die Aufnahmen, die der
Analyse dieser Arbeit zugrunde liegen, wurden durchgehend in einer
Kita erhoben. In der Kita gibt es zwar ein tägliches Programm, dem die
Kinder folgen (Morgenkreis, gemeinschaftliches Basteln, Gruppenausflüge,
Mittagessen, gemeinsame Lernspiele mit den Betreuerinnen), doch befand
sich die Interviewerin während der Datenerhebung fast ausschließlich in
Situationen, in denen die Kinder die Möglichkeit zur freien Gestaltung
hatten. Dementsprechend kam es vermehrt zu Gesprächen zwischen
Kind und Interviewerin. Fast noch häufiger beobachtete die Interviewerin
zwei oder mehr Kinder beim Spiel. Wie eben beschrieben sind die hier
ermittelten Spielsituationen häufig durch einen hohen Anteil an Nomen in der
Sprachverwendung gekennzeichnet. Die Gesamtanalyse dieser Arbeit liefert
dementsprechend einen insgesamt höheren Nomenanteil als in anderen
Arbeiten zu diesem Thema, die die zu analysierenden Daten in einem Labor
erhoben haben. Es bleibt die Frage, welche Ergebnisse die Realität adäquater
widerspiegeln. Fakt ist, dass sowohl bei Aufnahmen im Labor als auch in der
Kita niemals ein vollständiges Abbild der Wortartenverteilung eingefangen
werden kann. Die Situationen im Labor sind in jedem Falle konstruierter und
oft durch Fragen oder Vorgaben initiiert. In der Kita gingen die Kinder ihrem
Alltag nach, ohne konstruierten Anweisungen der Versuchsleiterin zu folgen.
Dies zog nach sich, dass ein höherer Nomenanteil verzeichnet wurde, der
172
KAPITEL 6. ANALYSE DER WORTARTEN
vermutlich aus gehäuften Spielsituationen resultiert. Im Grunde besteht das
Leben der meisten Vorschulkinder zu einem großen Teil aus dem Spiel (egal
ob freies oder initiiertes Spiel). Dies sollte bei allen Analysen den Wortschatz
von Kindern betreffend berücksichtigt werden.
6.5
Die Wortartenverteilung bei Erwachsenen
An dieser Stelle soll ein möglicher Einfluss der Erwachsenensprache auf
das Lexikon von Kindern im Alter von 3;5 bis 5;5 Jahren untersucht werden.
Leider sind zum Zeitpunkt der Erstellung dieser Arbeit keine weiteren
Analysen in Bezug auf die Wortartenverteilung von Erwachsenen bekannt als
jene, die Kauschke (2007) in Abschnitt 2.3.3 erwähnt ([Kauschke (2007)]).
Deshalb sollen diese Daten als Bezugsmaterial für die hier ermittelten Daten
herangezogen werden. Wie eben erwähnt, untersuchte Kauschke (2007)
den Input, den die in ihrer Studie zur Ermittlung der Wortartenverteilung
([Kauschke (1999)]; [Kauschke (2000)]) analysierten Kinder von ihren
Eltern erhielten. Der untersuchte Input basierte auf einem informellen und
ungesteuerten Gespräch zwischen zwei Erwachsenen (zumeist Müttern der
Kinder). Von den ersten 1000 Wörtern waren 319 Types. Kauschke beschreibt
lediglich das Vorkommen der Verben und Nomen; weitere Wortarten werden
in den Ausführungen nicht erwähnt. Verben treten im Hinblick auf die Types
mit 18,5% auf, Nomen mit 19%. Bei den Tokens waren es 16,3% Verben und
9% Nomen ([Kauschke (2007)], S. 132).
Zunächst soll ein Vergleich zu den Daten aus Abschnitt 6.2 angeführt
werden. Es handelte sich um eine Analyse der drei Altersgruppen. Ich beziehe
mich an dieser Stelle nur auf das Vorkommen der Nomen und Verben, da
keine weiteren Wortarten für einen Vergleich zur Verfügung stehen. In Gruppe
1 (1281_1495) kamen im Hinblick auf die Types Nomen mit 30,5% und Verben
mit 23,7% vor. In Gruppe 2 (1496_1708) traten Nomen mit 40,5% auf, Verben
mit 22,6%. In Gruppe 3 (1709_1983) machten Nomen einen Anteil von 38,8%
aus, Verben einen Anteil von 22,9%. Unter der Annahme, dass die Daten
Kauschkes verlässlich sind, können nur zum Teil Parallelen des Nomen- und
Verblexikons von Erwachsenen zum Lexikon von Kindern im Alter von 3;5 bis
5;5 Jahren angenommen werden. Nomen nahmen bei den Kindern in allen
Gruppen einen höheren Anteil ein als es bei erwachsenen Sprecherinnen
und Sprechern der Fall ist. Auffällig ist, dass der Anteil der Verben in den drei
Altersgruppen annähernd gleich bleibt, während der Anteil der Nomen in den
Ergebnissen der vorliegenden Arbeit in Gruppe 2 und 3 stark erhöht ist.
Das Vorkommen von Nomen und Verben bezogen auf die Tokens ergab
6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN
173
folgende Daten: In Gruppe 1 erschienen Nomen mit 9,1% und Verben mit
21,2%. In Gruppe 2 kamen Nomen mit 7,7% vor, Verben mit 21,4%. In
Gruppe 3 traten Nomen mit einem Anteil von 11,0% auf, Verben mit einem
Anteil von 22,1%. Hier fällt auf, dass über den gesamten Zeitraum der
Aufnahmen hinweg (Gruppe 1 bis 3) die Anteile von Nomen und Verben
annähernd gleich blieben. Auch ein Vergleich mit den Daten Kauschkes gibt
Anlass dazu anzunehmen, dass die Verteilung der Nomen und Verben in
Bezug auf die Tokens bei den hier untersuchten Kindern im Alter von 3;5
bis 5;5 Jahren in etwa der Verteilung der von Kauschke (2007) geprüften
Erwachsenen entspricht ([Kauschke (2007)]). Nach längeren Überlegungen
erscheint es fast logisch, dass die Rechnung im Hinblick auf die Types
nicht mehr aufgeht. So ist es meines Erachtens nicht verwunderlich,
dass Kinder im Vorschulalter einen höheren Anteil an verschiedenartigen
Nomen verwenden als Erwachsene. Es wurde festgestellt, dass gerade in
Spielsitutationen mehr Nomen verwendet wurden als in Erzählsituationen. Die
Aufnahmen in einem Kindergarten sind zudem prädestiniert für das Auftreten
von Spielsituationen und einem daraus resultierenden höheren Anteil an
verschiedenen Nomen (Abschnitt 6.4). Diese Vermutungen werden gestützt
von Jampert (2002), die das Sprachverhalten von Kindern im Kindergarten
unter sozialwissenschaftlichen Gesichtspunkten untersuchte. Jampert fand
heraus, dass ein Vergleich von Außen- und Innenaktivitäten der Kinder ergab,
dass das Sprachverhalten der Kinder im Freien ungezwungener abläuft und
die Kinder draußen mehr miteinander sprechen ([Jampert (2002)], S. 158).
Dies unterstreicht die Vermutung, dass Kinder im freien Spiel ein anderes
Sprachverhalten an den Tag legen als in einer Situtation, in der sie sich im
Labor (oder anderswo) mit einem Erwachsenen im Gespräch befinden. Das
freie Spiel in den Innenräumen kann durchaus mit dem Spiel draußen im
Garten verglichen werden, da es in den Aufnahmesituationen in beiden Fällen
kein Programm gab und sich die Kinder größtenteils ohne den Einfluss der
Erzieherinnen bewegen konnten. Jampert (2002) begründet das abweichende
Sprachverhalten damit, dass Kinder durch wenig strukturierte Angebote
ihre Kreativität, zu der auch die sprachliche Kreativität gehört, verstärkt
einbringen. Zudem ermögliche der Kontakt zu Kindern aus anderen Gruppen
gemeinsame Aktivitäten mit neuen Gesprächspartnern ([Jampert (2002)], S.
158).
Im Folgenden sollen nun die Daten eines jeden einzelnen Kindes betrachtet
werden. In Abschnitt 6.3 wurden die Anteile aller Wortarten je Kind und
Altersgruppe in Bezug auf die Types und die Tokens vermerkt. Zunächst zu
den Types: In Gruppe 1 kamen Nomen mit einem Anteil von 24,7% (MA) bzw.
27,1% (MK) und Verben mit 22,4% (MA) bzw. 25,0% (MK) vor. In Gruppe 2
174
KAPITEL 6. ANALYSE DER WORTARTEN
belief sich das Vorkommen der Nomen auf 24,7% bis 35,0% bei vier Kindern,
wobei 35,0% nur bei MK auftraten. Verben traten mit einer Häufigkeit von
22,5% bis 24,3% auf. Gruppe 3 lieferte Anteile von 16,7% bis 30,7% Nomen
bei insgesamt 10 Kindern, wobei rund 17% zweimal (LUA und SO) und
rund 18% dreimal (AV, LAR und JK) auftraten. Die restlichen Nomenanteile
bewegten sich zwischen 22,9% und 30,7%. Verben kamen bei diesen 10
Kindern mit 21,0% bis 28,1% vor. An dieser Stelle ist es nicht einfach, einen
einheitlichen Bezug herzustellen zu den Daten der Erwachsenen. Auffällig ist
aber, dass unter Ausschluss des 35,0%-Vorkommens der unterschiedlichen
Nomen bei MK in Gruppe 2, der Anteil der Nomen kontinuierlich niedriger ist.
In Gruppe 3 gab es gar zwei Kinder, die einen Anteil von rund 17% aufwiesen
und drei Kinder mit einem Anteil von unter 19% Nomen. Im Vergleich zum
Vorkommen von 19% bei den Erwachsenen ist das erstaunlich wenig. Man
kann also annehmen, dass sich die Verwendung verschiedener Nomen
mit zunehmenden Alter langsam reduziert. Ähnlich verhält es sich bei den
Verben. In Gruppe 3 verwendete kein Kind mehr als 28,1% Verben bezogen
auf die Types. Das ist im Vergleich zu 18,5% bei den Erwachsenen zwar
erheblich mehr. Die meisten Kinder wiesen jedoch einen Anteil von 22% bis
24% auf, während der Wert von 28,1% bei nur einem Kind vorkam. In Gruppe
1 war der geringste Anteil 22,4%, in Gruppe 2 lag er bei 22,5%. Man könnte
also auch hier annehmen (unter Ausschluss der 28,1% in Gruppe 3), dass
die Verwendung von Verben bezogen auf die Types in einem Alterszeitraum
von 3;5 bis 5;5 Jahren kontinuierlich niedrig ist und durchaus mit den von
Kauschke (2007) ermittelten Daten von 16,3% vergleichbar ist. Um zu prüfen,
ob sich die Types-Anteile bezüglich der Verben mit zunehmendem Alter weiter
reduzieren, müssten weiterführende Analysen gemacht werden, die über das
sechste Lebensjahr von Kindern hinausgehen.
In Bezug auf die Tokens sieht ein Vergleich der Daten der Kinder zu
den Erwachsenen etwas anders aus. Wie weiter oben dargestellt, kamen
Verben bei allen Kindern verteilt über alle Altersgruppen mit einem Anteil
von 21,0% bis 28,1% bezogen auf die Types vor. Hinsichtlich der Tokens
sind es 20,4% bis 24,0%. Im Vergleich zu den Daten der Erwachsenen ist
der Anteil zwar höher, erstaunlicherweise erscheint er aber stabil und es
gibt keine großen Unterschiede zwischen den Types- und Tokens-Anteilen.
Bei den Nomen reichte die Spanne bei den Types von 16,7% bis 35,0%,
bei den Tokens von 5,9% bis 15,9%. Dieser Unterschied ist im Vergleich zu
den Daten der Erwachsenen zum Teil enorm. Hier steht ein Typeanteil von
19%, einem Tokenanteil von 9% jeweils bezüglich der Nomen gegenüber.
Erstaunlich ist hingegen, dass der Anteil der Tokens bei den hier untersuchten
Kindern mit 5,9% bis 15,9% ähnlich niedrig ist wie jener der Erwachsenen
6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN
175
mit durchschittlich 9%. Das lässt vermuten, dass der Anteil der Nomen,
was ihre Verwendungshäufigkeit angeht, bereits im Alter von 3;5 bis 5;5
Jahren annähernd der Sprache von Erwachsenen entspricht. Der recht
hohe Anteil der Types bei den Kindern kann auf unterschiedliche Weise
hypothetisch erklärt werden; Kontrollstudien mit weiteren Erwachsenen und
Kindern in anderen Kindertagesstätten oder in Hausbetreuung wären jedoch
aufschlussreich. Mögliche Gründe wären zum einen, dass in Spielsituationen
mehr verschiedene Nomen produziert werden, wodurch sich der Type-Anteil
erhöht. Vor allem aber heißt das, dass Kinder insgesamt betrachtet eher
wenig Nomen verwenden und wenn, dann viele verschiedene. Der Anteil
der Verben hingegen ist durchgehend hoch und entspricht annähernd den
Daten von Erwachsenen, wie sie von Kauschke (2007) vorgelegt wurden
([Kauschke (2007)]). Allein an den in dieser Arbeit erhobenen Daten wird
jedoch ersichtlich, dass sich sowohl die Anteile der Nomen als auch der
Verben mit zunehmendem Alter anscheinend allmählich reduzieren. Bis
zu welchem Alter diese Reduktion stattfindet und sich gänzlich an die
Komposition des Lexikons von Erwachsenen angepasst hat, kann zu
diesem Zeitpunkt noch nicht gesagt werden. Aus Gründen mangelnder
Repräsentativität sollten die Vergleichsdaten der erwachsenen Sprecherinnen
und Sprecher nicht überbewertet werden. Sie stellen ein nur kleines Korpus
dar und um einen aussagekräftigen Vergleich durchzuführen, müssten weitere
Daten hinzugezogen werden. Diese lagen zum Zeitpunkt der Erstellung
dieser Arbeit nicht vor, weshalb die getätigte Gegenüberstellung lediglich als
Annäherung bezeichnet werden soll.
176
KAPITEL 6. ANALYSE DER WORTARTEN
Kapitel 7
Der Grundwortschatz semantisch
betrachtet
Nachdem im vorhergehenden Kapitel die hier erworbenen Daten vorrangig
unter dem Aspekt der Wortartenklassifizierung und -verteilung betrachtet
wurden, sollen in diesem Kapitel semantische Aspekte im Vordergrund
stehen. Dazu wurden alle geäußerten und voneinander separierten Wörter
im Hinblick auf ihre Lemmata noch einmal nach semantischen Kriterien
begutachtet und klassifiziert. Durch diesen Prozess soll schließlich ein
Grundwortschatz von deutschsprachigen Kindern im Alter von 3;5 bis 5;5
Jahren entstehen, der auf den hier erhaltenen Daten beruht. Mit großer
Sicherheit sind dies nicht alle Lemmata, die tatsächlich im Wortschatz
dieser (und auch anderer) Kinder existieren. Doch wie bereits erwähnt, lässt
sich der Wortschatz nie vollständig erfassen. Dennoch denke ich, mit den
folgenden Daten einen enormen Teil des Lexikons der hier untersuchten
Kinder abbilden zu können. Die hier verwendete Vorgehensweise entspricht
in vielen Aspekten der Arbeit der klassischen Lexikologie und Lexikographie,
wenn auch das spätere Ergebnis kein Lexikon im klassischen Sinne
darstellt, sondern ein Lexikon der hier untersuchten Sprecher/innen ist (siehe
auch [Schlaefer (2002)]). Laut Schlaefer (2002) beziehen sich die Begriffe
Wortschatz, Lexik und Lexikon meistens auf den zahlenmäßigen Umfang
eines bestimmten Zeichenbestandes. Dieser bestimmte Zeichenbestand
entspricht in dieser Arbeit dem erstellten Korpus und den darin enthaltenen
syntaktischen Wörtern bzw. Lemmata mit ihren jeweiligen Markierungen (z.B.
POS-Tags, Bedeutungskategorien). In Bezug auf die lexikologische Arbeit
betont Schlaefer das besondere Interesse der Lexik als Systemebene der
Sprache, die aus spezifischen Klassengliederungen und Zeichenbeziehungen
gebildet wird. Klassen seien zum Beispiel Wortarten wie Substantiv, Adjektiv
oder Verb und damit verbunden deren semantische Subklassen. Als Wortarten
177
178
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
gelten ferner aus lexikographischer Sicht bestimmte morpho-syntaktische
und semantisch unterscheidbare Lexeme, so Schlaefer ([Schlaefer (2002)],
S. 38-41). Derartige Klassen von Wortarten wurden in der vorliegenden
Arbeit durch die Zuordnung der Wörter zu ihren POS-Tags (syntaktisch
orientiert) und deren anschließende Lemmatisierung sowie die Zuordnung
zu ihren Bedeutungskategorien (semantisch orientiert) gebildet. Im
Gegensatz zu der eben beschriebenen lexikologischen Arbeit befasst sich die
Lexikographie mit dem Erstellen von Wörterbüchern. Dabei wird ein Lexem
überschriftartig durch ein Stichwort oder Lemma repäsentiert. Das Lemma
bildet dann wiederum mit den zugeordneten Informationen einen Artikel
des Wörterbuches ([Schlaefer (2002)], S. 76). Dieses Vorgehen entspricht
weitestgehend jenem der vorliegenden Arbeit. Jedes syntaktische Wort wird
einer Wortart zugeordnet, durch ein Lemma repräsentiert und mit weiteren
Informationen versehen (Bedeutungskategorie, Vorkommen im Korpus,
Anzahl des Vorkommens, (POS-Tag)). Da sich die daraus resultierenden
Einträge lediglich auf die Lemmata des vorliegenden Korpus beziehen
und diese wiederum spezifischen Kategorien untergeordnet sind, kann in
diesem Fall auch von einer Konkordanz gesprochen werden. Schlaefer
(2002) beschreibt Konkordanzen als geordnete Stichwortverzeichnisse,
die das Vorkommen der Einzelwörter in einem oder mehreren Texten
nachweisen. Insbesondere durch die hier verwendete Software und durch
die Verwendung der Datenbank (CA) wird die Erstellung von Konkordanzen
unter unterschiedlichen Aspekten möglich. Des Weiteren listet Schlaefer in
einer Tabelle mögliche Wörterbuchtypen auf, nach denen das hier erstellte
Lexikon unter anderem als Grundwortschatz-Wörterbuch, Korpuswörterbuch,
Spezialwörterbuch und eventuell als Sprachstadienwörterbuch bezeichnet
werden könnten. In Anbetracht der späteren Nutzung wäre auch die
Bezeichnung als Lernerwörterbuch denkbar ([Schlaefer (2002)], S. 110; siehe
Kapitel 9).
Die in Kapitel 6 getätigte Analyse wird in der nun folgenden semantischen
Betrachtung in der Form zu Rate gezogen, als dass die ermittelten Lemmata,
bezeichnet mit ihren jeweiligen POS-Tags, einer nochmaligen Betrachtung
unterzogen werden. Die Kategorien für diese semantische Analyse wurden ebenso wie die POS-Tags - in den EXMARaLDA-Dateien erfasst und in die
Datenbank des CA importiert. Um die Lemmata einer Wortart bestimmten
semantischen Kategorien zuordnen zu können, bedarf es festgelegten
Kriterien, nach denen ein Lemma einer bestimmten Gruppe zugeordnet
wird. Diese Kiterien wurden nach den Richtlinien der Dudengrammatik
zusammengestellt, die jede Wortart des Deutschen - neben zahlreichen
anderen Aspekten - unter semantischen Gesichtspunkten betrachtet
7.1. DIE BEDEUTUNGSKATEGORIEN
179
([Dudenredaktion (2009)]). Die Beispiele stammen in den meisten Fällen aus
den Daten der für diese Arbeit erstellten EXMARaLDA-Dateien und somit aus
den Audio-Daten der Probandinnen und Probanden aus dem Kindergarten.
Beispiele aus der Dudengrammatik sind als solche kenntlich gemacht.
Der vollständige, durch die hier produzierten Lemmata erfasste Wortschatz
der untersuchten Kinder wird später in dreifacher Weise dargestellt1 . Zum
einen erscheint eine Liste, die ausgehend von der Bedeutungskategorie, z.
B. adv-kaus (kausales Adverb), alle in einer Altersgruppe vorkommenden
Lemmata, die in der jeweiligen Bedeutungskategorie vorkommen, auflistet.
Zusätzlich erhalten alle Lemmata die Zuweisung ihrer POS-Tags, mit
denen sie in den Daten dieser Arbeit erscheinen. Adjektive können die
POS-Tags ADJA oder/und ADJD erhalten. Es wird später deutlich, dass
nicht alle Lemmata, obwohl sie gleichermaßen in den drei Alterzeiträumen
auftreten, auch immer allen zugehörigen POS-Tags zugeordnet sind.
Diese Information kann für weiterführende Arbeiten relevant sein. Zum
anderen wird ein Lexikon aller Lemmata, die von den hier untersuchten
Kindern geäußert wurden, erstellt. Dabei sollen die drei Alterszeiträume
keine Rolle spielen. Vielmehr wird jedes Lemma in Zugehörigkeit zu seiner
Bedeutungskategorie aufgeführt und mit Beispielaussagen aus den Daten
dieser Arbeit versehen. Durch diese Vorgehensweise werden sehr gut
die Zusammenhänge deutlich, in denen ein Lemma geäußert wurde bzw.
werden kann. An einigen Stellen werden Zusatzinformationen in Klammern
eingefügt oder aber inhaltliche sowie grammatikalische Fehler korrigiert,
um so zum allgemeinen Verständnis beizutragen. In einer dritten Übersicht
werden alle Lemmata unter Berücksichtigung der Altersgruppen mit den
dazugehörigen Bedeutungskategorien aufgeführt. Anhand dieser Auflistung
werden Entwicklungstendenzen deutlich, wie sie bereits bei der Analyse der
Wortartenverteilung festgehalten wurden (Abschnitt 6.2). Diese Auflistung
wird aufgrund des enormen Umfangs ebenso im Anhang zu finden sein.
Auftretende Entwicklungstendenzen in der Verwendung bestimmter Lemmata
bezüglich ihrer semantischen Kategorien werden in Abschnitt 7.2 diskutiert.
7.1
Die Bedeutungskategorien
Die folgend aufgeführten Kriterien, nach denen ein Lemma einer bestimmten
Bedeutungskategorie zugeordnet ist, sind angelehnt an die Regeln
der Dudengrammatik ([Dudenredaktion (2009)]). Die Kategorien sind
1
Aufgrund des sehr großen Umfangs des erstellten Lexikons und der dazugehörigen Excel-Dateien
ist dieses im Anhang dieser Arbeit zu finden.
180
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
nicht alphabetisch geordnet, sondern entsprechen in ihrer Reihenfolge
weitestgehend den Kategorien der STTS und ihrer dortigen Anordnung
(Tabelle 3.2).
7.1.1
Adjektive
Unter grammatischen Gesichtspunkten sind Adjektive Wörter, die flektiert
werden können. Dementsprechend sind sie veränderbar nach Kasus,
Numerus und Genus. Im Hinblick auf semantische Kriterien unterscheidet der
Duden folgende Klassen (Regel 459):
• qualifizierende Adjektive: Farbe (rot, grün), Form (eckig, rund),
Geschmack (süß, bitter ), Oberfläche (rau, glatt), Temperatur (warm,
kalt), Ästhetik (schön, hässlich), Moral (gut, böse), Intellekt (klug, witzig),
Räumliche Dimension (hoch, breit), Zeitliche Dimension (früh, spät),
Wahrheitsgehalt (wahrscheinlich, angeblich)
Beispiel (1): Komm, wir malen ein so großes Pferd, ok? (024_MK.exb)
Beispiel (2): Sieht lustig aus, oder? (039_MA.exb)
• relationale Adjektive: Geografie (afrikanisch, asiatisch), Staat/Volk/Sprache
(englisch, französisch), Religion (katholisch, islamisch), Epoche
(römisch, mittelalterlich), Beruf (ärztlich), Bereich (wirtschaftlich,
technisch), Stoff (golden, hölzern), Zeitpunkt (heutig, gestrig), Räumliche
Lage (vordere, linke)
Beispiel (3): Hier, chinesisches Essen. ’Ne kleine Portion. (041_LEO.exb)
Beispiel (4): Hier ist der kleine Käsepfannkuchen mit einem schweizer Käse. (041_LEO.exb)
• quantifizierende Adjektive: Zahladjektive (Regel 509). Diese sind in der
vorliegenden Arbeit unter dem POS-Tag CARD zusammengefasst. Im
Folgenden werden alle unter CARD aufgeführten Lemmata in der Gruppe
der quantifizierenden Adjektive aufgeführt, auch wenn sie nicht in allen
Fällen tatsächliche Adjektive sind.
Beispiel (5): das dritte Holzstück (013_JS.exb)
Beispiel (6): Ich habe null, neun, sechs gemacht. (033_JK.exb)
• adjektivisch gebrauchte Partizipien (Regel 458): z. B. fliegend in
fliegender Fisch
Beispiel (7): ein fliegender Fisch. (048_LEO.exb)
7.1. DIE BEDEUTUNGSKATEGORIEN
181
In der hier getätigten Analyse kommen qualifizierende Adjektive (ad-qual),
quantifizierende Adjektive (ad-quant), relative Adjektive (ad-rel) und
adjektivisch gebrauchte Partizipien (ad-part) vor. Bei den quantitativen
Adjektiven handelt es sich um alle zuvor mit CARD getaggten Zahlwörter.
Diese werden im Folgenden mit ad-quant bezeichnet, da auch die
Dudengrammatik dies als eine Vorgehensweise zulässt (Regel 509).
7.1.2
Adverbien
Die Dudengrammatik unterscheidet vier große Gruppen von Adverbien (ab
Regel 837):
• Lokaladverb (Regel 848): situiert ein Geschehen, ein Objekt o. ä.
im Raum oder bezeichnet eine lokale Beziehung. Schmöe (2002)
unterscheidet Lokaladverbien zudem in statische (z. B. hier, da, dort,
draußen, drinnen, woanders) und direktionale (z. B. hin, her, dahin, heim,
fort, weg, abwärts) Adverbien ([Schmoe (2002)]).
Beispiel (8): Ich habe hier einen Ritter. (023_LUA.exb)
Beispiel (9): Hier unten läuft das ganz groß raus. (033_MK.exb)
• Temporaladverb (Regel 850): situiert ein Geschehen, ein Objekt o.
ä. in der Zeit oder bezeichnet eine temporale Beziehung hinsichtlich
des Zeitpunkts (z. B. jetzt, nun, heute, gestern, morgen, eben, neulich,
morgens, mittags, dann), der Dauer (z. B. immer, stets, lange, bisher),
der Wiederkehr bzw. Wiederholung (z. B. manchmal, nochmal, montags,
dienstags, nachmittags) und der Zeitbewertung bzw. -erwartung (z. B.
bereits, schon, noch).
Beispiel (10): Ich schlafe jetzt bei den Eltern. (011_MM-exb)
Beispiel (11): Ich habe gerade nicht geklingelt. (020_LAR.exb)
• Modaladverb (Regel 852): gibt sowohl die Qualität (Art und Weise)
als auch die Quantität (Menge, Ausmaß) an. Beispiele für qualitative
Modaladverbien sind: so, genauso, ebenfalls, anders, nebenbei, gern,
unversehens. Beispiele für quantitative Modaladverbien sind: sehr,
größtenteils, einigermaßen, halbwegs, teilweise, allein.
Beispiel (12): Da ist nur ein bisschen von mir drin. (040_MK.exb)
Beispiel (13): Kannst auch so rum drehen. (046_LUA.exb)
182
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
• Kausaladverb (Regel 853): gibt den Grund für einen Sachverhalt
oder eine Handlung an. Kausaladverbien enden oft auf -(et)wegen
oder -halber. Beispiele: also, sonst, meinetwegen, seinetwegen,
gesundheitshalber, anstandshalber, sicherheitshalber, infolgedessen,
folglich, deswegen, deshalb.
Beispiel (14): Sonst können wir das nicht spielen. (050_JS.exb)
Beispiel (15): Also ich habe nicht über die Linie gemalt. (054_MK.exb)
Eine weitere und 5. Gruppe betrifft die sogenannten Kommentaradverbien
(Regel 868), die sich funktional teilweise wie Abtönungspartikeln verhalten.
Kommentaradverbien beziehen sich immer auf den ganzen Satz, weshalb
sie auch Satzadverbien genannt werden (leider, allerdings, natürlich,
selbstverständlich, vielleicht).
Beispiel (16): Das kannst du leider nicht sein. (049_MK.exb)
Beispiel (17): Aber vielleicht sind sie ja jetzt da. (050_LUA.exb)
Die Dudengrammatik nimmt noch weitere Unterscheidungen der Adverbien
vor, die für die vorliegende Arbeit jedoch nicht relevant sind. Einzig
die Untergruppe der Präpositionaladverbien bzw. Pronominaladverbien
ist von Bedeutung. Da die Pronominaladverbien bei der Analyse der
Wortarten bereits dem POS-Tag PAV und somit den Pronomen zugeordnet
wurden, wurde dies auch in der semantischen Analyse so gehandhabt.
Pronominaladverbien beziehen sich auf die Bildungsweise mit da(r)-, hieroder wo(r)- ([Dudenredaktion (2009)], S. 580, Tabelle 860). Weiterhin zählen
außerdem, trotzdem und deswegen zu den Pronominaladverbien.
Beispiel (18): Außerdem spielen wir, wenn uns langweilig wird. (033_MK.exb)
Beispiel (19): Was steht da, da, da_rin. (048_AV.exb)
Weitere Adverbien mit besonderen Funktionen sind interrogative Adverbien
(Regel 856) und relative Adverbien (Regel 857), bei denen es sich
um W-Fragewörter handelt. Da diese bereits in den STTS als Relativund Interrogativpronomen bezeichnet wurden, werden sie auch im
Folgenden als Pronomen beschrieben. In der folgenden Übersicht aller
Adverbien wird demnach unterschieden zwischen Lokaladverbien (adv-lok ),
Temporaladverbien (adv-temp), Modaladverbien (adv-mod), Kausaladverbien
(adv-kaus), Kommentaradverbien (adv-komm) sowie den zu den Pronomen
zugeordneten Pronominaladverbien (pav ).
7.1. DIE BEDEUTUNGSKATEGORIEN
7.1.3
183
Präpositionen
Präpositionen stehen vor ihrem Bezugswort (Regel 895), z. B. nach Hause.
Daneben existieren Postpositionen (meiner Meinung nach), die dem
Bezugswort nachgestellt sind sowie Zirkumpositionen (um Himmels willen),
die das Bezugswort umrahmen. Sowohl Post- als auch Zirkumpositionen
kommen in den Daten der vorliegenden Arbeit nicht vor und wurden deshalb
nicht weiter beachtet. Laut Dudengrammatik gibt es etwa 20 Präpositionen,
die im Deutschen besonders häufig vorkommen. Dazu zählen:
in, mit, von, an, auf, zu, bei, nach, um, für, aus, vor, über, durch, unter,
gegen, hinter, bis, neben, zwischen
Im Hinblick auf semantische Aspekte können fünf Gruppen von
Präpositionen unterschieden werden:
• Lokale Präposition zur Bezeichnung des Raumes, der Lage, der
Richtung (Regel 905): ab, an, auf, aus, außer, außerhalb, bei, bis, durch,
nach, neben, von, vor, zu
Beispiel (20): Eine Babykuh hat bei Mama getrunken. (019_RD.exb)
Beispiel (21): auf dem Spielplatz, glaube ich (020_SO.exb)
• Temporale Präposition zur Bezeichnung des Zeitpunkts und der Dauer
(Regel 906): ab, an, auf, bei, binnen, für, gegen, in, innerhalb, mit, nach,
seit, über, um, unter, vor, während, zu, zwischen
Beispiel (22): Im Moment brauchen wir die nicht. (026_LUA.exb)
Beispiel (23): Das habe ich auch schon mal vor langer Zeit gemacht. (053_AV.exb)
• Modale Präposition zur Bezeichnung der Art und Weise (Regel 907):
auf, aus, außer, bei, bis, an, für, gegen, mit, ohne, unter, von, wider, zu
Beispiel (24): Ich gehe mit meiner Laterne. (036_LEO.exb)
Beispiel (25): In der Zeit wird Papier für euch geliefert. (033_RD.exb)
• Kausale Präposition zur Bezeichnung des Grundes, des Anlasses, der
Einräumung, der Einschränkung und des Zwecks (Regel 908): auf, aus,
bei, durch, für, kraft, laut, mangels, mit, mittels, nach, trotz, über, um,
unter, von, wegen
Beispiel (26): Vielleicht ist es wegen dem? (038_LL.exb)
Beispiel (27): Wegen dir spiele ich nicht mehr mit. (048_JS.exb)
184
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
• Neutrale (leere) Präposition als Verbindungsglied ohne eigene
Bedeutung (Regel 908): hoffen auf, leiden unter, bitten um, Achtung vor,
Garantie für, stolz auf, froh über, fähig zu
Beispiel (28): Hier werden Äpfel zu Mehl gepresst. (033_JS.exb)
Beispiel (29): Ich bin am Verlieren. (047_RD.exb)
Die folgenden Bezeichnungen wurden für die semantische Analyse
der Präpostitionen verwendet: Lokale Präpositionen (pr-lok ), Temporale
Präpositionen (pr-temp), Modale Präpositionen (pr-mod), Kausale
Präpositionen (pr-kaus) und Neutrale Präpositionen (pr-neutr ).
7.1.4
Artikel
In der vorangegangenen Wortartenanalyse wurde der Artikel nicht nach
bestimmt (der, die, das) und unbestimmt (ein/eine) unterschieden, sondern
stets mit ART bezeichnet. Aufgrund des zahlreichen Vorkommens von Artikeln
aber auch der Schwierigkeit einer semantischen Einordnung sollen Artikel
an dieser Stelle nicht weiter gruppiert werden als bisher. Bestimmte und
unbestimmte Artikel werden dementsprechend als Artikel mit dem Kürzel art
bezeichnet.
Beispiel (30): Das ist ja auch nicht eine Schwimmhalle, das ist ein Schwimmbad.
(019_MK.exb)
Beispiel (31): Dann kommst du immer mit dem Baby hier her zu uns. (057_MK.exb)
7.1.5
Fremdsprachliches Material
Fremdsprachliches Material kam nur sehr selten in den Daten dieser Arbeit
vor. Da es sich zudem nur um die Nennung einzelner Wörter (oder Zahlen)
handelt, sollen auch diese Lemmata nicht weiter gruppiert werden. Sie werden
in der vorliegenden semantischen Betrachtung mit fm bezeichnet.
Beispiel (32): ... habe ich jetzt Ice Age drei ausgeliehen. (046_MK.exb)
7.1.6
Interjektionen
Die Interjektionen werden von der Dudengrammatik unter dem Eintrag
Partikeln behandelt (Regel 887). Dies ist unter semantischen Aspekten sicher
sinnvoll, da die Interjektion als Ausdruckspartikel eine gesonderte Gruppe
ausmacht. Da in der hier durchgeführten Analyse mittels der STTS (Kapitel
6) die Interjektionen von den Partikeln gesondert betrachtet und analysiert
7.1. DIE BEDEUTUNGSKATEGORIEN
185
wurden, werden sie auch an dieser Stelle gesondert aufgeführt. Unter
semantischen Gesichtspunkten zählen sie aber zu den Partikeln und sind
somit, wie schon erwähnt, eine Ausdruckspartikel zum Ausdruck spontaner,
reaktiver Emotionen und Bewertungen. Beispiele: pfui, hurra, huch, igitt, juhu,
oje, pst!
Die Interjektionen werden in ihrer semantischen Kategorie mit itj
gekennzeichnet.
Beispiel (33): pfui deibel (039_LEO.exb)
7.1.7
Konjunktionen und Subjunktionen
Bei den Junktionen wurde bisher unterschieden zwischen Konjunktionen
(KON), Vergleichskonjunktionen (KOKOM) und unterordnenden Konjunktionen
bzw. Subjunktionen (KOUS). Die Dudengrammatik unterscheidet, wenn es um
die Funktion und Bedeutung geht, zwei große Gruppen, die wiederum weiter
untergliedert sind: Konjunktionen und Subjunktionen.
Die Bezeichnung in Klammern steht für das Kürzel, das der jeweiligen
Junktion in der semantischen Analyse entspricht.
Konjunktionen (Regeln 934 bis 940)
Die Konjunktionen werden unterschieden in:
• additive Konjunktionen (kon-add) (Regel 935): und, plus
Beispiel (34): Ich habe einen riesigen Schnabel und damit töte ich alle Fische. (042_MK.exb)
• alternative Konjunktionen (kon-alt) (Regel 936): oder
Beispiel (35): Im Sommer kann ich beim Halbfinale oder beim richtigen Finale zugucken.
(058_JS.exb)
• adversative und konzessive Konjunktionen (kon-adv ) (Regel 937):
aber, doch, jedoch, sondern, bloß
Beispiel (36): (ich habe) drei (NN), aber dafür hast du mehr (036_LAR.exb)
• spezifizierende Konjunktionen (kon-spez) (Regel 938): außer
Beispiel (37): hier darf keiner durch, außer den ... (024_MK.exb)
• kausale Konjunktionen (kon-kaus) (Regel 939): denn, weil, da
Beispiel (38): aber die beiden Zahlen stimmen nicht, denn die Zwei ist zu klein (030_MK.exb)
• vergleichende Konjunktionen (kon-vgl) (Regel 940): wie, als
Beispiel (39): noch größer wie 2 meiner (039_MA.exb)
2
Grammatikalisch korrekt müsste es an dieser Stelle heißen „noch größer als meiner“.
186
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Subjunktionen (Regeln 941 bis 952)
Die Subjunktionen werden unterschieden in:
• neutrale Subjunktionen (sub-neutr ) (Regel 942): dass, ob
Beispiel (40): Der will immer bestimmen, dass der Punkt so lang geht. (044_MK.exb)
• temporale Subjunktionen (sub-temp) (Regel 943): als, wenn, indem,
nachdem, bis, bevor
Beispiel (41): Haben wir gesehen, als wir mit Mama wieder rausgegangen sind.
(054_AV.exb)
• konditionale Subjunktionen (sub-kond) (Regel 944): wenn, falls, ob
Beispiel (42): Wenn es raus geht, dann pack’ es da rein. (023_LUA.exb)
• adversative Subjunktionen
(sub-adv ) (Regel 945): anstatt
zur
Bezeichnung
des
Gegensatzes
Adversative Subjunktionen kommen in den Daten dieser Arbeit
nicht vor.
• restriktive Subjunktionen zur Bezeichung
(sub-restr ) (Regel 946): außer dass
der
Einschränkung
Restriktive Subjunktionen kommen in den Daten dieser Arbeit
nicht vor.
• modal-instrumentale Subjunktionen zur Bezeichnung des Mittels, um
das im Hauptsatz genannte Ziel zu erreichen (sub-mod-instr ) (Regel
947): indem, ohne dass
Beispiel (43): Wenn man fertig getankt hat, kann man gleich wieder losfliegen ohne zu
bezahlen. (046_MK.exb)
• Subjunktionen zum Ausdruck eines Vergleichs (sub-vgl) (Regel 948):
als, wie
Subjunktionen zum Ausdruck
Daten dieser Arbeit nicht vor.
eines
Vergleich
kommen
in
den
• kausale Subjunktionen (sub-kaus) (Regel 949): weil, wo, umso
mehr/weniger als
7.1. DIE BEDEUTUNGSKATEGORIEN
187
Beispiel (44): ja, weil ich krank bin (033_MK.exb)
• konsekutive Subjunktionen (sub-kons) (Regel 950): sodass, (so) - dass
Konsekutive Subjunktionen kommen in den Daten dieser Arbeit
nicht vor.
• finale Subjunktion (sub-fin) (Regel 951): damit, dass, um zu
Beispiel (45): Ja! Und weit, damit ich reinpasse. (019_JS.exb)
• konzessive Subjunktionen (sub-konz) (Regel 952): obwohl, auch wenn
Beispiel (46): Wir beide sind keine Anfänger, obwohl das nicht stimmt. (058_JS.exb)
7.1.8
Substantive
Die Substantive als Inhaltskategorie ließen bereits bei einem ersten
Blick auf die geäußerten Tokens vermuten, dass es nicht leicht sein
wird, Gruppierungen zu schaffen, die alle Substantive in ihrer Fülle
zusammenfassen. So schreibt auch die Dudengrammatik, dass eine
Einteilung der Substantive aus unterschiedlichen Perspektiven hinsichtlich
der Bedeutung möglich ist (Regel 220). Hinzu kommt, dass zwischen
den einzelnen Gruppen Zusammenhänge bestehen und Substantive nicht
immer eindeutig einer Gruppe zugeordnet werden können. Folgende
Bedeutungsgruppen werden unterschieden:
Konkreta und Abstrakta (Regel 221)
Konkreta nennt man Substantive, mit denen etwas Gegenständliches
bezeichnet wird (Mensch, Mann, Frau, Kind, Blume, Tisch, Wald). Abstrakta
sind Substantive, mit denen etwas Nichtgegenständliches bezeichnet wird
(Geist, Seele, Leben, Schlag, Angst, Wurf, Frieden, Liebe).
Die Abstrakta sind im Duden folgendermaßen gegliedert:
• Menschliche Vorstellungen (n-abstr-vorst): Geist, Seele
Beispiel (47): Ein Schlitzohr hat Geister in der Flasche. (011_MM.exb)
• Handlungen (n-abstr-hdlg): Schlag, Wurf, Schnitt, Boykott
Beispiel (48): Ich hab’ das (mit), nicht mit Absicht umgekippt. (026_LUA.exb)
• Vorgänge (n-abstr-vorg): Leben, Sterben, Schwimmen, Schlaf, Reise
188
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Beispiel (49): Dieses Mal wird es von der Herstellung ein bisschen (anders). (033_JS.exb)
• Zustände (n-abstr-zust): Friede, Ruhe, Angst, Liebe, Alter
Beispiel (50): Soll ich dir sagen, warum ich solche Angst hatte? (058_JS.exb)
• Eigenschaften (n-abstr-eig): Würde, Verstand, Ehrlichkeit, Krankheit,
Dummheit
Beispiel (51): Das ist nicht die Länge. (049_MK.exb)
• Verhältnisse oder Beziehungen (n-abstr-verh): Ehe, Freundschaft,
Nähe, Unterschied
Abstrakte Nomen in der Kategorie Verhältnis
kamen in den Daten dieser Arbeit nicht vor.
oder
Beziehung
• Wissenschaften, Künste (n-abstr-wiss): Biologie, Mathematik, Musik
Beispiel (52): ... der kann nicht so viel Deutsch. (024_LUA.exb)
• Maß- und Zeitbegriffe (n-abstr-maß bzw. n-abstr-zeit): Meter, Watt,
Gramm, Jahr, Stunde, Mai
Beispiel (53): Nächste Woche ist schon Weihnachten. (040_JS.exb)
Diese Unterteilung der Abstrakta wird auch in der vorliegenden Arbeit
verwendet, wobei die gebrauchten Kürzel in Klammern stehen. An einigen
Stellen war es nicht möglich, eine allgemeingültige Kategorisierung
vorzunehmen. Dies betrifft zum Beispiel das Abstraktum Geburtstag,
welches hier mit n-abstr-zeit bezeichnet wurde. Eine andere Person
hingegen hätte ebenso die Bezeichnung n-abstr-zust (Zustand) wählen
können, auch n-abstr-vorg (Vorgang) wäre möglich. Solche zwiespältigen
abstrakten Nomen kamen hin und wieder vor und ließen letztendlich nur
eine subjektive Bezeichnung zu. Alle Bezeichnungen wurden mit bestem
Wissen und Gewissen vorgenommen, sie erheben jedoch keinen Anspruch
auf Einheitlichkeit zu Kategorisierungen, die durch andere Personen
vorgenommen werden. Des Weiteren können Abstrakta dahingehend
unterschieden werden, ob sie zählbar sind oder nicht. Eine solche
Unterscheidung wurde in dieser Arbeit jedoch nicht vorgenommen.
Belebtheit (Regel 222)
Konkreta werden im Duden näher nach Belebtheit bestimmt und auch in
der vorliegenden Arbeit wurden die konkreten Substantive nach Belebtheit
(n-belebt) und Unbelebtheit (n-unbelebt) unterschieden.
7.1. DIE BEDEUTUNGSKATEGORIEN
189
• belebte Substantive: Mensch, Katze, Käfer, Baum, Alge
Beispiel (54): Eine Babykuh hat bei Mama getrunken. (019_RD.exb)
Beispiel (55): Kimba ist der kleine weiße Löwe. (019_JS.exb)
• unbelebte Substantive: Fahrzeug, Weg, Stein
Beispiel (56): Hier kommen die ganzen Holzteile und Porzellan (...) (013_JS.exb)
Beispiel (57): Hier kommen die Murmeln rein. (024_LUA.exb)
In der Kategorie der Konkreta war es an einigen Stellen nicht möglich, eine
einheitliche Kategorisierung vorzunehmen. Dies betrifft Begriffe, die je nach
Blickwinkel belebt sein können oder auch unbelebt. Das Nomen Baum wurde
hier demnach als belebtes Konkretum angesehen, ebenso Blatt oder Wasser.
Handelt es sich um Körperteile (Arm, Auge, K opf) oder um essbare pflanzliche
oder tierische Teile (Banane, Salat, Fleisch) wurden diese hingegen mit
dem Kürzel n-unbelebt gekennzeichnet. Andere Wissenschaftler/innen
würden an diesen Stellen vielleicht ein belebtes Konkretum zu Grunde
legen. Diese Zwiespältigkeiten konnten auch nach intensiven Literatur- und
Onlinerecherchen nicht abschließend geklärt werden, so dass in dieser Arbeit
die eben genannten Kriterien Anwendung fanden.
Eigennamen und Appellativa (Regel 223)
Eine Unterscheidung zwischen Eigennamen und Appellativa wird in der
Literatur meistens derart vorgenommen, dass Eigennamen ein bestimmtes
Individuum bezeichen; Appellativa hingegen bezeichnen eine Gattung oder
Klasse. Eigennamen bezeichnen demnach keine besondere Klasse mit
bestimmten Eigenschaften, sondern jeweils ein bestimmtes Individuum
([Dudenredaktion (2009)]).
Beispiele für Appellativa (nach [Dudenredaktion (2009)]):
• Katzen können in der Dunkelheit gut sehen.
• Autos verschmutzen die Umwelt.
• Bären sind Raubtiere.
Appellativa werden im Duden in folgende Gruppen eingeteilt:
• Volksbezeichnungen (Regel 226): Italiener, Russin
• Produktbezeichnungen (Regel 227): Apple Power Macintosh, VW Golf
Variant
190
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
• Nomenklaturen (Regel 228): das Insekt, der Tausendfüßer, der Käfer
Beispiele für Eigennamen (nach [Dudenredaktion (2009)]):
• Paul ist sieben Jahre alt.
• die Vereinigten Arabischen Emirate
• Frankreich grenzt an Deutschland.
Eigennamen können laut Dudengrammatik in weitere Gruppen unterteilt
werden, die hier zu Zwecken der Einheitlichkeit zwar aufgeführt, in der
späteren semantischen Betrachtung jedoch nicht derart spezifisch verwendet
wurden (Regel 225).
• Personennamen: Moritz, Gertrud, Elisabeth
• Geographische Namen: Finnland, das Allgäu, die Zugspitze
• Astronomische Eigennamen: Saturn (Planet), der Halleysche Komet
• Institutionen, Organisationen, Firmen: der Stadtrat, das Statistische
Bundesamt
• Zeitungen, Zeitschriften, Bücher: die Morgenpost, die Zeitschrift für
Sprachwissenschaft, die Bibel
• Einzelne Ereignisse: der Schwarze Freitag, der Zweite Weltkrieg
• Andere Objekte und Erscheinungen: das Weiße Haus, der Schiefe Turm
von Pisa
• Übernamen: der Alte Fritz (= Friedrich der Große), der Rote Planet
(=Mars) (Beispiele aus [Dudenredaktion (2009)])
Eine derartige Unterteilung in Eigennamen und Appellativa wurde in dieser
Arbeit nicht vorgenommen. Die Gründe dafür liegen zum einen darin, dass
diese Unterscheidung bei der Bezeichnung der Lemmata mit den POS-Tags
ebenfalls nicht getätigt wurde und alle Eigennamen sowie Appellativa das
POS-Tag NE erhielten. Zum anderen kommen Eigennamen und Appellativa
nur relativ selten vor und eine derartige Analyse wäre für die Zwecke der
vorliegenden Arbeit nicht besonders aufschlussreich bzw. hilfreich. Alle
Eigennamen und Appellativa wurden für die semantische Analyse mit
dem Kürzel ne bezeichnet und können dabei je nach Kontext alle oben
aufgeführten Unterkategorien, wie sie die Dudengrammatik vorgibt, umfassen.
Beispiel (58): MK , ich bin auf dem Hochbett! (024_LUA.exb)
Beispiel (59): Kannst du mit mir Memory spielen? Memory, Julia? (045_MM.exb)
7.1. DIE BEDEUTUNGSKATEGORIEN
7.1.9
191
Pronomen
In der Dudengrammatik erfolgt in Regel 349 (Seite 252) eine Beschreibung
der Semantik von Pronomen (und Artikelwörtern). Demzufolge haben
Pronomen verweisende, zeigende, fragende oder quantifizierende Funktion.
Pronomen können zudem die Funktion einer Nominalphrase übernehmen.
Im weiteren Verlauf werden alle im Deutschen auftretenden Pronomenarten
beschrieben und in einer Tabelle gegenübergestellt (Regel 350). Die dort
aufgeführten Pronomenarten entsprechen im Wesentlichen den in den STTS
aufgelisteten POS-Tags, weshalb an dieser Stelle keine Abweichungen
zu den semantischen Kategorien auftreten3 . Folgend werden deshalb
die Pronomen mit ihren Entsprechungen in den STTS aufgeführt. Dies
entspricht ferner der Beschreibung in der semantischen Analyse, wobei die
Bezeichnung für die Bedeutung in Kleinbuchstaben erfolgt. In Klammern
steht zuerst die Bezeichnung für die POS-Tags, dahinter die Bezeichnung
für die Bedeutungsanalyse. Angegeben sind nur jene Kategorien, die auch
tatsächlich in den Daten vorkommen:
• Personalpronomen (PPER, pper ): ich, mich, mir, meiner, wir, uns, unser,
du, dich, dir, deiner, ihr, euch, euer, er, sie, es, ihn, seiner, sie, ihnen, ihrer
Beispiel (60): Ich habe kein rot mehr. (053_AV.exb)
Beispiel (61): Wenn du mal wieder den Roboter brauchst, musst du nur anrufen.
(033_JS.exb)
• Reflexivpronomen (PRF, prf): mich, mir, uns, dich, dir, euch, sich,
einander
Beispiel (62): Nein, der muss sich selbst was holen. (033_JK.exb)
Beispiel (63): Ich wünsche mir rot. (036_MM.exb)
• Possessivpronomen (PPOSAT, pposat, PPOSS, pposs): mein - unser,
dein - euer, sein - ihr
Beispiel (64): Unsere/pposat Marina kommt heute. Das ist Mamas Freundin. (038_MM.exb)
Beispiel (65): das ist dein( e)s/pposs (038_MM.exb)
• attribuierende und substituierende Demonstrativpronomen (PDAT,
pdat, PDS, pds): der, die, das, dieser - jener, derjenige, derselbe
3
Die bestimmten und unbestimmten Artikel werden, wie schon erwähnt, unter dem Abschnitt 7.1.4
behandelt. Die attribuierenden Demonstrativpronomen (PDAT) sind hinsichtlich ihrer semantischen
Zuordung eigentlich Artikel. Da sie bei der Bezeichnung mittels der POS-Tags jedoch das Tag PDAT
erhalten haben, sollen sie der Übersichtlichkeit halber auch hier mit dem Kürzel pdat bezeichnet werden,
wohlwissend, dass dies strenggenommen in semantischer Hinsicht kein Demonstrativpronomen darstellt.
192
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Beispiel (66): Wenn du zum Beispiel dieses4 /pdat Körbchen hier hast. (031_MK.exb)
Beispiel (67): Das/pds ist ein ganz schön weiter Weg. (044_MK.exb)
• Relativpronomen (PRELS, prels): der, die, das, welcher, wer, was
Beispiel (68): Das ist die Nummer eins, die du einstellst. (048_MK.exb)
Beispiel (69): alle Steine, die bei mir draußen liegen (039_LEO.exb)
• Interrogativ- und Relativpronomen (PWAT, pwat, PWAV, pwav, PWS,
pws): wer, was, welcher, was für (einer)
Beispiel (70): In welche/pwat Schachtel sollen die Murmeln? (024_LUA.exb)
Beispiel (71): Warum/pwav macht ihr sowas? (046_LUA.exb)
Beispiel (72): Was/pws ist, was/pws wollen wir jetzt machen? (033_MK.exb)
• Indefinitum (PIAT, piat, PIDAT, pidat, PIS, pis): man, jederman, jemand,
irgendjemand, niemand, nichts, etwas, irgendwas, was, irgendwer,
wer, alle, jeder, beide, einige, manche, welche, solche, irgendwelche,
irgendein, kein, ein bisschen, ein wenig, ein paar
Beispiel (73): wenn man keine/piat Karte mehr hat (026_MK.exb)
Beispiel (74): die beiden/pidat Zahlen stimmen nicht (030_MK.exb)
Beispiel (75): aber man/pis muss gut aufpassen (013_JS.exb)
7.1.10
Partikeln
Unterschieden
werden
Gradpartikeln
(ptk-grad),
Fokuspartikeln
(ptk-fok ), Negationspartikeln (ptk-neg), Abtönungspartikeln (ptk-abt),
Gesprächspartikeln (ptk-gespr ) sowie Interjektionen (diese wurden weiter
oben gesondert behandelt). Daneben werden in den STTS Partikeln mit
Verbzusatz (PTKVZ ) und Partikeln, die neben dem Infinitiv mit „zu“ stehen
(PTKZU) unterschieden. Ferner existieren die sogenannten Antwortpartikeln
(ja, doch, bitte) (PTKANT ). Alle drei letztgenannten Partikelnarten wurden
auch in der semantischen Analyse verwendet und kommen entsprechend
ihrer Bezeichnung als POS-Tag in Kleinbuchstaben vor: ptkvz, ptkzu und
ptk-ant.
Generell soll erwähnt sein, dass es - ebenso wie bei der Analyse
anderer Wortarten - bei der Zuordnung der Partikeln zu ihren semantischen
4
Dieses ist wie schon erwähnt eigentlich Determiner. Aufgrund der Kennzeichnung mit dem POS-Tag
PDAT durch die STTS bleibt die Bezeichnung pdat hier erhalten.
7.1. DIE BEDEUTUNGSKATEGORIEN
193
Kategorien vorkommen kann, dass eine andere Person eine andere
Kategorie gewählt hätte. Aufgrund zum Teil subjektiver Entscheidungen
ist das unvermeidbar. In den STTS werden beispielsweise viele
Partikelnarten zu den Adverbien gezählt, was in diesem Abschnitt
aufgrund der Referenzierung auf die Dudengrammatik nicht geschehen
soll (z.B. [Schiller, Teufel, Stöckert und Thielen (2009)]). Wie alle anderen
Zuordnungen, die im Verlauf getätigt wurden und werden, wurde auch diese
Analyse mit besten Wissen und Gewissen vorgenommen.
Gradpartikeln (Regel 871)
Gradpartikeln geben an, in welchem Intensitätsgrad eine Eigenschaft
ausgeprägt ist. Meistens stehen sie vor Adjektiven und Adverbien, vor
Zahlwörtern und bei Verben. Gradpartikeln zeichnen sich zudem dadurch
aus, dass sie auch weggelassen werden können, ohne dass der Satz
ungrammatisch wird. Gekennzeichnet werden Gradpartikeln als semantische
Kategorie mit dem Kürzel pkt-grad.
Beispiele ([Dudenredaktion (2009)]): wenig, etwas, einigermaßen, fast,
ziemlich, so, sehr, besonders, ganz 5 , zu, gar, überhaupt, viel (+ADJ), total,
echt, unheimlich, schön
Beispiel (76): Dann muss man überhaupt nichts bezahlen. (033_JS.exb)
Beispiel (77): Mir tut es gar nicht weh. (043_RD.exb)
Fokuspartikeln (Regel 873)
Fokuspartikeln kennzeichnen jenen Teil des Satzes, der den größten
Mitteilungswert hat. Sie werden im Folgenden mit ptk-fok bezeichnet.
Beispiele ([Dudenredaktion (2009)]): nur, allein, bloß, sogar, selbst,
besonders, auch
Beispiel (78): Und ich spiele das sogar. (046_MK.exb)
Beispiel (79): Die brauchen selber keine Wärme. (046_MK.exb)
Negationspartikeln (Regel 874)
Die meisten Partikeln sind dadurch gekennzeichnet, dass man sie weglassen
kann, ohne die Grammatik eines Satzes zu verletzen. Negationspartikeln
hingegen können nicht weggelassen werden, weil sich der Wahrheitswert
der jeweiligen Aussagen verändern würde. Die häufigste Negationspartikel
5
Ganz kann je nach Kontext sowohl Partikel als auch Adjektiv sein.
194
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
im Deutschen, um eine Aussage oder einen Satz zu negieren ist nicht. In
der semantischen Analyse wurden alle einen Satz, eine Aussage oder einen
Sachverhalt negierenden Lexeme wie nein, nie und niemals neben nicht als
Negationspartikel mit dem Kürzel ptk-neg bezeichnet.
Beispiel (80): habe noch nie damit gespielt (031_SO.exb)
Beispiel (81): Ich weiß es nicht mehr, wie der heißt. (042_MK.exb)
Abtönungspartikeln (Regel 875)
Die Abtönungspartikel, auch Modalpartikel genannt, drückt Einstellungen,
Annahmen, Bewertungen und Erwartungen der Sprecherin/des Sprechers
bezüglich eines Sachverhaltes aus. Sie bezieht sich auf den gesamten Satz.
Das Kürzel für die Abtönungspartikel ist im Folgenden ptk-abt.
Beispiele ([Dudenredaktion (2009)]): nicht, ja, bloß, doch, schon, denn,
wohl, aber, nur, halt, eben, mal, auch, eigentlich, etwa, vielleicht, ruhig
Beispiel (82): Findus, hack doch nicht auf mich drauf! (013_JS.exb)
Beispiel (83): Ist denn das ein Briefumschlag? (033_RD.exb)
Gesprächspartikeln (Regel 880)
In der Gruppe der Gesprächspartikeln werden in der Dudengrammatik
Gliederungspartikeln, Antwortpartikeln, manchmal auch Interjektionen
und Onomatopoetika zusammengefasst. Laut Schwittala (2002) sind
Gesprächspartikeln ein typisches Merkmal gesprochener Sprache
([Schwittala (2002)], S. 259-281). Sie stehen meist am Anfang oder am Ende
eines Satzes. In der semantischen Analyse wurden die Gesprächspartikeln
mit ptk-gespr bezeichnet. Die Antwortpartikeln wurden in der semantischen
Analyse nicht zu den Gesprächspartikeln gezählt, sondern sind in der
gesonderten Kategorie der Antwortpartikeln (ptk-ant) zusammengefasst.
Ebenso befinden sich die Interjektionen in der eigenen semantischen
Kategorie itj.
Beispiele ([Dudenredaktion (2009)]): ja, ähm, äh, so, also, dann, nun, gut,
naja, klar, sicher, genau, aber, übrigens, entschuldigung, natürlich, hoffentlich,
leider, kaum, wie bitte?, was?, hm
Beispiel (84): Äh, weiß ich nicht. (036_LAR.exb)
Beispiel (85): Hm, hab’ ich vergessen. (038_LL.exb)
7.1. DIE BEDEUTUNGSKATEGORIEN
195
Antwortpartikeln, Partikeln mit Verbzusatz und Partikeln mit „zu“ neben
dem Infinitv
Diese Partikeln haben in der Dudengrammatik keine eigenen Einträge. Sie
wurden in der semantischen Analyse jedoch weiterhin gemäß ihrer Funktion
als POS-Tag in den STTS verwendet. Dabei entsprechen Antwortpartikeln
(ptk-ant) der Kategorie PTKANT (ja, doch, bitte, bitteschön, danke, ok bzw.
okay ), die Partikeln mit Verbzusatz (ptkvz) entsprechen der Kategorie PTKVZ
gemäß den STTS. Hinter dem Kürzel ptkzu verbirgt sich die Partikel zu, die
zusammen mit einem Verb den Infinitv bildet.
Beispiel (86): Dankeschön!/ptk-ant (038_LL.exb)
Beispiel (87): Gut, dann geb’ ich jedem ein paar ab/ptkvz. (020_MM.exb)
Beispiel (88): ohne eine Pause zu/ptkzu machen (053_LEO.exb)
7.1.11
Verben
In Bezug auf die Bedeutung und die Funktion können Verben hinsichtlich
der Aktionsart und der Aktionalität unterschieden werden (Regel 564).
Die Aktionsart steht im Zusammenhang mit dem vom Verb bezeichneten
Geschehen oder Sachverhalt sowie dem Verlauf der Zeit. Unterschieden
werden Verben, die punktuelle oder zeitbegrenzte Vorgänge beschreiben
und dementsprechend einen Kulminations- und Endpunkt voraussetzen.
Der Dudengrammatik zufolge werden solche Verben als telisch bezeichnet.
Beispiele für telische Verben sind: gewinnen, einschlafen, loslaufen, finden,
begegnen, ausziehen. Demgegenüber beschreiben atelische Verben
Zustände und Relationen oder dynamische Prozesse oder Aktivitäten, die
keinen Kulminations- oder Endpunkt voraussetzen (Regel 566). Beispiele für
atelische Verben sind: sein, wohnen, laufen, schwitzen, streicheln, winken,
abnehmen, altern, behalten. Die Aktionalität behandelt Klassifizierungen,
die sich besonders an der semantischen Rolle des Subjektaktanten
orientieren (Regel 570). Folgend soll die traditionelle Unterscheidung in
Handlungsverben, Vorgangsverben und Zustandsverben erläutert werden.
Diese Einteilung wurde auch zur Beschreibung der hier ermittelten Verben zu
Rate gezogen.
• Handlungsverben sind agentiv. Sie ordnen dem Subjekt eine typische
Agensrolle zu und können telisch oder atelisch sein. Immer aber
haben sie eine dynamische Aktionsart. Handlungsverben werden mit
dem Kürzel (v-)handlung bezeichnet. Beispiele: setzen, töten, singen,
arbeiten
196
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Beispiel (89): Wir spielen doch nur Räuber. (023_LUA.exb)
Beispiel (90): Ich habe dort schon gebastelt. (040_MK.exb)
• Vorgangsverben sind nicht agentiv. Sie beschreiben dynamische
Sachverhalte, die nicht unter der Kontrolle eines Agens stehen und
können telisch oder atelisch sein. Vorgangsverben werden mit dem
Kürzel (v-)vorgang bezeichnet. Beispiele: erfrieren, wachsen, schlafen
Beispiel (91): In der Zeit wird Papier für euch geliefert. (033_RD.exb)
Beispiel (92): Hier schlafen ganz viele Krippenkinder. (038_LL.exb)
• Zustandsverben sind atelische Verben, die statische Relationen
oder Sachverhalte beschreiben. Sie verlangen kein typisches Agens
als Subjekt. In dieser Arbeit ist auch haben, wenn es als Vollverb
vorkommt, meistens ein Zustandsverb, wohlwissend, dass es von
anderen Wissenschaftler/innen vielleicht keine solche Bezeichnung
erhalten würde. Im Hinblick auf seine Semantik drückt haben jedoch
einen Zustand des Besitzes aus, der weder durch eine Handlung noch
durch einen Vorgang beschrieben werden kann. Zustandsverben werden
mit dem Kürzel (v-)zustand bezeichnet. Beispiele: liegen, wohnen,
besitzen
Beispiel (93): Ich glaube mein Papa... (020_LAR.exb)
Beispiel (94): Wir haben ’ne Meisterin. (020_MM.exb)
Auxiliarverben, Modalverben, Kopulaverben
Die oben aufgeführte Unterscheidung in Handlungsverben, Vorgangsverben
und Zustandsverben wurde für alle finiten (VVFIN) und infiniten Verben
(VVINF) verwendet, die keine Modalverben, Auxiliarverben oder Kopulaverben
sind. Insbesondere bei den Kopulaverben (sein, werden, bleiben), die in
den STTS mit VVFIN oder VVINF bezeichnet wurden, musste je nach
Kontext entschieden werden, ob es sich um ein Kopulaverb handelt oder
nicht. Kopulaverben wurden mit v-kop bezeichnet. Laut Dudengrammatik
unterscheiden sich die Kopulaverben hauptsächlich darin voneinander, ob sie
die Aussage des Prädikativs neutral (sein), als sich entwicklend (werden) oder
als fortbestehend (bleiben) charakterisieren. Weiterhin ist das Kopulaverb
Träger der Modus- und Temporalmerkmale des Satzes. Der Duden schreibt
zudem, dass die Bezugsphrase normalerweise das Subjekt ist. Dies wird in
den folgenden Beispielen deutlich (nach [Dudenredaktion (2009)]):
7.1. DIE BEDEUTUNGSKATEGORIEN
197
• (Anna) ist (gesund). (Anna) wird (gesund). (Anna) bleibt (gesund).
• (Anna) ist (Chefin). (Anna) wird (Chefin). (Anna) bleibt (Chefin). (Regel
1202)
Des Weiteren können bei Kopulaverben auch Prädikative mit identifizierender
Bedeutung stehen:
• (Der Gärtner) war (der Mörder). (Regel 1203)
Manchmal sind insbesondere auch Adverbialien (z. B. Lokal- oder
Modaladverbialien) als Ergänzung bei Kopulaverben möglich:
• (Anna) ist (in Paris). (Der Ring) ist (aus Silber). (Regel 1203)
Das Verb sein kann je nach Kontext auch Passiv-, Zustands- (v-zustand) oder
Auxiliarverb (v-aux) sein. Das Verb werden kann je nach Kontext Kopulaverb,
Passivhilfsverb oder Hilfsverb sein (v-aux) sein. Gleichermaßen verhält es
sich mit dem Verb bleiben, das je nach Situation ein Kopulaverb sein kann
oder aber ein Zustandsverb (v-zustand). Einen ungewöhnlichen Zustand
bilden die Verben sein, werden und bleiben, wenn es sich um einen Infinitv
handelt. Nach den STTS müssten sie mit VAINF (infinites Auxiliarverb)
gekennzeichnet werden, obwohl es sich streng genommen an dieser Stelle
nicht um ein infinites Auxiliarverb handelt (bzw. handeln kann). Aus diesem
Grund wurden sein, werden und bleiben, wenn sie in infiniter Form vorliegen,
mit dem POS-Tag VVINF gekennzeichnet. In ihrer Bedeutungskategorie sind
sie (in dieser Arbeit) zumeist ein Kopulaverb und werden dementsprechend
mit v-kop gekennzeichnet.
Alle finiten Auxiliarverben, die bereits in den STTS mit VAFIN
gekennzeichnet sind, wurden in der semantischen Analyse mit v-aux markiert.
Die Modalverben müssen, können, sollen, wollen, dürfen, mögen/möchten
wurden in der Wortartenanalyse mit VMFIN bezeichnet; in der semantischen
Analyse mit v-mod.
Beispiel (95): du hast aufgedeckt (031_MM.exb) (Auxiliarverb)
Beispiel (96): Oder man springt runter mit einem Seil, das hier angefesselt ist. (041_MK.exb)
(Auxiliarverb)
Beispiel (97): Ich will mir dir Ritterburg spielen. (023_MK.exb) (Modalverb)
Beispiel (98): Soll ich dir sagen, was KD immer macht? (039_LEO.exb) (Modalverb)
Beispiel (99): Das sind keine Indiander. (039_LEO.exb) (Kopulaverb)
198
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Beispiel (100): Das ist im Aquarium. (053_RD.exb) (Kopulaverb)
Wie in diesem Abschnitt dargestellt, ergeben sich für die Bezeichnung der
Verben sechs Kategorien: (v-)handlung, (v-)vorgang, (v-)zustand, v-mod,
v-aux und v-kop. Im hier erstellten Lexikon (Anhang) werden Verben der
Handlung, des Vorgangs und des Zustandes der Übersichtlichkeit halber
mit v-handlung, v-vorgang und v-zustand gekennzeichnet, wobei v- die
Kategorie Verb einleitet.
7.2
Tendenzen in der Verwendung von Inhaltswörtern
In den folgenden Unterabschnitten werden ausgesuchte Lemmata im
Hinblick auf mögliche sprachliche und kognitive Entwicklungsschritte der
hier untersuchten Kinder - an dieser Stelle zunächst die Inhaltskategorien
- vorgestellt. Die Auflistung aller Lemmata in den drei Altersgruppen,
geordnet nach ihren jeweiligen Bedeutungskategorien, befindet sich als
gesondertes Dokument als Teil des erstellten Lexikons im Anhang dieser
Arbeit (Zusammenfassung_Lemmata_in_den_Gruppen).
7.2.1
Nomen (n-abstr-eig, n-abstr-hdlg, n-abstr-maß, n-abstr-vorg,
n-abstr-vorst, n-abstr-zeit, n-abstr-zust, n-belebt, n-unbelebt, ne)
An dieser Stelle widme ich mich dem Vorkommen der Nomen in den drei
Altersgruppen. Aufgrund der großen Anzahl der Nomen werden in diesem
Unterabschnitt lediglich ausgewählte Nomen, die im Hinblick auf das Alter der
hier untersuchten Kinder wichtige Entwicklungsschritte darstellen können,
aufgeführt. Zunächst kann festgestellt werden, dass sich zahlreiche Nomen
auf typisch konkrete Inhaltskategorien beziehen, wie es bereits Kauschke
postulierte ([Kauschke (2012)], S. 56). In der folgenden Übersicht habe ich
versucht, alle Nomen in den drei Altersgruppen aufzuführen, die in der Form
nur selten im frühen Wortschatz zu finden sind und demnach besonderer
Aufmerksamkeit bedürfen. Dazu gehören abstrakte Nomen, die physiologische
Zustände (Müdigkeit, Durst etc.) oder Emotionen (Angst, Freude) ausdrücken
sowie weitere abstrakte Begriffe (Glück ) und übergeordnete Begriffe (Hund).
Nach Durchsicht der Daten ist weiterhin auffällig, dass die hier untersuchten
Kinder vor allem in der zweiten und dritten Altersgruppe eine große Vielfalt
an Komposita verwendeten, insbesondere solche, die in der Form nicht im
Wörterbuch vokommen. An dieser Stelle ist eine Wortschöpfungsfähigkeit
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
199
erkennbar, die vermutlich im Vorschulalter stark expandiert. Gerade im
Hinblick auf übergeordnete Begriffe und Komposita ist es jedoch nicht
immer eindeutig, diese zuzuordnen. Der Grund ist vermutlich, dass die
Entwicklung beider Kategorien miteinander einhergeht. Aus diesem Grund
sind Hyperonyme und Komposita zu einer Kategorie zusammengefasst.
Nomen/Altersgruppe
Gruppe 1281_1495
Gruppe 1496_1708
abstrakte Begriffe
Geheimnis (Gespannt), Idee,
Angst, Ärger, Durst, Hilfe, Idee,
Angst, Chance, Geist, Glück,
(Auswahl)
Kontrolle, Krach, Schuld, Welt
Krieg, Schuld, Zauber
Idee, Lüge, Möglichkeit, Pech
übergeordnete Begriffe und Komposita
Gruppe 1709_1983
Amsel, Baumspitze,
Babyaffe, Babyschaf,
Adventskalender, Adventskranz,
Butzemann, Drachentier,
Babyseerobbe,
Apfelpresse, Arbeitsmaschine,
Räuberkind, Ritterburg,
Bauchschmerzen, Delfinmama,
Aussichtsturm, Babykuh,
Schwimmerbecken
Dinowelt, Erdbeersuppe,
Bandrobbe, Baumhaus, Eieruhr,
Feinlöwe, Fernbedienung,
Fleischklößchen, Gemüseacker,
Frühlingsfell, Giftgurke,
Glücksfarbe, Gummitier,
Helflöwe, Käsekugel,
Gummitierchen,
Käsepfannkuchen, Käsering,
Gutenachtgeschichte,
Käsewurst, Klebeding,
Halbfinale, Holzeimer,
Kriegsstürmer, Leinenstoff,
Holzstück, Holzteil, Keiler,
Lieblingsfarbe, Nemofischchen,
Klackerschuh, Krümelmomster,
Nordamerika, Papierrolle,
Kuchenteig, Leberwurst,
Piratenspiel, Regenmuster,
Lieblingsfarbe, Maiskolben,
Ritterteil, Rosenkette,
Matschepampe, Mausefalle,
Salzbrezel, Seerobbe,
Narwal, Ostergras,
Stabheuschrecke,
Osterhasensuche, Papierfisch,
Süßigkeitenladen, Tankwasser,
Papierhandel, Papiermaschine,
Tischspiel, Totenkopf, Unterbett,
Papierrest, Piratenmama,
Uroma, Vanillesauce,
Regenwolke, Riesenstapel,
Vogelhäuschen, Winterfell,
Ritterburg, Roboterschiff,
Zauberfeuer, Zauberlaser,
Säbelzahntiger, Schlitzohr,
Zauberstab, Zauberstein,
Schwarzbär, Schwertwal,
Zoowärter
Sechseck, Segelohr,
Stolperfalle, Strafkarte,
Süßigkeitensammlung,
Übernachtungsparty,
Vulkaninsel, Wasserfall,
Wasserpistole,
Weihnachtstrumpf,
Wildschweinvater, Zaubertrank,
Zaubertrick
Tabelle 7.1: Nomen in den Altersgruppen
Tabelle 7.1 zeigt sehr deutlich, dass die hier untersuchten Kinder mit
zunehmendem Alter eine Vielzahl von Komposita produzierten, die ein hohes
Maß an Kreativität aufweisen. Insbesondere in den Gruppen 2 und 3 zeugen
Nomen wie Helflöwe, Feinlöwe, Giftgurke, Apfelpresse oder Papierfisch von
200
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
einer Fähigkeit, zwei separate Lexeme sinnvoll miteinander zu verbinden.
Dabei handelt es sich nicht nur um die Kombination zweier Nomen (z. B.
Apfelpresse oder Papierfisch), auch die Verbindung von Adjektiv und Nomen
(Feinlöwe) sowie Verb und Nomen (Helflöwe) kann beobachtet werden. In
Gruppe 1 können ebenfalls Komposita verzeichnet werden; diese liegen in
dieser Arbeit jedoch nur in der Form Nomen + Nomen vor. Auch Clark (1995)
postuliert, dass Kinder bereits in einem Alter von zwei Jahren anfangen,
hoch produktive Kompositionen zu bilden. Sie sieht ferner Parallelen zur
Verarbeitung von Basisbegriffen und Hypo-/Hyperonymen im Vergleich
zur Fähigkeit der Bildung von Komposita. Demnach können Zweijährige
Objekte auf mindestens zwei Ebenen kategorisieren: Auf der Ebene der
Basis- sowie auf der Ebene der Unterbegriffe. Wenn Zwei- und Dreijährige
Benennungen für Unterkategorien benötigen, identifizieren sie typischerweise
die Basiskategorie und fügen einige modifizierende Nomen hinzu, so dass
ein neues Kompositum entsteht (z. B. car-smoke für Abgas, das aus dem
Auspuff eines Autos kommt) ([Clark (1995)]). Waxman et al. (1986) fanden
diesbezüglich heraus, dass Kinder zwar anfänglich eine Präferenz für
Basisbegriffe aufweisen, dass aber auch schon früh in der Spontansprache
vereinzelte Oberbegriffe auftreten. Drei- bis Vierjährige hingegen könnten
super- und subordinierte Begriffe bereits gezielt produzieren, wenn diese
elizitiert werden ([Waxman (1990)]). Laut Kauschke et al. (2012a) setzt
der Erwerb von Begriffen auf übergeordneter hierarchischer Ebene die
Fähigkeit zur Abstraktion voraus, da Oberbegriffe Vertreter unterschiedlicher
Gattungen aufgrund gemeinsamer Merkmale zusammenfassen würden
([Kauschke, Nutsch und Schrauf (2012)]). Ein wichtiges semantisches Feld
innerhalb dieser Entwicklung abstrakter Bedeutungen sei das Vokabular
für innerpsychische Zustände ([Bretheron und Beeghly (1986)]). Solche
Wörter sind bei deutschsprachigen Kindern bereits im zweiten Lebensjahr
beobachtbar und auch die Daten der hier untersuchten Kinder liefern
Wörter für innerpsychische Zustände (z. B. Angst, Ärger, Durst) in der
zweiten und dritten Altersgruppe ([Klann-Delius und Kauschke (1995)]). In
der ersten Altersgruppe gibt es derartige Wörter nicht, was jedoch nicht
heißen muss, dass die Kinder diese ansonsten nicht verwendeten. Vielmehr
gibt es in der ersten Gruppe nur wenige Sprachdaten, weshalb davon
ausgegangen werden kann, dass Wörter für innerpsychische Zustände
schlichtweg nicht geäußert wurden, obwohl sie im kindlichen Lexikon
vorhanden sind. Dennoch finden sich weitere abstrakte Begriffe (Geheimnis,
Idee, Kontrolle, Krach, Welt), die zum Teil auch Emotionen ausdrücken
(Schuld). Laut Kauschke et al. (2012a) treten Wörter für körperlich und
emotional wahrnehmbare Zustände vor Ausrücken auf, die mentale Inhalte
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
201
ausdrücken; abstrakte Nomen (z. B. Gerechtigkeit) kämen erst später hinzu
([Kauschke, Nutsch und Schrauf (2012)]). Leider äußern sich Kauschke
et al. nicht zum Zeitpunkt des Auftretens dieser Begriffe. Es kann jedoch
angenommen werden, dass dies vor dem vierten Lebensjahr stattfinden muss,
weil alle in der vorliegenden Arbeit untersuchten Kinder Begriffe dieser Art
bereits vorweisen können. Eine interessante Untersuchung zum Verstehen
abstrakter Begriffe (u.a. Leben, Tod, Fortpflanzung) liefert Szagun (1983). Sie
untersuchte 216 Kinder im Alter von 4;7 bis 12;6 Jahren und kam zu dem
Ergebnis, dass es drei Phasen geben muss, die beim Erwerb der Bedeutung
abstrakter Begriffe durchlaufen werden: 4 bis 8 Jahre, 9 bis 12 Jahre und über
12 Jahre ([Szagun (1983)], S. 277-296). Die hier vorliegenden Ergebnisse
lassen diesbezüglich rückschließen, dass die Kinder der zweiten und
dritten Gruppe eventuell etwas mehr bzw. differenziertere abstrakte Begriffe
verwendeten als die Kinder der ersten Gruppe. Vor allem der Begriff Angst
kommt erst später vor. Bemerkenswerterweise taucht in Gruppe 1 das Wort
Geheimnis mit dem Zusatz Gespannt auf. Dieser Zusatz wurde in Klammern
notiert, weil das Kind (MA), welches Gespannt äußerte, auf das Wort
Geheimnis hinaus wollte, aber zunächst nicht den Begriff fand. Man kann nun
vermuten, dass es für jüngere Kinder noch schwierig ist, abstrakte Begriffe
adäquat zu verwenden, obwohl sie diese in vertrauten Kontexten bereits
richtig anwenden. Das betrifft auch das Wort Idee (Abbildung 7.1). Dieses
Wort wurde erstaunlicherweise in der ersten Gruppe häufiger gebraucht als in
den Gruppen 2 und 3. Es wurde jedoch immer nur in der Phrase „ich habe
eine coole/gute Idee“ verwendet, die somit idiomatischen Charakter aufweist.
Der Gebrauch idiomatischer Wendungen ist in einem solch frühen Alter zwar
unüblich, dennoch nicht unmöglich. Auch Clark (1995) fand diesbezüglich
heraus, dass einige Kinder bereits mit vier Jahren Idiome verwenden, obwohl
diese normalerweise erst ab einem Alter von sechs Jahren häufiger produziert
werden ([Clark (1995)] ).
Abbildung 7.1: Verwendung von „Idee“: 039_MA
202
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
In Bezug auf die Verwendung von abstrakten Nomen ist es nicht
verwunderlich, dass diese von Kindern im Vorschulalter noch weniger
und zum Teil nicht adäquat verwendet werden. Ein sehr gängiges
Unterscheidungskriterium von Abstrakta und Konkreta betrifft die
Sinneswahrnehmung. Demnach werden Konzepte konkreter Nomen
durch taktile, visuelle, akustische und andere sensorische Komponenten
repräsentiert, während abstrakte Nomen nicht sinnlich wahrgenommen
werden ([Kauschke, Nutsch und Schrauf (2012)]; siehe auch [Weiss (1997)],
zitiert in [Kauschke, Nutsch und Schrauf (2012)]). Dies sei ein Grund dafür,
dass Abstrakta nach Konkreta erworben werden. Diese Erkenntnis wird
gestützt von Tomasello (2005), der ebenso konstatiert, dass die meisten
der ersten Nomen einen Bezug zu konkreten Objekten haben, wohingegen
abstrakte Nomen erst später erworben werden ([Tomasello (2005)], S. 45 ff.;
siehe auch Abschnitt 2.3.1).
Eine recht prominente Theorie stammt von Paivio (1986), der mit der
Dual Coding Theory zwei funktional unterschiedliche Verarbeitungssysteme
ansetzt ([Paivio (1986)]). Der Theorie zufolge kann von einem verbalen
System ausgegangen werden, das aus vernetzten Wörtern besteht und
auf sprachlicher Erfahrung basiert sowie von einem bildlichen System,
das aus sensorischen Erfahrungen und inneren Abbildungen besteht. Ein
Unterschied in der Verarbeitung entsteht dadurch, dass Konkreta mit beiden
Systemen verarbeitet werden, während Abstrakta nur mit dem verbalen
System verarbeitet werden. Konkrete Wörter weisen laut Paivio zudem eine
stärkere Verbindung zum bildlichen System auf, da sie leichter eine innere
Vorstellung hervorrufen können. Konkreta enthalten zudem eine größere
Anzahl sensorisch basierter Merkmale, wodurch sie von beiden Systemen
unterstützt und folglich leichter erlernt werden ([Paivio (1986)], S. 53-83).
Abschließend möchte ich mich kurz zur Häufigkeit der Nomen in den
Altersgruppen äußern. Die häufigsten Nomen in Gruppe 1 von insgesamt
264 geäußerten Nomen sind Turm (12), Auto, Idee, Mama, Papa, Räuber,
Räuberkind (je 6). Das Lemma Karte kam fünfmal vor, Kind viermal. Mit
insgesamt 14 Fällen trat das Nomen Uno am häufigsten auf. Da es im
Zusammenhang mit einem Kartenspiel (Uno Uno) geäußert wurde, möchte
ich es an dieser Stelle jedoch nicht überbewerten. Es ist wahrscheinlich
nicht verwunderlich, dass Mama und Papa relativ häufig geäußert wurden.
Interessant ist zudem, dass das abstrakte Nomen Idee insgesamt sechsmal
und damit ebenso häufig wie das Wort Auto geäußert wurde. Wie schon
erwähnt, wurde das Nomen Idee immer in der idiomatischen Wendung
„ich habe eine (+ADJ) Idee“ gebraucht, was darauf schließen lässt, dass
es als abstraktes Nomen noch nicht losgelöst vom Kontext verwendet und
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
203
verarbeitet wird. In Gruppe 2 wurden insgesamt 971 Nomen geäußert. Am
häufigsten treten auf: Hause (24), Uno (18), Gold (13), Fußball (12), Feuer
(11), Farbe (9) und Spiel (8). Auch hier zeigen sich größtenteils konkrete
Nomen, wobei Hause meines Erachtens ein Grenzfall ist. Auch das Wort Uno
ist aufgrund des Kartenspiels häufig vertreten. In Gruppe 3 gab es insgesamt
1245 Nomen in Bezug auf die Tokens. Am häufigsten wurde das Nomen
Karte (29) verwendet, gefolgt von Papier (19), Blatt (18), Schnecke (16) und
Mama (14). Eigennamen kamen in allen Gruppen vor. In Gruppe 3 wurde
Julia (mein Vorname) 64 Mal verwendet und LAR 40 Mal. Dies zeigt, dass mit
zunehmendem Alter anscheinend mehr Eigennamen im Gespräch verwendet
werden, was unter anderem auf eine zunehmende Fähigkeit zur Interaktion
schließen lässt. Eine weitere Entwicklung bezüglich der Eigennamen stellen
Ortsbezeichnungen dar, die in den vorliegenden Daten erst ab einem Alter
von 4;1 Jahren verwendet wurden (u.a. Afrika, Deutschland, Nordamerika,
Spree). Bereits die Analyse der POS-Tags ließ vermuten, dass es einige
wichtige Entwicklungsschritte im Alter von 3;5 bis 5;5 Jahren geben muss, die
anhand der hier untersuchten inhaltlichen Aspekte bestätigt werden konnten
und sich in die bisher ermittelten Entwicklungstendenzen hinsichtlich der
Verteilung der Wortarten einfügen (Abschnitt 6.2).
7.2.2
Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand)
In diesem Abschnitt möchte ich nähere Informationen zu den Verben geben,
die von den hier untersuchten Kindern geäußert wurden. Im Hinblick auf diese
Aufgabe machte es sich mehr als bezahlt, die STTS für die Analyse verwendet
zu haben, wodurch alle Verben anschließend nach ihren semantischen
Kriterien klassifiziert werden konnten. Dadurch war es möglich, die Verben
untergliedert in Auxiliar-, Kopula-, Modal-, Handlungs-, Vorgangs- und
Zustandsverben darzustellen. Im Hinblick auf die STTS ergaben sich die
Kategorien Auxiliar-, Modal- und Vollverb. Tabelle 7.2 zeigt alle Modalverben
in allen Altersgruppen sowie die am häufigsten geäußerten Vollverben6 . Die
Verben sein, werden und bleiben können je nach Kontext Kopulaverb oder
Vollverb sein. Diese werden in der Tabelle zunächst nicht unter diesen beiden
Bedingungen betrachtet, sondern erst an späterer Stelle nochmals analysiert.
Die Verben haben, sein und werden können je nach Kontext Auxiliarverb oder
Vollverb sein. Auch diese sollen erst später betrachtet werden. In Gruppe 1
wurden insgesamt 617 Verben geäußert, in Gruppe 2 2684 und in Gruppe 3
2502.
6
Hinsichtlich der semantischen Kategorien sind unter den Vollverben alle Handlungs-, Vorgangs- und
Zustandsverben zusammengefasst.
204
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Verben/
1281_1495
1496_1708
1709_1983
können (33), müssen (25),
können (159), müssen
müssen (129), können
Altersgruppe
Modalverben
wollen (23), dürfen (8),
(139), wollen (71), dürfen
(121), dürfen (65), wollen
sollen (1)
(35), sollen (27), mögen (6),
(54), sollen (26), möchten
möchten (4)
(19), mögen (7)
Vollverben
gucken (20), machen (19),
gucken (150), machen
machen (77), wissen (70),
(häufigste)
wissen (19), sehen (18),
(138), wissen (90), kommen
gehen (58), kommen (55),
gehen (17), spielen (12)
(76), spielen (70), gehen
spielen (55), glauben (25)
(66), glauben (10)
Tabelle 7.2: Verben in den Altersgruppen
Besonders auffällig ist, dass in allen drei Gruppen stets die gleiche
Reihenfolge bezüglich der Äußerungshäufigkeit bei den Modalverben vorliegt.
Das Modalverb können, gefolgt von müssen und wollen, ist in den Gruppen
1 und 2 das häufigste Verb. In Gruppe 3 ist müssen an der ersten Position,
gefolgt von können und dürfen. Die Modalverben mögen und möchten
kommen in Gruppe 1 nicht vor, wurden aber auch in den anderen beiden
Gruppen nicht besonders häufig verwendet. Besonders erstaunlich ist ein Blick
auf die Spalte der Vollverben. Die Verben sind in ihrer Äußerungshäufigkeit
(bis auf eine Ausnahme) in allen drei Gruppen bis zur dritten Position gleich:
gucken - machen - wissen. Die Ausnahme bildet das Verb gucken, das in
der dritten Gruppe nicht unter den am häufigsten geäußerten Vollverben
vertreten ist. In den ersten beiden Altersgruppen wurde es besonders häufig
im Imperativ in der Phrase „guck mal“ geäußert. Dieses Muster zeigt sich in
Gruppe 3 nicht mehr. Ansonsten sind sehr häufig die Verben machen, wissen,
gehen und spielen vertreten. Auffällig ist das Verb wissen, das als einziges
mentales Verb bzw. Zustandsverb (v-zustand) bereits in Gruppe 1 geäußert
wurde. Die Verben denken und glauben erscheinen nur in den Gruppen 2 und
3, weshalb angenommen werden kann, dass diese mentalen Verben einen
besonderen Entwicklungsschritt darstellen. Wie bereits weiter oben angeführt,
fanden Kauschke et al. (2010) heraus, dass die mentalen Verben denken und
wissen ab einem Alter von ca. 2;8 Jahren im Vokabular von Kindern auftreten
([Kauschke und Klann-Delius (2010)]). Dieses Ergebnis deckt sich mit den
Erkenntnissen von Shatz et al. (1983), wonach zum Ende des 3. Lebensjahres
die ersten Hinweise auf mentale Prozesse in Form von mentalen Verben (z. B.
wissen, glauben), beobachtet werden ([Shatz, Wellmann und Silber (1983)]).
Da zumindest das Verb wissen in den vorliegenden Daten vorkommt, wäre
eine Vermutung, dass auch denken als mentales Verb im Wortschatz der
Kinder aus Gruppe 1 vorhanden ist, hier jedoch nicht geäußert wurde.
Wissen wurde zudem sehr oft im Zusammenhang mit „weißt du was?“
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
205
geäußert; vornehmlich von einem Kind (MK). Dadurch erhält es - ebenso wie
das Nomen Idee in der Phrase „ich habe eine coole Idee“ - idiomatischen
Charakter. Im Folgenden möchte ich einige Beispiele anführen, in denen
wissen in diesem Zusammenhang vorkommt (Abbildung 7.2). Aber auch in
Abbildung 7.2: „wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK)
anderen, nicht idiomatischen Kontexten kommt wissen in allen Altersgruppen
vor (Abbildung 7.3). Das Verb glauben erscheint mit insgesamt 35 Malen
Abbildung 7.3: „wissen“: 020_MM, 036_LAR
häufiger als denken und kommt beispielhaft in den abgebildeten Kontexten
vor (Abbildung 7.4). Das Verb denken erscheint insgesamt nur viermal; einmal
in Gruppe 2, dreimal in Gruppe 3 (Abbildung 7.5). Dies lässt vermuten, dass
es im Gegensatz zu glauben eine noch größere Hürde in der Entwicklung
des Verblexikons darstellt. Meiner Erfahrung nach wird im Deutschen das
Verb glauben verbal häufiger in feststehenden Wendungen wie „ich glaube“
verwendet; „ich denke“ in der Funktion als positionierende Wendung wird
seltener gebraucht. Demnach ist es nicht verwunderlich, dass glauben
häufiger und fast immer in der Wendung „ich glaube“ verwendet wurde
(siehe dazu Kapitel 8). Zudem ist dies eine weitere Bekräftigung dafür, dass
Kinder Lexeme nicht isoliert, sondern als Konstruktionen erlernen (siehe
auch [Tomasello (2005)] in Abschnitt 2.3.1). Im Hinblick auf die Kategorie der
Kopulaverben (v-kop) können keine besonderen Auffälligkeiten hinsichtlich
der Verwendung über die drei Alterszeiträume hinweg beobachtet werden.
206
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Abbildung 7.4: „glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO
Abbildung 7.5: „denken“: 033_JS, 045_MK
Bei den Handlungsverben (v-handlung) sowie bei den Vorgangsverben
(v-vorgang) fällt auf, dass mit zunehmendem Alter (ab Gruppe 1496_1708 im
Verlauf zu Gruppe 1709_1983) differenziertere Verben geäußert wurden. Dies
ist ebenso bei den Zustandsverben (v-zustand) zu beobachten, wobei hier in
Gruppe 2 (1496_1708) die meisten verschiedenen Verben zu verzeichnen
sind.
7.2.3
Adjektive (ad-part, ad-qual, ad-quant, ad-rel)
An dieser Stelle sollen die Adjektive in den Altersgruppen und ihre
Vorkommens- und Verwendungshäufigkeit näher betrachtet werden. Bei
einer Durchsicht aller geäußerten Adjektive fällt auf, dass besonders viele
Farbwörter verwendet wurden. Es ist unklar, ob diese auch in anderen
Kontexten und Situationen derart häufig vorkommen würden (z. B. zu Hause
oder bei einer Laborstudie). Denkbar ist, dass vor allem im Umfeld des
Kindergartens und den damit verbundenden Aktivitäten wie Basteln, Malen,
Lernspielen etc. gehäuft Adjektive verwendet wurden, die anderenfalls nicht
derart oft im Sprachgebrauch vorkommen. Aus diesem Grund habe ich
mich entschieden, die häufigsten Farbwörter getrennt von den häufigsten
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
207
übrigen Adjektiven aufzuführen. In Gruppe 1 wurden insgesamt 108 Adjektive
produziert, in Gruppe 2 treten 484 Adjektive auf, in Gruppe 3 sind es 512.
Adjektive/
1281_1495
1496_1708
1709_1983
Altersgruppe
Adjektiv
Farbadjektiv
groß (13), cool (6),
klein (28), gut (20),
gut (33), klein (26),
ganz (5), richtig (5),
groß (19), lang (15),
schnell (21), groß (20),
klein (4), schnell (4)
richtig (14)
richtig (15)
gold (8)
grün (26), rot (27), gelb
rot (44), grün (40), gelb
(22)
(39), blau (24), orange
(19)
Tabelle 7.3: Adjektive in den Altersgruppen
Es fällt nicht leicht, einen Entwicklungstrend hinsichtlich inhaltlicher
Aspekte auszumachen. Ich möchte dennoch - in Anlehung an die Einteilung
Kauschkes (1999) - versuchen, Näheres zum Adjektivlexikon im Vorschulalter
auszuführen ([Kauschke (1999)], S. 140). Kauschke (1999) unterscheidet in
modifizierende Elemente wie Attribute, Eigenschaften und Merkmale (z. B.
heiß) und innerpsychische Zustände bzw. internal state-Adjektive (böse, toll).
Die vorliegenden Daten möchte ich um Farbadjektive ergänzen, da diese einen
großen Anteil am Adjektivlexikon der hier untersuchten Kinder ausmachen.
Dies ist für das Alter der hier untersuchten Kinder nicht ungewöhnlich. Relativ
neue Erkenntnisse zeigen, dass Kinder Farbadjektive mit 3 bis 4 Jahren
erwerben, obwohl sie trotzdem oft Schwierigkeiten beim Erlernen dieser
haben ([Backscheider und Shatz (1993)]; [Sandhofer und Smith (1999)]).
Frühere Erklärungen postulieren, dass Kinder Probleme beim Verstehen
von Farbwörtern aufweisen. Der Grund dafür sei, dass sie Farbe nicht
als eine Domäne der Bedeutung abstrahieren können. Laut Wagner
(2013) liegt das Problem beim Erwerb der Farbwörter darin, dass
Kinder Farbwörter typischerweise schon dann produzieren, bevor sie
sie mit der erwachsenengleichen Bedeutung verwenden. Demnach
bestünde die Schwierigkeit vor allem darin, Farbe als eine Dimension
mit linguistischer Bedeutung zu abstrahieren. Das Hauptproblem läge
somit in der Unfähigkeit, Kategoriegrenzen für Farbwörter zu ziehen
([Wagner, Dobkins und Barner (2013)]). In Bezug auf die hier vorliegenden
Daten scheint es jedoch so, dass keines der hier untersuchten Kinder
Probleme mit dem Verstehen oder der Verarbeitung von Farbwörtern zeigt. Es
wurden nicht nur die Grundfarben (blau, gelb, rot) geäußert, auch Mischfarben
(rosa) oder Abstufungen (dunkelblau) kamen häufig vor. Nach Durchsicht
meiner Aufzeichnungen zu den jeweiligen Aufnahme-Dateien wird deutlich,
dass alle geäußerten Farbadjektive immer adäquat verwendet wurden.
208
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
In allen drei Altersgruppen treten vor allem Adjektive auf, die sich auf
Relationen bzw. Dimensionen beziehen (groß, klein, schnell, lang). Ich
möchte an dieser Stelle von genauen Häufigkeitsanalysen absehen. Neben
diesen Eigenschaftsadjektiven ist das internal state-Adjektiv gut in Gruppe
2 und in Gruppe 3 vertreten. In Gruppe 1 kommt cool relativ häufig vor.
Besonders auffällig ist das Vorkommen von Farbadjektiven in allen Gruppen.
Erklärbar ist dies (zumindest in den hier erhobenen Daten) mit einer Vielzahl
von interaktiven Spielen, die das Nennen von Farben erfordern. Abbildung 7.6
zeigt eine Grafik der Excel-Datei, die alle vorkommenden Adjektive, unterteilt
in attribuierende Adjektive (ADJA) und determinierende Adjektive (ADJD),
zeigt. Fakt ist, dass das Adjektivlexikon mit zunehmendem Alter offenbar
vielfältiger, nicht aber unbedingt größer in Bezug auf den Gesamtanteil des
Lexikons wird. In Gruppe 2 finden sich gar die gesteigerten Formen allergrößtund allerschlimmst-, die analog zur ansteigenden Bildung von Komposita bei
den Nomen auftreten. In den Gruppen 1 und 3 tritt zudem egal auf, was in
Gruppe 1 noch nicht zu finden ist. Des Weiteren sieht es so aus, als würden
die hier untersuchten Kinder mit zunehmendem Alter spezifischere Adjektive
verwenden. In Gruppe 1 und 2 wurde das negativ besetzte Adjektiv schlecht
geäußert; in Gruppe 3 tauchen neben schlecht die Adjektive fies, blöd und
doof auf. Daneben sind mit zunehmendem Alter mehr Antonympaare zu
beobachten.
In Gruppe 1 äußerten die Probandinnen und Probanden:
• groß - klein, gut - schlecht, früh - spät
In Gruppe 2 wurden folgende Antonyme geäußert:
• groß - klein, gut - schlecht, kurz - lang, neu - alt, richtig - falsch, tief - flach,
viel - wenig, weit - nah, schwer - leicht, früh - spät, voll - leer, warm - kühl
sowie viel - wenig
In den Daten von Gruppe 3 befinden sich die folgenden Antonyme:
• alt - neu, breit - schmal, richtig - falsch, groß - klein, kurz - lang, leicht schwer, teuer - billig, viel - wenig, dick - dünn, gut - schlecht, hoch - tief,
schmal - weit sowie traurig - lustig
Diese Entwicklung geht laut Kauschke (2012) einher mit dem Erwerb
des hierarchisch gegliederten Nomenlexikons, wobei Kinder Wörter in
weiteren semantischen Zusammenhängen erwerben. Neben dem Erwerb
der Bedeutungsgleichheit bzw. der Synonymie steht der Erwerb von
Oppositionsbeziehungen wie Antonymie (heiß - kalt), Kontradiktion (tot lebendig), Konversion (ziehen - schieben) sowie die Teil-Ganzes-Beziehung
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
209
(Ärmel-Pullover ) ([Kauschke (2012)], S. 56 f.). Im Zuge dessen erlernen
Kinder jene Adjektive, die in Opposition zueinander stehen. Laut Kuczaj (1999)
erwerben Kinder Adjektive, die für die Extrempole eines Kontinuums stehen (z.
B. heiß - kalt) vor Adjektiven, die Zwischenstufen anzeigen (z. B. warm - kühl)
([Kuczaj (1999)]). Derartige antonyme Zwischenstufen zeigen sich bereits
in Gruppe 2 (warm - kühl). In Gruppe 3 gibt es fast ausschließlich konträre
Antonympaare, wobei richtig - falsch womöglich ein kontradiktorisches Paar
darstellt. Dieses Paar befindet sich im Übrigen auch in den Daten von Gruppe
2.
Abbildung 7.6: Adjektive in den drei Altersgruppen (Ausschnitt)
In einer früheren Studie untersuchte Kuczaj (1982a) ein Kind und fand
heraus, dass es die Gegensatzpaare hot - cold zur Bezeichnung von
Temperaturunterschieden zuerst erwarb; später erst kam cool - warm
dazu ([Kuczaj (1982)]). Selbst nachdem das Kind gelernt hatte, dass hot
210
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
und cold die jeweiligen Endpunkte einer relativen Dimension ausdrücken,
verstand es noch nicht, wie man am besten die Zu- bzw. Abnahme eines
Dimensionsbegriffs ausdrückt. Folglich verwendete es einige Zeit „cool off “,
um den Übergang von einem kühlen Zustand in einen anderen kühlen
Zustand zu beschreiben. „Warm up“ wurde zum Beispiel in einer Situation
verwendet, in der das Kind eine heiße Schokolade probierte. Nachdem
diese zu heiß war, äußerte das Kind „Too hot! I’m gonna let it warm up“
([Kuczaj (1982)]). Ein ähnliches Entwicklungsmuster konnte ich bei meinem
Sohn beobachten. Mit 3 bis 4 Jahren nutzte er scheinbar polare Adjektive
oft folgendermaßen: Wenn sein Essen noch zu heiß war, äußerte er oft
„das muss erst warm/wärmer werden“ und drückte damit aus, dass es
abkühlen muss. Er verwendete lange nicht das Wort abkühlen. Ein anderes
Beispiel bezieht sich auf das Gegensatzpaar immer - nie. Nie wurde oft in
der Bedeutung von selten oder gelegentlich verwendet. So äußerte R. oft
„Ich war noch nie im Schwimmbad“, wenn es schon längere Zeit her war,
dass wir Schwimmen waren und er eigentlich ausdrücken wollte, dass wir
nur selten im Schwimmbad waren in letzter Zeit. Ab dem fünften Lebensjahr
verwendete R. derartige Adjektive fast immer in aqäquater Weise. Kuczaj
(1999) stellte ein derartiges Muster beim Erwerb semantischer Reihen fest.
In Abfolgen wie hot, warm, cool, cold oder always, usually, sometimes,
seldom, never erwerben Kinder jene Adjektive, die am Ende einer solchen
Dimension stehen (hot - cold, always - never ) bevor sie Adjektive erlernen, die
zwischen diesen Extremen liegen. Dieses Erwerbsmuster verdeutliche, dass
die Extreme semantischer Dimensionen bedeutender für jüngere Kinder seien
als die Punkte zwischen diesen Extremen, so Kuczaj ([Kuczaj (1999)], S. 151;
siehe auch [Kuczaj (1975)]; [Kuczaj (1982)]; [Lyons (1977)]). Sobald Kinder
ihr Lexikon erweitern, erwerben sie zunehmend semantische Relationen und
verfeinern schlussendlich die Struktur dieser semantischen Abfolgen und
Felder ([Kuczaj (1982)]; siehe auch [Clark (1993)]; [Dromi (1987)]). Clark
et al. (1977) beschreiben diesbezüglich eine typische Erwerbsabfolge des
Größenpaares a) big - small. Dieses stünde am Anfang der Erwerbskette,
gefolgt von b) tall - short bzw. long - short, c) high - low, d) thick - thin und
e) wide - narrow bzw. deep-shallow ([Clark und Clark (1977)], S. 499). Da
bei den hier untersuchten Kindern bereits in Gruppe 2 das Größenpaar tief
- flach auftaucht, kann davon ausgegangen werden, dass es ebenso im
Lexikon der älteren Kinder aus Gruppe 3 enthalten ist, auch, wenn es hier
nicht verwendet wird. In Gruppe 1 ist lediglich das Größenpaar groß - klein zu
verzeichnen. Es wurden generell wenige Tokens in dieser Gruppe geäußert.
Dennoch ist anzunehmen, dass Kinder dieses Alters (ca. 3;5 bis 4;1) noch
nicht alle semantischen Relationen und deren Abfolgen erworben haben.
7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN
211
Laut Kuczaj (1982a) sind zum Erwerb lexikalischer Oppositionen zudem eine
Vielzahl paradigmatischer Relationen erforderlich, damit Kinder ihr Lexikon
korrekt strukturieren können. Dazu gehört auch, dass Kinder lernen, dass
Objekte mit mehr als nur einem Lexem bezeichnet werden können. Ein Kind
müsse außerdem entdecken, in welcher Beziehung diese Wörter zueinandern
stehen und wie Wörter verwendet werden können, um damit Metaphern
zu erschaffen ([Kuczaj (1982)]; siehe auch [Winner (1988)]). Es würde an
dieser Stelle zu weit führen, all diese Aspekte im Hinblick auf den Erwerb
von Adjektiven genauer zu betrachten. Fakt ist, dass anscheinend mehrere,
sich überschneidende Prozesse für den Erwerb von Adjektiven erforderlich
sind und diese Prozesse sich auch im Inhalt der hier geäußerten Lexeme
widerspiegeln.
Hinsichtlich der Verwendung von Adjektiven in Bezug auf die
Bedeutungskategorien (ad-part, ad-qual, ad-quant, ad-rel) konnten
folgende Tendenzen beobachtet werden: Insgesamt weisen die hier
untersuchten Kinder mit zunehmendem Alter ein immer differenzierteres
Adjektivlexikon (vor allem in Bezug auf die Kategorie ad-qual) auf, das
insbesondere ab der zweiten Altersgruppe zum Teil sehr spezifische Adjektive
enthält (u.a. magnetisch, kugelrund, unendlich, ungerecht, vernünftig,
verrückt). Adjektivische Partizipien wurden in nur einem Fall in Gruppe 2 von
LEO geäußert (fliegend).
7.2.4
Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod, adv-temp)
Die Adverbien werden neben den Nomen, Verben und Adjektiven
mehrheitlich zu den Inhaltswörtern gezählt, obgleich sie oft nicht eindeutig
zugeordnet werden können und zum Teil auch Funktionswörter sein können
([Dudenredaktion (2009)], S. 569).
Besonders auffällig bei der Analyse der kausalen Adverbien (adv-kaus)
war, dass das Adverb also erst ab der zweiten Altersgruppe (ab 4;1) Jahren
geäußert wurde (50 mal in Gruppe 2, 12 mal in Gruppe 3). Zu diesem
Phänomen liegen in der aktuellen und auch älteren Forschungslandschaft
keine bzw. nur sehr wenige bekannte Studien und Ergebnisse vor. Zum einen
besteht die Möglichkeit, dass also zwar im Lexikon der Kinder der ersten
Gruppe enthalten ist, aber nicht verwendet wurde. Zum anderen besteht die
Annahme, dass also noch nicht im (produktiven) Lexikon der hier untersuchten
Kinder enthalten ist.
In Anbetracht der lokalen (adv-lok ), modalen (adv-mod) und
temporalen Adverbien (adv-temp) kann mit zunehmendem Alter eine
immer differenziertere Verwendung dieser Adverbien verzeichnet werden.
212
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Lokale Adverbien wie dazwischen, nebeneinander oder seitwärts kommen
in dieser spezifischen Form erst ab 4;1 Jahren vor. Ebenso weisen die
temporalen Adverbien gleichzeitig oder inzwischen auf ein sehr spezifisches
Adverblexikon ab einem Alter von 4;1 Jahren hin. Derartig konkrete Angaben
zum Ort oder zur Zeit konnten bei jüngeren Kindern der Gruppe 1 nicht
beobachtet werden.
7.3
Tendenzen in der Verwendung von Funktionswörtern
An dieser Stelle sollen mögliche Entwicklungstendenzen der hier verwendeten
Funktionswörter, und damit verbunden den konkret verwendeten Lemmata,
über die drei Alterszeiträume hinweg dokumentiert werden. Zu den
Funktionswörtern zählen dabei Artikel, Pronomen, Präpositionen und
Konjunktionen ([Bussmann (1983)]) sowie in dieser Arbeit außerdem die
Interjektionen und Partikeln. Hinsichtlich der Funktionswörter konnten an
einigen Stellen Entwicklungstendenzen beobachtet werden, die sich - ebenso
wie die Verteilung der Wortarten - vor allem ab Altersgruppe 1406_1708, also
ab ca. 4;1 Jahren, bemerkbar machen.
Kaltenbacher (1990) konnte Erwerbsprobleme bezüglich des Erwerbs
von Funktionswörtern feststellen, wobei vor allem die Kontextabhängigkeit
selbiger dafür verantwortlich sei. Die konkreten Schwierigkeiten, die
Kinder beim Erwerb aufweisen, scheinen dabei eng mit der spezifischen
Art des Kontextbezuges zusammenzuhängen ([Kaltenbacher (1990)],
S. 42). So werde zum Beispiel die Definitheit bzw. Indefinitheit beim
Artikelsystem, bei dem das ko- und kontextuelle Vorwissen von Sprechern
und Hörern eine wichtige Rolle spielt, von englischsprachigen Kindern
erst im Schulalter vollständig beherrscht ([Maratsos (1979)]). Derartige
Zusammenhänge wurden in der vorliegenden Arbeit zwar nicht untersucht,
jedoch sind grundlegende Entwicklungstendenzen in der Verwendung von
Funktionswörtern in den Daten der vorliegenden Arbeit erkennbar.
7.3.1
Interjektionen (itj)
Interjektionen wurden in allen drei Altersgruppen geäußert, wobei ab der
zweiten Gruppe ein differenziertes Vokabular hinsichtlich der Interjektionen
erkennbar ist. In Gruppe 1 (1281_1495) wurden nur vier verschiedene
Interjektionen geäußert (aua, cool, hey, pff ). Ab einem Alter von 4;1 Jahren
bzw. in den Gruppen 2 und 3 befinden sich sehr spezifische und - so scheint
es - zielgerichtete Interjektionen (pfui, wow, juhu, tschüs, mann, prima, yippie).
7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN
213
Dies lässt vermuten, dass Interjektionen, zumindest was die hiesigen Daten
anbelangt, ab einem Alter von 4;1 Jahren sehr viel bewusster eingesetzt
werden und dementsprechend eine andere Funktion erfüllen als bei jüngeren
Kindern.
7.3.2
Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus, kon-spez,
kon-temp, kon-vgl) und Subjunktionen (sub-fin, sub-kaus, sub-kond,
sub-konz, sub-mod-instr, sub-neutr, sub-temp)
Hinsichtlich der Konjunktionen können einige wenige Entwicklungstendenzen
festgestellt werden. Die adversative Konjunktion sondern kommt in Gruppe 1
nicht vor, während sie in Gruppe 2 und 3 mit drei bzw. zwei Fällen vertreten ist.
Die spezifizierende Konjunktion außer hingegen kommt mit einem Fall nur in
Gruppe 1 vor. Die temporale Konjunktion als tritt mit ebenfalls einem Fall nur
in Gruppe 2 auf. An dieser Stelle sollte aufgrund der geringen Fallzahlen nicht
von Entwicklungstendenzen gesprochen werden. Dazu wären weitere Daten
erforderlich.
Die finalen Subjunktionen liegen mit den Lemmata damit und um in
geringen Fällen nur in Gruppe 2 und 3 vor. Die konditionale Subjunktion
falls taucht nur einmal in Gruppe 3 auf, während wenn mit wesentlich
höheren Fallzahlen in allen drei Gruppen vertreten ist. Zu einem ähnlichen
Ergebnis kommt auch Rothweiler (1993), die in einer Untersuchung von
Kindern zwischen 2 und 5 Jahren die Subjunktion wenn in allen Altersstufen
gleichermaßen vorfand ([Rothweiler (1993)], S. 103 ff.). Das konzessive
obwohl tritt in der vorliegenden Arbeit in Gruppe 2 dreimal, in Gruppe 3 einmal
auf. Die modal-instrumentale Subjunktion ohne ist im gesamten Korpus nur
einmal vertreten (in Gruppe 2). Im Gegensatz zu diesen recht geringeren
Fallzahlen ist auffällig, dass die neutrale Subjunktion dass erst in den Gruppen
2 und 3 mit jeweils 18 Fällen auftritt. Ob hingegen ist in allen drei Gruppen
vorzufinden, wenn auch mit sehr geringen Fallzahlen zwischen eins und drei
Fällen. Leider liefert sowohl ältere als auch aktuelle Literatur nur wenige
Angaben bezüglich der Verwendung von dass als neutrale Subjunktion,
weshalb an dieser Stelle keine Schlussfolgerungen bezüglich des Erwerbs
von dass im Spracherwerbsprozess möglich sind. Anhaltspunkte, die diese
Ergebnisse stützen, finden sich erneut bei Rothweiler (1993). Demzufolge wird
dass als Komplementierer (im Gegensatz zum finalen dass in der Funktion
von damit) später erworben als ob, wobei die Polysemie von das/dass eine
mögliche Ursache für den späteren Erwerb sein könnte ([Rothweiler (1993)],
S. 102). Diese Erwerbsfolge deckt sich mit den Ergebnissen dieser Arbeit.
Grundsätzlich betrachtet kann aufgrund der vermehrten Verwendung von
214
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Subjunktionen ab einem Alter von 4;1 Jahren ein vermutlich gesteigertes
syntaktisches Wissen um die Bildung bzw. Einleitung von Nebensätzen
angenommen werden.
7.3.3
Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos, prels, prf, pwat,
pwav, pws)
Bei der Analyse der Wortarten nach den STTS (Kapitel 6) sowie
der Zuordnung der Lemmata zu ihren Bedeutungskategorien wurden
die Pronominaladverbien (pav ) zu den Adverbien gezählt. Doch die
Pronominaladverbien stellen einen Grenzfall zwischen Adverb und Pronomen
dar (siehe zum Beispiel [Dudenredaktion (2009)]). Deshalb werden sie
an dieser Stelle ausnahmsweise den Pronomen zugeordnet, weil sie
sich im gesamten Korpus eher bei den Funktionswörtern, denn bei den
Inhaltswörtern, einreihen. Es fällt auf, dass erst in den Gruppen 2 und 3,
also ab einem Alter von 4;1 Jahren die Pronominaladverbien außerdem und
trotzdem auftreten. Des Weiteren finden sich in diesen Altersgruppen die
Pronominaladverbien wofür, wenn auch nur mit je einem Fall. In Gruppe 1
sind lediglich Pronominaladverbien vertreten, die mit da(r)- oder hier- gebildet
werden (siehe auch [Dudenredaktion (2009)], Regel 860).
Bei den attribuierenden Indefinitpronomen ohne (piat) und mit Determiner
(pidat) sowie bei den substituierenden Indefinitpronomen (pis) ist ab Gruppe 2
eine größere Vielfalt im Vokabular zu verzeichnen. In der Kategorie piat treten
ab einem Alter von 4;1 Jahren Pronomen wie (ein) bisschen, solch-, andere,
beide, jeder oder auch derselbe auf, die in der ersten Altersgruppe noch nicht
zu finden sind. Ähnlich sieht es in der Kategorie pidat aus. In Gruppe 1 tritt
lediglich das Pronomen beide auf, während in den Gruppen 2 und 3 andere,
ein, (ein) paar und bisschen hinzukommen. Ein ähnliches Muster ist bei den
substituierenden Indefinitpronomen erkennbar, wenn auch die verwendeten
Pronomen bereits in Gruppe 1 recht vielfältig verwendet wurden. In Gruppe 2
und 3 treten neben den sehr häufig verwendeten Pronomen all-, ein, etwas
und man auch seltener verwendete Pronomen wie irgendwas, irgendwelch-,
jemand, jeder, manch-, niemand, wenig oder welch- auf. Letztere sind in
Gruppe 1 noch nicht vertreten.
Bei den Personalpronomen (pper ) und Relativpronomen (prels) sind keine
Besonderheiten erkennbar. Im Hinblick auf die reflexiven Personalpronomen
(prf ) ist, wie auch bei den anderen Pronomen, ein etwas differenzierteres
Vokabular ab der zweiten Altersgruppe erkennbar, das ebenfalls bei den
Possessivpronomen (ppos) verzeichnet werden kann.
7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN
7.3.4
215
Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp)
Bei allen Kategorien die Präpositionen betreffend kann ein vielfältig
verwendeter Einsatz selbiger ab einem Alter von 4;1 Jahren festgestellt
werden. Wie bei den anderen Bedeutungskategorien und den darin
enthaltenen Lemmata auch sollte aber bedacht werden, dass die
Gesamtanzahl der Tokens in Gruppe 1 geringer ist als in den Gruppen 2 und
3, weshalb an dieser Stelle nicht von eindeutigen Entwicklungstendenzen
gesprochen werden sollte.
Bei den lokalen Präpositionen (pr-lok ) tauchen die folgenden Präpositionen
in Gruppe 1 auf: an, auf, aus, bei, durch, in, zu. Bei den älteren Kindern in
Gruppe 2 und 3 finden sich zudem auch Präpositionen wie hinter, nach, neben,
über, von oder vor. Insbesondere von erscheint in diesen Gruppen mit 39 bzw.
41 Fällen recht häufig und lässt so die Tendenz einer gesteigerten Verwendung
lokaler Präpositionen ab 4;1 Jahren vermuten.
Bezüglich der modalen Präpositionen (pr-mod) befinden sich in Gruppe 1
lediglich für, mit und zu. Danach tauchen auch Präpositionen auf wie gegen,
ohne oder um. Ein ähnliches Muster ist bei den temporalen Präpositionen
(pr-temp) erkennbar. Während in Gruppe 1 nur die Präpositionen in und seit
verwendet wurden, finden sich bei älteren Kindern auch nähere Bestimmungen
der Zeit durch Präpositionen wie an, vor, zu und nach.
7.3.5
Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad, ptk-neg, ptkvz,
ptkzu)
Insgesamt kann bei allen Kategorien bezüglich der Partikeln festgestellt
werden, dass ab 4;1 Jahren Partikeln vielfältiger verwendet wurden. Dies
macht sich in den Daten dieser Arbeit vor allem bei den Antwortpartikeln
(ptk-ant) und bei den Negationspartikeln (ptk-neg) bemerkbar. Während die
Kinder der ersten Altersgruppe (1281_1495) vorwiegend Standardformen wie
ja, ok, doch, nein, nicht gebrauchten, sind in den Gruppen 2 und 3 zudem
sehr spezifische Partikeln wie bitte, bitteschön, danke, dankeschön, nie,
niemals zu verzeichnen.
Die Verwendung von Abtönungspartikeln (ptk-abt), Fokuspartikeln (ptk-fok )
und Gesprächspartikeln (ptk-gespr ) erscheint ab Gruppe 2 (1496_1708)
vielfältiger. Aufgrund der recht bedeutungsarmen Inhalte einzelner Partikeln (z.
B. äh, mh, ne, oh, ah) lassen sich jedoch nur schwer Tendenzen ausmachen.
Lediglich ein Blick auf die Produktion der Gradpartikeln (ptk-grad) lässt
einen gezielteren Einsatz mittels zum Teil spezifischer Partikeln vermuten.
Besonders auffällig ist hier die Verwendung der Partikeln überhaupt,
216
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
besonders, ziemlich und sehr, die im Vokabular der jüngeren Kinder in Gruppe
1 nicht vorkommen und erst in Gruppe 2 und 3 auftreten.
7.4
Hinweise zur Verwendung des Lexikons
An dieser Stelle möchte ich einige Hinweise anführen, die bei der
Verwendung des hier erstellten Lexikons und den dazugehörigen Dateien
hilfreich sein können. Die Bezeichnung Lexikon bezieht sich in diesem
Zusammenhang auf die Gesamtheit der hier erhobenen Daten. Es stellt also
keineswegs die Grundgesamtheit aller möglichen Lemmata im kindlichen
Lexikon der deutschen Sprache dar, sondern bezieht sich auf die im
gegebenen Zeitraum von den Kindern produzierten syntaktischen Wörter mit
den jeweiligen Lemmata. Von daher müsste man korrekterweise von einem
Lexikon der untersuchten Probandinnen und Probanden sprechen (siehe auch
[Schlaefer (2002)]). Dieses Lexikon befindet sich im Anhang unter dem Namen
Zusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen.xls.
Darin
enthalten sind alle Lemmata, geordnet nach ihren Bedeutungskategorien,
unabhängig vom Zeitraum, in dem sie geäußert wurden. Zusätzlich ist
die Anzahl der Lemmata sowie eine Beispielaussage und die jeweilige
EXMARaLDA-Datei, aus der das Beispiel entnommen wurde, aufgeführt.
Unter Verwendung dieser Zusammenfassung erhält man demnach
einen Überblick über die geäußerten Wörter aller hier untersuchten
Kinder im Zeitraum von 1281 bis 1983 Tagen bzw. 3;5 bis 5;5 Jahren.
Für eine genaue Betrachtung der Lemmata unter Berücksichtigung
ihrer semantischen Kategorien in den Altersgruppen sollte das Dokument
Zusammenfassung_Lemmata_Gruppen.xls im Anhang hinzugezogen werden.
Dieses enthält, geordnet nach den Bedeutungskategorien, alle Lemmata
mit ihrer jeweiligen Vorkommenshäufigkeit. Diese Anordnung wurde für jede
Altersgruppe vorgenommen, wodurch die einzelnen Verläufe besser sichtbar
werden. Im Dokument Zusammenfassung_alle_Gruppen_mit_POS_Tags.xls
sind alle Lemmata pro Altersgruppe sortiert nach ihren zugehörigen
Bedeutungskategorien aufgeführt und mit jenen POS-Tags markiert,
mit denen sie im Korpus auftreten. Dieses Dokument kann hilfreich
sein, wenn Lemmata in Bezug auf ihre semantischen und syntaktischen
Eigenschaften analysiert werden sollen. In Kapitel 5 wurden zahlreiche
weitere Analysemöglichkeiten aufgezeigt und sollen hier nicht erneut
diskutiert werden. Alle weiteren Ausgabedateien, die aufgrund ihrer immensen
Fülle nicht im Anhang dieser Arbeit zu finden sind, können auf Anfrage auf
einem entsprechenden Datenträger zusammengestellt und weitergegeben
7.4. HINWEISE ZUR VERWENDUNG DES LEXIKONS
217
werden. Eine Veröffentlichung dieser Daten in digitaler Form ist, wie eingangs
schon erwähnt, leider nicht möglich.
7.4.1
Beispielhafte Ausgabedateien
An dieser Stelle sollen der Vollständigkeit halber einige der Ausgabedateien,
die mittels der Ausführungen durch die Skripte des CA erstellt wurden,
gezeigt werden. Insbesondere vor dem Hintergrund, dass durch die hier
angewandte Methodik im gesamten Verlauf dieser Arbeit zahlreiche und
sehr vielfältige Möglichkeiten mit den in Kapitel 5 verwendeten Skripten
entstanden, rechtfertigen diesen Unterabschnitt.
• Ein Ausschnitt aus der Ausgabedatei, die durch das Ausführen des
Skriptes db_query_all_tag_count.sh entstanden ist, ist in Abbildung
7.7 zu sehen, die einige der von LEO und LUA geäußerten Nomen im
Zeitraum 1496 bis 1708 zeigt.
Abbildung 7.7: tag count_NN_1496_1708
• Abbildung 7.8 zeigt einen Ausschnitt einer Ausgabedatei, die durch das
Ausführen des Skriptes db_query_all_tag_count_name.sh entstanden ist
und einige der von JS geäußerten Adverbien (ADV) im Zeitraum 1709 bis
1983 enthält.
218
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Abbildung 7.8: tag count_JS_ADV_1709_1983
• Abbildung 7.9 zeigt einen Ausschnitt der im Zeitraum 1281 bis
1495 geäußerten Vollverben im Infinitiv (VVINF) bezogen auf die
Tokens. Grundlegend hierfür war das Ausführen des Skriptes
db_query_all_typetoken.sh.
• In Abbildung 7.10 ist ein Ausschnitt der von allen Sprecherinnen
und Sprechern im Zeitraum 1709 bis 1983 geäußerten Adjektive
(ADJ) zu sehen. Erforderlich war das Ausführen des Befehls
db_query_all_typetoken_lemma.sh.
• In Abbildung 7.11 sind ausschnitthaft die Modalverben (VMFIN) der
Sprecher/innen, die diese im Zeitraum 1496 bis 1708 verwendet haben,
zu sehen. Durch Ausführen des Skriptes db_query_all_lemma_tag.sh
werden neben den Wörtern auch die Lemmata und die dazugehörigen
POS-Tags mit angezeigt.
• Die Ausgabedateien des Befehls db_query_all_lemma_bedeutung.sh
sind je nach Ausführungsanweisung relativ groß und bieten zahlreiche
Informationen. Abbildung 7.12 zeigt den Ausschnitt einer solchen Datei.
Sie stammt aus dem Zeitraum 1281 bis 1495 und zeigt einige der
geäußerten Vorgangsverben (v-vorgang) als übergeordnete Kategorie.
Daneben sind die Verben als syntaktisches Wort mit dem jeweiligen
Lemma und dem dazugehörigen POS-Tag versehen.
7.5. ZUSAMMENFASSUNG
219
Abbildung 7.9: type token_VVINF_1281_1495
• Durch das Ausführen des Befehls db_query_all_typetoken_bedeutung.sh
enstehen Dateien, wie sie in Abbildung 7.13 zu sehen sind. Die Abbildung
zeigt die Ausgabedatei für die Altersgruppe 1709 bis 1983 mit den
entsprechenden Lokaladverbien (adv-lok ), die in diesem Zeitraum
geäußert wurden.
7.5
Zusammenfassung
In diesem Kapitel wurde, unter der Voraussetzung aller bisher getätigten
Schritte, die eigentliche Erstellung des produktiven Lexikons der hier
untersuchten Kinder vorgestellt und mit allen Ergebnissen präsentiert. Der
dabei wichtigste Schritt war die Zuordnung aller Lemmata zu sogenannten
Bedeutungskategorien, die sich auf semantische Aspekte beziehen. Im
Gegensatz dazu bezog sich die Zuordnung der Lemmata zu den POS-Tags
vornehmlich auf lexikalisch-synaktische Aspekte. Mithilfe des CA (Kapitel 5)
wurden alle neuen Daten unmittelbar in die Datenbank importiert, wodurch
mit Hilfe von zwei neu erstellten Skripten (5.2.4.5 und 5.2.4.6) das eben
beschriebene Lexikon mit seinen zusätzlichen Dateien erstellt werden konnte.
Durch die nachfolgende Betrachtung aller Bedeutungskategorien in den
Altersgruppen (Abschnitte 7.2 und 7.3) konnten Entwicklungstendenzen
ausgemacht werden, die es wert sind, in Zukunft näher untersucht zu
werden. Es bleibt vor allem die Frage, ob es sich um tatsächliche Tendenzen
handelt, die ab einem Alter von 4;1 Jahren auftauchen oder aber, ob die
erhobenen Daten in der Altersgruppe 1 zu gering waren im Gegensatz zu
220
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Abbildung 7.10: type token lemma_ADJA+ADJD_1709_1983
den Gruppen 2 und 3. Erstaunlich ist, dass sich die Tendenz einer Änderung
der semantischen Aspekte im Lexikon der hier untersuchten Kinder ab
einem Alter von 4;1 Jahren einfügt in die ermittelten Ergebnisse bezüglich
der Wortartenverteilung (Kapitel 6), die ebenfalls eine Veränderung der
Verteilung der Wortarten ab einem Alter von 4;1 Jahren vermuten lassen.
Diese Ergebnisse geben Anlass dazu anzunehmen, dass sich das Lexikon ab
einem Alter von vier Jahren grundlegend neu zu strukturieren beginnt.
7.5. ZUSAMMENFASSUNG
Abbildung 7.11: lemma tag_VMFIN_1496_1708
Abbildung 7.12: lemma bedeutung_v-vorgang_1281_1495
221
222
KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET
Abbildung 7.13: type token bedeutung_adv-lok_1709_1983
Kapitel 8
Diskussion
An dieser Stelle sollen die Ergebnisse dieser Arbeit noch einmal betrachtet
und im wissenschaftlichen Kontext diskutiert werden. Dabei möchte ich
chronologisch im Sinne der Kapitel der vorliegenden Arbeit vorgehen. Um
sich der Methodik und Analyse der durchgeführten Beobachtungsstudie zu
nähern, wurde im Vorfeld der aktuelle Forschungsstand resümiert. Allen
voran war es wichtig, den Begriff Lexikon in seiner Vielfalt aufzuzeigen
und eine Definition vorzugeben, die in dieser Arbeit Anwendung fand.
Dabei kristallisierte sich die Definition des mentalen Lexikons, wie sie
unter anderem Aitchison (2003, 1994) postulierte, als passend heraus
([Aitchison (2003)]; [Aitchison (1994)]). Es erscheint logisch, dass es sich
nicht um ein Lexikon im Sinne eines Wörterbuches handeln kann, wenn die
Rede vom Spracherwerb und von der Wortartenverteilung im Vorschulalter
ist. Würde tatsächlich von einem Wörterbuch(-lexikon) gesprochen werden,
wären wohl alle Ergebnisse dieser Arbeit hinfällig. Allein die Tatsache, dass
viele Nomen Wortneuschöpfungen darstellen, zeigt, dass es sich nur um
die Arbeit des mentalen Lexikons handeln kann. Diese Erkenntnis leitet
nahtlos über zu den in Kapitel 2.2 besprochenen Lexikonmodellen von
Levelt (1992) und Dell (1992) ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]).
Levelt geht von einem seriellen Vorgang der Prozesse im mentalen Lexikon
aus. Konzeptualisierer, Formulator und Artikulator arbeiten demnach
ausschließlich nacheinander. Ein Zurück bzw. gegenseitiges Beeinflussen ist
nicht möglich. Dells Ausführungen zufolge sind interaktive Prozesse zwischen
den Einheiten an den angrenzenden Stufen erlaubt. Anhand der Ergebnisse
der vorliegenden Beobachtungsstudie kann davon ausgegangen werden, dass
es vermutlich interaktive Prozesse sind, die die Vorgänge im mentalen Lexikon
ausmachen. Ob sich diese interaktiven Prozesse mit den Erkenntnissen
von Dell tatsächlich decken, kann zwar nicht mit Sicherheit behauptet
werden, doch erscheint eine serielle Verarbeitung von Lemmata im Lexikon
223
224
KAPITEL 8. DISKUSSION
unwahrscheinlich. Ein Hinweis auf interaktive Prozesse bildet die Tatsache,
dass es während der Aufnahmen für die vorliegende Arbeit gelegentlich zu
Ausspracheschwierigkeiten kam, die noch während des Äußerungsprozesses
von vielen Kindern verbessert wurden. Diese Aussprachfehler sind hier
nicht vermerkt, da es vorrangig um die Inhalte des Lexikons ging1 . Schenkt
man den Aussführungen Dells (1992) Glauben, kann es sich hierbei nur
um interaktive Prozesse handeln ([Dell und O’Seaghdha (1992)]). Bei
einem Aussprachefehler, der während eines Äußerungsprozesses korrigiert
wird, würde der Zugang zum Lemma vor der Äußerung korrekt erreicht
werden. Ob die anschließende phonologische Realisierung oder aber die
Artikulation des Lexems Fehler enthält, kann nicht mit Sicherheit gesagt
werden und beide Varianten sind wohl möglich. Einleuchtend ist hingegen,
dass bei einer Korrektur hin zu einer richtigen Aussprache eine Interaktion
zwischen dem Formulator und dem Artikulator stattfinden muss. Ein weiterer
Indikator für das Zusammenspiel mehrerer Vorgänge ist das Vorkommen
von Wortschöpfungen. Lexeme wie Nemofischchen und Kriegsstürmer
sind nicht standardmäßig im Repertoire des mentalen Lexikons enthalten.
Sicher können diese in der vorliegenden Form als Kompositum ins Lexikon
aufgenommen worden sein. Es scheint aber eher so, dass Kinder zu einem
solchen Kompositum durch die Zusammensetzung von Nemo und Fischchen
bzw. Fisch erst in der Interaktion gelangen. Dafür müssten meines Erachtens
einige Prozesse parallel ablaufen. Der Zugang zum Lemma würde in einem
solchen Fall zwei Lemmata umfassen, die anschließend zu einem Lemma
zusammengesetzt werden und als ein Lemma artikuliert werden. Fraglich
ist, ob der Formulator bereits ein Lemma erhält oder eher beide Teile des zu
äußernden Lemmas. Zumindest in Anbetracht der vorliegenden Ergebnisse
kann davon ausgegangen werden, dass es sich um interaktive Prozesse
handelt, die im mentalen Lexikon stattfinden.
Im Verlauf der Arbeit wurde der Forschungsstand hinsichtlich des
Lexikonerwerbs bis zu einem Alter von 3 Jahren dargestellt. Zum
einen kam die Sichtweise Tomasellos (2000, 2005) als Verfechter der
Konstruktionsgrammatik zum Tragen. Meines Erachtens ist die Theorie des
usage-based learning die bisher plausibelste aller Spracherwerbstheorien,
die sich nicht nur in der Grammatik, sondern auch im Erwerb des Lexikons
widerspiegelt (z. B. [Tomasello (2000a)]; [Tomasello (2005)]). Zum anderen
wurde der Erwerb des Lexikons im Allgemeinen bzw. in seinen aufeinander
aufbauenden und sich gegenseitig beeinflussenden Stadien dargestellt.
Der Erwerb des Lexikons basierend auf einer Studie von Kauschke (1999)
1
Alle Äußerungen, auch jene mit Aussprachefehlern bzw. -schwierigkeiten, können bei Bedarf durch
ein Abspielen der Audiodateien in FOLKER verfolgt werden.
225
wurde ausführlicher behandelt, da es Parallelen zu der hier durchgeführten
Beobachtungsstudie gibt ([Kauschke (1999)]; siehe auch [Kauschke (2000)];
[Kauschke (2012)]). Beide Arbeiten verfolgen ein ähnliches Ziel: die
Komposition des Lexikons in unterschiedlichen Zeiträumen auf der Basis von
gesprochenen Daten darzustellen.
Um die Wortarten und ihre Verteilung darstellen zu können, musste
zunächst ein Klassifikationssystem gefunden werden, das den Bedürfnissen
der hiesigen Arbeit gerecht wird und mit welchem sich auch eventuell
weiterführende Studien durchführen lassen. Als geeignet stellten sich
die STTS (Tabelle 3.2) heraus, die sehr detaillierte Einteilungen aller
Wortarten beinhalten. Es war zudem wichtig, eine bereits vorhandene und
möglichst populäre Klassifikation zu verwenden und damit weiterführende
Forschung auf diesem Gebiet zu gewährleisten. Mit einem eigens erstellten
Klassifikationssystem wäre das nicht oder nur schwer möglich und vor allem
nicht mit den Ergebnissen anderer Arbeiten vergleichbar. Die STTS enthalten
eine Einteilung der Wortarten in 54 Kategorien. Nach diesem Schema
wurden auch die in der vorliegenden Arbeit geäußerten syntaktischen Wörter
getaggt. In der späteren Analyse erwies es sich allerdings als hilfreich, die
54 Kategorien durch eine Neugruppierung zusammenzufassen und somit
auf maximal 19 Kategorien zu reduzieren (Tabelle 6.1). Für die Zwecke
dieser Arbeit war dies absolut ausreichend. Es traten an einigen Stellen
jedoch Schwierigkeiten auf, die sich erst während der Analyse zeigten. Dies
betrifft die Analyse von Wörtern nach rein lexikalischen Kriterien. Die STTS
beruhen in großen Teilen auf solchen lexikalischen Kriterien, weisen an vielen
Stellen aber syntaktisch basierte Kategorien auf. Dies betrifft zum Beispiel die
Einteilung der Verben in imperative, finite, Auxiliar - und Modalverben, welche
deutlich zeigt, dass eine Entscheidung darüber, in welcher Konjugationsform
sich ein Verb befindet, oft nur im Kontext getroffen werden kann. Auch an
weiteren Stellen gab es zum Teil derartige Probleme, die ich versucht habe,
so gut wie möglich im Zusammenhang einer lexikalisch basierten Analyse zu
betrachten (Abschnitt 4.1.7). Es stellte sich zudem heraus, dass auch andere
Klassifikationssysteme diese und andere Schwachstellen aufweisen, die ich
an dieser Stelle jedoch nicht ausführen möchte. Im Endeffekt konnte das
Problem der syntaktisch basierten Kategorien weitestgehend damit umgangen
werden, dass Kategorien zusammengefasst wurden. Im Falle der Verben gibt
es schließlich nur noch die Kategorien Auxiliarverb (VA), Modalverb (VM) und
Vollverb (VV). Dadurch konnte dem Anspruch einer lexikalischen Analyse
weitestgehend entgegengekommen werden. Meines Erachtens sind die STTS
trotz der eben genannten Hindernisse gut geeignet, um den Wortschatz von
Vorschulkindern adäquat zu beschreiben. Inbesondere für einen Vergleich zur
226
KAPITEL 8. DISKUSSION
Sprache von Erwachsenen erscheint die Entscheidung für die STTS sinnvoll.
Im anschließenden Methodikteil wurden die Daten aller hier aufgeführten
Probandinnen und Probanden dargelegt, das Diktiertgerät sowie die Arbeit
mit der hier verwendeten Software beschrieben (Kapitel 4). Hervorzuheben ist
dabei insbesondere die Arbeit mit dem EXMARaLDA Partitur Editor, welcher
für zahlreiche korpuslinguistische Arbeiten empfehlenswert ist. Es können
nicht nur die Lemmata getaggt und mit Beschreibungen jeglicher Art versehen
werden, auch die Analyse von Morphemen und Phonemen wäre darstellbar.
Dafür ist in jedem Falle eine gute Datenaufbereitung durch eine qualifizierte
Person notwendig, da dies nicht von der Software übernommen werden kann.
Weiterhin habe ich versucht, alle Sonderfälle, die beim Taggen und bei der
Lemmatisierung der gesammelten Daten auftreten können, einzugrenzen und
so gut wie möglich zu beschreiben.
Kapitel 5 hat sich zu einem äußerst wichtigen Thema entwickelt, da sich
die Arbeit mit dem CA als überaus hilfreich und wegweisend erwiesen hat.
Zunächst sollte die Software lediglich verwendet werden, um das Auszählen
der Wörter, POS-Tags, Lemmata und Bedeutungskategorien einfacher zu
gestalten. Während der Arbeit mit dem CA stellte sich heraus, dass durch
das recht unkomplizierte Abändern der Skripte sowie ein Hinzufügen neuer
Skripte, mit denen die Datenbank kommuniziert, zahlreiche weitere Analysen
unternommen werden können, die für die vorliegende Arbeit von erheblichem
Nutzen waren. Die Datenbank selbst wurde von Mack (2014) für die Zwecke
dieser Arbeit erstellt. Ebenso wurden die ersten Skripte zur Berechnung
der Anzahl der Wörter, deren POS-Tags, die Anteile am gesamten Output
sowie die dazugehörigen Befehle zur Ausgabe in CSV-Dateien von Mack zur
Verfügung gestellt ([Mack (2014)]). Die darauffolgenden Skripte wurden zu
Teilen von mir selbst erstellt. Durch die intensive Arbeit mit dem CA und der
glücklichen Tatsache, es mit einem Open Source Programm zu tun zu haben,
lassen sich zahlreiche weitere Ziele für die Arbeit damit erahnen. Die Analyse
vieler Sprachen erscheint möglich. Es kommt nur darauf an, die Ziele im
Vorfeld festzulegen und die Skripte entsprechend anzupassen. Insbesondere
eine Untersuchung der romanischen Sprachen sowie des Englischen sollte
meines Erachtens nach dem gleichen Verfahren wie das Deutsche bearbeitet
werden können. All diese Sprachen weisen keine gravierenden strukturellen
Unterschiede auf, da sie zumeist flektierenden Charakter haben. Prinzipiell
sollte es auch möglich sein, strukturell davon abweichende Sprachen zu
untersuchen, wenn ein entsprechendes Klassifikationssystem verwendet wird.
Durch die Vielfältigkeit der Software lassen sich nahezu alle linguistischen
Einheiten alphabetisch oder nach anderen Kriterien auflisten und berechnen.
Denkbar wäre es, im Nachgang an die vorliegende Arbeit, die Daten älterer
227
Kinder auf gleiche Weise zu analysieren, um herauszufinden, ab welchem
Alter keine gravierenden Unterschiede mehr in der Wortartenverteilung
auftreten.
In der folgenden Analyse (Kapitel 6) dieser Arbeit wurden mehrere
Auswertungen mit den hier erhaltenen Daten vorgenommen. Zunächst
wurden alle drei betrachteten Altersgruppen (1281 bis 1495, 1496 bis 1708,
1709 bis 1983) im Hinblick auf die Verteilung der Wortarten miteinander
verglichen. Dabei wurde zwischen allen verwendeten (syntaktischen)
Wörtern (Tokens) sowie zwischen dem Anteil verschiedener Wörter (Types)
bezüglich der Lemmata unter diesen Tokens unterschieden. Ein erster,
sehr grober Vergleich ließ vermuten, dass die Verteilung der Wortarten
sowohl bezüglich der Types als auch der Tokens über die Altersgruppen
hinweg annähernd gleich bleibt. Bei einem genaueren Blick auf die
Wortartenverteilung hinsichtlich der Tokens fiel Folgendes auf2 : Adverbien
und Pronominaladverbien (ADV + PAV) werden prozentual recht häufig
verwendet (je 14,6% - 17,3% - 12,9%). Der Anteil der Konjunktionen (KON)
nimmt im Verlauf leicht ab (je 8,1% - 7,1% - 5,6%) ebenso wie der Anteil
der attribuierenden, substituierenden und Indefinitpronomen (PIDATS) (je
5,2% - 4,9% - 4,0%). Die Verwendung der Personalpronomen (PPER) steigt
mit zunehmendem Alter leicht an (je 9,7% - 10,6% - 12,7%) wie auch die
Verwendung der Adjektive (ADJ) (je 3,7% - 3,8% - 4,5%). Erstaunlicherweise
bleibt die Verwendungshäufigkeit der Verben (VA, VM und VV) nahezu
gleich über die Altersgruppen hinweg (je 21,2% - 21,4% - 22,1%). Der Anteil
der Nomen (N) steigt nur leicht mit zunehmendem Alter (je 9,1% - 7,7%
- 11,0%) an, zeigt jedoch keinen kontinuierlichen Anstieg aufgrund des
vorübergehenden Abfalls in Gruppe 2. In Bezug auf diese Werte lassen sich
folgende hypothetische Aussagen treffen:
Annahme 1: Im Verlauf von 3;5 bis 5;5 Jahren verwenden Kinder zu einem
großen Anteil Adverbien, die bis zu einem Fünftel des gesamten
Wortschatzes ausmachen können. Nomen nehmen keinen überaus
hohen Anteil am Vokabular ein, wodurch davon ausgegangen werden
kann, dass nach dem dritten Lebensjahr der hier untersuchten Kinder der
Anteil drastisch abnimmt und auf einem Niveau von ca. 10% zunächst
stabil bleibt (eventuell bis ins Erwachsenenalter).
Dies entspricht ferner dem Anteil von Nomen im Vokabular von Erwachsenen,
der von Kauschke (2007) ermittelt wurde ([Kauschke (2007)], S. 132).
2
Die nun folgenden relativen Anteile, geschrieben in Klammern, beziehen sich auf die jeweiligen
Altersgruppen. An erster Stelle befindet sich Gruppe 1 (bzw. 1281 bis 1495), an zweiter Stelle Gruppe 2
(bzw. 1496 bis 1708) und an dritter Stelle Gruppe 3 (bzw. 1709 bis 1983).
228
KAPITEL 8. DISKUSSION
Weiterhin lässt sich schlussfolgern, dass auch in den Folgejahren keine
drastischen Veränderungen in der Verwendungshäufigkeit der Nomen mehr zu
erwarten sind. Personalpronomen (PPER) wurden mit einer leicht steigenden
Tendenz verwendet. Da die Werte in den Altersgruppen jedoch nicht sehr
stark voneinander abweichen, kann nicht definitiv davon ausgegangen
werden, dass sich diese Tendenz fortsetzt oder aber wegweisend ist. Anhand
einer Inhalts- und/oder Verhaltensanalyse ließe sich herausfinden, ob dieser
Zuwachs in einem eventuell gesteigerten Sozialverhalten begründet ist,
welches Kinder mit zunehmenden Alter aufbauen. Eine weitere Begründung
kann in der zunehmenden kognitiven Fähigkeit des Perspektivenwechsels
liegen, wodurch die Verwendung unterschiedlicher Personalpronomen für
Objekte anstelle von Nomen möglich wird. Diese Fähigkeit ist dadurch
gekennzeichnet, dass Kinder mit zunehmendem Alter lernen, sich in die
Lage anderer Personen zu versetzen, wobei diese Fähigkeit auch auf der
sprachlichen Ebene Ausdruck findet. Der Ausdruck Perspektive beinhaltet
nach den Vorstellungen der kognitiven Linguistik ferner die Möglichkeit,
dieselbe Entität in verschiedene konzeptuelle Kategorien zu platzieren und für
unterschiedliche kommunikative Zwecke zu verwenden ([Tomasello (1999)], S.
118). Die soeben geschilderten Vermutungen meinerseits sind nur vereinzelt
durch experimentelle Funde nachzuweisen, da bisher nur wenig Material zu
diesem Thema existiert. Bereits im frühen Spracherwerb bemerkt das Kind,
dass es verschiedene Arten gibt, eine bestimmte Situation zu betrachten. So
kann ein Kind nach einem Objekt mit dem entsprechenden Namen fragen
oder einfach sagen dies oder es. In diesen Momenten, so Tomasello, lernt das
Kind, dass ein linguistisches Symbol eine bestimmte Perspektive verkörpert.
Dass Kinder diesen Aspekt der Funktionsweise linguistischer Symbole
verstehen, wird durch die Tatsache vermutet, dass sie, sobald sie mit der
Sprachproduktion beginnen (ca. 18 bis 24 Monate), auf denselben Referenten
mit unterschiedlichen sprachlichen Ausdrücken in unterschiedlichen
kommunikativen Situationen reagieren ([Tomasello (1999)], S. 120; siehe
auch [Clark (1997)]). Tomasello (2005) beschreibt in Constructing a Language
die Verwendung von Pronomen im Spracherwerb. Demnach stellen Pronomen
das Gegenteil von Eigennamen dar und werden für die am ehesten
erreichbaren Referenten in einem Kontext verwendet ([Tomasello (2005)],
S. 205; siehe auch [Gundel, Hedberg und Zacharski (1993)]). In einem
anschaulichen Beispiel schildert Tomasello (2005) die kognitiven Fähigkeiten,
die bei der Verwendung von Personalpronomen erforderlich sind: Wenn
jemand auf die Frage „What is your sister doing?“ mit „Swimming.“ antwortet,
so erfordere dieser Vorgang Fähigkeiten der sozialen Kognition auf Seiten
der Sprecherin/des Sprechers, da die Schwester bekannt sein muss.
229
Laut Tomasello würden Kinder im Alter von 4 bis 5 Jahren dabei noch
Schwierigkeiten haben. Er bemängelt jedoch, dass es bisher keine Studien
gäbe, die die kommunikativen Bedingungen untersucht haben, in denen
Kinder ein Pronomen gegenüber einem Nomen gewählt haben. Laut ihm sind
zur Annäherung an diese Frage fünf Hypothesen möglich:
1. Junge Kinder verwenden denselben referierenden Ausdruck wie der
Erwachsene, mit dem sie sich gerade unterhalten. Wenn der Erwachsene
auf ein Objekt mit einem Nomen referiert, so wird auch das Kind dies
tun.
2. Junge Kinder folgen dem Prinzip der ’mutual exclusivity’ und verwenden
den Objektnamen, wenn sie ihn kennen und ein Pronomen, wenn sie den
Namen nicht kennen.
3. Kinder finden den lexikalischen Zugang zu Pronomen leichter als den
Zugang zu Nomen und verwenden Pronomen immer dann, wenn die
Produktion eines Nomens besonders schwierig ist.
4. und 5. Diese Erklärungen basieren auf den jeweiligen Wissenszuständen
des Hörers bevor ein referierender Ausdruck gewählt wird - entweder
auf Basis der perzeptuellen Situation (Hörer schaut zum Referenten)
oder auf Basis von Erzählfaktoren (Hörer hörte eben gerade bereits den
Referenten). ([Tomasello (2005)], S. 206).
Campbell et al. (2000) versuchten jede dieser fünf Hypothesen zu testen,
zum einen mit Kindern im Alter von 2;6 Jahren und zum anderen mit Kindern
im Alter von 3;6 Jahren. Sie wollten herausfinden, ob Kinder Pronomen
unterschiedlich von der von Erwachsenen gebrauchten Form verwenden,
wenn
1. der Erwachsene zuvor ein Pronomen/Nomen verwendete
2. der Erwachsene das Zielereignis miterlebt
3. die Kinder unbekannte und schwierige Nomen verwenden mussten.
Das Ergebnis war, dass die Verwendung unterschiedlicher Pronomen
abhängig war vom unmittelbar vorausgehenden Diskurs und von der
jeweils gestellten Frage. Wurde zum Beispiel gefragt „What did X do?“, so
gebrauchten die Kinder ein Pronomen oder eine Nullreferenz. Wurde hingegen
gefragt „What happened?“, so antworteten Kinder eher mit einem Nomen
„The boy...“ ([Campbell, Brooks und Tomasello (2000)]). Die Datenlage ist wie
bereits erwähnt recht klein. Doch geben die eben erwähnte Studie sowie die
230
KAPITEL 8. DISKUSSION
Ergebnisse, zu denen Tomasello (2005) kommt, Anlass dazu anzunehmen,
dass die Verwendung von Pronomen ein allmählicher Prozess ist, der
mehrere Faktoren impliziert. Wichtig erscheint vor allem der vorausgehende
Kontext zu sein sowie die Form der gestellten Frage ([Tomasello (2005)], S.
205-207). Dies konstatiert auch Tomasello (1999) und sieht die Entwicklung
der perspektivischen Natur der Sprache als einen Prozess, der nach und
nach geschieht. Die Perspektivität steht im Gegensatz zur Intersubjektivität
linguistischer Symbole, die wiederum dadurch gekennzeichet ist, dass
sie auch für andere Arten kommunikativer Symbole charakteristisch sein
kann. So können beispielsweise auch Gesten intersubjektiven Charakter
haben und sind dennoch keine sprachlichen Symbole mit perspektivischen
Eigenschaften. Letztere Eigenschaft ist nur den linguistischen Symbolen
vorbehalten und hebt sie damit von anderen kommunikativen Mitteln ab
([Tomasello (1999)], S. 123). Es ist anzunehmen, dass sich die Kinder im hier
untersuchten Alterszeitraum von 3;5 bis 5;5 Jahren mitten im Prozess des
Erwerbs dieser kognitiven Fähigkeiten befanden, was unter anderem durch
die leicht gesteigerte Verwendung von Personalpronomen deutlich wird. Meine
Vermutung ist, dass auch andere sprachliche Phänomene im Zusammenhang
mit den Fähigkeiten der sozialen Kognition beobachtet werden können. Diese
sollen jedoch nicht in der vorliegenden Arbeit untersucht werden.
Ein überraschendes Ergebnis der Analyse der Wortarten sind zudem
die sich nahezu gar nicht verändernden Anteile der Verben (VA, VM, VV)
in den Altersgruppen. Verben wurden durchgehend mit einem Anteil von
leicht über 20% verwendet. Dieser Prozentsatz liegt nur etwas über dem
von Kauschke (1999) ermittelten Wert von erwachsenen Sprecherinnen
und Sprechern ([Kauschke (1999)]). Von daher kann davon ausgegangen
werden, dass bezüglich des Gebrauchs von Verben mit zunehmendem Alter
keine gravierenden Änderungen mehr zu erwarten sind. Meines Erachtens
kann dies unter anderem damit erklärt werden, dass Kinder, die sich im
Alter der hier untersuchten Probandinnen und Probanden befinden, einen
Großteil der grundlegenden syntaktischen Fähigkeiten erworben haben.
Um dies zu belegen, kann aus einer Vielzahl von experimentellen Studien
gewählt werden, die sich jedoch zumeist mit sehr speziellen syntaktischen
oder morphosyntaktischen Entwicklungsmustern beschäftigten und deshalb
nur teilweise zur Erklärung herangezogen werden sollen. Abbot-Smith et
al. (2001) fanden beispielsweise heraus, dass die Fähigkeit neue Verben
zu verwenden in unmodellierten syntaktischen Konstruktionen allmählich
ansteigt und zwischen einem Alter von 2;0 und 3;0 Jahren anzusiedeln ist
([Abbot-Smith, Lieven und Tomasello (2001)]). Zu ähnlichen Ergebnissen
kommt Akhtar (1999), die sich mit dem Erwerb der grundlegenden
231
Wortstellungen im Satz befasste. Akhtar erschuf sogenannte novel verbs
für neue Ereignisse. Die untersuchten Kinder waren 2;8, 3;6 und 4;4 Jahre
alt. Ihre Aufgabe war es, die eben erwähnten novel verbs in Verbindung
mit neutralen Fragen zu verwenden. Dabei gab es drei verschiedene
Möglichkeiten, wie den Kindern das novel verb präsentiert wurde: 1) Entweder
trat das Verb in der für das Englische kanonischen Satzgliedstellung SVO
(Subject - Verb - Object) auf oder aber 2) zwei weitere Verben traten entweder
in der Reihenfolge SOV oder 3) VSO auf. Die Satzgliedstellungen unter
2) und 3) sind nach Akhtar die nichtkanonische Form zur Beschreibung
einer neuen Szene im Englischen. Akhtar fand heraus, dass die Kinder ein
neues Verb in der Reihenfolge SVO produzierten, wenn sie es zuvor auch
in dieser Reihenfolge gehört haben. Wenn die Kinder ein bekanntes Verb
in einer untypischen Reihenfolge vernahmen, korrigierten sie es meistens
hin zur kanonischen SVO-Reihenfolge. Hörten die Kinder ein neues Verb in
SOV- oder VSO-Reihenfolge, waren die Ergebnisse unterschiedlich: die 4;4
Jahre alten Kinder korrigierten es hin zum kanonischen Wortstellungsmuster
in 96% der Fälle. Mit 2;8 und 3;6 Jahren taten dies jeweils nur 50%
der Kinder. Akhtar schlussfolgert daraus, dass jüngere Kinder eine Art
SVO-Schema besitzen, welches jedoch nicht so stark ist, wie jenes der
älteren Kinder ([Akhtar (1999)]). Diese Ergebnisse lassen im Hinblick auf
die Ergebnisse der vorliegenden Arbeit vermuten, dass die grundlegenden
Wortstellungsmuster einer Sprache ab einem Alter von 4 Jahren zum größten
Teil erworben sind.3 Jüngere Kinder (bei Akhtar im Alter von 2;8 und 3;6)
haben wenig Schwierigkeiten mit bekannten Verben, wohingegen neue
Verben in nichtkanonischen Wortstellungsmustern Probleme bereiten. Da
in der vorliegenden Arbeit die Produktion spontaner Sprache untersucht
wurde, kann davon ausgegangen werden, dass die Kinder im Alter von
unter 4 Jahren zum Großteil nur jene Verben verwendeten, die ihnen
bekannt waren. Aus diesem Grunde finden sich bereits in diesem Alter
(konkret Gruppe 1281_1495) vorwiegend kanonische Wortstellungsmuster
des Deutschen, die den gleichbleibenden Verbanteil erklären können. Nach
Akhtar (1999) scheint es so, als würden bereits jüngere Kinder eine Art
SVO-Schema besitzen, welches lediglich noch nicht so stark funktioniere
wie jenes älterer Kinder und wodurch es zu Schwierigkeiten bei der
Begegnung mit unbekannten Verben und Wortstellungsmustern kommen
kann. Weiterhin konstatiert die Autorin, dass Kinder in den Fällen, in denen
sie nichtkanonische Reihenfolgen gebrauchten, immer Nomen gegenüber
3
Damit beziehe ich mich lediglich auf die syntaktischen Muster, nicht aber auf den Erwerb
der Morphosyntax, die insbesondere im Deutschen zu diesem Zeitpunkt in der Regel noch nicht
abgeschlossen ist. ([Höhle (2012)], S. 135-137)
232
KAPITEL 8. DISKUSSION
Pronomen verwendeten. Im Gegenzug dazu enthielten nahezu die Hälfte
ihrer Korrekturen hin zum SVO-Muster Pronomen. Dies lasse vermuten, dass
die frühesten Repräsentationen des SVO-Musters junger Kinder teilweise
ihren Ursprung in Pronomen-spezifischen Schemata wie „He’s VERBing“
haben ([Akhtar (1999)]; siehe auch [Lieven, Pine und Baldwin (1997)];
[Pine, Lieven und Rowland (1998)]). Im Hinblick auf die leicht steigende
Verwendung der Personalpronomem bei den in dieser Arbeit untersuchten
Kindern, ergibt sich ein konsistentes Bild. Ein relativ gefestigtes syntaktisches
Verständnis spiegelt sich in den nahezu gleichbleibenden Anteilen der
Verben (VA, VM, VV) im Alter von 3;5 bis 5;5 wider und wird zudem von
einer leicht steigenden Verwendung von Personalpronomen gestützt. Durch
den Erwerb der kanonischen Satzkonstruktionsmuster kann demnach kein
merklich höherer Verbanteil erwartet werden. Wie und warum der Erwerb
der Syntax einsetzt, ist bisher nicht eindeutig geklärt und soll an dieser
Stelle nicht im Detail ausgeführt werden. Laut Sucharowski (1996) ist
für das Heranreifen der grammatischen Kompetenz ein entscheidender
Punkt, dass der Wandel von der freien zur geordneten Wortfolge zu einem
bestimmten Zeitpunkt und immer ähnlich verläuft. Dabei sei bisher empirisch
ungeklärt, welche Prozesse auf biologische Veränderungen zurückführbar
sind und inwieweit Lernvorgänge Einfluss nehmen ([Sucharowski (1996)],
S. 127 f.; siehe auch [Verrips (1990)]). Lebeaux (1988) sieht den Prozess
der Reifung, wie ihn Sucharowski beschreibt, lediglich in Bezug auf die
grammatischen Repräsentationen. So stehe am Anfang ein linguistischer
Ausdruck, der zunächst nur lexikalisch operiere. Erst allmählich träten
syntaktische Funktionen hinzu ([Lebeaux (1988)] in: [Sucharowski (1996)],
S. 127). Diese syntaktischen Funktionen sind bei den hier untersuchten
Kindern vermutlich bereits relativ fest etabliert, was sich in den sich nicht mehr
ändernden Anteilen der Verben, aber auch Nomen bemerkbar macht, die ihre
Funktionsstellen im Satz gefunden haben. Zu diesem Schluss kommt auch
Höhle (2012), die herausfand, dass bereits mit ca. 3;0 Jahren Nebensätze
mit korrekter Endstellung des finiten Verbs produziert werden. Bedeutend
länger dauert die Entwicklung der nominalen Morphosyntax im Deutschen,
wobei zwar sehr früh die Produktion der nominalen Pluralformen einsetzt,
diese jedoch zunächst nur bei Wörtern vorkommen, deren Referenten
typischerweise nicht singulär auftreten (z. B. Schuhe). Höhle schließt daraus,
dass Wörter zunächst holistisch analysiert und nicht als morphologisch
komplexe Wortformen betrachtet werden ([Höhle (2012)], S. 135-137).
Einen weiteren Anhaltspunkt dafür, dass Kinder im Alter von 3;5 bis
5;5 Jahren bereits einen großen Teil der Struktur der jeweiligen Sprache
verinnerlicht haben, deutet Pinker (1996) an und verdeutlicht dies an einem
233
Beispiel zum Erwerb der Pluralformen. Demzufolge unterliegen insbesondere
unregelmäßige Pluralformen speziellen Erwerbsprozessen. Während bei der
Bildung der regelmäßigen Plurale bestimmte Flexionsregeln zum Einsatz
kommen, lassen sich unregelmäßige Formen nicht durch Regeln erzeugen.
Sie müssen demnach als Wurzeln oder Stämme im mentalen Lexikon
gespeichert sein ([Pinker (1996)], S. 167 ff.). Ein Experiment mit 3- bis
5-Jährigen von Gordon (1985) zeigte, dass Kinder in diesem Alter diese
Beschränkungen ganz genau befolgen. Gordon zeigte seinen Probandinnen
und Probanden eine Puppe und fragte zum Beispiel „Here is a monster who
likes to eat mud. What do you call him?“. Zunächst gab er selbst die Antwort „a
mud-eater “, um den Kindern den Einstieg zu erleichtern. Im weiteren Verlauf
sollten die Kinder selbst antworten. Aus „monster who likes to eat mice“ wurde
richtigerweise „mice-eater “. Erstaunlicherweise wurde aus „monster who likes
to eat rats“ „rat-eater “, nicht aber „rats-eater “, wie man vielleicht vermuten
könnte. Dies deutet darauf hin, dass Kinder mit 3 bis 5 Jahren bereits die
in den Wortstrukturregeln enthaltenen Beschränkungen für die Bildung der
Plurale und Komposita beachten ([Gordon (1985)]). Diese Berücksichtigung
wichtiger Strukturregeln in einem recht frühen Alter kann als weiterer Beleg
dafür gesehen werden, dass Kinder in einem Alter von 3 bis 5 Jahren bereits
einen wichtigen Teil syntaktischer (und zum Teil morphosyntaktischer) Regeln
verinnerlicht haben und auch anwenden. Dies zeigt ferner das untrennbare
Zusammenspiel zwischen dem Erwerb des Lexikons und dem Erwerb der
Syntax, das sich in der vorliegenden Arbeit insbesondere durch einen
gleichbleibenden Anteil an Nomen und Verben durch die verschiedenen
Alterstufen hinweg äußert. Gestützt wird dieser Umstand durch die Aussage
Pinkers (1996), der davon ausgeht, dass beim Spracherwerb Wortkategorien,
nicht jedoch Wörter an sich, eine wichtige Rolle spielen. Menschen, die
Sprache erwerben, lernen, Wörter in die richtige Reihenfolge zu bringen.
Dies tun sie durch das Einprägen der Aufeinanderfolge von Wortkategorien
(Nomen, Verb etc.), nicht durch das Einprägen der Reihenfolge von Wörtern
([Pinker (1996)], S. 122).
Auch Höhle (2012) postuliert, dass der Erwerb der grundlegenden
grammatischen Fähigkeiten im Laufe der ersten vier Lebensjahre
abgeschlossen ist, was die Erkenntnisse dieser Arbeit in Bezug auf die
unwesentlichen Veränderungen (vor allem ab Gruppe 2 bzw. ab ca. 4;1
Jahren) in der Verteilung der Wortarten unterstreicht. Die Entwicklung
konversationeller und pragmatischer Fähigkeiten hingegen dauere bis weit in
das Schulalter hinein. Demzufolge seien zu Beginn des Schulalters kindliche
Erzählungen oft geprägt durch eine geringe lexikalische Diversität, was
sich in einer geringen Anzahl verschiedener Inhaltswörter bei einem hohen
234
KAPITEL 8. DISKUSSION
Anteil von Funktionswörtern äußert ([Höhle (2012)], S. 137). An dieser Stelle
wäre es interessant, die Datenerhebung der vorliegenden Arbeit mit älteren
Kinder im Schulalter bzw. ab 6 Jahren durchzuführen, um anschließend eine
Untersuchung der pragmatischen Fähigkeiten vornehmen zu können. Jüngere
Kinder, so Höhle, verwenden viele Pronomen, auch wenn deren Antezedent
zuvor nicht eingeführt wurde. Auch dieser hohe Anteil an Pronomen im
Sprachgebrauch konnte durch die Daten der vorliegenden Arbeit bestätigt
werden.
In Kapitel 6 wurde ferner die Wortartenverteilung hinsichtlich der
Types ermittelt, also, wie viele verschiedene Lemmata die Kinder pro
Wortart verwendeten. Auf den ersten Blick nehmen erneut die Adverbien
und Pronominaladverbien (ADV + PAV) einen erwähnenswerten Anteil
am Vokabular ein, unabhängig von der Altersgruppe (je 10,6% - 9,3% 9,5%). Diese Anteile sind im Vergleich zu den Tokens etwas niedriger.
Nichtsdestotrotz gehört diese Kategorie neben den Nomen und Verben zu
jener mit dem höchsten Anteil am Gesamtvokabular. Hinsichtlich der Nomen
wurde festgestellt, dass diese im Vergleich zu ihrer Verwendungshäufigkeit
einen enorm hohen Wert in Bezug auf die Types aufweisen (je ca. 30,5%
- 40,5% - 38,8%). Aufgrund dieser Werte und der Werte bezüglich der
Tokens kann angenommen werden, dass Kinder im Alter von 3;5 bis 5;5
Jahren Nomen nicht viel häufiger gebrauchen als Erwachsene. Jedoch sind
die Nomen, die von den Kindern geäußert werden, äußerst verschieden.
Im Umkehrschluss könnte man sagen, dass Erwachsene häufig dieselben
Nomen in einer untersuchten Textpassage verwenden. An dieser Stelle
kann nicht eindeutig geklärt werden, warum dies so ist. In Abschnitt 6.4
wurden bereits Vermutungen dahingehend angestellt, dass sich Kinder
häufig in Spielsituationen befinden und zudem viele Fantasiebegriffe
verwenden, wodurch ein derart hoher Anteil zustande kommt. Ein Vergleich
zu den Daten der Erwachsenen aus Kauschkes Analyse ist hier mit großer
Vorsicht anzustellen, da die Inhalte der Gespräche nicht bekannt sind
([Kauschke (2007)]). So ist es durchaus möglich, dass ein bestimmtes
Thema vorgegeben wurde und aufgrund dessen wiederholt dieselben Nomen
verwendet wurden, was in einem geringeren Types-Anteil resultiert. Wie
bereits erwähnt, wäre eine Inhaltsanalyse beider Parteien sehr hilfreich. Für
die Daten der vorliegenden Arbeit wurden deshalb im Anschluss daran die
Lemmata aller Kategorien im Hinblick auf inhaltliche Aspekte untersucht.
Aufgrund der bisher erhobenen Daten kann folgende Hypothese angeführt
werden:
235
Annahme 2: Kinder im Alter von 3;5 bis 5;5 Jahren verwenden nicht mehr
Nomen als Erwachsene. Jene Nomen, die sie verwenden, sind jedoch
von einer größeren Verschiedenartigkeit geprägt.
Zuletzt soll ein Blick auf die Anteile der Verben (VA, VM, VV) in den
Altersgruppen geworfen werden. Hier gibt es zwischen den Gruppen keine
gravierenden Unterschiede (je 23,7% - 22,6% - 22,9%). Ob und wann
weitere Veränderungen nach dem sechsten Lebensjahr auftauchen, kann
an dieser Stelle nicht gesagt werden. Es ist aber offensichtlich, dass im hier
untersuchten Zeitraum von 3;5 bis 5;5 Jahren keine Veränderungen bezüglich
der Verbanteile am Gesamtvokabular zu verzeichnen sind.
In einem nächsten Schritt wurden nicht nur die Daten aller Kinder in
einer Altersgruppe untersucht, sondern die Daten jedes Kindes in jeder
Altersgruppe. Im Vorfeld war nicht klar, ob die Ergebnisse zielführend
und aussagekräftig sein würden, da jedes Kind unterschiedlich viele
Tokens hervorbrachte. Nach der Analyse stellte sich jedoch heraus,
dass die Verteilung der Wortarten bei jedem Kind in jeder Altersgruppe
erstaunlicherweise ein ähnliches Muster aufweist und für eine Analyse
herangezogen werden kann. Es reichen also bereits wenige Tokens aus, um
ein aussagekräftiges Bild über die Verteilung der Wortarten zu erhalten. In
der ersten Gruppe 1281 bis 1495 waren die Kinder MA und MK vertreten.
Ähnlich der Ergebnisse aus der Analyse der Altersgruppen waren sowohl
bei den Tokens als auch bei den Types Adverbien und Pronominaladverbien
(ADV+PAV) stark vertreten (Tokens: 10,3% bis 15,7% Types: 9,0% bis
12,1%). Auch hier sind im Vergleich der Tokens zu den Types ähnliche
Verteilungsmuster wie in der Altersgruppenanalyse ersichtlich. Die Anteile der
Adverbien und Pronominaladverbien (ADV+PAV) sind bei den Tokens und
Types relativ nah beieinander und weichen nicht derartig stark voneinander ab,
wie es bei den Nomen beobachtet werden kann. Ein analoges Bild zeigt sich
bei der Betrachtung der Adverbien und Pronominaladverbien (ADV+PAV) der
Kinder in der zweiten Altersgruppe 1495 bis 1708 (Tokens: 14,3% bis 18,4%
Types: 11,3% bis 12,9%) sowie in der Altersgruppe 1709 bis 1983 (Tokens:
9,1% bis 16,6% Types: 10,1% bis 16,7%). Die gewonnenen Ergebnisse
unterstützen die bisherigen Erkenntnisse, dass Kinder im Alter von 3;5 bis
5;5 Jahren keine gravierenden Änderungen in der Verteilung der Adverbien
aufweisen. Auffällig ist die Beziehung der Tokens und Types im Hinblick auf
die Nomen (N). In allen Altersgruppen und bei jedem einzelnen Kind ist der
Anteil am Gesamtwortschatz bezüglich der Verwendungshäufigkeit relativ
klein (Gruppe 1: 8,7% bis 10,5%, Gruppe 2: 6,7% bis 11,8%, Gruppe 3:
5,9% bis 15,9%). In Anbetracht der Types ist der Anteil der Nomen sehr viel
236
KAPITEL 8. DISKUSSION
höher (Gruppe 1: 24,7% bis 27,1%, Gruppe 2: 24,7% bis 35,0%, Gruppe 3:
16,7% bis 30,7%), aber auch sehr viel indiviueller. So gibt es einige Kinder,
die mit rund 17% nicht sehr viele verschiedene Nomen verwenden, MK
(Gruppe 1496_1708) hingegen mit 35,0% und LL (Gruppe 1709_1983) mit
30,7% umso mehr. Dies bedeutet, wie bereits oben erwähnt, dass Kinder im
Alter von 3;5 bis 5;5 Jahren eher wenige Nomen verwenden. Jene Nomen,
die gebraucht werden, können aber individuell sehr verschieden sein. Ein
ähnliches Bild konnte bereits bei der Analyse der Nomen in den Altersgruppen
beobachtet werden. Im Hinblick auf die Tokens sind die Anteile durchgängig
recht niedrig, in Bezug auf die Types wurden Werte über 30% beobachtet. Die
unterschiedliche Verwendung von Nomen wurde durch Einzelanalysen jedes
Kindes in jeder Altersgruppe zum Teil bestätigt. Zusätzlich wird ersichtlich,
dass gerade im Hinblick auf die Types sehr individuelle Unterschiede zu
verzeichnen sind, die erst durch die Einzelanalysen deutlich gemacht werden
konnten. Die Anteile der Verben (VA, VM, VV) sind sowohl bei den Tokens als
auch bei den Types annähernd gleich bei allen Kindern in allen Altersgruppen
(Gruppe 1: 20,4% bis 21,3% Tokens, 22,4% bis 25,0% Types, Gruppe 2:
20,8% bis 23,2% Tokens, 22,5% bis 24,3% Types, Gruppe 3: 21,1% bis 24,0%
Tokens, 21,0% bis 28,1% Types).
Im Anschluss an die Auswertung der Wortartenverteilung aller Kinder
in den Altersgruppen wurden die ersten einhundert geäußerten Wörter
jedes Kindes im Zuge einer Annäherung an den Inhalt des Gesagten
untersucht (Abschnitt 6.4). Dabei wurden zwei typische Interaktionssituationen
zwischen den Kindern bzw. zwischen Kind und Interviewerin identifiziert: die
Erzählsituation und die Spielsituation. Letztere fand im Zuge der Aufnahmen
vorwiegend zwischen zwei oder mehreren Kindern statt und ist geprägt
durch die Verwendung von Fantasiebegriffen, zahlreichen Eigennamen und
insgesamt einem größeren Anteil an Nomen. In den Erzählsituationen traten
hingegen weniger Nomen auf.
Generell kommt es zwischen 1;9 und 3;6 Jahren zu einer sprunghaften
Ausweitung des Wortschatzes, woraufhin ab dem 4. Lebensjahr eine
Verlangsamung zu verzeichnen ist ([Klann-Delius (1999)], S. 36). Ob und
wie stark sich der Wortschatz zwischen 3;5 und 5;5 Jahren ausweitet,
kann anhand der vorliegenden Daten nur zum Teil erörtert werden, da
nicht die Menge der produzierten Wörter in einem gegebenen Zeitraum
untersucht wurde. Ab 3;0 Jahren muss es aber zu einer Verlangsamung
der Entwicklung der Wortartenverteilung gekommen sein, da in der hier
untersuchten Alterspanne keine großen Veränderungen zu verzeichnen sind.
Szagun (2006) fand heraus, dass die ersten Wörter im Spracherwerbsprozess
folgenden Wortarten zugeordnet werden können: 60,5% Nomen, 28,6%
237
Funktionswörter, 6,7% Verben, 5,1% Adjektive ([Szagun (2006)], S. 212).
Da diese Klassifikation nur einige Parallelen zu den STTS aufweist, können
die Daten dieser Arbeit nicht mit den Ergebnissen von Szagun verglichen
werden. Aus den vorliegenden Daten geht allerdings hervor, dass der Anteil
der Nomen in der gesprochenen Sprache mit zunehmendem Alter drastisch
sinkt, während der Anteil der Verben steigt und zwischen 3;5 und 5;5
Jahren zunächst stagniert. Klann-Delius (1999) beschreibt eine lexikalische
Strukturierung der Wörter in Wortfelder zwischen 3;0 und 12;0 Jahren
([Klann-Delius (1999)], S. 37; vgl. auch [Wode (1988)]). Diese Erkenntnis
spiegelt sich auch in den Ergebnissen dieser Arbeit wider, weil durch die
gegebene Stabilität der Wortartenverteilung (vor allem bezüglich der Tokens)
eine gewisse begonnene Strukturierung des Wortschatzes angenommen
werden kann. Gleichzeitig sei ab einem Alter von 3;0 Jahren der Erwerb
des Lexikons für qualitative Bewertungen, wie zum Beispiel durch Adjektive,
beobachtbar ([Augst, Bauer und Stein (1977)], S. 25). Dies wird insbesondere
durch die in Kapitel 7 getätigte inhaltliche Analyse deutlich.
Sehr aussagekräftige Ergebnisse über das kindliche Lexikon erzielte
Kauschke (1999), die bereits an zahlreichen Stellen dieser Arbeit zitiert wurde.
Nach Kauschke ist bis zu einem Alter von 36 Monaten ein Types-Zuwachs
bezüglich aller Wortarten zu verzeichnen, wobei die Anzahl unterschiedlicher
Wörter in Abhängigkeit vom Alter steigt. Dabei beobachtete sie zunächst ein
exponentielles Wachstum im 2. Lebensjahr, das im 3. Lebensjahr abnimmt
und in einen anschließenden linearen Verlauf der Types übergeht. Ähnliches
ermittelte Kauschke für die Verteilung der Tokens. Mit zunehmendem
Alter seien keine bedeutenden Veränderungen mehr feststellbar, was
sich unter anderem in einer gleichbleibenden Type-Token-Relation äußert
([Kauschke (1999)]). Dies kann ebenfalls für die Daten dieser Arbeit behauptet
werden, wobei die Type-Token-Relation über die Altersgruppen hinweg
nahezu gleich bleibt, wenn auch andere Werte annimmt als in der Auswertung
Kauschkes (Abschnitt 6.2.3). Die Analyse der hier vorliegenden Daten schließt
in vielen Punkten an die bisherigen Ergebnisse zum Lexikonerwerb an. So
können ab 3;0 Jahren keine starken Veränderungen im Hinblick auf die
Tokens festgestellt werden. Auch im Hinblick auf die Types ergibt sich ein
relativ konstantes Bild - bis auf die Nomen, die individuell sehr unterschiedlich
verwendet werden. Ferner wurde bereits an anderen Stellen in dieser Arbeit
erwähnt, dass Kauschke zu der Erkenntnis gelangt, dass im 3. Lebensjahr
kein Kind mehr als 25% Nomen verwendet und Verben den größten Anteil
des Lexikons ausmachen. Im Hinblick auf die Verwendungshäufigkeit der
Lemmata kann dies auch für die untersuchten Kinder zwischen 3;5 und 5;5
Jahren behauptet werden. Bei den Types sind, wie schon erwähnt, stärkere
238
KAPITEL 8. DISKUSSION
individuelle Unterschiede zu verzeichnen, was jedoch auch Kauschke in
ihren Ergebnissen herausstellte. Demzufolge fügen sich die in dieser Arbeit
gewonnenen Ergebnisse bezüglich der Verteilung der Wortarten ein in das
Bild der bisher gewonnenen Ergebnisse anderer Arbeiten, welche Kinder
bis zu einem Alter von meist 3;0 Jahren untersuchten. Bis zu einem Alter
von 5;5 Jahren sind keine großen Veränderungen in der Verteilung der
Wortarten feststellbar. Ab einem Alter von ca. 4;1 Jahren (ab Gruppe 1496
bis 1708) muss es den hiesigen Daten zufolge jedoch zu einer inhaltlichen
Umstrukturierung des Lexikons kommen, was mit einer qualitativen Analyse
der Inhaltswörter und zu Teilen der Funktionswörter gezeigt werden konnte
(Abschnitte 7.2 und 7.3).
In Kapitel 7 wurden in Vorbereitung auf die Erstellung eines Lexikons
im Vorschulalter, die Grundsteine dafür gelegt. Um diesem Lexikon näher
zu kommen war es neben der Analyse der Wortarten erforderlich, alle
Lemmata nach semantischen Aspekten zu untersuchen. Dazu wurden alle
hier verwendeten Kategorien der STTS erneut betrachtet und dann wiederum
semantischen Kategorien zugeordnet. Einige der Kategorien erfuhren keine
großen Veränderungen und blieben nahezu entsprechend ihrer POS-Tags
erhalten (Artikel, Interjektionen und Pronomen). Alle anderen Kategorien
wurden in umso feinere semantische Kategorien eingefügt und erlaubten
dadurch einen sehr detaillierten Blick auf die verwendeten Lemmata.
Alle Kategorien, die auf diese Weise entstanden, wurden hinsichtlich ihrer
Verwendung in dieser Arbeit mit Hilfe der Dudengrammatik definiert. Zusätzlich
wurden allgemeine Beispiele sowie Beispiele aus den Daten dieser Arbeit zu
jeder der verwendeten Unterkategorie angegeben. Das eigentliche Lexikon4
stellt das Endergebnis aller bisher getätigten Analysen dar. Des Weiteren
wurden zwei zusätzliche Wort- und Kategorielisten erstellt, die weitere
Informationen liefern. Zum einen wurden alle Bedeutungskategorien mit den
darin enthaltenen Lemmata in den jeweiligen Alterszeiträumen aufgelistet,
wodurch Entwicklungstendenzen sichtbar und Vergleiche zwischen Kindern
unterschiedlichen Alters möglich werden. Zum anderen wurden in einer
weiteren Liste neben den in den Bedeutungskategorien geäußerten Lemmata
in jeder Altersgruppe alle POS-Tags ergänzt, mit denen ein Lemma im
vorliegenden Korpus geäußert wurde. Dies ermöglicht neben der Sicht auf
semantische Aspekte auch einen Einblick in die lexikalisch-syntaktische
Verwendung der Lemmata. Ohne die Wortartenverteilung, wie sie in Kapitel
4
Das
auf
Basis
der
hier
analysierten
Daten
erstellte
Lexikon
befindet
sich
im
Anhang
dieser
Arbeit.
Es
besteht
im
Wesentlichen
aus
drei
Korpuslexika:
1)
Zusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen,
2)
Zusammenfassung_Lemmata_in_den_Gruppen, 3) Zusammenfassung_alle_Gruppen_mit_POS_Tags.
239
6 vorgenommen wurde, wäre die Erstellung des Lexikons nicht möglich
gewesen. Denn nur aufgrund des Wissens um die einzelnen Wortarten
konnten auch semantische Aspekte der geäußerten Lexeme ermittelt werden.
Im Anschluss an die Betrachtung der Verteilung der Wortarten wurde eine
qualitative Betrachtung der Nomen, Verben und Adjektive (und Adverbien)
sowie der Funktionswörter getrennt nach den Altersgruppen vorgenommen.
Insgesamt fiel auf, dass Veränderungen vor allem im Übergang von Gruppe
1 zu Gruppe 2 zu erkennen sind. Diese Veränderungen waren besonders bei
den Adjektiven und bei den Verben zu beobachten. So trat das Modalverb
mögen bzw. möchten in Gruppe 1 gar nicht auf, während es in Gruppe
2 und 3 gleich mehrfach vorkam. Ähnlich verhielt es sich mit den Verben
denken und glauben, die in Gruppe 1 nicht vorkamen, ab Altersgruppe
2 aber mehrfach zu verzeichnen waren. Das Verb glauben trat dabei
häufiger auf als denken. Wie bereits oben angeführt ist meine Vermutung
dahingehend, dass glauben häufiger in den Inputdaten der Kinder bzw.
generell häufiger in der gesprochenen Sprache auftritt. Einige Hinweise auf
das Vorkommen von Lexemen in der Sprache bieten Häufigkeitswörterbücher.
Das Häufigkeitswörterbuch der gesprochenen Sprache (nachfolgend HWB)
enthält geordnete Wortlisten, die auf einer 25-jährigen Recherchearbeit
beruhen ([Ruoff (1981)], S. 9). Das HWB enthält drei Wortlisten: 1) geordnet
nach dem Alphabet, 2) rückläufig-alphabetisch geordnet sowie 3) geordnet
nach Häufigkeit. Alle Listen sind jeweils gesondert nach Wortarten aufgeführt.
Ferner gibt Ruoff zu jedem Lemma die Anzahl seiner Vorkommenshäufigkeit
und dessen prozentualer Anteil an der Gesamtheit der betreffenden Wortart
an. Die Einteilung des Wortschatzes nach Wortarten, aber auch die Reduktion
der Belege auf deren Grundformen (Lemmata) entspricht auch weitestgehend
dem Vorgehen der vorliegenden Arbeit. Ruoff verwendete lediglich eine leicht
abweichende Einteilung der Wortarten (Substantiv, Verb, Grundverb, Adjektiv,
Adverb, Konjunktion, Präposition, Partikel, Artikel+Fragewort+Pronomen,
Zahlwort, Namen); sie kommt der hiesigen jedoch sehr nahe. Im Hinblick auf
das Vorkommen des Verbs glauben enthält das HWB eine Häufigkeitsangabe
von 0,34% (Rang 27). Das Verb denken kommt mit 0,21% etwas seltener
vor (Rang 43) ([Ruoff (1981)], S. 440, Verben geordnet nach Häufigkeit).
In ihrem Vorkommen als Grundverben zeigt sich ein ähnliches Muster:
glauben erscheint mit einer Häufigkeit von 0,34%, denken mit 0,26%
([Ruoff (1981)], S. 481). Es scheint, dass sich die Vorkommenshäufigkeiten
der Verben glauben und denken im HWB ebenso im Vokabular der hier
untersuchten Kinder widerspiegeln, was durch ein stärkeres Vorkommen des
Verbs glauben im Gegensatz zu denken deutlich wird. Bei einer näheren
Betrachtung der Adjektive konnte auch ein Entwicklungsschritt von Gruppe
240
KAPITEL 8. DISKUSSION
1 nach Gruppe 2 festgestellt werden. Dies betrifft vor allem die Verwendung
von Gegensatzpaaren in Verbindung mit den dazugehörigen semantischen
Abfolgen. In Gruppe 1 gebrauchten die hier untersuchten Kinder lediglich die
Endpunkte einer semantischen Dimension, beispielsweise nur immer vs. nie.
In Anbetracht einer semantischen Reihe kämen diesbezüglich die Adjektive
immer - gewöhnlich - manchmal - selten - nie in Frage ([Kuczaj (1975)];
[Kuczaj (1982)]). Anhand dessen wird deutlich, dass der Erwerb derartiger
semantischer Reihen für Kinder unter 4;1 Jahren noch ein recht großes
Hindernis darstellt, während die Kinder in den Gruppen 2 und 3 bereits
Adjektive äußerten, die sich zwischen den Extremen einer solchen Dimension
befinden. Im Hinblick auf Nomen wurde festgestellt, dass die hier untersuchten
Kinder zahlreiche übergeordnete Begriffe und Komposita sowie abstrakte
Begriffe verwendeten. Bei den Komposita fällt auf, dass die Kinder in Gruppe
1 lediglich zwei Nomen zu einem Kompositum kombinieren, während die
Kinder in den Gruppen 2 und 3 ein Nomen auch mit einem Verb oder einem
Adjektiv kombinierten. Des Weiteren ist ab einem Alter von 4;1 Jahren die
vermehrte Verwendung von Eigennamen (hier speziell Ortsbezeichnungen
wie Afrika, Kenia) zu beoachten. Insgesamt betrachtet lässt die getätigte
Analyse vermuten, dass nach einem Alter von 4;1 Jahren (hier ab 1496 Tagen)
sprachliche Entwicklungsschritte stattfinden, die sich in der Komposition des
Lexikons (bezogen auf die Types) und hier insbesondere bei den Adjektiven,
Verben und zum Teil bei den Nomen beobachten lassen. Eine inhaltliche
Analyse der Funktionswörter bestätigte den Trend einer sich verändernden
Struktur des Lexikons ab 4;1 Jahren in Bezug auf die hier erhobenen Daten.
Das auf diese Weise entstandene Lexikon (Anhang) mit seinen
ergänzenden Dateien bildet in umfassender Weise die Spontansprache der
hier untersuchten Kinder im Alter von 3;5 bis 5;5 Jahren ab und kann für
zahlreiche weitere Analysen sowie als Nachschlagewerk für unterschiedliche
Zwecke genutzt werden.
An dieser Stelle sollen nun die in Kapitel 4 formulierten Fragen beantwortet
werden.
1. Gibt es im Alter von 3;5 bis 5;5 Jahren Unterschiede in der Verteilung
der Wortarten? Wie eben angeführt kann aufgrund der erhaltenen Daten
angenommen werden, dass es kleine, wenn auch keine gravierenden
Unterschiede bzw. Veränderungen in der Verteilung der Wortarten gibt.
In Anlehnung an die Untersuchung Kauschkes ([Kauschke (1999)])
von Kindern bis zum 3. Lebensjahr scheint es in Bezug auf die hier
ermittelten Daten so, dass nach diesem Zeitpunkt (zunächst) eine bereits
241
stabile Verteilung weiterhin bestehen bleibt, wobei Nomen nur relativ
selten, aber in sehr verschiedener Form verwendet werden können. Der
Anteil an Types ist in den Altersgruppen 2 und 3 höher als in Gruppe 1.
Durch Einzelanalysen konnte gezeigt werden, dass der hohe Anteil an
verschiedenartigen Nomen individuell derartig unterschiedlich ist, dass
diesbezüglich keine allgemeinen Schlussfolgerungen getroffen werden
können. Verben treten mit einem Anteil von etwa einem Fünftel bezüglich
der Tokens und der Types gleichermaßen in den hier untersuchten
Altersgruppen auf auf.
2. Ist hinsichtlich der Verwendung der Wortarten ein Trend erkennbar
(individuell oder allgemein) oder bleibt die Komposition des Lexikons
zwischen 3;5 und 5;5 Jahren konstant? Hinsichtlich der Verwendung/der
Verteilung der Wortarten ist kein Trend erkennbar. Es ist im Hinblick
auf die Analyse erwachsener Sprecherinnen und Sprecher jedoch
anzunehmen, dass der Anteil der Nomen in Bezug auf die Types
im weiteren Verlauf abnimmt (vgl. [Kauschke (2007)], S. 132). Die
Verwendungshäufigkeit (Anteil der Tokens) sollte mit Referenz darauf
annähernd gleich bleiben. Hierzu müssten weitere Untersuchungen
mit Kindern über 5;5 Jahren sowie weiteren Daten von Erwachsenen
vorgenommen werden. Den in Abschnitt 6.3 ermittelten Daten kann
entnommen werden, dass die Verteilung der Wortarten individuell
sehr unterschiedlich sein kann. Relativ gleich sind die Anteile bei
den Tokens, während die Verschiedenartigkeit der geäußerten Wörter
(Types) von Kind zu Kind oft stark abweicht. Die Anteile aller weiteren
Wortarten unterliegen sowohl über die Altersgruppen hinweg als auch
individuell betrachtet keinen derartigen Schwankungen, wie es bei
einigen Inhaltswörtern (hier speziell bei den Nomen in Bezug auf die
Types) der Fall ist. Vielmehr ist davon auszugehen, dass die meisten
Wortarten als syntaktische Operatoren in ihrer Verwendung(-shäufigkeit)
konstant bleiben.
3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5
und 5;5 Jahren komponiert? Um diese Frage zu beantworten ist
ein Rückblick auf die in Abschnitt 2.3 geschaffenen Grundlagen
notwendig. In diesem Abschnitt wurden zunächst die Erkenntnisse des
Lexikonerwerbs aus der Sicht der Konstruktionsgrammatik dargelegt
und damit verbunden insbesondere die Ansicht von Tomasello (2000,
2005) ([Tomasello (2000a)]; [Tomasello (2005)]). Die Gründe dafür
sind, dass diese Erkenntnisse relativ zeitgemäß sind und zudem
mit meinem persönlichen Forschungsinteresse einhergehen. Laut
242
KAPITEL 8. DISKUSSION
Tomasello (2000) spielt der lexikalische Kontrast eine entscheidende
Rolle für den Erwerb neuer Wörter, weil dieser helfe, die jeweiligen
Referenten zu identifizieren. Mit 3 oder 4 Jahren würden Kinder ein
ausreichend syntaktisches Wissen besitzen, um damit neue Wörter zu
erwerben ([Tomasello (2000a)], S. 71). Dies spiegelt sich in den hier
erhaltenen Daten wider. Zwischen 3;5 und 5;5 Jahren sind den hier
ermittelten Daten zufolge keine großen Veränderungen im Wortschatz
zu verzeichnen bezogen auf die Verteilung der Wortarten. Erkennbar
sind allerdings individuelle Unterschiede in Bezug auf das Vorkommen
der Nomen, insbesondere bei den Types (siehe dazu [Dittmann (2006)],
S. 45). Dass diese Unterschiede tatsächlich fast ausschließlich bei den
Nomen zu beobachten sind, könnte wiederum mit dem Erwerb der
Syntax erklärt werden, die augenscheinlich in der hier untersuchten
Alterspanne auf einem nicht messbarem Niveau stabil bleibt. Den
Ergebnissen der vorliegenden Arbeit nach zu urteilen unterliegen
die Anteile der Verben sowohl in Bezug auf die Tokens als auch auf
die Types in jeder Altersgruppe keinen Schwankungen. Dies deutet
auf ein - zumindest vorübergehendes - syntaktisch stabiles Muster
hin. Bei den Nomen zeigen sich vor allem im Hinblick auf die Types
große individuelle Unterschiede, bei den Tokens hingegen weniger.
Dieser Umstand deutet darauf hin, dass auch diesbezüglich ein
festes syntaktisches Muster verankert ist, dass inhaltlich individuell
mit unterschiedlichen Nomen gefüllt wird. In Anbetracht der Tatsache,
dass Nomen als Inhaltswörter sehr austauschbar sind und somit
stark variieren können, ist das nicht unbedingt verwunderlich. Es zeigt
vielmehr, dass der Erwerb semantischer Aspekte von Nomen noch
lange nicht abgeschlossen ist und eventuell noch lange Zeit bzw.
fortwährend individuellen Schwankungen unterliegt. Auch Anisfeld
et al. (1998) beobachteten dieses Phänomen und postulieren, dass
die lexikalische und die grammatische Entwicklung interkorrelieren
([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]).
Demnach
breitet sich das Vokabular von Kindern rasant aus, kurz nachdem die
Anwendung grammatischer Strukturen in der Sprache zu verzeichnen
ist. Tomasello (2000) erklärt diese Interkorrelation damit, dass
Kinder erst eine gewisse Anzahl von Wörtern benötigen, bevor sie
syntaktische Konstruktionen verstehen können. Umgekehrt helfe das
Wissen um syntaktische Strukturen beim Erlernen neuer Wörter
([Tomasello (2000a)], S. 93).
Die eigentliche Komposition des Lexikons der hier untersuchten Kinder
wurde durch eine Analyse der Wortbedeutungen ermöglicht. In Kapitel
243
7 wurde beschrieben, nach welchen semantischen Kategorien alle
hier geäußerten Lemmata, neben ihrer Bezeichnung mit POS-Tags,
klassifiziert werden. Auf diese Weise ergaben sich neben bereits
vorhandenen Kategorien, auch neue Kategorien, die wichtige
Informationen enthalten. Die Klasse der Verben wurde beispielsweise
unter semantischen Aspekten in Handlungs-, Vorgangs-, Zustands-,
Modal-, Auxiliar- und Kopulaverben differenziert. Eine ähnlich detaillierte
Differenzierung erfuhren die Adjektive, Adverbien, Präpositionen,
Junktionen, Nomen und Partikeln. Alle derart klassifizierten Lemmata
sind mit ihren jeweiligen semantischen Kategorien und Beispielen aus
den Daten dieser Arbeit im Anhang in Form eines Lexikons aufgeführt.
Dieses Lexikon ist das Ergebnis aller bisher getätigten Recherchen und
Analysen und spiegelt anschaulich das Vokabular der hier untersuchten
Kinder im Alter von 3;5 bis 5;5 Jahren wider.
244
KAPITEL 8. DISKUSSION
Kapitel 9
Ausblick
An dieser Stelle möchte ich auf jene Ergebnisse dieser Arbeit zurückkommen,
die besonders für weitere Forschungarbeiten interessant sein können.
Ferner möchte ich eingehen auf im Zuge dieser Arbeit entstandenen
Diskussionsbedarf, unabhängig von der hier durchgeführten Analyse. Es
war mir ein besonderes Anliegen, das Lexikon von Kindern im Vorschulalter
bzw. konkreter im Alter von 3;5 bis 5;5 Jahren zu untersuchen. Im Verlauf
dieser Arbeit wurde die Wortartenverteilung der untersuchten Kinder auf
der Basis der STTS (Tabelle 3.2.2) analysiert. Die ermittelten Ergebnisse
fügen sich in das Bild der bisherigen Ergebnisse zum Lexikonerwerb und
insbesondere zur Verteilung der Wortarten bei Kindern bis zum Alter von
3;0 Jahren ein. Ferner fällt auf, dass in der hier untersuchten Altersspanne
keine großen Veränderungen in der Wortartenverteilung zu verzeichnen
sind, zumindest was die Anteile aller Wortarten (in Bezug auf die Tokens)
betrifft. Eine Ausnahme bilden mit einer großen Individualität hinsichtlich der
Verschiedenartigkeit die hier verwendeten Nomen. An dieser Stelle wäre es
für zukunftige Arbeiten ein besonderes Anliegen, diese Individualität genauer
zu untersuchen. Die hier ermittelten Daten basieren auf spontanen Daten,
die in einem Kindergarten gewonnen wurden. Es wurde festgestellt, dass
sich die Kinder häufig in Spielsituationen befanden (Abschnitt 6.5). Dies
kann unter Umständen dazu geführt haben, dass jene Nomen, die geäußert
wurden, sehr verschieden waren. Es könnte jedoch der Fall sein, dass dies
auch in anderen Situationen beobachtbar ist. Dies müsste in weiteren, ähnlich
angelegten Untersuchungen herausgefunden werden. Interessant wäre die
Beobachtung von Kindern zu Hause oder in ihnen fremden Umgebungen.
Auch die Erhebung von Daten unter kontrollierten Bedingungen im Labor wäre
vorstellbar. Dies hätte dann zwar nicht mehr den Anspruch an Spontaneität,
würde aber einen interessanten Vergleich darstellen.
Da bis zu einem Alter von 5;5 Jahren keine großen Veränderungen in
245
246
KAPITEL 9. AUSBLICK
der Verteilung der Wortarten zu verzeichnen waren, müssten anschließend
an diese Untersuchung Daten von älteren Kindern erhoben werden,
um herauszufinden, ob und in welchem Alter ein nächster deutlicher
Entwicklungsschritt erkennbar ist. Es wurde weiterhin festgestellt, dass sich
die inhaltliche Zusammensetzung des Lexikons im Hinblick auf die Adjektive,
Verben und wahrscheinlich auch auf die Nomen1 ab einem Alter von 4;1 Jahren
ändert. Diesbezüglich erachte ich es für sinnvoll, diese Entwicklungschritte in
weiterführenden Untersuchungen aufzugreifen und detaillierter zu erforschen.
Des Weiteren können mit den hier erhaltenen Daten weitere Untersuchungen
- im Hinblick auf die syntaktische, morphologische, phonologische Entwicklung
etc. - vorgenommen werden. Besonders aufschlussreich wäre eine inhaltliche
Analyse der hier erhobenen Daten unter anderen Bedingungen. Es ist zu
erwarten, dass Kinder in anderen Umgebungen als im Kindergarten eine
abweichende Verteilung der Wortarten sowie andere Inhalte aufweisen.
Denkbar wäre, dass die Verteilung der Wortarten - insbesondere die der
Types - weniger oder aber stärkeren individuellen Schwankungen unterliegt,
wenn den Aufnahmen ein vorgegebenes Gesprächsthema zu Grunde liegt.
Eine besonders aussagekräftige Vergleichsstudie wäre die Datenerhebung
aller hier untersuchten Kinder zu späteren Zeitpunkten unter gleichen
Bedingungen. Diesbezüglich erschiene es sinnvoll zu überprüfen, ob die
indiviuelle Verschiedenartigkeit - insbesondere in der Verwendung der Nomen
- in den Äußerungen erhalten bleibt oder ob sich dies mit zunehmendem Alter
ändert. Eine Beobachtung des familiären Umfelds der untersuchten Kinder
könnte zudem Aufschluss über eventuelle Besonderheiten geben, die die
Kinder in ihrem Input erfahren.
Nicht zu vergessen ist eine eigenständige Analyse von Daten erwachsener
Sprecher/innen auf der Basis der STTS. Die hier vorliegenden Daten von
Kauschke (2007) waren zu wenige, um damit einen aussagekräftigen
Vergleich durchzuführen ([Kauschke (2007)]). Hinzu kommt, dass nicht genau
bekannt ist, wie und unter welchen Bedingungen die Daten erhoben wurden.
Ein Datenset erwachsener Sprecher/innen, das vom Umfang jenem der hier
untersuchten Kinder entspricht, könnte interessante Hinweise darauf geben,
ob und wann die Komposition des Lexikons bei Kindern annähernd stabil
bleibt.
Stellt man sich die Frage nach dem Sinn und Zweck der hier
durchgeführten Analyse, ist das nicht ganz eindeutig zu beantworten. In
der linguistischen Forschung wird ein Großteil der experimentellen Studien
und Beobachtungsstudien häufig deshalb gemacht, weil zum jeweiligen
1
Ein eindeutiger Entwicklungsschritt bezüglich der Nomen kann hier nicht ausgemacht werden, ist
aber nicht auszuschließen.
247
Forschungsthema noch keine Daten vorliegen oder aber, weil vorliegende
Ergebnisse überprüft werden sollen. Derartige Analysen müssen nicht
immer ein bestimmtes Ziel verfolgen oder für einen gesellschaftlichen Zweck
zu Verfügung stehen. Oft ist es schlichtweg das Interesse nach neuen
grundlegenden Strukturen, die die Sprache betreffen. Und genau darum ging
es zunächst auch mir bei der Erstellung der vorliegenden Arbeit. Immer,
wenn ich in einer Bibliothek oder anderweitig nach neuen Erkenntnissen zum
Thema Sprache im Vorschulalter suchte, fand ich lediglich Literatur, die die
Sprache von Kindern bis zu einem Alter von 3 Jahren beschreibt. Ich konnte
mir nicht erklären, weshalb es keine Studien zur Strukur der Sprache von
älteren Kindern gab. Nach längerer Recherche fanden sich zwar Studien,
die sehr spezielle Fähigkeiten von Kindern im Vorschulalter untersuchten,
wie zum Beispiel die richtige Verwendung der unregelmäßigen Pluralformen.
Ich konnte jedoch keine Informationen darüber erlangen, wie der Wortschatz
des Vorschulkindes im Hinblick auf seine Inhalte, geschweige denn auf
seine Struktur, aufgebaut ist. Aus diesem Grund entschloss ich mich, selbst
einen Schritt in diese Richtung zu unternehmen und einen Überblick über
die Komposition des Lexikons von Kindern im Alter von 3;5 bis 5;5 Jahren
zu schaffen. Dies war das übergeordnete Ziel der Arbeit. Nach einer ersten
Durchsicht der erhaltenen Daten eröffneten sich spontan einige Ziele, die ich
hier anführen möchte: Es ist vorstellbar, die hier erhaltenen inhaltlichen Daten
für die Erstellung zukünftiger oder die Verbesserung bestehender Lehr- und
Lernmaterialien zu nutzen. Insbesondere die Verbesserung von Lernsoftware
für den Vorschulbedarf ist vorstellbar. Durch die hier erhaltenen Daten wird
deutlich, wie Kinder im Alter von 3;5 bis 5;5 Jahren tatsächlich sprechen und
demnach ist ersichtlich, welche Inhalte sie verstehen und welche noch nicht.
Es wäre es sinnvoll, alle linguistischen Bereiche, in denen Hilfestellungen
beim Erlernen der Sprache geboten werden können, aufzugreifen und
pädagogisch aufzuarbeiten. Beispielhaft ist nach der Durchsicht der hier
erhaltenen Ergebnisse das Verstehen und Üben der Adjektiv-Dimensionen
unter unterschiedlichen Aspekten. Ferner wäre es denkbar, Adjektive in
feststehenden Wendungen wie „ich habe eine coole Idee“ zu extrahieren
und darauffolgend andere passende und/oder unpassende Adjektive zur
Verfügung zu stellen. Es müsste dann eine Entscheidung des Kindes
folgen, welches Adjektiv an dieser Stelle passen könnte. Ein ähnliches
Prozedere ist auch mit anderen Wortarten vorstellbar, je nachdem welches
Lernziel verfolgt wird. Ein ähnliches Ziel - aber unter Berücksichtigung der
Erkenntnisse des Zweitsprachenerwerbs - ist die Erstellung von Lehr- und
Lernmaterialien für Kinder mit Migrationshintergrund. Weiterhin könnten auf
der Grundlage der Wave-Dateien geeignete Tonaufnahmen extrahiert und für
248
KAPITEL 9. AUSBLICK
auditive Lernzwecke eingesetzt werden. Das abschließend erstellte Lexikon
bildet, zusammen mit all seinen zusätzlichen Informationen (sprachliche
Beispiele aus den EXMARaLDA-Dateien, Audio-Dateien, Wortartenanalyse,
semantische Analyse, Häufigkeitsanalyse), ein nützliches Nachschlagewerk,
das den Wortschatz von Kindern im Alter von 3;5 bis 5;5 Jahren zu großen
Teilen abbildet.
Ich hoffe, dass ich mit der hier erstellten Arbeit einen Beitrag leisten
kann, der sich in die bisherige, sehr umfangreiche Forschungslandschaft
des Spracherwerbs, aber auch der Lexikologie und Lexikographie sowie der
korpusbasierten Linguistik eingliedert.
Abbildungsverzeichnis
4.1 Folker-Datei: ic_a_31.flk . . . . . . . . . . . . . . . . . . . . . .
4.2 Folker-Datei: ic_a_16.flk . . . . . . . . . . . . . . . . . . . . . .
4.3 Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen und
Sprechern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Separierte Tonspur in einer EXMARaLDA-Datei . . . . . . . . .
4.5 Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur .
4.6 EXMARaLDA-Datei: MM_lem.exb . . . . . . . . . . . . . . . .
.
.
.
.
72
72
73
73
5.1
5.2
5.3
5.4
5.5
5.6
5.7
5.8
5.9
5.10
5.11
5.12
5.13
5.14
5.15
5.16
5.17
5.18
5.19
5.20
5.21
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
91
92
92
93
93
94
95
95
96
96
96
97
98
99
100
100
107
118
119
120
CA: project folder structure . . . . . . . . . . . . . . . . . .
CA: Installation . . . . . . . . . . . . . . . . . . . . . . . . .
CA: copy and save files . . . . . . . . . . . . . . . . . . . .
CA: convert wav-files . . . . . . . . . . . . . . . . . . . . . .
CA: create database . . . . . . . . . . . . . . . . . . . . . .
CA: import exmaralda files . . . . . . . . . . . . . . . . . . .
CA: generate all results . . . . . . . . . . . . . . . . . . . .
CA: generate tag count results . . . . . . . . . . . . . . . .
CA: type-token results . . . . . . . . . . . . . . . . . . . . .
CA: type-token-lemma results . . . . . . . . . . . . . . . . .
CA: lemma tag results . . . . . . . . . . . . . . . . . . . . .
CA: lemma bedeutung results . . . . . . . . . . . . . . . .
CA: typetoken bedeutung results . . . . . . . . . . . . . . .
CA: table structure sprecher . . . . . . . . . . . . . . . . . .
CA: table structure aufnahme . . . . . . . . . . . . . . . . .
CA: table structure: textpostags . . . . . . . . . . . . . . . .
CA: table structure wav_datei . . . . . . . . . . . . . . . . .
CA: Wortliste 1281 bis 1495 ART . . . . . . . . . . . . . . .
CA: Beispiel lemma_tag 1496 bis 1708 . . . . . . . . . . .
CA: Beispiel all_lemma_tag_MA 1281 bis 1495 . . . . . .
CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 68
. 70
6.1 POS-Tags: tokens_types_gruppiert_1281_1495 . . . . . . . . . . 131
249
250
ABBILDUNGSVERZEICHNIS
6.2
6.3
6.4
6.5
6.6
6.7
6.8
6.9
6.10
6.11
Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage .
Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage .
Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage .
Beispiel: tokens_VVIMP_1709_1983 . . . . . . . . . . . . . . .
Beispiel: types_VVFIN_1281_1495 . . . . . . . . . . . . . . . .
Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage .
Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage .
Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage .
Beispiel: JS_lemmata_ADJA_1709_1983 . . . . . . . . . . . .
Beispiel: LEO_lemmata_NN_1709_1983 . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
135
136
137
137
138
140
141
142
145
146
7.1
7.2
7.3
7.4
7.5
7.6
7.7
7.8
7.9
7.10
7.11
7.12
7.13
Verwendung von „Idee“: 039_MA . . . . . . . . . . . . . . . .
„wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK)
„wissen“: 020_MM, 036_LAR . . . . . . . . . . . . . . . . . .
„glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO . . . . . . .
„denken“: 033_JS, 045_MK . . . . . . . . . . . . . . . . . . .
Adjektive in den drei Altersgruppen (Ausschnitt) . . . . . . . .
tag count_NN_1496_1708 . . . . . . . . . . . . . . . . . . . .
tag count_JS_ADV_1709_1983 . . . . . . . . . . . . . . . . .
type token_VVINF_1281_1495 . . . . . . . . . . . . . . . . .
type token lemma_ADJA+ADJD_1709_1983 . . . . . . . . .
lemma tag_VMFIN_1496_1708 . . . . . . . . . . . . . . . . .
lemma bedeutung_v-vorgang_1281_1495 . . . . . . . . . . .
type token bedeutung_adv-lok_1709_1983 . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
201
205
205
206
206
209
217
218
219
220
221
221
222
.
.
.
.
.
.
.
.
.
.
.
.
.
Tabellenverzeichnis
3.1 Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S.
140) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 STTS Tag Table (1995/1996) . . . . . . . . . . . . . . . . . . . . 44
4.2 Gruppe der Testpersonen . . . . . . . . . . . . . . . . . . . . . . 88
6.1 POS-Tags zusammengefasst . . . . . . . . . . . . . . . . . . .
6.2 Types und Tokens in den Altersgruppen . . . . . . . . . . . . .
6.3 Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im
Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . .
6.4 Vorkommen der POS-Tags (Types) in allen Altersgruppen im
Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . .
6.5 Type-Token-Verhältnis in den Altersgruppen . . . . . . . . . . .
6.6 MA: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . .
6.7 MK: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . .
6.8 AV: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . .
6.9 LEO: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . .
6.10 LUA: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . .
6.11 MK: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . .
6.12 AV: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
6.13 JK: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
6.14 JS: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
6.15 LAR: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . .
6.16 LEO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . .
6.17 LL: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
6.18 LUA: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . .
6.19 MM: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . .
6.20 RD: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
6.21 SO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . .
. 131
. 133
. 134
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
140
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
7.1 Nomen in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 199
7.2 Verben in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 204
251
252
TABELLENVERZEICHNIS
7.3 Adjektive in den Altersgruppen . . . . . . . . . . . . . . . . . . . 207
Literaturverzeichnis
[Abbot-Smith, Lieven und Tomasello (2001)] K. Abbot-Smith, E. Lieven und
M. Tomasello.
What preschool children do and not do with
ungrammatical word orders. Cognitive Development, 16:679–692, 2001.
[Aitchison (1994)] J. Aitchison. Words in the mind: an Introduction to the
Mental Lexicon. Basil Blackwell, Oxford, 1994.
[Aitchison (2003)] J. Aitchison. Words in the Mind.
Malden, MA [u.a.], 3. Auflage, 2003.
Blackwell Publishing,
[Akhtar (1999)] N. Akhtar. Acquiring basic word order: evidence for data driven
learning of syntactic structure. Journal of Child Language, 26:339–356,
1999.
[Albert und Koster (2002)] R. Albert und C. Koster. Empirie in Linguistik und
Sprachlehrforschung. Narr Studienbücher, Tübingen, 2002.
[Anisfeld, Rosenberg, Habermann und Gasparini (1998)] M. Anisfeld, E. S.
Rosenberg, M. J. Habermann und D. Gasparini. Lexical acceleration
coincides with the onset of combinatorical speech. First Language, 18:
164–184, 1998.
[Augst (1985)] G. Augst. Kinderwort: Der aktive Kinderwortschatz (kurz vor der
Einschulung) nach Sachgebieten geordnet. Mit einem alphabetischen
Register. Peter Lang, Frankfurt am M. u.a., 1985.
[Augst, Bauer und Stein (1977)] G. Augst, A. Bauer und A. Stein.
Grundwortschatz und Ideolekt. Empirische Untersuchungen zur
semantischen und lexikalischen Struktur des kindlichen Wortschatzes.
Niemeyer, Tübingen, 1977.
[Backscheider und Shatz (1993)] A. Backscheider und M. Shatz. Children’s
acquisition of the lexical domain of color. In Beals, K. et al., (Hrsg.),
What we think, what we mean, and how we say it. Papers from
the parasession on the correspondence of conceptual, semantic and
253
254
LITERATURVERZEICHNIS
grammatical representations, CLS 29, Vol.2. The Chicago Linguistic
Society, Chicago, 1993.
[Baker (2003)] M. Baker. Lexical Categories: Verbs, Nouns and Adjectives.
Cambridge University Press, Cambridge, 2003.
[Bassano (2000)] D. Bassano. Early development of nouns and verbs in
french: Exploring the interface between lexicon and grammar. Journal
of Child Language, 27:512–559, 2000.
[Bates und Goodman (1999)] E. Bates und J. Goodman. On the emergence
of grammar from the lexicon. In B. MacWhinney, (Hrsg.), The emergence
of language. Erlbaum, Mahwah, NY [u.a.], 1999.
[Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)]
E. Bates, V. Markman, D. Thal, L. Fenson, P. Dale, J. Reznik, I. Reilly
und J. Hartung. Developmental and stylistic variation in the composition
of early vocabulary. Journal of Child Language, 21:85–121, 1994.
[Behrens (1998)] H. Behrens. How difficult are complex verbs? Evidence
from German, Dutch and English. In E. Lieven, (Hrsg.), Special issue:
Developing a Verb Category: Cross-Linguistic Perspectives, S. 679-713.
Linguistics, Vol. 36/4, 1998.
[Behrens (2011)] H. Behrens. Grammatik und Lexikon im Spracherwerb:
Konstruktionsprozesse. In Sprachliches Wissen, Seiten 375–396. De
Gruyter, 2011.
[Bergenholtz und Schaeder (1977)] H. Bergenholtz und B. Schaeder. Die
Wortarten des Deutschen: Versuch einer syntaktisch orientierten
Klassifikation. Klett, Stuttgart, 1977.
[Bierwisch und Schreuder (1992)] M. Bierwisch und R. Schreuder.
concepts to lexical items. Cognition, 42:23–60, 1992.
From
[Bloom, Tinker und Margulis (1993)] L. Bloom, E. Tinker und C. Margulis. The
words children learn: Evidence against a noun bias in early vocabularies.
Cognitive Development, 8:431–450, 1993.
[Borer (1984)] H. Borer. Parametric Syntax. Foris, Dordrecht, 1984.
[Borer und Wexler (1987)] H. Borer und K. Wexler. The maturation of syntax.
In T. Roeper und E. Williams, (Hrsg.), Parameter setting. Reidel,
Dordrecht, 1987.
LITERATURVERZEICHNIS
255
[Bowerman und Brown (2008)] M. Bowerman und P. Brown. Crosslinguistic
perspectives on argument structure: implications for language
acquisition. Erlbaum, Mahwah, NJ, 2008.
[Bretheron und Beeghly (1986)] I. Bretheron und M. Beeghly.
Talking
about internal states: The acquisition of an explicit theory of mind.
Developmental Psychology, 18:906–921, 1986.
[Brown und McNeill (1966)] R. Brown und D. McNeill.
The "tip of the
tongue"phenomenon. Journal of Verbal Learning and Verbal Behavior,
5:325–337, 1966.
[Budde (2000)] M. Budde. Wortarten - Definition und Identifikation. Berlin,
Freie Univ., Berlin, 2000.
[Bussmann (1983)] H. Bussmann. Lexikon der Sprachwissenschaft. Kröner,
Stuttgart, 1983.
[Campbell, Brooks und Tomasello (2000)] A. Campbell, P. Brooks und
M. Tomasello. Factors affecoung children’s use of pronouns as referring
expressions. Journal of Speech, Language and Learning Research, 43:
1337–1349, 2000.
[Chomsky (1967)] N. Chomsky. Aspects of the theory of syntax. MIT Press,
Cambridge, Mass., 1967.
[Chomsky (1959)] N. Chomsky. Review of Verbal Behavior. By B.F. Skinner.
Language, 35:26–58, 1959.
[Clahsen (1990)] H. Clahsen. Constraints on parameter setting. A grammatical
analysis of some acquisition stages in German Child language.
Language Acquisition, 1:361–391, 1990.
[Clark (1993)] E. Clark. The lexicon in acquisiton. Cambridge University Press,
Cambridge [u.a.], 1993.
[Clark (1995)] E. Clark. Later lexical development and word formation.
In P. Fletcher und B. MacWhinney, (Hrsg.), The Handbook of Child
Language, Seiten 393–412. Basil Blackwell, Oxford, 1995.
[Clark (1997)] E. Clark.
Conceptual perspective and lexical choice in
acquisition. Cognition, 64:1–37, 1997.
[Clark und Clark (1977)] H. Clark und E. Clark. Psychology and language.
Harcourt Brace Jovanovich, New York, 1977.
256
LITERATURVERZEICHNIS
[Dell (1986)] G. S. Dell. A spreading activation theory of retrieval in language
production. Psychological Review, 93:283–321, 1986.
[Dell und O’Seaghdha (1992)] G. S. Dell und P. G. O’Seaghdha. Stages of
lexical access in language production. Cognition, 42:287–314, 1992.
[Di Sciullo und Williams (1987)] A. Di Sciullo und E. Williams. On the Definition
of World. The MIT Press, Cambridge, Mass./London, England, 1987.
[Dittmann (2006)] J. Dittmann. Der Spracherwerb des Kindes. C. H. Beck,
München, 2. Auflage, 2006.
[Dromi (1987)] E. Dromi. Early lexical development. Cambridge University
Press, Cambridge, 1987.
[Duden (1996)] Duden.
Die deutsche Rechtschreibung.
Duden
Bibliographisches Institut & F.A. Brockhaus AG, Mannheim, 21.
Auflage, 1996.
[Dudenredaktion (2004)] Dudenredaktion.
Duden
Rechtschreibung. Dudenverlag, Mannheim, 2004.
[Dudenredaktion (2009)] Dudenredaktion.
Dudenverlag, Berlin, 2009.
Duden
-
-
Die
Die
deutsche
Grammatik.
[Ejiri und Smith (1993)] K. Ejiri und A. Smith. Proposal for a new ’constraint
measure’ for text. In R. Köhler und B. Rieger, (Hrsg.), Contributions to
Quantitive Linguistics, S. 195-211. Kluwer, Dordrecht, 1993.
[Engelkamp und Rummer (1999)] J. Engelkamp und R. Rummer.
Die
Architektur des mentalen Lexikons.
In A. Friederici, (Hrsg.),
Sprachrezeption, Seiten 155–201. Hogrefe, Göttingen, 1999.
[Evans und Levinson (2009)] N. Evans und S. Levinson. The myth of language
universals: Language diversity and its importance for cognitive science.
Behavioral and Brain Science, 32:429–448, 2009.
[Evans (2014)] V. Evans. The language myth. Cambridge University Press,
Cambridge, 2014.
[Fodor (1976)] J. A. Fodor.
Hassocks, 1976.
The language of thought.
Harvester Press,
[Gallmann (1991)] P. Gallmann. Wort, Lexem und Lemma. In G. Augst
und B. Schaeder, (Hrsg.), Rechtschreibwörterbücher in der Diskussion.
Geschichte - Analyse - Perspektiven. Peter Lang, Frankfurt a. M., Bern,
New York, 1991.
LITERATURVERZEICHNIS
257
[Gentner (1982)] D. Gentner. Why nouns are learned before verbs: Linguistic
relativity versus natural partitioning. In S. Kuczaj, (Hrsg.), Language
development, Vol. 2: Language, thought and culture, S. 301-334.
Lawrence Erlbaum, Hillsdale, N.J., 1982.
[Gleason (1973)] J. Gleason. Code switching in children’s language. In
T. Moore, (Hrsg.), Cognitive Development and the Acquisition of
Language, Seiten 159–167. Academic Press, New York, 1973.
[Gleitman (1990)] L. Gleitman. The structural sources of verb meaning.
Language Acquisition, 1:3–55, 1990.
[Goldfield (2000)] B. Goldfield. Nouns before verbs in comprehension vs.
production: The view from pragmatics. Journal of Child Language, 27:
501–520, 2000.
[Gopnik (1988)] A. Gopnik. Three types of early word. First Language, 8:
49–70, 1988.
[Gopnik und Choi (1995)] A. Gopnik und S. Choi. Names, relational words,
and cognitive development in english and korean speakers: Nouns are
not always learned before verbs. In M. Tomasello und W. Merriman,
(Hrsg.), Beyond names for things: young children’s acqusition of verbs,
S. 63-80. Erlbaum, Hillsdale, N.J., 1995.
[Gordon (1985)] P. Gordon. Level-ordering in lexical development. Cognition,
21:73–93, 1985.
[Grimshaw (1981)] J. Grimshaw. Form, function, and the language acqusition
device. In C. Baker und J. McCarthy, (Hrsg.), The logical problem of
language acqisition. MIT Press, Cambridge Mass., 1981.
[Gundel, Hedberg und Zacharski (1993)] J. Gundel, N. Hedberg und
R. Zacharski. Cognitive status and the form of the referring expressions.
Language, 69:274–307, 1993.
[Hetzer und Reindorf (1928)] H. Hetzer und B. Reindorf. Sprachentwicklung
und soziales Milieu.
Zeitschrift für angewandte Psychologie, 29:
429–462, 1928.
[Hilpert (2014)] M. Hilpert. Construction grammar and its application to
English. Edinburgh University Press, Edinburgh, 2014.
[Hoffmann (2009)] L. Hoffmann. Handbuch der deutschen Wortarten. De
Gruyter, Berlin u.a., 2009.
258
LITERATURVERZEICHNIS
[Höhle (2012)] B. Höhle. Wie kommt das Kind zur Sprache. In B. Höhle,
(Hrsg.), Psycholinguistik. Akademie Verlag, Berlin, 2012.
[Jampert (2002)] K. Jampert. Schlüsselsituation Sprache. Leske und Budrich,
Opladen, 2002.
[Kaltenbacher (1990)] E. Kaltenbacher.
Strategien beim frühkindlichen
Syntaxerwerb - Eine Entwicklungsstudie. Narr, Tübingen, 1990.
[Kauschke (1999)] C. Kauschke. Früher Wortschatzerwerb im Deutschen. In
J. Meibauer und M. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb.
A. Francke Verlag, Tübingen, Basel, 1999.
[Kauschke (2000)] C. Kauschke. Der Erwerb des frühkindlichen Lexikons.
Gunter Narr, Tübingen, 2000.
[Kauschke (2007)] C. Kauschke. Erwerb und Verarbeitung von Nomen und
Verben. Niemeyer, Tübingen, 2007.
[Kauschke (2012)] C. Kauschke. Kindlicher Spracherwerb im Deutschen. De
Gruyter, Berlin, 2012.
[Kauschke und Klann-Delius (2010)] C. Kauschke und G. Klann-Delius. How
mothers introduce a new, surprising object - a study on early word
learning in discourse. In R. Zukauskiene, (Hrsg.), Proceedings of the XIV
European Conference on Developmental Psychology - ECDP, Seiten
117–122. Medimond, Bologna, 2010.
[Kauschke, Nutsch und Schrauf (2012)] C. Kauschke, C. Nutsch und
J. Schrauf.
Verarbeitung von konkreten und abstrakten Wörtern
bei Kindern im Schulalter. Zeitschrift für Entwicklungspsychologie und
pädagogische Psychologie, 44:2–11, 2012.
[Kegel (1987)] G. Kegel. Sprache und Sprechen des Kindes. Westdeutscher
Verlag, Opladen, 3. Auflage, 1987.
[Kempen und Huijbers (1983)] G. Kempen und P. Huijbers. The lexicalization
process in sentence production and naming: Indirect elections of words.
Cognition, 14:185–209, 1983.
[Klabunde (1998)] R. Klabunde. Zur Wahl dimensionaler Präpositionen und
Adverbien in der Sprachproduktion. In P. Ludewig und B. Geurts,
(Hrsg.), Lexikalische Semantik aus kognitiver Sicht: Perspektiven
im Spannungsfeld linguistischer und psychologischer Modellierungen,
Seiten 41–72. Narr, Tübingen, 1998.
LITERATURVERZEICHNIS
259
[Klann-Delius (1999)] G. Klann-Delius. Spracherwerb. Metzler, Stuttgart [u.a.],
1999.
[Klann-Delius und Kauschke (1995)] G. Klann-Delius und C. Kauschke. Die
Entwicklung der Verbalisierungshäufigkeit von inneren Zuständen und
emotionalen Ereignissen in der frühen Kindheit in Abhängigkeit von
Alter und Affekttyp: Eine explorative, deskriptive Längsschnittstudie.
Linguistische Berichte, 161:68–89, 1995.
[Knobloch und Schaeder (2009)] C. Knobloch und B. Schaeder. Das Wort. In
L. Hoffmann, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter,
Berlin [u.a.], 2009.
[Kuczaj (1999)] S. Kuczaj. The world of words: Thoughts on the development
of a lexicon. In M. Barrett, (Hrsg.), The development of language, Seiten
133–160. Psychology Press, Hove, 1999.
[Kuczaj (1975)] S. Kuczaj. On the acquisition of a semantic system. Journ. of
Verbal Learning and Verbal Behavior, 16:589–600, 1975.
[Kuczaj (1982)] S. Kuczaj. The acqusition of word meaning in the context of
the development of the semantic system. In C. Brainerd und M. Presley,
(Hrsg.), Verbal processes in children, Seiten 95–123. Springer-Verlag,
New York, 1982.
[Köhler und Galle (1993)] R. Köhler und M. Galle. Dynamic aspects of text
characteristics. In L. Hrebicek, (Hrsg.), Quantitative text analysis. WVT,
Trier, 1993.
[Lebeaux (1988)] D. Lebeaux. Language acquisition and the form of the
grammar. Ph.D. Universitiy of Massacchusetts, Massacchusetts, 1988.
[Lehmann (2005)] C. Lehmann.
Wortarten und Grammatikalisierung.
Perspektiven in System und Grammatikalisierung. In C. Knobloch und
B. Schaeder, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter,
Berlin, 2005.
[Levelt, Roelofs und Meyer (1999)] W. Levelt, A. Roelofs und A. Meyer. A
theory of lexical access in speech production. Behavioral and Brain
Science, 22:1–75, 1999.
[Levelt (1989)] W. J. M. Levelt. Speaking: From intention to articulation. MIT
Press, Cambridge, Mass [u.a.], 1989.
[Levelt (1992)] W. J. M. Levelt. Accessing words in speech production: stages,
processes an representations. Cognition, 42:1–22, 1992.
260
LITERATURVERZEICHNIS
[Lieven, Pine und Baldwin (1997)] E. Lieven, J. Pine und G. Baldwin. Lexically
based learning and early grammatical development. Journal of Child
Language, 24:187–219, 1997.
[Lyons (1977)] J. Lyons. Semantics (Vol. 1). Cambridge University Press,
Cambridge, 1977.
[Mack (2014)] A. Mack.
Berlin, 2014.
https://github.com/fiedler-mack/CorpusAnalyser.
[Maratsos (1979)] M. Maratsos. Learning when and how to use pronouns
and determiners. In P. Fletcher und M. Garman, (Hrsg.), Language
Acquisition. Cambridge University Press, Cambridge, 1979.
[McCarthy (1954)] J. McCarthy. Language development in children. In
L. Carmichael, (Hrsg.), Manual of child psychology, Seiten 492–630.
Wiley, New York, 1954.
[McNamara (1982)] J. McNamara.
Names for things: a study of child
language. Bradford Books MIT Press, Cambridge Mass., 1982.
[Meibauer und Rothweiler (1999)] J. Meibauer und M. Rothweiler.
Das
Lexikon im Spracherwerb. Ein Überblick.
In J. Meibauer und
M. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb. A. Francke Verlag,
Tübingen, Basel, 1999.
[Morton (1969)] J. Morton. The interaction of information in word recognition.
Psychological Review, 76:165–178, 1969.
[Nelson (1973)] K. Nelson.
Structure and strategy in learning to talk.
Monographs of the Society for Research in Child Development, No. 149,
38:1–2, 1973.
[Oksaar (1997)] E. Oksaar. Spracherwerb im Vorschulalter - Eine Einführung
in die Pädolinguistik. Kohlhammer, Stuttgart [u.a.], 2. Auflage, 1997.
[Paivio (1986)] A. Paivio. Mental representations: A dual coding approach.
Oxford University Press, Oxford, 1986.
[Pine, Lieven und Rowland (1998)] J. Pine, E. Lieven und C. Rowland.
Comparing different models of the development of the english verb
category. Linguistics, 36:807–830, 1998.
[Pinker (1984)] S. Pinker. Language Learnability and Language Development.
Havard University Press, Cambridge, 1984.
LITERATURVERZEICHNIS
261
[Pinker (1994)] S. Pinker. How could a child use verb syntax to learn verb
semantics? Lingua, 92:377–410, 1994.
[Pinker (1996)] S. Pinker. Der Sprachinstinkt - Wie der Geist die Sprache
bildet. Kindler Verlag, München, 1996.
[Roelofs (1992)] A. Roelofs. A spreading-activation theory of lemma retrieval
in speaking. Cognition, 42:107–142, 1992.
[Roelofs (1996)] A. Roelofs. Computational models of lemma retrieval. In
T. Dijkstra und K. De Smedt, (Hrsg.), Computational Psycholinguistics:
AI and Connectionist Models of Human Language Processing, Seiten
308–327. Taylor and Francis, London, 1996.
[Rohde (2005)] A. Rohde.
Lexikalische
Zweitsprachenerwerb. WVT, Trier, 2005.
Prinzipien
im
Erst-
und
[Rothweiler (1993)] M. Rothweiler.
Der Erwerb von Nebensätzen im
Deutschen. Niemeyer, Tübingen, 1993.
[Ruoff (1981)] A. Ruoff. Häufigkeitswörterbuch gesprochener Sprache. Max
Niemeyer Verlag, Tübingen, 1981.
[Sandhofer und Smith (1999)] C. Sandhofer und L. Smith. Learning color
words involves a system of mappings. Developmental Psychology, 35:
668–679, 1999.
[Schiller, Teufel, Stöckert und Thielen (2009)] A. Schiller, S. Teufel, C. Stöckert
und C. Thielen. Guidelines für das Tagging deutscher Textcorpora
mit STTS.
http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf,
Stuttgart u.a., 2009.
[Schlaefer (2002)] M. Schlaefer.
Lexikologie und Lexikographie - Eine
Einführung am Beispiel deutscher Wörterbücher. Erich Schmidt Verlag,
Berlin, 2002.
[Schmidt und Schütte (2011)] T.
Schmidt
und
W.
Schütte.
FOLKER
Transkriptionseditor
für
das
Forschungsund
Lehrkorpus
gesprochenes
Deutsch.
http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch.
pdf, 2011.
[Schmoe (2002)] F. Schmoe.
Folglich trat Hubert barfuß und dennoch
ungemein heftig gegen die zue Tür - Über einige Eigenschaften
der deutschen Adverbien. In P. Wiesinger, (Hrsg.), Akten des X.
262
LITERATURVERZEICHNIS
Internationalen Germanistenkongresses Wien 2000 - Zeitenwende - Die
Germanisten auf dem Weg vom 20. uns 21. Jahrhundert, Band 2:
Entwicklungstendenzen der deutschen Gegenwartssprache. Peter Lang,
Frankfurt am Main, 2002.
[Schwittala (2002)] J. Schwittala. Kleine Wörter. Partikeln im Gespräch. In
J. Dittmann und C. Schmidt, (Hrsg.), Über Wörter. Grundkurs Linguistik.
Rombach Druck- und Verlagshaus, Freiburg, 2002.
[Selting (2009)] M.
e.
a.
Selting.
Gesprächsanalystisches
Transkriptionssystem 2 GAT 2. Gesprächsforschung, 10:353–402,
2009.
[Shatz, Wellmann und Silber (1983)] M. Shatz, H. Wellmann und S. Silber.
The acquisition of mental verbs: A systematic investigation of the first
reference to mental state. Cognition, 14:301–321, 1983.
[Smith (1926)] M. Smith. An investigation of the development of the sentence
and extent of vocablary in young children. Univ. Iowa Studies Child Welf.,
3, 1926.
[Spalek (2012)] K. Spalek.
Wortproduktion.
In B. Höhle, (Hrsg.),
Psycholinguistik. Akademie Verlag, Berlin, 2012.
[Stenzel (1997)] A. Stenzel. Die Entwicklung der syntaktischen Kategorien
Nomen und Verb bei ein- und zweisprachigen Kindern. Gunter Narr
Verlag, Tübingen, 1997.
[Stern und Stern (1928)] C. Stern und W. Stern. Die Kindersprache. Wiss.
Buchges., Leipzig, 1928.
[Stern und Stern (1965)] C. Stern und W. Stern. Die Kindersprache. Wiss.
Buchges., Darmstadt, Nachdruck der 4. Auflage, 1965.
[Sucharowski (1996)] W. Sucharowski. Sprache und Kognition - Neuere
Perspektiven in der Sprachwissenschaft. WV GmbH, Opladen, 1996.
[Szagun (1983)] G. Szagun. Bedeutungsentwicklung beim Kind: Wie Kinder
Wörter entdecken. Urban und Schwarzenberg, München, 1983.
[Szagun (2001a)] G. Szagun. Wie Sprache entsteht: Sprachewerb bei Kindern
mit beeinträchtigtem und normalem Hören. Beltz, Weinheim, 2001a.
[Szagun (2002)] G. Szagun.
Wörter lernen in der Muttersprache: Der
ontogenetische Vokabularerwerb. In J. Dittmann und C. Schmidt, (Hrsg.),
Über Wörter, S. 311-333. Rombach Verlag, Freiburg, 2002.
LITERATURVERZEICHNIS
263
[Szagun (2006)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim,
7. Auflage, 2006.
[Szagun (2008)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim,
2. Auflage, 2008.
[Templin (1957)] M. C. Templin. Certain language skills in children - their
development an interrelationships. University of Minnesota Press,
Minneapolis, 1957.
[Tomasello (1999)] M. Tomasello. The cultural origins of human cognition.
Harvard University Press, Cambridge, Mass. u.a., 1999.
[Tomasello (2000a)] M. Tomasello. Constructing a language. A usage-based
theory of language acquisition. Harvard University Press, Cambridge,
Mass. [u.a.], 2000a.
[Tomasello (2000b)] M. Tomasello. The item based nature of children’s early
syntactic development. Trends in Cognitive Science, 4:156–163, 2000b.
[Tomasello (2003)] M. Tomasello. Die kulturelle Entwicklung des menschlichen
Denkens. Wissenschaftliche Buchgesellschaft, Baden-Baden, 2003.
[Tomasello (2005)] M. Tomasello. Constructing a language. A usage-based
theory of language acquisition. Harvard University Press, Cambridge,
Mass. [u.a.], 2005.
[Tomasello und Kruger (1992)] M. Tomasello und A. Kruger. Acquiring verbs
in ostensive and non-ostensive contexts. Journal of Child Language, 19:
311–333, 1992.
[Verrips (1990)] M. Verrips. Models of development. Linguistische Begriffe.
Sonderheft, 3:11–21, 1990.
[Vogel und Thieroff (2009)] P. Vogel und R. Thieroff.
Wortarten und
grammatische Kategorien. Sprache Stimme Gehör, 33:64–71, 2009.
[Wagner, Dobkins und Barner (2013)] K. Wagner, K. Dobkins und D. Barner.
Slow mapping: Color word learning as a gradual inductive process.
Cognition, 127:307–317, 2013.
[Waxman (1990)] S. Waxman. Linguistic biases and the establishment of
conceptual hierachies: evidence from preschool children. Cognitive
Development, 5:123–150, 1990.
264
LITERATURVERZEICHNIS
[Weiss (1997)] S. Weiss.
EEG-Kohärenz und Sprachverarbeitung. Die
funktionelle Verkopplung von Gehirnregionen während der Verarbeitung
unterschiedlicher Nomina.
In G. Rickheit, (Hrsg.), Studien zur
klinischen Linguistik: Methoden, Modelle, Intervention, Seiten 125–146.
Westdeutscher Verlag, Opladen, 1997.
[Wimmer (2005)] G. Wimmer.
The type-token relation.
In R. Köhler,
G. Altmann und R. Piotrowski, (Hrsg.), Quantitative Linguistics. An
international Handbook. De Gruyter, New York, 2005.
[Winner (1988)] E. Winner. The point of words. Havard University Press,
Cambridge, 1988.
[Wode (1988)] H. Wode. Einführung in die Psycholinguistik. Hueber, Ismaning,
1988.
[Yule (1944)] U. Yule. The statistical study of literary vocabulary. University
Press, Cambridge, 1944.
Herunterladen