Lexikalischer Spracherwerb im Vorschulalter Eine Annäherung an die Komposition des Lexikons von deutschsprachigen Kindern im Alter von drei bis fünf Jahren Erstellung eines Korpuslexikons auf der Basis spontaner Sprachdaten vorgelegt von Julia Schulze M.A. phil. geb. in Neuruppin von der Fakultät I - Geistes- und Bildungswissenschaften an der Technischen Universität Berlin zur Erlangung des akademischen Grades Doktorin der Philosophie - Dr. phil. genehmigte Dissertation Promotionsausschuss: Vorsitzender: Prof. Dr. Stefan Weinzierl Gutachter: Prof. Dr. em. Peter Erdmann Gutachter: PD Dr. See Young-Cho Tag der wissenschaftlichen Aussprache: 7. Dezember 2016 Berlin 2017 Inhaltsverzeichnis 1 Einleitung 9 2 Das Lexikon in der Linguistik 2.1 Das Lexikon - Definition . . . . . . . . . . . . . . . . . . . . . . 2.2 Das Lexikon als Modell . . . . . . . . . . . . . . . . . . . . . . 2.2.1 Modulares Stufenmodell (Levelt) . . . . . . . . . . . . . 2.2.2 Interaktives Aktivierungsmodell (Dell) . . . . . . . . . . 2.2.3 Welches ist das richtige Modell? . . . . . . . . . . . . . 2.3 Das Lexikon bis zu einem Alter von drei Jahren . . . . . . . . . 2.3.1 Von Konstruktionsgrammatiken und anderen Theorien zum Erwerb des Lexikons . . . . . . . . . . . . . . . . . 2.3.2 Der Erwerb des Lexikons - allgemeiner Verlauf . . . . . 2.3.3 Der frühe Wortschatzerwerb nach Kauschke . . . . . . 3 Wortarten in der Linguistik 3.1 Wort und Wortart - Definition . . . . . . . . . . . . . 3.2 Die Kategorisierung von Wortarten . . . . . . . . . . 3.2.1 Kategorisierung nach Kauschke . . . . . . . 3.2.2 Stuttgart-Tübingen-Tagsets (STTS) . . . . . 3.2.3 Die Wahl einer geeigneten Kategorisierung und Begründung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Auswahl . . . . . 4 Beobachtungsstudie - Ziele und Methodik 4.1 Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.1 Sprachaufnahmen . . . . . . . . . . . . . . . . . . . . . 4.1.2 Die Probandinnen und Probanden . . . . . . . . . . . . 4.1.3 Diktiergerät . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Transkription der Daten mit FOLKER . . . . . . . . . . . 4.1.5 Bearbeitung der Audio-Dateien mit AUDACITY . . . . . 4.1.6 Bearbeitung der Transkripte mit dem EXMARaLDA Partitur-Editor . . . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . 13 14 16 17 19 20 22 . 23 . 29 . 33 . . . . 37 37 42 42 44 . 47 . . . . . . 49 50 59 63 66 66 70 . 71 4 INHALTSVERZEICHNIS 4.1.7 Kriterien für das Taggen der Wortarten nach den Richtlinien der STTS . . . . . . . . . . . . . . . . . . . . . 74 4.1.8 Kriterien für die Lemmatisierung der syntaktischen Wörter 84 5 Die Arbeit mit dem CorpusAnalyser 5.1 Die Inhalte im Überblick . . . . . . . . . . . . . . . . 5.2 Die Funktionen des CorpusAnalysers . . . . . . . . 5.2.1 01_wave_convert . . . . . . . . . . . . . . . . 5.2.2 02_create_database . . . . . . . . . . . . . . 5.2.3 03_import_data . . . . . . . . . . . . . . . . . 5.2.4 04_query_db . . . . . . . . . . . . . . . . . . 5.2.4.1 01_tag_count . . . . . . . . . . . . 5.2.4.2 02_typetoken . . . . . . . . . . . . . 5.2.4.3 03_typetoken_lemma . . . . . . . . 5.2.4.4 04_lemma_tag . . . . . . . . . . . . 5.2.4.5 05_lemma_bedeutung . . . . . . . 5.2.4.6 06_typetoken_bedeutung . . . . . . 5.3 Möglichkeiten für die Arbeit mit dem CorpusAnalyser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 90 97 97 98 100 101 101 106 110 117 122 123 126 6 Analyse der Wortarten 129 6.1 Gruppierung der POS-Tags . . . . . . . . . . . . . . . . . . . . . 130 6.2 Altersgruppen im Vergleich . . . . . . . . . . . . . . . . . . . . . 133 6.2.1 Verteilung der Tokens . . . . . . . . . . . . . . . . . . . . 133 6.2.2 Verteilung der Types . . . . . . . . . . . . . . . . . . . . . 138 6.2.3 Das Verhältnis der Types zu den Tokens . . . . . . . . . . 140 6.2.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 143 6.3 Individuelle Unterschiede in den Altersgruppen . . . . . . . . . . 144 6.3.1 Gruppe 1281 bis 1495 . . . . . . . . . . . . . . . . . . . . 146 6.3.2 Gruppe 1496 bis 1708 . . . . . . . . . . . . . . . . . . . . 148 6.3.3 Gruppe 1709 bis 1983 . . . . . . . . . . . . . . . . . . . . 150 6.3.4 Vergleich der individuellen Verläufe mit den Altersgruppen 151 6.3.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . 164 6.4 Analyse der ersten einhundert Wörter je Kind . . . . . . . . . . . 166 6.5 Die Wortartenverteilung bei Erwachsenen . . . . . . . . . . . . . 172 7 Der Grundwortschatz semantisch betrachtet 7.1 Die Bedeutungskategorien . . . . . . . . . 7.1.1 Adjektive . . . . . . . . . . . . . . . 7.1.2 Adverbien . . . . . . . . . . . . . . . 7.1.3 Präpositionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 . 179 . 180 . 181 . 183 INHALTSVERZEICHNIS 7.2 7.3 7.4 7.5 5 7.1.4 Artikel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.1.5 Fremdsprachliches Material . . . . . . . . . . . . . . . . . 184 7.1.6 Interjektionen . . . . . . . . . . . . . . . . . . . . . . . . . 184 7.1.7 Konjunktionen und Subjunktionen . . . . . . . . . . . . . 185 7.1.8 Substantive . . . . . . . . . . . . . . . . . . . . . . . . . . 187 7.1.9 Pronomen . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 7.1.10 Partikeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 7.1.11 Verben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 Tendenzen in der Verwendung von Inhaltswörtern . . . . . . . . 198 7.2.1 Nomen (n-abstr-eig, n-abstr-hdlg, n-abstr-maß, n-abstr-vorg, n-abstr-vorst, n-abstr-zeit, n-abstr-zust, n-belebt, n-unbelebt, ne) . . . . . . . . . . . . . . . . . . 198 7.2.2 Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand)203 7.2.3 Adjektive (ad-part, ad-qual, ad-quant, ad-rel) . . . . . . . 206 7.2.4 Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod, adv-temp) . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 Tendenzen in der Verwendung von Funktionswörtern . . . . . . . 212 7.3.1 Interjektionen (itj) . . . . . . . . . . . . . . . . . . . . . . . 212 7.3.2 Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus, kon-spez, kon-temp, kon-vgl) und Subjunktionen (sub-fin, sub-kaus, sub-kond, sub-konz, sub-mod-instr, sub-neutr, sub-temp) . . . . . . . . . . . . . . . . . . . . . 213 7.3.3 Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos, prels, prf, pwat, pwav, pws) . . . . . . . . . . . . . . . . . 214 7.3.4 Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp) 215 7.3.5 Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad, ptk-neg, ptkvz, ptkzu) . . . . . . . . . . . . . . . . . . . . 215 Hinweise zur Verwendung des Lexikons . . . . . . . . . . . . . . 216 7.4.1 Beispielhafte Ausgabedateien . . . . . . . . . . . . . . . . 217 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . 219 8 Diskussion 223 9 Ausblick 245 Abbildungsverzeichnis 249 Tabellenverzeichnis 251 Literaturverzeichnis 253 6 INHALTSVERZEICHNIS Vorwort Für Richard - meine Inspiration Danke Alex Die vorliegende Arbeit enstand durch die Mitwirkung und Unterstützung zahlreicher Personen, denen ich an dieser Stelle meinen Dank aussprechen möchte. Mein besonderer Dank gilt Herrn Prof. Dr. Peter Erdmann und Herrn PD Dr. habil. See-Young Cho, die mir zu jeder Zeit mit kompetentem fachlichen Rat zur Seite standen. Ich verdanke beiden hilfreiche Unterstützung und viele anregende Gespräche. Sie begleiteten mich während der gesamten Entstehungszeit dieser Arbeit mit vielen kreativen Ideen und wertvoller professioneller Hilfe. Darüber hinaus bedanke ich mich sehr herzlich bei allen Kindern und MitarbeiterInnen der Kita des Studentenwerks an der Technischen Universität Berlin. Ohne die Mitwirkung dieser Menschen hätten die Daten für diese Arbeit nicht erhoben werden können. Meiner Familie danke ich für den ständigen Zuspruch und die seelische Unterstützung. Ich bedanke mich für das Verständnis, vor allem dann, wenn ich nur wenig Zeit für sie hatte. Nicht zu vergessen sind meine lieben Kommilitoninnen und Unimädels, die die vorliegende Arbeit Korrektur lasen und mich in meinem Vorhaben immer bestärkten. 7 8 INHALTSVERZEICHNIS Kapitel 1 Einleitung Diese Arbeit widmet sich dem Lexikonerwerb, genauer gesagt dem fortgeschrittenen Lexikonerwerb von Kindern im Vorschulalter. Untersucht wird die Komposition des Lexikons deutschsprachiger Kinder im Alter von 3;5 bis 5;5 Jahren unter unterschiedlichen Aspekten. An dieser Stelle lässt sich gewiss darüber streiten, ob es sich tatsächlich noch um den Erwerb von Sprache handelt. Man möchte meinen, dass Kinder in diesem Alter schon richtig sprechen können. Und das tun mit Sicherheit auch die meisten von ihnen. Nichtsdestotrotz gibt es Unterschiede zwischen dem Lexikon von Vorschulkindern und dem Lexikon Erwachsener. Die Besonderheiten des kindlichen Wortschatzes sollen in dieser Arbeit herausgearbeitet und dokumentiert werden. „Although aspects of the sound, communicative, morphological, and syntactic systems continue to develop after the age of 5 years, the acquisition of words exhibits the most significant improvements after the preschool years. If the language development of an individual would was mysteriously halted at the age of 5 years, this individual would possess most of the sound, morphological, syntactic, and communicative systems of her native language. However, her vocabulary, at best, would be 25% of that of a normal adult.“ ([Kuczaj (1999)], S. 134) Anknüpfend an Kuczajs Zitat stellt sich die Frage, wie genau sich das Vokabular des Vorschulkindes zusammensetzt. Ein Ziel ist es deshalb, die Verteilung jener Wortarten darzustellen und zu analysieren, die Kinder im Alter von 3 bis 5 Jahren verwenden. Des Weiteren möchte ich im Hinblick auf die Wortarten relevante inhaltliche Aspekte verdeutlichen und wichtige Entwicklungsschritte im Erwerb des Lexikons unter semantischen Gesichtspunkten aufzeigen. Abschließend soll ein Lexikon des Vorschulalters erstellt werden, das den produktiven Wortschatz der hier untersuchten Kinder 9 10 KAPITEL 1. EINLEITUNG mit entsprechenden Bedeutungskategorien enthält. Bei einer anfänglichen Recherche zu bereits bestehenden Erkenntnissen im Hinblick auf dieses Thema stellte sich schnell heraus, dass so gut wie keine Studien, Literatur oder Beschreibungen dazu vorliegen. Dadurch gestaltete sich die Anfertigung der vorliegenden Arbeit zwar sehr mühselig, weil alle gewonnenen Daten und Eindrücke selbst genauestens analysiert werden mussten. Es schaffte jedoch auch eine gewisse Freiheit in der Durchführung der Studie und der anschließenden Analyse der Daten. Es sei an dieser Stelle erwähnt, dass alle Ergebnisse auf reinen Beobachtungsdaten beruhen und nicht experimentell begründet sind. Dennoch sind die Ergebnisse sehr einheitlich und schlüssig im Hinblick auf die bisherige Forschungslage, so dass davon ausgegangen werden kann, diese als wertvollen Beitrag zu bereits bestehenden linguistischen Arbeiten im Bereich der Lexikonentwicklung verstehen zu können. In den meisten Fällen soll auf bisher ermittelte Daten eingegangen werden, die die Lexikonentwicklung bis zu einem Alter von 3;0 Jahren untersuchten. Dies erschien sinnvoll, da ohne diesen Bezug keine Aussagen getroffen werden können. Zu Beginn der Arbeit wird deshalb der aktuelle Forschungsstand im Hinblick auf das mentale Lexikon in Kapitel 2 dargestellt. Es werden relevante Lexikonmodelle präsentiert und versucht, diese in Bezug zu den später ermittelten Daten zu setzen. Ferner werden in diesem Kapitel wichtige Erkenntnisse zum Spracherwerb erörtert. Die in diesem Kapitel erwähnte Konstruktionsgrammatik wird hinzugezogen, da sie meines Erachtens wertvolle Hinweise gibt auf Parallelen zwischen dem Syntaxerwerb und dem Erwerb des Lexikons und weil sie als moderne Spracherwerbstheorie meinen Vorstellungen diesbezüglich entspricht. Im Anschluss daran wird der Erwerb des Lexikons sowie dessen Komposition bis zu einem Alter von 3;0 Jahren auf der Basis einer bereits durchgeführten Untersuchung beschrieben ([Kauschke (2000)]). Diese Studie wird auch an weiteren Stellen in dieser Arbeit zitiert. Der Grund für die häufige Einbeziehung dieser Ergebnisse ist, wie bereits erwähnt, dass es zu diesem Thema keine weiteren mir bekannten Arbeiten gibt, die als Referenz zur vorliegenden Arbeit herangezogen werden könnten. In Kapitel 3 wird definiert, was genau als Wort und als Wortart verstanden wird und wie die Begriffe hier verwendet werden. In Anlehnung an die spätere Durchführung und Analyse der Sprachdaten muss zudem eine geeignete Klassifikation der Wortarten vorgenommen werden. Hierzu werden verschiedene Klassifikationssysteme gesichtet und zwei von ihnen vorgestellt. Insbesondere im Hinblick darauf, dass sich die Sprache des Kindes von jener des Erwachsenen unterscheidet, muss das Klassifikationssystem mehreren Anforderungen genügen. Es sollte alle Wortarten enthalten, die im Lexikon 11 von Kindern im Vorschulalter vertreten sind. Im Idealfall enthält es auch alle Wortarten, die im erwachsenen Lexikon vertreten sind, um so einen späteren Vergleich zu ermöglichen. Ferner ist es wichtig, ein System auszuwählen, das allgemein zugänglich ist und den Anspruch einer gewissen Popularität erfüllt. Im weiteren Verlauf werden in Kapitel 4 die Grundlagen für das Durchführen der Beobachtungsstudie zur Erlangung von spontanen Sprachdaten gelegt. Die Probandinnen und Probanden werden in Bezug auf das Geburtsdatum, das Geschlecht sowie auf weitere soziolinguistische Merkmale vorgestellt. Anschließend erfolgt eine Vorstellung und Erläuterung aller Softwareprogramme, die in der vorliegenden Arbeit Anwendung finden. Im Verlauf der Analysetätigkeit häufte sich eine enorme Datenmenge an, weshalb zur Verarbeitung selbiger ein elektronisches Korpus erstellt wurde. Durch dessen funktionale Basis als Datenbank können vielfältige Aspekte der Sprache untersucht werden, was später gezeigt wird. Nachfolgend soll in Kapitel 5 eine spezielle Software erläutert werden, die zunächst eigens für die Zwecke der vorliegenden Arbeit konzipiert wurde und ohne welche die Ergebnisse dieser Arbeit nicht in der Form vorliegen würden, wie sie es jetzt tun. Da sich durch die ständige und interaktive Weiterentwicklung des Programms zahlreiche unerwartete Möglichkeiten für die Arbeit mit der Software auftaten, wird dieser ein eigenes Kapitel gewidmet. Diesbezüglich werde ich inspirierend weitere Möglichkeiten für linguistische Arbeiten aufzeigen, die dieses Programm bietet. In Kapitel 6 wird in einer Analyse der aus der Beobachtung erhaltenen Sprachdaten die Wortartenverteilung unter unterschiedlichen Aspekten untersucht, unter anderem im Vergleich zwischen zuvor festgelegten Altersgruppen sowie unter Beachtung individueller Unterschiede zwischen den Kindern in unterschiedlichen Altersgruppen. In Kapitel 7 erfolgt schließlich der Hauptteil der vorliegenden Arbeit. Es wird eine Aufstellung aller von den beobachteten Kindern geäußerten Wörter, die in ihrer Form als Lemmata vorliegen, im Hinblick auf ihre semantische Kategorisierung getätigt. Dabei werden, sortiert nach Altersgruppen, alle geäußerten (syntaktischen) Wörter mit den jeweiligen Häufigkeiten, Bedeutungskategorien sowie den jeweiligen Wortartenkategorien annotiert. Als Resultat dieser Arbeit wird ein Lexikon des Vorschulalters in Form eines Korpuslexikons erstellt, das dieser Arbeit als Anhang beigefügt ist. Darin werden alle Lemmata, die in den Daten der vorliegenden Arbeit vorkommen, bezugnehmend auf ihre Bedeutungskategorien aufgeführt und mit authentischen Beispielen versehen. Das erstellte Korpuslexikon bildet damit sehr übersichtlich den ermittelten Wortschatz der hier untersuchten Kinder ab. Ferner wird eine inhaltliche Analyse aller Wortartenkategorien und 12 KAPITEL 1. EINLEITUNG hier insbesondere der Inhaltswörter vorgenommen, um die zuvor ermittelten Daten besser in die bisherige Forschungslandschaft einordnen zu können. In der anschließenden Diskussion (Kapitel 8) sollen die gewonnenen Ergebnisse in Bezug zu den bisherigen Erkenntnissen bezüglich der Komposition des Lexikons gesetzt werden. Ferner wird versucht, aus den ermittelten Daten ein konsistentes Bild der Wortartenverteilung von Kindern im Alter zwischen 3;5 und 5;5 Jahren zu schaffen, das den Ansprüchen neuer wissenschaftlicher Erkenntnisse gerecht wird und als Grundlage für weitere linguistische Arbeiten dienen kann. Diese möglichen weiterführenden Arbeiten sollen in Kapitel 9 aufgezeigt werden. Selbstverständlich sind weitere als dort genannte anschließende Arbeiten möglich und erwünscht. Kapitel 2 Das Lexikon in der Linguistik Im Folgenden soll der Begriff Lexikon definiert werden. Zudem werden einige ausgewählte Ansätze vorgestellt, die den Erwerb des Lexikons bis zu einem Alter von etwa 3;0 Jahren zu erklären versuchen. Detaillierte Beschreibungen der Sprachentwicklung in einem Zeitraum von 3;0 bis 5;5 Jahren sind mir nicht bekannt. Es existiert hingegen einige Literatur zur Entwicklung der zunehmenden Diskursfähigkeit bei Kindern, zur sich entwickelnden Syntax (z. B. [Klann-Delius (1999)]; [Szagun (2006)]; [Tomasello (2005)]) und weiteren linguistischen Teilgebieten. Eine Arbeit, die sich auf die Lexik von älteren Kindern bezieht, liefert Augst (1985). Augst erarbeitete ein Wörterbuch des aktiven gesprochenen Wortschatzes von Kindern kurz vor der Einschulung. Dazu verwendete er über 200 Stunden Material (Audiomaterial und Mitschriften), das über vier Monate hinweg von Angehörigen der untersuchten Kinder gesammelt wurde. Das Ergebnis seiner aufbereiteten und analysierten Daten ist ein alphabetischer und nach Sachgebieten geordneter Wortschatz von zehn Kindern im Alter von 6 Jahren ([Augst (1985)], S. IV). Da dieser Wortschatz eine thematisch abweichende Ausrichtung besitzt als jener, der in der vorliegenden Arbeit im Mittelpunkt steht, soll im Folgenden nicht mehr darauf eingegangen werden. Stattdessen wird eine Untersuchung von Kauschke (1999, 2000) zu Teilen herangezogen ([Kauschke (1999)]; [Kauschke (2000)]). In Abschnitt 2.2 möchte ich auf zwei Modelle eingehen, die das Lexikon in seiner Gänze abzubilden versuchen. Dabei beziehe ich mich auf die wohl bekanntesten Modelle - das Modulare Stufenmodell nach Levelt und das Interaktive Aktivierungsmodell nach Dell. Im Anschluss an die Thematisierung des Lexikons werde ich mich den Wortarten in der Linguistik widmen. Wortarten an sich sind zwar nicht der Hauptuntersuchungsgegenstand dieser Arbeit, sie werden aufgrund der Identifikation von Lemmata als Nomen, Verb, Adjektiv, Adverb und als Funktionswörter jedoch zwangsläufig analysiert und sollen 13 14 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK deshalb nicht gänzlich unbeachtet bleiben. Zudem können sie insbesondere für weiterführende Arbeiten von Interesse sein. 2.1 Das Lexikon - Definition „Sprache funktioniert so, indem das Gehirn jedes Menschen ein Lexikon mit Wörtern und den Konzepten, für die sie stehen (also ein mentales Lexikon), enthält sowie eine Menge an Regeln, nach denen die Wörter kombiniert werden, um Beziehungen zwischen den Konzepten zu bezeichnen (also eine mentale Grammatik).“ ([Pinker (1996)], S. 99) Dieses Zitat Pinkers definiert zwar nicht das Lexikon an sich, doch es zeigt deutlich, welche zentrale Rolle das Lexikon bei der Sprachproduktion spielt. Wie später zu sehen sein wird, spielt neben dem Lexikon die Grammatik eine wichtige Rolle und insbesondere bei der Beschreibung des Wortschatzes von älteren Kindern kann die Grammatik nicht völlig außer Acht gelassen werden. Für Pinker (1996) ist Grammatik ein diskretes kombinatorisches System, welches den Gebrauch unendlicher Mittel ermöglicht. Dabei legt die Grammatik die möglichen Kombinationen von Wörtern fest, die eine Bedeutung ausdrücken können ([Pinker (1996)], S. 99 ff.). Daneben existieren zahlreiche weitere Definitionen für den Begriff Lexikon. Einige von ihnen sollen hier vorgestellt werden und mit der Vorstellung des mentalen Lexikons, wie sie in dieser Arbeit Anwendung findet, in Einklang gebracht werden. Nach Rohde (2005) stellt das Lexikon die Grundgesamtheit aller Wörter einer Einzelsprache dar. Das Vokabular hingegen ist nur eine begrenzte Menge von Wörtern ([Rohde (2005)], S. 4 f.). Clark (1993) beschreibt das Lexikon als Speicher von bereits etablierten Wörtern, die ein/e Sprecher/in während des Sprechens in Anspruch nehmen kann und auf die er/sie während des Hörens zurückgreifen kann ([Clark (1993)], S. 2). Wörter sind demnach die kleinsten semantischen Einheiten in einer Äußerung. Ungeklärt sei allerdings, welche Informationen zusammen mit jedem Wort im Lexikon gespeichert werden. Lexikalische Einträge sollten aber mindestens vier Arten der Information über jeden Gegenstand enthalten, so Clark: die Bedeutung (1), die syntaktische Form (2), die morphologische Form (3), die phonologische Gestalt (4). Ein möglicher Lexikoneintrag könnte dann so aussehen: • Skier • a) one who skis 2.1. DAS LEXIKON - DEFINITION 15 • b) Noun countable • c) stem + -er • d) /skir/ a) und b) sind jene Informationen, die im Lemma enthalten sind, c) und d) geben Aufschluss über die Form ([Clark (1993)], S. 3). Im obigen Beispiel handelt es sich um einen Lexikoneintrag für ein Nomen. Einträge für Verben wiederum würden ausführlichere Informationen enthalten, z. B. die Anzahl der Argumente, so Clark. Bis zu diesem Punkt wird deutlich, dass mit dem Begriff Lexikon, so wie er in dieser Arbeit verwendet wird, keineswegs ein literarisches Lexikon bzw. Wörterbuch gemeint sein kann. So unterscheidet auch Aitchison (2003) zwischen mental lexicon (mentales Lexikon) und dictionary (Wörterbuch) und führt zahlreiche Argumente für eine Unterscheidung beider Begriffe an. Wörterbücher, so Aitchison, listen Wörter alphabetisch auf. Allein diese Tatsache sei bereits ein Grund, weshalb ein Wörterbuch nicht mit dem mentalen Lexikon vergleichbar ist. Wären Wörter im mentalen Lexikon alphabetisch organisiert, so würden Sprecher, wenn sie Fehler beim Sprechen machen, viel öfter einen alphabetisch benachbarten Eintrag wählen, so die Autorin ([Aitchison (2003)], S. 10-14). Bei einem Versprecher des Wortes bewusst, müssten demnach die Wörter bewurzeln oder Bey gewählt werden ([Duden (1996)], S. 165). Die Fehler, die beim Versprechen tatsächlich auftreten, sind allerdings sehr unterschiedlich und lassen nicht auf eine alphabetische Organisation des mentalen Lexikons schließen. Hinweise darauf, dass es sich um keine alphabetische Anordnung der Wörter im mentalen Lexikon handeln kann, gibt auch die Versprecherforschung und die Erforschung des Tip-of-the-tongue-Phänomens. Brown et al. (1966) untersuchten bereits im Jahre 1966 dieses Phänomen. Befinden sich Sprecher in der Situation, dass ihnen ein Wort buchstäblich auf der Zunge liegt, können sie laut Brown et al. oft trotzdem angeben, welcher Artikel zum Wort gehört oder wieviele Silben es enthält. Ebenso ist oft die Betonung bekannt oder aber die Nennung bedeutungs- oder formähnlicher Wörter möglich. Demnach kann ein Wort nicht als Ganzes und schon gar nicht in alphabetischer Reihenfolge im mentalen Lexikon gespeichert sein. Vielmehr muss es sich um zahlreiche unterschiedliche Eigenschaften handeln, die eng miteinander verbunden sind und im Normalfall gleichzeitig funktionieren ([Brown und McNeill (1966)]; siehe auch [Spalek (2012)]). Einen weiteren Grund dafür, dass das mentale Lexikon keinesfalls im Stile eines Wörterbuches organisiert sein kann, sieht Aitchison (2003) in der Tatsache, dass Menschen ständig neue Wörter zum mentalen Lexikon 16 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK hinzufügen ([Aitchison (2003)], ebd.). Letzteres kann also nicht fixiert sein, denn Menschen verändern fortwährend die Aussprache und Bedeutung bereits existierender Wörter. Sie erschaffen neue Wörter und Bedeutungen für mentale Konzepte während des Sprechens. Diese Flexibilität des mentalen Lexikons stehe folglich in Kontrast zum festen Vokabular eines Wörterbuches. Auch Kauschke (2012) spricht im Hinblick auf das mentale Lexikon von einem flexiblen System ([Kauschke (2012)]). Demzufolge besteht der Lexikonerwerb im Anwachsen des Wortschatzes sowie im Aufbau des mentalen Lexikons als Bestandteil des kognitiv-sprachlichen Systems. Das mentale Lexikon ist laut Kauschke ein aktives Speichersystem und es ist als Komponente des Langzeitgedächtnisses zu verstehen. Auch Engelkamp et al. (1999) postulieren die Veränderlichkeit des mentalen Lexikons und schreiben diesem ein hohes Maß an Flexibilität zu ([Engelkamp und Rummer (1999)]). Weiteren Anlass zur Differenzierung in mentales Lexikon und Wörterbuch sei durch die Menge der enthaltenen Informationen gegeben. Das mentale Lexikon enthalte deutlich mehr Informationen über jeden Eintrag als ein Wörterbuch, so Aitchison. Wörterbücher geben nicht viele Informationen preis über die Häufigkeiten des Gebrauchs von Wörtern, wohingegen Menschen beim unbewussten Zugriff auf das mentale Lexikon sich darüber sehr wohl bewusst sind. Das mentale Lexikon enthält zudem Angaben über die syntaktischen Muster, die zum jeweiligen Wort passen sowie mögliche Aussprachevarianten. Wörterbücher hingegen enthalten oft nur eine mögliche Aussprachevariante eines Wortes, obwohl Muttersprachler oft mehrere Varianten verstehen und beherrschen ([Aitchison (2003)], ebd.). Aitchison hat mit ihrer Argumentation die Unterschiede zwischen dem mental lexicon und dem dictionary deutlich gemacht. Da in dieser Arbeit das mentale Vokabular und dessen Komposition im Lexikon von Kindern im Vorschulalter thematisiert wird, soll auch im Folgenden der Begriff (mentales) Lexikon im Sinne von Aitchisons Ausführungen verwendet werden. 2.2 Das Lexikon als Modell Im folgenden Abschnitt werden zwei Theorien vorgestellt, die versuchen, das mentale Lexikon modellhaft darzustellen. Ich habe mich dabei auf die zwei wohl populärsten Modelle konzentriert, obgleich es einige weitere gibt. Zum einen wird das Modulare Stufenmodell von Levelt (1992) vorgestellt, zum anderen möchte ich das Interaktive Aktivierungsmodell nach Dell (1992) näher betrachten ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]). Beide Modelle sind nach wie vor von Bedeutung, wenn es um die Beschreibung 2.2. DAS LEXIKON ALS MODELL 17 des Lexikons in der Sprache geht und sollen in dieser Arbeit in Bezug zur Komposition des Lexikons im fortgeschrittenen Spracherwerb gesetzt werden. 2.2.1 Modulares Stufenmodell (Levelt) Levelt (1992) beschäftigte sich eingehend mit der Funktion des mentalen Lexikons und erschuf sehr detaillierte Theorien, die sich mit den lexikalischen Verarbeitungsprozessen beschäftigen ([Levelt (1992)]). Nach Levelt sind folgende Prozesse beim Zugriff auf lexikalische Information beteiligt: Zunächst muss durch eine lexikalische Auswahl das passende Wort unter vielen tausenden Alternativen im Lexikon erreicht werden. Danach erfolgt die phonologische Enkodierung durch das Berechnen der phonetischen Form aus dem phonologischen Code des ausgewählten Elementes. Um seine kommunikativen Ziele deutlich zu machen, muss der Sprecher seine Nachricht zunächst enkodieren. Dabei stellt eine Nachricht eine konzeptuelle Struktur dar, die verankert ist in der propositionalen Sprache der Gedanken, so Levelt (ebd.). Der Konzeptualisierer (1) beansprucht alle perzeptuellen, motorischen, emotionalen, konzeptuellen und eventuell weiteren Informationen und liefert die Nachrichtenstrukturen als Input an den Formulator (2). Die Aufgabe des Formulators ist es, die Nachricht auf eine sprachliche Form abzubilden und diese grammatisch zu organisieren ([Bierwisch und Schreuder (1992)]). Der endgültige Output ist ein phonetisches Abbild, das durch das artikulatorische motorische System, den Artikulator (3), ausgeführt wird. Dabei involviert der Formulator zwei Verarbeitungskomponenten: den grammatischen und den phonologischen Enkodierer. Der grammatische Enkodierer bedient sich einer Nachricht als Input, ruft lexikalische Elemente vom mentalen Lexikon ab und liefert eine Oberflächenstruktur als Output, so Levelt. Die endgültigen Elemente sind Lemmata, die unspezifizierte Elemente in ihrer phonologischen Form darstellen, nicht aber in ihrer semantischen und syntaktischen Form. Die semantische Spezifikation der Lemmata ist wiederum an eine Reihe konzeptueller Bedingungen geknüpft. So müssen zunächst alle anderen Bedingungen erfüllt sein, um eine Nachricht zu erreichen. Dazu gehört die syntaktische Spezifikation der Lemmata, die Kategorisierungsund Subkategorisierungsinformationen beinhaltet. Die Lemmata werden dann erreicht, wenn ihre semantischen Bedingungen in der Nachricht angetroffen werden. Dadurch werden syntaktische Prozeduren angestoßen, die mit ihren syntaktischen Spezifikationen korrespondieren. Spalek (2012) beschreibt die Modellierung des Lexikons in neueren Arbeiten von Levelt als Netzwerk mit untereinander verbundenen Knoten. Diese Modelle, so Spalek, seien inspiriert von der Informationsweiterleitung, wie sie neuronal im 18 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK Gehirn stattfindet und bei welcher untereinander verbundene Nervenzellen mit Hilfe elektrischer Signale untereinander kommunizieren. Sobald die Aktivierungsenergie eines Knotens einen Schwellenwert überschreitet, wird dieser Knoten ausgewählt. Der ausgewählte Knoten steht dann zur weiteren Verarbeitung zur Verfügung. Spalek führt weiterhin an, dass während des Formulierungsprozesses zunächst eine abstrakte Repräsentation von der Bedeutung und vom grammatischen Inhalt eines Wortes im Lexikon ausgewählt wird. Anhand dieser Repräsentation werde in einem späteren Verarbeitungsschritt auf die Repräsentation der Wortform zurückgegriffen ([Spalek (2012)], S. 53-63; vgl. [Levelt, Roelofs und Meyer (1999)]). Im Modell von Levelt (1992) werden drei Ebenen unterschieden: lexikalische Konzepte (Bedeutung), Lemmaebene (Grammatik) und die Wortformebene (Form) ([Levelt, Roelofs und Meyer (1999)]). Das entsprechende lexikalische Konzept wird aus dem Lexikon ausgewählt, wobei dieser Knoten wiederum mit einem Knoten auf der Lemmaebene verbunden ist, der die abstrakten syntaktischen Eigenschaften des Wortes enthält. Der Lemmaknoten wiederum hat Verbindungen zu einem Wortartknoten, z. B. Nomen und dementsprechend zu einem Genusknoten, z. B. Femininum ([Spalek (2012)], S. 62). In Levelts Modell (1992) sind alle Lemmata der gleichen Wortart mit demselben Wortartknoten verbunden und alle Lemmata, die Wörter des gleichen grammatischen Geschlechts repräsentieren, mit demselben Genusknoten. Sobald Aktivierungsenergie von der Konzeptebene auf die Lemmaebene fließt, wird der zum Konzept gehörende Lemmaknoten ausgewählt und aktiviert wiederum die mit ihm verbundenen Wortart- und Genusknoten. Nach Levelt enthält jede Lemmarepräsentation mehrere Optionen, aus denen je nach Äußerungskontext ausgewählt werden kann. Dabei handele es sich um wortinhärente Eigenschaften (z. B. Nomen und Genus) sowie veränderliche Eigenschaften (Kasus, Numerus, Tempus, Person), die je nach Kontext festgelegt werden. Nachdem ein Lemma ausgewählt wurde, wird der entsprechende Wortformknoten aktiviert und die phonologische Gestalt eines Wortes kodiert. Gleichzeitig werden je nach Bedarf mögliche Flexionsmorpheme aktiviert. So ausgefeilt dieses Modell des Lexikons auch erscheint, ergeben sich doch einige Fragen. Angesichts der Tatsache, dass es sich um eine serielle Verarbeitung aller hier aufgeführten Schritte handelt, bei der es quasi kein Zurück mehr gibt, erscheint gerade das Phänomen der Versprecher meines Erachtens nicht damit erklärt werden zu können. Es kann zwar erklären, weshalb bei Versprechern oft form- oder bedeutungsähnliche Lexeme erreicht werden, nämlich aufgrund ihrer ortsnahen Speicherung im Lexikon, wodurch es zu einer Aktivierung zweier oder mehrerer Lexeme kommen kann. Es 2.2. DAS LEXIKON ALS MODELL 19 erklärt jedoch nicht, weshalb Versprecher, oft noch bevor sie vollständig geäußert werden, anscheinend mental korrigiert und letztendlich als korrektes Lexem hervorgebracht werden können. Dies spräche meines Erachtens für eine interaktive Verarbeitung (Abschnitt 2.2.2), bei welcher auch Rückschritte zu vorhergehenden Stufen erlaubt sind. 2.2.2 Interaktives Aktivierungsmodell (Dell) Nach Dell (1992) besteht kein Zweifel daran, dass lexikalischer Zugang die Abbildung zwischen einer konzeptuellen Repräsentation und der phonologischen Form eines Wortes beinhaltet ([Dell und O’Seaghdha (1992)]). Dells Hypothese ist, dass der lexikalische Zugang, der bei der Sprachproduktion eine Rolle spielt, in zwei Schritte aufgeteilt werden kann: den Lemmatazugang (1), bei dem eine Abbildung erreicht wird zwischen einem zu lexikalisierenden Konzept und einem Lemma sowie dem phonologischen Zugang (2), bei dem ein Lemma in seine phonologische Form übersetzt wird. Eine Frage, die Dell diesbezüglich beschäftigt, ist der zeitliche Verlauf dieser beiden Schritte. Nach Levelts (1992) Ansicht überlappen sich diese nicht, sondern erfolgen nacheinander ([Levelt (1992)]). Dell erklärt, dass es bereits während des Lemmazugangs zu einer Aktivierung der phonologischen Information kommt sowie zu einer Aktivierung der semantischen Information während des phonologischen Zugangs. Formal sieht Dells Interaktives Modell zahlreiche Einheiten vor, die in einem Netzwerk organisiert sind. In diesem Netzwerk erlauben die Verbindungen eine bidirektionale Aktivierung zwischen den Einheiten an den angrenzenden Stufen. Formal erfolgen in diesem interaktiven Lexikonmodell sechs Schritte beim Zugang zum Lexikon in der Produktion (nach ([Dell und O’Seaghdha (1992)], S. 295): 1. Die semantischen Einheiten des zu lexikalisierenden Konzeptes erhalten externen Input. 2. Die Aktivierung breitet sich im Netzwerk aus, bestimmt durch die activation-update-function. 3. Die am meisten aktivierte Worteinheit wird ausgewählt. 4. Wenn ein Wort bereit ist für die phonologische Enkodierung, erhält es einen auslösenden Anstoß zur Aktivierung. 5. Die Aktivierung fährt wie zuvor fort mit der Ausbreitung, aber die passende phonologische Einheit wird zusätzlich signifikant aktiviert. 20 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK 6. Die am meisten aktivierten phonologischen Einheiten werden gewählt und mit freien Slots in einer konstruierten phonologischen Wortform verbunden. Im Gegensatz zu Levelts Modell des Lexikons sind im Interaktiven Aktivierungsmodell interaktive Prozesse zwischen den beteiligten Komponenten möglich. Dadurch ist augenscheinlich gegeben, dass beispielsweise bei einer irrtümlichen Wahl eines Lemmas zum entsprechenden Konzept auch ein Weg zurück möglich ist, um Korrekturen vornehmen zu können. 2.2.3 Welches ist das richtige Modell? Ob eines der eben vorgestellten Modelle das mentale Lexikon in seiner Gänze abbilden kann, kann nicht mit Sicherheit gesagt werden. Es gibt jedoch experimentelle Studien, die dies zu überprüfen versuchten sowie zahlreiche Meinungen für oder gegen die Existenz von Modellen, die das Lexikon schemenhaft darstellen. Klabunde (1998) äußerte sich in einem Artikel zur Wahl dimensionaler Präpositionen und Adverbien in der Sprachproduktion auch zu der Art und Weise des lexikalischen Zugriffs ([Klabunde (1998)]). Wie viele andere Forscher geht Klabunde davon aus, dass eine Zweiteilung des lexikalischen Zugriffs angenommen werden kann. In einem ersten Schritt wird dabei semantisch-syntaktische Information einer lexikalischen Einheit verfügbar; in einem zweiten Schritt wird phonologische Information aktiviert. Diese beiden Schritte können ebenso als Lemmaabruf (1) und Lexemabruf (2) dargestellt werden ([Kempen und Huijbers (1983)]). Diese Zweiteilung, so Klabunde, ist in der heutigen Forschungslandschaft weitestgehend akzeptiert. Uneinig sei man sich darüber, ob es sich bei beiden Prozessen um diskrete sowie interagierende Abläufe handelt. In Bezug auf den Lemmaabruf wiederum existieren dekompositionale ([Levelt (1989)], S. 181-234) und nichtdekompositionale Ansätze (z. B. [Bierwisch und Schreuder (1992)]; [Roelofs (1992)]; [Roelofs (1996)]). Im Hinblick auf dekompositionale Ansätze wird der Abruf der Lemmata durch eine Reihe konzeptuell primitiver Prozesse gesteuert, wobei die Aktivierung weniger, hinreichender Abläufe die Aktivierung eines Lemmas zur Folge hat, so Klabunde (siehe auch [Dell (1986)]). Ein wichtiger Vertreter dieser Theorie ist Morton (1960) mit seinem Logogen-Modell sowie die Autoren Dell et al. (1992), die mit ihrem Interaktiven Aktivierungsmodell postulieren, dass Knoten, die für konzeptuelle Merkmale stehen, mit sogenannten Lemma-Knoten verbunden sind ([Morton (1969)]; [Dell und O’Seaghdha (1992)], siehe auch Abschnitt 2.2.2). Die wohl wichtigste Annahme betrifft das Erreichen von 2.2. DAS LEXIKON ALS MODELL 21 Wortbedeutungen, welche mittels bestimmter Mengen von Merkmalen charakterisiert werden können ([Klabunde (1998)]). Demzufolge soll immer genau ein Lemma eines Wortes erreicht werden, wenn ein Konzept ausgedrückt werden soll und auch dann, wenn das mentale Lexikon im Zuge dessen ein passendes Wort enthält ([Levelt (1989)], ebd.). Probleme beim Erreichen eines Lemmas bestehen vor allem dann, wenn es sich um sogenannte Hyperonyme handelt sowie beim Erreichen von Synonymen ([Roelofs (1992)]). Wenn Wort A die Bedeutung von B impliziert, ist B ein Hyponym von A und A ein Hyperonym von B. Wenn man nun die konzeptuellen Bedingungen eines Hyponyms (z. B. father ) hinzuzieht, werden die Bedingungen seiner Hyperonyme ebenso erfüllt. Demzufolge werden immer alle Hyperonyme eines bestimmten Wortes mit aktiviert ([Levelt (1989)], ebd.). Weiterhin können dekompositionale Theorien nicht erklären, wie die Prozesse beim Erreichen eines passenden Lemmas sich diesem wiederum annähern. Im Falle von Synonymie tauchen ähnliche Probleme auf. Den Abhandlungen Fodors zufolge (1976) haben Äußerungen wie „is a father“ und „is a male parent“ dieselbe untergeordnete Struktur ([Fodor (1976)], S. 124-156). Ungeklärt ist in einem solchen Fall, woher der Abrufmechanismus weiß, ob er ein oder mehrere Lemma/ta auswählen soll ([Roelofs (1992)]). Bei nicht-dekompositionalen Theorien gebe es laut Roelofs (1992) keine derartigen Probleme. Folglich sind MALE (x), PARENT (x, y) und FATHER (x, y) alle Teil der zu erreichenden Nachricht. Man spricht auch von abstrakten Repräsentationen zum Erreichen des Lemmas: z. B. FATHER (x, y) → father ; die Eigenschaften MALE (x) und PARENT (x, y) liegen außerhalb der Nachricht . Des Weiteren nimmt man an, dass ein Konzept einer lexikalischen Einheit entspricht. Demnach sind Lemmata mit lexikalischen Konzepten in einer eins-zu-eins-Beziehung verbunden; die lexikalischen Konzepte wiederum besitzen einen Bezug zu konzeptuellen Merkmalen ([Roelofs (1992)]). Nicht nur Klabunde (1998) steht diesem Ansatz mit Skepsis gegenüber. So bleibt die Frage, wie der Ansatz die Kontextabhängigkeit einer lexikalischen Einheit erklären will. In Anlehnung an den nicht-dekompositionalen Ansatz müsste für jede Bedeutung nur ein Konzept bestimmt werden. Daraus resultiert jedoch, dass die dynamische Eigenschaft von Wörtern, mehrere Bedeutungen haben zu können, nicht ausreichend erklärt werden kann. Das Beispiel: „Ich gehe zur Bank “ macht das Problem deutlich. Gehe ich nun zur Parkbank, um mich hinzusetzen oder gehe ich zur Bank (Institution), um Geld abzuheben, Geld einzuzahlen oder andere finanzielle Angelegenheiten zu erledigen? Die Bedeutung von Bank kann also nur im Kontext geklärt werden. Ein weiteres Problem, das Klabunde anspricht, betrifft die Aktivierung von Mehrwortäußerungen 22 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK ([Klabunde (1998)]). Ich möchte an dieser Stelle noch weiter gehen und dies auf Idiome (oder Metaphern) beziehen. Wenn ein Konzept genau einer lexikalischen Einheit entspricht, wie können dann Idiome wie ins Gras beißen erklärt werden? Man kann zwar annehmen, dass es - auch unter der Annahme eines nicht-dekompositionalen Ansatzes - als eine lexikalische Einheit gespeichert ist. Doch kann an dieser Stelle nicht einfach die gebräuchliche Bedeutung der Lexeme Gras und beißen angewendet werden. Die einzige Erklärung wäre, dass das Idiom ins Gras beißen als eine lexikalische Einheit einem anderen Konzept zugeordnet ist als die einzelnen syntaktischen Wörter ins, Gras und beißen. Es kann nicht mit Sicherheit gesagt werden, ob eines der oben aufgeführten Modelle bzw. Ansätze die Prozesse des mentalen Lexikons korrekt abbildet. Von Interesse für diese Arbeit ist aber, ob anhand der Erwerbsmuster bezüglich der Wortartenverteilung der untersuchten Kinder auf die Vorgänge im kindlichen mentalen Lexikon geschlossen werden kann. Auf diese Frage soll im weiteren Verlauf der Arbeit erneut eingegangen werden (siehe vor allem Kapitel 8). 2.3 Das Lexikon bis zu einem Alter von drei Jahren Um im Verlauf der vorliegenden Arbeit und insbesondere in der später folgenden Analyse der hier erhobenen Daten wichtige Bezugspunkte zu erhalten, habe ich mich entschlossen, auf die aktuell vorliegende Datenlage hinsichtlich des Lexikons im Spracherwerb zurückzugreifen. Dies erschien mir sinnvoll, da ohne jegliche Referenzen keine Einordnung in den bisherigen Forschungsstand getätigt werden kann. Da, mit Ausnahme der Arbeit von Augst (1985) ([Augst (1985)]), keine mir bekannten Daten zur Komposition des Lexikons ab einem Alter von 3;0 Jahren vorliegen, soll in diesem Abschnitt das Lexikon jüngerer Kinder bis zu einem Alter von 3;0 Jahren vorgestellt werden. Im Hinblick auf den Zusammenhang des Erwerbs des Lexikons und der Syntax erschien es angebracht, die Konstruktionsgrammatik hinzuzuziehen, da diese sich eingehend damit beschäftigt. Ferner möchte ich einen allgemeinen Überblick über die einzelnen Schritte geben, die beim Erwerb des Wortschatzes involviert sind. Abschließend wird die Komposition des Lexikons bis zu 3;0 Jahren beispielhaft an einer von Kauschke (1999) durchgeführten Studie aufgezeigt, da an dieser Stelle viele Parallelen zu Teilen der hier vorliegenden Arbeit vorzufinden sind ([Kauschke (1999)], S. 128-157). 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 2.3.1 23 Von Konstruktionsgrammatiken und anderen Theorien zum Erwerb des Lexikons Es existieren unterschiedliche Erklärungsansätze, um den Wortschatz des Kleinkindes zu klassifizieren. Grundlegend sind dabei fast immer die ersten Lexeme, die ein Kind erlernt und die mit den Kategorien, die im Wortschatz Erwachsener vorzufinden sind, klassifiziert werden können: Eigennamen, Nomen, Pronomen, Verben, Adjektive, Adverbien u. a. Eine mögliche Gruppierung sieht folgendermaßen aus ([Nelson (1973)], zitiert in [Tomasello (2000a)], S. 45): • general nominals: apple, shoe • specific nominals: Sarah, Mommy • action words: throw, dance • personal social words: bye-bye, thank you • modifiers: cold, wet • functors: of, and Die meisten Forscher konstatieren, dass Nomen generell vor Verben erworben werden. Ausnahmen bilden dabei Sprachen wie das Koreanische oder das Chinesische, die als sehr verblastig gelten (z. B. [Gopnik (1988)]). Neueren Erkenntnissen zu Folge erlernen die meisten Kinder viele verschiedene Arten von Wörtern bereits sehr früh in ihrer sprachlichen Entwicklung, unabhängig von ihrer relativen Häufigkeit. Dementsprechend ist davon auszugehen, dass Kinder verschiedene Arten von Referenten in ihrer Umwelt individualisieren können. Ein Großteil der ersten Nomen bezieht sich auf konkrete Objekte. Erst später werden abstrakte Nomen erworben, wobei diese nicht unbedingt leichter zu individualisieren sind als Verben oder relationale Wörter ([Tomasello (2000a)], S. 47). Um diese und weitere Annahmen Tomasellos zum Lexikon- und zum Spracherwerb im Allgemeinen aufzugreifen und auszuführen, ist es unvermeidlich, auch andere Aspekte des Spracherwerbs zu betrachten. Während auf der einen Seite die Sprache als angeborene Fähigkeit postuliert wird ([Chomsky (1959)]; [Chomsky (1967)]; [Pinker (1984)]), sind auf der anderen Seite Theorien populär, die davon ausgehen, dass Sprache nach und nach in einem item-basierten Lernprozess1 erworben wird ([Tomasello (2000b)]; [Hilpert (2014)]). Chomsky (1967) nimmt 1 Ich möchte den Begriff item in diesem Zusammenhang nicht ins Deutsche übersetzen, da er folglich nur schwer wiedergeben würde, was gemeint ist. Item meint eigentlich Einheit und diese Übersetzung passt auch hier sehr gut. 24 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK an, dass unser Wissen über Sprache ein wesentlicher Bestandteil unserer genetischen Ausstattung ist ([Chomsky (1967)]). In diesem fest integrierten Bestandteil existieren sogenannte Universalien, die wiederum angeboren sind und von denen zwei Arten beschrieben werden: 1) sogenannte Zutaten wie Parts-of-speech (Nomen, Verben, Adjektive) oder grammatische Relationen wie Subjekt oder Objekt sowie verschiedene Arten von Lauten (Vokale, Konsonanten) und 2) Regeln, mit denen die Zutaten angewendet werden, um eine Sprache zu konstruieren ([Evans (2014)], S. 68). Im Laufe der Jahre wurden zahlreiche Kritiker laut, die die Existenz einer solchen Universalgrammatik weitestgehend widerlegt, zumindest aber angefochten haben (z. B. [Evans (2014)]; [Evans und Levinson (2009)]; [Tomasello (2005)]). Diesen Untersuchungen zufolge ist der frühe Grammatikerwerb eher item-basiert als dass er bestimmten angeborenen Mustern folgt. Eine Frage, die sich in allen Theorien auftut, ist, wie Kinder ein funktionierendes grammatisches System erwerben. Ausgehend von einer regelbasierten Erklärung, wie Chomsky sie postuliert, geht man davon aus, dass Kinder die formalen, abstrakten Schemata, so wie sie in der Sprache vorkommen, unter Berücksichtigung der ihnen angeborenen Universalgrammatik einfach lernen müssen. Kinder werden demnach mit den syntaktischen Kategorien sowie Parts-of-speech konfrontiert und kombinieren diese mit Hilfe des Regelapparates zu einer funktionierenden Grammatik. Im Gegensatz dazu bietet eine Erklärung in Anlehnung an die Konstruktionsgrammatik eine andere Perspektive auf den Spracherwerb, wie sie zum Beispiel von Hilpert (2014) anschaulich dargestellt wird. Hilperts Ausführungen zufolge sind die formalen Schemata, die Kinder erwerben müssen, eng mit dem lexikalischen Material verbunden, das in ihnen vorkommt. Deshalb nimmt man an, dass Kinder zunächst nur konkrete Phrasen lernen, die erst nach und nach abstrakter werden; und zwar dann, wenn das Kind Ähnlichkeiten zwischen verschiedenen konkreten Phrasen entdeckt ([Hilpert (2014)], S. 157). Dies widerspricht nativistischen Theorien, die davon ausgehen, dass die Sprache der Kinder mental durch die gleichen Regeln und Kategorien repräsentiert ist wie die Sprache Erwachsener ([Pinker (1984)]). Nach Auffassung eines item-basierten Grammatikerwerbs sind die mentalen Repräsentationen des Kindes unterschiedlich von denen erwachsener Sprecher/innen. Denn warum würde ein Kind ansonsten eher viele konkrete Phrasen verwenden, wenn doch die abstrakten Strukturen Erwachsener bereits als intergrierter Bestandteil beim Kind vorliegen. Da Kinder abstrakte Strukturen erfahrungsgemäß nicht von Beginn an beherrschen, spricht dies eher für einen item-basierten Erwerb der Grammatik. Nach dieser konstruktionsbasierten Erklärung (Konstruktionsgrammatik) 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 25 erlernen Kinder abstrakte Schemata, von denen man glaubt, dass sie durch häufiges Hören ähnlich strukturierter Äußerungen hervorgehen und sich nur in gradueller Weise entwickeln ([Tomasello (2000b)]). Dies impliziert auch, dass die kindlichen Konstruktionen eigenständig eingeübt werden müssen. Ein weiteres Kriterium, das für die Konstruktionsgrammatik spricht, führt Hilpert (2014) an. Hilpert zufolge betrifft dies die soziokognitiven Grundlagen des Spracherwerbs. Die Konstruktionsgrammatik zweifelt zwar nicht daran, dass Menschen von Geburt an mit einer gewissen Fähigkeit, Sprache zu erlernen, ausgestattet sind. Doch die Frage ist, ob diese angeborene Fähigkeit tatsächlich auch spezifisch für den Erwerb von Sprache ist oder sich eventuell auch auf andere kognitive Fähigkeiten erstreckt ([Hilpert (2014)], S. 158 f.). Auf der Basis experimenteller Befunde fasst Hilpert (2014) jene Faktoren zusammen, die es dem Menschen ermöglichen, Sprache auf eine sozial begründete Art zu erwerben ([Hilpert (2014)], S. 159-163; vgl. [Tomasello (2005)]). All diese Qualitäten können schon bei Babies beobachtet werden, die im Begriff sind, Sprache zu erwerben. Nicht alle Faktoren sind hierbei spezifisch menschlich bzw. sprachlich, sondern können zum Teil auch bei Primaten nachgewiesen werden. 1. Joint attention: entsteht in Situationen, in denen das Kind und seine Bezugsperson ihre Aufmerksamkeit gleichzeitg auf ein drittes Objekt richten und sich dieser gemeinsamen Aufmerksamkeit bewusst sind. 2. Intention reading: die Fähigkeit von Babies bzw. Kindern, die Handlungen anderer Akteure als sinnvoll und zielgerichtet zu erachten. 3. Schematisierung: erlaubt Kindern Ähnlichkeiten zwischen Phrasen wie more juice, more apple, more milk zu erkennen und daraus ein Muster zu abstrahieren, wie more X, das eine freie Stelle für andere linguistische Elemente bereit hält. 4. Rollentausch und Imitation: beide Faktoren spielen eine entscheidende Rolle für das triadische Muster der Joint attention. Die Fähigkeit, Laute, die von anderen Personen geäußert werden, zu imitieren, ist essentiell, um Sprache zu erlernen. Umgekehrt muss das Kind lernen, dass es selbst in die Rolle der Laute produzierenden Person schlüpfen kann und so zum Sender wird. 5. Musterwiedererkennung: betrifft die Fähigkeit statistische Regularitäten (Muster) in der Sprache zu erkennen. Einige dieser Fähigkeiten (zum Beispiel Schematisierung und Musterwiedererkennung sind keine typisch menschlichen, während die Fähigkeiten Joint 26 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK attention, Intention reading und Imitation dem Menschen zuzuschreiben sind ([Hilpert (2014)], S. 163). Insbesondere weil auch andere Lebewesen diese Qualitäten aufweisen, muss es laut Tomasello (1999) noch einen anderen Grund geben, weshalb Menschen Sprache erlernen. Tomasello (ebd.) zufolge ist kulturelle Intelligenz als typisch menschliche Fähigkeit ausschlaggebend für das Erlernen von Sprache, die vor allem die Qualitäten des Intention reading beinhaltet und wodurch sich Sprache als typisch menschliche Fähigkeit auszeichnet ([Tomasello (1999)]; [Tomasello (2003)]). Ausgehend von den Annahmen der Konstruktionsgrammatik zum Erwerb von Sprache im Allgemeinen soll nun noch einmal der Erwerb des Lexikons in diesem Zusammenhang betrachtet werden. In den verschiedenen Versionen der Konstruktionsgrammatik geht man davon aus, dass das Verhältnis von Lexikon und Grammatik nicht als modular angesehen wird ([Behrens (2011)]). Vielmehr ist es eine Art Kontinuum, bei dem konkrete Morpheme und Wörter auf der einen Seite stehen und grammatisch abstrakte auf der anderen Seite, so Behrens. In seiner usage-based theory of language acquisition beschreibt Tomasello (2000) folgende Prozesse, die grundlegend für den Erwerb des Lexikons sind: 1. Voraussetzende referents 2. Grundlegende learning Prozesse: Prozesse: 3. Vereinfachende Prozesse: ([Tomasello (2000a)], S. 58) segmenting joint-attention, lexical speech, conceptualizing intention-reading, contrast, linguistic cultural context Demnach stellen sich Kinder während ihres ersten Lebensjahres auf die Sprachunterschiede und Muster in ihrer Muttersprache ein. Das Erlernen eines neuen Verbs sei dabei besonders schwierig. Die Gründe dafür sind, dass die unterschiedlichen Zustände eines Verbs kurzlebig sind, wodurch die referentielle Situation oft nicht greifbar ist, wenn ein Verb geäußert wird. Tomasello et al. (1992) fanden zum Beispiel heraus, dass Kinder Verben am besten in direkt bevorstehenden Situationen erlernen, am zweitbesten durch gerade abgeschlossene Aktionen und am schlechtesten in Situationen, die gerade im Gange sind. Für den Erwerb neuer Wörter spielt außerdem der lexikalische Kontrast eine entscheidende Rolle. Dieser hilft Kindern, die jeweiligen Referenten in den unmittelbaren Situationen zu identifizieren. Mit 3 oder 4 Jahren besitzen Kinder ausreichend syntaktisches Wissen, um damit neue Wörter zu erwerben. Das bedeutet also, dass 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 27 das Erlernen neuer Wörter untrennbar mit dem Erwerb von Sprache im Allgemeinen verbunden ist. Der Spracherwerb wiederum kann am besten als Spezialfall kulturellen Lernens beschrieben werden, in welchem Kinder versuchen, die Ziele Erwachsener im Hinlick auf ihre eigenen Ziele zu unterscheiden, so Tomasello ([Tomasello und Kruger (1992)]). In dieser von ihm postulierten Social-Pragmatic-Theory liegt der Fokus auf zwei sich von Natur aus beschränkenden Aspekten im Wortlern-Prozess: 1) der strukturierenden sozialen Welt, in welche Kinder hinein geboren werden und 2) den sozial-kognitiven Kapazitäten der Kinder, um in der strukturierten Welt teilzunehmen (z. B. durch Joint-attention). Menschliche Kommunikation kann immer nur dann stattfinden, wenn es einen common ground zwischen Sprecher und Hörer gibt. Sprache wird also ganz nebenbei erworben: „In social-pragmatic view, then, children acquire linguistic symbols as a kind of by-product of social interactions with adults, in much the same way they learn many other cultural conventions. ([Tomasello (2000a)], S. 90)“ Im Gegensatz zu den oben angeführten Theorien (vgl. die Abschnitte 2.2.1, 2.2.2, 2.2.3) hat die Social-Pragmatic-Theory zudem eine Erklärung für den Beginn des Spracherwerbs. Der Spracherwerb ist folglich abhängig von der Fähigkeit, Aufmerksamkeit mit anderen Menschen zu teilen, um daraus wiederum Symbole zu formen. Diese Fähigkeiten setzten mit etwa einem Jahr ein ([Tomasello (2005)]). Interessanterweise wurde herausgefunden, dass die lexikalische und grammatische Entwicklung stark interkorrelieren ([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]). Demnach weitet sich das Vokabular von Kindern rasant aus, kurz nachdem die Anwendung grammatischer Strukturen in der Sprache zu verzeichnen ist. Dies könne als eine synergistische Interaktion zwischen Lexikon und Grammatik gedeutet werden. Bates et al. (1999) fanden diesbezüglich heraus, dass kurz nachdem Kinder einen Wortschatz von einigen hundert Wörtern besitzen, diese ernsthaft mit der grammatischen Rede beginnen. Zudem entdeckten sie eine positive Korrelation zwischen den lexikalischen und grammatischen Fähigkeiten von Kindern zu allen Zeitpunkten der frühen Entwicklung ([Bates und Goodman (1999)]). Erklärungen für diese Korrelationen seien Tomasello (2005) zufolge, dass Kinder erst eine gewisse Anzahl an Wörtern besitzen müssen, bevor sie syntaktische Konstruktionen verstehen. Das Verstehen von Wörtern helfe also beim Verstehen grammatischer Konstruktionen. Umgekehrt helfe das Wissen um syntaktische Konstruktionen beim Erlernen neuer Wörter. Es sei zudem möglich, dass das Erlernen von Wörtern und das Erlernen grammatischer Konstruktionen gleichermaßen 28 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK Teile derselben übergreifenden Prozesse sind ([Tomasello (2000a)], S. 93). Auch Clahsen (1990) und Borer (1984) sehen einen starken Zusammenhang zwischen der lexikalischen und grammatischen Entwicklung ([Clahsen (1990)]; [Borer (1984)]). Die Lexical Learning Hypothesis sieht den Spracherwerb als Wortschatz-Entwicklungsprogramm: Die grammatische Entwicklung wird dabei geleitet durch das Lernen lexikalischer Elemente. Um neue Sätze zu verstehen, müssen Kinder über individuelle Inputäußerungen hinaus Generalisierungen vornehmen ([Tomasello (2000a)]). Anhänger dieser Theorie stehen dem Prinzip der Universalgrammatik (z. B. [Chomsky (1967)]) nicht durchweg negativ gegenüber. Die Universalgrammatik sei von Beginn des Grammatikerwerbs vorhanden. Kinder müssen nur noch die grammatischen Eigenschaften (Funktionen) der lexikalischen Elemente, die mit den Parametern verbunden sind, lernen. Nach Borer (1984) äußert sich eine angeborene Regelfähigkeit darin, dass das Kind einen Wert an einer offenen Stelle eines Parameters ersetzt, der sich aus den Prinzipien der Universalgrammatik herleitet. Am Anfang der Entwicklung besitzt ein Parameter solche Leerstellen, weshalb das Kind nicht ein ganzes Regelwerk erwerben müsse. Vielmehr würde es jeweils einen Parameter setzen und erwirbt so ein Lexikon, das nach und nach aufgefüllt wird ([Borer (1984)], S. 1-3; siehe auch [Borer und Wexler (1987)]). Pinker (1984) präzisiert dieses Konzept dahingehend, dass der Input syntaktischer Kategorien nach den Wortarten (die das Kind im Input wahrnimmt) oder gar anderen Kategorisierungen bewertet werden sollte. Er schlägt daher die Hypothese des Semantischen Bootstrapping vor: Das Kind nutzt die semantischen Eigenschaften der Sprache, um daraus syntaktische Regeln abzuleiten ([Pinker (1984)], S. 39 f., siehe auch [McNamara (1982)]; [Grimshaw (1981)]; [Gleitman (1990)])). Dies ergäbe eine Grammatik, deren syntaktische Kategorien typisch semantische Konzepte enthalten ([Sucharowski (1996)], S. 129). Das heißt, dass bestimmte Verhältnisse zwischen perzeptuellen und syntaktischen Kategorien, die wiederum durch semantische Kategorien vermittelt werden, dem Kind helfen können, mit dem Syntaxerwerb zu beginnen ([Pinker (1994)]). Dafür sind allerdings bestimmte universale Verbindungsregeln (Linking rules) erforderlich, mit denen das Kind ausgestattet ist. Eine solche Regel könnte zum Beispiel das Wissen darüber beinhalten, dass die Agenten von Handlungen immer Subjekte in Aktivsätzen darstellen. Sobald aus dem perzeptuellen Kontext und der Wortbedeutung geschlossen werden kann, dass ein bestimmtes Wort auf einen Agenten einer Handlung referiert, kann das Kind schlussfolgern, dass es sich dabei um ein Subjekt handeln muss. Sobald diese Subjektposition als Parameter oder Regel fest verankert ist, kann der Syntaxerwerb zusammen mit weiteren 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 29 Wortlernprozessen voranschreiten. Laut Pinker (1994) kann das Kind dann schlussfolgern, dass jedes neue Wort in dieser Position ein Subjekt sein muss. Im Gegensatz zum semantischen Bootstrapping wird beim syntaktischen Bootstrapping angenommen, dass der Prozess des Lernens neuer linguistischer Ausdrücke unter Zuhilfenahme des linguistischen Kontextes, in den die Ausdrücke eingebettet sind, vonstatten geht ([Tomasello (1999)], S. 122). Genau dies würde aber beide Ansätze inkompatibel machen ([Bowerman und Brown (2008)], zitiert in [Behrens (2011)], S. 380). Beim semantischen Bootstrapping wäre die Semantik Voraussetzung für den Erwerb der Syntax, während beim syntaktischen Bootstrapping die syntaktischen Kategorien und Relationen den Erwerb der Semantik ermöglichen. Ob und welche der hier erwähnten Ansätze den Lexikonerwerb korrekt wiedergeben, kann an dieser Stelle nicht beurteilt werden. Es macht jedoch den Anschein, dass das Erlernen von Wörtern, Wortkategorien und damit verbunden der Aufbau des mentalen Lexikons nicht losgelöst vom allgemeinen Prozess des Spracherwerbs betrachtet werden kann. 2.3.2 Der Erwerb des Lexikons - allgemeiner Verlauf Um den Erwerb des Lexikons zu beschreiben, kann auf zahlreiche Theorien zurückgegriffen werden, die ihrerseits oft sehr spezielle Aspekte beinhalten. Dabei werden so unterschiedliche Sichtweisen zu Tage gebracht, dass nur eine Theorie selten eine Grundlage für weiterführende Untersuchungen bilden kann. Einigermaßen einheitlich sind glücklicherweise die bloßen Beschreibungen des Auftretens bestimmter Wortarten zu verschiedenen Zeitpunkten des Lexikonerwerbs (vorwiegend für das Deutsche und das Englische). Kinder zwischen 1;0 und 1;6 Jahren haben einen Wortschatz von annähernd 50 Wörtern aufgebaut ([Klann-Delius (1999)], S. 36). Zwischen 1;6 und 2;0 Jahren ist der Wortschatz auf 50 bis 200 Wörter angewachsen; ab einem Alter von 2;0 verfügen Kinder über 500 bis 600 Wörter ([Clark (1993)], S. 21 f.). Laut Clark (1993) sind die Entwicklungsverläufe hinsichtlich des Wortschatzzuwachses immer individuell. Einige Kinder produzieren monatelang nur ein Wort und keine Mehrwortäußerungen, während andere Kinder die Einwortphase komplett weglassen und ausschließlich Mehrwortäußerungen produzieren ([Clark (1993)], S. 22). Ab 1;9 Jahren kommt es zu einer sprunghaften Ausweitung des Wortschatzes, wobei ab einem Alter von 3;6 Jahren eine Verlangsamung zu verzeichnen ist ([Wode (1988)], S. 144 und S. 150). Auch Dittmann (2006) stellte fest, dass der Wortschatzerwerb starken individuellen Schwankungen unterliegt. In der Praxis bedeutet das, dass Kinder, die sehr früh erste Wörter erwerben, diesen 30 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK Vorsprung auch im 2. und 3. Lebensjahr behalten ([Dittmann (2006)], S. 45). Laut Wode (1988) kann davon ausgegangen werden, dass der Lexikonerwerb mit etwa 12;0 Jahren im Wesentlichen abgeschlossen ist [Wode (1988)], S. 144). Das Ehepaar Stern (1965) beschäftigte sich bereits zu Beginn des 20. Jahrhunderts mit der sprachlichen Entwicklung des Kindes ([Stern und Stern (1928)]; [Stern und Stern (1965)]). Sie teilten den Spracherwerb in Phasen ein, die in der Literatur unter anderem von Augst (1977) wiedergegeben werden. In der Anfangsphase seien Dingwörter, die visuell sichtbare Gegenstände bezeichnen, ein großer Bestandteil des Wortschatzes. Dabei bezeichnet das Kind die Aspekte seiner unmittelbaren Umgebung, wie Familienmitglieder, Spielsachen, Nahrung, Tiere und anderes ([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) beschreiben diese Aspekte folgendermaßen: „Das Kind wählt naturgemäß pädozentrisch; seine Umgebung, seine Interessen: Eltern, Geschwister, Wärterin, Spielsachen und Tiere, Eßbares und Trinkbares, Tönendes und Bewegtes, bilden das ausschließliche Material für seinen ersten Wortschatz.“ ([Stern und Stern (1965)], S. 195) Daneben existieren relationale Wörter, die den Zustand von Objekten beschreiben ([Klann-Delius (1999)], S. 37). Wenn Kinder nach und nach neue Wörter zu ihrem Vokabular hinzufügen, bilden sie nach Erkenntnissen von Clark (1993) weitere Domänen aus. Demnach können Ausdrücke, die früher in einer Domäne verankert waren, in Untergruppen zergliedert werden. Dasselbe passiere mit deiktischen Ausdrücken, die separiert werden in Subjekt (I, me, you), Objekt (me, you) und Possessivpronomen (my, mine, your ) einerseits und Ausdrücken für Orte (here, there), Objekte (this, that) und Zeitangaben (now, yesterday ) andererseits ([Clark (1993)], S. 31 f.). Eine analoge Ausweitung und spätere Unterteilung in einzelne Unterbereiche findet mit nominalen und verbalen Ausdrücken statt, so Clark (ebd.). Eine Analyse der Verteilung der Wortarten und der Struktur des Wortschatzes sei erst dann möglich, wenn Kinder begonnen haben, Wörter zu kombinieren und diese in Verbindung mit grammatischen Morphemen zu verwenden. Dies passiert laut Clark (1993) im Englischen zum Beispiel durch den Artikel the oder das Pluralmorphem -s, welche signalisieren, dass es sich um ein Nomen handelt. Die Morpheme -ing oder -ed würden hingegen auf ein Verb hinweisen ([Clark (1993)], S. 38). Szagun (2006) fand diesbezüglich heraus, dass die ersten Wörter des Kindes folgendermaßen nach Wortarten klassifiziert werden können: 60,5% Nomen, 28,6% Funktionswörter, 6,7% 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 31 Verben und 4,7% Adjektive. Dabei gebe es allerdings unterschiedliche Verteilungen bei sogenannten expressiven Kindern im Gegensatz zu referentiellen Kindern. Erstere würden mehr Funktionswörter als Nomen verwenden, so Szagun ([Szagun (2006)], S. 121 f.). Bei derartigen Aussagen über die Verteilung der Wortarten im Lexikon sollte nicht vergessen werden, dass auch die Muttersprache bzw. deren Input eine entscheidene Rolle spielt. Im Koreanischen steht das Verb immer am Satzende, die Auslassung von Nomen ist in gegebenen Kontexten erlaubt. Folglich produzieren koreanische Kinder Verben mit überwiegend koreanischer Flexion früher als englische Kinder ([Dittmann (2006)], S. 49). Englischsprachige Kinder hingegen weisen früher ein differenzierteres Benennvokabular auf und sind besser bei Aufgaben zur Objektkategorisierung. Koreanischsprachige Kinder verwenden hingegen früher ein differenziertes Verbsystem, so Dittmann (ebd.). Auch Meibauer et al. (1999) führen an, dass Nomen im Deutschen und Englischen einen überwiegenden Anteil am Gesamtwortschatz und damit auch als Type-Frequenz im Input ausmachen. Zudem bezieht sich ein großer Teil der Arbeiten zum Wortschatzerwerb auf den Erwerb von Objektwörtern und Eigennamen, während der Erwerb von Nomen im Allgemeinen, Verben und Adjektiven bisher eher unerforscht ist ([Meibauer und Rothweiler (1999)], S. 9-31). Im Anschluss an die durch Stern&Stern (1965) beschriebene erste Phase vollzieht sich die Phase der Benennung von Aktionen, in welcher laut Augst (1977) Tätigkeiten und Vorgänge benannt werden ([Augst, Bauer und Stein (1977)], S. 25). Stern&Stern (1965) sehen die dortigen sprachlichen Entwicklungen vor allem im Zusammenhang mit der Phase der Dingwörter : „Viel mehr geht mit dem starken Aufschwung der Gegenstandsbezeichnungen schon ein leises Einsetzen der Tätigkeitswörter Hand in Hand; das „Aktionsstadium“ bereitet sich vor.“ ([Stern und Stern (1965)], S. 196) In der darauffolgenden Phase kommt es zur lexikalischen Strukturierung der Wörter in Wortfelder ; die zwischen 3;0 und 12;0 Jahren angesiedelt ist und unter anderem durch das Auftreten polarer Adjektive und relational definierter Verwandschaftswörter gekennzeichnet ist ([Wode (1988)], S. 144). Dittmann (2006) konstatiert eine hohe Differenzierung des Wortschatzes mit etwa 3;0 Jahren, welche als Ausdruck von innerpsychischen Prozessen verstanden werden kann ([Dittmann (2006)], S. 49). Demzufolge verwenden Kinder in dieser Phase zunehmend Nomen für Gefühle und mentale Prozesse (Idee), Verben, die sich auf emotionale Vorgänge beziehen (mögen, brauchen, dürfen, weinen, helfen) und Verben, die mentale Prozesse beschreiben 32 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK (wissen, glauben). In der neueren Forschung beziehen sich Kinder allerdings bereits zwischen dem zweiten und dritten Lebensjahr mit Wörtern auf innere Zustände ([Klann-Delius (1999)], S. 37). Bloom et al. (1993) fanden heraus, dass der Anteil der Nomen, mit denen Objekte bezeichnet werden, einen Anteil von einem Drittel des gesamten Outputs von Kindern zwischen 9 und 23 Monaten ausmachten, sowohl in ihrem Vorkommen als Types als auch als Tokens ([Bloom, Tinker und Margulis (1993)]). In einer Studie von Bates et al. (1994), in der Kinder mit einem durchschnittlichen Alter von 1;8 Jahren untersucht wurden, lag der Anteil der Nomen bei 55% in Relation zu einem umfänglichen Vokabular von 100 bis 200 Wörtern ([Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)]). Kauschke (1999) konnte zeigen, dass der Anteil der Nomen zu Gunsten eines Anstiegs von Verben und Funktionswörtern danach wieder abfällt ([Kauschke (1999)]; siehe auch Abschnitt 2.3.3). Die meisten Untersuchungen zum kindlichen Lexikon zielen entweder darauf ab zu ermitteln, wie viele Wörter das Lexikon des Kindes zu unterschiedlichen Zeitpunkten enthält oder aber es wird die Dominanz von Nomen vs. Verben (und gegebenenfalls weiteren Wortarten) bzw. deren Erwerbsfolge insbesondere zu Beginn des Spracherwerbs untersucht (z. B. [Goldfield (2000)]; [Gentner (1982)]; [Bassano (2000)]; [Clark (1993)]; [Kauschke (1999)]). Szagun (2006) zeigte, dass viele Wörter im frühen Vokabular Nomen sind. Sobald Verben im kindlichen Wortschatz auftauchen, sind diese zunächst Aktionswörter wie gehen, essen oder laufen. Erst später kämen Verben hinzu, die kausale Wirkungen beinhalten, im zweiten Lebensjahr tauchen die ersten Adjektive im Vokabular auf ([Szagun (2006)], S. 115 ff.). Szagun (2006) untersuchte auf der Grundlage von 22 Kindern das Vorkommen von Nomen, Verben und Adjektiven auf zwei unterschiedlichen Wortschatzniveaus. Auf einem frühen Wortschatzniveau wies der produktive Wortschatz der Kinder durchschnittlich 74 Wörter auf, wovon 47,9% Nomen, 10% Verben und 4,1% Adjektive waren. Auf dem späten Wortschatzniveau beinhaltete der Wortschatz durchschnittlich 187 Wörter, wovon 33,1% Nomen, 23,4% Verben und 5,1% Adjektive waren. Der Anteil der Funktionswörter belaufe sich in beiden Altersstufen auf einem annähernd ähnlichen Anteil von 37,4% bzw. 38,3% ([Szagun (2006)], S. 121 f.; siehe auch [Szagun (2001a)]; [Szagun (2002)]). Eine Vielzahl der Untersuchungen umfasst die produktive Lexikonentwicklung, also das expressive Vorkommen von Nomen und Verben im Wortschatz ([Kauschke (2007)], S. 59). Die vorwiegende Untersuchung von Nomen und Verben hängt vermutlich damit zusammen, dass diese Wortkategorien mit einem großen Anteil am Wortschatz vorkommen und 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 33 in ihrer Funktion als Inhaltswörter vor allem im Zusammenhang mit der grammatischen Entwicklung einem stärkeren Wandel unterliegen. Alle übrigen Wortklassen sind mit zum Teil nur geringen prozentualen Anteilen vertreten, was einen Vergleich des Vorkommens dieser Wortklassen schwierig macht. Die bevorzugte Untersuchung des produktiven, nicht aber des rezeptiven Wortschatzes, ist darin begründet, dass der produktive Wortschatz leichter, wenn auch niemals vollständig, erfasst werden kann. Laut Kauschke (2007) lassen sich jedoch keine Rückschlüsse auf die mentalen Repräsentation der Wortarten ziehen, nur weil Kinder in ihrer Spontansprache Wörter bestimmter Kategorien verwenden (ebd.). Die Schwierigkeit hierbei stellt vermutlich das Alter der Kinder dar, die gerade in sehr frühen Stadien des Spracherwerbs Wörter verwenden, die den sprachlichen Kategorien des erwachsenen Lexikons nur schwer zuordenbar sind. Trotz dieser Schwierigkeiten untersuchte Kauschke (1999) die Verteilung der Wortarten bei Kindern im Alter von 13 bis 36 Monaten ([Kauschke (1999)]). Für ihre Auswertungen verwendete sie bei der Kategorisierung der Wortarten eine dieser Altersspanne entsprechende Klassifikation (Abschnitt 2.3.3). Kauschke (1999) untersuchte in einer empirischen Studie mehrere Fragestellungen zum Lexikonerwerb bis zu einem Alter von 3;0 Jahren. Diese Studie soll mit ihren Ergebnissen im Folgenden näher betrachtet werden, da sie ähnliche Ziele verfolgt wie die vorliegende Arbeit. Der wesentliche Unterschied der vorliegenden Arbeit und der Arbeit von Kauschke besteht in Bezug auf das Alter der Kinder sowie in der Methodik, wodurch ein aussagekräftiger Vergleich beider Arbeiten hier nicht vorgenommen werden kann. Kauschke stellt die Wortartenverteilung deutschsprachiger Kinder zwischen 1;0 und 3;0 Jahren dar, während in der vorliegenden Arbeit Kinder von 3;5 bis 5;5 Jahren untersucht wurden. Zudem soll später eine inhaltliche Analyse aller Kategorien vorgenommen werden, welche bei Kauschke in dieser Form nicht auftaucht (Kapitel 7). 2.3.3 Der frühe Wortschatzerwerb nach Kauschke Kauschke (1999) untersuchte eine Stichprobe von 32 Kindern (16 Jungen, 16 Mädchen), welche aus einem bestehenden Datenkorpus2 ausgewählt wurde. Bei der Untersuchung handelte es sich um eine Längsschnittstudie, die vier Erhebungszeitpunkte umfasste. Drei Termine lagen im zweiten Lebensjahr (13, 15, 21 Monate), der Zeitpunkt der letzten Aufnahme mit 36 Monaten 2 Die Daten sind dem von der DFG im Schwerpunkt „Spracherwerb“ und von der Köhler-Stiftung geförderten Projekt „Die Bedeutung der emotionalen Qualität der Mutter-Kind-Aktion für den Erwerb der Dialogfähigkeit des Kindes – eine empirische Studie“ unter der Leitung von G. Klann-Delius entnommen ([Kauschke (1999)], S. 138). 34 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK diente als Vergleichspunkt. Die Aufnahmesituation der Daten bestand in der freien Interaktion zwischen Mutter und Kind in einem Untersuchungsraum. Es wurden Videoaufnahmen erzeugt, mittels welcher im Anschluss Transkripte über zehn Minuten erstellt wurden. Festgehalten wurden alle verbalen, vokalen und paraverbalen Äußerungen von Kind und Mutter. Für die Analyse wurde jedes einzelne Wort extrahiert und in seiner zielsprachlichen Form notiert. Anschließend wurde jedes auf diese Weise erhaltene Wort in eine Datenbank überführt und die Type-Token-Relation ermittelt. Danach wurden die Wörter folgenden Wortartenkategorien zugeordnet (vgl. 3.2.1): • Nomen • Verben • Adjektive • personal-social words • relationale Wörter • Pronomen • Funktionswörter • Onomatopöien • Sonstige Die Datenbank umfasste laut Kauschke (1999) insgesamt 751 verschiedene Wörter, die von allen Kindern 3440 mal als Types und 9115 mal als Tokens geäußert wurden. Den Ergebnissen nach zu urteilen nimmt die Anzahl der Wörter im Laufe der Zeit zu. Kauschke zufolge ist ein Type-Zuwachs zu verzeichnen, was bedeutet, dass die Anzahl unterschiedlicher Wörter in Abhängigkeit vom Alter ansteigt. Demnach konnte ein exponentielles Wachstum im zweiten Lebensjahr festgestellt werden ([Kauschke (1999)] S. 141). Erst im dritten Lebensjahr würde es zu einer Abnahme und einem anschließenden linearen Verlauf der Types kommen. Hinsichtlich der Verwendungshäufigkeit der Wörter (Tokens) ist das Wachstumsmuster mit dem der Types vergleichbar, so Kauschke. Mit zunehmendem Alter sind keine bedeutsamen Veränderungen mehr feststellbar, was darauf schließen lässt, dass das Verhältnis der Types zu den Tokens gleich bleibt. Hinsichtlich der Komposition des Lexikons fand Kauschke heraus, dass relationale Wörter sowie personal-social-words mit über zwei Dritteln anfangs vorherrschend 2.3. DAS LEXIKON BIS ZU EINEM ALTER VON DREI JAHREN 35 sind. Dieser Anteil nimmt während des Verlaufs der Studie sukzessiv ab. Nomen sind den Ergebnissen zufolge von Anfang an im Wortschatz des Kindes enthalten, wobei der Anteil zunächst anwächst. Im dritten Lebensjahr verwendet jedoch kein Kind mehr als 25% Nomen, so Kauschke. Verben seien erstmals mit 15 Monaten zu verzeichnen, welche im Verlauf ansteigen und mit etwa 3;0 Jahren den größten Anteil des Lexikons ausmachen. Auch Adjektive sind von Beginn an vertreten, wobei sich der Anteil von 2,5% auf 6% nicht merklich verändert. Etwas später ist ein Anwachsen der Funktionswörter erkennbar. Alle Wortarten (gemessen in Types) zeigen laut Kauschke hochsignifikante lineare Trends, mit Ausnahme der Adjektive. Bei letzteren sei weder eine bedeutende Zu- oder Abnahme erkennbar. Insgesamt könne man von einer Zunahme sprechen bei Nomen, Verben, Pronomen, Funktionswörtern und sonstigen Wörtern. Der Anteil der relationalen Wörter, personal-social words und der Onomatopöien würde dagegen sinken. Der Anteil der Nomen erreicht laut Kauschke mit 21 Monaten ein Maximum, um anschließend wieder zu sinken. Der Anteil der Funktionswörter hingegen habe zunächst leicht, im dritten Lebensjahr deutlicher zugenommen. Neben diesen allgemeinen Untersuchungen zur Komposition des Lexikons bis zum dritten Lebensjahr interessierte Kauschke, ob es unter den teilnehmenden Kindern der Studie individuelle Unterschiede gibt und ob diese Unterschiede über den gesamten Zeitraum erhalten bleiben. Sie fand heraus, dass es deutliche individuelle Unterschiede hinsichtlich der Menge der verwendeten Wörter gab, was durch die Ermittlung der Spannweite in der Types- und Tokens-Anzahl zu Tage trat. Die Streuung habe mit jedem Zeitpunkt stärker zugenommen, das heißt, die Kinder entwickelten sich individuell weiter. Geschlechtsspezifische Unterschiede seien allerdings nicht erkennbar gewesen. Individuell unterschiedlich verteilt ist außerdem das Vorkommen und die Stärke der Wortarten, so Kauschke. Folglich gebe es mit 3 Jahren große Unterschiede im Anteil der Nomen, Verben, relationalen Wörter und personal-social words. Ein Rangordnungstest zeigte zudem, dass einige Kinder durchgehend im unteren, andere durchgehend im oberen Spektrum lagen. Demnach könnte auf starke individuelle Unterschiede zwischen den Kindern in der Rate des Lexikonerwerbs geschlossen werden. Kauschke zufolge können aus der Anzahl der geäußerten Wörter im zweiten Lebensjahr Prognosen für die Weiterentwicklung des Wortschatzes gemacht werden: Kinder mit einem geringen produktiven Wortschatz im zweiten Lebensjahr haben diesen Rückstand im Vergleich zu anderen Kindern aus Kauschkes Stichprobe auch mit 3 Jahren nicht aufgeholt. Vielmehr würden sie weiterhin weniger verschiedene Wörter verwenden ([Kauschke (1999)] S. 151). 36 KAPITEL 2. DAS LEXIKON IN DER LINGUISTIK In einem nächsten Schritt untersuchte Kauschke (2007) zusätzlich den Input, den die analysierten Kinder erhielten ( [Kauschke (2007)], S. 132). Sie erstellte ein Transkript, das auf einem informellen und ungesteuerten Gespräch zwischen zwei Erwachsenen beruht. Von diesem Transkript wurden die ersten 1000 Wörter analysiert, von denen 319 Types darstellten. Jedes Wort wurde hinsichtlich seiner Wortart klassifiziert. Hinsichtlich der Types enthielt das Transkript 18,5% Verben und 19% Nomen. Bei den Tokens waren es 16,3% Verben und 9% Nomen. Diese Daten sollen später als Referenz für die hier ermittelten Daten dienen und im besten Falle die Frage beantworten können, ob die Verteilung der Wortarten von Kindern im Vorschulalter jener von erwachsenen Sprecherinnen und Sprechern entspricht. Kapitel 3 Wortarten in der Linguistik Im diesem Kapitel soll – zusammen mit Kapitel 2 – die Basis für das weitere Vorgehen ergänzt werden. Ein Teilziel ist es, ein geeignetes Klassifikationssystem zur Zuordnung der (transkribierten) Wörter zu bestimmten Wortarten auszuwählen (Abschnitte 4.1.4 und 4.1.6). Eine solche Kategorisierung ist deshalb notwendig, weil nur aufgrund dieser eine anschließende Inhaltsanalyse durchgeführt werden kann. Es muss zum Beispiel zunächst geklärt werden, welche der transkribierten Wörter Nomen, Verben, Adjektive, Adverbien sowie Funktionswörter sind. Diese Wortarten bilden zusammen mit den Wörtern und deren Lemmata den Input für eine semantische Analyse (Kapitel 7). Für die Wortartenanalyse soll an dieser Stelle auf vorhandene und bewährte Klassifikationen zurückgegriffen werden. Was bis hierher noch recht einfach klingt, entwickelte sich bei genauer Recherche zu einem umfangreichen Prozedere. Nicht nur die Tatsache, dass es unzählige Kategorisierungssysteme gibt, machte die Sache so schwierig. Vielmehr musste auch darauf Rücksicht genommen werden, dass es in dieser Arbeit um den Wortschatz von 3- bis 5-Jährigen geht, der nicht vergleichbar ist mit jenem von erwachsenen Sprecherinnen und Sprechern. Im Folgenden werden zwei unterschiedliche Modelle vorgestellt und deren Vorund Nachteile im Hinblick auf das vorliegende Thema erörtert. Zuvor sollen jedoch die Begriffe Wort und Wortart, wie sie in dieser Arbeit Anwendung finden, erläutert und definiert werden. 3.1 Wort und Wortart - Definition „Wortarten sind Mengen bestimmter Art, und keine Eigenschaften (Merkmale o. ä.): Wortartbegriffe wie „Verb“ sollen zur Bezeichnung von Mengen dienen, und nicht zur Bezeichnung von Eigenschaften, durch die diese Mengen festgelegt werden.“ ([Budde (2000)], S. 4) 37 38 KAPITEL 3. WORTARTEN IN DER LINGUISTIK Budde (2000) geht davon aus, dass lexikalische Wörter aus einem syntaktischen Paradigma P sowie aus einer lexikalischen Bedeutung b bestehen. Diese lexikalischen Wörter seien die im Idiolektsystem verankerten abstraktesten und komplexesten Entitäten, für die der Begriff Wort verwendet werden kann. Diese Gedanken spiegeln sehr gut die Ideen über das mentale Lexikon wider (Abschnitt 2.1). Zumindest die Rede von einem Idiolektsystem lässt vermuten, dass Budde vom individuellen mentalen Lexikon und nicht vom Vorkommen aller Wörter einer Sprache spricht. Eine etwas andere Annahme vertritt Lehmann (2005). Ausgehend von seiner Aussage, dass die Genese von Wortarten durch Grammatikalisierung geschieht, beschreibt er Wortarten als grammatische Klassen. Dementsprechend sei in einer gegebenen Sprache eine Wortart durch ihre Distribution abgegrenzt, wobei die Distribution eines Elementes die Menge der Kontexte sei, in denen ein Wort auftritt. Je kleiner diese Menge ist, desto eingeschränkter ist die Verteilung des jeweiligen Elementes, so Lehmann. Im Verlauf seines Aufsatzes stellt Lehmann u. a. die Genese des Adjektives im Quechua sowie die Genese des Substantives im Nootka dar ([Lehmann (2005)], S. 1-5). Diese Darstellungen sollen hier mangels Relevanz für die kommenden Ausführungen nicht dargestellt werden. Es sei aber kurz Lehmanns Fazit erwähnt. Der Autor geht davon aus, dass die Einführung einer neuen Wortart durch Spaltung einer vorhandenen Wortart sowie durch die Einführung zusätzlicher Klassen vonstatten geht. Schließlich gebe es durch diesen Prozess mehr Wortarten, die dementsprechend weniger umfangreich seien. Einige sehr interessante und hilfreiche Überlegungen stellten Knobloch et al. (2009) an, die ich an dieser Stelle zum Teil übernehmen und anführen möchte ([Knobloch und Schaeder (2009)]). Die Autoren äußern einige nützliche Vorüberlegungen, wenn es um die Klassifikation von Wortarten geht. Ich zitiere im Folgenden ausschnitthaft, welche Fragen im Vorfeld einer Klassifikation beantwortet werden sollten: „1) Was wird klassifiziert? (Lexeme, Wortformen, syntaktische Wörter) 2) Nach welchen Kriterien wird klassifiziert? (nach grammatischsemantischen, nach morphologischen, nach syntaktischen, mit einer Kombination aus den Kriterien) 3) Zu welchem Zwecke wird klassifiziert? (zur Beschreibung der Muttersprache, für die maschinelle Sprachbearbeitung, für die linguistische Theorie, für die Modellierung des kindlichen Spracherwerbs)“ ([Knobloch und Schaeder (2009)] S. 22 ff.). 3.1. WORT UND WORTART - DEFINITION 39 Da es oft Ziel sei, den Wortschatz zu klassifizieren, wird häufig nach syntaktischen Kriterien klassifiziert, um Wörter in ihrer Distribution darzustellen. Knobloch et al. (2009) sehen in der Regel das syntaktische Wort bzw. dessen lexikalische Basis als häufig untersuchtes Objekt in der Wortartenklassifikation. Gerade wenn die Distribution von Wortarten ein übergeordnetes Ziel ist, sei es quasi unvermeidbar, Wörter nach ihren syntaktischen Kriterien zu beurteilen. Eine genaue Einstufung nach den Merkmalen der Syntax ist aber häufig nicht einfach, weil die Basis des Sprachbewusstseins das geschriebene oder phonologische Wort ist, so die Autoren (ebd.). In der vorliegenden Arbeit bilden syntaktische Wörter die Grundlage für eine spätere Klassifizierung, die wiederum aus den daraus resultierenden Lemmata hervorgeht und möglichst unabhängig vom Kontext erfolgen soll. Eine zusätzliche Schwierigkeit stellt die oft noch unvollkommene bzw. abweichende Sprache der hier untersuchten Kinder im Vergleich zur Sprache von Erwachsenen dar. Oft werden Wörter nicht in ihrer syntaktischen und/oder lexikalischen Zielform verwendet, sind aber phonologisch korrekt. An anderen Stellen ist die Aussprache sehr undeutlich, so dass Lücken entstehen, die den Sprachfluss syntaktisch unterbrechen. Dies soll jedoch kein Hindernis darstellen und deshalb nicht weiter beachtet werden. Das Ziel ist es, die Wortarten auf der Basis von syntaktischen Wörtern zu analysieren; etwaige grammatische Fehler bleiben in dieser Arbeit unbeachtet. Auch Knobloch et al. (2009) beschreiben in ihren Ausführungen die Vielfältigkeit bei der Klassifikation von Wortarten. Sie verstehen unter einem Wort die folgenden Einheiten: „Wort als Einheit der geschriebenen Sprache Wort als Einheit Wort der gesprochenen Sprache (phonologisches Wort) als Einheit des sprachlichen Verlaufs (morphologisches Wort, syntaktisches Wort, grammatisches Wort, Textwort, Wortform, Lex, Token) Wort als Einheit des sprachlichen Systems (lexikalisches Wort, Lexikonwort, Wörterbuchwort, Lexem, Type)“ ([Knobloch und Schaeder (2009)] S. 40). Am häufigsten werde zwischen lexikalischem Wort (Lexem) und syntaktischem Wort unterschieden. Dass auch diese Aussage auf das Vorgehen dieser Arbeit zutrifft, wird später zu sehen sein. Durch die Transkription der phonologischen Wörter in die graphematische Form, erhält man syntaktische Wörter, welche anschließend ihrer jeweiligen Grundform (Lemma) zugeordnet werden. 40 KAPITEL 3. WORTARTEN IN DER LINGUISTIK Im Verlauf der Arbeit wird aber auch deutlich, dass es keine einheitliche Definition für den Begriff Wort geben kann. Pinker (1996) beschreibt das Wort bespielsweise als eine Spracheinheit, die von morphologischen Regeln erzeugt wird, aber durch syntaktische Regeln nicht aufgespalten werden kann. Einen besonderen Fall bilden Redewendungen, die im mentalen Lexikon vermutlich als Einheit, also als ein Wort mit der/den jeweiligen Bedeutung/en abgespeichert ist/sind. Redewendungen werden als Listeme bezeichnet, die auswendig gelernt werden müssen und wie Einheiten in der Größe eines Wortes auftreten ([Pinker (1996)], S. 170 ff.). Eine ähnliche Meinung vertreten auch Di Sciullo et al. (1987), nach denen Listeme sprachliche Größen darstellen, die von einem Individuum in seinem mentalen Lexikon gespeichert sind und nicht mit syntaktischen Wörtern oder Lexemen verwechselt werden dürfen ([Di Sciullo und Williams (1987)], zitiert in: [Gallmann (1991)]). Listeme können demzufolge auch komplexe Gebilde sein, wie Morphe, Phrasen oder ganze Sätze. Lexeme dagegen seien keine Einheiten des mentalen Lexikons, da sie Paradigmen syntaktischer Wörter sind ([Gallmann (1991)], S. 12). Laut Gallmann (1991) gehören zu den Lexemen auch erlernte usuelle Bildungen und Ad-hoc-Abbildungen, die wiederum nicht im mentalen Lexikon gespeichert sind ([Gallmann (1991)], S. 12). Alle usuellen und okkasionellen Flexionsformen eines Lexems werden laut Gallmann von der morphologischen Komponente der Grammatik und hier wiederum über das Inventar an Flexionskategorien bestimmt. An dieser Stelle wird auch ersichtlich, dass syntaktische Wörter nicht in Form einer Liste im mentalen Lexikon abgespeichert sein können, denn wo und wie wären dann die Listeme gespeichert? Zu groß ist die Anzahl an Redewendungen, Idiomen und anderen feststehenden Wendungen, die in ihrer im Lexikon gespeicherten Form eher einem eigenständigen Wort gleichen und dementsprechend nicht in ihre einzelnen Bestandteile zergliedert werden können ohne an Bedeutung zu verlieren. Im Verlauf dieser Arbeit werden Redewendungen nicht weiter von Bedeutung sein, weshalb sie an dieser Stelle nicht in die Definition des Begriffes Wort einfließen sollen. Im weiteren Verlauf soll die Bezeichnung syntaktisches Wort (auch nur: Wort) für alle in den Daten geäußerten und transkribierten Wörter verwendet werden; auch, wenn diese mehr als nur einmal vorkommen. Diese bilden in der späteren Analyse (Kapitel 6) die sogenannten Tokens ab. Gallmann (1991) definiert den Begriff syntaktisches Wort mit folgenden Worten, die der Anwendungsweise in dieser Arbeit weitgehend entsprechen: „Ein syntaktisches Wort ist eine abgeschlossene morphologische Einheit mit bestimmten formalen Merkmalen (=Signifiant) sowie 3.1. WORT UND WORTART - DEFINITION 41 bestimmten grammatischen und/oder inhaltlichen Merkmalen (=Signifé), die eine Position in einer syntaktischen Struktur einnehmen kann.“ ([Gallmann (1991)], S. 2) Dieser Definition zufolge verfügen alle syntaktischen Wörter über Wortartmerkmale und es gibt kein syntaktisches Wort, das nicht hinsichlich der Wortart spezifiziert werden kann (siehe auch Abschnitt 3.2.2). Geht es um die Abbildung lexikalischen Wissens in Form von Wörterbüchern oder Lexika, dann werden ihre Grundeinheiten als Lemmata abgebildet ([Gallmann (1991)] und siehe Abschnitt 4.1.8). Zum Erwerb der Wortarten äußert sich Kauschke (2012) vor allem in neueren Arbeiten. Danach beschreibt sie den Erwerb der Wortarten als wichtigen Aspekt des Lexikonerwerbs. Jeder Lexikoneintrag enthält neben Informationen über die Wortform und die Wortbedeutung auch Informationen über die syntaktische Kategorie, der das Wort angehört. Die Wortarten ergeben sich dann durch eine Einteilung des lexikalischen Inventars in Klassen mit Wörtern ähnlicher Eigenschaften. Zu Beginn der Entwicklung finden sich vor allem interaktive und relationale Wörter sowie Lautmalereien und Eigennamen (siehe auch Abschnitt 3.2.1). Nomen treten schon früh auf und breiten sich gerade in den frühen Stadien des Spracherwerbs schnell aus. Darauffolgend ist ein linearer Anstieg von Verben beobachtbar. Ein Anstieg von Funktionswörtern markiert laut Kauschke die letzte Stufe in der Wortartenentwicklung. Gegen Ende des dritten Lebensjahres herrscht in der Spontansprache von Kindern zumeist jene Wortartenverteilung vor, die auch im Input vorzufinden ist ([Kauschke (2012)], S. 60-62). Ein solcher Einfluss des elterlichen Inputs kann in der vorliegenden Arbeit nicht überprüft werden. Es werden jedoch Vermutungen über einen möglichen Einfluss in Abschnitt 6.5 angestellt. Ein wesentlicher Punkt, den die Wortartenverteilung im dritten Lebensjahr ausmacht, ist laut Kauschke der Anstieg der Funktionswörter sowie ein Verbzuwachs. Dies kann und soll mit den hier ermittelten Daten überprüft werden. 42 3.2 KAPITEL 3. WORTARTEN IN DER LINGUISTIK Die Kategorisierung von Wortarten In diesem Abschnitt sollen zwei Möglichkeiten der Wortartenkategorisierung vorgestellt werden. Dabei wird zunächst nicht unterschieden nach syntaktisch, semantisch, morphologisch, phonologisch oder lexikalisch motivierten Klassifikationen. Vielmehr wird im Anschluss an die vorgestellten Klassifikationssysteme eine Bewertung in Bezug auf das hiesige Vorhaben vorgenommen und bei Bedarf die Vor- und Nachteile erläutert. 3.2.1 Kategorisierung nach Kauschke Bereits in Abschnitt 2.3.3 wurde Kauschkes Forschungsvorhaben zum Wortschatzerwerb im Deutschen dargestellt. Im Folgenden möchte ich die Klassifikation der Wortarten, mit welcher Kauschke (1999, 2000) zu den Ergebnissen ihrer Studie gelang, vorstellen ([Kauschke (1999)]; [Kauschke (2000)]). Laut Kauschke (2000) sind Wortarten das Ergebnis einer theoretisch begründeten Klassifikation der Wörter einer Sprache nach Form- und Bedeutungsmerkmalen. Für eine Klassifikation können mehrere Aspekte herangezogen werden: morphologische, syntaktische, semantische und distributionelle. Uneinheitlichkeiten bei der Bestimmung einer Wortart können immer auftauchen, z. B., weil es zu Überschneidungen kommt. Eine weitere Schwierigkeit, die nach Kauschke auftreten kann, ist, dass die Wortartenzughörigkeit kindlicher Äußerungen noch instabil ist. Dadurch entstehe das Problem, dass die Entwicklung der Wortartenverwendung nicht erforscht werden kann. Erforderlich um einen Entwicklungsverlauf aufzeigen zu können, ist ein einheitliches Klassifikationssystem in allen Altersstufen. Insbesondere zu Beginn der Satzproduktion ergeben sich laut Kauschke Veränderungen in der Funktion von Wörtern, weil syntaktische Aspekte hinzukommen und damit neue Kriterien für eine Klassifikation benötigt werden ([Kauschke (2000)], S. 86). Damit ergab sich die Aufgabe, ein geeignetes Klassifikationssystem zu entwickeln, das einerseits die Wörter des frühkindlichen Lexikons enthält, ungeachtet der syntaktischen Aspekte. Andererseits sollten auch jene Wortarten erfasst werden, die nach dem Einstieg in die Satzproduktion auftreten. In Anlehnung an Blooms (1993) Klassifikationssystem gelangt Kauschke (1999) zu folgender Klassifikation ([Bloom, Tinker und Margulis (1993)], S. 445; Tabelle 3.1): 3.2. DIE KATEGORISIERUNG VON WORTARTEN Wortart Nomen 43 Untergruppen und Beispiele specific: Eigennamen (Holger), specific: Personen und spezifische Objekte (Mama), general: belebte und unbelebte Objekte (Ball), abstrakte Nomen (Idee), internal state-Nomen (Angst) Verben (action words) objektbezogene Handlungen und Tätigkeiten (suchen), nicht objektbez. Handlungen: Events, Bewegung, Zustand (pullern), innere Handlungen oder Tätigkeiten z. B.: mentale, emotionale, volitionale „internal state“-Verben (weinen, glauben) Adjektive (modifiers) modifizierte Elemente wie Attribute, Eigenschaften und Merkmale (heiß, vier), innerpsychische Zustände, internal state-Adjektive (böse, toll) Personal-social words Interaktive und expressive Wörter assertions (ja, nein), social-expressives: Floskeln, Grüße (hallo, danke), Gesprächssignale (hm), attention getting devices (guck), auf das persönliche Erleben bezogene expressive Äußerungen, internal state-Interjektionen (aua) Relationale Wörter Relationen zwischen Handlungen/Objekten: Auftauchen/Verschwinden (da, weg), Ort (oben) Funktionen von/mit Objekten (ran, auf), zeitliche Durchführung von Handlungen (wieder) Pronomen Personalpronomen (du), Demonstrativpronomen (dies), Possessivpronomen Funktionswörter Präpositionen (aus), Hilfsverben (haben), Artikel (ein), Konjunktionen (weil), Onomatopöien lautmalerische Äußerungen (brumm, tatütata) Sonstige Partikeln (eben, denn), nicht klassifizierbare Wörter (sein) u.a. Fragewörter (warum) u. a. Tabelle 3.1: Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S. 140) Diese Wortartenklassifikation unterscheidet neun Kategorien, die (offensichtlich) in sich nicht weiter untergliedert sind. Zumindest in ihrer Analyse und Darstellung der Wortartenverteilung der untersuchten Kinder geht die Autorin nur von den oben genannten Kategorien aus. Dies mag für die von Kauschke verfolgten Zwecke – nämlich der Darstellung einer Wortartendistribution von Kindern im Alter von 13 bis 36 Monaten – sinnvoll sein. Für die Ziele der vorliegenden Arbeit ist dies in der Form jedoch nicht übertragbar. Die Klasse der Verben müsste weiter aufgeteilt werden in u. a. finite und infinite Verben, Auxiliar- und Kopulaverben sowie Modalverben. Die Klasse der Nomen sollte in Eigennamen und anderen Nomen differenziert werden können. Insbesondere die Kategorien personal-social words, Relationale Wörter und Funktionswörter sind für die Ziele der vorliegenden Arbeit ungeeignet. Die Beispiele und Untergruppen – wie von Kauschke zu jeder Kategorie aufgeführt – kommen zwar im Wortschatz der hier untersuchten Drei- bis Fünfjährigen vor, man findet sie allerdings in weitaus feiner abgestuften Nuancen. Dadurch soll eine Distribution aufgezeigt werden, die mit jener des Wortschatzes von Erwachsenen vergleichbar ist. Insbesondere die Klasse der Pronomen erfordert für unser Vorhaben eine feinere Klassifikation. So soll – vor allem in späteren Arbeiten – 44 KAPITEL 3. WORTARTEN IN DER LINGUISTIK unterschieden werden können zwischen Possessiv-, Relativ-, Interrogativ-, Personal- und Demonstrativpronomen, um eventuelle Veränderungen im Gebrauch festzustellen. All diese Möglichkeiten hängen jedoch immer vom Ziel und Zweck der jeweiligen Untersuchung ab. Geht man von einem aktiven Wortschatz von rund 300 Wörtern bei Zweijährigen im Vergleich zu einem Wortschatz von rund 500 Wörtern bei Dreijährigen und 5000 Wörtern bei Sechsjährigen aus ([Kauschke (1999)], S. 134), so wird klar, dass für eine Darstellung der Wortartenverteilung unterschiedliche syntaktische Klassen herangezogen werden müssen. Eine Einteilung der Verben in viele weitere Untergruppen ist wenig nützlich, wenn die Kategorie Verb gerade erst im Begriff ist, sich zu etablieren und infolgedessen nur in seltenen Fällen vom Kind geäußert wird. Andererseits ist es wenig sinnvoll, die Klasse der Onomatopöien beizubehalten, wenn doch im Alter von 4 Jahren die Differenzierung der Klasse der Verben ein hervorstechendes Merkmal im Sprachgebrauch ist, Onomatopöien jedoch in den Hintergrund treten. Aufgrund dieser Umstände soll eine Klassifikation, die den Zwecken der vorliegenden Arbeit entspricht, gefunden werden. 3.2.2 Stuttgart-Tübingen-Tagsets (STTS) Im Folgenden werden die Stuttgart-Tübingen Tagsets (STTS) vorgestellt, die am Institut für maschinelle Sprachverarbeitung der Universität Stuttgart und am Seminar für Sprachwissenschaft der Universität Tübingen entwickelt wurden.1 Die STTS enthalten insgesamt 54 Tags (Wortartenbezeichner) für deutsche Textkorpora. Die unten stehende Tabelle2 (3.2) stellt alle 54 Tags vor: Tabelle 3.2: STTS Tag Table (1995/1996) POS-Tag DESCRIPTION EXAMPLES ADJA attributives Adjektiv [das] große [Haus] ADJD adverbiales oder prädikatives Adjektiv [er fährt] schnell, [er ist] schnell Adverb schon, bald, doch Präpostion, Zirkumposition links in [der Stadt], ohne [mich] Präposition mit Artikel im [Haus], zur [Sache] Postposition [ihm] zufolge, [der Sache] wegen ADV APPR APPRART APPO 1 Für weitere Informationen verweise ich auf die folgende Webseite: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html (letzter Zugriff 18.12.2015) 2 Für weitere Informationen verweise ich auf die folgende Webseite: http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/TagSets/stts-table.html; siehe auch [Schiller, Teufel, Stöckert und Thielen (2009)], S. 6-7) 3.2. DIE KATEGORISIERUNG VON WORTARTEN APZR Zirkumposition rechts [von jetzt] an bestimmter oder unbestimmter Artikel der, die, das, ein, eine Kardinalzahl zwei [Männer], [im Jahre] 1994 FM fremdsprachliches Material [Er hat das mit] A big fish [übersetzt] ITJ Interjektion mhm, ach, tja unterordnende Konjunktion mit „zu“ und um [zu leben], anstatt [zu fragen] ART CARD KOUI Infintiv KOUS unterordnende Konjunktion mit Satz weil, dass, damit, wenn, ob nebenordnende Konjunktion und, oder, aber Vergleichskonjunktion als, wie NN normales Nomen Tisch, Herr, [das] Reisen NE Eigennamen Hans, Hamburg, HSV substituierendes dieser, jener KON KOKOM PDS Demonstrativpronomen PDAT attribuierendes Demonstrativpronomen jener [Mensch] PIS substituierendes Indefinitpronomen keiner, viele, man, niemand PIAT attribuierendes Indefinitpronomen ohne kein [Mensch], irgendein [Glas] Determiner PIDAT attribuierendes Indefinitpronomen mit [ein] wenig [Wasser[, [die] beiden [Brüder] Determiner PPER irreflexives Personalpronomen ich, er, ihm, mich, dir PPOSS substituierendes Possessivpronomen meins, deiner PPOSAT attribuierendes Possessivpronomen mein [Buch], deine [Mutter] PRELS substituierendes Relativpronomen [der Hund], der PRELAT attribuierendes Relativpronomen [der Mann], dessen [Hund] PRF reflexives Personalpronomen sich, einander, dich, mir PWS substituierendes Interrogativpronomen wer, was PWAT attribuierendes Interrogativpronomen welche [Farbe], wessen [Hut] PWAV adverbiales Interrogativ- oder warum, wo, wann, worüber, wobei Relativpronomen PAV Pronominaladverb dafür, dabei, deswegen, trotzdem PTKZU „zu“ vor Infinitoiv zu [gehen] PTKNEG Negationspartikel nicht abgetrennter Verbzusatz [er kommt] an, [er fährt] Rad Antwortpartikel ja, nein, bitte, danke Partikel bei Adjektiv oder Adverb am [schönsten], zu [schnell] TRUNC Kompositionserstglied An- [und Abreise] VVFIN finities Verb, voll [du] gehst, [wir] kommen [an] PTKVZ PTKANT PTKA 45 46 KAPITEL 3. WORTARTEN IN DER LINGUISTIK VVIMP Imperativ, voll komm [!] VVINF Infinitiv, voll gehen, ankommen VVIZU Infinitiv mit „zu“, voll anzukommen, loszulassen VVPP Partizip Perfekt, voll gegangen, angekommen VAFIN finites Verb, aux [du] bist, [wir] werden VAIMP Imperativ, aux sei [ruhig]! VAINF Infinitiv, aux werden, sein VAPP Partizip Perfekt, aux gewesen VMFIN finities Verb, modal dürfen VMINF Infinitiv, Modal wollen VMPP Partizip Perfekt gekonnt, [er hat gehen] können XY Nichtwort, Sonderzeichen enthaltend 3:7, H2O, D2XW3 \$, Komma , \$. satzbeendende Interpunktion .?;: \$( sonstige Satzzeichen; satzintern - [,] () Mit den in der Tabelle aufgeführten Tags ist eine überaus detaillierte Wortartenklassifikation entstanden. Die Hauptwortarten (Adjektiv, Adverb, Präposition, Konjunktion, Substantiv, Verb, Pronomen, Partikel) wurden nach syntaktischen Kriterien so weit untergliedert, dass sie für eine Darstellung der Wortartenverteilung in vielen Fällen nutzbar sind. Besonders hervorstechend ist die Aufsplittung der Kategorie Verb in Vollverb, Auxiliarverb und Modalverb und diese wiederum jeweils in Imperativ (außer Modalverben), Infinitiv, finites Verb und Partizip Perfekt. Auch die Klasse der Pronomen erfuhr eine sehr starke Aufsplittung in Demonstrativ-, Indefinit-, Personal-, Possessiv-, Relativ- und Interrogativpronomen mit jeweils weiteren Unterscheidungen. Derart starke Aufsplittungen sind für den Vorgang des Taggens (Bezeichnen der Wortarten) selbstverständlich enorm zeitaufwendig, doch ermöglichen sie zum einen eine sehr genaue Darstellung der Verteilung der einzelnen Wortarten im Sprachgebrauch, zum anderen können Vergleiche innerhalb einer Klasse unternommen werden, z. B. zwischen dem Vorkommen von Relativpronomen im Vergleich zum Gesamtvorkommen der Pronomen. Inwieweit findet ein adäquater Gebrauch der reflexiven Personalpronomen statt? Stellen Auxiliarverben eine besondere Schwierigkeit im Sprachgebrauch dar und wenn ja, in welchem Alter? Diese und weitere Fragen sind sehr leicht beantwortbar, wenn die Daten eines Korpus’ mit Hilfe der STTS getaggt und im besten Falle in eine 3.2. DIE KATEGORISIERUNG VON WORTARTEN 47 Datenbank überführt werden, von der aus viele Untersuchungsschritte gemacht werden können. Zugleich – und diesen Aspekt habe ich bereits erwähnt – ist die Vielzahl an Tags auch nachteilig für die Person, die das Taggen übernimmt, da das Verfahren dadurch sehr zeitaufwendig ist. Auch ist es nicht immer eindeutig, welches Tag für ein bestimmtes Wort gewählt werden muss. Insbesondere bei der Arbeit an einem Korpus, welches kindliche Sprache enthält, kommt es zu uneindeutigen Fällen bzw. Fällen, in denen sich die syntaktische Kategorisierung nicht mit der semantischen Absicht des Gesagten deckt. Typische uneindeutige Fälle in dieser Arbeit sind z. B.: „Ich nehme das grüne xxx.“ In diesem Beispiel fehlt recht eindeutig das Nomen, welches an dieser Stelle akustisch nicht nachvollziehbar war. Ebenso könnte grüne als NN getaggt werden, weil es in diesem Fall ohne Nomen (xxx) auftritt und dadurch als substantivierter Infinitiv bezeichnet werden kann. Als transkribierende Person kann ich durch meine Anwesenheit während der Aufnahme und durch angefertigte Mitschriften in diesem Fall nachvollziehen, dass das Kind an Stelle des xxx ein Nomen verwendet hat und bezeichne grüne mit dem POS-Tag ADJA. Eine besonders häufig auftretende Diskrepanz zeigt sich bei der Bezeichnung des Verbs sein, das je nach Kontext Kopulaverb, Auxiliarverb, Vollverb oder gar ein Verb in einem Funktionsverbgefüge sein kann. In den STTS gibt es nur die Möglichkeit sein als Auxiliarverb (VA) oder Vollverb (VV) zu bezeichnen. In den Fällen, in denen sein Auxiliarverb ist, stellt das kein Problem dar. In den überaus häufigen Fällen, in denen es Kopulaverb ist, kann unter Verwendung der STTS nur mit VV gekennzeichnet werden, da ein POS-Tag für Kopulaverben nicht vorliegt. An späterer Stelle in dieser Arbeit werden deshalb alle syntaktischen Wörter nochmals nach semantischen Kriterien auf Basis der Regeln der Dudengrammatik getaggt, wodurch unter anderem auch das Problem der Multifunktionalität von sein gelöst wird (Kapitel 7). Die eben dargestellten Fälle zeigen, dass es an vielen Stellen zu mehrdeutigen Situationen kommen kann. Das bedeutet jedoch nicht, dass die eine oder andere Form der Kategorisierung falsch ist. Vielmehr entstehen derartige Probleme durch unterschiedliche Sichtweisen der taggenden Person und durch das jeweilige Ziel, das mit der Klassifikation der Wortarten verfolgt wird. 3.2.3 Die Wahl einer geeigneten Kategorisierung - Auswahl und Begründung In diesem Abschnitt möchte ich die Auswahl der für diese Arbeit gewählten Kategorisierung begründen. Ich beziehe mich dabei nur auf die oben aufgeführte Wortartenklassifikation von Kauschke sowie die STTS – 48 KAPITEL 3. WORTARTEN IN DER LINGUISTIK wohlwissend, dass es viele weitere gibt. Doch es ist an dieser Stelle unmöglich, mich auf alle existierenden Klassifikationsvorschläge zu beziehen.3 Kauschke (1999) verwendet eine Einteilung, die sich besonders für eine Analyse von Sprache in einem frühen Stadium im Spracherwerb eignet. Für eine Beschreibung des Lexikons Drei- bis Fünfjähriger ist sie jedoch nicht ausreichend. Vor allem für einen späteren Vergleich mit der Sprache Erwachsener erweisen sich einige Kategorien als unbrauchbar. Die Kategorie Relationale Wörter beinhaltet beispielsweise Wörter des Ortes, wie oben oder Funktionen mit Objekten wie ran oder auf. Diese könnten ebenso der Kategorie Adverb angehören bzw. eine Verbpartikel darstellen im Falle von ran oder auf. Die Kategorie Pronomen ist nicht weiter aufgesplittet. Zur Kategorie Funktionswörter gehören Artikel, Hilfsverben, Konjunktionen, Fragewörter und Präpositionen, die meiner Meinung nach eigene Kategorien darstellen sollten. Insgesamt halte ich diese Klassifikation zur Beschreibung der Wortartenverteilung bei Ein- bis Dreijährigen für sehr sinnvoll, für den Wortschatz von Drei- bis Fünfjährigen ist sie hingegen nicht mehr ausreichend. Die STTS sind ein häufig verwendetes Tagset, wenn es darum geht, eine Wortartendistribution zu erstellen. Aufgrund dieser Popularität und des logischen Aufbaus habe ich mich dazu entschieden, sie für diese Arbeit zu verwenden. Das syntaktische Wort steht im Mittelpunkt der Arbeit und es ist relevant bei jenem Schritt der Analyse, bei dem es um die Wortartenbezeichnung mittels der STTS geht. Dafür müssen zuvor die gesprochenen Wörter in graphematische Wörter transkribiert werden (Abschnitt 4.1.4). Ausgehend vom syntaktischen Wort erweisen sich die STTS als geeignet. Probleme tauchen dahingehend auf, dass die gesprochene Sprache der Kinder oft unvollständig bzw. unverständlich ist. Diese Probleme können jedoch relativ gut klassiert werden. Es wurden Regelungen geschaffen, so dass eine Bezeichnung mit den jeweiligen POS-Tags möglich war (Abschnitt 4.1.7). Die STTS haben zudem den Vorteil, dass Klassen von POS-Tags zusammengefasst werden können, ohne dass eine Wortart verloren geht. Bei Bedarf kann hingegen die ganze Bandbreite der Wortarten Anwendung finden (Tabelle 3.2) oder es können Kategorien nach individuellem Bedarf zusammengefasst werden (Tabelle 6.1). 3 Weitere Literatur zum Thema Wortarten und deren Klassifikation: [Budde (2000), Bergenholtz und Schaeder (1977), Hoffmann (2009), Ruoff (1981), Vogel und Thieroff (2009)] Kapitel 4 Beobachtungsstudie - Ziele und Methodik In diesem Kapitel soll die für die Ergebnisse der Arbeit zugrunde liegende Beobachtungsstudie erläutert werden. Eine Voraussetzung für das Erreichen der Ziele dieser Arbeit war es, ein Korpus der Spontansprache von deutschsprachigen Kindern zwischen 3;5 und 5;5 Jahren zu erstellen. Den Input für dieses Korpus bildeten Sprachaufnahmen, die in der Kita des Studentenwerkes an der Technischen Universität Berlin1 gesammelt wurden. Die Sammlung wurde durch die Methode der teilnehmenden Beobachtung erstellt. Diese Methode schien für den übergeordneten Zweck - dem Sammeln von spontanen Daten - die sinnvollste und zugleich einzige zu sein. Eine Untersuchung der Kinder unter kontrollierten Bedingungen, wie zum Beispiel im Labor, sollte für den Erhalt spontaner Daten unbedingt vermieden werden. Es erwies sich zudem als sehr geeignet, die Daten mit einem Diktiergerät aufzunehmen, weil die beobachteten Kinder jung genug waren, um sich aufgrund eines technischen Gerätes nicht beobachtet zu fühlen. Das sogenannte Beobachterparadoxon konnte somit ausgeschlossen werden ([Albert und Koster (2002)]). Insgesamt wurden etwa 40 Stunden Audiomaterial gesammelt. Von diesem Material wurden 26815 Tokens in die Analyse einbezogen. Alle Daten wurden sowohl quantitativ als auch qualitativ ausgewertet. Dafür wurden diese zunächst mit dem Transkriptionsprogramm FOLKER2 transkribiert und anschließend mit dem EXMARaLDA Partitur Editor (Abschnitt 4.1.6). analysiert. Anschließend wurden alle erstellten EXMARaLDA-Dateien mit den dazugehörigen Informationen in eine Datenbank importiert. Mit Hilfe dieser Datenbank ([Mack (2014)]) können 1 Genauere Informationen zur Kita finden Sie http://www.studentenwerk-berlin.de/kita/standorte/kita_tu/index.html. 2 Genauere Informationen zu FOLKER finden Sie http://agd.ids-mannheim.de/folker.shtml 49 im im Internet unter Internet unter 50 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK relevante Abfragen getätigt und Ergebnisse ausgegeben werden, die über die Wortartenverteilung in verschiedenen Altersclustern sowie über die Type-Token-Verteilung (Paragraph 4.1) Aufschluss geben. Ferner erfolgte eine Klassifizierung aller Lemmata hinsichtlich ihrer Bedeutungskategorie und eine anschließende Zusammenstellung dieser in einem Lexikon des Vorschulalters (Kapitel 7; Anhang). Im Verlauf der Arbeit sollen vor allem folgende Fragen überprüft werden: 1. Gibt es im Alter von 3;5 bis 5;5 Jahren individuelle Unterschiede in der Verteilung der Wortarten? 2. Ist hinsichtlich der Verwendung der Wortarten sowie in der inhaltlichen Entwicklung des Lexikons ein Trend erkennbar (individuell oder allgemein) oder bleibt die Komposition des Lexikons zwischen 3;5 und 5;5 Jahren konstant? 3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5 und 5;5 Jahren komponiert? 4.1 Methodik Bevor die einzelnen Teilschritte des methodischen Vorgehens näher betrachtet werden, möchte ich einige allgemeine Möglichkeiten der Untersuchung des Wortschatzes bei Kindern aufzeigen. Grundlegend können im Hinblick auf die Zielstellung zwei verschiedene Untersuchungen des Wortschatzes vorgenommen werden: eine Analyse des produktiven und/oder eine Analyse des rezeptiven Wortschatzes. Für welches Vorgehen man sich entscheidet, ist abhängig davon, wofür die Daten verwendet werden sollen und welche Ergebnisse erwartet werden. Bei beiden Methoden ist es nahezu unmöglich, den Wortschatz vollständig zu erfassen. Um das rezeptive Vokabular eines Kindes zu überprüfen, können Vokabularchecklisten eingesetzt werden. Diese enthalten eine Zusammenstellung des kindlichen (Gesamt-)vokabulars. Durch unterschiedliche Methoden wird das Kind auf das Verständnis jeder Vokabel hin überprüft (siehe auch [Kauschke (2000)], S. 75). Der produktive Wortschatz bleibt bei diesem Verfahren quasi unberührt, wodurch ein Erfassen des Gesamtwortschatzes nicht möglich ist. Die wahrscheinlich älteste Methodik zur Erfassung des produktiven Vokabulars bieten sogenannte Elterntagebücher (z. B. [Stern und Stern (1965)]). Dabei halten Eltern jedes neue Wort ihres Kindes in Verbindung mit weiteren Daten wie Zeitangaben, Gestik, Mimik etc. fest. Ein solches Verfahren bietet sicher umfangreiche 4.1. METHODIK 51 Ergebnisse, die aber einen ebenso umfangreichen Einsatz der Eltern verlangen. Kauschke (2000) bietet weiterhin eine gute Übersicht über den Einsatz von Beobachtungsmethoden, die ich im Folgenden kurz darstellen möchte, da es sich auch in der vorliegenden Arbeit um eine Beobachtungsstudie handelt ([Kauschke (2000)], S. 76-82). Beobachtungsdaten können laut Kauschke durch Video- und/oder Audioaufnahmen erhoben werden. Diese Aufnahmen können an verschiedenen Orten stattfinden: im Labor, zu Hause, in Kindertagesstätten etc. Im Anschluss an die Aufnahmen, müssen die erhobenen Sprachdaten transkribiert werden, wobei die Auswahl eines geeigneten Transkriptionssystems abhängig von der jeweiligen Fragestellung ist (siehe dazu auch Abschnitt 4.1.4). Nachdem das Transkript bzw. die Transkripte erstellt wurden, kommen unterschiedliche Auswertungsmethoden zum Einsatz. Diese können quantitative und/oder qualitative Aspekte des Lexikons berücksichtigen (ebd.). In der vorliegenden Arbeit werden - wie später ersichtlich - quantitative und qualitative Gesichtspunkte untersucht. Die Vorteile einer solchen Erhebung liegen vor allem darin, dass zahlreiche Aspekte der Sprache ersichtlich werden. Während bei einer Datenerhebung mittels Fragebögen lediglich das Wissen um die Lexeme deutlich wird, gewähren beispielsweise durch Audio- und / oder Videoaufnahmen gewonnene und später transkribierte Daten Einblick in die phonologische Realisation von Wörtern. Aber auch gestische und mimische Gesichtspunkte sowie die Prosodie können untersucht werden. Ebenso können sämtliche phonetische Untersuchungen mittels akustischer Daten vorgenommen werden. In der vorliegenden Arbeit wurden Audiodaten mit zusätzlichen Protokollen der Interviewerin erhoben. Ein solches Verfahren wurde im Vorfeld (und im Nachhinein) als ausreichend erachtet, da lediglich der Wortschatz untersucht werden soll. Eine Videoinstallation an jedem der Aufnahmetage wäre zu aufwendig gewesen, zumal das Lexikon in seiner Entwicklung im Mittelpunkt der Untersuchung steht, nicht aber die Interaktion zwischen den Kindern untersucht werden sollte. Nichtsdestotrotz sollten aufgrund der recht guten Tonqualität auch phonetische Analysen möglich sein, die mit den vorliegenden Daten bisher jedoch nicht durchgeführt wurden. Hinsichtlich der zeitlichen Aspekte können zum einen Längsschnittstudien, zum anderen Querschnittstudien durchgeführt werden. Bei einer Längsschnittstudie werden einzelne Kinder über einen längeren Zeitraum beobachtet, wodurch sich die Entwicklung der sprachlichen Fortschritte gut verfolgen lässt. Eine Querschnittstudie wird zu einem gegebenen Zeitpunkt mit mehreren Kindern durchgeführt und soll - wie der Name schon sagt - einen Querschnitt über die sprachlichen Fähigkeiten aller Kinder aufzeigen. In der 52 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK vorliegenden Beobachtung handelt es sich um eine Studie mit vielen Aspekten einer Längsschnittstudie. Oberste Priorität war es, möglichst spontane und nicht elizitierte Daten zu erhalten. Aus diesem Grund wurden die einzelnen Kinder nicht an an jedem Aufnahmezeitpunkt einzeln aufgenommen, sondern nur an jenen Tagen, an denen sie freiwillig dazu bereit waren. Dementsprechend können keine (oder nur wenige) Entwicklungsschritte einzelner Kinder aufgezeigt werden. Wie sich später zeigen wird, ist die für diese Arbeit gewählte Vorgehensweise ausreichend, da sie zudem nicht den Anspruch einer experimentellen Untersuchung hat. Was hier nicht getroffen werden kann und soll ist eine Aussage über die rezeptiven Sprachleistungen sowie über die Größe des Wortschatzes. Letzterer ist meiner Meinung nach nie vollständig erfassbar, da sowohl produktive als auch rezeptive Sprachleistungen berücksichtigt werden müssen. Da in dieser Arbeit nur die syntaktischen Wörter im Gebrauch bei Kindern im Vorschulalter erfasst werden, sind die erstellten Transkripte vollkommen zweckmäßig (siehe auch [Kauschke (2000)], S. 78). Wie bereits weiter oben angeführt, werden in der vorliegenden Arbeit sowohl quantitative als auch qualitative Aspekte des kindlichen Lexikons betrachtet. Aus diesem Grund kommen auch unterschiedliche Auswertungsmethoden zum Einsatz. Bezüglich der quantitativen Gesichtspunkte werden (ansatzweise) einerseits die Tokens (alle von einem Kind geäußerten und später aufbereiteten syntaktischen Wörter) und andererseits die Types (alle unterschiedlichen von einem Kind geäußerten Wörter in Bezug auf ihre Lemmata) berechnet und zudem in Relation zueinander gesetzt, um das Verhältnis der Types zu den Tokens zu ermitteln. In traditionellen Messungen der Type-Token-Relation wird die Gesamtanzahl der Types durch die Gesamtanzahl der Tokens dividiert ([Kauschke (2000)], S. 81). Dies wirft allerdings die Frage auf, was damit genau gemessen werden soll: altersbedingte Veränderungen und/oder die Abgrenzung von Kindern mit unterschiedlichen individuellen Fähigkeiten? Zudem nimmt die Type-Token-Relation (im Folgenden TTR) ab, je mehr Tokens berücksichtigt werden, da es laut Kauschke (2000) zu Wiederholungen von Wörtern kommt ([Kauschke (2000)], S.81ff.). Mittlerweile wurden verschiedene Möglichkeiten erprobt, um die TTR zu ermitteln und die im Folgenden kurz erörtert werden sollen. In diesem und den folgenden Paragraphen soll das Verhältnis der Types (alle verschiedenen Wörter im gegebenen Korpus) zu den Tokens (alle Wörter im gegebenen Korpus) unter allgemeinen Aspekten Die Type-Token-Relation 4.1. METHODIK 53 analysiert werden. Ziel ist es herauszufinden, ob eine Type-Token-Analyse mit den Daten der vorliegenden Arbeit notwendig und sinnvoll ist. Eine recht übersichtliche Definition dazu liefert meiner Meinung nach Wimmer (2005): „The type-token relation is understood as the ration of the number of different words to all words in the text, or with other words, the ration of vocabulary richness to the text length.“ ([Wimmer (2005)], S. 361) Wimmer erläutert sehr übersichtlich die unterschiedlichen Interpretationen, Methoden zur Berechnung der Type-Token-Ratio sowie auch Möglichkeiten zur Modellierung. Da der Artikel der Autorin sehr umfassend und übersichtlich gestaltet ist und die für die vorliegende Arbeit nötigen Grundlagen zum Thema Type-Token-Ratio enthält, möchte ich mich im Folgenden darauf stützen ([Wimmer (2005)]). Wimmer geht auf die Vor- und Nachteile jeder Methode im Hinblick auf die jeweils verfolgten Zwecke ein. Demzufolge sei dieses Forschungsinteresse heutzutage nicht nur sehr umfassend, sondern auch äußerst uneinheitlich, da jedes neue Forschungsfeld auch neue Unregelmäßigkeiten mit sich bringe. Dieser Mangel an Uneinheitlichkeit ist auf folgende Aspekte zurückzuführen: 1. Identifikation der Types 2. Interpretation 3. Messung 4. Entstehung und theoretische Annäherung 5. Statistische Prozesse (Stichproben etc.) Ich möchte nachfolgend nicht auf jeden einzelnen Aspekt eingehen, sondern nur jene betrachten, die für die Zwecke der vorliegenden Arbeit relevant sein können. Deshalb gehe ich vor allem auf die Punkte 1 bis 3 ein und in Annäherung auf Punkt 4. Laut Wimmer gibt es zwei Möglichkeiten, die Types in einem Text zu identifizieren. i) Es werden unterschiedliche Wortformen betrachtet. Bei dieser Technik wird das Konzept des Lexems bzw. des Lemmas völlig außer Acht gelassen. Das Resultat zeigt lediglich die Formenvielfalt der Sprache, nicht aber die Vielfalt des Vokabulars. Identifikation 54 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK ii) Es werden unterschiedliche Lexeme betrachtet. Diese Methode führt zu komplexen qualitativen Problemen. Die Daten müssten zuvor adäquat vorbereitet werden (von Hand oder mit Hilfe von Programmen). Diese Vorbereitung aber hängt von der linguistischen Schule ab, die die untersuchende Person genossen hat. Demzufolge können Probleme folgender Art entstehen: a) Im Deutschen sind die unbestimmten Artikel ein, eine, einer, eines vereinigt in dem Lexem ein. Wie verhält es sich dann mit den bestimmten Artikeln der, die, das oder den dazugehörigen Pronomen er, sie, es? In der vorliegenden Arbeit wird mit diesen Erscheinungen folgendermaßen umgegangen: die unbestimmten Artikel werden beim Vorgang der Lemmatisierung nur durch die Wortform ein lemmatisiert, ungeachtet dessen, ob es sich um einen femininen, neutralen oder maskulinen Artikel handelt. Der Kasus ist immer im Nominativ. Die bestimmten Artikel werden lediglich unterschieden nach Singular (d) und Plural (d-p). Getaggt wird in Fällen des unbestimmten und des bestimmten Artikels immer mit ART. Die Pronomen er, sie, es wurden im Zuge der Lemmatisierung unterschieden nach Geschlecht und auch sie erhalten das entsprechende Lemma in der Nominativ-Form mit der jeweiligen Genuszuweisung. Daraus ergeben sich als mögliche Lemmata nur die Formen ich, du, er, sie, es, wir, ihr und sie. Alle anderen Wortformen, wie z. B. ihm oder mich werden ebenso in ihrer Nominativ-Form lemmatisiert. Getaggt wurden solche Pronomen je nach Kontext als irreflexives Personalpronomen, also PPER oder als reflexives Personalpronomen (PRF). b) Wie geht man um mit analytischen Konstruktionen wie am schönsten, was in diesem Fall den Superlativ eines Adjektives darstellt, dessen andere Formen synthetisch sind? In der vorliegenden Arbeit kann dieses Problem ebenfalls durch die Struktur der STTS gelöst werden. Für eine solche Konstruktion gibt es klar abgegrenzte POS-Tags. So wird das Tag PTKA für Partikeln in Verbindung mit Adjektiven im Superlativ genutzt, also in diesem Falle für am. Handelt es sich bei am um eine Präposition, würde es mit APPRART getaggt werden. Zudem behält am (PTKA) nach der Lemmatisierung die Wortform am, während die Präposition am zu an würde, weil es sich in diesem Fall um die Präposition an + Artikel handelt. Der Superlativ schönsten wird nach der Lemmatisierung in seiner Grundform schön notiert und erhält das POS-Tag (ADJA bzw. ADJD). 4.1. METHODIK c) 55 Wie kann das Problem von Verbformen wie in „ich werde gelobt werden“. gelöst werden? Handelt es sich hierbei um zwei Lemmata, drei oder sogar vier? Diese Verbform tritt in den zu analysierenden Daten dieser Arbeit nicht auf, wodurch das oben genannte Problem irrelevant ist. Für den hypothetischen Fall, dass die aufgeführte Verbform mit Hilfe der STTS getaggt werden würde, ergäbe sich folgende Kennzeichnung: ich (PPER) werde (VAFIN) gelobt (VVPP) werden (VAINF/VVINF). Die dazugehörigen Lemmata wären: ich (ICH) werde (WERDEN) gelobt (LOBEN) werden (WERDEN). Würde an dieser Stelle nur lemmatisiert werden, könnte dies durchaus ein Problem bei der späteren Zuordnung der Lemmata zu den entsprechenden Wortformen geben. Da die jeweiligen POS-Tags jedoch immer mit den Wörtern und den Lemmata in der Datenbank (Kapitel 5) verknüpft sind, ist eine spätere Zuordnung möglich. In der Datenbank wäre leicht erkennbar, dass das erste Lemma WERDEN das Tag VAFIN besitzt und das letzte Lemma WERDEN das Tag VAINF bzw. VVINF. d) Wie geht man mit dem Problem der Homonymität um, welches durch ein Programm leicht verdeckt bzw. nicht erfasst werden kann, z. B. der Artikel ein, die Zahl ein und das Präfix ein (ich trat ein). Auch dieses Problem kann unter der Verwendung der STTS und seinen POS-Tags nicht auftreten. Der Artikel wird getaggt mit ART, die Zahl wird getaggt mit CARD und für das Präfix gibt es das Tag PTKVZ. Das Taggen erfolgt selbstverständlich immer von Hand. Würde es automatisiert werden können, wäre eine solch genaue Bezeichnung sicher (noch) nicht möglich. Diese Methode erfolgt - zumindest unter diesen Umständen - auf einer syntaktischen Basis, was im Grunde den Zielen dieser Arbeit widerspricht. Da jedoch die STTS die Basis der Wortartenbestimmung bilden, muss in diesen Fällen von einer rein lexikalisch basierten Wortartenbestimmung abgesehen werden. Wie kann das Problem femininer Formen3 von Nomen gelöst werden, z. B. beau und belle oder actore and actrice? e) Die Verwendung von Nomen in der femininen respektive maskulinen Form stellt auch in der vorliegenden Arbeit zum Teil ein Problem dar. In fast allen 3 An dieser Stelle möchte ich darauf hinweisen, dass diese Problemstellung, wie schon erwähnt, von Wimmer (2005) formuliert wurde. Selbstverständlich stellen feminine Formen kein Problem dar und meiner Meinung nach wäre es ebenso möglich, die maskulinen Formen im Zusammenhang mit dem Taggen zu problematisieren. Da dies jedoch eine gesonderte Diskussion unter Berücksichtigung von Genderaspekten erfordern würde, möchte ich hier nicht näher darauf eingehen. 56 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Fällen handelt es sich dabei um Nomen, die entweder nur in der einen oder in der anderen Variante verwendet wurden. Es wurde das Wort Erzieherin geäußert, nicht aber Erzieher. Oder es kam zu Äußerungen wie Krieger, nicht aber Kriegerin. In diesen Fällen, in denen also die Verwendung der femininen oder maskulinen Form möglich ist, aber nur eine Form genutzt wurde, wurde diese Form auch nach der Lemmatisierung beibehalten. Hinsichtlich der Interpretation suggeriert Wimmer zwei Möglichkeiten: Interpretation der Type-Token-Ratio i) Das Verhältnis ist charakteristisch für die Vielfalt des Wortschatzes eines Textes. ii) Das Verhältnis ist ein Modell des Informationsflusses im Text. Der erste Fall (i) ist nur möglich, wenn die Type-Identifikation laut Punkt ii) (Abschnitt 4.1) stattgefunden hat. Wenn man annimmt, dass dies so geschehen ist, dann wird das Verhältnis der Types zu den Tokens durch einen Index oder eine Kurve charakterisiert werden. Es ist zudem bekannt, dass mit steigender Textlänge das Ansteigen neuer Wörter verlangsamt ist. Folglich müssen die Indizes relativiert werden und diese Umstände veranlassen die Entwicklung von immer neuen Indizes oder einer Transformation bereits bestehender Indizes, so Wimmer. Demnach seien einige Indizes irrelevant. Dies betreffe auch Graphen, die das Ansteigen neuer Wörter beschreiben (dargestellt in ihrer logarithmischen Form). Aufgrund dieser Mathematisierung würde man sich in einigen Fällen der Unendlichkeit nähern, was linguistisch gesehen nicht möglich ist. Wimmer erläutert, dass Mathematiker daraufhin Abhilfe schafften und eine Annäherung gegen einen finiten Wert erlangten. Eine Möglichkeit war es, den Graphen einfach an der Stelle abzubrechen, an welcher der Text zu Ende ist. Dieser Vorgang wurde dann als Vielfalt des Wortschatzes eines Autors bezeichnet. Tatsache sei jedoch, so Wimmer, dass sich alle Texte eines Autors unterschiedlichen Punkten nähern. Folglich sei jegliche Prognose illusorisch. So kenne jede erwachsene Person fast alle Wörter ihrer Sprache, auch wenn sie diese nicht alle verwendet. Der Unterschied bestehe in einigen tausend Wörtern, die man nur in speziellen Wörterbüchern findet. Um ihre Hypothese zu stützen nehmen Mathematiker an, dass der Punkt der Annäherung die Anzahl jener Wörter meint, die der Autor für seine eigenen Zwecke einbaut, um seinen Text zu schreiben. Wimmer (2005) steht dieser Behauptung mit Skepsis gegenüber und betitelt die Bezeichnung der Type-Token-Ratio als eine Messung der Wortschatzvielfalt als Fehlbezeichnung. Bestenfalls könne die 4.1. METHODIK 57 Type-Token-Ratio als Messung der Wortschatzvielfalt in einem Text fungieren ([Wimmer (2005)], S. 362). Laut Wimmer ist Fall ii) korrekt. In ihrer Begründung zu dieser Entscheidung schreibt sie, dass in einem Text immer Information übermittelt wird. Eine Möglichkeit dies zu tun, sei es, neue Wörter einzubringen oder alte Wörter auf unterschiedliche Weisen zu kombinieren. In didaktischen Texten fließe die Information langsamer, weil Wiederholungen notwendig sind; in lyrischen Texten hingegen fließe die Information schneller, weil Wiederholungen vermieden werden. Ein Transfer der Information bedeute, dass der Sprecher oder Schreiber ein Wissenssystem in den Hörer einbaut, das dem eigenen sehr ähnlich ist und das zwei Dinge benötigt Inputerhaltung und Inputinformation. Die Inputerhaltung besteht laut Wimmer aus Wiederholungen bekannter Wörter oder ihrer Rekombinationen, die lediglich die Anzahl der Tokens erhöhen. Die Inputinformation erhöht die Anzahl der Types, schafft neue Beziehungen im Wissensystem und erweitert es. Folglich sei die Erhaltung regulierend und stabilisierend, die Information selbstorganisierend. Trotz der Kritik Wimmers, Möglichkeit i) der Interpretation sei zu einigen Teilen Unsinn, wird sie (zumindest teilweise) in dieser Arbeit angewendet. Allerdings muss betont werden, dass die untersuchten Daten vorher adäquat aufbereitet wurden - sowohl von Hand als auch mit Hilfe von Programmen. Sofern dies geschehen ist, ist laut Wimmer auch eine Interpretation nach Möglichkeit i) zulässig. Hinsichtlich der Messung der Type-Token-Relation zeigt Wimmer (2005) drei Methoden auf: i) Der Position jedes Tokens (x) wird die Anzahl der Types (y) bis zu dieser Position zugeordnet. Dies sei die gebräuchlichste Methode, die wiederum einen monoton steigenden Graphen generiert (<token, type>). ii) Das Dividieren der Anzahl der Types bis zur Position x durch die Position selbst. Dies ergebe eine monoton fallende Funktion (<token, type/token>). iii) Die Köhler-Galle-Methode ([Köhler und Galle (1993)]) Messung T T Rx = tx + T − N xT N wobei: x = Position im Text (Anzahl von Tokens bis zu dieser Position x), 58 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK tx = Anzahl von Types bis zur Position x (inkl.), T = Anzahl von Types im gesamten Text, N = Textlänge (Anzahl von Tokens im gesamten Text); <x, TTRx>. Methode i) ist für die zu analysierenden Daten dieser Arbeit nicht praktikabel, da es sich um annähernd 30.000 Tokens handelt.4 Auch Methode iii) erschien für die hier vorliegenden Daten nicht passend zu sein, da es sich um gesprochene Daten handelt, die nur schwer in eine bestimmte Textlänge umgerechnet werden können. Vielmehr wurde aus praktikablen Gründen Methode ii), wenn auch in abgewandelter Form, durchgeführt. Wimmer beschreibt drei Annäherungen, um die Type-Token-Ratio eines Textes zu beschreiben: Entwicklung und Modellierung 1) Entwurf eines Index’, der den Wortschatz eines Textes beschreibt. In der Mehrheit werde dabei die Lexemanzahl und die Textlänge (Token-Anzahl) berücksichtigt. Aber auch eine spezielle Häufigkeitsklasse (z. B. Hapax Legomena) oder die gesamte Verteilung der Lexeme können Berücksichtigung finden. Dieser Art sind beispielsweise die Arbeiten von Ejiri et al. (1993) oder Yule (1944), so Wimmer ([Ejiri und Smith (1993)]; [Yule (1944)]). 2) Entwurf eines Graphen, der den Informationsfluss eines Textes erfasst. 3) Ausgehend von einem statistischen Prozess werden neue Wörter generiert und die Ergebnisse für unterschiedliche Zwecke verwendet (Wortschatzreichtum, Prognosen, Type-Token-Ratio, Häufigkeitsverteilungen). Tatsache sei, dass all diese Hinweise, Graphen, Verteilungen etc. akzeptabel sind. Problematisch ist das, was wir erfassen wollen und welche theoretische Tiefe wir erreichen möchten ([Wimmer (2005)], S. 364). Je nach verwendeter Methode müssen laut Kauschke (2000) entsprechende Effekte berücksichtigt werden, die bei der Interpretation zu Tage treten ([Kauschke (2000)], S. 83). Des Weiteren sollte vor allem aufgrund unterschiedlicher Methoden von einem Vergleich mit den Ergebnissen anderer Studien Abstand genommen werden. Demzufolge sei die TTR besonders der Sprechfreudigkeit sowie der allgemeinen Produktivität 4 Eine beispielhafte Übersicht findet sich in dem von Wimmer (2005) verfassten Paper ([Wimmer (2005)], S. 363). 4.1. METHODIK 59 des jeweiligen Kindes unterworfen, wodurch es zu Einbußen bei der Aussagegenauigkeit kommen kann. Trotz aller Kritik an der Berechnung der TTR soll diese in der vorliegenden Arbeit im weiteren Verlauf zu einem kleinen Teil ermittelt werden (Abschnitt 6.2.3). Zum einen aus purer Neugier meinerseits, welche Ergebnisse zu Tage treten; zum anderen bin ich daran interessiert, ob sich bei den Kindern in den drei Altersguppen Unterschiede auftun. In Bezug auf qualitative Beschreibungen des kindlichen Lexikons wurde in Kapitel 3 bereits auf die Wortarten eingegangen. Demnach beinhaltet die Analyse qualitativer Aspekte in dieser Arbeit die Identifizierung jener Wortarten, welche die Kinder im untersuchten Zeitraum verwendeten. Des Weiteren wird im Anschluss daran eine Veranschaulichung der Verteilung dieser Wortarten unter unterschiedlichen Gesichtspunkten vorgenommen. In Kapitel 7 werden alle Lemmata nach semantischen Kriterien kategorisiert. Zusätzlich wird im Abschnitt 7.2 eine Analyse der inhaltlichen Kategorien Nomen, Verb, Adjektiv und Adverb sowie im Abschnitt 7.3 der Funktionswörter vorgenommen. Abschließend wird ein Lexikon des Vorschulalters auf der Basis aller zuvor getätigten Analysen erstellt. 4.1.1 Sprachaufnahmen Um dem Anspruch dieser Arbeit gerecht zu werden und möglichst spontane Sprache analysieren zu können, führte der Weg zum Erhalt der Sprachdaten in eine Kindertagesstätte. Einzelgespräche im Labor oder auch in der Kita selbst wurden bereits im Vorfeld ausgeschlossen, da solche Situationen oft unnatürlich sind und Kinder sich oft anders verhalten als im natürlichen Alltag. Vor den eigentlichen Aufnahmen wurden die Eltern an einem Elternabend über das Vorgehen informiert. Aus rechtlichen Gründen mussten alle Eltern, die sich zu diesen Aufnahmen bereit erklärten, eine Einverständniserklärung unterschreiben. Insgesamt haben die Eltern von 16 Kindern die Erklärung unterschrieben. Von diesen 16 Kindern konnten 12 zur Auswertung herangezogen werden. Gründe für einen Ausschluss der Daten waren beispielsweise zu leise oder zu kurze Aufnahmen. Äußerten sich Kinder im Zeitraum der Sprachaufnahmen gar nicht, dann wurden auch diese nicht in die Auswertung einbezogen. Die Aufnahmen begannen am 15.09.2009 und endeten am 28.04.2010. Sie fanden jeweils einmal wöchentlich für circa zwei Stunden in der Kita statt. Die Interviewerin stellte sich den Kindern vor und fungierte nach Außen wie eine neue Erzieherin oder Praktikantin. Auf Nachfragen einiger Kinder nach dem Grund meines zweistündigen Besuchs wurde diesen kurz der Ablauf der Aufnahmen erläutert. Keines der 60 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Kinder wirkte daraufhin gehemmter in seinen Ausführungen. Es schien, als seien die Erläuterungen der Interviewerin eher unwichtig und waren schnell vergessen. Des Öfteren wurde die Interviewerin als betreuende Person wahrgenommen, was darauf schließen lässt, dass sich die Kinder spontan verhielten und folglich spontane Sprache verwandten. In den zweistündigen Besuchen spielte die Interviewerin meist mit mehreren Kindern, zum Teil auch gleichzeitig. Dies führte dazu, dass die Kinder oft gleichtzeitig sprachen und sich die Transkription der Aufnahmen sehr mühselig und zeitaufwendig gestaltete. Doch nur auf diese Weise war gegeben, dass sich die Kinder möglichst spontan und ungezwungen verhielten. Ein weiterer Nachteil der natürlichen Aufnahmesituation war, dass sich auch Kinder an den Aufnahmen beteiligten, die von Seiten der Eltern aus nicht aufgenommen werden durften. Diese Daten mussten in einem sehr zeitaufwendigen Verfahren im Anschluss wieder aus den Aufnahmen gelöscht werden. Die unten stehende Übersicht zeigt alle Aufnahmen, verbunden mit einer Beschreibung der Situation während der Aufnahme sowie dem Aufnahmedatum. Die einzelnen Aufnahmebezeichnungen sind hier bereits nach Kindern aufgeschlüsselt, so dass erkennbar ist, welche Kinder tatsächlich Redeanteile haben. Insgesamt konnten auf diese Weise circa 40 Stunden auswertbares Audiomaterial gesammelt werden. In der späteren Auswertung wurden alle Kinder in sogenannte Altersgruppen eingeteilt. In Gruppe 1 befinden sich alle Kinder mit einem Alter von ca. 3;5 bis 4;1 Jahre. Gruppe 2 umfasst die Kinder von über 4;1 bis 4;7 Jahren und Gruppe 3 umfasst alle Kinder von über 4;7 bis 5;5 Jahren. Für die weitere Arbeit erhalten die Gruppen die Bezeichnungen: Gruppe 1281_1495 (Gruppe 1), Gruppe 1496_1708 (Gruppe 2) und Gruppe 1709_1983 (Gruppe 3). Die Bezeichnung der Zeiträume mittels der Angabe in Tagen beruht auf der intensiven Arbeit mit spezieller Software sowie einer Datenbank, die jeweils mit diesen Angaben arbeiten (Kapitel 5). Um keine Unstimmigkeiten aufkommen zu lassen, sollen diese Bezeichnungen auch im weiteren Verlauf beibehalten werden. Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt Datum der Aufnahme der Aufnahme 009_AV, 009_MM Gespäch mit AV und MM 15.09.2009 011_MM Karten spielen mit MM 15.09.2009 013_JS, 013_RD Im Sandkasten mit JS und RD 15.09.2009 015_MK, 016_MK, 017_MK Im Garten mit MK 15.09.2009 019_JS, 019_LEO, 019_MK, Im Garten mit JS, RD, MK und LEO 15.09.2009 019_RD 4.1. METHODIK Nummer der Aufnahme 61 Beschreibung des Kontextes zum Zeitpunkt Datum der Aufnahme der Aufnahme 020_LAR, 020_MM, 020_SO, LAR, MM, SO und IV spielen Halli Galli 22.09.2009 022_LAR, 022_MM Gespräch mit LAR und IV 22.09.2009 023_MK, 023_JS, 024_LUA, MK und LUA spielen Bauernhof; spielen mit 29.09.2009 024_MK, 025_LUA Steinen; spielen Ritterburg 026_LUA, 026_MK, 027_AV, MK spielt Bauernhof; später Imbiss 06.10.2009 031_AV, 031_JS, 031_LAR, Zuerst spielen mit MM, LAR und SO, später 20.10.2009 031_MK, 031_MM, 031_SO auch mit MK, KO und FLO (KO und FLO dürfen 021_LAR 027_LUA, 027_MK, 030_LUA, 030_MK nicht aufgenommen werden). Ab und zu spielen RD und JS mit. Am Ende der Aufnahmen reden vorwiegend MM und KO und FLO. 033_JK, 033_JS, 033_MK, MK, ET (wird sehr früh abgeholt) spielen Löwe. 033_RD Später kommt JK dazu und spielt „telefonieren“. 27.10.2009 RD und JS spielen „Papiermaschine“. 036_JS, 036_LAR, 036_LEO, Memory spielen mit MM, einer Erzieherin, 036_LL, 036_LUA, 036_MK, später auch mit OZ (darf nicht aufgenommen 036_MM, 036_RD werden). Uno spielen mit MK, dann mit MM. 17.11.2009 Lego spielen mit LAR. 038_JK, 038_LL, 038_MK MM, LL spielen Memory. Danach Versteckspiel 01.12.2009 mit MM und LL. Später spielen andere Kinder Autobahn. 039_AV, 039_JK, 039_JS, Malen mit MA, LEO. Kinder gucken 039_LEO, 039_MA, 039_MK zwischendurch immer wieder zum 08.12.2009 Vogelhäuschen, das draußen vor dem Fenster ist. Danach Bücher angucken. 040_JK, 040_JS, 040_LAR, MK erzählt, dass er gerade bastelt. Memory 040_LL, 040_MK, 040_MM, spielen mit MM, LAR, SO (steigt früh wieder aus 040_RD, 040_SO dem Spiel aus). Danach andere Spiele. Ab ca. 15.12.2009 01:00.00 spielen auch RD und JS mit. 041_AV, 041_JS, 041_LAR, Kinder malen mit Glitzerfarbe und Kreide. MM 041_LEO, 041_MK, 041_MM, hat sich gestoßen. Spielen mit LAR, MM und AV 041_RD, 041_SO (Memory). Danach Malen. Vorlesen mit MK und LEO. 05.01.2010 62 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Nummer der Aufnahme Beschreibung des Kontextes zum Zeitpunkt Datum der Aufnahme der Aufnahme 042_JS, 042_LEO, 042_LUA, MK erzählt, welches Tier er gerade ist. LEO und 042_MK, 042_MM MK spielen Käpt’n Sharky. Uno spielen mit MK. 12.01.2010 Danach Spiel mit Magneten. 043_AV, 043_JK, 043_JS, RD und JS haben ein „Mensch ärgere dich 043_LUA, 043_MK, 043_RD, nicht“-Spiel gebastelt und spielen dieses 044_AV, 044_JK, 044_JS, zusammen mit MK. Andere Kinder malen mit 044_LEO, 044_MK Glitzerfarbe. 045_JK, 045_JS, 045_LEO, MK und LUA sprechen zu Beginn der 045_LUA, 045_MK, 045_MM, Aufnahme. MK zeigt mir eine Schneekugel. Wir 046_LUA, 046_MK legen Stifte auf eine Waage, um 19.01.2010 26.01.2010 auszuprobieren, wann Gleichgewicht herrscht. Memory spielen mit MM, JK, JS, RD und MK. Gespräche beim Imbiss. Spiel mit Magneten mit MK. 047_AV, 047_JK, 047_JS, Spielen mit AV, MK, LEO. Danach spielen mit 047_MK, 047_MM, 047_RD RD, JS, JK und LEO (Memory). Kneten am 02.02.2010 Tisch. 048_AV, 048_JK, 048_JS, AV malt ein Bild für mich und zeigt mir danach 048_LEO, 048_MA, 048_MK, ihre Foto-Mappe. JS, RD und JK spielen Frisbee 048_RD im Flur. Die Kinder zeigen mir verschiedene 09.02.2010 Sanduhren (vor allem MK und LEO). 049_JK, 049_Mk, 050_JK, Anfangs spielen MK und JK mit Baufix. Kurzes 050_JS, 050_LEO, 050_LUA, Spiel mit JS, LEO und JK. Danach spielen alle 050_MK, 050_RD Kinder durcheinander „Nicht den Boden 17.02.2010 berühren“. 051_LUA, 051_MK Spielen mit MK, JK, RD und JS. Andere Kinder 24.02.2010 toben umher. Türme bauen mit JK. 052_AV, 052_JS, 052_LEO, MM, LL, SO und LAR basteln Perlenketten. 052_LL, 052_LUA, 052_MK, Memory spielen mit MM. Malen mit AV. Buch 052_MM, 052_RD, 052_SO ansehen mit MK, RD, JS und LEO. 03.03.2010 Zwischendurch spricht LUA. 053_AV, 053_JS, 053_LEO, MM, SO und LAR basteln Perlenketten. Memory 053_LUA, 053_MK, 053_RD spielen mit MM. Zwischendurch spricht LUA. Später malen mit AV. Imbiss: AV, MK und LUA erzählen. 10.03.2010 4.1. METHODIK Nummer der Aufnahme 63 Beschreibung des Kontextes zum Zeitpunkt Datum der Aufnahme der Aufnahme 054_AV, 054_JK, 054_LEO, AV, MK, LUA, MM, SO, LAR, LL und andere 054_LUA, 054_MK Kinder befinden sich im Raum. Malen mit AV 17.03.2010 und MK. LUA und MK führen ein „Theaterstück“ auf. Die anderen Kinder und ich schauen zu. Danach wieder malen mit AV. Imbiss: AV, MK und LUA erzählen. 055_AV, 055_JS, 055_LEO JS und LEO zeigen mir Tiere in einem Buch. 24.03.2010 Kissenschlacht. Danach machen die eben genannten und weitere Kinder ein „Farben-Formen-Aktionsspiel“. Imbiss: AV, SO, LAR, LL und MM erzählen. 057_AV, 057_LEO, 057_LUA, Malen mit AV. Mit im Raum befinden sich MK, 057_MK, 057_MM LUA, LEO, MM, MA, SO, LL und LAR, die ab 14.04.2010 und zu reden. Danach bastelt MK ein Spiel. Versteckspielen mit MK, LUA und LL. Imbiss: LEO und RD erzählen. 058_AV, 058_JS, 058_LEO, Im Garten. Ich gucke zu, wie JS und FLO (darf 058_LL, 058_LUA, 058_MK nicht aufgenommen werden) Fußball spielen. 28.04.2010 AV und LUA klettern. Später Gespräch mit LUA. 4.1.2 Die Probandinnen und Probanden Tabelle 4.2 veranschaulicht die Zusammensetzung der Gruppe der Testpersonen (untersuchte Kinder). Unter den insgesamt 12 untersuchten Kindern befanden sich 5 Jungen und 7 Mädchen. Aufgrund der Struktur der Geburtsdaten wird ersichtlich, dass die meisten Kinder im Jahr 2004 geboren sind. Dies ist ein Grund dafür, weshalb es nur sehr wenige Aufnahmedaten von Dreijährigen gibt, da die Aufnahmen in der Zeit zwischen September 2009 und April 2010 liegen. Weiterhin haben alle Kinder unterschiedliche Redeanteile, was durch das Ziel der Arbeit, möglichst spontane Daten zu erhalten, nicht anders gehandhabt werden konnte. Im Verlauf der Arbeit sollen einerseits die Sprachdaten aller Kinder insgesamt und andererseits die Sprachdaten in einer Aufteilung in drei Altersgruppen (siehe dazu Kapitel 6) untersucht werden. Eine Einteilung in drei Altersgruppen erschien vorab sinnvoll, um eventuell auftretende Entwicklungsunterschiede aufzeigen zu können. Bisher ist nicht bekannt, ob es in der Altersspanne von 3;5 bis 5;5 Jahre sprachlich 64 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK auffällige Entwicklungsschritte gibt. Anhand von Altersgruppen sollen diese Schritte - sofern sie auftreten - festgehalten werden können. Anschließend soll überprüft werden, ob es individuelle Unterschiede in der Komposition des Lexikons gibt. Aus diesem Grund werden die Daten aller Kinder auch einzeln analysiert und interpretiert. Tabelle 4.2 enthält ferner Angaben zu den Eltern (Alter und Beruf), zu den Geschwisterkindern sowie zu möglichen Zweitsprachen (dies ist bei nur einem Kind der Fall). Ich habe diese Angaben hier aufgeführt, da bekannt ist, dass derartige soziolinguistische Aspekte Einfluss auf die Sprachentwicklung und in diesem Fall auch auf die Wortschatzstruktur der untersuchten Kinder haben können. Es ist nicht verwunderlich, dass die meisten Eltern der hier untersuchten Kinder entweder studieren oder in einem Beruf arbeiten, der ein Studium erfordert, handelt es sich doch bei der Untersuchungsstätte um die Kindertagesstätte einer Universität. Zwar können keine Angaben gemacht werden zum ökonomischen Status der Eltern, doch kann wohl von einem ausgeprägten akademischen Umfeld gesprochen werden. Bereits Hetzer et al. (1928) untersuchten die Auswirkungen der Niveauunterschiede auf die erste Entwicklungsphase des Spracherwerbs und fanden auf diversen Gebieten der Sprache einen Rückstand von 3 bis 6 Monaten. Kinder aus sozial höher stehenden Schichten würden früher eine größere Anzahl sinnvoller Wörter verwenden und mehr Zweiund Dreiwortsätze äußern. Die dabei angesprochene Altersgruppe betrifft jüngere Kinder bis zu einem Alter von 2;6 Jahren, weshalb keine Parallelen zu den hier untersuchten älteren Kindern gezogen werden können ([Hetzer und Reindorf (1928)]). Laut Oksaar (1987) vergrößern sich diese Unterschiede sogar mit zunehmendem Alter ([Oksaar (1997)], S. 112). Es kann deshalb angenommen werden, dass die Elternschaft und somit die Familienstruktur in allen Fällen mindestens der (oberen) Mittelschicht angehört. Neben dem sozioöknomischen Status können relativ genaue Angaben über die Familienstruktur vorgenommen werden, insbesondere was die Geschwisterkinder angeht. Bis auf zwei Kinder haben alle Kinder mindestens ein Geschwisterkind (ein Kind bleibt ohne Angabe). Der Einfluss der Größe der Familie auf den Spracherwerb wurde schon früh von Stern&Stern (1928, 1965) untersucht, die ermittelten, dass das Vorhandensein älterer Geschwister die sprachliche Entwicklung vorantreibt ([Stern und Stern (1928)]; [Stern und Stern (1965)], S. 293 f.). McCarthy (1954) hingegen fand heraus, dass Kinder, die vorwiegend mit Erwachsenen verkehren, die schnellste sprachliche Entwicklung vorweisen können. Einzelkinder (insbesondere Mädchen) seien dabei in allen Aspekten am weitesten fortgeschritten 4.1. METHODIK 65 ([McCarthy (1954)]). In der vorliegenden Arbeit wurden derartige Einflüsse nicht untersucht. Ein Grund dafür war, dass das Sprachverhalten aller Kinder keinen Anlass zu einer Untersuchung des Einflusses der Geschwisterkinder auf die Sprachentwicklung gab. Zudem befinden sich alle Kinder in einem weitaus fortgeschrittenem Stadium des Spracherwerbs, so dass ein Urteil nicht eindeutig wäre. Ein weiterer wichtiger Punkt, vor allem für die Analyse der Daten dieser Arbeit, ist der Umgang mit gleichaltrigen Kindern als soziolinguistisches Merkmal, das auch Oksaar (1987) anführt. Ab dem vierten Lebensjahr wird demnach der Kontakt zu anderen Kindern zu einem wichtigen Faktor, der sich in der sprachlichen Entwicklung niederschlägt. Hierbei haben Kindertagesstätten eine bedeutende Rolle. Das Kind erfährt eine soziale Interaktion im Spiel und erhält gleichzeitig die Verhaltensstärkung von Erwachsenen. Beide Faktoren sind für die hier untersuchten Kinder von Bedeutung. Die Kind-Kind-Interaktion ist neben der Familieninteraktion laut Oksaar einer der wichtigsten Einflussfaktoren auf die sprachliche Entwicklung sowie auf andere Verhaltensweisen ([Oksaar (1997)], S. 117). Gleason et al. (1973) konnten zum Beispiel zeigen, dass die Sprechweise in der Kommunikation von Kindern sehr variieren kann, je nachdem, ob das Kind mit einem Erwachsenen oder einem anderen Kind spricht ([Gleason (1973)]). Eine derart variierende Kommunikation wurde hier zwar nicht untersucht, alle Kinder sprachen jedoch vorwiegend mit Gleichaltrigen bzw. befanden sich stets in einer sozialen Interaktion (z. B. im Spiel) mit anderen Kindern. Das soziolinguistische Merkmal Geschlecht soll in der vorliegenden Arbeit nur kurz erwähnt werden. Wie bereits angeführt, wurden 5 Jungen und 7 Mädchen in die Analyse miteinbezogen. Aufgrund der unterschiedlichen Redeanteile ist es nicht sinnvoll, nach Unterschieden im Wortschatz zwischen Jungen und Mädchen zu suchen. Frühere Studien lassen zudem vermuten, dass zu einem derart frühen Zeitpunkt der Sprachentwicklung keine signifikanten Unterschiede erkennbar sind. Nach Oksaar (1987) finden sich nur geringe Geschlechtsunterschiede für die Vorschulzeit zugunsten der Mädchen, wobei diese Untersuchungen auf einer Reihe amerikanischer Untersuchungen der dreißiger und vierziger Jahre beruhen. Demnach fangen Mädchen früher an zu sprechen, verfügen über einen größeren Wortschatz und verwenden längere Sätze. Diese Unterschiede seien allerdings stärker bei Kindern aus niedrigen sozioökonomischen Gruppen beobachtet worden. Alle signifikanten Unterschiede bei Mädchen seien erst ab einem Alter von 5;0 Jahren sichtbar ([Oksaar (1997)], S. 118-120). Da die hier untersuchten Kinder zum Zeitpunkt der Datenerhebung maximal 5;5 Jahre alt waren, ist eine Untersuchung im Hinblick auf Geschlechtsunterschiede vermutlich wenig aufschlussreich und 66 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK soll deshalb nicht durchgeführt werden. 4.1.3 Diktiergerät Das Diktiergerät, welches für die Aufnahmen im Kindergarten benutzt wurde, war ein Gerät der Marke Philips. Mit dem Philips Voice Tracer DVT 860 konnten Aufnahmen im MP3-Format erstellt werden. Das MP3-Format ist im Gegensatz zum Wave-Format besonders geeignet, weil wenig Speicherplatz benötigt wird. Dadurch konnten mehrere Stunden Audiomaterial am Stück aufgenommen werden, ohne den Speicher zwischendurch entleeren zu müssen. Für weitere Informationen verweise ich auf die Bedienungsanleitung, die unter folgendem Link erreichbar ist: http://download.p4c.philips.com/files/l/lfh0660_00/lfh0660_00_dfu_deu.pdf (zuletzt besucht am 20.08.2015). 4.1.4 Transkription der Daten mit FOLKER Für die im Anschluss an die Aufnahmen geleistete Transkription, wurde das Transkriptionsprogramm FOLKER5 verwendet. Die insgesamt 39 Aufnahmen wurden einzeln in FOLKER importiert und die Sprechpassagen nacheinander transkribiert. Dieser Teil der Arbeit stellte sich als besonders zeitaufwendig heraus, da die meisten Kinder, wie schon erwähnt, oft durcheinander oder undeutlich sprachen. Die Transkription erfolgte unter Beachtung der Transkriptionsregeln6 nach FOLKER in Schriftsprache. In FOLKER werden grundlegend cGAT-Minimaltranskripte erstellt, die eine leichte Abwandlung zu GAT-2-Minimaltranskripten darstellen ([Selting (2009)]). Laut Transkriptionshandbuch ist eine Abwandlung der GAT-2-Minimaltranskripte zu cGAT notwendig, weil nur so die FOLKER-Transkripte regelrecht computergestützt weiterverarbeitet werden können ([Schmidt und Schütte (2011)], S. 34). In den cGAT-Transkripten sind folgende Einheiten enthalten ([Schmidt und Schütte (2011)], S. 34 ff.; Auswahl): • (syntaktische) Wörter : werden als Folge von Kleinbuchstaben, die an den Grenzen durch Leerzeichen unterbrochen sind, dargestellt (z. B. ich gehe nach hause). Die Transkription kann nach orthografischen oder literarischen Gesichtspunkten erfolgen. Zahlen werden immer ausgeschrieben, Abkürzungen (außer Akronyme) und Bindestriche werden nicht verwendet. Infolgedessen werden Wörter, bei denen der 5 Auf den folgenden Seiten sind Informationen sowie eine Möglichkeit zum Download von FOLKER zu finden: http://agd.ids-mannheim.de/folker.shtml (letzter Zugriff 18.12.2015). 6 http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch.pdf (letzter Zugriff 18.12.2015) 4.1. METHODIK 67 Bindestrich obligatorisch ist, als zwei Wörter transkribiert (z. B. baden württemberg). Wörter, bei denen der Bindestrich optional ist, werden als ein Wort transkribiert (z. B. bildzeitung). • Verzögerungssignale: werden ausgeschrieben (z. B. äh ähm). • Lachen, Weinen: wird entweder als Beschreibung ((lacht)), ((weint)) oder bei silbischem Lachen entsprechend der verwendeten Silben als hahaha oder hihi etc. notiert. • Rezeptionssignale: kommen in den Daten der vorliegenden Arbeiten gelegentlich vor. Sie werden in Anlehnung an die Regeln der FOLKER-Transkription als hm, nee, nee_e, ja_a etc. notiert. Bei der späteren Lemmatisierung (Abschnitt 4.1.8) werden zweisilbige Signale wieder in ihrer einsilbigen Form notiert. • Pausen: werden in den FOLKER-Dateien mit (.) für eine Mikropause (ca. 0,2 Sekunden Dauer) bzw. als längere geschätzte Pause durch eine konkrete Angabe notiert (1.5). Im FOLKER-Transkriptionshandbuch sind weitere Pausenarten angegeben; dazu gehören eine kurze geschätzte Pause von 0,2 bis 0,5 Sekunden Dauer (-), eine mittlere geschätzte Pause von 0,5 bis 0,8 Sekunden Dauer (- -) und eine längere geschätzte Pause von 0,8 bis 1,0 Sekunden Dauer (- - -). Diese Pausenarten wurden in den Daten der vorliegenden Arbeit nicht verwendet, da sie zum einen laut dem Transkriptionshandbuch nicht vorzugsweise verwendet werden sollten und zum anderen für die Zwecke dieser Arbeit nicht in erster Linie relevant waren. Hier werden vordergründig die syntaktischen Wörter an sich betrachtet und diese werden zum Erreichen der Ziele anschließend in den EXMARaLDA-Partitur-Editor (Abschnitt 4.1.6) importiert und weiter verarbeitet. Alle Pausen sind ab diesem Moment hinfällig, weshalb sie in erster Linie nur nebenbei gesetzt wurden. • Nonverbales: wird nach den cGAT-Konventionen durch doppelte runde Klammern gekennzeichnet, z. B. ((hustet)) oder ((unverständlich)). In Anbetracht der Wichtigkeit der festgelegten Wörter, nicht aber nebensprachlicher Erscheinungen, wurden in dieser Arbeit lediglich unverständliche Wörter mit ((unverständlich)) gekennzeichnet. • Unverständliches: Ein unverständliches Wort kann nicht nur durch doppelte runde Klammern gekennzeichnet werden. Insofern die Silbenanzahl erkennbar ist, kann diese durch die Zeichenkette +++ (für eine Silbe) ++++++ (für zwei Silben) etc. dargestellt werden. Weitere Konventionen der cGAT-Minimaltranskription sind im FOLKER Transkriptionshandbuch enthalten. An dieser Stelle sind nur jene Regeln aufgeführt, die in dieser Arbeit Anwendung fanden. Ein Vorteil der Transkription in FOLKER ist die automatische Korrektur der Syntax und der zeitlichen Abfolge, die bei einer korrekten Durchführung durch grüne Häkchen in den Spalten rechts angezeigt wird. Des Weiteren war es möglich, sich überlappende Äußerungen in FOLKER kenntlich zu machen, indem der zeitliche Start- und Endpunkt der Äußerungen identisch eingestellt wurden. Passagen, in denen Kinder gleichzeitig sprachen und welche sich somit überlappen, zeigt Abbildung 4.1 in den Zeilen 29 und 30, in denen MM und 68 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK LAR gleichzeitg gelb äußern. Das Ende einer Äußerung wird in FOLKER nicht gekennzeichnet bzw. geht damit einher, dass das jeweilige Segment in der jeweiligen Zeile endet und ein nächstes Segment in einer neuen Zeile beginnt. Würde man beispielsweise ein Segmentende mit / oder // kennzeichnen wollen, würde dies als Syntaxfehler angezeigt werden. Abbildung 4.1: Folker-Datei: ic_a_31.flk FOLKER-Dateien können in unterschiedlichen Html-Formaten7 ausgegeben sowie zur weiteren Bearbeitung in anderen Programmen genutzt werden.8 Im Folgenden ist eine beispielhafte Erstellung einer FOLKER-Transkription für diese Arbeit beschrieben: Beispiel: Zuerst wird eine entsprechende Wave-Datei in das Programm FOLKER importiert. Die zuvor im MP3-Format erstellten Audiodateien wurden zuvor mit einem sogenannten Wave-Konverter in das entsprechende Format gebracht. Anschließend werden einzelne Passagen von standardmäßig zwei Sekunden Länge angehört und dann im Textfeld verschriftlicht. Neben jedem Textfeld wird außerdem das Sprecherkürzel vermerkt. Anstelle von zwei Sekunden Länge können je nach gesprochener Passage auch kürzere bzw. längere Passagen verschriftlicht werden. Die Zeitspanne muss in diesen Fällen manuell verändert werden, da FOLKER standardmäßig nur Intervalle von zwei Sekunden Länge vorgibt. Transkribiert wurden in der vorliegenden Arbeit alle Audiodaten der Kinder, von denen die 7 https://de.wikipedia.org/wiki/Hypertext_Markup_Language (letzter Zugriff 22.10.2014) In der vorliegenden Arbeit werden die in FOLKER transkribierten Dateien zur weiteren Analyse in den EXMARaLDA Partitur Editor überführt (Abschnitt 4.1.6). 8 4.1. METHODIK 69 Einverständniserklärung der Eltern vorlag. Kinder, die nicht aufgenommen werden durften, wurden nicht transkribiert bzw. später aus den Aufnahmen gelöscht. Die Sprachdaten der Interviewerin wurden nur an den Stellen transkribiert, die für einen inhaltlichen Zusammenhang (für eventuelle spätere Analysen) relevant sein könnten und zum Textverständnis beitragen. Sie gehen nicht in die weitere Analyse mit ein. In FOLKER war es allerdings lediglich möglich, solche überflüssigen Passagen zu überspringen, nicht aber, diese auch zu löschen. Ein Grund dafür ist der, dass bei tatsächlich gelöschten Passagen keine zeitliche Entsprechung zu den jeweiligen Wave-Dateien mehr vorhanden wäre, wodurch ein Abspielen des Tons nicht mehr gegeben wäre. Aus diesem Grund wurden alle überflüssigen Passagen im Anschluss mit dem Programm AUDACITY9 bearbeitet. . 9 AUDACITY ist ein Programm zur Bearbeitung und Aufnahme von Audiodaten. Nähere Informationen sowie die Möglichkeit zum Download finden Sie unter folgender Adresse: http://audacity.sourceforge.net/?lang=de (letzter Zugiff 18.12.2015). 70 4.1.5 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Bearbeitung der Audio-Dateien mit AUDACITY Aus Gründen der anschließenden Analyse, aber auch aus Datenschutzgründen, wurde in allen überflüssigen Passagen der Ton entfernt. Ein Ausschneiden oder Löschen der Passagen war nicht möglich, da die FOLKER-Dateien in diesem Fall nicht mehr mit den dazu gehörigen Wave-Dateien kompatibel gewesen wären, was das Abspielen, Ansehen oder Bearbeiten der FOLKER-Dateien unmöglich gemacht hätte. AUDACITY bietet die Möglichkeit, einzelne Passagen mit einem sogenannten Silence-Modus zu versehen, wodurch an den ausgewählten Stellen Stille erzeugt wird. Die FOLKER-Datei ic_a_16.flk sieht im Programm Audacity nach der Bearbeitung entsprechender Passagen mit dem Silence-Modus so aus: Abbildung 4.2: Folker-Datei: ic_a_16.flk Die grau markierte Passage (01m06.81s bis 01m26.75s) zeigt einen Bereich, in welchem der Ton entfernt wurde. Dies stellt lediglich ein Beispiel zur Veranschaulichung dar, alle weiteren überflüssigen Bereiche sind im Beispiel aus Gründen der Übersichtlichkeit noch nicht grau markiert. Da sich die Bearbeitung aller FOLKER-Dateien mit AUDACITY als sehr aufwendig herausstellte, konnte ein OpenSource-Programm10 genutzt 10 Das Programm zur Korpusanalyse wurde für die Ziele dieser Arbeit von Alexander Mack entwickelt und programmiert. Es ist als OpenSource-Programm unter folgender Adresse zu finden: https://github.com/fiedler-mack/CorpusAnalyser. Eine genaue Beschreibung der einzelnen Funktionen 4.1. METHODIK 71 werden ([Mack (2014)], Kapitel 5, 5.2.1), welches durch einen Algorithmus diese Passagen eigenständig entfernt. Nachdem alle Dateien auf diese Weise bearbeitet wurden, fand ein erneuter Kompatibilitätstest mit den dazugehörigen Wave-Dateien statt. Alle bearbeiteten Dateien waren weiterhin abspielbar und standen demnach zur weiteren Bearbeitung zur Verfügung. 4.1.6 Bearbeitung der Transkripte mit dem EXMARaLDA Partitur-Editor Nachdem eine geeignete Methode zur Bestimmung der Wortarten gefunden war (Abschnitt 3.2.3), musste ein Bearbeitungsprogramm gefunden werden, das die Bezeichnung der Wortarten (POS-Tags) mit den dazugehörigen Wörtern und später auch Lemmata vereint. FOLKER stellte sich dafür als ungeeignet heraus. Mit dem Programm selbst können zwar Transkripte erstellt und zu Text- und Html-Dateien exportiert werden, eine weitere Bearbeitung ist allerdings nicht möglich. Der EXMARaLDA Partitur-Editor11 erwies sich hingegen als geeignet. Laut den Entwicklern ist der Editor nicht nur zum Datenaustausch mit vielen anderen Systemen kompatibel, sondern erlaubt eine Analyse der Wortarten unter unterschiedlichen Transkriptionskonventionen: „EXMARaLDA ist ein System für das computergestützte Arbeiten mit mündlichen Korpora. Es besteht aus einem Transkriptions- und Annotationseditor (Partitur-Editor), einem Tool zum Verwalten von Korpora (Corpus-Manager) und einem Such- und Analysewerkzeug (EXAKT). EXMARaLDA unterstützt die zeitalignierte Transkription von digitalen Audiooder Videodaten, eine flexible Annotation nach frei wählbaren Analysekategorien, die systematische Dokumentation eines Korpus durch Metadaten, die flexible Ausgabe von Transkriptdaten in verschiedenen Notationsformen und Dokumentformaten, sowie die computergestützte Recherche in Transkriptions-, Annotations und Metadaten.“ (http://www.exmaralda.org/tool/exmaralda/ (letzter Zugriff 22.10.2014) Zunächst wurde jede der 39 Dateien in den Editor importiert. Im Editor selbst werden die Tonspuren der jeweils teilnehmenden Kinder untereinander in den entsprechenden Zeilen angezeigt. Pro FOLKER-Datei wurden meistens mehrere Kinder transkribiert. Dies ist logischerweise in jeder FOLKER-Datei der Fall, da während der Aufnahmesituationen in der Kita immer mehrere finden Sie im Abschnitt 5.2. 11 Für weitere Informationen und für die Möglichkeit des Downloads verweise ich auf folgende Webseite: http://www.exmaralda.org/partitureditor.html (letzter Zugriff 22.10.2014) 72 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Kinder gleichzeitig anwesend waren und somit gemeinsam auf einer Aufnahmedatei gespeichert sind. In Abbildung 4.3 sind jene Kinder aufgeführt, die zum Zeitpunkt der Aufnahme anwesend waren (hier: AV, MK, LUA, RD, MM, LEO sowie die Interviewerin IV). Um eine Analyse einzelner Kinder vornehmen zu können, wurden zunächst die Tonspuren separiert und einzeln gespeichert (Abbildung 4.4). Abbildung 4.3: Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen und Sprechern Abbildung 4.4: Separierte Tonspur in einer EXMARaLDA-Datei Anschließend wurden alle Lücken und unbenutzten Zeitpunkte in den Tonspuren entfernt und die syntaktischen Wörter voneinander separiert. Zusätzlich wurde eine Spur (Annotation) angefügt, in welche später die 4.1. METHODIK 73 entsprechenden POS-Tags geschrieben werden konnten (Abbildung 4.5 und Abschnitt 3.2.2). Abbildung 4.5: Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur Auf diese Weise entstanden 155 Einzeldateien von insgesamt 12 Kindern zwischen 3;5 und 5;5 Jahren. Aufgrund der Fülle der Daten wurden mehrere (Korrektur-)Durchläufe vorgenommen. Im Anschluss an die Bezeichnung der syntaktischen Wörter mit den jeweiligen POS-Tags wurde eine dritte Spur in jede der Dateien eingefügt, in die das zum Wort entsprechende Lemma eingetragen wurde (Abbildung 4.6). Abbildung 4.6: EXMARaLDA-Datei: MM_lem.exb Eine Lemmatisierung erwies sich als notwendig, weil ohne diese bei der späteren Analyse eine irrtümliche Type-Token-Zuordnung entstehen würde. Eine Relation der POS-Tags zu den jeweiligen syntaktischen Wörtern würde bedeuten, dass zum Beispiel alle Flexionsformen eines Verbs als unterschiedliche Lexeme definiert würden (z. B. spielen - spielte gespielt). Tatsächlich handelt es sich bei diesem Beispiel um nur ein Lemma, nämlich spielen. Ebenso würden alle deklinierten Nomen und Artikel als unterschiedlich erkannt, auch wenn sie demselben Lemma angehören. In dem Beispiel „Ich habe der Frau das Geld gegeben“, gehört „der “ zum Lemma „die“ bzw. „d“. Ein Programm, welches alle Wörter nur aufgrund ihrer äußeren Form erkennt und auswertet, erkennt dies nicht. Deshalb mussten im nächsten 74 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Schritt alle Wörter ihrem entsprechenden Lemma zugeordnet werden. Bei diesem Prozedere wurde deutlich, dass eine Lemmatisierung nicht immer eindeutig durchgeführt werden kann. Häufig traten Fälle auf, in denen ein vom Kontext isoliertes Wort einen Artikel mit dem entsprechenden Lemma darstellt. Zum Beispiel „das“ in „Ich nehme das“ würde folgendermaßen getaggt werden: • das (syntaktisches Wort) • ART (POS) • das bzw. d (Lemma) Kontextuell betrachtet handelt es sich zwar um ein Demonstrativpronomen - denn es fehlt das darauf folgende Nomen. Doch um dem Anspruch einer lexikalisch basierten Analyse gerecht zu werden, wurde tatsächlich mit ART getaggt sowie mit „das“ bzw. „d“ lemmatisiert (siehe auch Abschnitt 4.1.7 und 4.1.8)., da in diesem Fall eine Ellipse vorliegt. 4.1.7 Kriterien für das Taggen der Wortarten nach den Richtlinien der STTS In diesem Abschnitt möchte ich alle Kriterien anführen, nach denen ich mich beim Taggen der syntaktischen Wörter mittels der STTS (Abschnitt 3.2.2) gerichtet habe. Die Stuttgart Tübingen Tagsets bieten zahlreiche Beschreibungen und Hinweise, nach denen ein Wort mit einem bestimmten POS-Tag bezeichnet werden sollte und diese wurden auch hier zu großen Teilen verwendet ([Schiller, Teufel, Stöckert und Thielen (2009)]). Trotz sehr detaillierter Beschreibungen kann es in einigen Fälle zu Unstimmigkeiten kommen, in denen nicht klar ist, welches POS-Tag verwendet werden muss. Insbesondere vor dem Hintergrund, dass es sich bei den vorliegenden Daten um Audiodateien von Kindern handelt, war es erforderlich, weitere, individuelle Regeln hinzuzuziehen. Es kann zum Beispiel vorkommen, dass je nach Kontext mehrere Bezeichnungen zulässig sind und eine Entscheidung darüber, welches POS-Tag verwendet werden muss, nur im Auge der ausführenden Person liegt. Um diesem Problem möglichst effizient zu begegnen, wurden unter Zuhilfenahme der Dudengrammatik ([Dudenredaktion (2009)]) alle in den STTS vorkommenden POS-Tags mit den Definitionen des Dudens abgeglichen und daraufhin ein für diese Arbeit einheitliches Definitionssystem zusammengestellt. Die STTS basieren vorwiegend auf einer syntaktischen Kategorisierung, welche eigentlich nicht Gegenstand dieser Arbeit ist. Die aufgeführten POS-Tags sind jedoch äußerst 4.1. METHODIK 75 geeignet, um alle Wörter im Korpus zu bezeichnen - auch nach überwiegend lexikalischen Kriterien. Durch ein anschließendes Zusammenführen der POS-Tags in größere Klassen (Tabelle 6.1) konnte der syntaktische Aspekt jedoch größtenteils, wenn auch nicht in allen Fällen, umgangen werden. In Anlehnung an die STTS möchte ich im Folgenden alle Tags mit den Definitionen der Dudengrammatik in Einklang bringen. Die Reihenfolge ist an die Abfolge der POS-Tags in der entsprechenden Tabelle (Tabelle 3.2) angelehnt. • Adjektive (ADJA und ADJD): Alle Adjektive im hier verwendeten Korpus wurden nach den Regeln der Dudengrammatik getaggt ([Dudenredaktion (2009)], S. 338-388). Eine Ausnahme bilden die Kardinalzahlen. Laut Duden sind diese der Wortart Adjektiv zuzuordnen und rein funktionell betrachtet wäre dies auch im vorliegenden Korpus möglich. Da die STTS dafür eine eigene Kategorie CARD bereit halten, wurden Kardinalzahlen in dieser Arbeit mit dem POS-Tag CARD bezeichnet. Die STTS unterscheiden zwischen attributivem Adjektiv (ADJA) und adverbialem bzw. prädikativem Adjektiv (ADJD). Diese Unterscheidung wurde beim Taggen beibehalten, wenn auch die Adjektive bei der späteren Analyse zusammengefasst als ADJ aufgeführt werden. Eine häufige Erscheinung ist der elliptische Gebrauch von Nomen in Verbindung mit Adjektiven. In Aussagen wie „Ich möchte gern das kleine [ ]“ kann ohne den Kontext kleine nicht eindeutig als ADJA getaggt werden. Es könnte sich ebenso um ein substantiviertes Adjektiv handeln, das dementsprechend als Nomen (NN) getaggt werden müsste. Da in dieser Arbeit jedoch die syntaktischen Wörter an sich im Mittelpunkt stehen und möglichst isoliert betrachtet werden, wurde kleine dennoch als ADJA12 getaggt. • Adverbien (ADV und PAV): Eine Abgrenzung des Adverbs gegenüber anderen Wortarten ist nicht immer eindeutig, insbesondere dann, wenn es um Adverbien geht, die ähnlich wie Adjektive steigerbar sind, z. B. oft - öfter (häufiger) - am öftesten (am häufigsten) ([Dudenredaktion (2009)], S. 570). Nichtsdestotrotz gibt es Regeln für die Abgrenzung eines Wortes als Adverb. Die Dudengrammatik unterscheidet zehn Adverbientypen: Lokal-, Temporal-, Modal-, Kausal-, Situierungs-, Interrogativ-, Relativ-, Präpositional- (oder Pronominal-), Konjunktional- und Kommentaradverb. Die STTS unterscheiden nur 12 Mir ist bewusst, dass durch die Unterscheidung zwischen ADJA und ADJD ein syntaktisches Kriterium zugrunde gelegt wird. In der späteren Analyse werden die Lemmata jedoch zusammengefasst als ADJ betrachtet, wodurch distributionelle Aspekte wieder vernachlässigt werden. 76 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK zwischen Adverb (ADV) und Pronominaladverb (PAV). Beim Taggen nach den Regeln der STTS unterscheide ich dementsprechend ebenso nach ADV und PAV, wobei die Pronominaladverbien später zu den Adverbien gezählt werden. Zur Kategorie ADV zählen demnach alle nach Duden unterschiedenen Adverbien, bis auf das Pronominaladverb. Das Pronominaladverb (auch Präpositionaladverb) wird laut Duden mit einer Präposition als zweitem Bestandteil und mit da(r)-, hier- oder wo(r)- als erstem Bestandteil gebildet ([Dudenredaktion (2009)], S. 579 sowie Regel 860). Auf Basis dieser Definition wurden die Wörter im Korpus als PAV identifiziert und mit PAV getaggt. Ebenso wurde trotzdem und außerdem als PAV getaggt, da es in den STTS als Pronominaladverb aufgeführt wird. In der Dudengrammatik entspricht es den Konjunktionaladverbien (Regel 864), zu denen noch weitere Adverbien gehören. • Präpositionen (APPR, APPRART, APPO und APZR): Im hier untersuchten Korpus kommen lediglich Präpositionen (APPR) sowie Präpositionen mit Artikel (APPRART) vor. Postpositionen (APPO) und Zirkumpositionen rechts des Bezugswortes (APZR) kommen nicht vor. Die Bezeichnung der Wörter mit den POS-Tags APPR bzw. APPRART wurde größtenteils in Anlehnung an die Ausführungen der Dudengrammatik vorgenommen ([Dudenredaktion (2009)], S. 600-619). Bei der späteren Analyse (Kapitel 6) wurden die Präpositionen zusammengefasst zum POS-Tag APPR. • Artikel (ART): Die Dudengrammatik führt den definiten Artikel ([Dudenredaktion (2009)], S. 291-302) getrennt vom indefiniten Artikel auf ([Dudenredaktion (2009)], S. 330-337). In den STTS werden der definite und der indefinite Artikel unter dem POS-Tag ART zusammengefasst. In der vorliegenden Arbeit wurden die Artikel demnach mit ART bezeichnet, unabhängig davon, ob es sich um einen definiten oder einen indefiniten Artikel handelt. Nicht nur im vorliegenden Korpus fiel es nicht immer leicht zwischen einem Artikel oder einem Pronomen zu unterscheiden. Auch in der Dudengrammatik befindet sich der Eintrag zum Artikel umrahmt von zahlreichen Einträgen zu den verschiedenen Pronomen des Deutschen. Im Grunde erfüllen viele Pronomen (z. B. Indefinitpronomen) oft die Funktion eines indefiniten Artikels. Und obwohl diese Arbeit die Lemmata auf der Basis der Wortform bzw. in Bezug auf ihre Form im Lexikon untersuchen soll, ist es an dieser Stelle nahezu unmöglich, syntaktische Gesichtspunkte außer Acht zu lassen. In der Dudengrammatik sind alle Formen 4.1. METHODIK 77 von irgendein unter dem Eintrag zum indefiniten Artikel aufgeführt ([Dudenredaktion (2009)], S. 334). Dies erscheint insofern sinnvoll, als dass man die Formen von irgendein oft stellvertretend für die Formen von ein syntaktisch im Satz positionieren kann. Da die STTS für nahezu alle Pronomen eine gesonderte Kategorie bereithalten, wurden diese in der vorliegenden Arbeit auch als Pronomen (z. B. PDAT, PIAT, PIDAT oder PIS) getaggt. In der späteren Analyse wurden bestimmte Gruppen von Pronomen zusammengefasst. • Kardinalzahlen (CARD): Die Kardinalzahlen wurden in Anlehnung an die Regeln der Dudengrammatik ([Dudenredaktion (2009)], S. 382-388), insbesondere nach den Regeln 510, 511, 512 und 513 bezeichnet. Syntaktisch gesehen gehören die Kardinalzahlen laut Duden (ebd.) zu den Zahladjektiven, Zahlpronomen, Zahlsubstantiven und Zahladverbien. In der vorliegenden Arbeit wurden damit vor allem Grundund Ordnungszahlen sowie Jahreszahlen gekennzeichet. • Fremdsprachliches Material (FM): Mit dem POS-Tag FM wurden alle Wörter bezeichnet, die nicht in deutscher Sprache geäußert wurden. • Interjektionen (ITJ): Die Interjektionen gehören laut der Dudengrammatik zu den Ausdruckspartikeln ([Dudenredaktion (2009)], S. 597-599). In der gesprochenen Sprache dienen sie demzufolge vor allem dem Ausdruck spontaner Emotionen oder Bewertungen. Beispiele für Interjektionen, wie sie in der vorliegenden Arbeit vorkommen sind aua oder hey. Zu den Interjektionen gehören in Einklang mit den STTS in dieser Arbeit auch die Onomatopoetika. In der Dudengrammatik werden diese, ebenso wie die Interjektionen, unter dem Eintrag Partikeln aufgeführt ([Dudenredaktion (2009)], S. 599). Da in dieser Arbeit jedoch die Kategorisierung nach den STTS im Vordergrund steht, wurden die Onomatopoetika zu den Interjektionen gezählt. • Konjunktionen (KOUI, KOUS, KON und KOKOM): Die Dudengrammatik unterscheidet in ihrer Definition die Konjunktionen und die Subjunktionen ([Dudenredaktion (2009)], S. 619-633). Die STTS unterscheiden unterordnende Konjunktionen mit zu und Infinitiv (KOUI), unterordnende Konjunktionen mit Satz (KOUS), nebenordnende Konjunktionen (KON) und Vergleichskonjunktionen (KOKOM). In der vorliegenden Arbeit kommen unterordnende Konjunktionen mit zu und Infinitiv nicht vor. Alle nebenordnenden Konjunktionen (KON) wurden nach den Regeln der Dudengrammatik (Regeln 934 bis 939) bezeichnet. Die unterordnenden Konjunktionen (KOUS) entsprechen größtenteils den 78 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Definitionen in den Regeln 941 bis 947 und 949 bis 952, während die Vergleichkonjunktionen (KOKOM) unter der Regel 940 aufgeführt sind ([Dudenredaktion (2009)], S. 625). Die Dudengrammatik geht in ihren Defintionen verstärkt auf die Funktion des jeweiligen Satzgliedes im Satz ein. So müsste beispielsweise die Subjunktion „als ob“ als ein Lexem/Satzglied mit KOUS bezeichnet werden. Da in dieser Arbeit jedoch die einzelnen Wortformen untersucht werden, konnte diese Bezeichnung nicht angewandt werden. Vielmehr wurden als und ob als zwei separate Formen getaggt. • Nomen (NN und NE): Das Nomen wird als flektierbare Wortart beschrieben ([Dudenredaktion (2009)], S. 145-248). Insbesondere eingegangen wird auf Kasus, Numerus und Genus. All diese nominalen Eigenschaften sind in der vorliegenden Arbeit irrelevant, da es nur um das Lemma im Nominativ (Sgl.) geht. Das Genus des jeweiligen Nomens wird durch den Artikel näher bestimmt (z. B. die Gabel, das Kind, der Apfel). Da das Nomen jedoch ohne den Artikel getaggt wird, spielt das Genus hier keine bzw. nur eine untergeordnete Rolle. Die Dudengrammatik unterscheidet ferner zwischen Konkreta und Abstrakta. Auch diese Unterscheidung wurde bei der Analyse mittels der STTS nicht vorgenommen (siehe aber Kapitel 7 für eine derartige Unterscheidung). Eine weitere Kategorisierung betrifft die Abgrenzung der Eigennamen von den restlichen Nomen ([Dudenredaktion (2009)], S. 147-151). Dies ist eine Unterscheidung, die auch in der vorliegenden Arbeit vorgenommen wurde. Alle Eigennamen wurden mit NE getaggt, alle weiteren Nomen mit NN. Im Hinblick auf die Definition von Eigennamen, die der Duden vornimmt, gilt dies auch für die Eigennamen, die im Korpus mit NE bezeichnet wurden. Abgrenzungsschwierigkeiten gab es bezüglich substantivierter Infinitive sowie bei Substantivierungen von Farbwörtern. Kontextuell gesehen müssten substantivierte Infinitive als NN getaggt werden (z. B. beim Schwimmen → APPRART + NN). Da es wie bereits erwähnt jedoch lediglich um die separierten Wörter, möglichst losgelöst vom Kontext gehen soll, wurde in solchen Fällen ein POS-Tag aus der Kategorie Verb verwendet. Im Beispiel beim Schwimmen also APPRART + VVINF, auch wenn dies im Kontext wenig Sinn ergibt. Des Weiteren kam es beim Taggen mit NN in einigen Fällen zu Schwierigkeiten bei der Lemmatisierung. In Fällen wie das/der/die Kleine im Gegensatz zu ein Kleiner/eine Kleine konnte nicht eindeutig ein Lemma zugeordnet werden. Erst durch das Taggen mit ADJA wurde diese Unstimmigkeit wieder eliminiert. Zudem könnte es sich je nach Kontext in diesem 4.1. METHODIK 79 Fall um eine Ellipse handeln, wodurch eine Bezeichnung mit ADJA nochmals bestärkt wird. In der Dudengrammatik sind diese Fälle unter der Regel 238 aufgeführt mit dem Hinweis, dass für diese Wortarten eigene Gesetzmäßigkeiten gelten im Gegensatz zu den restlichen Nomen. Die Regeln zu den substantivierten Farbadjektiven (und Zitaten) sind in der Dudengrammatik einerseits unter dem Eintrag Substantiv aufgeführt ([Dudenredaktion (2009)], S. 190-192), andererseits unter dem Eintrag Adjektiv ([Dudenredaktion (2009)], S. 348-351). Dieser Umstand lässt bereits vermuten, dass es auch in der vorliegenden Arbeit nicht leicht fiel, ein einheitliches Bezeichnungssystem zu finden. Insbesondere Farbwörter kommen im Korpus häufig vor und sind kontextuell gesehen entweder Adjektiv oder Substantiv. In dieser Arbeit wurden sie dennoch durchgehend mit dem POS-Tag ADJA (oder ADJD) als Adjektiv bezeichnet. Gerade in Fällen wie das Blau vs. die Blaue wären anderenfalls Probleme bei der Lemmatisierung entstanden. • Demonstrativ- und Indefinitpronomen (PDAT, PIDAT, PDS, PIS und PIAT): An dieser Stelle möchte ich die Demonstrativund Indefinitpronomen zusammen aufführen, da diese auch bei der Bezeichnung mit den POS-Tags (später) zu einer Gruppe zusammengefasst wurden. Dies waren lediglich persönliche Vorlieben. Man hätte ebenso die Indefinit- und Possessivpronomen zusammenfassen können. Die Dudengrammatik beschreibt in einem umfassenden Eintrag Artikelwörter und Pronomen, unter denen sich auch alle in den STTS aufgeführten Pronomen wiederfinden ([Dudenredaktion (2009)], S. 249-337). Die attribuierenden (PDAT) und substituierenden Demonstrativpronomen (PDS) sind in der Dudengrammatik unter den Regeln 372-382 erläutert. In der vorliegenden Arbeit wurden die Demonstrativpronomen vorwiegend entsprechend der Regeln in der Dudengrammatik bezeichnet, wenn auch das attribuierende Demonstrativpronomen (PDAT) zu Teilen nach den Regeln der STTS markiert wurde ([Schiller, Teufel, Stöckert und Thielen (2009)], S. 39). Die attribuierenden Demonstrativpronomen mit Determiner (PIDAT) sind in der Dudengrammatik unter dem Eintrag Indefinitpronomen aufgeführt (Regel 409). In dieser Arbeit konnten die attribuierenden Demonstrativpronomen mit Determiner nur deshalb als PIDAT bezeichnet werden, weil sie zusammen mit dem Artikel als Einheit betrachtet werden. Dies ist streng genommen eine kontextuelle Analyse, die eigentlich vermieden werden sollte. Da die STTS als System zur Kategorisierung von Wortarten jedoch bis auf wenige Ausnahmen sehr geeignet sind, 80 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK wurde an diesen (wenigen) Stellen kontextuell analysiert. Durch das spätere Zusammenführen der POS-Tags PDS+PDAT+PIDAT+PIS+PIAT zu den PIDATS wurde diese teilweise syntaktische Analyse jedoch wieder vernachlässigt, weil dadurch die einzelne Wortart wieder in den Vordergrund rückte. Das Wort beide ist unter der Regel 413 unter Umständen als Kardinalzahl einzustufen. Dies ist in der vorliegenden Arbeit nicht der Fall und beide ist Indefinitpronomen. In allen anderen Fällen wurden die Indefinitpronomen analog zu den Regeln der Dudengrammatik als PIS (substituierendes Indefinitpronomen), PIAT (attribuierendes Indefinitipronomen) oder PIDAT (attribuierendes Indefinitpronomen mit Determiner) getaggt. • irreflexives Personalpronomen (PPER): Die irreflexiven Personalpronomen wurden analog zu der Regel der Dudengrammatik mit PPER getaggt ([Dudenredaktion (2009)], S. 263-271). • Possessivpronomen (PPOSS und PPOSAT): Die STTS unterscheiden zwischen substituierendem (PPOSS) und attribuierendem Possessivpronomen (PPOSAT). Die Dudengrammatik hält einen Eintrag zu den Possessivpronomen im Allgemeinen sowie deren besondere Gebrauchsweisen (Regel 371) bereit. Grundlegend wurden die Wörter entsprechend der Regeln der Dudengrammatik entweder mit PPOSS oder mit PPOSAT getaggt. Allein die unter Regel 371 aufgeführten possessiven Adjektive kommen in dieser Arbeit bzw. im Korpus nicht vor. • Relativpronomen (PRELS und PRELAT) und reflexives Personalpronomen (PRF): Bezüglich der Relativpronomen unterscheiden die STTS substituierende (PRELS) und attribuierende Relativpronomen (PRELAT). Die Dudengrammatik nimmt diese Unterscheidung nicht explizit vor, sondern äußert sich zu den verschiedenen Pronomen in ihrer Form und Funktion im Satz ([Dudenredaktion (2009)], S. 302-304). Relativpronomen kommen im gesamten Korpus sehr selten vor, wurden aber in Anlehnung an die in der Dudengrammatik aufgeführten Regeln als Relativpronomen getaggt. Das Reflexivpronomen (PRF) kommt ebenfalls nur selten vor und wurde, da es keine Besonderheiten aufweist, nach den Regeln der Dudengrammatik identifiziert und als PRF bezeichnet ([Dudenredaktion (2009)], S. 271-274). • Interrogativpronomen (PWAT, PWAV und PWS): Die attribuierenden (PWAT) und substituierenden Interrogativpronomen (PWS) bzw. 4.1. METHODIK 81 adverbialen Interrogativ- und Relativpronomen (PWAV)13 sind in der Dudengrammatik definiert und entsprechen in ihrer Einteilung weitestgehend jener der STTS ([Dudenredaktion (2009)], S. 304-309). Das Interrogative wer/was ist in den STTS unter dem POS-Tag PWS aufgeführt. Alle Wörter, die mit PWS bezeichnet wurden, entsprechen den Regeln in den STTS und weitestgehend der Regel 406 in der Dudengrammatik ([Schiller, Teufel, Stöckert und Thielen (2009)], S. 51 ff.). Das Interrogative welch- hat in attribuierender Form in den STTS die Entsprechung PWAT (attribuierendes Interrogativpronomen). Wörter, die dieses Tag erhielten, entsprechen den Definitionen der Dudengrammatik (Regel 407). Das substituierende welch- wurde mit dem POS-Tag PWS markiert. Welch- kann allerdings in Ausnahmefällen auch ein substituierendes Indefinitpronomen (PIS) darstellen; nämlich dann, wenn welch- im Sinne von einige verwendet wird. In diesen Fällen wurde es mit dem POS-Tag PIS bezeichnet. Das adverbiale Interrogativund Relativpronomen (PWAV) ist in der Dudengrammatik unter dem Eintrag Adverb verortet ([Dudenredaktion (2009)], S. 577-578). Die Regeln zum Interrogativadverb (Regel 856) und Relativadverb (Regel 857) entsprechen dem POS-Tag PWAV in den STTS. Da in dieser Arbeit eine Kategorisierung der Wortarten auf der Einteilung der STTS basiert, wurden auch hier die Interrogativ- und Relativpronomen den Pronomen zugeordnet, auch, wenn diese laut Dudengrammatik den Adverbien angehören. • Partikeln (PTKZU, PTKNEG, PTKVZ, PTKANT und PTKA): Die Dudengrammatik differenziert in Gradpartikeln, Fokuspartikeln, Negationspartikeln, Abtönungspartikeln, Gesprächspartikeln, Interjektionen und Onomatopoetika ([Dudenredaktion (2009)], S. 588-599). Die Interjektionen wurden hier außer Acht gelassen, da sie bereits an anderer Stelle (ITJ) gesondert aufgeführt wurden. Die Negationspartikeln können analog zu den in den STTS aufgeführten Negationspartikeln (PTKNEG) verstanden werden. Die STTS unterscheiden weiterhin Partikeln mit zu vor Infinfitiv, z. B. zu (gehen). Diese sind in der Dudengrammatik nicht unter dem Eintrag Partikeln zu finden, sondern an anderer Stelle bei den Verben und diesbezüglich beim Infinitiv mit zu. Im vorliegenden Korpus wurde dennoch jedes zu, das separat vor einem Infinitiv steht, mit PTKZU gekennzeichnet (z. B. Es ist schön zu singen → ART VVFIN ADJD PTKZU VVINF, aber: 13 An dieser Stelle wurde die Kategorisierung der STTS-Guidelines ([Schiller, Teufel, Stöckert und Thielen (2009)], S. 54) beibehalten, womit alle POS-Tags der Kategorie PWAV sowohl Interrogativ- als auch Relativpronomen sein können. 82 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Es macht Spaß, ihr vorzulesen → ART VVFIN NN PPER VVIZU). Die Gradpartikeln, Fokuspartikeln und Abtönungspartikeln entsprechen weitestgehend den Partikeln bei einem Adjektiv oder Adverb in den STTS (PTKA). Eine weitere Kategorie stellen die Gesprächspartikeln dar (Regel 800), die je nach Kontext den Antwortpartikeln (PTKANT) entsprechen. In den meisten Fällen wurden sie aber mit PTKA bezeichnet werden, nämlich dann, wenn sie tatsächlich die Funktion eines Füllwortes bzw. einer Partikel übernehmen, wie im folgenden Beispiel: Der (ART) Ball (NN) ist (VVFIN) ja (PTKA) klein (ADJD)! • Verben (VVFIN, VVIMP, VVINF, VVIZU, VVPP, VAFIN, VAIMP, VAINF, VAPP, VMFIN, VMINF, VMPP): Die Dudengrammatik widmet sich in einem umfassenden Eintrag der Wortart Verb ([Dudenredaktion (2009)], S. 389-566). Dabei unterscheidet sie zunächst nach Bedeutung und Funktion unterschiedlicher Verbarten (ebd., S. 390-429), was für die Zwecke der Wortartenanalyse als Teilziel dieser Arbeit nicht vordergründig relevant ist. Ich möchte an dieser Stelle deshalb nicht näher darauf eingehen und erst in einem späteren Kapitel wieder darauf zu sprechen kommen (Kapitel 7). Auf den Seiten 429 bis 476 beschreibt die Dudengrammatik jene Verbformen, die in ihrer Kategorisierung durch die STTS dem Korpus dieser Arbeit am ehesten entsprechen. Unter der Regel 596 werden die finiten Kategorien vorgestellt, die in den STTS den finiten Vollverben (VVFIN), finiten Auxiliarverben (VAFIN) und finiten Modalverben (VMFIN) entsprechen. Unter der Regel 597 werden die infiniten Kategorien aufgeführt, die am ehesten mit den Bezeichnungen infinites Vollverb (VVINF), infinites Auxiliarverb (VAINF) und infinites Modalverb (VMINF) gleichzusetzen sind. Die Partizipien VAPP (Partizip Perfekt, auxiliar ), VVPP (Partizip Perfekt, voll) sowie VMPP (Partizip Perfekt, modal) finden sich am ehesten in der Regel 598 wieder. Mehrteilige Verbformen, wie sie in dieser Regel zu finden sind, werden in den STTS mit Hilfe der bisher aufgeführten POS-Tags einzeln getaggt, da es um die Wortart an sich gehen soll, nicht aber um das funktionale Gefüge. Der Konditionalsatz „Sie würde dir meine Adresse nicht geben.“ würde nach den Regeln der STTS mit PPER (sie) VAFIN (würde) PPER (dir) PPOSAT (meine) NN (Adresse) PTKNEG (nicht) VVINF (geben) getaggt werden. In Bezug auf den Infinitiv mit zu könnte ein Tagging-Vorgang folgendermaßen aussehen: PPOSAT (mein) NN (Ziel) VVFIN (ist) PPER (es), VVIZU (anzukommen). Eine Besonderheit betrifft die Auxiliarverben, wenn diese sich in ihrer infiniten Form befinden. Den STTS zufolge werden diese dann als 4.1. METHODIK 83 VAINF (infinites Auxiliarverb) getaggt. Das bedeutet, dass in dem Beispiel „Ich möchte gern erwachsen sein.“ das Verb sein laut den STTS als Auxiliarverb im Infinitiv mit VAINF getaggt werden müsste. In den Daten dieser Arbeit sollte dies nicht geschehen und sein sowie die weiteren Auxiliarverben wurden in ihrer infiniten Form mit VVINF getaggt. Dieses Vorgehen ist darin begründet, dass sein in dem Beispielsatz „Ich möchte gern erwachsen sein.“ streng genommen gar kein Auxiliarverb mehr sein kann, sobald es im Infinitiv steht. Analog verhält es sich mit der Kategorie VAPP (Auxiliarverb, Partizip Perfekt). Auch diese wurde in dieser Arbeit nicht verwendet und stattdessen mit VVPP ersetzt. Im weiteren Verlauf beschreibt die Dudengrammatik vor allem die Funktionsweise der Verben sowie deren Stellung im Satz. Darauf möchte ich aus oben genannten Gründen nicht eingehen. Nicht verzichten möchte ich aber auf die Demonstration zweier Beispiele, da diese Muster im Korpus gehäuft auftreten. Es handelt sich um die Bezeichnung der Verben im Passiv (sieh auch die Regeln 667 - 677). Formen wie „wird geliebt“ wurden getaggt als VAFIN (wird) VVPP (geliebt); „werde geliebt werden“ sähen bezeichnet mit POS-Tags folgendermaßen aus: VAFIN (werde) VVPP (geliebt) VVINF (werden). Analog verhält es sich beim Taggen von Modalverbkomplexen (Regel 679). „Wir können schwimmen“ würde bezeichnet werden mit PPER (wir) VMFIN (können) VVINF (schwimmen); „er hat nicht schwimmen dürfen“ würde bezeichnet werden mit PPER (er) VAFIN (hat) PTKNEG (nicht) VVINF (schwimmen) VMINF (dürfen). Die syntaktischen Wörter im Beispiel „ich bin groß“ würden bezeichnet werden mit PPER (ich) VVFIN (bin) ADJD (groß). Im engeren Sinne ist bin in diesem Beispiel ein Kopulaverb. Da die STTS dies als POS-Kategorie nicht vorgeben, wurden im weiteren Verlauf auch für Kopulaverben die POS-Tags VVFIN bzw. VVINF verwendet. In einer späteren Analyse wurden alle Lemmata und somit auch alle Verben einer Analyse unter semantisch-funktionalen Aspekten unterzogen, wobei insbesondere Kopulaverben identifiziert wurden (Kapitel 7). Im Hinblick auf die Bezeichnung der Wörter mit den POS-Tags für Verben wird deutlich, dass eine rein lexikalisch basierte Bezeichnung nicht möglich ist. Allein, wenn zwischen einem finitem oder infinitem Verb gewählt wird, muss der Kontext häufig hinzugezogen werden. Man nehme das Beispiel „wir schwimmen im See“. Das Verb schwimmen ist in diesem Fall ein 84 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK finites Vollverb, also VVFIN. Losgelöst vom Kontext könnte es ebenso ein infinites Vollverb, also VVINF, darstellen. An dieser Stelle wurden alle Verben zunächst unter Berücksichtigung des Kontextes bezeichnet und erst später zu Unterkategorien zusammengefasst, wodurch dem lexikalisch begründeten Anspruch wieder Rechnung getragen wird (Tabelle 6.1). Da ich mich im Vorfeld dazu entschieden habe, die STTS als populäres Tagging-System für meine Analyse zu nutzen, hielt ich es dennoch für sinnvoll, dass auch die Möglichkeit einer späteren syntaktischen Analyse gegeben ist. Bei der Zusammenfassung der POS-Tags zur Bezeichnung der Verben gab es mehrere Möglichkeiten. Eine Variante war es, alle Verben - so wie sie im obigen Abschnitt zusammen erläutert wurden - zu einer Kategorie zusammenzufassen. Unter lexikalischen Gesichtspunkten einer Wortartenanalyse wäre dies mit Sicherheit vorteilhaft und ausreichend. Da insbesondere Verben als Inhaltswörter jedoch sehr aufschlussreich sind und im weiteren Verlauf zudem einer Inhaltsanalyse sowie einer semantischen Analyse unterzogen wurden, sollten sie in drei Kategorien aufgeteilt werden. Dadurch blieben jene Informationen erhalten, die für das weitere Vorgehen essentiell waren. Die Verben wurden zusammengefasst in die Unterkategorien: Auxiliarverb (VAFIN, (VAINF), VAIMP, (VAPP)) Modalverb (VMFIN, VMINF, VMPP) Vollverb (VVFIN, VVINF, VVPP, VVIMP, VVIZU) 4.1.8 Kriterien für die Lemmatisierung der syntaktischen Wörter Analog zu den Kriterien für das Bezeichnen der Wortarten mit den POS-Tags in Abschnitt 4.1.7 möchte ich an dieser Stelle die Kriterien anführen, nach denen die geäußerten, transkribierten und voneinander separierten Wörter lemmatisiert wurden, wobei ich insbesondere auf die Sonderfälle eingehen möchte. Bei der Lemmatisierung stütze ich mich vor allem auf die Regeln der eben zitierten Dudengrammatik ([Dudenredaktion (2009)]). Die POS-Tags vor den Klammern bilden die Tags in ihrer gruppierten Form ab (Tabelle 6.1), die POS-Tags in Klammern sind alle hier vorkommenden, nicht zusammengefassten Wortarten (Tabelle 3.2). • ADJ (ADJA und ADJD): Adjektivbezeichnungen sind in ihrer lemmatisierten Form immer im Positiv angegeben. Grenzfälle gab es wie bereits weiter oben beschrieben bei substantivierten Adjektiven, 4.1. METHODIK 85 insbesondere bei den Farbwörtern. Da in dieser Arbeit nur die Wortart an sich im Mittelpunkt steht, wurden an dieser Stelle die Positivformen angegeben; auch wenn in Sonderfällen in der lemmatisierten Form ein Artikel vor dem Lemma steht. Die Aussage „ich nehme das Große/große“ würde dementsprechend „ich (ich) nehmen (nehme) d (das) groß (Große/große)“ lemmatisiert. Analog verhält es sich mit folgendem Beispiel: „du hast eine Blaue/blaue“ → „du (du) haben (hast) ein (eine) blau (Blaue/blaue)“. Dies ist insbesondere deshalb logisch, weil in diesen Fällen eine Ellipse vorliegt, durch die das Nomen an dieser Stelle nicht expilizit angeführt wird. • ADV (ADV und PAV): Adverbien und Pronominaladverbien unterliegen keinen besonderen Grenzfällen. Sie bilden bereits als Wort die lemmatisierte Form ab und wurden dementsprechend auch so übernommen. • APPR (APPR, APPRART, APPO, APZR): Präpositionen ohne Artikel (APPR) behielten ihre Form, die sie als Wort aufweisen, auch als Lemma bei. Präpositionen mit Artikel (APPRART) verloren in der lemmatisierten Form ihren Artikel (beim → bei, ans → an). Die Präpostionen APPO und APZR kommen im Korpus nicht vor. • ART: Die bestimmten Artikel (der, die, das, die (Pl.) wurden als d (im Singular) bzw. d-p (im Plural) lemmatisiert. Die unbestimmten Artikel (ein, eine) wurden zu ein. • CARD: Da die Kardinalzahlen häufig einen adjektivischen Charakter aufweisen, wurden sie in ihrer Form als Lemma ebenso nach den Regeln der Adjektivlemmatisierung lemmatisiert. Die Ordnungszahlen veränderten sich folgendermaßen: erste → erst, dritte → dritt, wobei die Grundzahlen ihre Form als Wort auch als Lemma beibehielten: eins → eins, zweihundert → zweihundert. • FM: Fremdsprachliches Material kommt im gesamten Korpus nur sehr selten vor und blieb in der lemmatisierten Form in seiner fremdsprachlichen Wortform erhalten. • ITJ: Interjektionen erfuhren keine Änderung in der lemmatisierten Form. • KON (KOUI, KOUS, KOKOM, KON): Konjunktionen erfuhren keine Änderung in der lemmatisierten Form. • N (NE und NN): Nomen (NN) und Eigennamen (NE) wurden als Lemma in der Nominativform im Singular angeführt. 86 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK • PIDATS (PDAT, PDS, PIAT, PIDAT, PIS): Unter den substituierenden (PDS) und attribuierenden Demonstrativpronomen (PDAT) findet sich im Korpus lediglich dies/e/er/es; jene/r/s kommt nicht vor. Dies/e/er/es wurde in der lemmatisierten Form immer als dies angeführt. Ein Grenzfall stellt das substituierende Demonstrativpronomen in Äußerungen wie „das ist großartig“ dar. In diesem Fall ist das ein Demonstrativpronomen, wurde dementsprechend mit dem POS-Tag PDS getaggt und erhielt das Lemma dies. Mir ist bewusst, dass ich an dieser Stelle eine kontextuelle Analyse durchführe, doch da die STTS als Kategorisierungssystem angewendet wurden und die Ergebnisse für weiterführende Arbeiten relevant sein können, habe ich mich an dieser Stelle dazu entschlossen ([Dudenredaktion (2009)], Regeln 372 und 373, S. 280-281). Hinsichtlich der attribuierenden Demonstrativpronomen (PDAT) lassen sich in dieser Arbeit nur wenige Fälle finden, die sich auf Wendungen mit dies- + Nomen beschränken. Dementsprechend wurde das entsprechende Wort nach der Lemmatisierung mit dies- gekennzeichnet. Im weiteren Verlauf ergab sich allerdings folgende Besonderheit, die erst später in Kapitel 7 zum Tragen kommt. Bei der Analyse der Lemmata nach semantischen Kriterien musste streng genommen kontextuell analysiert werden. Demnach ist ein attribuierendes Demonstrativpronomen in Fällen wie „Ich spiele mit diesem Ball“ kein Demonstrativpronomen mehr, sondern Artikel. Aufgrund der sehr selten auftretenden Fälle und aufgrund der Übersichtlichkeit wurde später auch in diesen Fällen mit dem POS-Tag PDAT bzw. der entsprechenden Bedeutungskategorie pdat bezeichnet, wohlwissend, dass es in anderen Analysen eine abweichende Kennzeichnung erhalten könnte (siehe auch Kapitel 7). Die Lemmatisierung der Indefinitpronomen (PIS, PIAT, PIDAT) wurde in Anlehnung an die Dudengrammatik (Regeln 409 bis 440) durchgeführt. Beispiele für lemmatisierte Indefinitpronomen sind: manche/r/s → manch, wenig/e/er/es → wenig, viel/e → viel. Einen Sonderfall bildet die Lemmatisierung von Wendungen wie „ein bisschen“ oder „ein paar “. Diese wurden separat als ART (ein) + PIS (bisschen) getaggt und lemmatisiert, obwohl es sich streng genommen um feststehende Wendungen handelt. • PPER: Die irreflexiven Personalpronomen blieben immer im Nominativ (Singular oder Plural): z. B. ich → ich, ihr (2. P. Pl.) → ihr, ihm → er, uns → wir. • PPOS (PPOSS und PPOSAT): Die substituierenden (PPOSS) und attribuierenden Possessivpronomen (PPOSAT) blieben immer 4.1. METHODIK 87 im Nominativ (Singular) in Anlehnung an die Dudengrammatik ([Dudenredaktion (2009)], S. 276): meine → mein, meinem → mein, unsere → unser, ihr → ihr. • PREL (PRELS und PRELAT): Das attribuierende Relativpronomen (PRELAT) kommt im vorliegenden Korpus nicht vor. Das substituierende Personalpronomen (PRELS) blieb in der lemmatisierten Form immer im Nominativ. • PRF: Das reflexive Personalpronomen blieb in der lemmatisierten Form immer im Nominativ (Singular): „ich sah mich im Spiegel“ → „ich (PPER) sehen (VVFIN) ich (PRF) in (APPRART) Spiegel (NN)“ (siehe auch [Dudenredaktion (2009)], S. 274, Regel 367). • PW (PWS, PWAT, PWAV): Die substituierenden Interrogativpronomen (PWS) stehen aufgrund ihres Vorkommens durch die Formen wer, was und welch- in der lemmatisierten Form ebenfalls als wer, was oder welch-. Die attribuierenden Interrogativpronomen (PWAT) wurden in Anlehung an die Dudengrammatik durch ihre Stammform repräsentiert ([Dudenredaktion (2009)], S. 328, Regel 439). In diesem Eintrag handelt es sich zwar um die Abhandlung von welch- als Indefinitpronomen (als Interrogativpronomen wird welch- in Regel 407 diskutiert). Aufgrund der Einheitlichkeit sollte eine Lemmatisierung mit welch- auch an dieser Stelle beibehalten werden. Andere Interrogativpronomen (z. B. wessen) kommen im Korpus nicht vor. Die adverbialen Interrogativ- oder Relativpronomen (PWAV) konnten aufgrund der Unveränderlichkeit ihrer Wortform in dieser auch als Lemma beibehalten werden. • PTK (PTKA, PTKANT, PTKNEG, PTKVZ, PTKZU): Die Partikeln wurden aufgrund ihrer unveränderlichen Form als Wort dementsprechend in der lemmatisierten Form aufgeführt. • VA (VAFIN, VAIMP, (VAINF), (VAPP)): Alle Auxiliarverben wurden in der lemmatisierten Form immer im Infinitiv aufgeführt. • VM (VMFIN, VMINF, VMPP): Alle Modalverben wurden in der lemmatisierten Form immer im Infinitiv aufgeführt. • VV (VVFIN, VVINF, VVIMP, VVPP, VVIZU): Alle Vollverben wurden in der lemmatisierten Form immer im Infinitiv aufgeführt. 88 KAPITEL 4. BEOBACHTUNGSSTUDIE - ZIELE UND METHODIK Kürzel Ge- Sprache Erst- Zweit- Geburts- Angaben Angaben schl. während sprache sprache datum zur Mutter zum Vater Geschw. dt. k.A. 2005-07-27 geb. 1972, geb. 1972, zwei wiss. Architekt Geschwister der Aufnahmen AV MM f f deutsch deutsch dt. k.A. 2004-09-04 Mitarb. (geb. 1995 Geschichte und 2003) geb. 1980, geb. 1972, ein Bruder Studentin Koch (geb. 2008) geb. 1977, keine der Architektur JS m deutsch dt. k.A. 2004-12-31 geb. 1974, Deutsch- Psychologe lehrerin RD MK m m deutsch deutsch dt. dt. k.A. k.A. 2004-10-08 2005-09-09 geb. 1975, geb. 1971, eine Soziologin Sozialwiss. Schwester IPR (geb. 2008) geb. 1975, Studentin der Biotechno- geb. 1976, Diplom- ein Bruder (geb. 2008) Ingenieur logie LEO m deutsch dt. k.A. 2005-06-13 geb. 1964, geb. 1965, eine Architektin Architekt Schwester geb. 1977, geb. 1973, Studentin Student der Schwester DaF, Informatik (geb. 2007) geb. 1957, eine (geb. 2004) LAR f deutsch dt. k.A. 2004-10-05 eine Erz.-Wiss. und Neuere Dt. Philologie SO f deutsch dt. k.A. 2004-12-21 LUA f deutsch dt. k.A. 2005-07-02 JK m deutsch dt. k.A. 2004-09-20 LL f deutsch dt. franzö- 2005-03-02 geb. 1975, keine keine Schwester Angabe Angabe (geb. 2003) zum Beruf zum Beruf geb. 1972, Diplom- geb. 1972, Diplom- Biologin Ingenieur k.A. k.A. geb. 1971, geb. 1936, eine HS-Lehrerin Künstler Schwester (Maler) (geb. 2003) geb. 1978, geb. 1975, zwei Brüder Studentin Kaufmann (geb. 2002 sisch MA f deutsch dt. k.A. 2006-05-23 Landsch.-Pl. Tabelle 4.2: Gruppe der Testpersonen keine k.A. und 2007) Kapitel 5 Die Arbeit mit dem CorpusAnalyser In diesem Kapitel möchte ich den CorpusAnalyser vorstellen und insbesondere die Anwendung im Hinblick auf die Zwecke der vorliegenden Arbeit dokumentieren. Der CorpusAnalyser ist ein Open-Source-Programm und wurde von Alexander Mack ([Mack (2014)]) den Anforderungen dieser Arbeit entsprechend programmiert. Es kann kostenfrei verwendet und/oder modifiziert werden nach den Richtlinien der GNU General Public License1 . Die programmierte Datenbank basiert auf der Sprache SQlite3, die dazugehörigen Skripte sind Perl- bzw. Bash-Shell-Skripte. In meiner nun folgenden Beschreibung möchte ich detailliert auf die einzelnen Funktionen eingehen, wobei ich mich an die Strukur halte, die der genannten Webseite zugrunde liegt. 2 Grundlage für die Arbeit mit dem CorpusAnalyser (folgend CA) bilden XML-Dateien, die zuvor in FOLKER (Abschnitt 4.1.4) oder EXMARaLDA (Abschnitt 4.1.6) bearbeitet wurden. Relevante Teile der jeweiligen XML-Datei wurden anschließend in eine SQlite3-Datenbank (Mack (2014)) überführt. Die Datenbank selbst wurde als Datei auf einer Festplatte gespeichert. Nachdem die Daten erstellt und in die Datenbank importiert worden sind, konnten spezifische Abfragen an die Datenbank gestellt werden. Der Output wurde als CSV-Datei3 in ein Zielverzeichnis geschrieben. Daneben existieren Skripte, mit denen Audio (.wav)-Dateien modifiziert werden können. Auf diese Weise konnten zum Beispiel nicht verwendete Teile der Audio-Dateien, die im Zuge dieser Arbeit entstanden, stumm geschaltet werden, wobei die Informationen dafür aus einer FOLKER-Datei gezogen wurden. 1 Weitere Informationen unter http://www.gnu.org/copyleft/gpl.html (zuletzt besucht am 22.10.14) Alle Abbildungen in diesem Kapitel mit Bezug zum CA stammen von der Webseite: https://github.com/fiedler-mack/CorpusAnalyser. 3 https://de.wikipedia.org/wiki/CSV_(Dateiformat) (letzter Zugriff 22.10.2014) 2 89 90 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER Die nun folgenden Beschreibungen nehme ich vor, weil ich dazu ermutigen möchte, die Software zu installieren und zu nutzen. Vor allem jenen, die auf dem Gebiet der Informationstechnik Erfahrung haben, dürfte es nicht schwer fallen, eine Installation durchzuführen. Allen anderen Interessierten empfehle ich, sich Hilfe bei erfahrenen Personen zu holen. Nachdem die Software installiert und die jeweiligen Daten in die Datenbank importiert worden sind, sollte es keine Schwierigkeiten bei der Anwendung geben. Weiterführende Informationen befinden sich auf der Webseite https://github.com/fiedler-mack/CorpusAnalyser. Im Folgenden sind die Bezeichnungen für Skripte und Ordner in grüner Schrift, Befehle und Befehlszeilen, die im Textfluss erwähnt werden, sind kursiv. Da die Skripte auf die Ziele der vorliegenden Arbeit abgestimmt sind, werden auch Abschnitte und Bezeichnungen enthalten sein, die erst in den folgenden Kapiteln nachvollziehbar werden. Diese sind mit den entsprechenden Querverweisen gekennzeichnet. Dennoch war es wichtig, das vorliegende Kapitel vor den Analyse- und Diskussionsteil zu positionieren, da hier wichtige methodische Schritte erläutert werden. Es sei daher empfohlen, die vorliegenden Skripte nach der eigentlichen Analyse erneut zu lesen, um die gewonnenen Ergebnisse in das Gesamtbild der Arbeit einordnen zu können. Alle nun folgenden Arbeitsschritte wurden auf der Grundlage eines Linux-Betriebssystems erstellt. 5.1 Die Inhalte im Überblick Project folder structure Die unten stehende Abbildung (Abbildung 5.1) veranschaulicht die für die Datenbank empfohlene Ordnerstruktur (folder structure). Diese kann geändert werden, wenn Skripte manuell aufgerufen oder Pfade in den Hilfsskripten (xxx_all.sh) manuell bearbeitet werden. Wie zu erkennen ist, existiert ein übergeordneter Ordner project root folder mit mehreren Unterordnern. Der erste Unterordner ist zwangsläufig der CA mit dem dazugehörigen Skript 01_wav_convert (siehe: 01_wav_convert). Die einzelnen Skripte und deren Einsatz werden an späterer Stelle noch besprochen (Abschnitt 5.2). 5.1. DIE INHALTE IM ÜBERBLICK 91 Abbildung 5.1: CA: project folder structure Installation / Preparation Für die Installation der Datenbank muss die eben beschriebene Ordnerstruktur erstellt werden. Der project folder wird im Ordner root gespeichert (Abbildung 5.2). Abbildung 5.2: CA: Installation Copy / save your files to the right place Abbildung 5.3 enthält die Anweisungen für ein korrektes Kopieren und Sichern aller Dateien. Zunächst müssen die Wave-Dateien (wav-files) in den Ordner 01_input_files/wav kopiert werden. Anschließend werden FOLKER-Dateien mit dem Programm FOLKER erstellt und im XML-Format mit dem Namen name.flk gesichert. Der Name darf keine Leerzeichen enthalten und muss den gleichen Namen tragen wie die dazugehörige Wave-Datei. Die so erstellte FOLKER-Datei wird in den Ordner 01_input_files/folker kopiert. Anschließend wird eine EXMARaLDA-Datei (.exb) mit dem Programm EXMARaLDA erstellt 92 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER und in den Ordner 01_input_files/exmaralda kopiert und dort gesichert. Abbildung 5.3: CA: copy and save files Convert wav-files In einem vierten Schritt werden die Wave-Dateien konvertiert und alle nicht verwendeten Passagen stumm geschaltet. Dies ist notwendig, weil nicht von allen Probandinnen und Probanden die Einverständniserklärung der Eltern für eine Veröffentlichung der Aufnahme vorliegt. Die Passagen werden auf diese Weise entfernt. Abbildung 5.4: CA: convert wav-files Um die nicht verwendeten Passagen zu überschreiben, muss folgendes Skript aufgerufen werden: 01_wav_convert/remove_non_used_area_in_wav_all.sh. In einer Konsole/einem Terminal sollte nun zum project folder gewechselt werden. Wenn alle Schritte aus Abbildung 5.4 erfolgreich durchgeführt wurden, sollten die neu erstellten Wave-Dateien im folgenden Output-Directory zu finden sein: 02_generated_files/wav. Create the SQLite3 Database In diesem Abschnitt geht es um die Frage, wie die SQLite3-Datenbank erstellt wird. Auch dafür wird erneut mit einer Konsole/einem Terminal gearbeitet, 5.1. DIE INHALTE IM ÜBERBLICK 93 wobei zunächst in den project folder gewechselt wird. Von dort aus erfolgt ein Wechsel zum CA, von wo aus mit dem Befehl ./create_database.sh die Datenbank (Abbildung 5.5) erstellt wird. Nach einem erfolgreichen Ausführen aller Schritte befindet sich die erstellte leere Datenbank im Ordner 02_generated_files/corpus.db. Abbildung 5.5: CA: create database Import exmaralda files to sqlite db Im vorigen Abschnitt wurde gezeigt, wie eine zunächst leere Datenbank erzeugt werden kann. Da zu einem großen Teil mit EXMARaLDA-Dateien gearbeitet wird, soll nun gezeigt werden, wie diese wiederum in die Datenbank importiert werden können. Abbildung 5.6: CA: import exmaralda files In einer Konsole/einem Terminal erfolgt dafür zunächst ein Wechsel in den project folder. Durch das Ausführen des Befehls ./db_import_all.sh ../../01_input_files/exmaralda/ ../../02_generates_files/corpus.db befindet sich 94 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER eine aktualisierte Version der SQLite3-Datenbank unter 02_generated_files/corpus.db. In eben diesem Ordner befindet sich nun die Datei corpus.db, welche geöffnet werden kann, um die importierten Daten auf Richtigkeit zu überprüfen. Ein zweiter (und schnellerer) Weg zum Erstellen der Datenbank ist laut Mack (2014) mit einer Administrator-Berechtigung zu erreichen, wodurch über ein temporäres Dateisystem im Arbeitsspeicher (tmpfs) gearbeitet wird ([Mack (2014)]). Die einzelnen Schritte sind in Abbildung 5.6 unter Punkt 5.2 zu nachzulesen. Generate all results (step 7-12) from db Durch das Ausführen des Skriptes Generate all results (step 7-12) from db (Abbildung 5.7) können alle (folgend beschriebenen) Skripte zusammen ausgeführt werden, ohne dass diese einzeln aufgerufen werden müssen. Dies ist dann hilfreich, wenn tatsächlich alle Abfragen (Tag count results, Typetoken results, Typetoken Lemma results, Lemma Tag results, Lemma Bedeutung results und Typetoken Bedeutung results) getätigt werden sollen, da somit viele Arbeitsschritte gespart werden. Abbildung 5.7: CA: generate all results Generate Tag count results from db An dieser Stelle wird der erste Schritt erläutert, der für die Analyse der Verteilung der Wortarten unternommen wurde. Wie bereits in 4.1.6 beschrieben, wurden alle transkribierten Wörter mit ihren dazugörigen POS-Tags und den entsprechenden Lemmata versehen. Da insbesondere das Vorkommen der POS-Tags in Entsprechung zu den jeweiligen Lemmata interessant ist, wurde unter anderem dieses Skript geschrieben. Mit diesem werden zunächst alle unterschiedlichen Tags gezählt und dann je nach Wunsch im Zielverzeichnis sortiert nach dem Namen, dem Alter oder einer Kombination aus beidem abgelegt. Dazu erfolgt wieder ein Wechsel in den project folder und anschließend in den CA-Ordner. Durch den Befehl ./db_query_all-tag_count.sh werden alle Tags gezählt und 5.1. DIE INHALTE IM ÜBERBLICK 95 durch ./db_query_all_tag_count_name.sh in separaten Ordnern unter dem jeweiligen Namen der Probandin/des Probanden gespeichert. Abbildung 5.8: CA: generate tag count results Typetoken results from db Analog zu den Schritten im vorigen Abschnitt können alle Types mit den entsprechenden Tokens ausgezählt werden. Wie gewohnt muss in project folder denund anschließend in den CA gewechselt werden. Durch den Befehl ./db_query_all_typetoken werden alle Tokens (also jedes syntaktische Wort) und alle entsprechenden Types (alle unterschiedlichen Wörter in ihrer lemmatisierten Form) gezählt und im Zielverzeichnis mit dem dazugehörigen Kürzel der Probandin/des Probanden sowie in der jeweiligen Altersgruppe abgelegt. Eine solche Analyse ist hilfreich bei der Ermittlung der Type-Token-Relation. Wenn es um die Verteilung der POS-Tags geht, können interessante Passagen zudem mit konkreten Beispielen belegt werden. Abbildung 5.9: CA: type-token results Typetoken Lemma results from db Durch das Ausführen der Schritte in Abbildung 5.10 werden zusätzlich zu den Tokens und Types je POS-Tag die Lemmata angezeigt. Nach dem Wechseln in den project folder und anschließend in den CA-Ordner muss dazu der Befehl ./db_query_all_typetoken_lemma.sh ausgeführt werden. 96 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER Abbildung 5.10: CA: type-token-lemma results Lemma Tags results from db Der wahrscheinlich am häufigsten genutzte Befehl zur Ermittlung der Wortartenverteilung in der vorliegenden Arbeit ist in Abbildung 5.11 beschrieben. Durch den Befehl ./db_query_all_lemma_tag.sh werden alle Tags mit ihren dazugehörigen Lemmata in einzelne Ordner geschrieben. Diese sind sortiert nach den Kürzeln der Probandinnen und Probanden in den jeweiligen Altersgruppen. Abbildung 5.11: CA: lemma tag results Lemma Bedeutung results from db Ein ebenso häufig verwendeter Befehl ist ./db_query_all_lemma_bedeutung.sh. Durch das Ausführen werden alle Bedeutungen mit ihren dazugehörigen Lemmata in einzelne Ordner, sortiert nach den jeweiligen Altersgruppen, geschrieben. Abbildung 5.12: CA: lemma bedeutung results 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 97 Typetoken_Bedeutung results from db Der Befehl ./db_query_all_typetoken_lemma.sh bewirkt, dass alle Lemmata, die pro Bedeutungskategorie vorkommen, sortiert und gezählt werden. Die derartig sortierten Lemmata werden dann ihren Bedeutungskategorien zugeordnet und in CSV-Dateien abgelegt. Abbildung 5.13: CA: typetoken bedeutung results 5.2 Die Funktionen des CorpusAnalysers Im nun folgenden Abschnitt möchte ich die für die vorliegende Arbeit besonders wichtigen Funktionen bzw. Skripte des CA näher erläutern und die Zwecke, die damit für diese Arbeit verfolgt werden, darstellen. Der CA wurde, wie bereits erwähnt, für die Zwecke dieser Arbeit entwickelt. Dennoch, oder gerade deswegen, hält er eine Fülle von Funktionen bereit, die jedoch nicht immer zusammen genutzt werden müssen. Jede Unterfunktion kann einzeln oder in Kombination unterschiedliche Zwecke erfüllen. Ich werde auf jedes einzelne Skript eingehen, aber nur die für diese Arbeit relevanten Befehlszeilen ausführlich beschreiben. 5.2.1 01_wave_convert Diese Funktion hält die Skripte remove_non-used_area_in_wav.pl und remove_non-used_area_in_wav_all.sh bereit. Das Perlskript überschreibt nicht verwendete Passagen in den FOLKER-Dateien mit einem Stille-Modus. Dafür zieht sich der CA die benötigten Zeitstempel aus der FOLKER-Datei - also Anfang und Ende der zu überschreibenden Stelle. Zudem reagiert der CA auf bereits transkribierte Passagen. Alle Passagen in FOLKER, die nicht in irgendeiner Form transkribiert sind, wurden in dieser Arbeit mit dem Stille-Modus überschrieben (siehe auch Abschnitt 4.1.5). Das Skript remove_non-used_area_in_wav_all.sh ist ein sogenanntes Hilfsskript. Es konvertiert alle Wave-Dateien vom Quellordner INPUT_WAV_DIR in den Zielordner OUTPUT_WAV_DIR. Es verwendet außerdem FOLKER-Dateien aus dem Ordner INPUT_FLK_DIR. 98 5.2.2 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER 02_create_database Hinter dieser Funktion befinden sich die Skripte create_database.sh sowie db_table_structure.sqlite3. Ersteres erstellt eine SQLite3-Datenbank corpus.db und initialisiert die Tabellen, die im zweiten Skript erläutert sind. Wenn bereits eine Datenbank exisitiert, wird diese gelöscht und mit der neu erstellten Datenbank überschrieben. Das Skript db_table_structure.sqlite3 enthält die Tabellenstruktur der Datenbank. Im Wesentlichen gehören dazu: sprecher, aufnahme, textpostags, wavdatei. Abbildung 5.14 zeigt einen Ausschnitt des Skripts zur Erstellung der Untertabelle sprecher. Enthalten sind id (aufnahme-id), name (des kindes), kuerzel (des kindes), geschlecht, sprache, erstsprache, geburtstdatum. Die ID, die auch bei den dazugehörigen Aufnahmen als Fremdschlüssel (FOREIGN KEY ) unter der sprecher_id vorkommt, wird dort eingetragen. Abbildung 5.14: CA: table structure sprecher Im Teil aufnahme (Abbildung 5.15) sind die Informationen id, sprecher_id und wavdatei_id enthalten. Ferner sind enthalten der esb_name, datum, kommentar und FOREIGN KEYs, die die IDs der entsprechenden sprecherund wavdatei-Tabellen auf die Informationen sprecher-id und wavdatei-id verlinken. Die ID, welche auch bei der dazugehörigen textpostags-Tabelle als Fremdschlüssel unter der aufnahme-id vorkommt, wird dort eingetragen. Der esb_name ist die entsprechende EXMARaLDA-Datei. Das datum enspricht dem Aufnahmedatum der Audio-Datei. 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 99 Abbildung 5.15: CA: table structure aufnahme Der Unterpunkt textpostags (Abbildung 5.16) enthält alle Informationen zu den einzelnen Wörtern, POS-Tags und Lemmata. Dazu gehören die id, aufnahme_id, wort (bzw. Wort, das geäußert wurde), lemma (das dem Wort entspricht), postag (POS-Tag des jeweiligen Lexems bzw. Lemmas), unverständlich (einige geäußerte Wörter wurden als unverständlich markiert und werden an dieser Stelle ausgeklammert). Die Punkte tli_start, tli_start_intp, tli_end und tli_end_intp beziehen sich auf die Timeline-Start und -endpunkte, an denen sich wort+postag+lemma+bedeutung in der EXMARaLDA-Datei befinden. tli_start_intp und tli_end_intp stellen dabei interpolierte Start- bzw. Endwerte in den Zeitabschnitten dar. Die Funktion der Interpolierung, also das Schätzen von Zeitwerten, ist mit dem EXMARaLDA Partitur Editor möglich. Bei der Arbeit mit EXMARaLDA kann es zu unbenutzten Spalten oder Lücken in der Zeitskala kommen (z. B., weil ein Wort entfernt wurde). Entstehen in einer Datei mehrerer solcher unbenutzter Punkte, kann dies durch die Interpolierung ausgeglichen werden, indem die leeren Spalten oder Lücken entfernt werden. Jeder Spalte werden dann neue Zeitwerte zugeordnet. Hierbei ist allerdings Vorsicht geboten, wenn die EXMARaLDA-Datei bei der späteren Analyse noch mit der jeweiligen Wave-Datei kooperieren muss (etwa bei phonetischen Analysen). Durch die Interpolierung verändern sich die absoluten Zeitwerte und entsprechen nicht mehr denen der Wave-Datei. Durch die textpostags-vorgaenger_id und die textpostags-nachfolger_id koennen in der Ausgabedatei Vorgänger und Nachfolger zugeordnet und dadurch die geäußerten Wörter angezeigt werden. Insbesondere bei der Analyse von Konnotationen ist dies hilfreich. 100 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER Abbildung 5.16: CA: table structure: textpostags Abbildung 5.17 zeigt den Tabelleneintrag wavdatei. Dieser enthält die Punkte id und name (der jeweiligen Wave-Datei). Jeder Wave-Datei wird ein Name und eine ID in der Datenbank zugeordnet, welche auch bei den entsprechenden Aufnahmen als Fremdschlüssel (FOREIGN KEY ) unter der wavdatei-id eingetragen wird. Abbildung 5.17: CA: table structure wav_datei 5.2.3 03_import_data Unter der Funktion 03_import_data verbergen sich die Skripte db_import_all.sh und db_import_exb_to_db3.pl. Das Perlskript liest EXMARaLDA-Dateien im exportierten XML-Format aus und zieht die relevanten Daten aus der jeweiligen Datei. Dann schreibt es die so erhaltenen Werte in die SQLite3-Datenbank. Wenn ein Eintrag in der Datenbank bereits existiert, wird der neue Eintrag ignoriert. Zum Erstellen einer aktualisierten Datenbank, muss das Skript create_database.sh reinitialisiert werden. Das Skript db_import_all.sh wird verwendet, um EXMARaLDA-Dateien in die Datenbank zu importieren. Durch diesen Schritt werden alle EXMARaLDA-Dateien (.exb) aus einem gegebenen Ordner gelesen und der Inhalt der Dateien in die Datenbank geschrieben. Der Inhalt der EXMARaLDA-Dateien wird durch das Unterskript db_import_exb_to_db3.pl in SQLite3 importiert und exportiert. 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 5.2.4 101 04_query_db Unter 04_query_db finden sich sechs Unterfunktionen mit den jeweiligen Skripten, die im Folgenden genauer beschrieben werden sollen. Die Skripte sind für die Analyse der Daten (Kapitel 6 und 7) essentiell. Durch leichte Änderungen in den Befehlszeilen können beispielweise die gleichen Untersuchungen in anderen Sprachen unternommen werden. Auch das Untersuchen von Morphemen und Phonemen ist mit den Skripten möglich. Doch dazu später mehr (Abschnitt 5.3). Alle Skripte bzw. deren wesentlichen Teile befinden sich im Folgenden mit der entsprechenden Kennzeichnung in blau unterlegter Schrift. Weiterhin wurden zu Zwecken der Übersichtlichkeit die Kommentare in den Skripten ausgespart. 5.2.4.1 01_tag_count Hinter dieser Funktion verbergen sich vier Skripte, deren Funktionen im Folgenden näher erläutert werden. db_query_tag_count.sh: Dieses Skript fragt die POS-Tags zwischen den Zeitstempeln in der Datenbank ab und schreibt die Ergebnisse in eine CSV-Datei. Anhand des nun folgenden Ausschnitts aus dem Skript sollen die relevanten Befehle im Hinblick auf die Zwecke dieser Arbeit erläutert werden: Skript: db_query_tag_count.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax postag outputdir" exit fi DAYMIN=$1 DAYMAX=$2 POSTAG="$3" OUTPUTDIR=$4 echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sql echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sql echo -n ’textpostags.postag, textpostags.id ’ >> query.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sql echo -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql 102 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv" cat query.sql | sqlite3 $DB > \ $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv rm query.sql Durch die Befehle DAYMIN und DAYMAX wird die Zeitspanne eingegrenzt, innerhalb welcher die POS-Tags gezählt und geordnet werden sollen. Ferner wird der Name und das Geburts- sowie Aufnahmedatum jeder Sprecherin und jedes Sprechers zu jedem Zeitpunkt benötigt. Durch die Berechnung in Juliandays4 können die Zeitangaben in Tagen gemacht werden. Das ist sehr sinnvoll, weil nicht alle Monate die gleiche Anzahl an Tagen aufweisen. Zudem rechnen Programme häufig in Tagen, wodurch weniger Ungenauigkeiten entstehen können. Durch die Befehlszeilen echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query.sql erfolgt zunächst die Ausgabe der Sprecherin/des Sprechers, die/der zu einer der hier verwendeten drei Altersgruppen zugeordnet werden kann. Die Zuordnung wird errechnet durch die Information des Geburts- und Aufnahmedatums. Zusätzlich erhält man die POS-Tags der jeweiligen Sprecherin/des jeweiligen Sprechers in einem bestimmten Zeitraum in Verbindung mit dem jeweilig geäußerten Wort und der zugeordneten ID. Diese Informationen zieht das Skript aus der erstellten Datenbank aus den Untertabellen sprecher, aufnahme und textpostags. Dabei werden (in einem folgenden Skript) für den Startpunkt ein Tagesminimum (DAYMIN) sowie ein Tagesmaximum (DAYMAX ), also eine Zeitspanne von DAYMIN bis DAYMAX, in Juliandays festgelegt, die für die jeweilige Abfrage in Frage kommt. Weiterhin können ausgewählte oder alle POS-Tags gleichzeitig für eine Abfrage festgelegt werden (Skript: db_query_all_tag_count.sh). Des Weiteren ist eine Festlegung ausgewählter bzw. aller Sprecher/innen möglich, die in Verbindung mit diesen Informationen analysiert werden sollen. db_query_all_tag_count.sh: Dieses Skript fragt die angeforderten POS-Tags zwischen den definierten Zeitstempeln aus der SQLite3-Datenbank ab und schreibt die Ergebnisse in eine CSV-Datei. Die Abfrage der Datenbank wird durch das Unterskript db_query_tag_count.sh ausgeführt. Laut Mack (2014) müssen die Variblen DAYMINMAX, POSTAGS und OUTPUT_DIR je nach dem Ziel der Abfrage im Skript geändert bzw. 4 https://en.wikipedia.org/wiki/Julian_day (letzter Zugriff 22.10.2014) 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 103 angepasst werden ([Mack (2014)]). Im unten aufgeführten Skript wird ersichtlich, dass die Zeitspanne alle drei Altersgruppen enthält: 1281:1495, 1496:1708, 1709:1983. An dieser Stelle kann variiert werden. Es kann in einer nächsten Abfrage zum Beispiel nur die Altersgruppe 1281:1495 berücksichtigt werden. Dementsprechend sieht die Befehlszeile folgendermaßen aus: DAYMINMAX=“1281:1495“. Im Anschluss daran stehen hinter der Variable POSTAGS alle POS-Tags, die in der Analyse auftreten können. Sollen zum Beispiel lediglich die Eigennamen (NE) in der gewählten Altersgruppe untersucht werden, so wird nur POSTAGS=“NE“ in die Befehlszeile gesetzt. Soll untersucht werden, welche und wieviele Adjektive und Konjunktionen in der gewählten Altersgruppe je Kind vorkommen, dann würde die Befehlszeile POSTAGS=“ADJA ADJD KOKOM KON KOUS“ lauten (alle POS-Tags ohne Kommata, nur mit Leerzeichen, voneinander getrennt aufführen!). Werden hingegen alle POSTAGS je Kind untersucht, dann müssen alle POS-Tags aufgeführt werden. Hinter OUTPUT_DIR= wird der Pfad für das Ausgabeverzeichnis angegeben, also der Ort, an dem der Ordner mit den Ergebnissen liegen soll. Im Falle der vorliegenden Arbeit liegt das OUTPUT_DIR unter ../../../03_db_query_results/tag_count. Skript: db_query_all_tag_count.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" OUTPUT_DIR=../../../03_db_query_results/tag_count for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_tag_count.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done db_query_tag_count_name.sh: Das Skript arbeitet im Wesentlichen wie das Skript db_query_tag_count.sh. Der Unterschied ist, dass die POS-Tags nicht nur nach der Altersgruppe sortiert werden, sondern dass auch eine Zuordnung zur jeweiligen Sprecherin/zum jeweiligen Sprecher stattfindet. Die Ergebnisse werden wie gewohnt in eine CSV-Datei geschrieben. Die 104 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER Befehlszeilen des vorliegenden Skripts entsprechen größtenteils denen des Skripts db_query_tag_count.sh. Zusätzlich existieren die Befehlszeilen echo -n $NAME >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql Durch das Einfügen dieser Befehle wird erreicht, dass sich die Abfrage speziell auf eine/n Sprecher/in bezieht (mehr dazu im nächsten Skript). Skript: db_query_tag_count_name.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ] then echo "usage $0 daymin daymax postag outputdir name" exit fi DAYMIN=$1 DAYMAX=$2 POSTAG="$3" OUTPUTDIR=$4 NAME=$5 echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query.sql echo -n ’textpostags.postag, textpostags.id ’ >> query.sql echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) - ’ >> query.sql echo -n ’julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND sprecher.kuerzel = "’ >> query.sql echo -n $NAME >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id AND’ >> query.sql echo -n ’ textpostags.aufnahme_id = aufnahme.id;’ >> query.sql COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘ if [ $COUNT -gt 0 ] ; then echo -n "$COUNT datarows found: " echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv" cat query.sql | sqlite3 $DB > \ $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv else echo "$COUNT datarows found: " fi rm query.sql db_query_all_tag_count_name.sh: Dieses Skript fragt die POS-Tags zwischen den Zeitstempeln unter Berücksichtigung des jeweilig gewählten Namen in Kurzform aus der Datenbank ab. Die Resultate werden wie gewohnt in 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 105 eine CSV-Datei geschrieben. Die Abfrage aus der Datenbank wird durch das Unterskript db_query_tag_count.sh initiiert. Die Variablen DAYMINMAX, POSTAGS, NAMES und OUTPUT_DIR können und sollten je nach dem Ziel der jeweiligen Abfrage eigenständig angepasst werden. Die Befehlszeilen entsprechen denen des Skripts db_query_all_tag_count.sh mit dem Zusatz, dass hier auch die einzelnen Sprecher/innen ausgewählt werden können. Wenn eine derartige Abfrage mit allen Sprecherkürzeln ausgeführt wird, erhält man alle POS-Tags in Zuordnung zur jeweiligen Sprecherin/zum jeweiligen Sprecher, sortiert nach der Altersgruppe als Ergebnis. Der entsprechende Überordner kann zum Beispiel all_tag_count_name heißen. Als Unterordner können idealerweise drei Unterordner für je eine Altersgruppe angelegt werden. Hinter jedem dieser drei Ordner sollten in logischer Konsequenz jeweils Ordner auftauchen, die einer bestimmten Sprecherin/einem bestimmten Sprecher zuordenbar sind. In diesen Ordnern werden die jeweiligen POS-Tags in einer CSV-Datei abgelegt, die von der jeweiligen Sprecherin/vom jeweiligen Sprecher in der betreffenden Altersgruppe geäußert wurden bzw. dem jeweiligen syntaktischen Wort zugeordnet wurden. Dies stellt nur eine mögliche Ordnerstruktur dar, die selbstverständlich je nach Bedarf geändert werden kann. Ferner ist es vorstellbar, dass nicht immer alle POS-Tags je Sprecher/in und Altersgruppe von der Datenbank abgefragt werden. Sollen beispielsweise nur die Verben analysiert werden, die der Sprecher MK im Zeitraum 1496 bis 1708 verwendet hat, dann müsste die Zeile DAYMINMAX=“1496:1708“ auf diese Weise eingegrenzt werden. Damit werden lediglich POS-Tags abgefragt, die in diesem Zeitraum geäußert wurden. Durch Verändern der nächsten Zeile in POSTAGS="VAFIN VAIMP VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP" werden ausschließlich alle Verben in der genannten Altersgruppe berücksichtigt. Da jedoch nicht alle Sprecher/innen in Betracht gezogen werden, sondern nur MK, muss der Befehl NAMES geändert werden in NAMES=“MK“. Ein anderes Szenario wäre es beispielsweise herauszufinden, wie viele Eigennamen (NE) in allen Altersgruppen von jedem einzelenen Kind geäußert werden. Dann müsste folgende Befehlszeile eingefügt werden: DAYMINMAX=“1281:1495 1496:1708 1709:1983“ Für die Abfrage der POS-Tags genügt in diesem Falle POSTAGS=“NE“ ; die Zeile der Sprecher/innen muss wieder alle Namen enthalten, also 106 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER NAMES="AV JK JS LAR LEO LL LUA MA MK MM SO RD". Das vollständige Skript zum sieht folgendermaßen aus: Befehl db_query_all_tag_count_name.sh Skript: db_query_all_tag_count_name.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" NAMES="av mm js rd mk leo lar so lua jk ll ma" OUTPUT_DIR=../../../03_db_query_results/tag_count for n in $NAMES ; do for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi echo -n "$DAYMIN $DAYMAX $i " echo "$OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n" ./db_query_tag_count_name.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n done rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi done done 5.2.4.2 02_typetoken db_query_typetoken.sh: Mit diesem Skript werden die Types und die dazugehörigen Tokens zwischen den Zeitstempeln der EXMARaLDA-Datei abgefragt und in eine CSV-Datei geschrieben. Des Weiteren werden alle vorkommenden Wörter je POS-Tag und Altersgruppe in einer separaten Wortliste aufgeführt. Was sich recht simpel anhört, ist spätestens bei der Betrachtung des dazugehörigen Skripts eine lange Abfolge von Befehlszeilen. Der Befehl, mit dem die eben genannte Wortliste erstellt wird, ist SELECT textpostags.wort; man wählt also das jeweilige POS-Tag mit dem dazugehörigen Wort (nicht Lemma). Benötigt werden dafür die Informationen sprecher, aufnahme, textpostags aus der Datenbank. Außerdem soll erneut die Zeit eingegrenzt und die Ergebnisse geordnet in den drei Altersgruppen anzeigt werden. Durch die Befehlszeilen: echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 107 echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql erhält die Datenbank die Information, dass die POS-Tags jeder Sprecherin/jedes Sprechers zu jedem Aufnahmedatum abgefragt werden sollen. Wichtig im vollständigen Skript ist die Variable WORTLIST und die dazugehörige vollständige Befehlszeile WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘ Dadurch werden alle vorkommenden Wörter in einer Liste angezeigt. Abbildung 5.18: CA: Wortliste 1281 bis 1495 ART Abbildung 5.18 zeigt beispielhaft die Wortliste aller Artikel, die von allen Kindern im Zeitraum 1281 bis 1495 geäußert wurden. In einer weiteren Abfrage (query2.sql) sollen schließlich die Types und die Tokens mit den dazugehörigen Sprecherinnen und Sprechern identifiziert und in eine Datei geschrieben werden. An dieser Stelle möchte ich die einzelnen Schritte nicht detailliert beschreiben; das Skript zeigt alle nötigen Befehle, die für eine Abfrage und Ausgabe der Types und Tokens je Sprecher/in in jeder Altersgruppe notwendig sind. Es soll jedoch erwähnt werden, dass durch wc -l (word count, list) alle Wörter gezählt und aufgelistet werden. Insbesondere bei linguistischen Analysen, die die Häufigkeit von Wörtern, Lemmata und/oder anderen sprachlichen Einheiten ermitteln, ist dies von großer Relevanz. Zudem wird durch den Befehl erreicht, dass alle Wörter in alphabetischer Reihenfolge erscheinen. 108 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER Skript: db_query_typetoken.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax postag outputdir" exit fi DAYMIN=$1 DAYMAX=$2 POSTAG="$3" OUTPUTDIR=$4 echo -n ’SELECT textpostags.wort ’ > query.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql cat query.sql | sqlite3 $DB | sort | uniq > \ $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAG}_${DAYMIN}_${DAYMAX}.txt‘ CNT=0 WORDCNTSUM=0 rm -f $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv for j in $WORTLIST ; do echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query2.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query2.sql echo -n ’-julianday(sprecher.geburtsdatum), ’ >> query2.sql echo -n ’aufnahme.esb_name, textpostags.wort, ’ >> query2.sql echo -n ’textpostags.postag, textpostags.id FROM ’ >> query2.sql echo -n ’sprecher,aufnahme,textpostags WHERE ’ >> query2.sql echo -n ’julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql echo -n $DAYMIN >> query2.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql echo -n $DAYMAX >> query2.sql echo -n ’ AND textpostags.postag = "’ >> query2.sql echo -n $POSTAG >> query2.sql echo -n ’" AND textpostags.wort = ’\’ >> query2.sql echo -n $j\’ >> query2.sql echo ’ AND aufnahme.sprecher_id = sprecher.id AND ’ >> query2.sql echo -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql echo -n "$j|" \ >>\ $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘ WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1)) echo $WORDCNT >>\ $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv done echo "—-|—-" >>\ $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv echo "$CNT|$WORDCNTSUM" >>\ $OUTPUTDIR/output_typetoken_count_${POSTAG}_${DAYMIN}_${DAYMAX}.csv 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 109 rm -f query.sql rm -f query2.sql db_query_all_typetoken.sh: Dieses Skript fragt ebenso die Types und Tokens zwischen den einzelnen Zeitstempeln in der EXMARaLDA-Datei aus der Datenbank ab und schreibt die Ergebnisse in eine CSV-Datei. Die Abfrage der Datenbank an sich wird durch das oben angeführte Unterskript db_query_typetoken.sh ausgeführt. In diesem Skript wird nun einerseits die Altersgruppe, für die die Types und Tokens erfragt werden, eingegrenzt und andererseits die POS-Tags festgelegt, für die die entsprechenden Types und Tokens erfragt werden sollen. Es ist sehr sinnvoll, wenn nicht gar unerlässlich, an dieser Stelle im Skript die Types und die Tokens an Hand der POS-Tags zu identifizieren. Anderenfalls käme es an einigen Stellen der Analyse zu zweideutigen Ergebnissen und die Wörter sowie die Lemmata würden trotz ihrer Formgleichheit unterschiedlichen POS-Tags zugeordnet. In diesem Zusammenhang soll das Wort schwimmen mit dem dazugehörigen Lemma schwimmen betrachtet werden. In einer Aussage könnte es heißen „Wir schwimmen im See“ und in einer nächsten Aussage „Wir gehen heute mit dem Kindergarten zum Schwimmen“. In beiden Fällen wäre das Lemma schwimmen, aber die POS-Tags unterscheiden sich. Demnach ist schwimmen in der ersten Aussage ein finites Vollverb (VVFIN), Schwimmen in der zweiten Aussage müsste streng genommen als Nomen (NN) getaggt werden (siehe dazu aber den Eintrag unter dem Stichwort Nomen in Abschnitt 4.1.7). Das Skript geht bei seiner Suche aus von den POS-Tags und listet am Ende sortiert nach den POS-Tags alle Types mit den dazugehörigen Tokens auf. Eine Möglichkeit wäre es, nur die Types und Tokens abzufragen, die in der Kategorie VVINF und in der Altersgruppe 1709:1983 vorkommen. In diesem Fall stünde in der ersten Zeile DAYMINMAX=“1709:1983“ und in der folgenden Zeile POSTAGS=“VVINF“. Das Programm benötigt also die Information der POS-Tags für die Ausgabe der Types und Tokens, weil dies in den EXMARaLDA-Dateien sowie in der Datenbank so organisiert ist. Skript: db_query_all_typetoken.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" OUTPUT_DIR=../../../03_db_query_results/typetoken for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do 110 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_typetoken.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done 5.2.4.3 03_typetoken_lemma db_query_typetoken_lemma.sh: An dieser Stelle werden die Types und die Tokens abgefragt; die Lemmata werden mit den dazugehörigen Häufigkeiten in einer CSV-Datei je POS-Tag ausgegeben. Da sich der erste Teil des Skripts nur unwesentlich vom Skript db_query_typetoken unterscheidet, soll dieser hier nicht näher beschrieben werden. Die Funktion Erstellen einer Wortliste entspricht der des eben erwähnten Skripts db_query_typetoken mit dem Unterschied, dass es sich hier um die Lemmata (SELECT textpostags.lemma) und nicht die tatsächlich geäußerten Wörter (SELECT textpostags.wort) handelt. Im unteren Teil des Skripts ist erkennbar, dass unter anderem die Befehlszeile ’“ AND textpostags.lemma = ’\’“ an Stelle von ’“ AND textpostags.wort = ’\’“ enthalten ist. Diese zweite Abfrage (query2.sql) ist insgesamt weniger komplex als die zweite Abfrage (query2.sql) im Skript db_query_typetoken, weil an dieser Stelle nur die Lemmata mit den dazugehörigen POS-Tags relevant sind, nicht aber alle geäußerten Wörter zu jedem Lemma. Zusätzlich ermöglicht das Skript db_query_typetoken_lemma.sh eine Types-zu-Tokens-Analyse jedes einzelnen Tags sowie der zusammengefassten POS-Tags. Als Ergebnis erhält man die prozentualen Anteile, wie sie in Kapitel 6 vorzufinden sind. Skript: db_query_typetoken_lemma.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)" exit fi DAYMIN=$1 DAYMAX=$2 POSTAGLIST="$3" OUTPUTDIR=$4 POSTAG_QUERY="AND ( " for i in $(echo $POSTAGLIST | tr "+" "\n") ; do POSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’ POSTAG_QUERY=${POSTAG_QUERY}${i} POSTAG_QUERY=${POSTAG_QUERY}’" ’ POSTAG_QUERY=${POSTAG_QUERY}"OR " 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 111 done POSTAG_QUERY=${POSTAG_QUERY}’0 ) ’ echo -n ’SELECT textpostags.lemma ’ > query.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ ’ >> query.sql echo -n $POSTAG_QUERY >> query.sql echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘ echo ", $COUNT entries found" if [ $COUNT -gt 0 ] ; then cat query.sql | sqlite3 $DB | sort | uniq > \ $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txt WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.txt‘ CNT=0 WORDCNTSUM=0 rm -f $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv for j in $WORTLIST ; do echo -n ’SELECT textpostags.postag ’ > query2.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql echo -n $DAYMIN >> query2.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql echo -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sql echo -n $POSTAG_QUERY >> query2.sql echo -n ’ AND textpostags.lemma = ’\’ >> query2.sql echo -n $j\’ >> query2.sql echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql echo -n "$j|" \ >> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘ WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1)) echo $WORDCNT >> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv done echo "—-|—-" >>\ $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv echo "$CNT|$WORDCNTSUM" >>\ $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}.csv echo "${POSTAGLIST}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM" >>\ $OUTPUTDIR/../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv rm -f query2.sql fi rm -f query.sql db_query_all_typetoken_lemma.sh: Dieses Skript fragt die Types und die Tokens zwischen den einzelnen Zeitstempeln in der jeweiligen EXMARaLDA-Datei aus der Datenbank ab und schreibt die Ergebnisse in 112 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER eine CSV-Datei. Die Abfrage der Datenbank an sich wird durch das oben angeführte Unterskript db_query_typetoken_lemma.sh ausgeführt. Es ist mit dieser Abfrage möglich, alle oder nur einige POS-Tags abzufragen und dadurch nur die Lemmata ausgeben zu lassen, die den jeweiligen POS-Tags zogeordnet sind. Weiterhin ist es möglich, (wie in allen „_all_...sh“-Skripten) die Altersgruppen einzugrenzen oder aber alle gleichzeitig abzufragen. Skript: db_query_all_typetoken_lemma.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD" POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN" POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF" POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWS POSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP" POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY" OUTPUT_DIR=../../../03_db_query_results/typetoken_lemma for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo -n $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_typetoken_lemma.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done CNTSUM=0 WORDCNTSUM=0 if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv ] ; then FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘ for i in $FILE ; do if [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then TAG=‘echo ${BASH_REMATCH[1]}‘ CNT=‘echo ${BASH_REMATCH[2]}‘ WORDCNT=‘echo ${BASH_REMATCH[3]}‘ if [[ $TAG =~ .*\+.* ]] ; then CNTSUM=$((CNTSUM + CNT)) WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) fi fi done if [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; then FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv‘ rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp for i in $FILE ; do if [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then CNT=‘echo ${BASH_REMATCH[1]}‘ WORDCNT=‘echo ${BASH_REMATCH[2]}‘ WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘ 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 113 CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘ echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\ >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp fi done echo "—-|—-|—-|—-|—-|—-|—-|—-" >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp echo "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000" >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp mv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv.tmp $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}.csv fi fi fi done db_query_typetoken_lemma_name.sh: Wie auch die vorhergehenden Skripte zur Ermittlung der Types und der Tokens fragt dieses Skript die Types und Tokens zwischen den Zeitstempeln der EXMARaLDA-Dateien aus der Datenbank ab. Im Gegensatz zum Skript db_query_typetoken_lemma.sh werden hier nicht die Lemmata aller Sprecher/innen insgesamt abgefragt und sortiert nach den POS-Tags in den drei Altersgruppen ablegt. Vielmehr erfolgt die Sortierung bei der Abfrage durch dieses Skript auf eine andere Weise. Zunächst werden die erfragten Lemmata ihren jeweiligen POS-Tags in den jeweiligen Altersgruppen zugeordnet. Übergeordnet ist dabei die jeweilige Sprecherin/der jeweilige Sprecher (in dieser Arbeit immer als Kürzel). Es könnten zum Beispiel alle Lemmata, die AV in der Zeitspanne 1281 bis 1495 hervorgebracht hat, abgefragt und als Ergebnis in einer CSV-Datei ausgegeben werden. Es besteht auch hier wieder die Möglichkeit, die geäußerten Lemmata je Sprecher/in als alphabetisch geordnete Wortliste anzeigen zu lassen. Im unteren Abschnitt des Skripts stehen jene Befehle (alle query2.sql-Befehle), die notwendig sind, um die Lemmata unter Berücksichtigung der einzelnen Sprecher/innen abfragen und anzeigen lassen zu können. Mit diesem Skript besteht die Möglichkeit einer anteiligen Berechnung der Types zu den Tokens je POS-Tag und Sprecher/in bzw. je zusammengefasster POS-Tag-Gruppe je Sprecher/in. Als Ergebnis werden die prozentualen Anteile ausgegeben, wie sie in Abschnitt 6.3 zu finden sind. Skript: db_query_typetoken_lemma_name.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ] then echo "usage $0 daymin daymax postag outputdir (hint: postag can also be a list like AAA+BBB...)" exit fi DAYMIN=$1 DAYMAX=$2 114 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER POSTAGLIST="$3" OUTPUTDIR=$4 NAME=$5 POSTAG_QUERY="AND ( " for i in $(echo $POSTAGLIST | tr "+" "\n") ; do POSTAG_QUERY=${POSTAG_QUERY}’textpostags.postag = "’ POSTAG_QUERY=${POSTAG_QUERY}${i} POSTAG_QUERY=${POSTAG_QUERY}’" ’ POSTAG_QUERY=${POSTAG_QUERY}"OR " done POSTAG_QUERY=${POSTAG_QUERY}’0 ) ’ echo -n ’SELECT textpostags.lemma ’ > query.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) - ’ >> query.sql echo -n ’julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ ’ >> query.sql echo -n $POSTAG_QUERY >> query.sql echo -n ’ AND sprecher.kuerzel = "’ >> query.sql echo -n $NAME >> query.sql echo ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘ echo ", $COUNT entries found" if [ $COUNT -gt 0 ] ; then cat query.sql | sqlite3 $DB | sort | uniq \ > $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txt WORTLIST=\ ‘cat $OUTPUTDIR/output_wortlist_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.txt‘ CNT=0 WORDCNTSUM=0 rm -f\ $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv for j in $WORTLIST ; do echo -n ’SELECT textpostags.postag ’ > query2.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql echo -n $DAYMIN >> query2.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql echo -n $DAYMAX >> query2.sql echo -n ’ ’ >> query2.sql echo -n $POSTAG_QUERY >> query2.sql echo -n ’ AND sprecher.kuerzel = "’ >> query2.sql echo -n $NAME >> query2.sql echo -n ’" AND textpostags.lemma = ’\’ >> query2.sql echo -n $j\’ >> query2.sql echo -n ’ AND aufnahme.sprecher_id ’ >> query2.sql echo -n ’= sprecher.id AND ’ >> query2.sql echo -n ’textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql echo -n "$j|" \ >>\ $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘ WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1)) 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 115 echo $WORDCNT \ >> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv done echo "—-|—-"\ >> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv echo "$CNT|$WORDCNTSUM"\ >> $OUTPUTDIR/output_typetoken_lemma_${POSTAGLIST}_${DAYMIN}_${DAYMAX}_${NAME}.csv echo "${POSTAGLIST}|${DAYMIN}|${DAYMAX}|${NAME}|$CNT|$WORDCNTSUM"\ >> $OUTPUTDIR/../../output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${NAME}.csv rm -f query2.sql fi rm -f query.sql db_query_all_typetoken_lemma_name.sh: In Entsprechung zu den anderen „_all_...sh“-Skripten wird die Abfrage durch dieses Skript durch das dazugehörige Unterskript, in diesem Falle db_query_typetoken_lemma_ name.sh, ausgeführt. Unter Verwendung dieses Skripts bestehen zahlreiche Möglichkeiten, die Abfragen zu kombinieren und auszuführen. Drei der wichtigsten Variablen sind: DAYMINMAX, POSTAGS und NAMES. Durch eine Variation von DAYMINMAX können die Zeitäume eingegrenzt werden. Es gibt die Möglichkeit alle drei Altersgruppen zusammen zu untersuchen oder aber nur eine oder zwei. Ebenso können alle POS-Tags zusammen abgefragt werden (in einer, zwei oder drei Altersgruppe/n) oder nur bestimmte. In diesen Fällen müssen die Zeilen hinter POSTAGS= angepasst werden. Durch den Befehl NAMES entsteht die Möglichkeit, alle Sprecher/innen in die Analyse einzubeziehen oder nur eine/n oder einige ausgewählte. Um dies an einem Beispiel zu verdeutlichen, soll angenommen werden, dass nur die Lemmata, die sich unter den Adjektiven (ADJA, ADJD) in der Altersgruppe 1709 bis 1983 befinden, von Interesse sind. Zusätzlich beziehen sich diese Informationen nur auf den Sprecher LEO. In diesem Fall sehen die Befehle betreffend DAYMINMAX, POSTAGS und NAMES folgendermaßen aus: DAYMINMAY=“1709:1983“ POSTAGS=“ADJA ADJD“ NAMES=“LEO“ Das vollständige Skript besteht aus den folgenden Zeilen: Skript: db_query_all_typetoken_lemma_name.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" POSTAGS="$POSTAGS ADJA+ADJD ADV+PAV APPR+APPRART ART+ART CARD+CARD" POSTAGS="$POSTAGS FM+FM ITJ+ITJ KOKOM+KON+KOUS NE+NN" POSTAGS="$POSTAGS PDAT+PDS+PIAT+PIDAT+PIS PPER+PPER PPOSAT+PPOSS PRELS+PRF" POSTAGS="$POSTAGS PTKA+PTKANT+PTKNEG+PTKVZ+PTKZU PWAT+PWAV+PWS POSTAGS="$POSTAGS VAFIN+VAIMP+VAINF+VAPP" 116 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER POSTAGS="$POSTAGS VMFIN+VMINF+VMPP VVFIN+VVIMP+VVINF+VVIZU+VVPP XY+XY" NAMES="av mm js rd mk leo lar so lua jk ll ma" OUTPUT_DIR=../../../03_db_query_results/typetoken_lemma for n in $NAMES ; do for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi echo -n $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ./db_query_typetoken_lemma_name.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n done rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n CNTSUM=0 WORDCNTSUM=0 if [ -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv ] ; then FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘ for i in $FILE ; do if [[ $i =~ ^(.*)\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then TAG=‘echo ${BASH_REMATCH[1]}‘ CNT=‘echo ${BASH_REMATCH[2]}‘ WORDCNT=‘echo ${BASH_REMATCH[3]}‘ if [[ $TAG =~ .*\+.* ]] ; then CNTSUM=$((CNTSUM + CNT)) WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) fi fi done if [ $CNTSUM -gt 0 ] && [ $WORDCNTSUM -gt 0 ] ; then FILE=‘cat $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv‘ rm -f $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp for i in $FILE ; do if [[ $i =~ ^.*\|.*\|.*\|.*\|(.*)\|(.*)$ ]]; then CNT=‘echo ${BASH_REMATCH[1]}‘ WORDCNT=‘echo ${BASH_REMATCH[2]}‘ WORDPERCENT=‘echo "scale=5; $WORDCNT*100/$WORDCNTSUM" | bc | sed -e "s/\./,/g"‘ CNTPERCENT=‘echo "scale=5; $CNT*100/$CNTSUM" | bc | sed -e "s/\./,/g"‘ echo "${i}|${CNTPERCENT}|${WORDPERCENT}"\ >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp fi done echo "—-|—-|—-|—-|—-|—-|—-|—-"\ >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp echo "||||${CNTSUM}|${WORDCNTSUM}|100,00000|100,00000"\ >> $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp mv $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv.tmp\ $OUTPUT_DIR/output_typetoken_lemma_summary_${DAYMIN}_${DAYMAX}_${n}.csv fi fi fi done done 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 5.2.4.4 117 04_lemma_tag db_query_lemma_tag.sh: Mit dieser Abfrage können die Lemmata (in Entsprechung zu ihren Wörtern) abgefragt werden. Dabei werden - wie auch bei den vorhergehenden Skripten - die POS-Tags als Referenz verwendet. Die Abfolge der Befehle des dazugehörigen Skripts ist unten dargestellt. Im Ergebnis werden alle Lemmata je POS-Tag und Altersgruppe in einer CSV-Datei ausgegeben und gespeichert. Relevant für das Skript, um ein solches Ergebnis zu erhalten, sind daher alle Informationen zum Alter der Sprecher/innen zu einem gegebenen Zeitpunkt, die geäußerten Lemmata mit den dazugehörigen POS-Tags sowie den dazugehörigen Wörtern. Abbildung 5.19 zeigt den Ausschnitt einer solchen CSV-Datei als Ergebnis dieser Abfrage. Anhand dieser Grafik ist erkennbar, wie das Programm die geäußerten Wörter einer Altersgruppe zuordnet. In der linken Spalte steht das Geburtsdatum (2005-07-02) des Kindes (hier: LUA), in der zweiten Spalte das Aufnahmedatum (2009-09-29). Die Subtraktion des Aufnahmedatums vom Geburtsdatum ergibt eine Zahl in Juliandays, die sich einer der hier verwendeten drei Altersgruppen zuordnen lässt. In diesem Fall fällt diese Aufnahme in Gruppe 1496 bis 1708. Die dritte Spalte beinhaltet die Aufnahme-ID. In der vierten Spalte befindet sich der Name der entsprechenden EXMARaLDA-Datei, also 023_LUA_lem.exb. In der fünften Spalte steht das geäußerte Wort und in der folgenden sechsten Spalte das entsprechende Lemma. In der ersten Zeile befindet sich die Wortform einen mit dem dazugehörigen Lemma ein. In der siebten Spalte wird schließlich das entsprechende POS-Tag vermerkt (hier: ART). Diese Spalte erscheint zunächst überflüssig, da sie für die vorliegende Datei immer den POS-Tag ART enthält. Wie später zu sehen sein wird, kann die Abfrage aber auch so gestaltet werden, dass die Lemmata pro Kind angezeigt werden (und nicht pro Altersgruppe). Dann ist es wiederum sinnvoll, die POS-Tags mit ausgeben zu lassen. Die letzte Spalte enthält die Kennzahlen der jeweiligen Zeitslots in der EXMARaLDA-Datei, was für diese Zwecke aber irrelevant ist. Skript: db_query_lemma_tag.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax postag outputdir" exit fi DAYMIN=$1 DAYMAX=$2 118 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER POSTAG="$3" OUTPUTDIR=$4 echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql echo -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sql echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql cat query.sql | sqlite3 $DB \ > $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv rm query.sql Abbildung 5.19: CA: Beispiel lemma_tag 1496 bis 1708 db_query_all_lemma_tag.sh: Auch mit diesem Skript können Abfragen zu den von den Sprecherinnen und Sprechern verwendeten Lemmata getätigt werden. Dabei wird die tatsächliche Abfrage durch das Unterskript db_query_lemma_tag.sh vorgenommen. Es ist möglich, einen oder mehrere Zeiträume festzulegen. Es können eine, zwei oder alle drei Altersgruppe/n in die Analyse einbezogen werden. Es können - ebenso wie auch bei den vorherigen „_all_...sh“-Skripten die POS-Tags festgelegt werden, die in den angegebenen Gruppen analysiert werden sollen. Analog zu den anderen „_all_...sh“-Skripten wurden für den Analyseteil der vorliegenden Arbeit die Lemmata aller POS-Tags in allen Altersgruppen ausgewertet (siehe auch Kapitel 6 und hier besonders Abschnitt 6.2). 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 119 Abbildung 5.20: CA: Beispiel all_lemma_tag_MA 1281 bis 1495 Skript: db_query_all_lemma_tag.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD" POSTAGS="$POSTAGS FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER" POSTAGS="$POSTAGS PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU" POSTAGS="$POSTAGS PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN" POSTAGS="$POSTAGS VVIMP VVINF VVIZU VVPP XY" OUTPUT_DIR=../../../03_db_query_results/lemma_tag for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_lemma_tag.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done db_query_lemma_tag_name.sh: Dieses Skript fragt die Lemmata in Bezug auf die Sprecher/innen ab und schreibt die Ergebnisse in eine CSV-Datei. Es werden also alle Lemmata unter Berücksichtigung der POS-Tags und der Altersgruppe erfragt und dann der jeweiligen Sprecherin/dem jeweiligen Sprecher zugordnet. Beim Ablegen der CSV-Datei wird zunächst wieder nach der Altersgruppe unterschieden (analog zum Skript db_query_lemma_tag.sh) und anschließend nach Sprecherinnen und Sprechern sortiert. Bei der Abfrage durch das Skript db_query_lemma_tag.sh wurde an dieser Stelle nach POS-Tags sortiert. Innerhalb einer jeden Datei kann man ersehen, welche/r Sprecher/in welches Wort geäußert hat. Bei der Abfrage durch das vorliegende Skript db_query_lemma_tag_name.sh findet man hinter der Sortierung nach dem Namen die jeweils geäußerten POS-Tags. Abbildung 5.20 zeigt eine beispielhafte CSV-Datei nach der Abfrage. In diesem Fall handelt es sich nur um die Lemmata bezüglich der Konjunktionen (KON), die 120 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER von MA im Zeitraum 1281 bis 1495 geäußert wurden. Skript: db_query_lemma_tag_name.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] || [ -z $5 ] then echo "usage $0 daymin daymax postag outputdir name" exit fi DAYMIN=$1 DAYMAX=$2 POSTAG="$3" OUTPUTDIR=$4 NAME=$5 echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql echo -n ’textpostags.lemma, textpostags.postag, textpostags.id ’ >> query.sql echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.postag = "’ >> query.sql echo -n $POSTAG >> query.sql echo -n ’" AND sprecher.kuerzel = "’ >> query.sql echo -n $NAME >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql COUNT=‘cat query.sql | sqlite3 $DB | wc -l‘ echo "Found $COUNT datarows" if [ $COUNT -gt 0 ] ; then echo "create file $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv" cat query.sql | sqlite3 $DB \ > $OUTPUTDIR/output_${POSTAG}_${DAYMIN}_${DAYMAX}.csv fi rm query.sql db_query_all_lemma_tag_name.sh: Dieses Skript korrespondiert mit dem vorherigen Skript db_query_lemma_tag_name.sh, von welchem die eigentliche Abfrage der Lemmata aus der Datenbank ausgeführt wird. Mit Hilfe dessen können die Altersgruppen eingegrenzt werden - also nur eine, zwei oder alle drei Gruppen. Ferner können die Lemmata in Bezug auf alle POS-Tags abgefragt werden Abbildung 5.21: CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 121 oder nur einige ausgewählte. Schließlich ist es möglich einzugrenzen, welche Sprecher/innen für die Analyse in Betracht kommen. Abbildung 5.21 zeigt beispielhaft die Lemmata, die LL im Zeitraum 1709 bis 1983 als Nomen (NN) geäußert hat. Im Folgenden ist das entprechende Skript für diese Abfrage abgebildet: Skript: db_query_all_lemma_NN_LL_1709_1983.sh DAYMINMAX="1709:1983" POSTAGS="NN" NAMES="ll" OUTPUT_DIR=../../../03_db_query_results/lemma_tag for n in $NAMES ; do for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi echo $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n done rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi done done Im Basisskript können die Variablen DAYMINMAX, POSTAGS und NAMES in Anlehnung an die bisher beschriebenen „_all_...sh“-Skripte modifiziert werden, um so zu spezifischen Ergebnissen zu gelangen. Skript: db_query_all_lemma_tag_name.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" POSTAGS="ADJA ADJD ADV APPR APPRART ART CARD FM ITJ KOKOM KON KOUS NE NN PAV" POSTAGS="$POSTAGS PDAT PDS PIAT PIDAT PIS PPER PPOSAT PPOSS PRELAT PRELS PRF" POSTAGS="$POSTAGS PTKA PTKANT PTKNEG PTKVZ PTKZU PWAT PWAV PWS VAFIN VAIMP" POSTAGS="$POSTAGS VAINF VAPP VMFIN VMINF VMPP VVFIN VVIMP VVINF VVIZU VVPP XY" NAMES="av mm js rd mk leo lar so lua jk ll ma" OUTPUT_DIR=../../../03_db_query_results/lemma_tag for n in $NAMES ; do for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $POSTAGS ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi echo $DAYMIN \ $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n ./db_query_lemma_tag_name.sh $DAYMIN $DAYMAX $i \ 122 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n $n done rmdir –ignore-fail-on-non-empty $OUTPUT_DIR/${DAYMIN}_${DAYMAX}/$n fi done done 5.2.4.5 05_lemma_bedeutung db_query_lemma_bedeutung.sh: An dieser Stelle werden alle Lemmata je Altersgruppe mit den dazugehörigen Wörtern, POS-Tags und Bedeutungskategorien (für eine detaillierte Beschreibung der Bedeutungskategorien siehe Kapitel 7) ausgegeben und in eine CSV-Datei geschrieben. Zusätzlich befinden sich in den jeweiligen Spalten die dazugehörigen EXMARaLDA-Dateien. Relevante Informationen für das Ausführen der Abfragen sind Informationen zum Alter der Sprecherin/des Sprechers zu einem gegebenen Zeitpunkt, die geäußerten Wörter und die Lemmata mit den dazugehörigen POS-Tags und Bedeutungen. Skript: db_query_lemma_bedeutung.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax bedeutung outputdir" exit fi DAYMIN=$1 DAYMAX=$2 BEDEUTUNG="$3" OUTPUTDIR=$4 echo -n ’SELECT sprecher.name, sprecher.geburtsdatum, ’ > query.sql echo -n ’aufnahme.datum, julianday(aufnahme.datum) ’ >> query.sql echo -n ’-julianday(sprecher.geburtsdatum),’ >> query.sql echo -n ’ aufnahme.esb_name, textpostags.wort, ’ >> query.sql echo -n ’textpostags.lemma, textpostags.postag, ’ >> query.sql echo -n ’textpostags.bedeutung, textpostags.id ’ >> query.sql echo -n ’ FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.bedeutung = "’ >> query.sql echo -n $BEDEUTUNG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql cat query.sql | sqlite3 $DB \ > $OUTPUTDIR/output_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv rm query.sql 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 123 db_query_all_lemma_bedeutung.sh: Dieses Skript arbeitet mit dem vorhergehenden Skript db_query_lemma_bedeutung.sh zusammen. Es bietet die Möglichkeit, alle Sprecher/innen in allen Altersgruppen in die Analyse einzubeziehen und dementsprechend auch alle geäußerten Wörter, Lemmata, POS-Tags und Bedeutungen ausgeben zu lassen. Ebenso kann die Auswahl je nach dem Zweck eingegrenzt werden. Es können beispielsweise nur bestimmte Sprecher/innen, Altersgruppen, POS-Tags oder Bedeutungen abgefragt und ausgegeben werden. Skript: db_query_all_lemma_bedeutung.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" BEDEUTUNG="ad-part ad-qual ad-quant ad-rel" BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok" BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung" BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez" BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß" BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit" BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne" BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds" BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos" BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp" BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr" BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-kaus ptk-komm ptk-mod ptk-neg" BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin" BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp" BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod" BEDEUTUNG="$BEDEUTUNG vorgang xy zustand" OUTPUT_DIR=../../../03_db_query_results/lemma_bedeutung for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $BEDEUTUNG ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_lemma_bedeutung.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done 5.2.4.6 06_typetoken_bedeutung db_query_typetoken_bedeutung.sh: Mit dieser Abfrage werden die Types in Bezug auf die Lemmata aus der Datenbank abgefragt und mit den dazugehörigen Häufigkeiten in einer CSV-Datei entsprechend ihrer Bedeutungskategorie ausgegeben. Das Skript db_query_typetoken_ bedeutung.sh arbeitet ähnlich wie das Skript db_query_typetoken_lemma.sh 124 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER mit dem Unterschied, dass nicht die Lemmata je POS-Tag aufgelistet werden, sondern die Lemmata je Bedeutungskategorie. db_query_typetoken_bedeutung.sh DB=../../../02_generated_files/corpus.db if [ -z $1 ] || [ -z $2 ] || [ -z $3 ] || [ -z $4 ] || [ ! -d $4 ] ; then echo "usage $0 daymin daymax bedeutung outputdir" exit fi DAYMIN=$1 DAYMAX=$2 BEDEUTUNG="$3" OUTPUTDIR=$4 echo -n ’SELECT textpostags.lemma ’ > query.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query.sql echo -n $DAYMIN >> query.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query.sql echo -n $DAYMAX >> query.sql echo -n ’ AND textpostags.bedeutung = "’ >> query.sql echo -n $BEDEUTUNG >> query.sql echo -n ’" AND aufnahme.sprecher_id = sprecher.id ’ >> query.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query.sql cat query.sql | sqlite3 $DB | sort | uniq > \ $OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txt WORTLIST=‘cat $OUTPUTDIR/output_wortlist_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.txt‘ CNT=0 WORDCNTSUM=0 rm -f $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv for j in $WORTLIST ; do echo -n ’SELECT textpostags.bedeutung ’ > query2.sql echo -n ’FROM sprecher,aufnahme,textpostags ’ >> query2.sql echo -n ’WHERE julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) > ’ >> query2.sql echo -n $DAYMIN >> query2.sql echo -n ’ AND julianday(aufnahme.datum) ’ >> query2.sql echo -n ’- julianday(sprecher.geburtsdatum) < ’ >> query2.sql echo -n $DAYMAX >> query2.sql echo -n ’ AND textpostags.bedeutung = "’ >> query2.sql echo -n $BEDEUTUNG >> query2.sql echo -n ’" AND textpostags.lemma = ’\’ >> query2.sql echo -n $j\’ >> query2.sql echo -n ’ AND aufnahme.sprecher_id = sprecher.id ’ >> query2.sql echo -n ’AND textpostags.aufnahme_id = aufnahme.id;’ >> query2.sql echo -n "$j|" \ >> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv WORDCNT=‘cat query2.sql | sqlite3 $DB | wc -l‘ WORDCNTSUM=$((WORDCNTSUM + WORDCNT)) CNT=$((CNT + 1)) echo $WORDCNT\ >> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv done echo "—-|—-" >> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv echo "$CNT|$WORDCNTSUM" >> $OUTPUTDIR/output_typetoken_bedeutung_${BEDEUTUNG}_${DAYMIN}_${DAYMAX}.csv 5.2. DIE FUNKTIONEN DES CORPUSANALYSERS 125 echo "${BEDEUTUNG}|${DAYMIN}|${DAYMAX}||$CNT|$WORDCNTSUM" >> $OUTPUTDIR/../output_typetoken_bedeutung_summary.csv rm -f query.sql rm -f query2.sql db_query_all_typetoken_bedeutung.sh: Mit Hilfe dieses Unterskriptes können die Ergebnisse der Abfrage db_query_typetoken_bedeutung.sh eingegrenzt werden oder aber es können sämtliche Informationen ausgegeben werden. Es ist möglich (wie in dieser Arbeit geschehen), alle Altersgruppen und Bedeutungskategorien in die Analyse einzubeziehen. Dementsprechend werden alle Bedeutungskategorien je Altersgruppe ausgegeben und die dazugehörigen Lemmata alphabetisch sortiert aufgelistet und mit deren Anzahl versehen. Skript: db_query_all_typetoken_bedeutung.sh DAYMINMAX="1281:1495 1496:1708 1709:1983" BEDEUTUNG="ad-part ad-qual ad-quant ad-rel" BEDEUTUNG="$BEDEUTUNG adv-kaus adv-komm adv-lok" BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp art fm handlung" BEDEUTUNG="$BEDEUTUNG itj kon-add kon-adv kon-alt kon-ass kon-kaus kon-spez" BEDEUTUNG="$BEDEUTUNG kon-temp kon-vgl n-abstr-hdlg n-abstr-maß" BEDEUTUNG="$BEDEUTUNG n-abstr-vorg n-abstr-vorst n-abstr-wiss n-abstr-zeit" BEDEUTUNG="$BEDEUTUNG n-abstr-zust n-abstr-eig n-belebt ne" BEDEUTUNG="$BEDEUTUNG n-unbelebt pav pdat pds" BEDEUTUNG="$BEDEUTUNG piat pidat pis pper ppos" BEDEUTUNG="$BEDEUTUNG prels prf pr-kaus pr-lok pr-mod pr-neutr pr-temp" BEDEUTUNG="$BEDEUTUNG ptk-abt ptk-ant ptk-fok ptk-gespr" BEDEUTUNG="$BEDEUTUNG ptk-grad ptk-neg" BEDEUTUNG="$BEDEUTUNG ptkvz ptkzu pwat pwav pws sub-fin" BEDEUTUNG="$BEDEUTUNG sub-kaus sub-kond sub-konz sub-mod-instr sub-neutr sub-temp" BEDEUTUNG="$BEDEUTUNG v-aux v-kop v-mod" BEDEUTUNG="$BEDEUTUNG vorgang xy zustand" OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutung for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $BEDEUTUNG ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done Es wäre ebenso möglich, nur eine oder zwei Altersgruppen oder ausgewählte Bedeutungskategorien zu untersuchen. Dies kann im Skript entsprechend angepasst werden. Soll etwa nur die Altersgruppe 1496_1708 betrachtet 126 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER werden und interessieren in dieser Gruppe nur die Adverbien, so würde das Skript zur Ausführung folgendermaßen aussehen: Skript: db_query_ADV_1496_1708_typetoken_bedeutung.sh DAYMINMAX="1496:1708" BEDEUTUNG="adv-kaus adv-komm adv-lok" BEDEUTUNG="$BEDEUTUNG adv-mod adv-temp" OUTPUT_DIR=../../../03_db_query_results/typetoken_bedeutung for d in $DAYMINMAX ; do if [[ $d =~ ^(.*):(.*)$ ]]; then DAYMIN=‘echo ${BASH_REMATCH[1]}‘ DAYMAX=‘echo ${BASH_REMATCH[2]}‘ for i in $BEDEUTUNG ; do if [ ! -e $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ] ; then mkdir -p $OUTPUT_DIR/${DAYMIN}_${DAYMAX} fi echo $DAYMIN $DAYMAX $i $OUTPUT_DIR/${DAYMIN}_${DAYMAX} ./db_query_typetoken_bedeutung.sh $DAYMIN $DAYMAX $i \ $OUTPUT_DIR/${DAYMIN}_${DAYMAX} done fi done 5.3 Möglichkeiten für die Arbeit mit dem CorpusAnalyser Der CorpusAnalyser wurde speziell für die Zwecke und Ziele der vorliegenden Arbeit konzipiert und von Mack (2014) programmiert ([Mack (2014)]). Während der Konzeption, die parallel zur Entstehung dieser Arbeit lief, wurden kontinuierlich neue Ideen eingebracht und umgesetzt, wodurch ein komplexes Programm entstanden ist. Neben den Zwecken, die für diese Arbeit von Bedeutung waren, sind deshalb noch weitere Szenarien vorstellbar. Neben dem Deutschen können, analog zum Vorgehen in dieser Arbeit, zahlreiche weitere Sprachen analysiert und zu einem Vergleich herangezogen werden. Wenn es um die Analyse von Wortarten und Wortbedeutungen geht, müssen die syntaktischen Wörter korrekt voneinander separiert und mit den entsprechenden Wortarten bzw. Wortbedeutungen versehen werden. Diese Vorarbeit kann - wie auch in der vorliegenden Arbeit - kein Programm leisten, sondern muss von der durchführenden Person selbst vorgenommen werden. Dabei können neben den Stuttgart-Tübingen-Tagsets (STTS) auch andere Tagsets verwendet werden. Gerade bei der Analyse anderer Sprachen neben dem Deutschen ist es meines Erachtens sogar notwendig, wenn nicht zumindest sinnvoll, nicht die STTS zu verwenden. Die STTS enthalten POS-Tags, die sich typischerweise auf das Deutsche beziehen (Abschnitt 3.2); für alle anderen Sprachen müssten diese zumindest stark modifiziert werden. Es wäre möglich und wahrscheinlich sinnvoll, für die Arbeit mit den Daten von sehr jungen Kindern (z. B. im Alter von 5.3. MÖGLICHKEITEN FÜR DIE ARBEIT MIT DEM CORPUSANALYSER 127 1;0 bis 3;0 Jahren), die Klassifikation von Kauschke (1999) zu verwenden ([Kauschke (1999)], S. 140). Diese Klassifikation wurde bisher nur für die Analyse des Deutschen verwendet, wobei man sie vermutlich auch für das Englische und die meisten romanischen Sprachen verwenden könnte. Aufwendiger gestaltet sich womöglich die Arbeit mit Daten von strukturell sehr von den germanischen und romanischen Sprachen abweichenden Daten. Man möge an das Ungarische denken, welches im Gegensatz zum Deutschen einen agglutinierenden Charakter aufweist. In diesem Falle wären Klassifikationssysteme notwendig, die mit diesen strukturellen Eigenschaften harmonieren. Eine weitere Notwendigkeit besteht darin, die Datenbank im Vorfeld mit allen relevanten Informationen zu füllen, die für die Arbeit mit dem CA notwendig sind. Auf diese Weise kann im Nachhinein ein Vergleich von mehreren Sprachen unter unterschiedlichen Aspekten vorgenommen werden. Es kann zum Beispiel die Verteilung von Wortarten im Hinblick auf den Anteil dieser wiederum am Gesamtwortschatz ermittelt und verglichen werden. Durch das Erstellen von Wortlisten können die häufigsten Wörter in verschiedenen Kategorien ermittelt werden. Interessant wäre auch ein Vergleich von verschiedenen Sprachen mit gleichen/ähnlichen Wortarten (z. B. Englisch/Deutsch oder Spanisch/Deutsch). Hierbei muss beachtet werden, dass dem Vergleich gleiche Voraussetzungen zu Grunde liegen. Dazu gehört ein einheitlich verwendetes Klassifikationssystem. Es würde wenig Sinn ergeben, einen mit den STTS analysierten Datensatz mit einem Datensatz zu vergleichen, der wiederum mit einem abweichenden Klassifikationssystem analysiert wurde. Aber nicht immer sollen Daten miteinander verglichen werden. Allein die Analyse von weniger beschriebenen Sprachen und deren Ermittlung der Wortartenverteilung ist äußerst interessant und aufschlussreich. Durch die Arbeit mit dem CA kann dabei eine enorme Erleichterung für die quantitative Analysetätigkeit geschaffen werden. Normalerweise ist für die Abbildung der Verteilung aller Daten ein enormer Rechenaufwand notwendig. Mit dem CA können, je nach dem welches Ziel verfolgt wird, nahezu alle Variablen unter unterschiedlichen Aspekten quantitativ analysiert werden, wenn die dazugehörigen Skripte entsprechend angepasst werden. Es ist weiterhin vorstellbar, dass in einer Analyse nicht nur die Wortarten und Wortbedeutungen von Interesse sind, sondern die Morpheme oder Phoneme einer Sprache in einem gegebenen Kontext. Auch dies ließe sich mit dem CA bewerkstelligen. In der enstprechenden EXMARaLDA-Datei müssten dann nicht die Wörter voneinander separiert aufgeführt und mit den jeweiligen POS-Tags bezeichnet werden. Vielmehr wäre es erforderlich, 128 KAPITEL 5. DIE ARBEIT MIT DEM CORPUSANALYSER die Morpheme bzw. Phoneme voneinander zu trennen. Ob und wie diese Einheiten für eine spätere Analyse gekennzeichnet werden, hängt vom Ziel der jeweiligen Untersuchung ab. Kapitel 6 Analyse der Wortarten Für die Analyse der Daten waren mehrere Schritte erforderlich. In einem ersten Schritt wurden alle bisher erhaltenen Informationen in die Datenbank1 des CA überführt, mit welcher im Anschluss mehrere Analyseschritte möglich waren. Zunächst wurden alle Aufnahmen drei Altersgruppen zugeordnet, da so herausgefunden werden konnte, ob Änderungen im Verlauf des Lexikerwerbs zwischen 3;5 und 5;5 Jahren zu verzeichnen sind. Wie bereits in Abschnitt 2.3.3 erwähnt, wurde bisher sehr stark die Gruppe der Einbis Dreijährigen untersucht. Kauschke (1999) fand heraus, dass während dieser Altersspanne eine starke Veränderung hinsichtlich des Vorkommens der Wortarten im kindlichen Lexikon zu erkennen ist ([Kauschke (1999)]). Ob es jenseits des dritten Geburtstages noch zu signifikanten Veränderungen kommt, soll in der folgenden Analyse überprüft werden. Die erste Gruppe umfasst alle Zeitpunkte von ca. 3;5 bis 4;1 Jahren bzw. von 1281 bis 1495 Tagen. Das heißt, dass alle Kinder, die zum Zeitpunkt der jeweiligen Aufnahme in das entsprechende Altersraster fielen, sich in dieser Gruppe befinden. Die zweite Gruppe umfasst alle Zeitpunkte von über 4;1 bis 4;7 Jahren bzw. zwischen 1496 und 1708 Tagen, Gruppe 3 umfasst die Zeitpunkte von über 4;7 bis ca. 5;5 Jahren bzw. zwischen 1709 und 1983 Tagen. Eine Altersangabe in Tagen war deshalb notwendig, weil der CA und das Skript zur Ausführung der Analyse mit diesen Angaben (juliandays) arbeitet. Ziel war es zunächst, die Ergebnisse hinsichtlich der Verteilung der Wortarten dieser drei Gruppen darzustellen und miteinander zu vergleichen bzw. auf Unterschiede zu prüfen (Abschnitt 6.2). In einem weiteren Schritt sollte untersucht werden, ob man in einem Alter von 3;5 bis 5;5 Jahren von individuellen Unterschieden ausgehen kann, die auch über den Zeitraum der Aufnahmen erhalten bleiben (Abschnitt 6.3). In jedem Fall soll ein Überblick über die Verteilung der 1 Die Datenbank corpus.db wurde im Zuge der Erstellung des CorpusAnalysers ([Mack (2014)]) für die Zwecke dieser Arbeit erarbeitet. 129 130 KAPITEL 6. ANALYSE DER WORTARTEN Wortarten in der Spontansprache der hier untersuchten Kinder geschaffen werden. Im besten Falle können offene Fragen beantwortet werden, aber auch neue Fragen entstehen, die es in weiteren Arbeiten zu beantworten gilt. Im Anschluss an die Analyse der Wortarten soll anknüpfend an dieses Kapitel eine Untersuchung unter semantischen und inhaltlichen Gesichtspunkten vorgenommen werden (Kapitel 7). Dabei werden die Kategorien Nomen, Verb, Adjektiv (und Adverb) in ihrer Funktion als Inhaltswörter sowie die Funktionswörter betrachtet. Es erschien sinnvoll, die Inhaltskategorien getrennt von den Funktionswörtern in die Analyse einzubeziehen, weil erstere bereits in anderen Arbeiten große Aufmerksamkeit gefunden haben (z. B. [Baker (2003), Bassano (2000), Behrens (1998), Gopnik und Choi (1995), Kauschke (2007), Stenzel (1997)]). Des Weiteren machen Nomen, Verben, Adjektive und zum Teil die Adverbien jeweils einen recht großen Anteil am Gesamtlexikon aus, wodurch am ehesten inhaltliche Veränderungen zwischen den drei Altersgruppen herausgefunden werden können. 6.1 Gruppierung der POS-Tags Im einem ersten Teilschritt wurden die Häufigkeiten jedes einzelnen POS-Tags mit den entsprechenden syntaktischen Wörtern und Lemmata pro Altersgruppe analysiert. Um einen umfassenderen Überblick zu erhalten, wurden in einem zweiten Schritt die POS-Tags verwandter Kategorien zusammengefasst. Eine solche Zusammenfassung war vor allem für anschließende grafische Darstellungen sowie für den Vergleich der drei Altersgruppen hilfreich, da die Gegenüberstellung aller 41 Kategorien in jeder der drei Gruppen sehr unübersichtlich wäre. Die unten stehende Tabelle (6.1) zeigt die Zusammenfassung der einzelnen POS-Tags. Berücksichtigt wurden nur jene Tags, die auch tatsächlich in den Daten vorkommen. Auf diese Weise entstanden 19 Kategorien statt der ursprünglich erhaltenen 41 Kategorien. Mit der so enstandenen Kategorisierung soll im Verlauf der Arbeit gearbeitet werden. Sollte ich mich an irgendeiner Stelle auf die ursprüngliche Version der STTS mit ihren 41 Kategorien beziehen, werde ich dies kenntlich machen. Abbildung 6.1 zeigt eine Zusammenfassung aller Tokens in der Altersgruppe 1281_1495, so, wie es in der Ausgabe-Datei festgehalten ist2 . 2 Es fehlt die Kategorie FM, weil sie in den Daten dieser Gruppe nicht vorkam. Somit sind hier nur 18 Kategorien enthalten. 6.1. GRUPPIERUNG DER POS-TAGS 131 Abbildung 6.1: POS-Tags: tokens_types_gruppiert_1281_1495 Eine Zusammenfassung der Types ist ebenfalls vorhanden, obwohl diese erst weiter unten besprochen werden. Kategorie POS-Tags ADJ ADJA + ADJD ADV ADV +PAV APPR APPR + APPRART ART ART CARD CARD FM FM ITJ ITJ KON KOUS + KON + KOKOM N NN + NE PIDATS PDS+PDAT + PIS + PIAT + PIDAT PPER PPER PPOS PPOSS + PPOSAT PREL (PRELAT)+PRELS + PRF PW PWS + PWAT + PWAV PTK PTKZU + PTKNEG + PTKVZ + PTKANT + PTKA VA VAFIN + (VAINF) + VAIMP + (VAPP) VM VMFIN + (VMINF) + (VMIMP) VV VVFIN + VVINF + VVIMP + VVPP + VVIZU XY XY Tabelle 6.1: POS-Tags zusammengefasst 132 KAPITEL 6. ANALYSE DER WORTARTEN Erläuterungen zu Tabelle 6.13 : • ADJ: Adjektive • ADV: Adverbien und Pronominaladverbien • APPR: Präpositionen • ART: Artikel (unbestimmt und bestimmt) • CARD: Kardinalzahlen • FM: Fremdsprachliches Material • ITJ: Interjektionen • KON: Konjunktionen und Subjunktionen • N: Nomen und Eigennamen • PIDATS: Indefinitpronomen; substituierende Pronomen determinierende, attribuierende und • PPER: Personalpronomen (irreflexiv) • PPOS: Possessivpronomen • PREL: Relativpronomen und reflexives Personalpronomen • PW: substituierende, attribuierende und adverbiale Interrogativ- und Relativpronomen • PTK: Partikeln • VA: Auxiliarverben • VM: Modalverben • VV: Vollverben • XY: unverständliche Wörter 3 in Klammern stehende POS-Tags kommen in den Daten dieser Arbeit nicht vor, zählen aber grundlegend zu der angegebenen Gruppe. 6.2. ALTERSGRUPPEN IM VERGLEICH 6.2 133 Altersgruppen im Vergleich In diesem Abschnitt und den folgenden Unterabschnitten sollen die Ergebnisse der getätigten Analysen mittels des CA in Bezug auf die Verteilung der POS-Tags dargestellt werden. Zunächst wird die Verteilung der Tokens und die Verteilung der Types aufgezeigt sowie die Relation der Types zu den Tokens. Dazu wurden jeweils alle Tokens sowie alle Types, die in den Zeiträumen 1281 bis 1495, 1496 bis 1708 und 1709 bis 1983 geäußert wurden, addiert. Um das Verhältnis der Types zu den Tokens zu erhalten, wurde die Anzahl der Types durch die Anzahl der Tokens dividiert. Die unten stehende Tabelle fasst kurz das Vorkommen aller Tokens und Types in den jeweiligen Altersgruppen in absoluten Zahlen zusammen, ungeachtet dessen, welches Kind die jeweiligen Tokens und Types äußerte. 1281-1495 1496-1708 1709-1983 Tokens 2916 12584 11315 Types 462 1058 1088 Tabelle 6.2: Types und Tokens in den Altersgruppen In der ersten Altersgruppe von 1281 bis 1495 Tagen gibt es im Vergleich zu den anderen Gruppen nur wenige Tokens. Rückblickend lässt sich das dadurch erklären, dass die Kinder in diesem Alter in der Regel noch nicht so aufgeschlossen mir gegenüber waren und deshalb nur wenig aus eigener Initiative erzählten. Oft musste ich versuchen, die Kinder zum Sprechen zu animieren. Da dies nicht immer erfolgreich war und die Kinder zudem spontan und aus eigenem Antrieb heraus sprechen sollten, waren weitere Aufnahmen nicht möglich. Dennoch lassen die Daten insgesamt vermuten, dass zumindest ein Trend aufgezeigt werden kann. Die mittlere und die letzte Gruppe weisen jeweils ähnliche Häufigkeiten auf. So äußerten Kinder im Alter von 1496 bis 1708 Tagen im gesamten Aufnahmezeitraum 12584 Wörter (Tokens), darunter 1058 Types. Im Alter von 1709 bis 1983 Tagen wurden 11315 Wörter (Tokens) geäußert, wovon sich 1088 voneinander unterschieden (Types). 6.2.1 Verteilung der Tokens Unter Zuhilfenahme des CA (Kapitel 5) wurden alle tatsächlich geäußerten Wörter (Tokens) aller Kinder im Hinblick auf ihre Zugehörigkeit zu den POS-Tags analysiert. Des Weiteren wurde die Anzahl der Wörter je POS-Tag und je Altersgruppe vermerkt. Für diesen Analyseschritt wurde die entsprechende Abfrage mit den dazugehörigen Skripten des CA genutzt. Zur Ermittlung der Vorkommenshäufigkeit je POS-Tag und je Altersgruppe 134 KAPITEL 6. ANALYSE DER WORTARTEN wurde die Abfrage 5.2.4.2 mit den Skripten db_query_typetoken.sh sowie db_query_all_typetoken.sh gestellt. Als Ergebnis erhielt man eine Liste aller geäußerten Wörter je POS-Tag und Altersgruppe. Abbildung 6.5 zeigt bespielsweise alle geäußerten VVIMP (Vollverben im Imperativ) der Gruppe 1709_1983. Die zusammengefassten und gruppierten Ergebnisse sind in der unten stehenden Tabelle (6.3) dargestellt. POS-Tag 1281-1495 POS/ 1496-1708 Summe POS/ 1709-1983 Summe POS/ Summe ADJ 107 3,7 480 3,8 512 4,5 ADV+PAV 427 14,6 2175 17,3 1462 12,9 APPR 81 2,8 474 3,8 362 3,2 ART 258 8,8 1125 8,9 787 7,0 CARD 26 0,9 177 1,4 329 2,9 FM 0 0 2 0,02 8 0,07 ITJ 6 0,2 38 0,3 73 0,6 KON 235 8,1 897 7,1 635 5,6 11,0 N 264 9,1 971 7,7 1245 PIDATS 153 5,2 625 4,9 452 4,0 PPER 283 9,7 1339 10,6 1432 12,7 PPOS 37 1,3 118 0,9 128 1,1 PREL 8 0,3 56 0,4 38 0,3 PTK 309 10,6 1090 8,7 1073 9,5 PW 44 1,5 175 1,4 137 1,2 VA 34 1,2 158 1,3 165 1,5 VM 90 3,1 441 3,5 421 3,7 VV 493 16,9 2086 16,6 1916 16,9 XY 61 2,1 157 1,2 140 1,2 Tabelle 6.3: Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im Überblick gruppiert Zunächst sind keine signifikanten Unterschiede in der Verwendungshäufigkeit einzelner Wortklassen im Verlauf von 1281 Tagen bis 1983 Tagen erkennbar. Im Gegenteil: Es bietet sich dem Betrachter ein nahezu konstantes Bild der Verteilung hinsichtlich der Verwendung der Wortklassen in den drei Altersgruppen. Leicht auffällig ist die Entwicklung der Verwendung der Konjunktionen (KON). Im Alter von 1281 bis 1495 Tagen nehmen KON einen Anteil von 8,1% hinsichtlich aller verwendeten Wortklassen ein. Im Alter von 1496 bis 1708 Tagen sind es 7,1% und in der Altersgruppe 1709 bis 1983 Tage sind es nur noch 5,6%. An dieser Stelle kann nicht eindeutig gesagt werden, ob es sich um einen weiterführenden Trend handelt. Dazu müssten weitere Altersgruppen getestet werden, die an die letzte Altersgruppe anschließen, also ab einem Alter von 1984 Tagen. Eine ebenso leichte Veränderung zeigt der Gebrauch der Personalpronomen (PPER). Während 6.2. ALTERSGRUPPEN IM VERGLEICH 135 Kinder im Alter von 1281 bis 1495 Tagen einen Anteil von 9,7% PPER in ihrer Verwendung aufweisen, sind es in der Gruppe der 1496 bis 1708 Tage alten Kinder 10,6% und bei den Kindern im Alter von 1709 bis 1983 Tagen 12,7%. Auch hier müssten, ähnlich wie bei den Auffälligkeiten bei den KON, weitere Untersuchungen getätigt werden, um herauszufinden, ob es sich um einen fortsetzenden Trend handelt. Die Abbildungen 6.2, 6.3 und 6.4 zeigen die Anteile der gruppierten POS-Tags in den einzelnen Altersgruppen. Abbildung 6.2: Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage Es fällt auf, dass in jeder der drei Altersgruppen Auxiliar-, Modal- und Vollverben (VA, VM, VV) am häufigsten in der spontanen Sprache verwendet werden, ungeachtet ihrer Vielfalt im kindlichen Wortschatz. Dieses Bild deckt sich mit den Ergebnissen von Kauschke (1999) ([Kauschke (1999)]; Abschnitt 2.3.3). Sie untersuchte Kinder bis zu einem Alter von 36 Monaten. Als Referenzpunkt zu den Ergebnissen dieser Arbeit bietet es sich an, die Verteilung der Wortarten der Kinder im Alter von 36 Monaten mit denen der Kinder im Alter von 1281 bis 1495 Tagen (das entspricht etwa 3;5 bis 4;1 Jahren) ansatzweise zu vergleichen4 . Im Alter von 36 Monaten machen Verben einen Anteil von 22% am Gesamtwortschatz aus, bezogen auf die Tokens. Nomen kommen mit insgesamt 11% vor ([Kauschke (1999)], S. 148). In der vorliegenden Arbeit machen Verben (VA, VM, VV) einen Anteil von 21,2% aus im Alter von 1281 bis 1495 Tagen, Nomen (N) einen Anteil von 4 Dazu werden folgend die drei Verbkategorien VA, VM und VV zusammengefasst. Dies ist insofern sinnvoll, als dass bei den Vergleichsdaten ebenfalls keine Unterteilung in weitere Verbklassen vorgenommen wurde. 136 KAPITEL 6. ANALYSE DER WORTARTEN Abbildung 6.3: Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage 9,1%. Alle weiteren Wortarten der STTS, wie sie für die hiesige Untersuchung verwendet wurden, sind meiner Meinung nach nur teilweise mit denen aus Kauschkes Arbeit vergleichbar, da sie einer anderen Klassifikation unterliegen. Zudem wurde die Studie mit einer anderen Methodik durchgeführt, was einen aussagekräftigen Vergleich nicht möglich macht. Die bisherigen Ergebnisse enstprechen jedoch dem, was Kauschke in Anbetracht ihrer Studie prognostizierte: „Nomen sind von Anfang an vorhanden und wachsen insbesondere während des zweiten Lebensjahres an. [...] Mit drei Jahren verwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S. 144) und „Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblich ansteigen und mit 3 Jahren den stärksten Anteil am Lexikon ausmachen.“ ([Kauschke (1999)], S. 145) Insgesamt wurden durch alle Altersstufen hinweg Partikeln (PTK) zu einem hohen Anteil verwendet (rund 10% in allen Gruppen). Weiterhin nimmt der Gebrauch der Adjektive (ADJ) mit zunehmendem Alter leicht zu, insbesondere, wenn auch die Kardinalzahlen (CARD) zu den Adjektiven gezählt werden (3,7% Adjektive + 0,9% Kardinalzahlen in Gruppe 1281_1495, 3,8% Adjektive + 1,4% Kardinalzahlen in Gruppe 1496_1708 und 4,5% 6.2. ALTERSGRUPPEN IM VERGLEICH 137 Abbildung 6.4: Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage Adjektive + 2,9% Kardinalzahlen in Gruppe 1709_1983). An späterer Stelle soll in dieser Arbeit geklärt werden, ob es sich inhaltlich dabei um neue Adjektive handelt, die zu den späteren Zeitpunkten auftreten oder aber, ob alle bisher verwendeten Adjektive nur häufiger gebraucht wurden (Abschnitt 7.2). Abbildung 6.5: Beispiel: tokens_VVIMP_1709_1983 138 6.2.2 KAPITEL 6. ANALYSE DER WORTARTEN Verteilung der Types In einem weiteren Schritt wurde die Anzahl und die Verteilung der Types je Altersgruppe ausgewertet. Für diesen Analyseschritt wurde (entsprechend der Analyse der Tokens) die entsprechende Abfrage mit den dazugehörigen Skripten des CA verwendet. Zur Ermittlung der Vorkommenshäufigkeit je POS-Tag und je Altersgruppe wurde die Abfrage 5.2.4.3 mit den Skripten db_query_typetoken_lemma.sh sowie db_query_all_typetoken_lemma.sh an die Datenbank gestellt. Im Ergebnis erhielt man eine Liste aller Lemmata je POS-Tag und Altersgruppe. Abbildung 6.6 zeigt einen Ausschnitt aus der Datei, die alle Types bzw. Lemmata bezogen auf die finiten Verben (VVFIN) der Kinder der Gruppe 1281_1495 enthält. Abbildung 6.6: Beispiel: types_VVFIN_1281_1495 Tabelle 6.4 zeigt die Verteilung der Types hinsichtlich der gruppierten POS-Tags je Altersgruppe. Auf den ersten Blick erscheint die Verteilung der einzelnen POS-Tags (ähnlich der Tokens) über die drei Zeiträume hinweg gleichmäßig. Einen leichten Negativtrend zeigt die Verteilung der Präpositionen (APPR). Kinder der ersten Altersgruppe verwendeten einen Anteil von 2,4% verschiedenartiger APPR, Kinder der zweiten Altersgruppe nur noch 1,9% und Kinder der dritten Altersgruppe nur noch 1,7%. 6.2. ALTERSGRUPPEN IM VERGLEICH POS-Tag 1281-1495 139 POS/Summe 1496-1708 POS/Summe 1709-1983 POS/Summe ADJ 44 9,5 108 10,2 93 8,5 ADV+PAV 49 10,6 98 9,3 103 9,5 APPR 11 2,4 20 1,9 19 1,7 ART 3 0,6 3 0,3 3 0,3 CARD 9 1,9 20 1,9 22 2 FM 0 0 2 0,2 4 0,4 ITJ 4 0,9 12 1,1 23 2,1 KON 11 2,4 19 1,8 17 1,6 N 141 30,5 428 40,5 423 38,8 PIDATS 12 2,6 21 2,0 24 2,2 PPER 7 1,5 7 0,7 7 0,6 PPOS 4 0,9 5 0,5 5 0,5 PREL 6 1,3 9 0,8 9 0,8 PTK 43 9,3 57 5,4 73 6,7 PW 6 1,3 8 0,8 8 0,7 VA 3 0,6 3 0,3 3 0,3 VM 5 1,1 7 0,7 7 0,6 VV 102 22 229 21,6 240 22 XY 2 0,4 2 0,2 5 0,5 Tabelle 6.4: Vorkommen der POS-Tags (Types) in allen Altersgruppen im Überblick gruppiert Es fällt weiterhin auf, dass Verben (VA, VM, VV) mit ca. 23% in jeder der drei Altersgruppen einen gleich großen Anteil am Lexikon einnehmen. Vergleicht man die Gruppe der 1281 bis 1495 Tage alten Kinder mit den 36 Monate alten Kindern aus Kauschkes Studie, so decken sich die Ergebnisse diesbezüglich. In Kauschkes Ergebnissen machen Verben einen ähnlich hohen Anteil von 23% an der Gesamtkomposition des Lexikons bei Dreijährigen aus ([Kauschke (1999)], S. 147). Große Abweichungen können allerdings bei der Verwendung der Nomen beobachtet werden. In der ersten Altersgruppe verwendeten die untersuchten Kinder 141 oder 30,5% verschiedene Nomen bezogen auf die Gesamtanzahl der Types. Mit 1496 bis 1708 Tagen nehmen Nomen einen Anteil von 40,5% am gesamten Lexikon im geäußerten Zeitraum ein. In der letzten Altersgruppe beläuft es sich auf einen ähnlich hohen Prozentsatz mit 38,8%. Diese Angaben widersprechen zunächst dem, was Kauschke prognostizierte, nämlich, dass mit 3 Jahren kein Kind mehr als 25% Nomen verwendet ([Kauschke (1999)], S. 145). Da Kauschke sich jedoch ausdrücklich auf das Vorkommen von geäußerten Nomen in Bezug auf ein individuelles Kind bezieht, können diese Angaben nicht auf die hier vorliegenden Type-Werte bezogen werden, da in diesem Abschnitt zunächst eine Gruppe von Kindern betrachtet wurde. In Abschnitt 6.2.4 sollen Erklärungsansätze zu diesem Phänomen gegeben werden. 140 KAPITEL 6. ANALYSE DER WORTARTEN Zudem folgen später Einzelanalysen der hier untersuchten Kinder, welche eine gänzlich andere Qualität aufweisen (Abschnitt 6.3). Abbildung 6.7: Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage 6.2.3 Das Verhältnis der Types zu den Tokens Das Verhältnis der Types zu den Tokens soll dargestellt werden, um eventuelle Veränderungen in der Häufigkeit der Verwendung verschiedener Lemmata aufzuzeigen. Nachfolgend ist dieses Verhältnis in Bezug auf die drei Alterszeiträume dargestellt. Die Types- und Tokensanteile wurden hier anhand von Analysen der ungruppierten POS-Tags erfasst (Tabelle 6.5). 1281-1495 1496-1708 1709-1983 Types 528 1207 1236 Tokens 2916 12584 11315 Verhältnis Types/Tokens 0,18 0,10 0,11 Tabelle 6.5: Type-Token-Verhältnis in den Altersgruppen Das Verhältnis des ersten Untersuchungszeitraumes fällt im Gegensatz zur zweiten und dritten Untersuchungsperiode etwas höher aus (0,18 gegenüber 0,10 bzw. 0,11). Es gibt insgesamt aber viel weniger Tokens (2916) als in den beiden anderen Gruppen. Das Verhältnis der Types zu den Tokens beträgt 0,18. Im zweiten bzw. dritten Untersuchungszeitraum beträgt das Verhältnis 0,10 bzw. 0,11. An dieser Stelle kann nicht eindeutig festgelegt werden, ob der Tokens-Wert der ersten Gruppe gewertet werden sollte, weil die untersuchten 6.2. ALTERSGRUPPEN IM VERGLEICH 141 Abbildung 6.8: Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage Lemmata mengenmäßig unter denen der anderen beiden Gruppen liegen. Es wäre zum Beispiel möglich, dass selbst bei einer Tokens-Anzahl von >10000 in Gruppe 1 die Types-Anzahl gleich bzw. ähnlich bliebe. Wahrscheinlich wäre sie höher (und das Verhältnis der Types zu Tokens somit niedriger), doch das kann auf Basis der Datenlage nicht eindeutig gesagt werden. Bisher wurden lediglich alle Wörter und Lemmata zusammengefasst pro Gruppe betrachtet. Dies hat zur Folge, dass insbesondere bei den Inhaltswörtern (vor allem Nomen und Verben) Abweichungen in Anbetracht der Types auftreten, da diese je nach Verwendungshäufigkeit seltener gezählt werden (da jedes verschiedenartige Type nur einmal gezählt wird, unabhängig davon, welches Kind es äußerte), insgesamt aber der jeweils vollständigen Tokens-Anzahl (alle geäußerten Wörter) gegenübergestellt werden. Es ist zum einen denkbar, dass die Schwelle von 1281 bis 1495 Tagen zu 1496 bis 1708 Tagen eine Art Meilenstein darstellt, nach welchem sich die Komposition des Lexikons ändert. Dies sollte sich dann auch an der inhaltlichen Komposition bemerkbar machen. Zum anderen wäre denkbar, dass die Anzahl der beobachteten Kinder in der ersten Gruppe zu klein ist, um daraus tragfähige Schlüsse in Bezug auf die Komposition des Lexikons in dieser Altersgruppe zu ziehen. Interessant ist, dass dieses Ergebnis dem entspricht, was bereits Kauschke (1999) in ihrer Arbeit mit Ein- bis Dreijährigen prognostizierte ([Kauschke (1999)]). Die Autorin fand heraus, dass die Anzahl unterschiedlicher Wörter (Types) abhängig ist vom Alter der Kinder. Kauschke stellte in ihrer Studie ein exponentielles Wachstum im zweiten Lebensjahr fest. 142 KAPITEL 6. ANALYSE DER WORTARTEN Abbildung 6.9: Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage Im dritten Lebensjahr sei eine Abnahme zu verzeichnen, die sich schließlich in einem linearen Verlauf auszeichnet ([Kauschke (1999)], S. 141). Ähnlich verhalte es sich mit dem Anstieg der Verwendungshäufigkeit der Wörter (Tokens), welches mit dem Wachstumsmuster der Types vergleichbar sei. Demzufolge gibt es einen exponentiellen Anstieg im zweiten Lebensjahr und eine Abflachung dessen im dritten Lebensjahr (ebd., S. 141-142). Interessanterweise weist die von Kauschke ermittelte Type-Token-Ratio in jeder von ihr analysierten Altersgruppe ein anderes Verhältnis auf als die Type-Token-Ratio, die in dieser Arbeit ermittelt wurde. Die von ihr untersuchten Kinder im Alter von 13 Monaten, 15 Monaten, 21 Monaten und 36 Monaten zeigten ein Verhältnis von durchschnittlich 0,40 (ebd., S. 141). Hier ist aber unbedingt anzumerken, dass Kauschke jedes Kind zu jedem untersuchten Zeitpunkt in die Ermittlung der Type-Token-Ration einbezog und zudem eine viel geringere Anzahl an Tokens in die Analyse einbrachte. In der vorliegenden Arbeit wird es allerdings nicht möglich sein, jedes Kind in jedem der drei Zeiträume heranzuziehen, weil nicht jedes Kind in jedem Zeitraum interviewt wurde. Zudem ist nicht bekannt, mit welcher Methode Kauschke die Type-Token-Ratio ermittelte (Abschnitt 4.1). Auch dies kann erhebliche Unterschiede der Ergebnisse hervorrufen (vgl. Paragraph 4.1). Es ist ersichtlich, dass die hier beobachteten Kinder eine deutlich höhere Verwendungshäufigkeit im Hinblick auf die Types aufweisen. Interessant ist auch, dass die Werte in den drei Gruppen annähernd gleich sind, was auch Kauschke bereits prognostizierte, wobei sie sich eher auf Kinder in ihrer 6.2. ALTERSGRUPPEN IM VERGLEICH 143 individuellen Entwicklung bezieht: „Varianzanalysen zeigen, daß mit zunehmendem Alter keine bedeutsamen Veränderungen stattfinden (F (3,81 = 0,42, p = 0,743). Daraus kann geschlossen werden, daß das Verhältnis von Types zu Tokens gleich bleibt. Die lexikalische Vielfalt unterliegt also keinen entwicklungsbedingten Schwankungen, sondern bleibt relativ konstant (Mittelwerte 0.44, 0.40, 0.38- 0.42).“ ([Kauschke (1999)], S. 143-144) Nichtsdestotrotz sind die Werte in der vorliegenden Arbeit niedriger, wenn aber konstant. Eine mögliche Erklärung ist, dass die interviewten Kinder deshalb mehr Tokens aufweisen, weil sie sich in sehr spontanen Situationen befanden. Sie wurden in keiner Situation befragt, sondern konnten ihrem Spiel und ihren Gesprächen nachgehen. Vermutlich werden Lexeme in spontanen Situationen oft wiederholt verwendet, wodurch eine geringere Type-Token-Ratio entstehen kann. Eine Ermittlung der Type-Token-Ratio jedes einzelnen Kindes soll in dieser Arbeit nicht vorgenommen werden. Nach eingehender Betrachtung der Daten wird deutlich, dass jedes Kind in jeder Altersgruppe unterschiedlich viele Tokens äußerte. Zudem sind nicht in jeder Gruppe Daten von jedem Kind vorhanden. Eine erste Analyse, die ich an dieser Stelle nicht verschriftlich habe, zeigte, dass mit zunehmender Token-Anzahl eine geringere Type-Token-Ratio zu erwarten ist, unabhängig vom Kind und vom Alter. Weiterführende Analysen sind aufgrund der sehr geringen Datenlage an dieser Stelle meines Erachtens wenig aufschlussreich und sollen daher nicht unternommen werden. 6.2.4 Zusammenfassung Durch die Analyse und einen anschließenden Vergleich der drei Altersgruppen sollte ein eventuell auftretender Entwicklungsverlauf aufgezeigt werden. Aufgrund der hier angewandten Methodik der teilnehmenden Beobachtung kann ein Trend der Ergebnisse aufgezeigt werden, nicht aber Signifikanzen. Im Hinblick auf die Verwendungshäufigkeit der Wörter (Tokens) fiel auf, dass Konjunktionen (KON) im Verlauf von 3;5 bis 5;5 Jahren seltener gebraucht wurden, während bei den Personalpronomen (PPER) einen leichter Aufwärtstrend erkennbar ist. In Anbetracht der Verschiedenartigkeit der verwendeten Wörter (Types) gab es zwei Auffälligkeiten. Im Verlauf von 3;5 bis 5;5 Jahren wurden weniger unterschiedliche Präpositionen (APPR) gebraucht. Die auffälligste Entwicklung zeigte allerdings die Verwendung verschiedener Nomen (N). Während die Kinder in Gruppe 1 noch 30,5% 144 KAPITEL 6. ANALYSE DER WORTARTEN N in Bezug auf die Types verwendeten, waren es 40,5% in Gruppe 2 und 38,8% in Gruppe 3. Da dieses Ergebnis unerwartet auftrat, müsste in folgenden Arbeiten geprüft werden, ob es eventuell zu Situationen während des Spielens kam, in denen besonders viele verschiedene Nomen verwendet wurden und ob dies in Anhängigkeit vom Alter geschieht (siehe auch Abschnitt 6.4). Wie bereits erwähnt, wurde in dieser Arbeit nur mit spontanen Sprachdaten gearbeitet. Dadurch kann es zu Situationen kommen, in denen gehäuft ganz bestimmte Wortarten verwendet werden (müssen). Möglich wäre zudem, dass aufgrund der geringen Tokens-Anzahl in Gruppe 1 ein geringerer Type-Anteil bezüglich der Nomen ermittelt wurde. Von daher sollte bezugnehmend auf dieses Teilergebnis an dieser Stelle noch nicht von einer allgemeinen Entwicklungstendenz gesprochen werden. Es muss zudem beachtet werden, dass die hiesigen Prozentangaben erhöht sind, wenn POS-Tags zusammengefasst werden. Durch diesen Prozess entstehen geringere Types-Zahlen, während die Tokens-Anzahl unberührt bleibt. Bei den Nomen (NN) heißt das, dass auch Eigennamen (NE) in die zusammengefasste Kategorie Nomen (N) fallen, wodurch ein höherer prozentualer Anteil der Types entstehen kann. 6.3 Individuelle Unterschiede in den Altersgruppen In einem Folgeschritt wurden die Daten jedes der zwölf untersuchten Kinder einzeln analysiert. Dazu wurden die Daten eines jeden Kindes in jeder der drei Altersgruppen mit Hilfe des CA separiert und anschließend die Art und die Anzahl der jeweils vorkommenden POS-Tags mit den dazugehörigen Wörtern und Lemmata aufgelistet. Um beispielsweise die Anzahl aller Types und Tokens je Kind und Altersgruppe ausfindig zu machen, wurde die Funktion db_query_typetoken_lemma.sh des CA genutzt (Abschnitt 5.2.4.3). Durch die Ausführung der Skripte db_query_typetoken_lemma_name.sh und db_query_all_typetoken_lemma_name.sh (beide Skripte arbeiten zusammen) erfolgte die Abfrage der Types und Tokens. Dadurch wurden nicht nur - wie in der Abfrage db_query_all_typetoken_lemma.sh - alle Lemmata je POS-Tag abgefragt und sortiert nach den Altersgruppen in eine CSV-Datei geschrieben. Vielmehr ist bei dieser Abfrage zusätzlich der Name (als Kürzel) übergeordnet, wodurch innerhalb der Altersgruppen noch einmal eine Sortierung nach den Sprechern erfolgte. Wenn nun beispielsweise eine solche ausgegebene Datei geöffnet wird, zeigt sich folgendes Bild (Abbildung 6.10). Diese Grafik zeigt alle von JS geäußerten attributiven (ADJA) im Zeitraum 1709_1983, als JS sich also in einem Altersrahmen von über 4;7 bis 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 145 Abbildung 6.10: Beispiel: JS_lemmata_ADJA_1709_1983 5;5 Jahren befand. Die Ausgabe der CSV-Datei sieht sehr übersichtlich aus, wobei dennoch alle benötigten Informationen enhalten sind. In der untersten Zeile befindet sich die Gesamtanzahl der geäußerten Tokens (46), die Anzahl der Types beläuft sich auf 20 (bis zum Adjektiv weiß). Aufgelistet sind nur die Lemmata, weil die syntaktischen Wörter an dieser Stelle für die Zwecke dieser Arbeit zu wenig Informationen bieten.5 Zudem sind alle POS-Tags der Form ADJA aufgelistet, d.h., sie können auch inhaltlich beurteilt werden, wenn gewünscht. Ein weiteres Beispiel zeigt Abbildung 6.11, die alle von LEO geäußerten Nomen (NN) im Zeitraum 1709_1983 enthält. Nachdem diese Abfrage für alle Kinder in allen Altersgruppen und in Bezug auf alle POS-Tags unternommen wurde, erhielt man, wie zu erwarten war, aus Gruppe 1281 bis 1495 nur wenige Daten im Vergleich zu den anderen Gruppen. Der Hauptgrund dafür ist, dass innerhalb dieser Gruppe nur zwei Kinder analysierbar waren. Trotzdem wurden diese beiden Kinder in die Analyse mit einbezogen. Durch die Einzelanalysen entsteht - trotz der geringen Anzahl an Daten in dieser Gruppe - ein konsistentes Verteilungsbild, welches sich in das Muster der Gruppen 2 und 3 einfügt. In den unten stehenden Tabellen sind die Ergebnisse des Vorkommens der POS-Tags jedes Kindes in jeder Gruppe zusammengefasst. In der weiteren Analyse werde ich vorwiegend auf das Vorkommen der Nomen (N) und Verben (VA, 5 Die Wörter mit den dazugehörigen Lemmata können durch ein Ausführen des Skriptes db_query_all_lemma_tag.sh abgerufen werden. 146 KAPITEL 6. ANALYSE DER WORTARTEN Abbildung 6.11: Beispiel: LEO_lemmata_NN_1709_1983 VM, VV) sowie ansatzweise auf die Adverbien (ADV) und Partikeln (PTK) eingehen, da diese Kategorien den Hauptanteil aller Tags ausmachen. Zudem wird in der Literatur ebenso vorwiegend über das Vorkommen von Nomen und Verben berichtet, so dass ein abschließendes Resumee in Bezug auf vorhandene Quellen gezogen werden kann (z. B. [Kauschke (1999)]; [Kauschke (2007)]). 6.3.1 Gruppe 1281 bis 1495 In dieser Altersgruppe gab es lediglich zwei Kinder, die analysierbar waren. Die erste Vermutung war, dass eine Analyse aufgrund der geringen Anzahl der Tokens nicht möglich oder schwierig werden würde. Im weiteren Verlauf wurde aber deutlich, dass selbst mit diesen vergleichsweise wenigen Daten ein Ergebnis zu Tage tritt, welches mit dem anderer Altersgruppen in dieser Arbeit sowie auch mit den Ergebnissen anderer Arbeiten vergleichbar ist. Laut Kauschke (1999) kann der Wortgebrauch im zweiten Lebensjahr als ein prognostisches Mittel für den weiteren Verlauf der Sprachentwicklung genutzt werden ([Kauschke (1999)], S. 153). Für die Verteilung der Types ermittelte sie ein Vorkommen von 27% Nomen und 12% Verben bei 21 Monate alten Kindern. Im Alter von 36 Monaten kann der Anteil der Nomen mit 16% und 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 147 der Anteil der Verben mit 23% angegeben werden.6 ([Kauschke (1999)], S. 146 ff.) Es wird deutlich, dass die Daten der Kinder im Alter von 36 Monaten durchaus mit den Daten aller hier untersuchten Kinder in allen drei Altersgruppen in Bezug auf die eben genannten Kategorien vergleichbar sind. Insbesondere der von Kauschke ermittelte Anteil der Verben mit 23% bei den 36 Monate alten Kindern entspricht dem der hier untersuchten Kinder in jedem Alterszeitraum. Der ermittelte Anteil der Nomen liegt mit 16% durchschnittlich unter dem Nomenanteil, der in der vorliegenden Arbeit ermittelt wurde. Ferner gliedern sich die hier ermittelten Daten ein in das von Kauschke prognostizierte Erwerbsmuster hinsichtlich der Kinder im Alter von 21 Monaten. Dort heißt es, dass Nomen von Anfang an vorhanden sind und während des zweiten Lebensjahres anwachsen. Während des dritten Lebensjahres verwendet kein Kind mehr als 25% Nomen. Mit 15 Monaten treten erstmals Verben auf, die dann stark ansteigen und mit 3 Jahren den größten Anteil des Lexikons ausmachen ([Kauschke (1999)], S. 143 ff.). Tabelle 6.6 zeigt die Verteilung der gruppierten Tags von MA. Nomen (N) und Verben (VA, VM, VV) erscheinen mit 24,7% bzw. 22,4%, Adverbien (ADV) mit einer Häufigkeit von 9,0% bezogen auf die Types. Ein ähnliches Bild zeigt sich bei der Auswertung der Daten von MK (Tabelle 6.7). In Bezug auf die Types erscheinen Nomen (N) mit einer Häufigkeit von 27,1%, Verben (VA, VM, VV) mit einer Häufigkeit von 25,0% und Adverbien (ADV) mit einer Häufigkeit von 12,1%. In den folgenden Abschnitten (6.3.2; 6.3.3) wird deutlich, dass ein ähnliches Verteilungsmuster auch in den höheren Altersgruppen auftritt. Bei einer Betrachtung der Verteilung der Tokens, treten zum Teil Ergebnisse zu Tage, die in der Form nicht erwartet wurden. Der hohe Anteil an Nomen in Bezug auf die Types ist bei einer Betrachtung der Tokens nahezu verschwunden, während die Verteilung der Wortarten insgesamt bei einem Vergleich von Tokens zu Types nicht stark voneinander abweicht. Bei beiden hier untersuchten Kindern in Gruppe 1281 bis 1495 beträgt der Anteil der Types bei den Nomen mehr als doppelt soviel im Vergleich zu den Tokens. Ein höherer Type-Anteil ist zunächst nicht verwunderlich, aber in diesem Ausmaß nicht zu erwarten gewesen. Ähnliches kann in umgekehrter Form bei den Personalpronomen (PPER) beobachtet werden. Ein relativ geringer Type-Anteil steht einem hohen Token-Anteil gegenüber. Dies ist jedoch nicht weiter verwunderlich, weil es insgesamt betrachtet nicht viele verschiedene Personalpronomen im Deutschen gibt, die hätten verwendet werden können. Bei den Verben (VA, VM, VV) sind solch starke Effekte nicht zu verzeichnen. Der Tokens-Anteil ist bei beiden Kindern nur etwas geringer 6 Ein Vergleich der Daten zu den Adverbien mit denen Kauschkes war nicht möglich, da Kauschke diese Kategorie nicht analysierte. 148 KAPITEL 6. ANALYSE DER WORTARTEN als der Types-Anteil (20,4% gegenüber 22,4% bei MA und 21,3% gegenüber 25,0% bei MK). Tokens prozentual % Types prozentual % ADJ 38 6,8 22 12,4 ADV+PAV 58 10,3 16 9,0 APPR 7 1,2 5 2,8 ART 60 10.7 3 1,7 CARD 3 0,5 2 1,1 KON 38 6,8 4 2,2 N 59 10,5 44 24,7 PIDATS 11 2,0 5 2,8 PPER 57 10,2 6 3,4 PPOS 8 1,4 2 1,1 PREL 2 0,4 2 1,1 PTK 74 13,2 21 11,8 PW 19 3,4 4 2,2 VA 12 2,1 2 1,1 VM 12 2,1 4 2,2 VV 91 16,2 34 19,1 12 2,1 2 1,1 XY 561 178 Tabelle 6.6: MA: Verteilung der Types, gruppiert, 1281 bis 1495 6.3.2 Gruppe 1496 bis 1708 In dieser Altersgruppe bewegen sich die Anteile der Adverbien, Nomen und Verben bezogen auf die Types analog zu denen der Kinder in der ersten Altersgruppe. Das Vorkommen der Adverbien (ADV) bewegt sich in einer Spanne von 11,3% bis 12,9%, das Vorkommen der Nomen (N) in einer Spanne von 24,7% bis 35,0% und die Verben (VA, VM, VV) in einer Spanne zwischen 22,5% bis 24,3%. Der etwas höhere Anteil hinsichtlich der Nomen bei MK soll zunächst nicht überwertet werden. Bei einer genauen Analyse aller Tokens von MK wird deutlich, dass MK eine besonders große Vielfalt an Eigennamen (NE) im Spiel verwendet, die in dieser Auswertung zusammen mit den Nomen (NN) zur Kategorie N zusammengefasst sind (Abschnitt 6.1). Da MK besonders häufig in Spielsituationen beobachtet wurde, in denen es um die eigene Fantasie geht, finden sich hier besonders viele Wortschöpfungen wie Nemofischchen, Frühlingsfell oder Kriegsstürmer. Diese Nomen finden sich in der Form nicht in konventiellen Wörterbüchern (z. B. [Dudenredaktion (2004)]) wieder, wurden hier aber in ihrer Funktion als Nomen berücksichtigt. Eine andere Erklärung kann in Anlehung an Kauschkes (1999) Behauptung gemacht werden. Diese konstatiert, dass Kinder im 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 69 2,9 31 8,0 ADV+PAV 369 15,7 47 12,1 APPR 74 3,1 11 2,8 ART 198 8,4 3 0,8 CARD 23 1,0 9 2,3 ITJ 6 0,3 4 1,0 KON 197 8,4 11 2,8 N 205 8,7 105 27,1 PIDATS 142 6,0 11 2,8 PPER 226 9,6 7 1,8 PPOS 29 1,2 4 1,0 PREL 6 0,3 4 1,0 PTK 235 10 37 9,5 PW 25 1,1 5 1,3 VA 22 0,9 3 0,8 VM 78 3,3 5 1,3 VV 402 17,1 89 22,9 49 2,1 1 0,3 XY 2355 149 387 Tabelle 6.7: MK: Verteilung der Types, gruppiert, 1281 bis 1495 Alter von 3 Jahren hohe Unterschiede im Anteil der Nomen, Verben sowie relational words und personal-social-words aufweisen ([Kauschke (1999)], S. 150). Da es sich in dieser Altersgruppe in der vorliegenden Arbeit jedoch nur um ein Kind in einem festgelegten Zeitraum handelt, kann nicht mit Sicherheit von konstanten individuellen Unterschieden, die unabhängig von der Situation vorhanden sind, gesprochen werden. Dazu müssten weitere Probandinnen und Probanden in die Analyse mit einbezogen werden, die zudem über längere Zeiträume hinweg beobachtet werden. Im Hinblick auf die Verteilung der Tokens sind auch in dieser Gruppe ähnliche Ergebnisse zu beobachten, wie sie in Gruppe 1 aufgetreten sind. Die Gruppe der Personalpronomen (PPER) außer Acht gelassen, weisen die Nomen (N) in ihrer Verwendungshäufigkeit einen äußerst geringen Anteil auf im Gegensatz zu ihrer Verschiedenheit, in der sie verwendet wurden. Auch ist die Anzahl der Nomen (N) bei den Types bei jedem der vier Kinder mehr als doppelt so hoch im Vergleich zu den Tokens. Besonders auffällig ist die Verteilung bei MK: Mit einem Anteil von 6,7% in Bezug auf die Tokens sind es mit 35,0% mehr als fünfmal so viele Types. Dies kann - wie bereits oben erwähnt - mit Sicherheit als Ausreißer betrachtet werden. Doch gerade MK steuerte mit insgesamt 8706 Tokens einen hohen Anteil am gesamten Token-Satz der Daten bei und sollte nicht gänzlich außer Acht gelassen werden. Bei den Verben (VA, VM, VV), wie auch bei den restlichen Wortarten, verhält es sich wie in Gruppe 1 150 KAPITEL 6. ANALYSE DER WORTARTEN beschrieben und es gibt keine gravierenden individuellen Unterschiede in den Anteilen von Types gegenüber Tokens. POS-Tag Tokens prozentual % Types prozentual % ADJ 80 5,9 34 11,6 ADV+PAV 207 15,3 36 12,3 APPR 41 3,0 10 3,4 ART 104 7,7 3 1,0 CARD 21 1,6 8 2,7 ITJ 2 0,1 2 0,7 KON 93 6,9 9 3,1 N 103 7,6 72 24,7 PIDATS 60 4,5 12 4,1 PPER 173 12,8 7 2,4 PPOS 8 0,6 2 0,7 PTK 101 7,5 20 6,8 PW 27 2,0 5 1,7 VA 26 1,9 2 0,7 VM 52 3,9 7 2,4 VV 234 17,4 62 21,2 XY 16 1,2 1 0,3 1348 292 Tabelle 6.8: AV: Verteilung der Types, gruppiert, 1496 bis 1708 6.3.3 Gruppe 1709 bis 1983 In der letzten Altersgruppe sind mit einer Anzahl von zehn Kindern die meisten auswertbaren Daten vorhanden. Mengenmäßig unterscheidet sich die Token-Anzahl jedoch nur wenig von der vorhergehenden Gruppe - 12584 gegenüber 11315. Die Spanne des Vorkommens der Adverbien (ADV) bewegt sich zwischen 10,1% und 16,7%, die Spanne der Nomen (N) zwischen 16,7% und 30,7% und die Spanne der Verben (VA, VM, VV) zwischen 21,0% und 28,1% bezogen auf die Types. Auffällig ist hier die Gruppe der Nomen. Mit einem Vorkommen von 16,x% unterscheidet sich dieses Muster von denen der jüngeren Altersgruppen. Dieser geringe Wert kommt in zwei von zehn Fällen vor (LUA, SO) bzw. nur ein wenig höher mit 18,x% bei drei Kindern (AV mit 18,0%, JK mit 18,1% und LAR mit 18,8%). Aus diesem Grund kann meines Erachtens an dieser Stelle nicht mehr von Ausreißern gesprochen werden. Ein möglicher Grund wäre jener, dass die Anzahl der auswertbaren 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 41 3,9 27 9,4 ADV+PAV 152 14,6 33 11,5 APPR 58 5,6 14 4,9 ART 121 11,6 3 1,0 CARD 6 0,6 3 1,0 ITJ 2 0,2 2 0,7 KON 79 7,6 11 3,8 N 123 11,8 79 27,5 PIDATS 53 5,1 12 4,2 PPER 93 8,9 5 1,7 PPOS 12 1,1 2 0,7 PREL 7 0,7 4 1,4 PTK 56 5,4 18 6,3 PW 13 1,2 4 1,4 VA 9 0,9 2 0,7 VM 33 3,2 6 2,1 VV 174 16,7 60 20,9 12 1,1 2 0,7 XY 1044 151 287 Tabelle 6.9: LEO: Verteilung der Types, gruppiert, 1496 bis 1708 Tokens dieser Kinder zu gering war. Ähnlich geringe Werte weisen jedoch auch andere Kinder mit einem höheren prozentualen Nomenanteil auf, so dass eine leichte Veränderung der Verteilung der Wortarten hinsichtlich der Nomen ab einem Alter von 1709 Tagen angenommen werden kann. Bei einer Betrachtung der Tokens fällt auf, dass auch hier die Gruppe der Nomen besonders hervorsticht. Während bei den Types noch immer relativ hohe Anteile von bis zu 30,7% zu verzeichnen sind, liegt er bei den Tokens weit darunter und ist vergleichbar mit jenem der vorhergehenden Altersgruppen. Dennoch sind Types-Anteile bezüglich der Nomen zu verzeichnen, die mit einem geringen Prozentsatz von ca. 16% bis 18% auf eine allmähliche allgemeine Veränderung in der Komposition des Lexikons hinweisen. Bei den Verben sowie allen weiteren Wortarten sind keine Besonderheiten erkennbar.7 6.3.4 Vergleich der individuellen Verläufe mit den Altersgruppen Nach den bisherigen Analysen der vorliegenden Daten wird ersichtlicht, dass die Daten aus Abschnitt 6.2 nicht ohne Weiteres vergleichbar sind mit den Ergebnissen aus Abschnitt 6.3. Sieht man sich die Verteilung der Wortarten 7 Ausgenommen sind an dieser Stelle die Personalpronomen (PPER), die, wie oben erläutert, nie einen bestimmten Type-Anteil überschreiten können. 152 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 34 2,3 18 5,8 ADV+PAV 213 14,3 40 12,9 APPR 66 4,4 11 3,5 ART 137 9,2 3 1,0 CARD 25 1,7 15 4,8 ITJ 5 0,3 3 1,0 KON 77 5,2 7 2,3 N 159 10,7 81 26,0 PIDATS 84 5,7 14 4,5 PPER 161 10,8 7 2,3 PPOS 26 1,7 2 0,6 PREL 7 0,5 4 1,3 PTK 123 8,3 29 9,3 PW 15 1,0 6 1,9 VA 30 2,0 2 0,6 VM 51 3,4 5 1,6 VV 256 17,2 63 20,3 17 1,1 1 0,3 XY 1486 311 Tabelle 6.10: LUA: Verteilung der Types, gruppiert, 1496 bis 1708 aller Kinder insgesamt in den jeweiligen Altersgruppen an, so können starke Abweichungen bei einzelnen Kindern in den Altersgruppen verzeichnet werden. Eine plausible Erklärung dafür sind individuelle Unterschiede im Wortgebrauch, insbesondere in der Verwendung verschiedener Nomen. Zudem weisen die Kinder als Individuum voneinander abweichende Type-Token-Ratios auf. Die Verwendung verschiedender Wörter ist also individuell sehr unterschiedlich. Betrachtet man nun die Daten aller Kinder einer Altersgruppe zusammenhängend und ermittelt eine Type-Token-Ratio sowie eine Verteilung der Wortarten, dann kommt es zu einer starken Vermischung der individuellen Besonderheiten. Im Folgenden soll dies an einem Beispiel illustriert und im Hinblick auf Tabelle 6.3 die Ergebnisse für die Gruppe 1496 bis 1708 betrachtet werden. In dieser Gruppe befinden sich vier analysierbare Kinder (AV, LEO, LUA und MK). Für einen einfachen Vergleich soll das prozentuale Vorkommen der Nomen (N) und Verben (VA, VM, VV) herangezogen werden. Tabelle 6.3 zeigt, dass Nomen mit einer Häufigkeit von 7,7% (40,5% Types) und Verben mit einer Häufigkeit von 21,4% (22,6% Types) in Gruppe 1496_1708 vorkommen. Hier wurden alle vier Kinder berücksichtigt, unabhängig von der Gesamtanzahl ihrer Tokens oder Types und unabhängig von der individuellen Type-Token-Ratio. Die Type-Token-Ratio in der Gruppe 1496 bis 1708 betrug übrigens ca. 0,10. Eine Betrachtung der Verteilung der Wortarten und insbesondere das 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 325 3,7 90 11,1 ADV+PAV 1603 18,4 91 11,3 APPR 309 3,5 20 2,5 ART 763 8,8 3 0,4 CARD 125 1,4 13 1,6 FM 2 0 2 0,2 ITJ 29 0,3 8 1,0 KON 648 7,4 17 2,1 N 586 6,7 283 35,0 PIDATS 428 4,9 21 2,6 PPER 912 10,5 7 0,9 PPOS 72 0,8 5 0,6 PREL 42 0,5 7 0,9 PTK 810 9,3 50 6,2 PW 120 1,4 6 0,7 VA 93 1,1 3 0,4 VM 305 3,5 7 0,9 VV 1422 16,3 174 21,5 XY 112 1,3 1 0,1 8706 153 808 Tabelle 6.11: MK: Verteilung der Types, gruppiert, 1496 bis 1708 Vorkommen von Nomen und Verben (bezogen auf die Types) bei jedem Kind separat liefert folgende Ergebnisse: • AV: Nomen 24,7%, Verben 24,3% • LEO: Nomen 27,5%, Verben 23,7% • LUA: Nomen 26,0%, Verben 22,5% • MK: Nomen 35,0%, Verben 22,8% Diese Daten entsprechen annähernd den Ergebnissen, die in bisherigen Untersuchungen diesbezüglich gefunden wurden, wenn auch der Anteil der Nomen relativ hoch ist. Es wurde bereits erwähnt, dass ähnliche Resultate in Untersuchungen von Kauschke (1999, 2000, 2007) zu finden sind. Demzufolge weisen Kinder im Alter von 3 Jahren einen Anteil von 16% Nomen und 23% Verben auf (bezogen auf die Types) ([Kauschke (1999)]; [Kauschke (2000)]; [Kauschke (2007)]). Der recht hohe Anteil an Nomen in der vorliegenden Arbeit kann zunächst nicht erklärt werden, es sollen jedoch in Abschnitt 6.4 einige Erklärungsansätze folgen. Ferner soll an dieser Stelle ein Blick auf die Daten von MK geworfen werden, insbesondere auf die Nomen. Zusätzlich sollen die von MK geäußerten Nomen im Zeitraum 1281_1495 hinzugezogen werden, um herauszufinden, ob der hohe Nomenanteil 154 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 4 1,9 3 3,4 ADV+PAV 22 10,6 9 10,1 APPR 13 6,3 7 7,9 ART 15 7,2 3 3,4 CARD 3 1,4 2 2,2 KON 15 7,2 4 4,5 N 22 10,6 16 18,0 PIDATS 4 1,9 3 3,4 PPER 36 17,3 4 4,5 PPOS 2 1,0 2 2,2 PTK 14 6,7 6 6,7 PW 6 2,9 4 4,5 VA 6 2,9 2 2,2 VM 10 4,8 3 3,4 VV 34 16,3 20 22,5 2 1,0 1 1,1 XY 208 89 Tabelle 6.12: AV: Verteilung der Types, gruppiert, 1709 bis 1983 von 35,0% personenabhängig ist (Daten aus Gruppe 1709_1983 zu MK liegen nicht vor). Ein erster Blick lässt vermuten, dass es sich nicht um die Eigenheiten einer Person handelt, denn im Zeitraum 1281_1495 machten Nomen (N) einen Anteil von 8,7% aller von MK geäußerten Tokens aus, wovon 27,1% Types waren. In der unten stehenden Übersicht sind alle von MK geäußerten Nomen in zwei Zeiträumen aufgeführt, geordnet nach Alphabet und versehen mit der Anzahl ihres Vorkommen. • Nomen von MK im Zeitraum 1281_1495: auto (6), bahn (2), bauch (3), bauernhof (2), baumspitze (1), baustein (1), baustelle (1), bettchen (1), boden (2), bogen (1), brot (1), bruder (2), burg (1), butzemann (2), drachentier (1) edelstein (3), ei (1), eingang (1), elefant (1), eltern (3), erzieher (1), essen (1), feuer (1), freund (2), garten (1), geburtstag (1), gefängnis (2), geld (2), glas (1), gold (2), happs (1), haufen (1), haus (1), hause (2), idee (3), igel (1), jahr (2), kakaopulver (1), kanone (2), karte (5), ketchup (1), kette (1), kind (4), kindergarten (4), kissen (1), kontrolle (1), krach (1), kraftwerk (3), kralle (1), leiter (1), mai (1), mal (1), mama (2), mensa (1), mensch (4), milch (1), minute (2), müllauto (2), murmel (2), mutter (1), papa (4), pfeil (1), pferd (2), räuber (6), räuberkind (6), rauchen (1), regenbogen (1), richtungswechsel (2), ritterburg (5), sache (2), sandkasten (1), schachtel (1), schatz (4), schippe (2), schmetterling (1), schraube (1), schuld (1), schwester (1), schwimmbad (1), schwimmbecken (1), schwimmerbecken (2), schwimmhalle (1), 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 35 6,2 13 7,8 ADV+PAV 69 12,2 24 14,5 APPR 9 1,6 5 3,0 ART 47 8,3 2 1,2 CARD 20 3,5 9 5,4 ITJ 11 1,9 4 2,4 KON 21 3,7 5 3,0 N 46 8,1 30 18,1 PIDATS 31 5,5 11 6,6 PPER 73 12,9 4 2,4 PPOS 1 0,2 1 0,6 PREL 1 0,2 1 0,6 PTK 57 10,1 14 8,4 PW 8 1,4 5 3,0 VA 7 1,2 1 0,6 VM 28 4,9 4 2,4 VV 89 15,7 32 19,3 14 2,5 1 0,6 XY 567 155 166 Tabelle 6.13: JK: Verteilung der Types, gruppiert, 1709 bis 1983 soldat (1), spielzeugtag (1), stapel (1), stein (1), strafkarte (2), sturm (2), tiger (1), tobeland (3), toilette (1), tor (1), trampolin (1), turm (8), uno (14), vater (1), verwandte (1), vorschüler (1), wasser (1), wolf (3) zahl (2), zaun (1), zigarette (1) • Nomen von MK im Zeitraum 1496_1708: abfluss (1), affe (1), afrika (1), anfang (6), anführer (1), angreifer (1), angst (1), aquarium (2), ärger (2), aussetzer (2), auto (4), baby (3), babyseerobbe (1), backe (1), ball (4), banane (1), bauernhof (1), becken (1), beispiel (9), benzin (2), beschützer (2), bild (1), blatt (2), blume (4), brett (1), bruder (1), buch (2), bücherregal (1), clown (1), dach (1), delfinmama (1), ding (1), dino (1), dinomama (1), dinowelt (2), drachen (2), ecke (1), edelstein (2), ei (1), eisenbahn (1), eltern (1), ende (2), erzieherin (1), farbe (3), feder (2), feinlöwe (1), feld (1), fell (4), fernbedienung (2), fernsehturm (1), feuer (10), feuerwehrauto (1), figur (4), film (1), fisch (4), fleisch (1), flieger (1), flur (1), freund (2), frisbee (2), frühling (1), frühlingsfell (2), fuß (1), fußball (10), fußballer (1), gans (1), gebiet (1), geburtstag (2), geld (1), geschichte (1), giftgurke (1), glatze (1), gleichgewicht (2), grütze (1), gurke (1), haar (3), haken (1), hand (2), haufen (2), haus (2), hause (19), helflöwe (1), herz (1), hexe (1), hilfe (1), hinweis (1), hof (4), höhe (1), höhle (1), holz (1), hose (1), hubschrauber (2), hut (2), 156 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 94 4,0 44 8,5 ADV+PAV 343 14,4 72 13,9 APPR 98 4,1 14 2,7 ART 183 7,7 3 0,6 CARD 83 3,5 13 2,5 ITJ 20 0,8 13 2,5 KON 171 7,2 13 2,5 N 237 10,0 146 28,2 PIDATS 88 3,7 15 2,9 PPER 294 12,4 7 1,4 PPOS 23 1,0 5 1,0 PREL 13 0,5 5 1,0 PTK 175 7,4 39 7,5 PW 25 1,1 5 1,0 VA 46 1,9 3 0,6 VM 86 3,6 7 1,4 VV 371 15,6 110 21,2 28 1,2 3 0,6 XY 2378 517 Tabelle 6.14: JS: Verteilung der Types, gruppiert, 1709 bis 1983 idee (1), imbiss (1), jagd (1), jahr (1), kanone (1), käpt_n (2), karte (4), käse (3), käsekugel (1), käsewurst (1), kasten (1), katze (1), ketchup (1), kind (1), kindergarten (2), kino (1), klappe (1), klebeding (1), klebstoff (1), kleid (2), knopf (1), knoten (1), kopf (3), körbchen (1), kralle (1), kreuz (11), krieg (8), kriegsstürmer (3), küche (1), küken (1), länge (1), laser (11), leinenstoff (1), leiter (1), leuchtturm (1), linie (1), loch (2), löwe (3), lust (1), lutscher (1), mal (5), mama (2), mannschaft (5), maske (1), mauer (1), memo (1), memory (5), mensch (6), mikrofon (1), mitte (3), montag (1), morgenkreis (1), muschel (1), nemofischchen (1), nummer (1), oma (1), opa (1), ordner (1), osterei (1), papa (6), papier (1), papierrolle (2), pfannkuchen (1), pferdekutsche (1), pirat (1), piratenschiff (1), piratenspiel (1), pistole (4), plan (3), platz (1), polizei (1), punkt (4), quatsch (1), rabe (1), rad (3), rand (1), reh (1), reihe (1), richtungswechsel (4), riesenstapel (3), ritze (1), ruhe (3), runde (6), rutsche (2), salzbrezel (1), schere (2), schießgerät (1), schiff (3), schlafen (1), schnabel (1), schnee (2), schneeballschlacht (1), schraube (1), schritt (2), schuld (3), schule (1), schwein (1), schwester (3), schwimmhalle (1), schwimmkurs (1), see (1), seerobbe (2), seil (3), seite (3), senf (1), sohle (1), sommer (1), spatzenkino (1), spiegel (1), spiel (8), spielsachen (1), spielzeug (2), spinner (1), spirale (1), spitze (1), spree (1), stabheuschrecke (2), stadion (1), stapel (3), stern (3), stift (3), stock (1), straße (1), streifen (1), strich 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 50 4,5 19 8,3 ADV+PAV 186 16,6 34 14,8 APPR 19 1,7 7 3,1 ART 66 5,9 3 1,3 CARD 46 4,1 9 3,9 ITJ 5 0,4 5 2,2 KON 58 5,2 8 3,5 N 66 5,9 43 18,8 PIDATS 45 4,0 12 5,2 PPER 154 13,7 6 2,6 PPOS 8 0,7 2 0,9 PREL 3 0,3 3 1,3 PTK 121 10,8 25 10,9 PW 15 1,3 4 1,7 VA 7 0,6 1 0,4 VM 50 4,5 7 3,1 VV 207 18,4 40 17,5 16 1,4 1 0,4 XY 1122 157 229 Tabelle 6.15: LAR: Verteilung der Types, gruppiert, 1709 bis 1983 (4), stunde (1), tank (4), tankwasser (1), tante (1), teil (1), tier (1), tisch (2), tischspiel (1), tor (1), totenkopf (2), training (3), tuch (1), tür (1), turm (1), uboot (1), uhr (1), uno (18), verstecke (1), vogel (8), vogelhäuschen (1), vogelnest (1), vorschau (1), waage (3), wachtmeister (1), waffe (2), wärme (4), wasser (1), weg (1), welt (1), winter (10), winterfell (1), wochenende (1), wohnung (2), wolke (2), wünscher (3), würfel (5), wüste (1), zahn (1), zauber (2), zauberfeuer (1), zauberlaser (1), zauberstab (4), zeichen (1), zeit (1), zoo (1), zoowärter (2) Anhand der vorliegenden Inhalte kann zunächst nur schwer ein Grund für die hohe Type-Anzahl im Zeitraum 1496_1708 ausgemacht werden. Einige Lemmata treten mit einer leicht erhöhten Häufigkeit auf, wie zum Beispiel Feuer (10), Fußball (10), Hause (19), Kreuz (11), Krieg (8), Spiel (8), Uno (18), Winter (10). Diese Nomen kommen zwar zum Teil auch im Zeitraum 1281_1495 vor, jedoch selten derart häufig. Es fällt zudem auf, dass viele der sehr häufig auftretenden Nomen (aber auch seltener geäußerte) in einer Spielsituation geäußert wurden. Dies lässt ein Blick in die entsprechenden EXMARaLDA-Dateien sowie in die entsprechenden Kontextbeschreibungen vermuten. Man könnte nun annehmen, dass sich der Type-Anteil mit einem steigenden Token-Anteil aller Wörter ebenso erhöht und bei den meisten hier untersuchten Kindern ist dies auch der Fall. Es gibt jedoch Ausnahmen, die 158 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 10 5,3 9 8,3 ADV+PAV 22 11,6 14 12,8 APPR 12 6,3 5 4,6 ART 15 7,9 3 2,8 CARD 5 2,6 3 2,8 KON 15 7,9 4 3,7 N 30 15,9 25 22,9 PIDATS 5 2,6 4 3,7 PPER 20 10,6 5 4,6 PPOS 3 1,6 3 2,8 PREL 1 0,5 1 0,9 PTK 5 2,6 5 4,6 PW 1 0,5 1 0,9 VA 6 3,2 2 1,8 VM 3 1,6 3 2,8 VV 33 17,5 21 19,3 XY 3 1,6 1 0,9 189 109 Tabelle 6.16: LEO: Verteilung der Types, gruppiert, 1709 bis 1983 diese These wieder ins Wanken bringen. So weist LL in Gruppe 1709_1983 einen recht hohen Nomenanteil (N) von 30,7% bezüglich der Types auf bei nur 1175 geäußerten Nomen. In Relation zur Gesamtanzahl der geäußerten Wörter weist kein anderes Kind einen derart hohen Type-Anteil auf. Dennoch können anhand der vorliegenden Daten keine Zusammenhänge zwischen Tokenanzahl, Alter der Kinder, Geschlecht und dem Type-Anteil bezüglich der Nomen hergestellt werden. Bestenfalls ist eine leichte Tendenz zu erkennen, nach der der Type-Anteil mit zunehmendem Alter abnimmt. Vielmehr macht es jedoch den Anschein, dass die unterschiedlichen Nomenanteile an verschiedene Situationen gebunden sind, was in Abschnitt 6.4 näher betrachtet werden soll. Interessant ist zudem ein Vergleich mit sehr altem Datenmaterial von Templin (1957). Sie untersuchte bereits im Jahre 1957 die Struktur des Wortschatzes bei 480 Kindern im Alter von 3 bis 8 Jahren, indem sie die den aktiven Wortschatz testete. Dazu wurde zum einen die Anzahl der Types in 50 Äußerungen betrachtet und zum anderen die Leistungen in Lautunterscheidungstests überprüft ([Templin (1957)], S. 30-33; siehe auch [Kegel (1987)], S. 57). Templin verwendete neun Wortklassen und eine gemischte Klasse. Zu den neun Wortklassen zählten Substantive, Verben, Adjektive, Adverbien, Pronomen, Konjunktionen, Präpositionen, Artikel, Interjektionen. Die gemischte Klasse enthielt u. a. Eigennamen, 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 39 3,3 16 5,3 ADV+PAV 107 9,1 33 11,0 APPR 34 2,9 10 3,3 ART 69 5,9 3 1,0 CARD 46 3,9 7 2,3 FM 6 0,5 2 0,7 ITJ 17 1,4 7 2,3 KON 51 4,3 7 2,3 N 161 13,7 92 30,7 PIDATS 37 3,1 12 4,0 PPER 157 13,4 6 2,0 PPOS 18 1,5 3 1,0 PREL 3 0,3 2 0,7 PTK 125 10,6 28 9,3 PW 11 0,9 4 1,3 VA 22 1,9 3 1,0 VM 28 2,4 5 1,7 VV 224 19,1 57 19,0 XY 20 1,7 3 1,0 1175 159 300 Tabelle 6.17: LL: Verteilung der Types, gruppiert, 1709 bis 1983 unverständliche Ausdrücke etc.8 Templin kam zu folgenden Ergebnissen in Bezug auf das Vorkommen der Nomen und Verben (hinsichtlich der Types): • 3 Jahre: 25,5% Nomen, 23,4% Verben • 3;5 Jahre: 23,8% Nomen, 24,1% Verben • 4 Jahre: 24,2% Nomen, 24,0% Verben • 4;5 Jahre: 25% Nomen, 23,3% Verben • 5 Jahre: 23,7% Nomen, 23,9% Verben ([Templin (1957)], S. 101). Ferner setze bereits mit 3 Jahren eine Stabilisierung der Wortklassenverteilung ein, wobei nur schwache Alterstrends zu beobachten sind ([Templin (1957)]). Dem kann in Anlehnung an die Ergebnisse der vorliegenden Arbeit nur entsprochen werden. Noch erstaunlicher ist allerdings das recht ähnliche Ergebnis in der Verteilung der Wortarten Nomen und Verb zu jenem der vorliegenden Arbeit. Sowohl in den Daten Templins (1957) als auch in den Daten der vorliegenden Arbeit tauchen Nomen und Verben mit einer Häufigkeit 8 In dieser Arbeit gibt es für Eigennamen sowie für unverständliche Ausdrücke eigene Kategorien, NE und XY. Da es sich angesichts der Datenlage nur um recht wenige Tokens innerhalb der Kategorie NE handelt, soll trotzdem ein kurzer Vergleich mit Templins Ergebnissen vorgenommen werden. 160 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 21 5,4 17 10,5 ADV+PAV 56 14,3 27 16,7 APPR 21 5,4 7 4,3 ART 21 5,4 3 1,9 KON 25 6,4 4 2,5 N 39 10,0 27 16,7 PIDATS 15 3,8 7 4,3 PPER 49 12,5 6 3,7 PPOS 11 2,8 2 1,2 PREL 2 0,5 2 1,2 PTK 35 9,0 13 8,0 PW 7 1,8 4 2,5 VA 2 0,5 2 1,2 VM 16 4,1 6 3,7 VV 69 17,6 34 20,9 2 0,5 1 0,6 XY 391 162 Tabelle 6.18: LUA: Verteilung der Types, gruppiert, 1709 bis 1983 von je ca. 25% auf, unabhängig vom Alter (bzw. nach dem dritten Lebensjahr). Zwar gibt es einige Ausnahmen, wie z. B. MK mit 35,0% Nomen, doch können derart hohe Werte bei einer Analyse der tatsächlich geäußerten Wörter vermutlich mit der Verwendung vieler verschiedener Nomen in bestimmten Situationen, wie Spielsituationen, erklärt werden (siehe auch Abschnitt 6.4). Laut Templin (1957) stellen die ermittelten Werte eine beträchtliche Überlegenheit von Kindern aus der oberen Mittelschicht gegenüber Kindern aus unteren Schichten dar. Vor allem in Anbetracht der Tatsache, dass die hier untersuchten Kinder aus einem akademischen Umfeld kommen, kann angenommen werden, dass die hier ermittelten Werte mit den Daten von Templin vergleichbar sind. Sie lassen zudem vermuten, dass die Verteilung der Wortarten ab 3 Jahren recht stabil ist (siehe auch [Oksaar (1997)]). Es kann trotzdem noch nicht eindeutig gesagt werden, ob die Ergebnisse dem entsprechen, was Kauschke (1999) postulierte, nämlich: „Nomen sind von Anfang an vorhanden und wachsen insbesondere während des zweiten Lebensjahres an. [...] Mit drei Jahren verwendet kein Kind mehr als 25% Nomen.“ ([Kauschke (1999)], S. 144) und „Mit 15 Monaten tauchen erstmals Verben auf, die dann erheblich ansteigen und mit 3 Jahren den stärksten Anteil am Lexikon ausmachen. ([Kauschke (1999)], S. 145) 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 193 4,8 42 8,0 ADV+PAV 513 12,7 64 12,2 APPR 114 2,8 14 2,7 ART 278 6,9 3 0,6 CARD 100 2,5 13 2,5 ITJ 16 0,4 6 1,1 KON 229 5,7 12 2,3 N 504 12,5 160 30,6 PIDATS 167 4,2 20 3,8 PPER 492 12,2 7 1,3 PPOS 44 1,1 4 0,8 PREL 14 0,3 6 1,1 PTK 397 9,9 46 8,8 PW 45 1,1 6 1,1 VA 42 1,0 3 0,6 VM 159 3,9 6 1,1 VV 677 16,8 110 21,0 44 1,1 1 0,2 XY 4028 161 523 Tabelle 6.19: MM: Verteilung der Types, gruppiert, 1709 bis 1983 Die erste Aussage trifft nicht zu, was die Ergebnisse dieser Arbeit zumindest hinsichtlich des Vorkommens der Types anbelangt. Allerdings können die Ergebnisse nicht exakt verglichen werden, da jeweils andere Methoden verwendet wurden. Unzutreffend ist an dieser Stelle auch die zweite Aussage, nämlich, dass Verben mit 3 Jahren den stärksten Anteil am Lexikon ausmachen. Vielmehr nehmen die Verben neben den Nomen sowohl hier als auch in Templins Ergebnissen einen großen Anteil am Lexikon bei Kindern im Vorschulalter ein (ca. 25% Nomen und ca. 22% bis 25% Verben) ([Templin (1957)], S. 101). Weiterhin fällt auf, dass die Anteile der Adverbien (ADV+PAV) und Partikeln (PTK) durchgehend recht hoch sind. Selbstverständlich ist es nicht leicht, Resultate aus Studien mit jüngeren Kindern (z. B. [Szagun (2008)]; [Kauschke (1999)]; [Kauschke (2007)]), bei denen beispielweise der Anteil der Funktionswörter recht hoch ist, zu vergleichen, da die Klassifikation der Wortarten eine andere sein könnte. Folglich ist der Anteil der Funktionswörter bei den hier untersuchten Kindern im Alter von 3;5 bis 5;5 Jahren noch immer hoch, wenn man die entsprechenden Klassen der Funktionswörter zusammenfasst. Nichtsdestotrotz ist das Vorkommen der Adverbien prägnant, was auf eine Veränderung in der Struktur des Wortschatzes hinweisen könnte. Insgesamt wird deutlich, dass für eine Annäherung an die Komposition des Lexikons bezüglich der Verteilung der Wortarten 162 KAPITEL 6. ANALYSE DER WORTARTEN POS-Tag Tokens prozentual % Types prozentual % ADJ 33 4,4 22 8,5 ADV+PAV 76 10,1 33 12,7 APPR 33 4,4 10 3,8 ART 73 9,7 3 1,2 CARD 18 2,4 11 4,2 FM 2 0,3 2 0,8 ITJ 2 0,3 2 0,8 KON 30 4,0 6 2,3 N 95 12,6 61 23,6 PIDATS 32 4,2 8 3,1 PPER 88 11,7 5 1,9 PPOS 12 1,6 2 0,8 PREL 1 0,1 1 0,4 PTK 73 9,7 23 8,8 PW 12 1,6 5 1,9 VA 21 2,8 3 1,2 VM 19 2,5 5 1,9 VV 128 17,0 56 21,6 XY 6 0,8 1 0,4 754 259 Tabelle 6.20: RD: Verteilung der Types, gruppiert, 1709 bis 1983 eher die Daten der einzelnen Kinder in den jeweiligen Altersgruppen herangezogen werden sollten, da diese aussagekräftiger sind. Bei der Auswertung der gesamten Token-Anzahl in einer Altersgruppe, die mehrere Sprecher/innen umfasst, kommt es durch die individuellen Unterschiede zu recht uneinheitlichen Ergebnissen. Der Versuch, die Lemmata je Gruppe allgemein auszuwerten, wurde trotzdem unternommen, um eine Annäherung an die allgemeine Struktur des Wortschatzes bei Kindern im Vorschulalter zu gewinnen. Versuche dieser Art gibt es einige und viele scheiterten an der Individualität des Wortschatzes sowie der spezifischen Wortartenverteilung der Probandinnen und Probanden. Bereits Kegel (1987) versuchte sich diesem Problem zu nähern. Er differenzierte zunächst die Erforschung des aktiven und des passiven Wortschatzes. Demnach wurde der aktive Wortschatz bisher vor allem durch Experimente zu erforschen versucht. Doch ob ein Kind in Experimenten ein Wort äußert, sei abhängig von vielen Faktoren, so Kegel. Gleichtzeitg würden Kriterien, nach denen ein Wort als verstanden bewertet werden kann oder nicht, unterschiedlich streng bewertet werden. Eine weitere Schwierigkeit stellen Variationen im Aufbau von Wortschatzuntersuchungen dar, wodurch man zu unterschiedlichen quantitativen Angaben gelangt. Ebenso bedauerlich sei die Tatsache, dass eine Strukturierung des Wortschatzes lediglich mit Fallstudien auszuwerten 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN POS-Tag Tokens prozentual % Types prozentual % ADJ 33 6,6 16 9,3 ADV+PAV 68 13,5 23 13,3 APPR 9 1,8 4 2,3 ART 20 4,0 3 1,7 CARD 8 1,6 5 2,9 ITJ 2 0,4 2 1,2 KON 20 4,0 7 4,0 N 45 8,9 29 16,8 PIDATS 28 5,6 10 5,8 PPER 69 13,7 6 3,5 PPOS 6 1,2 2 1,2 PTK 71 14,1 23 13,3 PW 7 1,4 4 2,3 VA 6 1,2 2 1,2 VM 22 4,4 5 2,9 VV 84 16,7 31 17,9 XY 5 1 1 0,6 503 163 173 Tabelle 6.21: SO: Verteilung der Types, gruppiert, 1709 bis 1983 ist, so Kegel ([Kegel (1987)], S. 49). An dieser Stelle wird deutlich, dass vor allem das Untersuchen des passiven Wortschatzes eine Herausforderung darstellt, da nur sehr schwer bewertet werden kann, wann und ob ein Kind ein Wort tatsächlich verstanden hat. Bisher ist mir keine Arbeit bekannt, die die gesamte Struktur des Wortschatzes, sei es bei Kindern oder bei Erwachsenen, abschließend in einer experimentellen Studie untersucht hat. Wie bereits festgestellt wurde, ist dies nur schwer bis gar nicht möglich. Eine Untersuchung, die den gesamten aktiven und passiven Wortschatz eines Individuums erfassen will, setzt unterschiedliche Schritte voraus, die zum jetzigen Zeitpunkt nicht erfüllbar sind. Es müsste zunächst der gesamte passive Wortschatz erfasst werden, was weder experimentell noch durch Beobachtungen, Befragungen, Wortlisten etc. möglich wäre. Selbst wenn es gelingen würde, zumindest den aktiven Wortschatz zu einem gegebenen Zeitpunkt eines Individuums zu erfassen, würde doch der passive Wortschatz niemals erfasst werden können. Doch die Annahme durch Fragebögen zum Wortverständnis und durch andere Tests sei es möglich den passiven Wortschatz zu ermitteln, wirft einige Fragen auf. Rechnerisch gesehen könnte so vielleicht ein Großteil der verstandenen Lexeme erreicht werden, aber was ist mit Wörtern wie Feinlöwe oder wurstig? Diese Wörter gibt es - laut Duden - nicht im Wortschatz der deutschen Sprache ([Dudenredaktion (2004)]). Dennoch ist die Bedeutung je nach Kontext verständlich. Und genau hier liegt 164 KAPITEL 6. ANALYSE DER WORTARTEN meines Erachtens das Problem bei der Ermittlung des passiven Wortschatzes. Sprache ist wandelbar, sie verändert sich ständig und ist Teil der gegebenen kognitiven Fähigkeiten. Dadurch ist Sprache nie stetig, sondern kontinuierlich und ein passiver Wortschatz könnte allenfalls in Referenz zu etwas anderem stehen, beispielweise das Deutsche im Vergleich zum Duden, und nur für einen gegebenen Zeitpunkt erfasst werden. Es ist leicht vorstellbar, welchen Aufwand dies bedeutet. Wahrscheinlich ist das ein Grund dafür, dass es eine solche Erfassung bisher nicht gibt. Zu diesem Schluss gelangte auch Kegel (1987) und stellte fest, dass lediglich nicht-experimentelle Studien zur Untersuchung des Wortschatzes herangezogen werden können. In Längsschnittstudien einzelner Kinder könnte zum Beispiel die Produktion und Perzeption kontinuierlich protokolliert werden. Ein Nachteil wäre, dass ein solches Verfahren keine statistisch auswertbaren Daten liefern würde und dies wiederum keine verallgemeinernde Interpretation der Ergebnisse möglich macht ([Kegel (1987)], S. 50). Eine andere Möglichkeit bieten sogenannte Wortschatztests ([Smith (1926)]). Am erfolgreichsten ist laut Kegel (1987) die Untersuchung eines begrenzten Zieles, wie zum Beispiel eine Verfolgung der Verteilung der Wortklassen, wobei größere Passagen laufender Rede analysiert werden (ebd.). Dies wurde in der vorliegenden Arbeit getan und bestätigt. Die bisherigen Ergebnisse anderer Autoren sowie die Annahmen von Kegel (1987) zeigen, dass eine andere Vorgehensweise zur Erfassung des kindlichen Wortschatzes sowie zur Beurteilung der Verteilung von Wortklassen (bisher) nicht möglich ist. In Abschnitt 6.4 werden in einem nächsten Schritt nicht die Gesamtdaten der hier untersuchten Kinder berücksichtig, sondern nur die ersten einhundert gesprochenen Wörter je Kind. Mir ist bewusst, dass einhundert Wörter ein vermutlich zu kleines Korpus darstellen, um daraus verallgemeinernde Schlüsse abzuleiten. Dennoch soll dieser Schritt unternommen und in Bezug zu den bisherigen Ergebnissen dieser Arbeit gesetzt werden. 6.3.5 Zusammenfassung Durch eine Betrachtung der Wortarten gemäß der STTS (hier vorliegend in gruppierter Form) wurde zunächst ein Überblick über die Verwendung und Verteilung der Wortarten bei jedem Kind in jeder Altersgruppe geschaffen. Auffällig war, dass die Verteilung in den Gruppen sowie bei einem Vergleich aller Kinder (egal welchen Alters) sehr ähnliche prozentuale Anteile aufweist. Dabei ist es egal, ob ein Kind im gesamten Aufnahmezeitraum sehr viele oder nur sehr wenige Tokens zu den Aufnahmen beisteuerte. Die wenigsten Wörter finden sich bei LEO in Gruppe 3 mit 189 Tokens. Die meisten Wörter 6.3. INDIVIDUELLE UNTERSCHIEDE IN DEN ALTERSGRUPPEN 165 äußerte MK in Gruppe 2 mit 8706 Tokens. Bei beiden Kindern sieht die Verteilung der Wortarten prozentual betrachtet ähnlich aus, bis auf den hohen Anteil an Nomen bezogen auf die Types bei MK. Ein Vergleich mit anderen Kindern, die vergleichsweise viele Tokens äußerten, zeigt, dass niedrigere Werte bei den Nomen (N) ebenso anzutreffen sind (z. B. JS in Altersgruppe 1709_1983 mit 28,2% Nomen bei insgesamt 2378 Tokens). Wie bereits weiter oben beschrieben, ist der Anteil der Nomen in Bezug auf die Tokens bei allen Kindern in allen Altersgruppen sehr viel niedriger als in Bezug auf die Types. Das ist äußerst interessant, weil für die Ausführungen in dieser Arbeit bisher nur Vergleichsdaten von Kindern bis zu einem Alter von 36 Monaten vorliegen (z. B. [Kauschke (1999)]) und diese zwar einen ähnlichen, wenn auch qualitativ anderen Unterschied aufzeigen. Bei Kindern im Alter von 36 Monaten ermittelte Kauschke (1999) auf der Basis von 6411 Tokens einen Anteil von 11% Nomen bezogen auf die Tokens und einen Anteil von 16% Nomen bezogen auf die Types. In der vorliegenden Arbeit ist der Anteil der Tokens durchaus mit den von Kauschke ermittelten Daten vergleichbar. Was die Types angeht, kann das nicht behauptet werden. Im Grunde können die sehr abweichenden Werte in dieser Arbeit nicht durch eine abweichende Methodik bzw. durch die Wahl der Kategorisierung zu Stande gekommen sein (obgleich eine andere Methodik zugrunde liegt), weil ansonsten bereits die Token-Anteile abweichende Werte zu Tage hätten bringen müssen. Vielmehr kann an dieser Stelle angenommen werden, dass Kinder ab einem Alter von 3;5 Jahren bis zu einem Alter von 5;5 Jahren (und vermutlich auch darüber hinaus) einen sprachlichen Entwicklungsschritt durchlaufen, der in der Verwendung vieler verschiedener Nomen resultiert und sich in einem erhöhten Type-Anteil äußert. Um diese These zu stützen, müssten allerdings noch weitere Analysen vorgenommen werden. Ferner ist zu beobachten, dass extrem hohe Type-Anteile bei den Nomen oft bei einer hohen Token-Anzahl vorzufinden sind, wobei jedoch kein ursächlicher Zusammenhang behauptet werden kann. Eine Inhaltsanalyse der Sprachdaten der Kinder kann hilfreich sein, um die hiesigen Ergebnisse zu stützen. Ferner würden Vergleichsdaten von Kindern, die sich zum Zeitpunkt der Datenerhebung nicht im Kindergarten befanden, hilfreich sein. Denn es ist nicht eindeutig feststellbar, ob die Umgebung in der Kita eine übergeordnete Rolle gespielt hat. Wichtig festzuhalten ist zudem, dass im gesamten Verlauf von 3;5 bis 5;5 Jahren keine bedeutenden Veränderungen in der Verteilung der Wortarten bei Kindern feststellbar waren, weshalb davon auszugehen ist, dass die Anteile im Wesentlichen so erhalten bleiben oder aber sich nur langsam in eine abweichende Richtung entwickeln. Die von Kauschke angeführte These, dass der Spracherwerb im 2. Lebensjahr als ein prognostisches Mittel für den 166 KAPITEL 6. ANALYSE DER WORTARTEN weiteren Verlauf der Sprache genutzt werden kann ([Kauschke (1999)], S. 153), kann insbesondere erweitert werden um folgende These: Der Spracherwerb im 3. Lebensjahr kann als ein prognostisches Mittel für den weiteren Verlauf der Sprachentwicklung verwendet werden. Vor allem die Verteilung der Verben, sowohl in Bezug auf die Types als auch auf die Tokens ist vergleichbar mit 36 Monate alten Kindern und bleibt über den Zeitraum von 3;5 bis 5;5 Jahren nahezu unverändert erhalten. 6.4 Analyse der ersten einhundert Wörter je Kind In diesem Abschnitt soll untersucht werden, ob die geäußerten Wörter jedes Kindes, unabhängig vom Alter, den vorgehenden Ergebnissen entsprechen. Diese Analyse kann deshalb vorgenommen werden, weil die Ergebnisse in Abschnitt 6.3 andeuten, dass es ab einem Alter von 3 Jahren keine großen Unterschiede in der Verteilung der Wortarten gibt bzw., dass geringfügige Unterschiede (vor allem im Hinblick auf die Types) von der individuellen Situation, nicht aber vom Alter abhängen. Es wurde lediglich festgestellt, dass es mit zunehmendem Alter vermutlich zu einer Reduktion des Nomenanteils bezogen auf die Types kommt, da die Anteile in der dritten Altersgruppe bei fünf Kindern (AV: 18,0%, JK: 18,1%, LAR: 18,8%, LUA: 16,7%, SO: 16,8%) unter 19% lagen im Gegensatz zu den Vergleichsgruppen. Dieser leichte Abwärtstrend müsste weiter untersucht werden, um bestätigt werden zu können. Denn insbesondere bei diesen fünf Kindern waren auch die Tokens-Anteile niedriger als bei Kindern, die besonders hohe prozentuale Nomen-Anteile aufweisen, so dass nicht ausgeschlossen werden kann, dass die Tokens-Anzahl einen entscheidenden Einfluss auf die Types-Anzahl hat. Im Folgenden sind die ersten einhundert gesprochenen Wörter (Tokens) jedes Kindes aufgeführt. Da diese Tokens aus ihrem ursprünglichen Kontext extrahiert wurden, sind diese fernab der cGAT-Transkriptionsregeln, wie sie in den FOLKER-Dateien angewendet wurden, aufgeschrieben. Es wird lediglich das Ende einer Äußerung durch // gekennzeichnet. Alle Wörter (sowie die dazugehörigen Lemmata, POS-Tags und Bedeutungskategorien) befinden sich in der SQLite3-Datenbank des CA sowie in gesonderten Dateien9 . Des Weiteren sind alle Situationsbeschreibungen der einzelnen Aufnahmedaten in einer Tabelle in Abschnitt 4.1.1 zusammengefasst. 9 Hierzu zählen sowohl die erstellten EXMARaLDA-Dateien sowie alle Ausgabedateien im CSV-Format, die im Zuge der Analyse unter der Anwendung des CA entstanden sind. 6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 167 Detailliertere Beschreibungen befinden sich zudem in den Protokollen, die während bzw. kurz nach den Aufnahmesituationen angefertigt wurden. AV: ich mag spielen // auf deinen schoß // nee // sehr sehr lange // ist deiner von zu hause // ist das deiner von zu hause // aber wir haben auch ’ne kleine schokolade // äh erst aus schokolade // und was ist das // das blau // blau passt mehr // nein kannst du nehmen wie // ((unverständlich)) // wenn du wenn dann nimm rot // ich spiele nicht mehr mit // ich guck nur zu // dann darfst du nochmal die alle // und glaube ich // da // deck da mal auf // so schlafmütze // das muss nee lila ist das // das muss so die lila in der mitte sein // nur nochmal // drei // du // aber das andere LEO: oder schnecke machen // laterne // ich gehe mit meiner laterne und meine laterne mit mir // da oben leuchten die sterne und unten leuchten wir // mein licht geht aus // wir gehen nach haus // rabimmelrabammelrabumm // und gibt es auch die // haben immer verschiedene farben manche // guck mal was ich kann // ich kann was schönes malen // willst du mich nachmachen // ich male was schönes // das ist ein geheimnis // ein geheimnis darf man nicht sagen // male ich aber in einer anderen farbe // das sieht aber ähnlich aus // hm dunkler // und ich kann schon mit ein mit ein schere ganz alleine schneiden // nein kann man trotzdem LAR: LAR // viereinhalb // ja // wow // ((unverständlich)) // viele fahrt mit die ubahn // ich bin ein krümelmonster weil ich wieder krümel // muss man strafkarten // und jetzt darf ich das // ich das // ich hab schon // guck mal eins zwei drei vier fünf // jetzt bin ich // äh doch // guck mal // eins zwei drei vier fünf // geht nicht // geht nicht // ich wollte // und wir haben ganz wenig hier // geht nicht // wieder geht nicht // MM // ich musste noch ne karte // ich habe gerade nicht geklingelt // jetzt hab ich strafkarten // ich hab mich // aber du bist dran // jetzt hat julia nur drei // ich hatte schon // eh_eh geht gar LL: MM du sollst gewinnen // MM gut gemacht // MM soll gewinnen // das schmeckt nicht // auf der rechten seite // da_ha // zwei // kannst du mit mir mitkommen // hier // babies // hier schlafen ganz viele krippenkinder // ja_a ganz mittel // nach dem schwimmen ist immer müde // denn schlaf ich immer im bus ein // ich glaub ich muss mir die tür zumachen // wo soll ich denn vielleicht // ist er hier irgendwo // warum äh // wo ist die birne // birne bitte // hm // ist da traktor // ist da ist da schwein // wo ist den schwein // schwein // schwein ist da// männchen ist da // ((unverständlich)) // ja schmetterling ling // da_a // hau_e sonst sind LUA: sie zieht auch um // ich habe ne große und ne kleine bauernhof // spielen wir // ich habe hier einen ritter // ich habe hier ein ritterteil // ja was ist das denn // ich kenne mich gut mit pferden aus // ich kenn // ich kann nämlich ganz gut // ich kenn mich gut mit pferden aus // und mit einer decke und einem und einem sattel // na weil weil ich mit meiner cousine die heißt laura // aber das ist nicht die aus dem kindergarten // die heißt laura ne // ja // und die laura meine cousine // die cousine ist von mir // die die kennt sich auch gut mit pferden MA: drei // ja // aber // ((unverständlich)) geboren // nee der große bruder // die ganze welt // diesmal male ich ne krone // na die prinzessin // ja und auch den froschkönig // na aus der kita ein buch // gibt es aber // aber eigentlich kommt jetzt der vogel hier lang geflogen // hm // aber ich hab nicht gesehen // noch einer // da // ja // da siehst du // der ist da am fenster // oh // jetzt ist er weggeflogen // schwarz // ((unverständlich)) am kopf // na die amseln // äh länger // guck mal so // ja // da da da // aber ich war doch fertig // aber jetzt nicht // ich // weißt du was ich malen kann // äh ich kann MK: nur mit meinen freunden // mit meinem papa // ja // und mit meiner mama // mit meinem bruder // ((unverständlich)) // mit dem bruder // ((unverständlich)) // na ins tobeland // na toben // na ein tobeland ist zum toben // ja // und draußen war so // da // ein ähm // ein äh trampolin // na einfach viel mehr sachen als sonst // so viel kann ich gar nicht erzählen // ja // alle meine freunde // meine verwandten // ja // sogar zwei // einen in den kindergarten und einen bei den // hm ja // und einen bei äh tobeland // zwei // stimmt // und guck mal // hier kommen // muss man ein bisschen festhalten weil dann // es bewegt sich doch die kette MM: ich habe aber mehr als du // nochmal // ich möchte anfangen // ich war schneller // hattest nur ein bisschen // ein bisschen deine hand // das geht aber nicht mehr // ich verteile die // die rutscht ein bisschen von dem tisch weg // äh // schon lange // ja // sie studiert schon // ich bin ganz papa // der erzählt mir gar nichts // und ich habe noch einen kleinen bruder // der ist in der krippe // den kindergarten // äh ein jahr // weißt wie er heißt // ((unverständlich)) // manchmal // aber ich kann schon gut schlafen // ich schlaf jetzt bei den eltern // ich habe die letzte karte // weißt du wer da gerade spricht // LL 168 KAPITEL 6. ANALYSE DER WORTARTEN JK: wer bist du // wer bist du // äh ja // ein groß großen bruder und eine kleine schwester // ich bin schon vier // und ich bin JK // sechs // ich will nur // ich will nur einen blauen // eins // ich will ein grünes papier // und eigentlich // eigentlich muss das // musst du das haben weil du der doch der profi bist // na gut // dann bin ich der profi // ich habe null neun sechs gemacht // hallo // jetzt muss der papiermaschine kommen // wie heißt du // hallo julia // äh JK // äh du musst paar blätter holen // blätter müssen wir holen // äh grüne // eins // nein // tschüs // hallo hallo papiermaschine // ich JS: graben ganz tiefe löcher // ja // wir mögen nicht dass sie uns küssen // deswegen machen wir für sie ne falle // das mögen wir nicht so // die stühle komme hier als festung // die kommt dahin falls wir die noch brauchen // in der krippe // in der krippe haben wir uns kennengelernt // nein RD // RD schau mal // wir graben nur hier // hier zu diesem geraden strich // ((unverständlich)) // und das ist der holzeimer // hier kommen die ganzen holzteile und porzellan // hier ist der eimer wo das ganze porzellan reinkommt // und holz kommt in deinen eimer RD // und in meinen porzellan aber man muss gut aufpassen RD: ja // ja damit // wir bauen ne stolperfalle für die mädels weil die küssen uns immer und das mögen wir nicht // JS noch ein stuhl // meine jacke die // darf ich auch meine jacke ausziehen // mir ist nämlich ziemlich heiß // wo der bereich ist müssen wir aufpassen // ((unverständlich)) // eine falle damit die hier nicht rangehen // das erste holzstück // prima schau mal wie viel holz der kleine findus schon hat // darum hackt findus holz // hä komisch // eine muschel // ich hatte schwimmen // viele zutaten für meinen kuchenteig // ja ich habe // macht kimba im film // der macht da den kuchen und setzt sich da drauf SO: äh weiß ich nicht // ich fahr // ich fahr mit der ubahn // MM du machst ((unverständlich)) so viel auf den kopf // falsch // strafkarten // noch mir eine LAR // doch // hier liegt die doch oder LAR // jetzt haben wir zu wenig // nee hier geht es doch // oh // so viele // geht nicht // ich und LAR // nee_e // weil du es hm am besten kennst // doch // eins zwei drei vier fünf // muss ich // muss MM // wir müssen auch mal spielen // aber ich habe auch so wenig // ja // da muss man auch schneller sein // hab noch so wenig // sind alle weg // jetzt hab ich ((unverständlich)) keine mehr Was nach einer ersten Durchsicht der geäußerten Tokens recht überprüfbar erscheint, ist der sehr unterschiedliche Anteil der Nomen an sich. Aus diesem Grund sollen die ersten einhundert Tokens losgelöst von ihrer Wortartenzugehörigkeit betrachtet und dahingehend überprüft werden, ob anhand inhaltlicher Gegebenheiten auf die Verwendung von mehr bzw. weniger Nomen geschlossen werden kann. Im Folgenden werden die erkennbaren Situationen entweder einer Erzählsituation oder einer Spielsituation10 zugeordnet. Zu einer Erzählsituation gehören folgend alle nicht-fiktiven Gespräche des Kindes, sowohl mit der Interviewerin als auch mit anderen Kindern. Dies betrifft alle Unterhaltungen, die nicht aus einem Spiel mit fiktiven Charakteren heraus entstanden sind. Unter einer Spielsituation werden im Folgenden alle Gegebenheiten, in denen das jeweilige Kind allein oder mit anderen Kindern ein Spiel spielt, verstanden. Die Spiele können real (Karten-, Brett-, Puppen-, Autospiele) oder fiktiv (Fantasiespiele, bei denen Kinder in die Rolle einer anderen Figur schlüpfen) sein. • AV: Bei den ersten einhundert geäußerten Wörtern handelt es sich eindeutig um eine Erzählsituation mit der Interviewerin. Lediglich ab dem 74. Wort ist eine angedeutete Spielsituation erkennbar. AV spielt jedoch nicht selber, sondern fordert die Interviewerin auf, Karten eines Kartenspiels aufzudecken. 10 Die Begriffe Erzählsituation und Spielsituation sind von mir eingeführte Bezeichnungen. Es ist möglich, dass die Begriffe in anderen Arbeiten alternativ verwendet werden. 6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 169 • LEO: Bis zu Wort 33 singt LEO ein Lied („Ich gehe mit meiner Laterne“). Darauffolgend handelt es sich eindeutig um eine Erzählsituation mit der Interviewerin. LEO erzählt, dass er schon gut malen und mit einer Schere schneiden kann. Außerdem erklärt er, was ein Geheimnis ist. • LAR: Die Situation bei LAR ist nicht eindeutig zu umschreiben. Einerseits befindet sie sich im Spiel (Halli Galli) mit weiteren Kindern. Andererseits kommt es (zumindest während dieser geäußerten einhundert Tokens) nicht wirklich zu einer Spielsituation. Der inhaltliche Hauptbestandteil ist eher ein Streitgespräch, in dem es darum geht, wer als nächstes an der Reihe ist und wer wie viele Karten gezogen hat. Aus diesem Grund kann diese Situation durchaus als Erzählsituation beschrieben werden, da sie am Rande eines Spiels stattfindet. • LL: Die ersten einhundert geäußerten Wörter von LL können sowohl einer Erzähl- als auch einer Spielsituation zugeordnet werden. Die gesamte Situation findet während eines Spiels statt, wobei LL in der ersten Hälfte mit der Interviewerin spricht. Später (ab Wort 57) beteiligt sich LL auch am Spiel, was durch die Verwendung von Nomen, die als Elemente zum Spiel gehören, deutlich wird (mehrfache Äußerung der Nomen Birne, Traktor, Schwein, Schmetterling, die auf den Karten eines Memory-Spiels abgebildet sind). • LUA: LUA befindet sich mit der Interviewerin in einer Erzählsituation. Auffällig sind gehäufte Wiederholungen in den hier geäußerten Passagen. Ob diese einen Einfluss auf die Anteile und schließlich auf die Verteilung der Wortarten haben, kann nicht abschließend beurteilt werden. Da die Wiederholungen jedoch nicht standardmäßig bei LUA auftreten (im Vergleich zu allen von LUA geäußerten Tokens), ist davon auszugehen, dass diese keinen Einfluss auf die Verteilung der Wortarten haben. • MA: Die ersten einhundert geäußerten Wörter gehören zu einer Erzählsituation zwischen MA und der Interviewerin. MA erzählt, was sie gleich malen möchte und beschreibt eine Situation, in der ein Vogel draußen am Fenster sitzt. • MK: MK erzählt von den Erlebnissen seines Geburtstages. Es handelt sich demnach um eine Erzählsituation. • MM: MM befindet sich zwar gerade in einem (Karten-)Spiel. Es geht jedoch vorwiegend darum, wer schneller war und wer die Karten verteilt. 170 KAPITEL 6. ANALYSE DER WORTARTEN Später berichtet MM von ihrem kleinen Bruder. Aus diesem Grund kann die Situation eher als Erzähl-, denn als Spielsituation bezeichnet werden. • JK: JK befindet sich in einer Spielsituation mit weiteren Spielern. Zwischenzeitlich sucht er häufig das Gespräch mit der Interviewerin. Er erzählt zudem von seinen Geschwistern und er spricht darüber, wie alt er ist. Von daher kann die Situation nicht eindeutig eingeordnet werden. • JS: JS befindet sich (zusammen mit RD) eindeutig in einer Spielsituation draußen im Garten der Kita. Sie spielen ein Fantasiespiel, in dem sie eine Festung bauen mit einem Graben und anderen Elementen. Die dazugehörige Konversation spielt sich in dieser konstruierten Situation ab. Bevorzugte Nomen sind Falle, Festung, Löcher etc. • RD: RD befindet sich in der oben geschilderten Situation mit JS. Das Vokabular entspricht dem eben genannten. Zusätzlich finden sich bei RD Eigennamen von Gestalten aus Kinderbüchern und -filmen (Findus, Kimba). • SO: Dem Inhalt der ersten einhundert Tokens nach zu urteilen, befindet sich SO in einem Spiel zusammen mit anderen Kindern. Da es jedoch zu einem Streit darüber kommt, welches Kind wie viele Karten bekommt und welches Kind wann an der Reihe ist, entsteht gar kein Spiel. Demnach kann die Situation eher einer Erzählsituation zugeordnet werden. In den meisten Fällen war es eindeutig, die Gegebenheiten einer konkreten Situation zuzuordnen. Sicherlich ist es möglich, je nach Bedarf die Situationen weitaus detaillierter im Rahmen einer Gesprächsanalyse zu beschreiben. Das war jedoch nicht Gegenstand dieser Arbeit. Nach der Analyse der ersten einhundert syntaktischen Wörter ergaben sich zwei eindeutige Spielsituationen (JS und RD), eine Gegebenheit, die beiden Situationen zugeordnet werden kann (LL) und eine nicht zuordenbare Situation (JK). Alle anderen Kinder befanden sich bei der Äußerung der Wörter in einer Erzählsituation. In Bezug zum Vorkommen der Nomen fällt auf, dass besonders dann ein hoher Anteil an Nomen verzeichnet werden kann, wenn die Kinder in einem Spiel waren. Bei JS sind 18% der ersten einhundert Wörter Nomen, bei RD 21% und bei LL 18%. Bei allen anderen Kindern liegt der Anteil deutlich unter 18%11 . Dies ist nicht verwunderlich, da im Spiel besonders viele Nomen in Form von (Eigen-)namen verwendet wurden (Fantasiefiguren, Namen von Objekten und Tieren in Kartenspielen). 11 Die hier aufgeführten prozentualen Anteile beziehen sich auf die ersten einhundert syntaktischen Wörter je Kind. Die Werte sind nicht gesondert in einer Tabelle aufgeführt. 6.4. ANALYSE DER ERSTEN EINHUNDERT WÖRTER JE KIND 171 Befanden sich Kinder in einer sogenannten Erzählsituation, verwendeten sie (zumindest in der vorliegenden Arbeit) tendenziell weniger Nomen, da diese scheinbar zur Beschreibung von Situationen weniger notwendig sind. Nicht festzustellen ist ein Zusammenhang zwischen der Verwendung von Nomen und Verben in den genannten Situationen. So verwendeten Kinder, die einen hohen Anteil an Nomen aufweisen, nicht weniger Verben als Kinder mit einem geringen Nomenanteil. Auch ist der Anteil der Verben bei Kindern mit einem hohen Nomenanteil nicht höher als bei Kindern mit einem niedrigen Nomenanteil. Ein Vergleich mit dem Nomen- und Verbenanteil unabhängig vom Alter des Kindes aus Abschnitt 6.3 zeigt, dass es keinen Zusammenhang gibt zwischen dem gesamten Anteil der geäußerten Nomen und Verben (sowie auch den restlichen Wortarten) jedes Kindes. Demnach weisen JS, RD und LL nicht durchgehend einen überdurchschnittlich hohen Anteil an Nomen auf. Folglich können die Ergebnisse aus diesem Abschnitt auf die jeweilige Situation, in der sich das Kind während der Äußerung der Wörter befand, zurückgeführt werden. In Spielsituationen wurden demzufolge tendenziell mehr Nomen verwendet als in Erzählsituationen. Damit kann der generell höher ermittelte Nomenanteil in der vorliegenden Arbeit im Gegensatz zu anderen Arbeiten (z.B. [Kauschke (2007)]; [Kauschke (1999)]; [Kauschke (2000)]) vermutlich erklärt werden. Die Aufnahmen, die der Analyse dieser Arbeit zugrunde liegen, wurden durchgehend in einer Kita erhoben. In der Kita gibt es zwar ein tägliches Programm, dem die Kinder folgen (Morgenkreis, gemeinschaftliches Basteln, Gruppenausflüge, Mittagessen, gemeinsame Lernspiele mit den Betreuerinnen), doch befand sich die Interviewerin während der Datenerhebung fast ausschließlich in Situationen, in denen die Kinder die Möglichkeit zur freien Gestaltung hatten. Dementsprechend kam es vermehrt zu Gesprächen zwischen Kind und Interviewerin. Fast noch häufiger beobachtete die Interviewerin zwei oder mehr Kinder beim Spiel. Wie eben beschrieben sind die hier ermittelten Spielsituationen häufig durch einen hohen Anteil an Nomen in der Sprachverwendung gekennzeichnet. Die Gesamtanalyse dieser Arbeit liefert dementsprechend einen insgesamt höheren Nomenanteil als in anderen Arbeiten zu diesem Thema, die die zu analysierenden Daten in einem Labor erhoben haben. Es bleibt die Frage, welche Ergebnisse die Realität adäquater widerspiegeln. Fakt ist, dass sowohl bei Aufnahmen im Labor als auch in der Kita niemals ein vollständiges Abbild der Wortartenverteilung eingefangen werden kann. Die Situationen im Labor sind in jedem Falle konstruierter und oft durch Fragen oder Vorgaben initiiert. In der Kita gingen die Kinder ihrem Alltag nach, ohne konstruierten Anweisungen der Versuchsleiterin zu folgen. Dies zog nach sich, dass ein höherer Nomenanteil verzeichnet wurde, der 172 KAPITEL 6. ANALYSE DER WORTARTEN vermutlich aus gehäuften Spielsituationen resultiert. Im Grunde besteht das Leben der meisten Vorschulkinder zu einem großen Teil aus dem Spiel (egal ob freies oder initiiertes Spiel). Dies sollte bei allen Analysen den Wortschatz von Kindern betreffend berücksichtigt werden. 6.5 Die Wortartenverteilung bei Erwachsenen An dieser Stelle soll ein möglicher Einfluss der Erwachsenensprache auf das Lexikon von Kindern im Alter von 3;5 bis 5;5 Jahren untersucht werden. Leider sind zum Zeitpunkt der Erstellung dieser Arbeit keine weiteren Analysen in Bezug auf die Wortartenverteilung von Erwachsenen bekannt als jene, die Kauschke (2007) in Abschnitt 2.3.3 erwähnt ([Kauschke (2007)]). Deshalb sollen diese Daten als Bezugsmaterial für die hier ermittelten Daten herangezogen werden. Wie eben erwähnt, untersuchte Kauschke (2007) den Input, den die in ihrer Studie zur Ermittlung der Wortartenverteilung ([Kauschke (1999)]; [Kauschke (2000)]) analysierten Kinder von ihren Eltern erhielten. Der untersuchte Input basierte auf einem informellen und ungesteuerten Gespräch zwischen zwei Erwachsenen (zumeist Müttern der Kinder). Von den ersten 1000 Wörtern waren 319 Types. Kauschke beschreibt lediglich das Vorkommen der Verben und Nomen; weitere Wortarten werden in den Ausführungen nicht erwähnt. Verben treten im Hinblick auf die Types mit 18,5% auf, Nomen mit 19%. Bei den Tokens waren es 16,3% Verben und 9% Nomen ([Kauschke (2007)], S. 132). Zunächst soll ein Vergleich zu den Daten aus Abschnitt 6.2 angeführt werden. Es handelte sich um eine Analyse der drei Altersgruppen. Ich beziehe mich an dieser Stelle nur auf das Vorkommen der Nomen und Verben, da keine weiteren Wortarten für einen Vergleich zur Verfügung stehen. In Gruppe 1 (1281_1495) kamen im Hinblick auf die Types Nomen mit 30,5% und Verben mit 23,7% vor. In Gruppe 2 (1496_1708) traten Nomen mit 40,5% auf, Verben mit 22,6%. In Gruppe 3 (1709_1983) machten Nomen einen Anteil von 38,8% aus, Verben einen Anteil von 22,9%. Unter der Annahme, dass die Daten Kauschkes verlässlich sind, können nur zum Teil Parallelen des Nomen- und Verblexikons von Erwachsenen zum Lexikon von Kindern im Alter von 3;5 bis 5;5 Jahren angenommen werden. Nomen nahmen bei den Kindern in allen Gruppen einen höheren Anteil ein als es bei erwachsenen Sprecherinnen und Sprechern der Fall ist. Auffällig ist, dass der Anteil der Verben in den drei Altersgruppen annähernd gleich bleibt, während der Anteil der Nomen in den Ergebnissen der vorliegenden Arbeit in Gruppe 2 und 3 stark erhöht ist. Das Vorkommen von Nomen und Verben bezogen auf die Tokens ergab 6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN 173 folgende Daten: In Gruppe 1 erschienen Nomen mit 9,1% und Verben mit 21,2%. In Gruppe 2 kamen Nomen mit 7,7% vor, Verben mit 21,4%. In Gruppe 3 traten Nomen mit einem Anteil von 11,0% auf, Verben mit einem Anteil von 22,1%. Hier fällt auf, dass über den gesamten Zeitraum der Aufnahmen hinweg (Gruppe 1 bis 3) die Anteile von Nomen und Verben annähernd gleich blieben. Auch ein Vergleich mit den Daten Kauschkes gibt Anlass dazu anzunehmen, dass die Verteilung der Nomen und Verben in Bezug auf die Tokens bei den hier untersuchten Kindern im Alter von 3;5 bis 5;5 Jahren in etwa der Verteilung der von Kauschke (2007) geprüften Erwachsenen entspricht ([Kauschke (2007)]). Nach längeren Überlegungen erscheint es fast logisch, dass die Rechnung im Hinblick auf die Types nicht mehr aufgeht. So ist es meines Erachtens nicht verwunderlich, dass Kinder im Vorschulalter einen höheren Anteil an verschiedenartigen Nomen verwenden als Erwachsene. Es wurde festgestellt, dass gerade in Spielsitutationen mehr Nomen verwendet wurden als in Erzählsituationen. Die Aufnahmen in einem Kindergarten sind zudem prädestiniert für das Auftreten von Spielsituationen und einem daraus resultierenden höheren Anteil an verschiedenen Nomen (Abschnitt 6.4). Diese Vermutungen werden gestützt von Jampert (2002), die das Sprachverhalten von Kindern im Kindergarten unter sozialwissenschaftlichen Gesichtspunkten untersuchte. Jampert fand heraus, dass ein Vergleich von Außen- und Innenaktivitäten der Kinder ergab, dass das Sprachverhalten der Kinder im Freien ungezwungener abläuft und die Kinder draußen mehr miteinander sprechen ([Jampert (2002)], S. 158). Dies unterstreicht die Vermutung, dass Kinder im freien Spiel ein anderes Sprachverhalten an den Tag legen als in einer Situtation, in der sie sich im Labor (oder anderswo) mit einem Erwachsenen im Gespräch befinden. Das freie Spiel in den Innenräumen kann durchaus mit dem Spiel draußen im Garten verglichen werden, da es in den Aufnahmesituationen in beiden Fällen kein Programm gab und sich die Kinder größtenteils ohne den Einfluss der Erzieherinnen bewegen konnten. Jampert (2002) begründet das abweichende Sprachverhalten damit, dass Kinder durch wenig strukturierte Angebote ihre Kreativität, zu der auch die sprachliche Kreativität gehört, verstärkt einbringen. Zudem ermögliche der Kontakt zu Kindern aus anderen Gruppen gemeinsame Aktivitäten mit neuen Gesprächspartnern ([Jampert (2002)], S. 158). Im Folgenden sollen nun die Daten eines jeden einzelnen Kindes betrachtet werden. In Abschnitt 6.3 wurden die Anteile aller Wortarten je Kind und Altersgruppe in Bezug auf die Types und die Tokens vermerkt. Zunächst zu den Types: In Gruppe 1 kamen Nomen mit einem Anteil von 24,7% (MA) bzw. 27,1% (MK) und Verben mit 22,4% (MA) bzw. 25,0% (MK) vor. In Gruppe 2 174 KAPITEL 6. ANALYSE DER WORTARTEN belief sich das Vorkommen der Nomen auf 24,7% bis 35,0% bei vier Kindern, wobei 35,0% nur bei MK auftraten. Verben traten mit einer Häufigkeit von 22,5% bis 24,3% auf. Gruppe 3 lieferte Anteile von 16,7% bis 30,7% Nomen bei insgesamt 10 Kindern, wobei rund 17% zweimal (LUA und SO) und rund 18% dreimal (AV, LAR und JK) auftraten. Die restlichen Nomenanteile bewegten sich zwischen 22,9% und 30,7%. Verben kamen bei diesen 10 Kindern mit 21,0% bis 28,1% vor. An dieser Stelle ist es nicht einfach, einen einheitlichen Bezug herzustellen zu den Daten der Erwachsenen. Auffällig ist aber, dass unter Ausschluss des 35,0%-Vorkommens der unterschiedlichen Nomen bei MK in Gruppe 2, der Anteil der Nomen kontinuierlich niedriger ist. In Gruppe 3 gab es gar zwei Kinder, die einen Anteil von rund 17% aufwiesen und drei Kinder mit einem Anteil von unter 19% Nomen. Im Vergleich zum Vorkommen von 19% bei den Erwachsenen ist das erstaunlich wenig. Man kann also annehmen, dass sich die Verwendung verschiedener Nomen mit zunehmenden Alter langsam reduziert. Ähnlich verhält es sich bei den Verben. In Gruppe 3 verwendete kein Kind mehr als 28,1% Verben bezogen auf die Types. Das ist im Vergleich zu 18,5% bei den Erwachsenen zwar erheblich mehr. Die meisten Kinder wiesen jedoch einen Anteil von 22% bis 24% auf, während der Wert von 28,1% bei nur einem Kind vorkam. In Gruppe 1 war der geringste Anteil 22,4%, in Gruppe 2 lag er bei 22,5%. Man könnte also auch hier annehmen (unter Ausschluss der 28,1% in Gruppe 3), dass die Verwendung von Verben bezogen auf die Types in einem Alterszeitraum von 3;5 bis 5;5 Jahren kontinuierlich niedrig ist und durchaus mit den von Kauschke (2007) ermittelten Daten von 16,3% vergleichbar ist. Um zu prüfen, ob sich die Types-Anteile bezüglich der Verben mit zunehmendem Alter weiter reduzieren, müssten weiterführende Analysen gemacht werden, die über das sechste Lebensjahr von Kindern hinausgehen. In Bezug auf die Tokens sieht ein Vergleich der Daten der Kinder zu den Erwachsenen etwas anders aus. Wie weiter oben dargestellt, kamen Verben bei allen Kindern verteilt über alle Altersgruppen mit einem Anteil von 21,0% bis 28,1% bezogen auf die Types vor. Hinsichtlich der Tokens sind es 20,4% bis 24,0%. Im Vergleich zu den Daten der Erwachsenen ist der Anteil zwar höher, erstaunlicherweise erscheint er aber stabil und es gibt keine großen Unterschiede zwischen den Types- und Tokens-Anteilen. Bei den Nomen reichte die Spanne bei den Types von 16,7% bis 35,0%, bei den Tokens von 5,9% bis 15,9%. Dieser Unterschied ist im Vergleich zu den Daten der Erwachsenen zum Teil enorm. Hier steht ein Typeanteil von 19%, einem Tokenanteil von 9% jeweils bezüglich der Nomen gegenüber. Erstaunlich ist hingegen, dass der Anteil der Tokens bei den hier untersuchten Kindern mit 5,9% bis 15,9% ähnlich niedrig ist wie jener der Erwachsenen 6.5. DIE WORTARTENVERTEILUNG BEI ERWACHSENEN 175 mit durchschittlich 9%. Das lässt vermuten, dass der Anteil der Nomen, was ihre Verwendungshäufigkeit angeht, bereits im Alter von 3;5 bis 5;5 Jahren annähernd der Sprache von Erwachsenen entspricht. Der recht hohe Anteil der Types bei den Kindern kann auf unterschiedliche Weise hypothetisch erklärt werden; Kontrollstudien mit weiteren Erwachsenen und Kindern in anderen Kindertagesstätten oder in Hausbetreuung wären jedoch aufschlussreich. Mögliche Gründe wären zum einen, dass in Spielsituationen mehr verschiedene Nomen produziert werden, wodurch sich der Type-Anteil erhöht. Vor allem aber heißt das, dass Kinder insgesamt betrachtet eher wenig Nomen verwenden und wenn, dann viele verschiedene. Der Anteil der Verben hingegen ist durchgehend hoch und entspricht annähernd den Daten von Erwachsenen, wie sie von Kauschke (2007) vorgelegt wurden ([Kauschke (2007)]). Allein an den in dieser Arbeit erhobenen Daten wird jedoch ersichtlich, dass sich sowohl die Anteile der Nomen als auch der Verben mit zunehmendem Alter anscheinend allmählich reduzieren. Bis zu welchem Alter diese Reduktion stattfindet und sich gänzlich an die Komposition des Lexikons von Erwachsenen angepasst hat, kann zu diesem Zeitpunkt noch nicht gesagt werden. Aus Gründen mangelnder Repräsentativität sollten die Vergleichsdaten der erwachsenen Sprecherinnen und Sprecher nicht überbewertet werden. Sie stellen ein nur kleines Korpus dar und um einen aussagekräftigen Vergleich durchzuführen, müssten weitere Daten hinzugezogen werden. Diese lagen zum Zeitpunkt der Erstellung dieser Arbeit nicht vor, weshalb die getätigte Gegenüberstellung lediglich als Annäherung bezeichnet werden soll. 176 KAPITEL 6. ANALYSE DER WORTARTEN Kapitel 7 Der Grundwortschatz semantisch betrachtet Nachdem im vorhergehenden Kapitel die hier erworbenen Daten vorrangig unter dem Aspekt der Wortartenklassifizierung und -verteilung betrachtet wurden, sollen in diesem Kapitel semantische Aspekte im Vordergrund stehen. Dazu wurden alle geäußerten und voneinander separierten Wörter im Hinblick auf ihre Lemmata noch einmal nach semantischen Kriterien begutachtet und klassifiziert. Durch diesen Prozess soll schließlich ein Grundwortschatz von deutschsprachigen Kindern im Alter von 3;5 bis 5;5 Jahren entstehen, der auf den hier erhaltenen Daten beruht. Mit großer Sicherheit sind dies nicht alle Lemmata, die tatsächlich im Wortschatz dieser (und auch anderer) Kinder existieren. Doch wie bereits erwähnt, lässt sich der Wortschatz nie vollständig erfassen. Dennoch denke ich, mit den folgenden Daten einen enormen Teil des Lexikons der hier untersuchten Kinder abbilden zu können. Die hier verwendete Vorgehensweise entspricht in vielen Aspekten der Arbeit der klassischen Lexikologie und Lexikographie, wenn auch das spätere Ergebnis kein Lexikon im klassischen Sinne darstellt, sondern ein Lexikon der hier untersuchten Sprecher/innen ist (siehe auch [Schlaefer (2002)]). Laut Schlaefer (2002) beziehen sich die Begriffe Wortschatz, Lexik und Lexikon meistens auf den zahlenmäßigen Umfang eines bestimmten Zeichenbestandes. Dieser bestimmte Zeichenbestand entspricht in dieser Arbeit dem erstellten Korpus und den darin enthaltenen syntaktischen Wörtern bzw. Lemmata mit ihren jeweiligen Markierungen (z.B. POS-Tags, Bedeutungskategorien). In Bezug auf die lexikologische Arbeit betont Schlaefer das besondere Interesse der Lexik als Systemebene der Sprache, die aus spezifischen Klassengliederungen und Zeichenbeziehungen gebildet wird. Klassen seien zum Beispiel Wortarten wie Substantiv, Adjektiv oder Verb und damit verbunden deren semantische Subklassen. Als Wortarten 177 178 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET gelten ferner aus lexikographischer Sicht bestimmte morpho-syntaktische und semantisch unterscheidbare Lexeme, so Schlaefer ([Schlaefer (2002)], S. 38-41). Derartige Klassen von Wortarten wurden in der vorliegenden Arbeit durch die Zuordnung der Wörter zu ihren POS-Tags (syntaktisch orientiert) und deren anschließende Lemmatisierung sowie die Zuordnung zu ihren Bedeutungskategorien (semantisch orientiert) gebildet. Im Gegensatz zu der eben beschriebenen lexikologischen Arbeit befasst sich die Lexikographie mit dem Erstellen von Wörterbüchern. Dabei wird ein Lexem überschriftartig durch ein Stichwort oder Lemma repäsentiert. Das Lemma bildet dann wiederum mit den zugeordneten Informationen einen Artikel des Wörterbuches ([Schlaefer (2002)], S. 76). Dieses Vorgehen entspricht weitestgehend jenem der vorliegenden Arbeit. Jedes syntaktische Wort wird einer Wortart zugeordnet, durch ein Lemma repräsentiert und mit weiteren Informationen versehen (Bedeutungskategorie, Vorkommen im Korpus, Anzahl des Vorkommens, (POS-Tag)). Da sich die daraus resultierenden Einträge lediglich auf die Lemmata des vorliegenden Korpus beziehen und diese wiederum spezifischen Kategorien untergeordnet sind, kann in diesem Fall auch von einer Konkordanz gesprochen werden. Schlaefer (2002) beschreibt Konkordanzen als geordnete Stichwortverzeichnisse, die das Vorkommen der Einzelwörter in einem oder mehreren Texten nachweisen. Insbesondere durch die hier verwendete Software und durch die Verwendung der Datenbank (CA) wird die Erstellung von Konkordanzen unter unterschiedlichen Aspekten möglich. Des Weiteren listet Schlaefer in einer Tabelle mögliche Wörterbuchtypen auf, nach denen das hier erstellte Lexikon unter anderem als Grundwortschatz-Wörterbuch, Korpuswörterbuch, Spezialwörterbuch und eventuell als Sprachstadienwörterbuch bezeichnet werden könnten. In Anbetracht der späteren Nutzung wäre auch die Bezeichnung als Lernerwörterbuch denkbar ([Schlaefer (2002)], S. 110; siehe Kapitel 9). Die in Kapitel 6 getätigte Analyse wird in der nun folgenden semantischen Betrachtung in der Form zu Rate gezogen, als dass die ermittelten Lemmata, bezeichnet mit ihren jeweiligen POS-Tags, einer nochmaligen Betrachtung unterzogen werden. Die Kategorien für diese semantische Analyse wurden ebenso wie die POS-Tags - in den EXMARaLDA-Dateien erfasst und in die Datenbank des CA importiert. Um die Lemmata einer Wortart bestimmten semantischen Kategorien zuordnen zu können, bedarf es festgelegten Kriterien, nach denen ein Lemma einer bestimmten Gruppe zugeordnet wird. Diese Kiterien wurden nach den Richtlinien der Dudengrammatik zusammengestellt, die jede Wortart des Deutschen - neben zahlreichen anderen Aspekten - unter semantischen Gesichtspunkten betrachtet 7.1. DIE BEDEUTUNGSKATEGORIEN 179 ([Dudenredaktion (2009)]). Die Beispiele stammen in den meisten Fällen aus den Daten der für diese Arbeit erstellten EXMARaLDA-Dateien und somit aus den Audio-Daten der Probandinnen und Probanden aus dem Kindergarten. Beispiele aus der Dudengrammatik sind als solche kenntlich gemacht. Der vollständige, durch die hier produzierten Lemmata erfasste Wortschatz der untersuchten Kinder wird später in dreifacher Weise dargestellt1 . Zum einen erscheint eine Liste, die ausgehend von der Bedeutungskategorie, z. B. adv-kaus (kausales Adverb), alle in einer Altersgruppe vorkommenden Lemmata, die in der jeweiligen Bedeutungskategorie vorkommen, auflistet. Zusätzlich erhalten alle Lemmata die Zuweisung ihrer POS-Tags, mit denen sie in den Daten dieser Arbeit erscheinen. Adjektive können die POS-Tags ADJA oder/und ADJD erhalten. Es wird später deutlich, dass nicht alle Lemmata, obwohl sie gleichermaßen in den drei Alterzeiträumen auftreten, auch immer allen zugehörigen POS-Tags zugeordnet sind. Diese Information kann für weiterführende Arbeiten relevant sein. Zum anderen wird ein Lexikon aller Lemmata, die von den hier untersuchten Kindern geäußert wurden, erstellt. Dabei sollen die drei Alterszeiträume keine Rolle spielen. Vielmehr wird jedes Lemma in Zugehörigkeit zu seiner Bedeutungskategorie aufgeführt und mit Beispielaussagen aus den Daten dieser Arbeit versehen. Durch diese Vorgehensweise werden sehr gut die Zusammenhänge deutlich, in denen ein Lemma geäußert wurde bzw. werden kann. An einigen Stellen werden Zusatzinformationen in Klammern eingefügt oder aber inhaltliche sowie grammatikalische Fehler korrigiert, um so zum allgemeinen Verständnis beizutragen. In einer dritten Übersicht werden alle Lemmata unter Berücksichtigung der Altersgruppen mit den dazugehörigen Bedeutungskategorien aufgeführt. Anhand dieser Auflistung werden Entwicklungstendenzen deutlich, wie sie bereits bei der Analyse der Wortartenverteilung festgehalten wurden (Abschnitt 6.2). Diese Auflistung wird aufgrund des enormen Umfangs ebenso im Anhang zu finden sein. Auftretende Entwicklungstendenzen in der Verwendung bestimmter Lemmata bezüglich ihrer semantischen Kategorien werden in Abschnitt 7.2 diskutiert. 7.1 Die Bedeutungskategorien Die folgend aufgeführten Kriterien, nach denen ein Lemma einer bestimmten Bedeutungskategorie zugeordnet ist, sind angelehnt an die Regeln der Dudengrammatik ([Dudenredaktion (2009)]). Die Kategorien sind 1 Aufgrund des sehr großen Umfangs des erstellten Lexikons und der dazugehörigen Excel-Dateien ist dieses im Anhang dieser Arbeit zu finden. 180 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET nicht alphabetisch geordnet, sondern entsprechen in ihrer Reihenfolge weitestgehend den Kategorien der STTS und ihrer dortigen Anordnung (Tabelle 3.2). 7.1.1 Adjektive Unter grammatischen Gesichtspunkten sind Adjektive Wörter, die flektiert werden können. Dementsprechend sind sie veränderbar nach Kasus, Numerus und Genus. Im Hinblick auf semantische Kriterien unterscheidet der Duden folgende Klassen (Regel 459): • qualifizierende Adjektive: Farbe (rot, grün), Form (eckig, rund), Geschmack (süß, bitter ), Oberfläche (rau, glatt), Temperatur (warm, kalt), Ästhetik (schön, hässlich), Moral (gut, böse), Intellekt (klug, witzig), Räumliche Dimension (hoch, breit), Zeitliche Dimension (früh, spät), Wahrheitsgehalt (wahrscheinlich, angeblich) Beispiel (1): Komm, wir malen ein so großes Pferd, ok? (024_MK.exb) Beispiel (2): Sieht lustig aus, oder? (039_MA.exb) • relationale Adjektive: Geografie (afrikanisch, asiatisch), Staat/Volk/Sprache (englisch, französisch), Religion (katholisch, islamisch), Epoche (römisch, mittelalterlich), Beruf (ärztlich), Bereich (wirtschaftlich, technisch), Stoff (golden, hölzern), Zeitpunkt (heutig, gestrig), Räumliche Lage (vordere, linke) Beispiel (3): Hier, chinesisches Essen. ’Ne kleine Portion. (041_LEO.exb) Beispiel (4): Hier ist der kleine Käsepfannkuchen mit einem schweizer Käse. (041_LEO.exb) • quantifizierende Adjektive: Zahladjektive (Regel 509). Diese sind in der vorliegenden Arbeit unter dem POS-Tag CARD zusammengefasst. Im Folgenden werden alle unter CARD aufgeführten Lemmata in der Gruppe der quantifizierenden Adjektive aufgeführt, auch wenn sie nicht in allen Fällen tatsächliche Adjektive sind. Beispiel (5): das dritte Holzstück (013_JS.exb) Beispiel (6): Ich habe null, neun, sechs gemacht. (033_JK.exb) • adjektivisch gebrauchte Partizipien (Regel 458): z. B. fliegend in fliegender Fisch Beispiel (7): ein fliegender Fisch. (048_LEO.exb) 7.1. DIE BEDEUTUNGSKATEGORIEN 181 In der hier getätigten Analyse kommen qualifizierende Adjektive (ad-qual), quantifizierende Adjektive (ad-quant), relative Adjektive (ad-rel) und adjektivisch gebrauchte Partizipien (ad-part) vor. Bei den quantitativen Adjektiven handelt es sich um alle zuvor mit CARD getaggten Zahlwörter. Diese werden im Folgenden mit ad-quant bezeichnet, da auch die Dudengrammatik dies als eine Vorgehensweise zulässt (Regel 509). 7.1.2 Adverbien Die Dudengrammatik unterscheidet vier große Gruppen von Adverbien (ab Regel 837): • Lokaladverb (Regel 848): situiert ein Geschehen, ein Objekt o. ä. im Raum oder bezeichnet eine lokale Beziehung. Schmöe (2002) unterscheidet Lokaladverbien zudem in statische (z. B. hier, da, dort, draußen, drinnen, woanders) und direktionale (z. B. hin, her, dahin, heim, fort, weg, abwärts) Adverbien ([Schmoe (2002)]). Beispiel (8): Ich habe hier einen Ritter. (023_LUA.exb) Beispiel (9): Hier unten läuft das ganz groß raus. (033_MK.exb) • Temporaladverb (Regel 850): situiert ein Geschehen, ein Objekt o. ä. in der Zeit oder bezeichnet eine temporale Beziehung hinsichtlich des Zeitpunkts (z. B. jetzt, nun, heute, gestern, morgen, eben, neulich, morgens, mittags, dann), der Dauer (z. B. immer, stets, lange, bisher), der Wiederkehr bzw. Wiederholung (z. B. manchmal, nochmal, montags, dienstags, nachmittags) und der Zeitbewertung bzw. -erwartung (z. B. bereits, schon, noch). Beispiel (10): Ich schlafe jetzt bei den Eltern. (011_MM-exb) Beispiel (11): Ich habe gerade nicht geklingelt. (020_LAR.exb) • Modaladverb (Regel 852): gibt sowohl die Qualität (Art und Weise) als auch die Quantität (Menge, Ausmaß) an. Beispiele für qualitative Modaladverbien sind: so, genauso, ebenfalls, anders, nebenbei, gern, unversehens. Beispiele für quantitative Modaladverbien sind: sehr, größtenteils, einigermaßen, halbwegs, teilweise, allein. Beispiel (12): Da ist nur ein bisschen von mir drin. (040_MK.exb) Beispiel (13): Kannst auch so rum drehen. (046_LUA.exb) 182 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET • Kausaladverb (Regel 853): gibt den Grund für einen Sachverhalt oder eine Handlung an. Kausaladverbien enden oft auf -(et)wegen oder -halber. Beispiele: also, sonst, meinetwegen, seinetwegen, gesundheitshalber, anstandshalber, sicherheitshalber, infolgedessen, folglich, deswegen, deshalb. Beispiel (14): Sonst können wir das nicht spielen. (050_JS.exb) Beispiel (15): Also ich habe nicht über die Linie gemalt. (054_MK.exb) Eine weitere und 5. Gruppe betrifft die sogenannten Kommentaradverbien (Regel 868), die sich funktional teilweise wie Abtönungspartikeln verhalten. Kommentaradverbien beziehen sich immer auf den ganzen Satz, weshalb sie auch Satzadverbien genannt werden (leider, allerdings, natürlich, selbstverständlich, vielleicht). Beispiel (16): Das kannst du leider nicht sein. (049_MK.exb) Beispiel (17): Aber vielleicht sind sie ja jetzt da. (050_LUA.exb) Die Dudengrammatik nimmt noch weitere Unterscheidungen der Adverbien vor, die für die vorliegende Arbeit jedoch nicht relevant sind. Einzig die Untergruppe der Präpositionaladverbien bzw. Pronominaladverbien ist von Bedeutung. Da die Pronominaladverbien bei der Analyse der Wortarten bereits dem POS-Tag PAV und somit den Pronomen zugeordnet wurden, wurde dies auch in der semantischen Analyse so gehandhabt. Pronominaladverbien beziehen sich auf die Bildungsweise mit da(r)-, hieroder wo(r)- ([Dudenredaktion (2009)], S. 580, Tabelle 860). Weiterhin zählen außerdem, trotzdem und deswegen zu den Pronominaladverbien. Beispiel (18): Außerdem spielen wir, wenn uns langweilig wird. (033_MK.exb) Beispiel (19): Was steht da, da, da_rin. (048_AV.exb) Weitere Adverbien mit besonderen Funktionen sind interrogative Adverbien (Regel 856) und relative Adverbien (Regel 857), bei denen es sich um W-Fragewörter handelt. Da diese bereits in den STTS als Relativund Interrogativpronomen bezeichnet wurden, werden sie auch im Folgenden als Pronomen beschrieben. In der folgenden Übersicht aller Adverbien wird demnach unterschieden zwischen Lokaladverbien (adv-lok ), Temporaladverbien (adv-temp), Modaladverbien (adv-mod), Kausaladverbien (adv-kaus), Kommentaradverbien (adv-komm) sowie den zu den Pronomen zugeordneten Pronominaladverbien (pav ). 7.1. DIE BEDEUTUNGSKATEGORIEN 7.1.3 183 Präpositionen Präpositionen stehen vor ihrem Bezugswort (Regel 895), z. B. nach Hause. Daneben existieren Postpositionen (meiner Meinung nach), die dem Bezugswort nachgestellt sind sowie Zirkumpositionen (um Himmels willen), die das Bezugswort umrahmen. Sowohl Post- als auch Zirkumpositionen kommen in den Daten der vorliegenden Arbeit nicht vor und wurden deshalb nicht weiter beachtet. Laut Dudengrammatik gibt es etwa 20 Präpositionen, die im Deutschen besonders häufig vorkommen. Dazu zählen: in, mit, von, an, auf, zu, bei, nach, um, für, aus, vor, über, durch, unter, gegen, hinter, bis, neben, zwischen Im Hinblick auf semantische Aspekte können fünf Gruppen von Präpositionen unterschieden werden: • Lokale Präposition zur Bezeichnung des Raumes, der Lage, der Richtung (Regel 905): ab, an, auf, aus, außer, außerhalb, bei, bis, durch, nach, neben, von, vor, zu Beispiel (20): Eine Babykuh hat bei Mama getrunken. (019_RD.exb) Beispiel (21): auf dem Spielplatz, glaube ich (020_SO.exb) • Temporale Präposition zur Bezeichnung des Zeitpunkts und der Dauer (Regel 906): ab, an, auf, bei, binnen, für, gegen, in, innerhalb, mit, nach, seit, über, um, unter, vor, während, zu, zwischen Beispiel (22): Im Moment brauchen wir die nicht. (026_LUA.exb) Beispiel (23): Das habe ich auch schon mal vor langer Zeit gemacht. (053_AV.exb) • Modale Präposition zur Bezeichnung der Art und Weise (Regel 907): auf, aus, außer, bei, bis, an, für, gegen, mit, ohne, unter, von, wider, zu Beispiel (24): Ich gehe mit meiner Laterne. (036_LEO.exb) Beispiel (25): In der Zeit wird Papier für euch geliefert. (033_RD.exb) • Kausale Präposition zur Bezeichnung des Grundes, des Anlasses, der Einräumung, der Einschränkung und des Zwecks (Regel 908): auf, aus, bei, durch, für, kraft, laut, mangels, mit, mittels, nach, trotz, über, um, unter, von, wegen Beispiel (26): Vielleicht ist es wegen dem? (038_LL.exb) Beispiel (27): Wegen dir spiele ich nicht mehr mit. (048_JS.exb) 184 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET • Neutrale (leere) Präposition als Verbindungsglied ohne eigene Bedeutung (Regel 908): hoffen auf, leiden unter, bitten um, Achtung vor, Garantie für, stolz auf, froh über, fähig zu Beispiel (28): Hier werden Äpfel zu Mehl gepresst. (033_JS.exb) Beispiel (29): Ich bin am Verlieren. (047_RD.exb) Die folgenden Bezeichnungen wurden für die semantische Analyse der Präpostitionen verwendet: Lokale Präpositionen (pr-lok ), Temporale Präpositionen (pr-temp), Modale Präpositionen (pr-mod), Kausale Präpositionen (pr-kaus) und Neutrale Präpositionen (pr-neutr ). 7.1.4 Artikel In der vorangegangenen Wortartenanalyse wurde der Artikel nicht nach bestimmt (der, die, das) und unbestimmt (ein/eine) unterschieden, sondern stets mit ART bezeichnet. Aufgrund des zahlreichen Vorkommens von Artikeln aber auch der Schwierigkeit einer semantischen Einordnung sollen Artikel an dieser Stelle nicht weiter gruppiert werden als bisher. Bestimmte und unbestimmte Artikel werden dementsprechend als Artikel mit dem Kürzel art bezeichnet. Beispiel (30): Das ist ja auch nicht eine Schwimmhalle, das ist ein Schwimmbad. (019_MK.exb) Beispiel (31): Dann kommst du immer mit dem Baby hier her zu uns. (057_MK.exb) 7.1.5 Fremdsprachliches Material Fremdsprachliches Material kam nur sehr selten in den Daten dieser Arbeit vor. Da es sich zudem nur um die Nennung einzelner Wörter (oder Zahlen) handelt, sollen auch diese Lemmata nicht weiter gruppiert werden. Sie werden in der vorliegenden semantischen Betrachtung mit fm bezeichnet. Beispiel (32): ... habe ich jetzt Ice Age drei ausgeliehen. (046_MK.exb) 7.1.6 Interjektionen Die Interjektionen werden von der Dudengrammatik unter dem Eintrag Partikeln behandelt (Regel 887). Dies ist unter semantischen Aspekten sicher sinnvoll, da die Interjektion als Ausdruckspartikel eine gesonderte Gruppe ausmacht. Da in der hier durchgeführten Analyse mittels der STTS (Kapitel 6) die Interjektionen von den Partikeln gesondert betrachtet und analysiert 7.1. DIE BEDEUTUNGSKATEGORIEN 185 wurden, werden sie auch an dieser Stelle gesondert aufgeführt. Unter semantischen Gesichtspunkten zählen sie aber zu den Partikeln und sind somit, wie schon erwähnt, eine Ausdruckspartikel zum Ausdruck spontaner, reaktiver Emotionen und Bewertungen. Beispiele: pfui, hurra, huch, igitt, juhu, oje, pst! Die Interjektionen werden in ihrer semantischen Kategorie mit itj gekennzeichnet. Beispiel (33): pfui deibel (039_LEO.exb) 7.1.7 Konjunktionen und Subjunktionen Bei den Junktionen wurde bisher unterschieden zwischen Konjunktionen (KON), Vergleichskonjunktionen (KOKOM) und unterordnenden Konjunktionen bzw. Subjunktionen (KOUS). Die Dudengrammatik unterscheidet, wenn es um die Funktion und Bedeutung geht, zwei große Gruppen, die wiederum weiter untergliedert sind: Konjunktionen und Subjunktionen. Die Bezeichnung in Klammern steht für das Kürzel, das der jeweiligen Junktion in der semantischen Analyse entspricht. Konjunktionen (Regeln 934 bis 940) Die Konjunktionen werden unterschieden in: • additive Konjunktionen (kon-add) (Regel 935): und, plus Beispiel (34): Ich habe einen riesigen Schnabel und damit töte ich alle Fische. (042_MK.exb) • alternative Konjunktionen (kon-alt) (Regel 936): oder Beispiel (35): Im Sommer kann ich beim Halbfinale oder beim richtigen Finale zugucken. (058_JS.exb) • adversative und konzessive Konjunktionen (kon-adv ) (Regel 937): aber, doch, jedoch, sondern, bloß Beispiel (36): (ich habe) drei (NN), aber dafür hast du mehr (036_LAR.exb) • spezifizierende Konjunktionen (kon-spez) (Regel 938): außer Beispiel (37): hier darf keiner durch, außer den ... (024_MK.exb) • kausale Konjunktionen (kon-kaus) (Regel 939): denn, weil, da Beispiel (38): aber die beiden Zahlen stimmen nicht, denn die Zwei ist zu klein (030_MK.exb) • vergleichende Konjunktionen (kon-vgl) (Regel 940): wie, als Beispiel (39): noch größer wie 2 meiner (039_MA.exb) 2 Grammatikalisch korrekt müsste es an dieser Stelle heißen „noch größer als meiner“. 186 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Subjunktionen (Regeln 941 bis 952) Die Subjunktionen werden unterschieden in: • neutrale Subjunktionen (sub-neutr ) (Regel 942): dass, ob Beispiel (40): Der will immer bestimmen, dass der Punkt so lang geht. (044_MK.exb) • temporale Subjunktionen (sub-temp) (Regel 943): als, wenn, indem, nachdem, bis, bevor Beispiel (41): Haben wir gesehen, als wir mit Mama wieder rausgegangen sind. (054_AV.exb) • konditionale Subjunktionen (sub-kond) (Regel 944): wenn, falls, ob Beispiel (42): Wenn es raus geht, dann pack’ es da rein. (023_LUA.exb) • adversative Subjunktionen (sub-adv ) (Regel 945): anstatt zur Bezeichnung des Gegensatzes Adversative Subjunktionen kommen in den Daten dieser Arbeit nicht vor. • restriktive Subjunktionen zur Bezeichung (sub-restr ) (Regel 946): außer dass der Einschränkung Restriktive Subjunktionen kommen in den Daten dieser Arbeit nicht vor. • modal-instrumentale Subjunktionen zur Bezeichnung des Mittels, um das im Hauptsatz genannte Ziel zu erreichen (sub-mod-instr ) (Regel 947): indem, ohne dass Beispiel (43): Wenn man fertig getankt hat, kann man gleich wieder losfliegen ohne zu bezahlen. (046_MK.exb) • Subjunktionen zum Ausdruck eines Vergleichs (sub-vgl) (Regel 948): als, wie Subjunktionen zum Ausdruck Daten dieser Arbeit nicht vor. eines Vergleich kommen in den • kausale Subjunktionen (sub-kaus) (Regel 949): weil, wo, umso mehr/weniger als 7.1. DIE BEDEUTUNGSKATEGORIEN 187 Beispiel (44): ja, weil ich krank bin (033_MK.exb) • konsekutive Subjunktionen (sub-kons) (Regel 950): sodass, (so) - dass Konsekutive Subjunktionen kommen in den Daten dieser Arbeit nicht vor. • finale Subjunktion (sub-fin) (Regel 951): damit, dass, um zu Beispiel (45): Ja! Und weit, damit ich reinpasse. (019_JS.exb) • konzessive Subjunktionen (sub-konz) (Regel 952): obwohl, auch wenn Beispiel (46): Wir beide sind keine Anfänger, obwohl das nicht stimmt. (058_JS.exb) 7.1.8 Substantive Die Substantive als Inhaltskategorie ließen bereits bei einem ersten Blick auf die geäußerten Tokens vermuten, dass es nicht leicht sein wird, Gruppierungen zu schaffen, die alle Substantive in ihrer Fülle zusammenfassen. So schreibt auch die Dudengrammatik, dass eine Einteilung der Substantive aus unterschiedlichen Perspektiven hinsichtlich der Bedeutung möglich ist (Regel 220). Hinzu kommt, dass zwischen den einzelnen Gruppen Zusammenhänge bestehen und Substantive nicht immer eindeutig einer Gruppe zugeordnet werden können. Folgende Bedeutungsgruppen werden unterschieden: Konkreta und Abstrakta (Regel 221) Konkreta nennt man Substantive, mit denen etwas Gegenständliches bezeichnet wird (Mensch, Mann, Frau, Kind, Blume, Tisch, Wald). Abstrakta sind Substantive, mit denen etwas Nichtgegenständliches bezeichnet wird (Geist, Seele, Leben, Schlag, Angst, Wurf, Frieden, Liebe). Die Abstrakta sind im Duden folgendermaßen gegliedert: • Menschliche Vorstellungen (n-abstr-vorst): Geist, Seele Beispiel (47): Ein Schlitzohr hat Geister in der Flasche. (011_MM.exb) • Handlungen (n-abstr-hdlg): Schlag, Wurf, Schnitt, Boykott Beispiel (48): Ich hab’ das (mit), nicht mit Absicht umgekippt. (026_LUA.exb) • Vorgänge (n-abstr-vorg): Leben, Sterben, Schwimmen, Schlaf, Reise 188 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Beispiel (49): Dieses Mal wird es von der Herstellung ein bisschen (anders). (033_JS.exb) • Zustände (n-abstr-zust): Friede, Ruhe, Angst, Liebe, Alter Beispiel (50): Soll ich dir sagen, warum ich solche Angst hatte? (058_JS.exb) • Eigenschaften (n-abstr-eig): Würde, Verstand, Ehrlichkeit, Krankheit, Dummheit Beispiel (51): Das ist nicht die Länge. (049_MK.exb) • Verhältnisse oder Beziehungen (n-abstr-verh): Ehe, Freundschaft, Nähe, Unterschied Abstrakte Nomen in der Kategorie Verhältnis kamen in den Daten dieser Arbeit nicht vor. oder Beziehung • Wissenschaften, Künste (n-abstr-wiss): Biologie, Mathematik, Musik Beispiel (52): ... der kann nicht so viel Deutsch. (024_LUA.exb) • Maß- und Zeitbegriffe (n-abstr-maß bzw. n-abstr-zeit): Meter, Watt, Gramm, Jahr, Stunde, Mai Beispiel (53): Nächste Woche ist schon Weihnachten. (040_JS.exb) Diese Unterteilung der Abstrakta wird auch in der vorliegenden Arbeit verwendet, wobei die gebrauchten Kürzel in Klammern stehen. An einigen Stellen war es nicht möglich, eine allgemeingültige Kategorisierung vorzunehmen. Dies betrifft zum Beispiel das Abstraktum Geburtstag, welches hier mit n-abstr-zeit bezeichnet wurde. Eine andere Person hingegen hätte ebenso die Bezeichnung n-abstr-zust (Zustand) wählen können, auch n-abstr-vorg (Vorgang) wäre möglich. Solche zwiespältigen abstrakten Nomen kamen hin und wieder vor und ließen letztendlich nur eine subjektive Bezeichnung zu. Alle Bezeichnungen wurden mit bestem Wissen und Gewissen vorgenommen, sie erheben jedoch keinen Anspruch auf Einheitlichkeit zu Kategorisierungen, die durch andere Personen vorgenommen werden. Des Weiteren können Abstrakta dahingehend unterschieden werden, ob sie zählbar sind oder nicht. Eine solche Unterscheidung wurde in dieser Arbeit jedoch nicht vorgenommen. Belebtheit (Regel 222) Konkreta werden im Duden näher nach Belebtheit bestimmt und auch in der vorliegenden Arbeit wurden die konkreten Substantive nach Belebtheit (n-belebt) und Unbelebtheit (n-unbelebt) unterschieden. 7.1. DIE BEDEUTUNGSKATEGORIEN 189 • belebte Substantive: Mensch, Katze, Käfer, Baum, Alge Beispiel (54): Eine Babykuh hat bei Mama getrunken. (019_RD.exb) Beispiel (55): Kimba ist der kleine weiße Löwe. (019_JS.exb) • unbelebte Substantive: Fahrzeug, Weg, Stein Beispiel (56): Hier kommen die ganzen Holzteile und Porzellan (...) (013_JS.exb) Beispiel (57): Hier kommen die Murmeln rein. (024_LUA.exb) In der Kategorie der Konkreta war es an einigen Stellen nicht möglich, eine einheitliche Kategorisierung vorzunehmen. Dies betrifft Begriffe, die je nach Blickwinkel belebt sein können oder auch unbelebt. Das Nomen Baum wurde hier demnach als belebtes Konkretum angesehen, ebenso Blatt oder Wasser. Handelt es sich um Körperteile (Arm, Auge, K opf) oder um essbare pflanzliche oder tierische Teile (Banane, Salat, Fleisch) wurden diese hingegen mit dem Kürzel n-unbelebt gekennzeichnet. Andere Wissenschaftler/innen würden an diesen Stellen vielleicht ein belebtes Konkretum zu Grunde legen. Diese Zwiespältigkeiten konnten auch nach intensiven Literatur- und Onlinerecherchen nicht abschließend geklärt werden, so dass in dieser Arbeit die eben genannten Kriterien Anwendung fanden. Eigennamen und Appellativa (Regel 223) Eine Unterscheidung zwischen Eigennamen und Appellativa wird in der Literatur meistens derart vorgenommen, dass Eigennamen ein bestimmtes Individuum bezeichen; Appellativa hingegen bezeichnen eine Gattung oder Klasse. Eigennamen bezeichnen demnach keine besondere Klasse mit bestimmten Eigenschaften, sondern jeweils ein bestimmtes Individuum ([Dudenredaktion (2009)]). Beispiele für Appellativa (nach [Dudenredaktion (2009)]): • Katzen können in der Dunkelheit gut sehen. • Autos verschmutzen die Umwelt. • Bären sind Raubtiere. Appellativa werden im Duden in folgende Gruppen eingeteilt: • Volksbezeichnungen (Regel 226): Italiener, Russin • Produktbezeichnungen (Regel 227): Apple Power Macintosh, VW Golf Variant 190 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET • Nomenklaturen (Regel 228): das Insekt, der Tausendfüßer, der Käfer Beispiele für Eigennamen (nach [Dudenredaktion (2009)]): • Paul ist sieben Jahre alt. • die Vereinigten Arabischen Emirate • Frankreich grenzt an Deutschland. Eigennamen können laut Dudengrammatik in weitere Gruppen unterteilt werden, die hier zu Zwecken der Einheitlichkeit zwar aufgeführt, in der späteren semantischen Betrachtung jedoch nicht derart spezifisch verwendet wurden (Regel 225). • Personennamen: Moritz, Gertrud, Elisabeth • Geographische Namen: Finnland, das Allgäu, die Zugspitze • Astronomische Eigennamen: Saturn (Planet), der Halleysche Komet • Institutionen, Organisationen, Firmen: der Stadtrat, das Statistische Bundesamt • Zeitungen, Zeitschriften, Bücher: die Morgenpost, die Zeitschrift für Sprachwissenschaft, die Bibel • Einzelne Ereignisse: der Schwarze Freitag, der Zweite Weltkrieg • Andere Objekte und Erscheinungen: das Weiße Haus, der Schiefe Turm von Pisa • Übernamen: der Alte Fritz (= Friedrich der Große), der Rote Planet (=Mars) (Beispiele aus [Dudenredaktion (2009)]) Eine derartige Unterteilung in Eigennamen und Appellativa wurde in dieser Arbeit nicht vorgenommen. Die Gründe dafür liegen zum einen darin, dass diese Unterscheidung bei der Bezeichnung der Lemmata mit den POS-Tags ebenfalls nicht getätigt wurde und alle Eigennamen sowie Appellativa das POS-Tag NE erhielten. Zum anderen kommen Eigennamen und Appellativa nur relativ selten vor und eine derartige Analyse wäre für die Zwecke der vorliegenden Arbeit nicht besonders aufschlussreich bzw. hilfreich. Alle Eigennamen und Appellativa wurden für die semantische Analyse mit dem Kürzel ne bezeichnet und können dabei je nach Kontext alle oben aufgeführten Unterkategorien, wie sie die Dudengrammatik vorgibt, umfassen. Beispiel (58): MK , ich bin auf dem Hochbett! (024_LUA.exb) Beispiel (59): Kannst du mit mir Memory spielen? Memory, Julia? (045_MM.exb) 7.1. DIE BEDEUTUNGSKATEGORIEN 7.1.9 191 Pronomen In der Dudengrammatik erfolgt in Regel 349 (Seite 252) eine Beschreibung der Semantik von Pronomen (und Artikelwörtern). Demzufolge haben Pronomen verweisende, zeigende, fragende oder quantifizierende Funktion. Pronomen können zudem die Funktion einer Nominalphrase übernehmen. Im weiteren Verlauf werden alle im Deutschen auftretenden Pronomenarten beschrieben und in einer Tabelle gegenübergestellt (Regel 350). Die dort aufgeführten Pronomenarten entsprechen im Wesentlichen den in den STTS aufgelisteten POS-Tags, weshalb an dieser Stelle keine Abweichungen zu den semantischen Kategorien auftreten3 . Folgend werden deshalb die Pronomen mit ihren Entsprechungen in den STTS aufgeführt. Dies entspricht ferner der Beschreibung in der semantischen Analyse, wobei die Bezeichnung für die Bedeutung in Kleinbuchstaben erfolgt. In Klammern steht zuerst die Bezeichnung für die POS-Tags, dahinter die Bezeichnung für die Bedeutungsanalyse. Angegeben sind nur jene Kategorien, die auch tatsächlich in den Daten vorkommen: • Personalpronomen (PPER, pper ): ich, mich, mir, meiner, wir, uns, unser, du, dich, dir, deiner, ihr, euch, euer, er, sie, es, ihn, seiner, sie, ihnen, ihrer Beispiel (60): Ich habe kein rot mehr. (053_AV.exb) Beispiel (61): Wenn du mal wieder den Roboter brauchst, musst du nur anrufen. (033_JS.exb) • Reflexivpronomen (PRF, prf): mich, mir, uns, dich, dir, euch, sich, einander Beispiel (62): Nein, der muss sich selbst was holen. (033_JK.exb) Beispiel (63): Ich wünsche mir rot. (036_MM.exb) • Possessivpronomen (PPOSAT, pposat, PPOSS, pposs): mein - unser, dein - euer, sein - ihr Beispiel (64): Unsere/pposat Marina kommt heute. Das ist Mamas Freundin. (038_MM.exb) Beispiel (65): das ist dein( e)s/pposs (038_MM.exb) • attribuierende und substituierende Demonstrativpronomen (PDAT, pdat, PDS, pds): der, die, das, dieser - jener, derjenige, derselbe 3 Die bestimmten und unbestimmten Artikel werden, wie schon erwähnt, unter dem Abschnitt 7.1.4 behandelt. Die attribuierenden Demonstrativpronomen (PDAT) sind hinsichtlich ihrer semantischen Zuordung eigentlich Artikel. Da sie bei der Bezeichnung mittels der POS-Tags jedoch das Tag PDAT erhalten haben, sollen sie der Übersichtlichkeit halber auch hier mit dem Kürzel pdat bezeichnet werden, wohlwissend, dass dies strenggenommen in semantischer Hinsicht kein Demonstrativpronomen darstellt. 192 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Beispiel (66): Wenn du zum Beispiel dieses4 /pdat Körbchen hier hast. (031_MK.exb) Beispiel (67): Das/pds ist ein ganz schön weiter Weg. (044_MK.exb) • Relativpronomen (PRELS, prels): der, die, das, welcher, wer, was Beispiel (68): Das ist die Nummer eins, die du einstellst. (048_MK.exb) Beispiel (69): alle Steine, die bei mir draußen liegen (039_LEO.exb) • Interrogativ- und Relativpronomen (PWAT, pwat, PWAV, pwav, PWS, pws): wer, was, welcher, was für (einer) Beispiel (70): In welche/pwat Schachtel sollen die Murmeln? (024_LUA.exb) Beispiel (71): Warum/pwav macht ihr sowas? (046_LUA.exb) Beispiel (72): Was/pws ist, was/pws wollen wir jetzt machen? (033_MK.exb) • Indefinitum (PIAT, piat, PIDAT, pidat, PIS, pis): man, jederman, jemand, irgendjemand, niemand, nichts, etwas, irgendwas, was, irgendwer, wer, alle, jeder, beide, einige, manche, welche, solche, irgendwelche, irgendein, kein, ein bisschen, ein wenig, ein paar Beispiel (73): wenn man keine/piat Karte mehr hat (026_MK.exb) Beispiel (74): die beiden/pidat Zahlen stimmen nicht (030_MK.exb) Beispiel (75): aber man/pis muss gut aufpassen (013_JS.exb) 7.1.10 Partikeln Unterschieden werden Gradpartikeln (ptk-grad), Fokuspartikeln (ptk-fok ), Negationspartikeln (ptk-neg), Abtönungspartikeln (ptk-abt), Gesprächspartikeln (ptk-gespr ) sowie Interjektionen (diese wurden weiter oben gesondert behandelt). Daneben werden in den STTS Partikeln mit Verbzusatz (PTKVZ ) und Partikeln, die neben dem Infinitiv mit „zu“ stehen (PTKZU) unterschieden. Ferner existieren die sogenannten Antwortpartikeln (ja, doch, bitte) (PTKANT ). Alle drei letztgenannten Partikelnarten wurden auch in der semantischen Analyse verwendet und kommen entsprechend ihrer Bezeichnung als POS-Tag in Kleinbuchstaben vor: ptkvz, ptkzu und ptk-ant. Generell soll erwähnt sein, dass es - ebenso wie bei der Analyse anderer Wortarten - bei der Zuordnung der Partikeln zu ihren semantischen 4 Dieses ist wie schon erwähnt eigentlich Determiner. Aufgrund der Kennzeichnung mit dem POS-Tag PDAT durch die STTS bleibt die Bezeichnung pdat hier erhalten. 7.1. DIE BEDEUTUNGSKATEGORIEN 193 Kategorien vorkommen kann, dass eine andere Person eine andere Kategorie gewählt hätte. Aufgrund zum Teil subjektiver Entscheidungen ist das unvermeidbar. In den STTS werden beispielsweise viele Partikelnarten zu den Adverbien gezählt, was in diesem Abschnitt aufgrund der Referenzierung auf die Dudengrammatik nicht geschehen soll (z.B. [Schiller, Teufel, Stöckert und Thielen (2009)]). Wie alle anderen Zuordnungen, die im Verlauf getätigt wurden und werden, wurde auch diese Analyse mit besten Wissen und Gewissen vorgenommen. Gradpartikeln (Regel 871) Gradpartikeln geben an, in welchem Intensitätsgrad eine Eigenschaft ausgeprägt ist. Meistens stehen sie vor Adjektiven und Adverbien, vor Zahlwörtern und bei Verben. Gradpartikeln zeichnen sich zudem dadurch aus, dass sie auch weggelassen werden können, ohne dass der Satz ungrammatisch wird. Gekennzeichnet werden Gradpartikeln als semantische Kategorie mit dem Kürzel pkt-grad. Beispiele ([Dudenredaktion (2009)]): wenig, etwas, einigermaßen, fast, ziemlich, so, sehr, besonders, ganz 5 , zu, gar, überhaupt, viel (+ADJ), total, echt, unheimlich, schön Beispiel (76): Dann muss man überhaupt nichts bezahlen. (033_JS.exb) Beispiel (77): Mir tut es gar nicht weh. (043_RD.exb) Fokuspartikeln (Regel 873) Fokuspartikeln kennzeichnen jenen Teil des Satzes, der den größten Mitteilungswert hat. Sie werden im Folgenden mit ptk-fok bezeichnet. Beispiele ([Dudenredaktion (2009)]): nur, allein, bloß, sogar, selbst, besonders, auch Beispiel (78): Und ich spiele das sogar. (046_MK.exb) Beispiel (79): Die brauchen selber keine Wärme. (046_MK.exb) Negationspartikeln (Regel 874) Die meisten Partikeln sind dadurch gekennzeichnet, dass man sie weglassen kann, ohne die Grammatik eines Satzes zu verletzen. Negationspartikeln hingegen können nicht weggelassen werden, weil sich der Wahrheitswert der jeweiligen Aussagen verändern würde. Die häufigste Negationspartikel 5 Ganz kann je nach Kontext sowohl Partikel als auch Adjektiv sein. 194 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET im Deutschen, um eine Aussage oder einen Satz zu negieren ist nicht. In der semantischen Analyse wurden alle einen Satz, eine Aussage oder einen Sachverhalt negierenden Lexeme wie nein, nie und niemals neben nicht als Negationspartikel mit dem Kürzel ptk-neg bezeichnet. Beispiel (80): habe noch nie damit gespielt (031_SO.exb) Beispiel (81): Ich weiß es nicht mehr, wie der heißt. (042_MK.exb) Abtönungspartikeln (Regel 875) Die Abtönungspartikel, auch Modalpartikel genannt, drückt Einstellungen, Annahmen, Bewertungen und Erwartungen der Sprecherin/des Sprechers bezüglich eines Sachverhaltes aus. Sie bezieht sich auf den gesamten Satz. Das Kürzel für die Abtönungspartikel ist im Folgenden ptk-abt. Beispiele ([Dudenredaktion (2009)]): nicht, ja, bloß, doch, schon, denn, wohl, aber, nur, halt, eben, mal, auch, eigentlich, etwa, vielleicht, ruhig Beispiel (82): Findus, hack doch nicht auf mich drauf! (013_JS.exb) Beispiel (83): Ist denn das ein Briefumschlag? (033_RD.exb) Gesprächspartikeln (Regel 880) In der Gruppe der Gesprächspartikeln werden in der Dudengrammatik Gliederungspartikeln, Antwortpartikeln, manchmal auch Interjektionen und Onomatopoetika zusammengefasst. Laut Schwittala (2002) sind Gesprächspartikeln ein typisches Merkmal gesprochener Sprache ([Schwittala (2002)], S. 259-281). Sie stehen meist am Anfang oder am Ende eines Satzes. In der semantischen Analyse wurden die Gesprächspartikeln mit ptk-gespr bezeichnet. Die Antwortpartikeln wurden in der semantischen Analyse nicht zu den Gesprächspartikeln gezählt, sondern sind in der gesonderten Kategorie der Antwortpartikeln (ptk-ant) zusammengefasst. Ebenso befinden sich die Interjektionen in der eigenen semantischen Kategorie itj. Beispiele ([Dudenredaktion (2009)]): ja, ähm, äh, so, also, dann, nun, gut, naja, klar, sicher, genau, aber, übrigens, entschuldigung, natürlich, hoffentlich, leider, kaum, wie bitte?, was?, hm Beispiel (84): Äh, weiß ich nicht. (036_LAR.exb) Beispiel (85): Hm, hab’ ich vergessen. (038_LL.exb) 7.1. DIE BEDEUTUNGSKATEGORIEN 195 Antwortpartikeln, Partikeln mit Verbzusatz und Partikeln mit „zu“ neben dem Infinitv Diese Partikeln haben in der Dudengrammatik keine eigenen Einträge. Sie wurden in der semantischen Analyse jedoch weiterhin gemäß ihrer Funktion als POS-Tag in den STTS verwendet. Dabei entsprechen Antwortpartikeln (ptk-ant) der Kategorie PTKANT (ja, doch, bitte, bitteschön, danke, ok bzw. okay ), die Partikeln mit Verbzusatz (ptkvz) entsprechen der Kategorie PTKVZ gemäß den STTS. Hinter dem Kürzel ptkzu verbirgt sich die Partikel zu, die zusammen mit einem Verb den Infinitv bildet. Beispiel (86): Dankeschön!/ptk-ant (038_LL.exb) Beispiel (87): Gut, dann geb’ ich jedem ein paar ab/ptkvz. (020_MM.exb) Beispiel (88): ohne eine Pause zu/ptkzu machen (053_LEO.exb) 7.1.11 Verben In Bezug auf die Bedeutung und die Funktion können Verben hinsichtlich der Aktionsart und der Aktionalität unterschieden werden (Regel 564). Die Aktionsart steht im Zusammenhang mit dem vom Verb bezeichneten Geschehen oder Sachverhalt sowie dem Verlauf der Zeit. Unterschieden werden Verben, die punktuelle oder zeitbegrenzte Vorgänge beschreiben und dementsprechend einen Kulminations- und Endpunkt voraussetzen. Der Dudengrammatik zufolge werden solche Verben als telisch bezeichnet. Beispiele für telische Verben sind: gewinnen, einschlafen, loslaufen, finden, begegnen, ausziehen. Demgegenüber beschreiben atelische Verben Zustände und Relationen oder dynamische Prozesse oder Aktivitäten, die keinen Kulminations- oder Endpunkt voraussetzen (Regel 566). Beispiele für atelische Verben sind: sein, wohnen, laufen, schwitzen, streicheln, winken, abnehmen, altern, behalten. Die Aktionalität behandelt Klassifizierungen, die sich besonders an der semantischen Rolle des Subjektaktanten orientieren (Regel 570). Folgend soll die traditionelle Unterscheidung in Handlungsverben, Vorgangsverben und Zustandsverben erläutert werden. Diese Einteilung wurde auch zur Beschreibung der hier ermittelten Verben zu Rate gezogen. • Handlungsverben sind agentiv. Sie ordnen dem Subjekt eine typische Agensrolle zu und können telisch oder atelisch sein. Immer aber haben sie eine dynamische Aktionsart. Handlungsverben werden mit dem Kürzel (v-)handlung bezeichnet. Beispiele: setzen, töten, singen, arbeiten 196 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Beispiel (89): Wir spielen doch nur Räuber. (023_LUA.exb) Beispiel (90): Ich habe dort schon gebastelt. (040_MK.exb) • Vorgangsverben sind nicht agentiv. Sie beschreiben dynamische Sachverhalte, die nicht unter der Kontrolle eines Agens stehen und können telisch oder atelisch sein. Vorgangsverben werden mit dem Kürzel (v-)vorgang bezeichnet. Beispiele: erfrieren, wachsen, schlafen Beispiel (91): In der Zeit wird Papier für euch geliefert. (033_RD.exb) Beispiel (92): Hier schlafen ganz viele Krippenkinder. (038_LL.exb) • Zustandsverben sind atelische Verben, die statische Relationen oder Sachverhalte beschreiben. Sie verlangen kein typisches Agens als Subjekt. In dieser Arbeit ist auch haben, wenn es als Vollverb vorkommt, meistens ein Zustandsverb, wohlwissend, dass es von anderen Wissenschaftler/innen vielleicht keine solche Bezeichnung erhalten würde. Im Hinblick auf seine Semantik drückt haben jedoch einen Zustand des Besitzes aus, der weder durch eine Handlung noch durch einen Vorgang beschrieben werden kann. Zustandsverben werden mit dem Kürzel (v-)zustand bezeichnet. Beispiele: liegen, wohnen, besitzen Beispiel (93): Ich glaube mein Papa... (020_LAR.exb) Beispiel (94): Wir haben ’ne Meisterin. (020_MM.exb) Auxiliarverben, Modalverben, Kopulaverben Die oben aufgeführte Unterscheidung in Handlungsverben, Vorgangsverben und Zustandsverben wurde für alle finiten (VVFIN) und infiniten Verben (VVINF) verwendet, die keine Modalverben, Auxiliarverben oder Kopulaverben sind. Insbesondere bei den Kopulaverben (sein, werden, bleiben), die in den STTS mit VVFIN oder VVINF bezeichnet wurden, musste je nach Kontext entschieden werden, ob es sich um ein Kopulaverb handelt oder nicht. Kopulaverben wurden mit v-kop bezeichnet. Laut Dudengrammatik unterscheiden sich die Kopulaverben hauptsächlich darin voneinander, ob sie die Aussage des Prädikativs neutral (sein), als sich entwicklend (werden) oder als fortbestehend (bleiben) charakterisieren. Weiterhin ist das Kopulaverb Träger der Modus- und Temporalmerkmale des Satzes. Der Duden schreibt zudem, dass die Bezugsphrase normalerweise das Subjekt ist. Dies wird in den folgenden Beispielen deutlich (nach [Dudenredaktion (2009)]): 7.1. DIE BEDEUTUNGSKATEGORIEN 197 • (Anna) ist (gesund). (Anna) wird (gesund). (Anna) bleibt (gesund). • (Anna) ist (Chefin). (Anna) wird (Chefin). (Anna) bleibt (Chefin). (Regel 1202) Des Weiteren können bei Kopulaverben auch Prädikative mit identifizierender Bedeutung stehen: • (Der Gärtner) war (der Mörder). (Regel 1203) Manchmal sind insbesondere auch Adverbialien (z. B. Lokal- oder Modaladverbialien) als Ergänzung bei Kopulaverben möglich: • (Anna) ist (in Paris). (Der Ring) ist (aus Silber). (Regel 1203) Das Verb sein kann je nach Kontext auch Passiv-, Zustands- (v-zustand) oder Auxiliarverb (v-aux) sein. Das Verb werden kann je nach Kontext Kopulaverb, Passivhilfsverb oder Hilfsverb sein (v-aux) sein. Gleichermaßen verhält es sich mit dem Verb bleiben, das je nach Situation ein Kopulaverb sein kann oder aber ein Zustandsverb (v-zustand). Einen ungewöhnlichen Zustand bilden die Verben sein, werden und bleiben, wenn es sich um einen Infinitv handelt. Nach den STTS müssten sie mit VAINF (infinites Auxiliarverb) gekennzeichnet werden, obwohl es sich streng genommen an dieser Stelle nicht um ein infinites Auxiliarverb handelt (bzw. handeln kann). Aus diesem Grund wurden sein, werden und bleiben, wenn sie in infiniter Form vorliegen, mit dem POS-Tag VVINF gekennzeichnet. In ihrer Bedeutungskategorie sind sie (in dieser Arbeit) zumeist ein Kopulaverb und werden dementsprechend mit v-kop gekennzeichnet. Alle finiten Auxiliarverben, die bereits in den STTS mit VAFIN gekennzeichnet sind, wurden in der semantischen Analyse mit v-aux markiert. Die Modalverben müssen, können, sollen, wollen, dürfen, mögen/möchten wurden in der Wortartenanalyse mit VMFIN bezeichnet; in der semantischen Analyse mit v-mod. Beispiel (95): du hast aufgedeckt (031_MM.exb) (Auxiliarverb) Beispiel (96): Oder man springt runter mit einem Seil, das hier angefesselt ist. (041_MK.exb) (Auxiliarverb) Beispiel (97): Ich will mir dir Ritterburg spielen. (023_MK.exb) (Modalverb) Beispiel (98): Soll ich dir sagen, was KD immer macht? (039_LEO.exb) (Modalverb) Beispiel (99): Das sind keine Indiander. (039_LEO.exb) (Kopulaverb) 198 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Beispiel (100): Das ist im Aquarium. (053_RD.exb) (Kopulaverb) Wie in diesem Abschnitt dargestellt, ergeben sich für die Bezeichnung der Verben sechs Kategorien: (v-)handlung, (v-)vorgang, (v-)zustand, v-mod, v-aux und v-kop. Im hier erstellten Lexikon (Anhang) werden Verben der Handlung, des Vorgangs und des Zustandes der Übersichtlichkeit halber mit v-handlung, v-vorgang und v-zustand gekennzeichnet, wobei v- die Kategorie Verb einleitet. 7.2 Tendenzen in der Verwendung von Inhaltswörtern In den folgenden Unterabschnitten werden ausgesuchte Lemmata im Hinblick auf mögliche sprachliche und kognitive Entwicklungsschritte der hier untersuchten Kinder - an dieser Stelle zunächst die Inhaltskategorien - vorgestellt. Die Auflistung aller Lemmata in den drei Altersgruppen, geordnet nach ihren jeweiligen Bedeutungskategorien, befindet sich als gesondertes Dokument als Teil des erstellten Lexikons im Anhang dieser Arbeit (Zusammenfassung_Lemmata_in_den_Gruppen). 7.2.1 Nomen (n-abstr-eig, n-abstr-hdlg, n-abstr-maß, n-abstr-vorg, n-abstr-vorst, n-abstr-zeit, n-abstr-zust, n-belebt, n-unbelebt, ne) An dieser Stelle widme ich mich dem Vorkommen der Nomen in den drei Altersgruppen. Aufgrund der großen Anzahl der Nomen werden in diesem Unterabschnitt lediglich ausgewählte Nomen, die im Hinblick auf das Alter der hier untersuchten Kinder wichtige Entwicklungsschritte darstellen können, aufgeführt. Zunächst kann festgestellt werden, dass sich zahlreiche Nomen auf typisch konkrete Inhaltskategorien beziehen, wie es bereits Kauschke postulierte ([Kauschke (2012)], S. 56). In der folgenden Übersicht habe ich versucht, alle Nomen in den drei Altersgruppen aufzuführen, die in der Form nur selten im frühen Wortschatz zu finden sind und demnach besonderer Aufmerksamkeit bedürfen. Dazu gehören abstrakte Nomen, die physiologische Zustände (Müdigkeit, Durst etc.) oder Emotionen (Angst, Freude) ausdrücken sowie weitere abstrakte Begriffe (Glück ) und übergeordnete Begriffe (Hund). Nach Durchsicht der Daten ist weiterhin auffällig, dass die hier untersuchten Kinder vor allem in der zweiten und dritten Altersgruppe eine große Vielfalt an Komposita verwendeten, insbesondere solche, die in der Form nicht im Wörterbuch vokommen. An dieser Stelle ist eine Wortschöpfungsfähigkeit 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 199 erkennbar, die vermutlich im Vorschulalter stark expandiert. Gerade im Hinblick auf übergeordnete Begriffe und Komposita ist es jedoch nicht immer eindeutig, diese zuzuordnen. Der Grund ist vermutlich, dass die Entwicklung beider Kategorien miteinander einhergeht. Aus diesem Grund sind Hyperonyme und Komposita zu einer Kategorie zusammengefasst. Nomen/Altersgruppe Gruppe 1281_1495 Gruppe 1496_1708 abstrakte Begriffe Geheimnis (Gespannt), Idee, Angst, Ärger, Durst, Hilfe, Idee, Angst, Chance, Geist, Glück, (Auswahl) Kontrolle, Krach, Schuld, Welt Krieg, Schuld, Zauber Idee, Lüge, Möglichkeit, Pech übergeordnete Begriffe und Komposita Gruppe 1709_1983 Amsel, Baumspitze, Babyaffe, Babyschaf, Adventskalender, Adventskranz, Butzemann, Drachentier, Babyseerobbe, Apfelpresse, Arbeitsmaschine, Räuberkind, Ritterburg, Bauchschmerzen, Delfinmama, Aussichtsturm, Babykuh, Schwimmerbecken Dinowelt, Erdbeersuppe, Bandrobbe, Baumhaus, Eieruhr, Feinlöwe, Fernbedienung, Fleischklößchen, Gemüseacker, Frühlingsfell, Giftgurke, Glücksfarbe, Gummitier, Helflöwe, Käsekugel, Gummitierchen, Käsepfannkuchen, Käsering, Gutenachtgeschichte, Käsewurst, Klebeding, Halbfinale, Holzeimer, Kriegsstürmer, Leinenstoff, Holzstück, Holzteil, Keiler, Lieblingsfarbe, Nemofischchen, Klackerschuh, Krümelmomster, Nordamerika, Papierrolle, Kuchenteig, Leberwurst, Piratenspiel, Regenmuster, Lieblingsfarbe, Maiskolben, Ritterteil, Rosenkette, Matschepampe, Mausefalle, Salzbrezel, Seerobbe, Narwal, Ostergras, Stabheuschrecke, Osterhasensuche, Papierfisch, Süßigkeitenladen, Tankwasser, Papierhandel, Papiermaschine, Tischspiel, Totenkopf, Unterbett, Papierrest, Piratenmama, Uroma, Vanillesauce, Regenwolke, Riesenstapel, Vogelhäuschen, Winterfell, Ritterburg, Roboterschiff, Zauberfeuer, Zauberlaser, Säbelzahntiger, Schlitzohr, Zauberstab, Zauberstein, Schwarzbär, Schwertwal, Zoowärter Sechseck, Segelohr, Stolperfalle, Strafkarte, Süßigkeitensammlung, Übernachtungsparty, Vulkaninsel, Wasserfall, Wasserpistole, Weihnachtstrumpf, Wildschweinvater, Zaubertrank, Zaubertrick Tabelle 7.1: Nomen in den Altersgruppen Tabelle 7.1 zeigt sehr deutlich, dass die hier untersuchten Kinder mit zunehmendem Alter eine Vielzahl von Komposita produzierten, die ein hohes Maß an Kreativität aufweisen. Insbesondere in den Gruppen 2 und 3 zeugen Nomen wie Helflöwe, Feinlöwe, Giftgurke, Apfelpresse oder Papierfisch von 200 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET einer Fähigkeit, zwei separate Lexeme sinnvoll miteinander zu verbinden. Dabei handelt es sich nicht nur um die Kombination zweier Nomen (z. B. Apfelpresse oder Papierfisch), auch die Verbindung von Adjektiv und Nomen (Feinlöwe) sowie Verb und Nomen (Helflöwe) kann beobachtet werden. In Gruppe 1 können ebenfalls Komposita verzeichnet werden; diese liegen in dieser Arbeit jedoch nur in der Form Nomen + Nomen vor. Auch Clark (1995) postuliert, dass Kinder bereits in einem Alter von zwei Jahren anfangen, hoch produktive Kompositionen zu bilden. Sie sieht ferner Parallelen zur Verarbeitung von Basisbegriffen und Hypo-/Hyperonymen im Vergleich zur Fähigkeit der Bildung von Komposita. Demnach können Zweijährige Objekte auf mindestens zwei Ebenen kategorisieren: Auf der Ebene der Basis- sowie auf der Ebene der Unterbegriffe. Wenn Zwei- und Dreijährige Benennungen für Unterkategorien benötigen, identifizieren sie typischerweise die Basiskategorie und fügen einige modifizierende Nomen hinzu, so dass ein neues Kompositum entsteht (z. B. car-smoke für Abgas, das aus dem Auspuff eines Autos kommt) ([Clark (1995)]). Waxman et al. (1986) fanden diesbezüglich heraus, dass Kinder zwar anfänglich eine Präferenz für Basisbegriffe aufweisen, dass aber auch schon früh in der Spontansprache vereinzelte Oberbegriffe auftreten. Drei- bis Vierjährige hingegen könnten super- und subordinierte Begriffe bereits gezielt produzieren, wenn diese elizitiert werden ([Waxman (1990)]). Laut Kauschke et al. (2012a) setzt der Erwerb von Begriffen auf übergeordneter hierarchischer Ebene die Fähigkeit zur Abstraktion voraus, da Oberbegriffe Vertreter unterschiedlicher Gattungen aufgrund gemeinsamer Merkmale zusammenfassen würden ([Kauschke, Nutsch und Schrauf (2012)]). Ein wichtiges semantisches Feld innerhalb dieser Entwicklung abstrakter Bedeutungen sei das Vokabular für innerpsychische Zustände ([Bretheron und Beeghly (1986)]). Solche Wörter sind bei deutschsprachigen Kindern bereits im zweiten Lebensjahr beobachtbar und auch die Daten der hier untersuchten Kinder liefern Wörter für innerpsychische Zustände (z. B. Angst, Ärger, Durst) in der zweiten und dritten Altersgruppe ([Klann-Delius und Kauschke (1995)]). In der ersten Altersgruppe gibt es derartige Wörter nicht, was jedoch nicht heißen muss, dass die Kinder diese ansonsten nicht verwendeten. Vielmehr gibt es in der ersten Gruppe nur wenige Sprachdaten, weshalb davon ausgegangen werden kann, dass Wörter für innerpsychische Zustände schlichtweg nicht geäußert wurden, obwohl sie im kindlichen Lexikon vorhanden sind. Dennoch finden sich weitere abstrakte Begriffe (Geheimnis, Idee, Kontrolle, Krach, Welt), die zum Teil auch Emotionen ausdrücken (Schuld). Laut Kauschke et al. (2012a) treten Wörter für körperlich und emotional wahrnehmbare Zustände vor Ausrücken auf, die mentale Inhalte 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 201 ausdrücken; abstrakte Nomen (z. B. Gerechtigkeit) kämen erst später hinzu ([Kauschke, Nutsch und Schrauf (2012)]). Leider äußern sich Kauschke et al. nicht zum Zeitpunkt des Auftretens dieser Begriffe. Es kann jedoch angenommen werden, dass dies vor dem vierten Lebensjahr stattfinden muss, weil alle in der vorliegenden Arbeit untersuchten Kinder Begriffe dieser Art bereits vorweisen können. Eine interessante Untersuchung zum Verstehen abstrakter Begriffe (u.a. Leben, Tod, Fortpflanzung) liefert Szagun (1983). Sie untersuchte 216 Kinder im Alter von 4;7 bis 12;6 Jahren und kam zu dem Ergebnis, dass es drei Phasen geben muss, die beim Erwerb der Bedeutung abstrakter Begriffe durchlaufen werden: 4 bis 8 Jahre, 9 bis 12 Jahre und über 12 Jahre ([Szagun (1983)], S. 277-296). Die hier vorliegenden Ergebnisse lassen diesbezüglich rückschließen, dass die Kinder der zweiten und dritten Gruppe eventuell etwas mehr bzw. differenziertere abstrakte Begriffe verwendeten als die Kinder der ersten Gruppe. Vor allem der Begriff Angst kommt erst später vor. Bemerkenswerterweise taucht in Gruppe 1 das Wort Geheimnis mit dem Zusatz Gespannt auf. Dieser Zusatz wurde in Klammern notiert, weil das Kind (MA), welches Gespannt äußerte, auf das Wort Geheimnis hinaus wollte, aber zunächst nicht den Begriff fand. Man kann nun vermuten, dass es für jüngere Kinder noch schwierig ist, abstrakte Begriffe adäquat zu verwenden, obwohl sie diese in vertrauten Kontexten bereits richtig anwenden. Das betrifft auch das Wort Idee (Abbildung 7.1). Dieses Wort wurde erstaunlicherweise in der ersten Gruppe häufiger gebraucht als in den Gruppen 2 und 3. Es wurde jedoch immer nur in der Phrase „ich habe eine coole/gute Idee“ verwendet, die somit idiomatischen Charakter aufweist. Der Gebrauch idiomatischer Wendungen ist in einem solch frühen Alter zwar unüblich, dennoch nicht unmöglich. Auch Clark (1995) fand diesbezüglich heraus, dass einige Kinder bereits mit vier Jahren Idiome verwenden, obwohl diese normalerweise erst ab einem Alter von sechs Jahren häufiger produziert werden ([Clark (1995)] ). Abbildung 7.1: Verwendung von „Idee“: 039_MA 202 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET In Bezug auf die Verwendung von abstrakten Nomen ist es nicht verwunderlich, dass diese von Kindern im Vorschulalter noch weniger und zum Teil nicht adäquat verwendet werden. Ein sehr gängiges Unterscheidungskriterium von Abstrakta und Konkreta betrifft die Sinneswahrnehmung. Demnach werden Konzepte konkreter Nomen durch taktile, visuelle, akustische und andere sensorische Komponenten repräsentiert, während abstrakte Nomen nicht sinnlich wahrgenommen werden ([Kauschke, Nutsch und Schrauf (2012)]; siehe auch [Weiss (1997)], zitiert in [Kauschke, Nutsch und Schrauf (2012)]). Dies sei ein Grund dafür, dass Abstrakta nach Konkreta erworben werden. Diese Erkenntnis wird gestützt von Tomasello (2005), der ebenso konstatiert, dass die meisten der ersten Nomen einen Bezug zu konkreten Objekten haben, wohingegen abstrakte Nomen erst später erworben werden ([Tomasello (2005)], S. 45 ff.; siehe auch Abschnitt 2.3.1). Eine recht prominente Theorie stammt von Paivio (1986), der mit der Dual Coding Theory zwei funktional unterschiedliche Verarbeitungssysteme ansetzt ([Paivio (1986)]). Der Theorie zufolge kann von einem verbalen System ausgegangen werden, das aus vernetzten Wörtern besteht und auf sprachlicher Erfahrung basiert sowie von einem bildlichen System, das aus sensorischen Erfahrungen und inneren Abbildungen besteht. Ein Unterschied in der Verarbeitung entsteht dadurch, dass Konkreta mit beiden Systemen verarbeitet werden, während Abstrakta nur mit dem verbalen System verarbeitet werden. Konkrete Wörter weisen laut Paivio zudem eine stärkere Verbindung zum bildlichen System auf, da sie leichter eine innere Vorstellung hervorrufen können. Konkreta enthalten zudem eine größere Anzahl sensorisch basierter Merkmale, wodurch sie von beiden Systemen unterstützt und folglich leichter erlernt werden ([Paivio (1986)], S. 53-83). Abschließend möchte ich mich kurz zur Häufigkeit der Nomen in den Altersgruppen äußern. Die häufigsten Nomen in Gruppe 1 von insgesamt 264 geäußerten Nomen sind Turm (12), Auto, Idee, Mama, Papa, Räuber, Räuberkind (je 6). Das Lemma Karte kam fünfmal vor, Kind viermal. Mit insgesamt 14 Fällen trat das Nomen Uno am häufigsten auf. Da es im Zusammenhang mit einem Kartenspiel (Uno Uno) geäußert wurde, möchte ich es an dieser Stelle jedoch nicht überbewerten. Es ist wahrscheinlich nicht verwunderlich, dass Mama und Papa relativ häufig geäußert wurden. Interessant ist zudem, dass das abstrakte Nomen Idee insgesamt sechsmal und damit ebenso häufig wie das Wort Auto geäußert wurde. Wie schon erwähnt, wurde das Nomen Idee immer in der idiomatischen Wendung „ich habe eine (+ADJ) Idee“ gebraucht, was darauf schließen lässt, dass es als abstraktes Nomen noch nicht losgelöst vom Kontext verwendet und 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 203 verarbeitet wird. In Gruppe 2 wurden insgesamt 971 Nomen geäußert. Am häufigsten treten auf: Hause (24), Uno (18), Gold (13), Fußball (12), Feuer (11), Farbe (9) und Spiel (8). Auch hier zeigen sich größtenteils konkrete Nomen, wobei Hause meines Erachtens ein Grenzfall ist. Auch das Wort Uno ist aufgrund des Kartenspiels häufig vertreten. In Gruppe 3 gab es insgesamt 1245 Nomen in Bezug auf die Tokens. Am häufigsten wurde das Nomen Karte (29) verwendet, gefolgt von Papier (19), Blatt (18), Schnecke (16) und Mama (14). Eigennamen kamen in allen Gruppen vor. In Gruppe 3 wurde Julia (mein Vorname) 64 Mal verwendet und LAR 40 Mal. Dies zeigt, dass mit zunehmendem Alter anscheinend mehr Eigennamen im Gespräch verwendet werden, was unter anderem auf eine zunehmende Fähigkeit zur Interaktion schließen lässt. Eine weitere Entwicklung bezüglich der Eigennamen stellen Ortsbezeichnungen dar, die in den vorliegenden Daten erst ab einem Alter von 4;1 Jahren verwendet wurden (u.a. Afrika, Deutschland, Nordamerika, Spree). Bereits die Analyse der POS-Tags ließ vermuten, dass es einige wichtige Entwicklungsschritte im Alter von 3;5 bis 5;5 Jahren geben muss, die anhand der hier untersuchten inhaltlichen Aspekte bestätigt werden konnten und sich in die bisher ermittelten Entwicklungstendenzen hinsichtlich der Verteilung der Wortarten einfügen (Abschnitt 6.2). 7.2.2 Verben (v-aux, v-kop, v-mod, v-hdlg, v-vorgang, v-zustand) In diesem Abschnitt möchte ich nähere Informationen zu den Verben geben, die von den hier untersuchten Kindern geäußert wurden. Im Hinblick auf diese Aufgabe machte es sich mehr als bezahlt, die STTS für die Analyse verwendet zu haben, wodurch alle Verben anschließend nach ihren semantischen Kriterien klassifiziert werden konnten. Dadurch war es möglich, die Verben untergliedert in Auxiliar-, Kopula-, Modal-, Handlungs-, Vorgangs- und Zustandsverben darzustellen. Im Hinblick auf die STTS ergaben sich die Kategorien Auxiliar-, Modal- und Vollverb. Tabelle 7.2 zeigt alle Modalverben in allen Altersgruppen sowie die am häufigsten geäußerten Vollverben6 . Die Verben sein, werden und bleiben können je nach Kontext Kopulaverb oder Vollverb sein. Diese werden in der Tabelle zunächst nicht unter diesen beiden Bedingungen betrachtet, sondern erst an späterer Stelle nochmals analysiert. Die Verben haben, sein und werden können je nach Kontext Auxiliarverb oder Vollverb sein. Auch diese sollen erst später betrachtet werden. In Gruppe 1 wurden insgesamt 617 Verben geäußert, in Gruppe 2 2684 und in Gruppe 3 2502. 6 Hinsichtlich der semantischen Kategorien sind unter den Vollverben alle Handlungs-, Vorgangs- und Zustandsverben zusammengefasst. 204 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Verben/ 1281_1495 1496_1708 1709_1983 können (33), müssen (25), können (159), müssen müssen (129), können Altersgruppe Modalverben wollen (23), dürfen (8), (139), wollen (71), dürfen (121), dürfen (65), wollen sollen (1) (35), sollen (27), mögen (6), (54), sollen (26), möchten möchten (4) (19), mögen (7) Vollverben gucken (20), machen (19), gucken (150), machen machen (77), wissen (70), (häufigste) wissen (19), sehen (18), (138), wissen (90), kommen gehen (58), kommen (55), gehen (17), spielen (12) (76), spielen (70), gehen spielen (55), glauben (25) (66), glauben (10) Tabelle 7.2: Verben in den Altersgruppen Besonders auffällig ist, dass in allen drei Gruppen stets die gleiche Reihenfolge bezüglich der Äußerungshäufigkeit bei den Modalverben vorliegt. Das Modalverb können, gefolgt von müssen und wollen, ist in den Gruppen 1 und 2 das häufigste Verb. In Gruppe 3 ist müssen an der ersten Position, gefolgt von können und dürfen. Die Modalverben mögen und möchten kommen in Gruppe 1 nicht vor, wurden aber auch in den anderen beiden Gruppen nicht besonders häufig verwendet. Besonders erstaunlich ist ein Blick auf die Spalte der Vollverben. Die Verben sind in ihrer Äußerungshäufigkeit (bis auf eine Ausnahme) in allen drei Gruppen bis zur dritten Position gleich: gucken - machen - wissen. Die Ausnahme bildet das Verb gucken, das in der dritten Gruppe nicht unter den am häufigsten geäußerten Vollverben vertreten ist. In den ersten beiden Altersgruppen wurde es besonders häufig im Imperativ in der Phrase „guck mal“ geäußert. Dieses Muster zeigt sich in Gruppe 3 nicht mehr. Ansonsten sind sehr häufig die Verben machen, wissen, gehen und spielen vertreten. Auffällig ist das Verb wissen, das als einziges mentales Verb bzw. Zustandsverb (v-zustand) bereits in Gruppe 1 geäußert wurde. Die Verben denken und glauben erscheinen nur in den Gruppen 2 und 3, weshalb angenommen werden kann, dass diese mentalen Verben einen besonderen Entwicklungsschritt darstellen. Wie bereits weiter oben angeführt, fanden Kauschke et al. (2010) heraus, dass die mentalen Verben denken und wissen ab einem Alter von ca. 2;8 Jahren im Vokabular von Kindern auftreten ([Kauschke und Klann-Delius (2010)]). Dieses Ergebnis deckt sich mit den Erkenntnissen von Shatz et al. (1983), wonach zum Ende des 3. Lebensjahres die ersten Hinweise auf mentale Prozesse in Form von mentalen Verben (z. B. wissen, glauben), beobachtet werden ([Shatz, Wellmann und Silber (1983)]). Da zumindest das Verb wissen in den vorliegenden Daten vorkommt, wäre eine Vermutung, dass auch denken als mentales Verb im Wortschatz der Kinder aus Gruppe 1 vorhanden ist, hier jedoch nicht geäußert wurde. Wissen wurde zudem sehr oft im Zusammenhang mit „weißt du was?“ 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 205 geäußert; vornehmlich von einem Kind (MK). Dadurch erhält es - ebenso wie das Nomen Idee in der Phrase „ich habe eine coole Idee“ - idiomatischen Charakter. Im Folgenden möchte ich einige Beispiele anführen, in denen wissen in diesem Zusammenhang vorkommt (Abbildung 7.2). Aber auch in Abbildung 7.2: „wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK) anderen, nicht idiomatischen Kontexten kommt wissen in allen Altersgruppen vor (Abbildung 7.3). Das Verb glauben erscheint mit insgesamt 35 Malen Abbildung 7.3: „wissen“: 020_MM, 036_LAR häufiger als denken und kommt beispielhaft in den abgebildeten Kontexten vor (Abbildung 7.4). Das Verb denken erscheint insgesamt nur viermal; einmal in Gruppe 2, dreimal in Gruppe 3 (Abbildung 7.5). Dies lässt vermuten, dass es im Gegensatz zu glauben eine noch größere Hürde in der Entwicklung des Verblexikons darstellt. Meiner Erfahrung nach wird im Deutschen das Verb glauben verbal häufiger in feststehenden Wendungen wie „ich glaube“ verwendet; „ich denke“ in der Funktion als positionierende Wendung wird seltener gebraucht. Demnach ist es nicht verwunderlich, dass glauben häufiger und fast immer in der Wendung „ich glaube“ verwendet wurde (siehe dazu Kapitel 8). Zudem ist dies eine weitere Bekräftigung dafür, dass Kinder Lexeme nicht isoliert, sondern als Konstruktionen erlernen (siehe auch [Tomasello (2005)] in Abschnitt 2.3.1). Im Hinblick auf die Kategorie der Kopulaverben (v-kop) können keine besonderen Auffälligkeiten hinsichtlich der Verwendung über die drei Alterszeiträume hinweg beobachtet werden. 206 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Abbildung 7.4: „glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO Abbildung 7.5: „denken“: 033_JS, 045_MK Bei den Handlungsverben (v-handlung) sowie bei den Vorgangsverben (v-vorgang) fällt auf, dass mit zunehmendem Alter (ab Gruppe 1496_1708 im Verlauf zu Gruppe 1709_1983) differenziertere Verben geäußert wurden. Dies ist ebenso bei den Zustandsverben (v-zustand) zu beobachten, wobei hier in Gruppe 2 (1496_1708) die meisten verschiedenen Verben zu verzeichnen sind. 7.2.3 Adjektive (ad-part, ad-qual, ad-quant, ad-rel) An dieser Stelle sollen die Adjektive in den Altersgruppen und ihre Vorkommens- und Verwendungshäufigkeit näher betrachtet werden. Bei einer Durchsicht aller geäußerten Adjektive fällt auf, dass besonders viele Farbwörter verwendet wurden. Es ist unklar, ob diese auch in anderen Kontexten und Situationen derart häufig vorkommen würden (z. B. zu Hause oder bei einer Laborstudie). Denkbar ist, dass vor allem im Umfeld des Kindergartens und den damit verbundenden Aktivitäten wie Basteln, Malen, Lernspielen etc. gehäuft Adjektive verwendet wurden, die anderenfalls nicht derart oft im Sprachgebrauch vorkommen. Aus diesem Grund habe ich mich entschieden, die häufigsten Farbwörter getrennt von den häufigsten 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 207 übrigen Adjektiven aufzuführen. In Gruppe 1 wurden insgesamt 108 Adjektive produziert, in Gruppe 2 treten 484 Adjektive auf, in Gruppe 3 sind es 512. Adjektive/ 1281_1495 1496_1708 1709_1983 Altersgruppe Adjektiv Farbadjektiv groß (13), cool (6), klein (28), gut (20), gut (33), klein (26), ganz (5), richtig (5), groß (19), lang (15), schnell (21), groß (20), klein (4), schnell (4) richtig (14) richtig (15) gold (8) grün (26), rot (27), gelb rot (44), grün (40), gelb (22) (39), blau (24), orange (19) Tabelle 7.3: Adjektive in den Altersgruppen Es fällt nicht leicht, einen Entwicklungstrend hinsichtlich inhaltlicher Aspekte auszumachen. Ich möchte dennoch - in Anlehung an die Einteilung Kauschkes (1999) - versuchen, Näheres zum Adjektivlexikon im Vorschulalter auszuführen ([Kauschke (1999)], S. 140). Kauschke (1999) unterscheidet in modifizierende Elemente wie Attribute, Eigenschaften und Merkmale (z. B. heiß) und innerpsychische Zustände bzw. internal state-Adjektive (böse, toll). Die vorliegenden Daten möchte ich um Farbadjektive ergänzen, da diese einen großen Anteil am Adjektivlexikon der hier untersuchten Kinder ausmachen. Dies ist für das Alter der hier untersuchten Kinder nicht ungewöhnlich. Relativ neue Erkenntnisse zeigen, dass Kinder Farbadjektive mit 3 bis 4 Jahren erwerben, obwohl sie trotzdem oft Schwierigkeiten beim Erlernen dieser haben ([Backscheider und Shatz (1993)]; [Sandhofer und Smith (1999)]). Frühere Erklärungen postulieren, dass Kinder Probleme beim Verstehen von Farbwörtern aufweisen. Der Grund dafür sei, dass sie Farbe nicht als eine Domäne der Bedeutung abstrahieren können. Laut Wagner (2013) liegt das Problem beim Erwerb der Farbwörter darin, dass Kinder Farbwörter typischerweise schon dann produzieren, bevor sie sie mit der erwachsenengleichen Bedeutung verwenden. Demnach bestünde die Schwierigkeit vor allem darin, Farbe als eine Dimension mit linguistischer Bedeutung zu abstrahieren. Das Hauptproblem läge somit in der Unfähigkeit, Kategoriegrenzen für Farbwörter zu ziehen ([Wagner, Dobkins und Barner (2013)]). In Bezug auf die hier vorliegenden Daten scheint es jedoch so, dass keines der hier untersuchten Kinder Probleme mit dem Verstehen oder der Verarbeitung von Farbwörtern zeigt. Es wurden nicht nur die Grundfarben (blau, gelb, rot) geäußert, auch Mischfarben (rosa) oder Abstufungen (dunkelblau) kamen häufig vor. Nach Durchsicht meiner Aufzeichnungen zu den jeweiligen Aufnahme-Dateien wird deutlich, dass alle geäußerten Farbadjektive immer adäquat verwendet wurden. 208 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET In allen drei Altersgruppen treten vor allem Adjektive auf, die sich auf Relationen bzw. Dimensionen beziehen (groß, klein, schnell, lang). Ich möchte an dieser Stelle von genauen Häufigkeitsanalysen absehen. Neben diesen Eigenschaftsadjektiven ist das internal state-Adjektiv gut in Gruppe 2 und in Gruppe 3 vertreten. In Gruppe 1 kommt cool relativ häufig vor. Besonders auffällig ist das Vorkommen von Farbadjektiven in allen Gruppen. Erklärbar ist dies (zumindest in den hier erhobenen Daten) mit einer Vielzahl von interaktiven Spielen, die das Nennen von Farben erfordern. Abbildung 7.6 zeigt eine Grafik der Excel-Datei, die alle vorkommenden Adjektive, unterteilt in attribuierende Adjektive (ADJA) und determinierende Adjektive (ADJD), zeigt. Fakt ist, dass das Adjektivlexikon mit zunehmendem Alter offenbar vielfältiger, nicht aber unbedingt größer in Bezug auf den Gesamtanteil des Lexikons wird. In Gruppe 2 finden sich gar die gesteigerten Formen allergrößtund allerschlimmst-, die analog zur ansteigenden Bildung von Komposita bei den Nomen auftreten. In den Gruppen 1 und 3 tritt zudem egal auf, was in Gruppe 1 noch nicht zu finden ist. Des Weiteren sieht es so aus, als würden die hier untersuchten Kinder mit zunehmendem Alter spezifischere Adjektive verwenden. In Gruppe 1 und 2 wurde das negativ besetzte Adjektiv schlecht geäußert; in Gruppe 3 tauchen neben schlecht die Adjektive fies, blöd und doof auf. Daneben sind mit zunehmendem Alter mehr Antonympaare zu beobachten. In Gruppe 1 äußerten die Probandinnen und Probanden: • groß - klein, gut - schlecht, früh - spät In Gruppe 2 wurden folgende Antonyme geäußert: • groß - klein, gut - schlecht, kurz - lang, neu - alt, richtig - falsch, tief - flach, viel - wenig, weit - nah, schwer - leicht, früh - spät, voll - leer, warm - kühl sowie viel - wenig In den Daten von Gruppe 3 befinden sich die folgenden Antonyme: • alt - neu, breit - schmal, richtig - falsch, groß - klein, kurz - lang, leicht schwer, teuer - billig, viel - wenig, dick - dünn, gut - schlecht, hoch - tief, schmal - weit sowie traurig - lustig Diese Entwicklung geht laut Kauschke (2012) einher mit dem Erwerb des hierarchisch gegliederten Nomenlexikons, wobei Kinder Wörter in weiteren semantischen Zusammenhängen erwerben. Neben dem Erwerb der Bedeutungsgleichheit bzw. der Synonymie steht der Erwerb von Oppositionsbeziehungen wie Antonymie (heiß - kalt), Kontradiktion (tot lebendig), Konversion (ziehen - schieben) sowie die Teil-Ganzes-Beziehung 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 209 (Ärmel-Pullover ) ([Kauschke (2012)], S. 56 f.). Im Zuge dessen erlernen Kinder jene Adjektive, die in Opposition zueinander stehen. Laut Kuczaj (1999) erwerben Kinder Adjektive, die für die Extrempole eines Kontinuums stehen (z. B. heiß - kalt) vor Adjektiven, die Zwischenstufen anzeigen (z. B. warm - kühl) ([Kuczaj (1999)]). Derartige antonyme Zwischenstufen zeigen sich bereits in Gruppe 2 (warm - kühl). In Gruppe 3 gibt es fast ausschließlich konträre Antonympaare, wobei richtig - falsch womöglich ein kontradiktorisches Paar darstellt. Dieses Paar befindet sich im Übrigen auch in den Daten von Gruppe 2. Abbildung 7.6: Adjektive in den drei Altersgruppen (Ausschnitt) In einer früheren Studie untersuchte Kuczaj (1982a) ein Kind und fand heraus, dass es die Gegensatzpaare hot - cold zur Bezeichnung von Temperaturunterschieden zuerst erwarb; später erst kam cool - warm dazu ([Kuczaj (1982)]). Selbst nachdem das Kind gelernt hatte, dass hot 210 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET und cold die jeweiligen Endpunkte einer relativen Dimension ausdrücken, verstand es noch nicht, wie man am besten die Zu- bzw. Abnahme eines Dimensionsbegriffs ausdrückt. Folglich verwendete es einige Zeit „cool off “, um den Übergang von einem kühlen Zustand in einen anderen kühlen Zustand zu beschreiben. „Warm up“ wurde zum Beispiel in einer Situation verwendet, in der das Kind eine heiße Schokolade probierte. Nachdem diese zu heiß war, äußerte das Kind „Too hot! I’m gonna let it warm up“ ([Kuczaj (1982)]). Ein ähnliches Entwicklungsmuster konnte ich bei meinem Sohn beobachten. Mit 3 bis 4 Jahren nutzte er scheinbar polare Adjektive oft folgendermaßen: Wenn sein Essen noch zu heiß war, äußerte er oft „das muss erst warm/wärmer werden“ und drückte damit aus, dass es abkühlen muss. Er verwendete lange nicht das Wort abkühlen. Ein anderes Beispiel bezieht sich auf das Gegensatzpaar immer - nie. Nie wurde oft in der Bedeutung von selten oder gelegentlich verwendet. So äußerte R. oft „Ich war noch nie im Schwimmbad“, wenn es schon längere Zeit her war, dass wir Schwimmen waren und er eigentlich ausdrücken wollte, dass wir nur selten im Schwimmbad waren in letzter Zeit. Ab dem fünften Lebensjahr verwendete R. derartige Adjektive fast immer in aqäquater Weise. Kuczaj (1999) stellte ein derartiges Muster beim Erwerb semantischer Reihen fest. In Abfolgen wie hot, warm, cool, cold oder always, usually, sometimes, seldom, never erwerben Kinder jene Adjektive, die am Ende einer solchen Dimension stehen (hot - cold, always - never ) bevor sie Adjektive erlernen, die zwischen diesen Extremen liegen. Dieses Erwerbsmuster verdeutliche, dass die Extreme semantischer Dimensionen bedeutender für jüngere Kinder seien als die Punkte zwischen diesen Extremen, so Kuczaj ([Kuczaj (1999)], S. 151; siehe auch [Kuczaj (1975)]; [Kuczaj (1982)]; [Lyons (1977)]). Sobald Kinder ihr Lexikon erweitern, erwerben sie zunehmend semantische Relationen und verfeinern schlussendlich die Struktur dieser semantischen Abfolgen und Felder ([Kuczaj (1982)]; siehe auch [Clark (1993)]; [Dromi (1987)]). Clark et al. (1977) beschreiben diesbezüglich eine typische Erwerbsabfolge des Größenpaares a) big - small. Dieses stünde am Anfang der Erwerbskette, gefolgt von b) tall - short bzw. long - short, c) high - low, d) thick - thin und e) wide - narrow bzw. deep-shallow ([Clark und Clark (1977)], S. 499). Da bei den hier untersuchten Kindern bereits in Gruppe 2 das Größenpaar tief - flach auftaucht, kann davon ausgegangen werden, dass es ebenso im Lexikon der älteren Kinder aus Gruppe 3 enthalten ist, auch, wenn es hier nicht verwendet wird. In Gruppe 1 ist lediglich das Größenpaar groß - klein zu verzeichnen. Es wurden generell wenige Tokens in dieser Gruppe geäußert. Dennoch ist anzunehmen, dass Kinder dieses Alters (ca. 3;5 bis 4;1) noch nicht alle semantischen Relationen und deren Abfolgen erworben haben. 7.2. TENDENZEN IN DER VERWENDUNG VON INHALTSWÖRTERN 211 Laut Kuczaj (1982a) sind zum Erwerb lexikalischer Oppositionen zudem eine Vielzahl paradigmatischer Relationen erforderlich, damit Kinder ihr Lexikon korrekt strukturieren können. Dazu gehört auch, dass Kinder lernen, dass Objekte mit mehr als nur einem Lexem bezeichnet werden können. Ein Kind müsse außerdem entdecken, in welcher Beziehung diese Wörter zueinandern stehen und wie Wörter verwendet werden können, um damit Metaphern zu erschaffen ([Kuczaj (1982)]; siehe auch [Winner (1988)]). Es würde an dieser Stelle zu weit führen, all diese Aspekte im Hinblick auf den Erwerb von Adjektiven genauer zu betrachten. Fakt ist, dass anscheinend mehrere, sich überschneidende Prozesse für den Erwerb von Adjektiven erforderlich sind und diese Prozesse sich auch im Inhalt der hier geäußerten Lexeme widerspiegeln. Hinsichtlich der Verwendung von Adjektiven in Bezug auf die Bedeutungskategorien (ad-part, ad-qual, ad-quant, ad-rel) konnten folgende Tendenzen beobachtet werden: Insgesamt weisen die hier untersuchten Kinder mit zunehmendem Alter ein immer differenzierteres Adjektivlexikon (vor allem in Bezug auf die Kategorie ad-qual) auf, das insbesondere ab der zweiten Altersgruppe zum Teil sehr spezifische Adjektive enthält (u.a. magnetisch, kugelrund, unendlich, ungerecht, vernünftig, verrückt). Adjektivische Partizipien wurden in nur einem Fall in Gruppe 2 von LEO geäußert (fliegend). 7.2.4 Adverbien (adv-kaus, adv-komm, adv-lok, adv-mod, adv-temp) Die Adverbien werden neben den Nomen, Verben und Adjektiven mehrheitlich zu den Inhaltswörtern gezählt, obgleich sie oft nicht eindeutig zugeordnet werden können und zum Teil auch Funktionswörter sein können ([Dudenredaktion (2009)], S. 569). Besonders auffällig bei der Analyse der kausalen Adverbien (adv-kaus) war, dass das Adverb also erst ab der zweiten Altersgruppe (ab 4;1) Jahren geäußert wurde (50 mal in Gruppe 2, 12 mal in Gruppe 3). Zu diesem Phänomen liegen in der aktuellen und auch älteren Forschungslandschaft keine bzw. nur sehr wenige bekannte Studien und Ergebnisse vor. Zum einen besteht die Möglichkeit, dass also zwar im Lexikon der Kinder der ersten Gruppe enthalten ist, aber nicht verwendet wurde. Zum anderen besteht die Annahme, dass also noch nicht im (produktiven) Lexikon der hier untersuchten Kinder enthalten ist. In Anbetracht der lokalen (adv-lok ), modalen (adv-mod) und temporalen Adverbien (adv-temp) kann mit zunehmendem Alter eine immer differenziertere Verwendung dieser Adverbien verzeichnet werden. 212 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Lokale Adverbien wie dazwischen, nebeneinander oder seitwärts kommen in dieser spezifischen Form erst ab 4;1 Jahren vor. Ebenso weisen die temporalen Adverbien gleichzeitig oder inzwischen auf ein sehr spezifisches Adverblexikon ab einem Alter von 4;1 Jahren hin. Derartig konkrete Angaben zum Ort oder zur Zeit konnten bei jüngeren Kindern der Gruppe 1 nicht beobachtet werden. 7.3 Tendenzen in der Verwendung von Funktionswörtern An dieser Stelle sollen mögliche Entwicklungstendenzen der hier verwendeten Funktionswörter, und damit verbunden den konkret verwendeten Lemmata, über die drei Alterszeiträume hinweg dokumentiert werden. Zu den Funktionswörtern zählen dabei Artikel, Pronomen, Präpositionen und Konjunktionen ([Bussmann (1983)]) sowie in dieser Arbeit außerdem die Interjektionen und Partikeln. Hinsichtlich der Funktionswörter konnten an einigen Stellen Entwicklungstendenzen beobachtet werden, die sich - ebenso wie die Verteilung der Wortarten - vor allem ab Altersgruppe 1406_1708, also ab ca. 4;1 Jahren, bemerkbar machen. Kaltenbacher (1990) konnte Erwerbsprobleme bezüglich des Erwerbs von Funktionswörtern feststellen, wobei vor allem die Kontextabhängigkeit selbiger dafür verantwortlich sei. Die konkreten Schwierigkeiten, die Kinder beim Erwerb aufweisen, scheinen dabei eng mit der spezifischen Art des Kontextbezuges zusammenzuhängen ([Kaltenbacher (1990)], S. 42). So werde zum Beispiel die Definitheit bzw. Indefinitheit beim Artikelsystem, bei dem das ko- und kontextuelle Vorwissen von Sprechern und Hörern eine wichtige Rolle spielt, von englischsprachigen Kindern erst im Schulalter vollständig beherrscht ([Maratsos (1979)]). Derartige Zusammenhänge wurden in der vorliegenden Arbeit zwar nicht untersucht, jedoch sind grundlegende Entwicklungstendenzen in der Verwendung von Funktionswörtern in den Daten der vorliegenden Arbeit erkennbar. 7.3.1 Interjektionen (itj) Interjektionen wurden in allen drei Altersgruppen geäußert, wobei ab der zweiten Gruppe ein differenziertes Vokabular hinsichtlich der Interjektionen erkennbar ist. In Gruppe 1 (1281_1495) wurden nur vier verschiedene Interjektionen geäußert (aua, cool, hey, pff ). Ab einem Alter von 4;1 Jahren bzw. in den Gruppen 2 und 3 befinden sich sehr spezifische und - so scheint es - zielgerichtete Interjektionen (pfui, wow, juhu, tschüs, mann, prima, yippie). 7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN 213 Dies lässt vermuten, dass Interjektionen, zumindest was die hiesigen Daten anbelangt, ab einem Alter von 4;1 Jahren sehr viel bewusster eingesetzt werden und dementsprechend eine andere Funktion erfüllen als bei jüngeren Kindern. 7.3.2 Konjunktionen (kon-add, kon-adv, kon-alt, kon-kaus, kon-spez, kon-temp, kon-vgl) und Subjunktionen (sub-fin, sub-kaus, sub-kond, sub-konz, sub-mod-instr, sub-neutr, sub-temp) Hinsichtlich der Konjunktionen können einige wenige Entwicklungstendenzen festgestellt werden. Die adversative Konjunktion sondern kommt in Gruppe 1 nicht vor, während sie in Gruppe 2 und 3 mit drei bzw. zwei Fällen vertreten ist. Die spezifizierende Konjunktion außer hingegen kommt mit einem Fall nur in Gruppe 1 vor. Die temporale Konjunktion als tritt mit ebenfalls einem Fall nur in Gruppe 2 auf. An dieser Stelle sollte aufgrund der geringen Fallzahlen nicht von Entwicklungstendenzen gesprochen werden. Dazu wären weitere Daten erforderlich. Die finalen Subjunktionen liegen mit den Lemmata damit und um in geringen Fällen nur in Gruppe 2 und 3 vor. Die konditionale Subjunktion falls taucht nur einmal in Gruppe 3 auf, während wenn mit wesentlich höheren Fallzahlen in allen drei Gruppen vertreten ist. Zu einem ähnlichen Ergebnis kommt auch Rothweiler (1993), die in einer Untersuchung von Kindern zwischen 2 und 5 Jahren die Subjunktion wenn in allen Altersstufen gleichermaßen vorfand ([Rothweiler (1993)], S. 103 ff.). Das konzessive obwohl tritt in der vorliegenden Arbeit in Gruppe 2 dreimal, in Gruppe 3 einmal auf. Die modal-instrumentale Subjunktion ohne ist im gesamten Korpus nur einmal vertreten (in Gruppe 2). Im Gegensatz zu diesen recht geringeren Fallzahlen ist auffällig, dass die neutrale Subjunktion dass erst in den Gruppen 2 und 3 mit jeweils 18 Fällen auftritt. Ob hingegen ist in allen drei Gruppen vorzufinden, wenn auch mit sehr geringen Fallzahlen zwischen eins und drei Fällen. Leider liefert sowohl ältere als auch aktuelle Literatur nur wenige Angaben bezüglich der Verwendung von dass als neutrale Subjunktion, weshalb an dieser Stelle keine Schlussfolgerungen bezüglich des Erwerbs von dass im Spracherwerbsprozess möglich sind. Anhaltspunkte, die diese Ergebnisse stützen, finden sich erneut bei Rothweiler (1993). Demzufolge wird dass als Komplementierer (im Gegensatz zum finalen dass in der Funktion von damit) später erworben als ob, wobei die Polysemie von das/dass eine mögliche Ursache für den späteren Erwerb sein könnte ([Rothweiler (1993)], S. 102). Diese Erwerbsfolge deckt sich mit den Ergebnissen dieser Arbeit. Grundsätzlich betrachtet kann aufgrund der vermehrten Verwendung von 214 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Subjunktionen ab einem Alter von 4;1 Jahren ein vermutlich gesteigertes syntaktisches Wissen um die Bildung bzw. Einleitung von Nebensätzen angenommen werden. 7.3.3 Pronomen (pav, pdat, pds, piat, pidat, pis, pper, ppos, prels, prf, pwat, pwav, pws) Bei der Analyse der Wortarten nach den STTS (Kapitel 6) sowie der Zuordnung der Lemmata zu ihren Bedeutungskategorien wurden die Pronominaladverbien (pav ) zu den Adverbien gezählt. Doch die Pronominaladverbien stellen einen Grenzfall zwischen Adverb und Pronomen dar (siehe zum Beispiel [Dudenredaktion (2009)]). Deshalb werden sie an dieser Stelle ausnahmsweise den Pronomen zugeordnet, weil sie sich im gesamten Korpus eher bei den Funktionswörtern, denn bei den Inhaltswörtern, einreihen. Es fällt auf, dass erst in den Gruppen 2 und 3, also ab einem Alter von 4;1 Jahren die Pronominaladverbien außerdem und trotzdem auftreten. Des Weiteren finden sich in diesen Altersgruppen die Pronominaladverbien wofür, wenn auch nur mit je einem Fall. In Gruppe 1 sind lediglich Pronominaladverbien vertreten, die mit da(r)- oder hier- gebildet werden (siehe auch [Dudenredaktion (2009)], Regel 860). Bei den attribuierenden Indefinitpronomen ohne (piat) und mit Determiner (pidat) sowie bei den substituierenden Indefinitpronomen (pis) ist ab Gruppe 2 eine größere Vielfalt im Vokabular zu verzeichnen. In der Kategorie piat treten ab einem Alter von 4;1 Jahren Pronomen wie (ein) bisschen, solch-, andere, beide, jeder oder auch derselbe auf, die in der ersten Altersgruppe noch nicht zu finden sind. Ähnlich sieht es in der Kategorie pidat aus. In Gruppe 1 tritt lediglich das Pronomen beide auf, während in den Gruppen 2 und 3 andere, ein, (ein) paar und bisschen hinzukommen. Ein ähnliches Muster ist bei den substituierenden Indefinitpronomen erkennbar, wenn auch die verwendeten Pronomen bereits in Gruppe 1 recht vielfältig verwendet wurden. In Gruppe 2 und 3 treten neben den sehr häufig verwendeten Pronomen all-, ein, etwas und man auch seltener verwendete Pronomen wie irgendwas, irgendwelch-, jemand, jeder, manch-, niemand, wenig oder welch- auf. Letztere sind in Gruppe 1 noch nicht vertreten. Bei den Personalpronomen (pper ) und Relativpronomen (prels) sind keine Besonderheiten erkennbar. Im Hinblick auf die reflexiven Personalpronomen (prf ) ist, wie auch bei den anderen Pronomen, ein etwas differenzierteres Vokabular ab der zweiten Altersgruppe erkennbar, das ebenfalls bei den Possessivpronomen (ppos) verzeichnet werden kann. 7.3. TENDENZEN IN DER VERWENDUNG VON FUNKTIONSWÖRTERN 7.3.4 215 Präpositionen (pr-kaus, pr-lok, pr-mod, pr-neutr, pr-temp) Bei allen Kategorien die Präpositionen betreffend kann ein vielfältig verwendeter Einsatz selbiger ab einem Alter von 4;1 Jahren festgestellt werden. Wie bei den anderen Bedeutungskategorien und den darin enthaltenen Lemmata auch sollte aber bedacht werden, dass die Gesamtanzahl der Tokens in Gruppe 1 geringer ist als in den Gruppen 2 und 3, weshalb an dieser Stelle nicht von eindeutigen Entwicklungstendenzen gesprochen werden sollte. Bei den lokalen Präpositionen (pr-lok ) tauchen die folgenden Präpositionen in Gruppe 1 auf: an, auf, aus, bei, durch, in, zu. Bei den älteren Kindern in Gruppe 2 und 3 finden sich zudem auch Präpositionen wie hinter, nach, neben, über, von oder vor. Insbesondere von erscheint in diesen Gruppen mit 39 bzw. 41 Fällen recht häufig und lässt so die Tendenz einer gesteigerten Verwendung lokaler Präpositionen ab 4;1 Jahren vermuten. Bezüglich der modalen Präpositionen (pr-mod) befinden sich in Gruppe 1 lediglich für, mit und zu. Danach tauchen auch Präpositionen auf wie gegen, ohne oder um. Ein ähnliches Muster ist bei den temporalen Präpositionen (pr-temp) erkennbar. Während in Gruppe 1 nur die Präpositionen in und seit verwendet wurden, finden sich bei älteren Kindern auch nähere Bestimmungen der Zeit durch Präpositionen wie an, vor, zu und nach. 7.3.5 Partikeln (ptk-abt, ptk-ant, ptk-fok, ptk-gespr, ptk-grad, ptk-neg, ptkvz, ptkzu) Insgesamt kann bei allen Kategorien bezüglich der Partikeln festgestellt werden, dass ab 4;1 Jahren Partikeln vielfältiger verwendet wurden. Dies macht sich in den Daten dieser Arbeit vor allem bei den Antwortpartikeln (ptk-ant) und bei den Negationspartikeln (ptk-neg) bemerkbar. Während die Kinder der ersten Altersgruppe (1281_1495) vorwiegend Standardformen wie ja, ok, doch, nein, nicht gebrauchten, sind in den Gruppen 2 und 3 zudem sehr spezifische Partikeln wie bitte, bitteschön, danke, dankeschön, nie, niemals zu verzeichnen. Die Verwendung von Abtönungspartikeln (ptk-abt), Fokuspartikeln (ptk-fok ) und Gesprächspartikeln (ptk-gespr ) erscheint ab Gruppe 2 (1496_1708) vielfältiger. Aufgrund der recht bedeutungsarmen Inhalte einzelner Partikeln (z. B. äh, mh, ne, oh, ah) lassen sich jedoch nur schwer Tendenzen ausmachen. Lediglich ein Blick auf die Produktion der Gradpartikeln (ptk-grad) lässt einen gezielteren Einsatz mittels zum Teil spezifischer Partikeln vermuten. Besonders auffällig ist hier die Verwendung der Partikeln überhaupt, 216 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET besonders, ziemlich und sehr, die im Vokabular der jüngeren Kinder in Gruppe 1 nicht vorkommen und erst in Gruppe 2 und 3 auftreten. 7.4 Hinweise zur Verwendung des Lexikons An dieser Stelle möchte ich einige Hinweise anführen, die bei der Verwendung des hier erstellten Lexikons und den dazugehörigen Dateien hilfreich sein können. Die Bezeichnung Lexikon bezieht sich in diesem Zusammenhang auf die Gesamtheit der hier erhobenen Daten. Es stellt also keineswegs die Grundgesamtheit aller möglichen Lemmata im kindlichen Lexikon der deutschen Sprache dar, sondern bezieht sich auf die im gegebenen Zeitraum von den Kindern produzierten syntaktischen Wörter mit den jeweiligen Lemmata. Von daher müsste man korrekterweise von einem Lexikon der untersuchten Probandinnen und Probanden sprechen (siehe auch [Schlaefer (2002)]). Dieses Lexikon befindet sich im Anhang unter dem Namen Zusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen.xls. Darin enthalten sind alle Lemmata, geordnet nach ihren Bedeutungskategorien, unabhängig vom Zeitraum, in dem sie geäußert wurden. Zusätzlich ist die Anzahl der Lemmata sowie eine Beispielaussage und die jeweilige EXMARaLDA-Datei, aus der das Beispiel entnommen wurde, aufgeführt. Unter Verwendung dieser Zusammenfassung erhält man demnach einen Überblick über die geäußerten Wörter aller hier untersuchten Kinder im Zeitraum von 1281 bis 1983 Tagen bzw. 3;5 bis 5;5 Jahren. Für eine genaue Betrachtung der Lemmata unter Berücksichtigung ihrer semantischen Kategorien in den Altersgruppen sollte das Dokument Zusammenfassung_Lemmata_Gruppen.xls im Anhang hinzugezogen werden. Dieses enthält, geordnet nach den Bedeutungskategorien, alle Lemmata mit ihrer jeweiligen Vorkommenshäufigkeit. Diese Anordnung wurde für jede Altersgruppe vorgenommen, wodurch die einzelnen Verläufe besser sichtbar werden. Im Dokument Zusammenfassung_alle_Gruppen_mit_POS_Tags.xls sind alle Lemmata pro Altersgruppe sortiert nach ihren zugehörigen Bedeutungskategorien aufgeführt und mit jenen POS-Tags markiert, mit denen sie im Korpus auftreten. Dieses Dokument kann hilfreich sein, wenn Lemmata in Bezug auf ihre semantischen und syntaktischen Eigenschaften analysiert werden sollen. In Kapitel 5 wurden zahlreiche weitere Analysemöglichkeiten aufgezeigt und sollen hier nicht erneut diskutiert werden. Alle weiteren Ausgabedateien, die aufgrund ihrer immensen Fülle nicht im Anhang dieser Arbeit zu finden sind, können auf Anfrage auf einem entsprechenden Datenträger zusammengestellt und weitergegeben 7.4. HINWEISE ZUR VERWENDUNG DES LEXIKONS 217 werden. Eine Veröffentlichung dieser Daten in digitaler Form ist, wie eingangs schon erwähnt, leider nicht möglich. 7.4.1 Beispielhafte Ausgabedateien An dieser Stelle sollen der Vollständigkeit halber einige der Ausgabedateien, die mittels der Ausführungen durch die Skripte des CA erstellt wurden, gezeigt werden. Insbesondere vor dem Hintergrund, dass durch die hier angewandte Methodik im gesamten Verlauf dieser Arbeit zahlreiche und sehr vielfältige Möglichkeiten mit den in Kapitel 5 verwendeten Skripten entstanden, rechtfertigen diesen Unterabschnitt. • Ein Ausschnitt aus der Ausgabedatei, die durch das Ausführen des Skriptes db_query_all_tag_count.sh entstanden ist, ist in Abbildung 7.7 zu sehen, die einige der von LEO und LUA geäußerten Nomen im Zeitraum 1496 bis 1708 zeigt. Abbildung 7.7: tag count_NN_1496_1708 • Abbildung 7.8 zeigt einen Ausschnitt einer Ausgabedatei, die durch das Ausführen des Skriptes db_query_all_tag_count_name.sh entstanden ist und einige der von JS geäußerten Adverbien (ADV) im Zeitraum 1709 bis 1983 enthält. 218 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Abbildung 7.8: tag count_JS_ADV_1709_1983 • Abbildung 7.9 zeigt einen Ausschnitt der im Zeitraum 1281 bis 1495 geäußerten Vollverben im Infinitiv (VVINF) bezogen auf die Tokens. Grundlegend hierfür war das Ausführen des Skriptes db_query_all_typetoken.sh. • In Abbildung 7.10 ist ein Ausschnitt der von allen Sprecherinnen und Sprechern im Zeitraum 1709 bis 1983 geäußerten Adjektive (ADJ) zu sehen. Erforderlich war das Ausführen des Befehls db_query_all_typetoken_lemma.sh. • In Abbildung 7.11 sind ausschnitthaft die Modalverben (VMFIN) der Sprecher/innen, die diese im Zeitraum 1496 bis 1708 verwendet haben, zu sehen. Durch Ausführen des Skriptes db_query_all_lemma_tag.sh werden neben den Wörtern auch die Lemmata und die dazugehörigen POS-Tags mit angezeigt. • Die Ausgabedateien des Befehls db_query_all_lemma_bedeutung.sh sind je nach Ausführungsanweisung relativ groß und bieten zahlreiche Informationen. Abbildung 7.12 zeigt den Ausschnitt einer solchen Datei. Sie stammt aus dem Zeitraum 1281 bis 1495 und zeigt einige der geäußerten Vorgangsverben (v-vorgang) als übergeordnete Kategorie. Daneben sind die Verben als syntaktisches Wort mit dem jeweiligen Lemma und dem dazugehörigen POS-Tag versehen. 7.5. ZUSAMMENFASSUNG 219 Abbildung 7.9: type token_VVINF_1281_1495 • Durch das Ausführen des Befehls db_query_all_typetoken_bedeutung.sh enstehen Dateien, wie sie in Abbildung 7.13 zu sehen sind. Die Abbildung zeigt die Ausgabedatei für die Altersgruppe 1709 bis 1983 mit den entsprechenden Lokaladverbien (adv-lok ), die in diesem Zeitraum geäußert wurden. 7.5 Zusammenfassung In diesem Kapitel wurde, unter der Voraussetzung aller bisher getätigten Schritte, die eigentliche Erstellung des produktiven Lexikons der hier untersuchten Kinder vorgestellt und mit allen Ergebnissen präsentiert. Der dabei wichtigste Schritt war die Zuordnung aller Lemmata zu sogenannten Bedeutungskategorien, die sich auf semantische Aspekte beziehen. Im Gegensatz dazu bezog sich die Zuordnung der Lemmata zu den POS-Tags vornehmlich auf lexikalisch-synaktische Aspekte. Mithilfe des CA (Kapitel 5) wurden alle neuen Daten unmittelbar in die Datenbank importiert, wodurch mit Hilfe von zwei neu erstellten Skripten (5.2.4.5 und 5.2.4.6) das eben beschriebene Lexikon mit seinen zusätzlichen Dateien erstellt werden konnte. Durch die nachfolgende Betrachtung aller Bedeutungskategorien in den Altersgruppen (Abschnitte 7.2 und 7.3) konnten Entwicklungstendenzen ausgemacht werden, die es wert sind, in Zukunft näher untersucht zu werden. Es bleibt vor allem die Frage, ob es sich um tatsächliche Tendenzen handelt, die ab einem Alter von 4;1 Jahren auftauchen oder aber, ob die erhobenen Daten in der Altersgruppe 1 zu gering waren im Gegensatz zu 220 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Abbildung 7.10: type token lemma_ADJA+ADJD_1709_1983 den Gruppen 2 und 3. Erstaunlich ist, dass sich die Tendenz einer Änderung der semantischen Aspekte im Lexikon der hier untersuchten Kinder ab einem Alter von 4;1 Jahren einfügt in die ermittelten Ergebnisse bezüglich der Wortartenverteilung (Kapitel 6), die ebenfalls eine Veränderung der Verteilung der Wortarten ab einem Alter von 4;1 Jahren vermuten lassen. Diese Ergebnisse geben Anlass dazu anzunehmen, dass sich das Lexikon ab einem Alter von vier Jahren grundlegend neu zu strukturieren beginnt. 7.5. ZUSAMMENFASSUNG Abbildung 7.11: lemma tag_VMFIN_1496_1708 Abbildung 7.12: lemma bedeutung_v-vorgang_1281_1495 221 222 KAPITEL 7. DER GRUNDWORTSCHATZ SEMANTISCH BETRACHTET Abbildung 7.13: type token bedeutung_adv-lok_1709_1983 Kapitel 8 Diskussion An dieser Stelle sollen die Ergebnisse dieser Arbeit noch einmal betrachtet und im wissenschaftlichen Kontext diskutiert werden. Dabei möchte ich chronologisch im Sinne der Kapitel der vorliegenden Arbeit vorgehen. Um sich der Methodik und Analyse der durchgeführten Beobachtungsstudie zu nähern, wurde im Vorfeld der aktuelle Forschungsstand resümiert. Allen voran war es wichtig, den Begriff Lexikon in seiner Vielfalt aufzuzeigen und eine Definition vorzugeben, die in dieser Arbeit Anwendung fand. Dabei kristallisierte sich die Definition des mentalen Lexikons, wie sie unter anderem Aitchison (2003, 1994) postulierte, als passend heraus ([Aitchison (2003)]; [Aitchison (1994)]). Es erscheint logisch, dass es sich nicht um ein Lexikon im Sinne eines Wörterbuches handeln kann, wenn die Rede vom Spracherwerb und von der Wortartenverteilung im Vorschulalter ist. Würde tatsächlich von einem Wörterbuch(-lexikon) gesprochen werden, wären wohl alle Ergebnisse dieser Arbeit hinfällig. Allein die Tatsache, dass viele Nomen Wortneuschöpfungen darstellen, zeigt, dass es sich nur um die Arbeit des mentalen Lexikons handeln kann. Diese Erkenntnis leitet nahtlos über zu den in Kapitel 2.2 besprochenen Lexikonmodellen von Levelt (1992) und Dell (1992) ([Levelt (1992)]; [Dell und O’Seaghdha (1992)]). Levelt geht von einem seriellen Vorgang der Prozesse im mentalen Lexikon aus. Konzeptualisierer, Formulator und Artikulator arbeiten demnach ausschließlich nacheinander. Ein Zurück bzw. gegenseitiges Beeinflussen ist nicht möglich. Dells Ausführungen zufolge sind interaktive Prozesse zwischen den Einheiten an den angrenzenden Stufen erlaubt. Anhand der Ergebnisse der vorliegenden Beobachtungsstudie kann davon ausgegangen werden, dass es vermutlich interaktive Prozesse sind, die die Vorgänge im mentalen Lexikon ausmachen. Ob sich diese interaktiven Prozesse mit den Erkenntnissen von Dell tatsächlich decken, kann zwar nicht mit Sicherheit behauptet werden, doch erscheint eine serielle Verarbeitung von Lemmata im Lexikon 223 224 KAPITEL 8. DISKUSSION unwahrscheinlich. Ein Hinweis auf interaktive Prozesse bildet die Tatsache, dass es während der Aufnahmen für die vorliegende Arbeit gelegentlich zu Ausspracheschwierigkeiten kam, die noch während des Äußerungsprozesses von vielen Kindern verbessert wurden. Diese Aussprachfehler sind hier nicht vermerkt, da es vorrangig um die Inhalte des Lexikons ging1 . Schenkt man den Aussführungen Dells (1992) Glauben, kann es sich hierbei nur um interaktive Prozesse handeln ([Dell und O’Seaghdha (1992)]). Bei einem Aussprachefehler, der während eines Äußerungsprozesses korrigiert wird, würde der Zugang zum Lemma vor der Äußerung korrekt erreicht werden. Ob die anschließende phonologische Realisierung oder aber die Artikulation des Lexems Fehler enthält, kann nicht mit Sicherheit gesagt werden und beide Varianten sind wohl möglich. Einleuchtend ist hingegen, dass bei einer Korrektur hin zu einer richtigen Aussprache eine Interaktion zwischen dem Formulator und dem Artikulator stattfinden muss. Ein weiterer Indikator für das Zusammenspiel mehrerer Vorgänge ist das Vorkommen von Wortschöpfungen. Lexeme wie Nemofischchen und Kriegsstürmer sind nicht standardmäßig im Repertoire des mentalen Lexikons enthalten. Sicher können diese in der vorliegenden Form als Kompositum ins Lexikon aufgenommen worden sein. Es scheint aber eher so, dass Kinder zu einem solchen Kompositum durch die Zusammensetzung von Nemo und Fischchen bzw. Fisch erst in der Interaktion gelangen. Dafür müssten meines Erachtens einige Prozesse parallel ablaufen. Der Zugang zum Lemma würde in einem solchen Fall zwei Lemmata umfassen, die anschließend zu einem Lemma zusammengesetzt werden und als ein Lemma artikuliert werden. Fraglich ist, ob der Formulator bereits ein Lemma erhält oder eher beide Teile des zu äußernden Lemmas. Zumindest in Anbetracht der vorliegenden Ergebnisse kann davon ausgegangen werden, dass es sich um interaktive Prozesse handelt, die im mentalen Lexikon stattfinden. Im Verlauf der Arbeit wurde der Forschungsstand hinsichtlich des Lexikonerwerbs bis zu einem Alter von 3 Jahren dargestellt. Zum einen kam die Sichtweise Tomasellos (2000, 2005) als Verfechter der Konstruktionsgrammatik zum Tragen. Meines Erachtens ist die Theorie des usage-based learning die bisher plausibelste aller Spracherwerbstheorien, die sich nicht nur in der Grammatik, sondern auch im Erwerb des Lexikons widerspiegelt (z. B. [Tomasello (2000a)]; [Tomasello (2005)]). Zum anderen wurde der Erwerb des Lexikons im Allgemeinen bzw. in seinen aufeinander aufbauenden und sich gegenseitig beeinflussenden Stadien dargestellt. Der Erwerb des Lexikons basierend auf einer Studie von Kauschke (1999) 1 Alle Äußerungen, auch jene mit Aussprachefehlern bzw. -schwierigkeiten, können bei Bedarf durch ein Abspielen der Audiodateien in FOLKER verfolgt werden. 225 wurde ausführlicher behandelt, da es Parallelen zu der hier durchgeführten Beobachtungsstudie gibt ([Kauschke (1999)]; siehe auch [Kauschke (2000)]; [Kauschke (2012)]). Beide Arbeiten verfolgen ein ähnliches Ziel: die Komposition des Lexikons in unterschiedlichen Zeiträumen auf der Basis von gesprochenen Daten darzustellen. Um die Wortarten und ihre Verteilung darstellen zu können, musste zunächst ein Klassifikationssystem gefunden werden, das den Bedürfnissen der hiesigen Arbeit gerecht wird und mit welchem sich auch eventuell weiterführende Studien durchführen lassen. Als geeignet stellten sich die STTS (Tabelle 3.2) heraus, die sehr detaillierte Einteilungen aller Wortarten beinhalten. Es war zudem wichtig, eine bereits vorhandene und möglichst populäre Klassifikation zu verwenden und damit weiterführende Forschung auf diesem Gebiet zu gewährleisten. Mit einem eigens erstellten Klassifikationssystem wäre das nicht oder nur schwer möglich und vor allem nicht mit den Ergebnissen anderer Arbeiten vergleichbar. Die STTS enthalten eine Einteilung der Wortarten in 54 Kategorien. Nach diesem Schema wurden auch die in der vorliegenden Arbeit geäußerten syntaktischen Wörter getaggt. In der späteren Analyse erwies es sich allerdings als hilfreich, die 54 Kategorien durch eine Neugruppierung zusammenzufassen und somit auf maximal 19 Kategorien zu reduzieren (Tabelle 6.1). Für die Zwecke dieser Arbeit war dies absolut ausreichend. Es traten an einigen Stellen jedoch Schwierigkeiten auf, die sich erst während der Analyse zeigten. Dies betrifft die Analyse von Wörtern nach rein lexikalischen Kriterien. Die STTS beruhen in großen Teilen auf solchen lexikalischen Kriterien, weisen an vielen Stellen aber syntaktisch basierte Kategorien auf. Dies betrifft zum Beispiel die Einteilung der Verben in imperative, finite, Auxiliar - und Modalverben, welche deutlich zeigt, dass eine Entscheidung darüber, in welcher Konjugationsform sich ein Verb befindet, oft nur im Kontext getroffen werden kann. Auch an weiteren Stellen gab es zum Teil derartige Probleme, die ich versucht habe, so gut wie möglich im Zusammenhang einer lexikalisch basierten Analyse zu betrachten (Abschnitt 4.1.7). Es stellte sich zudem heraus, dass auch andere Klassifikationssysteme diese und andere Schwachstellen aufweisen, die ich an dieser Stelle jedoch nicht ausführen möchte. Im Endeffekt konnte das Problem der syntaktisch basierten Kategorien weitestgehend damit umgangen werden, dass Kategorien zusammengefasst wurden. Im Falle der Verben gibt es schließlich nur noch die Kategorien Auxiliarverb (VA), Modalverb (VM) und Vollverb (VV). Dadurch konnte dem Anspruch einer lexikalischen Analyse weitestgehend entgegengekommen werden. Meines Erachtens sind die STTS trotz der eben genannten Hindernisse gut geeignet, um den Wortschatz von Vorschulkindern adäquat zu beschreiben. Inbesondere für einen Vergleich zur 226 KAPITEL 8. DISKUSSION Sprache von Erwachsenen erscheint die Entscheidung für die STTS sinnvoll. Im anschließenden Methodikteil wurden die Daten aller hier aufgeführten Probandinnen und Probanden dargelegt, das Diktiertgerät sowie die Arbeit mit der hier verwendeten Software beschrieben (Kapitel 4). Hervorzuheben ist dabei insbesondere die Arbeit mit dem EXMARaLDA Partitur Editor, welcher für zahlreiche korpuslinguistische Arbeiten empfehlenswert ist. Es können nicht nur die Lemmata getaggt und mit Beschreibungen jeglicher Art versehen werden, auch die Analyse von Morphemen und Phonemen wäre darstellbar. Dafür ist in jedem Falle eine gute Datenaufbereitung durch eine qualifizierte Person notwendig, da dies nicht von der Software übernommen werden kann. Weiterhin habe ich versucht, alle Sonderfälle, die beim Taggen und bei der Lemmatisierung der gesammelten Daten auftreten können, einzugrenzen und so gut wie möglich zu beschreiben. Kapitel 5 hat sich zu einem äußerst wichtigen Thema entwickelt, da sich die Arbeit mit dem CA als überaus hilfreich und wegweisend erwiesen hat. Zunächst sollte die Software lediglich verwendet werden, um das Auszählen der Wörter, POS-Tags, Lemmata und Bedeutungskategorien einfacher zu gestalten. Während der Arbeit mit dem CA stellte sich heraus, dass durch das recht unkomplizierte Abändern der Skripte sowie ein Hinzufügen neuer Skripte, mit denen die Datenbank kommuniziert, zahlreiche weitere Analysen unternommen werden können, die für die vorliegende Arbeit von erheblichem Nutzen waren. Die Datenbank selbst wurde von Mack (2014) für die Zwecke dieser Arbeit erstellt. Ebenso wurden die ersten Skripte zur Berechnung der Anzahl der Wörter, deren POS-Tags, die Anteile am gesamten Output sowie die dazugehörigen Befehle zur Ausgabe in CSV-Dateien von Mack zur Verfügung gestellt ([Mack (2014)]). Die darauffolgenden Skripte wurden zu Teilen von mir selbst erstellt. Durch die intensive Arbeit mit dem CA und der glücklichen Tatsache, es mit einem Open Source Programm zu tun zu haben, lassen sich zahlreiche weitere Ziele für die Arbeit damit erahnen. Die Analyse vieler Sprachen erscheint möglich. Es kommt nur darauf an, die Ziele im Vorfeld festzulegen und die Skripte entsprechend anzupassen. Insbesondere eine Untersuchung der romanischen Sprachen sowie des Englischen sollte meines Erachtens nach dem gleichen Verfahren wie das Deutsche bearbeitet werden können. All diese Sprachen weisen keine gravierenden strukturellen Unterschiede auf, da sie zumeist flektierenden Charakter haben. Prinzipiell sollte es auch möglich sein, strukturell davon abweichende Sprachen zu untersuchen, wenn ein entsprechendes Klassifikationssystem verwendet wird. Durch die Vielfältigkeit der Software lassen sich nahezu alle linguistischen Einheiten alphabetisch oder nach anderen Kriterien auflisten und berechnen. Denkbar wäre es, im Nachgang an die vorliegende Arbeit, die Daten älterer 227 Kinder auf gleiche Weise zu analysieren, um herauszufinden, ab welchem Alter keine gravierenden Unterschiede mehr in der Wortartenverteilung auftreten. In der folgenden Analyse (Kapitel 6) dieser Arbeit wurden mehrere Auswertungen mit den hier erhaltenen Daten vorgenommen. Zunächst wurden alle drei betrachteten Altersgruppen (1281 bis 1495, 1496 bis 1708, 1709 bis 1983) im Hinblick auf die Verteilung der Wortarten miteinander verglichen. Dabei wurde zwischen allen verwendeten (syntaktischen) Wörtern (Tokens) sowie zwischen dem Anteil verschiedener Wörter (Types) bezüglich der Lemmata unter diesen Tokens unterschieden. Ein erster, sehr grober Vergleich ließ vermuten, dass die Verteilung der Wortarten sowohl bezüglich der Types als auch der Tokens über die Altersgruppen hinweg annähernd gleich bleibt. Bei einem genaueren Blick auf die Wortartenverteilung hinsichtlich der Tokens fiel Folgendes auf2 : Adverbien und Pronominaladverbien (ADV + PAV) werden prozentual recht häufig verwendet (je 14,6% - 17,3% - 12,9%). Der Anteil der Konjunktionen (KON) nimmt im Verlauf leicht ab (je 8,1% - 7,1% - 5,6%) ebenso wie der Anteil der attribuierenden, substituierenden und Indefinitpronomen (PIDATS) (je 5,2% - 4,9% - 4,0%). Die Verwendung der Personalpronomen (PPER) steigt mit zunehmendem Alter leicht an (je 9,7% - 10,6% - 12,7%) wie auch die Verwendung der Adjektive (ADJ) (je 3,7% - 3,8% - 4,5%). Erstaunlicherweise bleibt die Verwendungshäufigkeit der Verben (VA, VM und VV) nahezu gleich über die Altersgruppen hinweg (je 21,2% - 21,4% - 22,1%). Der Anteil der Nomen (N) steigt nur leicht mit zunehmendem Alter (je 9,1% - 7,7% - 11,0%) an, zeigt jedoch keinen kontinuierlichen Anstieg aufgrund des vorübergehenden Abfalls in Gruppe 2. In Bezug auf diese Werte lassen sich folgende hypothetische Aussagen treffen: Annahme 1: Im Verlauf von 3;5 bis 5;5 Jahren verwenden Kinder zu einem großen Anteil Adverbien, die bis zu einem Fünftel des gesamten Wortschatzes ausmachen können. Nomen nehmen keinen überaus hohen Anteil am Vokabular ein, wodurch davon ausgegangen werden kann, dass nach dem dritten Lebensjahr der hier untersuchten Kinder der Anteil drastisch abnimmt und auf einem Niveau von ca. 10% zunächst stabil bleibt (eventuell bis ins Erwachsenenalter). Dies entspricht ferner dem Anteil von Nomen im Vokabular von Erwachsenen, der von Kauschke (2007) ermittelt wurde ([Kauschke (2007)], S. 132). 2 Die nun folgenden relativen Anteile, geschrieben in Klammern, beziehen sich auf die jeweiligen Altersgruppen. An erster Stelle befindet sich Gruppe 1 (bzw. 1281 bis 1495), an zweiter Stelle Gruppe 2 (bzw. 1496 bis 1708) und an dritter Stelle Gruppe 3 (bzw. 1709 bis 1983). 228 KAPITEL 8. DISKUSSION Weiterhin lässt sich schlussfolgern, dass auch in den Folgejahren keine drastischen Veränderungen in der Verwendungshäufigkeit der Nomen mehr zu erwarten sind. Personalpronomen (PPER) wurden mit einer leicht steigenden Tendenz verwendet. Da die Werte in den Altersgruppen jedoch nicht sehr stark voneinander abweichen, kann nicht definitiv davon ausgegangen werden, dass sich diese Tendenz fortsetzt oder aber wegweisend ist. Anhand einer Inhalts- und/oder Verhaltensanalyse ließe sich herausfinden, ob dieser Zuwachs in einem eventuell gesteigerten Sozialverhalten begründet ist, welches Kinder mit zunehmenden Alter aufbauen. Eine weitere Begründung kann in der zunehmenden kognitiven Fähigkeit des Perspektivenwechsels liegen, wodurch die Verwendung unterschiedlicher Personalpronomen für Objekte anstelle von Nomen möglich wird. Diese Fähigkeit ist dadurch gekennzeichnet, dass Kinder mit zunehmendem Alter lernen, sich in die Lage anderer Personen zu versetzen, wobei diese Fähigkeit auch auf der sprachlichen Ebene Ausdruck findet. Der Ausdruck Perspektive beinhaltet nach den Vorstellungen der kognitiven Linguistik ferner die Möglichkeit, dieselbe Entität in verschiedene konzeptuelle Kategorien zu platzieren und für unterschiedliche kommunikative Zwecke zu verwenden ([Tomasello (1999)], S. 118). Die soeben geschilderten Vermutungen meinerseits sind nur vereinzelt durch experimentelle Funde nachzuweisen, da bisher nur wenig Material zu diesem Thema existiert. Bereits im frühen Spracherwerb bemerkt das Kind, dass es verschiedene Arten gibt, eine bestimmte Situation zu betrachten. So kann ein Kind nach einem Objekt mit dem entsprechenden Namen fragen oder einfach sagen dies oder es. In diesen Momenten, so Tomasello, lernt das Kind, dass ein linguistisches Symbol eine bestimmte Perspektive verkörpert. Dass Kinder diesen Aspekt der Funktionsweise linguistischer Symbole verstehen, wird durch die Tatsache vermutet, dass sie, sobald sie mit der Sprachproduktion beginnen (ca. 18 bis 24 Monate), auf denselben Referenten mit unterschiedlichen sprachlichen Ausdrücken in unterschiedlichen kommunikativen Situationen reagieren ([Tomasello (1999)], S. 120; siehe auch [Clark (1997)]). Tomasello (2005) beschreibt in Constructing a Language die Verwendung von Pronomen im Spracherwerb. Demnach stellen Pronomen das Gegenteil von Eigennamen dar und werden für die am ehesten erreichbaren Referenten in einem Kontext verwendet ([Tomasello (2005)], S. 205; siehe auch [Gundel, Hedberg und Zacharski (1993)]). In einem anschaulichen Beispiel schildert Tomasello (2005) die kognitiven Fähigkeiten, die bei der Verwendung von Personalpronomen erforderlich sind: Wenn jemand auf die Frage „What is your sister doing?“ mit „Swimming.“ antwortet, so erfordere dieser Vorgang Fähigkeiten der sozialen Kognition auf Seiten der Sprecherin/des Sprechers, da die Schwester bekannt sein muss. 229 Laut Tomasello würden Kinder im Alter von 4 bis 5 Jahren dabei noch Schwierigkeiten haben. Er bemängelt jedoch, dass es bisher keine Studien gäbe, die die kommunikativen Bedingungen untersucht haben, in denen Kinder ein Pronomen gegenüber einem Nomen gewählt haben. Laut ihm sind zur Annäherung an diese Frage fünf Hypothesen möglich: 1. Junge Kinder verwenden denselben referierenden Ausdruck wie der Erwachsene, mit dem sie sich gerade unterhalten. Wenn der Erwachsene auf ein Objekt mit einem Nomen referiert, so wird auch das Kind dies tun. 2. Junge Kinder folgen dem Prinzip der ’mutual exclusivity’ und verwenden den Objektnamen, wenn sie ihn kennen und ein Pronomen, wenn sie den Namen nicht kennen. 3. Kinder finden den lexikalischen Zugang zu Pronomen leichter als den Zugang zu Nomen und verwenden Pronomen immer dann, wenn die Produktion eines Nomens besonders schwierig ist. 4. und 5. Diese Erklärungen basieren auf den jeweiligen Wissenszuständen des Hörers bevor ein referierender Ausdruck gewählt wird - entweder auf Basis der perzeptuellen Situation (Hörer schaut zum Referenten) oder auf Basis von Erzählfaktoren (Hörer hörte eben gerade bereits den Referenten). ([Tomasello (2005)], S. 206). Campbell et al. (2000) versuchten jede dieser fünf Hypothesen zu testen, zum einen mit Kindern im Alter von 2;6 Jahren und zum anderen mit Kindern im Alter von 3;6 Jahren. Sie wollten herausfinden, ob Kinder Pronomen unterschiedlich von der von Erwachsenen gebrauchten Form verwenden, wenn 1. der Erwachsene zuvor ein Pronomen/Nomen verwendete 2. der Erwachsene das Zielereignis miterlebt 3. die Kinder unbekannte und schwierige Nomen verwenden mussten. Das Ergebnis war, dass die Verwendung unterschiedlicher Pronomen abhängig war vom unmittelbar vorausgehenden Diskurs und von der jeweils gestellten Frage. Wurde zum Beispiel gefragt „What did X do?“, so gebrauchten die Kinder ein Pronomen oder eine Nullreferenz. Wurde hingegen gefragt „What happened?“, so antworteten Kinder eher mit einem Nomen „The boy...“ ([Campbell, Brooks und Tomasello (2000)]). Die Datenlage ist wie bereits erwähnt recht klein. Doch geben die eben erwähnte Studie sowie die 230 KAPITEL 8. DISKUSSION Ergebnisse, zu denen Tomasello (2005) kommt, Anlass dazu anzunehmen, dass die Verwendung von Pronomen ein allmählicher Prozess ist, der mehrere Faktoren impliziert. Wichtig erscheint vor allem der vorausgehende Kontext zu sein sowie die Form der gestellten Frage ([Tomasello (2005)], S. 205-207). Dies konstatiert auch Tomasello (1999) und sieht die Entwicklung der perspektivischen Natur der Sprache als einen Prozess, der nach und nach geschieht. Die Perspektivität steht im Gegensatz zur Intersubjektivität linguistischer Symbole, die wiederum dadurch gekennzeichet ist, dass sie auch für andere Arten kommunikativer Symbole charakteristisch sein kann. So können beispielsweise auch Gesten intersubjektiven Charakter haben und sind dennoch keine sprachlichen Symbole mit perspektivischen Eigenschaften. Letztere Eigenschaft ist nur den linguistischen Symbolen vorbehalten und hebt sie damit von anderen kommunikativen Mitteln ab ([Tomasello (1999)], S. 123). Es ist anzunehmen, dass sich die Kinder im hier untersuchten Alterszeitraum von 3;5 bis 5;5 Jahren mitten im Prozess des Erwerbs dieser kognitiven Fähigkeiten befanden, was unter anderem durch die leicht gesteigerte Verwendung von Personalpronomen deutlich wird. Meine Vermutung ist, dass auch andere sprachliche Phänomene im Zusammenhang mit den Fähigkeiten der sozialen Kognition beobachtet werden können. Diese sollen jedoch nicht in der vorliegenden Arbeit untersucht werden. Ein überraschendes Ergebnis der Analyse der Wortarten sind zudem die sich nahezu gar nicht verändernden Anteile der Verben (VA, VM, VV) in den Altersgruppen. Verben wurden durchgehend mit einem Anteil von leicht über 20% verwendet. Dieser Prozentsatz liegt nur etwas über dem von Kauschke (1999) ermittelten Wert von erwachsenen Sprecherinnen und Sprechern ([Kauschke (1999)]). Von daher kann davon ausgegangen werden, dass bezüglich des Gebrauchs von Verben mit zunehmendem Alter keine gravierenden Änderungen mehr zu erwarten sind. Meines Erachtens kann dies unter anderem damit erklärt werden, dass Kinder, die sich im Alter der hier untersuchten Probandinnen und Probanden befinden, einen Großteil der grundlegenden syntaktischen Fähigkeiten erworben haben. Um dies zu belegen, kann aus einer Vielzahl von experimentellen Studien gewählt werden, die sich jedoch zumeist mit sehr speziellen syntaktischen oder morphosyntaktischen Entwicklungsmustern beschäftigten und deshalb nur teilweise zur Erklärung herangezogen werden sollen. Abbot-Smith et al. (2001) fanden beispielsweise heraus, dass die Fähigkeit neue Verben zu verwenden in unmodellierten syntaktischen Konstruktionen allmählich ansteigt und zwischen einem Alter von 2;0 und 3;0 Jahren anzusiedeln ist ([Abbot-Smith, Lieven und Tomasello (2001)]). Zu ähnlichen Ergebnissen kommt Akhtar (1999), die sich mit dem Erwerb der grundlegenden 231 Wortstellungen im Satz befasste. Akhtar erschuf sogenannte novel verbs für neue Ereignisse. Die untersuchten Kinder waren 2;8, 3;6 und 4;4 Jahre alt. Ihre Aufgabe war es, die eben erwähnten novel verbs in Verbindung mit neutralen Fragen zu verwenden. Dabei gab es drei verschiedene Möglichkeiten, wie den Kindern das novel verb präsentiert wurde: 1) Entweder trat das Verb in der für das Englische kanonischen Satzgliedstellung SVO (Subject - Verb - Object) auf oder aber 2) zwei weitere Verben traten entweder in der Reihenfolge SOV oder 3) VSO auf. Die Satzgliedstellungen unter 2) und 3) sind nach Akhtar die nichtkanonische Form zur Beschreibung einer neuen Szene im Englischen. Akhtar fand heraus, dass die Kinder ein neues Verb in der Reihenfolge SVO produzierten, wenn sie es zuvor auch in dieser Reihenfolge gehört haben. Wenn die Kinder ein bekanntes Verb in einer untypischen Reihenfolge vernahmen, korrigierten sie es meistens hin zur kanonischen SVO-Reihenfolge. Hörten die Kinder ein neues Verb in SOV- oder VSO-Reihenfolge, waren die Ergebnisse unterschiedlich: die 4;4 Jahre alten Kinder korrigierten es hin zum kanonischen Wortstellungsmuster in 96% der Fälle. Mit 2;8 und 3;6 Jahren taten dies jeweils nur 50% der Kinder. Akhtar schlussfolgert daraus, dass jüngere Kinder eine Art SVO-Schema besitzen, welches jedoch nicht so stark ist, wie jenes der älteren Kinder ([Akhtar (1999)]). Diese Ergebnisse lassen im Hinblick auf die Ergebnisse der vorliegenden Arbeit vermuten, dass die grundlegenden Wortstellungsmuster einer Sprache ab einem Alter von 4 Jahren zum größten Teil erworben sind.3 Jüngere Kinder (bei Akhtar im Alter von 2;8 und 3;6) haben wenig Schwierigkeiten mit bekannten Verben, wohingegen neue Verben in nichtkanonischen Wortstellungsmustern Probleme bereiten. Da in der vorliegenden Arbeit die Produktion spontaner Sprache untersucht wurde, kann davon ausgegangen werden, dass die Kinder im Alter von unter 4 Jahren zum Großteil nur jene Verben verwendeten, die ihnen bekannt waren. Aus diesem Grunde finden sich bereits in diesem Alter (konkret Gruppe 1281_1495) vorwiegend kanonische Wortstellungsmuster des Deutschen, die den gleichbleibenden Verbanteil erklären können. Nach Akhtar (1999) scheint es so, als würden bereits jüngere Kinder eine Art SVO-Schema besitzen, welches lediglich noch nicht so stark funktioniere wie jenes älterer Kinder und wodurch es zu Schwierigkeiten bei der Begegnung mit unbekannten Verben und Wortstellungsmustern kommen kann. Weiterhin konstatiert die Autorin, dass Kinder in den Fällen, in denen sie nichtkanonische Reihenfolgen gebrauchten, immer Nomen gegenüber 3 Damit beziehe ich mich lediglich auf die syntaktischen Muster, nicht aber auf den Erwerb der Morphosyntax, die insbesondere im Deutschen zu diesem Zeitpunkt in der Regel noch nicht abgeschlossen ist. ([Höhle (2012)], S. 135-137) 232 KAPITEL 8. DISKUSSION Pronomen verwendeten. Im Gegenzug dazu enthielten nahezu die Hälfte ihrer Korrekturen hin zum SVO-Muster Pronomen. Dies lasse vermuten, dass die frühesten Repräsentationen des SVO-Musters junger Kinder teilweise ihren Ursprung in Pronomen-spezifischen Schemata wie „He’s VERBing“ haben ([Akhtar (1999)]; siehe auch [Lieven, Pine und Baldwin (1997)]; [Pine, Lieven und Rowland (1998)]). Im Hinblick auf die leicht steigende Verwendung der Personalpronomem bei den in dieser Arbeit untersuchten Kindern, ergibt sich ein konsistentes Bild. Ein relativ gefestigtes syntaktisches Verständnis spiegelt sich in den nahezu gleichbleibenden Anteilen der Verben (VA, VM, VV) im Alter von 3;5 bis 5;5 wider und wird zudem von einer leicht steigenden Verwendung von Personalpronomen gestützt. Durch den Erwerb der kanonischen Satzkonstruktionsmuster kann demnach kein merklich höherer Verbanteil erwartet werden. Wie und warum der Erwerb der Syntax einsetzt, ist bisher nicht eindeutig geklärt und soll an dieser Stelle nicht im Detail ausgeführt werden. Laut Sucharowski (1996) ist für das Heranreifen der grammatischen Kompetenz ein entscheidender Punkt, dass der Wandel von der freien zur geordneten Wortfolge zu einem bestimmten Zeitpunkt und immer ähnlich verläuft. Dabei sei bisher empirisch ungeklärt, welche Prozesse auf biologische Veränderungen zurückführbar sind und inwieweit Lernvorgänge Einfluss nehmen ([Sucharowski (1996)], S. 127 f.; siehe auch [Verrips (1990)]). Lebeaux (1988) sieht den Prozess der Reifung, wie ihn Sucharowski beschreibt, lediglich in Bezug auf die grammatischen Repräsentationen. So stehe am Anfang ein linguistischer Ausdruck, der zunächst nur lexikalisch operiere. Erst allmählich träten syntaktische Funktionen hinzu ([Lebeaux (1988)] in: [Sucharowski (1996)], S. 127). Diese syntaktischen Funktionen sind bei den hier untersuchten Kindern vermutlich bereits relativ fest etabliert, was sich in den sich nicht mehr ändernden Anteilen der Verben, aber auch Nomen bemerkbar macht, die ihre Funktionsstellen im Satz gefunden haben. Zu diesem Schluss kommt auch Höhle (2012), die herausfand, dass bereits mit ca. 3;0 Jahren Nebensätze mit korrekter Endstellung des finiten Verbs produziert werden. Bedeutend länger dauert die Entwicklung der nominalen Morphosyntax im Deutschen, wobei zwar sehr früh die Produktion der nominalen Pluralformen einsetzt, diese jedoch zunächst nur bei Wörtern vorkommen, deren Referenten typischerweise nicht singulär auftreten (z. B. Schuhe). Höhle schließt daraus, dass Wörter zunächst holistisch analysiert und nicht als morphologisch komplexe Wortformen betrachtet werden ([Höhle (2012)], S. 135-137). Einen weiteren Anhaltspunkt dafür, dass Kinder im Alter von 3;5 bis 5;5 Jahren bereits einen großen Teil der Struktur der jeweiligen Sprache verinnerlicht haben, deutet Pinker (1996) an und verdeutlicht dies an einem 233 Beispiel zum Erwerb der Pluralformen. Demzufolge unterliegen insbesondere unregelmäßige Pluralformen speziellen Erwerbsprozessen. Während bei der Bildung der regelmäßigen Plurale bestimmte Flexionsregeln zum Einsatz kommen, lassen sich unregelmäßige Formen nicht durch Regeln erzeugen. Sie müssen demnach als Wurzeln oder Stämme im mentalen Lexikon gespeichert sein ([Pinker (1996)], S. 167 ff.). Ein Experiment mit 3- bis 5-Jährigen von Gordon (1985) zeigte, dass Kinder in diesem Alter diese Beschränkungen ganz genau befolgen. Gordon zeigte seinen Probandinnen und Probanden eine Puppe und fragte zum Beispiel „Here is a monster who likes to eat mud. What do you call him?“. Zunächst gab er selbst die Antwort „a mud-eater “, um den Kindern den Einstieg zu erleichtern. Im weiteren Verlauf sollten die Kinder selbst antworten. Aus „monster who likes to eat mice“ wurde richtigerweise „mice-eater “. Erstaunlicherweise wurde aus „monster who likes to eat rats“ „rat-eater “, nicht aber „rats-eater “, wie man vielleicht vermuten könnte. Dies deutet darauf hin, dass Kinder mit 3 bis 5 Jahren bereits die in den Wortstrukturregeln enthaltenen Beschränkungen für die Bildung der Plurale und Komposita beachten ([Gordon (1985)]). Diese Berücksichtigung wichtiger Strukturregeln in einem recht frühen Alter kann als weiterer Beleg dafür gesehen werden, dass Kinder in einem Alter von 3 bis 5 Jahren bereits einen wichtigen Teil syntaktischer (und zum Teil morphosyntaktischer) Regeln verinnerlicht haben und auch anwenden. Dies zeigt ferner das untrennbare Zusammenspiel zwischen dem Erwerb des Lexikons und dem Erwerb der Syntax, das sich in der vorliegenden Arbeit insbesondere durch einen gleichbleibenden Anteil an Nomen und Verben durch die verschiedenen Alterstufen hinweg äußert. Gestützt wird dieser Umstand durch die Aussage Pinkers (1996), der davon ausgeht, dass beim Spracherwerb Wortkategorien, nicht jedoch Wörter an sich, eine wichtige Rolle spielen. Menschen, die Sprache erwerben, lernen, Wörter in die richtige Reihenfolge zu bringen. Dies tun sie durch das Einprägen der Aufeinanderfolge von Wortkategorien (Nomen, Verb etc.), nicht durch das Einprägen der Reihenfolge von Wörtern ([Pinker (1996)], S. 122). Auch Höhle (2012) postuliert, dass der Erwerb der grundlegenden grammatischen Fähigkeiten im Laufe der ersten vier Lebensjahre abgeschlossen ist, was die Erkenntnisse dieser Arbeit in Bezug auf die unwesentlichen Veränderungen (vor allem ab Gruppe 2 bzw. ab ca. 4;1 Jahren) in der Verteilung der Wortarten unterstreicht. Die Entwicklung konversationeller und pragmatischer Fähigkeiten hingegen dauere bis weit in das Schulalter hinein. Demzufolge seien zu Beginn des Schulalters kindliche Erzählungen oft geprägt durch eine geringe lexikalische Diversität, was sich in einer geringen Anzahl verschiedener Inhaltswörter bei einem hohen 234 KAPITEL 8. DISKUSSION Anteil von Funktionswörtern äußert ([Höhle (2012)], S. 137). An dieser Stelle wäre es interessant, die Datenerhebung der vorliegenden Arbeit mit älteren Kinder im Schulalter bzw. ab 6 Jahren durchzuführen, um anschließend eine Untersuchung der pragmatischen Fähigkeiten vornehmen zu können. Jüngere Kinder, so Höhle, verwenden viele Pronomen, auch wenn deren Antezedent zuvor nicht eingeführt wurde. Auch dieser hohe Anteil an Pronomen im Sprachgebrauch konnte durch die Daten der vorliegenden Arbeit bestätigt werden. In Kapitel 6 wurde ferner die Wortartenverteilung hinsichtlich der Types ermittelt, also, wie viele verschiedene Lemmata die Kinder pro Wortart verwendeten. Auf den ersten Blick nehmen erneut die Adverbien und Pronominaladverbien (ADV + PAV) einen erwähnenswerten Anteil am Vokabular ein, unabhängig von der Altersgruppe (je 10,6% - 9,3% 9,5%). Diese Anteile sind im Vergleich zu den Tokens etwas niedriger. Nichtsdestotrotz gehört diese Kategorie neben den Nomen und Verben zu jener mit dem höchsten Anteil am Gesamtvokabular. Hinsichtlich der Nomen wurde festgestellt, dass diese im Vergleich zu ihrer Verwendungshäufigkeit einen enorm hohen Wert in Bezug auf die Types aufweisen (je ca. 30,5% - 40,5% - 38,8%). Aufgrund dieser Werte und der Werte bezüglich der Tokens kann angenommen werden, dass Kinder im Alter von 3;5 bis 5;5 Jahren Nomen nicht viel häufiger gebrauchen als Erwachsene. Jedoch sind die Nomen, die von den Kindern geäußert werden, äußerst verschieden. Im Umkehrschluss könnte man sagen, dass Erwachsene häufig dieselben Nomen in einer untersuchten Textpassage verwenden. An dieser Stelle kann nicht eindeutig geklärt werden, warum dies so ist. In Abschnitt 6.4 wurden bereits Vermutungen dahingehend angestellt, dass sich Kinder häufig in Spielsituationen befinden und zudem viele Fantasiebegriffe verwenden, wodurch ein derart hoher Anteil zustande kommt. Ein Vergleich zu den Daten der Erwachsenen aus Kauschkes Analyse ist hier mit großer Vorsicht anzustellen, da die Inhalte der Gespräche nicht bekannt sind ([Kauschke (2007)]). So ist es durchaus möglich, dass ein bestimmtes Thema vorgegeben wurde und aufgrund dessen wiederholt dieselben Nomen verwendet wurden, was in einem geringeren Types-Anteil resultiert. Wie bereits erwähnt, wäre eine Inhaltsanalyse beider Parteien sehr hilfreich. Für die Daten der vorliegenden Arbeit wurden deshalb im Anschluss daran die Lemmata aller Kategorien im Hinblick auf inhaltliche Aspekte untersucht. Aufgrund der bisher erhobenen Daten kann folgende Hypothese angeführt werden: 235 Annahme 2: Kinder im Alter von 3;5 bis 5;5 Jahren verwenden nicht mehr Nomen als Erwachsene. Jene Nomen, die sie verwenden, sind jedoch von einer größeren Verschiedenartigkeit geprägt. Zuletzt soll ein Blick auf die Anteile der Verben (VA, VM, VV) in den Altersgruppen geworfen werden. Hier gibt es zwischen den Gruppen keine gravierenden Unterschiede (je 23,7% - 22,6% - 22,9%). Ob und wann weitere Veränderungen nach dem sechsten Lebensjahr auftauchen, kann an dieser Stelle nicht gesagt werden. Es ist aber offensichtlich, dass im hier untersuchten Zeitraum von 3;5 bis 5;5 Jahren keine Veränderungen bezüglich der Verbanteile am Gesamtvokabular zu verzeichnen sind. In einem nächsten Schritt wurden nicht nur die Daten aller Kinder in einer Altersgruppe untersucht, sondern die Daten jedes Kindes in jeder Altersgruppe. Im Vorfeld war nicht klar, ob die Ergebnisse zielführend und aussagekräftig sein würden, da jedes Kind unterschiedlich viele Tokens hervorbrachte. Nach der Analyse stellte sich jedoch heraus, dass die Verteilung der Wortarten bei jedem Kind in jeder Altersgruppe erstaunlicherweise ein ähnliches Muster aufweist und für eine Analyse herangezogen werden kann. Es reichen also bereits wenige Tokens aus, um ein aussagekräftiges Bild über die Verteilung der Wortarten zu erhalten. In der ersten Gruppe 1281 bis 1495 waren die Kinder MA und MK vertreten. Ähnlich der Ergebnisse aus der Analyse der Altersgruppen waren sowohl bei den Tokens als auch bei den Types Adverbien und Pronominaladverbien (ADV+PAV) stark vertreten (Tokens: 10,3% bis 15,7% Types: 9,0% bis 12,1%). Auch hier sind im Vergleich der Tokens zu den Types ähnliche Verteilungsmuster wie in der Altersgruppenanalyse ersichtlich. Die Anteile der Adverbien und Pronominaladverbien (ADV+PAV) sind bei den Tokens und Types relativ nah beieinander und weichen nicht derartig stark voneinander ab, wie es bei den Nomen beobachtet werden kann. Ein analoges Bild zeigt sich bei der Betrachtung der Adverbien und Pronominaladverbien (ADV+PAV) der Kinder in der zweiten Altersgruppe 1495 bis 1708 (Tokens: 14,3% bis 18,4% Types: 11,3% bis 12,9%) sowie in der Altersgruppe 1709 bis 1983 (Tokens: 9,1% bis 16,6% Types: 10,1% bis 16,7%). Die gewonnenen Ergebnisse unterstützen die bisherigen Erkenntnisse, dass Kinder im Alter von 3;5 bis 5;5 Jahren keine gravierenden Änderungen in der Verteilung der Adverbien aufweisen. Auffällig ist die Beziehung der Tokens und Types im Hinblick auf die Nomen (N). In allen Altersgruppen und bei jedem einzelnen Kind ist der Anteil am Gesamtwortschatz bezüglich der Verwendungshäufigkeit relativ klein (Gruppe 1: 8,7% bis 10,5%, Gruppe 2: 6,7% bis 11,8%, Gruppe 3: 5,9% bis 15,9%). In Anbetracht der Types ist der Anteil der Nomen sehr viel 236 KAPITEL 8. DISKUSSION höher (Gruppe 1: 24,7% bis 27,1%, Gruppe 2: 24,7% bis 35,0%, Gruppe 3: 16,7% bis 30,7%), aber auch sehr viel indiviueller. So gibt es einige Kinder, die mit rund 17% nicht sehr viele verschiedene Nomen verwenden, MK (Gruppe 1496_1708) hingegen mit 35,0% und LL (Gruppe 1709_1983) mit 30,7% umso mehr. Dies bedeutet, wie bereits oben erwähnt, dass Kinder im Alter von 3;5 bis 5;5 Jahren eher wenige Nomen verwenden. Jene Nomen, die gebraucht werden, können aber individuell sehr verschieden sein. Ein ähnliches Bild konnte bereits bei der Analyse der Nomen in den Altersgruppen beobachtet werden. Im Hinblick auf die Tokens sind die Anteile durchgängig recht niedrig, in Bezug auf die Types wurden Werte über 30% beobachtet. Die unterschiedliche Verwendung von Nomen wurde durch Einzelanalysen jedes Kindes in jeder Altersgruppe zum Teil bestätigt. Zusätzlich wird ersichtlich, dass gerade im Hinblick auf die Types sehr individuelle Unterschiede zu verzeichnen sind, die erst durch die Einzelanalysen deutlich gemacht werden konnten. Die Anteile der Verben (VA, VM, VV) sind sowohl bei den Tokens als auch bei den Types annähernd gleich bei allen Kindern in allen Altersgruppen (Gruppe 1: 20,4% bis 21,3% Tokens, 22,4% bis 25,0% Types, Gruppe 2: 20,8% bis 23,2% Tokens, 22,5% bis 24,3% Types, Gruppe 3: 21,1% bis 24,0% Tokens, 21,0% bis 28,1% Types). Im Anschluss an die Auswertung der Wortartenverteilung aller Kinder in den Altersgruppen wurden die ersten einhundert geäußerten Wörter jedes Kindes im Zuge einer Annäherung an den Inhalt des Gesagten untersucht (Abschnitt 6.4). Dabei wurden zwei typische Interaktionssituationen zwischen den Kindern bzw. zwischen Kind und Interviewerin identifiziert: die Erzählsituation und die Spielsituation. Letztere fand im Zuge der Aufnahmen vorwiegend zwischen zwei oder mehreren Kindern statt und ist geprägt durch die Verwendung von Fantasiebegriffen, zahlreichen Eigennamen und insgesamt einem größeren Anteil an Nomen. In den Erzählsituationen traten hingegen weniger Nomen auf. Generell kommt es zwischen 1;9 und 3;6 Jahren zu einer sprunghaften Ausweitung des Wortschatzes, woraufhin ab dem 4. Lebensjahr eine Verlangsamung zu verzeichnen ist ([Klann-Delius (1999)], S. 36). Ob und wie stark sich der Wortschatz zwischen 3;5 und 5;5 Jahren ausweitet, kann anhand der vorliegenden Daten nur zum Teil erörtert werden, da nicht die Menge der produzierten Wörter in einem gegebenen Zeitraum untersucht wurde. Ab 3;0 Jahren muss es aber zu einer Verlangsamung der Entwicklung der Wortartenverteilung gekommen sein, da in der hier untersuchten Alterspanne keine großen Veränderungen zu verzeichnen sind. Szagun (2006) fand heraus, dass die ersten Wörter im Spracherwerbsprozess folgenden Wortarten zugeordnet werden können: 60,5% Nomen, 28,6% 237 Funktionswörter, 6,7% Verben, 5,1% Adjektive ([Szagun (2006)], S. 212). Da diese Klassifikation nur einige Parallelen zu den STTS aufweist, können die Daten dieser Arbeit nicht mit den Ergebnissen von Szagun verglichen werden. Aus den vorliegenden Daten geht allerdings hervor, dass der Anteil der Nomen in der gesprochenen Sprache mit zunehmendem Alter drastisch sinkt, während der Anteil der Verben steigt und zwischen 3;5 und 5;5 Jahren zunächst stagniert. Klann-Delius (1999) beschreibt eine lexikalische Strukturierung der Wörter in Wortfelder zwischen 3;0 und 12;0 Jahren ([Klann-Delius (1999)], S. 37; vgl. auch [Wode (1988)]). Diese Erkenntnis spiegelt sich auch in den Ergebnissen dieser Arbeit wider, weil durch die gegebene Stabilität der Wortartenverteilung (vor allem bezüglich der Tokens) eine gewisse begonnene Strukturierung des Wortschatzes angenommen werden kann. Gleichzeitig sei ab einem Alter von 3;0 Jahren der Erwerb des Lexikons für qualitative Bewertungen, wie zum Beispiel durch Adjektive, beobachtbar ([Augst, Bauer und Stein (1977)], S. 25). Dies wird insbesondere durch die in Kapitel 7 getätigte inhaltliche Analyse deutlich. Sehr aussagekräftige Ergebnisse über das kindliche Lexikon erzielte Kauschke (1999), die bereits an zahlreichen Stellen dieser Arbeit zitiert wurde. Nach Kauschke ist bis zu einem Alter von 36 Monaten ein Types-Zuwachs bezüglich aller Wortarten zu verzeichnen, wobei die Anzahl unterschiedlicher Wörter in Abhängigkeit vom Alter steigt. Dabei beobachtete sie zunächst ein exponentielles Wachstum im 2. Lebensjahr, das im 3. Lebensjahr abnimmt und in einen anschließenden linearen Verlauf der Types übergeht. Ähnliches ermittelte Kauschke für die Verteilung der Tokens. Mit zunehmendem Alter seien keine bedeutenden Veränderungen mehr feststellbar, was sich unter anderem in einer gleichbleibenden Type-Token-Relation äußert ([Kauschke (1999)]). Dies kann ebenfalls für die Daten dieser Arbeit behauptet werden, wobei die Type-Token-Relation über die Altersgruppen hinweg nahezu gleich bleibt, wenn auch andere Werte annimmt als in der Auswertung Kauschkes (Abschnitt 6.2.3). Die Analyse der hier vorliegenden Daten schließt in vielen Punkten an die bisherigen Ergebnisse zum Lexikonerwerb an. So können ab 3;0 Jahren keine starken Veränderungen im Hinblick auf die Tokens festgestellt werden. Auch im Hinblick auf die Types ergibt sich ein relativ konstantes Bild - bis auf die Nomen, die individuell sehr unterschiedlich verwendet werden. Ferner wurde bereits an anderen Stellen in dieser Arbeit erwähnt, dass Kauschke zu der Erkenntnis gelangt, dass im 3. Lebensjahr kein Kind mehr als 25% Nomen verwendet und Verben den größten Anteil des Lexikons ausmachen. Im Hinblick auf die Verwendungshäufigkeit der Lemmata kann dies auch für die untersuchten Kinder zwischen 3;5 und 5;5 Jahren behauptet werden. Bei den Types sind, wie schon erwähnt, stärkere 238 KAPITEL 8. DISKUSSION individuelle Unterschiede zu verzeichnen, was jedoch auch Kauschke in ihren Ergebnissen herausstellte. Demzufolge fügen sich die in dieser Arbeit gewonnenen Ergebnisse bezüglich der Verteilung der Wortarten ein in das Bild der bisher gewonnenen Ergebnisse anderer Arbeiten, welche Kinder bis zu einem Alter von meist 3;0 Jahren untersuchten. Bis zu einem Alter von 5;5 Jahren sind keine großen Veränderungen in der Verteilung der Wortarten feststellbar. Ab einem Alter von ca. 4;1 Jahren (ab Gruppe 1496 bis 1708) muss es den hiesigen Daten zufolge jedoch zu einer inhaltlichen Umstrukturierung des Lexikons kommen, was mit einer qualitativen Analyse der Inhaltswörter und zu Teilen der Funktionswörter gezeigt werden konnte (Abschnitte 7.2 und 7.3). In Kapitel 7 wurden in Vorbereitung auf die Erstellung eines Lexikons im Vorschulalter, die Grundsteine dafür gelegt. Um diesem Lexikon näher zu kommen war es neben der Analyse der Wortarten erforderlich, alle Lemmata nach semantischen Aspekten zu untersuchen. Dazu wurden alle hier verwendeten Kategorien der STTS erneut betrachtet und dann wiederum semantischen Kategorien zugeordnet. Einige der Kategorien erfuhren keine großen Veränderungen und blieben nahezu entsprechend ihrer POS-Tags erhalten (Artikel, Interjektionen und Pronomen). Alle anderen Kategorien wurden in umso feinere semantische Kategorien eingefügt und erlaubten dadurch einen sehr detaillierten Blick auf die verwendeten Lemmata. Alle Kategorien, die auf diese Weise entstanden, wurden hinsichtlich ihrer Verwendung in dieser Arbeit mit Hilfe der Dudengrammatik definiert. Zusätzlich wurden allgemeine Beispiele sowie Beispiele aus den Daten dieser Arbeit zu jeder der verwendeten Unterkategorie angegeben. Das eigentliche Lexikon4 stellt das Endergebnis aller bisher getätigten Analysen dar. Des Weiteren wurden zwei zusätzliche Wort- und Kategorielisten erstellt, die weitere Informationen liefern. Zum einen wurden alle Bedeutungskategorien mit den darin enthaltenen Lemmata in den jeweiligen Alterszeiträumen aufgelistet, wodurch Entwicklungstendenzen sichtbar und Vergleiche zwischen Kindern unterschiedlichen Alters möglich werden. Zum anderen wurden in einer weiteren Liste neben den in den Bedeutungskategorien geäußerten Lemmata in jeder Altersgruppe alle POS-Tags ergänzt, mit denen ein Lemma im vorliegenden Korpus geäußert wurde. Dies ermöglicht neben der Sicht auf semantische Aspekte auch einen Einblick in die lexikalisch-syntaktische Verwendung der Lemmata. Ohne die Wortartenverteilung, wie sie in Kapitel 4 Das auf Basis der hier analysierten Daten erstellte Lexikon befindet sich im Anhang dieser Arbeit. Es besteht im Wesentlichen aus drei Korpuslexika: 1) Zusammenfassung_Lemmata_aller_Gruppen_mit_Beispielen, 2) Zusammenfassung_Lemmata_in_den_Gruppen, 3) Zusammenfassung_alle_Gruppen_mit_POS_Tags. 239 6 vorgenommen wurde, wäre die Erstellung des Lexikons nicht möglich gewesen. Denn nur aufgrund des Wissens um die einzelnen Wortarten konnten auch semantische Aspekte der geäußerten Lexeme ermittelt werden. Im Anschluss an die Betrachtung der Verteilung der Wortarten wurde eine qualitative Betrachtung der Nomen, Verben und Adjektive (und Adverbien) sowie der Funktionswörter getrennt nach den Altersgruppen vorgenommen. Insgesamt fiel auf, dass Veränderungen vor allem im Übergang von Gruppe 1 zu Gruppe 2 zu erkennen sind. Diese Veränderungen waren besonders bei den Adjektiven und bei den Verben zu beobachten. So trat das Modalverb mögen bzw. möchten in Gruppe 1 gar nicht auf, während es in Gruppe 2 und 3 gleich mehrfach vorkam. Ähnlich verhielt es sich mit den Verben denken und glauben, die in Gruppe 1 nicht vorkamen, ab Altersgruppe 2 aber mehrfach zu verzeichnen waren. Das Verb glauben trat dabei häufiger auf als denken. Wie bereits oben angeführt ist meine Vermutung dahingehend, dass glauben häufiger in den Inputdaten der Kinder bzw. generell häufiger in der gesprochenen Sprache auftritt. Einige Hinweise auf das Vorkommen von Lexemen in der Sprache bieten Häufigkeitswörterbücher. Das Häufigkeitswörterbuch der gesprochenen Sprache (nachfolgend HWB) enthält geordnete Wortlisten, die auf einer 25-jährigen Recherchearbeit beruhen ([Ruoff (1981)], S. 9). Das HWB enthält drei Wortlisten: 1) geordnet nach dem Alphabet, 2) rückläufig-alphabetisch geordnet sowie 3) geordnet nach Häufigkeit. Alle Listen sind jeweils gesondert nach Wortarten aufgeführt. Ferner gibt Ruoff zu jedem Lemma die Anzahl seiner Vorkommenshäufigkeit und dessen prozentualer Anteil an der Gesamtheit der betreffenden Wortart an. Die Einteilung des Wortschatzes nach Wortarten, aber auch die Reduktion der Belege auf deren Grundformen (Lemmata) entspricht auch weitestgehend dem Vorgehen der vorliegenden Arbeit. Ruoff verwendete lediglich eine leicht abweichende Einteilung der Wortarten (Substantiv, Verb, Grundverb, Adjektiv, Adverb, Konjunktion, Präposition, Partikel, Artikel+Fragewort+Pronomen, Zahlwort, Namen); sie kommt der hiesigen jedoch sehr nahe. Im Hinblick auf das Vorkommen des Verbs glauben enthält das HWB eine Häufigkeitsangabe von 0,34% (Rang 27). Das Verb denken kommt mit 0,21% etwas seltener vor (Rang 43) ([Ruoff (1981)], S. 440, Verben geordnet nach Häufigkeit). In ihrem Vorkommen als Grundverben zeigt sich ein ähnliches Muster: glauben erscheint mit einer Häufigkeit von 0,34%, denken mit 0,26% ([Ruoff (1981)], S. 481). Es scheint, dass sich die Vorkommenshäufigkeiten der Verben glauben und denken im HWB ebenso im Vokabular der hier untersuchten Kinder widerspiegeln, was durch ein stärkeres Vorkommen des Verbs glauben im Gegensatz zu denken deutlich wird. Bei einer näheren Betrachtung der Adjektive konnte auch ein Entwicklungsschritt von Gruppe 240 KAPITEL 8. DISKUSSION 1 nach Gruppe 2 festgestellt werden. Dies betrifft vor allem die Verwendung von Gegensatzpaaren in Verbindung mit den dazugehörigen semantischen Abfolgen. In Gruppe 1 gebrauchten die hier untersuchten Kinder lediglich die Endpunkte einer semantischen Dimension, beispielsweise nur immer vs. nie. In Anbetracht einer semantischen Reihe kämen diesbezüglich die Adjektive immer - gewöhnlich - manchmal - selten - nie in Frage ([Kuczaj (1975)]; [Kuczaj (1982)]). Anhand dessen wird deutlich, dass der Erwerb derartiger semantischer Reihen für Kinder unter 4;1 Jahren noch ein recht großes Hindernis darstellt, während die Kinder in den Gruppen 2 und 3 bereits Adjektive äußerten, die sich zwischen den Extremen einer solchen Dimension befinden. Im Hinblick auf Nomen wurde festgestellt, dass die hier untersuchten Kinder zahlreiche übergeordnete Begriffe und Komposita sowie abstrakte Begriffe verwendeten. Bei den Komposita fällt auf, dass die Kinder in Gruppe 1 lediglich zwei Nomen zu einem Kompositum kombinieren, während die Kinder in den Gruppen 2 und 3 ein Nomen auch mit einem Verb oder einem Adjektiv kombinierten. Des Weiteren ist ab einem Alter von 4;1 Jahren die vermehrte Verwendung von Eigennamen (hier speziell Ortsbezeichnungen wie Afrika, Kenia) zu beoachten. Insgesamt betrachtet lässt die getätigte Analyse vermuten, dass nach einem Alter von 4;1 Jahren (hier ab 1496 Tagen) sprachliche Entwicklungsschritte stattfinden, die sich in der Komposition des Lexikons (bezogen auf die Types) und hier insbesondere bei den Adjektiven, Verben und zum Teil bei den Nomen beobachten lassen. Eine inhaltliche Analyse der Funktionswörter bestätigte den Trend einer sich verändernden Struktur des Lexikons ab 4;1 Jahren in Bezug auf die hier erhobenen Daten. Das auf diese Weise entstandene Lexikon (Anhang) mit seinen ergänzenden Dateien bildet in umfassender Weise die Spontansprache der hier untersuchten Kinder im Alter von 3;5 bis 5;5 Jahren ab und kann für zahlreiche weitere Analysen sowie als Nachschlagewerk für unterschiedliche Zwecke genutzt werden. An dieser Stelle sollen nun die in Kapitel 4 formulierten Fragen beantwortet werden. 1. Gibt es im Alter von 3;5 bis 5;5 Jahren Unterschiede in der Verteilung der Wortarten? Wie eben angeführt kann aufgrund der erhaltenen Daten angenommen werden, dass es kleine, wenn auch keine gravierenden Unterschiede bzw. Veränderungen in der Verteilung der Wortarten gibt. In Anlehnung an die Untersuchung Kauschkes ([Kauschke (1999)]) von Kindern bis zum 3. Lebensjahr scheint es in Bezug auf die hier ermittelten Daten so, dass nach diesem Zeitpunkt (zunächst) eine bereits 241 stabile Verteilung weiterhin bestehen bleibt, wobei Nomen nur relativ selten, aber in sehr verschiedener Form verwendet werden können. Der Anteil an Types ist in den Altersgruppen 2 und 3 höher als in Gruppe 1. Durch Einzelanalysen konnte gezeigt werden, dass der hohe Anteil an verschiedenartigen Nomen individuell derartig unterschiedlich ist, dass diesbezüglich keine allgemeinen Schlussfolgerungen getroffen werden können. Verben treten mit einem Anteil von etwa einem Fünftel bezüglich der Tokens und der Types gleichermaßen in den hier untersuchten Altersgruppen auf auf. 2. Ist hinsichtlich der Verwendung der Wortarten ein Trend erkennbar (individuell oder allgemein) oder bleibt die Komposition des Lexikons zwischen 3;5 und 5;5 Jahren konstant? Hinsichtlich der Verwendung/der Verteilung der Wortarten ist kein Trend erkennbar. Es ist im Hinblick auf die Analyse erwachsener Sprecherinnen und Sprecher jedoch anzunehmen, dass der Anteil der Nomen in Bezug auf die Types im weiteren Verlauf abnimmt (vgl. [Kauschke (2007)], S. 132). Die Verwendungshäufigkeit (Anteil der Tokens) sollte mit Referenz darauf annähernd gleich bleiben. Hierzu müssten weitere Untersuchungen mit Kindern über 5;5 Jahren sowie weiteren Daten von Erwachsenen vorgenommen werden. Den in Abschnitt 6.3 ermittelten Daten kann entnommen werden, dass die Verteilung der Wortarten individuell sehr unterschiedlich sein kann. Relativ gleich sind die Anteile bei den Tokens, während die Verschiedenartigkeit der geäußerten Wörter (Types) von Kind zu Kind oft stark abweicht. Die Anteile aller weiteren Wortarten unterliegen sowohl über die Altersgruppen hinweg als auch individuell betrachtet keinen derartigen Schwankungen, wie es bei einigen Inhaltswörtern (hier speziell bei den Nomen in Bezug auf die Types) der Fall ist. Vielmehr ist davon auszugehen, dass die meisten Wortarten als syntaktische Operatoren in ihrer Verwendung(-shäufigkeit) konstant bleiben. 3. Wie ist das Lexikon der hier untersuchten Kinder zwischen 3;5 und 5;5 Jahren komponiert? Um diese Frage zu beantworten ist ein Rückblick auf die in Abschnitt 2.3 geschaffenen Grundlagen notwendig. In diesem Abschnitt wurden zunächst die Erkenntnisse des Lexikonerwerbs aus der Sicht der Konstruktionsgrammatik dargelegt und damit verbunden insbesondere die Ansicht von Tomasello (2000, 2005) ([Tomasello (2000a)]; [Tomasello (2005)]). Die Gründe dafür sind, dass diese Erkenntnisse relativ zeitgemäß sind und zudem mit meinem persönlichen Forschungsinteresse einhergehen. Laut 242 KAPITEL 8. DISKUSSION Tomasello (2000) spielt der lexikalische Kontrast eine entscheidende Rolle für den Erwerb neuer Wörter, weil dieser helfe, die jeweiligen Referenten zu identifizieren. Mit 3 oder 4 Jahren würden Kinder ein ausreichend syntaktisches Wissen besitzen, um damit neue Wörter zu erwerben ([Tomasello (2000a)], S. 71). Dies spiegelt sich in den hier erhaltenen Daten wider. Zwischen 3;5 und 5;5 Jahren sind den hier ermittelten Daten zufolge keine großen Veränderungen im Wortschatz zu verzeichnen bezogen auf die Verteilung der Wortarten. Erkennbar sind allerdings individuelle Unterschiede in Bezug auf das Vorkommen der Nomen, insbesondere bei den Types (siehe dazu [Dittmann (2006)], S. 45). Dass diese Unterschiede tatsächlich fast ausschließlich bei den Nomen zu beobachten sind, könnte wiederum mit dem Erwerb der Syntax erklärt werden, die augenscheinlich in der hier untersuchten Alterspanne auf einem nicht messbarem Niveau stabil bleibt. Den Ergebnissen der vorliegenden Arbeit nach zu urteilen unterliegen die Anteile der Verben sowohl in Bezug auf die Tokens als auch auf die Types in jeder Altersgruppe keinen Schwankungen. Dies deutet auf ein - zumindest vorübergehendes - syntaktisch stabiles Muster hin. Bei den Nomen zeigen sich vor allem im Hinblick auf die Types große individuelle Unterschiede, bei den Tokens hingegen weniger. Dieser Umstand deutet darauf hin, dass auch diesbezüglich ein festes syntaktisches Muster verankert ist, dass inhaltlich individuell mit unterschiedlichen Nomen gefüllt wird. In Anbetracht der Tatsache, dass Nomen als Inhaltswörter sehr austauschbar sind und somit stark variieren können, ist das nicht unbedingt verwunderlich. Es zeigt vielmehr, dass der Erwerb semantischer Aspekte von Nomen noch lange nicht abgeschlossen ist und eventuell noch lange Zeit bzw. fortwährend individuellen Schwankungen unterliegt. Auch Anisfeld et al. (1998) beobachteten dieses Phänomen und postulieren, dass die lexikalische und die grammatische Entwicklung interkorrelieren ([Anisfeld, Rosenberg, Habermann und Gasparini (1998)]). Demnach breitet sich das Vokabular von Kindern rasant aus, kurz nachdem die Anwendung grammatischer Strukturen in der Sprache zu verzeichnen ist. Tomasello (2000) erklärt diese Interkorrelation damit, dass Kinder erst eine gewisse Anzahl von Wörtern benötigen, bevor sie syntaktische Konstruktionen verstehen können. Umgekehrt helfe das Wissen um syntaktische Strukturen beim Erlernen neuer Wörter ([Tomasello (2000a)], S. 93). Die eigentliche Komposition des Lexikons der hier untersuchten Kinder wurde durch eine Analyse der Wortbedeutungen ermöglicht. In Kapitel 243 7 wurde beschrieben, nach welchen semantischen Kategorien alle hier geäußerten Lemmata, neben ihrer Bezeichnung mit POS-Tags, klassifiziert werden. Auf diese Weise ergaben sich neben bereits vorhandenen Kategorien, auch neue Kategorien, die wichtige Informationen enthalten. Die Klasse der Verben wurde beispielsweise unter semantischen Aspekten in Handlungs-, Vorgangs-, Zustands-, Modal-, Auxiliar- und Kopulaverben differenziert. Eine ähnlich detaillierte Differenzierung erfuhren die Adjektive, Adverbien, Präpositionen, Junktionen, Nomen und Partikeln. Alle derart klassifizierten Lemmata sind mit ihren jeweiligen semantischen Kategorien und Beispielen aus den Daten dieser Arbeit im Anhang in Form eines Lexikons aufgeführt. Dieses Lexikon ist das Ergebnis aller bisher getätigten Recherchen und Analysen und spiegelt anschaulich das Vokabular der hier untersuchten Kinder im Alter von 3;5 bis 5;5 Jahren wider. 244 KAPITEL 8. DISKUSSION Kapitel 9 Ausblick An dieser Stelle möchte ich auf jene Ergebnisse dieser Arbeit zurückkommen, die besonders für weitere Forschungarbeiten interessant sein können. Ferner möchte ich eingehen auf im Zuge dieser Arbeit entstandenen Diskussionsbedarf, unabhängig von der hier durchgeführten Analyse. Es war mir ein besonderes Anliegen, das Lexikon von Kindern im Vorschulalter bzw. konkreter im Alter von 3;5 bis 5;5 Jahren zu untersuchen. Im Verlauf dieser Arbeit wurde die Wortartenverteilung der untersuchten Kinder auf der Basis der STTS (Tabelle 3.2.2) analysiert. Die ermittelten Ergebnisse fügen sich in das Bild der bisherigen Ergebnisse zum Lexikonerwerb und insbesondere zur Verteilung der Wortarten bei Kindern bis zum Alter von 3;0 Jahren ein. Ferner fällt auf, dass in der hier untersuchten Altersspanne keine großen Veränderungen in der Wortartenverteilung zu verzeichnen sind, zumindest was die Anteile aller Wortarten (in Bezug auf die Tokens) betrifft. Eine Ausnahme bilden mit einer großen Individualität hinsichtlich der Verschiedenartigkeit die hier verwendeten Nomen. An dieser Stelle wäre es für zukunftige Arbeiten ein besonderes Anliegen, diese Individualität genauer zu untersuchen. Die hier ermittelten Daten basieren auf spontanen Daten, die in einem Kindergarten gewonnen wurden. Es wurde festgestellt, dass sich die Kinder häufig in Spielsituationen befanden (Abschnitt 6.5). Dies kann unter Umständen dazu geführt haben, dass jene Nomen, die geäußert wurden, sehr verschieden waren. Es könnte jedoch der Fall sein, dass dies auch in anderen Situationen beobachtbar ist. Dies müsste in weiteren, ähnlich angelegten Untersuchungen herausgefunden werden. Interessant wäre die Beobachtung von Kindern zu Hause oder in ihnen fremden Umgebungen. Auch die Erhebung von Daten unter kontrollierten Bedingungen im Labor wäre vorstellbar. Dies hätte dann zwar nicht mehr den Anspruch an Spontaneität, würde aber einen interessanten Vergleich darstellen. Da bis zu einem Alter von 5;5 Jahren keine großen Veränderungen in 245 246 KAPITEL 9. AUSBLICK der Verteilung der Wortarten zu verzeichnen waren, müssten anschließend an diese Untersuchung Daten von älteren Kindern erhoben werden, um herauszufinden, ob und in welchem Alter ein nächster deutlicher Entwicklungsschritt erkennbar ist. Es wurde weiterhin festgestellt, dass sich die inhaltliche Zusammensetzung des Lexikons im Hinblick auf die Adjektive, Verben und wahrscheinlich auch auf die Nomen1 ab einem Alter von 4;1 Jahren ändert. Diesbezüglich erachte ich es für sinnvoll, diese Entwicklungschritte in weiterführenden Untersuchungen aufzugreifen und detaillierter zu erforschen. Des Weiteren können mit den hier erhaltenen Daten weitere Untersuchungen - im Hinblick auf die syntaktische, morphologische, phonologische Entwicklung etc. - vorgenommen werden. Besonders aufschlussreich wäre eine inhaltliche Analyse der hier erhobenen Daten unter anderen Bedingungen. Es ist zu erwarten, dass Kinder in anderen Umgebungen als im Kindergarten eine abweichende Verteilung der Wortarten sowie andere Inhalte aufweisen. Denkbar wäre, dass die Verteilung der Wortarten - insbesondere die der Types - weniger oder aber stärkeren individuellen Schwankungen unterliegt, wenn den Aufnahmen ein vorgegebenes Gesprächsthema zu Grunde liegt. Eine besonders aussagekräftige Vergleichsstudie wäre die Datenerhebung aller hier untersuchten Kinder zu späteren Zeitpunkten unter gleichen Bedingungen. Diesbezüglich erschiene es sinnvoll zu überprüfen, ob die indiviuelle Verschiedenartigkeit - insbesondere in der Verwendung der Nomen - in den Äußerungen erhalten bleibt oder ob sich dies mit zunehmendem Alter ändert. Eine Beobachtung des familiären Umfelds der untersuchten Kinder könnte zudem Aufschluss über eventuelle Besonderheiten geben, die die Kinder in ihrem Input erfahren. Nicht zu vergessen ist eine eigenständige Analyse von Daten erwachsener Sprecher/innen auf der Basis der STTS. Die hier vorliegenden Daten von Kauschke (2007) waren zu wenige, um damit einen aussagekräftigen Vergleich durchzuführen ([Kauschke (2007)]). Hinzu kommt, dass nicht genau bekannt ist, wie und unter welchen Bedingungen die Daten erhoben wurden. Ein Datenset erwachsener Sprecher/innen, das vom Umfang jenem der hier untersuchten Kinder entspricht, könnte interessante Hinweise darauf geben, ob und wann die Komposition des Lexikons bei Kindern annähernd stabil bleibt. Stellt man sich die Frage nach dem Sinn und Zweck der hier durchgeführten Analyse, ist das nicht ganz eindeutig zu beantworten. In der linguistischen Forschung wird ein Großteil der experimentellen Studien und Beobachtungsstudien häufig deshalb gemacht, weil zum jeweiligen 1 Ein eindeutiger Entwicklungsschritt bezüglich der Nomen kann hier nicht ausgemacht werden, ist aber nicht auszuschließen. 247 Forschungsthema noch keine Daten vorliegen oder aber, weil vorliegende Ergebnisse überprüft werden sollen. Derartige Analysen müssen nicht immer ein bestimmtes Ziel verfolgen oder für einen gesellschaftlichen Zweck zu Verfügung stehen. Oft ist es schlichtweg das Interesse nach neuen grundlegenden Strukturen, die die Sprache betreffen. Und genau darum ging es zunächst auch mir bei der Erstellung der vorliegenden Arbeit. Immer, wenn ich in einer Bibliothek oder anderweitig nach neuen Erkenntnissen zum Thema Sprache im Vorschulalter suchte, fand ich lediglich Literatur, die die Sprache von Kindern bis zu einem Alter von 3 Jahren beschreibt. Ich konnte mir nicht erklären, weshalb es keine Studien zur Strukur der Sprache von älteren Kindern gab. Nach längerer Recherche fanden sich zwar Studien, die sehr spezielle Fähigkeiten von Kindern im Vorschulalter untersuchten, wie zum Beispiel die richtige Verwendung der unregelmäßigen Pluralformen. Ich konnte jedoch keine Informationen darüber erlangen, wie der Wortschatz des Vorschulkindes im Hinblick auf seine Inhalte, geschweige denn auf seine Struktur, aufgebaut ist. Aus diesem Grund entschloss ich mich, selbst einen Schritt in diese Richtung zu unternehmen und einen Überblick über die Komposition des Lexikons von Kindern im Alter von 3;5 bis 5;5 Jahren zu schaffen. Dies war das übergeordnete Ziel der Arbeit. Nach einer ersten Durchsicht der erhaltenen Daten eröffneten sich spontan einige Ziele, die ich hier anführen möchte: Es ist vorstellbar, die hier erhaltenen inhaltlichen Daten für die Erstellung zukünftiger oder die Verbesserung bestehender Lehr- und Lernmaterialien zu nutzen. Insbesondere die Verbesserung von Lernsoftware für den Vorschulbedarf ist vorstellbar. Durch die hier erhaltenen Daten wird deutlich, wie Kinder im Alter von 3;5 bis 5;5 Jahren tatsächlich sprechen und demnach ist ersichtlich, welche Inhalte sie verstehen und welche noch nicht. Es wäre es sinnvoll, alle linguistischen Bereiche, in denen Hilfestellungen beim Erlernen der Sprache geboten werden können, aufzugreifen und pädagogisch aufzuarbeiten. Beispielhaft ist nach der Durchsicht der hier erhaltenen Ergebnisse das Verstehen und Üben der Adjektiv-Dimensionen unter unterschiedlichen Aspekten. Ferner wäre es denkbar, Adjektive in feststehenden Wendungen wie „ich habe eine coole Idee“ zu extrahieren und darauffolgend andere passende und/oder unpassende Adjektive zur Verfügung zu stellen. Es müsste dann eine Entscheidung des Kindes folgen, welches Adjektiv an dieser Stelle passen könnte. Ein ähnliches Prozedere ist auch mit anderen Wortarten vorstellbar, je nachdem welches Lernziel verfolgt wird. Ein ähnliches Ziel - aber unter Berücksichtigung der Erkenntnisse des Zweitsprachenerwerbs - ist die Erstellung von Lehr- und Lernmaterialien für Kinder mit Migrationshintergrund. Weiterhin könnten auf der Grundlage der Wave-Dateien geeignete Tonaufnahmen extrahiert und für 248 KAPITEL 9. AUSBLICK auditive Lernzwecke eingesetzt werden. Das abschließend erstellte Lexikon bildet, zusammen mit all seinen zusätzlichen Informationen (sprachliche Beispiele aus den EXMARaLDA-Dateien, Audio-Dateien, Wortartenanalyse, semantische Analyse, Häufigkeitsanalyse), ein nützliches Nachschlagewerk, das den Wortschatz von Kindern im Alter von 3;5 bis 5;5 Jahren zu großen Teilen abbildet. Ich hoffe, dass ich mit der hier erstellten Arbeit einen Beitrag leisten kann, der sich in die bisherige, sehr umfangreiche Forschungslandschaft des Spracherwerbs, aber auch der Lexikologie und Lexikographie sowie der korpusbasierten Linguistik eingliedert. Abbildungsverzeichnis 4.1 Folker-Datei: ic_a_31.flk . . . . . . . . . . . . . . . . . . . . . . 4.2 Folker-Datei: ic_a_16.flk . . . . . . . . . . . . . . . . . . . . . . 4.3 Beispielhafte EXMARaLDA-Datei mit sieben Sprecherinnen und Sprechern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Separierte Tonspur in einer EXMARaLDA-Datei . . . . . . . . . 4.5 Tonspur eines einzelnen Sprechers (RD) mit Annotationsspur . 4.6 EXMARaLDA-Datei: MM_lem.exb . . . . . . . . . . . . . . . . . . . . 72 72 73 73 5.1 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 5.10 5.11 5.12 5.13 5.14 5.15 5.16 5.17 5.18 5.19 5.20 5.21 . . . . . . . . . . . . . . . . . . . . . 91 91 92 92 93 93 94 95 95 96 96 96 97 98 99 100 100 107 118 119 120 CA: project folder structure . . . . . . . . . . . . . . . . . . CA: Installation . . . . . . . . . . . . . . . . . . . . . . . . . CA: copy and save files . . . . . . . . . . . . . . . . . . . . CA: convert wav-files . . . . . . . . . . . . . . . . . . . . . . CA: create database . . . . . . . . . . . . . . . . . . . . . . CA: import exmaralda files . . . . . . . . . . . . . . . . . . . CA: generate all results . . . . . . . . . . . . . . . . . . . . CA: generate tag count results . . . . . . . . . . . . . . . . CA: type-token results . . . . . . . . . . . . . . . . . . . . . CA: type-token-lemma results . . . . . . . . . . . . . . . . . CA: lemma tag results . . . . . . . . . . . . . . . . . . . . . CA: lemma bedeutung results . . . . . . . . . . . . . . . . CA: typetoken bedeutung results . . . . . . . . . . . . . . . CA: table structure sprecher . . . . . . . . . . . . . . . . . . CA: table structure aufnahme . . . . . . . . . . . . . . . . . CA: table structure: textpostags . . . . . . . . . . . . . . . . CA: table structure wav_datei . . . . . . . . . . . . . . . . . CA: Wortliste 1281 bis 1495 ART . . . . . . . . . . . . . . . CA: Beispiel lemma_tag 1496 bis 1708 . . . . . . . . . . . CA: Beispiel all_lemma_tag_MA 1281 bis 1495 . . . . . . CA: Skript db_query_all_lemma_tag_name LL_ 1709_1983 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 . 70 6.1 POS-Tags: tokens_types_gruppiert_1281_1495 . . . . . . . . . . 131 249 250 ABBILDUNGSVERZEICHNIS 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 Gruppierte POS-Tags, Verteilung Tokens, 1281 bis 1495 Tage . Gruppierte POS-Tags, Verteilung Tokens, 1496 bis 1708 Tage . Gruppierte POS-Tags, Verteilung Tokens, 1709 bis 1983 Tage . Beispiel: tokens_VVIMP_1709_1983 . . . . . . . . . . . . . . . Beispiel: types_VVFIN_1281_1495 . . . . . . . . . . . . . . . . Gruppierte POS-Tags, Verteilung Types, 1281 bis 1495 Tage . Gruppierte POS-Tags, Verteilung Types, 1496 bis 1708 Tage . Gruppierte POS-Tags, Verteilung Types, 1709 bis 1983 Tage . Beispiel: JS_lemmata_ADJA_1709_1983 . . . . . . . . . . . . Beispiel: LEO_lemmata_NN_1709_1983 . . . . . . . . . . . . . . . . . . . . . . 135 136 137 137 138 140 141 142 145 146 7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 7.12 7.13 Verwendung von „Idee“: 039_MA . . . . . . . . . . . . . . . . „wissen“ im Kontext „weißt du was?“ (042_MK und 044_MK) „wissen“: 020_MM, 036_LAR . . . . . . . . . . . . . . . . . . „glauben“: 024_LUA, 031_AV, 031_LAR, 031_SO . . . . . . . „denken“: 033_JS, 045_MK . . . . . . . . . . . . . . . . . . . Adjektive in den drei Altersgruppen (Ausschnitt) . . . . . . . . tag count_NN_1496_1708 . . . . . . . . . . . . . . . . . . . . tag count_JS_ADV_1709_1983 . . . . . . . . . . . . . . . . . type token_VVINF_1281_1495 . . . . . . . . . . . . . . . . . type token lemma_ADJA+ADJD_1709_1983 . . . . . . . . . lemma tag_VMFIN_1496_1708 . . . . . . . . . . . . . . . . . lemma bedeutung_v-vorgang_1281_1495 . . . . . . . . . . . type token bedeutung_adv-lok_1709_1983 . . . . . . . . . . . . . . . . . . . . . . . 201 205 205 206 206 209 217 218 219 220 221 221 222 . . . . . . . . . . . . . Tabellenverzeichnis 3.1 Wortartenklassifikation nach Kauschke ([Kauschke (1999)], S. 140) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3.2 STTS Tag Table (1995/1996) . . . . . . . . . . . . . . . . . . . . 44 4.2 Gruppe der Testpersonen . . . . . . . . . . . . . . . . . . . . . . 88 6.1 POS-Tags zusammengefasst . . . . . . . . . . . . . . . . . . . 6.2 Types und Tokens in den Altersgruppen . . . . . . . . . . . . . 6.3 Vorkommen der POS-Tags (Tokens) in allen Altersgruppen im Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . . 6.4 Vorkommen der POS-Tags (Types) in allen Altersgruppen im Überblick - gruppiert . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Type-Token-Verhältnis in den Altersgruppen . . . . . . . . . . . 6.6 MA: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . . 6.7 MK: Verteilung der Types, gruppiert, 1281 bis 1495 . . . . . . . 6.8 AV: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . 6.9 LEO: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . 6.10 LUA: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . 6.11 MK: Verteilung der Types, gruppiert, 1496 bis 1708 . . . . . . . 6.12 AV: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 6.13 JK: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 6.14 JS: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 6.15 LAR: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . 6.16 LEO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . 6.17 LL: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 6.18 LUA: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . 6.19 MM: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . 6.20 RD: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . 6.21 SO: Verteilung der Types, gruppiert, 1709 bis 1983 . . . . . . . . 131 . 133 . 134 . . . . . . . . . . . . . . . . . . 139 140 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 7.1 Nomen in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 199 7.2 Verben in den Altersgruppen . . . . . . . . . . . . . . . . . . . . 204 251 252 TABELLENVERZEICHNIS 7.3 Adjektive in den Altersgruppen . . . . . . . . . . . . . . . . . . . 207 Literaturverzeichnis [Abbot-Smith, Lieven und Tomasello (2001)] K. Abbot-Smith, E. Lieven und M. Tomasello. What preschool children do and not do with ungrammatical word orders. Cognitive Development, 16:679–692, 2001. [Aitchison (1994)] J. Aitchison. Words in the mind: an Introduction to the Mental Lexicon. Basil Blackwell, Oxford, 1994. [Aitchison (2003)] J. Aitchison. Words in the Mind. Malden, MA [u.a.], 3. Auflage, 2003. Blackwell Publishing, [Akhtar (1999)] N. Akhtar. Acquiring basic word order: evidence for data driven learning of syntactic structure. Journal of Child Language, 26:339–356, 1999. [Albert und Koster (2002)] R. Albert und C. Koster. Empirie in Linguistik und Sprachlehrforschung. Narr Studienbücher, Tübingen, 2002. [Anisfeld, Rosenberg, Habermann und Gasparini (1998)] M. Anisfeld, E. S. Rosenberg, M. J. Habermann und D. Gasparini. Lexical acceleration coincides with the onset of combinatorical speech. First Language, 18: 164–184, 1998. [Augst (1985)] G. Augst. Kinderwort: Der aktive Kinderwortschatz (kurz vor der Einschulung) nach Sachgebieten geordnet. Mit einem alphabetischen Register. Peter Lang, Frankfurt am M. u.a., 1985. [Augst, Bauer und Stein (1977)] G. Augst, A. Bauer und A. Stein. Grundwortschatz und Ideolekt. Empirische Untersuchungen zur semantischen und lexikalischen Struktur des kindlichen Wortschatzes. Niemeyer, Tübingen, 1977. [Backscheider und Shatz (1993)] A. Backscheider und M. Shatz. Children’s acquisition of the lexical domain of color. In Beals, K. et al., (Hrsg.), What we think, what we mean, and how we say it. Papers from the parasession on the correspondence of conceptual, semantic and 253 254 LITERATURVERZEICHNIS grammatical representations, CLS 29, Vol.2. The Chicago Linguistic Society, Chicago, 1993. [Baker (2003)] M. Baker. Lexical Categories: Verbs, Nouns and Adjectives. Cambridge University Press, Cambridge, 2003. [Bassano (2000)] D. Bassano. Early development of nouns and verbs in french: Exploring the interface between lexicon and grammar. Journal of Child Language, 27:512–559, 2000. [Bates und Goodman (1999)] E. Bates und J. Goodman. On the emergence of grammar from the lexicon. In B. MacWhinney, (Hrsg.), The emergence of language. Erlbaum, Mahwah, NY [u.a.], 1999. [Bates, Markman, Thal, Fenson, Dale, Reznik, Reilly und Hartung (1994)] E. Bates, V. Markman, D. Thal, L. Fenson, P. Dale, J. Reznik, I. Reilly und J. Hartung. Developmental and stylistic variation in the composition of early vocabulary. Journal of Child Language, 21:85–121, 1994. [Behrens (1998)] H. Behrens. How difficult are complex verbs? Evidence from German, Dutch and English. In E. Lieven, (Hrsg.), Special issue: Developing a Verb Category: Cross-Linguistic Perspectives, S. 679-713. Linguistics, Vol. 36/4, 1998. [Behrens (2011)] H. Behrens. Grammatik und Lexikon im Spracherwerb: Konstruktionsprozesse. In Sprachliches Wissen, Seiten 375–396. De Gruyter, 2011. [Bergenholtz und Schaeder (1977)] H. Bergenholtz und B. Schaeder. Die Wortarten des Deutschen: Versuch einer syntaktisch orientierten Klassifikation. Klett, Stuttgart, 1977. [Bierwisch und Schreuder (1992)] M. Bierwisch und R. Schreuder. concepts to lexical items. Cognition, 42:23–60, 1992. From [Bloom, Tinker und Margulis (1993)] L. Bloom, E. Tinker und C. Margulis. The words children learn: Evidence against a noun bias in early vocabularies. Cognitive Development, 8:431–450, 1993. [Borer (1984)] H. Borer. Parametric Syntax. Foris, Dordrecht, 1984. [Borer und Wexler (1987)] H. Borer und K. Wexler. The maturation of syntax. In T. Roeper und E. Williams, (Hrsg.), Parameter setting. Reidel, Dordrecht, 1987. LITERATURVERZEICHNIS 255 [Bowerman und Brown (2008)] M. Bowerman und P. Brown. Crosslinguistic perspectives on argument structure: implications for language acquisition. Erlbaum, Mahwah, NJ, 2008. [Bretheron und Beeghly (1986)] I. Bretheron und M. Beeghly. Talking about internal states: The acquisition of an explicit theory of mind. Developmental Psychology, 18:906–921, 1986. [Brown und McNeill (1966)] R. Brown und D. McNeill. The "tip of the tongue"phenomenon. Journal of Verbal Learning and Verbal Behavior, 5:325–337, 1966. [Budde (2000)] M. Budde. Wortarten - Definition und Identifikation. Berlin, Freie Univ., Berlin, 2000. [Bussmann (1983)] H. Bussmann. Lexikon der Sprachwissenschaft. Kröner, Stuttgart, 1983. [Campbell, Brooks und Tomasello (2000)] A. Campbell, P. Brooks und M. Tomasello. Factors affecoung children’s use of pronouns as referring expressions. Journal of Speech, Language and Learning Research, 43: 1337–1349, 2000. [Chomsky (1967)] N. Chomsky. Aspects of the theory of syntax. MIT Press, Cambridge, Mass., 1967. [Chomsky (1959)] N. Chomsky. Review of Verbal Behavior. By B.F. Skinner. Language, 35:26–58, 1959. [Clahsen (1990)] H. Clahsen. Constraints on parameter setting. A grammatical analysis of some acquisition stages in German Child language. Language Acquisition, 1:361–391, 1990. [Clark (1993)] E. Clark. The lexicon in acquisiton. Cambridge University Press, Cambridge [u.a.], 1993. [Clark (1995)] E. Clark. Later lexical development and word formation. In P. Fletcher und B. MacWhinney, (Hrsg.), The Handbook of Child Language, Seiten 393–412. Basil Blackwell, Oxford, 1995. [Clark (1997)] E. Clark. Conceptual perspective and lexical choice in acquisition. Cognition, 64:1–37, 1997. [Clark und Clark (1977)] H. Clark und E. Clark. Psychology and language. Harcourt Brace Jovanovich, New York, 1977. 256 LITERATURVERZEICHNIS [Dell (1986)] G. S. Dell. A spreading activation theory of retrieval in language production. Psychological Review, 93:283–321, 1986. [Dell und O’Seaghdha (1992)] G. S. Dell und P. G. O’Seaghdha. Stages of lexical access in language production. Cognition, 42:287–314, 1992. [Di Sciullo und Williams (1987)] A. Di Sciullo und E. Williams. On the Definition of World. The MIT Press, Cambridge, Mass./London, England, 1987. [Dittmann (2006)] J. Dittmann. Der Spracherwerb des Kindes. C. H. Beck, München, 2. Auflage, 2006. [Dromi (1987)] E. Dromi. Early lexical development. Cambridge University Press, Cambridge, 1987. [Duden (1996)] Duden. Die deutsche Rechtschreibung. Duden Bibliographisches Institut & F.A. Brockhaus AG, Mannheim, 21. Auflage, 1996. [Dudenredaktion (2004)] Dudenredaktion. Duden Rechtschreibung. Dudenverlag, Mannheim, 2004. [Dudenredaktion (2009)] Dudenredaktion. Dudenverlag, Berlin, 2009. Duden - - Die Die deutsche Grammatik. [Ejiri und Smith (1993)] K. Ejiri und A. Smith. Proposal for a new ’constraint measure’ for text. In R. Köhler und B. Rieger, (Hrsg.), Contributions to Quantitive Linguistics, S. 195-211. Kluwer, Dordrecht, 1993. [Engelkamp und Rummer (1999)] J. Engelkamp und R. Rummer. Die Architektur des mentalen Lexikons. In A. Friederici, (Hrsg.), Sprachrezeption, Seiten 155–201. Hogrefe, Göttingen, 1999. [Evans und Levinson (2009)] N. Evans und S. Levinson. The myth of language universals: Language diversity and its importance for cognitive science. Behavioral and Brain Science, 32:429–448, 2009. [Evans (2014)] V. Evans. The language myth. Cambridge University Press, Cambridge, 2014. [Fodor (1976)] J. A. Fodor. Hassocks, 1976. The language of thought. Harvester Press, [Gallmann (1991)] P. Gallmann. Wort, Lexem und Lemma. In G. Augst und B. Schaeder, (Hrsg.), Rechtschreibwörterbücher in der Diskussion. Geschichte - Analyse - Perspektiven. Peter Lang, Frankfurt a. M., Bern, New York, 1991. LITERATURVERZEICHNIS 257 [Gentner (1982)] D. Gentner. Why nouns are learned before verbs: Linguistic relativity versus natural partitioning. In S. Kuczaj, (Hrsg.), Language development, Vol. 2: Language, thought and culture, S. 301-334. Lawrence Erlbaum, Hillsdale, N.J., 1982. [Gleason (1973)] J. Gleason. Code switching in children’s language. In T. Moore, (Hrsg.), Cognitive Development and the Acquisition of Language, Seiten 159–167. Academic Press, New York, 1973. [Gleitman (1990)] L. Gleitman. The structural sources of verb meaning. Language Acquisition, 1:3–55, 1990. [Goldfield (2000)] B. Goldfield. Nouns before verbs in comprehension vs. production: The view from pragmatics. Journal of Child Language, 27: 501–520, 2000. [Gopnik (1988)] A. Gopnik. Three types of early word. First Language, 8: 49–70, 1988. [Gopnik und Choi (1995)] A. Gopnik und S. Choi. Names, relational words, and cognitive development in english and korean speakers: Nouns are not always learned before verbs. In M. Tomasello und W. Merriman, (Hrsg.), Beyond names for things: young children’s acqusition of verbs, S. 63-80. Erlbaum, Hillsdale, N.J., 1995. [Gordon (1985)] P. Gordon. Level-ordering in lexical development. Cognition, 21:73–93, 1985. [Grimshaw (1981)] J. Grimshaw. Form, function, and the language acqusition device. In C. Baker und J. McCarthy, (Hrsg.), The logical problem of language acqisition. MIT Press, Cambridge Mass., 1981. [Gundel, Hedberg und Zacharski (1993)] J. Gundel, N. Hedberg und R. Zacharski. Cognitive status and the form of the referring expressions. Language, 69:274–307, 1993. [Hetzer und Reindorf (1928)] H. Hetzer und B. Reindorf. Sprachentwicklung und soziales Milieu. Zeitschrift für angewandte Psychologie, 29: 429–462, 1928. [Hilpert (2014)] M. Hilpert. Construction grammar and its application to English. Edinburgh University Press, Edinburgh, 2014. [Hoffmann (2009)] L. Hoffmann. Handbuch der deutschen Wortarten. De Gruyter, Berlin u.a., 2009. 258 LITERATURVERZEICHNIS [Höhle (2012)] B. Höhle. Wie kommt das Kind zur Sprache. In B. Höhle, (Hrsg.), Psycholinguistik. Akademie Verlag, Berlin, 2012. [Jampert (2002)] K. Jampert. Schlüsselsituation Sprache. Leske und Budrich, Opladen, 2002. [Kaltenbacher (1990)] E. Kaltenbacher. Strategien beim frühkindlichen Syntaxerwerb - Eine Entwicklungsstudie. Narr, Tübingen, 1990. [Kauschke (1999)] C. Kauschke. Früher Wortschatzerwerb im Deutschen. In J. Meibauer und M. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb. A. Francke Verlag, Tübingen, Basel, 1999. [Kauschke (2000)] C. Kauschke. Der Erwerb des frühkindlichen Lexikons. Gunter Narr, Tübingen, 2000. [Kauschke (2007)] C. Kauschke. Erwerb und Verarbeitung von Nomen und Verben. Niemeyer, Tübingen, 2007. [Kauschke (2012)] C. Kauschke. Kindlicher Spracherwerb im Deutschen. De Gruyter, Berlin, 2012. [Kauschke und Klann-Delius (2010)] C. Kauschke und G. Klann-Delius. How mothers introduce a new, surprising object - a study on early word learning in discourse. In R. Zukauskiene, (Hrsg.), Proceedings of the XIV European Conference on Developmental Psychology - ECDP, Seiten 117–122. Medimond, Bologna, 2010. [Kauschke, Nutsch und Schrauf (2012)] C. Kauschke, C. Nutsch und J. Schrauf. Verarbeitung von konkreten und abstrakten Wörtern bei Kindern im Schulalter. Zeitschrift für Entwicklungspsychologie und pädagogische Psychologie, 44:2–11, 2012. [Kegel (1987)] G. Kegel. Sprache und Sprechen des Kindes. Westdeutscher Verlag, Opladen, 3. Auflage, 1987. [Kempen und Huijbers (1983)] G. Kempen und P. Huijbers. The lexicalization process in sentence production and naming: Indirect elections of words. Cognition, 14:185–209, 1983. [Klabunde (1998)] R. Klabunde. Zur Wahl dimensionaler Präpositionen und Adverbien in der Sprachproduktion. In P. Ludewig und B. Geurts, (Hrsg.), Lexikalische Semantik aus kognitiver Sicht: Perspektiven im Spannungsfeld linguistischer und psychologischer Modellierungen, Seiten 41–72. Narr, Tübingen, 1998. LITERATURVERZEICHNIS 259 [Klann-Delius (1999)] G. Klann-Delius. Spracherwerb. Metzler, Stuttgart [u.a.], 1999. [Klann-Delius und Kauschke (1995)] G. Klann-Delius und C. Kauschke. Die Entwicklung der Verbalisierungshäufigkeit von inneren Zuständen und emotionalen Ereignissen in der frühen Kindheit in Abhängigkeit von Alter und Affekttyp: Eine explorative, deskriptive Längsschnittstudie. Linguistische Berichte, 161:68–89, 1995. [Knobloch und Schaeder (2009)] C. Knobloch und B. Schaeder. Das Wort. In L. Hoffmann, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter, Berlin [u.a.], 2009. [Kuczaj (1999)] S. Kuczaj. The world of words: Thoughts on the development of a lexicon. In M. Barrett, (Hrsg.), The development of language, Seiten 133–160. Psychology Press, Hove, 1999. [Kuczaj (1975)] S. Kuczaj. On the acquisition of a semantic system. Journ. of Verbal Learning and Verbal Behavior, 16:589–600, 1975. [Kuczaj (1982)] S. Kuczaj. The acqusition of word meaning in the context of the development of the semantic system. In C. Brainerd und M. Presley, (Hrsg.), Verbal processes in children, Seiten 95–123. Springer-Verlag, New York, 1982. [Köhler und Galle (1993)] R. Köhler und M. Galle. Dynamic aspects of text characteristics. In L. Hrebicek, (Hrsg.), Quantitative text analysis. WVT, Trier, 1993. [Lebeaux (1988)] D. Lebeaux. Language acquisition and the form of the grammar. Ph.D. Universitiy of Massacchusetts, Massacchusetts, 1988. [Lehmann (2005)] C. Lehmann. Wortarten und Grammatikalisierung. Perspektiven in System und Grammatikalisierung. In C. Knobloch und B. Schaeder, (Hrsg.), Wortarten und Grammatikalisierung. De Gruyter, Berlin, 2005. [Levelt, Roelofs und Meyer (1999)] W. Levelt, A. Roelofs und A. Meyer. A theory of lexical access in speech production. Behavioral and Brain Science, 22:1–75, 1999. [Levelt (1989)] W. J. M. Levelt. Speaking: From intention to articulation. MIT Press, Cambridge, Mass [u.a.], 1989. [Levelt (1992)] W. J. M. Levelt. Accessing words in speech production: stages, processes an representations. Cognition, 42:1–22, 1992. 260 LITERATURVERZEICHNIS [Lieven, Pine und Baldwin (1997)] E. Lieven, J. Pine und G. Baldwin. Lexically based learning and early grammatical development. Journal of Child Language, 24:187–219, 1997. [Lyons (1977)] J. Lyons. Semantics (Vol. 1). Cambridge University Press, Cambridge, 1977. [Mack (2014)] A. Mack. Berlin, 2014. https://github.com/fiedler-mack/CorpusAnalyser. [Maratsos (1979)] M. Maratsos. Learning when and how to use pronouns and determiners. In P. Fletcher und M. Garman, (Hrsg.), Language Acquisition. Cambridge University Press, Cambridge, 1979. [McCarthy (1954)] J. McCarthy. Language development in children. In L. Carmichael, (Hrsg.), Manual of child psychology, Seiten 492–630. Wiley, New York, 1954. [McNamara (1982)] J. McNamara. Names for things: a study of child language. Bradford Books MIT Press, Cambridge Mass., 1982. [Meibauer und Rothweiler (1999)] J. Meibauer und M. Rothweiler. Das Lexikon im Spracherwerb. Ein Überblick. In J. Meibauer und M. Rothweiler, (Hrsg.), Das Lexikon im Spracherwerb. A. Francke Verlag, Tübingen, Basel, 1999. [Morton (1969)] J. Morton. The interaction of information in word recognition. Psychological Review, 76:165–178, 1969. [Nelson (1973)] K. Nelson. Structure and strategy in learning to talk. Monographs of the Society for Research in Child Development, No. 149, 38:1–2, 1973. [Oksaar (1997)] E. Oksaar. Spracherwerb im Vorschulalter - Eine Einführung in die Pädolinguistik. Kohlhammer, Stuttgart [u.a.], 2. Auflage, 1997. [Paivio (1986)] A. Paivio. Mental representations: A dual coding approach. Oxford University Press, Oxford, 1986. [Pine, Lieven und Rowland (1998)] J. Pine, E. Lieven und C. Rowland. Comparing different models of the development of the english verb category. Linguistics, 36:807–830, 1998. [Pinker (1984)] S. Pinker. Language Learnability and Language Development. Havard University Press, Cambridge, 1984. LITERATURVERZEICHNIS 261 [Pinker (1994)] S. Pinker. How could a child use verb syntax to learn verb semantics? Lingua, 92:377–410, 1994. [Pinker (1996)] S. Pinker. Der Sprachinstinkt - Wie der Geist die Sprache bildet. Kindler Verlag, München, 1996. [Roelofs (1992)] A. Roelofs. A spreading-activation theory of lemma retrieval in speaking. Cognition, 42:107–142, 1992. [Roelofs (1996)] A. Roelofs. Computational models of lemma retrieval. In T. Dijkstra und K. De Smedt, (Hrsg.), Computational Psycholinguistics: AI and Connectionist Models of Human Language Processing, Seiten 308–327. Taylor and Francis, London, 1996. [Rohde (2005)] A. Rohde. Lexikalische Zweitsprachenerwerb. WVT, Trier, 2005. Prinzipien im Erst- und [Rothweiler (1993)] M. Rothweiler. Der Erwerb von Nebensätzen im Deutschen. Niemeyer, Tübingen, 1993. [Ruoff (1981)] A. Ruoff. Häufigkeitswörterbuch gesprochener Sprache. Max Niemeyer Verlag, Tübingen, 1981. [Sandhofer und Smith (1999)] C. Sandhofer und L. Smith. Learning color words involves a system of mappings. Developmental Psychology, 35: 668–679, 1999. [Schiller, Teufel, Stöckert und Thielen (2009)] A. Schiller, S. Teufel, C. Stöckert und C. Thielen. Guidelines für das Tagging deutscher Textcorpora mit STTS. http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf, Stuttgart u.a., 2009. [Schlaefer (2002)] M. Schlaefer. Lexikologie und Lexikographie - Eine Einführung am Beispiel deutscher Wörterbücher. Erich Schmidt Verlag, Berlin, 2002. [Schmidt und Schütte (2011)] T. Schmidt und W. Schütte. FOLKER Transkriptionseditor für das Forschungsund Lehrkorpus gesprochenes Deutsch. http://agd.ids-mannheim.de/download/FOLKER-Transkriptionshandbuch. pdf, 2011. [Schmoe (2002)] F. Schmoe. Folglich trat Hubert barfuß und dennoch ungemein heftig gegen die zue Tür - Über einige Eigenschaften der deutschen Adverbien. In P. Wiesinger, (Hrsg.), Akten des X. 262 LITERATURVERZEICHNIS Internationalen Germanistenkongresses Wien 2000 - Zeitenwende - Die Germanisten auf dem Weg vom 20. uns 21. Jahrhundert, Band 2: Entwicklungstendenzen der deutschen Gegenwartssprache. Peter Lang, Frankfurt am Main, 2002. [Schwittala (2002)] J. Schwittala. Kleine Wörter. Partikeln im Gespräch. In J. Dittmann und C. Schmidt, (Hrsg.), Über Wörter. Grundkurs Linguistik. Rombach Druck- und Verlagshaus, Freiburg, 2002. [Selting (2009)] M. e. a. Selting. Gesprächsanalystisches Transkriptionssystem 2 GAT 2. Gesprächsforschung, 10:353–402, 2009. [Shatz, Wellmann und Silber (1983)] M. Shatz, H. Wellmann und S. Silber. The acquisition of mental verbs: A systematic investigation of the first reference to mental state. Cognition, 14:301–321, 1983. [Smith (1926)] M. Smith. An investigation of the development of the sentence and extent of vocablary in young children. Univ. Iowa Studies Child Welf., 3, 1926. [Spalek (2012)] K. Spalek. Wortproduktion. In B. Höhle, (Hrsg.), Psycholinguistik. Akademie Verlag, Berlin, 2012. [Stenzel (1997)] A. Stenzel. Die Entwicklung der syntaktischen Kategorien Nomen und Verb bei ein- und zweisprachigen Kindern. Gunter Narr Verlag, Tübingen, 1997. [Stern und Stern (1928)] C. Stern und W. Stern. Die Kindersprache. Wiss. Buchges., Leipzig, 1928. [Stern und Stern (1965)] C. Stern und W. Stern. Die Kindersprache. Wiss. Buchges., Darmstadt, Nachdruck der 4. Auflage, 1965. [Sucharowski (1996)] W. Sucharowski. Sprache und Kognition - Neuere Perspektiven in der Sprachwissenschaft. WV GmbH, Opladen, 1996. [Szagun (1983)] G. Szagun. Bedeutungsentwicklung beim Kind: Wie Kinder Wörter entdecken. Urban und Schwarzenberg, München, 1983. [Szagun (2001a)] G. Szagun. Wie Sprache entsteht: Sprachewerb bei Kindern mit beeinträchtigtem und normalem Hören. Beltz, Weinheim, 2001a. [Szagun (2002)] G. Szagun. Wörter lernen in der Muttersprache: Der ontogenetische Vokabularerwerb. In J. Dittmann und C. Schmidt, (Hrsg.), Über Wörter, S. 311-333. Rombach Verlag, Freiburg, 2002. LITERATURVERZEICHNIS 263 [Szagun (2006)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim, 7. Auflage, 2006. [Szagun (2008)] G. Szagun. Sprachentwicklung beim Kind. Beltz, Weinheim, 2. Auflage, 2008. [Templin (1957)] M. C. Templin. Certain language skills in children - their development an interrelationships. University of Minnesota Press, Minneapolis, 1957. [Tomasello (1999)] M. Tomasello. The cultural origins of human cognition. Harvard University Press, Cambridge, Mass. u.a., 1999. [Tomasello (2000a)] M. Tomasello. Constructing a language. A usage-based theory of language acquisition. Harvard University Press, Cambridge, Mass. [u.a.], 2000a. [Tomasello (2000b)] M. Tomasello. The item based nature of children’s early syntactic development. Trends in Cognitive Science, 4:156–163, 2000b. [Tomasello (2003)] M. Tomasello. Die kulturelle Entwicklung des menschlichen Denkens. Wissenschaftliche Buchgesellschaft, Baden-Baden, 2003. [Tomasello (2005)] M. Tomasello. Constructing a language. A usage-based theory of language acquisition. Harvard University Press, Cambridge, Mass. [u.a.], 2005. [Tomasello und Kruger (1992)] M. Tomasello und A. Kruger. Acquiring verbs in ostensive and non-ostensive contexts. Journal of Child Language, 19: 311–333, 1992. [Verrips (1990)] M. Verrips. Models of development. Linguistische Begriffe. Sonderheft, 3:11–21, 1990. [Vogel und Thieroff (2009)] P. Vogel und R. Thieroff. Wortarten und grammatische Kategorien. Sprache Stimme Gehör, 33:64–71, 2009. [Wagner, Dobkins und Barner (2013)] K. Wagner, K. Dobkins und D. Barner. Slow mapping: Color word learning as a gradual inductive process. Cognition, 127:307–317, 2013. [Waxman (1990)] S. Waxman. Linguistic biases and the establishment of conceptual hierachies: evidence from preschool children. Cognitive Development, 5:123–150, 1990. 264 LITERATURVERZEICHNIS [Weiss (1997)] S. Weiss. EEG-Kohärenz und Sprachverarbeitung. Die funktionelle Verkopplung von Gehirnregionen während der Verarbeitung unterschiedlicher Nomina. In G. Rickheit, (Hrsg.), Studien zur klinischen Linguistik: Methoden, Modelle, Intervention, Seiten 125–146. Westdeutscher Verlag, Opladen, 1997. [Wimmer (2005)] G. Wimmer. The type-token relation. In R. Köhler, G. Altmann und R. Piotrowski, (Hrsg.), Quantitative Linguistics. An international Handbook. De Gruyter, New York, 2005. [Winner (1988)] E. Winner. The point of words. Havard University Press, Cambridge, 1988. [Wode (1988)] H. Wode. Einführung in die Psycholinguistik. Hueber, Ismaning, 1988. [Yule (1944)] U. Yule. The statistical study of literary vocabulary. University Press, Cambridge, 1944.