1 Inhaltsverzeichnis Vorwort und Anmerkungen 1 Einleitung ....................................................................................................................... 4 2 Stand der Forschung ...................................................................................................... 6 2.1 Multiple Determinanten des Schulerfolgs .............................................................. 6 2.1.1 Aggregation der Determinanten...................................................................... 6 2.1.2 Das Problem inhaltlicher Überlappung der Determinanten ........................... 8 2.2 Kognitive Determinanten des Schulerfolgs ............................................................. 9 2.2.1 Die Allgemeine Intelligenz als bester Prädiktor ............................................... 9 2.2.2 Lernen und Vorwissen ................................................................................... 10 2.2.3 Generalfaktor und Kristalline Intelligenz ....................................................... 10 2.2.4 Schulleistung als Kriterium und Kontributor ................................................. 11 2.3 Affektive und Motivationale Determinanten des Schulerfolgs ............................ 12 2.3.1 Einleitender Überblick ................................................................................... 12 2.3.2 Selbstkonzept ................................................................................................. 14 2.3.3 Interesse ........................................................................................................ 17 2.3.4 Leistungsmotivation und der Zusammenhang mit Hoffnung auf Erfolg und Furcht vor Misserfolg ................................................................................................... 18 2.3.5 2.4 3 Anstrengungsvermeidung.............................................................................. 22 Vorausgehende vergleichbare Studien ................................................................. 23 2.4.1 Analyse spezifischer und konfundierter Varianz ........................................... 23 2.4.2 Gagné und St Père (2001) .............................................................................. 24 2.4.3 Spinath et al. (2006) ....................................................................................... 24 2.4.4 Gegenüberstellung der Studien ..................................................................... 25 Fragestellungen und Erwartungen .............................................................................. 27 3.1 Dimensionalität motivationaler und kognitiver Konstrukte ................................. 27 3.2 Vorhersage des Schulerfolgs ................................................................................. 27 2 4 Methode ...................................................................................................................... 29 4.1 4.1.1 Leistungstests ................................................................................................ 29 4.1.2 Motivationsskalen.......................................................................................... 32 4.2 Aufbau des eingesetzten Testheftes ..................................................................... 37 4.3 Datenerhebung ..................................................................................................... 38 4.3.1 Planung der Datenerhebung.......................................................................... 38 4.3.2 Ablauf der Datenerhebung ............................................................................ 39 4.4 Beschreibung der Stichprobe ................................................................................ 41 4.4.1 Vorläufige Stichprobe .................................................................................... 41 4.4.2 Endgültige Stichprobe .................................................................................... 41 4.5 Auswertungsplan................................................................................................... 42 4.5.1 Vorgehen bei der Datenaufbereitung............................................................ 42 4.5.2 Vorgehen bei der Ergebnisberechnung ......................................................... 46 4.6 Verwendete Verfahren der Datenanalyse ............................................................ 46 4.6.1 Faktorenanalyse: Hauptkomponentenanalyse.............................................. 46 4.6.2 Parallelanalyse ............................................................................................... 48 4.6.3 Item- und Reliabilitätsanalyse ....................................................................... 49 4.6.4 Produkt-Moment-Korrelation........................................................................ 50 4.6.5 Hierarchische Regressionsanalyse ................................................................. 50 4.6.6 Kommunalitätenanalyse ................................................................................ 51 4.7 5 Angewandte Untersuchungsverfahren ................................................................. 29 Voraussetzungen zur Anwendung der Verfahren ................................................. 52 Darstellung der Ergebnisse .......................................................................................... 55 5.1 Dimensionsanalysen.............................................................................................. 55 5.1.1 Struktur der Allgemeinen Intelligenz ............................................................. 55 5.1.2 Struktur motivationaler Skalen ...................................................................... 56 3 5.2 5.2.1 Leistungstests ................................................................................................ 60 5.2.2 Motivationsskalen.......................................................................................... 61 5.3 Regressionsanalysen ............................................................................................. 62 5.3.1 Vorhersageleistung der Schulleistung ........................................................... 62 5.3.2 Vorhersageleistung für das Fach Deutsch ..................................................... 63 5.3.3 Vorhersageleistung für das Fach Physik ........................................................ 64 5.3.4 Vergleich Schulbezogene und Fächerspezifische Betrachtungsweise .......... 64 5.4 6 Item- und Skalenanalysen ..................................................................................... 59 Kommunalitätenanalysen ..................................................................................... 65 Diskussion der Ergebnisse............................................................................................ 68 6.1 Stichprobe und Instrumente ................................................................................. 68 6.2 Dimensionsanalysen.............................................................................................. 68 6.3 Vorhersage des Schulerfolgs ................................................................................. 70 6.4 Anteile spezifischer und konfundierter Varianz.................................................... 71 6.5 Bezug zu vergleichbaren Studien .......................................................................... 74 7 Grenzen und Stärken der Studie .................................................................................. 76 8 Zusammenfassung ....................................................................................................... 79 9 Literaturverzeichnis# ................................................................................................... 80 10 Inhaltsindex#................................................................................................................ 80 2 Vorwort und Anmerkungen Die vorliegende Diplomarbeit befasst sich mit der Fragestellung, welche eigenständige prädiktive Kraft die Allgemeine Intelligenz und verschiedene motivationale Variablen bei der Vorhersage des Schulerfolgs besitzen. Ferner ist es Ziel herauszufinden, ob sich die Vorhersageleistung bei fächerspezifischer Betrachtungsweise erhöht. Die Arbeit ist in einen theoretischen und einen empirischen Teil aufgegliedert. Der erste Teil umfasst vier Kapitel. Nach der Einleitung wird der aktuelle Stand der Forschung und die psychologischen Konstrukte beschrieben, die in der vorliegenden Studie erfasst werden. Im dritten Kapitel stelle ich Hypothesen auf und leite daraus die spezifischen Fragestellungen ab. Das vierte Kapitel beschäftigt sich ausführlich mit den Methoden. Zunächst beschreibe ich kurz die eingesetzten Leistungstests und Fragebögen, sowie den Aufbau des eingesetzten Testheftes. Es wird über die Erhebung der Daten und die daraus resultierende Stichprobe berichtet. Außerdem erläutere ich das Vorgehen bei der Ergebnisberechnung, sowie die eingesetzten statistischen Analyseverfahren. Die Ergebnisse der Studie werden im fünften Kapitel dargestellt und im sechsten Kapitel inhaltlich diskutiert. Dabei werden die Resultate kritisch diskutiert und im Kontext anderen Studien beleuchtet. Das siebte Kapitel beschäftigt sich mit den Grenzen der vorliegenden Arbeit und gibt einen Ausblick auf aufgeworfene Fragen. Das achte Kapitel schließt mit einer Zusammenfassung der Studie. Um eine größere Stichprobe zu erhalten, arbeitete ich bei der Erstellung des Testheftes und der Erhebung der Daten mit Jens Pfeiffer zusammen. Jeder einzelne von uns beiden stellte mit dem gemeinsamen Datensatz eigenständige Berechnungen an, so dass nicht auszuschließen ist, dass wir aufgrund unterschiedlicher Ausreißerklassifikationen etc. zu geringfügig anderen Werten kommen. An der inhaltlichen Interpretation der Ergebnisse sollte sich dadurch freilich nichts ändern. Da der Umfang der erhobenen Daten den Rahmen einer einzigen Diplomarbeit exzessiv ausgereizt hätte, teilten wir die Fragestellung inhaltlich auf. So führe ich in meiner Diplomarbeit nicht alle psychometrischen Kennwerte auf und beschränke mich bei den Ergebnissen der Faktorenanalysen auf meinen Teil. Die andere Hälfte befindet sich in der Diplomarbeit von Pfeiffer (2007) mit dem Titel: „Be smart or try hard − Zur Bedeutung von Intelligenz und Motivation bei der Vorhersage von 3 Schulleistungen“. Im Anhang unter ~T-1 findet sich eine Tabelle in der die Aufteilung, sowie die Abkürzungen der verwendeten Leistungstests und Motivationsskalen aufgeführt sind. Die erhobenen Daten lassen sich in zwei grobe Gruppen aufgliedern. Die Subtests des ersten Blocks dienen der Bestimmung der Allgemeinen Intelligenz und werden um den Leistungsaspekt hervorzuheben als Leistungstests bezeichnet. Der zweite Block erfasst verschiedene schulbezogene motivationale und affektive Aspekte. Diese werden mit verschiedenen Fragebögen untersucht und generalisiert als Motivationsskalen bezeichnet. Dem Leser werden zwei Wörter recht häufig begegnen: „schulbezogen“ und „fächerspezifisch“. Der erste Ausdruck wird immer dann verwendet, wenn sich die Aussage allgemein auf die Schule bezieht, ohne zwischen den verschiedenen Fächern zu differenzieren. Der Begriff „fächerspezifisch“ kommt überall dort zum Einsatz, wo explizit zwischen den verschiedenen Schulfächern differenziert wird. Ebenso finden die Substantive „Schulleistung“ und „Schulerfolg“ vielfache Verwendung. Die beiden Wörter werden parallel benutzt und beziehen sich dabei auf die Leistung von Seiten des Schülers, nicht die der Schule. Noch ein Hinweis zur Nummerierung von Tabellen: Jede Tabellenüberschrift enthält zwei Ziffern, die durch einen Punkt voneinander getrennt sind. Die erste Zahl bezieht sich auf die Kapitelnummer, um das Auffinden im Text zu erleichtern. Die zweite Nummer ist innerhalb eines jeden Kapitels fortlaufend durchnummeriert. Dasselbe Benennungsschema wurde für Abbildungen bzw. Diagramme verwendet. Es sei darauf hingewiesen, dass der Einfachheit halber durchgehend darauf verzichtet wurde bei Personen, zusätzlich zur männlichen die weibliche Wortform zu verwenden. Ist die Rede beispielsweise von „Schülern“, so bezieht sich diese Bezeichnung wenn nicht anderweitig erwähnt, auf die gesamte Stichprobe, bestehend aus männlichen und weiblichen Jugendlichen. 4 1 Einleitung „Kognitive und motivationale Determinanten der Schulleistung: Verändert sich die Vorhersage bei fächerspezifischer Betrachtungsweise?“ So lautet der Titel meiner Diplomarbeit und beschreibt die inhaltlichen Schwerpunkte der vorliegenden Untersuchung. Zunächst stellt sich die Frage, was ist Schulleistung? Auch wenn die Schule bzw. die Lehrer einen erheblichen Einfluss ausüben, ist mit dem Begriff „Schulleistung“ die Leistung von Seiten des Schülers gemeint. Köller & Baumert (2002, S. 756) verstehen Schulleistungen als „das auf den Lehrplänen basierende deklarative und prozedurale Wissen in verschiedenen Domänen […], dessen Erwerb zu einem erheblichen Teil an Lerngelegenheiten im jeweiligen Fachunterricht gebunden ist.“ Demnach kann man Schulleistung als fachspezifische Expertise des Schülers definieren, die er sich auf Grundlage des Unterrichtsbesuchs aneignet. Experten gehen davon aus, dass der Schulerfolg multipel determiniert und in einer komplexen Wechselwirkung mit individuellen, schulinternen und außerschulischen Bedingungsfaktoren steht (vgl. Haertel, Walberg & Weinstein, 1983). Der soziale, familiäre und schulische Kontext ist nicht Untersuchungsgegenstand dieser Studie. Die vorliegende Untersuchung beschränkt sich bei der Vorhersage des Schulerfolgs auf individuumsspezifische psychologische Variablen. Im Titel der Diplomarbeit wird die substantivierte Wortform des Verbs determinieren benutzt, das nach dem Wörterbuch der deutschen Gegenwartssprache „etwas (im voraus) bestimmen, festlegen“ bedeutet. Ziel meiner Arbeit ist also zu untersuchen, welche Faktoren die Leistung der Schüler in der Schule bedingen. Der Begriff Vorhersage ist dabei nicht als Prognose für die Zukunft zu verstehen (obwohl bei hinreichender Merkmalsstabilität eine Voraussicht durchaus Sinn macht). Vielmehr geht es darum, mit welcher Zuverlässigkeit ich Annahmen über die Schulleistung eines Schülers aufstellen kann, wenn ich über Kenntnisse über die aktuellen psychologisch-relevanten Determinanten verfüge. Hierbei wird zwischen kognitiven und motivationalen Bedingungsfaktoren unterschieden. Der Begriff „kognitiv“ bezieht sich auf dispositionale intellektuelle Fähigkeiten, bzw. die Allgemeine Intelligenz. Helmke und Weinert (1997) führen zwei Gründe an, wieso intellektuelle Fähigkeiten mit schulischen Leistungen zusammenhängen (S. 106): - Intelligentere sind im Vergleich zu weniger intelligenten Menschen besser in der Lage, sich auf neue Aufgaben einzustellen, effektive Problemlösungsstrategien zu entwickeln und lösungsrelevante Regeln zu erkennen. 5 - Intelligentere haben im Vergleich zu weniger intelligenten Menschen in kumulativen Lernsequenzen unter vergleichbarer Zeit- und Instruktionsbedingungen mit einer gewissen Wahrscheinlichkeit in der Vergangenheit mehr und intelligenter organisiertes (tiefer verstandenes, vernetztes, multiple repräsentiertes und flexibel nutzbares) Wissen erworben. Diese bereichsspezifischen Vorkenntnisse erleichtern die darauf aufbauenden weiteren Lernprozesse. Kurz gesagt, Intelligentere greifen bei der Auseinandersetzung mit einer Aufgabe nicht nur auf bessere Lösungsstrategien zurück, sie haben in der Vergangenheit mit einer höheren Wahrscheinlichkeit bereichsspezifische Vorkenntnisse (Expertise) erworben. Dies gilt auch für die Schule, wo intelligentere Schüler mehr vom Unterricht profitieren, da sie neue Lerninhalte besser vernetzten und speichern. Die „motivationalen Determinanten“ beziehen sich auf Persönlichkeitsaspekte, die den Schüler motivieren, sich mit dem Schulstoff auseinanderzusetzen. Dazu gehören alle affektiven, emotionalen und motivationalen, sowie das Fähigkeitsselbstbild betreffende Faktoren. Dabei spielt die Gerichtetheit der Emotionen keine Rolle: Es ist egal, ob der Schüler lernt, weil er Freude an dem Fach findet, oder aus Angst, schlechte Noten zu bekommen. Spinath et al. (siehe Abschnitt 2.4.3) unterscheiden in einer Studie bei der Vorhersage des Schulerfolgs zwischen verschiedenen inhaltlichen Bereichen auf Schulfachebene. Diese Idee der fächerspezifischen Betrachtungsweise greife ich auf und gehe der Fragestellung nach, ob sich die prädiktive Kraft der kognitiven und motivationalen Variablen dadurch erhöht. Die Vorhersage der Schulleistung erfolgt bei der vorliegenden Untersuchung allgemein schulbezogen, als auch separat für die Fächer Mathematik, Deutsch, Physik und Englisch. 6 2 Stand der Forschung 2.1 Multiple Determinanten des Schulerfolgs 2.1.1 Aggregation der Determinanten Die Fragestellung, welche Faktoren sich auf die Schulleistung eine Schülers auswirken, ist in der Pädagogischen Psychologie schon seit langem Forschungsgegenstand. Es gibt etliche Studien mit einer unüberschaubaren Anzahl an Determinanten, die jedoch zu instabilen, oder gar widersprüchlichen Ergebnissen kommen (Helmke & Weinert, 1997). Dies ist auf unterschiedliche Kontextbedingungen, inkongruente Stichproben, unzureichende Kontrolle moderierender Faktoren (z. B. ist der Einfluss der Bedingungsfaktoren altersabhängig), den uneinheitlichen Sprachgebrauch und unterschiedliche Indikatorvariablen des Kriteriums Schulleistung zurückzuführen. In der Untersuchung von Helmke (1992) fallen die Ergebnisse – abhängig davon ob Schulnoten oder Schulleistungstests als Kriterium herangezogen werden – recht unterschiedlich aus. Dies verdeutlicht, dass man Vergleiche mit anderen Studien nur mit Vorsicht anstellen sollte, da für unterschiedliche Konstrukte teilweise ein und dasselbe Wort Verwendung findet. Diese Problematik ist insbesondere bei Metaanalysen zu beachten. Da die theoretischen Modelle bis Anfang der 80er Schwächen aufweisen und nicht ausreichend empirisch gesichert werden konnten, gab es mehrere Versuche die wichtigsten Bedingungsfaktoren schulischer Leistung im Rahmen von Metaanalysen zusammenzufassen (vgl. Haertel, Walberg & Weinstein, 1983). Ein theoriegenerierendes Resultat dieser Bemühungen ist das Produktivitätsmodell von Walberg aus dem Jahre 1981, das in Abbildung 2.1 dargestellt ist. Es teilt neun Produktivitätsfaktoren in drei Gruppen ein (Fraser et al., 1987, S. 158): Aptitude als Schülerkompetenz, Instruction als Unterrichtsvariable und Psychological Environment als außerschulisches psychologisches Umfeld. Dieses Modell gilt als guter Ansatz und dient als Basis weiterer theoretischer Überlegungen. Es wurde in vielen empirischen Studien untersucht und Borger (1983, zitiert nach Reynolds, & Walberg, 1991) konnte im Rahmen einer Metaanalyse 91 Prozent der erwarteten Koeffizienten mit einer Multiplen Regression bestätigen. 7 Abbildung 2.1 – Produktivitätsmodell: Schulische Bedingungsfaktoren nach Walberg (aus Fraser et al., 1987, S. 158) Wie bereits in der Einleitung erwähnt, beschränkt sich die vorliegende Untersuchung bei der Vorhersage des Schulerfolgs auf individuumsspezifische Bedingungsfaktoren (bzw. die Schülerkompetenz), während Kontextvariablen keine Berücksichtigung erfahren. Doch ist dies angesichts des breiten Spektrums an Determinanten zu rechtfertigen? Helmke und Weinert (1997, S. 99) halten fest, „dass der Lernende mit seinen dispositionalen Merkmalen und seinem aktuellen Verhalten die wichtigste dynamische Determinante der Schulleistung […] darstellt.“ Für verschiedene Modelle des schulischen Lernens gibt es Schätzwerte, in welcher Größenordnung die unterschiedlichen Faktorgruppen einzustufen sind. Diese Werte weichen teilweise recht stark voneinander ab, eine Tendenz ist dennoch zu erkennen: Für motivationale Bedingungsfaktoren werden zwischen 20 und 25 Prozent (Helmke & Weinert, 1997, S. 111), für intellektuelle Fähigkeiten zwischen 25 und 45 Prozent der Schulleistungsvarianz veranschlagt. Bei der Metaanalyse von Fraser et al. (1987, S. 207) wird die Korrelation zur Schulleistung für Schülermerkmale mit .24 angegeben. Die Autoren schreiben, dass „Ability“ einer der stärksten und beständigsten Prädiktoren darstellt, während sie bei „Motivation“ von einem bedeutenden, unabhängigen Faktor sprechen (S. 222). 8 2.1.2 Das Problem inhaltlicher Überlappung der Determinanten Besonders bei den motivationalen Bedingungsfaktoren schulischer Leistungen überlappen sich die Konstrukte inhaltlich. So ist es augenscheinlich, dass z. B. „Prüfungsangst“ und „Furcht vor Misserfolg“ irgendetwas miteinander zu tun haben. Die einzelnen Determinanten der Schulleistung weisen nicht nur konzeptuelle Überlappungen auf, sondern interagieren miteinander (Helmke & Schrader, 2006). Das bedeutet, dass bestimmte Defizite durch andere Variablen kompensiert werden können, solange die Merkmale nicht unter einem bestimmten Schwellenwert liegen. Beispielsweise kann ein Schüler mangelnde Begabung ein Stück weit durch Fleiß ausgleichen. Andererseits geht man davon aus, dass eine Kopplung der Bedingungsfaktoren notwendig ist, um Hochleistungen zu erbringen. So reicht es weder aus nur hochbegabt, oder nur fleißig zu sein – um herausragende Leistungen in zu erbringen müssen beide Bedingungen gegeben sein. Dadurch ergibt sich bei der Prognose von Schulleistung ein methodisches Problem: Die einfachen Korrelationen zwischen den verschiedenen Determinanten und dem Kriterium des Schulerfolgs sind für eine verlässliche Vorhersage nicht ausreichend. Um die wahre prädiktive Kraft der Variablen zu bestimmten, müssen die Interdependenzen zwischen den einzelnen Bedingungsmerkmalen und ihre hierarchische Struktur berücksichtigt werden (Sauer, 2006). Dies erschwert die Interpretation empirischer Studien, da man nicht ohne Weiteres zwischen Einflussfaktoren, Moderatorvariablen und damit korrelierten irrelevanten Indikatorvariablen unterscheiden kann. Am Anfang des Abschnitts wurde bereits darauf hingewiesen, dass sich die Determinanten des Schulerfolgs inhaltlich überlappen. Das hat zur Folge, dass die prädiktive Kraft einer einzelnen Variable umso stärker überschätzt wird, je geringer die Anzahl der erfassten Konstrukte ist, und je höher ihr gemeinsame Varianzanteil mit nicht erfassten Variablen ausfällt. Eine einfache Lösung für dieses Problem ist die Erfassung eines möglichst breiten Sepktrums an Bedingungsfaktoren. Doch das alleine reicht noch nicht aus: Die Korrelation allein sagt nichts über den Anteil der spezifischen Varianz einer Variablen aus. Es gibt nur einige wenige Studien, die den gemeinsamen Varianzanteil korrespondierender Determinanten thematisieren und bei der Ergebnisberechnung beachten. Ein möglicher Ansatz ist die Verwendung von Kommunalitätenanalysen (siehe Abschnitt 4.6.6), mit deren Hilfe die Anteile spezifischer und gemeinsamer Varianz ermittelt werden können. 9 2.2 Kognitive Determinanten des Schulerfolgs 2.2.1 Die Allgemeine Intelligenz als bester Prädiktor Zur prädiktiven Kraft der Allgemeinen Intelligenz im Bezug zum Schulerfolg gibt es eine Vielzahl von Studien mit einem breiten Spektrum an Befunden. Das liegt vor allem daran, dass sich die erhobenen Indikatorvariablen von Intelligenz und Schulerfolg je nach Studie deutlich voneinander unterscheiden. Die inhaltlichen Differenzen beginnen bereits bei der Auswahl eines Intelligenztests mit dem Schwerpunkt auf verbalen bzw. nonverbalen Aufgaben. Außerdem spielt die Definition des Konstrukts „Schulerfolg“, sowie Alter, Geschlecht und Herkunft der Stichprobe neben weiteren Merkmalen eine wichtige Rolle. Die Spannweite der empirisch ermittelten Korrelationen ist dementsprechend hoch und reicht von .10 bis .89 (Sauer & Gamsjäger, 1996). Die Allgemeine Intelligenz stellt nach Ansicht vieler Experten den besten Prädiktor für den Schulerfolg dar, wobei die Korrelation bei etwa .5 liegt (Helmke & Weinert, 1987). Dieser Befund wurde in vielen Studien repliziert und durch Metaanalysen gesichert (z. B. Fraser, Walberg, Welch & Hattie, 1987). Die Vorhersageleistung lässt sich laut Kleber (1977) durch die linearer Kombination mehrerer Intelligenzwerte auf zirka 50 Prozent der Varianzaufklärung erhöhen. In den meisten Studien liegt der Aufklärungsanteil von Intelligenztests zwischen 25 und 45 Prozent der Schulleistungsvarianz (Sauer & Gattringer, 1986). Gaedike wies bereits 1974 (zitiert nach Sauer & Gattringer, 1986) darauf hin, dass eher die verbale Intelligenz mit dem Schulerfolg zusammenhangt. Messé, Crano, Messé und Rice (1979) untermauerten diese These, da verbale Aufgaben in ihrer Untersuchung höhere Korrelationen zur Schulleistung aufweisen als Nonverbale. Das Hervorheben der Allgemeinen Intelligenz als dominierende Schulleistungsdeterminante führte zum in der Öffentlichkeit viel diskutierten Phänomen der sogenannten Underachiever. Diesen „erwartungswidrig minderleistenden Schülern“ (Sparfeldt & Schilling, 2006, S. 804) wird aufgrund ihrer kognitiven Fähigkeiten unterstellt, sie müssten eine bessere Schulleistung erbringen. Doch was für Gründe lassen sich anführen, dass intelligentere Schüler im Regelfall bessere Schulnoten aufweisen? 10 2.2.2 Lernen und Vorwissen In der Fachliteratur ist die Meinung weit verbreitet, Intelligenz ist die Fähigkeit zu lernen (Simrall, 1947). Nach dieser Auffassung kann man die prädiktive Kraft der Intelligenz für die Leistungen eines Schülers über den Zusammenhang zwischen Intelligenz und Lernerfolg erklären. Die Korrelationen zwischen Intelligenz und verbalem Lernen liegen in Studien zwischen Null und .7 – woraus Kleber (1977) aufgrund der uneinheitlichen Befunde folgert, dass das globale Intelligenzkonzept allein keine brauchbare Erklärung für das Lernverhalten in der Schule liefert. Kleber betont: „Lernen ist in seiner Lernrate und seinem Lernerfolg teilweise durch Intelligenz determiniert. Die Abhängigkeit ist nicht überwältigend hoch…“ In der Einleitung wurde bereits darauf hingewiesen, dass intelligentere Schüler bei der Bearbeitung einer Aufgabe auf effektivere Lösungsstrategien zurückgreifen und sich so besser auf neue Aufgaben einstellen können. Außerdem haben sie in der Vergangenheit mit einer höheren Wahrscheinlichkeit bereichsspezifische Vorkenntnisse (Expertise) erworben und dieses Wissen besser vernetzt und so organisiert, dass es flexibel genutzt werden kann (Helmke & Weinert, 1997). Stern bringt dies wie folgt auf den Punkt (2004, S. 45): „…hohe Intelligenz [ist] nur von Vorteil, wenn sie zuvor in bereichsspezifisches Wissen umgesetzt wurde.“ Neben der Intelligenz ist also das Vorwissen von zentraler Bedeutung als kognitive Determinante der Schulleistung. Mit zunehmendem Alter der Schüler nimmt die Bedeutung der Intelligenz für die Schulleistung ab, während der Effekt des Vorwissens auf die Schulleistung zunimmt (Köller & Baumert, 2002). Stern (2004) weist darauf hin, dass mangelnde Intelligenz durch Wissen kompensiert werden kann, während sich fehlendes Wissen nicht durch hohe Intelligenz ausgleichen lässt. 2.2.3 Generalfaktor und Kristalline Intelligenz Spearman ging davon aus, dass die unterschiedlichen kognitiven Leistungen durch einen einzigen Generalfaktor – den g-Faktor – determiniert sind. Demnach interkorrelieren die verschiedenen Fassetten der Intelligenz und sind faktorenanalytisch auf einen Faktor zu bündeln. In der Investmenttheorie des Wissenserwerbs von Cattell „kristallisiert“ sich die geistige Energie im Laufe der Entwicklung zu spezifischeren Fähigkeiten, die wiederum den Erwerb von bereichsspezifischem Wissen steuern (Stern, 2001). Der Schulleistung geht Intelligenz 11 voraus und dieser Informationsverarbeitungsgeschwindigkeit (Jensen, 1989, zitiert nach Rindermann, 2006, S. 85). Zur „Kristallinen Intelligenz“ gehören übungs- und bildungsabhängige Leistungen, die durch Kumulierung von Lernerfahrung erworben werden. Die „Fluide Intelligenz“ ist dem g-Faktor gleichzusetzen und besteht aus Fähigkeiten, die nicht direkt in der Schule gefördert werden, wie Verarbeitungsgeschwindigkeit, schlussfolgerndes Denken und räumlich-visuelle Fähigkeiten. Da die Unabhängigkeit der Faktoren in Studien widerlegt wurde, erweiterte Cattell (1971) sein Modell um einen übergeordneten Faktor, der sich – entgegen seiner Auffassung – als g-Faktor interpretieren lässt. Stern (2001) weist darauf hin, dass die Ergebnisse verschiedener Studien sich nicht mit den abgeleiteten Hypothesen der Investmenttheorie decken. Nach Cattel (zitiert nach Sauer & Gattringer, 1986, S. 250) kann die Fluide Intelligenz bis zu 30 Prozent der Schulleistungsvarianz aufklären. Liegt die prozentuelle Varianzaufklärung eines Intelligenztests über diesem Wert, so ist dies auf nicht-fluide Faktoren zurückzuführen, die sich mit den Aspekten der Intelligenz und dem Kriterium der Schulleistung überlappen. Als Erstes kommt mir hier die Kristalline Intelligenz in den Sinn, die gemäß der Investmenttheorie für den Aufbau von bereichsspezifischem Wissen – und somit zumindest teilweise für das Vorwissen eines Schülers verantwortlich ist. Nach Schmalt (1976, zitiert nach Sauer & Gattringer, 1986) spielt – besonders bei länger andauernden Intelligenztests – die Motivation der Versuchsperson eine Rolle. Demnach ist ein langer Intelligenztests nicht als reiner Fähigkeits-, sondern gleichzeitig als Leis- tungs(motivations)test zu interpretieren. 2.2.4 Schulleistung als Kriterium und Kontributor Es gibt auch Stimmen, die die Dominanz der Intelligenz als Schulleistungsdeterminante in Frage stellen. Mercer (1978, zitiert nach Messé et al. 1979, S. 234) kritisiert die inhaltliche Ähnlichkeit von Schulleistungs- und Intelligenztests und die daraus hervorgehende Überschätzung der prognostischen Validität der Allgemeinen Intelligenz. Die auf Lehrerbeurteilungen basierte Schulnote ist demnach ein validerer Indikator der wahren Schulleistung. Diese These wurde von Helmke (1992) untermauert: Er konnte bei Fünftklässlern nachweisen, dass der Anteil spezifischer Varianz motivationaler Variablen zur Vorhersage der Mathematiknote größer war, als der spezifische Varianzanteil kognitiver Variablen. Im 12 Gegensatz dazu stellten kognitive Variablen den besseren Prädiktor dar, wenn ein Mathematiktest als Kriteriumsvariable herangezogen wurde. Neben dem Schluss, dass mit zunehmender Intelligenz die Wahrscheinlichkeit für eine gute Lernleistung und somit gute Schulnoten steigt, sollte die Frage nach der Kausalität nicht gänzlich vergessen werden. Köller und Karim (2001, zitiert nach Oerter, 2002) zeigten, dass steigende Schulanforderungen eine besondere Ausschöpfung kognitiver Begabungsreserven zur Folge hat und somit die Entwicklung der Allgemeinen Intelligenz begünstigt. Demnach ist die Auseinandersetzung mit komplexen Aufgaben (beispielsweise im Rahmen der Hausaufgaben oder beim Besuch von optionalen AGs in der Schule) förderlich für die Entfaltung der Allgemeinen Intelligenz. Die intelligenzfördernde Wirkung des Schulbesuchs wurde experimentell nachgewiesen (StelzI, Merz, Ehlers & Remer, 1995). 2.3 Affektive und Motivationale Determinanten des Schulerfolgs 2.3.1 Einleitender Überblick In einer Untersuchung von Pekrun, Hochstadt und Kramer (1996) wurde deutlich, dass in Prüfungssituationen neben Angst ein breites Spektrum an Emotionen – ein Drittel davon positiver Art – empfunden wird. Doch nicht nur während der Prüfung spielen Gefühle eine Rolle. Im Vorfeld können Emotionen Lern- und Prüfungsmotivation auslösen, aufrechterhalten, verstärken oder abschwächen. Doch wie ist der Zusammenhang zwischen Emotion und Motivation zu erklären? „Emotions serve the functions of preparing and sustaining reactions to important events and states by providing motivational and physiological energy, by focusing attention and modulating thinking, and by triggering actionrelated wishes and intentions“ (Pekrun, Götz, Titz & Perry, 2002, S. 96). Auf die Schule bezogen sorgt die Ankündigung einer Prüfung für emotionale Reaktionen, die den Schüler aktivieren und sein Denken dahingehend modifizieren, dass er die Motivation und Intention verspürt sich auf die Prüfung vorzubereiten. Pekrun geht davon aus, dass Emotionen einen indirekten Effekt auf Lernen und Leistung ausüben, moderiert über kognitive und motivationale Mechanismen. Der Zusammenhang von Emotionen zu Motivation und Schul- bzw. Studienleistung konnte in Korrelationsstudien (Pekrun et al., 2002) klar nachgewiesen werden. 13 Was versteht man überhaupt unter dem pädagogisch-psychologischen Konstrukt „motivationale Determinanten der Schulleistung“? Gemeint sind motivationale, affektive und emotionale Bedingungsfaktoren, die Einfluss auf die Leistung eines Schülers ausüben. In meiner Untersuchung wurden die motivationalen Konstrukte Fähigkeitsbezogenes Selbstkonzept (Abschnitt 2.3.2), Interesse (Abschnitt 2.3.3), Hoffnung auf Erfolg und Furcht vor Misserfolg (Abschnitt 2.3.4), sowie Anstrengungsvermeidung (Abschnitt 2.3.5) erfasst. Nach Helmke (1989) ist es wenig sinnvoll zwischen motivationalen und affektiven Konstrukten zu unterscheiden, da sie gemeinsame Varianzanteile besitzen. Stattdessen schlägt er vor inhaltlich ähnliche Konstrukte zu breiteren Faktoren zusammenzufassen. In der Vergangenheit dominierte die Intelligenz klar als primäre individuelle Bedingungsvariable der Schulleistung. Erst Ende der 80er Jahre wurde Studien mehr Beachtung geschenkt, die motivationalen Variablen eine größere Vorhersageleistung einräumten. Mithilfe von Längsschnittstudien und der Verwendung von Kommunalitätenanalysen konnte gezeigt werden, dass die prädiktive Kraft motivationale Variablen lange Zeit unterschätzt wurde (vgl. Sauer & Gattringer, 1986). Eine mögliche Erklärung lautet, dass sich motivationale Faktoren zu einem erheblichen Teil nur indirekt auf die Schulleistung auswirken (Schiefele, Krapp & Schreyer, 1993) und somit schwieriger zu identifizieren sind. In den meisten Studien dominieren intellektuelle Fähigkeiten bei der Vorhersage von Schulerfolg (z. B. Gagné & St Père, 2001; Spinath et al., 2006). In der Metaanalyse von Fraser et al. (1987, S. 207) wird für kognitive Bedingungsmerkmale ein mittlerer Korrelationskoeffizient zur Schulleistung von .44, gegenüber einem Wert von .12 für affektive Determinanten (basierend auf acht Studien) angegeben. Uguroglu und Walberg (1979, S. 385) kamen dagegen bei einer Analyse von 40 Studien auf eine mittlere Korrelation von .34 nach der sie folgerten, dass 11.4 Prozent der Schulleistungsvarianz über die Motivation aufgeklärt wird. Es sollte nicht vergessen werden, dass ein substantieller Teil der Schulleistungsvarianz nur durch kognitive und motivationale Variablen gemeinsam aufgeklärt wird (Helmke & Schrader, 2006). Während viele Experten die Dominanz kognitiver Variablen hervorheben, sind andere von der Bedeutung motivationaler Determinanten überzeugt: „…motivational factors do indeed have a powerful influence on achievements“ (Howe, 1987, S. 134, zitiert nach Helmke, 1989); „motivational factors may exert as much influence on […] school performance as do cognitive skills and abilities“ (Hill & Wigfield, 1984, S. 106, zitiert nach. Helmke, 1989). 14 Helmke (1989) weist darauf hin, dass motivationale Bedingungsfaktoren die Schulleistung hauptsächlich auf indirektem Weg beeinflussen und in einer zyklischen Wechselwirkung stehen (S. 929): „Affective variables influence achievement and are in turn modified and changed by achievement outcomes, forming a basic cycle of school performance“. 2.3.2 Selbstkonzept Das Selbstkonzept wird als „deklaratives Konzept der Kognition einer Person über sich selbst verstanden“ (Moschner & Dickhäuser, 2006, S. 629). Es enthält deskriptiv-kognitive sowie affektive evaluative Komponenten, die jedoch schwer voneinander zu trennen sind (Rost & Sparfeldt, 2002). Im schulischen Kontext findet man in der Literatur häufig den Begriff „Akademisches Selbstkonzept“ oder „Fähigkeitsbezogenes Selbstkonzept“. Gemeint ist in beiden Fällen die „hochdifferenzierte kognitive Repräsentationen der eigenen Leistungsfähigkeiten“ (Fend & Stöckli, 1997, S. 14, zitiert nach Schilling, Sparfeldt, Rost & Nickels, 2004, S. 21). Der Schüler hat also ein subjektives Bild seiner Fähigkeiten und Leistungen für unterschiedliche Bereiche. Nach Marsh & Shavelson (1985) ist das Selbstkonzept ein multidimensionales Konstrukt und in einer hierarchischen Struktur organisiert. Dieses Modell ist in Abbildung 2.2 dargestellt: Miteinander korrelierende fächerspezifische Selbstkonzepte bilden die Basis; aus diesen Fassetten setzen sich generalisiertere Selbstkonzepte auf einer höheren hierarchischen Ebene zusammen. Es besteht ein Konsens über eine mehrdimensionale Konzeption des Selbstkonzepts (Schilling et al., 2005) und die fächerspezifische Struktur konnte in empirische Studien faktorenanalytisch bestätigt werden (z. B. Marsh, 1990b; Rost & Sparfeldt, 2002). 15 Abbildung 2.2 – Modell of A Multifaceted Hierarchical Self-Concept nach Shavelson et al. von 1976 (Marsh, 1990, S. 84) Im pädagogisch-psychologischen Bereich wird verstärkt der Zusammenhang zwischen Selbstkonzept und Schulleistung untersucht. Bei der Metaanalyse von Hansford und Hattie (1982, zitiert nach Marsh, 1990, S. 81) resultierte eine durchschnittliche Korrelation von .20 zwischen dem generellem Selbstkonzept und Leistungsindikatoren. Dieser Zusammenhang stieg auf .42 an, wenn nur Studien in die Analyse eingingen, die das akademische Selbstkonzept erfassten (vgl. Lamsfuß & Rost, 1992, S. 154). Gemäß dem Modell des hierarchischen Selbstkonzepts wächst der Zusammenhang zwischen Selbstkonzept und Leistung, wenn die Indikatorvariablen auf einer niedrigen Hierarchieebene erfasst werden. Schilling et al. (2004, S. 27) berichten mittlere Korrelationen von .57 zwischen fächerspezifischen Selbstkonzeptskalen und den entsprechenden Zensuren. Helmke (1992, S. 271) spricht dem „leistungsbezogenen Selbstvertrauen“ im Bezug zu anderen nicht-kognitiven Variablen eine Schlüsselrolle bei der Prädiktion der Schulleistung zu. Im Kontext kognitiver Variablen hängt die prädiktive Kraft davon ab, ob man die Schulnote, oder die Ergebnisse von Schulleistungstests als Indikator für die Schulleistung heranzieht. Bei letzterem sind die kognitiven Determinanten vorrangig, während bei der Schulnote als Kriteriumsvariable das Selbstkonzept dominiert. Helmkes Begründung lautet, dass sich „für die Beeinflussung der Note wesentlich mehr Möglichkeiten ergeben, die 16 durch das jeweilige Intelligenz- und Vorkenntnisniveau gegebenen Lern- bzw. Leistungsbeschränkung zu kompensieren“. In einer Studie von Marsh & Yeung (1997) wurde deutlich, dass das Fähigkeitsselbstkonzept nicht nur Schulnoten, sondern auch die Kurswahl mitbestimmt: Das Selbstkonzept war ein besserer Prädiktor für die Wahl von Schulfächern als die Schulnote im entsprechenden Fach. Die herausragende prädiktive Bedeutung des Fähigkeitsselbstkonzepts bei der Kurswahl im Fach Mathematik wurde von Köller, Daniels, Schnabel, und Baumert (2000) erneut bestätigt. Die Selbstkonzeptforschung beschäftigt sich nicht nur mit der Fragestellung, wie hoch der Zusammenhang zwischen Selbstkonzept und Schulleistung ist, sondern beschäftigt sich mit der Frage der Kausalität. Nach Helmke & van Aken (1995) basiert das Fähigkeitsselbstbild von Schülern gemäß dem Skill-Development-Ansatz zumindest teilweise auf vorhergehenden Erfolgen oder Misserfolgen über die Bewertung anderer Personen. Im schulischen Kontext geschieht dies über Lehrer, die die Leistung des Schülers relativiert an der Klassennorm beurteilen. Eine andere Sichtweise bietet das Self-Enhancement-Modell das davon ausgeht, dass das Selbstkonzept bedeutend zur Vorhersage späterer Leistungen beiträgt. Demnach ist beispielsweise ein hohes Fähigkeitsselbstkonzept eine begünstigende Voraussetzung für das Aufnehmen und Aufrechterhalten von Lernanstrengungen (Helmke, 1992). Wichtig ist, dass das Selbstkonzept nicht isoliert betrachtet wird, sondern der Effekt weiterer Moderatorvariablen berücksichtigt wird. Ein Beispiel hierfür wäre das Alter: Das Fähigkeitsselbstbild beeinflusst in der Grundschule die Leistung noch nicht entscheidend (Helmke & van Aken, 1995). Dies ändert sich jedoch nach der Grundschule, wo es deutlichen Einfluss auf die Leistung gewinnt (Helmke, 1992). Wie beeinflusst das Selbstkonzept die Schulleistung? Wenn ein Schüler in einem Vokabeltest das Wort nicht kennt hilft es ihm auch nicht weiter, wenn er meint gut in Sprachen zu sein. Das fähigkeitsbezogene Selbstkonzept hat jedoch Einfluss auf eine Reihe von Variablen, die wiederum direkten Einfluss auf die Leistung in der Schule nehmen. Helmke und Weinert (1997) führen Anstrengungsintensität (insbesondere während der Hausaufgabe), Anstrengungsinitiierung und kognitives Engagement (insbesondere während des Unterrichts) auf. Außerdem dient laut Helmke und Weinert (1997, S. 148) ein hohes Selbstkonzept in „…selbstwertrelevanten Unterrichts- und Leistungssituationen als Puffer gegen aufgabenirrelevante, leistungsbehindernde Selbstzweifel.“ 17 2.3.3 Interesse Die Person-Gegenstands-Theorie sieht Interesse als „herausgehobene, subjektiv bedeutsam erlebte Beziehung zwischen einer Person und einem Gegenstandsbereich“ (Krapp, 1989, S. 235). Dieser Gegenstandsbereich außerhalb der Person spielt dann eine wichtige Rolle im Streben der Person. Die interessenorientierte Auseinandersetzung mit der Umwelt hat dabei nicht nur Auswirkung auf die handelnde Person, sondern auch auf die im Interessenhandeln einbezogenen Umweltgegenstände. Das heißt, es findet eine wechselseitige Beeinflussung im Sinn einer Transaktion statt. Interessengegenstände können in diesem relationalen Konstrukt konkrete Dinge, Tätigkeiten, aber auch abstrakte Wissensbereiche oder Schulfächer sein. Interessen sind bedeutend für die Entwicklung einer Person und ihren Wissenserwerb. Person Interessenorientierte Handlung Gegenstand von Interesse Abbildung 2.3 – Person-Gegenstands-Theorie: Interesse als relationales Konstrukt Nach Edelmann (1993) zeichnet sich Interesse dadurch aus, dass die Neugier sich immer wieder auf bestimmte Bereiche konzentriert, sozusagen kanalisiert wird. Diese Neugierde sieht er als wesentliche Voraussetzung für kognitives Lernen. Auf kognitiver Ebene bildet sich eine komplexe Wissensstruktur. Man geht davon aus, dass die Aufmerksamkeit bei einem als interessant bewerteten Thema ansteigt und Verarbeitungs- und Behaltensleistung somit verbessert werden (Schiefele, 1996). Auf affektiver Ebene geht Interesse mit positiven Gefühlen einher. Die Auseinandersetzung mit dem Gegenstand von Interesse wird als angenehm empfunden, da die eigene Kompetenz dabei zunimmt und somit selbiges Bedürfnis befriedigt wird (Rheinberg, 1998). Ein weiterer Ansatz ist, dass durch die optimale Passung zwischen Fähigkeits- und Anforderungsniveau eine Art „Flow“ entsteht (Krapp, 1992). Nach Meinung vieler Lehrer, spielt auch das Interesse als Bedingungsfaktor der Schulleistung eine Rolle. In diesem Zusammenhang bezeichnen Schiefele et al. (1993, S. 121) das Interesse als „spezifische Präferenz für bestimmte Lerninhalte“ und vermuten eine her- 18 ausragende Bedeutung innerhalb der Gruppe motivationaler Schülermerkmale. Helmke und Schrader (2006, S. 85) sehen Interesse als „zentrales Element selbstbestimmten Handelns und Bestandteil intrinsischer Motivation“. Helmke und Weinert (1997) weisen darauf hin, dass die Bedeutung des Interesses im Laufe der Schulzeit zunimmt und bei Jungen eine größere Bedeutung hat als bei Mädchen. Schiefele et al. (1993, S. 120) untersuchten 21 Studien im Rahmen einer Metaanalyse und kamen dabei auf eine mittlere Korrelation von .30 zwischen fachspezifischem Interesse und schulischer Leistung. Dabei ergaben sich zwischen den Fächern teilweise signifikante Unterschiede. Das Ausmaß des Einflusses von Interesse auf die Leistung hängt also zumindest teilweise vom untersuchten Fach ab. Naturwissenschaftliche „schwierige“ Fächer sind über das Interesse besser vorherzusagen als Nebenfächer. Die Autoren geben als Begründung an, dass Schüler mit einem geringen Interesse in einem Fach schnell aufgeben wenn es schwierig wird, während fachspezifisch interessierte Schüler Durchhaltevermögen an den Tag legen. Wissenschaftliche Arbeiten haben gezeigt, dass Interesse an einem Thema und die Lernleistung in positivem Zusammenhang stehen (Schiefele et al., 1993; Schiefele, 1996). Dies kann man über eine erhöhte eine Aufmerksamkeit erklären (Hidi, 1990, zitiert nach Schiefele, 1996), die zu einer höheren physiologischen Aktivierung und damit besserer Lernleistung einhergeht. Schiefele (1996) berichtet beim Lesen von Texten von mittleren positiven Zusammenhängen mit Aktivierung, Freude und Konzentration. Wie ist die prognostische Kraft von Interesse für die Schulleistung zu erklären? Interesse ist ein zentrales Konzept wenn es um die Erklärung des Auftretens intrinsischer Motivation geht (Deci, 1992, zitiert nach Schiefele et al., 1993). Nach Krapp (2006) spielen Interessen eine wichtige Rolle zur Beschreibung und Erklärung von Lernmotivation. Andererseits weist er darauf hin, dass Schüler ihr Lernverhalten eher auf Prüfungs-, anstatt auf Interesseninhalte ausrichten. 2.3.4 Leistungsmotivation und der Zusammenhang mit Hoffnung auf Erfolg und Furcht vor Misserfolg Heckhausen (1965, zitiert nach Rheinberg, 1998, S. 127) definiert Leistungsmotivation als „das Bestreben, die eigene Tüchtigkeit in all jenen Tätigkeiten zu steigern oder möglichst hoch zu halten, in denen man einen Gütemaßstab für verbindlich hält“. Es geht also um 19 den Vergleich der eigenen Leistung mit einem Anspruchsniveau, das man der sich selbst setzt, oder von anderen Personen auferlegt bekommt. „Leistung ist immer bewertete Leistung“ (Edelmann, 1993, S. 389). Deshalb entstehen bei der Auseinandersetzung mit einer Aufgabe und dem Resultat Gefühle, die einen wesentlichen Impuls zum Ausführen einer Handlung darstellen: Zentral erscheint die Empfindung von Stolz bei Erfolg und Scham bei Misserfolg, wobei die Stärke der Empfindung von der Diskrepanz zum gesetzten Anspruchsniveau abhängt, und welchen Ursachen das Ergebnis zugeschrieben wird. 2.3.4.1 Intrinsische und Extrinsische Motivation Atkinson sieht Leistungsmotivation in einer spezifischen Situation durch intrinsische und extrinsische Faktoren bestimmt (Schlag, 2006). Der intrinsische Teil wird als Wunsch verstanden eine bestimmte Handlung auszuführen, da die Handlung selbst als spannend, herausfordernd oder interessant erlebt wird (z. B. Deci & Ryan, zitiert nach Schiefele & Köller, 2006), oder als das angeborene Bedürfnis nach Wissen und Kompetenz (Ryan & Deci, 2000). Die Handlung wird aus dem inneren Wunsch heraus, also um ihrer selbst Willen ausgeführt. Im Gegensatz dazu ist extrinsische Motivation der Wunsch eine Handlung auszuführen in der Erwartung, positive Folgen herbeizuführen oder negative Folgen zu vermeiden (Schiefele & Köller, 2006). Eine klare Trennung zwischen intrinsischer und extrinsischer Motivation ist in vielen Fällen nur schwer möglich, da eine Handlung meistens aus mehreren Gründen gleichzeitig durchgeführt wird. Schiefele und Köller (2006) weisen darauf hin, dass Lernhandlungen sowohl intrinsisch, als auch extrinsisch motiviert sind. Ryan & Deci (2000) führen als Beispiel an, dass ein Schüler hochmotiviert an eine Hausaufgabe herangeht weil er neugierig ist und sich für das Thema interessiert – oder aber, weil er Anerkennung von Lehrern und Eltern erhalten will. Da eigene Interessen nur zum Teil dem Lehrplan entsprechen und Schüler sich im Normalfall trotzdem auf Prüfungen vorbereiten, ist das Lernen in der Schule größtenteils extrinsisch motiviert. Nach Ryan und Deci (2000) nimmt der Einfluss der intrinsischen Motivation in der Schule mit zunehmender Klassenstufe ab. Sie beschreiben intrinsische Motivation im schulischen Kontext als „a natural wellspring of learning and achievement“ (S. 55). Es gibt Untersuchungen die zeigen, dass herausragende Leistungen bei dauerhaft hoher intrinsischer Motivation erzielt werden. #Quelle 20 2.3.4.2 Atkinsons Risikowahl-Modell Atkinson hat mit seinem Risikowahl-Modell (1957) die Diskussion um die Leistungsmotivation erheblich geprägt. Der Ansatz vereint personen- und situationsspezifische Variablen und hilft bei der Vorhersage der invidviduell bevorzugten Aufgabenschwierigkeit bzw. des Anspruchniveaus. Leistungsmotivation ist laut Atkinson das Ergebnis eines Konflikts zwischen Annäherungs- und Vermeidungstendenzen. Dabei wirken die Faktoren „Hoffnung auf Erfolg“ und „Furcht vor Misserfolg“ bei der Entscheidung zusammen, ob eine Person eine Leistung in Angriff nimmt (Edelmann, 1993). Zusätzlich werden extrinsischmotivierende Tendenzen in Form von materieller Belohnung, Vermeiden von Bestrafung, etc. berücksichtigt. Leistungsmotivation Intrinsische Motivation Extrinsische Motivation Hoffnung auf Erfolg — Furcht vor Misserfolg Belohnung oder Zwang Abbildung 2.4 – Einflüsse auf die aktuelle Leistungsmotivation (Edelmann, 1993, S. 391) Die Tendenz Erfolg anzustreben besteht aus den multiplikativ verknüpften Variablen: dem Erfolgsmotiv (als dispositionelles Leistungsbedürfnis), der subjektiven Erfolgswahrscheinlichkeit (dass die Handlung positiv abgeschlossen wird) und dem Erfolgsanreiz (als Situationsvariable, die in Verbindung mit dem Motiv den Zustand der aktuellen Motivation herbeiführt). Analog dazu besteht die Tendenz Misserfolg zu vermeiden aus dem Misserfolgsmotiv, der subjektiven Misserfolgswahrscheinlichkeit und dem Misserfolgsanreiz (Edelmann, 1993). Es kommt also nicht nur auf die Höhe der Motivation, sondern auch auf die Gerichtetheit des Leistungsmotivs an. „Hoffnung auf Erfolg“ (mit dem nachfolgenden Gefühl von Stolz) ist die optimistische Einstellung Leistungsanforderungen zu erfüllen, während bei „Furcht vor Misserfolg“ Befürchtung überwiegen, den Leistungsanforderungen nicht gewachsen zu sein. In Erwartung eines Misserfolgs empfindet man Ärger, Scham und Angst. Insbesondere die Angst wirkt sich negativ auf die intellektuelle Leistungsfähigkeit aus (Edelmann, 1993) und induziert Flucht- bzw. Vermeidungsverhalten. Unabhängig davon, ob Leistungshandel gezeigt oder vermieden wird, wirkt Misserfolgserwartung demotivierend. 21 Welche praktischen Schlüsse lassen sich aus diesem theoretischen Modell ableiten? Bei einer hohen Hoffnung auf Erfolg und niedriger Furcht vor Misserfolg ist die Leistungsmotivation einer Person am höchsten (Edelmann, 1993). Demnach sollte Hoffnung auf Erfolg positiv, Furcht vor Misserfolg dagegen negativ mit dem Schulerfolg korrelieren. Diese Hypothese konnte in wissenschaftlichen Untersuchungen bestätigt werden. #Quelle 2.3.4.3 Model of Achievement-Related Choices Das Erwartungs-Wert-Modell nach Eccles sieht die subjektiven Erfolgserwartungen (Expectancies of Success) und den subjektive beigemessene Aufgabenwert (Subjective Task Value) als die zentralen Einflussgrößen auf die Stärke der in einer Situation wirksamen Motivation. Der Einfluss sämtlicher anderer Faktoren (nur die direkten Einflussfaktoren sind in Abbildung 2.5 dargestellt) wirkt über diese beiden Hauptfaktoren. Child's Goals and General Self-Schemata ▪ Self-schemata ▪ Short-term Goals ▪ Long-term Goals ▪ Ideal self ▪ Self-concept of one's abilities ▪ Perceptions of task demands Child's Affective Memories Expectation of Success Achievement-Related Choices Subjektive Task Value ▪ Incentive and Attainment Value ▪ Utility Value ▪ Cost Abbildung 2.5 – Achievement-Related Choices: der zentrale Teil des Erwartungs-Wert-Modells der Leistungsmotivation nach Eccles und Wigfield (2000, S. 69) Der subjektive Wert einer Aufgabe wird sowohl von Bedürfnissen, Werten und Zielen der Person, als auch von Aufgabenmerkmalen beeinflusst (vgl. Eccles et al., 1983). Das Ausmaß, zu dem eine Aufgabe Bedürfnisse befriedigt, die Zielerreichung fördert oder persönlichen Werten entspricht, entscheidet über den Wert, den eine Person der Aufgabe beimisst. Der Erwartungsaspekt beschreibt die subjektive Erfolgszuversicht eines Schülers bei einer bestimmten Aufgabe, die Wertvariablen den Anreiz, den ein Erfolg in dieser Aufga- 22 be bieten kann. Mit diesem Modell lassen sich Aufgabenauswahl, gezeigte Ausdauer und erbrachte Leistung aus dem Zusammenwirken von Erwartungs- und Wertvariablen erklären. Ob eine Person erfolgs- oder misserfolgsmotiviert einer Aufgabe entgegen sieht ist abhängig von der subjektiven Einschätzung der eigenen Fähigkeiten und den Anforderungen der Aufgabe, sowie den bisherigen Erfahrungen. Diese Einstellung lässt sich von einem Leistungsbereich nicht auf die Person generalisieren. So kann beispielsweise ein Schüler in naturwissenschaftlichen Fächern durch niedrige Furcht vor Misserfolg hohe oder mittlere Leistungsmotivation zeigen, in sprachlichen Fächern kann jedoch das genaue Gegenteil der Fall sein. 2.3.5 Anstrengungsvermeidung Anstrengungsvermeider stellen sich in einem bestimmten Tätigkeitsgebiet nicht den von ihnen abverlangten Leistungen sondern sind darauf bestrebt, den Anstrengungen durch „den aktiven Einsatz geeigneter Strategien“ (Rollett, 2006, S. 14) zu entgehen. Die Entstehung dieses Phänomens ist auf aversive Gefühle zurückzuführen, die der Anstrengungsvermeider erfährt, wenn er sich mit einer Handlung in dem spezifischen Tätigkeitsfeld auseinandersetzten muss. Bei zunehmender Belastung wird man normalerweise zunächst seine Anstrengung intensivieren, um den Anforderungen in diesem Bereich gerecht zu werden. Übersteigen die aversiven Gefühle dabei ein bestimmtes Ausmaß, so wird man seine Leistungsbemühungen zurückfahren, um den Organismus vor Überlastung zu schützen. Dieser theoretische Ansatz konnte von Schönpflug (1983, zitiert nach Rollett, 2006) experimentell bestätigt werden. Übt die soziale Umwelt Druck auf den Anstrengungsvermeider aus und verhindert so, dass er der Konfrontation mit dem aversiven Tätigkeitsfeld umgeht, kann sich daraus ein langfristiges Anstrengungsvermeidungsmotiv entwickeln. Auf den schulischen Kontext bezogen könnte dies ein Schüler sein, der schlechte Mathenoten erhält und von Eltern und Lehrer dazu gezwungen wird, sich mit mathematischen Aufgaben zu beschäftigen. Da es keine Möglichkeit gibt der aversiv belegten Tätigkeit dauerhaft zu entgehen, wird der Schüler die unangenehmen Anstrengungen im mathematischen Bereich reduzieren, indem er beispielsweise extrem langsam arbeitet. 23 2.4 Vorausgehende vergleichbare Studien 2.4.1 Analyse spezifischer und konfundierter Varianz Auf den vorhergehenden Seiten wurden die für meine Studie relevanten psychologischen Konstrukte erläutert und ihr Bezug zur Schulleistung beleuchtet. Es gibt zwar eine Vielzahl von Studien, die den Zusammenhang zwischen jeweils einem Konstrukts und der Schulnote untersuchen – jedoch ohne den Einfluss der anderen Variablen zu berücksichtigen. Die daraus resultierende Überschätzung der Vorhersageleistung und eine möglich Lösung dieses methodischen Problems wurde in Abschnitt 2.1.2 angesprochen. Es gibt nur einige wenige Studien die der Fragestellung nachgehen, ob motivatonale Variablen zur Vorhersage von Schulleistung beitragen, wenn der Einfluss der Allgemeinen Intelligenz kontrolliert wird. Hinter diesem Ansatz steht die Vermutung, dass bei Nichtbeachtung der Allgemeinen Intelligenz die konfundierte Varianz von kognitiven und motivationalen Variablen letzteren zugeschrieben wird. Es wäre sogar denkbar, dass motivationalen Konstrukten so eine prädiktive Kraft zugesprochen wird, obwohl sie eigenständig – also ohne einen eigenen spezifischen Varianzanteil – nicht zur Vorhersage von Schulerfolg beitragen. Es gibt einige wenige Untersuchungen, die bei der Vorhersage des Schulerfolgs kognitive und motivationale Konstrukte erfassen und bei der Auswertung kommunalitätenanalytisch vorgehen. Dazu zählen unter anderem die Studie von Sauer und Gattringer (1986) und die Untersuchung von Helmke (1992). Diese Studien unterscheiden zwischen Schulleistungstests und Schulnoten als Kriteriumsvariable. Sie berichten, dass die Bedeutung motivationaler Variablen bei Schulnoten größer ist als bei Schulleistungstests und dementsprechend auch der insgesamt aufgeklärte Varianzanteil. Während bei Sauer und Gattringer die Intelligenz bei beiden Kriteriumsvariablen die größte spezifische Varianz aufweist, besitzen bei Helmke die konfundierten motivationalen Variablen die größte Spezifität bei der Vorhersage der Mathenote. Sauer und Gattringer untersuchten Viertklässler ohne zwischen Schulfächern zu differenzieren. Helmke erhob seine Daten an Hauptschülern der fünften Klasse und beschränkte sich bei seinen Analysen lediglich auf das Fach Mathematik. Bisher habe ich keine Studien vorgestellt, die bei der Auswertung der Daten zwischen verschiedenen Schulfächern unterscheiden. Die vorliegende Untersuchung wurde von zwei Studien ausschlaggebend inspiriert, deren Ergebnisse ich auf den folgenden Seiten kurz zusammenfasse. 24 2.4.2 Gagné und St Père (2001) Gagné und St Père (2001) stellten sich die Frage: „When IQ is controlled, does motivation still predict achievement?“ An der Studie nahmen 208 (bei einer Teilnahmequote von 58 Prozent) Schülerinnen zwischen 12 und 14 Jahren der achten Klasse einer privaten Mädchen-High-School bei Montreal teil. Sie absolvierten die Intelligenztests „Raven’s Progressive Matrices“ und „Otis-Lennon Mental Ability Test“ und schnitten größtenteils überdurchschnittlich ab. Außerdem füllten sie zweimal im Semester einen Fragebogen aus, der Intrinsische Motivation, Extrinsische Motivation und Persistenz auf einer siebenstufigen Likertskala erfasste. Ein Elternteil und zwei Lehrer schätzten die drei Motivationsvariablen ihrer Tochter bzw. ihrer Schülerin zum gleichen Zeitpunkt ein. Die Kriteriumsvariable Schulleistung wurde aus dem Durchschnitt der Noten aus Französisch (als Muttersprache), Mathe, Englisch und Geschichte berechnet. Das Ergebnis der Untersuchung sieht die Allgemeine Intelligenz als alleinigen Prädiktor der Schulleistung. Die motivationalen Variablen (außer Persistenz) klären keine spezifische Varianz auf und tragen nicht signifikant zur Vorhersage des Schulerfolgs bei. Gagnés Entscheidung die Daten an einer privaten Mädchenschule zu erheben und so eine hochselektive Stichprobe mit überdurchschnittlicher Intelligenz zu untersuchen erscheint mir fragwürdig. Außerdem stellt sich die Frage, ob die niedrige Teilnahmequote von 58 Prozent und die daraus resultierende kleine Stichprobe von rund 200 Versuchspersonen ausreicht, um die Daten reliabel zu analysieren. Es kommt mir komisch vor, dass die Eltern die Schulleistung ihrer Tochter besser einschätzen können, als sie selbst. Auch das Ergebnis, dass motivationale Variablen keine spezifische Vorhersageleistung besitzen, stimmt einen in Anbetracht der empirischen Analysen von Helmke, sowie Sauer und Gattringer, kritisch. 2.4.3 Spinath et al. (2006) Im Jahr 2006 untersuchten Spinath, Spinath, Harlaar und Plomin 1678 neunjährige Grundschulkinder im Rahmen der Längsschnittstudie Twins Early Development Study (TEDS) in Großbritannien. Die Eltern fungierten bei der Datenerhebung ihrer eigenen Kinder als Testleiter und schickten die Unterlagen zur Auswertung zurück in die TEDS-Zentrale. Die Allgemeine Intelligenz wurde mit Subtests der „Wechsler Intelligence Scale for Children“ und dem „Cognitive Abilities Test 3“ erfasst und zu einer Skala aggregiert. Die Schul- 25 leistung der Kinder wurde von ihren Lehrern auf einer fünfstufigen Skala eingeschätzt, gemessen an Bewertungsschlüsseln nationaler Lernziele. Das Fähigkeitsbezogene Selbstkonzept und die Intrinsische Motivation wurden mit jeweils drei Items erfasst, die sich inhaltlich an den Bewertungskriterien der Lehrer orientierten. Die Schüler gaben dabei auf einer fünfstufigen Antwortskala an, wie gut sie in dem Fach sind, bzw. wie sehr sie sich dafür interessieren. Bei der Schulleistung, dem Selbstkonzept und der Intrinsischen Motivation wurden die Daten spezifisch für die Fächer Mathematik, Englisch (als Muttersprache) und dem Sammelfach Naturwissenschaften abgefragt. Die Ergebnisse der Studie lauten wie folgt: Die Prädiktorvariablen klären zusammen etwa 30 Prozent (in Naturwissenschaften etwa 20 Prozent) der Varianz der Schulleistung auf. Intelligenz ist der beste Prädiktor, Selbstkonzept und Intrinsische Motivation tragen inkrementell zur Aufklärung des Schulerfolgs bei. Im Fach Naturwissenschaften ist Intelligenz jedoch der einzig relevante Prädiktor. Die Kommunalitätenanalyse schlüsselt auf, dass das Fähigkeitsbezogenen Selbstkonzept bis zu 31 Prozent spezifisch und bis zu 24 Prozent der Varianz gemeinsam mit der Intelligenz aufklärt (im Fach Englisch). Bei der Intrinsischen Motivation wird hingegen bis zu 14 Prozent spezifisch und bis zu 8 Prozent gemeinsam mit der Intelligenz aufgeklärt. Ohne Zweifel ist die Untersuchung von Spinath und Kollegen richtungsweise, dennoch gibt es einige Dinge, die man verbessern könnte. Die größten Schwierigkeiten sehe ich in der Tatsache, dass die Eltern bei der Datenerhebung als Versuchsleiter ihrer eigenen Kinder fungieren. Ungeschulte, voreingenommene Versuchsleiter in einer unstandardisierten Testsituation sind keine guten Bedingungen für die Objektivität. Spinath arbeitet mit den Daten der TEDS und erhält so eine selektive Stichprobe. Man muss sich die Frage stellen, ob das Vorhandensein eines Zwillings Auswirkungen auf Selbstkonzept und Motivation hat. Spinath führt bei der Auswertung eine Kommunalitätenanalyse durch, benutzt dabei aber neben der Intelligenz jeweils nur eine Prädiktorvariable. So erhalten wir keine Kenntnisse über die Kommunalität von Selbstkonzept und Motivation, bzw. aller drei Prädiktorgruppen. 2.4.4 Gegenüberstellung der Studien Während Gagné Zweifel hegt, ob Motivation inkrementell zu der dominanten prädiktiven Kraft der Allgemeinen Intelligenz beiträgt, ist Spinath von ihrer Bedeutung überzeugt. 26 Tabelle 2.1 – Altersverteilung der Stichprobe #Tabelle OK? Vergleichsmerkmal (Schul-) Alter Stichprobengröße Schule Testdurchführung Erfassung Motivation Teilnahmequote Ermittlung der Varianz Motivation Gagné Spinath 8. Klasse 9 Jahre 202 (Mädchen) 1678 (Zwillinge) private all-girls high school elementary school Eltern (Instruktion per Post) Selbst- und Fremdbeur- Selbstbeurteilung teilung: Eltern und Lehrer 58 60 inkrementelle Varianz Kommunaliätenanalyse intrinsic, extrinsic, persis- domain specific: ability tence self-perceptions, intrinsic values Intelligenz g aus verbal, nonverbal Schulerfolg ∑ Französischa, Mathe, Englisch, Geschichte Längsschnitt Konzept Pfeiffer & Reinert 9. und 10. Klasse 1084 reguläre Gymnasien Selbst Testleiter Selbstbeurteilung 93 aus den Schulklassen Kommunalitätenanalyse Selbstkonzept, , Interesse Hoffnung auf Erfolg, Furcht vor Misserfolg, Anstrengungsvermeidung g aus verbal, nonverbal, g aus verbal, mathemareasoning, Wissen tisch, räumlich, Geschwindigkeit Mathe, Englischa, Science Mathe, Deutscha, Physik, Englisch und deren Schnitt Querschnitt Querschnitt Hinweis: a Dies ist die Muttersprache Mit der Spinath-Studie haben wir eine Untersuchung kennengelernt, die bei der Vorhersage des Schulerfolgs ein zufriedenstellend weitgefasstes Spektrum kognitiver und motivationaler Variablen miteinbezieht, kommunalitätenanalytisch vorgeht und dabei zwischen verschiedenen Schulfächern differenziert. Eine Untersuchung mit solch einem Versuchsplan ist mir für die gymnasiale Mittelstufe nicht bekannt. Hier setzt die vorliegende wissenschaftliche Arbeit von Pfeiffer und Reinert an. Wir haben den Anspruch, die kleinen Schwächen vorhergehender Studien zu verbessern und so unser Wissen über die Spezifitäten und Kommunalitäten kognitiver und motivationaler Variablen bei der Vorhersage des Schulerfolgs zu vertiefen. 27 3 Fragestellungen und Erwartungen 3.1 Dimensionalität motivationaler und kognitiver Konstrukte 1. Fragestellung: Kann man faktorenanalytisch aus den verschiedenen IntelligenzSubtests einen gemeinsamen Generalfaktor (g-Faktor) extrahieren? Ist es möglich den Generalfaktor zu extrahieren spricht dies für die Validität der Intelligenztests, da der Generalfaktor in zahlreichen Studien belegt wurde. #Quelle 2. Fragestellung: Welche Struktur hat das allgemeine akademische Selbstkonzept? Gemäß früherer Studien (vgl. Rost & Sparfeldt, 2002) wird erwartet, dass nur eine einzige Generalkomponente bei der Faktorenanalyse über die schulbezogenen Selbstkonzeptitems extrahiert wird. Kann diese Hypothese nicht bestätigt werden, steht dies in Konflikt mit dem Modell des hierarchischen Selbstkonzepts, das nach # ein konsistentes akademisches Selbstkonzept voraussetzt. 3. Fragestellung: Welche Struktur hat das fächerspezifische Selbstkonzept? Geht man nach den Ergebnissen früherer Studien (vgl. Rost & Sparfeldt, 2002), sollten nach einer Hauptkomponentenanalayse mit Rotation die Selbstkonzept-Fassetten der Schulfächer als Komponenten zu erkennen sein. 4. Fragestellung: Ist die fächerspezifische dimensionale Struktur des Selbstkonzepts auf andere motivationale Konstrukte übertragbar? #Fragestellung erweitern 3.2 Vorhersage des Schulerfolgs 5. Fragestellung: Besteht ein Zusammenhang zwischen der Schulnote und den verschiedenen kognitiven und motivationalen Variablen? 6. Fragestellung: Die meisten Studien sehen Intelligenz als den stärksten Prädiktor für Schulerfolg. Jetzt will ich wissen, wie viel motivationale Variablen neben der Intelligenz inkrementell zur Aufklärung des Schulerfolgs beitragen. 7. Fragestellung: Wie hoch sind die prozentualen Anteile spezifischer und gemeinsamer Varianz an der aufgeklärten Varianz? 8. Fragestellung: Welches Konstrukt der motivationalen Variablen besitzt die beste Vorhersageleistung? Gemäß dem Model of Achievement-Related Choices von Eccles et al. (1983) wird erwartet, dass das Fähigkeitsselbstkonzept der stärkste Prädiktor der mo- 28 tivationalen Variablen ist. Diese Tendez wurde bereits in Studien beobachtet, unter anderem bei Spinath et al. (2006). 9. Fragestellung: Studien zufolge nimmt die Korrelation zwischen Motivation und Schulleistung mit steigender Klassenstufe zu (z. B. Uguroglu & Walberg 1979). Demnach müsste die prädiktive Kraft motivationaler Bedingungsfaktoren höher ausfallen als bei Studien, die jedoch auf eine jüngere Stichprobe zurückgreifen. Insbesondere der Vergleich mit der Untersuchung von Spinath et al. (2006) erscheint aufgrund des ähnlichen Untersuchungsaufbaus von Interesse. 10. Fragestellung: Lässt sich die prädiktive Kraft motivationaler Variablen steigern, wenn fächerspezifisch differenziert wird? Es wird erwartet, dass durch fächerspezifische Unterscheidung mehr Varianz aufgeklärt wird als bei fachübergreifender Betrachtungsweise (vgl. Rost & Sparfeldt 2002). 29 4 Methode 4.1 Angewandte Untersuchungsverfahren In diesem Abschnitt werden die bei der Untersuchung eingesetzten psychometrischen Tests und Fragebögen namentlich aufgeführt und auf den folgenden Seiten detailliert beschreiben. Der genaue Aufbau des Testheftes ist in Abschnitt 4.2 dargestellt. Um die Intelligenz zu erfassen wurden bestimmte Subtests aus dem „Leistungsprüfsystem“ (LPS) von Horn und dem „Intelligenz-Struktur-Test“ (IST) von Liepmann et al. gezielt ausgewählt. Außerdem kam der „Zahlenverbindungstest“ (ZVT) von Oswald und Roth zum Einsatz. Neben der Intelligenz wurden motivationale Variablen mit Hilfe von renommierten Fragebögen erfasst. Diese wurden gekürzt und so modifiziert, dass die Aussagen zunächst schulbezogen, sowie separat fächerspezifisch für die Fächer Mathematik, Deutsch, Physik und Englisch auf einer sechsstufigen Antwortskala einzuschätzen waren. Um das schulische Selbstkonzept zu erfassen wurde das „Differentielle Schulische Selbstkonzept-Gitter mit Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten“ (DISKGitter mit SKSLF-8) von Rost und Sparfeldt herangezogen. Außerdem fand das „Schulfachspezifische Interessengitter“ (SFSPIG) von Sparfeldt, Rost und Schilling Verwendung. Die motivationalen Konstrukte „Hoffnung auf Erfolg“ und „Furcht vor Misserfolg“ wurden mit einer deutschen Form der „Achievement Motives Scale” (AMS) von Gjesme und Nygard untersucht. Ferner wurde der „Anstrengungsvermeidungstest“ (AVT) von Rollett und Bartram eingesetzt. Zusätzlich zu den mit psychometrischen Tests gewonnenen Daten wurden die Schulnoten aus dem letzten (Halbjahres-) Zeugnis der Fächer Mathematik, Deutsch, Physik und Englisch, sowie Alter und Geschlecht der Schüler abgefragt. 4.1.1 Leistungstests 4.1.1.1 Intelligenz-Struktur-Test Der Intelligenz-Struktur-Test 2000 R von Liepmann, Beauducel, Brocke, und Amthauer (2000) fußt auf einem theoretisch fundierten und empirisch begründeten Strukturkonzept. #kristalline und fluide Intelligenz? 30 Er unterscheidet und erfasst elf verschiedene Aspekte der Intelligenz. In meiner Studie kamen die Aufgabengruppen 2 (Zahlenreihen = ZR) und 5 (Analogien = AN) zum Einsatz. Es existieren offizielle pseudoparallele Formen des Intelligenztests, die entsprechend übernommen wurden. Bei zweiten Subtest des IST müssen Zahlenreihen vervollständigt werden, die mathematischen Operationen unterliegen. Es sind sieben Zahlen vorgegeben, die Achte muss entsprechend der vorliegenden Gesetzmäßigkeit ergänzt werden. Beim fünften Subtest geht es um Analogien. Es sind drei Wörter vorgegeben, wobei zwischen dem ersten und dem zweiten Wort eine Beziehung besteht. Zwischen dem dritten und einem der folgenden fünf Wahlwörter besteht eine ähnliche Beziehung. Die Versuchsperson muss entscheiden, welches der fünf Wahlwörter analog am Besten passt. Zur Veranschaulichung dieses Aufgabentyps ist im IST folgende Beispielaufgabe aufgeführt: Wald : Bäume = Wiese : ? a) Gräser b) Heu c) Futter d) Grün e) Weide Die Reliabilitätsschätzungen für die einzelnen Skalen liegen zwischen α = .87 und α = .97 (Cronbachs Alpha) bzw. r = .88 und r = .96 (Split-Half-Reliabilität). Validitätsbelege ergeben sich aus der Überprüfung der Struktur des Instruments in multivariaten Analysen (N = 2.208 bzw. N = 2.363). Korrelationen mit verschiedenen Testverfahren (Test d2, HAWIE-R, MWT-B, CFT 20, Raven und FRT), Aspekten des Fremdsprachenerwerbs (START-E), Dimensionen der BIG-FIVE (NEO-FFI), arbeitspsychologischen Konzepten (Commitment, Arbeitszufriedenheit) und Schulnoten weisen auf konvergente und diskriminante Gültigkeit hin. 4.1.1.2 Leistungsprüfsystem Das Leistungsprüfsystem (LPS) von Horn (1983) ist ein umfassender Intelligenztest und basiert auf Thurstones Primärfaktorenmodell. Der Test ist im Altersbereich zwischen 9 und 50 Jahren anwendbar. In der vorliegenden Studie wurden lediglich die Subtests 1 und 2 (verbal comprehension), 4 (reasoning), sowie 7 und 9 (space) verwendet. Beim LPS 1 und 2 erhält der Proband Wörter vorgegeben, bei denen jeweils genau ein Buchstabe falsch geschrieben ist. Die Aufgabe des Probanden besteht darin, den Rechtschreibfehler zu markieren. Es sei angemerkte, dass die fehlerhaften Buchstaben klangliche Ähnlichkeiten zum „richtigen“ Buchstaben aufweisen. So wurde beispielsweise ein „t“ 31 durch ein „d“, oder ein „w“ durch ein „v“ ersetzt. Auch beim LPS 4 geht es darum den Fehler in einer Zeile zu identifizieren und zu markieren. Damit der Proband dies erfolgreich bewerkstelligen kann, muss er die Gesetzmäßigkeit erkennen, die in der Reihenfolge aus Zahlen und Buchstaben steckt. Der LPS 7 besteht aus Zeilen zu je fünf Buchstaben bzw. Zahlen. Jedes dieser Schriftzeichen ist in einem beliebigen Winkel rotiert, eine einziges wurde zusätzlich gespiegelt. Der Proband soll das gespiegelte Zeichen in jeder Zeile markieren. Beim LPS 9 wird die Versuchsperson mit soliden dreidimensionalen Körpern konfrontiert. Aufgabe ist es, die Anzahl der Oberflächen zu zählen und die entsprechende Nummer anzukreuzen. Korrelation mit IST: r = .74 Die Retest-Reliabilität ist beim LPS 1 und 2 mit rtt = .94 als sehr gut einzustufen. Die Retest-Reliabilität liegt für das Gesamtergebnis bei rtt = .95. Die nach der SpearmanBrown'schen Formel korrigierten Halbierungszuverlässigkeiten der Untertests liegen zwischen r = .90 und r = .99. Es bestehen signifikante Korrelationen zwischen Schulnoten verschiedener Fächer mit der Gesamtleistung sowie Leistungen in den Untertests des LPS. Zwischen dem LPS und dem I-S-T besteht eine Korrelation von r = .74. Subtests: 1+2 - verbale Flüssigkeit, 4 - Denkfähigkeit, 7 - mentale Rotation, 9 - geometrische Formen 4.1.1.3 Zahlenverbindungstest Der Zahlenverbindungstest (ZVT) von Oswald und Roth (1987) ist ein spezifischer Intelligenztest und dient der Ermittlung der „kognitiven Leistungsgeschwindigkeit“, sowie der Konzentrationsfähigkeit. Die Messung von Wahlreaktionszeiten erfordert weder eine sprachliche Leistung noch eine dem Alter angepasste Aufgabenstruktur und ist ab einem Alter von 8 Jahren verwendbar. Der ZVT kann als Einzel- oder Gruppentest durchgeführt werden. Bei Letzerem wird ein Zeitlimit (ab 10 Jahren von 30 Sekunden) gesetzt und man schaut, wie weit der Proband gekommen ist. Die Aufgabe besteht darin Zahlen nacheinander in numerisch aufsteigender Reihenfolge von 1 bis 90 miteinander zu verbinden. Dabei ist die nächsthöhere Zahl jeweils in unmittelbarer Nachbarschaft der vorherigen Zahl zu finden. Es gibt vier Durchläufe des Tests mit unterschiedlichen Matrizen. 32 Rindermann und Neubauer (2000) berichten, dass sich bei Hinzunahme der Informationsverarbeitungsgeschwindigkeit zur Intelligenz in schrittweisen Regressionsanalysen die Prognosekraft für den Notenschnitt bedeutsam erhöht. Oswald & Roth (1978, zitiert nach Sauer & Gattringer, 1986, S. 239) ermittelten in einer Untersuchung – unter anderem an Gymnasien – niedrigere Korrelationen von .3 zur Schulleistung. In der Studie von Sauer & Gattringer (1986) trug der ZVT inkrementell zur Vorhersage von Grundschulnoten bei, jedoch war der spezifische Varianzanteil zu gering, um von praktischer Bedeutung zu sein. Die Korrelationen zu anderen Intelligenztests liegen zwischen r = .40 und r = .83. Der ZVT zeichnet sich durch eine hohe Zuverlässigkeit aus (Testwiederholung zwischen r = .84 und r = .97; Paralleltest-Zuverlässigkeit zwischen r = .95 und r = .98). 4.1.2 Motivationsskalen 4.1.2.1 Differentielles Schulisches Selbstkonzept-Gitter mit Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten Zur Erfassung des schulbezogenen Selbstkonzepts wurde eine auf fünf Items gekürzte Fassung der „Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten“ (SKSLF) von Rost und Lamsfuß (1992) verwendet. Die Items stammen ursprünglich aus dem Fragebogen „Self-Concept as a Learner“ (SCAL) von Waetjen (1985, zitiert nach Lamsfuß und Rost, 1993) und der SIQ-Subskala „Leistungsselbstkonzept“ von SeiffgeKrenke (1985, zitiert nach Lamsfuß & Rost, 1993). Eine Hauptkomponentenanalyse mit anschließender Varimax-Rotation ergab nach Betrachtung der Markiervariablen der ersten Komponente bei der Vier-Faktoren-Lösung 10 Items. Aus ihnen wurde die SKSLF gebildet, die 2002 von Rost und Sparfeldt weiterentwickelt wurde als ein „Verfahren zur Messung des differentiellen Selbstkonzepts schulischer Leistungen und Fähigkeiten“, um neben dem „allgemeinen akademischen Selbstkonzept“ auch „schulfachspezifische Selbstkonzepte“ zu erfassen. Das Paket wurde unter dem Namen „Differentielles Schulisches Selbstkonzept-Gitter mit Skala zur Erfassung des Selbstkonzepts schulischer Leistungen und Fähigkeiten“ (DISK-GITTER mit SKSLF-8) 2007 von Rost, Sparfeldt und Schilling veröffentlicht. In der aktuellen Fassung besteht die SKSLF aus acht Aussagen, wobei man zwischen Items trennen kann die eher fähigkeitsbezogene (Item 1 bis 5) oder eher leistungsbezogene Aspekte (Item 1 und 6 bis 8) erfassen. Bei der vorliegenden Studie kamen das erste Item, 33 sowie die Items fünf bis acht zum Einsatz. #Begründung #Tabelle mit den verwendeten Items Die Items der SKSLF bestehen aus Aussagen, die sich eindeutig auf die Schule beziehen („in der Schule“) und auf einer Ratingskala eingeordnet werde müssen. Dabei reicht die Skala von einem Zahlenwert von eins („trifft gar nicht zu“) bis sechs („trifft genau zu“). Bei der Erfassung schulfachspezifischer Selbstkonzepte wird der Ausdruck „in der Schule“ durch einen Freiraum ersetzt. Die Aussagen sind beim DISK-Gitter so angeordnet, dass in den Freiraum „in Mathematik“ oder ein beliebiges anderes Fach analog eingesetzt wird. Somit kann der Schüler eine Vielzahl von fachspezifischen Aussagen sehr platzsparend bewerten. Das Verfahren kann sowohl als Einzel- als auch als Gruppentest durchgeführt werden und eignet sich für Gymnasial- und Realschüler der Klassenstufe 7 bis 10, wobei die Bearbeitungsdauer (SKSLF-8 und DISK-Gitter) in der Regel weniger als 10 Minuten in Anspruch nimmt. In verschiedenen Untersuchungen an umfangreichen Stichproben ergaben sich sehr hohe Reliabilitäten. Die Retest-Reliabilitäten der verschiedenen Selbstkonzeptfassetten schwanken bei einem Zeitintervall von vier bis sechs Wochen für die verschiedenen Selbstkonzeptfassetten zwischen rtt = .70 und rtt = .90. Die Homogenitäten (Cronbachs Alpha) für das allgemeine schulische Selbstkonzept (SKSLF-8) liegen in der Gesamtstichprobe bei α = .81, die der fachspezifischen Selbstkonzepte (DISK-Gitter) bei α > .91. Zahlreiche Befunde weisen auf eine sehr gute Validität hin: Die faktorielle Gültigkeit konnte an großen unterschiedlichen Stichproben mittels Hauptkomponentenanalysen und konfirmatorischen Faktorenanalysen belegt werden. Die Beziehungen zu inhaltlich korrespondierenden Skalen anderer Instrumente reichen bis zu r = .87. Verwendete Items des DISK-Gitters 1) Ich weiß in … die Antwort auf eine Frage schneller als die Anderen. 2) Es fällt mir in … leicht, Probleme zu lösen. 3) In … fallen mir gute Noten zu. 4) Ich gehöre in … zu den Guten. 5) Ich habe ein gutes Gefühl, was meine Arbeit in … angeht. Hinweis: In das leere Feld wird das spezifische Schulfach oder „in der Schule“ eingesetzt. 34 4.1.2.2 Schulfachspezifisches Interessengitter Sparfeldt, Rost und Schilling veröffentlichten 2004 das schulfachspezifische Interessengitter (SFSPIG) mit der Intention, einen ökonomischen Fragebogen mit moderner Sprachgestaltung zur simultanen Erfassung schulfachspezifischer Interessen bei Jugendlichen zu entwickeln. Die Itemgenerierung erfolgte nach Sparfeldt et al. (2004) „auf dem Hintergrund einschlägiger Studien“ (S. 215), wobei die Items 5, 7 und 8 am „Fragebogen zum Studieninteresse“ (FSI, von Schiefele, Krapp, Wild & Winteler, 1993) angelehnt sind. Das schulfachspezifische Interessengitter berücksichtigt nicht verschiedene theoriebasierte Aspekten von Interesse, da diese in Untersuchungen hoch untereinander korrelieren (Eccles, Barber, Updegraff & O’Brien, 1988, zitiert nach Sparfeldt et al., 2004). Der Aufbau orientiert sich am DISK-Gitter und enthält acht Items, die in tabellarischer Form dargeboten werden. Dabei steht in jeder Zeile eine neue Aussage, die separat für jedes der Fächer in den Spalten bewertet werden soll. Die Ratingskala reicht von einem Zahlenwert von eins („trifft gar nicht zu“) bis hin zur sechs („trifft genau zu“). Die Bearbeitung des Fragebogens nimmt etwa fünf Minuten in Anspruch und wurde an einer Stichprobe von Gymnasiasten der neunten und zehnten Klasse erprobt. Eine Faktorenalyse bestätigte die erwarteten Befunde, wonach sich die Faktorenstruktur klar an den Fächern orientiert. Die Homogenitäten (berechnet für die unterschiedlichen Fächer) können mit einem α oberhalb .92 als sehr gut bezeichnet werden. In meiner Studie kam eine leicht modifizierte und auf vier Items (Nummer 1, 4, 5, 6) reduzierte Form der SFSPIG zum Einsatz. In einem weiteren Schritt wurden die Aussagen so umformuliert, dass sie sich nicht mehr auf ein spezifisches Schulfach, sondern allgemein auf die Schule bezogen. Der eingesetzte Fragebogen mit den modifizierten Items befindet sich im Anhang unter A#. Verwendete Items des Interessengitters 1) Das Fach … interessiert mich. 2) Ich beschäftige mich gerne mit Dingen, die mit … zu tun haben. 3) Es macht mir Spaß, Aufgaben in … zu bearbeiten. 4) Für … zu arbeiten ist eine schöne Sache. Hinweis: In das leere Feld wird das spezifische Schulfach oder „in der Schule“ eingesetzt. 35 4.1.2.3 Achievement Motives Scale In den Items werden affektive Erlebnisinhalte in verschiedenen Leistungssituationen thematisiert: Positive Affekte in der Skala „Hoffnung auf Erfolg“, negative in der Skala „Furcht vor Misserfolg“. # Items aus Lang & Fries (2006). A revised 10-item version of the Achievement Motives Scale Gjesme und Nygard veröffentlichten 1970 die „Achievement Motives Scale“ (AMS), die 1980 von Göttert und Kuhl ins Deutsche übertragen wurde. Der Fragebogen erfasst im Original mit jeweils 15 Items das Annäherungsmotiv („Hoffnung auf Erfolg“) und das Vermeidungsmotiv („Furcht vor Misserfolg“). In der vorliegenden Studie wurden fünf Items der Skala „Hoffnung auf Erfolg“ und fünf Items der Skala „Furcht vor Misserfolg“ verwendet. Diese Items erhielten eine sechsstufige Antwortskala, um die Konsistenz der Motivationsskalen zu gewährleisten. Außerdem wurden sie in eine Gitterform gebracht, um die fächerspezifische Fragestellung zu vereinfachen. Dahme, Jungnickel und Rathje (1993) berichten für norwegische und deutsche Jugendliche zufriedenstellende interne Konsistenzen (Cronbachs α zwischen .71 und .89) und faktorenanalytische Befunde, wonach sich beide Skalen analytisch vollständig reproduzieren ließen. Die Retest-Reliabilitäten bei einem Zeitintervall von einem Jahr sind dagegen unbefriedigend (.41 < rtt < .66). Allerdings können Veränderungen auch auf Erfahrungen beruhen, die die Versuchspersonen innerhalb dieses Jahres gemacht haben und müssen nicht zwangläufig an einem hohen Messfehleranteil liegen. Verwendete Items der Skala Hoffnung auf Erfolg 1) Ich mag Situationen, in denen ich feststellen kann, wie gut ich in … bin. 2) Wenn mir in … ein Problem gestellt wird, das ich vielleicht lösen kann, dann reizt es mich, damit sofort anzufangen. 3) Situationen, in denen ich von meinen Fähigkeiten in … Gebrauch machen kann, machen mir Spaß. 4) Mich reizen Situationen, in denen ich meine Fähigkeiten in … testen kann. 5) Ich fühle mich in … zu Arbeiten hingezogen, in denen ich die Möglichkeit habe, meine Fähigkeiten zu prüfen. Hinweis: In das leere Feld wird das spezifische Schulfach oder „in der Schule“ eingesetzt. Verwendete Items der Skala Furcht vor Misserfolg 36 1) In etwas schwierigen Situationen in …, in denen viel von mir selbst abhängt, habe ich Angst zu versagen. 2) Es beunruhigt mich, etwas in … zu tun, wenn ich nicht sicher bin, dass ich es kann. 3) Arbeiten in …, die ich nicht schaffen kann, machen mir Angst, auch dann, wenn niemand meinen Misserfolg bemerkt. 4) Auch wenn niemand zuguckt, fühle ich mich in neuen Situationen in … ziemlich ängstlich. 5) Wenn ich in … ein Problem nicht sofort verstehe, werde ich ängstlich. Hinweis: In das leere Feld wird das spezifische Schulfach oder „in der Schule“ eingesetzt. 4.1.2.4 Anstrengungsvermeidungstest Der Anstrengungsvermeidungstest (AVT) von Rollett und Bartram (1998) dient der Diagnose schulbezogener Anstrengungsvermeidung. Eine Erläuterung dieses psychologischen Konstrukts findet sich in Abschnitt 2.3.5. Eine zweite Skala ermittelt den schulischen Pflichteifer. Der AVT kann als Gruppen- oder Einzeltest bei Schülern der fünften bis neunten Klasse (10 bis 15 Jahre) von Haupt- und weiterführenden Schulen durchgeführt werden. Im Original beinhaltet der Fragebogen 41 Items mit den Antwortalternativen „stimmt“ bzw. „stimmt nicht“. Bei der vorliegenden Untersuchung wurden der Skala Anstrengungsvermeidung acht Items entnommen. Zunächst wurden die Fragen schulbezogen gestellt, bevor die Items in eine dem DISK-Gitter ähnelnde Struktur gebracht wurden, um die Fragen auch fächerspezifisch zu stellen. Im Gegensatz zum originalen Fragebogen, sollten die Schüler die Aussagen auf einer sechsstufigen Antwortskala bewerten, um die Konsistenz mit den anderen Motivationsskalen zu gewährleisten. Im Handbuch wird die interne Konsistenz der Anstrengungsvermeidungsskala mit r = .80 angegeben. Es gibt hinreichende negative Korrelation (r > -.25) des AVTs zu schulischen Leistungsanforderungen und positive Korrelationen zu Bereichen wie Prüfungsangst, Schulunlust und Furcht vor Misserfolg. All dies spricht für die Validität der Skala. Verwendete Items der Skala Anstrengungsvermeidung 1) Ich kann nichts dafür, wenn ich in … das, was ich auswendig lernen soll, nicht behalten kann. 2) Ich habe in … oft Langeweile. 3) In … werde ich oft nicht fertig, weil mein Nachbar mich stört. 4) Warum soll ich am Wochenende für … lernen, wenn die anderen Leute auch nicht arbeiten? 37 5) Wenn ich für … lange schreiben muss, werde ich ganz müde. 6) Mit meinen Aufgaben in … werde ich oft nicht fertig, weil ich dazwischen zu lange nachdenken muss. 7) Was mich in … nicht interessiert, will ich gar nicht machen. 8) Wenn ich in … keine Hausaufgaben aufbekäme, könnte ich in der Schule viel besser aufpassen. Hinweis: In das leere Feld wird das spezifische Schulfach oder „in der Schule“ eingesetzt. 4.2 Aufbau des eingesetzten Testheftes Um ein Abschreiben bei den Leistungstests zu erschweren kamen zwei pseudoparallele Formen des Testheftes zum Einsatz. Wie dies erreicht wurde ist für den jeweiligen Untertest in Abschnitt 4.1 beschrieben. Einen tabellarischen Überblick über den Aufbau des Testheftes mit Angaben zur Durchführungsdauer findet sich im Anhang unter M-2, das komplette Testheft unter M-3. Das Testheft besteht aus zwei getrennten Teilen zu je zehn und elf Seiten und ist auf der Rückseite mit einer Nummer bedruckt, um die Hefte eindeutig einer Versuchsperson zuordnen zu können. Bei der Konstruktion des Testheftes wurde Wert darauf gelegt, dass zunächst die Leistungstests abgearbeitet werden, bevor sich die Probanden den weniger konzentrationsrelevanten Motivationsskalen zuwenden. Die Unterteilung des Heftes in zwei Teile ermöglicht das Einschieben einer fünfminütigen Pause, um die Schüler nicht zu überfordern. Nach dieser Unterbrechung geht es im zweiten Teil mit Leistungstests weiter, ehe die restlichen Fragen zu beantworten sind. Auf dem Deckblatt des Testheftes wird darauf hingewiesen, dass die Untersuchung anonym ist und keine Informationen an Eltern oder Lehrer weitergegeben werden. Ein deutlich sichtbares [A] bzw. [B] macht deutlich, dass mit unterschiedlichen Formen gearbeitet wird. Es folgt die Instruktion für die erste Aufgabe mit einem Beispiel und der Anweisung, wie die Lösung zu markieren sei. Die Zeile „HALT! Bitte warte jetzt auf das Zeichen zu Beginn. Vorher nicht umblättern!“ am unteren Rand des Blattes macht darauf aufmerksam, dass das Umblättern erst auf Kommando des Versuchsleiters gestattet war. Auf Seite zwei sind die Analogien der Subtests eins und zwei des LPS abgebildet. Seite drei enthält Instruktionen für die auf der folgenden Seite abgedruckten Zahlenreihen aus dem IST. Dieser alternierende Wechsel zwischen Instruktions- und Aufgabenseite wurde bei den Leistungstests mit einer Ausnahme eingehalten, um dem Versuchsleiter eine bessere Kontrol- 38 le zu ermöglichen. Auf Seite sechs stehen die Zahlen- und Buchstabenreihen aus Subtest 4 des LPS. Seite sieben enthält den siebten Untertest des LPS, mit einer gespiegelten Ziffer in jeder Zeile. Gefolgt vom neunten Aufgabenteil des LPS auf Seite acht, bei dem die Oberflächen geometrischer Körper zu zählen sind. Auf Seite neun stehen fünf schulbezogene Aussagen aus der SKSLF, sowie vier schulbezogene Aussagen aus dem SFSPIG. Die Aussagen sind auf einer sechsstufigen Skala (von 1 = „trifft gar nicht zu“ bis 6 = „trifft genau zu“) zu bewerten. Dieses Antwortschema findet in dieser Form im gesamten Fragebogenteil Verwendung. Auf Seite zehn befinden sich die Aussagen der vorhergehenden Seite, diesmal allerdings in Gitterform und mit einer separaten Bewertung für die Fächer Mathematik, Deutsch, Physik und Englisch. Auf der ersten Seite des zweiten Teils des Testheftes finden sich die Instruktionen für die Analogien aus dem IST, die auf der darauffolgenden Seite zu bearbeiten sind. Auf Seite drei stehen Instruktionen sowie Übungsaufgaben für den Zahlenverbindungstest. Der ZVT nimmt mit vier Durchläufen Seite vier bis sieben in Anspruch. Auf Seite acht stehen zehn schulbezogene Aussagen aus dem AMS, sowie acht schulbezogene Aussagen aus dem AVT. Diese acht Aussagen werden in Gitterform mit einer separaten Bewertung für die Fächer Mathematik, Deutsch, Physik und Englisch auf Seite neun erneut dargeboten. Seite zehn greift die zehn Aussagen des AMS von Seite acht auf und erfordert auch hier die separate Bewertung für die vier Fächer. Auf der letzten Seite wird der Schüler darum gebeten seine Noten des letzten Zeugnisses für die Fächer Mathematik, Deutsch, Physik und Englisch, sowie Alter und Geschlecht anzugeben. 4.3 Datenerhebung 4.3.1 Planung der Datenerhebung Um einen möglichst großen Datensatz zu erhalten arbeiteten Jens Pfeiffer und ich bei der Erstellung des Testheftes und der Erhebung der Daten zusammen. Er sammelte Daten im Großraum Marburg-Biedenkopf und Gießen in Hessen, während ich Schulen im Umkreis von Schwäbisch Gmünd in Baden-Württemberg aufsuchte. Wir untersuchten Klassen an Gymnasien der Jahrgangsstufe neun und zehn. Der Zeitraum der Datenerhebung lag zwischen Februar und April 2007. Für detaillierte Informationen zur Vorgehensweise von Jens Pfeiffer empfiehlt sich ein Blick in seine im Jahr 2007 veröffentlichte Diplomarbeit 39 „Be smart or try hard - Zur Bedeutung von Intelligenz und Motivation bei der Vorhersage von Schulleistungen“. In Baden-Württemberg benötigt man für die Erhebung von Daten an Schulen die Genehmigung des Kultusministeriums, die Unterstützung des Schulleiters, sowie die Unterschrift der Eltern teilnehmender Schüler. Nachdem ich vom Kultusministerium in Stuttgart die Genehmigung erhalten hatte, nahm ich telefonischen Kontakt zu den Schulleitern auf und stellte das Projekt unter dem Titel „Wissenschaftliche Befragung zu Motivation und Schulerfolg“ vor. Im ersten Gespräch wurden Sinn und praktische Relevanz der Studie, sowie die wichtigsten Informationen erläutert. Diejenigen Schulleiter, die ihre Bereitschaft zur Teilnahme an der Studie signalisierten, erhielten per Post detaillierte Informationen und eine Kopie des Testheftes zugeschickt. Nachdem die Schulleitung ihr Einverständnis bekundet hatte, nahm ich telefonischen Kontakt zu den Klassenlehrern der Klassen auf, die mir von der Schulleitung zugeteilt worden waren. Ich warb um die Unterstützung des Projektes und bat um die Mithilfe beim Einsammeln der Unterschriften der Eltern. Die entsprechenden Informationsbriefe an die Eltern, sowie Instruktionen für die Klassenlehrer wurden an die Schulen gesendet und dort an die entsprechenden Lehrkräfte weitergeleitet. Bevor ich persönlich zur Schule kam um die Daten zu erheben, erfolgte wiederholt telefonischer Kontakt mit Klassenlehrern und Schulleitung, um den Erhebungstermin zu vereinbaren, Unklarheiten zu beseitigen und die Motivation der Lehrkräfte aufrechtzuerhalten. Die Informationsbriefe an Schulleitung, Lehrer und Eltern können im Anhang unter A# eingesehen werden. 4.3.2 Ablauf der Datenerhebung Die Datenerhebung fand vormittags während der regulären Unterrichtszeit statt, um die bestmögliche Konzentration und Motivation der Schüler zu gewährleisten. Für die Untersuchung in der Klasse waren zwei Schulstunden zu je 45 Minuten vorgesehen. Die eigentliche Bearbeitung des Testheftes benötigte inklusive den Instruktionen und einer kurzen Pause 80 Minuten. Wenn ein Schüler keine Teilnahmebestätigung der Eltern abgegeben hatte, erhielt er Aufgaben vom zuständigen Lehrer und durfte nicht an der Befragung teilnehmen. Eine Lehrkraft war stets anwesend um die Aufsichtspflicht zu wahren und wurde so postiert, dass die Schüler sich möglichst wenig beobachtet fühlten. Die meisten Lehrer 40 zeigten sich interessiert in der Untersuchung, versuchten sich selbst an den Leistungstests und blieben unauffällig im Hintergrund. Um den Schülern das Abschreiben zu erschweren wurden sie so weit es ging auseinander gesetzt. Außerdem kamen zwei pseudoparallele Versionen des Testhefts zum Einsatz. Diese wurden in alternierender Reihenfolge in der Klasse durch Schüler ausgegeben. Der Versuchsleiter bat die Schüler die Seiten lediglich auf das entsprechende Kommando hin umzublättern und zu kontrollieren, ab die Nummer vom ersten und zweiten Teil des Testheftes miteinander übereinstimmten. Die Instruktionen wurden stets laut vom Versuchsleiter vorgelesen und in einigen Fällen mit Beispielen an der Tafel erläutert. Vor jedem Testblock gab es eine Übungsaufgabe und die Möglichkeit Fragen zu stellen. Auf das Startsignal des Versuchsleiters hin, sollten die Schüler mit größtmöglicher Geschwindigkeit die Aufgaben bearbeiten. Nach Ablauf der vorgegebenen Zeit wurden die Schüler dazu aufgefordert das Arbeiten einzustellen und den Stift hinzulegen. Nach den ersten elf Seiten war der erste Teil des Testheftes abgeschlossen und wurde vom Versuchsleiter eingesammelt. Es folgte eine kurze Pause von wenigen Minuten und die Möglichkeit den Raum zu verlassen. Nach Rückkehr aller Schüler wurde der zweite Teil nach bekanntem Schema bearbeitet. Wer mit dem Fragebogenteil fertig war konnte den zweiten Teil des Testheftes beim Versuchsleiter abgeben und das Zimmer verlassen. Die Datenerhebung an den Schulen verlief recht problemlos. Die meisten Schüler arbeiteten konzentriert und strengten sich an, oder konnten durch einer Aufforderung zur Mitarbeit motiviert werden. Das Bearbeiten der Leistungstests erforderte eine hohe Konzentration und erzeugte einen hohen Redebedarf. Die Schüler nutzten die kurze Unterbrechung zwischen zwei Testblöcken, um sich auszutauschen. Der Großteil der Schüler hielt sich durchgehend an die Instruktionen des Versuchsleiters, aber besonders beim ZVT gab es einige Probanden, die mehrmals dazu ermahnt werden mussten ihr Blatt erst auf Kommando hin umzublättern. Nach der Bearbeitung des LPS 1 und 2 waren die Schüler meist aufgebracht da sie noch längst nicht fertig waren, konnten aber schnell beruhigt werden. Dagegen schien die Zeit für das Lösen der Analogien beim IST zu großzügig bemessen. Gegen Ende des zweiten Fragebogenblocks hatte ich den Eindruck, dass manche Schüler sehr zügig zu Werke gingen und sich bei ihrer Entscheidung nur wenig Zeit ließen. Um die Schüler unvoreingenommen zu testen wurde das Wort „Intelligenztest“ vermieden und stattdessen von „Denksportaufgaben“ gesprochen. Einige Gymnasiasten, die 41 anderweitig mit Intelligenzdiagnostik konfrontiert worden waren, stellten schnell Ähnlichkeiten fest, so dass ich regelmäßig mit entsprechenden Fragen konfrontiert wurde. Fragen dieser Art ließ ich zunächst unbeantwortet und verwies auf die Möglichkeit am Ende der Untersuchung weitere Informationen zu erhalten. 4.4 Beschreibung der Stichprobe 4.4.1 Vorläufige Stichprobe Acht Schulen aus Baden-Württemberg in der Umgebung von Schwäbisch Gmünd nahmen an der Untersuchung teil: vier Klassen des Ernst-Abbe-Gymnasiums in Oberkochen, drei Klassen des Hariolf-Gymnasiums in Ellwangen, drei Klassen des Kopernikus-Gymnasiums in Aalen, zwei Klassen des Michelberg-Gymnasiums in Geislingen a. d. Steige, drei Klassen des Peutinger-Gymnasiums in Ellwangen, zwei Klassen des Rechberg-Gymnasiums in Donzdorf, zwei Klassen des Rosenstein-Gymnasiums in Heubach, sowie eine Klasse des Schenk-von-Limpurg-Gymnasiums in Gaildorf. Die Klassengröße schwankt zwischen 18 und 32 Schülern. Die aufgeführten Gymnasien besitzen zwischen 500 und 900 Schüler und liegen hauptsächlich in ländlichen Gebieten. Der daraus resultierende Datensatz bestehend aus 483 Schülerinnen und Schülern wurde mit dem Datensatz von Jens Pfeiffer zusammengeführt, um eine größere Stichprobe zu erhalten. Alle Angaben beziehen sich ab hier auf diesen gemeinsamen Datensatz. Addiert man die Klassengrößen hatten 1164 Schüler aus 44 unterschiedlichen Schulklassen von insgesamt 16 verschiedenen Gymnasien die Möglichkeit an der Untersuchung teilzunehmen. 16 Probanden hatten nicht die Unterschrift der Eltern dabei und durften dementsprechend nicht teilnehmen (fünf davon hatten den Rücklaufzettel vergessen). 42 Schüler waren zum Zeitpunkt der Datenerhebung krank, 22 weitere durch sonstige Gründe (Schüleraustausch etc.) verhindert. Demnach verbleibt eine Stichprobengröße von 1084 Versuchspersonen, das entspricht einer Teilnahmequote von 93.1 Prozent. 4.4.2 Endgültige Stichprobe Die 1084 Schülerinnen und Schüler der endgültigen Stichprobe hatten ein durchschnittliches Alter von 15.3 Jahren (22 fehlende Angaben), wobei die Altersspanne zwischen 13 und 18 Jahren lag. Die genaue Verteilung ist Tabelle 4.1 zu entnehmen. Die Geschlechter- 42 verteilung war mit 51.2 Prozent zugunsten der Mädchen, gegenüber 46.8 Prozent Jungen recht ausgeglichen. 22 Schüler hatten keine Angaben zu ihrem Alter gemacht, dies entspricht einem Prozentsatz von exakt zwei Prozent. An der Untersuchung hatten 547 (50.5%) Schüler der neunten, sowie 537 (49.5%) Schüler der zehnten Klassenstufe teilgenommen. Tabelle 4.1 – Altersverteilung der Stichprobe Alter 13 14 15 16 17 18 K.A. Gesamt Häufigkeit 2 133 477 406 42 2 22 1084 Prozent .2 12.3 44.0 37.5 3.9 .2 2.0 100 500 400 300 200 100 0 14 15 16 17 K.A. Abbildung 4.1 – Darstellung der Altersverteilung der Stichprobe 4.5 Auswertungsplan 4.5.1 Vorgehen bei der Datenaufbereitung Die erhobenen Daten der Testhefte wurden in den Computer eingegeben, so dass Datenmatrizen entstanden. Jeder zehnte Fragebogen (108 Stück) wurde nach der Übertragung in die digitale Form Korrektur gelesen. Dabei wurden 59 fehlerhafte Zeichen korrigiert, was einer Fehlerrate von .13 Prozent entspricht. Die Datenmatrizen wurden in das Statistikprogramm SPSS importiert und dabei die pseudoparallele Version angeglichen. Ein Großteil der Berechnungen wurde mit SPSS durchgeführt. Für kleinere Rechenaufgaben und um das Datenmaterial ansprechender zu veranschaulichen habe ich auf Microsoft Excel zurückgegriffen. 43 Zunächst berechnete ich die Skalenwerte. Bei den Motivationsskalen wurden dazu die Mittelwerte aus den Rohwerten gebildet. Dieses Vorgehen erfolgte separat für jedes Schulfach für jede Skala, wobei SPSS die Skala als „fehlend“ wertete, wenn der Proband mindestens eine Antwort der spezifischen Skala nicht angekreuzt hatte. Bei den Leistungstests wurde die Summe der richtigen Antworten für jede Skala separat aufaddiert. Hierbei wurde nicht unterschieden, ob die Schüler eine falsche, oder gar keine Lösung angegeben hatten. Ausnahme bildete der ZVT, für den ein Durchschnittswert aus den vier Durchläufen berechnet wurde. Aus den Schulnoten der vier Fächer Mathematik, Deutsch, Physik und Englisch wurde eine Durchschnittsnote gebildet, die die allgemeine Schulleistung der Schüler repräsentiert. Die Verteilungsform der Schulnoten wird in Tabelle 4.2 behandelt, die standardisierte Häufigkeitsverteilung in Abbildung 4.2 dargestellt. Tabelle 4.2 – Verteilungsform der Schulnoten Fach Mathe Deutsch Physik Englisch Schnitt vVpn 1084 1084 1081 1082 1079 K.A. 0 0 3 2 5 Min 1 1 1 1 1 Max 5.5 5.0 5.5 5.5 4.8 MW 2.89 2.69 2.82 2.81 2.81 SD 1.0 .77 .97 .87 .65 Schiefe .15 .16 .12 .01 -.03 Exzess -.67 -.30 -.53 -.51 -.29 Spaltenüberschriften: vVpn: verbleibende Versuchspersonen; Min: niedrigste Note; Max: höchste Note. Anmerkung: In Baden-Württemberg gibt es im Halbjahreszeugnis Noten mit einem Intervall von .25. Als nächstes stand die z-Transformation der Skalenwerte an. Schulnoten und Motivationsskalen wurden auf Klassenebene z-standardisiert um den Effekt der Klassenzugehörigkeit auszuschalten, da Schulnoten vom klasseninternen Bezugsrahmen abhängig sind (Ingenkamp, 1971; Tent, 2001, zitiert nach Rost & Sparfeldt, 2002, S. 132). 100 80 60 40 20 0 -4,000 -2,000 0,000 2,000 Abbildung 4.2 - Häufigkeitsverteilung z-standardisierter Deutschnoten 44 #Grafik einfügen Abbildung 4.3 - Häufigkeitsverteilung z-standardisierter Physiknoten Die Leistungstests wurden auf Ebene der Klassenstufe z-standardisiert da es keinen Grund zur Annahme gibt, dass Intelligenz klassenspezifisch beeinflusst wird. Außerdem wurde ein Wert für die Allgemeine Intelligenzleistung gebildet, indem der Durchschnitt aus den z-standardisierten Werten aller Subtests der Leistungstests berechnet wurde. Es sei angemerkt, dass wir nicht daran interessiert sind, wie die kognitive Leistung der Schüler auf der IQ-Skala einzustufen ist, da das für den linearen Zusammenhang zur Schulnote keinerlei Bedeutung hat. 80 60 40 20 0 -2,0000 -1,0000 0,0000 1,0000 2,0000 Abbildung 4.4 - Häufigkeitsverteilung der z-standardisierten Intelligenzleistung Aus der im dritten Abschnitt erläuterten Fragestellung ergibt sich eine grobe rechnerische Vorgehensweise. Im Folgenden wird der chronologische Ablauf der Berechnungen beschrieben und kurz begründet, wieso diese statistischen Analysemethoden angewendet wurden. Eine detaillierte Beschreibung der eingesetzten Rechenverfahren findet sich unter Abschnitt 4.6, die Ergebnisse der Berechnungen sind im Abschnitt 5 aufgeführt. Um die umfassenderen Hypothesen überprüfen zu können, müssen die Voraussetzungen auf Skalenniveau gegeben sein. Deshalb soll zunächst die dimensionale Struktur des akademischen, sowie des fächerspezifischen Selbstkonzepts kontrolliert werden. Ferner interessiert mich, ob die angenommene hierarchische Struktur auf die anderen motivationa- 45 len Skalen übertragbar ist. Aus den verschiedenen Subtests aus dem Block der Leistungstests sollte ein einziger Faktor, der Generalfaktor extrahiert werden. Um die faktorielle Struktur der Skalen zu analysieren, eignet sich die Hauptkomponentenanalyse, wobei die extrahierten Komponenten nach dem Varimax-Verfahren rotiert werden, um die Interpretation zu vereinfachen. Ein Problem der Faktorenanalyse besteht darin, dass es keine festen Kriterien gibt, nach denen Komponenten extrahiert werden. Deshalb habe ich zusätzlich Parallelanalysen durchgeführt, die Eigenwerte aus normalverteilten Zufallsvariablen bilden. Liegen die tatsächlichen Eigenwerte der Faktoren über den Eigenwerten der Zufallsvariablen, so ist dies ein Hinweis für die berechtigte Extraktion dieser Faktoren. Die Kernfrage meiner Studie beschäftigt sich mit dem linearen Zusammenhang zwischen Schulnoten und verschiedenen kognitiven und motivationalen Variablen. Die rechnerischen Analysemethoden reagieren empfindlich auf Ausreißer, was zur Verfälschung der Ergebnisse führen kann. Dem wollen wir vorbeugen, indem wir die Ausreißer identifizieren und für die anstehenden Berechnungen aus dem Datensatz ausfiltern. In Abschnitt 5.2 werden die zur Ausreißerklassifikation angelegten Kriterien erläutert und die aus den Berechnungen resultierenden psychometrischen Kennwerte tabellarisch dargestellt. Trotz sorgfältiger Auswahl der verwendeten Subtests ist nicht auszuschließen, dass einzelne Items Artefakte messen und dadurch die Validität der Skala mindern. Die Kontrolle über Item-Skala-Analysen bietet die Möglichkeit solche Items zu identifizieren und aus den anstehenden Berechnungen auszuschließen. Dazu habe ich psychometrische Kennwerte auf Itemebene wie Itemschwierigkeit und Trennschärfe, sowie Interne Konsistenzen auf Skalenebene berechnet. Beim LPS 1 und 2 fiel Item 83 raus, da es keine Antwortvarianz erzeugte. Beim LPS 4 wurden bis auf zwei Ausnahmen die ersten 14 Items gestrichen, da diese geringe Trennschärfen aufwiesen und wegen einer zu hohen Itemschwierigkeit nicht ausreichend zwischen den Schülern differenzierten. Alle Items der übrigen Skalen (auch aus dem motivationalen Bereich) behielten ihre Gültigkeit. Die internen Konsistenzen sämtlicher Skalen waren in Ordnung (Cronbachs Alpha zwischen .55 und .96) und können im Detail Tabelle 4.3 entnommen werden. Ein weiteres Augenmerk lag auf der Verteilung der Skalen um zu überprüfen, ob die Voraussetzungen für die weiterführenden Analysemethoden zufriedenstellend erfüllt sind. 46 4.5.2 Vorgehen bei der Ergebnisberechnung Unser primäres Interesse gilt der Vorhersageleistung der erhobenen kognitiven und motivationalen Skalen auf die Schulleistung in Form der Schulnoten des letzten Halbjahrs. Wir berechnen eine lineare Regression mit den Skalen als Prädiktorvariablen und der Schulnote als Kriteriumsvariable. Um die für die anstehende Kommunalitätenanalyse benötigten Daten zu erhalten verwendete ich eine hierarchische Regressionsanalyse. Dabei werden die Prädiktorvariablen zu Blöcken zusammengefasst und diese Blöcke in einer vorher festgelegten Reihenfolge als Prädiktoren hinzugefügt. Dadurch lässt sich nicht nur der prognostische Wert der Variablen ermitteln: Man kann die inkrementelle Varianzaufklärung der Variablen beobachten und bei mehreren Durchläufen mit variierter Reihenfolge der Blöcke den Anteil ihrer spezifischen Varianz herausbekommen. So erhalten wir über die Kommunalitätenanalyse die Anteile der spezifischen Varianz, sowie den Anteil der gemeinsamen Varianz an der aufgeklärten Varianz. Dieses Vorgehen führte ich getrennt für schulbezogene Variablen, sowie jeweils fächerspezifisch für Mathematik, Deutsch, Physik und Englisch aus. 4.6 Verwendete Verfahren der Datenanalyse 4.6.1 Faktorenanalyse: Hauptkomponentenanalyse Die Faktorenanalyse ist ein statistisches Daten reduzierendes und Hypothesen generierendes Verfahren. Sie stellt Zusammenhänge zwischen mehreren Variablen dar, indem sie diese anhand ihrer Korrelationen in möglichst wenige, nicht überlappende Gruppen (Faktoren) aufteilt. Dabei soll die Zusammenfassung so erfolgen, dass ein möglichst großer Teil der gemeinsamen Varianz der Variablen erklärt und berücksichtigt wird. Es bleibt hinzuzufügen, dass ich bei meiner Datenanalyse eine explorative – keine konfirmatorischen Faktorenanalysen gerechnet habe. Dies ist durchaus in Ordnung, auch wenn ich aufgrund vorausgehender Studien eine Vorstellung davon hatte, wie die dimensionale Struktur der motivationalen Skalen aussehen könnte. Explorative Faktorenanalysen sind als das konservativere Verfahren anzusehen und sind überdies nicht so anfällig für Manipulation. Hauptkomponentenanalyse 47 Die Hauptkomponentenanalyse (PCA von Principal Components Analysis) dient wie die Faktorenanalyse dazu, umfangreiche Datensätze zu vereinfachen, indem eine Mehrzahl statistischer Variablen durch eine geringere Zahl möglichst aussagekräftiger Linearkombinationen genähert wird. Es liegt die Annahme zugrunde, dass die Varianz jeder Ausgangsvariablen vollständig durch die Faktoren erklärt werden kann, die Kommunalität also bei Eins liegt. Da jeder Test Messfehler enthält, ist dieser Ansatz mit einer funktionalen Interpretation von vornherein nicht vereinbar. Ziel ist hier lediglich, die Vielzahl von Testvariablen auf einige wenige Faktoren zu reduzieren, die die in den Testvariablen enthaltene Information möglichst gut repräsentieren. Zunächst wird der erste Faktor (Hauptkomponente) so bestimmt, dass durch ihn ein möglichst großer Teil der Gesamtvarianz erklärt wird. Der zweite Faktor wird dann so bestimmt, dass er orthogonal zum ersten Faktor steht (also unkorreliert ist) und gleichzeitig einen möglichst großen Teil der verbliebenen Restvarianz erklärt. Auf diese Weise lassen sich theoretisch so lange Faktoren ziehen, bis ein Faktor auf jede beobachtete Variable kommt, wobei in diesem Fall auch die Gesamtvarianz vollständig erklärt wäre. Es muss also ein Kompromiss gefunden werden zwischen dem Grad der Dimensionsreduktion und der Genauigkeit des Modells. Es existieren keine allgemeingültigen Kriterien zur Bestimmung der Anzahl bedeutsamer Komponenten, so dass zwei Leute bei gleicher Fragestellung zu unterschiedlichen Ergebnissen gelangen können. Ich habe mich bei den durchgeführten Hauptkomponentenanalysen zunächst an das simple Kaiser-Guttman-Kriterium gehalten, wonach nur Komponenten interpretiert werden sollen, dessen Eigenwerte größer als Eins sind. Dieses Kriterium neigt dazu die Anzahl der Faktoren zu überschätzen, lieferte aber bereits eine recht gute Passung zu theoriegeleiteten Überlegungen. Zur Validierung der Befunde habe ich die Anzahl der extrahierten Faktoren mit den Ergebnissen der Parallelanalyse (siehe Abschnitt 4.6.2) verglichen. Die inhaltliche Plausibilität sollte die letzte Instanz bei der Auswahl der Faktorenlösung darstellen, um eine inhaltliche Begründung gemäß der Theorie und eine sinnvolle Interpretation zu ermöglichen. Rotationstechniken Wenn eine Faktorenlösung vorliegt, lassen sich durch Rotation weitere Lösungen herstellen, die die Korrelationsmatrix genauso gut reproduzieren. Die Rotation hat zum Ziel eine möglichst einfache, gut interpretierbare Lösung zu finden. Dazu werden die Faktoren in 48 eine Lage mit Einfachstruktur gebracht, so dass für jede Variable gilt: eine möglichst hohe Korrelation mit einem Faktor und möglichst niedrige Korrelationen mit den übrigen Faktoren. Dabei bleibt die Gesamtvarianz der Variablen erhalten, die Transformation führt jedoch zu einer anderen Verteilung der Varianz auf die anderen Achsen. Man unterscheidet grundsätzlich zwischen obliquen und orthogonalen Rotationstechniken. Letztere führen zu voneinander unabhängigen Faktoren, während oblique Rotationsmethoden davon ausgehen, dass die Faktoren interkorrelieren. In letzterem Fall lässt sich die Faktorenstrukturen zwar besser interpretieren, aufgrund der Interkorrelationen weisen die Faktoren jedoch „zum Teil redundante Informationen [auf], womit eine entscheidende Funktion der Faktorenanalyse, die Datenreduktion, wieder aufgegeben wird“ (Bortz, 2005, S. 547). Die mir vorliegenden Skalen weisen Intrakorrelationen auf, dennoch verwendete ich bei meinen Dimensionsanalysen die Varimax-Rotationstechnik. Er ist der am Häufigsten verwendete orthogonale Rotationsalgorithmus und maximiert die Varianz der quadrierten Faktorladungen innerhalb der Faktoren. Um den Effekt dieser methodischen Verletzung zu kontrollieren, berechnete ich zusätzlich eine oblique Direct-ObliminRotation, die aber nur unwesentliche Änderungen der Ergebnisse erbrachte. Dies entspricht der Erfahrungen von Gorsuch (1970, zitiert nach Bortz, 2005, S. 548), der in einer Vergleichsstudie berichtet, „dass die Varimax-Rotation zu ähnlich interpretierbaren Ergebnissen führt wie die am häufigsten eingesetzten obliquen Rotationstechniken.“ Und Rost (2005, S. 168) meint, „im Zweifelsfall ist eine orthogonale Lösung, da sie sparsamer ist und ihre Resultate weniger stichprobenspezifisch sind, einer korrelierten vorzuziehen.“ 4.6.2 Parallelanalyse Bei der Parallelanalyse (nach Horn, 1965) vergleicht man den tatsächlich ermittelten Eigenwertverlauf mit dem Eigenwertverlauf der Korrelationen zwischen zufällig generierter normalverteilter Variablen. Grafisch lässt sich das mit einem Screeplot-ähnlichen Diagramm veranschaulichen, in das man die beiden Eigenwertverläufe einzeichnet. Die Interpretation spricht denjenigen Eigenwerten Bedeutung zu, die vor dem Schnittpunkt der beiden Eigenwertverläufe liegen. Zur Berechnung der Parallelanalyse verwendete ich eine vorgefertigte Syntax für SPSS von O’Connor. 49 4.6.3 Item- und Reliabilitätsanalyse Item- und Skalenkennwerte Im Rahmen der Item- und Skalenanalyse wurden folgende psychometrische Kennwerte berechnet: korrigierte Trennschärfe, Itemschwierigkeit, Mittelwert (MW), kleinster Skalenwert (Min), größter Skalenwert (Max), Standardabweichung (SD), Schiefe und Exzess. Die Trennschärfe gibt die korrigierte Korrelation eines Items mit der entsprechenden Skala wieder und ist ein Maß für die skalenbezogene Validität des Items. Hohe Trennschärfen stellen sicher, dass alle Items einer Skala dasselbe Merkmal erfassen. Die Itemschwierigkeit oder auch Schwierigkeitsindex gibt bei dichotomen Merkmalen den Prozentsatz an Personen wieder, die dieses Item richtig beantwortet haben. Sehr schwere oder sehr leichte Items bieten wenig Information, da sie über die gesuchte Eigenschaft wenig Aufschluss geben. Interne Konsistenz Die Interne Konsistenz wurde durch die Berechnung von Cronbachs Alpha (Cronbach, 1951) geschätzt. Dabei wird Alpha (α) von der Zahl der Items und allen bivariaten Korrelationen zwischen den Items beeinflusst. Alpha kann – bei perfekter Konsistenz – ein Maximum von Eins erreichen, je kleiner der Wert, desto geringer ist die Konsistenz der Skala. Interne Konsistenz bedeutet, dass die einzelnen Items mit der Gesamtheit der übrigen Items zusammenhängen, und gilt als Maß der Homogenität der Skala. Cronbachs Alpha schätzt die untere Grenze der wahren Reliabilität. Klassifikation Eine generelle Beurteilung der Höhe von Testkennwerten ist schwierig, da diese in den meisten Fällen kontextabhängig sind. Wie zum Beispiel der Art des verwendeten Tests, oder die Größe der Stichprobe. Dennoch ist eine Einigung auf sprachlicher Ebene erforderlich, um ein Verständnis zwischen verschiedenen Lesern zu gewährleisten. Die Richtlinien bezüglich der Höhe von Testkennwerten sind Fisseni (2004) entnommen und sind in Tabelle 4.3 niedergeschrieben. Tabelle 4.3 – Beurteilung der Höhe von Testkennwerten Kennwert Schwierigkeit Kürzel p Niedrig > .8 Mittel .8 – .2 Hoch < .2 50 Trennschärfe (korrigiert) Reliabilität: Retest Cronbachs Alpha ritc rtt α < .3 < .8 < .7# .3 – .5 .8 – .9 .8 – .9 > .5 > .9 >.9 nach Weise (1975, zitiert nach Fisseni, 2004, S. 80) 4.6.4 Produkt-Moment-Korrelation Der Korrelationskoeffizient nach Pearson spiegelt den linearen Zusammenhang zwischen zwei intervallskalierten Variablen wieder, unabhängig davon in welcher Einheit die Werte angegeben sind. Der Wertebereich erstreckt sich von minus bis plus Eins, wobei bei plus eins ein perfekter positiver, bei minus eins ein perfekter negativer Zusammenhang vorliegt. Je näher der Korrelationskoeffizient an Null liegt, desto geringer ist der lineare Zusammenhang. Die Produkt-Moment-Korrelation stellt die Basis für eine Vielzahl psychometrischer Werte und multivariater Analysemethoden dar, wie beispielsweise der Trennschärfe, dem Determinationskoeffizienten oder bei der Faktorenanalyse. Arbeitet man mit Korrelationen, sollte die Betrachtung von Ausreißerwerten nicht außer Acht gelassen werden, da Korrelationen davon stark beeinträchtigt sein können, so Bühner (2006). Das heißt, je nach Lage der Ausreißer, kann sie überhöht oder zu gering ausfallen. Nach Brosius (2002) spricht man ab .2 von schwachen, ab .4 von mittleren, ab .6 von starken und ab .8 von sehr starken Korrelationen. Abhängig von der Fragestellung, können auch schon geringe Korrelationen von Bedeutung sein. 4.6.5 Hierarchische Regressionsanalyse Die hierarchische Regressionsanalyse ist eine spezielle multiple lineare Regression und ermöglicht Untersuchungen über den Erklärungsbeitrag inhaltlich strukturierter Merkmalsmengen. Es wird untersucht, inwieweit sich die verschiedenen Merkmalsblöcke (Gruppen von Unabhängigen Variablen) auf das Kriterium auswirken. Dabei werden die Prädiktorvariablen auf Grundlage von theoriebasierten Überlegungen a-priori zu Blöcken zusammengefasst und diese Blöcke in einer festgelegten Reihenfolge nacheinander in die Regressionsrechnung aufgenommen. Man beobachtet, wie hoch der Anstieg des Determinationskoeffizienten (R²) ausfällt und erhält so Aufschluss über die inkrementelle Varianz des spezifischen Merkmalsblocks. 51 Voraussetzung für die multiple Regression sind intervallskalierte und normalverteilte Variablen. Es muss ein linearer Zusammenhang zwischen Prädiktorvariablen und Kriteriumsvariable bestehen. Ferner darf die Abhängigkeit der Prädiktorvariablen untereinander nicht zu groß sein, um Multikollinearität zu vermeiden. Dies hätte nach Stevens (2002) zur Folge, dass der Determinationskoeffizient stark limitiert ist, da die Prädiktoren denselben Anteil an Varianz aufklären. Wegen der konfundierten Varianz wäre die Einschätzung der prädiktiven Kraft einer einzelnen Prädiktorvariable erschwert. Und schließlich wären die Schätzwerte ineffizient, da die Varianz der Regressionskoeffizienten wachsen würde. Die Gefahr von Multikollinearität wächst mit Höhe der Korrelationen zwischen den Prädiktorvariablen. Die zugehörigen Korrelationsmatrizen sind Tabelle 4.4 zu entnehmen. Physik Deutsch Schule Tabelle 4.4 – Korrelationsmatrix: Prädiktoren und ihre Kriteriumsvariable Variablen Notenschnitt LT SK Int AVT HE Schulnote LT SK Int AVT HE Schulnote LT SK Int AVT HE LT -.318** SK -.672** .241** Int -.264** .063** .415** AVT .226** .022** -.272** -.376** HE -.212** .113** .308** .277** -.104** -.190** -.607** .075** -.401** < .001** .726** .259** .070** -.368** -.460** -.277** -.016** .515** .554** -.341** -.252** -.696** .194** -.509** .140** .802** .322** -.044** -.438** -.483** -.375** .065** .584** .615** -.398** FM .051** -.079** -.134** .017** .106** -.086** .125** -.103** -.144** -.053** .195** -.009** .198** -.120** -.335** -.258** .297** -.211** * signifikant auf dem Niveau von .05 (zweiseitig). ** signifikant auf dem Niveau von .01 (zweiseitig). 4.6.6 Kommunalitätenanalyse Bei der hierarchischen Regressionsanalyse lässt sich über den Determinationskoeffizienten (R²) erkennen, wie hoch der spezifische Anteil eines Prädiktors an der aufgeklärten Varianz ist. Dazu wird die Prädiktorvariable als letzter Block in die Regression aufgenommen. Die inkrementelle Varianzaufklärung des letzten Blocks (∆R²) entspricht dann dem Anteil der spezifischen Varianz dieses Prädiktors. Führt man mehrere hierarchische Regressionsanalysen in Folge aus und variiert dabei die Prädiktorvariable im letzten Block, so 52 erhält man sämtliche spezifische Varianzanteile. Um den Anteil der gemeinsamen Varianz aller Prädiktoren zu erhalten bildet man die Summe der Anteile der spezifischen Varianz aller Prädiktorvariablen und subtrahiert diese von Eins. 4.7 Voraussetzungen zur Anwendung der Verfahren Die im vorhergehenden Abschnitt beschriebenen statistischen Analysemethoden sind an eine Reihe von Voraussetzungen gebunden, ohne die eine sinnvolle Interpretation der Ergebnisse nicht möglich ist. Eine Verletzung kann eine Verfälschung der Ergebnisse zur Folge haben. Die verwendeten multivariaten Verfahren haben gemeinsam, dass sie intervallskalierte und normalverteilte Daten voraussetzen. In der üblichen Forschungspraxis verzichtet man auf die empirische Kontrolle des Skalenniveaus da man davon ausgeht, dass die eingesetzten Verfahren das jeweilige Merkmal metrisch messen. Dahinter steht nach Bortz (2005, S. 26) die Überzeugung, „dass die Bestätigung einer Forschungshypothese durch die Annahme eines falschen Skalenniveaus eher erschwert wird“. Dieser Praxis folgend habe ich die Daten der Motivationsskalen z-transformiert und bin davon ausgegangen, dass die sechsstufige Antwortskala nicht nur Rang- sondern Intervallskalenniveau besitzt. Die zweite notwendige Voraussetzung der in dieser Arbeit eingesetzten Verfahren betrifft die Verteilungsform: Aussagen über Varianz bzw. Standardabweichung sind nur bei normalverteilten Stichproben aussagekräftig. Die Produkt-Moment-Korrelation erfordert, dass die Grundgesamtheit bivariat normalverteilt ist. In der Praxis stößt diese Überprüfung auf Schwierigkeiten, weshalb man sich nach Bortz (2005, S. 213) darauf beschränkt, die Normalität der beiden Merkmale nachzuweisen. Stevens (1996) schlägt eine Überprüfung der Normalverteilung der einzelnen Variablen in den unterschiedlichen Gruppen vor. Dazu habe ich den Kolmogorov-Smirnov-Anpassungstest durchgeführt. Bei einem Signifikanz-Niveau von .01 stellte dieser Test bei 12 von 31 (39 Prozent der) untersuchten Skalen signifikante Unterschiede zu einer Normalverteilung fest. Allerdings muss berücksichtigt werden, dass bei einer großen Stichprobe auch schon ein sehr kleiner Unterschied zwischen den beobachteten Werten und der Normalverteilungsform zu einem signifikanten Ergebnis führt. Hier empfiehlt es sich, Schiefe und Exzess der Verteilung zu betrachten, um so Erkenntnis über Art und Ausmaß der Abweichung von der Normalverteilung zu gewinnen. Nach Kline (2005) gibt es dazu wenig klare Richtlinien, doch konnten Compu- 53 tersimulationsstudien zeigen, dass Werte kleiner als 3 für die Schiefe und unterhalb von 8 für den Exzess akzeptabel sind. Von diesen Richtwerten sind die Verteilungen mit einem Maximalwert der Schiefe von -.71 (bei der Skala IST_ZR) in vorliegender Studie weit entfernt. Beim Exzess bildet die Skala INT_P mit einem Wert von -1.17 den Maximalwert, alle übrigen Exzesswerte der Skalen liegen noch näher an Null liegen. Die genauen Skalenwerte sind Tabelle # zu entnehmen. Bei großen Stichproben hat sich gezeigt, dass sich parametrische uni- und multivariate Analysen recht robust gegenüber Verletzungen der Voraussetzungen erwiesen haben. So zeigten Havlicek und Peterson (1977), dass der Pearson-Produkt-Moment- Korrelationskoeffizient sehr robust gegenüber Verteilungsform und Skalenniveau ist. Bei der Hauptkomponentenanalyse sollte man vorher die Korrelationsmatrix auf Tauglichkeit überprüfen: Wenn die erhobenen Variablen nur schwach untereinander korrelieren, so ist es unwahrscheinlich, dass sich Faktoren finden lassen, die die Variablen auf eine geringere Zahl von Faktoren reduzieren. Der Bartlett-Test auf Sphärizität prüft, ob die Daten aus einer Grundgesamtheit stammen, in der die Variablen unabhängig voneinander sind. Da dieser Test nach Bühner (2006) bei größeren Stichproben sehr leicht zu einem positiven Ergebnis führt, gilt er nur bei kleinen Stichproben als sinnvoll. Auch bei meiner Studie waren alle Ergebnisse signifikant. Besser ist die Betrachtung der diagonalen Werte der Anti-Image-Korrelationsmatrix. Diese geben an, wie groß der Anteil der Varianz der einzelnen Variablen ist, der sich nicht durch die anderen Variablen erklären lässt. Hieraus leitet sich das Kaiser-Meyer-Olkin-Kriterium (KMO) ab, das möglichst hohe Werte bis hin zur Eins annehmen sollte. Nach Bühner (2006) ist ein Wert von über .7 als mittel, von über .8 als gut zu bezeichnen. Dementsprechend waren bei vorliegender Studie alle KMOWerte zufriedenstellend, mit dem niedrigsten Wert von .76 bis hin zu Werten von .89. Die Stabilität der Faktorenlösung nimmt mit wachsender Stichprobengröße zu, weshalb bereits eine Stichprobengröße von 1000 als "exzellent" (Bühner, 2006, S. 157 #verify) bezeichnet wird. Als Fazit kann man festhalten, dass die Ergebnisse statistischer Analysen reliabler interpretiert werden können, wenn ihre Voraussetzungen erfüllt sind. Verschiedene Untersuchungen kamen jedoch zum Ergebnis, dass die in dieser Arbeit verwendeten Verfahren robust gegenüber Verletzungen ihrer Voraussetzungen reagieren. So schreibt Rost (2000, S. 62), dass die „Voraussetzungen zur Durchführung uni- und multivariater Tests […] zwar 54 theoretisch als sehr begründet, in ihren Auswertungen aber in vielen Fällen als praktisch weniger bedeutsam angesehen werden […]“. Insbesondere trifft dies auf große Stichproben zu, eine Bezeichnung, die auch auf die vorliegende Studie zutrifft. 55 5 Darstellung der Ergebnisse 5.1 Dimensionsanalysen Nachdem im Abschnitt 4.7 die Voraussetzungen für die Faktorenanalyse abgeklärt wurden, wenden wir uns jetzt den Dimensionsanalysen des Itempools zu. Hierzu wurden Hauptkomponentenanalysen (PCA) mit anschließender Varimax-Rotation gerechnet. Die zum Vergleich angestellten Hauptkomponentenanalysen unter Verwendung der Direct Oblimin-Rotationstechnik sind aus Gründen der Übersichtlichkeit nicht aufgeführt. Bei allen PCAs wurden zunächst Faktoren mit Eigenwerten größer Eins extrahiert und zur Validierung dieser Befunde eine Parallelanalyse gerechnet. 5.1.1 Struktur der Allgemeinen Intelligenz Die gerechnete Hauptkomponentenanalyse über die verwendeten z-standardisierten Intelligenz-Subtests resultiert gemäß dem Kaiser-Kriterium in einer zweifaktoriellen Lösung, Tabelle 5.1 – Varimax-rotierte Komponentenmatrix der zweifaktoriellen Lösung der Intelligenzsubtests Subtests IST ZR Faktor 1 Faktor 2 die 51.6 Prozent der Gesamtvarianz aufklärt. Die in Tabelle 5.6 aufgeführte rotierte Komponentenmatrix lässt erkennen, dass auf dem ersten Faktor Sub- .75 -.01 LPS 4 .68 .22 ZVT .63 .10 LPS 7 .62 .01 Intelligenz erfordern, während auf den LPS 9 .60 .20 IST An .04 .86 zweiten Faktor Subtests laden, die auf LPS 12 .23 .74 tests laden, die hauptsächlich Fluide Kristalliner Intelligenz basieren. 56 In Tabelle 5.2 sind die relevanten Werte der Parallelanalyse eingetragen. Aus den Daten ist ersichtlich, dass beim zweiten Faktor Tabelle 5.2 – Parallelanalyse: Eigenwerte der Intelligenzsubtests Faktor 1 die tatsächlich ermittelten empirischen Empirisch PA MW PA 95 Eigenwerte mit einem Wert von 1.08 zwar größer sind als die Eigenwerte 2.53 1.12 1.16 2 1.08 1.07 1.10 3 .84 1.03 1.06 Spaltenüberschriften: Empirisch = empirische Eigenwerte; PA MW = Mittelwerte randomisierter Rohdaten; PA 95 = 95-prozentige Perzentile der Zufallsvariablen. randomisierter Rohdaten (1.07), jedoch kleiner als die Eigenwerte 95- prozentiger Perzentile der Zufallsvariablen (1.10). Demnach kann man nur mit einer geringen Wahrscheinlichkeit davon ausgehen, dass der zweite Faktor eine empirische Bedeutung hat. Wir rechnen also nochmal die Hauptkomponentenanalyse, erzwingen diesmal aber eine einfaktorielle Lösung. Diese klärt 36.1 Prozent der Gesamtvarianz auf und entspricht inhaltlich der Extraktion des Generalfaktors der Allgemeinen Intelligenz. Die Höhe der Faktorladungen liegt zwischen .43 (IST An) und .71 (LPS 4). 5.1.2 Struktur motivationaler Skalen Im späteren Verlauf der Datenanalyse werde ich eine hierarchische Regressionsanalyse durchführen. Um zu bestimmen, wie die Motivationsskalen bei dieser Operation in Blöcke aufgeteilt werden, rechnete ich eine Hauptkomponentenanalyse über die Motivationsskalen, separat für jedes Schulfach. Es stellt sich heraus, dass nach dem Kaiser-GuttmanKriterium für die auf das Fach Deutsch und für die auf die Schule bezogenen Motivationsskalen eine zweifaktorielle Lösung vorzuziehen ist. Die anderen Fächer und die Parallelanalyse präferieren jedoch nur einen einzigen Faktor zu extrahieren. Da bei einer geringen Anzahl an Variablen (vier) das Kaiser-Guttman-Kriterium die Faktorenzahl unterschätzt, und die Ergebnisse sich sehr nahe an der Grenze befinden, entschied ich mich für die zweifaktorielle Lösung. Demnach bilden Interesse, Selbstkonzept und Hoffnung auf Erfolg den ersten Faktor, während die Skala Furcht vor Misserfolg den zweiten Faktor darstellt. Detaillierte Werte dieser Lösung sind Tabelle 5.3 zu entnehmen. Tabelle 5.3 – Motivationsskalen: Rotierte Komponentenmatrix der zweifaktoriellen Lösung Fach Schule Faktor Interesse Selbstkonzept 1 .787 .776 Hoffnung auf Erfolg .662 Furcht vor Misserfolg -.062 kumulierter %Anteil Varianz 41.6 57 Mathe Deutsch Physik Englisch 2 1 2 1 2 1 2 1 2 .198 .898 -.192 .897 -.023 .909 -.142 .911 -.067 -.153 .856 -.015 .866 -.172 .873 -.248 .871 -.205 -.152 .855 -.317 .797 .090 .833 -.047 .840 -.024 .973 -.158 .978 -.029 .992 -.147 .985 -.101 .992 67.4 57.4 84.7 54.8 80.3 57.6 84.0 57.6 83.3 5.1.2.1 Selbstkonzept Die hierarchische Struktur des Selbstkonzepts wurde in zahlreichen Studien untersucht und konnte unter anderem von Rost und Sparfeldt (2002) nachgewiesen werden. Mich interessiert, ob meine Daten diese Ergebnisse bestätigen. Zunächst soll überprüft werden, ob ein allgemeines akademisches (bzw. schulbezogenes) Selbstkonzept gefunden werden kann. Dazu rechne ich eine Faktorenanalyse c. Es wird ein Faktor extrahiert, der Ladungswerte zwischen .69 und .87 hat und (mit einem Eigenwert von 3.09) 62 Prozent der Gesamtvarianz aufdeckt. Es soll überprüft werden, ob die für das schulische fächerübergreifende Selbstkonzept gefundene Struktur auch bei fächerspezifischer Betrachtungsweise ihre Gültigkeit behält. Dazu wird eine Faktorenanalyse über die Items der fächerspezifischen Selbstkonzeptskalen gerechnet. Die Parallelanalyse schlägt nach den Daten in Tabelle 5.4 eine Lösung mit vier Faktoren vor, denn beim fünften Faktor sind die Eigenwerte randomisierter Variablen (1.12) größer, als die empirischen Eigenwerte mit (.57). Tabelle 5.4 – Selbstkonzept: unrotierte und rotierte vierfaktorielle Lösung Faktor 1 2 3 4 5 PA MW 1.25 1.21 1.72 1.14 1.12 unr. EW 6.66 5.23 2.35 2.05 0.57 % Varianz 33.29 26.17 11.74 10.27 % kum 33.29 59.46 71.20 81.47 rot. EW 4.24 4.23 4.1 3.72 % Varianz 21.22 21.16 20.48 18.61 %kum 21.22 42.38 62.86 81.47 Anmerkung: Die Variablenzahl beläuft sich auf 4 Fächer x 5 Items zum Selbstkonzept = 20 Variablen. Spaltenüberschriften: PA MW = Mittelwerte randomisierter Rohdaten; unr. EW = unrotierte Eigenwerte; % Varianz = Prozent der Varianz; % kum = Prozent der kumulierten Varianz; rot. EW = rotierte Eigenwerte. Die Analyse der rotierten Komponentenmatrix in Tabelle 5.5 lässt erkennen, dass jedes der vier Schulfächer genau auf einen Faktor lädt. Dies deckt sich mit den Befunden vorhergehender Studien und entspricht unseren Erwartungen. 58 Tabelle 5.5 - Selbstkonzept: rotierte Komponentenmatrix der vierfaktoriellen Lösung Items Faktor1 Faktor2 Faktor3 Faktor4 skm_01 .25 .88 -.09 -.06 skm_02 .25 .88 -.08 -.06 skm_03 .23 .87 .01 -.03 skm_04 .26 .91 -.02 -.03 skm_05 .22 .87 -.04 -.02 skd_01 .01 -.08 .16 .84 skd_02 -.04 -.08 .19 .84 skd_03 .00 .03 .20 .80 skd_04 .03 -.01 .18 .89 skd_05 .00 -.02 .14 .84 skp_01 .89 .24 -.04 -.03 skp_02 .90 .22 -.05 .00 skp_03 .86 .25 .01 -.01 skp_04 .90 .28 -.02 .03 skp_05 .89 .21 -.01 .02 ske_01 -.02 -.09 .88 .19 ske_02 -.06 -.08 .88 .18 ske_03 .00 -.01 .89 .16 ske_04 .01 .00 .91 .19 ske_05 -.04 -.04 .87 .20 rawdata means percntyl 10 8 5.1.2.2 Furcht vor Misserfolg Analog zum Selbstkonzept wird überprüft, ob es ein Konstrukt allgemeine schulbezogene Furcht vor Miss- 6 erfolg gibt. Die Faktorenanalyse über die fünf zugehörigen Items befürwortet eine einfaktorielle Lösung, die 4 (mit einem Eigenwert von 2.89) 58 Prozent der Gesamtvarianz aufklärt. Die Ladungswerte der Items lie- 2 gen zwischen .73 und .79. Die Faktorenanalyse über die insgesamt 20 fächerspe- 0 1,00 3,00 5,00 7,00 9,00 11,00 zifischen Items zur Skala Furcht vor Misserfolg ergibt 13,00 15,00 17,00 19,00 root ein unstimmiges Bild. Das Kaiser-Guttman-Kriterium schlägt eine Extraktion von fünf Faktoren vor, die Zahlen der Parallelanalyse deuten auf eine dreifaktorielle Lösung hin. Die grafische Darstellung des Eigenwertverlaufs der Parallelanalyse in Abbildung # lässt erAbbildung 5.1 Eigenwertverlauf Furcht vor Misserfolg: kennen, dass die Kurve der empirischen Eigenwerte nach dem vierten Faktor einen Knick macht. Gemäß der Screeplot-Analyse wäre hier eine vierfaktorielle Lösung denkbar. Nach 59 Aussage von meinem Anleiter Herrn Dr. Sparfeldt, wurde die vierfaktorielle Lösung über eine konfirmatorische Faktorenanalyse bestätigt. #Rücksprache Demnach gehe ich davon aus, dass es sinnvoll ist die Skala Furcht vor Misserfolg über vier Faktoren zu erklären, die den einzelnen Schulfächern entsprechen. Tabelle 5.6 – Furcht vor Misserfolg: unrotierte und rotierte vierfaktorielle Lösung Faktor 1 2 3 4 PA MW 1.25 1.21 1.17 1.14 unr. EW 9.62 1.75 1.44 1.08 % Varianz 48.11 8.77 7.22 5.41 % kum 48.11 56.88 64.10 69.51 rot. EW 4.04 3.94 3.23 2.63 % Varianz 20.21 19.68 16.16 13.16 %kum 20.21 39.90 56.05 69.21 Anmerkung: Die Variablenzahl beläuft sich auf 4 Fächer x 5 Items zu Furcht vor Misserfolg = 20 Variablen. Spaltenüberschriften: PA MW = Mittelwerte randomisierter Rohdaten; unr. EW = unrotierte Eigenwerte; % Varianz = Prozent der Varianz; % kum = Prozent der kumulierten Varianz; rot. EW = rotierte Eigenwerte. Tabelle 5.7 – Furcht vor Misserfolg: rotierte Komponentenmatrix der vierfaktoriellen Lösung Items fm_d 1 fm_d 2 fm_d 3 fm_d 4 fm_d 5 fm_e 1 fm_e 2 fm_e 3 fm_e 4 fm_e 5 fm_m 1 fm_m 2 fm_m 3 fm_m 4 fm_m 5 fm_p 1 fm_p 2 fm_p 3 fm_p 4 fm_p 5 Faktor1 Faktor2 Faktor3 Faktor4 .38 .28 .68 -.01 .33 .11 .70 .21 .16 .29 .42 .68 .15 .69 .36 .10 .19 .67 .27 .20 .21 .30 .72 .14 .12 .17 .73 .33 .05 .33 .46 .72 .03 .70 .43 .15 .01 .69 .35 .28 .74 .22 .24 .12 .71 .06 .30 .25 .47 .22 .08 .71 .53 .60 .02 .19 .55 .56 -.02 .27 .73 .22 .28 .06 .72 .07 .29 .25 .47 .25 .11 .70 .51 .63 .03 .17 .50 .59 -.01 .26 5.2 Item- und Skalenanalysen Für die erhobenen Schulnoten wurden keine Skalen- bzw. Ausreißeranalysen gerechnet. Besonders gute bzw. schlechte Schüler gehören zum Schulalltag dazu und es erscheint nicht sinnvoll diese selektiv auszusortieren und somit künstlich die Varianz einzuschränken. Die Verteilungsform der Schulnoten wurde bereits in Tabelle 4.2 behandelt. 60 5.2.1 Leistungstests Bei den Leistungstests ist es sinnvoll den Extremwerten Beachtung zu schenken. Es besteht die Möglichkeit, dass der betreffende Schüler die Aufgabenstellung nicht verstanden hat, was sehr schlechte Werte zu Folge hätte. Andererseits sind Probanden mit einer sehr hohen Punktezahl zu berücksichtigen, da diese sich möglicherweise nicht an die Testanweisung gehalten und früher als die anderen Schüler mit der Bearbeitung der Aufgaben begonnen haben. Das Kriterium, ab wann ein Proband als Ausreißer klassifiziert und aus dem Datensatz ausgefiltert wird, lautet wie folgt: Hat ein Schüler einen Skalenwert, der einer z-WertDifferenz größer oder gleich 3 zum Stufenmittelwert entspricht, gilt er in dem entsprechenden Subtest als Ausreißer. Beim ZVT gab es das Problem, dass einige Schüler sich augenscheinlich nicht an die Zeitvorgabe gehalten hatten. Sie stellten zunächst eine Matrize komplett fertig, bevor sie zur nächsten übergingen und dort dann zunehmend unter Zeitnot gerieten. Deshalb wurden hier zusätzliche Kriterien angelegt: Schüler, die mindestens einen Durchgang komplett abgeschlossen hatten, oder bei denen nach vier Durchgängen eine Varianz größer als 176 festgestellt wurde, landeten auf der roten Liste. Zusammen wurden bei den verschiedenen Leistungstests 73 Versuchspersonen als Ausreißer klassifiziert. # Zahlenreihen, LPS 1+2, LPS 7, ZVT Tabelle 5.8 – Skalenanalyse und Informationen zu den Leistungstests Subtest LPS 1+2 LPS 4 LPS 7 LPS 9 IST AN IST ZR ZVT vVpn 1082 1047 1081 1077 1084 1084 1048 Ausr. 2 *37 3 7 0 0 36 Min 20 8 3 14 1 0 30 Max 64 27 40 41 18 20 77 MW 37.77 16.51 21.10 28.56 9.95 13.64 51.07 SD 7.48 3.26 6.52 4.42 2.82 4.70 7.52 α .849 .656 .901 .772 .549 .867 .893 ø rit .219 .193 .387 .232 .451 .180 .766 Schiefe .51 .16 .11 -.22 -.12 -.71 .21 Exzess .21 -.30 -.12 .16 -.12 -.08 -.07 Spaltenüberschriften: vVpn = verbleibende Versuchspersonen; Ausr. = Ausreißer; Min = minimaler Skalenwert; Max = maximaler Skalenwert; α = Cronbachs Alpha; ø rit = mittlere Trennschärfe. * die Daten einer kompletten Klasse wurden fallengelassen, da 12 von 24 Schülern als Ausreißer klassifiziert wurden. Die Interne Konsistenz der Skalen wird als Cronbachs Alpha angegeben. Bei den verschiedenen Aufgabenkategorien der Leistungstests liegt Alpha zwischen .55 (IST AN) und .90 (LPS 7). Wie durch die Alpha Koeffizienten in Tabelle 5.8 ersichtlich, kann die Interne Kon- 61 sistenz bei vier der sieben Subtests als gut bezeichnet werden. Nach Bühner (2004) werden korrigierte Trennschärfen unter einem Wert von .3 als niedrig und oberhalb von .5 als hoch bezeichnet. Die Mittelwerte der korrigierten Trennschärfen der einzelnen Leistungstests sind somit bis auf zwei Ausnahmen als niedrig zu klassifizieren. Den geringsten Wert hat der LPS 4, der nach der Entfernung von zwölf Items (mit einer Trennschärfe kleiner als .065) auf einen neuen Skalenmittelwert von .193 kommt. Die Skala Analogien des IST besitzt eine mittlere (.451), der ZVT (.766) eine hohe gemittelte Trennschärfe. Die Testanalyse auf Itemebene kam zu folgendem Ergebnis: Beim LPS 1 + 2 wird ein Item nicht weiter berücksichtigt, da es eine Nullvarianz aufweist (keiner konnte das Item richtig lösen). Das gleiche Schicksal wiederfährt zwölf Items des LPS 4. Auch hier ist eine Differenzierung praktisch nicht gegeben. Die entfernten Items besitzen eine Itemschwierigkeit größer gleich .98 und einer Trennschärfe kleiner als .065. 5.2.2 Motivationsskalen Bei den Motivationsskalen wurden die Varianzen über die Subskalen für jede Versuchsperson berechnet mit dem Ziel, ein ungewöhnliches Ankreuzverhalten aufzudecken. Drei Probanden fielen bei Betrachtung der Häufigkeitsverteilung der Varianzen ins Auge. Ihre Subskalen mit einer Varianz von Null wurden nicht gewertet. Ein größerer Datenverlust ergab sich dadurch, dass einige Probanden den Fragebogen nicht vollständig zu Ende bearbeiteten. Tabelle 5.9 ist zu entnehmen, wie viele Versuchspersonen in den einzelnen Tests keine Angaben machten, bzw. als Ausreißer klassifiziert wurden. Insgesamt verringerte sich dadurch bei den Motivationsskalen der Datensatz um 29 Versuchspersonen. #SK FM Tabelle 5.9 – Skalenanalyse für die Motivationsskalen Skala SK_S SK_M SK_D SK_P SK_E FM_S FM_M FM_D FM_P FM_E vVpn 1082 1084 1084 1083 1084 1084 1081 1080 1081 1081 K.A. 2 0 0 1 0 0 3 4 3 3 MW 3.63 3.52 3.89 3.20 3.85 3.21 2.91 2.56 2.88 2.68 SD 0.96 1.44 1.06 1.42 1.22 1.06 1.28 1.05 1.25 1.16 α .846 .954 .910 .955 .945 .821 .872 .843 .874 .866 ø rit .655 .872 .774 .875 .849 .614 .700 .651 .702 .689 Schiefe .09 -.02 -.08 .23 -.14 .13 .42 .51 .49 .53 Exzess -.40 -1.14 -.52 -.95 -.62 -.45 -.57 .04 -.42 -.28 62 Int_S Int_M Int_D Int_P Int_E HE_S HE_M HE_D HE_P 1081 1084 1081 1083 1083 1084 1081 1080 1078 3 0 3 1 1 0 3 4 6 2.93 3.35 3.39 3.07 3.87 4.58 4.14 3.90 3.69 1.06 1.52 1.33 1.58 1.34 0.89 1.30 1.21 1.34 .867 .945 .927 .951 .930 .815 .895 .893 .896 .719 .868 .830 .883 .837 .609 .743 .738 .745 .27 .07 .05 .26 -.26 -.70 -.43 -.26 -.09 -.34 -.13 -.79 -1.17 -.70 .38 -.63 -.47 -.84 Hinweis: Alle Aussagen der Motivationsskalen wurden auf einer sechsstufigen Antwortskala bewertet. Dementsprechend reichen die Rohwerte von Eins bis Sechs. Spaltenüberschriften: vVpn = verbleibende Versuchspersonen; K.A. = Anzahl der Schüler ohne Angaben; Min = minimaler Skalenwert; Max = maximaler Skalenwert; α = Cronbachs Alpha; ø rit = mittlere Trennschärfe. Cronbachs Alpha liegt wie in Tabelle 5.9 aufgeführt, zwischen .82 (HE Schule) und .96 (SK Physik). Die Interne Konsistenz der Motivationsskalen ist somit als gut bis sehr gut zu bezeichnen. Nach Bühner (2004) werden korrigierte Trennschärfen über einem Wert von .5 als gut klassifiziert. Die Mittelwerte, gebildet aus den korrigierten Trennschärfen der spezifischen Motivationsskalen, liegen oberhalb dieses Werts (zwischen .609 und .883). 5.3 Regressionsanalysen Anmerkung: Dimensionsanalysen konnten beim Anstrengungs-Vermeidungs-Test weder eine allgemeine schulbezogene Anstrengungsvermeidung, noch eine fächerspezifische Struktur erkennen. (vgl. Pfeiffer, 2007). Aus diesem Grund gingen die Daten dieses Fragebogens nicht in die folgenden Analysen ein. 5.3.1 Vorhersageleistung der Schulleistung In diesem Rechenschritt wird die Schulleistung, verkörpert durch den Notenschnitt der vier Fächer Mathe, Deutsch, Physik und Englisch über verschiedene Prädiktorvariablen vorhergesagt. Als erster Block wird in die hierarchische Regressionsanalyse der Mittelwert der verschiedenen Leistungs- bzw. Intelligenztests (LT) eingegeben. Den zweiten Block bilden die separaten Skalen Selbstkonzept, Interesse und Hoffnung auf Erfolg (im fortlaufenden Text als SIHE bezeichnet). Entsprechend der faktorenanalytisch ermittelten Struktur des Selbstkonzepts wird die Skala Furcht vor Misserfolg (FM) als dritter Block in die hierarchische Regressionsanalyse eingegeben. Insgesamt 106 Schüler werden aus dem Datensatz ausgefiltert, weil sie in den verschiedenen Skalen als Ausreißer klassifiziert 63 wurden, oder nicht alle Fragen beantwortet haben. Mit den verbleibenden 978 Schülern wird nach dem eben beschriebenen Schema eine hierarchische Regressionsanalyse gerechnet. Wie in Tabelle 5.10 über das Bestimmtheitsmaß zu erkennen ist, klären die drei Blöcke zusammen 47.9 Prozent der Varianz des Regressanden Schulleistung auf. Der größte Zuwachs des Bestimmtheitsmaßes ist bei Block SIHE zu verzeichnen, der demnach die beste Vorhersageleistung erbringt. FM trägt nur geringfügig zur Vorhersage des Schulerfolgs bei und besitzt eine marginale inkrementelle Validität von .2 Prozentpunkten. Tabelle 5.10 – Hierarchische Regressionsanalyse: Modellzusammenfassung für Schule Block 1 2 3 Prädiktorena LT SIHE FM R .318 .690 .692 R² .101 .476 .479 ∆R² .101 .375 .002 ∆F 109.8 232.4 4.4 ∆p (F) <.001 <.001 .037 Hinweis: Regressand ist die Durchschnittsnote aus Mathe, Deutsch, Physik und Englisch. N = 978. Spaltenüberschriften: R² = Bestimmtheitsmaß; ∆R² = Zuwachs des Bestimmtheitsmaßes; ∆F = Änderung von F; ∆p (F) = Änderung der Signifikanz von F. a LT = Leistungstests; SIHE = Selbstkonzept, Interesse, Hoffnung auf Erfolg; FM = Furcht vor Misserfolg. 5.3.2 Vorhersageleistung für das Fach Deutsch Die Deutschnote, als Indikator des Schulerfolgs im Fach Deutsch, stellt den Regressanden dar. Sie wird über drei Blöcke von Prädiktorvariablen vorhergesagt. Der erste Block bildet der Durchschnittswert der Leistungstests, bzw. die Allgemeine Intelligenz. Der zweite Block besteht aus den über Fragebögen ermittelten Skalenwerten zu Selbstkonzept, Interesse und Hoffnung auf Erfolg im Fach Deutsch. Zu guter Letzt wird der Wert der Skala Furcht vor Misserfolg im Fach Deutsch als eigenständiger Block in die Regressionsgleichung aufgenommen. Nach den Ergebnissen aus Tabelle 5.11 liegt die kumulierte Vorhersageleistung der Prädiktoren bei 38.8 Prozent. Wie schon bei der auf die Schule bezogenen Regressionsanalyse klärt der Block SIHE am meisten Varianz auf. Die Kategorie LT trägt signifikant zur Vorhersage der Deutschnote bei, während der inkrementelle Beitrag der Skala FM zu gering ist, um von einer statistischen Bedeutung zu sprechen. Tabelle 5.11 – Hierarchische Regressionsanalyse: Modellzusammenfassung für Deutsch Block 1 Prädiktorena LT R .192 R² .037 ∆R² .037 ∆F 37.4 ∆p (F) <.001 64 2 3 SIHE FM .622 .623 .387 .388 .351 <.001 185.2 .6 <.001 .421 Hinweis: Regressand ist die Deutschnote. N = 976. Spaltenüberschriften: R² = Bestimmtheitsmaß; ∆R² = Zuwachs des Bestimmtheitsmaßes; ∆F = Änderung von F; ∆p (F) = Änderung der Signifikanz von F. a LT = Leistungstests; SIHE = Selbstkonzept, Interesse, Hoffnung auf Erfolg; FM = Furcht vor Misserfolg. 5.3.3 Vorhersageleistung für das Fach Physik Analog zum Fach Deutsch wird dieselbe Prozedur mit Physik wiederholt. Die Zahlen aus Tabelle 5.12 lassen erkennen, dass 50.8 Prozent der Varianz der Physiknote aufgeklärt wird. Wie auch bei den anderen Fächern, hat der Block SIHE die beste Vorhersageleistung, gefolgt von der Allgemeinen Intelligenz. Die Skala FM trägt nur in sehr geringem Ausmaß inkrementell zur Varianzaufklärung bei. Tabelle 5.12 – Hierarchische Regressionsanalyse: Modellzusammenfassung für Physik Block 1 2 3 Prädiktorena LT SIHE FM R .259 .711 .713 R² .067 .506 .508 ∆R² .067 .439 .002 ∆F 69.6 287.4 4.2 ∆p (F) <.001 <.001 .040 Hinweis: Regressand ist die Physiknote. N = 974. Spaltenüberschriften: R² = Bestimmtheitsmaß; ∆R² = Zuwachs des Bestimmtheitsmaßes; ∆F = Änderung von F; ∆p (F) = Änderung der Signifikanz von F. a LT = Leistungstests; SIHE = Selbstkonzept, Interesse, Hoffnung auf Erfolg; FM = Furcht vor Misserfolg. 5.3.4 Vergleich Schulbezogene und Fächerspezifische Betrachtungsweise Ein weiteres Ziel der Untersuchung ist es herauszufinden, ob sich die Vorhersageleistung des Schulerfolgs durch die Differenzierung auf Schulfachebene erhöht. Diese Frage lässt sich mit einem klaren „jein“ beantworten. Drei der vier Fächer profitieren von der Differenzierung und erzielen eine Steigerung der aufgeklärten Varianz. Der größte Validitätszuwachs ist mit einem Aufklärungsanteil der Gesamtvarianz von 53.4 Prozent im Schulfach Mathematik zu beobachten. Dies entspricht einem Zuwachs von 11.5 Prozentpunkten gegenüber der schulbezogenen Betrachtungsweise mit einem Aufklärungsanteil der Gesamtvarianz von 47.9 Prozent. Dagegen verringert sich die Vorhersageleistung im Fach Deutsch um 19 Prozentpunkte auf einen Aufklärungsanteil von 38.8 Prozent gegenüber der allgemein schulbezogenen Fragestellung. Der relativen Veränderungen sind in Abbildung 5.2 dargestellt. 65 120% 53.4 100% 47.9 80% 50.8 52.0 Physik Englisch 38.8 60% 40% 20% 0% Schule Mathe Deutsch Abbildung 5.2 – Fächerspezifische Vorhersageleistung relativiert an Schulbezogener Betrachtungsweise Hinweis: Die Zahlen in den Datenbalken geben an, wie viel Prozent der Varianz des Regressanden in dem spezifischen Fach über die Prädiktorvariablen aufgeklärt wird. 5.4 Kommunalitätenanalysen Die Kommunalitätenanalyse schlüsselt die prozentualen Anteile der spezifischen Varianzen der verschiedenen Prädiktoren auf und gibt Auskunft über den Anteil, den sie gemeinsam zur Vorhersage des Schulerfolgs heranziehen. Tabelle 5.13 listet die prozentualen Anteile spezifischer und gemeinsamer Varianz auf, separat für jedes Fach. Tabelle 5.13 – Prozentuale Anteile spezifischer und gemeinsamer Varianz an der aufgeklärten Varianz Konstrukt Aufgeklärte Varianza Block SIHEbc Allgemeine Intelligenzc Furcht vor Misserfolgc Gemeinsame Varianz Schule 47.9 78.8 5.4 .4 15.4 Mathe 53.4 71.9 2.6 .2 25.3 Deutsch 38.8 87.6 4.9 0 7.5 Physik 50.8 81.5 2.8 .4 15.4 Englisch 52.0 87.7 2.5 .4 9.8 Hinweis: Alle Angaben der Tabelle in Prozent. a Prozentualer Anteil der kumulierten aufgeklärten Varianz der Schulnote. b Der Block SIHE besteht aus den Motivationsskalen Selbstkonzept, Interesse und Hoffnung auf Erfolg. b Prozentuale Anteile spezifischer Varianz. Der Block Selbstkonzept macht in allen Bereichen – sowohl bei schulbezogener, als auch bei fächerspezifischer Betrachtungsweise – den mit Abstand größten spezifischen Varianzanteil aus. Dabei liegt der Prozentsatz zwischen 72 und 88 Prozent. Die Allgemeine Intelligenz trägt inkrementell zur Vorhersage des Schulerfolgs bei, der prozentuale Anteil der spezifischen Varianz liegt dabei zwischen 2.5 und 5.4 Prozent. Die Skala „Furcht vor Misserfolg“ hat eine sehr geringe spezifische Vorhersageleistung. Der prozentuale Anteil 66 der spezifischen Varianz macht bis zu .4 Prozent aus, beim Fach Deutsch gab es keine signifikante Steigerung über die inkrementelle Varianzaufklärung. Der Anteil der gemeinsamen Varianz schwankte von 7.5 Prozent im Fach Deutsch, bis zu 25.3 Prozentpunkten im Fach Mathematik. Die nachfolgenden Diagramme dienen der grafischen Darstellung dieser Zahlen für die Fächer Deutsch und Physik. 1% Selbstkonzept + Interesse + Hoffnung auf Erfolg 15% 5% Allgemeine Intelligenz Furcht vor Misserfolg 79% Gemeinsame Varianz Abbildung 5.3 - Schulfachübergreifend: Anteile spezifischer und gemeinsamer Varianz Selbstkonzept + Interesse + Hoffnung auf Erfolg 5% 7% Allgemeine Intelligenz Furcht vor Misserfolg 88% Gemeinsame Varianz Abbildung 5.4 - Deutsch: Anteile spezifischer und gemeinsamer Varianz 67 0% Selbstkonzept + Interesse + Hoffnung auf Erfolg 15% Allgemeine Intelligenz 3% Furcht vor Misserfolg 82% Gemeinsame Varianz Abbildung 5.5 - Physik: Anteile spezifischer und gemeinsamer Varianz 68 6 Diskussion der Ergebnisse 6.1 Stichprobe und Instrumente Die Stichprobe weist eine sehr ausgeglichene Geschlechterverteilung auf. Die meisten Neunt- und Zehntklässler sind 15 bzw. 16 Jahre alt und besuchen Gymnasien in Städten in überwiegend ländlichen Gegenden. Die nach den Ausreißeranalysen verbleibende Stichprobengröße schwankt (je nach Fragestellung) um die 980 Versuchspersonen. Dieser Datensatz besitzt eine ausreichende Größe, um als solide Basis der Analysen zu dienen. Die Ergebnisse der Studie sollten sich auf andere Klassen entsprechender Jahrgangsstufe deutscher Gymnasien übertragen lassen. Allerdings mit der Einschränkung, dass in Großstädten die Anzahl der Klassen an einem Gymnasium, sowie die Anzahl der Schüler in einer Klasse zunimmt. Dies wiederum könnte Einfluss auf die Motivation der Schüler ausüben. Die Aufgabengruppe Zahlenreihen des IST, der ZVT, sowie die Aufgabengruppen 1+2 des LPS besitzen eine gute, der LPS 7 eine sehr gute interne Konsistenz. Beim LPS 1+2 und dem LPS 4 wurden einige Items bei der Auswertung nicht berücksichtigt, da sie praktisch keine Varianz aufklären. Wie ist dies zu erklären? Der Zeitrahmen ist beim LPS 1+2 sehr knapp bemessen, so dass die meisten Schüler nur einen Teil der Items bearbeiteten. Allein dadurch besitzen einige Items eine sehr niedrige Itemschwierigkeit. Beim LPS 4 hingegen ist die Itemschwierigkeit zu hoch, so dass beinahe alle Versuchspersonen das erste Drittel der Aufgaben lösen konnten. Die Skala Furcht vor Misserfolg besitzt eine gute, die Skala Selbstkonzept eine sehr gute interne Konsistenz. 6.2 Dimensionsanalysen Aus den verschiedenen Aufgabengruppen zur Intelligenzdiagnostik lässt sich ein gemeinsamer Generalfaktor extrahieren. Die Eindimensionalität ist nicht die einzig sinnvolle Interpretationsmöglichkeit, rechtfertigt aber die Verwendung der Allgemeinen Intelligenz zur Vorhersage des fächerspezifischen Schulerfolgs. Wäre es nicht möglich gewesen den Generalfaktor zu extrahieren hätte man untersuchen müssen, ob sich die verschiedenen Bereiche der Intelligenz unterschiedlich stark auf die einzelnen Fächer auswirken. Als Al- 69 ternative kommt eine zweifaktorielle Lösung in Betracht. Hier beinhaltet der erste Faktor Subtests, die eine Erkennung von Gesetzmäßigkeiten erfordern und wegen dem zeitlichen Limit eine hohe Verarbeitungsgeschwindigkeit voraussetzen. Dagegen lädt der zweite Faktor auf Wortschatz-relevante Aufgaben und beinhaltet eine hohe Wissenskomponente. Diese Struktur entspricht der Differenzierung zwischen Fluider und Kristalliner Intelligenz und konnte in etlichen wissenschaftlichen Arbeiten nachgewiesen werden. #Quelle Dass meine Analysen diese Befunde bestätigen spricht für die Validität und die Zusammenstellung der Intelligenzskalen. Der eingesetzte Fragebogen AVT hat nicht die erwartete Struktur. Bei zwei der vier Fächern kann die Eindimensionalität auf Schulfachebene faktorenanalytisch nicht bestätigt werden. Auch die eingesetzte Gitterversion des AVTs weist nicht die erwartete vierfaktorielle Struktur auf, die Fächer bilden hier keine separaten Faktoren. Damit passt der AVT nicht in das Konzept, da keine fächerspezifische Anstrengungsvermeidung nachgewiesen werden konnte. Somit wird der AVT nicht zur Vorhersage des Schulerfolgs herangezogen und findet in dieser Arbeit keine weitere Beachtung. Die übrigen Motivationsskalen lassen sich einzeln analysiert, sowohl bei schulbezogener, als auch bei fächerspezifischer Betrachtungsweise jeweils über einen einzigen Faktor erklären. Die Eindimensionalität der Skalen belegt nicht das Vorliegen eines übergeordneten allgemeinen Selbstkonzepts, (eines globalen Interesses, usw.) ist allerdings eine notwendige Voraussetzung hierfür. In anderen Studien wurde insbesondere das Selbstkonzept hinreichend untersucht, so dass die hierarchische Struktur als gesichert gilt. #Quelle Die separate Analyse der einzelnen Motivationsskalen auf Schulfachebene lässt eine vierfaktorielle Lösung erkennen, wobei ein Schulfach je einen Faktor bildet. Bei der Skala Furcht vor Misserfolg lässt sich die eben beschriebene Struktur nicht mit einer explorativen Faktorenanalyse finden, wohl aber durch eine konfirmatorische Faktorenanalyse bestätigen. Somit konnte für jede Skala (außer beim AVT) die fächerspezifische Struktur belegt werden. Dies ist eine notwendige Grundvoraussetzung, um eine Vorhersage des Schulerfolgs auf Fachebene zu legitimieren. Die Motivationsskalen lassen sich faktorenanalytisch in zwei inhaltliche Bereiche aufteilen: Interesse, Selbstkonzept und Hoffnung auf Erfolg bilden den ersten Faktor, während 70 die Skala Furcht vor Misserfolg den zweiten Faktor darstellt. Dieser Befund gilt für allgemein auf die Schule bezogene Skalen, hat aber auch bei fächerspezifischer Betrachtungsweise seine Gültigkeit. Der erste Faktor beschreibt die intrinsische Motivation und die positive Einstellung und Erwartungshaltung dem Fach gegenüber. Man beschäftigt sich mit dem Fach, weil man Spaß an der Thematik hat und in dem Fach ein positives Selbstbild unterhält. Furcht vor Misserfolg hingegen beinhaltet die negativen Emotionen die einen dazu bringen, sich mit dem Schulstoff auseinanderzusetzen. Man arbeitet, um der Bestrafung in Form einer schlechten Note zu entgehen. Macht diese Aufteilung Sinn? #Quelle 6.3 Vorhersage des Schulerfolgs Die Schulnote als Regressand Das Hauptziel der Studie liegt in der Vorhersage des Schulerfolgs über verschiedene kognitive und motivationale Variablen. Dabei werden die Schulnoten des letzten Schul(halb)jahres als Indikatoren für den Schulerfolg genutzt. Natürlich stellt sich die Frage, inwiefern diese Lehrerbeurteilung ein valides Maß für die Schulleistung darstellt. Kritisch kann man argumentieren, dass Lehrer ihre Schüler nicht objektiv beurteilen, und dass Schulleistungstests besser differenzieren und eine höhere Reliabilität besitzen. All das ändert jedoch nichts an der praktischen Relevanz von Schulnoten. Sie sind das Maß, nach denen die Leistung der Schüler beurteilt wird und mit denen sie sich nach Beendigung der Schulzeit bewerben. Ein weiterer spezifischer Vorteil der Schulnoten für diese Untersuchung ist neben der hohen Ökonomie die Abhängigkeit vom klasseninternen Bezugsrahmen (zitiert nach Rost & Sparfeldt, 2002, S. 132). Dies ist hochgradig relevant, da die motivationalen Variablen ebenfalls vom Klassenverband beeinflusst werden, und die Klasse somit als Moderatorvariable fungiert. #Quellen Gemäß den Dimensionsanalysen werden die erhobenen Daten in drei Blöcke aufgeteilt und zur Vorhersage der Schulleistung verwendet: Die verschiedenen Leistungs- bzw. Intelligenztests (LT) werden zu einem Generalfaktor zusammengefasst. Die Konstrukte Selbstkonzept, Interesse und Hoffnung auf Erfolg (SIHE) werden als weiterer Block in Regressionanalysen aufgenommen, die Skala Furcht vor Misserfolg bildet (FM) eine eigene Prädiktorvariable. # 71 Fächerspezifische Fragestellung Über die differenzierte Betrachtung der verschiedenen Schulfächer erhoffte ich mir eine bessere Vorhersageleistung, als bei einer allgemein Schulbezogenen Fragestellung. Geht man von einer hierarchischen Struktur der motivationalen Skalen aus erscheint es logisch, dass man auf einer niedrigen Hierarchieebene bei spezifischer Fragestellung präzisere Antworten erhält, als bei global formulierten Fragen. Bei drei der vier Schulfächern ließ sich die erwartete Verbesserung der Vorhersageleistung beobachten. Dies entspricht den Untersuchungen von #Quellen Im Fach Deutsch ist die Vorhersageleistung der Prädiktorvariablen hingegen geringer als bei Schulbezogener Fragestellung. Das liegt hauptsächlich daran, dass der wichtige Block SIHE weniger Varianz aufklärt, als in den anderen Fächern. Eine mögliche Erklärung für dieses Phänomen wäre, dass die inhaltlichen Bereiche des Deutschunterrichts mit verschiedenen Lektüren und Themenschwerpunkten eine hohe Varianz aufweisen. So ist es vorstellbar, dass es kein Konstrukt „globale Motivation im Fach Deutsch“ gibt, sondern dass die Motivation der Schüler themenabhängig variiert. Jemand, der zum Beispiel Interesse an einer bestimmten Lektüre zeigt, muss nicht unbedingt Gefallen an Gedichtinterpretationen finden. 6.4 Anteile spezifischer und konfundierter Varianz Im Vorfeld der Untersuchung bin ich davon ausgegangen, dass die Allgemeine Intelligenz die höchste prädiktive Kraft besitzt, während das Selbstkonzept und die anderen motivationalen Variablen inkrementell zur Varianzaufklärung beitragen. Diese Erwartung wird weder bei schulbezogener, noch bei fächerspezifischer Betrachtungsweise erfüllt. Der Block SIHE leistet durchgehend den mit Abstand größten Beitrag zur Vorhersage des Schulerfolgs, während die Intelligenz inkrementell zur Varianzaufklärung beiträgt. Die prädiktive Kraft der Skala Furcht vor Misserfolg lässt sich (außer im Fach Deutsch) statistisch signifikant nachweisen, ist jedoch so gering, dass sie praktisch keine Bedeutung hat. Analyse des Blocks SIHE Als größte prädiktive Kraft verdient der Block SIHE besondere Aufmerksamkeit. Um herauszufinden, welche der drei enthaltenen Motivationsskalen am meisten spezifische Vari- 72 anz aufklärt, rechnete ich erneut hierarchische Regressionsanalysen nach dem bekannten Schema. Diesmal fungierten die Motivationsskalen Selbstkonzept, Interesse und Hoffnung auf Erfolg als eigenständige Prädiktorvariablen für den Schulerfolg. Das Ergebnis war in allen Fächern eindeutig: Die aufgeführten motivationalen Skalen überlappen sich inhaltlich und ziehen etwa 50 Prozent der Vorhersagekraft aus ihre gemeinsamen Varianz. Die zweite Hälfte stammt aus der spezifischen Varianz der Skala Selbstkonzept, während die spezifische Varianz von Interesse und Hoffnung auf Erfolg praktisch keine Bedeutung hat. Bei Schulbezogener Betrachtungsweise verändert sich das Verhältnis von spezifischer zu gemeinsamer Varianz auf Vier zu Eins. #Anhang Diese Daten zeigen, dass die entsprechende Faktorenanalyse Recht mit dem Vorschlag hatte, die drei Skalen zu einem einzigen Block zusammenzufassen. Interesse und Hoffnung auf Erfolg tragen in den meisten Fächern inkrementell zur Varianzaufklärung bei. Ihre spezifische Varianzaufklärung ist jedoch so gering, dass praktisch kein Nutzen daraus gezogen wird. Wir können also festhalten, dass die Skala Selbstkonzept die mit Abstand beste Vorhersage der Schulleistung ermöglicht, weit vor den anderen motivationalen Skalen oder der Allgemeinen Intelligenz. Analyse der Skala Selbstkonzept Dieser Befund ist umso erstaunlicher wenn man bedenkt, dass die verwendete Version des Disk-Gitters auf fünf Items reduziert wurde. Wie kann man diese Gegebenheit erklären? Ein Blick auf die Formulierung der Items zeigt, dass sich zwei Items direkt auf die Leistung in der Schule beziehen. Die Aussage „In [der Schule] fallen mir gute Noten zu“ beinhaltet implizit die Einschätzung der eigenen Schulnote, während das Item „Ich gehöre in [der Schule] zu den Guten“ die eigene (Schul-)Leistung mit denen der Klassenkameraden in Beziehung setzt. Einerseits lässt sich argumentieren, dass diese Items den Schüler dazu bringen seine Leistung im Klassenverbund einzuschätzen, und so über den sozialen Vergleich ein realistisches Selbstbild (bzw. Fächerspezifisches Selbstkonzept) erhält, das mit dem Fragebogen erfasst wird. Bei kritischer Betrachtung lässt sich feststellen, dass diese zwei Aussagen in inhaltlichem Zusammenhang zur Schulnote stehen. Demnach fragt man mit diesen beiden Items indirekt nach dem Regressanden, was die hohe Korrelation (r < -.6) als einen banalen Zusammenhang erscheinen lässt. Um dieser Vermutung nachzugehen rechnete ich abermals eine hierarchische Regressionsanalyse. Dabei bildeten die auf Klassenebene z-standardisierten Werte der beiden kritischen Items (Nummer 3 und 4) 73 einen eigenständigen Block, während die restlichen Items (Nummer 1, 2 und 5) zu einer Gruppe zusammengefasst wurden. Die anschließende Kommunalitätenanalyse der beiden Blöcke deckt auf, dass die beiden leistungsbezogenen Items 3 und 4 zusammen etwa ein Drittel (bis zu 35 Prozent) der aufgeklärten Varianz spezifisch vorhersagen. Der spezifische Varianzanteil der anderen Items ist so gering, dass er zu vernachlässigen ist, während der gemeinsame Varianzanteil der Prädiktorblöcke zwei Drittel (über 64 Prozent) der aufgeklärten Varianz ausmacht. Die Ergebnisse der Regressionsanalysen sind im Anhang A# aufgelistet, die Aufschlüsselung der Kommunalitäten befindet sich unter A#. Zusammenfassend lässt sich festhalten, dass die leistungsbezogenen Items den größten Anteil der spezfischen Varianz auf sich vereinen, der Anteil der gemeinsamen Varianz aber etwa doppelt so hoch liegt. Damit wäre bewiesen, dass die Vorhersagekraft der Skala Selbstkonzept inkrementell über die leistungsbezogenen Items gesteigert wird und die hohe prädiktive Kraft der Skala zum Teil von diesen Items herrührt. Aber selbst ohne diese Items bleibt die Skala Selbstkonzept die beste Prädiktorvariable der in dieser Studie erfassten kognitiven und motivationalen Komponenten. Aufgeklärte Varianz 47.9 Spezifitäten Prädiktoren gemeinsam 15 SIHE 79 LT 5 Spezifitäten Block SIHE gemeinsam ~50 SK 50 IHE ~0 Spezifitäten Selbstkonzept gemeinsam 64 Leistungsbezogen 35 Rest 1 FM 1 Abbildung 6.1 - Schulbezogen: Hierarchische Aufschlüsselung von Spezifitäten und Kommunalitäten# Allgemeine Intelligenz Die Enge des Zusammenhangs zwischen Schulleistung und Intelligenz variiert in verschiedenen Studien sehr stark, abhängig von der Auswahl der Verfahren, sowie Alter, Geschlecht und internierenden Persönlichkeitsvariablen der Versuchspersonen (Sauer & 74 Gamsjäger, 1996). In der Literatur (Sauer, 2006) wird beschrieben, dass Intelligenztests zwischen 25 und 45 Prozent der Schulleistungsvarianz aufklären, wobei die Korrelation zu sprachlichen und naturwissenschaftlichen Fächern in der Sekundarstufe bei r = .3 liegt #Quelle. In der vorliegenden Studie fallen die Zusammenhänge für die Fächer Deutsch und Physik deutlich kleiner aus. Wie lässt sich erklären, dass der Zusammenhang zwischen Schulerfolg und Allgemeiner Intelligenz in dieser Studie so gering ist? Die Schulleistung wird stärker von der Kristallinen, als der Fluiden Intelligenz beeinflusst. #Quelle Die Kristalline Intelligenz beschreibt Leistungen, die auf Sprachverständnis und erfahrungsgeleitetem Sachwissen beruhen. Bei der vorliegenden Studie konnte ich faktorenanalytisch zeigen, dass nur zwei der sieben Aufgabengruppen auf dem Faktor Kristalline Intelligenz laden. Diese beiden Subtests beinhalten verbales Material, während bei den restlichen Aufgabengruppen logische, mathematische, sowie räumliche Aspekte der Intelligenz erfasst werden. Gaedike weist (1974, zitiert nach Sauer & Gattringer, 1986) darauf hin, „…dass längst nicht alle kognitiven Faktoren für Erfolg in der Schule garantieren. Es kommt also nicht darauf an, intelligent oder gar kreativ zu sein, sondern bevorzugt werden Schüler, die in ganz bestimmter Weise intelligent sind (vorwiegend verbal).“ Durch eine andere Zusammenstellung der Subtests mit dem Schwerpunkt auf verbalen Komponenten könnte sich demnach die Vorhersageleistung der Intelligenz verbessern. Die Erhebung wurde an Gymnasien und somit an einer selektiven Stichprobe durchgeführt. Es ist davon auszugehen, dass die durchschnittliche Intelligenz der Gymnasialschüler über dem Populationsmittelwert liegt und somit die Varianz eingeschränkt ist. Hätte die Untersuchung an Schülern einer Gesamtschule stattgefunden, wäre mit einer höheren Vorhersageleistung der Allgemeinen Intelligenz zu rechnen. 6.5 Bezug zu vergleichbaren Studien ### Der positive Zusammenhang zwischen Selbstkonzept und dem Schulerfolg konnte auch in anderen Studien nachgewiesen werden. Helmke und Weinert schreiben zu diesem Zusammenhang (1997, S. 113): „Er ist umso stärker, je älter die Schüler sind und je höher das Fähigkeitsniveau ist.“ # Nach Helmke und Weinert (1997) liegt der durchschnittliche Zusammenhang zwischen Interesse und Schulleistung bei r = .41 und nimmt im Laufe der Schulzeit zu (#S.). 75 Die Korrelationen fallen besonders hoch aus, wenn die Daten bereichsspezifischer erhoben werden, und wenn anstelle von Tests Schulnoten und Lehrerurteile herangezogen werden (Helmke & van Aken, 1995). Nach diesen Informationen ist mit einer hohen Vorhersageleistung des Selbstkonzepts in der vorliegenden Studie zu rechnen. #Vergleich mit der Spinath-Studie? Wie ist die prädiktive Kraft der genutzten Variablen zu bewerten? Nach dem Modell von #quelle wirken zur Vorhersage des Schulerfolgs Wenn man bedenkt, dass zur Vorhersage der Schulleistung lediglich individuumsspezifische Faktoren genutzt wurden, Die aufgeklärte Gesamtvarianz (von etwa 50 Prozent) für das Kriterium Schulnoten entspricht bei meiner Studie den Ergebnissen der Untersuchung von Sauer & Gattringer (1986). 76 7 Grenzen und Stärken der Studie Bei der Stichprobengewinnung lässt sich kritisieren, dass die teilnehmenden Klassen nicht zufällig ausgewählt, sondern von der Schulleitung zugewiesen wurden. Dies geschah auf Basis von praktischen und organisatorischen Überlegungen. Ausschlaggebend war beispielsweise, welche Klasse an dem angefragten Termin eine Doppelstunde hatte, oder gerade nicht an einem Schüleraustausch beteiligt war. Obwohl durch diese Faktoren eine gewisse Randomisierung gegeben ist kann man nicht ausschließen, dass die Schulleiter mir „Musterklassen“ zuwiesen, um im Vergleich mit den anderen Gymnasien gut dazustehen. Diese Problematik lässt sich umgehen, indem man die gesamte Population einer Jahrgangsstufe der teilnehmenden Gymnasien testet. Dies war mir leider nicht flächendeckend möglich, da die meisten Schulen aufgrund des Unterrichtsausfalls nur wenige Klassen zur Verfügung stellten. Die allgemeine Schulleistung wurde aus den Noten von vier (Haupt-) Fächern berechnet. Es wurde versucht, je ein Fach der wichtigsten akademischen Bereiche in die Studie einzubeziehen, um auch mit einer geringen Anzahl an Fächern eine gute Validität zu erreichen: Die Leistungen aus Mathematik, Deutsch (als Muttersprache), Physik (als ein naturwissenschaftliches Fach) und Englisch (als die erste Fremdsprache) wurden in der Studie berücksichtigt. Man kann davon ausgehen, dass Schüler mit einer sprachlichen oder naturwissenschaftlichen Begabung gleichermaßen gut abschneiden. Dagegen nimmt die Untersuchung keine Notiz von Nebenfächern, so dass gute Leistungen in den Geisteswissenschaften oder im musikalisch-künstlerischen Bereich keine Beachtung finden. Man muss davon ausgehen, dass diese Fächer dennoch eine Rolle bei der Ausbildung des fächerübergreifenden „akademischen“ Selbstkonzepts spielen. Die Folge daraus ist, dass die wahre Vorhersageleistung des schulbezogenen Selbstkonzepts in dieser Studie unterschätzt wird. Im Hinblick auf weiterführende Untersuchungen bietet sich zunächst ein Vergleich mit Schülern aus Real- und Hauptschule an. Eine entsprechende Studie kann Auskunft darüber geben, ob sich die Ergebnisse auf andere Schulformen übertragen lassen. Es wäre interessant zu beobachten, ob mit der Verschiebung der Intelligenzverteilung eine Veränderung der prädiktiven Kraft der Allgemeinen Intelligenz einhergeht. 77 Ein interessantes Projekt wäre zu untersuchen, inwiefern man die Vorhersageleistung der Intelligenz verbessern kann. Dabei bietet sich die faktorenanalytische Zerlegung der Allgemeinen Intelligenz in verschiedene Bereiche auf Grundlage des zu bearbeitenden Materials an. Diese Unterteilung ist insofern sinnvoll da man erwartet, dass die Schüler in naturwissenschaftlichen Fächern mehr von mathematischen und räumlichen kognitiven Fähigkeiten profitieren. Dagegen sollte der Erfolg in lernlastigen Fächern stärker auf verbalen kognitiven Fähigkeiten, bzw. Kristalliner Intelligenz basieren. Ich kann mir vorstellen, dass eine weitergehende Strukturanalyse und die daraus resultierende Zerlegung der Intelligenz in „fächerspezifische“ Bereiche einen zusätzlichen Gewinn bringt. Das Berliner Intelligenzstrukturmodell würde sich aufgrund der Unterteilung in Materialarten und „Leistungsklassen“ gut eignen. Allerdings setzt dies voraus, dass man Kenntnis darüber besitzt, welche Fächer von welchen spezifischen Bereichen der Intelligenz profitieren. Im vorherigen Abschnitt wurde diskutiert, inwiefern die Formulierung der Items für die prädiktive Kraft des Selbstkonzepts verantwortlich ist. Man kann an der Studie kritisieren, dass zumindest zwei der fünf Aussagen inhaltlich in direkter Beziehung zur Schulnote stehen und somit ein ganz banaler Zusammenhang gemessen wurde. Dieser Kritikpunkt ist nicht unberechtigt, könnte aber in einer weiteren Studie überprüft werden. Dazu müsste man erneut die in dieser Studie verwendeten Verfahren durchführen, anstelle der Schulnote aber das Ergebnis eines Schulleistungstests als Regressanden verwenden. Meine Untersuchung beschäftigt sich lediglich mit den linearen Zusammenhängen der Variablen, lässt jedoch keinen Rückschluss auf ihre Kausalität zu. Dabei wäre in Anbetracht der großen Vorhersageleistung des Selbstkonzepts die Frage wichtig, wie sich Schulerfolg und Fähigkeitsselbstkonzept gegenseitig bedingen. Hat das Selbstkonzept der Schüler primär Einfluss auf ihre Schulleistung, oder entwickelt sich aus der Rückmeldung der Lehrer in Form von Schulnoten ein fächerspezifisches Selbstkonzept? Eine Längsschnittuntersuchung ist enorm aufwendig, könnte diese Fragestellung aber beantworten. Mit einer Längsschnittstudie ließe sich ebenfalls untersuchen, wie sich die Anteile kognitiver und motivationaler Determinanten im Verlauf der Schulzeit verschieben. Es existieren 78 bereits Studien, die unterschiedliche Bereiche einzeln untersuchen, jedoch auf Basis von Querschnittdaten. #? Will man aber den kontextuellen Zusammenhang erkennen und sehen, wie sich die Variablen gegenseitig beeinflussen, ist eine Individuumsspezifische Betrachtungsweise erforderlich. Studien haben gezeigt, dass sich das Geschlecht auf Selbstkonzept und Interesse auswirkt, sowie deren Einfluss auf die Schulleistung moderiert. Zum Beispiel schreiben Helmke und Weinert (1997) dem Interesse bei Jungen eine höhere Bedeutung zu als bei Mädchen. Da insbesondere das Selbstkonzept in dieser Studie eine große prädiktive Kraft darstellt liegt die Vermutung nahe, dass das Geschlecht als Moderatorvariable die Vorhersage des Schulerfolgs beeinflusst. Mir ging es in der vorliegenden Untersuchung nicht darum, geschlechtsspezifischen Gruppenvergleiche anzustellen. Aufgrund der neu gewonnenen Erkenntnisse erscheint es jedoch sinnvoll, der Rolle des Geschlechts bei der Vorhersage des Schulerfolgs mehr Beachtung zu schenken. #zusammenfassung #Hervorhebung der Stärken 79 8 Zusammenfassung Ziel der Studie war die Vorhersage des Schulerfolgs in Form von Schulnoten über verschiedene kognitive und motivationale Variablen. Dabei wurde auf Schulfachebene differenziert und die Anteile spezifischer und gemeinsamer Vorhersagekraft ermittelt. Die Allgemeine Intelligenz wurde mit ausgewählten Subtests aus dem Leistungsprüfsystem (LPS), dem Intelligenz-Struktur-Test (IST), sowie dem Zahlenverbindungstest (ZVT) erfasst. Die Fragebögen der Motivationsskalen wurden jeweils auf wenige Items gekürzt, auf ein sechsstufiges Antwortformat und in eine Gitterform gebracht. Die Aussagen waren auf die Fächer Mathematik, Deutsch, Physik und Englisch, sowie allgemein auf die Schule bezogen. Zur Erfassung des Selbstkonzepts wurde das DISK-Gitter herangezogen. Ferner wurden das Interessengitter und der Anstrengungsvermeidungstest (AVT) eingesetzt. Die Konstrukte Hoffnung auf Erfolg und Furcht vor Misserfolg wurden mit einer deutschen Form der Achievement Motives Scale (AMS) untersucht. Die Stichprobe bestand aus 1084 Schülern der Jahrgangsstufe 9 und 10 mit einem durchschnittlichen Alter von 15.3 Jahren an Gymnasien in Hessen und Baden-Württemberg. Aus den Subtests zur Bestimmung der Intelligenzleistung lässt sich erwartungsgemäß der g-Faktor extrahieren. Bei den Motivationsskalen wurde die vorausgesetzte hierarchische fächerspezifische Struktur faktorenanalytisch bestätigt. Außer beim AVT, der aus diesem Grund nicht in die Regressionsanalysen einbezogen wurde, sind die SelbstkonzeptFassetten der Schulfächer als einzelne Faktoren zu erkennen. Die Prädiktorvariablen klären bei schulbezogener 48, bei fächerspezifischer Betrachtungsweise zwischen 39 und 53 Prozent der Varianz der Schulnoten auf. Das Selbstkonzept ist in allen Bereichen der mit Abstand beste Prädiktor. Etwa die Hälfte der Varianzaufklärung erfolgt allein über seinen spezifischen Anteil. Zusammen mit den kumulierten Varianzanteilen von Interesse und Hoffnung auf Erfolg wird je nach Fach zwischen 72 und 88 Prozent der Varianz aufgeklärt. Der spezifische Varianzanteil der Allgemeinen Intelligenz liegt zwischen 2.6 und 5.4 Prozent. Die Motivationsskalen überlappen sich inhaltlich, was in einem großen Anteil an gemeinsamer Varianz zum Ausdruck kommt. Sie tragen inkrementell zur Varianzaufklärung bei, ihr spezifischer Anteil ist neben dem Selbstkonzept jedoch so gering, dass er keine praktische Bedeutung hat. 80 9 Literaturverzeichnis# 10 Inhaltsindex#