Studierendenauswahl im Fach Psychologie: Testentwicklung und Validitätsbefunde Kurztitel: Studierendenauswahl im Fach Psychologie Maren Formazin1, Ulrich Schroeders2, Olaf Köller3, Oliver Wilhelm2, Hans Westmeyer4 1Institut zur Qualitätsentwicklung im Bildungswesen, Humboldt-Universität zu Berlin 2Institut für Psychologie, Universität Duisburg-Essen 3Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Kiel 4Fachbereich Erziehungswissenschaft und Psychologie, Freie Universität Berlin Korrespondenzanschrift: Maren Formazin Humboldt-Universität zu Berlin Institut zur Qualitätsentwicklung im Bildungswesen (IQB) Unter den Linden 6 10099 Berlin Email: [email protected] Zusammenfassung: Die internationale Forschung im Bereich der Hochschulzulassung zeigt eindrücklich, dass Leistungstests gute Prädiktoren der späteren Studienleistung sind und inkrementelle Validität über Schulnoten hinaus aufweisen. An deutschen Hochschulen ist der Einsatz standardisierter Leistungstests jedoch nach wie vor die Ausnahme. In der vorliegenden Arbeit schildern wir die Entwicklung und Validierung einer Testbatterie für die Zulassung von Psychologiestudierenden an deutschen Hochschulen. Im Rahmen der Testung von 1187 Bewerberinnen und Bewerbern für die Vergabe von 60 Studienplätzen prüfen wir mit Strukturgleichungsmodellen und Regressionsanalysen die prädiktive und inkrementelle Validität der neuen Testbatterie. Neben einem allgemeinen Faktor für das schlussfolgernde Denken kann auf der Prädiktorseite ein zweiter, geschachtelter Faktor für relevantes Vorwissen etabliert werden. Beide latente Faktoren tragen nennenswert zur Vorhersage der Studienleistungen bei. Die Ergebnisse unterstützen nachdrücklich die Forderung, bei der Zulassung zu Studiengängen mit hohem Bewerberandrang Leistungstests einzusetzen. Neben schlussfolgerndem Denken verdient das relevante Vorwissen besondere Beachtung. Schlüsselwörter: Hochschulzulassung, schlussfolgerndes Denken, Wissen, Studienleistungen Title: Student selection for psychology: Test development and predictive validity Abstract: International research in the field of college admission unequivocally demonstrates that achievement and ability tests are adequate predictors of subsequent graduate and undergraduate grade point average and that they are incrementally valid over and above high school grade point average. Nevertheless, German universities rarely use standardized ability and achievement tests for admission purposes. Here we describe the development and validation of a test battery for admission to psychology programs at German universities. In the context of selecting 1,187 applicants for 60 university places, we use regression analysis and structural equation modelling to investigate predictive and incremental validity of the new test battery. In addition to a general factor for reasoning ability, a second, nested factor for relevant prior knowledge can be established as a predictor. Both latent factors contribute substantially to the prediction of undergraduate grade point average. The results clearly support the use of ability and achievement tests for admission to degree programs with more applicants than available places. In addition to reasoning ability, relevant prior knowledge deserves close consideration. Key words: college admission, reasoning ability, knowledge, grade point average Im vorliegenden Artikel verfolgen wir zwei Ziele: Zunächst wollen wir über die Entwicklung einer Testbatterie berichten, die bei der Zulassung zum Psychologiestudium eingesetzt werden kann. Im Anschluss an diese Beschreibung soll anhand einer prospektiv angelegten Untersuchung gezeigt werden, inwiefern die Testbatterie geeignet ist, zukünftige Studienleistungen vorherzusagen. Wir beginnen die Verfolgung dieser beiden Ziele mit einer kurzen Darstellung der Zulassungsrahmenbedingungen an deutschen Universitäten im Allgemeinen und im Fach Psychologie im Besonderen und geben dann einen Überblick zu Validitätsbefunden für verschiedene Zulassungsmethoden, insbesondere zu Schulnoten und standardisierten Leistungstests. Angezeigt ist der Einsatz eines Zulassungsinstruments immer dann, wenn sich für einen Studiengang mehr Personen bewerben, als Studienplätze zur Verfügung stehen. Selektionsentscheidungen müssen besonders hohen Ansprüchen an ihre Validität gerecht werden, da abgelehnten Bewerbern durch diese Entscheidung die Möglichkeit verwehrt wird, im angestrebten Fach am bevorzugten Studienort ein Studium zu beginnen. Die Verwehrung der Zulassung hat einen Einfluss auf Möglichkeiten künftiger Erwerbstätigkeit und Gelegenheiten zur beruflichen Selbstverwirklichung. In der Mehrzahl der Studiengänge an deutschen Hochschulen, in denen es mehr Bewerber als Studienplätze gibt, erfolgte die Vergabe der meisten Studienplätze über die Durchschnittsnote der Hochschulzugangsberechtigung (HZB-Note). Dies galt auch für so genannte Numerus Clausus Fächer wie die Psychologie. Ein weiterer Teil der Studienplätze wurde an Studierende entsprechend ihrer Wartezeit vergeben (Deidesheimer Kreis, 1997, S. 19-20; vgl. auch Hochschulrahmengesetz (HRG), 2002). Für das Fach Psychologie gibt es seit vielen Jahren deutlich mehr Studieninteressierte, als Studienplätze an den Hochschulen zur Verfügung stehen. Seit dem Wintersemester 1990/1991 schwanken die Bewerberzahlen zwischen dem drei- bis vierfachen der vorhandenen Studienplätze (Zentralstelle für die Vergabe von Studienplätzen [ZVS], 2009). In diesen Zahlen ist noch nicht berücksichtigt, dass Personen auf eine Bewerbung verzichteten, weil sie diese unter den genannten Zulassungsbedingungen als aussichtslos ansahen. Durch die Änderung des Hochschulrahmengesetzes (Siebtes Gesetz zur Änderung des Hochschulrahmengesetzes (7. HRGÄndG), 2004) wurden die Hochschulen verpflichtet, 60 % ihrer Studienplätze an Bewerber auf der Basis eines Auswahlverfahrens zu geben. Als Auswahlinstrumente muss dabei auf die HZB-Note zurückgegriffen werden, weiterhin können gewichtete Einzelnoten, Berufsausbildung oder –erfahrung, Ergebnisse eines Gesprächs und fachspezifische Studierfähigkeitstests einzeln oder gemeinsam berücksichtigt werden. Die Bundesländer spezifizieren diese Rahmenbedingungen geringfügig verschieden. Im Folgenden beurteilen wir die Vorhersagegüte der zulässigen Verfahren und wägen ihren Einsatz im Rahmen der Hochschulzulassung ab. Losverfahren und Wartezeit Bei einer Zufallsauswahl per Los haben alle Bewerber die gleiche Möglichkeit, einen Studienplatz zu erlangen. Als Auswahlinstrument, das die zu erwartenden Studienleistungen maximieren soll, ist das Losverfahren weder sachgerecht noch wissenschaftlich vertretbar, da es implizit unterstellt, alle Bewerber seien gleich gut oder schlecht geeignet. Die Studienplatzvergabe über das Kriterium Wartezeit ermöglicht die Einhaltung des Grundrechts auf freie Bildungswahl. Jedoch schnitten Studierende im Medizinstudium, die aufgrund sehr hoher Wartezeiten zugelassen wurden, schlechter ab als ihre Kommilitonen, die aufgrund guter Testleistungen, HZB-Note oder eines Auswahlgesprächs für das Studium zugelassen wurden: Sie legten ihre Prüfungen später ab, bestanden sie seltener und erbrachten im Mittel schlechtere Leistungen (Trost et al., 1998). Vorauslaufende Erfahrungen und Expertise Die Verwendung von Berufsausbildung oder –erfahrung als Auswahlkriterium ist in der praktischen Umsetzung kaum möglich, da es sachlich schwer zu begründen ist, welche Formen der Tätigkeit auf welche Weise berücksichtigt werden sollen. Hinzu kommt, dass unter den Bewerbern im Fach Psychologie nur wenige Personen über einschlägige Erfahrungen verfügen. Der Erwerb einschlägiger Erfahrungen verzögert zudem meist die Aufnahme eines Studiums. Interviews Auswahlgespräche sind bei der Zulassung zum Studium an öffentlichen Hochschulen in Deutschland bislang wenig verbreitet (Heine, Briedis, Didi, Haase & Trost, 2006). Häufig werden Interviews in unstrukturierter Form durchgeführt, so dass sie nicht ausreichend objektiv und zuverlässig sind. Daher ist es nicht überraschend, dass sich metaanalytisch auch nur eine geringe Vorhersagekraft von Auswahlgesprächen für die spätere Studienleistung zeigte (Hell, Trapmann, Weigand & Schuler, 2007). Der Einsatz von Auswahlgesprächen bei der Zulassung zu sehr nachgefragten Studienfächern wäre auch organisatorisch kaum zu bewältigen, da sie personell und zeitlich sehr aufwändig sind. Daher wurden Interviews häufig nur für eine vorselektierte Gruppe von Bewerbern eingesetzt, wie es bspw. bei der Zulassung zum Medizinstudium im Rahmen des „Besonderen Auswahlverfahrens“ der Fall war (vgl. Trost et al., 1998). Dennoch werden Auswahlgespräche von vielen Studienbewerbern als positiv bewertet, weil sich in einem Auswahlgespräch die Möglichkeit des direkten Austausches mit Vertretern der Hochschule ergibt. Dies wird als Chance wahrgenommen, die eigene Persönlichkeit besser darstellen zu können (Deidesheimer Kreis, 1997). Auch bei einer Befragung von Studierenden, nach welchen Verfahren sie gern ausgewählt würden, rangierten strukturierte, anforderungsbezogene Interviews zusammen mit den Schulnoten an zweiter Stelle nach Studierfähigkeitstests (Hell & Schuler, 2005). HZB-Note Für die in Deutschland bislang vorrangig zur Studierendenauswahl eingesetzte HZB-Note zeigte sich metaanalytisch, dass sie die spätere Studienleistung mit r = .31 (Trapmann, Hell, Weigand & Schuler, 2007) bzw. r = .35 (Schuler, Funke & Baron-Boldt, 1990) recht gut vorhersagen konnte. Nach Korrekturen für die Unreliabilität des Kriteriums und die Varianzeinschränkungen stiegen diese Werte auf rcorr = .52 (Trapmann et al., 2007) bzw. rcorr = .46 (Schuler et al., 1990). Diese Ergebnisse gelten auch für das Fach Psychologie: Steyer, Yousfi und Würfel (2005) berichteten eine unkorrigierte Korrelation von r = .28 zwischen HZB-Note und Diplomnote an der Universität Jena, Schmidt-Atzert (2005) eine unkorrigierte Korrelation von r = .37 zwischen HZB-Note und Vordiplomnote an der Universität Marburg. Die Abiturnote stellt ein Kompositum der Leistung in allen Schulfächern dar und schließt sowohl mündliche als auch schriftliche Leistungen ein. Die in sie einfließenden Noten stellen Beurteilungen mehrerer Lehrer über einen Zeitraum von zwei Jahren dar. Internationale Befunde ergeben ein ähnliches Bild. Für Varianzeinschränkung korrigierte Korrelationen aus Validitätsuntersuchungen lagen bei rcorr = .54 (N = 48039; Bridgeman, McCamley-Jenkins & Ervin, 2000; N = 151316; Kobrin, Patterson, Shaw, Mattern & Barbuti, 2008) bzw. rcorr = .59 (N = 42985; Ramist, Lewis & McCamley-Jenkins, 2001) zwischen der Schulabschlussnote und der durchschnittlichen Studiennote nach dem 1. Studienjahr. Die Verwendung der HZB-Note zur Studienzulassung ist gleichwohl zu problematisieren, da die HZB-Noten unterschiedlicher Bundesländer und Schultypen kaum vergleichbar sind (Köller, Watermann, Trautwein & Lüdtke, 2004). Damit ist die Fairness für einzelne Bewerber und Bewerbergruppen bei der Vergabe der Studienplätze auf der Basis der HZBNote in Frage gestellt, auch wenn die Vorhersage der Studienleistung trotz der geringen Vergleichbarkeit insgesamt gut gelingt. Um den Unterschieden zwischen den Bundesländern zu begegnen, wurden Länderquoten bei der Vergabe von Studienplätzen nach der HZB-Note eingeführt (Deidesheimer Kreis, 1997). Einige Ursachen der geringen Vergleichbarkeit bleiben davon jedoch unberührt. So ist es möglich, in der Sekundarstufe II einzelne Kurse abzuwählen bzw. sie nicht in die Gesamtnote einfließen zu lassen. Einzelne Kurse können in den meisten Bundesländern als Grund- bzw. Leistungskurse gewählt werden und fließen demnach in unterschiedlichem Ausmaß in die HZB-Note ein (Steyer et al., 2005). Auch Unterschieden, die sich durch strenge vs. milde Bewertungen verschiedener Lehrer ergeben, wird durch Länderquoten nicht begegnet. Einzelnoten In Einzelnoten sind deutlich weniger Informationen enthalten als in der HZB-Note. Darüber hinaus kommen in Einzelnoten Bewertungsunterschiede zwischen Lehrern deutlicher zum Tragen als in der HZB-Note. Daher wurde eine Gewichtung von Einzelnoten als wenig sinnvoll erachtet (Schmitt, 2005; Trost, 2005). Folgerichtig gelang durch Einzelnoten auch keine Verbesserung der Vorhersage späterer Studienleistungen über die HZB-Note hinaus (Steyer et al., 2005; Wedler, Troche & Rammsayer, 2008). Leistungstests Eine bewährte Methode für die Auswahl von Studierenden sind standardisierte Leistungstests, die im deutschen Sprachraum bisher eher selten eingesetzt wurden. Die intensivsten Erfahrungen mit dieser Methode liegen für den „Test für medizinische Studiengänge TMS“ vor, der von 1986 bis 1997 bei der Zulassung zu medizinischen Studiengängen deutschlandweit eingesetzt wurde. Mit dem TMS wurden in neun Untertests Fähigkeiten erfasst, welche für die erfolgreiche Bewältigung des Medizinstudiums als notwendig erachtet wurden. In Studien zur Evaluation wurden Korrelationen von r = .45 zwischen der Testleistung und der Note in der Ärztlichen Vorprüfung berichtet. Von besonderem Interesse ist, dass die Testleistung über die HZB-Note hinaus inkrementelle Varianz (.R² = .07) im Kriterium Studienleistung aufklären konnte (Trost et al., 1998; Trost, Klieme & Nauels, 1997). Hell, Trapmann und Schuler (2007) betrachteten in ihrer Metaanalyse die Validität von Leistungstests im Rahmen der Studierendenauswahl im deutschen Sprachraum. Die Mehrheit der von den Autoren berücksichtigten Studien bezog sich ebenfalls auf den TMS und wies eine hohe Vorhersagegüte, korrigiert für die Unreliabilität des Kriteriums und die Variabilitätseinschränkung, von rcorr = .51 für den Studiengang Humanmedizin aus. International werden Leistungstests sehr viel häufiger eingesetzt. Insbesondere in den USA ist dieser Einsatz auch wissenschaftlich hervorragend untersucht und es gibt eine Vielzahl von Validitätsuntersuchungen zur prädiktiven Validität dieser Tests. Bei der Auswahl für Bachelor-Studiengänge (Undergraduate Studies) kommen – neben der HZB-Note – an mehr als 3800 Colleges der SAT I und die SAT II: Subject Tests zum Einsatz (The College Board, 2010). Für die Zulassung zu Masterstudiengängen (Graduate Studies) werden in den USA an mehr als 3200 Institutionen neben der Abschlussnote des 1. Studienabschnittes (Undergraduate Grade Point Average, UGPA) ebenfalls allgemeine und bereichsspezifische Tests eingesetzt (GRE General und GRE Subject Tests; Educational Testing Service [ETS], 2010). Sowohl der SAT I als auch der GRE General Test erfassen schlussfolgerndes Denken mit numerischem und verbalem Material (Bridgeman et al., 2000; ETS, 2009), d. h. die Aufgaben sind nicht auf ein spezielles Curriculum bezogen und können in einer Vielzahl von Studiengängen zur Auswahl eingesetzt werden. Für die Vorhersage der Noten nach dem 1. Studienjahr wurden für den SAT I Validitätswerte, korrigiert für die Varianzeinschränkung in den Testleistungen, von rcorr = .52 (Bridgeman et al., 2000) bzw. rcorr = .53 (Kobrin et al., 2008) berichtet. Für den GRE General Test wurde in einer Metaanalyse mit den Daten von mehr als 80.000 Studierenden die Abschlussnote des Graduierten-Studiums durch den GRE vorhergesagt. Die für Varianzeinschränkung und die Unreliabilität des Kriteriums korrigierten Korrelationen lagen bei rcorr = .32 für den GRE General Test mit quantitativem Material und rcorr = .36 für den GRE General Test mit verbalem Material (Kuncel, Hezlett & Ones, 2001) bzw. bei rcorr =.37 für den GRE General Test Gesamtscore (Kuncel & Hezlett, 2007). Im Gegensatz zu den allgemeinen Leistungstests SAT I und GRE General Test erfassen die SAT II: Subject Tests und die GRE Subject Tests erworbenes Wissen in bestimmten Themenbereichen, bspw. Geschichte oder einer Fremdsprache, auf Schulabschlussniveau (SAT II; Ramist et al., 2001) bzw. in einem spezifischen Fach aus dem 1. Studienabschnitt, z. B. Chemie oder Psychologie (GRE Subject Tests; Kuncel et al., 2001). Die Vorhersagegüte dieser Verfahren ist ebenfalls positiv zu beurteilen. Sie lag für die SAT II: Subject Tests bei rcorr = .58 (Ramist et al., 2001) und für die GRE Subject Tests bei rcorr = .41 (Kuncel & Hezlett, 2007; Kuncel et al., 2001). Dass diese Befunde auch auf den Bereich der Psychologie übertragbar sind, lässt sich durch Analysen auf Ebene von Subdisziplinen zeigen. Die Vorhersagegüte des GRE für die Abschlussnote des Graduiertenstudiums in den Sozialwissenschaften, denen unter anderem auch die Psychologie zugeordnet wird, lag bei .34 = rcorr =.39 für die einzelnen Bereiche des GRE General Test und bei rcorr = .40 für die GRE Subject Tests (Kuncel et al., 2001). In einer älteren Metaanalyse berichteten Goldberg und Alliger (1992) eine lediglich nach Stichprobengröße gewichtete mittlere Korrelation von r = .29 zwischen der Leistung im GRE Psychology und der Abschlussnote des Graduiertenstudiums im Fach in Psychologie. Dieser Wert ist vergleichsweise gering; es ist allerdings davon auszugehen, dass die Leistung im GRE Psychology ein Kriterium der Auswahl der Studierenden darstellte, deren Daten in die Analysen einflossen. Demnach war die Varianz der Testleistung dieser Studierenden gegenüber der Varianz in der Bewerberstichprobe vermutlich eingeschränkt und die Autoren berichten keine Korrektur für die Variabilitätseinschränkung. Ähnlich wie bei den Befunden zum TMS in Deutschland war auch bei den in den USA eingesetzten Verfahren zur Studierendenauswahl eine inkrementelle Validität der Tests über die Schulabschlussnote gegeben. Für den SAT I lag sie bei .R² = .08 (Bridgeman et al., 2000) bzw. .R² = .09 (Kobrin et al., 2008) und für den SAT II bei .R² = .10 (Ramist et al., 2001). Durch die gemeinsame Berücksichtigung der HZB-Note und der Testleistung ließ sich die spätere Studienleistung präziser vorhersagen als durch die Verwendung nur eines Prädiktors. Die Befunde zur prädiktiven und inkrementellen Validität standardisierter Leistungstests sowie die oben berichtete Gesetzeslage bildeten die Grundlagen der von der Deutschen Gesellschaft für Psychologie (DGPs) gegründeten „Kommission Studierendenauswahl“, über deren Arbeit wir im nun folgenden Abschnitt berichten wollen. Kommission Studierendenauswahl Aufgabe der Kommission war es, eine Auswahlprozedur für die Zulassung zum Studium im Fach Psychologie zu empfehlen und eine darauf aufbauende Testentwicklung zu initiieren. Wir fassen zunächst die Ergebnisse der Arbeit der Kommission zusammen und stellen dann die auf den Empfehlungen basierende Testentwicklung dar. Die „Kommission Studierendenauswahl“ wurde im November 2004 von der DGPs als Reaktion auf die Änderung des HRG eingesetzt (DGPs, 2007). Die von der Kommission zu entwickelnde Auswahlprozedur sollte 1) die zukünftigen Studienleistungen der Bewerber möglichst präzise vorhersagen können, 2) den einzelnen Hochschulorten spezifische Lösungen innerhalb eines insgesamt bewährten Vorgehens erlauben und 3) den Anforderungen des HRG genügen. Die Kommission sprach sich nach ihren Beratungen für eine modular aufgebaute Testbatterie aus (DGPs, 2005b), in der mehrere Leistungstests kombiniert werden, deren Validität bei der Vorhersage der späteren Studienleistung empirisch abgesichert ist. Die einzelnen Module sollten verschiedene Fähigkeiten erfassen, die für ein erfolgreiches Absolvieren des Psychologiestudiums aus anforderungsanalytischer Sicht (Heckel & Rössler, 2005; Wetzenstein, 2004) günstig bzw. nötig sind: Schlussfolgerndes Denken sowie Mathematik-, Englisch- und Biologievorkenntnisse (DGPs, 2005a). Olaf Köller und Oliver Wilhelm vom Institut zur Qualitätsentwicklung im Bildungswesen wurden mit der Entwicklung von Tests zur Erfassung dieser Fähigkeiten beauftragt. Die DGPs unterstützte die Testentwicklung mit einer Anschubfinanzierung. Operationalisierung der Testbatterie Für die Tests zur Messung des schlussfolgernden Denkens wurde auf der Grundlage einer umfassenden Recherche (Carroll, 1993; Wilhelm, 2000) eine Reihe von Testverfahren in Betracht gezogen, die als besonders prototypische Instrumente gelten können. Bei der Festlegung auf Itemtypen für die drei Inhaltsbereiche verbal, numerisch und figural (Wilhelm, 2005) wurden jeweils diejenigen ausgewählt, bei denen es möglich ist, anhand einvernehmlich einschätzbarer Itemmerkmale neue Items mit vorhersehbaren Itemparametern zu generieren: Im numerischen Untertest sind Gleichungen so zu lösen, dass für alle in den Vorgaben enthaltenen Buchstaben die korrekten Zahlenwerte ermittelt werden, ohne dabei Notizen anzufertigen. Im verbalen Untertest „Propositionen“ ist aus mehreren Schlussfolgerungen diejenige auszuwählen, welche alle genannten Prämissen erfüllt. Im figuralen Untertest „Matrizen“ sind die Regeln zu erkennen und anzuwenden, nach denen Lage, Schraffur, Anzahl und Form geometrischer Figuren variieren. Beispielaufgaben sind in Tabelle 1 dargestellt. Die Verfahren zur Erfassung der Englisch-, Mathematik- und Biologiekenntnisse wurden so konstruiert, dass sie die Teilaspekte des jeweiligen Faches erfassen, die für das Psychologiestudium besonders relevant sind. Im Mathematiktest sind Aufgaben aus den Bereichen „Analysis und Funktionen“ sowie „Statistik und Stochastik“ zu lösen (vgl. TOSCA-Studie; Watermann, Nagy & Köller, 2004). Der Biologietest besteht aus deklarativen Wissensfragen zu psychologienahen Themen der Biologie wie Stoffwechsel, Nervensystem sowie Gedächtnis und Lernen, die anhand von Lehrbüchern der Abiturstufe entwickelt wurden. Der Englischtest ist ein Leseverstehenstest mit Testletstruktur, in welchem englischsprachige Verständnisfragen zu Originaltexten aus englischen Zeitschriften zu beantworten sind; das Niveau entspricht den Stufen B2 und C1 des Gemeinsamen Europäischen Referenzrahmens für Sprachen (Council of Europe, 2001). Zusätzlich zu den genannten Tests, deren Entwicklung auf den Empfehlungen der Kommission beruhte, wurde ein domänenspezifischer Verständnistest für das Studienfach Psychologie entwickelt. Der so genannte „Psychologieverständnistest“ ähnelt in seinen Anforderungen späteren Studienanforderungen: Er enthält Texte, die z. T. mit Abbildungen und Tabellen ergänzt wurden und den Charakter und das Niveau eines Einführungsbuches aufweisen. Die Texte behandeln Themen der sechs Grundlagenfächer der Psychologie (Allgemeine, Biologische und Differentielle Psychologie, Sozial- und Entwicklungspsychologie sowie Methoden der Psychologie). Im Test sind Verständnisfragen zu vorgegebenen Texten zu beantworten. --- bitte Tabelle 1 hier einfügen --Alle Tests wurden in mehreren Vorstudien erprobt und überarbeitet (Formazin et al., 2008; Kunina, Wilhelm, Formazin, Jonkmann & Schroeders, 2007; Schroeders & Wilhelm, in press; Wilhelm et al., 2006), so dass eine psychometrisch optimierte Testbatterie zusammengestellt werden konnte. FORSCHUNGSFRAGEN / HYPOTHESEN In der vorliegenden Arbeit wurden drei Forschungsfragen verfolgt. Als erstes war zu zeigen, dass die Einzeltests der Testbatterie psychometrische Erwartungen in Bezug auf Schwierigkeit, Trennschärfe und Reliabilität erfüllten. Wir gingen davon aus, dass den Tests jeweils eine eindimensionale Struktur zugrunde lag. Zum zweiten war die Struktur der gesamten Testbatterie in konfirmatorischen Messmodellen zu überprüfen. Die drei Tests "Gleichungen lösen", "Propositionen" und "Matrizen" sollten sich auf einen gemeinsamen Faktor "Schlussfolgerndes Denken" zurückführen lassen, da für alle drei Aufgabentypen ein Extrahieren von Informationen aus vorgegebenen Materialien und ein zueinander in Beziehung setzen dieser Informationen nötig ist, um die Aufgaben lösen zu können. Dieser Faktor wird in enger Anlehnung an den Faktor für die fluide Intelligenz „gf“ in Carrolls Drei-Stratum-Theorie der kognitiven Fähigkeiten (Carroll, 1993, 2005) angesehen. Es handelt sich bei der fluiden Intelligenz nicht um einen Inhaltsfaktor, so dass sich Aufgaben verschiedenen Inhalts, die die gleiche Art der kognitiven Operation verlangen, auf diesen Faktor zurückführen lassen sollten (vgl. Cattell, 1971). Die Leistungen in den vier anderen Tests sollten sich ebenfalls zu einem Teil auf diesen Faktor zurückführen lassen: Die Aufgaben im Mathematiktest setzten zur Lösung ein hohes Maß an schlussfolgerndem Denken voraus (Gustafsson, 1984; Gustafsson & Balke, 1993; Köller et al., 2004). Gleiches galt für die Leistung im Englisch- sowie im Psychologieverständnistest, denn Verstehensaufgaben verlangen bei der Lösungsfindung ebenfalls ein zueinander in Beziehung setzen von Informationen und Ableiten von Schlussfolgerungen, wie dies typisch für Aufgaben zum schlussfolgernden Denken ist. Für die Aufgaben des Biologietests traf dies in einem geringeren Ausmaß zu, da dieser Test stärker das Abrufen des erlernten Wissens und weniger dessen Anwendung erforderte. Darüber hinaus war zu untersuchen, inwiefern sich neben dem allen Indikatoren gemeinsamen Faktor ein weiterer geschachtelter Faktor in einem Messmodell etablieren ließ. Dieser latente Faktor würde die gemeinsamen Varianzanteile des erworbenen Wissens darstellen, so dass sich die Leistungen im Biologie-, Mathematik- Englischverständnis- und Psychologieverständnistests zusätzlich auf diesen Faktor zurückführen lassen sollten. Nach Cattells Investmenttheorie (1971) lässt sich erworbenes Wissen zu einem bestimmten Zeitpunkt t, welches er als kristalline Intelligenz bezeichnete, auf fluide Intelligenz zu einem früheren Zeitpunkt t’ zurückführen, da für den Erwerb von kristalliner Intelligenz der Einsatz von fluider Intelligenz nötig sei. Neben der fluiden Intelligenz würden auch Bildungsmöglichkeiten, Persönlichkeitsmerkmale und Interessen die Entstehung der kristallinen Intelligenz beeinflussen (Cattell, 1963). Demnach war davon auszugehen, dass Aufgaben, die die Anwendung von erworbenem Wissen erforderten, sich neben dem Faktor für das erworbene Wissen auch auf den Faktor für die fluide Intelligenz zurückführen lassen würden. Da der HZB-Note im Rahmen der Studienzulassung sowohl in der Vergangenheit als auch der Gegenwart eine hohe Bedeutsamkeit zukommt, sollte sie ebenfalls in das Modell integriert werden. Die HZB-Note ist ein Kompositum einer Vielzahl von Schulleistungen, in denen die Schüler ihr erworbenes Wissen unter Beweis stellen, so dass davon auszugehen war, dass sich die HZB-Note substantiell auf den Faktor für das erworbene Wissen zurückführen lassen würde. Darüber hinaus ist insbesondere in der Sekundarstufe II auch das Anwenden des erworbenen Wissens auf neue Sachverhalte bedeutsam, so dass gleichzeitig eine moderate Ladung auf den Faktor für das schlussfolgernde Denken zu erwarten war. Die dritte Fragestellung war zugleich der zentrale Aspekt der vorliegenden Arbeit: Wir wollten zeigen, dass die Leistung in den einzelnen Tests und die Abiturdurchschnittsnote die Studienleistungen vorhersagen würden. Wir erwarteten, dass die Tests zum einen aufgrund ihrer Gleichartigkeit zu bewährten Instrumenten der Studienzulassung und zum anderen aufgrund ihres konkreten Bezugs zum Fach Psychologie gute Prädiktoren der Studienleistungen sein würden. In Anlehnung an Befunde von Ackerman und Beier (Ackerman & Beier, 2006; Beier & Ackerman, 2005) gingen wir davon aus, dass insbesondere das erworbene fachrelevante Vorwissen zum Zeitpunkt der Studienzulassung ein starker Prädiktor für die Vorhersage der späteren Studienleistung sein würde. Auch die in den USA zur Studierendenauswahl eingesetzten fachbezogenen Wissenstests SAT II: Subject Tests und GRE Subject Tests konnten die spätere Studienleistung besser vorhersagen als der SAT I und der GRE General Test (Kuncel et al., 2001; Ramist et al., 2001). Die Modellierung der Indikatoren erfolgte auf latenter Ebene in einem Strukturgleichungsmodell (SEM). Das eröffnete die Möglichkeit, die Zusammenhänge zwischen einzelnen Tests genauer zu verstehen und auf die den Testleistungen zugrunde liegenden Konstrukte zu fokussieren. Anstelle des vielfach üblichen Rückgriffs auf ein einzelnes Leistungskomposit wurde es durch die Modellierung latenter Variablen möglich, konkurrierende Vorstellungen über die Struktur der Prädiktoren zu vergleichen. Mit dieser Modellierung gingen wir über die Mehrzahl der vorliegenden Befunde etwa zum SAT I und den SAT II: Subject Tests hinaus. Des weiteren wollten wir mit der Modellierung der Kovarianzen auf latenter Ebene der Frage nachgehen, in welchem Maße die den Tests zugrunde liegenden Konstrukte die Studienleistung vorhersagen konnten. In vielen anderen Studien wurde diese Einbettung in ein nomologisches Netz nicht angestrebt. Darüber hinaus ermittelten wir mit Regressionsanalysen auf manifester Ebene, über welche Vorhersagegüte die Testbatterie verfügte. TESTDURCHFÜHRUNG Die Testbatterie wurde für die Auswahl der Studierenden für den Bachelor-Studiengang Psychologie der Freien Universität Berlin für das Wintersemester 2007/2008 eingesetzt. Die Freie Universität übernahm einen Teil der Testdurchführungskosten, der verbleibende Teil wurde durch die Testteilnehmer beglichen. Alle Bewerber bearbeiteten die Tests in der gleichen Reihenfolge: Drei Tests zum schlussfolgernden Denken (Gleichungen lösen, Propositionen, Matrizen), Psychologieverständnistest, Mathematiktest, Englischtest und Biologietest. Es wurden vier pseudoparallele Testformen erstellt, die sich ausschließlich in der Reihenfolge der Antwortalternativen unterschieden. Zwei Testformen wurden in der Vormittagstestung, die anderen beiden in der Nachmittagstestung eingesetzt. Ein Austausch zwischen Bewerbern der Vor- und der Nachmittagstestung war nicht möglich, weil die beiden Gruppen direkt im Anschluss aneinander getestet wurden. Die Testdurchführung erfolgte durch geschulte Testleiter des Data Processing Centers. An der streng kontrollierten Testung im Juli 2007 nahmen 1191 Bewerber teil. Zwei Personen brachen den Test ab, für zwei weitere Personen mit Sehbehinderungen wurden die Schriftgröße des Testhefts und die Testlänge angepasst. Vollständige und vergleichbare Daten lagen somit für 1187 Personen vor. Für jeden Bewerber wurde ein Testgesamtwert ermittelt, der sich als Mittelwert über die zstandardisierten Personenparameter der Leistung in den einzelnen Tests ergab. Nach Abzug der Vorabquoten für Härtefälle, ausländische Studienbewerber und Zweitstudienbewerber wurden 60 % der verbleibenden ca. 100 Studienplätze anhand einer Wertzahl vergeben, in der die z-standardisierte Testleistung zu 49 % und die rekodierte, z-standardisierte Abiturdurchschnittsnote zu 51 % eingingen. Eine stärkere Gewichtung der Testleistung war aufgrund rechtlicher Vorschriften nicht möglich. Weitere 20 % der Bewerber wurden jeweils auf Basis ihrer HZB-Note oder Wartezeit zum Studium zugelassen. Die Teilnahme am Test war nicht verpflichtend. Da allerdings die Auswahl aufgrund der Quoten für HZB-Note und Wartezeit zum Zeitpunkt der Testdurchführung noch nicht feststand, nahmen sehr viele Studienbewerber an der Testung teil, um ihre Zulassungschancen zu verbessern. So haben auch Bewerber mit einer HZB-Note von 1.0, die vermutlich über die Abiturbestenquote zugelassen wurden, am Test teilgenommen. Ebenso lagen für Personen mit eher schlechteren HZB-Noten, die vermutlich später über die Wartezeitquote einen Studienplatz erhielten, Testergebnisse vor. Aus datenschutzrechtlichen Gründen konnten keine Informationen erhoben werden, über welche Quote die Studierenden zum Studium zugelassen wurden; aus dem selben Grund war es auch nicht möglich, eine Präzisierung des genauen Anteils der Personen vorzunehmen, die nicht am Test teilnahmen, aber dennoch zum Studium zugelassen wurden. Alle Bewerber wurden bei der Testung gebeten, ihr Alter, ihre HZB-Note und ihr Geschlecht anzugeben. METHODEN DER DATENANALYSE Die Datenanalyse erfolgte stufenweise. In einem ersten Schritt wurden in allen Untertests Items identifiziert, die durch besonders extreme Schwierigkeiten und / oder sehr geringe Trennschärfen auffielen; diese Items wurden von weiteren Analysen ausgeschlossen. In einem zweiten Schritt wurden konfirmatorische Messmodelle für die einzelnen Untertests etabliert, um zu überprüfen, ob der Leistung in jedem Untertest jeweils eine latente Fähigkeit zugrunde lag. War die Passung eines solchen Modells ungenügend, so wurden mit Hilfe einer schrittweisen Variablenauswahl in explorativen Faktorenanalysen (SEFA; Kano & Harada, 2000) Items identifiziert, durch deren Ausschluss die Modellpassung verbessert werden konnte. Diese Items wurden ebenfalls von den weiteren Analysen ausgeschlossen. Die für jeden Bewerber pro Test mit dem robusten Maximum-Likelihood-Schätzer MLR ermittelten Personenparameter in einem zweiparametrigen logistischen Modell bildeten die Grundlage für die Analyse der Zusammenhänge zur Beantwortung unserer zweiten Forschungsfrage. Die Leistung der Bewerber in allen Tests wurde in einem gemeinsamen Messmodell analysiert. Dieses Modell war in einem weiteren Schritt durch die rekodierte HZB-Note zu ergänzen. Da diese nicht von allen Bewerbern vorlag, war ein adäquates Verfahren zum Umgang mit fehlenden Werten anzuwenden. Wir gingen davon aus, dass die Daten im Sinne von „missing at random (MAR)“ gemäß der Definition von Little und Rubin (2002) fehlten. Die Bezeichnung „missing at random“ ist etwas missverständlich, denn der Grund für das Fehlen der Werte kann durchaus mit der Ausprägung dieser Variablen zusammenhängen – im vorliegenden Fall ließe sich vermuten, dass bspw. Personen mit eher schlechterer HZB-Note diese nicht angaben. Wenn aber weitere Daten erhoben werden, die diese Ursache ebenfalls erfassen und in das Modell für die fehlenden Werte mit aufgenommen werden können, kann man für den Bias des Fehlens korrigieren: „once one has conditioned on the cause of missingness (which is available), the missingness is random“ (Graham, Cumsille & Elek-Fisk, 2003, S. 89). Im vorliegenden Fall bedeutete MAR, dass das Fehlen der HZBNote bei einzelnen Bewerbern nach Kontrolle der Personenparameter in den sieben Tests weder von der HZB-Note selbst noch von anderen Variablen abhing. Die Annahme MAR lässt sich empirisch nicht überprüfen (Little & Rubin, 2002). Collins, Schafer und Kam (2001) haben in ihren Simulationsstudien gezeigt, dass in vielen Fällen die fälschliche Annahme MAR nur sehr geringe Auswirkungen auf die Schätzungen und die Standardfehler hat. Im Umgang mit den fehlenden Werten griffen wir auf das Verfahren der Full-InformationMaximum-Likelihood (FIML; Graham, 2009; Schafer, 1997; Schafer & Graham, 2002) zurück, bei dem die Behandlung fehlender Werte und die Schätzung des Modells in einem gemeinsamen Schritt erfolgten. Das bedeutet, dass eine Modellschätzung unter Berücksichtigung aller Personen vorgenommen wurde, also auch derjenigen mit fehlenden Werten. Die Schätzung der Populationsparameter und ihrer Standardfehler erfolgte dabei auf der Basis der beobachteten Daten unter der Annahme MAR, ohne dass die fehlenden Werte imputiert wurden (Lüdtke, Robitzsch, Trautwein & Köller, 2007). Um eine verbesserte Schätzung zu erreichen, wurden Hilfsvariablen („auxiliary variables“) in das Modell eingeschlossen, die mit dem Fehlen der Werte selbst oder den Variablen mit fehlenden Daten einen Zusammenhang aufwiesen. Dies ist über den FIML-Ansatz direkt möglich, ohne dabei die Struktur des Modells zu verändern (Graham, 2003; Graham, Olchowski & Gilreath, 2007). Simulationsstudien haben gezeigt, dass der Rückgriff auf möglichst viele dieser Hilfsvariablen im besten Fall positiv, im schlechtesten Falle neutral ist und Effekte, die durch nicht-zufälliges Fehlen von Daten entstehen, abschwächen kann (Collins et al., 2001). Mit Mplus 5.21 (L. K. Muthén & Muthén, 1998-2009) war eine Umsetzung des FIML-Ansatzes unter Einschluss von Hilfsvariablen möglich (Asparouhov & Muthén, 2008). Als Hilfsvariablen wurden das Alter der Bewerber zum Testzeitpunkt, ihr Geschlecht, ihre Einwilligung zur Weitergabe der Daten (ja / nein) sowie der Zeitpunkt der Testung (Vor- vs. Nachmittag) eingesetzt. Zur Beantwortung unserer dritten Forschungsfrage über die Vorhersage der Studienleistung der Bewerber durch die Leistung in den einzelnen Tests und die rekodierte HZB-Note etablierten wir ein SEM. Bei der Modellierung trat die Schwierigkeit auf, dass nur ein sehr geringer Anteil der Bewerber aufgrund der begrenzten Anzahl an Studienplätzen tatsächlich für das Studium zugelassen werden konnte. Die Noten der nicht zugelassen Studierenden fehlten wiederum im Sinne von „missing at random“, weil diese Bewerber maßgeblich aufgrund ihrer Ergebnisse in den Tests und ihrer HZB-Note nicht zum Studium zugelassen wurden. Daher wurde für die Modellierung wieder auf den FIML-Ansatz unter Berücksichtigung der bereits benannten vier Hilfsvariablen sowie der Information, ob eine Zulassung zum Studium im WS 2007/2008 erfolgte (ja / nein), zurückgegriffen. Die Schätzung der Parameter erfolgte wiederum auf der Basis aller beobachteten Daten, also auch unter Berücksichtigung der Daten derjenigen Personen, die nicht zum Studium zugelassen wurden, und der Daten von Studierenden, die nicht alle Prüfungsmodule abgeschlossen hatten. Demnach lagen auf der Prädiktorseite Daten von 1187 Bewerbern vor, auf der Kriterienseite jedoch nur Noten von 79 Studierenden. Bei der Evaluation der Passung dieses SEM ist zu berücksichtigen, dass mit einem steigenden Anteil fehlender Daten sowohl absolute Fit-Indices wie der RMSEA als auch inkrementelle Fit-Indices wie der CFI dazu tendieren, die Modellpassung zu überschätzen (Davey, Savla & Luo, 2005). Um die Unsicherheit der Ergebnisse aufgrund der Schätzungen des SEM bei einem sehr hohen Anteil fehlender Werte in Rechnung zu stellen, wurden zusätzlich Regressionsanalysen auf manifester Ebene vorgenommen. Dazu wurde die mittlere Studiennote für alle n = 79 Bewerber ermittelt, von denen mindestens eine Note vorlag. Die mittlere Testleistung dieser Studierenden und ihre HZB-Note bildeten die Grundlage für die Regressionsanalysen. Auf diesem Wege ließ sich ermitteln, wie gut die mittlere Testleistung und die HZB-Note einzeln und gemeinsam die mittlere Studiennote vorhersagen konnten. Aufgrund der theoretischen Annahme der Existenz zweier unterscheidbarer latenter Faktoren auf der Prädiktorseite wurden zusätzlich Faktorscores für die beiden latenten Faktoren für das schlussfolgernde Denken und das erworbene Wissen ermittelt, um eine Aussage über ihre Vorhersagegüte bei der Vorhersage der Studienleistung treffen zu können. Die Factorscores wurden auf der Grundlage der vollständig vorliegenden Testleistungen für alle N = 1187 Bewerber über die Methode „maximum a posteriori (MAP)“ mit MPlus 5.21 geschätzt (B. O. Muthén, 2008). Auch bei fixierter Orthogonalität der Factorscores im Messmodell können die Factorscore-Schätzungen korreliert sein (D. Borsboom, personal communication, July 2, 2010), so dass eine Procrutes-Rotation der Factorscore-Schätzungen nach der Methode von Beauducel und Rabe (2009) vorgenommen wurde, um die Analysen auf der Basis orthogonaler Factorscore-Schätzungen vornehmen zu können. ERGEBNISSE Von den 1049 Bewerbern (88.37 % der Testteilnehmer), die ihre demographischen Daten auf freiwilliger Basis gaben, waren 82.46 % weiblich; das mittlere Alter betrug 21.35 Jahre zum Zeitpunkt der Testung. Demnach waren die Testteilnehmer gut 2 Jahre jünger als die deutschlandweit zum Wintersemester 2007/2008 zugelassenen Studierenden im 1. Fachsemester Psychologie (M = 23.72 Jahre); und es nahmen etwas mehr Frauen am Test teil, als bundesweit zum Psychologiestudium zugelassen wurden (Anteil der Frauen = 79.12 %; Statistisches Bundesamt, 2009). Tabelle 2 gibt eine Übersicht über die Ergebnisse psychometrischer Analysen der Einzeltests. Nach der Elimination einzelner Items (vgl. Tabelle 2), deren Trennschärfe ungenügend war oder die die eindimensionale Struktur des Tests verletzten, wiesen alle Tests befriedigende Reliabilitäten auf. An der mittleren Schwierigkeit der Aufgaben lässt sich ablesen, dass die Einzeltests – wie für ein sehr selektives Verfahren wünschenswert – auch im oberen Spektrum der Fähigkeitsverteilung hinreichend diskriminieren konnten. --- bitte Tabelle 2 hier einfügen --Die Korrelationen der Personenparameter in den sieben Tests, der mittleren Testleistung und der rekodierten HZB-Note (M = 2.23, SD = 0.56; n = 1062) auf manifester Ebene waren moderat (vgl. Tabelle 3). Der Psychologieverständnistest wies den höchsten Zusammenhang zum Englischtest, der ebenfalls ein Verständnistest war, auf. Auch zur verbalen Skala des schlussfolgernden Denkens bestand ein hoher Zusammenhang des Psychologieverständnistests. Die Korrelation von r = .42 zwischen der mittleren Testleistung und der HZB-Note war ebenfalls als moderat zu bezeichnen. --- Tabelle 3 bitte hier einfügen --In einem Messmodell wurde die Leistung in allen sieben Tests auf einen gemeinsamen latenten Faktor zurückgeführt, der das schlussfolgernde Denken darstellte. Die Passung eines solchen Modell war mit .² (14, N = 1187) = 88.30, p < .01, CFI = .95 und RMSEA = .07 akzeptabel. Mit der Etablierung eines zweiten, geschachtelten Faktors, auf den die drei schulfachbezogenen Tests sowie der Psychologieverständnistest luden und der das (vorrangig in der Schule) erworbene Wissen darstellte, verbesserte sich die Passung des Modells deutlich: .² (10, N = 1187) = 31.59, p < .01, CFI = .99 und RMSEA = .04. Alle Pfade waren überzufällig von null verschieden und die verbleibenden Residualkorrelationen waren mit rResid < .05 gering. Der Biologietest wies die geringste Ladung auf dem gemeinsamen Faktor für das schlussfolgernde Denken auf, während die anderen Tests stärker auf diesem Faktor luden. Demgegenüber war die Ladung des Mathematiktests auf dem Faktor für das erworbene Wissen am geringsten (vgl. Abbildung 1). --- bitte Abbildung 1 hier einfügen --In einem nächsten Schritt wurde die rekodierte HZB-Note mit Ladungen auf beiden latenten Faktoren in das Modell integriert. Die Passung dieses Modells war mit .² (15, N = 1187) = 68.14, p < .01, CFI = .97 und RMSEA = .06 ebenfalls als zufrieden stellend zu bewerten (vgl. Abbildung 2). Die Ladungen der HZB-Note auf die beiden latenten Faktoren waren von gleicher, moderater Höhe. Alle Pfade waren wiederum überzufällig von null verschieden und die verbleibenden Residualkorrelationen waren mit rResid < .05 gering. --- bitte Abbildung 2 hier einfügen --Nach zwei Studienjahren lagen von n = 79 Studierenden, die an der Testung teilgenommen hatten, Noten in mindestens einem der 14 Module vor, deren Abschluss gemäß der Studienordnung der FU Berlin innerhalb der ersten vier Semester vorgesehen ist. Da mehr als die Hälfte dieser Studierenden in drei Modulen noch keine Prüfung absolviert hatte, wurden diese Module von der Modellierung der Studienleistung ausgeschlossen. Für die verbleibenden elf Module lagen von fast 70 % der Studierenden vollständige Noten vor, bei weiteren 15 % der Studierenden fehlten ein oder zwei Modulnoten, die verbleibenden 10 Studierenden hatten acht oder weniger Module mit einer Prüfung abgeschlossen. Ein g-Faktor-Modell, in dem die Leistung der n = 79 Studierenden in den verbleibenden elf Modulen unter Modellierung der Missings im FIML-Ansatz auf einen gemeinsamen Faktor zurückgeführt wurde, hatte eine gute Passung mit .² (44, N = 1187) = 59.41, p = .06, CFI = .95 und RMSEA = .07. Modellierte man die drei Studienbereiche „Grundlagen“, „Methoden und Diagnostik“ sowie „Anwendung“ als distinkte, korrelierte Faktoren, so verbesserte sich die Modellpassung nur minimal und die Korrelationen zwischen den latenten Variablen waren alle . = .87. Daher beschränkten wir uns in weiteren Analysen auf das sparsamere g-FaktorModell. In die Bestimmung der mittleren Studiennote (M = 2.09, SD = 0.55) flossen alle vorliegenden Noten aus den elf Modulen ein. Zur Beantwortung unserer dritten und zentralen Forschungsfrage über die prädiktive Validität der Testleistung für die Vorhersage der nach zwei Jahren erzielten Studienleistungen wurden in einem weiteren Schritt die Messmodelle für die Tests auf der Prädiktorseite und die Studiennoten auf der Kriterienseite in einem gemeinsamen Strukturgleichungsmodell modelliert (Abbildung 3). In dieses SEM flossen die Testleistungen für alle 1187 Bewerber und die Studiennoten von 79 Studierenden ein. Die Passung des Modells war zufrieden stellend: .² (129, N = 1187) = 208.95, p < .01, CFI = .96 und RMSEA = .02. Die Passung war deutlich schlechter, wenn auf der Prädiktorseite auf die Modellierung des geschachtelten Faktors verzichtet und lediglich ein gemeinsamer Faktor modelliert wurde: .² (134, N = 1187) = 274.93, p < .01, CFI = .93 und RMSEA = .03. Im Modell mit dem geschachtelten Faktor waren alle Pfade überzufällig von null verschieden. Das erworbene Wissen erklärte einen substantiellen Anteil der späteren Studienleistung mit ß = .59. Ergänzt durch das schlussfolgernde Denken (ß = .32), konnten 44 % der Varianz des Kriteriums Studienleistung aufgeklärt werden. Fixierte man die Pfadkoeffizienten beider latenter Faktoren auf Gleichheit, so veränderte sich die Passung des Modells nur geringfügig .² (130, N = 1187) = 210.61, p < .01, CFI = .96 und RMSEA = .02. Der Unterschied in der Modellpassung war nicht überzufällig von null verschieden: ..² (1, N = 1187) = 1.66, p = .20. --- bitte Abbildung 3 hier einfügen --- Vergleichbar dem Vorgehen bei der Modellierung auf der Prädiktorseite wurde auch das Strukturmodell um die rekodierte HZB-Note ergänzt, die von n = 1062 Personen vorlag (Abbildung 4). Die Passung des Modells war zufrieden stellend: .² (145, N = 1187) = 251.99, p < .01, CFI = .95 und RMSEA = .03. In diesem Modell waren die Pfadkoeffizienten gegenüber dem Modell ohne die HZB-Note etwas höher: für den Faktor für das erworbene Wissen betrug ß = .65, für den Faktor für das schlussfolgernde Denken ß = .32. Zusammen klärten beide Faktoren 52 % der Varianz des Kriteriums Studienleistung auf. Wie bei dem Strukturmodell ohne die HZB-Note fiel auch hier die Passung deutlich schlechter aus, wenn auf der Prädiktorseite auf die Modellierung des geschachtelten Faktors verzichtet und lediglich ein gemeinsamer Faktor modelliert wurde: .² (151, N = 1187) = 341.48, p < .01, CFI = .91 und RMSEA = .03. --- bitte Abbildung 4 hier einfügen --Die Ergebnisse der Regressionsanalysen auf manifester Ebene für die n = 79 zugelassenen Studierenden sind in Tabelle 4 dargestellt. Es wird deutlich, dass die HZB-Note mit R² = .14 (Modell 1a) eine etwas bessere Vorhersage der Studiennoten nach zwei Jahren erlaubte als die mittlere Testleistung mit R² = .10 (Modell 1b). Der Factorscore für das erworbene Wissen (Modell 1d) war dem Factorscore für das schlussfolgernde Denken (Modell 1c) in der Vorhersage der Studienleistung überlegen: .R² = .06. --- bitte Tabelle 4 hier einfügen --Sowohl die HZB-Note als auch der mittlere Testwert waren inkrementell valide zueinander, da sie gemeinsam mehr Varianz der mittleren Studiennote aufklärten als einer der beiden Prädiktoren allein. Dabei führten der Zulassungswert, in welchem die HZB-Note zu 51 % und die mittlere Testleistung zu 49 % einfloss (Modell 2a), und die frei geschätzte Gewichtung beider Prädiktoren (Modell 2b) zu sehr ähnlichen Ergebnisse mit R² = .19 bzw. R² = .18. Gegenüber der ausschließlichen Berücksichtigung der HZB-Note wurde somit eine um 35.7 % bzw. 28.7 % verbesserte Varianzaufklärung der Studienleistung erreicht. Die Aufnahme des Factorscores für das schlussfolgernde Denken zusätzlich zur HZB-Note (Modell 2c) führte zu keiner präziseren Vorhersage der Studiennote, während die Hinzunahme des Factorscores für das erworbene Wissen (Modell 2d) eine Vorhersagegüte erreichte, die mit R² = .19 der Höhe des mittleren Testwertes entsprach. Weiterhin wurde deutlich, dass durch die gemeinsamen Berücksichtigung der Factorscores für das schlussfolgernde Denken und das erworbene Wissen (Modell 2e) die Studienleistung mit R² = .13 etwas präziser vorhergesagt werden konnte als durch die mittlere Testleistung. Dieser Befund verdeutlicht, dass die im Messmodell vorgenommene Modellierung eines geschachtelten Faktors für das erworbene Wissen zusätzlich zum gemeinsamen Faktor für das schlussfolgernde Denken sich auch positiv auf die Vorhersagegüte auswirkte. In einem letzten Schritt (Modell 3) wurde für die Vorhersage der Studienleistung auf drei Prädiktoren zurückgegriffen – neben der HZB-Note wurden die Factorscores für das erworbene Wissen und das schlussfolgernde Denken berücksichtigt. In diesem Modell wurden 20 % der Varianz der Studienleistung durch die Prädiktoren aufgeklärt, wobei das Betagewicht für den Factorscore des schlussfolgernden Denkens als nicht überzufällig von null verschieden ausgewiesen wurde. In diesem Modell wurde gegenüber der alleinigen Berücksichtigung der HZB-Note 6 % mehr Varianz in der Studienleistung aufgeklärt, die Varianzaufklärung ist also um 42.9 % verbessert. Gleichzeitig wird erneut deutlich, dass durch die ausschließliche Berücksichtigung der mittleren Testleistung gegenüber der Berücksichtigung der Factorscores wertvolle Information verschenkt würde (vgl. Modell 2a und 2b vs. Modell 3). DISKUSSION In der vorliegenden Arbeit haben wir die Entwicklung einer Testbatterie geschildert, die zur Auswahl von Studierenden für das Fach Psychologie eingesetzt werden kann. Wir haben Befunde zur Struktur der den Tests zugrunde liegenden Konstrukte vorgestellt und erste Hinweise zur Vorhersagegüte der Testbatterie für die Studienleistung innerhalb der ersten zwei Jahre berichtet. Es ist uns gelungen, eine Testbatterie zu entwickeln, die psychometrischen Ansprüchen in Bezug auf Schwierigkeit, Trennschärfe und interner Konsistenz genügte. Den Tests lag jeweils eine einzelne latente Fähigkeit zugrunde. In einem gemeinsamen Messmodell ließ sich zeigen, dass der Leistung in allen sieben Tests ein gemeinsamer Faktor zugrunde lag, der als schlussfolgerndes Denken aufgefasst werden sollte. Darüber hinaus ließ sich, entsprechend unserer Erwartungen, ein weiterer geschachtelter Faktor etablieren, auf den die drei schulfachbezogenen Tests für Englisch, Mathematik und Biologie und der Psychologieverständnistest Ladungen aufwiesen und der die durch erworbenes Wissen gebündelten Varianzanteile darstellte. Die HZB-Note ließ sich ebenfalls in diesem Modell mit Ladungen auf beiden latenten Faktoren verorten. In einem SEM wurde deutlich, dass die den Tests und der HZB-Note zugrunde liegenden Fähigkeiten zum Studienbeginn gute Prädiktoren der Studienleistung nach zwei Jahren waren. Gemeinsam konnten die beiden latenten Faktoren rund die Hälfte der Varianz der Studiennoten aufklären. Die Befunde auf manifester Ebene gingen in die gleiche Richtung, wenngleich ihre absolute Höhe geringer war. Die Leistungstests waren inkrementell valide über die HZB-Note hinaus und vice versa. Stellte man die Trennung der zwei distinkten latenten Faktoren auf der Prädiktorseite in Rechnung, konnte die spätere Studienleistung etwas präziser vorhergesagt werden als bei der Berücksichtigung des mittleren Testwerts. Weitere Varianz der Studienleistung ließe sich vermutlich durch Prädiktoren wie Motivation und Persönlichkeitsmerkmale, aber auch die ggf. notwendige Erwerbstätigkeit neben dem Studium zur Sicherung des Lebensunterhaltes sowie die persönliche und familiäre Situation der Studierenden (Krankheit, Schwangerschaft, Kinderbetreuung) erklären. Bevor die wesentlichen Befunde diskutiert werden, möchten wir noch einmal deutlich machen, dass die von uns berichteten Analysen sich den Rahmenbedingungen der gegebenen Zulassungspraxis anpassen mussten. Der Anteil fehlender Werte war auf der Kriterienseite sehr hoch, da nur Noten von n = 79 Studierenden der N = 1187 getesteten Bewerber vorlagen. Demnach sind Ergebnisse, die Kriterienleistungen betreffen, mit nennenswerten Konfidenzintervallen behaftet. Die Analysen wurden unter der Annahme „missing at random“ gerechnet, welche sich nicht empirisch überprüfen lässt (Little & Rubin, 2002). Es kann nicht ausgeschlossen werden, dass die Modellpassung für die Strukturmodelle zu optimistisch ausfiel, weil der Anteil fehlender Daten sehr hoch war (Davey et al., 2005). In die Regressionsanalysen auf manifester Ebene flossen ausschließlich die Daten der Studierenden ein, so dass bei den entsprechenden Analysen zwar vollständige Daten vorlagen, die Stichprobe mit n = 79 Studierenden andererseits sehr klein war – es handelte sich um nur 6.6 % der getesteten Bewerber, und die Leistungen der Studierenden in allen sieben Tests waren mehrheitlich sehr gut. Daher ist eine Replikation der Befunde sehr wünschenswert. Dies gilt insbesondere, weil die (weitere) Optimierung des eingesetzten Verfahrens und die Untersuchung seiner Validität in dieser Studie aufgrund der vorgegebenen Rahmenbedingungen nicht an voneinander unabhängigen Stichproben vorgenommen werden konnten. Gleichwohl liegen mit diesem Datensatz längsschnittliche Ergebnisse vor, die, im Einklang mit den Erwartungen, eine gute prädiktive Validität von Leistungstests bei der Zulassung für das Fach Psychologie aufzeigen. Ein besonders hervorzuhebendes Ergebnis der vorliegenden Studie ist, dass es auf der Prädiktorseite gelungen ist, die in der Intelligenzforschung gut etablierte Trennung zwischen schlussfolgerndem Denken und erworbenem Wissen (Carroll, 1993, 2005; Cattell, 1963, 1971; McGrew, 2005) auf den Bereich der Studienzulassung zu übertragen. Es ist angezeigt, neben dem schlussfolgernden Denken einen geschachtelten Faktor für relevantes Wissen zu postulieren. Eine derartige Modellierung auf latenter Ebene stand bisher in der Forschung zur Auswahl von Studierenden eher im Hintergrund. Stattdessen wurde in der Mehrheit der Studien ein Fokus auf die Vorhersagegüte einzelner Tests oder einzelner Verfahren vorgenommen, ohne die zugrunde liegende Struktur zu analysieren (vgl. Abschnitt „Leistungstests“). Durch die Modellierung eines geschachtelten Faktors für studienfachrelevantes Wissen zusätzlich zum schlussfolgernden Denken gelang es, auf der Prädiktorseite eine in der Intelligenzforschung gut etablierte Trennung gewinnbringend für die Vorhersage von Studienleistungen zu verwenden. Unsere Ergebnisse zeigen, dass der Faktor für studienfachrelevantes Wissen trotz der geschachtelten Modellierung einen stärkeren Beitrag zur Erklärung der Studienleistung leistet als der Faktor für das schlussfolgernde Denken. Diese Ergebnisse vertragen sich mit den Validitätsbefunden zu den SAT II: Subject Tests und den GRE Subject Tests. Dort zeigte sich, gut repliziert, dass die stärker wissensbezogenen Tests bessere Vorhersagen erlaubten als der SAT I und GRE General Tests (Geiser & Studley, 2001; Kuncel & Hezlett, 2007; Kuncel et al., 2001; Ramist et al., 2001). Zusammenfassend verdeutlichen unsere Resultate eindringlich, dass es sinnvoll ist, bei der Auswahl von Studierenden auf mehrere, verschiedenartige Leistungstests zurückzugreifen, die schlussfolgerndes Denken und studienfachrelevantes Vorwissen erfassen. Daraus folgt, dass die Hochschulzulassungsforschung die Unterscheidung zwischen dekontextualisierten Denkleistungen und wissensbasierten Denkleistungen, die für den jeweiligen Studieninhalt spezifisch sind, verstärkt untersuchen sollte. Wir sind davon überzeugt, dass die Hochschulzulassungspraxis weit hinter ihren Möglichkeiten zurück bleibt, wenn geeignete Messinstrumente für relevante Denkleistungen keine Berücksichtigung finden. FUSSNOTEN 1 Bei den berichteten Korrelationen handelt es sich um unkorrigierte Produkt-MomentKorrelationen; auf Ausnahmen wird explizit hingewiesen.