Studierendenauswahl im Fach Psychologie: Testentwicklung und

Werbung
Studierendenauswahl im Fach Psychologie:
Testentwicklung und Validitätsbefunde
Kurztitel: Studierendenauswahl im Fach Psychologie
Maren Formazin1, Ulrich Schroeders2, Olaf Köller3, Oliver Wilhelm2, Hans Westmeyer4
1Institut zur Qualitätsentwicklung im Bildungswesen, Humboldt-Universität zu Berlin
2Institut für Psychologie, Universität Duisburg-Essen
3Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik, Kiel
4Fachbereich Erziehungswissenschaft und Psychologie, Freie Universität Berlin
Korrespondenzanschrift:
Maren Formazin
Humboldt-Universität zu Berlin
Institut zur Qualitätsentwicklung im Bildungswesen (IQB)
Unter den Linden 6
10099 Berlin
Email: [email protected]
Zusammenfassung:
Die internationale Forschung im Bereich der Hochschulzulassung zeigt eindrücklich, dass
Leistungstests gute Prädiktoren der späteren Studienleistung sind und inkrementelle Validität
über Schulnoten hinaus aufweisen. An deutschen Hochschulen ist der Einsatz standardisierter
Leistungstests jedoch nach wie vor die Ausnahme. In der vorliegenden Arbeit schildern wir
die Entwicklung und Validierung einer Testbatterie für die Zulassung von
Psychologiestudierenden an deutschen Hochschulen. Im Rahmen der Testung von 1187
Bewerberinnen und Bewerbern für die Vergabe von 60 Studienplätzen prüfen wir mit
Strukturgleichungsmodellen und Regressionsanalysen die prädiktive und inkrementelle
Validität der neuen Testbatterie. Neben einem allgemeinen Faktor für das schlussfolgernde
Denken kann auf der Prädiktorseite ein zweiter, geschachtelter Faktor für relevantes
Vorwissen etabliert werden. Beide latente Faktoren tragen nennenswert zur Vorhersage der
Studienleistungen bei. Die Ergebnisse unterstützen nachdrücklich die Forderung, bei der
Zulassung zu Studiengängen mit hohem Bewerberandrang Leistungstests einzusetzen. Neben
schlussfolgerndem Denken verdient das relevante Vorwissen besondere Beachtung.
Schlüsselwörter:
Hochschulzulassung, schlussfolgerndes Denken, Wissen, Studienleistungen
Title: Student selection for psychology: Test development and predictive validity
Abstract:
International research in the field of college admission unequivocally demonstrates that
achievement and ability tests are adequate predictors of subsequent graduate and
undergraduate grade point average and that they are incrementally valid over and above high
school grade point average. Nevertheless, German universities rarely use standardized ability
and achievement tests for admission purposes. Here we describe the development and
validation of a test battery for admission to psychology programs at German universities. In
the context of selecting 1,187 applicants for 60 university places, we use regression analysis
and structural equation modelling to investigate predictive and incremental validity of the new
test battery. In addition to a general factor for reasoning ability, a second, nested factor for
relevant prior knowledge can be established as a predictor. Both latent factors contribute
substantially to the prediction of undergraduate grade point average. The results clearly
support the use of ability and achievement tests for admission to degree programs with more
applicants than available places. In addition to reasoning ability, relevant prior knowledge
deserves close consideration.
Key words:
college admission, reasoning ability, knowledge, grade point average
Im vorliegenden Artikel verfolgen wir zwei Ziele: Zunächst wollen wir über die Entwicklung
einer Testbatterie berichten, die bei der Zulassung zum Psychologiestudium eingesetzt werden
kann. Im Anschluss an diese Beschreibung soll anhand einer prospektiv angelegten
Untersuchung gezeigt werden, inwiefern die Testbatterie geeignet ist, zukünftige
Studienleistungen vorherzusagen. Wir beginnen die Verfolgung dieser beiden Ziele mit einer
kurzen Darstellung der Zulassungsrahmenbedingungen an deutschen Universitäten im
Allgemeinen und im Fach Psychologie im Besonderen und geben dann einen Überblick zu
Validitätsbefunden für verschiedene Zulassungsmethoden, insbesondere zu Schulnoten und
standardisierten Leistungstests.
Angezeigt ist der Einsatz eines Zulassungsinstruments immer dann, wenn sich für einen
Studiengang mehr Personen bewerben, als Studienplätze zur Verfügung stehen.
Selektionsentscheidungen müssen besonders hohen Ansprüchen an ihre Validität gerecht
werden, da abgelehnten Bewerbern durch diese Entscheidung die Möglichkeit verwehrt wird,
im angestrebten Fach am bevorzugten Studienort ein Studium zu beginnen. Die Verwehrung
der Zulassung hat einen Einfluss auf Möglichkeiten künftiger Erwerbstätigkeit und
Gelegenheiten zur beruflichen Selbstverwirklichung.
In der Mehrzahl der Studiengänge an deutschen Hochschulen, in denen es mehr Bewerber als
Studienplätze gibt, erfolgte die Vergabe der meisten Studienplätze über die Durchschnittsnote
der Hochschulzugangsberechtigung (HZB-Note). Dies galt auch für so genannte Numerus
Clausus Fächer wie die Psychologie. Ein weiterer Teil der Studienplätze wurde an
Studierende entsprechend ihrer Wartezeit vergeben (Deidesheimer Kreis, 1997, S. 19-20; vgl.
auch Hochschulrahmengesetz (HRG), 2002). Für das Fach Psychologie gibt es seit vielen
Jahren deutlich mehr Studieninteressierte, als Studienplätze an den Hochschulen zur
Verfügung stehen. Seit dem Wintersemester 1990/1991 schwanken die Bewerberzahlen
zwischen dem drei- bis vierfachen der vorhandenen Studienplätze (Zentralstelle für die
Vergabe von Studienplätzen [ZVS], 2009). In diesen Zahlen ist noch nicht berücksichtigt,
dass Personen auf eine Bewerbung verzichteten, weil sie diese unter den genannten
Zulassungsbedingungen als aussichtslos ansahen.
Durch die Änderung des Hochschulrahmengesetzes (Siebtes Gesetz zur Änderung des
Hochschulrahmengesetzes (7. HRGÄndG), 2004) wurden die Hochschulen verpflichtet, 60 %
ihrer Studienplätze an Bewerber auf der Basis eines Auswahlverfahrens zu geben. Als
Auswahlinstrumente muss dabei auf die HZB-Note zurückgegriffen werden, weiterhin
können gewichtete Einzelnoten, Berufsausbildung oder –erfahrung, Ergebnisse eines
Gesprächs und fachspezifische Studierfähigkeitstests einzeln oder gemeinsam berücksichtigt
werden. Die Bundesländer spezifizieren diese Rahmenbedingungen geringfügig verschieden.
Im Folgenden beurteilen wir die Vorhersagegüte der zulässigen Verfahren und wägen ihren
Einsatz im Rahmen der Hochschulzulassung ab.
Losverfahren und Wartezeit
Bei einer Zufallsauswahl per Los haben alle Bewerber die gleiche Möglichkeit, einen
Studienplatz zu erlangen. Als Auswahlinstrument, das die zu erwartenden Studienleistungen
maximieren soll, ist das Losverfahren weder sachgerecht noch wissenschaftlich vertretbar, da
es implizit unterstellt, alle Bewerber seien gleich gut oder schlecht geeignet. Die
Studienplatzvergabe über das Kriterium Wartezeit ermöglicht die Einhaltung des Grundrechts
auf freie Bildungswahl. Jedoch schnitten Studierende im Medizinstudium, die aufgrund sehr
hoher Wartezeiten zugelassen wurden, schlechter ab als ihre Kommilitonen, die aufgrund
guter Testleistungen, HZB-Note oder eines Auswahlgesprächs für das Studium zugelassen
wurden: Sie legten ihre Prüfungen später ab, bestanden sie seltener und erbrachten im Mittel
schlechtere Leistungen (Trost et al., 1998).
Vorauslaufende Erfahrungen und Expertise
Die Verwendung von Berufsausbildung oder –erfahrung als Auswahlkriterium ist in der
praktischen Umsetzung kaum möglich, da es sachlich schwer zu begründen ist, welche
Formen der Tätigkeit auf welche Weise berücksichtigt werden sollen. Hinzu kommt, dass
unter den Bewerbern im Fach Psychologie nur wenige Personen über einschlägige
Erfahrungen verfügen. Der Erwerb einschlägiger Erfahrungen verzögert zudem meist die
Aufnahme eines Studiums.
Interviews
Auswahlgespräche sind bei der Zulassung zum Studium an öffentlichen Hochschulen in
Deutschland bislang wenig verbreitet (Heine, Briedis, Didi, Haase & Trost, 2006). Häufig
werden Interviews in unstrukturierter Form durchgeführt, so dass sie nicht ausreichend
objektiv und zuverlässig sind. Daher ist es nicht überraschend, dass sich metaanalytisch auch
nur eine geringe Vorhersagekraft von Auswahlgesprächen für die spätere Studienleistung
zeigte (Hell, Trapmann, Weigand & Schuler, 2007). Der Einsatz von Auswahlgesprächen bei
der Zulassung zu sehr nachgefragten Studienfächern wäre auch organisatorisch kaum zu
bewältigen, da sie personell und zeitlich sehr aufwändig sind. Daher wurden Interviews
häufig nur für eine vorselektierte Gruppe von Bewerbern eingesetzt, wie es bspw. bei der
Zulassung zum Medizinstudium im Rahmen des „Besonderen Auswahlverfahrens“ der Fall
war (vgl. Trost et al., 1998). Dennoch werden Auswahlgespräche von vielen
Studienbewerbern als positiv bewertet, weil sich in einem Auswahlgespräch die Möglichkeit
des direkten Austausches mit Vertretern der Hochschule ergibt. Dies wird als Chance
wahrgenommen, die eigene Persönlichkeit besser darstellen zu können (Deidesheimer Kreis,
1997). Auch bei einer Befragung von Studierenden, nach welchen Verfahren sie gern
ausgewählt würden, rangierten strukturierte, anforderungsbezogene Interviews zusammen mit
den Schulnoten an zweiter Stelle nach Studierfähigkeitstests (Hell & Schuler, 2005).
HZB-Note
Für die in Deutschland bislang vorrangig zur Studierendenauswahl eingesetzte HZB-Note
zeigte sich metaanalytisch, dass sie die spätere Studienleistung mit r = .31 (Trapmann, Hell,
Weigand & Schuler, 2007) bzw. r = .35 (Schuler, Funke & Baron-Boldt, 1990) recht gut
vorhersagen konnte. Nach Korrekturen für die Unreliabilität des Kriteriums und die
Varianzeinschränkungen stiegen diese Werte auf rcorr = .52 (Trapmann et al., 2007) bzw. rcorr
= .46 (Schuler et al., 1990). Diese Ergebnisse gelten auch für das Fach Psychologie: Steyer,
Yousfi und Würfel (2005) berichteten eine unkorrigierte Korrelation von r = .28 zwischen
HZB-Note und Diplomnote an der Universität Jena, Schmidt-Atzert (2005) eine unkorrigierte
Korrelation von r = .37 zwischen HZB-Note und Vordiplomnote an der Universität Marburg.
Die Abiturnote stellt ein Kompositum der Leistung in allen Schulfächern dar und schließt
sowohl mündliche als auch schriftliche Leistungen ein. Die in sie einfließenden Noten stellen
Beurteilungen mehrerer Lehrer über einen Zeitraum von zwei Jahren dar.
Internationale Befunde ergeben ein ähnliches Bild. Für Varianzeinschränkung korrigierte
Korrelationen aus Validitätsuntersuchungen lagen bei rcorr = .54 (N = 48039; Bridgeman,
McCamley-Jenkins & Ervin, 2000; N = 151316; Kobrin, Patterson, Shaw, Mattern & Barbuti,
2008) bzw. rcorr = .59 (N = 42985; Ramist, Lewis & McCamley-Jenkins, 2001) zwischen der
Schulabschlussnote und der durchschnittlichen Studiennote nach dem 1. Studienjahr.
Die Verwendung der HZB-Note zur Studienzulassung ist gleichwohl zu problematisieren, da
die HZB-Noten unterschiedlicher Bundesländer und Schultypen kaum vergleichbar sind
(Köller, Watermann, Trautwein & Lüdtke, 2004). Damit ist die Fairness für einzelne
Bewerber und Bewerbergruppen bei der Vergabe der Studienplätze auf der Basis der HZBNote in Frage gestellt, auch wenn die Vorhersage der Studienleistung trotz der geringen
Vergleichbarkeit insgesamt gut gelingt. Um den Unterschieden zwischen den Bundesländern
zu begegnen, wurden Länderquoten bei der Vergabe von Studienplätzen nach der HZB-Note
eingeführt (Deidesheimer Kreis, 1997). Einige Ursachen der geringen Vergleichbarkeit
bleiben davon jedoch unberührt. So ist es möglich, in der Sekundarstufe II einzelne Kurse
abzuwählen bzw. sie nicht in die Gesamtnote einfließen zu lassen. Einzelne Kurse können in
den meisten Bundesländern als Grund- bzw. Leistungskurse gewählt werden und fließen
demnach in unterschiedlichem Ausmaß in die HZB-Note ein (Steyer et al., 2005). Auch
Unterschieden, die sich durch strenge vs. milde Bewertungen verschiedener Lehrer ergeben,
wird durch Länderquoten nicht begegnet.
Einzelnoten
In Einzelnoten sind deutlich weniger Informationen enthalten als in der HZB-Note. Darüber
hinaus kommen in Einzelnoten Bewertungsunterschiede zwischen Lehrern deutlicher zum
Tragen als in der HZB-Note. Daher wurde eine Gewichtung von Einzelnoten als wenig
sinnvoll erachtet (Schmitt, 2005; Trost, 2005). Folgerichtig gelang durch Einzelnoten auch
keine Verbesserung der Vorhersage späterer Studienleistungen über die HZB-Note hinaus
(Steyer et al., 2005; Wedler, Troche & Rammsayer, 2008).
Leistungstests
Eine bewährte Methode für die Auswahl von Studierenden sind standardisierte Leistungstests,
die im deutschen Sprachraum bisher eher selten eingesetzt wurden. Die intensivsten
Erfahrungen mit dieser Methode liegen für den „Test für medizinische Studiengänge TMS“
vor, der von 1986 bis 1997 bei der Zulassung zu medizinischen Studiengängen
deutschlandweit eingesetzt wurde. Mit dem TMS wurden in neun Untertests Fähigkeiten
erfasst, welche für die erfolgreiche Bewältigung des Medizinstudiums als notwendig erachtet
wurden. In Studien zur Evaluation wurden Korrelationen von r = .45 zwischen der
Testleistung und der Note in der Ärztlichen Vorprüfung berichtet. Von besonderem Interesse
ist, dass die Testleistung über die HZB-Note hinaus inkrementelle Varianz (.R² = .07) im
Kriterium Studienleistung aufklären konnte (Trost et al., 1998; Trost, Klieme & Nauels,
1997).
Hell, Trapmann und Schuler (2007) betrachteten in ihrer Metaanalyse die Validität von
Leistungstests im Rahmen der Studierendenauswahl im deutschen Sprachraum. Die Mehrheit
der von den Autoren berücksichtigten Studien bezog sich ebenfalls auf den TMS und wies
eine hohe Vorhersagegüte, korrigiert für die Unreliabilität des Kriteriums und die
Variabilitätseinschränkung, von rcorr = .51 für den Studiengang Humanmedizin aus.
International werden Leistungstests sehr viel häufiger eingesetzt. Insbesondere in den USA ist
dieser Einsatz auch wissenschaftlich hervorragend untersucht und es gibt eine Vielzahl von
Validitätsuntersuchungen zur prädiktiven Validität dieser Tests. Bei der Auswahl für
Bachelor-Studiengänge (Undergraduate Studies) kommen – neben der HZB-Note – an mehr
als 3800 Colleges der SAT I und die SAT II: Subject Tests zum Einsatz (The College Board,
2010). Für die Zulassung zu Masterstudiengängen (Graduate Studies) werden in den USA an
mehr als 3200 Institutionen neben der Abschlussnote des 1. Studienabschnittes
(Undergraduate Grade Point Average, UGPA) ebenfalls allgemeine und bereichsspezifische
Tests eingesetzt (GRE General und GRE Subject Tests; Educational Testing Service [ETS],
2010).
Sowohl der SAT I als auch der GRE General Test erfassen schlussfolgerndes Denken mit
numerischem und verbalem Material (Bridgeman et al., 2000; ETS, 2009), d. h. die Aufgaben
sind nicht auf ein spezielles Curriculum bezogen und können in einer Vielzahl von
Studiengängen zur Auswahl eingesetzt werden. Für die Vorhersage der Noten nach dem 1.
Studienjahr wurden für den SAT I Validitätswerte, korrigiert für die Varianzeinschränkung in
den Testleistungen, von rcorr = .52 (Bridgeman et al., 2000) bzw. rcorr = .53 (Kobrin et al.,
2008) berichtet. Für den GRE General Test wurde in einer Metaanalyse mit den Daten von
mehr als 80.000 Studierenden die Abschlussnote des Graduierten-Studiums durch den GRE
vorhergesagt. Die für Varianzeinschränkung und die Unreliabilität des Kriteriums korrigierten
Korrelationen lagen bei rcorr = .32 für den GRE General Test mit quantitativem Material und
rcorr = .36 für den GRE General Test mit verbalem Material (Kuncel, Hezlett & Ones, 2001)
bzw. bei rcorr =.37 für den GRE General Test Gesamtscore (Kuncel & Hezlett, 2007).
Im Gegensatz zu den allgemeinen Leistungstests SAT I und GRE General Test erfassen die
SAT II: Subject Tests und die GRE Subject Tests erworbenes Wissen in bestimmten
Themenbereichen, bspw. Geschichte oder einer Fremdsprache, auf Schulabschlussniveau
(SAT II; Ramist et al., 2001) bzw. in einem spezifischen Fach aus dem 1. Studienabschnitt, z.
B. Chemie oder Psychologie (GRE Subject Tests; Kuncel et al., 2001). Die Vorhersagegüte
dieser Verfahren ist ebenfalls positiv zu beurteilen. Sie lag für die SAT II: Subject Tests bei
rcorr = .58 (Ramist et al., 2001) und für die GRE Subject Tests bei rcorr = .41 (Kuncel &
Hezlett, 2007; Kuncel et al., 2001).
Dass diese Befunde auch auf den Bereich der Psychologie übertragbar sind, lässt sich durch
Analysen auf Ebene von Subdisziplinen zeigen. Die Vorhersagegüte des GRE für die
Abschlussnote des Graduiertenstudiums in den Sozialwissenschaften, denen unter anderem
auch die Psychologie zugeordnet wird, lag bei .34 = rcorr =.39 für die einzelnen Bereiche des
GRE General Test und bei rcorr = .40 für die GRE Subject Tests (Kuncel et al., 2001).
In einer älteren Metaanalyse berichteten Goldberg und Alliger (1992) eine lediglich nach
Stichprobengröße gewichtete mittlere Korrelation von r = .29 zwischen der Leistung im GRE
Psychology und der Abschlussnote des Graduiertenstudiums im Fach in Psychologie. Dieser
Wert ist vergleichsweise gering; es ist allerdings davon auszugehen, dass die Leistung im
GRE Psychology ein Kriterium der Auswahl der Studierenden darstellte, deren Daten in die
Analysen einflossen. Demnach war die Varianz der Testleistung dieser Studierenden
gegenüber der Varianz in der Bewerberstichprobe vermutlich eingeschränkt und die Autoren
berichten keine Korrektur für die Variabilitätseinschränkung.
Ähnlich wie bei den Befunden zum TMS in Deutschland war auch bei den in den USA
eingesetzten Verfahren zur Studierendenauswahl eine inkrementelle Validität der Tests über
die Schulabschlussnote gegeben. Für den SAT I lag sie bei .R² = .08 (Bridgeman et al., 2000)
bzw. .R² = .09 (Kobrin et al., 2008) und für den SAT II bei .R² = .10 (Ramist et al., 2001).
Durch die gemeinsame Berücksichtigung der HZB-Note und der Testleistung ließ sich die
spätere Studienleistung präziser vorhersagen als durch die Verwendung nur eines Prädiktors.
Die Befunde zur prädiktiven und inkrementellen Validität standardisierter Leistungstests
sowie die oben berichtete Gesetzeslage bildeten die Grundlagen der von der Deutschen
Gesellschaft für Psychologie (DGPs) gegründeten „Kommission Studierendenauswahl“, über
deren Arbeit wir im nun folgenden Abschnitt berichten wollen.
Kommission Studierendenauswahl
Aufgabe der Kommission war es, eine Auswahlprozedur für die Zulassung zum Studium im
Fach Psychologie zu empfehlen und eine darauf aufbauende Testentwicklung zu initiieren.
Wir fassen zunächst die Ergebnisse der Arbeit der Kommission zusammen und stellen dann
die auf den Empfehlungen basierende Testentwicklung dar. Die „Kommission
Studierendenauswahl“ wurde im November 2004 von der DGPs als Reaktion auf die
Änderung des HRG eingesetzt (DGPs, 2007). Die von der Kommission zu entwickelnde
Auswahlprozedur sollte 1) die zukünftigen Studienleistungen der Bewerber möglichst präzise
vorhersagen können, 2) den einzelnen Hochschulorten spezifische Lösungen innerhalb eines
insgesamt bewährten Vorgehens erlauben und 3) den Anforderungen des HRG genügen. Die
Kommission sprach sich nach ihren Beratungen für eine modular aufgebaute Testbatterie aus
(DGPs, 2005b), in der mehrere Leistungstests kombiniert werden, deren Validität bei der
Vorhersage der späteren Studienleistung empirisch abgesichert ist. Die einzelnen Module
sollten verschiedene Fähigkeiten erfassen, die für ein erfolgreiches Absolvieren des
Psychologiestudiums aus anforderungsanalytischer Sicht (Heckel & Rössler, 2005;
Wetzenstein, 2004) günstig bzw. nötig sind: Schlussfolgerndes Denken sowie Mathematik-,
Englisch- und Biologievorkenntnisse (DGPs, 2005a). Olaf Köller und Oliver Wilhelm vom
Institut zur Qualitätsentwicklung im Bildungswesen wurden mit der Entwicklung von Tests
zur Erfassung dieser Fähigkeiten beauftragt. Die DGPs unterstützte die Testentwicklung mit
einer Anschubfinanzierung.
Operationalisierung der Testbatterie
Für die Tests zur Messung des schlussfolgernden Denkens wurde auf der Grundlage einer
umfassenden Recherche (Carroll, 1993; Wilhelm, 2000) eine Reihe von Testverfahren in
Betracht gezogen, die als besonders prototypische Instrumente gelten können. Bei der
Festlegung auf Itemtypen für die drei Inhaltsbereiche verbal, numerisch und figural (Wilhelm,
2005) wurden jeweils diejenigen ausgewählt, bei denen es möglich ist, anhand
einvernehmlich einschätzbarer Itemmerkmale neue Items mit vorhersehbaren Itemparametern
zu generieren: Im numerischen Untertest sind Gleichungen so zu lösen, dass für alle in den
Vorgaben enthaltenen Buchstaben die korrekten Zahlenwerte ermittelt werden, ohne dabei
Notizen anzufertigen. Im verbalen Untertest „Propositionen“ ist aus mehreren
Schlussfolgerungen diejenige auszuwählen, welche alle genannten Prämissen erfüllt. Im
figuralen Untertest „Matrizen“ sind die Regeln zu erkennen und anzuwenden, nach denen
Lage, Schraffur, Anzahl und Form geometrischer Figuren variieren. Beispielaufgaben sind in
Tabelle 1 dargestellt.
Die Verfahren zur Erfassung der Englisch-, Mathematik- und Biologiekenntnisse wurden so
konstruiert, dass sie die Teilaspekte des jeweiligen Faches erfassen, die für das
Psychologiestudium besonders relevant sind. Im Mathematiktest sind Aufgaben aus den
Bereichen „Analysis und Funktionen“ sowie „Statistik und Stochastik“ zu lösen (vgl.
TOSCA-Studie; Watermann, Nagy & Köller, 2004). Der Biologietest besteht aus deklarativen
Wissensfragen zu psychologienahen Themen der Biologie wie Stoffwechsel, Nervensystem
sowie Gedächtnis und Lernen, die anhand von Lehrbüchern der Abiturstufe entwickelt
wurden. Der Englischtest ist ein Leseverstehenstest mit Testletstruktur, in welchem
englischsprachige Verständnisfragen zu Originaltexten aus englischen Zeitschriften zu
beantworten sind; das Niveau entspricht den Stufen B2 und C1 des Gemeinsamen
Europäischen Referenzrahmens für Sprachen (Council of Europe, 2001).
Zusätzlich zu den genannten Tests, deren Entwicklung auf den Empfehlungen der
Kommission beruhte, wurde ein domänenspezifischer Verständnistest für das Studienfach
Psychologie entwickelt. Der so genannte „Psychologieverständnistest“ ähnelt in seinen
Anforderungen späteren Studienanforderungen: Er enthält Texte, die z. T. mit Abbildungen
und Tabellen ergänzt wurden und den Charakter und das Niveau eines Einführungsbuches
aufweisen. Die Texte behandeln Themen der sechs Grundlagenfächer der Psychologie
(Allgemeine, Biologische und Differentielle Psychologie, Sozial- und
Entwicklungspsychologie sowie Methoden der Psychologie). Im Test sind Verständnisfragen
zu vorgegebenen Texten zu beantworten.
--- bitte Tabelle 1 hier einfügen --Alle Tests wurden in mehreren Vorstudien erprobt und überarbeitet (Formazin et al., 2008;
Kunina, Wilhelm, Formazin, Jonkmann & Schroeders, 2007; Schroeders & Wilhelm, in press;
Wilhelm et al., 2006), so dass eine psychometrisch optimierte Testbatterie zusammengestellt
werden konnte.
FORSCHUNGSFRAGEN / HYPOTHESEN
In der vorliegenden Arbeit wurden drei Forschungsfragen verfolgt. Als erstes war zu zeigen,
dass die Einzeltests der Testbatterie psychometrische Erwartungen in Bezug auf
Schwierigkeit, Trennschärfe und Reliabilität erfüllten. Wir gingen davon aus, dass den Tests
jeweils eine eindimensionale Struktur zugrunde lag.
Zum zweiten war die Struktur der gesamten Testbatterie in konfirmatorischen Messmodellen
zu überprüfen. Die drei Tests "Gleichungen lösen", "Propositionen" und "Matrizen" sollten
sich auf einen gemeinsamen Faktor "Schlussfolgerndes Denken" zurückführen lassen, da für
alle drei Aufgabentypen ein Extrahieren von Informationen aus vorgegebenen Materialien
und ein zueinander in Beziehung setzen dieser Informationen nötig ist, um die Aufgaben
lösen zu können. Dieser Faktor wird in enger Anlehnung an den Faktor für die fluide
Intelligenz „gf“ in Carrolls Drei-Stratum-Theorie der kognitiven Fähigkeiten (Carroll, 1993,
2005) angesehen. Es handelt sich bei der fluiden Intelligenz nicht um einen Inhaltsfaktor, so
dass sich Aufgaben verschiedenen Inhalts, die die gleiche Art der kognitiven Operation
verlangen, auf diesen Faktor zurückführen lassen sollten (vgl. Cattell, 1971). Die Leistungen
in den vier anderen Tests sollten sich ebenfalls zu einem Teil auf diesen Faktor zurückführen
lassen: Die Aufgaben im Mathematiktest setzten zur Lösung ein hohes Maß an
schlussfolgerndem Denken voraus (Gustafsson, 1984; Gustafsson & Balke, 1993; Köller et
al., 2004). Gleiches galt für die Leistung im Englisch- sowie im Psychologieverständnistest,
denn Verstehensaufgaben verlangen bei der Lösungsfindung ebenfalls ein zueinander in
Beziehung setzen von Informationen und Ableiten von Schlussfolgerungen, wie dies typisch
für Aufgaben zum schlussfolgernden Denken ist. Für die Aufgaben des Biologietests traf dies
in einem geringeren Ausmaß zu, da dieser Test stärker das Abrufen des erlernten Wissens und
weniger dessen Anwendung erforderte.
Darüber hinaus war zu untersuchen, inwiefern sich neben dem allen Indikatoren gemeinsamen
Faktor ein weiterer geschachtelter Faktor in einem Messmodell etablieren ließ. Dieser latente
Faktor würde die gemeinsamen Varianzanteile des erworbenen Wissens darstellen, so dass
sich die Leistungen im Biologie-, Mathematik- Englischverständnis- und
Psychologieverständnistests zusätzlich auf diesen Faktor zurückführen lassen sollten. Nach
Cattells Investmenttheorie (1971) lässt sich erworbenes Wissen zu einem bestimmten
Zeitpunkt t, welches er als kristalline Intelligenz bezeichnete, auf fluide Intelligenz zu einem
früheren Zeitpunkt t’ zurückführen, da für den Erwerb von kristalliner Intelligenz der Einsatz
von fluider Intelligenz nötig sei. Neben der fluiden Intelligenz würden auch
Bildungsmöglichkeiten, Persönlichkeitsmerkmale und Interessen die Entstehung der
kristallinen Intelligenz beeinflussen (Cattell, 1963). Demnach war davon auszugehen, dass
Aufgaben, die die Anwendung von erworbenem Wissen erforderten, sich neben dem Faktor
für das erworbene Wissen auch auf den Faktor für die fluide Intelligenz zurückführen lassen
würden.
Da der HZB-Note im Rahmen der Studienzulassung sowohl in der Vergangenheit als auch der
Gegenwart eine hohe Bedeutsamkeit zukommt, sollte sie ebenfalls in das Modell integriert
werden. Die HZB-Note ist ein Kompositum einer Vielzahl von Schulleistungen, in denen die
Schüler ihr erworbenes Wissen unter Beweis stellen, so dass davon auszugehen war, dass sich
die HZB-Note substantiell auf den Faktor für das erworbene Wissen zurückführen
lassen würde. Darüber hinaus ist insbesondere in der Sekundarstufe II auch das Anwenden
des erworbenen Wissens auf neue Sachverhalte bedeutsam, so dass gleichzeitig eine moderate
Ladung auf den Faktor für das schlussfolgernde Denken zu erwarten war.
Die dritte Fragestellung war zugleich der zentrale Aspekt der vorliegenden Arbeit: Wir
wollten zeigen, dass die Leistung in den einzelnen Tests und die Abiturdurchschnittsnote die
Studienleistungen vorhersagen würden. Wir erwarteten, dass die Tests zum einen aufgrund
ihrer Gleichartigkeit zu bewährten Instrumenten der Studienzulassung und zum anderen
aufgrund ihres konkreten Bezugs zum Fach Psychologie gute Prädiktoren der
Studienleistungen sein würden. In Anlehnung an Befunde von Ackerman und Beier
(Ackerman & Beier, 2006; Beier & Ackerman, 2005) gingen wir davon aus, dass
insbesondere das erworbene fachrelevante Vorwissen zum Zeitpunkt der Studienzulassung ein
starker Prädiktor für die Vorhersage der späteren Studienleistung sein würde. Auch die in den
USA zur Studierendenauswahl eingesetzten fachbezogenen Wissenstests SAT II: Subject
Tests und GRE Subject Tests konnten die spätere Studienleistung besser vorhersagen als der
SAT I und der GRE General Test (Kuncel et al., 2001; Ramist et al., 2001).
Die Modellierung der Indikatoren erfolgte auf latenter Ebene in einem
Strukturgleichungsmodell (SEM). Das eröffnete die Möglichkeit, die Zusammenhänge
zwischen einzelnen Tests genauer zu verstehen und auf die den Testleistungen zugrunde
liegenden Konstrukte zu fokussieren. Anstelle des vielfach üblichen Rückgriffs auf ein
einzelnes Leistungskomposit wurde es durch die Modellierung latenter Variablen möglich,
konkurrierende Vorstellungen über die Struktur der Prädiktoren zu vergleichen. Mit dieser
Modellierung gingen wir über die Mehrzahl der vorliegenden Befunde etwa zum SAT I und
den SAT II: Subject Tests hinaus. Des weiteren wollten wir mit der Modellierung der
Kovarianzen auf latenter Ebene der Frage nachgehen, in welchem Maße die den Tests
zugrunde liegenden Konstrukte die Studienleistung vorhersagen konnten. In vielen anderen
Studien wurde diese Einbettung in ein nomologisches Netz nicht angestrebt. Darüber hinaus
ermittelten wir mit Regressionsanalysen auf manifester Ebene, über welche Vorhersagegüte
die Testbatterie verfügte.
TESTDURCHFÜHRUNG
Die Testbatterie wurde für die Auswahl der Studierenden für den Bachelor-Studiengang
Psychologie der Freien Universität Berlin für das Wintersemester 2007/2008 eingesetzt. Die
Freie Universität übernahm einen Teil der Testdurchführungskosten, der verbleibende Teil
wurde durch die Testteilnehmer beglichen.
Alle Bewerber bearbeiteten die Tests in der gleichen Reihenfolge: Drei Tests zum
schlussfolgernden Denken (Gleichungen lösen, Propositionen, Matrizen),
Psychologieverständnistest, Mathematiktest, Englischtest und Biologietest. Es wurden vier
pseudoparallele Testformen erstellt, die sich ausschließlich in der Reihenfolge der
Antwortalternativen unterschieden. Zwei Testformen wurden in der Vormittagstestung, die
anderen beiden in der Nachmittagstestung eingesetzt. Ein Austausch zwischen Bewerbern der
Vor- und der Nachmittagstestung war nicht möglich, weil die beiden Gruppen direkt im
Anschluss aneinander getestet wurden.
Die Testdurchführung erfolgte durch geschulte Testleiter des Data Processing Centers. An der
streng kontrollierten Testung im Juli 2007 nahmen 1191 Bewerber teil. Zwei Personen
brachen den Test ab, für zwei weitere Personen mit Sehbehinderungen wurden die
Schriftgröße des Testhefts und die Testlänge angepasst. Vollständige und vergleichbare Daten
lagen somit für 1187 Personen vor.
Für jeden Bewerber wurde ein Testgesamtwert ermittelt, der sich als Mittelwert über die zstandardisierten Personenparameter der Leistung in den einzelnen Tests ergab. Nach Abzug
der Vorabquoten für Härtefälle, ausländische Studienbewerber und Zweitstudienbewerber
wurden 60 % der verbleibenden ca. 100 Studienplätze anhand einer Wertzahl vergeben, in der
die z-standardisierte Testleistung zu 49 % und die rekodierte, z-standardisierte
Abiturdurchschnittsnote zu 51 % eingingen. Eine stärkere Gewichtung der Testleistung war
aufgrund rechtlicher Vorschriften nicht möglich. Weitere 20 % der Bewerber wurden jeweils
auf Basis ihrer HZB-Note oder Wartezeit zum Studium zugelassen. Die Teilnahme am Test
war nicht verpflichtend. Da allerdings die Auswahl aufgrund der Quoten für HZB-Note und
Wartezeit zum Zeitpunkt der Testdurchführung noch nicht feststand, nahmen sehr viele
Studienbewerber an der Testung teil, um ihre Zulassungschancen zu verbessern. So haben
auch Bewerber mit einer HZB-Note von 1.0, die vermutlich über die Abiturbestenquote
zugelassen wurden, am Test teilgenommen. Ebenso lagen für Personen mit eher schlechteren
HZB-Noten, die vermutlich später über die Wartezeitquote einen Studienplatz erhielten,
Testergebnisse vor. Aus datenschutzrechtlichen Gründen konnten keine Informationen
erhoben werden, über welche Quote die Studierenden zum Studium zugelassen wurden; aus
dem selben Grund war es auch nicht möglich, eine Präzisierung des genauen Anteils der
Personen vorzunehmen, die nicht am Test teilnahmen, aber dennoch zum Studium zugelassen
wurden. Alle Bewerber wurden bei der Testung gebeten, ihr Alter, ihre HZB-Note und ihr
Geschlecht anzugeben.
METHODEN DER DATENANALYSE
Die Datenanalyse erfolgte stufenweise. In einem ersten Schritt wurden in allen Untertests
Items identifiziert, die durch besonders extreme Schwierigkeiten und / oder sehr geringe
Trennschärfen auffielen; diese Items wurden von weiteren Analysen ausgeschlossen. In einem
zweiten Schritt wurden konfirmatorische Messmodelle für die einzelnen Untertests etabliert,
um zu überprüfen, ob der Leistung in jedem Untertest jeweils eine latente Fähigkeit zugrunde
lag. War die Passung eines solchen Modells ungenügend, so wurden mit Hilfe einer
schrittweisen Variablenauswahl in explorativen Faktorenanalysen (SEFA; Kano & Harada,
2000) Items identifiziert, durch deren Ausschluss die Modellpassung verbessert werden
konnte. Diese Items wurden ebenfalls von den weiteren Analysen ausgeschlossen.
Die für jeden Bewerber pro Test mit dem robusten Maximum-Likelihood-Schätzer MLR
ermittelten Personenparameter in einem zweiparametrigen logistischen Modell bildeten die
Grundlage für die Analyse der Zusammenhänge zur Beantwortung unserer zweiten
Forschungsfrage. Die Leistung der Bewerber in allen Tests wurde in einem gemeinsamen
Messmodell analysiert. Dieses Modell war in einem weiteren Schritt durch die rekodierte
HZB-Note zu ergänzen. Da diese nicht von allen Bewerbern vorlag, war ein adäquates
Verfahren zum Umgang mit fehlenden Werten anzuwenden. Wir gingen davon aus, dass die
Daten im Sinne von „missing at random (MAR)“ gemäß der Definition von Little und Rubin
(2002) fehlten. Die Bezeichnung „missing at random“ ist etwas missverständlich, denn der
Grund für das Fehlen der Werte kann durchaus mit der Ausprägung dieser Variablen
zusammenhängen – im vorliegenden Fall ließe sich vermuten, dass bspw. Personen mit eher
schlechterer HZB-Note diese nicht angaben. Wenn aber weitere Daten erhoben werden, die
diese Ursache ebenfalls erfassen und in das Modell für die fehlenden Werte mit aufgenommen
werden können, kann man für den Bias des Fehlens korrigieren: „once one has conditioned on
the cause of missingness (which is available), the missingness is random“ (Graham, Cumsille
& Elek-Fisk, 2003, S. 89). Im vorliegenden Fall bedeutete MAR, dass das Fehlen der HZBNote bei einzelnen Bewerbern nach Kontrolle der Personenparameter in den sieben Tests
weder von der HZB-Note selbst noch von anderen Variablen abhing.
Die Annahme MAR lässt sich empirisch nicht überprüfen (Little & Rubin, 2002). Collins,
Schafer und Kam (2001) haben in ihren Simulationsstudien gezeigt, dass in vielen Fällen die
fälschliche Annahme MAR nur sehr geringe Auswirkungen auf die Schätzungen und die
Standardfehler hat.
Im Umgang mit den fehlenden Werten griffen wir auf das Verfahren der Full-InformationMaximum-Likelihood (FIML; Graham, 2009; Schafer, 1997; Schafer & Graham, 2002)
zurück, bei dem die Behandlung fehlender Werte und die Schätzung des Modells in einem
gemeinsamen Schritt erfolgten. Das bedeutet, dass eine Modellschätzung unter
Berücksichtigung aller Personen vorgenommen wurde, also auch derjenigen mit fehlenden
Werten. Die Schätzung der Populationsparameter und ihrer Standardfehler erfolgte dabei auf
der Basis der beobachteten Daten unter der Annahme MAR, ohne dass die fehlenden Werte
imputiert wurden (Lüdtke, Robitzsch, Trautwein & Köller, 2007).
Um eine verbesserte Schätzung zu erreichen, wurden Hilfsvariablen („auxiliary variables“) in
das Modell eingeschlossen, die mit dem Fehlen der Werte selbst oder den Variablen mit
fehlenden Daten einen Zusammenhang aufwiesen. Dies ist über den FIML-Ansatz direkt
möglich, ohne dabei die Struktur des Modells zu verändern (Graham, 2003; Graham,
Olchowski & Gilreath, 2007). Simulationsstudien haben gezeigt, dass der Rückgriff auf
möglichst viele dieser Hilfsvariablen im besten Fall positiv, im schlechtesten Falle neutral ist
und Effekte, die durch nicht-zufälliges Fehlen von Daten entstehen, abschwächen kann
(Collins et al., 2001). Mit Mplus 5.21 (L. K. Muthén & Muthén, 1998-2009) war eine
Umsetzung des FIML-Ansatzes unter Einschluss von Hilfsvariablen möglich (Asparouhov &
Muthén, 2008). Als Hilfsvariablen wurden das Alter der Bewerber zum Testzeitpunkt, ihr
Geschlecht, ihre Einwilligung zur Weitergabe der Daten (ja / nein) sowie der Zeitpunkt der
Testung (Vor- vs. Nachmittag) eingesetzt.
Zur Beantwortung unserer dritten Forschungsfrage über die Vorhersage der Studienleistung
der Bewerber durch die Leistung in den einzelnen Tests und die rekodierte HZB-Note
etablierten wir ein SEM. Bei der Modellierung trat die Schwierigkeit auf, dass nur ein sehr
geringer Anteil der Bewerber aufgrund der begrenzten Anzahl an Studienplätzen tatsächlich
für das Studium zugelassen werden konnte. Die Noten der nicht zugelassen Studierenden
fehlten wiederum im Sinne von „missing at random“, weil diese Bewerber maßgeblich
aufgrund ihrer Ergebnisse in den Tests und ihrer HZB-Note nicht zum Studium zugelassen
wurden. Daher wurde für die Modellierung wieder auf den FIML-Ansatz unter
Berücksichtigung der bereits benannten vier Hilfsvariablen sowie der Information, ob eine
Zulassung zum Studium im WS 2007/2008 erfolgte (ja / nein), zurückgegriffen. Die
Schätzung der Parameter erfolgte wiederum auf der Basis aller beobachteten Daten, also auch
unter Berücksichtigung der Daten derjenigen Personen, die nicht zum Studium zugelassen
wurden, und der Daten von Studierenden, die nicht alle Prüfungsmodule abgeschlossen
hatten. Demnach lagen auf der Prädiktorseite Daten von 1187 Bewerbern vor, auf der
Kriterienseite jedoch nur Noten von 79 Studierenden. Bei der Evaluation der Passung dieses
SEM ist zu berücksichtigen, dass mit einem steigenden Anteil fehlender Daten sowohl
absolute Fit-Indices wie der RMSEA als auch inkrementelle Fit-Indices wie der CFI dazu
tendieren, die Modellpassung zu überschätzen (Davey, Savla & Luo, 2005).
Um die Unsicherheit der Ergebnisse aufgrund der Schätzungen des SEM bei einem sehr
hohen Anteil fehlender Werte in Rechnung zu stellen, wurden zusätzlich Regressionsanalysen
auf manifester Ebene vorgenommen. Dazu wurde die mittlere Studiennote für alle n = 79
Bewerber ermittelt, von denen mindestens eine Note vorlag. Die mittlere Testleistung dieser
Studierenden und ihre HZB-Note bildeten die Grundlage für die Regressionsanalysen. Auf
diesem Wege ließ sich ermitteln, wie gut die mittlere Testleistung und die HZB-Note einzeln
und gemeinsam die mittlere Studiennote vorhersagen konnten.
Aufgrund der theoretischen Annahme der Existenz zweier unterscheidbarer latenter Faktoren
auf der Prädiktorseite wurden zusätzlich Faktorscores für die beiden latenten Faktoren für das
schlussfolgernde Denken und das erworbene Wissen ermittelt, um eine Aussage über ihre
Vorhersagegüte bei der Vorhersage der Studienleistung treffen zu können. Die Factorscores
wurden auf der Grundlage der vollständig vorliegenden Testleistungen für alle N = 1187
Bewerber über die Methode „maximum a posteriori (MAP)“ mit MPlus 5.21 geschätzt (B. O.
Muthén, 2008). Auch bei fixierter Orthogonalität der Factorscores im Messmodell können die
Factorscore-Schätzungen korreliert sein (D. Borsboom, personal communication, July 2,
2010), so dass eine Procrutes-Rotation der Factorscore-Schätzungen nach der Methode von
Beauducel und Rabe (2009) vorgenommen wurde, um die Analysen auf der Basis
orthogonaler Factorscore-Schätzungen vornehmen zu können.
ERGEBNISSE
Von den 1049 Bewerbern (88.37 % der Testteilnehmer), die ihre demographischen Daten auf
freiwilliger Basis gaben, waren 82.46 % weiblich; das mittlere Alter betrug 21.35 Jahre zum
Zeitpunkt der Testung. Demnach waren die Testteilnehmer gut 2 Jahre jünger als die
deutschlandweit zum Wintersemester 2007/2008 zugelassenen Studierenden im 1.
Fachsemester Psychologie (M = 23.72 Jahre); und es nahmen etwas mehr Frauen am Test teil,
als bundesweit zum Psychologiestudium zugelassen wurden (Anteil der Frauen = 79.12 %;
Statistisches Bundesamt, 2009).
Tabelle 2 gibt eine Übersicht über die Ergebnisse psychometrischer Analysen der Einzeltests.
Nach der Elimination einzelner Items (vgl. Tabelle 2), deren Trennschärfe ungenügend war
oder die die eindimensionale Struktur des Tests verletzten, wiesen alle Tests befriedigende
Reliabilitäten auf. An der mittleren Schwierigkeit der Aufgaben lässt sich ablesen, dass die
Einzeltests – wie für ein sehr selektives Verfahren wünschenswert – auch im oberen Spektrum
der Fähigkeitsverteilung hinreichend diskriminieren konnten.
--- bitte Tabelle 2 hier einfügen --Die Korrelationen der Personenparameter in den sieben Tests, der mittleren Testleistung und
der rekodierten HZB-Note (M = 2.23, SD = 0.56; n = 1062) auf manifester Ebene waren
moderat (vgl. Tabelle 3). Der Psychologieverständnistest wies den höchsten Zusammenhang
zum Englischtest, der ebenfalls ein Verständnistest war, auf. Auch zur verbalen Skala des
schlussfolgernden Denkens bestand ein hoher Zusammenhang des
Psychologieverständnistests. Die Korrelation von r = .42 zwischen der mittleren Testleistung
und der HZB-Note war ebenfalls als moderat zu bezeichnen.
--- Tabelle 3 bitte hier einfügen --In einem Messmodell wurde die Leistung in allen sieben Tests auf einen gemeinsamen
latenten Faktor zurückgeführt, der das schlussfolgernde Denken darstellte. Die Passung eines
solchen Modell war mit .² (14, N = 1187) = 88.30, p < .01, CFI = .95 und RMSEA = .07
akzeptabel. Mit der Etablierung eines zweiten, geschachtelten Faktors, auf den die drei
schulfachbezogenen Tests sowie der Psychologieverständnistest luden und der das (vorrangig
in der Schule) erworbene Wissen darstellte, verbesserte sich die Passung des Modells
deutlich: .² (10, N = 1187) = 31.59, p < .01, CFI = .99 und RMSEA = .04. Alle Pfade waren
überzufällig von null verschieden und die verbleibenden Residualkorrelationen waren mit
rResid < .05 gering. Der Biologietest wies die geringste Ladung auf dem gemeinsamen Faktor
für das schlussfolgernde Denken auf, während die anderen Tests stärker auf diesem Faktor
luden. Demgegenüber war die Ladung des Mathematiktests auf dem Faktor für das erworbene
Wissen am geringsten (vgl. Abbildung 1).
--- bitte Abbildung 1 hier einfügen --In einem nächsten Schritt wurde die rekodierte HZB-Note mit Ladungen auf beiden latenten
Faktoren in das Modell integriert. Die Passung dieses Modells war mit .² (15, N = 1187) =
68.14, p < .01, CFI = .97 und RMSEA = .06 ebenfalls als zufrieden stellend zu bewerten (vgl.
Abbildung 2). Die Ladungen der HZB-Note auf die beiden latenten Faktoren waren von
gleicher, moderater Höhe. Alle Pfade waren wiederum überzufällig von null verschieden und
die verbleibenden Residualkorrelationen waren mit rResid < .05 gering.
--- bitte Abbildung 2 hier einfügen --Nach zwei Studienjahren lagen von n = 79 Studierenden, die an der Testung teilgenommen
hatten, Noten in mindestens einem der 14 Module vor, deren Abschluss gemäß der
Studienordnung der FU Berlin innerhalb der ersten vier Semester vorgesehen ist. Da mehr als
die Hälfte dieser Studierenden in drei Modulen noch keine Prüfung absolviert hatte, wurden
diese Module von der Modellierung der Studienleistung ausgeschlossen. Für die
verbleibenden elf Module lagen von fast 70 % der Studierenden vollständige Noten vor, bei
weiteren 15 % der Studierenden fehlten ein oder zwei Modulnoten, die verbleibenden 10
Studierenden hatten acht oder weniger Module mit einer Prüfung abgeschlossen.
Ein g-Faktor-Modell, in dem die Leistung der n = 79 Studierenden in den verbleibenden elf
Modulen unter Modellierung der Missings im FIML-Ansatz auf einen gemeinsamen Faktor
zurückgeführt wurde, hatte eine gute Passung mit .² (44, N = 1187) = 59.41, p = .06, CFI =
.95 und RMSEA = .07. Modellierte man die drei Studienbereiche „Grundlagen“, „Methoden
und Diagnostik“ sowie „Anwendung“ als distinkte, korrelierte Faktoren, so verbesserte sich
die Modellpassung nur minimal und die Korrelationen zwischen den latenten Variablen waren
alle . = .87. Daher beschränkten wir uns in weiteren Analysen auf das sparsamere g-FaktorModell. In die Bestimmung der mittleren Studiennote (M = 2.09, SD = 0.55) flossen alle
vorliegenden Noten aus den elf Modulen ein.
Zur Beantwortung unserer dritten und zentralen Forschungsfrage über die prädiktive Validität
der Testleistung für die Vorhersage der nach zwei Jahren erzielten Studienleistungen wurden
in einem weiteren Schritt die Messmodelle für die Tests auf der Prädiktorseite und die
Studiennoten auf der Kriterienseite in einem gemeinsamen Strukturgleichungsmodell
modelliert (Abbildung 3). In dieses SEM flossen die Testleistungen für alle 1187 Bewerber
und die Studiennoten von 79 Studierenden ein. Die Passung des Modells war zufrieden
stellend: .² (129, N = 1187) = 208.95, p < .01, CFI = .96 und RMSEA = .02. Die Passung war
deutlich schlechter, wenn auf der Prädiktorseite auf die Modellierung des geschachtelten
Faktors verzichtet und lediglich ein gemeinsamer Faktor modelliert wurde: .² (134, N = 1187)
= 274.93, p < .01, CFI = .93 und RMSEA = .03.
Im Modell mit dem geschachtelten Faktor waren alle Pfade überzufällig von null verschieden.
Das erworbene Wissen erklärte einen substantiellen Anteil der späteren Studienleistung mit ß
= .59. Ergänzt durch das schlussfolgernde Denken (ß = .32), konnten 44 % der Varianz des
Kriteriums Studienleistung aufgeklärt werden. Fixierte man die Pfadkoeffizienten beider
latenter Faktoren auf Gleichheit, so veränderte sich die Passung des Modells nur geringfügig
.² (130, N = 1187) = 210.61, p < .01, CFI = .96 und RMSEA = .02. Der Unterschied in der
Modellpassung war nicht überzufällig von null verschieden: ..² (1, N = 1187) = 1.66, p = .20.
--- bitte Abbildung 3 hier einfügen ---
Vergleichbar dem Vorgehen bei der Modellierung auf der Prädiktorseite wurde auch das
Strukturmodell um die rekodierte HZB-Note ergänzt, die von n = 1062 Personen vorlag
(Abbildung 4). Die Passung des Modells war zufrieden stellend: .² (145, N = 1187) = 251.99,
p < .01, CFI = .95 und RMSEA = .03. In diesem Modell waren die Pfadkoeffizienten
gegenüber dem Modell ohne die HZB-Note etwas höher: für den Faktor für das erworbene
Wissen betrug ß = .65, für den Faktor für das schlussfolgernde Denken ß = .32. Zusammen
klärten beide Faktoren 52 % der Varianz des Kriteriums Studienleistung auf. Wie bei dem
Strukturmodell ohne die HZB-Note fiel auch hier die Passung deutlich schlechter aus, wenn
auf der Prädiktorseite auf die Modellierung des geschachtelten Faktors verzichtet und
lediglich ein gemeinsamer Faktor modelliert wurde: .² (151, N = 1187) = 341.48, p < .01, CFI
= .91 und RMSEA = .03.
--- bitte Abbildung 4 hier einfügen --Die Ergebnisse der Regressionsanalysen auf manifester Ebene für die n = 79 zugelassenen
Studierenden sind in Tabelle 4 dargestellt. Es wird deutlich, dass die HZB-Note mit R² = .14
(Modell 1a) eine etwas bessere Vorhersage der Studiennoten nach zwei Jahren erlaubte als die
mittlere Testleistung mit R² = .10 (Modell 1b). Der Factorscore für das erworbene Wissen
(Modell 1d) war dem Factorscore für das schlussfolgernde Denken (Modell 1c) in der
Vorhersage der Studienleistung überlegen: .R² = .06.
--- bitte Tabelle 4 hier einfügen --Sowohl die HZB-Note als auch der mittlere Testwert waren inkrementell valide zueinander,
da sie gemeinsam mehr Varianz der mittleren Studiennote aufklärten als einer der beiden
Prädiktoren allein. Dabei führten der Zulassungswert, in welchem die HZB-Note zu 51 % und
die mittlere Testleistung zu 49 % einfloss (Modell 2a), und die frei geschätzte Gewichtung
beider Prädiktoren (Modell 2b) zu sehr ähnlichen Ergebnisse mit R² = .19 bzw. R² = .18.
Gegenüber der ausschließlichen Berücksichtigung der HZB-Note wurde somit eine um 35.7
% bzw. 28.7 % verbesserte Varianzaufklärung der Studienleistung erreicht.
Die Aufnahme des Factorscores für das schlussfolgernde Denken zusätzlich zur HZB-Note
(Modell 2c) führte zu keiner präziseren Vorhersage der Studiennote, während die
Hinzunahme des Factorscores für das erworbene Wissen (Modell 2d) eine Vorhersagegüte
erreichte, die mit R² = .19 der Höhe des mittleren Testwertes entsprach.
Weiterhin wurde deutlich, dass durch die gemeinsamen Berücksichtigung der Factorscores für
das schlussfolgernde Denken und das erworbene Wissen (Modell 2e) die Studienleistung mit
R² = .13 etwas präziser vorhergesagt werden konnte als durch die mittlere Testleistung. Dieser
Befund verdeutlicht, dass die im Messmodell vorgenommene Modellierung eines
geschachtelten Faktors für das erworbene Wissen zusätzlich zum gemeinsamen Faktor für das
schlussfolgernde Denken sich auch positiv auf die Vorhersagegüte auswirkte.
In einem letzten Schritt (Modell 3) wurde für die Vorhersage der Studienleistung auf drei
Prädiktoren zurückgegriffen – neben der HZB-Note wurden die Factorscores für das
erworbene Wissen und das schlussfolgernde Denken berücksichtigt. In diesem Modell wurden
20 % der Varianz der Studienleistung durch die Prädiktoren aufgeklärt, wobei das
Betagewicht für den Factorscore des schlussfolgernden Denkens als nicht überzufällig von
null verschieden ausgewiesen wurde. In diesem Modell wurde gegenüber der alleinigen
Berücksichtigung der HZB-Note 6 % mehr Varianz in der Studienleistung aufgeklärt, die
Varianzaufklärung ist also um 42.9 % verbessert. Gleichzeitig wird erneut deutlich, dass
durch die ausschließliche Berücksichtigung der mittleren Testleistung gegenüber der
Berücksichtigung der Factorscores wertvolle Information verschenkt würde (vgl. Modell 2a
und 2b vs. Modell 3).
DISKUSSION
In der vorliegenden Arbeit haben wir die Entwicklung einer Testbatterie geschildert, die zur
Auswahl von Studierenden für das Fach Psychologie eingesetzt werden kann. Wir haben
Befunde zur Struktur der den Tests zugrunde liegenden Konstrukte vorgestellt und erste
Hinweise zur Vorhersagegüte der Testbatterie für die Studienleistung innerhalb der ersten
zwei Jahre berichtet.
Es ist uns gelungen, eine Testbatterie zu entwickeln, die psychometrischen Ansprüchen in
Bezug auf Schwierigkeit, Trennschärfe und interner Konsistenz genügte. Den Tests lag
jeweils eine einzelne latente Fähigkeit zugrunde.
In einem gemeinsamen Messmodell ließ sich zeigen, dass der Leistung in allen sieben Tests
ein gemeinsamer Faktor zugrunde lag, der als schlussfolgerndes Denken aufgefasst werden
sollte. Darüber hinaus ließ sich, entsprechend unserer Erwartungen, ein weiterer
geschachtelter Faktor etablieren, auf den die drei schulfachbezogenen Tests für Englisch,
Mathematik und Biologie und der Psychologieverständnistest Ladungen aufwiesen und der
die durch erworbenes Wissen gebündelten Varianzanteile darstellte. Die HZB-Note ließ sich
ebenfalls in diesem Modell mit Ladungen auf beiden latenten Faktoren verorten.
In einem SEM wurde deutlich, dass die den Tests und der HZB-Note zugrunde liegenden
Fähigkeiten zum Studienbeginn gute Prädiktoren der Studienleistung nach zwei Jahren waren.
Gemeinsam konnten die beiden latenten Faktoren rund die Hälfte der Varianz der
Studiennoten aufklären.
Die Befunde auf manifester Ebene gingen in die gleiche Richtung, wenngleich ihre absolute
Höhe geringer war. Die Leistungstests waren inkrementell valide über die HZB-Note hinaus
und vice versa. Stellte man die Trennung der zwei distinkten latenten Faktoren auf der
Prädiktorseite in Rechnung, konnte die spätere Studienleistung etwas präziser vorhergesagt
werden als bei der Berücksichtigung des mittleren Testwerts.
Weitere Varianz der Studienleistung ließe sich vermutlich durch Prädiktoren wie Motivation
und Persönlichkeitsmerkmale, aber auch die ggf. notwendige Erwerbstätigkeit neben dem
Studium zur Sicherung des Lebensunterhaltes sowie die persönliche und familiäre Situation
der Studierenden (Krankheit, Schwangerschaft, Kinderbetreuung) erklären.
Bevor die wesentlichen Befunde diskutiert werden, möchten wir noch einmal deutlich
machen, dass die von uns berichteten Analysen sich den Rahmenbedingungen der gegebenen
Zulassungspraxis anpassen mussten. Der Anteil fehlender Werte war auf der Kriterienseite
sehr hoch, da nur Noten von n = 79 Studierenden der N = 1187 getesteten Bewerber vorlagen.
Demnach sind Ergebnisse, die Kriterienleistungen betreffen, mit nennenswerten
Konfidenzintervallen behaftet. Die Analysen wurden unter der Annahme „missing at random“
gerechnet, welche sich nicht empirisch überprüfen lässt (Little & Rubin, 2002). Es kann nicht
ausgeschlossen werden, dass die Modellpassung für die Strukturmodelle zu optimistisch
ausfiel, weil der Anteil fehlender Daten sehr hoch war (Davey et al., 2005).
In die Regressionsanalysen auf manifester Ebene flossen ausschließlich die Daten der
Studierenden ein, so dass bei den entsprechenden Analysen zwar vollständige Daten vorlagen,
die Stichprobe mit n = 79 Studierenden andererseits sehr klein war – es handelte sich um nur
6.6 % der getesteten Bewerber, und die Leistungen der Studierenden in allen sieben Tests
waren mehrheitlich sehr gut. Daher ist eine Replikation der Befunde sehr wünschenswert.
Dies gilt insbesondere, weil die (weitere) Optimierung des eingesetzten Verfahrens und die
Untersuchung seiner Validität in dieser Studie aufgrund der vorgegebenen
Rahmenbedingungen nicht an voneinander unabhängigen Stichproben vorgenommen werden
konnten. Gleichwohl liegen mit diesem Datensatz längsschnittliche Ergebnisse vor, die, im
Einklang mit den Erwartungen, eine gute prädiktive Validität von Leistungstests bei der
Zulassung für das Fach Psychologie aufzeigen.
Ein besonders hervorzuhebendes Ergebnis der vorliegenden Studie ist, dass es auf der
Prädiktorseite gelungen ist, die in der Intelligenzforschung gut etablierte Trennung zwischen
schlussfolgerndem Denken und erworbenem Wissen (Carroll, 1993, 2005; Cattell, 1963,
1971; McGrew, 2005) auf den Bereich der Studienzulassung zu übertragen. Es ist angezeigt,
neben dem schlussfolgernden Denken einen geschachtelten Faktor für relevantes Wissen zu
postulieren. Eine derartige Modellierung auf latenter Ebene stand bisher in der Forschung zur
Auswahl von Studierenden eher im Hintergrund. Stattdessen wurde in der Mehrheit der
Studien ein Fokus auf die Vorhersagegüte einzelner Tests oder einzelner Verfahren
vorgenommen, ohne die zugrunde liegende Struktur zu analysieren (vgl. Abschnitt
„Leistungstests“). Durch die Modellierung eines geschachtelten Faktors für
studienfachrelevantes Wissen zusätzlich zum schlussfolgernden Denken gelang es, auf der
Prädiktorseite eine in der Intelligenzforschung gut etablierte Trennung gewinnbringend für
die Vorhersage von Studienleistungen zu verwenden. Unsere Ergebnisse zeigen, dass der
Faktor für studienfachrelevantes Wissen trotz der geschachtelten Modellierung einen
stärkeren Beitrag zur Erklärung der Studienleistung leistet als der Faktor für das
schlussfolgernde Denken. Diese Ergebnisse vertragen sich mit den Validitätsbefunden zu den
SAT II: Subject Tests und den GRE Subject Tests. Dort zeigte sich, gut repliziert, dass die
stärker wissensbezogenen Tests bessere Vorhersagen erlaubten als der SAT I und GRE
General Tests (Geiser & Studley, 2001; Kuncel & Hezlett, 2007; Kuncel et al., 2001; Ramist
et al., 2001).
Zusammenfassend verdeutlichen unsere Resultate eindringlich, dass es sinnvoll ist, bei der
Auswahl von Studierenden auf mehrere, verschiedenartige Leistungstests zurückzugreifen,
die schlussfolgerndes Denken und studienfachrelevantes Vorwissen erfassen. Daraus folgt,
dass die Hochschulzulassungsforschung die Unterscheidung zwischen dekontextualisierten
Denkleistungen und wissensbasierten Denkleistungen, die für den jeweiligen Studieninhalt
spezifisch sind, verstärkt untersuchen sollte. Wir sind davon überzeugt, dass die
Hochschulzulassungspraxis weit hinter ihren Möglichkeiten zurück bleibt, wenn geeignete
Messinstrumente für relevante Denkleistungen keine Berücksichtigung finden.
FUSSNOTEN
1 Bei den berichteten Korrelationen handelt es sich um unkorrigierte Produkt-MomentKorrelationen; auf Ausnahmen wird explizit hingewiesen.
Herunterladen