Evaluationsforschung - Universität Bielefeld

Werbung
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Evaluationsforschung
1. Einleitung
 Was verstehen Sie unter Evaluation? (x 7)
Bei Evaluation handelt es sich um die Erforschung vermeintlicher oder tatsächlicher Folgen natürlich auftretender Veränderungen und / oder geplanter Interventionen.
Mögliche Evaluationsobjekte können sein:
Personen (Evaluation des Lernerfolgs der Teilnehmer an einem Seminar)
 Umweltfaktoren (Evaluation der Wirkung von Straßenlärm auf den Schlaf)
 Produkte (Geschmacksvergleich von Bieren)
 Programme (Wirkung einer Aufklärungskampagne zu Aids)
 Systeme / Strukturen (Demokratie vs. Diktatur auf die Zufriedenheit der Bürger)
 Forschungsergebnisse (Bewertung der methodischen Vorgehensweise in einer Evaluationsstudie)
 Was verstehen Sie unter summativer und formativer Evaluation?
Bei der summativen Evaluation wird zusammenfassend das Ergebnis oder die Wirksamkeit eines Interventionsprogrammes
überprüft.
Beispiel: Ein neues Produktionsverfahren für die Herstellung von Schokoladenhohlkörpern wird untersucht. Am Ende möchte man wissen, ob dieses
Verfahren schneller und billiger ist als das herkömmliche.
Formative Evaluation beurteilt den Prozessablauf des Interventionsprogramms (Planung, Entwicklung, Implementierung,
Optimierung). Hier werden regelmäßig Zwischenergebnisse erstellt, mit dem Ziel, die laufende Intervention zu modifizieren oder zu verbessern.
Beispiel: Eine Weiterbildungsmaßnahme, die laufend verbessert und auf die momentanen Bedürfnisse sowie das Können der Teilnehmer abgestimmt
werden soll.
Fasst man diese beiden zusammen, spricht man von einer umfassenden Evaluation. Diese beschäftigt sich mit folgenden
Fragen:
Welcher Art und welchen Ausmaßes ist das Problem? Welche Ziele verfolgt das Interventionsprogramm? Ist das Programm für das vorliegende Problem
angemessen? Wie läuft die Intervention ab? Werden mit Hilfe des Programms die beabsichtigten Veränderungen erreicht? Welche Nebenwirkungen hat
das Programm? Wie nützlich ist das Programm nach Kosten-Nutzen- bzw. Kosten-Effektivitäts-Gesichtspunkten?
 Welches sind die globalen Ziele von Evaluationsstudien nach Cronbach & Gleser?
Das generelle Ziel einer Evaluationsmaßnahme ist es zu überprüfen, ob eine Maßnahme eine Wirkung gezeigt hat, wobei
ausgeschlossen werden soll, dass diese Wirkung durch andere Faktoren als die implementierte Maßnahme zurückzuführen
ist. Optimal wären hierzu experimentelle Designs, in denen Störvariablen weitgehend ausgeschlossen werden können (Designs mit randomisierten experimentellen Gruppen und Kontrollgruppen).
1
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
2. Datengewinnungsmethoden
 Welche Methoden hat die Psychologie, um zu Daten zu kommen?
Hier unterscheidet man zwischen quantitativen und qualitativen Methoden. Zu den quantitativen Methoden gehören das
Experiment, das Quasi-Experiment, korrelative Studien und die passive Beobachtung. Zu den qualitativen Methoden gehören Fallstudien, teilnehmende Beobachtung, narrative Interviews etc.
2.1. Quantitative Datengewinnungsmethoden
2.1.1. Das Experiment
 Was ist ein Experiment?
 Mit welcher Methode kann man kausale Fragestellungen überprüfen?
Das Experiment ist eine wissenschaftliche Methode, mit der anhand von Hypothesen Kausalzusammenhänge zwischen
Variablen formuliert werden, die dann empirisch überprüft werden. Es soll also überprüft werden, ob eine (unabhängige)
Variable A auf die (abhängige) Variable B ursächlich wirkt.
In der Evaluationsforschung ist das Experiment deshalb so wichtig, weil sich mit seiner Hilfe überprüfen lässt, ob eine
geplante Intervention auch die beabsichtigten Folgen hat.
Im Experiment wird stets eine unabhängige Variable (Ursache) systematisch variiert und der dadurch hervorgerufene Effekt (Wirkung) auf eine abhängige Variable erfasst, während die übrigen am Geschehen beteiligten Variablen konstant
bzw. unter Kontrolle gehalten werden.
Unter bestimmten Annahmen, die COOK & CAMPBELL für wichtig erachten, kann dann auf eine kausale Beziehung
zwischen den experimentellen Variablen geschlossen werden, d. h. es kann angenommen werden, dass die UV auf die AV
ursächlich wirkt.
 Welches Kausalitätsverständnis haben Cook & Campbell? (x11)
 Welche Voraussetzungen für Kausalschlüsse müssen nach C&C gegeben sein?
Die notwendigen Kriterien für die Annahme einer kausalen Beziehung zwischen zwei Variablen lauten in Anlehnung an
JOHN STUART MILL:
 Es besteht eine Kovariation zwischen den untersuchten Variablen.
 Es besteht eine festgelegte zeitliche Abfolge zwischen den Variablen, wobei die Ursache der Wirkung vorangeht.
 Es gibt keine alternative Interpretation dafür, warum bei (nach Möglichkeit aktiver) Manipulation von A anschließend B
variiert.
 Welche experimentellen Kontrolltechniken kennen Sie?
Experimentelle Kontrolltechniken dienen dazu, Alternativvariablen auszuschließen oder zu reduzieren, hinsichtlich derer
sich die experimentellen Gruppen systematisch voneinander unterscheiden und die neben der UV zu einer Variation in der
AV geführt haben könnten.
Zufällige Unterschiede zwischen den Versuchspersonengruppen hingegen stellen keinen Störeffekt dar, sie mitteln sich
über die Stichprobengröße aus. Deshalb muss diese groß genug sein.
Mögliche Kontrolltechniken sind: Kontrolle, Randomisierung, Standardisierung der Untersuchungssituation, Parallelisierung, Bildung von Matched Samples.
2
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Kontrolle bedeutet Unterschiedliches:
 Kontrolle der Untersuchungssituation, d. h. die Ausschaltung oder Konstanthaltung externaler Störgrößen
 Kontrolle über das Treatment, d. h. welche Gruppe zu welcher Zeit welches Treatment erhält
 Kontrolle des Wissens der Probanden, d. h. es wird verhindert, dass die Probanden die richtige Hypothese erahnen. Würden sie die Hypothese kennen, könnten sie sich hypothesenkonform verhalten und einen künstlichen Effekt in der AV hervorrufen, der in Wirklichkeit gar nicht vorhanden wäre. Diese Kontrolle kann z. B. durch die Vorgabe falscher Hypothesen
ausgeübt werden.
 Erklären Sie den Begriff Randomisierung. Welchen Zweck erfüllt die Randomisierung?
Randomisierung bezieht sich auf die zufällige Aufteilung der Untersuchungsteilnehmer auf die Experimental- und Kontrollbedingungen.
Was eine Randomisierung leistet
 Sie erzeugt repräsentative Stichproben, indem die Personen, die an der Untersuchung teilnehmen, per Zufall aus einer
Grundgesamtheit ausgewählt werden und deshalb für diese repräsentativ sind.
 Sie erzeugt äquivalente Gruppen, d. h. die experimentellen Gruppen ähneln sich vor der Durchführung des Treatments
hinsichtlich aller Variablen, die die AV potentiell beeinflussen können. Die Äquivalenz ist allerdings nur probabilistisch, d.
h. sie kann nie vollständig erreicht werden. Dies ist insbesondere bei kleinen Stichproben mit großer Merkmalsvariabilität
der Fall.
 Sie schafft Bedingungen, um statistische Verfahren anwenden zu können, die eine größere Power haben (Normalverteilung der Merkmale in den experimentellen Gruppen, Voraussetzung für Vergleichbarkeit).
 Sie hilft manchmal, ethische Probleme zu lösen, wenn ein knappes, aber begehrtes Treatment zugeteilt werden soll.
Was eine Randomisierung nicht leistet
 Randomisierung garantiert keine Vergleichbarkeit der experimentellen Gruppen zum Zeitpunkt des Nachtests, die aber
gegeben sein muss, um kausale Schlüsse ziehen zu können. Hier kann es z. B. zu experimenteller Mortalität kommen, die
im Zusammenhang mit dem Treatment steht und zu selektiven Stichprobenausfällen führt.
 Eine Zufallszuweisung garantiert kein nützliches experimentelles Design.
Ergibt sich nach Vorgabe des Treatments ein Effekt in der AV und wurden Randomisierung und Kontrolle beachtet, dann kann der Effekt in der AV mit
sehr hoher Wahrscheinlichkeit auf die Manipulation der UV zurückgeführt werden, d. h. es liegt eine gerichtete Kausalität von der UV zur AV vor.
Gelingt der Nachweis einer Kausalität im Experiment, dann ist das weitere Ziel, die Ergebnisse des Experiments auf Verhältnisse außerhalb der Untersuchungssituation zu generalisieren.
 Was versteht man unter dem Begriff Äquivalenz? Wozu ist sie wichtig? (x6)
 Was versteht man unter Äquivalenz von Gruppen?
 Was ist Nicht-Äquivalenz?
Unter der Äquivalenz von Gruppen versteht man, dass sich die experimentellen Gruppen in einer Vielzahl von Merkmalen,
die die AV potentiell beeinflussen können, vor der Durchführung des Treatments gleichen. Die verschiedenen experimentellen Gruppen repräsentieren dadurch die gleiche Grundgesamtheit.
Zeigt sich nun nach Vorgabe eines Treatments ein Effekt in der AV bei einer der experimentellen Gruppen, dann ist dieser
Effekt mit hoher Wahrscheinlichkeit auf die Manipulation der UV zurückzuführen, da sich die Gruppen ja hinsichtlich aller
restlichen Faktoren glichen.
Nicht-Äquivalenz bedeutet, dass zwei Treatment-Gruppen sich in einer Vielzahl von Merkmalen auch ohne Treatment unterscheiden.
3
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Parallelisierung: Die Stichproben werden in bezug auf personengebundene Störvariablen parallelisiert, indem in den
Gruppen annähernd gleiche Mittelwerte und Streuungen hinsichtlich dieser Variablen geschaffen werden. Dadurch wird der
Einfluss von Störvariablen irrelevant, da sie in allen Gruppen gleich stark wirksam sind.
Matched Samples: Statt der Parallelisierung nach Mittelwert und Streuung werden die Untersuchungsteilnehmer der unterschiedlichen Stichproben einander paarweise zugeordnet, und zwar immer die, die eine ähnlich hohe Ausprägung in der
Störvariable aufweisen. (s. Bortz & Döring, Forschungsmethoden und Evaluation, 2. Auflage, S. 491)
 Was sind die Kennzeichen eines Experiments?
 willkürliche Herstellung der experimentellen Bedingungen (Planmäßigkeit): der VL hat es in der Hand, das Experiment
zu einem beliebigen und passenden Zeitpunkt durchzuführen
 Wiederholbarkeit: ermöglicht die Ausschaltung von Zufallsergebnissen und die spätere Nachprüfbarkeit der Resultate
durch andere Beobachter
 systematische Variation der UV: ist notwendig, um von einer echten Abhängigkeit der AV von der UV zu sprechen.
Durch sie kann ausgeschlossen werden, dass andere, mit der UV konfundierte Variablen zu dem Effekt geführt haben.
Situationen, die für randomisierte Experimente gut geeignet sind
 wenn durch die Probanden ein Losverfahren erwartet wird (z. B. Wohnheimbewerbungen)
 wenn die Nachfrage das Angebot übertrifft und nicht nach Bedürftigkeit u. ä. entschieden werden soll (z. B. Trainingsprogramme)
 wenn Personen keine Präferenzen bezüglich der Gruppenzugehörigkeit haben
 wenn eine Neuerung nicht gleichzeitig an alle Personen vergeben werden kann, bestimmt der Zufall darüber, in welcher
Reihenfolge die Neuerung vergeben wird (z. B. neuer Autotyp)
 wenn experimentelle Einheiten zeitlich isoliert werden können, durchläuft erst eine Gruppe das Treatment und dann eine
andere, oder es können unterschiedliche Treatments implementiert werden
 wenn Personen räumlich isoliert sind
 Nennen Sie ein Beispiel, wo ein Kausalzusammenhang besteht, der durch eine Drittvariable verursacht wurde.
Eine Gruppe von Zweitklässlern, die schlecht in Mathematik sind, erhalten ein Training zur Steigerung der Einsicht in
kausale Zusammenhänge. Dadurch soll ihr logisches Denken gefördert werden, was sich in der Mathematiknote niederschlagen soll.
Die Mathematikleistung der Schüler wird zu drei Zeitpunkten gemessen: vor der Durchführung des Trainings, unmittelbar
danach und nach weiteren zwei Jahren, um den Langzeiterfolg zu evaluieren.
Während sich unmittelbar nach dem Training eine mäßige Leistungssteigerung gegenüber dem Ausgangsniveau zeigt, ist
der Effekt nach zwei Jahren beträchtlich.
Dieser Langzeiteffekt ist aber mit hoher Wahrscheinlichkeit nicht auf das Training zurückzuführen, da sich die Einsicht in
kausale Zusammenhänge entwicklungspsychologisch mit dem Älterwerden der Kinder weiterentwickelt hat.
 Wann ist ein Experiment nicht möglich?
 Wann ist eine Randomisierung nicht möglich?
 Was können Sie sagen zu ethischen Problemen der Randomisierung?
 wenn finanzielle, personelle und zeitliche Einschränkungen vorliegen;
 wenn eine hohe externe Validität erreicht werden soll und die Untersuchung daher „im Feld“ durchgeführt wird;
 wenn das zu evaluierende Merkmal eine hohe Prävalenz aufweist und es deshalb schwierig ist, eine Kontrollgruppe einzurichten;
 wenn keine Randomisierung durchgeführt werden kann oder sollte:
- bei schnell zu treffenden Entscheidungen
- wenn Organismusvariablen eine Randomisierung verhindern (z. B. keine Aufteilung auf das Geschlecht möglich)
- wenn soziale und ökonomische Faktoren eine Randomisierung verhindern (z. B. keine Aufteilung auf Arbeitslosigkeit)
- bei ethischen Problemen (z. B. zufälliges Zufügen von Leid)
4
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
2.1.2. Das Quasi-Experiment
Quasi-Experimente sind Experimente, bei denen nicht-randomisierte und daher mit hoher Wahrscheinlichkeit nichtäquivalente experimentelle Gruppen miteinander verglichen werden (z. B. Schulklassen).
Hier besteht die Gefahr, dass sich ein Effekt in der AV nicht eindeutig auf die Variation der UV zurückführen lässt, da sich
der Effekt möglicherweise auch durch Variablen erklären ließe, hinsichtlich derer sich die experimentellen Gruppen schon
vor der Untersuchung systematisch voneinander unterschieden haben (z. B. Lerngeschwindigkeit, Intelligenz).
 Erläutern Sie an einem Beispiel, warum manchmal nur Quasi-Experimente möglich sind.
In einer Untersuchung soll die Hypothese geprüft werden, dass das Geschlecht einer Person einen Einfluss auf die Lernfähigkeit hat. Die unabhängige Variable, das Geschlecht, ist eine Organismusvariable. Die Probanden können nicht den einzelnen Stufen dieser UV randomisiert zugeordnet werden, da das Geschlecht ja vorgegeben ist. Somit muss mit natürlichen
Gruppen gearbeitet werden.
2.1.3. Korrelative Designs
Alle Variablen werden entweder gleichzeitig oder zeitlich versetzt erhoben und korrelativ miteinander in Beziehung gesetzt, eine systematische Variation der UV wird nicht vorgenommen.
Aufgrund der fehlenden Manipulation der UV und der häufig zeitgleichen Erhebung von UV und AV ist es mit Hilfe korrelativer Untersuchungen nicht möglich, Aussagen über Kausalität zu machen: Alternativvariablen sind nicht auszuschließen
und es ist nicht eindeutig zu sagen, welche Variable die UV und welche die AV ist.
2.1.4. Passive Beobachtungsstudien
Dies sind korrelative Designs, bei denen aus einer wechselseitigen Abhängigkeit von Variablen auf kausale Beziehungen
zwischen diesen Variablen geschlossen werden soll. Diese kausalen Schlüsse sind jedoch stärker als diejenigen experimenteller oder quasi-experimenteller Designs von Gefährdungen der internen Validität betroffen.
 Nennen Sie die Unterschiede zwischen Experimenten, Quasi-Experimenten und korrelativen Designs. (x8)
 Wo ist der Unterschied zwischen unterbrochenen Zeitreihendesigns und korrelativen Designs?
Die Elemente des Experiments sind unabhängige Variablen, abhängige Variablen und experimentelle Einheiten (Personen),
wobei die experimentellen Einheiten per Zufall den verschiedenen experimentellen Bedingungen (Stufen der UV, Treatments) zugeordnet werden. Durch die Randomisierung entstehen äquivalente experimentelle Gruppen.
Wenn sich die experimentellen Gruppen vor dem Treatment gleichen, nach dem Treatment aber Unterschiede in der AV
bestehen, dann sind diese Unterschiede zwischen den Gruppen mit hoher Wahrscheinlichkeit auf die Manipulation der UV
zurückzuführen. Das Untersuchungsergebnis ist eindeutig interpretierbar und verfügt somit über eine hohe interne Validität.
Beim Quasi-Experiment gibt es dieselben Elemente wie beim Experiment. Weil aber keine Zufallszuordnung erfolgt, resultieren nicht-äquivalente experimentellen Gruppen.
Hierdurch besteht die Möglichkeit, dass die Unterschiede in der AV nicht nur auf die systematische Manipulation der UV
zurückgeführt werden können, sondern auch auf diejenigen Faktoren, hinsichtlich derer sich die experimentellen Gruppen
bereits vor dem Treatment unterschieden haben. Das Untersuchungsergebnis ist nicht eindeutig interpretierbar und verfügt
somit über eine niedrigere interne Validität.
Bei korrelativen Designs werden alle Variablen entweder gleichzeitig oder zeitversetzt erhoben und zueinander in Beziehung gesetzt. Hier sind keine gezielten Manipulationen der UV möglich.
Aufgrund der häufig zeitlich gleichzeitigen Erhebung von UV und AV und der fehlenden Manipulation der UV ist es mit
Hilfe korrelativer Untersuchungen nicht möglich, Aussagen über Kausalität zu machen („die UV bedingt die AV“: welches
ist denn die UV und welches die AV?; Alternativvariablen können nicht ausgeschlossen werden).
5
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Merkmale
Bestandteile
Randomisierung
 äquivalente experimentelle Gruppen
 Ausschluss von Alternativerklärungen
 Interpretierbarkeit / Kausalität
 interne Validität
Variation der UV möglich
Experiment
UV, AV, Objekte
ja
ja
hoch
hoch
hoch
ja
Quasi-Experiment
UV, AV, Objekte
nein
nein
begrenzt
niedriger
niedriger
ja
korrelative Designs
Var1, Var2, Objekte
nein
nein
begrenzt
keine
niedriger
nein
2.1.4. Vor- und Nachteile von Laboruntersuchungen
Felduntersuchungen finden in vom Untersucher möglichst unbeeinflussten Umgebungen statt. Sie weisen eine hohe externe Validität auf, da eine Generalisierung der Befunde auf Situationen außerhalb der Untersuchungssituation leicht möglich
ist.
Da hier eine Kontrolle störender Einflussgrößen nur bedingt möglich ist, weisen Felduntersuchungen eine geringere interne
Validität als Laboruntersuchungen auf, denn häufig können aufgrund von Störgrößen mehrere gleichwertige Erklärungsalternativen für die Untersuchungsbefunde gegeben werden.
Laboruntersuchungen finden in streng kontrollierten Umgebungen statt. Sie weisen im Vergleich zur Felduntersuchung
eine niedrigere externe Validität auf.
Hier ist jedoch eine Kontrolle störender Einflussgrößen besser möglich, was in einer höheren internen Validität gegenüber
den Felduntersuchungen mündet.
Weitere Vorteile:
 Die UV kann vielfältig manipuliert werden, so dass viele Treatments resultieren. Dadurch kann genauer aufgedeckt werden, ab welcher Stärke die Manipulation der UV zu einem signifikanten Effekt in der AV führt. In Felduntersuchungen
hingegen muss man mit den natürlich gegebenen Abstufungen der UV arbeiten.
 Man kann überprüfen, inwiefern unterschiedliche UVs miteinander interagieren, indem man faktorielle Designs durchführt, in denen jede Stufe der einen UV mit jeder Stufe der anderen UV kombiniert wird.
Merkmale
Setting
Felduntersuchungen
Laboruntersuchungen
von Untersucher möglichst unbeein- streng kontrolliert (Zeitpunkt und Perflusst
sonen, die das Treatment erhalten)
- externe Validität (Generalisierbarkeit) höher
geringer
Kontrolle von Störvariablen
bedingt möglich
möglich
- Alternativerklärungen
einige
weniger
- interne Validität
geringer
höher
6
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
3. Validität
 Was versteht man unter Validität nach Cook & Campbell?
Der Begriff Validität bezieht sich auf die Beurteilung der Kausalbeziehung zwischen zwei Variablen.
Eine Untersuchung zur Überprüfung einer Kausalhypothese ist dann valide, wenn die empirisch gefundene Kausalbeziehung mit hoher Wahrscheinlichkeit die beste Annäherung an den wahren Zusammenhang der Variablen darstellt.
Eine valide Aussage ist demnach so etwas wie eine „vermutlich wahre“ oder „am ehesten vertretbare“ Aussage. Denn man
kann niemals sagen, was wahr ist, man kann nur sagen, was sich noch nicht als falsch herausgestellt hat.
3.1. Validitätsarten und Faktoren, durch die sie beeinträchtigt werden können
Historischer Überblick über die Ausdifferenzierung des Validitätskonzepts
interne und externe Validität, Campbell & Stanley, 1963
Eine Untersuchung zur Überprüfung einer Kausalhypothese ist intern valide, wenn
 Veränderungen in den abhängigen Variablen (AV) eindeutig auf den Einfluss der unabhängigen Variablen (UV) zurückzuführen sind, bzw. wenn es neben der Untersuchungshypothese keine besseren Alternativerklärungen gibt.
Eine Untersuchung zur Überprüfung einer Kausalhypothese ist extern valide, wenn
 die gefundene Kausalbeziehung auf andere Personen, Situationen oder Zeitpunkte generalisiert werden kann.
 die gefundene Kausalbeziehung über verschiedene Typen von Personen, Situationen und Zeitpunkten generalisierbar ist.
 Beschreiben Sie die einzelnen Validitätsarten und nennen Sie mögliche Gefährdungen. (x10)
 Welche Gefährdungen der Validität gibt es? Erklären Sie diese und nennen Sie Abhilfemöglichkeiten. (x6)
Ausdifferenzierung von interner und externer Validität und die Gefährdungsarten, Cook & Campbell, 1979
Für die folgenden Validitätsaspekte haben COOK & CAMPBELL typische Beeinträchtigungen („Gefährdungen“) zusammengestellt. Sowohl hinsichtlich der Anzahl der Validitätsaspekte als auch hinsichtlich der Anzahl der Gefährdungen erheben sie keinen Anspruch auf Vollständigkeit.
7
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
interne Validität
statistische Validität
Statistische Validität liegt vor, wenn die statistischen Verfahren angemessen sind, um eine Kovariation zwischen zwei
beobachteten Variablen nachzuweisen.
Dies verlangt die Betrachtung dreier Fragen:
 Ist die Studie sensitiv genug, um eine Kovariation zwischen der UV und der AV nachzuweisen? Dazu muss vor der Untersuchung überprüft werden, ob die Stichprobengröße groß genug ist, um einen Effekt entdecken oder verwerfen zu können;
 Können die Daten schlüssig belegen, dass Ursache und Effekt miteinander kovariieren? Hierzu muss ein angemessener Fehler festgelegt werden.
 Wie stark kovariieren die Variablen miteinander? Hierzu muss der Effekt auf Signifikanz überprüft werden.
Vorgehen bei der Hypothesenprüfung (t-Test)
Um den Effekt eines Treatments zu beurteilen, um also zu beurteilen, ob das Treatment zu einer Veränderung in der AV
gegenüber einer Kontrollgruppe geführt hat, werden statistische Hypothesenprüfungen durchgeführt.
Dabei gibt es eine Nullhypothese (H0), die besagt, dass das Treatment nicht zu einer Veränderung in der AV gegenüber
einer Kontrollgruppe geführt hat, dass also keine signifikanten Unterschiede zwischen den experimentellen Gruppen hinsichtlich der AV bestehen, so dass das Treatment wirkungslos ist. Diese Hypothese gilt es zu verwerfen.
Die Alternativhypothese (H1) hingegen besagt, dass das Treatment zu einer Veränderung in der AV gegenüber einer Kontrollgruppe geführt hat, dass also signifikante Unterschiede zwischen den experimentellen Gruppen hinsichtlich der AV
bestehen, so dass das Treatment erfolgreich ist. Diese Hypothese gilt es zu bestätigen.
Bei vollständiger statistischer Validität könnte man sagen, dass, wenn ein Effekt in der AV auftritt, dieser mit absoluter Sicherheit auf die Variation der
UV zurückzuführen ist. Dann könnte man mit 100%iger Sicherheit sagen, dass eine Kovariation zwischen den Variablen vorliegt. Da es aber aufgrund
von Fehlereinflüssen keine vollständige Validität gibt, können nur Wahrscheinlichkeitsaussagen getroffen werden. Dort, wo es keine vollkommene Validität gibt, können Fehler auftreten:
Der -Fehler (FP) bezeichnet die Wahrscheinlichkeit, fälschlicherweise zu sagen, dass eine Kovariation zwischen den
untersuchten Variablen vorliegt, obwohl sie in Wirklichkeit nicht vorliegt (die H0 fälschlicherweise zu verwerfen). Dieses
Fehlerniveau wird meist mit .05 festgelegt.
Der -Fehler (FN) bezeichnet die Wahrscheinlichkeit, fälschlicherweise zu sagen, dass keine Kovariation zwischen den
untersuchten Variablen vorliegt, obwohl sie in Wirklichkeit vorliegt (die H 0 fälschlicherweise beizubehalten)
Für den -Fehler wird ein tabellarischer t-Wert nachgeschlagen. Dessen Größe hängt von der Stichprobengröße ab. Der
tabellarische t-Wert muss durch den empirisch vorgefundenen t-Wert überschritten werden, um die H0 verwerfen zu können.
Überschreitet der empirisch gefundene t-Wert den tabellarischen t-Wert, dann bedeutet das, dass die beobachtete Kausalbeziehung zwischen den beiden untersuchten Variablen das angenommene Fehlerniveau unterschreitet und die Kausalbeziehung kann als signifikant angesehen werden.
8
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Was ist die statistische Power eines Tests?
-Fehler (FN)
VP
VN
-Fehler (FP)
VP (valid positives)
In Wirklichkeit liegt ein Effekt des Treatments auf die AV vor, dieser wird durch den Test auch erkannt.
VN(valid negatives)
In Wirklichkeit liegt kein Effekt des Treatments auf die AV vor, dieser wird durch den Test auch nicht erkannt.
FP (false positives, -Fehler)
In Wirklichkeit liegt kein Effekt des Treatments auf die AV vor, der Test erkennt aber einen. Als Resultat wird die H 0
fälschlicherweise abgelehnt und es wird gesagt, dass ein Effekt besteht, obwohl es ihn de facto nicht gibt.
Dieser Fehler soll minimiert werden, um konservative Ergebnisse zu erhalten und nicht aus jeder Veränderung der AV
gleich auf einen Effekt zu schließen. Deshalb wird zu Beginn der Hypothesenprüfung ein niedriges  festgelegt. Je niedriger der -Fehler ist, desto höher muss die Veränderung in der AV sein, um als signifikant zu gelten.
FN (false negatives, -Fehler)
In Wirklichkeit liegt ein Effekt des Treatments auf die AV vor, dieser wird durch den Test aber nicht erkannt. Als Resultat
wird die H0 fälschlicherweise beibehalten und es wird gesagt, dass kein Effekt besteht, obwohl es ihn de facto gibt.
Dies geschieht, wenn der -Fehler zu niedrig gewählt wurde (s. gestrichelte Linie). Dann kann es sein, dass trotz einer
hohen Veränderung in der AV dieses Ergebnis nicht als signifikant angesehen wird, weil bestimmte Anforderungen an das
Ausmaß der Veränderung noch nicht erfüllt wurden.
Power (1 - )
Sie gibt die Güte eines statistischen Tests an. Sie bezeichnet die Wahrscheinlichkeit, die H 0 korrekterweise zu verwerfen,
um die H1 anzunehmen. Sie ist umso höher, je niedriger der -Fehler ist.
Der -Fehler kann nur klein sein, wenn der -Fehler nicht zu konservativ, also zu klein festgelegt wurde.
9
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Beeinträchtigungen der statistischen Validität
Unreliabilität der Messinstrumente
Eine geringe Reliabilität führt zur Erhöhung des Standardmessfehlers, der zur Berechnung des Konfidenzintervalls für den
wahren Gruppenmittelwert in der Ausprägung der AV dient. Verändert sich der wahre Wert zwischen Vortest und Nachtest
signifikant, ist dies ein Anzeichen für einen Treatment-Effekt.
Je höher der Standardschätzfehler ist, desto größer ist das mögliche Intervall für den wahren Wert und desto stärker müssen
sich die experimentellen Gruppen in der Ausprägung der AV unterscheiden, damit dieser Unterschied signifikant wird.
 Testverlängerung, Aggregation der Messwerte über mehrere Messzeitpunkte
Wenn die Reliabilität eines Tests bei r = .50 liegt, dann müssen sich die Werte der experimentellen Gruppen schon stark unterscheiden, um den gefundenen Unterschied auf einen tatsächlichen Unterschied zurückführen zu können.
Unreliabilität der UV
Eine fehlende Standardisierung der Untersuchungssituation führt dazu, dass die Treatments auch innerhalb einer experimentellen Gruppe unterschiedlich vorgegeben werden. Dies erhöht die Varianz innerhalb der Gruppe (Fehlervarianz) und
verringert die Wahrscheinlichkeit, wahre Unterschiede zwischen den experimentellen Gruppen zu entdecken.
 Standardisierung der Untersuchungssituation
 Wieso sollte hinsichtlich der statistischen Validität Stichprobenhomogenität bestehen?
Heterogenität der Probanden
Die Probanden einer experimentellen Gruppe unterscheiden sich stark in der Ausprägung der abhängigen Variable, so dass
die Streuung der AV in der Stichprobe hoch ist. Die hohe Varianz innerhalb der Gruppe erschwert den Nachweis der Unterschiedlichkeit zwischen den experimentellen Gruppen bzw. bei einer experimentellen Gruppe zwischen Vor- und Nachtest. Der Anteil der Varianz zwischen den Gruppen an der Varianz innerhalb der Gruppen jedoch soll maximal werden.
 Bildung homogener Probandengruppen, was allerdings zu Lasten der externen Validität geht
 Personenunterschiede können erfasst und in einem Blockdesign analysiert werden
zufällige Störeinflüsse
... führen ebenfalls zur Erhöhung der Fehlervarianz in der Gruppe, so dass der Nachweis der Unterschiedlichkeit zwischen
den Gruppen erschwert wird.
 Störvariablen ausschalten oder aber erfassen und später herauspartialisieren
geringe statistische Aussagekraft (Power)
Sie gibt die Wahrscheinlichkeit dafür an, dass die Entscheidung für die H 1 richtig war.
 zu kleine Stichproben führen dazu, dass die Fehlervarianz in den experimentellen Gruppen hoch ist. Das erschwert die
Bestimmung des wahren Gruppenmittelwertes und damit auch die Bestimmung der wahren Unterschiedlichkeit zwischen
den Gruppen. Mit wachsender Stichprobengröße mittelt sich dieser Fehler über die Personen aus und es kommt zu einer
Annäherung an den wahren Gruppenmittelwert
 Vergrößerung der Stichprobengröße
 zu kleine -Irrtumswahrscheinlichkeiten führen zu einer Steigerung des -Fehlers, so dass die Differenz 1- minimal
wird.
 Erhöhung des -Niveaus
 Effektgröße: sie gibt die Differenz zwischen den Mittelwerten der H0 und H1 an. Wird diese Differenz kleiner, macht man
häufiger -Fehler und die Teststärke verringert sich.
 einseitige vs. zweiseitige Testung: Mit einem einseitigen Test wird eine gerichtete Hypothese überprüft. Dazu wird von
der H0-Verteilung nur an einer Seite ein Teil abgeschnitten, der den -Fehler darstellt. Hier geht also das gesamte  auf
eine Seite. Bei der zweiseitigen Testung hingegen wird von der H 0-Verteilung an beiden Seiten ein Teil abgeschnitten, der
den -Fehler darstellt. Hier wird das  also auf zwei Seiten aufgeteilt und ist pro Seite kleiner. Der einseitige Test hat deshalb eine höhere Teststärke, weil hier das  größer ist. (s. S. 9)
10
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
fehlerhafte Anwendung statistischer Tests
 Normalverteilung des untersuchten Merkmals in der Stichprobe ist nicht gegeben, obwohl im Testmanual gefordert
 Test auf Normalverteilung des zu untersuchenden Merkmals prüfen
 nachschauen, welche Voraussetzungen erfüllt sein müssen
 Was bedeutet „fischen“ nach Signifikanzen? (x2)
„Fischen“ nach Signifikanzen
Werden viele Mittelwertsvergleiche aufgrund eines großen Stichprobenumfangs durchgeführt, kann es vorkommen, dass
Unterschiede zwischen den experimentellen Gruppen zufällig signifikant werden, obwohl eigentlich die H 0 gilt. Diese Zufallsergebnisse werden als inhaltlich bedeutsam interpretiert und die H0 fälschlicherweise verworfen.
 Bonferroni-Adjustierung: das  wird durch die Anzahl der möglichen Vergleiche geteilt und der empirische t-Wert für
den Signifikanztest wird dadurch niedriger, so dass es schwerer wird, den tabellarischen t-Wert zu überschreiten, d. h. signifikante Ergebnisse zu erlangen.
 Scheffé-Test
Decken- und Bodeneffekte
Ist ein Test so leicht, dass auch eine nicht so fähige Person den maximalen Testwert erzielen kann, dann kann der Test nicht
zwischen diesen Personen und solchen mit hoher Merkmalsausprägung differenzieren, da diese auch den maximalen Testwert erzielen. Die „Testdecke“, also die Obergrenze dieses Tests, ist zu niedrig. Das kann dazu führen, dass Vortest- und
Nachtestwerte sich nicht signifikant voneinander unterscheiden. Das Gegenteil bilden die Bodeneffekte.
interne Validität i.e.S.
Interne Validität im engeren Sinne liegt vor, wenn der gefundene Zusammenhang zwischen den Variablen kausal gerichtet
ist, d. h. eine der Variablen (UV) ursächlich für die andere (AV) ist. Dabei darf die Veränderung in der AV nicht in Abwesenheit der UV stattfinden und auch nicht auf andere Variablen zurückzuführen sein.
Der Einfluss von Drittvariablen kann dazu führen, dass
1. kausale Zusammenhänge gefunden werden, die tatsächlich nicht existieren (FP)
2. keine kausalen Zusammenhänge gefunden werden, die tatsächlich aber existieren (FN)
Die interne Validität gilt als notwendige Voraussetzung für kausale Schlussfolgerungen.
Beeinträchtigungen der internen Validität i.e.S.
(1) Gefährdungen aufgrund mangelnder Kontrollgruppe
zwischenzeitliches Geschehen zwischen Vor- und Nachtest (history)
Ein Ereignis, das zwischen Vor- und Nachtest eingetreten ist, bedingt die Veränderung in der AV.
 Isolation der Probanden vor äußeren Einflüssen
 AVs verwenden, die schwer durch andere Variablen beeinflussbar sind
 Verkürzung des Zeitintervalls zwischen den Messungen
 Einführen einer unbehandelten Kontrollgruppe
Reifung (maturation)
Die Veränderung der AV ist an das Älterwerden der Probanden gebunden und nicht an die Variation der UV. Reifung kann
nur dann als Alternativvariable zur Erklärung der Veränderung in der AV dienen, wenn zwischen Vor- und Nachtest ein
längerer Zeitraum liegt.
 Verkürzung des Zeitintervalls zwischen den Messungen
Testübung (testing)
Die Messung als solche hat einen Einfluss auf die AV, weil z. B. die Erinnerbarkeit von Items zu verbesserten Leistungen
im Nachtest gegenüber dem Vortest führen kann.
 Überprüfung von Vortesteffekten durch den Solomon-Vier-Gruppen-Plan.
11
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
(2) Gefährdungen aufgrund mangelnder Randomisierung
Selektion
Die Personen in der Treatmentgruppe und der Kontrollgruppe sind nicht äquivalent, d. h. sie unterscheiden sich schon vor
Durchführung des Treatments voneinander. Daher kann die Variation in der AV auch auf andere Variablen als auf die UV
zurückgeführt werden.
 Randomisierung, Parallelisierung, Bildung von Matched Samples
Interaktionen mit Selektion
Selektion und Reifung: Die verschiedenen experimentellen Gruppen entwickeln sich mit unterschiedlicher Geschwindigkeit. Häufig kommt dies vor, wenn Versuchspersonen sich aussuchen können, welcher experimentellen Gruppe sie angehören möchten. Da Leistungswilligere häufiger die Experimentalgruppe wählen, zeigt das Treatment bei ihnen größere Effekte. Dann wäre der Effekt in der AV nicht auf das Treatment zurückzuführen, sondern auf die besseren Ausgangsbedingungen der Experimentalgruppe.
Selektion und zwischenzeitliches Geschehen: Das zwischenzeitliche Geschehen hat nur einen Einfluss auf eine der experimentellen Gruppen, z. B. auf die Experimentalgruppe, so dass hier fälschlicherweise im Vergleich zur Kontrollgruppe ein
Effekt angenommen wird.
Selektion und Messinstrumente: Wenn eine Messskala nicht intervallskaliert ist, dann können gleiche Veränderungen der
experimentellen Gruppen (punktuell gesehen) Unterschiedliches bedeuten.
Was kann die Ursache einer stärkeren Wachstumskurve bei der Kontrollgruppe ohne Treatment sein als bei der
Treatmentgruppe?
Wahrscheinlich eine Interaktion von Selektion und Reifung, eventuell auch ausgleichende Rivalität zwischen experimentellen Gruppen (s. interne Validität i. e. S., aber eher unwahrscheinlich).
(3) weitere Gefährdungen
unklare Richtung des Kausalzusammenhangs
Bei zwei Variablen kann nicht differenziert werden, welche die Ursache und welche die Wirkung ist. Dieses Problem tritt
vor allem bei Korrelationsstudien auf. Sie ist dort weniger ein Problem, wo die zeitliche Reihenfolge der Variablen bekannt
ist (z. B. prädiktive Validität) oder wo die eine Richtungsannahme theoretisch plausibler ist als die umgekehrte.
Beispiel: führt eine höhere Intelligenz zu besserer Lernfähigkeit oder ermöglicht eine bessere Lernfähigkeit eine höhere Intelligenz?
unzureichende Messinstrumente (instrumentation)
 Die Messinstrumente aus Vor- und Nachtest sind nicht vergleichbar, z. B. weil ein- und dieselbe verwendete Skala mit
der Zeit revidiert wurde. Es werden dann eventuell andere Konstrukte erfasst und es liegen andere Reliabilitäten und Validitäten vor.
 im Vor- und Nachtest die gleichen Instrumente einsetzen
 bei manchen Skalen ist nicht klar, ob ihre Intervalle wirklich alle gleich groß sind; Bei nicht-äquidistanten Skalen lassen
sich Veränderungen in manchen Bereichen der Skala leichter nachweisen als in anderen.
 Ausgangsdaten neu skalieren
 Was versteht man unter der Regression zur Mitte?
statistische Regression (Regression zur Mitte)
Hierbei handelt es sich um statistische Artefakte, die aus der Unreliabilität des Messinstruments resultieren. Werden extreme (gute oder schlechte) Vortest-Werte bei einer Person erfasst, dann haben diese die Tendenz, sich bei einer wiederholten
Messung (z. B. Nachtest) zum Mittelwert der Person hin zu verändern.
Da es sehr unwahrscheinlich ist, dass sich bei einer wiederholten Messung noch einmal die gleichen extremen Umstände
ergeben, können die Werte des Nachtests nahe bei den Werten des Vortests liegen und nicht signifikant von diesem verschieden sein, obwohl das Treatment zu einem Effekt geführt hat. Dieser ist nur nicht sichtbar, weil er durch die extreme
Ausprägung des Vortests verschleiert wird.
(s. a. das Beispiel Bortz & Döring, Forschungsmethoden und Evaluation, 1995: S. 517)
 mehrfache Vor- und Nachtests, um über diese Aggregation Messfehler auszumitteln
12
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
experimentelle Mortalität*
Ist das Treatment in den experimentellen Gruppen unterschiedlich attraktiv, kann es zu selektiven Stichprobenausfällen
kommen, so dass sich die Gruppen verändern und nicht mehr äquivalent sind. Ein Effekt in der AV könnte dann nicht nur
auf das Treatment, sondern auch auf diese selektiven Personenausfälle zurückgeführt werden.
 Der Schwund gefährdet die Interpretierbarkeit des Effekts nur dann, wenn er systematisch ist, d. h. auch wirklich auf das
Treatment zurückzuführen ist. Deshalb ist der Schwund zu analysieren (Ist der Prozentsatz in den Gruppen gleich? Sind die
Begründungen für den Ausstieg in den Gruppen gleich? Hat die AV im Nachtest die gleiche faktorielle Struktur wie im
Vortest?)
Beispiel: In einer IQ-Längsschnittstudie steigen vorwiegend solche Personen aus, die in den Tests schlecht abschneiden. Dadurch bleiben nur solche
übrig, die sowieso schon gut waren oder vom Training profitieren konnten.
Diffusion oder Imitation des Treatments*
Probanden unterschiedlicher experimenteller Treatment-Gruppen tauschen Informationen aus und verändern sich dadurch
auf ähnliche Weise.
Ausgleich von Treatment-Privilegien*
Nachdem der Treatment-Gruppe im Rahmen einer Intervention eine besondere Unterstützung zuteil wurde, werden auch
der Kontrollgruppe andere Vergünstigungen gewährt (etwa um der Gerechtigkeit willen).
Ausgleichende Rivalität durch Probanden von weniger attraktiven Treatments*
Dadurch, dass einer Vergleichsgruppe die Untersuchungsintention bekannt wird, kann sie versuchen, Unterschiede zwischen sich und der Experimentalgruppe zu reduzieren
Beispiel: Zwei Schulklassen sollen hinsichtlich der Leistungsfähigkeit verglichen werden. Einer Klasse wird eine besondere Lehrmethode zuteil, der
anderen nicht. Die Kontrollklasse weiß dies aber. Darum wird sie sich vermehrt anstrengen, um genauso gut oder besser zu sein als die Experimentalgruppe.
Demoralisierung der Probanden weniger erwünschter Treatments*
Die Angehörigen der Kontrollgruppen reagieren verärgert, dass sie der Kontrollgruppe angehören, z. B. weil sie dann keine
zusätzlichen Leistungen erhalten, und reduzieren ihre Anstrengungen.
13
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Der Solomon-Vier-Gruppen-Plan
Mit ihm lässt sich überprüfen, ob Treatmenteffekte vorliegen oder ob die Probanden durch den Vortest für das Treatment
sensibilisiert wurden, d. h. ob sie auf das Treatment anders reagieren, als wenn kein Vortest durchgeführt worden wäre.
Der Plan hat folgendes Design mit vier randomisierten Gruppen:
Folgende Effekte können vorliegen: Treatment-Effekte, Vortesteffekte und Zeiteffekte (Reifung, Testübung). Diese Effekte
können in den Gruppen unterschiedlich wirksam sein: in den Gruppen, in denen ein Treatment durchgeführt wurde, können
Treatment-Effekte vorliegen, in Gruppen, in denen ein Vortest durchgeführt wurde, können Vortesteffekte vorliegen, und
in allen Gruppen können Zeiteffekte vorliegen.
Mit Hilfe des Gruppenplans kann man nun drei Effekte prüfen:
 Treatmenteffekte
Der Vergleich zwischen Gruppe 1 und Gruppe 2 und zwischen Gruppe 3 und Gruppe 4 informiert über reine Treatmenteffekte: Kommt es in den Treatment-Gruppen (Gruppe 1 und 3) zu einem signifikanten Effekt, kann dieser auf das Treatment
zurückgeführt werden, da sich jeweils Experimental- und Kontrollgruppe nur darin unterscheiden, ob sie ein Treatment
erhalten haben oder nicht, nicht aber hinsichtlich anderer Variablen.
 Vortesteffekte
Der Vergleich zwischen Gruppe 2 und Gruppe 4 informiert über Vortesteffekte: Kommt es in Gruppe 2 zu einer höheren
Leistung als in Gruppe 4, dann hat sich der Vortest leistungssteigernd auf den Nachtest ausgewirkt und es kann von Vortesteffekten ausgegangen werden, da sich die beiden Gruppen nur darin unterscheiden, ob sie einen Vortest durchgeführt
haben oder nicht.
 Treatment-Vortest-Interaktionseffekte
Hier will man erfahren, ob das Treatment in Kombination mit dem Vortest anders wirkt als ohne Vortest. Dazu ist der
Durchschnitt von Gruppe 2 und 3 zu bilden und mit Gruppe 1 zu vergleichen. Unterscheiden sich die Werte voneinander,
liegen Interaktionseffekte vor.
14
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
externe Validität
Konstruktvalidität
Konstruktvalidität ist gegeben, wenn der auf empirischer Ebene gefundene Zusammenhang zwischen den Variablen auf
theoretischer Ebene durch geeignete Konstrukte interpretierbar ist. (Ursache-Wirkungs-Konstrukte, die den empirischen
Zusammenhang beschreiben.)
Ferner ist Konstruktvalidität gegeben, wenn für ein zu erfassendes Konstrukt konvergente und divergente Validitäten vorliegen. Dies lässt sich durch die MTMM-Analyse überprüfen.
Konvergente Validität liegt vor, wenn mehrere Methoden (z. B. Rating, Fragebogen, Beobachtung) dasselbe Konstrukt
übereinstimmend messen. Das bedeutet, dass verschiedene Operationalisierungen ein- und desselben Konstrukts zu ähnlichen Ergebnissen führen.
Divergente Validität liegt vor, wenn eine Methode geeignet ist, verschiedene Konstrukte voneinander zu differenzieren.
Dies belegt, dass konzeptuell verschiedene Konstrukte unabhängig voneinander sind.
Beeinträchtigungen der Konstruktvalidität
Die Konstruktvalidität ist immer dann gefährdet, wenn:
 es für ein Treatment-Effekt mehr als eine theoretische Erklärung gibt, wenn also Erklärungskonstrukte miteinander konfundiert sind
Beispiel: Die Wirksamkeit eines Medikaments soll evaluiert werden. Dazu bekommt die Experimentalgruppe das Medikament, die Kontrollgruppe nicht.
Die Operationalisierung der Untersuchung beinhaltet, dass der Arzt über die erhoffte Wirkung des Medikaments informiert ist und dass er weiß, welches
die Experimentalgruppe ist.
Wenn sich eine Kausalbeziehung zwischen UV und AV bei der Experimentalgruppe zeigt (interne Validität), ist es jedoch nicht klar, ob diese auf das
Medikament zurückzuführen ist oder auf die Erwartungen des Arztes. Dies wäre erst bei Doppelblindversuchen gegeben.
 nicht alle Dimensionen („Konstruktschwäche“) oder irrelevante zusätzliche Dimensionen des zu erfassenden Konstrukts
(Konstrukt-Irrelevanzen) erfasst werden.
(1) Gefährdungen, die zur Konfundierung von Konstrukten führen
Wechselwirkungen verschiedener Treatments
Wenn Personen mehr als nur ein Treatment erhalten, kommt es zu einer Konfundierung der Effekte, die nicht auseinanderdividiert werden können. („Welche Effekte sind auf welches Treatment zurückzuführen?“)
 nur ein Treatment bei Personen einer Experimentalgruppe durchführen
Hypothesenvermutungen durch Probanden
Die Probanden vermuten bestimmte Hypothesen und richten ihr Verhalten nach diesen Hypothesen aus. („Ist der Effekt
dann auf das Treatment oder die Hypothesenvermutungen zurückzuführen?“)
 plausible, aber falsche Hypothese vorgeben, dann ist der Erklärungsbedarf der Probanden befriedigt
 das Hypothesenraten schwer machen, indem heterogene Tests verwendet werden
Selbstdarstellungsbedürfnis
Die Probanden versuchen, sich möglichst positiv darzustellen.
 Aufforderung an den Probanden, sich möglichst natürlich zu verhalten
Versuchsleiterwissen
Durch das Wissen des Versuchsleiters um die Forschungshypothesen können die Ergebniserwartungen des Forschers die
Ergebnisse beeinflussen.
 dem VL keine oder falsche Informationen über die Hypothese vorgeben
 separate Analyse der Daten für VL mit unterschiedlichen Erwartungen
Wechselwirkung von Test und Treatment
Ein Vortest sensibilisiert den Probanden für das Treatment. Indem sich der Proband mit dem Vortest auseinandersetzt, kann
es zu einer Veränderung des zu erfassenden Konstrukts beim Probanden kommen und es wird eine andere Konstruktausprägung im Nachtest erfasst, als es ohne Vortest der Fall gewesen wäre.
 Überprüfung von Vortesteffekten durch den  Solomon-Vier-Gruppen-Plan
15
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Konfundierung von Konstrukten mit ihren verschiedenen Ausprägungsgraden
Wenn UV und AV nicht linear miteinander zusammenhängen, dann kann es problematisch werden, den wahren Zusammenhang zwischen UV und AV zu erfassen.
 Variation vieler Stufen der UV und Messung vieler Stufen der AV
Eingeschränkte Generalisierbarkeit
Es ist problematisch, die gefundene Kausalbeziehung zu generalisieren, weil nicht bekannt ist, welche weiteren Konstrukte
das Treatment neben der in der Untersuchung überprüften AV beeinflusst.
(2) Gefährdungen, die zu einer Konstruktschwäche oder Konstrukt-Irrelevanzen führen
unangemessene voroperationale Erklärung der Konstrukte
Eine genaue Konstruktdefinition ist eine Voraussetzung dafür, dass das Konstrukt operationalisiert (methodisch erfasst)
werden kann. Sonst können nur Teilaspekte oder falsche Konstrukte erfasst werden.
 im Lexikon und neuerer Literatur nach genauen Definitionen suchen
Verwendung nur einer Methode (bei der Erfassung der Ausprägung der AV) (Mono-Methoden-Bias)
Bei der Verwendung nur eines Verfahrens, z. B. Beobachtung, können die Ergebnisse durch die Methode beeinflusst sein.
(„Ist das Ergebnis der Studie das Resultat einer wahren Kovariation zwischen UV und AV oder ist es nur auf die Messinstrumente zurückzuführen?“) Die Aussagen gelten dann nur unter dieser Erhebungsmethode.
 das Konstrukt mit möglichst vielen Methoden erfassen
Beispiel: Die Zuverlässigkeit von Mitarbeitern nach einer Lohnerhöhung soll durch den Vorgesetzten evaluiert werden. Hierzu wird ein einfaches VortestNachtest-Design durchgeführt. Der Vorgesetzte führt die Vorherbeurteilung und die Nachherbeurteilung durch. Hier kann es zu Methodeneffekten kommen, weil Vorurteile des Vorgesetzten gegenüber seinen Mitarbeitern nicht erkannt werden können. Es kann z. B. sein, dass er einen bestimmten Mitarbeiter gar nicht mag und deshalb urteilt, dass sich seine Zuverlässigkeit nicht erhöht hat, obwohl sie es eigentlich hat.
Verwendung nur einer Operationalisierung (Monooperationaler Bias)
Bei nur einer Operationalisierung der UV kann es dazu kommen, dass nicht alle Determinanten der AV erhoben werden.
Andere Determinanten (z. B. andere Sportarten) könnten noch zu anderen Effekten führen, die mit einer MonoOperationalisierung aber nicht erfasst werden können.
Beispiel: Bei der Hypothese: „Sport hat einen Einfluss auf das körperliche Wohlbefinden.“ wird der Sport nur durch Jogging operationalisiert, nicht aber
zusätzlich noch durch Schwimmen, Reiten etc. Dadurch wird z. B. nur die Auswirkung auf das Gewichtsempfinden verändert, nicht aber auf den Muskelaufbau, bei dem es auch einen Effekt gegeben hätte, hätte man z. B. Sport noch durch Krafttraining operationalisiert.
Bei nur einer Operationalisierung der AV kann es dazu kommen, dass nicht alle Facetten oder Dimensionen des Konstrukts
erfasst werden.
Beispiel: In der oben genannten Hypothese wird das körperliche Wohlbefinden nur über das subjektive Urteil operationalisiert, nicht aber über den Blutdruck, die Leistungsfähigkeit im Studium etc.
 möglichst viele Aspekte der AV erfassen;
 verschiedene Operationalisierungen der UV einführen; aufwendig, da mehr Gruppen notwendig sind;
Unterschied zwischen Mono-Operationalisierung und Mono-Methode
Wendet man nur eine Methode an, bedeutet dies, dass die Aspekte eines Merkmals mit nur einer Methode erfasst werden.
Hier kann es zu Methodeneffekten kommen.
Wendet man nur eine Operationalisierung an, bedeutet dies, dass nur bestimmte Merkmalsaspekte des zu untersuchenden
Konstrukts erfasst werden (AV). Hier kann es dann zur Konstruktschwäche kommen.
Vorgehen, um eine möglichst hohe Konstruktvalidität zu erreichen
 klare Definition der verwendeten Konstrukte, um Operationalisierungen zu ermöglichen
 MTMM-Analyse der erhaltenen Daten auf Konvergenz bzw. Divergenz mit anderen Konstrukten
 Verwendung mehrerer und unabhängiger Methoden zur Erfassung der Konstrukte (Ausschaltung genereller Methodenvarianz)
 Mehrfachoperationalisierung der UV und der AV
16
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Die Multitrait – Multimethod – Methode
Ziele der MTMM-Methode, Aufbau der MTMM-Matrix
 Was ist die MTMM-Matrix, wozu ist sie da, wie ist sie aufgebaut? (x8)
(Das selbe Script, aber mit Bildern, findet ihr im Script für Diagnostik. Nimmt leider auf der Diskette zu viel Speicherplatz weg.)
Der Ansatz geht von einer Merkmals-Methoden-Einheit aus: Ein Test erfasst ein Merkmal mit einer bestimmten Methode,
er erfasst kein Merkmal „an sich.“ Insofern enthalten die mittels Test gewonnenen Daten zwei Komponenten, die miteinander konfundiert sind: Angaben über Merkmale und Angaben über die verwendeten Methoden .
Ziel der MTMM-Validierung ist es, die beiden Komponenten zu trennen. Draus ergeben sich zwei Aufgaben der MTMMAnalyse:
 Die vorliegenden Merkmale sollen validiert werden, indem ihre „wahre“ Konvergenz und Diskriminanz beurteilt wird.
 Es sollen Aussagen über die proportionalen Anteile der Methodenvarianz getroffen werden, die die Höhe der Korrelationen zwischen den Variablen systematisch beeinflussen können.
 Diskutieren Sie die Begriffe konvergente und divergente Validität im Kontext von MTMM-Analysen!
Konvergente Validität
Konvergente Validität liegt vor, wenn mehrere Methoden dasselbe Merkmal übereinstimmend messen. Dies tun sie, wenn
die Testwerte für dasselbe Merkmal über die Methoden hinweg korrelieren.
Beispiel:
Die Kooperationsfähigkeit einer Person wird durch einen Kollegen und den Vorgesetzten eingeschätzt. Die Übereinstimmung beider Einschätzungen ist
indikativ für die konvergente Validität.
divergente Validität
Divergente Validität liegt dann vor, wenn eine Methode geeignet ist, verschiedene Konstrukte voneinander zu differenzieren. Geeignet ist sie dann, wenn verschiedene Merkmale durch ein und dieselbe Methode gemessen werden und niedrig
miteinander korrelieren.
Beispiel:
Die Kreativitätseinschätzung durch den Kollegen wird mit der Kooperationsfähigkeitseinschätzung durch den Kollegen korreliert.
Monotrait-Monomethod-Diagonale (Diagonale der Gesamtmatrix):
Hier würden theoretisch die Autokorrelationen einer Methode, die einen Trait erfasst, abgebildet werden. Statt dessen
schreiben Campbell & Fiske die Reliabilitäten der einzelnen Methoden in die Diagonale.
 Warum schreiben Campbell & Fiske bei der MTMM-Matrix nicht die Einsen, sondern die Reliabilitäten in die
Hauptdiagonale?
Zur Abschätzung der gemeinsamen Methodenvarianz in den Heterotrait-Monomethod-Blöcken. Erfasst man mehrere Traits
durch ein und dieselbe Methode, kann es dazu kommen, dass die Traits hoch miteinander korrelieren, weil die Methode
messfehleranfällig ist (z. B. soziale Erwünschtheit). Dieser Effekt ist systematisch über die verschiedenen Traitmessungen,
die mit dieser Methode getätigt werden, wirksam.
Dieser Effekt lässt sich mit Hilfe der Reliabilitäten abschätzen: In dem Ausmaß, in dem die Heterotrait-MonomethodKorrelationen die zugehörigen Reliabilitätskoeffizienten der Methode erreichen, ist dies ein Anzeichen von Methodenvarianz.
Man könnte aber auch eine Minderungskorrektur der Matrix um die Unreliabilität der einzelnen Methoden durchführen.
Dies würde die Überprüfung des 3. Kriteriums für divergente Validität erleichtern, d. h. die Überprüfung des gleichen Verlaufsmusters der Trait-Interkorrelationen in allen Heterotrait-Blöcken.
Heterotrait-Heteromethod-Block
Mehrere Konstrukte werden durch unterschiedliche Methoden gemessen und miteinander korreliert.
Beispiel:
Die Kreativitätseinschätzung durch den Kollegen wird mit der Kooperationsfähigkeitseinschätzung durch den Vorgesetzten korreliert. Hier werden die
geringsten Korrelationen erwartet, da weder methodische noch inhaltliche Übereinstimmungen vorliegen.
17
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Die höchsten Korrelationen werden im Monotrait-Heteromethod-Block erwartet, da alle Methoden ein und dasselbe Konstrukt erfassen.
Mittlere Korrelationen werden im Heterotrait-Monomethod-Block erwartet. Hohe Korrelationen zwischen den Traits würden auf Redundanzen in den Konstrukten oder unsensible Messungen hindeuten.
Die niedrigsten Korrelationen werden im Heterotrait-Heteromethod-Block erwartet, da weder methodische noch inhaltliche
Übereinstimmungen vorliegen.
 Woran erkenne ich statistisch, dass Konstrukte unabhängig voneinander sind?
Daran, dass sie nicht oder nur gering miteinander korrelieren. Dies sollte sich z. B. in der MTMM-Matrix in den Heterotrait-Monomethod-Diagonalen und in den Heterotrait-Heteromethod-Dreiecken zeigen.
Kriterien für konvergente und divergente Validität:
 Nennen Sie die 4 Kriterien für konvergente und divergente Validität!
Kriterium 1 für konvergente Validität:
Die konvergenten Validitätskoeffizienten (Monotrait-Heteromethod) sollen statistisch signifikant von Null verschieden
sein.
Monotrait-Heteromethod > Null
Ist dies nicht der Fall, so messen die unterschiedlichen Methoden verschiedene Konstrukte.
Kriterium 2 für divergente Validität:
Die konvergenten Validitätskoeffizienten (Monotrait-Heteromethod) sollen größer sein als die diskriminanten Validiäten
bei gleicher Methode (Heterotrait-Monomethod). Das bedeutet, dass Differenzierungen zwischen verschiedenen Konstrukten nicht durch die Verwendung derselben Methode verwischt werden dürfen.
Monotrait-Heteromethod > Heterotrait-Monomethod
Ist dies nicht der Fall, sind also die Heterotrait-Monomethod-Koeffizienten höher, spricht das für starke Methodeneffekte
bei der Messung (z. B. bei Ja-Sage-Tendenz, Reaktivität der Messung, IPT, soziale Erwünschtheit).
Kriterium 3 für divergente Validität:
Die konvergenten Validitätskoeffizienten (Monotrait-Heteromethod) sollen größer sein als die diskriminanten Validitäten
bei verschiedenen Methoden (Heterotrait-Heteromethod).
Monotrait-Heteromethod > Heterotrait-Heteromethod
Ist dies nicht der Fall, sind also die Heterotrait-Heteromethod-Koeffizienten höher, so unterscheiden sich die erfassten
Konstrukte nicht voneinander, sind also nicht unabhängig. Es könnte dann ein genereller Faktor vorliegen, der mehrere
Traits in der MTMM-Matrix umfasst.
Kriterium 4 für Konstruktvalidität:
Das Muster der Trait-Interkorrelationen sollte, unabhängig von der verwendeten Methode, in allen Heterotrait-Dreiecken
das gleiche sein. Diese Gleichheit bezieht sich nach Alwin (1974) auf eine konstante Rangreihe der Trait-Interkorrelationen
in allen Teilmatrizen.
Ist dies der Fall, bedeutet das, dass eine wahre Korrelationsstruktur zwischen den Traits besteht und mit den vorliegenden
Methoden gemessen werden kann. Dieses Muster ist dann indikativ für das gemeinsame Vorliegen von konvergenter und
divergenter Validität. Methodeneffekte könnten dann weitgehend ausgeschlossen werden, nicht aber alle (nicht generelle
Methodenvarianz).Dieses Kriterium ist am schwersten zu erreichen.
18
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Fehlerquellen, die einen Einfluss auf die Konstruktvalidität haben und Mittel zu ihrer Abschätzung
 Was ist eigentlich Methodenvarianz?
Bei der Methodenvarianz handelt es sich um Einflüsse seitens der Methoden, die die Höhe der Korrelationen zwischen den
Traits systematisch beeinflussen können. Man unterscheidet gemeinsame Methodenvarianz und generelle Methodenvarianz.
Bei der generellen Methodenvarianz handelt es sich um systematische Effekte über alle Methoden, ihr Einfluss ist nicht
bestimmbar, kann also durch das 4. Kriterium auch nicht ausgeschlossen werden. Es sind Effekte, die allen Methoden gemeinsam sind, z. B. Reaktivität der Messung, IPT, soziale Erwünschtheit.
Beispiel: Fragebögen und Ratings korrelieren hoch in Methodeneffekten, da in beide die Selbstbeurteilung hineinspielt.
Bei der gemeinsamen Methodenvarianz handelt es sich um Methodeneffekte, die zu einer Überhöhung der Interkorrelationen zwischen Traits führen, die mit ein und derselben Methode erhoben wurden (z. B. Ja-Sage-Tendenz, Reaktivität der
Messung, soziale Erwünschtheit.
Zur Abschätzung dieser Varianz werden die Heterotrait-Monomethod-Korrelationen mit den Reliabilitäten verglichen. In
dem Maße, in dem die Heterotrait-Monomethod-Korrelationen die Höhe der Reliabilität der Traits erreichen, ist dies ein
Hinweis auf systematische Einflüsse der Methode.
Um Methodeneffekte zu minimieren, sollen möglichst viele unterschiedliche und unabhängige Methoden verwendet werden.
externe Validität i. e. S.
Externe Validität im engeren Sinne liegt vor, wenn die Kausalbeziehung
 auf Personen, Situationen und Zeitpunkte generalisierbar ist (= von der Stichprobe auf die Grundgesamtheit)
 über verschiedene Typen von Personen, Situationen und Zeitpunkten generalisierbar ist.
Beeinträchtigungen der externen Validität i. e. S.
Wechselwirkung von Selektion und Treatment
Nur bestimmte Personen, z. B. freiwillige Probanden, nehmen an der Untersuchung teil. Theoretisch wären die Ergebnisse
auch nur auf diese generalisierbar.
 es allen Personen so leicht wie möglich machen, an der Untersuchung teilnehmen zu können;
Wechselwirkung von Umgebung und Treatment
Lassen sich Ergebnisse, die in einer bestimmten Umgebung erhoben wurden, auf andere Umgebungen übertragen?
 Variation der Umgebung und Analyse der Stabilität der kausalen Beziehungen;
Wechselwirkung von zwischenzeitlichem Geschehen und Treatment
Auf welche Zeitabschnitte in der Vergangenheit und in der Zukunft kann die bestehende Kausalbeziehung generalisiert
werden?
 Replikation der Studie zu späteren Zeitpunkten;
 Literaturrecherche nach Indizien, die die gefundene Kausalbeziehung stützen können;
19
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Modelle zur Erhöhung der externen Validität
 Nennen Sie 3 Modelle, um die externe Validität zu steigern + ein Beispiel für das Modell der typischen Beispiele.
Repräsentativitätsmodell
Hier werden Personen per Zufall aus der Population ausgewählt. Die ausgewählten Personen werden per Zufall den verschiedenen experimentellen Gruppen zugeordnet. Werden Kausalbeziehungen gefunden, können diese auf die Grundgesamtheit generalisiert werden.
Heterogenitätsmodell
Hier wird eine Vielzahl von Gruppen von Personen, Umgebungen und Zeitpunkten zusammengestellt (z. B. Kinder aus
dem Norden, Süden, Osten, Westen, der Mitte Deutschlands), denen dann ein Treatment vorgegeben wird. Es soll evaluiert
werden, ob:
 das Treatment in jeder der homogenen Einzelgruppen getrennt zu einem ähnlichen Effekt führt;
 ob der Effekt auch dann noch besteht, wenn alle Gruppen zu einer heterogenen Gruppe zusammengefasst werden, weil
dann ja die Fehlervarianz (Varianz innerhalb der Gruppe) größer wird.
Hier wird keine Randomisierung durchgeführt, daher ist die Generalisierbarkeit von der Stichprobe auf die Grundgesamtheit eingeschränkt, weil sie eventuell nicht repräsentativ ist.
Modell der typischen Beispiele ( Generalisierung von Prototypen auf die Klasse)
Das Modell benennt die Arten von Personen, Umgebungen oder Zeitpunkten, auf die man generalisieren möchte. Dann
wird aus jeder Klasse mindestens ein Element mittlerer, typischer Ausprägung gewählt, anhand dessen die Untersuchung
durchgeführt wird. Eine Generalisierung kann hier eigentlich dann nicht auf den Einzelfall, sondern nur auf den Mittelwert
einer Referenzgruppe vorgenommen werden.
Beispiel: Man möchte eine Schulreform in deutschen Gymnasien aller Klassen (5 – 13) durchführen. Zur Evaluation der Reform wird dann ein typisches
Gymnasium in NRW ausgewählt, in dem die Reform eingeführt wird. Ist sie in diesem typischen Gymnasium erfolgreich, wird geschlossen, dass sie auch
in anderen Gymnasien erfolgreich ist, obwohl man nur auf typische Gymnasien verallgemeinern könnte.
Das stärkste Modell für eine Generalisierung ist das erste, das schwächste das letzte.
weitere Maßnahmen zur Erhöhung der externen Validität
Verbesserung der externen Validität bei Längsschnittstudien
Ein häufiges Problem von Längsschnittuntersuchungen ist, dass mit Personenausfällen gerechnet werden muss. Diese führen dazu, dass die Stichproben im Nachtest nicht mehr äquivalent sind.
Hier vermuten COOK & CAMPBELL, dass die externe Validität eher durch eine Anzahl kleinerer Untersuchungen mit
willkürlichen Stichproben erhöht wird als durch eine einzige Studie mit anfänglich repräsentativer Stichprobe.
(eventuelle Erklärung, aber nicht gesichert: Wenn es sowieso schon zu einem Schwund an Probanden kommt, dann hat
man mit kleinen Stichproben wenigstens den Vorteil, dass hier über die Zeit und über verschiedene Situationen hinweg
generalisiert werden kann.)
Verbesserung der externen Validität durch Replikation der Untersuchungsbefunde
Externe Validität i. e. S. und Konstruktvalidität können durch mehrfache Replikation der Befunde erhöht werden. Hier gibt
es verschiedene Arten der Replikation:
simultane vs. nachgelagerte Replikation
Die simultane Replikation überprüft, ob eine kausale Beziehung zwischen Variablen zu einem bestimmten Zeitpunkt vorliegt. Hier ist die kausale Beziehung leichter nachzuweisen als bei der nachgelagerten Replikation. ( Korrelationsstudien)
Beispiel: Berufserfolg und Einkommen zum Zeitpunkt t1.
Die nachgelagerte Replikation überprüft, ob eine kausale Beziehung zwischen Variablen zu zwei verschiedenen Zeitpunkten vorliegt. Liegt sie vor, dann kann die Kausalbeziehung über die Zeit generalisiert werden. ( passive Beobachtungsstudien)
Beispiel: Berufserfolg zum Zeitpunkt t1 und Einkommen zum Zeitpunkt t2.
20
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
angenommene vs. demonstrierte Replikation
Die angenommene Replikation repliziert Treatment-Effekte an heterogenen Stichproben, ohne dass der VL explizite statistische Kenntnis über die Unterschiede zwischen den Personen hat. Können Effekte repliziert werden, dann man nur sagen,
dass sie trotz Unterschieden zwischen den Stichprobenmitgliedern auftreten.
Replikation einer Studie zur Überprüfung des Einflusses von verbaler Verstärkung auf das Lernverhalten, wobei die Versuchsgruppen nicht nach Jungen
und Mädchen getrennt waren. In der Ausgangsstudie, die es zu replizieren gilt, haben sich signifikante Effekte gezeigt. Es wird aber in der Replikation
nicht überprüft, ob diese Effekte auch für Mädchen und Jungen getrennt gelten.
Die demonstrierte Replikation repliziert Treatment-Effekte an homogenen Stichproben, wobei der VL Kenntnis über die
Unterschiede zwischen den Gruppen hat. Können Effekte repliziert werden, dann kann man zusätzlich zur angenommenen
Replikation sagen, ob der Effekt auch für die Gruppen getrennt auftritt. Deshalb ist sie deutlich informativer.
Replikation einer Studie zur Überprüfung des Einflusses von verbaler Verstärkung auf das Lernverhalten, wobei die Versuchsgruppen nach Jungen und
Mädchen getrennt waren. In der Ausgangsstudie, die es zu replizieren gilt, hat sich gezeigt, dass Mädchen signifikant höher von der Verstärkung profitieren konnten.
abhängige vs. unabhängige Untersucher
Unabhängige Untersucher sind bedeutsamer, da sie die Hypothesen nicht kennen und unterschiedliche Erwartungen darüber haben, wie das Experiment ausgehen wird. Sie können nicht, bewusst oder unbewusst, das Experiment hinsichtlich
ihrer Hypothesen beeinflussen.
3.2. Beziehungen zwischen den vier Arten der Validität
statistische und interne Validität i.e.S.
Beide Arten der Validität können durch instabile Daten (Unreliabilität der Messung, Schwankungen von Persönlichkeitsmerkmalen) gefährdet werden. Dabei
 beeinflussen systematische Fehler die Ausprägung der Mittelwerte der Populationen (= bias), z. B. eine Selektion aufgrund des Treatments; Sie gefährden die interne Validität, da sie wahre Zusammenhänge zwischen den Variablen verschleiern.
 erhöhen unsystematische Fehler die Variabilität der Werte; Sie gefährden die statistische Validität, da sie das Finden
eines signifikanten Effekts erschweren.
Konstruktvalidität und externe Validität
Bei beiden Validitätsarten werden
 Generalisierungen getroffen
Der Hauptunterschied zwischen beiden ist, dass sich Generalisierungen im Sinne der externen Validität auf tatsächlich
bestehende Zielpopulationen beziehen, während sich Generalisierungen im Sinne der Konstruktvalidität auf Konstrukte
bezieht, die eher vage sind und erst genau definiert werden müssen.
Oft hat die Erhöhung eines Validitätsaspekts die Verringerung eines anderen zur Folge:
Eine Erhöhung der statistischen Validität durch eine strenge Kontrolle der Versuchsbedingungen durch den VL führt zur
Senkung der externen Validität, also der Generalisierbarkeit.
Eine Erhöhung der Konstruktvalidität durch multiple Operationalisierung führt wahrscheinlich zur Erhöhung der Langweiligkeit der Untersuchung und damit zum Schwund an Probanden (experimentelle Mortalität), dadurch zur Senkung der
internen Validität i.e.S.
21
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
3.3. Priorität der einzelnen Validitätsarten in unterschiedlichen Anwendungskontexten
Je nach Einsatzgebiet ergeben sich folgende Rangfolgen der Validitätsarten hinsichtlich ihrer Wichtigkeit:
Überprüfung einer Theorie
 interne Validität (Besteht ein gerichteter, ursächlicher Zusammenhang zwischen den beteiligten Variablen?)
 Konstruktvalidität (Was genau bedeuten die Konstrukte, zwischen denen der Kausalzusammenhang gefunden wurde?)
 statistische Validität
 externe Validität, da nur wenige Theorien Aussagen zu Generalisierungen über Personen, Umgebungen oder Zeitpunkte
machen
angewandte Forschung
 interne Validität (Ist das Treatment für die Linderung des Problems ursächlich?)
 externe Validität (Kann ich das Treatment auch für andere Problemstellungen oder auf andere Objekte anwenden?)
 Konstruktvalidität des Effekts (AV) (Was genau wurde denn da durch das Treatment verändert?)
 statistische Validität (Wie bedeutsam ist denn der gefundene Zusammenhang?)
 Konstruktvalidität der Ursache (UV)
Fazit: Sowohl für die Grundlagen- als auch für die angewandte Forschung ist die interne Validität von höchster Wichtigkeit. Es entstehen häufig bedeutende Kosten, wenn man sich in der Größe und der Richtung von kausalen Zusammenhängen irrt. Allerdings sollte man die interne Validität nicht über alles stellen, da dies zu Lasten der externen Validität (Generalisierbarkeit) geht.
22
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
4. Quasi-Experimente
 Ordnen Sie ein: Kohortendesign, Regressions-Diskontinuitäts-Design, Cross-lagged Panel Design! (x2)
 Welche Zeitreihen-Designs kennen Sie? (x2)
4.1. Nicht-äquivalente Kontrollgruppendesigns / Zeitreihendesigns
 Was sind Zeitreihen-Designs?
Eine Zeitreihe besteht aus mindestens 20 – 30 Messungen derselben Variablen, die in regelmäßigen zeitlichen Abständen
wiederholt vorgenommen werden. Diese Messungen können immer wieder an derselben Stichprobe vorgenommen werden
oder aber an ähnlichen Einheiten (z. B. Kohorten).
Wird innerhalb der Zeitreihe ein Treatment zu einem dem Beobachter bekannten Zeitpunkt appliziert, mit dem Ziel, den
Effekt dieses Treatments, d. h. eine Änderung des Verlaufs der Zeitreihenmessungen, zu untersuchen, spricht man von
unterbrochenen Zeitreihen.
 Was ist der Vorteil von Zeitreihen?
Effekte, die mit unterbrochenen Zeitreihen untersucht werden können
 Art der Veränderung der Zeitreihe (Niveauveränderung durch plötzlichen Sprung in der Zeitreihe, Anstieg der Verlaufskurve durch allmählichen Anstieg in der Zeitreihe, Veränderung der Streuung der Messwerte um den Mittelwert etc.), es
lassen sich also Trends erkennen.
 Dauerhaftigkeit der Veränderung (kurzzeitiger vs. kontinuierlicher Effekt)
 Zeitpunkt des Einsetzens der Veränderung (unmittelbare vs. verzögerte Wirkung; die unmittelbare Wirkung ist leichter zu
interpretieren, da sie mit der Intervention zeitlich zusammenfällt und eine Verursachung des Effekts durch zwischenzeitliches Geschehen ausgeschlossen werden kann)
 Regressions- und Reifungseffekte können entdeckt werden
praktische Probleme bei der Durchführung von Zeitreihenuntersuchungen
graduelle statt punktuelle Treatmentimplementierung
Oft erreicht eine Intervention nicht die gesamte Zielpopulation zu einem bestimmten Zeitpunkt, sondern nach und nach (z.
B. bei der Einführung technischer Neuerungen). Dadurch können Effekte falsch eingeschätzt, z. B. unterschätzt werden, da
nicht berücksichtigt wird, dass nicht allen Personen das Treatment von Anfang an zugänglich war, also nicht bei allen die
gleiche Wirkung erzielen konnte.
Setzt man hier Zeitreihen ein, überprüft man eher die Auswirkungen des Implementierungsprozesses eines Programms und
nicht die Intervention als solche.
verzögertes statt sofortiges Auftreten von Treatmenteffekten
Tritt eine Treatmentwirkung nicht vorhersagbar verzögert auf, dann werden Alternativerklärungen wie z. B. zwischenzeitliches Geschehen zur Erklärung des verzögerten Effekts wahrscheinlicher.
zu wenig Messungen
Werden weniger als 50 Messungen vorgenommen, kann dies die statistische Validität verringern, auch Regressionseffekte,
Effektdauer und Reifungseffekte können schlechter erkannt werden.
Probleme mit Daten aus Archiven
Diese sind häufig schwer zu bekommen, können unvollständig sein, nicht in den benötigten Zeitabständen erfasst worden
sein etc.
23
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Was unterscheidet Zeitreihen und Längsschnitt-Designs?
Zeitreihendesigns erfordern häufigere Beobachtungen als Vorher-Nachher-Messungen und Längsschnittstudien. Als kurze
Zeitreihen gelten mindestens 20 Beobachtungen, 50 sind für gründliche Analysen erwünscht.
Die Längsschnittstudie untersucht die Abhängigkeit einer Variable von der Variable Zeit (nicht Alter, da dies lt. Nowack
eine „inhaltslose Kategorie“, also nur eine Begleiterscheinung der Zeit ist. Weiterhin ist die Zeit keine UV, da sie nicht
manipuliert werden kann). Mit Zeitreihen-Designs lassen sich die unterschiedlichsten UV´s testen.
 Wie unterscheiden sich nicht-äquivalente Kontrollgruppendesigns von Zeitreihendesigns? (x2)
Durch die Anzahl der Messzeitpunkte. Nicht-äquivalente Kontrollgruppendesigns sind Quasi-Experimente, die nur wenige
Messzeitpunkte enthalten; Typischerweise werden die Reaktionen der einzelnen experimentellen Gruppen vor und nach
dem Treatment gemessen und miteinander in Beziehung gesetzt.
Zeitreihendesigns sind Quasi-Experimente, bei denen der zeitliche Verlauf von Treatmentwirkungen erfasst wird, indem
viele Messungen durchgeführt werden, mindestens 20, für eine gute Analyse sind 50 empfohlen. Mit ihnen lassen sich
mehr statistische Validitätsgefährdungen (z. B. unreliable Messungen) und Beeinträchtigungen der internen Validität i. e. S.
(z. B. Regression zur Mitte und Reifungseffekte) ausschließen.
24
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Bei den folgenden Designs handelt es sich um nicht interpretierbare Designs, da viele plausible Alternativerklärungen für
die Variation der AV nicht ausgeschlossen werden können. Deshalb werden sie meist zur Hypothesenbildung und nicht zur
Überprüfung von Kausalhypothesen genutzt. Können Alternativerklärungen jedoch auf anderem Wege plausibel ausgeschlossen werden, so ist eine kausale Interpretation denkbar.
Eingruppen-Nachtest-Design
Beschreibung
Eine Experimentalgruppe bekommt ein Treatment und die Ausprägung der AV wird anschließend erfasst.
Beispiel: Hepatitis-Erkrankte bekommen ein Medikament, worauf es ihnen besser geht.
Anwendung
 wenn ein Vortest nicht möglich ist
Gefährdungen
 Alternativerklärungen aufgrund fehlender Kontrollgruppe
 aufgrund des fehlenden Vortests ist unklar, ob das Treatment überhaupt eine Veränderung bewirkt hat bzw. ob die resultierenden Veränderungen durch das Treatment bedingt sind
Nachtest-Design mit nicht-äquivalenten Kontrollgruppen
Beschreibung
Hier existieren eine Experimentalgruppe und eine Kontrollgruppe, wobei die Experimentalgruppe ein Treatment erhält, die
Kontrollgruppe hingegen nicht. Anschließend wird in beiden Gruppen die Ausprägung der AV erfasst und die Gruppen
werden miteinander verglichen.
Beispiel: Es soll der Einfluss von Studienberatung auf den Studienerfolg untersucht werden; dazu werden Studienanfänger der Fachrichtung Psychologie 3
Monate beraten, Chemiker 6 Monate und Biologen gar nicht. AV ist die Vordiplomsnote. Besteht ein Zusammenhang zwischen den Abstufungen des
Treatments und der AV, könnte unter Ausschluss von Alternativinterpretationen (v. a. Selektion: sind alle Studiengruppen vergleichbar?) auf ein Treatment-Effekt geschlossen werden.
Anwendung
 wenn ein Vortest nicht möglich ist
 wenn eine Herstellung vergleichbarer Treatment-Gruppen nicht möglich ist (wenn z. B. verschiedene Fachrichtungen in
der Universität untersucht werden sollen)
Gefährdungen
 Alternativerklärungen aufgrund fehlender Randomisierung
25
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Eingruppen-Vortest-Nachtest-Design
Beschreibung
Eine Experimentalgruppe erhält nach einem Vortest ein Treatment, daraufhin wird die Ausprägung der AV erfasst. Unterschieden sich Vor- und Nachtest, dann hat das Treatment – bei Ausschluss von Alternativerklärungen – zu einem Effekt in
der AV geführt.
Beispiel: In einem Betrieb werden 5 Frauen eingestellt und dafür 5 Männer entlassen; vorher und nachher wird die Produktivität gemessen.
Anwendung
 wenn angenommen werden kann, dass das Treatment insgesamt erheblich bedeutsamer ist als alle Störfaktoren zusammengenommen, weil dann Alternativerklärungen, die hier aufgrund der fehlenden Kontrollgruppe nicht ausgeschlossen
werden können, unplausibel sind.
 Fragestellungen, bei denen ein Treatment interessiert, von dem fast alle Personen betroffen sind, z. B. Wirkung des Fernsehens
Gefährdungen
 Alternativerklärungen aufgrund fehlender Kontrollgruppe
 Regression zur Mitte
 unreliable Messinstrumente
einfache unterbrochene Zeitreihen
Beschreibung
Entspricht dem Eingruppen-Vortest-Nachtest-Design, wobei mehrere Vortest- und Nachtestmessungen durchgeführt werden.
Gefährdungen
 Alternativerklärungen aufgrund fehlender Kontrollgruppe (zwischenzeitliches Geschehen)
 Veränderung der Messinstrumente über die Zeit
 experimentelle Mortalität
 Verwendung nur einer Methode kann zu Methodeneffekten führen
 Reaktivität der Messung: die gleichen Probanden werden wiederholt zu Messungen herangezogen und wissen über den
Zeitpunkt der Treatmentimplementierung bescheid. Das Bewusstsein, Teilnehmer einer wissenschaftlichen Untersuchung
zu sein, verändert das Verhalten der Probanden.
Vorteile
 durch mehrfache Vortest-Messungen können Reifungseffekte beurteilt und statistische Regression kontrolliert werden
 Identifizierung saisonaler Trends, wenn in den Vortests Messwerteschwankungen zu bestimmten, wiederkehrenden Zeitpunkten gefunden werden
26
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Bei den folgenden Designs handelt es sich um interpretierbare Designs, da sie mehr Validitätsgefährdungen ausschließen
können als die vorher beschriebenen.
Vortest-Nachtest-Design mit nicht-äquivalenten Kontrollgruppen
Beschreibung
Bei der Experimentalgruppe und der Kontrollgruppe wird jeweils ein Vortest und ein Nachtest durchgeführt, mit dem Unterschied, dass die Experimentalgruppe zwischen Vortest und Nachtest ein Treatment erhält. Im Anschluss werden die
Nachtest-Werte der beiden Gruppen auf Unterschiedlichkeit überprüft.
Anwendung
 Alternative zum echten Experiment, wenn eine Randomisierung nicht möglich ist
Gefährdungen
 Alternativerklärungen aufgrund mangelnder Randomisierung
 differentielle Regression zur Mitte
 unzureichende Messinstrumente
Abwandlungen
 unbehandeltes Kontrollgruppendesign mit stellvertretenden Vortest-Maßen
(1) Liegt kein Paralleltest vor, (2) werden im Nachtest neuartige Maße erhoben, die im Vortest nicht sinnvoll zu erheben
gewesen wären oder (3) konnte kein Vortest durchgeführt werden, man hatte aber Zugriff auf ein Archiv, dann werden für
den Nachtest Maße genutzt, die zum Vortest nicht äquivalent sind, aber hoch miteinander korrelieren.
Gefährdungen zeigen sich hier meist in der statistischen Validität, weil die nicht-äquivalenten Maße selten hoch miteinander korrelieren und Effekte deshalb schwer signifikant werden.
Beispiel: Erfassung der allgemeinen Sprachfähigkeit im Grundschulalter als Vortest, Erfassung der Französisch-Kenntnisse als Nachtest.
 unbehandeltes Kontrollgruppendesign mit Vortestmessungen zu mehreren Zeitpunkten
Zusätzliche Vortestmessungen werden durchgeführt, um bestimmte Gefährdungen zu minimieren:
(1) Gefährdung der internen Validität durch eine Interaktion von Selektion und Reifung, weil durch zusätzliche Messzeitpunkte überprüft werden kann, ob sich die Gruppen mit unterschiedlicher Geschwindigkeit entwickeln;
(2) Reduktion der Gefährdung der internen Validität durch statistische Regression, da man nun erkennen kann, ob die Werte extrem hoch oder niedrig sind; sie mitteln sich über die unterschiedlichen Messungen aus. Aus finanziellen und zeitlichen Gründen ist dieses Vorgehen oft nicht möglich.
unterbrochene Zeitreihen mit nicht-äquivalenten Kontrollgruppen ohne Treatment
Beschreibung
Entspricht dem Vortest-Nachtest-Design mit nicht-äquivalenten Kontrollgruppen, wobei mehrere Vortest- und Nachtestmessungen durchgeführt werden.
Anwendung
 Standarddesign
Gefährdungen
 Interaktion von Selektion und Treatment: dadurch, dass sich die experimentellen Gruppen hinsichtlich von Variablen
unterscheiden, welche die Ausprägung der AV potentiell beeinflussen können, kommt es zu einer differentiellen Wirkung
auf die AV. Interpretation und Übertragbarkeit der Resultate sind schwer oder unmöglich.
 Matching der Probanden und Randomisierung auf die einzelnen experimentellen Bedingungen.
 Regression zur Mitte: werden beide Gruppen zum Zeitpunkt der Intervention parallelisiert, dann ist es wahrscheinlich,
dass sie sich bei den nächsten Messungen in Richtung ihrer wahren Populationswerte auseinander bewegen
Vorteile
 Ausschaltung des zwischenzeitlichen Geschehens als Alternativinterpretation: beide Gruppen werden über die gleiche
Zeitspanne betrachtet; beim Einfluss von zwischenzeitlichem Geschehen müsste sich die Kontrollgruppe in ähnlicher Weise verändern wie die Experimentalgruppe.
27
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 bessere Abschätzung der Dauer von Treatmenteffekten, da bei nur einer experimentellen Gruppe die Dauer des Effekts
mit zwischenzeitlichem Geschehen und Reifung konfundiert ist; Hier aber ist der Vergleich zur Baseline einer unbehandelten Kontrollgruppe möglich.
Eingruppen-Vortest-Nachtest-Design mit nicht-äquivalenten abhängigen Variablen
Beschreibung
Die Experimentalgruppe wird in Hinblick auf zwei verschiedene, aber konzeptuell ähnliche abhängige Variablen getestet:
Eine, von der man annimmt, dass sie sich aufgrund des Treatments verändert und eine, die vom Treatment unbeeinflusst
sein soll. Es müssen also differentielle Veränderungen vorhergesagt werden.
Beispiel: Eine Theorie sagt vorher, dass ein bestimmtes Gedächtnistraining nur bei Labortests, nicht aber im Alltag zu einer Verbesserung der Gedächtnisleistung führt. Zur Überprüfung der Hypothese wird nach Durchführung des Treatments nach einer Woche als 1. AV die Leistung bei Laboraufgaben und
als 2. AV die Leistung in konkreten Alltagssituationen erfasst. Beide abhängigen Variablen sind sich konzeptuell ähnlich, da sie beide Gedächtnisleistungen erfassen. In den Ergebnissen sollte sich zeigen, dass die Person von dem Labortraining profitieren konnte, dies aber nicht auf Alltagssituationen
anwenden konnte.
Anwendung
 wenn die Forschungsumstände nur eine experimentelle Gruppe zulassen
 wenn theoretische Vorhersagen über eine differentielle Entwicklung der abhängigen Variablen vorliegen
Gefährdungen
 Reliabilitätsunterschiede der Messinstrumente (eventuell werden signifikante Veränderungen in der zweiten Variable
nicht entdeckt, so dass angenommen wird, dass die Hypothese der differentiellen Entwicklung der AV´s verifiziert werden
konnte)
 Regressionseffekte
Vorteile
 Verbesserung der Konstruktvalidität durch Mehrfachoperationalisierung der AV
 bei differentieller Entwicklung der Variablen können Effekte des zwischenzeitlichen Geschehens ausgeschlossen werden,
da diese die konzeptuell ähnlichen Variablen in ähnlicher Art und Weise beeinflusst hätte
unterbrochene Zeitreihen mit nicht-äquivalenten abhängigen Variablen
Beschreibung
Entspricht dem Eingruppen-Vortest-Nachtest-Design mit nicht-äquivalenten abhängigen Variablen, wobei mehrere Vortestund Nachtestmessungen durchgeführt werden.
Anwendung
 s. o.
Erhöhung der Validität
 Steigerung der Anzahl der AV, für die Vorhersagen gemacht werden (Erhöhung der Konstruktvalidität)
Erhöhung der Spezifität der Vorhersagen, denn je genauer (und damit unwahrscheinlicher) die Vorhersage, desto wahrscheinlicher ist das Ergebnis, wenn es eintritt.
28
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Eingruppen-Vortest-Nachtest-Design mit abgesetztem Treatment
Beschreibung
Es handelt sich um eine Erweiterung des Vortest-Nachtest-Designs um zwei weitere Nachtestmessungen: Das Treatment
liegt zwischen den ersten beiden Messzeitpunkten, darauf folgen noch zwei Nachtests, zwischen denen das Treatment jedoch nicht mehr appliziert wird.
Das Treatment gilt dann als erfolgreich, wenn:
 die Veränderung zwischen den ersten beiden Messzeitpunkten entgegengesetzt der Veränderung zwischen den beiden
letzten Messzeitpunkten ist, da die Implementierung des Treatments einen entgegengesetzten Effekt haben sollte wie die
Rücknahme des Treatments
 die Veränderung zwischen dem 3. und dem 4. Messzeitpunkt höher ist als die zwischen dem 2. und dem 3. Messzeitpunkt; ist das nicht der Fall, sondern existiert ein seichter Trend vom 3. zum 4. Messzeitpunkt, ist das ein Zeichen dafür,
dass durch das Treatment eine Reifung eingetreten ist
Beispiel: Als Treatment wird in einem Büro der Lärmpegel reduziert. Als abhängige Variable wird die Produktivität gemessen. Wenn das Treatment einen
positiven Effekt hat, dann sollte sich die Produktivität vom 1. zum 2. Messzeitpunkt erhöhen, zum 3. Messzeitpunkt immer noch hoch sein und nach
Rücknahme des Treatments (Wiedereinführung des Lärms) zum 4. Messzeitpunkt wieder absinken.
Wichtig ist, dass die Beobachtungen in zeitlich gleichen Abständen erfolgen, damit spontane Veränderungen über die Zeit
hinweg kontrollierbar werden.
Anwendung
 es steht keine Kontrollgruppe zur Verfügung, aber trotzdem soll der Effekt eines ausgebliebenen Treatments abgeschätzt
werden
Gefährdungen
 es ist eventuell ethisch nicht vertretbar, das Treatment später nicht mehr einzusetzen
 durch die Rücknahme des Treatments kann es zu Frustrationen bei den Teilnehmern der Experimentalgruppe kommen, so
dass sie ihre Leistungen minimieren. Dies wäre dann nicht die Folge des Treatments selbst.
unterbrochene Zeitreihen mit abgesetztem Treatment
Beschreibung
 das Design besteht eigentlich aus zwei unterbrochenen Zeitreihen: von O 1 bis O9 ist das Treatment anwesend und dessen
Effekte sollen abgeschätzt werden, von O5 bis O13 wird das Treatment zurückgenommen und diese Effekte sollen abgeschätzt werden.
Anwendung
 s. o.
Gefährdungen
 s. o.
Vorteile
 Einflüsse von zwischenzeitlichem Geschehen unwahrscheinlich, da die Ereignisse zu verschiedenen Zeitpunkten in verschiedene Richtungen wirken müssten, um dieses Datenmuster zu erzeugen (gilt auch oben).
29
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Eingruppen-Vortest-Nachtest-Design mit wiederholtem Treatment
Beschreibung
Das Treatment liegt zwischen den ersten beiden Messzeitpunkten, wird im Zeitintervall zur dritten Messung weggelassen
und erfolgt erneut zwischen 3. und 4. Messzeitpunkt. Das Treatment gilt dann als erfolgreich, wenn
 die Merkmalsausprägung bei der 2. gegenüber der 1. Messung und bei der 4. gegenüber der 3. Messung höher ist
 die Merkmalsausprägung bei der 3. Messung gegenüber der 2. Messung niedriger ausfällt
Beispiel: Wenn das Treatment in der Einführung bzw. dem Fortlassen von Ruhepausen in Betrieben besteht, sollten sich entsprechende Verbesserungen
und Verschlechterungen in der Arbeitsproduktivität ergeben.
Anwendung
 wenn die Treatmentwirkungen kurzfristig sind
Gefährdungen
 Hypothesenvermutungen durch die Probanden
 zyklische Faktoren, wenn z. B. jeweils die Messungen nach dem Treatment (O 2, O4) zu einem bestimmten Zeitpunkt a
erfolgen, wo die Motivation hoch ist und die Messungen vor dem Treatment (O1, O3) zu einem Zeitpunkt b, zu dem die
Motivation niedrig ist; man könnte dann einen Effekt vermuten, wo gar keiner ist
 Demoralisierung über die Wegnahme des Treatments kann zu einem Absinken der AV zwischen O 2 und O3 führen, durch
das Entfernen der Frustrationsquelle hingegen kann es zu einem Anstieg der AV zwischen O 3 und O4 kommen;
unterbrochene Zeitreihen mit mehrfachen Replikationen
(entspricht Eingruppen-Vortest-Nachtest-Design mit wiederholtem Treatment)
Beschreibung
Entspricht dem Eingruppen-Vortest-Nachtest-Design mit wiederholtem Treatment, wobei das Treatment nach einem festgelegten plan mehrfach eingeführt und wieder entzogen wird.
 Ein Treatmenteffekt liegt nahe, wenn sich die abhängige Variable jedes Mal in ähnlicher Weise verändert, wenn das
Treatment eingeführt bzw. entzogen wird.
Anwendung
 s. o.
Gefährdungen
 wegen der hohen erforderlichen situativen Kontrolle (Beachtung der zeitlich korrekten Treatmentimplementierung und
Messung der AV) ist dieses Design nur für Laboranwendungen geeignet; Dadurch ist die Generalisierbarkeit des Kausalzusammenhangs gefährdet (externe Validität).
Vorteile
 zyklischer Reifung kann durch eine randomisierte Vorgabe der Treatmentimplementierung ausgeschlossen werden
----unterbrochene Zeitreihen mit zeitversetzten wechselnden Replikationen
Beschreibung
 zu jeweils unterschiedlichen Zeitpunkten wird in zwei nicht äquivalenten Stichproben eine Intervention vorgegeben. So
kann wechselseitig die eine Gruppe jeweils Experimentalgruppe bzw. Kontrollgruppe für die andere sein.
Gefährdungen
 unterschiedliches zwischenzeitliches Geschehen
Vorteile
 Verbesserung der externen Validität: die Wirkung des Treatments wird anhand zweier Populationen in zwei Settings zu
zwei unterschiedlichen Zeitpunkten demonstriert
-----
30
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Vortest-Nachtest-Design mit nicht-äquivalenten Kontrollgruppen und umgekehrtem Treatment
Beschreibung
Bei beiden nicht-äquivalenten Gruppen werden Vortest-Werte erhoben, dann erhält eine Gruppe das zu evaluierende Treatment die andere Gruppe hingegen ein Treatment, das genau gegenteilig wirken soll. Das Treatment gilt dann als erfolgreich, wenn
 die Nachtestwerte sich gegenüber dem Vortest in den beiden experimentellen Gruppen in entgegengesetzte Richtungen
entwickeln, damit sichtbar wird, das die Dimension des Treatments (+ / -) einen entscheidenden Effekt hat
Beispiel: Es soll die Auswirkung des autoritären und des demokratischen Führungsstils auf die Produktivität in Betrieben überprüft werden. Von einem
gleichen Ausgangspunkt aus könnte der eine Stil zu einer Verbesserung, der andere zu einer Verschlechterung der Produktivität führen.
Anwendung
 wenn eine Treatmentvariable gut definiert ist und in entgegengesetzten Richtungen untersucht werden kann
Vorteile
 Interaktion von Selektion und Reifung ist unwahrscheinlich, weil Reifung normalerweise nicht in die entgegengesetzte
Richtung wirkt
Gefährdungen
 Versuchsleitereffekte
Varianten zur Validitätserhöhung
 Einführung einer Kontrollgruppe ohne Treatment: sie liefert eine Baseline der Nicht-Intervention, gegenüber der die
auftretenden Effekte der Treatmentgruppen beurteilt werden können
 Einführung einer Placebo-Gruppe: sie ermöglicht den Ausschluss von Versuchsleitereffekten, denn wenn signifikante
Effekte vorliegen, sollte die Placebo-Gruppe, genau wie die Gruppe ohne Treatment, keine Veränderung in der AV zeigen.
31
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Erklären Sie das Kohorten-Design. Wann wird es verwendet?
Kohorten-Design mit regelmäßigen Veränderungen
Beschreibung
Kontroll- und Treatmentgruppen bestehen hier aus verschiedenen Kohorten. Bei Kohorten handelt es sich um Gruppen von
Personen, die in regelmäßigen Abständen Institutionen durchlaufen und so zu verschiedenen Zeitpunkten ähnlichen Umwelten ausgesetzt sind. Zwischen den Kohorten wird bei ausreichender Stichprobengröße wegen der ähnlichen Bedingungen von einer Quasi-Vergleichbarkeit ausgegangen (z. B. 12. Klassen einer Schule, aber dann eben aus verschiedenen Jahren).
Zunächst wird die AV an einer Kohorte ohne Treatment erhoben, bei der nächsten Kohorte wird dann ein Treatment eingeführt und daraufhin ebenfalls die Ausprägung der AV erhoben. Unterscheiden sich die Werte der AV der TreatmentKohorte gegenüber der Kontroll-Kohorte, hat das Treatment wahrscheinlich einen Effekt gehabt.
Beispiel: In einem Studienfach wird eine neue Prüfungsordnung eingeführt, die eine höhere Anzahl von Scheinen im Grundstudium verlangt. Es soll der
Einfluss dieser Veränderungen auf die Vordiplomsnote evaluiert werden. Dazu werden zunächst die Vordiplomsnoten von Studierenden erhoben, die die
Noten vor der Einführung der Änderung erhalten haben (Kontrollkohorte). Diese werden dann ein Jahr später mit den Noten derjenigen Studenten verglichen, die nach der neuen Studienordnung studierten (Treatment-Kohorte).
Anwendung
 wenn Treatments in größeren Institutionen evaluiert werden sollen, in denen einzelne Gruppen (z. B. Schulklassen) in
regelmäßigen Abständen einander nachfolgen
Gefährdungen
 Selektion
 zwischenzeitliches Geschehen
Kohorten werden dahingehend unterteilt, ob eine Teilung des Treatments möglich ist oder nicht.
Kohortendesigns, bei denen eine Teilung des Treatments möglich ist
Hier können die Probanden einer Kohorte in verschiedene Treatmentgruppen aufgeteilt werden, z. B. in Erstgeborene und
Zweitgeborene, starke Fernseher und schwache Fernseher etc. Der Einfluss dieser Faktoren kann dann getrennt beurteilt
werden. Man kann also überprüfen, ob der Treatment-Effekt auch für die Gruppen getrennt besteht.
Kohortendesigns, bei denen eine Teilung des Treatments nicht möglich ist
Nachtest-Design mit vorhergesagten Interaktionseffekten höherer Ordnung
Beschreibung
Auf Grundlage einer Theorie werden Vorhersagen über den Zusammenhang zwischen Variablen in unterschiedlichen
Gruppen getroffen. Diese sollen anhand des Designs überprüft werden.
Beispiel: Es wird die Hypothese aufgestellt, dass bei Normalgewichtigen eine positive Korrelation zwischen der seit dem letzten Essen vergangenen Zeit
und der Menge eingekaufter Lebensmittel besteht. Für Übergewichtige hingegen wird angenommen, dass eine solche Korrelation nicht besteht, da sie
Hinweise des Körpers auf Hunger nicht diskriminieren können, da sie häufig über den Hunger hinaus essen. Hypothese 1 konnte bestätigt werden, für
Hypothese 2 fand sich sogar eine negative Korrelation.
Anwendung
 wenn Randomisierung und Vortests nicht möglich sind, aber dennoch eine Kausalhypothese überprüft werden soll
Gefährdungen
 Selektion: Die Übergewichtigen, die schon länger nichts mehr gegessen haben, könnten aber auch auf Diät sein und deshalb weniger Geld ausgeben
 sehr spezifische Vorhersagen sind nur schwer zu erfüllen
32
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Erläutern Sie das Regressions-Diskontinuitäts-Design! (x 7)
Regressionsdiskontinuitäts-Design
Beschreibung
Es handelt sich um ein Design, das unter den quasiexperimentellen Ansätzen die beste Alternative zum randomisierten
Experiment darstellt, und zwar weil – im Gegensatz zu den restlichen quasiexperimentellen Designs – die Unterschiede
zwischen den Gruppen bekannt sind.
In Designs mit nicht äquivalenten experimentellen Gruppen bestehen aufgrund der fehlenden Randomisierung Selektionseffekte, d. h. die experimentellen Gruppen unterscheiden sich systematisch hinsichtlich verschiedener potentieller Störvariablen, die die Wirksamkeit des Treatments oder die Ausprägung der AV beeinflussen können. Das Problem ist, dass sie
unbekannt sind.
Im Regressionsdiskontinuitätsdesign hingegen wird dieser Selektionseffekt kontrolliert, indem die Variable, hinsichtlich
derer systematische Unterschiede zwischen Personen bestehen, als Zuweisungsvariable zu den einzelnen experimentellen
Gruppen dient.
Hat man diese Zuweisungsvariable identifiziert, wird die Ausprägung dieser Variable bei den Probanden erhoben und die
Werte werden auf einem quantitativen Kontinuum angeordnet. Dann wird ein Trennwert festgelegt, der die Grenze zwischen den Personen definiert, die ein Treatment erhalten (Experimentalgruppe) oder nicht erhalten (Kontrollgruppe).
Vor und nach der Vorgabe des Treatments bei der Experimentalgruppe wird die Ausprägung der AV bei Experimental- und
Kontrollgruppe erhoben und eine Regressionsgleichung zur Beschreibung des Zusammenhangs zwischen „Zuweisungsvariable“ (z. B. Einkommen der Eltern) und abhängiger Variable (z. B. Gesundheitszustand) berechnet.
Eine Treatment-Wirkung liegt dann vor, wenn die Regressionsgerade der Experimentalgruppe im Nachtest am Trennwert
diskontinuierlich verläuft, während diese Kontinuität bei der Kontrollgruppe vorliegen sollte. Dies würde zeigen, dass das
Treatment zu einem Effekt geführt hat, da die Regressionsgerade im Vergleich zum Vortest bei der Experimentalgruppe
anders verläuft, bei der Kontrollgruppe hingegen nicht.
Anwendungsvoraussetzungen
 Linearität zwischen Zuweisungsvariable und AV;
 die Zuweisungsvariable muss hoch mit der abhängigen Variable korrelieren
 die Probanden müssen hinsichtlich der Zuweisungsvariablen auf einer quantitativen Dimension angeordnet werden können;
Gefährdungen
 Wenn Probanden hinsichtlich der Zuweisungsvariable falsche Angaben machen, wird der Trennwert ungenau. Das führt
dazu, dass die Differenz der Achsenabschnitte am Trennpunkt sinkt und eine eventuelle Diskontinuität verschleiert wird.
 Nimmt man einen linearen Zusammenhang zwischen Zuweisungsvariable und abhängiger Variable an, obwohl ein kurvilinearer Zusammenhang vorliegt, werden Treatment-Effekte angenommen, wo gar keine sind. (Bild 1)
 Eine zu kleine Anzahl von Personen in der Treatmentgruppe führt dazu, dass
(1) die Generalisierbarkeit beeinträchtigt wird
(2) die Form der Verteilung der Vortestwerte über dem Trennpunkt nur schlecht geschätzt werden kann (linear vs. kurvillinear, s. o.). Dadurch wird es schwer zu erkennen, ob es sich im Nachtest nur um eine Verlängerung der Regressionsgerade
handelt (also kein Effekt vorliegt) oder ob Diskontinuität (Effekt) vorliegt. (Bild 2)
 hohe Anzahl von Versuchspersonen notwendig, daher unökonomischer als randomisierte Experimente
33
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Man hat festgestellt, dass der Gesundheitszustand (AV)
vieler Kinder, deren Eltern über ein niedriges Einkommen („Zuteilungsvariable“) verfügen, schlecht ist. Man
vermutet als Ursache eine unausgewogene Ernährung
(UV).
Man plant eine Aufklärungsaktion „gesunde Ernährung“
(Treatment) im Rahmen eines Ferienlageraufenthaltes.
Eine Zufallsstichprobe von Kindern wird in einem Vortest bezüglich ihres Gesundheitszustandes untersucht.
Zusätzlich wird das Einkommen der Eltern erfragt.
Hinsichtlich des Einkommens der Eltern wird ein Trennwert festgelegt. Die Kinder, deren Eltern ein Einkommen
unterhalb dieses Trennwerts haben, gehören zur Experimentalgruppe, die anderen zur Kontrollgruppe.
Es wird eine Regressionsgerade zur Beschreibung des
Zusammenhangs zwischen „Zuweisungsvariable“ und
AV erstellt. (a)
Vier Wochen nach Abschluss des Ferienlagers wird der
Gesundheitszustand der Kinder erneut überprüft.
Das Treatment hat gewirkt: Die Kinder ärmerer Eltern
befinden sich nach dem Aufenthalt im Ferienlager in
einem besseren Gesundheitszustand als davor. Die Regressionsgerade ist diskontinuierlich. (Ihr früherer Zustand lag dort, wo die rechte Gerade nach links verlängert
werden würde.) (b)
 Wie kann man die Grundform des Quasi-Experiments ausweiten?
 Wodurch kann man Gruppen-Designs verändern?
 mehr Zeitpunkte beim Vortest und Nachtest einsetzen ( Reifung, zwischenzeitliches Geschehen, Abschätzung der Dauer von Treatmenteffekten)
 (mehr) Kontrollgruppen einführen ( Reifung, zwischenzeitliches Geschehen)
 verschiedene abhängige Variablen untersuchen ( Erhöhung der Konstruktvalidität)
 entgegengesetzte Treatments implementieren ( Erhöhung der Konstruktvalidität)
 Treatments absetzen / wieder einsetzen
 verschiedene Operationalisierungen der unabhängigen Variablen vornehmen, eventuell stellvertretende Vortestmaße
verwenden
 Kohorten untersuchen
34
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
4.3. passive Beobachtung
 Welche Designs passiver Beobachtung kennen Sie? (x5)
Treatment als Dummy-Variable in der Regressionsanalyse
Das Treatment wird als Dummy-Variable in die Regressionsanalyse eingeführt, wenn Zusammenhangshypothesen zwischen einem nominal skalierten Prädiktor (z. B. Berufskategorie) und einem intervallskalierten Kriterium (Urlaubstage)
überprüft werden sollen.
Diese Zusammenhänge könnte man auch durch den Kontingenzkoeffizienten (Vierfeldertafel) prüfen, jedoch bietet die
Regression mit Hilfe der Dummy-Variable folgende Vorteile:
 beim Kontingenzkoeffizienten würden individuelle Informationen der einzelnen Probanden verloren gehen, da die Kriteriumsinformationen über die Personen einer Gruppe hinweg gemittelt werden müssten (im Beispiel unten müssten die Urlaubstage für alle Personen einer Gruppe jeweils gemittelt werden);
 durch die Regressionsanalyse können simultan weitere nominal- und / oder intervallskalierte Prädiktoren berücksichtigt
werden;
Ein kausaler Effekt des Prädiktors (Treatments) liegt dann vor, wenn der Regressionskoeffizient  der Dummy-Variable
statistisch signifikant wird, und zwar unter Auspartialisierung all derjenigen Variablen, die neben dem Prädiktor in die
Analyse eingegangen sind und die die Korrelation zwischen Prädiktor und Kriterium beeinflussen.
 Was versteht man unter einer Dummy-Variable?
Eine Dummy-Variable lässt sich beschreiben als nominal skalierter Prädiktor, der in einen dichotomen Prädiktor umkodiert
wurde. Für k Stufen einer UV braucht man k-1 Dummy-Variablen.
Alle Personen der Untersuchung werden durch jede Dummy-Variable kodiert, wobei diejenigen Personen, die der jeweiligen Stufe der Dummy-Variable angehören, eine „1“ erhalten, diejenigen, die einer anderen Stufe der Dummy-Variable
angehören, eine „0“. Die resultierende Datenmatrix bildet den Ausgangspunkt für die Regressionsanalyse.
Es wird die Hypothese untersucht, dass zwischen der Art
der Berufsausbildung und der Anzahl der jährlichen Urlaubstage ein Zusammenhang besteht. Für jede Berufskategorie wurden drei Personen befragt.
Eine Dummy-Variable wird für die ersten drei Berufskategorien erstellt (n – 1) und die Personen aller Berufskategorien werden anhand dieser Variable kodiert, und zwar mit
„0“, wenn sie dieser nicht angehören und mit „1“, wenn sie
ihr angehören.
Daraus resultiert nebenstehende Datenmatrix, über die die
multiple Korrelation berechnet wird.
Bortz & Döring, S. 479-480
Probleme
Signifikante Regressionskoeffizienten werden leicht überschätzt, da
 angenommen wird, dass alle relevanten Einflussvariablen auf die AV erfasst worden sind, was in den seltensten Fällen
gegeben ist. Das führt dazu, dass der Koeffizient der Dummy-Variable höher eingeschätzt wird, als er eigentlich ist.
 die mit der Dummy-Variable korrelierenden Prädiktoren nie vollständig reliabel und valide sind. Das führt dazu, dass
nicht ihre gesamte gemeinsame Varianz mit der Dummy-Variable herauspartialisiert werden kann.
35
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Pfadanalyse
 Was ist die Pfadanalyse? Wozu wird sie angewendet?
Die Pfadanalyse ist eine Design zur Überprüfung komplizierter theoretischer Kausalmodelle, in der eine Vielzahl von Variablen und Kausalhypothesen über deren Zusammenhang untereinander und mit dem Kriterium enthalten sind. Überprüft
wird das Kausalmodell anhand empirischer Daten.
Das Modell ist dann geeignet, wenn es mit den empirischen Daten übereinstimmt.
Beispiel: Die Höhe des Einkommens männlicher Personen soll erklärt werden. Es wird behauptet, dieses sei von der Ausbildung und dem Beruf der
Person sowie dem Beruf des Vaters abhängig. Die Ausbildung des Sohnes, die ihrerseits von der Ausbildung und dem Beruf des Vaters abhängt, beeinflusst den Beruf des Sohnes etc.
Ablauf einer Pfadanalyse
1.
Entwicklung eines theoretisch begründeten Modells über Art und Richtung der Zusammenhänge zwischen den Variablen
2.
Konstruktion eines Pfaddiagramms, das die theoretisch spezifizierten Zusammenhänge aufzeigt (s. Abbildung oben).
3.
Bildung linearer Strukturmodelle, die die Beziehungen der Variablen des Pfaddiagramms mathematisch beschreiben.
4.
Prüfung dieser Modelle, indem die empirisch gefundenen Daten (Kovarianzen oder Korrelationen) in diese Gleichungen eingesetzt werden, um die Pfadkoeffizienten zu schätzen.
Der Pfadkoeffizient gibt die Korrelation zwischen zwei direkt miteinander verknüpften Variablen an, ferner gibt es
vermittelte Korrelationskoeffizienten, d. h. solche Korrelationen, die über eine Drittvariable laufen. Die Korrelation
der vermittelten Koeffizienten besteht aus dem Produkt der Korrelationen der Pfadkoeffizienten.
Beispiel: Ein Pfadkoeffizient bestünde z. B. zwischen der Ausbildung des Vaters und dem Beruf des Vaters, ein vermittelter Korrelationskoeffizient
bestünde z. B. zwischen der Ausbildung des Vaters mit dem Beruf des Sohnes über den Beruf des Vaters. Er errechnet sich aus dem Produkt der
Korrelationen zwischen der Ausbildung des Vaters / dem Beruf des Vaters und dem Beruf des Vaters / Beruf des Sohnes.
Pfadkoeffizienten können nur dann richtig geschätzt werden, wenn
(1) keine im Modell unberücksichtigten weiteren Variablen existieren, die auf das Kriterium einwirken können,
(2) das Kausalmodell auch tatsächlich zutrifft
5.
Messung der Identifikation des Modells
- Identifikation: Ausmaß, in dem es genügend Korrelationen gibt, um alle unbekannten Pfade des theoretischen
Modells durch die empirischen Daten zu schätzen. Man versucht, ein möglichst überidentifiziertes Modell zu haben, d. h. mehr Korrelationen als unbekannte Pfade.
6.
Evaluation der Modellschätzungen
- Gibt es einen signifikanten Zusammenhang zwischen dem postulierten Modell und den empirischen Daten?
- Wurden signifikante Korrelationen gefunden?
Stehen empirische Korrelationen zu einem Kausalmodell nicht im Widerspruch, heißt das nicht, dass dieses Kausalmodell
tatsächlich der Realität entspricht. Dieser Schluss wäre nur zulässig, wenn sich die korrelativen Zusammenhänge durch
keine weiteren Kausalmodelle erklären ließen. Es gibt aber meist eine Vielzahl solcher Modelle, man muss dazu nur die
Pfeile verändern, schon hat man ein neues Modell.
Daraus folgt: Kausalhypothesen sind durch nicht-signifikante Ergebnisse in der Übereinstimmung zwischen Modell und
empirischen Daten zwar zu widerlegen, aber nicht eindeutig zu bestätigen.
36
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
zeitverschobene Kreuzkorrelation (Cross-lagged Panel Design)
 Was ist zeitverschobene Kreuzkorrelation? (x4)
 Was ist ein Cross-lagged Panel-Design? (x1)
Hier werden zwei konkurrierende Kausalmodelle dahingehend überprüft, welches der beiden eine höhere Plausibilität aufweist: A ist ursächlich für B vs. B ist ursächlich für A.
Voraussetzung ist, dass mindestens zwei Variablen bei ein- und derselben Stichprobe zu mindestens zwei Zeitpunkten
erhoben werden, wobei diese Variablen auf großen Stichproben basieren und hohe Reliabilitäten aufweisen sollen. Aus den
Variablenmessungen zu den unterschiedlichen Zeitpunkten ergeben sich mindestens folgende 6 Korrelationen.
 zwei Korrelationen jedes Merkmals mit sich selbst zu zwei unterschiedlichen Zeitpunkten (Autokorrelationen)
 zwei Korrelationen zwischen zwei verschiedenen, gleichzeitig gemessenen Variablen (synchrone Korrelationen)
 zwei Korrelationen zwischen zwei verschiedenen, zu zwei unterschiedlichen Zeitpunkten gemessenen Variablen (zeitverschobene Kreuzkorrelationen)
Beispiel: die konkurrierenden Hypothesen „Die Bildung beeinflusst das Einkommen“; „Das Einkommen beeinflusst die Bildung.“
Die Hypothese, dass A ursächlich für B ist, ist dann plausibler, wenn
 die zeitverschobene Kreuzkorrelation von At1 und Bt2 (r = 0.70) größer ist als die zeitverschobene Kreuzkorrelation von
Bt1 und At2 (r = 0.20).
 wenn die betreffende Kreuzkorrelation größer als die synchronen Korrelationen ist
Wenn die Bildung das Einkommen bestimmt, das Einkommen die Bildung jedoch nur schwach beeinflusst, würde man zwischen der Bildung mit 25
Jahren und dem Einkommen mit 50 Jahren eine hohe und zwischen dem Einkommen mit 25 Jahren und der Bildung mit 50 Jahren eine niedrige Korrelation erwarten. Gleichzeitig müssten die Merkmale Bildung und Einkommen mit 50 Jahren stärker korrelieren als mit 25 Jahren.
Die Interpretierbarkeit der Daten ist dann am größten, wenn
 Stationarität vorliegt, d. h. die synchronen Korrelationen über die verschiedenen Messzeitpunkte hinweg stabil bleiben.
 die Retest-Reliabilitäten gleich bleiben bzw. sich gleich verändern.
 Was ist bei unterschiedlichen Retest-Reliabilitäten?
 Was macht man, wenn eine Reliabilität höher ist als die andere? (x3)
Nimmt die Reliabilität eines Maßes zu, während die des anderen Maßes gleich bleibt, dann verändern sich alle Korrelationen, die mit dieser Variable gebildet wurden: Die Korrelationen erhöhen sich, wenn die Reliabilität zunimmt und werden
kleiner, wenn die Reliabilität abnimmt. Das hat auch Auswirkungen auf die zeitverschobenen Kreuzkorrelationen:
Nimmt die Reliabilität von A stärker zu als die von B, dann erhöht sich die zeitverschobene Kreuzkorrelation von B t1 und
At2 stärker als die von At1 und Bt2. Das könnte dazu führen, dass B fälschlicherweise als Ursache für A angenommen wird.
Hier bietet sich eine Minderungskorrektur um die Unreliabilität der beiden Variablen an.
-----
Über die Zeit kommt es zu einer Abnahme der Autokorrelationen (temporale Erosion), wobei dieser Effekt umso stärker
ist, je größer das Zeitintervall zwischen den Messungen ist. Dadurch verringern sich auch die zeitverschobenen Kreuzkorrelationen, sie sinken. Interpretierbare Unterschiede bleiben jedoch bestehen, wenn die Erosion in beiden Variablen ähnlich
stark ist.
37
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Welche Kritik gibt es zur zeitverschobenen Kreuzkorrelation?
 Sehr gute Reliabilitäten der verwendeten Maße und große Stichproben sind Voraussetzungen für eine angemessene Anwendung.
 Beim Hinzufügen weiterer Messzeitpunkte wird der Plan aufwendig, bietet jedoch auch die Möglichkeit, Entwicklungsverläufe ursächlich zu interpretieren.
 der ursächliche Zusammenhang zwischen den Variablen kann positiv oder negativ sein, so dass sich folgende Möglichkeiten ergeben: A  (+) B; A  (-) B; B  (+) A; B  (-) A. Der Zusammenhang kann nur durch Plausibilitätsüberlegungen beschrieben werden.
 Diese Modelle werden nur selten signifikant. Wenn Pfadmodelle angewandt werden können, sollte man dies tun.
Kausalanalyse von mindestens 2 Merkmalen in Zeitreihen
Hier wird eine natürliche Zeitreihe erhoben, d. h. im Gegensatz zu quasiexperimentellen unterbrochenen Zeitreihen wird
hier keine Intervention durchgeführt. Innerhalb dieser Zeitreihe werden mindestens zwei Merkmale gleichzeitig erfasst.
Eine Möglichkeit zu überprüfen, welche Variable auf welche ursächlich wirkt, ist die einfache Kreuzkorrelationsfunktion:
Hier wird die Variable Xn mit Variable Yn+1 etc. korreliert, und umgekehrt jede Variable Yn mit jeder Variable Xn+1. Verursacht Variable X Variable Y, so sollte die Korrelation höher ausfallen, wenn Y X vorangeht als wenn X Y nachfolgt.
38
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
5. Faktorenanalyse
 Was ist die Faktorenanalyse und warum wird sie gerechnet? (x2)
 Definition
Bei der Faktorenanalyse handelt es sich um eine Ansammlung mathematisch-statistischer Verfahren, die aus der Korrelation von Merkmalen die diesen Korrelationen zugrundeliegenden gemeinsamen Faktoren erschließen helfen sollen.
Dazu werden Variablen gebündelt, die jeweils hoch miteinander korrelieren, um eine möglichst sparsame Anzahl neuer
Variablen (Faktoren) zu erhalten, die möglichst unabhängig voneinander sind. Diese Faktoren können dann weiteren Untersuchungen als Grundlage dienen.
 Grundbegriffe der Faktorenanalyse
 Was bedeuten Faktorladungen?
 Was verstehen Sie unter Kommunalität, Faktorwert, Eigenwert? (x3)
 Faktorladung: gibt an, wie hoch eine Variable mit einem Faktor korreliert, wie hoch der Faktor also in der jeweiligen
Variable ausgeprägt ist. Quadriert man diesen Wert, erhält man den Determinationskoeffizienten der angibt, wie viel der
Varianz der Variablen durch diesen einen Faktor aufgeklärt wird.
 Kommunalität: gibt denjenigen Anteil der Varianz eines Merkmals an, der durch alle extrahierten Faktoren aufgeklärt
werden konnte. Hierbei handelt es sich um die Summe der quadrierten Faktorladungen einer Variable über alle Faktoren
hinweg.
 Eigenwert: gibt denjenigen Varianzanteil an, den der Faktor an allen Variablen aufklärt. Er errechnet sich aus der Summe
der quadrierten Faktorladungen eines Faktors über alle Variablen.
 Faktorwert: ist die Ausprägung des Faktors bei einer Person.
 Arten von Faktoren: Spezifische Faktoren sind solche, die nur durch 1 Variable geladen werden. Gemeinsame Faktoren
sind solche, die durch mehrere Variablen geladen werden. Hier unterscheidet man Generalfaktoren, die durch alle Variablen hoch geladen werden und Gruppenfaktoren, die durch eine Gruppe von Variablen hoch geladen werden.
 Voraussetzungen der Faktorenanalyse
 Normalverteilung der Variablen
 Linearität zwischen Variablen und Faktor
Das Faktorenmodell als additives, kompensatorisches Modell
Es ist additiv, da sich die individuelle Ausprägung einer Variable additiv zusammensetzt aus den durch die Faktorladungen
gewichteten Faktorwerten. Die Schätzung des individuellen Wertes einer Person ist umso genauer, je mehr Faktoren extrahiert werden.
Es ist kompensatorisch, da zwei Personen den gleichen Wert erhalten können, auch wenn sie in den unterschiedlichen Faktoren nicht gleich abschneiden.
Das Faktorenmodell als varianzzerlegendes Modell
Jegliche Merkmalsvarianz lässt sich zu Lasten verschiedener Varianzquellen aufteilen:
 Kommunalität: die gemeinsame, durch die Faktorenanalyse extrahierte systematische Varianz
 Spezifität: die spezifische, durch die Faktorenanalyse nicht aufgeklärte systematische Varianz
 Error: unsystematische Fehlervarianz
Ziel aller Faktorenmodelle ist es, die den Variablen gemeinsame Varianz (Kommunalität) durch möglichst wenige Faktoren
aufzuklären.
 Was versteht man unter uniqueness?
Spezifität und Error werden unter der Bezeichnung uniqueness zusammengefasst. Es handelt sich dabei um Varianz, die
eine Variable nicht mit den Faktoren gemeinsam hat, also ihr ureigenster Anteil inklusive Messfehler, die durch keinen
Faktor erklärt werden.
Diese uniqueness führt dazu, dass nicht die gesamte Varianz einer Variablen durch die Faktoren aufgeklärt werden kann.
39
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
1. Variablenauswahl und Errechnung der Korrelationsmatrix
Ausgangspunkt für die Faktorenanalyse sind bestimmte Daten, die miteinander interkorreliert werden, um später aus der
Korrelationsmatrix die Faktoren zu extrahieren (Ängstlichkeit, Depression, Selbstbewusstsein, ...).
Nur bei hohen Interkorrelationen können Variablen zu varianzstarken Faktoren gebündelt werden. Um hohe Korrelationen
in der Korrelationsmatrix zu erlangen, ist folgendes zu beachten:
 die erhobenen Merkmale müssen für den Untersuchungsgegenstand relevant sein
 die Variablen sollten auf Normalverteilung oder wenigstens Gleichverteilung geprüft werden
Die vorliegenden Daten sollten sie standardisiert werden. Das hat folgende Vorteile:
 ermöglicht die Vergleichbarkeit von Variablen, die in unterschiedlichen Maßeinheiten erhoben wurden
 Interpretationserleichterung
Es gibt verschiedene Kriterien, um die Eignung der Korrelationsmatrix für die Faktorenanalyse zu überprüfen. Diese sind:
Signifikanzniveaus der Korrelationen
Die Korrelationen werden einem Signifikanztest unterzogen. Dabei sollen die Signifikanzen ein niedriges Niveau aufweisen, d. h. die Korrelationen sollen mit hoher Wahrscheinlichkeit verschieden von Null sein.
Inverse der Korrelationsmatrix
Die Korrelationsmatrix ist für eine Faktorenanalyse geeignet, wenn die Inverse der Korrelationsmatrix eine Diagonalmatrix
darstellt, d. h. die nicht diagonalen Elemente möglichst nahe bei Null liegen.
Bartlett-Test
Überprüft wird die Hypothese, ob in der Grundgesamtheit, aus der die Stichprobe stammt, die untersuchten Variablen unkorreliert sind und in der Korrelationsmatrix gefundene Korrelationen vielleicht nur zufällig sind.
Dieser Test setzt voraus, dass die untersuchten Variablen normalverteilt sind und die entsprechende Prüfgröße annähernd
Chi-Quadrat-verteilt ist. Es ist dabei zu beachten, dass die Prüfgröße stark von der Größe der Stichprobe beeinflusst wird.
Anti-Image-Kovarianz-Matrix
Nach GUTTMAN (1953) lässt sich die Varianz einer Variable in zwei Teile zerlegen: das Image und das Anti-Image. Das
Image ist derjenige Varianzanteil, der von den übrigen Variablen abhängig ist (mit ihnen korreliert) und deshalb mit diesen
einen gemeinsamen Faktor bilden kann, das Anti-Image ist derjenige Varianzanteil, der von den übrigen Variablen unabhängig ist
Da die Faktorenanalyse unterstellt, dass den Variablen gemeinsame Faktoren zugrunde liegen, ist es klar, dass Variablen
nur dann für die Faktorenanalyse geeignet sind, wenn das Anti-Image der Variablen möglichst gering ausfällt, das Image
(gemeinsame Varianz) also möglichst hoch.
Erstellt man eine Interkorrelationsmatrix der Anti-Image-Kovarianzen, dann sollte diese Matrix eine Diagonalmatrix darstellen, d. h. alle Korrelationen außer denen in den Diagonalen sollten möglichst nahe bei Null liegen. Die Forderung der
Diagonalmatrix ist nach DZIUBAN & SHIRKEY dann erfüllt, wenn der Anteil der Nicht-diagonal-Elemente, die größer
Null (> 0.09) sind, weniger als 25% beträgt.
Kaiser-Meyer-Olkin-Kriterium
Hierbei wird die Prüfgröße MSA („measure of sampling adequacy“) auf Grundlage der Anti-Image-Korrelationsmatrix
berechnet. Diese zeigt an, in welchem Umfang die Ausgangsvariablen zusammengehören. Das MSA-Kriterium erlaubt
sowohl eine Beurteilung der Korrelationsmatrix als auch einzelner Variablen. Kaiser sieht einen Wert von MSA > 0.8 als
wünschenswert an.
Hierbei handelt es sich um das beste zur Verfügung stehende Verfahren zur Prüfung der Korrelationsmatrix, das auf jeden
Fall vor Durchführung der Faktorenanalyse zu empfehlen ist.
40
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
2. Bestimmung der Kommunalitäten
Um die Anzahl der zu extrahierenden Faktoren bestimmen zu können, müssen vorerst die Kommunalitäten geschätzt werden.
Bei den Kommunalitäten handelt es sich um den Teil der Gesamtvarianz einer Variablen, die durch die gemeinsamen Faktoren erklärt werden soll. Da Fehlervarianz und Spezifität einer Variablen nicht aufgeklärt werden können, sind die Kommunalitäten zumeist kleiner als 1.
 Wie schätzt man die Kommunalität?
Das Kommunalitätenproblem
Problem: Die Kommunalität bestimmt sich über die Anzahl der Faktoren und Faktorladungen, beides wird jedoch erst
durch eine Faktorenanalyse bestimmt, die wiederum die Kommunalität voraussetzt. Da die Kommunalitäten nicht bekannt
sind, müssen sie geschätzt werden.
Der Anwender muss also festlegen, wie viel der Varianz der Variablen durch die extrahierten Faktoren erklärt werden soll.
Setzt er die Kommunalität beispielsweise auf 0,8, so legt er damit fest, dass nach seiner Meinung 80% der Ausgangsvarianz
durch gemeinsame Faktoren erklärbar sind.
Es gibt drei bedeutsame Verfahren zur Bestimmung der Kommunalitäten:
 Die gesamte Varianz der Ausgangsvariablen soll durch die Faktorenanalyse erklärt werden, also werden die Kommunalitäten auf 1 gesetzt.
 Aufgrund inhaltlicher Überlegungen wird ein Schätzwert vorgegeben, und zwar meist der höchste quadrierte Korrelationskoeffizient einer Variablen mit einer anderen Variablen. Dieser Wert ist in der Regel jedoch zu niedrig, da nicht die
Beziehungen zu weiteren Variablen berücksichtigt werden. Es handelt sich um eine konservative Schätzung der Kommunalität.
 Liegen keine inhaltlichen Überlegungen über Spezifität und Fehlervarianz vor, werden die Kommunalitäten über den
Iterationsprozess der Faktorenanalyse bestimmt, d. h. das Rechenverfahren macht einen Vorschlag über die Höhe der
Kommunalitäten. Als Ausgangswert wird hier der multiple Korrelationskoeffizient genutzt, der den gemeinsamen Varianzanteil einer Variable mit allen anderen Variablen angibt.
Die Bestimmung der Kommunalitäten ist eng an die Art des Faktorenextraktionsverfahrens gebunden:
41
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
3. Extraktion der Faktoren
Als Ausgangspunkt liegt hier die Korrelationsmatrix der Ausgangsvariablen vor, aus der nun Faktoren zu extrahieren sind.
Bei den Extraktionsmethoden unterscheidet man Hauptkomponentenanalyse (HKA) und Hauptachsenanalyse (HAA).
 Nennen Sie die Unterschiede zwischen Hauptkomponenten- und Hauptachsenanalyse. (x2)
 Was versteht man unter einer Hauptkomponentenanalyse?
 Die Hauptkomponentenanalyse HKA geht davon aus, dass die Varianz einer Ausgangsvariablen vollständig durch die
Extraktion von Faktoren erklärt werden kann, d. h. sie unterstellt, dass keine uniqueness in den Variablen existiert. Hier
werden demzufolge die Kommunalitäten mit 1 in der Diagonalen der Korrelationsmatrix angegeben und auch immer mit 1
reproduziert, wenn ebenso viele Faktoren wie Variablen extrahiert werden.
Werden weniger Faktoren als Variablen extrahiert, so ergeben sich Kommunalitäten < 1. Der nicht erklärte Varianzanteil
wird jedoch nicht als uniqueness aufgefasst, sondern als durch die Faktoren nicht reproduzierter Varianzanteil und damit
als (bewusst in Kauf genommener) Informationsverlust.
Die HKA will die Korrelationsmatrix der Variablen durch möglichst wenige Faktoren möglichst umfassend reproduzieren,
ohne dabei kausale Interpretationen vorzunehmen. Sie arbeitet also klassifikatorisch, indem sie fragt: „Wie lassen sich die
auf einem Faktor hoch ladenden Variablen durch einen Sammelbegriff zusammenfassen?“
 Die Hauptachsenanalyse HAA geht davon aus, dass sich die Varianz einer Variablen zusammensetzt aus Kommunalität
und uniqueness. Ziel der HAA ist es, lediglich die Varianz der Variablen in Höhe der Kommunalitäten zu erklären. Hier
werden demzufolge die Kommunalitäten mit Werten < 1 angegeben und auch immer mit diesem Wert reproduziert, wenn
ebenso viele Faktoren wie Variablen extrahiert werden.
Werden weniger Faktoren als Variablen extrahiert, so ergeben sich die selben Resultate wie bei der HKA.
Die HAA will die Korrelationen zwischen den Variablen durch hypothetische Faktoren erklären, Korrelationen werden hier
also kausal interpretiert: „Welche Ursache steckt hinter den Korrelationen?“
Bei beiden Methoden wird der 1. Faktor so gelegt, dass ein Maximum der Streuung aller Ausgangsvariablen erklärt wird.
Der zweite Faktor wird so gewählt, dass er ein Maximum der verbleibenden Restvarianz aufklärt etc. Auf diese Art und
Weise werden sukzessiv Faktoren extrahiert, ohne dass in den extrahierten Faktoren schon das Ziel der Datenreduktion
berücksichtigt wäre.
4. Faktorenreduktion und Faktorladungsmatrix
 Was versteht man unter dem Faktorenextraktionsproblem? Welche Kriterien gibt es? (x2)
Faktorenproblem
Nun stellt sich die Frage: Wann soll der Extraktionsprozess abgebrochen werden, um eine sinnvolle Datenreduktion zu
erreichen, bei der aber dennoch ein Maximum an erklärter Varianz resultiert? Das Ziel besteht darin, möglichst wenig Faktoren zu extrahieren, die möglichst viel Varianz aufklären.
Hier gibt es keine eindeutigen Vorschriften, deshalb ist der subjektive Eingriff des Anwenders erforderlich. Aber es gibt
einige statistische Kriterien:
 Kaiser-Kriterium: Nur Faktoren mit Eigenwerten größer als 1 werden extrahiert. Der Eigenwert eines Faktors errechnet
sich aus der Summe der quadrierten Faktorladungen eines Faktors über alle Variablen, gibt also an, wie viel der Varianz
der Ausgangsvariablen der Faktor aufklärt. Ist der Eigenwert größer als 1, dann klärt der Faktor mehr Varianz auf als vormals eine Variable, trägt also dem Ansinnen der Variablenreduktion Rechnung.
 Scree-Test: Die Eigenwerte werden in einem Koordinatensystem nach abnehmender Wertefolge angeordnet. Diejenigen
Punkte, die sich asymptotisch der Abszisse nähern, werden durch eine Gerade verbunden. Der letzte Punkt links auf dieser
Geraden bestimmt die Anzahl der zu extrahierenden Faktoren.
 Burt-Kriterium: Solange die Residualmatrix verschieden von Null ist, werden Faktoren extrahiert.
 Faustregel: Alle extrahierten Faktoren sollen mindestens 95% der Gesamtvarianz aufklären.
42
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Sind die Faktoren extrahiert, stellt sich die Frage, wie stark sie an der Beschreibung der Ausgangsvariable beteiligt sind.
Dies wird durch die Faktorladung ausgedrückt. Sie gibt an, wie viel Varianz ein Faktor an der Ausgangsvariable aufklärt
und entspricht der Korrelation zwischen Variable und Faktor. Hier wird eine Faktorladungsmatrix aufgestellt.
5. Reproduktion der Korrelationsmatrix
Die Frage ist jetzt: Sind die extrahierten Faktoren geeignet, um die Zusammenhänge, wie sie sich in der Korrelationsmatrix
zeigen, richtig zu repräsentieren? 
Fundamentaltheorem der Faktorenanalyse, THURSTONE
Die Korrelationsmatrix zwischen den Ausgangsvariablen lässt sich durch die Faktorladungen und die Korrelationen zwischen den Faktoren reproduzieren. (Für den Fall, dass man von orthogonalen Faktoren ausgeht, sind die Korrelationen
zwischen den Faktoren nicht vorhanden und werden auch nicht benötigt.)
Multipliziert man die Faktorladungsmatrix mit ihrer Transponierten, so ergibt sich die reproduzierte Korrelationsmatrix.
Sind die Differenzwerte zwischen den ursprünglichen und den reproduzierten Korrelationen gering, bedeutet das, dass die
gefundenen Faktoren ohne großen Informationsverlust zur Beschreibung der Ausgangsvariablen geeignet sind.
6. Faktorinterpretation
Häufig muss der Anwender entscheiden, ab welcher Ladungshöhe er eine Variable einem Faktor zuordnet. Konventionen
gehen davon aus, dass Ladungen ab 0,50 als hoch angesehen und einem Faktor zugeordnet werden können.
Es ist darauf zu achten, dass, wenn eine Variable auf mehreren Faktoren Ladungen von 0,50 oder höher aufweist, bei jedem
dieser Faktoren zur Interpretation herangezogen werden muss.
Zur Interpretationserleichterung wird oft eine Rotation durchgeführt. Dabei wird das aus den Faktoren bestehende Achsenkreuz um einen bestimmten Winkel so lange gedreht, bis möglichst viele Variablen bei dem einen Faktor hohe Ladungsmuster besitzen und bei dem anderen geringe (= Einfachstruktur).
Durch Rotation ändern sich die Ladungen der Variablen auf den unterschiedlichen Faktoren, die Kommunalitäten, also die
durch die Faktoren an den Variablen aufgeklärte Varianz aber nie. Man unterscheidet zwei Formen der Rotation:
 Was ist mit Rotation gemeint?
 Welche Formen der Rotation sind Ihnen bekannt? Wo ist der Unterschied? (x2)
 Was versteht man unter orthogonaler Faktorenrotation?
 orthogonale Rotation: Sie erfolgt häufig nach der VARIMAX-Methode unter Beibehaltung des rechten Winkels zwischen den Achsenkreuzen. Hier bleiben die Faktoren unabhängig voneinander, d. h. sie korrelieren nicht miteinander.
 oblique Rotation: Hier werden die Achsenkreuze in verschiedenen Winkeln gedreht, die Faktoren sind deshalb nicht
unabhängig voneinander, sondern korrelieren miteinander. Nach der Extraktion solcher Faktoren können die Faktoren wiederum korreliert werden und die resultierende Interkorrelationsmatrix erneut einer Faktorenanalyse unterzogen werden.
Auf diese Art und Weise können Sekundärfaktoren, Tertiärfaktoren etc. extrahiert werden.
Nun stellt sich die Frage: Wann ist eine Rotation zu beenden, damit eine optimale Faktorlösung vorliegt (Rotationsproblem)?
 Was versteht man unter einer Einfachstruktur?
Kriterien der Rotation
Nach THURSTONE kann die Rotation dann beendet werden, wenn eine Einfachstruktur vorliegt. Dazu müssen folgende
Kriterien erfüllt sein:
 Jede Variable soll mindestens in einem Faktor eine Ladung aufweisen, die nur gering von Null verschieden ist.
 Die Anzahl der Null-Ladungen eines Faktors soll mindestens der Anzahl der Faktoren gleich sein.
 In jedem Paar von je zwei Faktoren sollen mehrere Variablen in dem einen Faktor von Null verschiedene Ladungen zeigen, in dem anderen Faktor hingegen Ladungen, die möglichst nicht von Null verschieden sind.
43
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
7. Bestimmung der Faktorwerte
Hierbei handelt es sich um die Ausprägung der Faktoren bei den einzelnen untersuchten Personen oder Objekten.
z. B.: Neurotizismus = .86 x Ängstlichkeit + .82 x Depression ...
8. Kritikpunkte an der Faktorenanalyse
 Nennen Sie Probleme der Faktorenanalyse.
 in der Korrelationsmatrix lassen sich nur lineare Zusammenhänge zwischen Variablen darstellen, deshalb kann die Faktorenanalyse nicht bei Variablen verwendet werden, die kurvilineare Zusammenhänge zeigen
 der lineare Zusammenhang zwischen zwei Variablen kann durch eine Moderatorvariable beeinflusst sein, auch das ist im
Faktormodell nicht berücksichtigt
 Objektivität, d. h. Unabhängigkeit der Ergebnisse der Faktorenanalyse von der Person des Untersuchers, ist nicht gegeben. Der Untersucher wählt:
- wie die Kommunalitäten geschätzt werden  Kommunalitätenproblem
- welches Extraktionsmodell verwendet wird  Extraktionsverfahren
- nach welchem Kriterium wie viele Faktoren extrahiert werden  Faktorenproblem
- ob und wie rotiert wird und für welche der Lösungsmöglichkeiten man sich entscheidet  Rotationsproblem
- ab wenn man eine Faktorladung für bedeutsam hält
- wie man das Ladungsmuster interpretiert  Interpretationsproblem
- Es gibt einen Ermessensspielraum, wie man mit fehlenden Werten umgeht.  missing-value-Problem
 die Werte werden fallweise ausgeschlossen, d. h. sobald ein fehlender Wert bei einer Variablen auftritt,
wird der gesamte Fragebogen aus der weiteren Analyse ausgeschlossen. Dadurch wird die Fallzahl jedoch
häufig erheblich reduziert.
 die Werte werden variablenweise ausgeschlossen, d. h. sobald ein fehlender Wert bei einer Variablen
auftritt, wird die betroffene Variable eliminiert. Dadurch können bei der Durchschnittsbildung pro Variable unterschiedliche Fallzahlen vorliegen und es kann zu Ungleichgewichtungen der Variablen kommen
 es erfolgt kein Ausschluss, sondern für die fehlenden Werte pro Variable werden im nachhinein Durchschnittswerte eingesetzt
 faktorenanalytische Ergebnisse sind stichprobenabhängig: die Anzahl der resultierenden Faktoren kann von der Homogenität der Stichprobe stark abhängen. Zeigen die Versuchspersonen eingeschränkte Streuungen in den Variablen, führt
dies zu niedrigen Korrelationen. Niedrige Korrelationen aber führen zu einer höheren Faktorzahl.
 Informationsverlust: Es geht Varianz verloren.
9. Exploratorische vs. konfirmatorische Faktorenanalyse
Bei der explorativen Faktorenanalyse hat der Anwender keine konkrete Vorstellung darüber, wie die untersuchten Variablen zusammenhängen. Es wird im Vornherein nur angenommen, dass es irgendwelche hypothetischen Faktoren gibt, die die
empirisch beobachtbaren Korrelationen zwischen den Variablen bedingen.
Hier sucht man also nach latenten Konstrukten, die die gefundenen Daten gut erklären können. Deshalb kann die Faktorenanalyse in diesem Kontext als hypothesengenerierendes Instrument bezeichnet werden.
Bei der konfirmatorischen Faktorenanalyse hat der Anwender vor Durchführung der Faktorenanalyse konkrete Vorstellungen darüber, welche hypothetischen Faktoren hinter den empirisch beobachtbaren Korrelationen zwischen den Variablen
bestehen. Diese Hypothesen werden vor der Durchführung aufgestellt und anhand der gefundenen Faktorenstruktur als
Resultat der Faktorenanalyse wird überprüft, ob die Hypothesen durch die Daten bestätigt werden.
In diesem Kontext kann die Faktorenanalyse als hypothesenprüfendes Instrument bezeichnet werden.
44
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
6. Diskriminanzanalyse
 Was ist die Diskriminanzanalyse? Was wird da gemacht? (x2)
 Definition
Die Diskriminanzanalyse ist ein Klassifikationsverfahren der multivariaten Statistik, bei dem eine nominal skalierte Variable (Gruppenzugehörigkeit) durch eine Mehrzahl von intervallskalierten Variablen (Merkmale) erklärt oder prognostiziert
werden soll. Es wird also untersucht,
 ob und hinsichtlich welcher Variablen sich Gruppen voneinander unterscheiden. Mit Hilfe der Diskriminanzanalyse ist es
dabei möglich, zwei oder mehr Gruppen simultan hinsichtlich einer Mehrzahl von Merkmalsvariablen zu untersuchen.
 in welchem Ausmaß die einzelnen Variablen am Gesamtunterschied zwischen den Gruppen beteiligt sind
 in welche der Gruppen ein neues Element aufgrund seiner Merkmalsausprägungen einzuordnen ist. Dabei wird die Vielzahl der Merkmalsvariablen, hinsichtlich derer Personen sich voneinander unterscheiden können, durch eine Linearkombination zu einer einzigen Variablen (Diskriminanzvariable Y) zusammengefasst, die für jedes Element berechnet werden
kann. Aufgrund der Über- oder Unterschreitung eines kritischen Diskriminanzwertes Y* wird darüber entschieden, welcher
Gruppe das Element zuzuordnen ist.
 Voraussetzungen der Diskriminanzanalyse
 mindestens zwei Gruppen mit mindestens zwei Merkmalsvariablen müssen vorhanden sein
 die Streuung der Merkmale muss in beiden Gruppen gleich sein
 Normalverteilung der Merkmale
Der Ablauf der Diskriminanzanalyse wird im folgenden dargestellt:
1. Definition und Festlegung der Anzahl der Gruppen
 nicht zu kleine Gruppen
 die Anzahl der Gruppen soll nicht größer sein als die Anzahl der untersuchten Variablen
Beispiel: „gute“ und „schlechte“ Kunden; 2 Gruppen
2. Auswahl der Merkmalsvariablen
Die Auswahl der Variablen erfolgt zunächst aufgrund theoretischer und sachlogischer Überlegungen darüber, hinsichtlich
welcher Variablen die Gruppen sich mutmaßlich signifikant voneinander unterscheiden. Die tatsächliche Diskriminationsleistung der Variable lässt sich erst nach der Schätzung der Diskriminanzfunktion feststellen.
Beispiel: Zahlungsmoral, Einkommen, Familienstand etc.
3. Formulierung der allgemeinen Diskriminanzfunktion
Jedes Element einer Gruppe lässt sich durch eine Diskriminanzfunktion charakterisieren:
Y
Xj
bj
b0
= Diskriminanzwert
= Merkmalsvariable
= Diskriminanzkoeffizient für Merkmalsvariable j
= konstantes Glied
Der Parameter bi gibt an, wie stark das jeweilige Merkmal an der Unterschiedlichkeit zwischen den Gruppen beteiligt ist.
Die Parameter bj und b0 sind nicht bekannt, sie müssen auf Grundlage der Merkmalsdaten geschätzt werden. Diese Schätzung soll so erfolgen, dass sich die Gruppen maximal voneinander unterscheiden.
45
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
4. Schätzung der Diskriminanzkoeffizienten bj
Um die Diskriminanzfunktion bilden zu können, müssen die unbekannten Diskriminanzkoeffizienten b j geschätzt werden.
Diese Schätzung soll so erfolgen, dass sich die untersuchten Gruppen maximal unterscheiden. Optisch kann man sich das
so vorstellen, dass die Mittelwerte der Diskriminanzwerte der unterschiedlichen Gruppen (Centroide) auf einer gemeinsamen Achse möglichst weit voneinander entfernt sein sollen.
Der kritische Diskriminanzwert Y* entspricht dem Gesamtmittelwert aller Diskriminanzwerte über die Gruppen hinweg und fungiert als Trennwert, der
über die Gruppenzugehörigkeit entscheidet und eine Klassifizierung neuer Elemente zu einer der beiden Gruppen ermöglicht. Er wird auf den Wert Null
normiert.
Maße für diese Unterschiedlichkeit werden als Diskriminanzkriterien bezeichnet. Es werden diejenigen Werte für b i ausgewählt, die ein maximales Diskriminanzkriterium gewährleisten.
Folgende Diskriminanzkriterien sind denkbar:
die Distanz zwischen den Gruppencentroiden
Das Problem bei der Verwendung dieses Maßes ist, dass Gruppen stark streuen können, die Streuung aber in der Differenz
der Centroide nicht berücksichtigt wurde. Je mehr die Gruppen streuen, desto mehr kommt es zu Überlagerungen der Verteilungen der individuellen Merkmalsausprägungen der einzelnen Gruppen und der Diskriminanzwert sinkt.
die um die Streuung relativierte Distanz zwischen den Gruppencentroiden
Dieses Diskriminanzmaß ist allerdings nur unter bestimmten Vorbedingungen anwendbar:
 nur zwei Gruppen können verglichen werden
 in beiden Gruppen ist die Streuung der untersuchten Merkmale annähernd gleich
46
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
varianzanalytisches Diskriminanzkriterium (Gamma, Eigenwert)
im Zweigruppen-Fall
Dies kann angewandt werden, wenn die oberen beiden Prämissen nicht gegeben sind, wenn also z. B. mehrere Gruppen
miteinander verglichen werden sollen oder die Streuungen in den Gruppen unterschiedlich sind.
Die Streuung zwischen den Gruppen (QSzwi) errechnet sich aus der Summe der quadrierten Abweichungen der Gruppencentroide vom Gesamtmittelwert. Sie gibt die Unterschiedlichkeit zwischen den Gruppen an, also diejenige Varianz, die
durch die Diskriminanzfunktion aufgeklärt wird.
Die Streuung in den Gruppen (QSin) errechnet sich aus der Summe der quadrierten Abweichungen der individuellen Werte
vom Gruppencentroid. Sie gibt die Fehlervarianz an, also diejenige Varianz, die durch die Diskriminanzfunktion nicht
aufgeklärt wird.
Das varianzanalytische Diskriminanzkriterium lässt sich somit als Verhältnis von erklärter zu nicht erklärter Streuung interpretieren und wird auch als Eigenwert bezeichnet.
Um jetzt diejenigen Werte für bj zu ermitteln, die eine Maximierung von  zur Folge haben, muss die unbekannte Diskriminanzfunktion in das Diskriminanzkriterium  eingesetzt werden. Es resultieren theoretisch unendlich viele Diskriminanzfunktionen, von denen diejenige auszuwählen ist, bei deren b j das Diskriminanzkriterium maximal wird (*).
Die resultierenden Diskriminanzkoeffizienten werden nun so normiert, dass die Innergruppen-Varianz der Diskriminanzwerte Y Eins ergibt. Anschließend wird der Wert für das konstante Glied b 0 so gewählt, dass der Mittelwert aller Diskriminanzwerte (kritischer Diskriminanzwert Y*) Null wird. Dies ist der alleinige Sinn des konstanten Gliedes.
Setzt man nun in die resultierende Gleichung die individuellen Messwerte der einzelnen Gruppenmitglieder ein, dann ergeben Werte kleiner Null eine Zugehörigkeit zu Gruppe A und Werte größer Null eine Zugehörigkeit zu Gruppe B.
im Mehrgruppen-Fall
Werden mehrere Gruppen miteinander verglichen, können mehr als eine Diskriminanzfunktion gebildet werden. Die Anzahl der Funktionen ist dabei von der Anzahl der Gruppen und der Anzahl der Merkmalsvariablen Xi abhängig:
Bei G Gruppen lassen sich maximal G-1 Diskriminanzfunktionen ermitteln, wobei die Anzahl der Diskriminanzfunktionen
nicht größer sein kann als die Anzahl der Merkmalsvariablen.
Die Diskriminanzfunktionen werden so gebildet, dass die jeweils folgende Funktion ein Maximum derjenigen Varianz
aufklärt, die durch die vorhergehende Funktion nicht erklärt werden konnte. Die Funktionen erklären somit sukzessive
maximale Varianz zwischen den Gruppen und haben damit einen abnehmenden Eigenwerteverlauf.
Als Maß für die relative Wichtigkeit einer Diskriminanzfunktion wird der Eigenwertanteil errechnet, d. h. das Verhältnis
der durch die jeweilige Funktion erklärten Varianz an der erklärten Varianz aller möglichen Diskriminanzfunktionen .
Die Wichtigkeit (diskriminatorische Bedeutung) der sukzessiv ermittelten Funktionen nimmt in der Regel sehr schnell ab,
meist kommt man mit zwei Funktionen aus.
47
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
5. Prüfung der Diskriminanzfunktion
 Unterscheidet die Funktion signifikant zwischen den Gruppen? Wenn ja, dann können Gruppenunterschiede anhand
dieser Gleichung dargestellt werden und die Basis ist gelegt, um neue Elemente anhand dieser Funktion reliabel einer der
verfügbaren Gruppen zuzuordnen.
Prüfung der Klassifikation
Die Funktion ist dann geeignet, wenn die durch sie vorhergesagte Gruppenzugehörigkeit mit der tatsächlichen Gruppenzugehörigkeit der Person übereinstimmt. Hierzu wird eine sogenannte „Trefferquote“ berechnet. Sie errechnet sich aus der
Anzahl der korrekt klassifizierten Personen an der Gesamtanzahl der zu klassifizierenden Personen.
Ob eine Person korrekt klassifiziert wurde, lässt sich an ihrem Diskriminanzwert ablesen: Da der kritische Diskriminanzwert Y* auf Null normiert wurde, müssen korrekt klassifizierte Personen der Gruppe A negative und die der Gruppe B
positive Diskriminanzwerte haben.
Je mehr Personen korrekt klassifiziert wurden, desto höher ist die Trefferquote und desto geeigneter ist die Funktion zur
Diskrimination der Elemente.
Die Trefferquote ist anschließend mit derjenigen Trefferquote zu vergleichen, die man bei einer rein zufälligen Zuordnung
der Elemente erreichen würde. Eine Diskriminanzfunktion kann nur dann von Nutzen sein, wenn sie eine höhere Trefferquote erzielt, als nach dem Zufallsprinzip zu erwarten ist.
 Problem:
Die Trefferquote ist immer dann überhöht, wenn sie anhand der gleichen Stichprobe gewonnen wird, anhand derer auch die
Diskriminanzfunktion geschätzt wurde. Das ist der Fall, weil die Trefferquote so ermittelt wurde, dass sie in der verwendeten Stichprobe maximal wird.
 Abhilfe:
Die verfügbare Stichprobe wird in zwei Unterstichproben aufgeteilt, anhand der einen Hälfte wird die Funktion geschätzt,
anhand der anderen Hälfte wird aufgrund der gewonnenen Funktion die Trefferquote berechnet. Voraussetzung ist, dass die
Stichprobe hinreichend groß ist.
Die Trefferquote lässt sich nur berechnen, wenn die wahre Gruppenzugehörigkeit bekannt ist. Sonst nutzt man folgende
Methode:
Prüfung der Diskriminanz auf Signifikanz
Für den Zwei-Gruppen-Fall wird Wilks Lambda, für den Mehr-Gruppen Fall das multiple Wilk Lambda errechnet. Es errechnet sich aus dem Anteil der durch die Diskriminanzfunktion nicht erklärten Streuung an der Gesamtstreuung. Dieses
Maß ist auf Werte zwischen 0 und 1 normiert, wobei kleinere Werte eine höhere Trennkraft bedeuten.
Wilks Lambda lässt sich in eine Variable transformieren, die annähernd wie Chi-Quadrat verteilt ist und Signifikanztests
darüber erlaubt, ob die Diskriminanzfunktion Gruppen signifikant unterscheidet oder nicht.
Um in Mehr-Gruppen-Fällen zu entscheiden, ob nach Ermittlung der ersten n Diskriminanzfunktionen die restlichen Funktionen noch signifikant zur Unterscheidung der Gruppen beitragen, kann Wilks Lambda für residuelle Diskriminanz berechnet werden. Wird die residuelle Diskriminanz insignifikant, kann man die Ermittlung weiterer Diskriminanzfunktionen
abbrechen.
Allerdings kann nicht gesagt werden, ob alle vorangegangenen Funktionen signifikant sind, sondern es wird lediglich sichergestellt, dass sie in ihrer Gesamtheit signifikant trennen.
48
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
6. Prüfung der Wichtigkeit der Merkmalsvariablen
Wenn man die Wichtigkeit der einzelnen Merkmalsvariablen in der Unterscheidung zwischen Gruppen kennt, erlaubt dies
folgendes:
 Erklärung der Unterschiedlichkeit der Gruppen
 Eliminierung unwichtiger Variablen aus der Diskriminanzfunktion
multivariate Beurteilung
Hier nutzt man die standardisierten Diskriminanzkoeffizienten der in die Diskriminanzfunktion einbezogenen Variablen.
Sie wurden standardisiert, indem sie mit der Standardabweichung der betreffenden Merkmalsvariablen multipliziert wurden, um Skalierungseffekte auszuschalten.
Aus der Größe der standardisierten Diskriminanzkoeffizienten ergibt sich die Wichtigkeit des Merkmals für die Unterscheidung zwischen den Gruppen. Das Vorzeichen spielt bei der Beurteilung keine Rolle.
In Mehrgruppen-Fällen, in denen mehrere Diskriminanzfunktionen und damit auch mehrere Diskriminanzkoeffizienten pro
Merkmalsvariable vorliegen, werden die Diskriminanzkoeffizienten pro Funktion mit ihrem Eigenwertanteil multipliziert
und diese so gewichteten Koeffizienten über die Funktionen hinweg addiert.
schrittweise Diskriminanzanalyse
Bequemer ist die schrittweise Diskriminanzanalyse, bei der die Merkmalsvariablen einzeln nacheinander in die Diskriminanzfunktion einbezogen werden. Es wird also zunächst eine Diskriminanzanalyse mit einer Merkmalsvariablen, dann mit
zwei Merkmalsvariablen und so fort durchgeführt. Dabei werden nur solche Variablen in die Funktion aufgenommen, die
signifikant zur Verbesserung der Diskriminanz beitragen.
Der Algorithmus wählt dann automatisch aus der Menge der Merkmalsvariablen die wichtigsten aus. Aus der Rangfolge,
mit der die Variablen in die Funktion aufgenommen werden, lässt sich deren relative Wichtigkeit erkennen.
7. Klassifizierung von neuen Elementen
 Wie können neue Elemente anhand der ermittelten Diskriminanzfunktion allein aufgrund ihrer Merkmalsausprägung
einer bestimmten Gruppe zugeordnet werden?
Klassifikationsfunktionen
Für jede einzelne Gruppe werden gesonderte Klassifikationsfunktionen Y bestimmt, wobei sich jede Funktion zusammensetzt aus der Summe der Produkte der Merkmalsausprägungen mit deren Gewichtungskoeffizienten. Die individuellen
Werte Xi des neuen Elements werden dann in allen Gruppengleichungen eingesetzt und dort, wo der Wert F am höchsten
wird, ist das Element hineinzuklassifizieren.
Distanzkonzept
Ein Element wird aufgrund des Ergebnisses Yi seiner in die Diskriminanzfunktion eingesetzten individuellen Werte derjenigen Gruppe zugeordnet, der es auf der Diskriminanzachse am nächsten liegt, d. h. bezüglich derer die Distanz (meist
quadrierte Distanz) zwischen Element und Gruppenmittel (Centroid) minimal wird.
Wahrscheinlichkeitskonzept
Die Klassifikation wird als statistisches Entscheidungsproblem unter Anwendung des Bayes-Theorems behandelt: Ordne
ein Element i derjenigen Gruppe zu, für die die Wahrscheinlichkeit, dass das Element i mit der Diskriminanzfunktion Yi
dieser Gruppe angehört, maximal ist. Diese Wahrscheinlichkeiten sind a-posteriori-Wahrscheinlichkeiten.
Zu ihrer Bestimmung werden die gegebenen a-priori-Wahrscheinlichkeiten mit bedingten Wahrscheinlichkeiten verknüpft.
Die bedingte Wahrscheinlichkeit gibt an, wie wahrscheinlich ein Diskriminanzwert Yi für das Element i wäre, wenn dieses
zu Gruppe G gehören würde.
Grundlage der genannten Klassifizierungsansätze sind gleiche Merkmalsstreuungen in den verschiedenen Gruppen.
49
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
7. Regressionsanalyse
 Was ist mit multipler Regression gemeint?
 Welche Ziele verfolgt die Regressionsanalyse? (x2)
Die Regressionsanalyse ist ein statistisches Verfahren zur Analyse von Beziehungen zwischen einer Kriteriumsvariable und
einer (einfache Regression) oder mehreren (multiple Regression) Prädiktoren.
Die Regressionsanalyse schätzt aufgrund einer Stichprobe den „wahren“ Zusammenhang zwischen Prädiktoren und Kriterium in der Grundgesamtheit, indem sie überprüft, ob eine anhand einer Stichprobe ermittelte Regressionsgleichung auf die
Grundgesamtheit, aus der die Stichprobe stammt, übertragen werden kann.
Die Regressionsanalyse wird eingesetzt, um
(1) Zusammenhänge zwischen Variablen zu beschreiben (deskriptive Regression, hier wird die vorherzusagende Variable als Regressand und die vorhersagenden Variablen als Regressoren bezeichnet).
(2) Zusammenhänge zwischen Variablen zu erklären (stochastische Regression, aufgrund des angenommenen Wirkungszusammenhanges spricht man von Kriterium und Prädiktoren) mit dem Ziel, Werte der Kriteriumsvariablen
zu schätzen bzw. zu prognostizieren.
 Erklären Sie den Ablauf der Regressionsanalyse. (x2)
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
Variablenauswahl
Datenerhebung
Prüfung der Anwendungsvoraussetzungen
Aufstellen der Modellgleichung
Schätzung der Regressionsfunktion
Prüfung der Qualität der Regressionsgleichung als Ganzer durch den Determinationskoeffizienten
Prüfung der einzelnen Regressionskoeffizienten durch den t-Test
prädiktive Nutzung der überarbeiteten Funktion
50
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Anwendungsvoraussetzungen
(1) korrekte Spezifizierung des Modells
Das Modell muss korrekt formuliert werden, d. h. es darf nicht zu viele (overfitting) und nicht zu wenige Prädiktoren (underfitting) enthalten.
Enthält das Modell zu viele Prädiktoren, führt es zu ineffizienten Schätzern: Mit der Anzahl der Prädiktoren steigt die Gefahr, dass sich einige darunter befinden, die statistisch signifikante Gewichte aufweisen, mit dem Kriterium aber nicht signifikant korrelieren ( Folge der Multikollinearität). Daneben kann es sein, dass ein in Wirklichkeit wichtiger Prädiktor
ein statistisch nicht signifikantes Gewicht aufweist, weil seine Wirkung durch Störeinflüsse verdeckt wird.
Enthält das Modell zu wenig Prädiktoren, sind die Schätzer für die Regressionskoeffizienten (b-Gewichte) verzerrt. Signifikanztests und Konfidenzintervalle können zu falschen Schlussfolgerungen führen.
(2) Intervallskalierung
Das Kriterium muss intervallskaliert sein, die Prädiktoren sollten intervallskaliert sein, können jedoch auch binär sein oder
nominalskaliert, wenn sie durch Dummyvariablen binär kodiert werden.
(3) Normalverteilung der Variablen in der Grundgesamtheit
Die Prädiktoren, das Kriterium und die Residuen des Kriteriums sollen in der Grundgesamtheit, aus der die Stichprobe
stammt, normalverteilt sein. Die Normalverteilung der Variablen ist eine notwendige Bedingung für die Durchführung von
Signifikanztests.
(4) linearer Zusammenhang zwischen Prädiktoren und Kriterium
Das bedeutet, dass beide sich nur in konstanten Relationen ändern. Eine definierte Zunahme des Prädiktors führt immer zu
einer definierten Zunahme des Kriteriums.
Kurvilinearität kann z. B. auftreten, wenn die Veränderung des Kriteriums an nicht-lineare Entwicklungsverläufe gebunden
ist oder wenn bei der multiplen Regression Prädiktoren nicht-additiv zusammenwirken, also Interaktionseffekte zwischen
den Prädiktoren wirksam sind.
Wird nicht erkannt, dass keine Linearität vorliegt, kommt es zu verzerrten Schätzungen der Kriteriumswerte durch die
Regressionsgleichung.
(5) geringe Multikollinearität zwischen den Prädiktoren
Unter Multikollinearität versteht man die wechselseitige Abhängigkeit zwischen den Prädiktorvariablen. Diese sollte niedrig sein.
Bei hoher wechselseitiger Abhängigkeit der Prädiktorvariablen würde das Regressionsgewicht eines stark abhängigen Prädiktors weniger durch die Prädiktor-Kriteriums-Korrelation bestimmt als vielmehr durch die Korrelation mit anderen Prädiktoren.
Folgen hoher Multikollinearität
 beim weiteren Hinzufügen oder entfernen von Prädiktoren können sich die Gewichte der enthaltenen Prädiktoren stark
verändern; das erschwert die Interpretation der Gewichte.
Das Ausmaß an Multikollinearität lässt sich aus der Betrachtung der Korrelationsmatrix der Prädiktoren abschätzen: Hohe
Korrelationen sprechen für eine hohe Multikollinearität.
 Was mache ich, wenn ich sehr hohe Korrelationen zwischen Prädiktoren habe?
Abhilfe
 Entfernung weniger relevanter Prädiktoren
 Zusammenfassen von hoch korrelierenden Prädiktoren zu einem Faktor
 Herauspartialisieren des Einflusses eines Prädiktors auf die Prädiktor-Kriteriums-Korrelation eines anderen Prädiktors
(6) Unkorreliertheit der Residuen in der Grundgesamtheit (keine Autokorrelation)
Sind die Residuen der Kriteriumswerte in der Grundgesamtheit korreliert, spricht man von Autokorrelation. Sie führt dazu,
dass die Abweichungen der Kriteriumswerte von der Regressionsgeraden nicht mehr zufällig sind, sondern einem Trend
folgen.
51
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
(7) Varianzhomogenität der Residuen der Kriteriumsvariable (Homoskedastizität)
Heteroskedastizität liegt vor, wenn die Residualgröße in ihrer Streuung vom Ausprägungsgrad des Kriteriums bzw. von der
Reihenfolge der Kriteriumsmessungen abhängt. Das verstößt gegen die Prämisse des linearen Regressionsmodells, dass die
Varianz der Fehlervariablen für alle Kriteriumsmessungen homogen ist.
Beispiel: Durch nachlassende Aufmerksamkeit bei der Beobachtung kommt es zu einer Zunahme von Messfehlern und
damit zu einer Zunahme der Residualgröße.
1. Formulierung des Modells
Variablenauswahl
Als Prädiktoren werden nur solche Variablen ausgewählt, von denen man theoretisch einen Zusammenhang mit der Kriteriumsvariable vermutet. Es sollten möglichst alle relevanten und keine redundanten Variablen ausgewählt werden. (s. S. 2:
overfitting vs. underfitting)
Datenerhebung
Die interessierenden Prädiktor- und Kriteriumswerte, deren Zusammenhang beschrieben werden soll, werden anhand einer
repräsentativen Stichprobe erhoben.
Prüfung der Anwendungsvoraussetzungen
2. Schätzung der linearen Regressionsfunktion
Modellannahmen
Die beobachteten Kriteriumswerte in Abhängigkeit von den Prädiktoren können in einem Diagramm dargestellt werden.
Das Ziel der Regressionsanalyse ist, eine Regressionsgerade so in die Punktewolke der Kriteriumswerte zu legen, dass die
Streuung der individuellen Kriteriumswerte um die Gerade möglichst klein wird. Die Streuung der individuellen Kriteriumswerte ergibt sich aus der Wirksamkeit von Residuen:
Jeder individuelle Kriteriumswert Y k setzt sich additiv zusammen aus einer Komponente, die sich linear mit der Ausprägung des Prädiktors verändert, und einer Residualgröße e k, die durch die Regressionsgleichung nicht vorhergesagt werden
kann.
Diese Residualgröße ergibt sich aus dem potentiellen Einfluss weiterer Prädiktoren auf das Kriterium, die in der aktuellen
Analyse nicht betrachtet wurden, aber auch durch Messfehler bei der Erfassung des Kriteriums.
Beispiel: Abhängigkeit des Absatzes von der Anzahl der
Vertreterbesuche.
Die Residuen oder unaufgeklärte Varianz lässt sich dadurch senken, dass man mehr relevante Prädiktoren in die Regressionsgleichung einführt und die Messgenauigkeit der verwendeten Instrumente erhöht.
52
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Mit Abnahme der Residuen kommt es zu einer Zunahme der Schätzgenauigkeit der Regressionsgleichung und man kann
den linearen Zusammenhang der beiden Variablen maximal gut beschreiben.
Diese Funktion kann man dann prognostisch nutzen, und zwar könnte man mit hoher Sicherheit sagen, wie hoch die individuelle Kriteriumsausprägung bei einer bestimmten Ausprägung der Prädiktoren wäre.
 Erläutern Sie das Grundmodell der multiplen Regression. (x3)
Das allgemeine Modell der linearen Regression lautet:
Ý = b0 + b1X1 + b2X2 + ... bnXn + e
Ý = vorhergesagter Kriteriumswert einer Person P
b0 = konstantes Glied, das den Y-Wert für X = 0 angibt.
bn = Regressionsgewicht, das die Neigung der Geraden bestimmt
Xn = individuelle Merkmalsausprägung n einer Person P
e = Residuen
Der Kriteriumswert einer Person wird vorhergesagt durch eine Linearkombination situativ gewichteter Prädiktoren. Die
Gewichte errechnen sich aus den jeweiligen Prädiktor-Kriteriums-Korrelationen. Die Höhe des Gewichts gibt dabei den
Anteil der Varianz an, den der Prädiktor mit dem Kriterium gemeinsam hat. (s. Faktorenanalyse, nur dass hier Variablenausprägungen aus anderen Variablen vorhergesagt werden, bei der Faktorenanalyse aus Faktoren.)
Jeder einzelne Prädiktor hat einen unabhängigen additiven Effekt auf das Zustandekommen der Kriteriumsausprägung, d.
h. zwischen den Prädiktoren bestehen keine Interaktionseffekte ( Linearität, s. a. Faktorenanalyse als additives, kompensatorisches Modell).
Nicht der gesamte Kriteriumswert einer Person lässt sich vorhersagen, da auch Residuen vorhanden sind, d. h. Varianz, die
durch die Regressionsgleichung nicht vorhergesagt werden kann. Sie ergeben sich aus dem Einfluss weiterer Prädiktoren
auf das Kriterium, die in der aktuellen Analyse nicht betrachtet wurden, aber auch aus Messfehlern bei der Erfassung des
Kriteriums.
Durch die Regressionsgleichung soll erreicht werden, einen Kriteriumswert Ý einer Person vorherzusagen, der möglichst
nahe am wahren Kriteriumswert Y liegt.
 Was sagen die Regressionsgewichte aus? In welchem Verhältnis stehen sie zum Kriterium? (x3)
Die Regressionsgewichte bestimmen über die Neigung der Regressionsgeraden und haben zum Ziel, die Geraden so durch
den Punkteschwarm zu legen, dass die Kriteriumswerte der Personen möglichst genau, d. h. unter Reduktion von Residuen,
vorhergesagt werden können.
Formal entsprechen sie der Korrelation des Prädiktors mit dem Kriterium über die Personen einer Stichprobe hinweg und
geben den Anteil der Varianz an, die der Prädiktor mit dem Kriterium gemeinsam hat, also an diesem aufklärt.
 Was bedeutet Linearität?
Das bedeutet, dass sich Prädiktoren und Kriterium nur in konstanten Relationen ändern. Eine definierte Zunahme des Prädiktors führt immer zu einer definierten Zunahme des Kriteriums.
Kurvilinearität kann z. B. auftreten, wenn die Veränderung des Kriteriums an nicht-lineare Entwicklungsverläufe gebunden
ist oder wenn bei der multiplen Regression Prädiktoren nicht-additiv zusammenwirken, also Interaktionseffekte zwischen
den Prädiktoren wirksam sind.
Wird nicht erkannt, dass keine Linearität vorliegt, kommt es zu verzerrten Schätzungen der Kriteriumswerte durch die
Regressionsgleichung.
53
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Schätzung der Funktion
Um eine Regressionsfunktion zu ermitteln, die möglichst geringe Residuen übrig lässt, sind die Parameter der Funktion
(bn, b0) so zu schätzen, dass die Summe der quadrierten Abweichungen der beobachteten Kriteriumswerte von den geschätzten Kriteriumswerten minimiert wird („Methode der kleinsten Quadrate“).
bn = rxy
 = b x sPRädiktor / sKriterium
Man nutzt standardisierte Gewichte, um zwischen ihnen eine direkte Vergleichbarkeit herzustellen. Zwar gaben auch schon
die nicht-standardisierten Gewichte Aufschluss über die Stärke des Einflusses des zugehörigen Prädiktors auf die Kriteriumsvariable an, da die Prädiktoren aber mit unterschiedlichen Skalen gemessen wurden, gab es keine direkte Vergleichbarkeit zwischen den Gewichten.
b0 = Mittelwert des Kriteriums in der Stichprobe - dem gewichteten Mittelwert des Prädiktors in der Stichprobe
Mit dieser Gleichung ist es nun möglich, beliebig viele Kriteriumswerte vorherzusagen, und zwar in Abhängigkeit von der
individuellen Ausprägung der Prädiktorvariablen.
3. Prüfung der Regressionsfunktion
Hier werden zwei Fragen überprüft:
(1) Ist die Regressionsgleichung geeignet, die wahren Stichprobenwerte hinreichend genau vorherzusagen?
 Berechnung des Determinationskoeffizienten
(2) Ist die Regressionsgleichung geeignet, die wahren Zusammenhänge zwischen Prädiktoren und Kriterium in der
Grundgesamtheit abzubilden, ist sie also von der Stichprobe auf die Grundgesamtheit generalisierbar?
 Berechnung der prädiktiven Validität an Personen außerhalb der Konstruktionsstichprobe
Prüfung der Qualität der Regressionsgleichung als ganzer durch den Determinationskoeffizienten r 2 (auch: Bestimmtheitsmaß)
 Wie prüft man die Güte einer Regression? (x2)
 Was ist der Determinationskoeffizient und wie berechnet man ihn?
Man überprüft, wie gut die durch die Regressionsfunktion geschätzten Kriteriumswerte Ý mit den tatsächlichen Kriteriumswerten Y übereinstimmen.
Stimmen sie gut überein, ist die Regressionsfunktion in der Lage, einen großen Anteil der Varianz der wahren Kriteriumswerte zu erklären (Abstand der wahren Werte von der Regressionsgeraden), es verbleibt nur ein kleiner Teil an Residualvarianz, der durch die Funktion nicht erklärt werden kann.
Der Determinationskoeffizient r2 prüft die Güte einer Regression. Er entspricht dem Anteil der erklärten Varianz an der
Gesamtvarianz der wahren Werte. Je größer der Anteil der erklärten Varianz an der Gesamtvarianz ist, desto besser ist die
Regressionsfunktion in der Lage, die individuellen Kriteriumswerte zu erklären.
Ist r2 = 1 so bedeutet das, dass die gesamte Varianz der Werte durch die Regressionsgerade aufgeklärt werden kann bzw.
dass alle gefundenen Werte auf der Regressionsgerade liegen.
Berechnungsmöglichkeit 1:
r2 = erklärte Varianz / Gesamtvarianz
= Summe der quadrierten Abweichungen der vorhergesagten
Kriteriumswerte vom Gruppenmittelwert
Summe der quadrierten Abweichungen der tatsächlichen
Kriteriumswerte vom Gruppenmittelwert
54
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
Berechnungsmöglichkeit 2:
r2 = Quadrat des Korrelationskoeffizienten zwischen Prädiktor und
Kriterium (bei einfacher Regression)
r2 = Quadrat des multiplen Korrelationskoeffizienten zwischen den
Prädiktoren und dem Kriterium (bei multipler Regression)
Das Problem bei der multiplen Regression ist, dass es durch die Hinzunahme selbst zur Vorhersage des Kriteriums irrelevanter Prädiktoren zu einer Erhöhung des Determinationskoeffizienten kommt, weil die Prädiktoren immer einen mehr
oder weniger großen Erklärungsanteil am Kriterium liefern.
Insbesondere bei kleinen Stichproben verschlechtert sich die Vorhersagequalität der Regressionsgleichung mit steigender
Anzahl der Prädiktoren, es kommt zu ineffizienten Schätzern (s. S. 14).
Deshalb wird der korrigierte Determinationskoeffizient bestimmt. Er korrigiert den einfachen Determinationskoeffizienten
um eine Korrekturgröße, die umso größer ist, je größer die Zahl der Prädiktoren und je kleiner die Anzahl der Stichprobenelemente ist, je kleiner also die Anzahl der Freiheitsgrade ist.
Das Resultat ist, dass der korrigierte Determinationskoeffizient im Vergleich zum einfachen Determinationskoeffizient
durch die Hinzunahme weiterer Prädiktoren auch abnehmen kann.
 Wie kann man die Güte einer Regression gegen Zufall absichern?
Prüfung des Determinationskoeffizienten auf Signifikanz – Der F-Test
(1) H0: Es besteht kein Zusammenhang zwischen dem Kriterium und den Prädiktoren.
H1: Es besteht ein Zusammenhang zwischen dem Kriterium und den Prädiktoren.
(2) Festlegung des Ablehnungsbereiches, d. h. der Fehlerwahrscheinlichkeit , die H0 fälschlicherweise abzulehnen. Führt
der Test zu einem signifikanten Ergebnis, so dass die H0 abgelehnt wird, ist mit einer Wahrscheinlichkeit von 1 -  die
H1 richtig.
(3) Zur Überprüfung der Hypothesen wird ein empirischer F-Wert aus den Stichprobenwerten errechnet, der mit einem
theoretischen F-Wert einer Tabelle verglichen wird. Ist der theoretische F-Wert kleiner als der empirische F-Wert, dann
ist die H0 zu verwerfen, anderenfalls ist sie beizubehalten.
Prüfung der Qualität der Regressionskoeffizienten im einzelnen
Ist die Regressionsfunktion in ihrer Gesamtheit signifikant, wird der Beitrag der einzelnen Prädiktoren zur Vorhersage des
Kriteriums überprüft. Dazu wird jedes einzelne b-Gewicht auf Signifikanz überprüft.
Sind die empirisch ermittelten b-Gewichte der Regressionsgleichung signifikant, fragt sich, wie genau ihre Schätzung ist.
Hierzu wird das Konfidenzintervall für das wahre -Gewicht berechnet. Dieses gibt an, in welchen Grenzen von bn sich das
wahre Gewicht n befindet. Je größer dieses Konfidenzintervall ist, desto ungenauer ist die Schätzung der b-Gewichte.
 Wie sichert man Regressionskoeffizienten gegen Zufall ab?
Prüfung der b-Gewichte auf Signifikanz – Der t-Test (Student t)
(1) H0: bn = 0 (Das Gewicht ist nicht signifikant von Null verschieden.)
H1: bn  0 (Das Gewicht ist signifikant von Null verschieden.)
(2) Festlegung des Ablehnungsbereiches
(3) Zur Überprüfung der Hypothesen wird ein empirischer t-Wert aus den Stichprobenwerten errechnet, der mit einem
theoretischen t-Wert einer Tabelle verglichen wird. Ist der theoretische t-Wert kleiner als der empirische t-Wert, dann
ist die H0 zu verwerfen, anderenfalls ist sie beizubehalten.
(4) Berechnung des Konfidenzintervalls für den wahren Regressionskoeffizienten
55
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
WEITERE FRAGEN
 Nach welchen Gesichtspunkten lassen sich Untersuchungsdesigns unterscheiden?
experimentelle Designs, quasi-experimentelle Designs, korrelative Designs, passive Beobachtungsstudien
 Welche Quasi-Experimentellen Designs kennen Sie?
 Nennen Sie die 4 Arten des Quasi-Experiments! Vergleichen Sie diese.
Nicht-äquivalente Kontrollgruppendesigns, Zeitreihendesigns, Querschnittstudien, Längsschnittstudien
 Erklären Sie Quer- und Längsschnittstudie!
Die Querschnittstudie untersucht zu einem Zeitpunkt Stichproben unterschiedlicher Altersgruppen, wobei Unterschiede
zwischen den Gruppen hinsichtlich bestimmter Variablen auf die UV „Alter“ zurückgeführt werden.
Gefährdungen:
 Generationsunterschiede (z. B. Personen der Nachkriegsgeneration sind leistungsmotivierter als Personen, die in den
60ern geboren wurden; hier ist nicht das Alter für die Leistungsmotivation verantwortlich, sondern die Zeit der Geburt).
 selektive Populationsveränderung: mit fortschreitendem Alter verändern sich die Stichproben systematisch in bezug auf
einige Merkmale (z. B. mit dem Alter nimmt die Sterblichkeit übergewichtiger Personen zu, deshalb ist die abnehmende
Anzahl „Dicker“ im Alter nicht auf das Alter, sondern auf die Sterblichkeit zurückzuführen).
 Vergleichbarkeit der Messinstrumente: Die Validität eines Instruments kann vom Alter abhängen; Testaufgaben, die bei
jüngeren Personen Kreativität erfordern, können bei älteren durch Routine gelöst werden.
Die Längsschnittstudie untersucht eine Stichprobe zu verschiedenen Zeitpunkten, d. h. in verschiedenen Altersstufen, auch
hier sollen Unterschiede innerhalb der Gruppe hinsichtlich bestimmter Variablen auf die UV „Alter“ zurückgeführt werden.
Gefährdungen:
 Personenausfälle, dadurch ist die Stichprobe zu Beginn der Untersuchung nicht mehr mit der Nachtest-Stichprobe vergleichbar.
 generationsspezifische Aussagen: Die Resultate einer Längsschnittuntersuchung gelten nur für die untersuchte Generation.
 Vergleichbarkeit der Messinstrumente (s. o.)
 hoher Untersuchungsaufwand
 Testübung
 Warum heißt die passive Beobachtung passive Beobachtung?
Hier werden Kausalbeziehungen zwischen Variablen aus der Beobachtung natürlicher Settings abgeleitet, d. h. es handelt
sich um eine „Nachuntersuchung im Rückblick“, bei welcher der Experimentator keine Möglichkeit hat, die UV zu manipulieren oder die experimentelle Situation zu kontrollieren. Dadurch können viele Gefährdungen im Vorfeld nicht ausgeschlossen werden.
Methoden der passiven Beobachtung sind Beobachtung, Befragung und Inhaltsanalyse.
 Was ist der Unterschied zwischen Korrelationsstudie und passiver Beobachtung?
Während korrelative Designs die wechselseitige Abhängigkeit zweier oder mehrerer Variablen überprüfen, geht die passive
Beobachtung über dieses Zusammenhangsmaß hinaus, indem sie kausale Schlüsse zwischen den Variablen ziehen will.
Während Korrelationsstudien zeitgleiche oder zeitlich versetzte Korrelationen nutzen, bedient sich die passive Beobachtung der strukturellen Regression.
 Warum ist das Kohorten-Design kein korrelatives Design?
Korrelative Designs wollen in erster Linie wechselseitige Zusammenhänge aufdecken, das Kohortendesign möchte zusätzlich kausale Interpretationen vornehmen und somit zusätzlich untersuchen, ob eine Variable der anderen zeitlich vorausgeht.
 Warum ist das Regressions-Diskontinuitäts-Design ein Quasi-Experiment?
Weil immer noch nicht-äquivalente Kontrollgruppen vorliegen, da die Personen nicht randomisiert den einzelnen Versuchsbedingungen zugeordnet werden, sondern aufgrund der Ausprägung einer Zuweisungsvariable. Aber immerhin ist
hier der Selektionsprozess bekannt.
56
Forschungsmethoden und Evaluation
Prüfungsscript und Prüfungsfragen (erstellt: Juli 2000, Literaturstand: Mai 1997)
Ivo Marx
 Vergleichen Sie: Regressionsanalyse, Korrelation und Diskriminanzanalyse. (x2)
 Was ist der Unterschied zwischen Regressions- und Diskriminanzanalyse?
Korrelation vs. Regression
Bei der Regression müssen sowohl die Prädiktoren als auch das Kriterium intervallskaliert sein, bei der Korrelation können
die Variablen auch nominalskaliert oder binär sein.
Die Regressionsanalyse setzt die Korrelation voraus (zwischen Prädiktor und Kriterium), geht aber darüber hinaus, weil
hier von vornherein eine Kausalität zwischen den Variablen durch Festlegung der Prädiktoren und des Kriteriums festgelegt wird.
Im Vergleich zur Korrelation erlaubt die Regression eine Prognose der Ausprägung des Kriteriums aus den individuellen
Ausprägungen der Prädiktoren.
Regression vs. Diskriminanzanalyse
Bei der Regression müssen sowohl die Prädiktoren als auch das Kriterium intervallskaliert sein, bei der Diskriminanzanalyse ist das Kriterium nominal skaliert (Gruppenzugehörigkeit).
Bei der Regression sind die Prädiktoren fest vorgegeben, das Kriterium variiert; bei der Diskriminanzanalyse ist das Kriterium (Gruppenzugehörigkeit) fest vorgegeben, die Prädiktoren variieren.
Bei der Regressionsanalyse errechnen sich die -Koeffizienten nach der Methode der kleinsten Quadrate, d. h. unter Minimierung von Abweichungen. Bei der Diskriminanzanalyse hingegen werden die Diskriminanzkoeffizienten in einer Art
und Weise geschätzt, dass sie ein Diskriminanzkriterium maximieren, d. h. zu maximaler Unterschiedlichkeit beitragen.
 Welche Beziehungen bestehen zwischen der Faktorenanalyse, multiplen Regression und Strukturgleichungsmodellen?
Strukturgleichungsmodelle ziehen aus beiden Ansätzen Dinge und kombinieren sie.
In Strukturgleichungsmodellen wird, wie in der multiplen Regression, der Einfluss von Prädiktoren auf die Ausprägung
einer AV abgeschätzt. Im Gegensatz zur multiplen Regression können mit Hilfe von Strukturgleichungsmodellen mehrere
AVs untersucht werden.
Strukturgleichungsmodelle testen, wie die konfirmatorische FA, Hypothesen über die Faktorenstruktur eines Datensatzes.
Man hat also eine Vorstellung davon, wie die Konstrukte zusammenhängen und wie die Variablen auf die Faktoren laden
sollen. Nun wird überprüft, ob diese Annahmen auch durch Daten zu bestätigen sind. Genau das ist ja ein Teil eines Strukturgleichungsmodells.
57
Herunterladen