Forschungsstatistik I Prof. Dr. G. Meinhardt WS 2006/2007 Fachbereich Sozialwissenschaften, Psychologisches Institut Johannes Gutenberg Universität Mainz Organisatorische Hinweise I. Gliederung Vorlesung & Übung zur Vorlesung wöchentliche Hausaufgaben Tutorien (Übungen & Besprechung der HA) Zwischenklausur Abschlussklausur II. Leistungskriterium Bestehen der Klausur Tutorien Termine Benedikt Herwig Benedikt Herwig Rainer Kämper Rainer Kämper Mi Mi Do Do 10 12 16 18 - 12 14 18 20 Uhr Uhr Uhr Uhr Raum 03-616b CIP Raum 03-122 Raum 03-616b CIP Raum 03-616b CIP Bitte um: Gleichmäßige Verteilung auf die 4 Tutorien Keine Doppelbelegungen! Literatur (Arbeitsbücher) Spiegel, M. R. (1990). Statistik. Hamburg: Schaum‘s Outlines Lipschutz, S. L. (1992). Wahrscheinlichkeitsrechnung Hamburg: Schaum‘s Outlines (Als Kopie im Handapparat IB) Literatur (Grundlagen) Steland, A. (2004). Mathematische Grundlagen der empirischen Forschung. Heidelberg: Springer Literatur (Basiswerke) Bortz, J. (2004). Statistik für Sozialwissenschaftler (6. Aufl.). Berlin: Springer-Verlag Fahrmeir, L., Künstler, R., Pigeot, I. & Tutz, G. (2002). Statistik - Der Weg zur Datenanalyse (4. Aufl.). Berlin: Springer. Materialien, Hinweise & Scripte http://psymet03.sowi.uni-mainz.de/joomla/ Software (Illustration) Studentenlizenzen! Simulation & Graphics Berechnung Lösung von symbolischen und numerischen Problemen www.wolfram.com Software (Illustration) STATISTICA Version 6 – die Revolution im Bereich der Datenanalyse! Studentenlizenzen! www.statsoft.de Statistische Analysen Inferenzstatistische Verfahren höhere & multivariate Verfahren Verteilungen Software (Arbeit) Datenerfassung Datentransformation Deskriptive Auswertung Darstellung & Visualisierung Kennwertberechnung Einfache statistische Analysen Einarbeitung und Mitarbeit gefordert! Nachvollziehen möglichst am eigenen Notebook! Statistik verstehen durch Arbeit an Daten! Inhalte I. WS 2005 / 2006 Wahrscheinlichkeitslehre Deskriptive statistische Methoden Korrelations- und Regressionsrechnung, multiple Regression, Faktorenanalyse II. SS 2006 Prinzipien des statistischen Schliessens und Schätzens (Inferenzstatistik) Inferenzstatistische Verfahren Versuchsplanung und Varianzanalyse Psychologie als Wissenschaft Gegenstand Die Psychologie ist eine empirische Wissenschaft menschlichen Verhaltens und Erlebens. Empirische Wissenschaft Auf Erfahrung beruhend, erfahrungswissenschaftlich Empirische Methoden: Prinzip der systematischen Beobachtung und Manipulation Aussagen werden über die Regeln des logischen Schliessens verküpft Prüfung von Hypothesen über Tatsachenbeobachtungen Verallgemeinerung durch „statistischen Induktionsschluss“ Wissenschaftliche Aussagen Anforderungen Einfachheit Eindeutigkeit / Verständlichkeit Logische Konsistenz Prüfbarkeit durch Tatsachenbezug Beispiel „Wenn Menschen wirklich geliebt werden, haben sie keinerlei aggressive Antriebe mehr.“ Einfachheit Eindeutigkeit / Verständlichkeit Logische Konsistenz Prüfbarkeit durch Tatsachenbezug Beispiel „Wenn man Menschen frustriert, verstärken sich ihre Neigungen aggressive Akte auszuführen.“ Einfachheit Eindeutigkeit / Verständlichkeit Logische Konsistenz Prüfbarkeit durch Tatsachenbezug Aussagen / Begriffe Psychologische Aussagen orientieren sich an den 4 Anforderungen für wissenschaftliche Aussagen. Die in psychologischen Aussagen enthaltenen Begriffe sind möglichst über Operationalisierung zu definieren: Durch eine Vorschrift, wie das Vorliegen des Begriffes über Beobachtung und Messung festgestellt werden kann Psychologische Begriffe sind möglichst als quantitative Begriffe zu fassen, die als Variablen beschrieben werden Nur für quantitative Variablen lassen sich Beziehungen in „Wenn-Dann“- Form (Hypothesen über Gesetzmässigkeiten) durch Beobachtung prüfen (Kovariationsprinzip). Die Implikation „Wenn A, dann B“ : A B Beispiele: „Wenn Frustration, dann Aggression“ „Wenn es regnet, ist die Strasse nass “ Schema: Antecedenz A Konsequenz B Implikation in Mengendarstellung „Wenn A, dann B“ : A B A B „Wenn es regnet (A), ist die Strasse nass (B)“ „Wenn Herr K. der Mörder ist (A), war er am Tatort (B)“ Implikation in Mengendarstellung „Wenn A, dann B“ : A B Die Umkehrung gilt nicht: A B B A A B Implikation in Mengendarstellung „Wenn A, dann B“: A B B A A B B A „Wenn die Strasse nicht nass ist, hat es nicht geregnet“ „Wenn man nicht am Tatort war, ist man nicht der Mörder “ Determinismus / Probabilismus Deterministisch „Wenn A, dann B“ („Wenn A, dann immer B“) Probabilistisch „Wenn A, dann besteht eine Wahrscheinlichkeit P(B)“ alternativ: „Es besteht eine Wahrscheinlichkeit P(B|A)“ (Lies: „B unter Bedingung A“) Probabilistische Zusammenhänge • • • • A B gilt nicht für alle a A, b B Wirkung von Störvariablen Nichtberücksichtigung komplexer Interaktionen Unbestimmtheit von Anfangsbedingungen in komplexen Situationen In der Psychologie gilt eine Gesetzmäßigkeit als belegt, wenn die statistische Bedeutsamkeit des Zusammenhanges von UV und AV aufgezeigt wird Statistik Statistische Einheiten (Merkmalsträger) Objekte, denen aufgrund ihrer Ausprägung in Eigenschaften Zahlen zugewiesen werden können (Personen, Gruppen, Organisationen, Systeme) Beobachtungen Informationen über Merkmalsträger in Form von Zahlen Stammen aus technischen Erhebungsmethoden (Befragung, systematische Beobachtung, ReaktionsRegistrierung, elektrophysiologische und bildgebende Verfahren) Variablen Merkmale, dessen Werte bei den statistischen Einheiten beobachtet werden, heissen Variablen Eine Variable ist ein Merkmal, welches über Merkmalsträger und Zeit variieren kann Variablen werden klassifiziert nach (a) der Art der Daten, die sie beschreiben (b) der Quelle der Manipulation ihrer Werte Variablen Eine diskrete Variable besitzt nur feste Werte, die man über Ganzzahlen beschreiben kann (z.B. Geschlecht, Zugehörigkeit zu einer Partei, Augenzahl beim Würfelspiel) Eine kontinuierliche (stetige) Variable Werte, die man über reelle Zahlen beschreibt (z.B. Alter, Reaktionszeit, Erregungsniveau) Variablen Eine unabhängige Variable besitzt Werte, die ein Versuchsleiter willkürlich hergestellt hat(z.B. Dosis eines verabreichten Medikamentes, Einteilung in Gruppen, die bestimmte Treatments bekommen) Eine abhängige Variable besitzt Werte, die man über Beabachtung an den Merkmalsträgern gewinnt (z.B. Reaktionszeit, Fehlerquote, Erregungsniveau, etc.) Schema: Unabhängige Variable UV Abhängige Variable AV Daten Daten werden in Matrizen festgehalten (Datenmatrix) Für jeden Merkmalsträger wird in einer Zeile die Ausprägung der UV und der AV codiert Matrixorganisation: Personen (Zeile) x Merkmale (Spalten) Beispiel Jungen (X1=1) und Mädchen (X1=0) bekommen Alkohol (X2=1) oder nicht (X2=0) (zwei unabhängige Variablen X1 und X2). Gemessen wird die Anzahl der aggressiven Akte (Y), die sie in einer Stunde bei einem Computerspiel begehen (= abhängige Variable). [Statistica-Beispiel] Deskriptive statistische Methoden Häufigkeitstabellen Häufig Summen häufig -20<x<=0 0 0 0.00 0.00 0<x<=20 6 6 25.00 25.00 20<x<=40 4 10 16.67 41.67 40<x<=60 5 15 20.83 62.50 60<x<=80 4 19 16.67 79.17 80<x<=100 1 20 4.17 83.33 100<x<=120 3 23 12.50 95.83 120<x<=140 0 23 0.00 95.83 140<x<=160 1 24 4.17 100.00 24 % 100.00 Kumul% Deskriptive statistische Methoden Häufigkeitverteilungen Histogramm 7 6 Häufigkeiten 5 4 3 2 1 0 -20 0 20 40 60 80 AGGRESSION 100 120 140 160 Deskriptive statistische Methoden Kumulierte Häufigkeitverteilungen Variable: AGGRESSN, Verteilung: Normal Anzahl Beobachtungen 25 20 15 10 5 0 0 20 40 60 80 100 120 Kategorie(obere Grenzen) 140 160 Deskriptive statistische Methoden Statistische Kennwerte Kennwerte fassen die Eigenschaften der Verteilung der gemessenen Zufallsvariablen zusammen Vergleiche von Kennwerten sind für statistische Entscheidungen wichtig Verteilungen von Kennwerten sind die Grundlage der schliessenden Statistik (Schätzung und Testung) Korrelation & Regression Zusammenhang zwischen zwei Variablen (bivariate Statistik) R2 = 0.6019 Umsatz (tausend) 30 25 20 15 10 5 0 0 10 20 Anzahl Kunden (tausend) 30 Wahrscheinlichkeitslehre Wie gross ist die Wahrscheinlichkeit eines Ereignisses? Wahrscheinlichkeit für k - mal „Kopf“ bei 10 Münzwürfen 0.25 0.2 P(k) æ10÷ ö k 10- k ç P (k )= ç ÷ 0.5 × 0.5 ÷ çè k ÷ ø 0.15 0.1 0.05 0 1 2 3 4 5 k 6 7 8 9 10 Wahrscheinlichkeitslehre Geburtstagsproblem Wie viele Leute muss man auf eine Party einladen, damit die Wahrscheinlichkeit dafür, dass mindestens zwei Leute am selben Tag Geburtstag haben, gleich der Wahrscheinlichkeit ist, dass alle Gäste an verschiedenen Tagen Geburtstag haben? 20 50 80 120 Wahrscheinlichkeitslehre Geburtstagsproblem Wie viele Leute muss man auf eine Party einladen, damit die Wahrscheinlichkeit dafür, dass mindestens zwei Leute am selben Tag Geburtstag haben, gleich der Wahrscheinlichkeit ist, dass alle Gäste an verschiedenen Tagen Geburtstag haben? 20 x 50 80 120 WK Exakt: Bei 23 Personen ist die WK bereits größer, dass 2 Personen denselben Geburtstag haben! 1 0.8 0.6 0.4 0.2 10 20 30 40 50 60 Personen Schliessende Statistik Zusammenhänge von Stichprobe und Grundgesamtheit Was kann man mit Kennwerten, gewonnen aus Stichproben, über die Kennwerte der Population aussagen? Schätzen Wie und wie genau kann man Kennwerte der Population aus Stichproben schätzen? Testen Kann man etwas über die Gleichheit und Ungleichheit von aus Stichproben geschätzen Kennwerten mit einer bestimmten statistischen Verläßlichkeit sagen? Forschungsprozeß Theorien / Empirie Fragestellung / Problem Vermutung über den Zusammenhang von Größen Formulierung inhaltlicher Hypothesen Identifikation der AV und der UV Operationalisierung der UV und der AV (Festlegen von Größen auf die Art und Weise, wie sie gemessen werden können.) Erstellen/Festlegen des Meßinstrumentes Formulierung der statistischen Hypothesen Wahl der Stichprobe (Ort, Zeit, Verhaltensausschnitt) Datenauswertung: 1. Feststellung der Ausprägungsgrade der UV und der AV. 2. Statistischer Schluß der Stichprobe auf die Gesamtheit. Rückschluß auf die zu erfassenden Konstrukte Konfrontation der Ergebnisse mit den inhaltlichen Hypothesen. Messung Beantwortung der Fragestellung