Prüfungstutorat: Angewandte Methoden der Politikwissenschaft Polito Seminar Carl Schweinitz 10.12.2014 Übersicht 1. 2. 3. 4. 5. 6. 7. Einheiten und Variablen Skalen und ihre Transformation Deskriptive Statistik Wahrscheinlichkeitstheorie Zufallsvariablen Verteilungsfunktionen Erhebung von Stichproben Quellen: Steenbergen, Marco. Vorlesung Angewandte Methoden der Politikwissenschaften. Was ich nicht mache • • • • • Mathe help desks R Interpretation von Graphiken Chi²-, t-, F-Verteilungen (auswendig lernen…) Aber: Fragen gerne! 1. Einheiten und Variablen • Einheiten: – Objekte über die wir empirische Aussagen treffen – Ein Sample/Stichprobe ist ein Teil einer Population (=Universum aller relevanten Objekte) – Inferentielle Statistik wird benutzt um vom Sample auf die Population zu schliessen • Attribute: – – – – Charakteristika von Einheiten Konstante: variiert nicht Variable: variiert zwischen Einheiten Abhängige und unabhängige Variablen 2. Messung, Skalen, und Transformation • Messung: Zuteilung von Zahlen, die einen bekannten, empirischen Zusammenhang zwischen Objekten darstellen • Skalen: – – – – Nominalskala (Geschlecht/Gender) Ordinalskala (Zustimmung) Intervallskala (Temperatur in Celsius) Verhältnisskala (Distanz in Meter) • Transformationen: – – – – Nominalskala – alle Transformationen, die Unterschied behalten Ordinalskala – positiv monotone Transformation Intervallskala – affine und positiv lineare Transformation Verhältnisskala – positiv lineare Transformation 3. Deskriptive Statistik - univariat • Wieso: Datenchaos ordnen/visualisieren und Muster erkennen • Wie: Tabellen & Graphiken mit Frequenzen, Proportionen und Prozenten. • Kontinuierliche Variablen: – Gruppieren in sog. Klassen („bins“). – Klassenbreite: 3. Deskriptive Statistik – multivariat • 2 x 2 Tabellen: relatives Risiko (relative risk ratio) & Odds Ratio Kurzsichtig Stolpern Ja Nein Ja 15 5 Nein 3 25 • Relatives Risiko? • Odds Ratio? 3. Deskriptive Statistik – multivariat • 2 x 2 Tabellen: relatives Risiko (relative risk ratio) & Odds Ratio Kurzsichtig Stolpern Ja Nein Ja 15 5 Nein 3 25 • Relatives Risiko? π π = • Odds Ratio? 15 15+3 5 25+5 =5 3. Deskriptive Statistik – multivariat • 2 x 2 Tabellen: relatives Risiko (relative risk ratio) & Odds Ratio Kurzsichtig Stolpern Ja Nein Ja 15 5 Nein 3 25 • Relatives Risiko? π π = • Odds Ratio? ππ = 15 3 5 25 15 15+3 5 25+5 = =5 15 ∗25 3 ∗5 = 25 3. Deskriptive Statistik – multivariat • Nominale / ordinale Werte: – Camér‘s π – nominale mit nominalen oder ordinalen Variablen • 0 bis 1; 1 perfekte Assoziierung – Goodman and Kruskal‘s πΎ – ordinale mit ordinalen Variablen • 0 bis 1; 1 perfekte Assoziierung 4. Wahrscheinlichkeitstheorie - Grundlagen • Wahrscheinlichkeit: – Logisch: deduktiv; Münzwurf, Würfel – Subjektiv: Grad der subjektiven Überzeugung, dass eine bestimmte Aussage wahr ist; Obama tritt morgen zurück – Frequentistisch: induktiv, basierend auf Beobachtung von einer Menge an Versuchen; Autounfall, Krankheiten, etc. • Gesetz der grossen Zahlen: Wenn die Anzahl der Beobachtungen genügend gross genug ist, ist die relative Frequenz von π eine genügend gute Approximation an Pr(π). 4. Wahrscheinlichkeitstheorie - Rechnen • Basiert auf Kombinatorik (siehe basta14lec4a) • Stichprobenraum (sample space) = volles Ereignisset π mit jedem Event als Subset: β ⊂ π • Events und ihre Wahrscheinlichkeiten können kombiniert werden: – Komplemente ( π΄ & π΄ ) : – Schnittmenge ( π΄ ∩ π΅ ): – Vereinigung ( π΄ ∪ π΅ ): Pr π΄ = 1 − Pr(π΄) Pr π΄ ∩ π΅ = Pr π΄|π΅ ∗ Pr(π΅) Pr π΄ ∪ π΅ = Pr π΄ + Pr π΅ − Pr(π΄ ∩ π΅) 5. Zufallsvariablen • Die Werte einer Zufallsvariablen sind durch Zufall beeinflusst. • Diskrete (bspw. Demonstrationen) oder kontinuierliche (bspw. GDP/capita) Werte. • Diskrete ZV: Probability Mass Function (PMF) π π¦ = Pr(π = π¦) • Kontinuierliche ZV: Probability Density Funktion (PDF) π π π¦ ππ¦ = Pr(π ≤ π¦ ≤ π) π • Kumulative Verteilungsfunktionen F π¦ = π¦π≤π¦ Pr(π = π¦π ) ; πΉ π¦ = π¦ π −∞ π¦ ππ¦ 5. Zufallsvariablen: Beispiel 1 Die Temperatur ist heute uniform zwischen 0 und 10°C verteilt. 1. Was ist die Wahrscheinlichkeit, genau 1°C zu messen? 2. Mit welcher Wahrscheinlichkeit messen wir einen Wert zwischen 0 und 3°C am Thermometer? 3. Mit welcher Wahrscheinlichkeit messen wir 1°C, 2°C, oder 7°C und höher? 4. Wie hoch ist die Wahrscheinlichkeit, 12°C zu messen? 5. Zufallsvariablen: Support & Parameter • Support / Träger: Menge an Werten von π für die π(π¦) > 0 • Parameter: Bestimmen die Form der Verteilung – – – – Mittelwert Varianz Schiefe (skewness) Wölbung (kurtosis) • Beispiel: – Zeichne eine rechtsschiefe, leptokurtische Normalverteilung mit beliebigem Mittelwert und beliebiger Varianz. 5. Zufallsvariablen: Multivariate Verteilungen • Bivariate Wahrscheinlichkeitsfunktion: π π¦1 , π¦2 = Pr π1 = π¦1 ∩ π2 = π¦2 • Marginale Verteilung: Verteilung von nur einer ZV (π¦1 ) unabhängig von der zweiten ZV (π¦2 ) • Konditionale / bedingte Verteilung: Verteilung von π¦1 bei einem bestimmten Wert von π¦2 -> π(π¦1 |π¦2 ) • Statistische Unabhängigkeit: π π¦1 π¦2 = π(π¦1 ) 5. Zufallsvariablen: Beispiel 2 • Bsp: π1 = 1,2 ; π2 = 1,2 ; π π¦1 , π¦2 = • Pr π1 = 2, π2 = 2 ? • Pr π1 = 2 ? • Pr π1 = 2|π2 = 2 ? 4 9π¦1 π¦2 5. Zufallsvariablen: Beispiel 2 y2 y1 1 2 1 4/9 2/9 2 2/9 1/9 • Bsp: π1 = 1,2 ; π2 = 1,2 ; π π¦1 , π¦2 = • Pr π1 = 2, π2 = 2 -> 1/9 • Pr π1 = 2 ? • Pr π1 = 2|π2 = 2 ? 4 9π¦1 π¦2 5. Zufallsvariablen: Beispiel 2 y2 y1 1 2 1 4/9 2/9 2 2/9 1/9 • Bsp: π1 = 1,2 ; π2 = 1,2 ; π π¦1 , π¦2 = • Pr π1 = 2, π2 = 2 -> 2 9 1 9 1 9 • Pr π1 = 2 -> + = • Pr π1 = 2|π2 = 2 ? 1 3 4 9π¦1 π¦2 5. Zufallsvariablen: Beispiel 2 y2 y1 1 2 1 4/9 2/9 2 2/9 1/9 • Bsp: π1 = 1,2 ; π2 = 1,2 ; π π¦1 , π¦2 = • Pr π1 = 2, π2 = 2 -> 2 9 1 9 1 9 • Pr π1 = 2 -> + = • Pr π1 = 2|π2 = 2 -> 2 1 3 1 9 1 = + 9 9 1 3 4 9π¦1 π¦2 5. Zufallsvariablen: Zusammenfassen • Mittelwert: – Diskret – Kontinuierlich • Varianz: – Diskret – Kontinuierlich • Kovarianz: – Diskret – Kontinuierlich 5. Zufallsvariablen: Korrelation & kond. Mittel • Korrelation: -> Lineare Assoziation zwischen π1 und π2 auf einer Skala von -1 bis 1 • Konditionales Mittel: 5. Zufallsvariablen: Erwartungen & Momente • Erwartungswert = Mittelwert: πΈ π = π • Momente: – Mittelwert – Varianz – Schiefe (skewness) <0 linksschief; >0 rechtsschief – Wölbung (kurtosis) – πΎ4 − 3 = ππ₯πππ π ππ’ππ‘ππ ππ <0 platykurtisch ; >0 leptokurtisch 6. Verteilungsfunktionen • Bernoulliverteilung: – Dichotom (nur zwei Ereignisse im Möglichkeitenraum); Münzwurf • Binomialverteilung: – Nur diskrete Werte von 0 – n – Beschreibt Serie von n Bernoulli-Prozessen • Poissonverteilung: – Für Variablen deren Mittel und Varianz gleich sind – Oft „count“-Daten (Demonstrationen, Tote, etc.) 6. Verteilungsfunktionen • Normalverteilung – Kontinuierliche Werte von −∞ bis ∞ – PDF: π= Mittelwert π= Standardabweichung Generell: π~π(π, π) – Median = Mode = Mittel – Wölbung = Schiefe = 0 – Standard Normalverteilung: π~π 0,1 ; 95%: -1.96 – 1.96 – Z-Transformation (von realer zur standard NV): π§ = • Chi²-Verteilung, t-Verteilung, F-Verteilung. π¦−π π 7. Stichprobenerhebung • Zufällige vs. Bewusste Auswahl • Randomisiert: jedes Mitglied der untersuchten Population hat dieselbe Wahrscheinlichkeit (>0), gezogen zu werden. – Simple random sampling – Stratified sampling – Cluster sampling • Was unterscheidet die verschiedenen Samplingmethoden und wann werden sie angewendet? 7. Stichprobenerhebung • Zufällige vs. bewusste Auswahl • Randomisiert: jedes Mitglied der untersuchten Population hat dieselbe Wahrscheinlichkeit (>0), gezogen zu werden. – Simple random sampling – Stratified sampling – Cluster sampling • Was unterscheidet die verschiedenen Samplingmethoden und wann werden sie angewendet? 7. Stichprobenerhebung • Stichprobenverteilung: – Wahrscheinlichkeitsverteilung eines statistischen Wertes der Stichprobe (bzw. des Mittels) auf Grundlage der hypothetischen Ziehung aller möglichen Proben der Größe π. • Normalverteilte Werte: – In einem Sample ist der Mittelwert einer normalverteilten Variable normalverteilt um den wahren Mittelwert der Variable in der Grundgesamtheit. • Central Limit Theorem: – Gegeben eine genügend grosse Stichprobe, so ist jeder Mittelwert normalverteilt um den (wahren) Mittelwert π mit einer Varianz von π2 . π