Teil II: Einführung in die Statistik (50 Punkte) Bitte beantworten Sie ALLE Fragen. Es handelt sich um multiple choice Fragen. Sie müssen die exakte Antwortmöglichkeit angeben, um die volle Punktzahl zu erreichen. Dabei können keine, eine, mehrere oder alle Antwortmöglichkeiten richtig sein. Eine richtig beantwortete Frage ergibt zwei Punkte, es können also 50 Punkte erreicht werden. Viel Erfolg! 1. Welche Möglichkeiten haben Sie, um den Zusammenhang zwischen zwei metrischen Variablen darzustellen? Boxplot Gruppiertes Balkendiagramm Gar keine, weil die Variablen mindestens nominal skaliert sein müssen Pearson-Korrelation Streudiagramm 2. Eine repräsentative Befragung in einer Universitätsstadt erfasste 300 Studenten und 400 Angestellte. Von den Studenten gaben 260 an, mit ihrer Tätigkeit zufrieden zu sein, von den Angestellten 200. Die anderen waren unzufrieden. Der Prozentsatz der Zufriedenen ist bei den Studenten höher als bei den Angestellten. Die Mehrheit der Unzufriedenen sind Angestellte. Die Mehrheit der Zufriedenen sind Studenten. Der Anteil der Unzufriedenen ist bei Studenten und Angestellten gleich. Der Prozentsatz der Zufriedenen ist bei den Studenten höher als bei den Angestellten. 3. Ordnen Sie folgenden Beispielen die jeweils korrekten grafischen Darstellungsformen zu (jeweils mit Linien verbinden) Teil 2 : 1 Wahlabsicht Wahlabsicht in Abhängigkeit vom Geschlecht Einkommen in Abhängigkeit von Altersstufen x x Histogramm x x Einfaches Balkendiagramm x x Gruppiertes Balkendiagramm Einkommensverteilung aller Befragten X x Gruppiertes Boxplot 4. Für welche der folgenden Analysen kann man eine lineare Regression anwenden? Ursachenanalyse Wirkungsanalyse Querschnittsanalyse Zeitreihenanalyse Kombinierte Querschnitts- und Zeitreihenanalyse Faktorenanalyse 5. Kreuzen Sie alle möglichen Antworten an. Mit einem Histogramm wird Folgendes dargestellt: Häufigkeiten von stetigen ordinalen Merkmalen Die Signifikanz einer bivariaten Verteilung Häufigkeiten von stetigen metrischen Merkmalen Die Schiefe von Verteilungen 6. Das Sternsymbol in einer Boxplotgrafik zeigt an, dass … … ein Ausreißer vorhanden ist. … die Stichprobe signifikant ist. … ein Extremwert vorhanden ist. … ein Wert mehr als drei Kastenlängen vom 3. Quartil entfernt ist. 7. Bei welchen Verfahren handelt es sich um Struktur-entdeckende Verfahren? Chi-Quadrat-Test Regressionsanalyse Teil 2 : 2 Faktorenanalyse Clusteranalyse 8. Was ist bei der linearen Regression zu beachten? Die abhängige Variable muss mindestens intervall-skaliert sein. Die Beta-Werte geben die Wichtigkeit der unabhängigen Variablen für die Erklärung der abhängigen Variable an. Es soll keine Heteroskedastizität vorliegen. Die Beziehung zwischen den Variablen soll linear sein. 9. Was ist bei der Korrelation zu beachten? Wenn Korrelation vorliegt, liegt auch immer Kausalität vor. Die Spearman-Korrelation basiert auf dem Rangvergleich. Die Pearson-Korrelation setzt mindestens intervallskalierte Variablen voraus. Wenn der Korrelationswert unter 0,05 liegt, kann von einer Mittelwertgleichheit ausgegangen werden. 10.Was trifft für den Median zu? Um ihn zu berechnen, bedarf es mindestens intervallskalierter Daten. Er ist nicht so anfällig für Extremwerte wie das arithmetische Mittel. Der Median bezeichnet den Wert einer Verteilung, der genau in der Mitte liegt, über und unter dem also jeweils 50 Prozent der Werte liegen. 11.Was ist Gegenstand oder Instrument der Faktorenanalyse? Eigenwert Faktorladung Rotation Panel-Corrected Standard Errors 12.Was ist bei Ausreißern zu beachten bzw. trifft für Ausreißer zu? Teil 2 : 3 Ausreißer beweisen Signifikanz. Ausreißer verbessern die Ergebnisse. Ausreißer können Ergebnisse verzerren. Ausreißer können durch Boxplots identifiziert werden. 13.Erläutern Sie die folgende Grafik: Es handelt sich um ein Histogramm. Aufgrund der Darstellung kann sicher von einer Normalverteilung des Nettoeinkommens ausgegangen werden. Die Verteilung ist rechtsschief. Der Median liegt bei ungefähr 4.000 Euro. 14.Was kennzeichnet den Determinationskoeffizienten R²? Entspricht dem Quotienten aus erklärter Streuung und Gesamtstreuung. Gibt mit 100 multipliziert den Anteil der erklärten Varianz der abhängigen Variable durch die unabhängigen Variablen wieder. Teil 2 : 4 Er ist unempfindlich gegenüber der Anzahl der unabhängigen Variablen und der Anzahl der Fälle. R² gibt die Güte des Modells wieder. 15.Zum Thema Konzentrationsmaße: Was sind richtige Aussagen? Konzentrationsmaße erfassen die Häufung bestimmter Merkmale innerhalb einer Gruppe von Merkmalsträgern. Je mehr Parteien eines Parteiensystems hohe Stimmprozente auf sich vereinigen können, desto höher die Anzahl effektiver Parteien nach dem Laakso und Taagepera Index. Cronbachs Alpha misst die Kohärenz einer Skala. Der Robin Hood Index misst wie viel den Reichen weggenommen und an die Armen verteilt werden muss, um Gleichheit herzustellen. 16.Erläutern Sie folgende Grafik: Es handelt sich um ein Streudiagramm. Es besteht ein positiver Zusammenhang zwischen beiden Variablen. Teil 2 : 5 Es besteht ein negativer Zusammenhang zwischen beiden Variablen. Es besteht gar kein Zusammenhang zwischen beiden Variablen. Zwei Drittel der Varianz der einen Variable kann durch die Varianz der anderen Variable erklärt werden. Ausreißer verzerren den Zusammenhang zu stark. 17.Vergleichen Sie die beiden Grafiken: a) b) Es handelt sich um Lorenz-Kurven. Die Verteilung in der Grafik a) ist gleichmäßiger als in der Grafik b). Die Verteilung in der Grafik a) ist ungleichmäßiger als in der Grafik b). Es handelt sich um Corellationboxes. 18.Was trifft zu? 3 Länder in der OECD haben ein BIP von über 18999. 9 Länder haben ein BIP von weniger als 17000. 3 Länder haben ein BIP zwischen 14000 und 15000. Mehr als 8 Länder haben ein BIP über 17400. Bruttoinlandsprodukt/ Kopf OECD Stem-and-Leaf Plot Frequency Stem & Leaf 3,00 Extremes (=<12170) 1,00 13 . 0 1,00 14 . 3 2,00 15 . 89 2,00 16 . 89 6,00 17 . 225579 3,00 18 . 239 1,00 19 . 9 2,00 Extremes (>=22384) Stem width: Each leaf: 1000 1 case(s) 19.Interpretieren Sie folgende Grafik: Teil 2 : 6 Es handelt sich um ein Histogramm. Aufgrund von Ausreißern hat die Grafik keine Erklärungskraft. Die Länge des Kastens entspricht dem Abstand zwischen dem 1. und 3. Quartil. Der arithmetische Mittelwert liegt bei ungefähr 75. Der Median liegt bei ungefähr 75. 20.Was besagt folgende Tabelle? Es besteht ein signifikanter positiver Zusammenhang zwischen Lebenserwartung und Bevölkerungsdichte. Teil 2 : 7 Es besteht ein signifikanter positiver Zusammenhang zwischen Lebenserwartung und Bevölkerungswachstum. Es wurden 109 Fälle untersucht. Es besteht ein signifikanter negativer Zusammenhang zwischen Lebenserwartung und Bevölkerungswachstum. 21.Interpretieren Sie folgenden T-Test: Der T-Test liefert kein signifikantes Ergebnis. Die Varianzen beider Stichproben sind gleich. Die Mittelwerte sind nicht signifikant unterschiedlich. Das Einkommen der Frauen ist signifikant niedriger als das der Männer. Teil 2 : 8 22.Für eine Gesundheitsstudie wurden von 2000 Probanden verschiedene Daten erhoben. Interpretieren Sie die folgende Grafik. Der Großteil der Probanden verfügt nur über einen Haupt-/ Volksschulabschluss Die Spannweiten / der Range des Alters der Probanden unterscheiden sich zwischen den verschiedenen Bildungsmilieus nicht wesentlich. 75% der Probanden mit Haupt-/Volksschulabschluss sind älter als 55 Jahre. Teil 2 : 9 23.In einer Gesundheitsstudie soll eine Korrelation Zusammenhänge zwischen der Anzahl der Zähne, Alter, Geschlecht (Dummy für Frauen: 0 = Männer, 1 = Frauen) und Bildungsniveau darstellen. Mit steigendem Alter sinkt die Anzahl der Zähne. Dies ist auf dem 1 ‰Niveau signifikant. 1995 Frauen waren an der Studie beteiligt. Bei fünf Personen wurde das Geschlecht nicht angegeben. Eine Korrelation nach Pearson zwischen der Dummyvariable für Frauen und dem Bildungsabschluss ist aufgrund des Skalenniveaus unzulässig. 24.Folgende lineare Regression soll den Zusammenhang zwischen Alter, Geschlecht und Anzahl der Zähne aufzeigen. Welche Aussagen sind richtig? Teil 2 : 10 Es wurde ein Modell gebildet, in dem die Anzahl der Zähne durch das Geschlecht und das Alter erklärt werden soll. Eine Tendenz zum Übergewicht führt zu einer geringeren Anzahl der Zähne. Allerdings ist dieses Ergebnis nicht auf dem 5%-Niveau signifikant. Das Gesamtmodell erklärt die Hälfte der Varianz der abhängigen Variable. 25.Kreuzen Sie die richtigen Aussagen an. Korrelation ist ein empirischer Sachverhalt. Kausalität ist ein Wirkungszusammenhang, der theoretisch fundiert sein muss. Bei der Regressionsanalyse wird der Einfluss einer unabhängigen Variable unter Berücksichtigung anderer unabhängiger Variablen geschätzt. Mit einer Korrelation von über 1,0 können signifikante Zusammenhänge bewiesen werden. Die Zusammenhangsmaße sind vom Skalenniveau abhängig. Die Unabhängige Variable ist das, was erklärt, die Abhängige Variable das, was erklärt werden soll. Teil 2 : 11