ÜBUNGSAUFGABEN ZUR DESKRIPTIVEN UND EXPLORATIVEN DATENANALYSE 1.1 Füllen Sie bitte folgenden Lückentext aus. Daten, die in Untersuchungen erhoben werden, muss man grundsätzlich nach ihrem ___ unterscheiden. Denn in Abhängigkeit von dessen Art eröffnen sich unterschiedliche Möglichkeiten der ___ der Daten. Die einfachste Art, Daten darzustellen, ist die Angabe von ___ und ___. Damit kann man zahlreiche Datenpunkte effizient und auf einen Blick darstellen. Diese Form der Darstellung eignet sich allerdings nur bei ___ Daten. Daten auf ___ und ___ sind jedoch zu differenziert, um sie mit Anteilen und Häufigkeiten sinnvoll zusammenfassen zu können. Anteile und Häufigkeiten lassen sich in Form von ___ und ___ anschaulich darstellen. 1.2 Ein Bezirk wird lediglich von zehn Personen bewohnt. Fünf dieser Personen haben ein Monatseinkommen von je 2500€, die fünf übrigen Personen haben ein Monatseinkommen von 2600€ bzw. 2700€ bzw. 2800€ bzw. 2900€ bzw. 3000€. In dem Bezirk lässt sich eine weitere Person nieder, deren Monatseinkommen 100.000€ beträgt: a) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000 b) 2500, 2500, 2500, 2500, 2500, 2600, 2700, 2800, 2900, 3000, 100000 Welche Auswirkungen ergeben sich dadurch bezüglich des Modus‘, des Medians und des arithmetischen Mittels der Monatseinkommen aller Bewohner des Bezirks? Berechnen Sie zunächst jeweils die Lagemaße und vervollständigen Sie anschließend die beiden folgenden Aussagen. Modus und Median sind gegenüber dem Ausreißer von 100000 relativ ___, wodurch sie für die Stichprobe weiterhin repräsentative Lagemaße darstellen. Das arithmetische Mittel wird stark in Richtung des Ausreißers ___, sodass eine repräsentative Aussage für die Stichprobe nicht mehr möglich ist. 1.3 Welche der Aussagen über die Anwendung von Streuungsmaßen ist richtig? a) Range und Interquartilsabstand verwendet man bei Ordinaldaten, Varianz und Standardabweichung hingegen bei metrischen Daten b) Varianz und Standardabweichung verwendet man bei Ordinaldaten, Range und Interquartilsabstand hingegen bei metrischen Daten 1.4 Was sind Lagemaße? Wozu gibt man zusätzlich Streuungsmaße an? Vervollständigen Sie dazu bitte den Lückentext. Zentrale Lagemaße geben uns Auskunft über den ___ Wert einer Verteilung von Stichprobendaten. Maße der zentralen Lage sind der ___ , der ___ und der ___. Diese Maße spiegeln zwar den Schwerpunkt der ___ wieder, sie geben jedoch keine Auskunft über die Variation der ___. Um dieses Problem zu lösen, verwenden wir zusätzlich Streuungsmaße wie ___ , ___ , ___ und ___. Durch sie erfahren wir, wie breit sich die Einzelwerte verteilen und wie ___ die Maße der zentralen Tendenz für die Verteilung sind. 1.5 Wir gehen von folgendem Zusammenhang aus: Das Geschlecht hat einen Einfluss auf die Körpergröße eines Menschen, das heißt Männer sind größer als Frauen. Wenn wir eine repräsentative Stichprobe von Erwachsenen ziehen und deren Körpergröße erfassen, werden wir viele verschiedene Ausprägungen der Körpergröße erhalten. Wir werden jedoch feststellen, dass weder alle Frauen noch alle Männer gleich groß sind, sondern dass sich die Werte jeweils um den Mittelwert der Frauen und um den Mittelwert der Männer verteilen. Wir werden weiterhin feststellen, dass die Verteilung der Körpergrößen der Frauen die Verteilung der Körpergrößen der Männer überlappt, insgesamt jedoch nach links verschoben ist. Ordnen sie den beschriebenen Sachverhalten die Begriffe Fehlervarianz, systematische Varianz und Gesamtvarianz zu. die gemessenen Körpergrößen aller Fehlervarianz Personen in der Stichprobe Verteilung aller Personen eines Geschlechts systematische Varianz um den jeweiligen Mittelwert Die durch das Geschlecht hervorgerufene Gesamtvarianz unterschiedliche Lage der Verteilungen 1.6 Ordnen Sie bitte den verschiedenen Verteilungen die richtige Bezeichnung zu. Verteilung 1 Verteilung 2 Verteilung 3 Verteilung 4 links-schief und unimodal bimodal rechts-schief und unimodal multimodal 1.7 Maria ist 174 cm groß (der Mittelwert der Frauen betrage 165 cm und die Standardabweichung 8 cm). Tom ist 188 cm groß (der Mittelwert der Männer betrage 178 cm und die Standardabweichung 10 cm). Wir wollen herausfinden, wer von beiden relativ zu seiner Gesamtpopulation (also Frauen und Männer) am größten ist. Es geht nicht darum, die beiden Körpergrößen zu vergleichen, sondern darum, die Körpergrößen in Relation zum jeweiligen Durchschnitt zu setzen und dieses Verhältnis zu vergleichen. Dazu sollen Sie für beide Werte die entsprechenden z-Werte berechnen und diese anschließend vergleichen. 2.1 In einem Konzentrationstest haben zwölf Schüler folgende Punktwerte erreicht: 26, 27, 29, 29, 11, 25, 27, 23, 27, 28, 26, 24 Zeichnen Sie ein Stamm-und-Blatt-Diagramm! Konstruieren Sie ein Box-Plot für diese Werte! 2.2 In der folgenden Tabelle ist die Regierungszeit (in Monaten) der ersten sechs Bundeskanzler der Bundesrepublik Deutschland zu finden. Name Regierungszeit Konrad Adenauer 169 Ludwig Erhard 37 Kurt Georg Kiesinger 35 Willy Brandt 54 Helmut Schmidt 100 Helmut Kohl 193 Erstellen Sie den Boxplot. 2.3 Gegeben sind die folgenden Messungen von Gewicht X (in kg) und Körpergröße Y(in m) bei 7 Personen: i Gewicht X Größe Y 1 76 1,77 2 72 1,65 3 74 1,83 4 59 1,69 5 52 1,57 6 63 1,72 7 80 1,75 a) Bestimmen Sie den Korrelationskoeffizienten zwischen Gewicht und Körpergröße! b) Würde der Koeffizient größer oder kleiner werden, wenn er aus Gewicht (jetzt in g) und Größe (jetzt in cm) berechnet würde? 2.4 Wie würden Sie ein r = 0,948 interpretieren? 2.5 In einem Versuchsbericht werden folgende Kennwerte mitgeteilt: Prädiktorvariable n 12 x 10 sx 2 Kriteriumsvariable n 12 x 40 sy 5 cov xy 4 Berechnen Sie die Produkt-Moment-Korrelation. Interpretieren Sie! 2.6 Sie haben von 15 studentischen Versuchspersonen den IQ erhoben (X). Außerdem haben Sie alle Probanden gebeten, auf einer Skala von 1 bis 9 einzuschätzen, wie gut ihre Leistung war (Y). i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 70 98 85 82 95 75 93 65 90 77 107 104 124 113 117 Y 3 8 5 4 7 1 6 2 9 4 9 7 9 5 6 Sie möchten die Hypothese prüfen, dass Personen sehr gut in der Lage sind, ihre eigene Leistung einzuschätzen. Daher entscheiden Sie sich, die Korrelation zwischen Intelligenztestleistung (X) und selbsteingeschätzter Leistung zu bestimmen. a) Sie haben mit einem Statistikprogramm ein Streudiagramm der Werte erstellt, um zu prüfen, ob eine Korrelation berechnet werden kann. Ist die Berechnung einer Korrelation im vorliegenden Fall zulässig? Warum (nicht)? b) Welche weitere Voraussetzung muss erfüllt sein, um eine Korrelation berechnen zu können? c) Der Korrelationskoeffizient beträgt .73. Was sagt dieser bezüglich Ihrer Hypothese aus? d) Können Sie auf der Grundlage dieses Ergebnisses Schlüsse über die Ursachen des Zusammenhangs zwischen Leistungseinschätzung und tatsächlicher Leistung ziehen? 2.7 In welchen der Fälle dürfen Sie eine Regression rechnen? 2.8 In einer Untersuchung hat man die Aggressivität von 5 Kindern durch deren Erzieherinnen einschätzen lassen. Zusätzlich hat man erhoben, wie stark diese Kinder von den Spielkameraden abgelehnt wurden. Nun möchten Sie gerne eine Vorhersage der Ablehnungswerte für andere Kinder machen, von denen Sie lediglich die Aggressivität erfasst haben. Kind 1 Kind Kind Kind Kind Arithm. Varianz 2 3 4 5 Mittel Aggressivität 10 5 20 15 1 10,2 46,16 Ablehnung 9 7 10 8 3 7,4 5,84 1. Warum sollten Sie sich zuerst immer einen Überblick im Streudiagramm verschaffen? 2. Welche Variable dient in der Berechnung als Prädiktor und welche als Kriterium? 3. Die Regressionsgerade lautet Yˆ 4,34 0,3 X . Sie wollen überprüfen, wie gut die Vorhersagen mit Ihrer Regressionsgleichung sind. Bestimmen Sie für die fünf Kinder aus Ihrer Studie die vorhergesagten Ablehnungswerte und die Residualwerte. Kind 1 Kind 2 Kind 3 Kind 4 Kind 5 9 7 10 8 3 vorhergesagte Ablehnungswerte tatsächliche Ablehnungswerte Residualwerte (y-ŷ) 4. Welche der Schlussfolgerungen ist gerechtfertigt? a) Das Ausmaß der Aggression ist die Ursache für das Ausmaß der Ablehnung eines Kindes. b) Das Ausmaß der Ablehnung ist die Ursache für das Ausmaß der Aggression. c) Eine dritte Variable ist sowohl Ursache der Aggression als auch Ursache der Ablehnung. d) Keine der Schlussfolgerungen ist gerechtfertigt. LÖSUNGEN 1.1 Skalenniveau, Darstellung, Anteilen, Häufigkeiten, nominalskalierten, Ordinalskalenniveau, metrischem Skalenniveau, Tabellen, Diagrammen 1.2 Ergebnisse: a) Modus: 2500; Median: 2550; arithmetisches Mittel: 2650 b) Modus: 2500; Median: 2600; arithmetisches Mittel: 11500 Lösung für den Lückentext: robust, verzerrt 1.3 a) ist richtig 1.4 typischen bzw. „mittleren“, Modus, Median, Mittelwert, Verteilung, Daten, Range, Interquartilsabstand, Varianz, Standardabweichung, typisch 1.5 die gemessenen Körpergrößen aller Fehlervarianz Personen in der Stichprobe Verteilung aller Personen eines Geschlechts systemat. Varianz um den jeweiligen Mittelwert die durch das Geschlecht hervorgerufene Gesamtvarianz unterschiedliche Lage der Verteilungen 1.6 Verteilung 1: bimodal Verteilung 2: rechts-schief und unimodal Verteilung 3: links-schief und unimodal Verteilung 4: multimodal 1.7 z Maria zTom xMaria X Frauen 174 165 1,13 s Frauen 8 xTom X Männer 188 178 1,00 sMänner 10 In Relation zu allen Frauen liegt Maria mit ihrer Körpergröße über dem Durchschnitt. Tom liegt mit seiner Größe ebenfalls über dem Durchschnitt aller Männer. Maria übertrifft den Durchschnitt aller Frauen sogar mehr als Tom den Durchschnitt aller Männer. 2.1 Stamm-und-Blatt-Diagramm: Frequency Stem & Leaf 1,00 1 1 1,00 2 3 2,00 2 45 5,00 2 66777 3,00 2 899 Boxplot: 2.2 2.3 1 n ( X i X )(Yi Y ) 0,544 n i 1 0,74 a) r s X sY 9,42 0,078 X 68 Y 1,71 s X 9,42 sY 0,078 b) Der Korrelationskoeffizient würde gleich bleiben, da er unabhängig von der Maßeinheit ist. Der Grund dafür liegt in der Standardisierung des Koeffizienten mithilfe der Division durch die Streuungen beider Variablen. Dadurch nehmen Korrelationskoeffizienten ausschließlich Werte im Bereich von -1 bis 1 an. Ein großer Vorteil dieser Standardisierung ist die Möglichkeit, Korrelationskoeffizienten unterschiedlicher Studien, Studienanordnungen und Fragestellungen miteinander zu vergleichen. 2.4 Es besteht ein fast perfekter (starker) positiver Zusammenhang zwischen den jeweiligen Variablen. Je größer dabei die unabhängige, umso größer die abhängige Variable. 2.5 r cov( x, y ) 4 0,4 s X sY 25 Es besteht ein mittlerer bis starker positiver Zusammenhang zwischen Prädiktor- und Kriteriumsvariable. Je größer dabei der Prädiktor, desto größer das Kriterium. 2.6 a) Eine Korrelation kann hier berechnet werden, da der Zusammenhang linear zu sein scheint und weder Ausreißer noch Subgruppen erkennbar sind. b) Die Variablen müssen intervallskaliert sein. c) Es besteht tatsächlich ein recht starker Zusammenhang zwischen Testleistung und Selbsteinschätzung. Die Personen sind also recht gut in der Lage, ihre eigene Leistung einzuschätzen. d) Nein, da Kausalaussagen nur auf der Grundlage einer Korrelation nicht möglich sind. Außerdem trifft die Hypothese keine expliziten Aussagen zur Kausalrichtung oder den verantwortlichen Prozessen. 2.7 Bei B und D liegt ein linearer Zusammenhang vor. Nur hier darf eine Regression berechnet werden!!!! Bei A gibt es einen kurvilinearen Zusammenhang, also keinen linearen Zusammenhang. Bei C gibt es keinen Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der Eindruck. Bei E gibt es keinen Zusammenhang. Bei F gibt es einen Zusammenhang, es existieren jedoch zwei unterschiedliche Sub-Gruppen, die nicht zusammengefasst werden dürfen. Es ist aber möglich, eine Regression für beide Gruppen getrennt zu berechnen. Bei G gibt es keinen Zusammenhang, durch eine Zusammenfassung der beiden unterschiedlichen Sub-Gruppen würde aber fälschlicherweise der Eindruck entstehen. Bei H gibt es keinen Zusammenhang, durch den Ausreißer entstünde aber fälschlicherweise der Eindruck. 2.8 1. Um festzustellen, dass - es einen linearen Zusammenhang gibt - keine Ausreißer die Berechnungen verzerren würden 2. Die Variable „Aggressivität“ fungiert als Prädiktor, mit Hilfe dessen das Kriterium „Ablehnung“ vorhergesagt werden soll. 3. Kind 1 Kind 2 Kind 3 Kind 4 Kind 5 7,34 5,84 10,34 8,84 4,64 9 7 10 8 3 Residualwerte 9 - 7,34 7 - 5,84 10 -10,34 8 - 8,84 3 – 4,64 (y-ŷ) = 1,66 = 1,16 = -0,34 = -0,84 = -1,64 vorhergesagte Ablehnungswerte tatsächliche Ablehnungswerte 4. Richtig ist Antwort (d), denn es darf auf der Grundlage eines linearen Zusammenhangs nicht geschlussfolgert werden, dass es einen Kausalzusammenhang gibt. Auch liegen keine Informationen über Alternativerklärungen für den Zusammenhang vor. Es ist nur bekannt, dass die zwei Variablen irgendwie miteinander zusammen hängen. Das erlaubt es zwar, die eine Variable aus der anderen vorherzusagen, aber es erlaubt keine Kausalschlüsse.