MaMaEuSch Management Mathematics for European Schools http://www.mathematik.unikl.de/˜ mamaeusch Wahrscheinlichkeitsrechnung anhand realer Situationen Paula Lagares Barreiro1 Frederico Perea Rojas-Marcos1 Justo Puerto Albandoz1 MaMaEuSch2 Management Mathematics for European Schools 94342 - CP - 1 - 2001 - DE - COMENIUS - C21 1 Universität Sevilla MaMaEuSch wurde unterstützt durch die EU mittels einer teilweisen Förderung im Rahmen des Socrates Programmes und einer teilweisen Förderung durch das Land Rheinland-Pfalz. Der Inhalt des Projektes reflektiert nicht notwendigerweise den Standpunkt der EU, noch unterliegt es irgendeiner Verantwortung seitens der EU. 2 Inhaltsverzeichnis 1 Eindimensionale beschreibende Statistik 1.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Grundgesamtheit und Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative . . . . . 1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit . . . . . . . . . . . . . . 1.6 Graphische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.1 Balkendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.2 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.3 Häufigkeitspolygon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.4 Kreisdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.5 Piktogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.6 Stengel-Blatt-Diagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.6.7 Einige Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil . . . . . . . . . . . . . . . . . 1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung . . . . . . . . . . . . . . . . . . 1.9 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson’scher Variationskoeffizient, ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . . 1.9.1 Tchebicheff Theorem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9.2 Pearson’scher Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . 1.9.3 ”z-scores” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 3 4 5 6 8 8 9 10 11 12 12 14 14 17 2 Analyse der Meinungsumfrage 2.1 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 27 3 Zweidimensionale, beschreibende Statistik 3.1 Ziele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Das Beispiel: Eine Meinungsumfrage . . . . . . . . . . . . . . . 3.3 Einleitung und einfache Tabellen . . . . . . . . . . . . . . . . . . 3.4 Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen . 3.5 Punktwolke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.6 Funktionale Abhängigkeit und statistische Abhängigkeit . . . . . 3.7 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.8 Lineare Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 29 29 30 32 33 34 35 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 21 22 3.9 Regressionsgerade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 37 Kapitel 1 Eindimensionale beschreibende Statistik Wir wollen eine Meinungsumfrage durchführen. Ihr werdet einen Fragebogen ausfüllen, so dass wir feststellen können, was ihr über eine Vielzahl von Themen denkt. Weiters wollen wir einige Eigenschaften wie Größe, Gewicht, Anzahl von Brüdern und Schwestern etc. erheben. Wir wollen überprüfen ob deine Meinung mit denen deiner Freunde übereinstimmt und auch ob es viele KlassenkameradInnen mit ähnlichen Eigenschaften wie deinen gibt. Zum Beispiel, wieviele deiner Mitschüler sind größer als du und wieviele davon haben die gleiche Anzahl an Geschwistern? Bevor wir beginnen wollen wir die Hauptziele die wir in diesem Kapitel erreichen wollen darstellen. 1.1 Ziele • Die verschiedenen Arten von Statistiken unterscheiden lernen. • Bestimmen welche Art von Statistik wir verwenden sollen, abhängig von der Art der Daten die wir benützen. • Das Konzept Zentralmaße und Streuungsmaße von einem Datensatz begreifen. • Die Parameter einer statistischen Verteilung bestimmen. • Den Variationskoeffizient untersuchen. • Durch Informationen in den Beispielen und Aufgaben zu sozialen, ökologischen und wirtschaftlichen Themen anregen. 1.2 Das Beispiel: Eine Meinungsumfrage Von jetzt an arbeiten wir an einer Meinungsumfrage. Wir wollen einige Dinge über eure KlassenkameradInnen herausfinden. Wir werden nach ein paar persönlichen Daten fragen und dann bitten wir euch, uns 3 Informationen und eure Meinung zu einigen Themen wie z.B. Sport, Ernährung etc. zu geben. Die Umfrage ist anonym, so dass ihr frei antworten könnt und euch keine Sorgen darüber machen braucht, wer eure Meinungen später liest. Mit diesen Daten wollen wir interessante Fragen über uns als Gruppe aufwerfen, die wir dann vielleicht als Orientierungshilfe zur Beantwortung von anderen Fragen über eine größere Gruppe von Leuten verwenden können. Zum Beispiel: • Welche ist die häufigste Größe in eurer Klasse? • Erscheint dir dein wöchentliches Taschengeld normal, verglichen mit dem deiner KlassenkameradInnen? • Wieviele von euch betreiben oft Sport? Wieviele essen Frühstück bevor sie in die Schule kommen? • Welche Nahrungsmittel konsumiert ihr öfter: Früchte, Milch, Kaffee, Fisch . . . ? Wir werden festellen wie wir durch die Auswertung der Antworten aus der Meinungsumfrage, all die oben gestellten Fragen beantworten können. Bis zum Ende des Kapitels haben wir sicher all die Antworten, aber zuerst wollen wir die Konzepte die ihr brauchen werdet vorstellen. 1.3 Grundgesamtheit und Stichprobe Bevor wir all die Fragen beantworten können, müssen wir noch einige Dinge klären. Über wen wollen wir Informationen bekommen? Wir haben schon festgehalten, dass wir Dinge über die SchülerInnen eurer Schulstufe erfahren wollen. Also wird unsere Grundgesamtheit nicht nur aus den SchülerInnen eurer Klasse, sondern aus allen SchülerInnen eurer Schulstufe bestehen. Es würde jedoch zu lange dauern, alle SchülerInnen dieser Schulstufe zu befragen. Daher haben wir uns entschieden eine repräsentative Gruppe aus all den Klassen eurer Schulstufe zu nehmen, das ist in diesem Fall eure Klasse. Ihr seid daher die so genannte Stichprobe. Weiters wird jedes einzelne Mitglied der Grundgesamtheit als Untersuchungselement bezeichnet. Vielleicht sollten wir noch ein paar Anmerkungen zu dem Gesagten machen. Erstens, manchmal möchte man vielleicht Eigenschaften von Tieren, Pflanzen, Dingen, z.B. die Lebensdauer von Batterien in Mobiltelefonen untersuchen. In diesem Falle ist die Grundgesamtheit nicht ”menschlich”, sondern ”sachlich”, sie besteht nämlich aus den verschiedenen Arten von Mobiltelefonen. Weiters gibt es Situationen, in denen die Verwendung von Stichproben aus verschiedenen Gründen noch mehr gerechtfertigt ist als in unserem Fall. Wenn wir z.B. das Wahlergebnis der Spanier wissen wollen, können wir nicht alle Spanier über 18 befragen, da dies Millionen von Menschen wären und das würde eine Menge an Zeit und Geld in Anspruch nehmen. Oder, um die durschnittliche Lebensdauer von Glühbirnen zu untersuchen, können wir nicht alle Glühbirnen überprüfen, da jede Überprüfung das Zerstören einer Glühbirne bedeutet. Dies ist ein Beispiel für Situationen in denen die Stichprobenerhebung mit der Zerstörung eines Untersuchungselementes verbunden ist. Insgesamt gesehen ist die Stichprobenerhebung daher in vielen Situationen durch den Zeitfaktor, das Geld oder aus Gründen der Zerstörung des Untersuchungselementes gerechtfertigt. Aufgabe 1.3.1 In Andalusien wurde 2001 eine Umfrage zur Auswahl von Universitätsstudien durchgeführt, um herauszufinden was die 65.356 MaturantInnen studieren wollten und warum. Um das zu bekommen, wurden die Daten von 8500 MaturantInnen von ganz Andalusien gesammelt. Kannst du erklären was die Grundgesamtheit und was die Stichprobe in diesem Beispiel ist? Was sind die Gründe dafür hier eine Stichprobe zu verwenden? 4 1.4 Arten von statistischen Variablen: quantitative (diskrete und stetige) und qualitative Bevor wir unsere Fragen richtig beantworten können, müssen wir zuerst entscheiden, welche Methode wir für unsere Daten verwenden wollen. Dabei ist zu beachten, dass nicht alle Daten die wir sammeln können die gleiche Art von Daten sind. Wir können uns zum Beispiel die Antworten zu den drei folgenden Fragen unsere Umfrage überlegen: 1. Die Antwort zu der Frage nach dem Geschlecht (männlich oder weiblich). 2. Die Antwort zu der Frage nach der Anzahl der Geschwister. 3. Die Antwort zu der Frage nach der Größe. Was uns als erstes auffällt ist, dass die Antwort zu der ersten Frage nicht numerisch ist, während die Antworten zu den beiden anderen Fragen numerisch sind. Die Eigenschaft, welche auf die erste Antwort zutrifft, nennt man qualitativ während jene die auf die Antworten zwei und drei zutrifft als quantitativ bezeichnet wird. Daraus ist leicht ersichtlich, dass quantitative Variablen Vorgehensweisen erlauben, die mit qualitativen Eigenschaften nicht möglich sind. Wir sagen Kategorien zu den verschiedenen Möglichkeiten von qualitativen Variablen und Werte zu jenen der quantitativen Variablen. Schauen wir uns jetzt den Unterschied zwischen den Variablen aus Antwort 2 und Antwort 3 an, da dieser schon etwas komplizierter ist. Die Variable Anzahl von Geschwistern wird in numersichen Werten ausgedrückt, die wir als ”isoliert” bezeichnen können, 0,1,2,3,. . . , aber sie können keinen Wert dazwischen annehmen, z.B. den Wert 3.5. Dies trifft jedoch nicht auf die Variable Größe zu. In der Tat kann die Größe jeden beliebigen Wert in einem bestimmten Bereich annehmen, wir können die Größe so genau messen wie wir wollen. Wir können also zusammenfassen, dass die Größe jeden Wert innerhalb eines bestimmten Intervalls haben kann. Daher wird die Variable in der Frage 2 als diskret und die Variable in Frage 3 als stetig bezeichnet. Aufgabe 1.4.1 Entscheide ob folgende Variablen qualitativ oder quantitativ sind und wenn sie quantitativ sind, ob sie diskret oder stetig sind. 1. Die Anzahl der an einem Tag geborenen Kinder. 2. Die Blutgruppe einer Person. 3. Die Zeit die man braucht um ein Problem zu lösen. 4. Die Anzahl der Fragen bei einer Prüfung. 5. Die Körpertemperatur einer Person. 6. Die politische Partei die bei den letzten Wahlen gewählt wurde. 7. Die Anzahl der Tore die von einem Spieler in einer Saison geschossen wurden. 5 1.5 Häufigkeitstabellen: absolute, relative und prozentuelle Häufigkeit Es ist jetzt an der Zeit die Daten die wir in unserer Meinungsumfrage erhalten haben aufzubereiten. Die Daten die wir zur Anzahl der Geschwister haben sind: 013201011223121111004231212110 während wir für das Gewicht folgende haben: 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 Wir können eine Menge an Fragen aufstellen: Wie viele meiner KlassenkameradInnen haben die gleiche Anzahl an Geschwistern wie ich? Wie viele davon haben mehr oder weniger als ich? Wieviele meiner KlassenkameradInnen wiegen mehr, bzw. weniger als ich? Um diese Fragen zu beantworten, müssten wir zählen, wie oft jede Antwort vorkommt. Beginnen wir mit der Anzahl der Geschwister: 0 1 2 3 4 ||||| | → 6 ||||| ||||| ||| → 13 ||||| || → 7 ||| → 3 |→1 Wir wissen jetzt, dass es 13 Personen mit 1 Bruder/Schwester gibt. Diese Zahl wird absolute Häufigkeit genannt und wir notieren sie mit ni . Wieviele Personen haben nun höchstens 1 Bruder/Schwester? In unserem Falle sind die Personen die 0 oder 1 Bruder/Schwester haben, 6 + 13 = 19. Diese Zahl wird kumulative absolute Häufigkeit genannt und wir notieren sie mit Ni . Wir können jetzt eine Tabelle mit kumulativen und absoluten Häufigkeiten aufstellen: Anz. Geschwister 0 1 2 3 4 absolute H. 6 13 7 3 1 kum. absolute H. 6 13 + 6 = 19 13 + 6 + 7 = 26 13 + 6 + 7 + 3 = 29 13 + 6 + 7 + 3 + 1 = 30 Es ist wichtig die Werte der Variable in der Reihenfolge von der niedrigste zur höchsten anzuordnen, wenn wir die kumulative Häufigkeit auf die richtige Art berechnen wollen. Wir werden jetzt noch andere Arten von Häufigkeiten bestimmen, da es interessant ist das Verhältnis zur Gesamtmenge zu wissen. Dieses können wir nämlich in ganzen Zahlen angeben um dann leichter mit anderen Grundgesamtheiten vergleichen zu können. In unserem Fall gibt es 6 SchülerInnen die 0 Geschwister haben. Aber wir haben auch eine Gruppe von 50 Personen befragt und wir wissen, dass es in jener 9 Personen mit 0 Geschwistern gibt. In welcher dieser zwei Gruppen gibt es nun einen größeren Anteil an Personen mit 0 Geschwistern? Es ist leicht erkennbar, dass die Verhältnisse so aussehen: 6 9 = 0.2 und = 0.18 30 50 Offensichtlich ist also der Anteil in unserer Gruppe mit 30 Personen höher. Dieses Verhältnis wird relative Häufigkeit genannt und wir notieren sie mit fi . Wenn wir sie in Prozent ausdrücken (mit 100 multiplizieren) erhalten wir die prozentuelle Häufigkeit, die in unserem Falle 20% bzw. 18% ist. Wir notieren diese prozentuelle Häufigkeit mit pi . Wir fügen jetzt alle diese Häufigkeiten zu unserer Tabelle von vorher dazu 6 und erhalten folgende Zusammenstellung: Geschwister 0 1 2 3 4 absolute H. 6 13 7 3 1 relative H. 6 30 = 0.2 13 30 = 0.43̇ 7 30 = 0.23̇ 3 30 = 0.1 1 30 = 0.3̇ prozentuelle H. 20% 43.3̇% 23.3̇% 10% 3.3̇% kum. absolute H. 6 13 + 6 = 19 13 + 6 + 7 = 26 13 + 6 + 7 + 3 = 29 13 + 6 + 7 + 3 + 1 = 30 kum. relative H. 0.2 0.63̇ 0.86̇ 0.96̇ 1 Wir wollen uns jetzt die Gewichtsdaten ansehen und zählen dafür die verschiedenen Werte: 46 47 49 50 52 53 54 55 57 58 59 60 62 63 66 67 68 69 70 72 74 75 77 80 82 |→1 |→1 |→1 || → 2 ||| → 3 |→1 || → 2 |→1 |→1 |→1 |→1 |→1 |→1 |→1 |→1 || → 2 |→1 |→1 |→1 |→1 |→1 |→1 |→1 |→1 |→1 Wie wir sehen haben die meisten Werte die Häufigkeit 1 und unsere Variable hat 25 verschiedene Werte. Das sind zu viele verschiedene Werte um sie in einer Tabelle darzustellen. Wie können wir also eine anschaulichere Darstellung der Verteilung dieser Daten bekommen? Es erscheint logisch, ähnliche Daten in Intervalle zu gruppieren. Es gibt eine eigene Theorie darüber wie man Daten richtig gruppieren soll, wir wollen uns die wichtigsten Punkte kurz ansehen: • Die Anzahl der Klassen/Gruppen soll weder zu hoch (zwischen 6 − 8 liegt die maximale Anzahl mit der man normalerweise arbeitet) noch zu niedrig (es macht keinen Sinn in 2 oder 3 Klassen einzuteilen, da wir dadurch zu viel an Information verlieren) sein. 7 • Abgesehen von den extremen Klassen sollten alle Intervalle die gleiche Breite haben, da sonst Informationen misinterpretiert werden können. Könnt ihr euch vorstellen welche Intervalle wir suchen? Ihr könnt z.B. an die Anzahl von Klassen denken, die ihr haben wollt. Wir wollen festhalten, dass zwischen dem höchsten Wert (82) und dem niedrigsten Wert (46) ein Unterschied von 36kg ist. Wenn wir also z.B. in 6 Klassen einteilen wollen, sollte die Breite des Intervalls 36 6 = 6 sein. Also erhalten wir die folgenden Intervalle: [46,52],(52,58], (58,64], (64,70], (76,82].Wir erhalten somit eine mögliche Klassifizierung obwohl es natürlich noch viele mehr gibt. In manchen Analysen findet man die Angabe, dass das erste Intervall ”kleiner als 52” und das letzte Intervall ”größer als 76” sein soll. Hat man sich einmal für eine Einteilung entschieden, kann man die Häufigkeiten berechnen: Gewicht [46,52] (52,58] (58,64] (64,70] (70,76] (76,82] absolute H. 8 6 4 6 3 3 relative H. 0.26̇ 0.2 0.13̇ 0.2 0.1 0.1 prozentuelle H. 26.6̇% 20% 13.3̇% 20% 10% 10% kum. absolute H. 8 14 18 24 27 30 kum. relative H. 0.26̇ 0.46̇ 0.6 0.8 0.9 1 Weiters, wenn wir mit gruppierten Daten arbeiten, brauchen wir einen Vertreter jedes Intervalls und wir nennen jenen Klassenmarke. Dieser ist die Klassen/Intervallsmitte (niedrigstes Extrem eines Intervals plus höchstes Extrem, dividiert durch 2). Aufgabe 1.5.1 Erstelle die Häufigkeitstabelle zur Variable ”Antworten zur Frage 1.3” und zu den Antworten zu der Frage nach der Größe. Bevor du beginnst, entscheide ob es notwendig ist die Daten in Intervalle einzuteilen oder nicht. 1.6 Graphische Methoden Wenn wir die Häufigkeitstabellen erstellt haben, könnte euer Lehrer euch ja auch fragen, eure Ergebnisse dem Rest der Klasse zu präsentieren. Ihr könnt eure Tabellen zeigen und über die wichtigsten Ergebnisse sprechen, aber gibt es da nicht eine Möglichkeit die Daten so zu präsentieren, dass die wichtigsten Ergebnisse auf anschauliche Art sichtbar werden? Wie ihr euch denken könnt ist die Antwort zu dieser Frage ja. Vielleicht habt ihr in Büchern oder in den Medien schon gesehen, dass solche Daten für gewöhnlich graphisch dargestellt sind, um sie attraktiver für die Betrachter und besser interpretierbar zu machen. In diesem Abschnitt wollen wir alle Arten von Diagrammen besprechen und hervorheben, wie wichtig die richtige Wahl der graphischen Darstellung ist, abhängig von der Art der Daten mit denen wir arbeiten. Da wir nun die Häufigkeitstabellen zu den Variablen Gewicht und Anzahl an Geschwistern haben, werden wir diese verwenden um die verschiedenen Diagramme vorzustellen. 1.6.1 Balkendiagramm Die erste Art von Diagramm die wir uns näher ansehen wollen ist das Balkendiagramm. Dieses Diagramm 8 wird für qualitative, sowie für diskrete, in Intervalle gruppierte Variablen verwendet. Wir wissen bereits, dass unsere Daten über die Anzahl der Geschwister eine diskrete Variable ist, also versuchen wir daraus ein Balkendiagramm zu erstellen. Auf der x-Achse haben wir die Kategorien, wenn wir mit qualitativen Variablen bzw. in unserem Fall mit diskreten Variablen arbeiten und jene sind hier 0, 1, 2, 3 und 4. Über jeden dieser Werte zeichnen wir ein Rechteck bzw. einen Balken von gleicher Breite und mit einer Höhe proportional zu der dazugehörigen Häufigkeit. In unserem Falle sollten wir so ein Balkendiagramm bekommen: Abbildung 1.1: Geschwister (vertikale Balken) Manchmal wird dieses Diagramm auch mit horizontalen Balken gezeichnet, was dann so aussieht: Abbildung 1.2: Geschwister (horizontale Balken) 1.6.2 Histogramm Ein Histogramm ist ein Diagramm das dem Balkendiagramm sehr ähnlich ist, dieses wird für in Intervalle gruppierte Variablen verwendet. Wir wollen ein Histogramm für die Variable Gewicht erstellen. Wie beim Balkendiagramm haben wir auf der x-Achse die Intervalle und über jenen ein Rechteck welches die gleiche Breite hat wie das Intervall. Die Höhe wird so gewählt, dass die Fläche des Rechteckes proportional zur Häufigkeit des Intervalls ist. In diesem Diagramm sind die Flächen der Rechtecke sehr wichtig, da wir es 9 nicht mit einem Balken zu tun haben bei dem die Höhe einen bestimmten Wert anzeigt, sondern die Breite des Balken repräsentiert das Intervall. Haben unsere Intervalle also die gleiche Breite, sollte die Höhe die Häufigkeit sein. Haben sie nicht die gleiche Breite, müssen wir die Höhe ändern um das Verhältnis zwischen Häufigkeit und Fläche zu erhalten. Unser Histogramm für die schon gruppierte Variable Gewicht ist also: Abbildung 1.3: Gewicht (Histogramm) Auch hier können horizontale Rechtecke verwendet werden: Abbildung 1.4: Gewicht (Histogramm) Bestimmt habt ihr in den Medien schon einmal eine Bevölkerungspyramide gesehen. Vielleicht bemerkt ihr jetzt, dass diese Pyramide eigentlich aus zwei horizontalen Histogrammen besteht (eines für Frauen und eines für Männer), in denen die Anzahl der EinwohnerInnen, gruppiert nach dem Alter, wiedergegeben wird. 1.6.3 Häufigkeitspolygon Die nächste Art von Diagramm die wir uns ansehen wollen, ist das Häufigkeitspolygon. Es wird verwendet wenn man quantitative Variablen hat, diskrete oder stetige. Um es zeichnen zu können, starten wir vom Histogramm oder vom Balkendiagramm, je nachdem ob wir eine gruppierte oder nicht gruppierte Variable 10 haben. Mit einer Linie verbinden wir nun die Mittelpunkte der oberen Grenzen im Balkendiagramm oder im Histogramm. Für unser Beispiel über die Anzahl der Geschwister, erhalten wir folgendes Diagramm: Abbildung 1.5: Geschwister (Häufigkeitspolygon) Im Falle des Gewichtes ist es etwas anders. Hier repräsentiert die Fläche unter der Linie die Daten die wir haben, wie beim Histogramm, da wir von der ganzen Breite der Intervalle sprechen. Das Diagramm sieht folgendermaßen aus: Abbildung 1.6: Gewicht (Häufigkeitspolygon) Alle bisher besprochenen Diagramme können auch für relative und kumulative Häufigkeiten gezeichneverwendett werden. 1.6.4 Kreisdiagramm Die nächste Art von Diagramm ist eine der bekanntesten, das Kreisdiagramm. In einem Kreisdiagramm ordnen wir jeder Kateogrie oder jedem Wert einen Teil eines Kreises zu, und zwar so, dass die Fläche eines solchen Kreissegmentes proportional zur Häufigkeit sein soll. Dieses Diagramm wird normalerweise für qualitative Variablen und nicht für gruppierte, diskrete Variablen verwendet. 11 Abbildung 1.7: Geschwister (Kreisdiagramm) 1.6.5 Piktogramm Wir kommen hier zu einem Diagramm das sehr häufig in den Medien verwendet wird, das sogenannte Piktogramm. Es handelt sich hier um Diagramme, wo ein Symbol welches die Variable widerspiegeln soll verwendet wird um die Häufigkeiten auszudrücken. Wieder müssen wir etwas wichtiges hervorheben: die Größe (und nicht nur die Höhe) muss proportional zu der Häufigkeit sein die wir aufzeigen wollen. Es ist auch üblich die Häufigkeit dazu zu schreiben um Missverständnisse zu verhindern. 1.6.6 Stengel-Blatt-Diagramm Es gibt eine Art der Darstellung, die zwischen einem Diagramm und einer Datenaufzählung liegt, das Stengl-Blatt-Diagramm. Wir werden uns dieses jetzt am Beispiel des Gewichtes ansehen. Wir erinnern uns an die Daten: 52 66 54 70 46 62 59 68 49 50 77 57 63 67 58 54 52 47 74 72 80 82 60 75 53 55 69 67 50 52 Was wir bei einem Stengel-Blatt-Diagramm als erstes machen müssen, ist die Zehnerschritte unserer Daten in eine Spalte zu schreiben. In unserem Fall, da unsere Werte zwischen 46 und 82 liegen, müssen wir 4, 5, 6, 7 und 8 folgendermaßen aufschreiben: 4 5 6 7 8 Als nächstes nehmen wir den ersten Wert aus unserer Datenaufzählung, 52, und schreiben die erste Stelle der Zahl neben die dazugehörige Zehnerzahl: 12 4 5 2 6 7 8 Wir plazieren also alle ersten Stellen neben die dazugehörigen Zehnerstellen und erhalten folgendes: 4 697 5 249078423502 6 62837097 7 07425 8 02 Ihr werdet bemerken, dass wir etwas ähnliches (aber nicht gleiches) wie ein Balkendiagramm oder ein Histogramm vor uns haben. Offensichtlich könnten wir unser Stengl-Blatt-Diagramm ja auch vertikal machen und würden in etwa so etwas herausbekommen: 2 0 5 3 2 7 4 9 8 0 7 7 5 0 3 2 7 9 8 4 9 4 2 7 2 6 2 6 0 0 4 5 6 7 8 es sieht aus wie ein Histogramm oder ein Balkendiagramm, ist es jedoch nicht. Aber das Stengl-BlattDiagramm kann als eine Annäherung zur Verteilung der Daten angesehen werden. Eigentlich haben wir ja nur in Zehnerschritten unterschieden (von 40 bis 49, von 50 bis 59, . . . ). Wir könnten aber noch weiter unterteilen, in Fünferschritte (von 40 bis 44, von 45 bis 49, von 50 bis 54,. . . und müssten nun jede Zehnerzahl zweimal aufschreiben, wobei zur ersten Zehnerzahl die einstelligen Zahlen von 0 bis 4 und zur zweiten jene von 5 bis 9 dazu geschrieben werden. In unserem Fall und in horizontaler Form, wuürde das so aussehen: 4 4 697 5 24042302 5 9785 6 230 6 68797 7 042 7 75 8 02 8 13 1.6.7 Einige Anmerkungen Stellt euch vor ihr seht die folgenden zwei Diagramme, die die Gewinne eines Betriebes widerspiegeln sollen. Welchen von den zwei Betrieben würdet ihr als euren Betrieb auswählen? Abbildung 1.8: Gewinne (Betrieb 1 und Betrieb 2) Die meisten von euch werden vermutlich Betrieb 2 wählen, da ihr sicher zustimmt, dass dieser besser ist als Betrieb 1. In der Tat haben die zwei Diagramme aber genau die gleichen Daten, wir haben nur die Skalierung der y-Achse verändert. Daher einige Anmerkungen bevor wir mit dem nächsten Abschnitt beginnen. Diagramme sind ein wichtiges Instrument um Schlüsse aus unseren Daten zu ziehen, aber wir müssen sie auf die richtige Art und Weise zeichnen, um Missdeutungen zu vermeiden. Es ist wichtig die Proportionen in unserer Abbildung richtig einzuhalten, so dass die Skalen der Achsen auch im richtigen Verhältnis stehen. Kleine Änderungen an den Skalen können große Unterschiede im Erscheinungsbild verursachen und die Diagramme können dann auch leicht missverstanden werden. 1.7 Zentralmaße: arithmetisches Mittel, Median, Modus, Quantil Nehmen wir an, wir wollen mit unserer Klasse einen Ausflug machen und wollen dafür etwas Geld sammeln. Wir haben uns daher entschieden T-Shirts zu verkaufen, aber wir wissen nicht was ein angemessener Preis dafür wäre. Das einzige was wir wissen ist, dass wir für ein T-Shirt 4 Euro zahlen. Wir würden natürlich gerne Gewinn daraus machen, aber wir können die Preise auch nicht zu hoch ansetzen, da wir ja wollen dass so viele Leute wie möglich unsere T-Shirts kaufen. Wir glauben das wöchentliche Taschengeld ist ein guter Indikator dafür wieviel sich SchülerInnen leisten können. Also werden wir als Daten das wöchentliche Taschengeld hernehmen, das wir ja schon erfragt haben: 6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9 Wir haben 30 Werte, aber wir brauchen nur einen Wert um alle diese darzustellen. Welchen Wert können wir nehmen? Eine erste Lösung wäre, einen Wert zu nehmen, der in der Mitte von allen Daten die wir haben liegt. Um jenen zu bekommen, zählen wir alle Zahlen zusammen und dividieren sie durch die Gesamtanzahl der Werte: 14 x= 6 + 8 + 10 + 5 + 15 + 20 + 9 + 10 + 9 + 9 + 20 + 15 + 12 + 6 + 15 + 12 + 10 + 25 + 30 20 + 30 + 15 + 12 + 9 + 20 + 6 + 9 + 10 + 25 + 9 + 9 390 = = 13 30 30 So erhalten wir also den ersten möglichen Preis pro T-shirt, 13 Euro. Die Zahl die wir gerade berechnet haben nennt sich arithmetisches Mittel. Aber es gibt auch noch andere Möglichkeiten um unsere Daten zu repräsentieren, wir können zum Beispiel den Wert nehmen, der am öftesten vorkommt. In unserem Beispiel ist der Wert der am öftesten vorkommt 9, was auch eine gute Wahl für einen Preis sein könnte. Den Wert der am öftesten vorkommt nennen wir Modus. Aber keine dieser beiden Zahlen die wir jetzt errechnet haben sagt aus, wieviele Personen sich so ein T-Shirt leisten können. Also haben wir eine neue Idee, wir können die Daten die wir haben ja der Größe nach sortieren: 5 6 6 6 8 9 9 9 9 9 9 9 10 10 10 10 12 12 12 15 15 15 15 20 20 20 20 25 25 30 Jetzt wollen wir den Wert finden, der die Hälfte der Daten auf jeder Seite übrig lässt. Der Wert zwischen dem 15. und den 16. Platz lässt genau 14 Werte auf jeder Seite. Da Nummer 15 und 16 beide die gleiche Zahl haben, nämlich 10, können wir also annehmen dass 10 der Wert ist, der die Hälfte der Daten auf jeder Seite lässt. Diese Zahl wird Median genannt. Genau so wie wir einen Wert vorgeschlagen haben der 50% der Daten auf jeder Seite lässt, können wir auch einen Wert suchen, der von 75% der Klasse leistbar ist. Wir wollen also einen Wert finden, der 25% auf der linken Seite lässt (das heisst, dass nur 25% der Daten niedriger sind als dieser Wert), oder einen beliebigen anderen Prozensatz. Diese Zahl wird Quantil genannt. Wir können jetzt irgendeinen dieser drei Werte nehmen, abhängig davon was wir im jeweiligen Fall vorgeben wollen bzw. welcher Wert unsere Daten am besten repräsentiert. Diese drei Werte sind nicht immer für jeden Fall gültig, sie können uns aber helfen herauszufinden wo das Zentrum einer Verteilung ist. Dieses sind die wichtigsten Vertreter der Zentralmaße. Wir werden jetzt auf formale Weise die oben eingeführten Konzepte definieren. Von jetzt an sprechen wir von Variablen. Nehmen wir an, wir haben eine Variable bei n Untersuchungselementen beobachtet und wir haben k verschiedene Werte erhalten x1 , x2 , . . . xk , jeder davon mit einer Häufigkeit von n1 , n2 , . . . nk wobei ni die absolutePHäufigkeit des Wertes xi ist. Wir notieren die kumulative, absolute Häufigkeit des Wertes xi mit ni Ni = j≤i nj und die relative Häufigkeit mit fi = n . Wenn die Werte der Variablen gruppiert sind, können wir annehmen, dass wir h Intervalle haben und wir können dies folgendermaßen notieren: + (L0 , L1 ], (L1 , L2 ], . . . (Lh−1 , Lh ] und die Klassenmarken sind c1 , c2 , . . . ch . In diesem Fall wird die absolute Häufigkeit mit n1 , n2 , . . . , nh , die kumulative, absolute Häufigkeit mit N1 , N2 , . . . , Nh = n und die relative Häufigkeit mit f1 , f2 , . . . , fh bezeichnet. Daraus folgt, dass das arithmetische Mittel, für nicht gruppierte Variablen, folgendermaßen definiert wird: Pn xi ni x = i=1 n Wenn wir eine gruppierte Variable haben, verwenden wir die Klassenmarken ci statt den Werten xi . Die wichtigsten Merkmale des arithmetischen Mittel sind: • Es ist der Schwerpunkt der Verteilung und es ist einzigartig. 15 • Wenn wir Extremwerte haben, oder wenig repräsentative Werte (zu große oder zu kleine), dann ist das arithmetische Mittel nicht repräsentativ. • Es macht keinen Sinn das arithmetische Mittel für qualitative Variablen zu ermittlen, oder wenn wir gruppierte Daten haben und irgendeines der Intervalle nicht begrenzt ist. • Für gruppierte Daten verwenden wir die Klassenmarke von jedem Intervall um das arithmetische Mittel zu berechnen. Weiters hat das arithmetische Mittel folgende Eigenschaften: • Wenn eine Konstante zu jedem Wert addiert wird, ist auch das arithemtische Mittel um diese Konstante erhöht. • Wenn wir alle Werte mit einer Konstanten multiplizieren, wird auch das Mittel mit der gleichen Konstante multipliziert. Der Modus wird gewöhnlich als der häufigste Wert bezeichnet. Im Falle einer nicht gruppierten Variable ist es der Wert, der am öftesten vorkommt. Bei Variablen die in Intervalle der gleichen Breite gruppiert sind, brauchen wir das Intervall mit der höchsten Häufigkeit (Modalintervall) und die Annäherung an den Modus wird durch die folgende Formel erreicht: M o = Li−1 + ni − ni−1 · ci (ni − ni−1 ) + (ni − ni+1 ) wo: Li−1 die untere Grenze des Modalintervalls ist. ni ist die absolute Häufigkeit des Modalintervalls. ni−1 is die absolute Häufigkeit des vorangehenden Intervalls zum Modalintervall. ni+1 ist die absolute Häufigkeit des nachfolgenden Intervalls nach dem Modalintervall. ci ist die Breite des Intervalls. Der Modus verifiziert, dass: • Man kann mehr als einen Modus für eine Verteilung haben, dann sprechen wir von einer bimodalen, trimodalen . . . Verteilung, abhängig von der Anzahl an Werten, welche die höchste Häufigkeit aufweisen. • Der Modus ist für gewöhnlich der schlechtere Repräsentant im Vergleich zum arithmetischen Mittel, außer bei qualitativen Daten. • Wenn wir Intervalle mit verschiedenen Breiten haben, müssen wir jenes Intervall suchen, mit der höchsten Häufigkeitsdichte (normalerweise ist das der Fall wenn wir die absolute Häufigkeit durch die Breite der Intervalle dividieren ncii ) und dann verwenden wir die vorangegangene Formel. Der Median ist im Falle von nicht gruppierten Variablen und nachdem wir unsere Daten der Reihe nach geordnet haben, der zentrale Wert bei einer ungeraden Anzahl an Daten und das Mittel der zwei zentralen Werte wenn wir eine gerade Anzahl an Daten haben. Wenn wir eine gruppierte Variable haben, müssen wir nach dem zentralen Intervall suchen (jenes in dem wir den zentralen Wert finden können), das heisst jenes, wo Ni zum ersten Mal größer als n2 ist. Dann können wir die folgende Formel anwenden: 16 M e = Li−1 + n 2 − Ni−1 · ci ni wobei Li−1 die untere Grenze des Intervalls ist. ni ist die absolute Häufigkeit des zentralen Intervalls. Ni−1 ist die kumulative, absolute Häufigkeit des Intervalls vor dem zentralen Intervall. n ist die Anzahl der Daten ci ist die Breite des Intervalls. Weiters ist das Quantil ein Lagemaß, welches das Konzept des Medians verallgemeinert. Wir wollen jetzt die Konzepte von Centil oder Percentile, Quartile und Dezil definieren. Wir nehmen an, dass unsere Daten sortiert sind. Centil oder Percentil nennt man jene Werte der Variable, die auf der linken Seite eine konkrete Prozentzahl übrig lassen. Wir notieren sie mit Ph oder Ch , wobei h die Prozentzahl, h = 1, 2, . . . , 99. Wenn wir eine gruppierte Variable haben, müssen wir zuerst das Intervall finden in dem das Centil liegt und dann können wir folgende Formel anwenden: Ph = Ch = Li−1 + h· n 100 − Ni−1 · ci ni Die verschiedenen Elemente haben hier die gleiche Bedeutung wie beim Median. Das Quartil ist jener Wert, nachdem wir die Daten sortiert haben, der die Variable in 4 gleiche Gruppen unterteilt. Zwischen jeder davon finden wir 25% der Untersuchungselemente. Wir schreiben sie folgendermaßen auf: Q1 , Q2 und Q3 und sie verifizieren, dass Q1 = C25 , Q2 = C50 = M e, Q3 = C75 . Das Dezil ist jener Wert, nachdem wir die Daten sortiert haben, der die Daten in 10 gleiche Gruppen teilt, wobei zwischen jeweils 2 davon 10% der Untersuchungselemente sind. Wir schreiben sie folgendermaßen auf: D1 , D2 , D3 , . . . , D9 . Sie verifizieren, dass D1 = C10 , D2 = C20 , D3 = C30 , . . . D9 = C90 . Aufgabe 1.7.1 Berechnet für die Anzahl der Geschwister und für das Gewicht, das arithmetische Mittel, den Modus, den Median und die Quartile: Q1 , Q3 , C30 , C74 , D4 , D9 . 1.8 Streuungsmaße: Spannweite, Varianz, Standardabweichung Stellt euch vor wir haben 3 verschiedene Datensätze zum Gewicht von bestimmten Leuten und wir wissen, dass in allen in 3 Fällen, das arithmetische Mittel der Variable Gewicht 55 ist. Heißt das, dass die 3 Datensätze gleich oder ähnlich sind? Die Daten der 3 Sätze sind wie folgt: Satz 1: 55 55 55 55 55 55 55 Satz 2: 47 51 54 55 56 59 63 Satz 3: 39 47 53 55 57 63 71 Wir bemerken, dass obwohl das arithmetische Mittel gleich ist, die Datensätze sehr verschieden sind. Sehen wir uns ihre Stengl-Blatt-Diagramme an: 17 3 4 5 5 5 5 5 5 5 5 6 7 3 7 4 9 6 5 4 1 5 3 6 7 9 3 7 4 7 5 1 5 3 6 1 7 Wie können wir also diese Unterschiede zwischen den Datensätzen herausfinden? Offensichtlich können uns die Zentralmaße hier nicht genügend Informationen über die Entfernung zwischen dem arithmetischen Mittel und den Daten geben. Wir müssen uns daher mit dem Konzept der Streuung der Daten auseinandersetzen. Was uns als erstes auffällt ist, dass im ersten Datensatz alle Daten gleich sind, im zweiten gibt es größere Unterschiede zwischen dem höchsten und dem niedrigsten Wert und im dritten gibt es noch offensichtlichere Unterschiede. Genau gesagt haben wir: 55 − 55 = 0 63 − 47 = 16 71 − 39 = 32 Diese Unterschiede bezeichnet man als die Spannweite der Daten und diese ist offensichtlich ein sehr leicht zu berechnendes Maß. Sie wird allerdings nicht sehr oft verwendet, da sie nicht für jede Situation geeignet ist. Wenn wir z. B. einen extrem kleinen oder einen extrem großen Wert in unseren Daten haben, verändert sich die Spannweite beachtlich und kann daher manchmal nicht mehr ganz so aussagekräftig sein. Wie können wir also ein Maß finden, das uns eine Annäherung an die Entfernung zwischen den Daten und dem arithmetischen Mittel gibt? Wir können die Entfernungen von jedem Untersuchungselement zum arithmetischen Mittel (in absoluten Zahlen) berechnen und dann das Mittel dieser Entfernungen. Dies nenne wir mittlere Abweichung. Berechnen wir die mittlere Abweichung des 2. Datensatzes: |47 − 55| + |51 − 55| + |54 − 55| + |55 − 55| + |56 − 55| + |59 − 55| + |63 − 55| = 7 8+4+1+0+1+4+8 26 = = 3.714 7 7 Trotzdem verwenden wir normalerweise noch ein anderes Maß für die Streuung und zwar das Mittel der quadratischen Abweichung der Daten vom arithmetischen Mittel und erreichen damit, dass größere Abweichungen einen kleineren Einfluß haben. Wir werden uns jetzt die formale Definition dieser Konzepte ansehen. Die Spannweite ist die Differenz zwischen dem höchsten und dem niedrigsten Wert der Daten, wenn diese nicht gruppiert sind. Wenn wir eine gruppierte Variable haben, berechnen wir die Differenz zwischen der oberen Grenze des letzten Intervalls und der unteren Grenze des ersten Intervalls. Die Spannweite hängt nur von dem größten und dem kleinsten Element und nicht vom Rest der Daten ab. Wir können z.B. die folgenden zwei Datensätze mit der gleichen Spannweite haben: Es ist leicht zu erkennen, dass der Unterschied zwischen xk und x1 in beiden Situationen der gleiche ist, obwohl die zwei Datensätze verschieden sind. Die Interquartil-Spannweite ist der Unterschied zwischen des dritten und des ersten Quartils und wir bekommen eine Zone wo wir 50% der Verteilung finden. Die mittlere Abweichung ist das Mittel der Abweichungen der Daten vom arithmetischen Mittel. Wir nennen die Abweichungen vom Mittel, den absoluten Wert des Unterschiedes zwischen den Werten der Variable und dem arithmetischen Mittel (|xi − x|), daraus folgt folgende Definition der mittleren Abweichung: = 18 Abbildung 1.9: Spannweite Pk |xi − x| · ni n Dieses Maß wird nicht sehr oft verwendet, da es auf Grund der absoluten Betragsfunktion schwierig zu berechnen ist. Wie auch immer, eine kleine mittlere Abweichung bedeutet, dass die Daten sich dicht um den Mittelwert konzentrieren. Wir können auch die Median-Abweichung definieren, obwohl diese noch weniger gebräuchlich ist: i=1 DM = Pk |xi − M e| · ni n Die Varianz ist das Mittel der quadratischen Abweichungen der Daten vom Mittelwert. Wir bezeichnen sie mit S 2 und beschreiben sie wie folgt: D= 2 S = Pk i=1 (xi i=1 − x)2 · ni = n Pk x2i · ni − x2 n i=1 Die Varianz verifiziert: • Da wir die Quadrate der Abweichung nehmen, haben die größeren mehr Einfluß auf das Ergebnis. • Die Einheit des Maßes S 2 ist nicht die gleiche wie die in der Stichprobe, da wir mit quadratischen Zahlen der Abweichung arbeiten. • Die Varianz ist immer positiv. Sie ist 0, wenn alle Werte mit dem Mittelwert übereinstimmen. Wir definieren die Quasivarianz wie folgt: Pk − x)2 · ni n−1 n−1 2 2 der Zusammenhang mit der Varianz ist S = n s . Dies ist ein brauchbares Maß wenn wir mit Inferenzen arbeiten. Manchmal wird sie auch als Sc2 ausgedrückt. Die Standardabweichung ist die Quadratwurzel aus der Varianz. Wir bezeichnen sie mit S und berechnen sie wie folgt: s s Pk Pk q 2 2·n (x − x) i i=1 i i=1 xi · ni S=+ =+ − x2 = + x2 − x2 n n Ihre Hauptmerkmale sind: s2 = i=1 (xi 19 • Sie ist das häufigst verwendete Streuungsmaß. • Sie hat die gleiche Maßeinheit wie die Stichprobe. • Die Standardabweichung ist immer positiv oder 0. Weiters, Varianz und Standardabweichung verifizieren, dass: • Wenn wir alle Werte mit einer Konstanten addieren, bleiben die Varianz und die Standardabweichung gleich. • Wenn wir alle Werte mit einer positiven Konstante multiplizieren, wird die Varianz mit dem Quadrat der Konstante und die Standardabweichung mit der Konstante multipliziert. 1.9 1.9.1 Gemeinsame Verwendung von Mittelwert und Standardabweichung: Tchebicheff Theorem, Pearson’scher Variationskoeffizient, ”z-scores” Tchebicheff Theorem Wir haben bereits Maße gefunden die uns das Zentrum unserer Daten und ihre Streuung angeben, aber wir brauchen noch mehr Informationen. Erinnern wir uns noch einmal an die Daten über die Anzahl der Geschwister: Anz. Geschwister 0 1 2 3 4 absolute H. 6 13 7 3 1 also haben wir: x = 1.33333, S 2 = 1.022, S = 1.011 Wieviele Leute haben Geschwister um den Mittelwert? Gibt es viele SchülerInnen die 1 oder 2 Geschwister haben? Nehmen wir ein Intervall, welches um den Mittelwert kreist,(x − a, x + a). Wir wissen, dass Varianz und Standartabweichung die Streuung messen, also werden wir sie jetzt anwenden. Welche der zwei sollen wir verwenden? Wir verwerfen die Varianz, da wir sie nicht zum Mittelwert zählen können, da sie ja eine andere Maßeinheit hat. Nehmen wir also die Standardabweichung, a = S. Dann bekommen wir das Interval (1.3333 − 1.011, 1.3333 + 1.011) = (0.3223, 2.3443). Innerhalb dieses Intervalls finden wir die SchülerInnen mit 1 oder 2 Geschwistern. Das sind 20 von den 30 SchülerInnenn, d.h. 66% davon. Was würde passieren wenn wir 2S statt S verwenden? Dann bekommen wir das Intervall (1.3333−2.022, 1.3333+2.022) = (−0.6887, 3.3553). Innerhalb dieses Intervalls haben wir nun 29 von 30 SchülerInnenn, d.h. 96%. Folglich, wenn wir das Intervall mit 3S annehmen, finden wir alle Daten innerhalb 20 des Intervalls. Die nächste Frage lautet, passiert das immer? Sind diese Konzentrationen der Daten immer die gleichen? Schauen wir uns das Beispiel des wöchentlichen Taschengeldes an. Hier haben wir: x = 13, S 2 = 39.2, S = 6.26 Weiters, (13 − 6.26, 13 + 6.26) = (6.74, 19.26) (13 − 12.52, 13 + 12.52) = (0.48, 25.52) (13 − 18.78, 13 + 18.78) = (−5.78, 31.78) → → → beinhaltet 19 Daten (63%) beinhaltet 29 Daten (96%) beinhaltet 30 Daten (100%) Wir ihr sehen könnt bekommen wir ähnliche Ergebnisse. Dies basiert auf einem Theorem, welches sicherstellt, dass in diesen Intervallen ein bestimmter Prozentanteil der Daten vorkommt. Genauer gesagt, das Theorem besagt, dass wir in einem Intervall wie (x − aS, x − aS) mindestens 100(1 − a12 )% der Daten haben. Diese Aussage ist bekannt als das Tchebicheff Theorem. 1.9.2 Pearson’scher Variationskoeffizient Wir werden jetzt mit Daten über Höhe und Gewicht arbeiten. Für das Gewicht haben wir: x = 60.8, S 2 = 99.56, S = 9.97 x = 1.7133, S 2 = 0.0128, S = 0.1132 und für die Höhe haben wir: In welchem Fall haben wir mehr Streuung? Wir würden annehmen für das Gewicht, da die Varianz und die Standardabweichung größer sind. Aber was passiert, wenn wir das selbe für die Höhedaten in Zentimeter berechnen? x = 171.33, S 2 = 128.35, S = 11.32 Wenn wir die Frage jetzt wiederholen, was müssen wir dann antworten? In der Tat können wir weder Standardabweichung noch Varianz vergleichen, da beide wieder von der Einheit abhängig sind, so wie beim Mittel. Wir brauchen also ein dimensionsloses Maß. Bis jetzt wissen wir nur, dass das Mittel und die Standardabweichung die gleiche Maßeinheit haben, wie können wir also ein dimensionsloses Maß von ihnen bekommmen? Wir können sie teilen und bekommen dann den Pearson’schen Variationskoeffizient S x Wir können ihn für unsere Beispiele berechnen. Für das Gewicht haben wir CV = CV = 9.97 = 0.163 60.8 und für die Höhe 11.32 0.1132 = = 0.066 171.33 1.7133 daraus folgt, dass wir mehr Streuung bei dem Gewicht als bei der Höhe herausbekommen. CV = 21 1.9.3 ”z-scores” Wir haben jedoch immer noch mehr Informationen in unseren Daten enthalten. Stell dir vor deine Körpergröße ist 1.74m und du hast einen Freund in einer anderen Klasse mit genau der gleichen Größe. Welcher von euch zwei ist innerhalb seiner Klasse größer? Wie können wir die zwei Daten vergleichen, wenn wir nur wissen, dass das Mittel in der Klasse deines Freundes 1.708m ist und die Standardabweichung 12.53? Es gibt da eine Möglichkeit die beiden Daten zu vergleichbaren Werten zu verändern. Das ist was wir als ”z-scores” bezeichnen. Es wird berechnet indem wir die Differenz zwischen dem Wert und seinem Mittel nehmen und durch die Standardabweichung dividieren. Die zwei neuen Werte gehören dann zu einer Verteilung mit dem Mittel 0 und der Standardabweichung 1 und sind daher vergleichbar. In unserem Beispiel bekommen wir die folgenden ”z-scores” 1.74 − 1.7133 = 0.235 0.1132 1.74 − 1.708 z2 = = 0.255 0.1253 und wir schliessen daraus, dass dein Freund größer ist als du (jeder innerhalb seiner Klasse), da der z-Wert größer ist. Die Formel für die standardisierte Variable zu zi ist: z1 = zi = xi − x S 22 Kapitel 2 Analyse der Meinungsumfrage Wir wollen eine tiefergehende Analyse von einigen Aufgaben aus der Meinungsumfrage machen. Dazu haben wir folgende 3 Aufgaben gewählt: 2.1 Du rauchst 2.3 Du liest andere Bücher als Schulbücher 3.1 Du betreibst Sport außerhalb der Schule Die Daten die wir zu Frage 2.1. haben lauten: 135555511513315155555515154435 zu Frage 2.3. haben wir: 111222344413241213211121111224 und von 3.1: 313534213335512123512532415543 Als erstes werden wir die Häufigkeiten von allen 3 Fällen berechnen, um die Häufigkeitstabellen von allen zu bekommen. Für Frage 2.1. haben wir: Antwort (2.1) 1 2 3 4 5 abs. H. 8 0 4 2 16 rel. H. 0.26̇ 0 0.13̇ 0.06̇ 0.53̇ prozent. H. 26.6̇% 0% 13.3̇% 6.6̇% 53.3̇% Für die Frage 2.3 haben wir folgende Häufigkeitstabelle: 23 kum. abs. H. 8 8 12 14 30 kum. rel. H. 0.26̇ 0.26̇ 0.4 0.46̇ 1 Antwort (2.3) 1 2 3 4 5 abs. H. 13 9 3 5 0 rel. H. 0.43̇ 0.3 0.1 0.16̇ 0 prozent. H. 43.3̇% 30% 10% 16.6̇% 0% kum. abs. H. 13 22 25 30 30 kum. rel. H. 0.53̇ 0.73̇ 0.83̇ 1 1 prozent. H. 20% 1.66̇% 30% 10% 23.3̇% kum. abs. H. 6 11 20 23 30 kum. rel. H. 0.2 0.36̇ 0.6̇ 0.76̇ 1 und schließlich, die Häufigkeitstabelle für 3.1.: Antwort (3.1) 1 2 3 4 5 abs. H. 6 5 9 3 7 rel. H. 0.2 0.16̇ 0.3 0.1 0.23̇ Bei Anbetracht der Daten in den Tabellen fällt uns auf, dass die drei Tabellen sehr unterschiedlich sind. Wir schauen uns jetzt graphisch an wie diese Variablen verteilt sind und dann können wir die ersten Schlüsse ziehen. Wie ihr feststellen könnt haben wir drei diskrete Variablen, also werden wir das Balkendiagramm und das Kreisdiagramm verwenden. Hier sind die Diagramme für die Frage 2.1 Abbildung 2.1: Antworten zu Frage 2.1 Schauen wir uns jetzt die Diagramme zu Frage 2.3 an: und hier haben wir jene für Frage 3.1 24 Abbildung 2.2: Antworten zu Frage 2.3 Abbildung 2.3: Antworten zu Frage 3.1 Jetzt können wir über die ersten Schlussfolgerungen sprechen. Es ist ziemlich offensichtlich, dass für Frage 2.1. die häufigsten Werte die extremen Werte sind, d.h. 1 und 5. Das ergibt sich daraus, dass man dazu tendiert entweder nicht zu rauchen, was mit der Nummer 1 belegt ist oder zu rauchen, was mit der Nummer 5 belegt ist. Wie auch immer, die meisten Daten sind bei den höheren Werten (3,4 und 5) angesiedlet. Im Gegensatz dazu können wir sehen, dass in Frage 2.3 häufigsten Werte die niedrigeren sind. Wir können also sagen, dass lesen nicht ein sehr populäres Hobby ist. Die dritte Frage ist etwas mehr verstreut über alle Werte. Es ist auch interessant, sich in diesem Beispiel ein Balkendiagramm mit der kumulativen, absoluten Häufigkeit zu zeichnen. Wir zeigen euch die drei Diagramme, wo ihr sehen könnt, dass die Häufigkeiten am gleichmäßigsten ansteigend im dritten Fall verteilt sind: Jetzt werden wir was wir bisher gesagt haben, durch die Berechnung der wichtigsten Zentralmaße bestätigen und in Tabellenform darstellen, um das Vergleichen zu vereinfachen: 25 Abbildung 2.4: Kumulative Balkendiagramme Q. 2.1 Q. 2.3 Q. 3.1 Mittel 3.6 2 3 Median 5 2 3 Modus 5 1 3 Diese Tabelle gibt uns einige interessante Informationen. Es ist leicht zu erkennen, dass obwohl das Mittel für die 2.1 Frage 3,6 ist, die meisten Daten größer als das Mittel sind, da beide, der Median und der Modus 5 sind. Für Frage 2.3 ist die Situation ganz anders, wir sehen, dass die meisten Daten um den kleinsten Wert kreisen und auch der Modus ist der kleinste von allen dreien. In Frage 3.1 sehen wir, dass alle drei Werte gleich sind und daraus schließen wir, dass 3 die Zahl ist, die unsere Daten am besten repräsentiert. Berechnen wir jetzt die wichtigsten Streuungsmaße und versuchen wir dann damit heraus zu finden, welche Variable am meisten gestreut ist. Q. 2.1 Q. 2.3 Q. 3.1 Spannweite 4 3 4 Varianz 3 1.24 2.06 Standardabweichung 1.73 1.11 1.43 In unserem Beispiel ist die Spannweite nicht besonders relevant, da sich alle Antworten zwischen 1 und 26 5 bewegen. Das einzige was wir daraus erkennen können ist, dass in Frage 2.3, die Spannweite 3 (kleiner als die der anderen) ist und daher einer der Extremwerte (in diesem Falle 5) die Häufigkeit 0 hat. Aber, wir können das gleiche nicht für Frage 2.1 bemerken, obwohl die Häufigkeit für den Wert 2 auch 0 ist. Aus der Standardabweichung können wir schließen, dass die Antworten zu Frage 2.1 sehr gestreut sind. Dies ist wahr, da wir, wenn wir uns die Daten nocheinmal ansehen bemerken, dass die meisten davon Extremwerte sind, 1 oder 5. Die anderen zwei Variablen sind etwas mehr um das Mittel konzentriert, insbesondere die Antworten zu Frage 2.3. Lasst uns jetzt überprüfen, ob das Mittel für unsere Variablen repräsentativ ist. Wir müssen also den Variationskoeffizient für jeden der drei Fälle berechnen: Q. 2.1 Q. 2.3 Q. 3.1 Variationskoeffizient 0.48 0.55 0.47 Der Mittelwert ist also repräsentativ für die drei Fälle die wir untersuchen. 2.1 Schlussfolgerungen In diesem letzten Abschnitt der Analyse, müssen wir die Bedeutung der Daten die wir untersuchen hervorheben. Bis jetzt haben wir über statistische Merkmale gesprochen, aber wir dürfen nicht auf die Bedeutung unserer Ergebnisse für die Wirklichkeit vergessen. Wir haben herausgefunden, dass rauchen etwas sehr populäres unter jungen Leuten ist. Mehr als die Hälfte eurer Klasse sagt, dass sie täglich rauchen, aber nur 8 SchülerInnen sagen dass sie nie rauchen. Wenn wir die Häufigkeiten der SchülerInnen zusammenfassen, die zumindest manchmal rauchen, sehen wir dass dies 22 von euch sind, fast 3/4 der gesamten Klasse. Im Gegensatz dazu sind sehr wenige am Lesen interessiert. 22 von euch sagen, dass sie nie oder sehr selten ein anderes Buch als jene die sie für die Schule brauchen lesen. Das ist wohl einer der größten Gegensätze die wir in dieser Meinungsumfrage bekommen können. Keiner von euch sagt, dass er jeden Tag liest, nur 5 SchülerInnen sagen sie lesen manchmal. Sport ist das Mittel zwischen den drei Fällen. Die häufigste Antwort (sie ist auch der Mittelwert und der Median) ist ”manchmal”. Das kommt vermutlich daher, dass viele von euch am Wochenende Sport machen oder wenn das Wetter schön ist, während SchülerInnen die sehr oft Sport machen von denen die fast nie Sport betreiben ausgeglichen werden. 27 Kapitel 3 Zweidimensionale, beschreibende Statistik Im vorhergehenden Kapitel haben wir mit den Daten der Meinungsumfrage gearbeitet und erste Schlüsse daraus gezogen. Aber wir wollen noch mehr herausfinden und mit diversen Methoden, die wir uns jetzt ansehen werden, können wir noch mehr Informationen aus unseren Daten herausholen. Bevor wir jedoch beginnen, wollen wir die Ziele dieses Kapitels festhalten. 3.1 Ziele • Daten in Bezug auf zwei Variablen anhand einer Punktwolke darstellen und analysieren. • Einen Datensatz in Bezug auf zwei Variablen, gegeben in einer Tabelle oder als Punktwolke, als zweidimensionale Verteilung erkennen. • Den Zusammenhang zweier Variablen anhand ihrer Punktwolken analysieren und dabei durch Intuition feststellen, ob dieser Zusammenhang positiv oder negaitv ist, ob er funktional ist oder nicht und ob er sich im gegebenen Fall einer Linie annähert. • Globale Aufgaben von mehreren Verteilungen durch ihre Punktwolken vergleichen. • Gegebene Punktwolken verschiedenen Situationen zuordnen. • Den Zusammenhang verschiedener Mittelwerte durch ihre Punktwolken bestimmen. • Graphisch eine Linie finden, die zur Punktwolke passt. • Den Korrelationskoeffizienten einer Punktwolke schätzen. 28 • Den Grad eines Zusammenhanges zweier Variablen analysieren, wenn der Korrelationskoeffizient bekannt ist. • Den Korrelationskoeffizient einer zweidimensionalen Verteilung und die Regressionsgerade berechnen. • Aus der Regressionsgeraden Prognosen erstellen. 3.2 Das Beispiel: Eine Meinungsumfrage In diesem Kapitel wollen wir eine noch tiefergehende Analyse unserer Meinungsumfrage machen. Ausgehend von den bestehenden Informationen, wollen wir Fragen wie die folgenden beantworten: • Besteht ein Zusammenhang zwischen dem Taschengeld das ihr bekommt und der Anzahl eurer Geschwister? • Hat der Sport den ihr betreibt einen Einfluss darauf wieviel ihr raucht oder wieviel Alkohol ihr trinkt? • Können wir diese Zusammenhänge ganz genau messen? In diesem Kapitel werden wir versuchen diese Fragen zu beantworten und noch viele mehr. Jetzt wollen wir uns die Konzepte die wir zur Beantwortung dieser Fragen brauchen ansehen. 3.3 Einleitung und einfache Tabellen Wir können uns viele Variablen vorstellen, die einen Einfluss auf andere Variablen haben. Zum Beispiel, je älter ihr seid, desto mehr Taschengeld bekommt ihr. Wir wollen uns anschauen ob das auch wirklich so ist. Was wir schon aus dem vorherigen Kapitel wissen, ist dass wir unsere Daten zuerst einmal organisieren müssen. Wir erinnern uns, dass die Daten zum Alter und zum Taschengeld die folgenden waren: Alter 16 16 16 16 17 18 16 17 17 17 19 16 17 16 17 Geld 6 8 10 5 15 20 9 10 9 9 20 15 12 6 15 Alter 17 16 18 18 18 19 17 16 19 16 16 16 17 16 16 29 Geld 12 10 25 20 30 15 12 9 20 6 9 10 25 9 9 Dieses sind die Wertepaare unserer Daten. Gruppieren wir jetzt die Daten die gleich sind. Wir bekommen die folgende Tabelle: Alter 16 16 16 16 16 16 17 17 17 17 17 18 18 18 19 19 Geld 5 6 8 9 10 15 9 10 12 15 25 20 25 30 15 20 Anzahl 1 3 1 5 3 1 2 1 3 2 1 2 1 1 1 2 Die Tabelle die wir gerade zusammengestellt haben nennen wir einfache Tabelle und sie ist der Ausgangspunkt unserer Analyse. 3.4 Häufigkeitstabellen, Randverteilungen und bedingte Verteilungen Ist es einfach für euch aus der obigen Tabelle Schlüsse zu ziehen? Gibt es eine andere Möglichkeit wie wir unsere Daten darstellen können? Wir wollen die sich wiederholenden Werte die wir in der Spalte für Alter und auch in der für Geld finden vermeiden. Wir können unsere Daten folgendermaßen gruppieren: Geld 5 6 8 9 10 12 15 20 25 30 16 1 3 1 5 3 1 Alter 17 18 2 1 3 2 1 2 1 1 19 1 2 Diese Tabelle erlaubt uns einen besseren Gesamtüberblick über die Verteilung der Häufigkeiten und je mehr verschiedene Werte wir haben, desto brauchbarer ist so eine Tabelle. Wir nenne sie Tabelle zweier 30 Variablen wenn wir es mit zwei quantitativen Variablen zu tun haben und Kontingenztabelle wenn wir zwei qualitative Variablen haben. Können wir von dieser Tabelle jedoch sagen wieviele SchülerInnen ein Taschengeld von 12 Euro bekommen? Und die Gesamtanzahl der SchülerInnen die 17 Jahre alt sind? Offensichtlich ja! Ihr könnt alle Häufigkeiten die in der Reihe die mit dem Wert 12 zu tun hat zusammenzählen und bekommt dann die Anzahl der SchülerInnen deren Taschengeld 12 Euro ist. Auf die gleiche Art könnt ihr die Häufigkeiten die in der Spalte die mit dem Wert 17 zu tun hat zusammenzählen und bekommt dann die Anzahl der SchülerInnen die 17 Jahre sind. Wir fügen diese Nummern unserer Tabelle hinzu und bekommen: Geld 5 6 8 9 10 12 15 20 25 30 Total Alter 17 18 16 1 3 1 5 3 2 1 3 2 1 14 1 2 2 1 1 4 1 9 19 3 Total 1 3 1 7 4 3 4 4 2 1 30 Was wir in der Tat gerade bekommen haben, sind die Werte der einzelnen Variablen unabhängig von einander. Diese Werte nennen wir die Randverteilung der Variablen. Um die gesamte Randverteilung der Variable Alter zu erhalten, nehmen wir die erste und die letzte Reihe, Alter Häufigkeiten 16 14 17 9 18 4 19 3 Wir können dies auch mit der Variable Taschengeld machen indem wir die erste und die letzte Spalte nehmen. Aufgabe 3.4.1 Könnt ihr also diese Tabelle für die Variable Taschengeld aufstellen? Im allgemeinen wird eine Tabelle für zwei Variablen folgendermaßen definiert: Y X x1 x2 ... xs ... xk Tot y1 n11 n21 ... ns1 ... nk1 n∗1 y2 n12 n22 ... ns2 ... nk2 n∗2 ... ... ... ... ... ... ... ... yp n1p n2p ... nsp ... nkp n∗p 31 ... ... ... ... ... ... ... ... ym n1m n2m ... nsm ... nkm n∗m Tot n1∗ n2∗ ... ns∗ ... nk∗ n wo die Werte oder Eigenschaften von X,x1 , x2 , . . . , xk sind und jene von Y sind y1 , y2 , . . . , ym ; nij ist die Anzahl der Untersuchungselemente welche die Eigenschaften xi für die Variable X und yj für die Variable Y darstellen. Weiters, ni∗ beschreibt die Anzahl der Untersuchungselemente welche die Eigenschaft xi darstellen und n∗j die Anzahl der Untersuchungselemente welche die Eigenschaft yj darstellen. n ist die Gesamtanzahl der Elemente der Grundgesamtheit oder der Stichprobe. Wenn wir einmal die Randverteilungen kennen, können wir den Mittelwert und die Standardabweichung von beiden berechnen, als ob sie eindimensionale Variablen wären. Ihre Ausdrücke sind: s Pk Pk xi ni∗ i=1 (xi − x)ni∗ x = i=1 Sx = n n s Pm Pm j=1 yj n∗j j=1 (yj − y)n∗j y= Sy = n n Aufgabe 3.4.2 Wie lauten Mittelwert und Standardabweichung für Taschengeld und Alter? Einer deiner KlassenkameradInnen hat eine Frage. Er ist 17 Jahre und er will wissen, ob sein Taschengeld unter den höheren oder den niedrigeren liegt, weil er um eine Eröhung des Taschengeldes fragen will, falls es zu niedrig ist. Um das zu bekommen, möchte er sich zuerst mit den anderen SchülerInnenn seines Alters vergleichen. Also nimmt er die Daten jener Schuüler die sein Alter haben: Geld Alter = 17 5 0 6 0 8 0 9 2 10 1 12 3 15 2 20 0 25 1 30 0 Da dieser Junge ein Taschengeld von 10 Euro bekommt, bekommen die meisten seiner Kameraden mehr Taschengeld und er entscheidet sich daher, nach einer Erhöhung zu fragen. Was wir gerade berechnet haben ist die bedingte Verteilung der Variable Taschengeld, für einen bestimmten Wert des Alters, in diesem Fall 17. Wir haben nun wieder eine eindimensionale Variable, von welcher wir die Zentralmaße und die Streuungsmaße berechnen können. Aufgabe 3.4.3 Berechne die Häufigkeitstabelle für die Variable Alter, für das Taschengeld=15 Euro. Aufgabe 3.4.4 Berechne die Häufigkeitstabelle, mit den Randverteilungen, für das Gewicht und für die Antwort zu Frage 3.1 3.5 Punktwolke Normalerweise werden Daten von eindimensionalen Variablen leichter analysiert, wenn wir sie in einem Diagramm darstellen. Die Situation ist jetzt allerdings anders, da wir zwei Variablen darstellen müssen und beide mit ihren Häufigkeiten. Um das zu bewerkstelligen, verwenden wir eine sogenannte Punktwolke als Diagramm. Wir zeichnen diese folgendermaßen: Wir tragen auf der X + Achse die Variable Taschengeld auf und auf der Y + Achse die Variable Alter. Wir stellen einen Punkt so groß dar wie seine Häufigkeit oder wir zeichnen so viele Punkte wie die Häufigkeit angibt. 32 Abbildung 3.1: Punktwolke Die Form der Punkte in der Punktwolke kann uns eine mögliche Abhängigkeit zwischen den Variablen anzeigen, wie wir im folgenden sehen werden. Aufgabe 3.5.1 Zeichne die Punktwolke für die Variablen Gewicht und die Antwort zu der Frage 3.1 3.6 Funktionale Abhängigkeit und statistische Abhängigkeit Nehmen wir an, wir beschäftigen uns mit den folgenden Variablen: • Die Körpergröße und die Größe des Fußes einer Person. • Das Taschengeld und die Körpergröße. • Die Anzahl der Familienmitglieder und die Anzahl der Zimmer in ihrem Haus. • Die Höhe von der wir etwas hinunter werfen und die Zeit die es braucht um am Boden anzukommen. • Das Gewicht und die Anzahl der Geschwister. Für jede dieser Situationen wollen wir herausfinden ob es einen Zusammenhang zwischen den angegebenen Variablen gibt, bzw. ob der Wert einer der Variablen einen Einfluss auf den anderen hat. Fall Nummer 4 ist zum Beispiel sehr klar. Wir haben in Physik gelernt, dass es einen funktionalen Zusammenhang zwischen diesen Variablen gibt, eine Gleichung die beide verbindet. In anderen Fällen können wir annehmen, dass es keine Verbindung gibt, wie z.B. im Fall 2 und 5. Im Fall 1 und 3 gibt es allerdings wieder die Möglichkeit eines Zusammenhanges, der wir uns nicht sicher sein können. Die Punktwolken können sehr verschiedene Formen haben und können uns helfen herauszufinden wie die Variablen zueinander stehen. Wir wollen jene als erste Annäherung verwenden, obwohl wir später etwas 33 entscheidendere Methoden anwenden werden, um zu entscheiden ob zwei Variablen zusammenhängen oder nicht. Wie wir gerade gesehen haben gibt es verschiedene Arten des Zusammenhanges zwischen Variablen. Wir sprechen von einer funktionalen Abhängigkeit wenn wir in einer ähnlichen Situation wie im Fall 4 sind. Bei jenem ist Y funktional abhängig von X wenn wir jedem Wert xi einen einmaligen Wert yj auf solche Art zuordnen können, dass yj = f (xi ) ist. Das heisst, der Wert einer Variable legt den Wert der anderen Variable genau fest. Die funktionale Abhängigkeit ist linear, wenn alle Wertepaare auf einer Geraden liegen. Die Abhängigkeit ist gekrümmt, wenn die Wertepaare in einer Kurve, definiert durch die Funktion y = f (x), liegen. Zwei Variablen X und Y gelten als unabhängig voneinander, wenn der Wert der einen Variable keinen Einfluss auf den Wert der anderen Variable hat. Das bedeutet, dass die relativen bedingten Verteilungen zusammenfallen. Bei den restlichen Fällen können wir von statistischer Abhängigkeit oder Zusammenhang sprechen. Diese Abhängigkeit kann stärker oder schwächer sein, je nach Situation. Durch die Punktwolke bekommen wir eine Vorstellung davon wie stark/schwach die Abhängigkeit ist, unter Berücksichtigung dessen, dass die Abhängigkeit umso stärker ist, je mehr sich die Werte zum Graph einer Funktion nähern. Punktwolken in denen wir lineare oder gekrümmte Abhängigkeiten sehen: Abbildung 3.2: lineare Abhängigkeit Aufgabe 3.6.1 Könnt ihr irgendeinen Schluss ziehen, über die mögliche Abhängigkeit zwischen dem Gewicht und der Antwort zur Frage 3.1, aus der Punktwolke die ihr im vorherigen Abschnitt gezeichnet habt? 3.7 Kovarianz Erinnert euch an die Punktwolke der zwei Variablen die wir untersuchen. Es ist nicht leicht zu erkennen welche Art von Zusammenhang zwischen ihnen besteht. Aber glaubt ihr z.B., dass das Taschengeld steigt, wenn das Alter steigt? Oder glaubt ihr es passiert umgekehrt? Wir suchen jetzt nach einer Zahl die uns ein Maß dafür sein kann, ob wir es mit einem direkten oder umgekehrten/indirekten Zusammenhang zu tun haben. Zu diesem Zweck verwenden wir die Kovarianz, welche folgendermaßen definiert ist: 34 Abbildung 3.3: gekrümmte Abhängigkeit Pk i=1 Pm j=1 (xi − x)(yj − y)nij Pk i=1 Pm j=1 xi yj nij −xy n n Die Kovarianz ist auch bekannt als die gemeinsame Varianz zweier Variablen. Wenn der Zusammenhang direkt ist, ist die Kovarianz positiv und wenn die Kovarianz negativ ist, ist der Zusammenhang indirekt. Wir wissen, dass das Durchschnittsalter 16, 86̇ Jahre ist und das durchschnittliche Taschengeld 13 Euro, also erhalten wir Sxy = 4, 53̇ und somit ist der Zusammenhang direkt und ziemlich stark. Wir bemerken, dass beim Ausdruck der Kovarianz, sein Vorzeichen abhängt von der Differenz aus (xi − x) und (yj − y). Schauen wir uns an was mit der Kovarianz in bestimmten Situationen passiert. Wir sehen uns die drei Punktwolken an, in welchen wir den Punkt (x, y) markieren, welcher das Gravitationszentrum der Verteilung ist. (siehe Abb. 3.4). Wir sehen, dass wir im 2. Diagramm eine große Kovarianz haben, da die Unterschiede von (xi − x) und (yj − y) immer das gleiche Vorzeichen haben (xi und yj sind immer im ersten und dritten Quadranten, definiert durch die Achse die auf (x, y) zentriert ist). Da diese Differenzen positiv sind, tragen sie in positiver Art zur Summe bei. In den anderen 2 Fällen gibt es keinen linearen Zusammenhang und so haben wir positives und negatives Addieren. Wir haben Datenpunkte auf allen vier Quadranten und so gleichen sich manche miteinander aus und das Ergebnis kann um 0 sein. Wir bemerken also, dass die Kovarianz wiederum ein Maß ist, welches von den Maßeinheiten abhängt, wie es bei Varianz und Standardabweichung der Fall war. Daher wollen wir uns nach einem anderen, dimensionslosen Maß umsehen, welches uns erlaubt Verteilungen zu vergleichen. Sxy = 3.8 = Lineare Korrelation Wir suchen jetzt nach einem Maß, welches uns den Grad des Zusammenhanges zweier Variablen (direkt oder indirekt) gibt. Wir wollen jenes dann auch dazu verwenden, um den linearen Zusammenhang zwischen ihnen zu messen. Wir beginnen mit der Kovarianz, die wir gerade präsentiert haben, welche vom Produkt der Maßeinheiten der beiden Variablen abhängt, da (xi − x) abhängig ist von den Maßeinheiten von X und (yj − y) 35 Abbildung 3.4: Kovarianz abhängig ist von den Maßeinheiten von Y ; nij und n sind hingegen dimensioslos. Wir müssen Sxy durch eine Zahl auf solche Art dividieren, dass diese zwei Maßeinheiten verschwinden. Wir erinnern uns, dass die Varianz abhängig ist von dem Quadrat der Maßeinheit der Variable, also können wir sie nicht verwenden. Die Standardabweichung ist hingegen abhängig von der einfachen Maßeinheit der Variable. Das heisst, das Produkt Sx Sy hängt ab vom Produkt der Maßeinheiten von X und Y und das ist genau was wir suchen. Wir definieren den linearen Korrelationskoeffizient also folgend: r= Sxy Sx Sy Berechnen wir ihn für unser Beispiel. Wir wissen, dass Sxy = 4, 53̇ und Sx = 1, 008 und Sy = 6, 368, daraus folgt, r = 0, 706, aber was bedeutet das? Der Wert von r ist immer zwischen −1 und 1. Wenn der Wert von r nahe an −1 oder 1 ist, dann ist die lineare Abhängigkeit zwischen den zwei Variablen stark und sie ist direkt wenn sie nahe bei 1 und indirekt wenn sie nahe bei −1 ist. Wenn der Wert von r nahe bei 0 ist haben wir eine schwache Abhängigkeit, wenn überhaupt eine besteht. Wenn der Wert von r mit 1 oder −1 zusammenfällt, ist die Abhängigkeit linear und alle Punkte liegen auf einer Linie. Wir bestätigen also, dass der Zusammenhang in unserem Beispiel direkt und sehr stark ist. Aufgabe 3.8.1 Berechnet den linearen Korrelationskoeffizient von den Variablen Gewicht und Antwort der 36 Frage 3.1. Was können wir über den Zusammenhang zwischen den Variablen sagen? 3.9 Regressionsgerade Nehmen wir an, ihr wisst, dass ein Junge der Schule ein Taschengeld von 18 Euro bekommt, aber ihr kennt sein Alter nicht. Wir könnten den Wert den die Variable Alter für diesen Jungen haben sollte vorhersagen. Aber wie können wir das anstellen? Wir haben in diesem Kapitel immer über den möglichen Zusammenhang zwischen diesen Variablen gesprochen, jetzt ist der Moment wo wir ihn auch verwenden. Wenn wir eine Gleichung aufstellen könnten, die das Alter und das Taschengeld in eine Beziehung bringt, bräuchten wir nur unsere Zahlen einsetzen und hätten den Wert den wir suchen. Leider ist das Ganze nicht so einfach. Da wir wissen, dass die lineare Korrelation zwischen den zwei Variablen sehr groß ist, können wir versuchen eine Linie zu finden, die den Punkten am besten entspricht und wir können dann am Wert des Taschengeldes den Wert für das Alter ablesen. Diese Linie wird Regressionsgerade genannt. Wir wollen sie zuerst definieren und später den Wert für unser Beispiel berechnen. X und Y sollen zwei Variablen sein und wir definieren die Regressionsgerade als die Linie, welche die Summe der Quadrate der Abstände zwischen den Datenpunkten und den geschätzten Punkten minimiert. Für die Regressionsgerade von Y über X, sollte das y = ax + b sein. Jetzt müssen wir die Summe der Quadrate der Abstände zwischen den Werten yj und den erwarteten Werten dafür, axi + b, minimieren. Die Gleichung für diese Gerade ist: Y −y = Sxy (X − x) Sx2 Wir werden diese Gerade verwenden, wenn wir den Wert von Y aus dem Wert X schätzen wollen. Bei der Regressionsline von X über Y ergibt sich x = c + dy und wir minimieren die Summe der Quadrate der Abstände zwischen den Werten xi und den Prognosen für diese Werte cyi + d. Die Gleichung für diese Gerade ist also: X −x= Sxy (Y − y) Sy2 Wir werden diese Gerade verwenden, wenn wir den Wert von X aus dem Wert Y schätzen wollen. Berechnen wir nun also die Regressionsgerade für unser Beispiel. Unsere Variablen sind das Taschengeld (X) und das Alter (Y ), also müssen wir die Gerade von X über Y berechnen. Wir haben also: x = 13 y = 16, 86̇ Sxy = 4, 53̇ Sx = 6, 368 Sx2 = 40, 551 also ist die Gerade die wir suchen Y − 16, 86̇ = 4, 53̇ (X − 13) 40, 551 beziehungsweise Y − 16, 86̇ = 0, 111(X − 13) ⇒ Y = 0, 111X + 15, 413 Wenn also das Taschengeld dieses Jungen x = 18 Euro beträgt, sollte sein Alter sein: 37 Y = 0, 111 · 18 + 15, 413 = 17, 42 das heißt, dieser Junge sollte 17 Jahre alt sein. Wir müssen jetzt noch ein paar Anmerkungen zur Regressionsgeraden machen. Erstens, der Schnittpunkt der zwei Regressionsgeraden (X über Y und Y über X) ist (x, y), außer im Falle einer linearen Korrelation von 1 oder −1 wobei diese zwei Geraden zusammenfallen würden. Wenn wir Prognosen mit der Regressionsgeraden machen wollen, müssen wir bedenken, dass wir eine der folgenden Voraussetzungen erfüllen müssen: • Wir können aus der Punktwolke schliessen, dass es einen möglichen linearen Zusammenhang zwischen den Variablen gibt. • Der lineare Korrelationskoeffizient ist nahe 1 oder −1. • Der Hausverstand sagt uns, dass ein Zusammenhang zwischen den Variablen möglich ist. Eine andere Möglichkeit die Regressionsgerade darzustellen ist die folgende: • Für die Regressionsgerade Y über X, ergibt das y = ax + b, wobei gilt: a= Sxy Sx2 b=y− Sxy x Sx2 • Für die Regressionsgerade X über Y , ergibt das x = cy + d, wobei gilt: c= Sxy Sy2 d=x− Sxy y Sy2 Aufgabe 3.9.1 Berechnet die Regressionsgerade für die Variablen Gewicht und Antwort zu Frage 3.1. Wenn ein SchülerInnen 67 kg wiegt, könnt ihr vorhersagen was die Antwort zur Frage 3.1 ist? 38