Einführung in die beschreibende Statistik Alte Kantonsschule Aarau Fachschaft Mathematik erstellt von Roger Sax, Roger Keller und Marianne Stein 2015, Version 7 Inhalt 1 Einleitung 1 2 Grundbegriffe 3 3 Darstellung von Daten 6 4 Einteilung in Klassen 11 5 Das Summensymbol 16 6 Zentralmasse 19 7 Streuungsmasse 22 8 Normalverteilungen 27 9 Quartile 29 Anhang A: Zusammenhänge zwischen Zentral- und Streuungsmassen 33 Anhang B: Statistische Auswertungen mit Microsoft Excel 2007 35 Quellen- und Literaturverzeichnis 39 Einführung in die beschreibende Statistik 1 Einleitung Die Statistik ist ein wichtiges Instrument im Umgang mit grossen Datenmengen, das sowohl in Politik und Wirtschaft als auch in Geistes- und Naturwissenschaften Anwendung findet, um Informationen zu gewinnen oder um Hypothesen zu testen. Nicht selten werden wichtige Entscheidungen auf der Grundlage statistischer Aussagen getroffen. So berechnen beispielsweise Krankenkassen ihre Prämien anhand von Statistiken über die Häufigkeiten von Krankheitsfällen, Arztbesuchen oder Spitalaufenthalten, Zigaretten- oder Alkoholkonsum, etc. In einer statistischen Datenerhebung geht es darum, Informationen über Personen oder Dinge zu sammeln. Im Idealfall werden die entsprechenden Daten von allen Personen oder Dingen erfasst, die für die jeweilige Untersuchung interessant sind. Man spricht dann von einer Grundgesamtheit oder Population. Oft ist aber der Aufwand hierfür unverhältnismässig gross, sodass man sich stattdessen auf eine Stichprobe, d.h. auf eine repräsentative Teilmenge der Grundgesamtheit beschränkt. Repräsentativ heisst, dass die Auswahl der Stichprobe möglichst so erfolgen sollte, dass sie die wesentlichen Eigenschaften der Grundgesamtheit wiedergibt. Die Statistik kann in drei grundsätzlich verschiedene Teilbereiche unterteilt werden: – Die sammelnde Statistik befasst sich mit der Datenerhebung. Eine wichtige und schwierige Frage ist dabei, wie man eine Stichprobe aus der Grundgesamtheit auswählen kann so, dass diese tatsächlich repräsentativ ist. In der Praxis wird oft versucht, dies durch eine zufällige Auswahl der Stichprobe zu realisieren. – Wir werden uns im Folgenden ausschliesslich mit der beschreibenden Statistik auseinandersetzen, die sich mit der Aufbereitung und der Darstellung von Daten beschäftigt. – In der beurteilenden Statistik dagegen geht es um die Interpretation der Daten, um Rückschlüsse auf die Grundgesamtheit zu ziehen. Aussagen, die aufgrund statistischer Daten gewonnen werden, sind immer mit einer gewissen Unsicherheit behaftet. Eine, wenn nicht sogar die wichtigste Aufgabe der beurteilenden Statistik ist es, abzuschätzen, mit welcher Wahrscheinlichkeit derartige Aussagen zutreffen. Seite 1/39 v7 Einführung in die beschreibende Statistik Grundgesamtheit Stichprobe Auswahl einer Stichprobe Datenerhebung (sammelnde Statistik) Rückschluss auf die Grundgesamtheit (beurteilende Statistik) Datenaufbereitung (beschreibende Statistik) Aufgabe 1.1 In der Schweiz gibt es immer wieder Abstimmungen zu verschiedenen Themen. Die stimmberechtigten Personen (etwa 4 Millionen) bilden die Grundgesamtheit. Für eine Vorhersage des Abstimmungsergebnisses wird eine Stichprobe gewählt. Diese muss für eine seriöse Vorhersage genügend gross und repräsentativ sein, d.h. sie soll im Idealfall die Verhältnisse richtig abbilden. Wie beurteilst du die folgenden StichProben: a) Das Parlament, b) alle Mitglieder einer Partei? Angenommen, die Vorhersage lautet: 65% JA. c) Wie viele JA und NEIN-Stimmen wären bei einer Stimmbeteiligung von 100 % bzw. von 30 % zu erwarten? Bei der Abstimmung beträgt die Stimmbeteiligung tatsächlich 30% und das EndErgebnis lautet: 680'000 JA-Stimmen. d) Wie gut gibt die Stichprobe die Grundgesamtheit wieder, wenn wir annehmen, dass das Endergebnis für die Grundgesamtheit repräsentativ ist? e) Wie viele JA und NEIN-Stimmen hätte es bei einer Stimmbeteiligung von 100 % gegeben, wenn die restlichen 70 % wie in der Vorhersage bzw. wie die anderen 30 % (im Endergebnis) gestimmt hätten? Seite 2/39 v7 Einführung in die beschreibende Statistik 2 Grundbegriffe In einer statistischen Erhebung wird aus einer bestimmten Grundgesamtheit eine Stichprobe von Personen oder Dingen ausgewählt und hinsichtlich bestimmter Merkmale (Variablen) untersucht. Jedes Merkmal kann bestimmte Merkmalsausprägungen (Variablenwerte) annehmen. Man kann dabei folgende Grundtypen von Merkmalen unterscheiden: – Quantitative (metrische) Merkmale besitzen einen natürlichen Zahlenwert, der direkt durch eine Messung bestimmt werden kann. Metrische Merkmale heissen stetig, wenn sie innerhalb gewisser Grenzen jeden Zahlenwert annehmen können, andernfalls heissen sie diskret. – Qualitative Merkmale besitzen keinen natürlichen Zahlenwert und können deshalb nur verbal beschrieben oder zahlenmässig codiert werden. Qualitative Merkmale heissen ordinal, wenn man sie ordnen kann, ansonsten heissen sie nominal. Beispiel 1: Merkmal Merkmalsausprägung Grundtyp Augenfarbe blau, braun, grün, grau qualitativ, nominal Schulnoten (U.S.A.) A, B, C, D und F1 qualitativ, ordinal Anzahl Geschwister 1, 2, 3, 4, … metrisch, diskret Körpergrösse (in cm) 150, 162.5, 176.8, ... metrisch, stetig Als Umfang der Stichprobe bezeichnet man die Anzahl (n) von Personen bzw. Dingen, welche in der Datenerhebung berücksichtigt werden. Nach erfolgter Datenerhebung hat man eine Liste (Urliste) von Merkmalsausprägungen in Form von n Daten x1 , x2 , x3 , …, xn und kann zählen, wie oft die verschiedenen Merkmalsausprägungen vorkommen. Man spricht dann von der Häufigkeit einer Merkmalsausprägung: – Die absolute Häufigkeit H i der Merkmalsausprägung xi gibt an, wie oft die Merkmalsausprägung xi vorkommt. – Die relative Häufigkeit hi einer Merkmalsausprägung xi ist der prozentuale Anteil der Merkmalsausprägung xi an der gesamten Stichprobe: relative Häufigkeit = absolute Häufigkeit Stichprobenumfang bzw. hi = Hi n 1 Amerikanisches Notensystem: A (Bestnote), B (überdurchschnittlich), C (durchschnittlich), D (genügend) und F („Fail“, ungenügend) Seite 3/39 v7 Einführung in die beschreibende Statistik Aufgabe 2.1 An einem Dienstagmorgen wird um 6:30 Uhr in der Unterführung des Aarauer Bahnhofs eine Umfrage durchgeführt, bei der die Passanten nach ihrem Zivilstand befragt werden. Es resultiert die folgende Tabelle: ledig verheiratet geschieden verwitwet 32 47 58 13 a) b) c) d) e) Was ist hier die Grundgesamtheit? Wie gross ist der Stichprobenumfang? Ist die Stichprobe repräsentativ? Welches Merkmal wird hier untersucht? Klassifiziere das Merkmal! (Quantitativ oder qualitativ? Stetig, diskret, ordinal oder nominal?) f) Bestimme die absolute und die relative Häufigkeit der ledigen Personen! g) Wie gross sind die absolute und die relative Häufigkeit der nicht-ledigen Personen, die geschieden sind? Aufgabe 2.2 Die Tabelle unten zeigt die Todesfälle im Jahre 1910 in Folge von Tuberkulose für die Städte New York und Richmond. a) Ermittle für beide Städte die absolute und die relative Häufigkeit der Todesfälle, getrennt für die weisse und die farbige Bevölkerung (in Bezug auf die gesamte weisse bzw. die gesamte farbige Bevölkerung). Diskutiere anhand der Resultate die Frage, in welcher Stadt das Tuberkulose-Risiko grösser ist. b) Wie sehen die Resultate aus, wenn die Berechnung dieser Häufigkeiten ohne Trennung der farbigen und der weissen Bevölkerung durchgeführt wird? Welche Schlüsse lassen sich daraus ziehen? New York Bevölkerung Richmond Todesfälle Bevölkerung Todesfälle Weisse 4'675'174 8'365 80'895 131 Farbige 91'709 513 46'733 155 4'766'883 8'878 127'628 286 Total Seite 4/39 v7 Einführung in die beschreibende Statistik Das Beispiel aus Aufgabe 2.2 ist ein typischer Fall des erstmals durch den britischen Mathematiker Eduard Hugh Simpson beschriebenen und nach ihm benannten Simpson-Paradoxons. Es macht deutlich, wie leicht einen voreilige Schlussfolgerungen aufgrund von statistischen Häufigkeiten in die Irre führen können. Wir halten deshalb die folgende wichtige Bemerkung fest, die zur Vorsicht im Umgang mit Häufigkeiten ermahnen soll: Die untersuchten Teilmengen bzw. Stichproben können andere Eigenschaften haben als die ihnen zugrunde liegende Grundgesamtheit. Aufgabe 2.3 In einem Land leben 10'000'000 Arbeitswillige, von denen 500'000 keine Arbeit finden. Die Arbeitslosenquote beträgt demnach 500 ' 000 10 '000 '000 ⋅ 100 % = 5 % . Nun steigt die Arbeitslosenzahl auf 600'000 Arbeitslose. Die Redakteure der Zeitung A berechnen die neue Arbeitslosenquote 600 '000 10 '000 '000 ⋅ 100 % = 6 % und schreiben in der nächsten Ausgabe „Die Arbeitslosigkeit hat um 1 % zugenommen!“ In der Zeitung B wird dagegen berichtet: „Die Arbeitslosigkeit hat um 20 % zugenommen!“ Die Redakteure rechtfertigen ihre Schlagzeile damit, dass die Zahl der Arbeitslosen um 100'000 zugenommen hat, das sind 100 '000 500 '000 ⋅ 100 % = 20 % aller bisherigen Arbeits-losen. Wie beurteilst du die Situation? Wo liegt hier die Schwierigkeit? Seite 5/39 v7 Einführung in die beschreibende Statistik 3 Darstellung von Daten Statistische Daten können auf unterschiedliche Weise dargestellt werden. Die simpelste Darstellung ist eine Datentabelle. Die tabellarische Darstellung ist aber sehr abstrakt, weshalb zur Veranschaulichung meistens Diagramme verwendet werden. Beispiel 1: Augenfarben von 115 Probanden Darstellung der Daten in einer Datentabelle: Augenfarbe Absolute Häufigkeit Relative Häufigkeit blau 23 20 % braun 43 37 % grün 31 27 % grau 18 16 % Darstellung der Daten in Diagrammen: grau 16% grün 27% grau 16% blau 20% blau 20% grün 27% braun 37% braun 37% Kreisdiagramm Tortendiagramm 50 40 30 20 10 0 blau braun grün grau Histogramm 20% 37% 27% 16% Prozentstreifen Seite 6/39 v7 Einführung in die beschreibende Statistik Aufgabe 3.1 a) Diskutiere die Vor- und Nachteile der verschiedenen Diagramme in Beispiel 1. b) Was kann man an der Ordinatenachse eines Histogramms ablesen? c) Was ist bei der Verwendung von Kreis- oder Tortendiagrammen zu beachten? Beispiel 2: Abfallmenge der privaten Haushalte in der Schweiz (verbrannt in Kehrichtverbrennungsanlagen) Darstellung der Daten in einer Datentabelle: Jahr Abfall in kg pro Einwohner 2002 360 2003 351 2004 348 2005 327 2006 352 2007 351 2008 366 2009 340 2010 349 Darstellung der Daten in Diagrammen: Punktdiagramm Seite 7/39 v7 Einführung in die beschreibende Statistik Liniendiagramm Stabdiagramm Aufgabe 3.2 a) Diskutiere die Vor- und Nachteile der verschiedenen Diagramme in Beispiel 2. b) Eine Online-Nachrichtenagentur schreibt in einem Artikel im August 2010: „Mit 733 Kilogramm Hausmüll pro Person liegt die Schweiz deutlich über dem europäischen Durchschnitt von 524 Kilo – und hinter Dänemark und Zypern auf Platz drei. Und unsere Abfallmenge nimmt weiter zu: Landeten 2005 noch 327 Kilo pro Einwohner in den Kehrichtverbrennungsanlagen, waren es 2008 bereits 366 Kilo.“2 Diskutiere den Artikelausschnitt auf dem Hintergrund der Daten aus Beispiel 2. 2 Die Zahlen 733 kg/524 kg beziehen sich auf die gesamte Müllmenge, die Zahlen 327 kg/366 kg beziehen sich dagegen nur auf denjenigen Anteil des Mülls, der in Kehrichtverbrennungsanlagen endet. Seite 8/39 v7 Einführung in die beschreibende Statistik Aufgabe 3.3 Das folgende Diagramm stellt denselben Sachverhalt dar wie das Liniendiagramm in Beispiel 2: Worin unterscheiden sich die beiden Diagramme in Form und Wirkung? Welches der beiden Diagramme stellt den Sachverhalt besser dar? Begründe! Beispiel 3: Piktogramme Ein Vertreter der Arbeiterschaft einer Firma möchte darauf aufmerksam machen, dass die Mitarbeiter in der einen Abteilung der Firma doppelt so viel verdienen wie die Mitarbeiter der anderen Abteilung derselben Firma. Dieser Sachverhalt kann zum Beispiel mit Piktogrammen dargestellt werden: Seite 9/39 v7 Einführung in die beschreibende Statistik Aufgabe 3.4 Welches der beiden Piktogramme aus Beispiel 3 beschreibt den Sachverhalt, dass die eine Abteilung doppelt so viel verdient wie die andere, besser? Begründe! Diese Beispiele illustrieren, dass die Art und Weise, wie Daten dargestellt werden, in einschlägiger Weise bestimmt, wie die Daten wahrgenommen bzw. interpretiert werden. Dabei ist nicht jede Darstellung für jede Art von Daten geeignet! Es sollte immer genau überlegt werden, welche Darstellung am besten zu den vorliegenden Daten passt und den jeweiligen Sachverhalt am besten beschreibt. Ebenso ist bei der Interpretation von statistischen Daten Vorsicht geboten. Insbesondere wenn Daten entweder mangels besseren Wissens oder gar mit Absicht in unangemessener Weise dargestellt werden, kann es vorkommen, dass falsche Schlüsse gezogen werden. Von Sir Winston Churchill3 stammt das berühmte Zitat „I only believe in statistics that I doctored myself”, das auf die Gefahren mittels Statistik falsch dargestellter Sachverhalte hinweist und zugleich suggeriert, dass statistische Daten immer kritisch hinterfragt werden müssen. 3 Premierminister Grossbritanniens während des 2. Weltkrieges Seite 10/39 v7 Einführung in die beschreibende Statistik 4 Einteilung in Klassen Bei der Ermittlung der Häufigkeit von Merkmalen ist es oft nicht sinnvoll, jede Merkmalsausprägung einzeln zu betrachten. Insbesondere bei stetigen metrischen Merkmalen – wie zum Beispiel der Körpergrösse – teilt man deshalb die Merkmalsausprägungen in so genannte Klassen ein. Beispiel 1: Körpergrösse Eine Datenerhebung der Körpergrösse mit 50 Probanden ergab folgende Urliste4: (Angaben in cm und auf ganze Zahlen gerundet) 144 164 171 177 186 150 164 172 178 187 154 164 172 179 187 154 165 172 179 188 160 167 173 182 189 160 167 174 182 190 162 168 175 182 190 162 169 176 182 191 163 170 176 184 193 164 171 176 185 205 Da viele Werte nur ein- oder zweimal vorkommen, ist es nicht sinnvoll, die einzelnen Merkmalsausprägungen in ein Säulen- oder Punktdiagramm einzutragen. Stattdessen fassen wir nahe beieinander liegende Werte in Klassen zusammen. a) Einteilung in 7 Klassen in Abständen von 10 cm (Klassenbreite): Körpergrösse (in cm) Anzahl Probanden 140-149 A 150-159 C 160-169 Eed 170-179 Eeea 180-189 Eea 190-199 D 200-209 A Die Klassenbreite berechnet sich dabei wie folgt: Die Klasse 140-149 (z.B.) beinhaltet wegen der Rundung auf ganze Zentimeter alle Körpergrössen im Intervall [139.5, 149.5[ (in cm). Die Klassenbreite ist somit die Länge dieses Intervalls, also 149.5 cm - 139.5 cm = 10 cm. 4 Hier ist zu bemerken, dass Körpergrössen an sich stetige Daten sind. Aufgrund der Messungenauigkeit, ist es aber sinnvoll, diese Daten gerundet anzugeben (hier auf cm). Seite 11/39 v7 Einführung in die beschreibende Statistik b) Einteilung in 14 Klassen mit einer Klassenbreite von 5 cm: Körpergrösse (in cm) 140-144 Anzahl Probanden A 145-149 150-154 c 155-159 160-164 Ed 165-169 e 170-174 Ec 175-179 Ec 180-184 e 185-189 Ea 190-194 d 195-199 200-204 205-209 a Hier beinhaltet beispielsweise die Klasse 140-144 alle Körpergrössen im Intervall [139.5, 144.5[ (in cm), was der Klassenbreite 144.5 cm - 139.5 cm = 5 cm entspricht. Es ist eine Frage der Übersicht und der Ästhetik, in wie viele Klassen eine Datenmenge unterteilt werden soll. Vergleichen wir die Histogramme in Beispiel 1, so stellen wir fest, dass das Histogramm für 7 Klassen wesentlich übersichtlicher ist als dasjenige für 14 Klassen. Üblicherweise wird folgende Faustregel angewendet: Die Einteilung einer Stichprobe vom Umfang n in Klassen soll in der Regel so erfolgen, dass für die Anzahl k der Klassen gilt: k≈ n aber Seite 12/39 k ≤ 20 v7 Einführung in die beschreibende Statistik Beispiel 2: Statistische Auswertung mit Geogebra (Version 4.2.60.0) Bei der Auswertung von grossen Datenmengen ist es am einfachsten, wenn wir eine Statistiksoftware verwenden. Das auf www.geogebra.org kostenlos erhältliche Programm Geogebra beinhaltet ein relativ einfaches, aber für unsere Zwecke ausreichendes Statistiktool. Wir wollen nun die Urliste der Körpergrössen aus Beispiel 1 mit Geogebra auswerten. Dazu öffnen wir Geogebra und aktivieren mit der Maus den schmalen Balken am rechten Rand. Anschliessend wählen wir im geöffneten Menü die Option „Tabelle & Grafik“ aus: Dadurch öffnet sich links eine Tabelle. Das Grafikfenster benötigen wir nicht und können es mit einem Klick auf das Symbol schliessen. Nun geben wir die Urliste in die Tabelle ein, markieren danach die gesamte Liste und wählen dann, wie im folgenden Bild dargestellt, die Option „Analyse einer Variablen“: Dabei öffnet sich ein neues Fenster. Dort klicken wir auf die Schaltfläche „Analyse“. Es erscheint ein neues Fenster mit einem auf der markierten Urliste basierenden Histogramm. Mit einem Listenfeld können wir auch andere Diagramme auswählen (z.B. den Boxplot, der in Kapitel 9 besprochen wird). Des Weiteren können wir mit Seite 13/39 v7 Einführung in die beschreibende Statistik einem Schieberegler die Anzahl der Klassen einstellen. Stellen wir diesen auf 7 Klassen ein, so erhalten wir aber nicht dasselbe Histogramm, wie in Beispiel 1. Das liegt daran, dass Geogebra die Werte von 144-205 cm automatisch in 7 gleichgrosse Klassen der Länge ≈ 8.7 cm ( 144 + 7 ⋅ 8.7 ≈ 205 ) einteilt, während wir den Bereich von 140-210 cm in 7 Klassen der Länge 10 cm eingeteilt haben. Dies können wir anpassen, indem wir auf die Schaltfläche rechts klicken, dort ein Häckchen bei „Manuelle Bestimmung der Klassen“ setzen und die Werte „Start“ und „Breite“ anpassen (Bild rechts): DiagrammAuswahl Schieberegler: Anzahl Klassen Wollen wir das Histogramm als Bild speichern, so können wir das entweder mit einem Klick auf das Symbol oder mit einem Rechtsklick auf die Grafik tun, indem wir im Kontextmenü die Option „Export als Bild…“ auswählen (Leider steht dabei keine Option zur Beschriftung der Achsen zur Verfügung). Durch einen Klick auf das Symbol können wir ferner alle wichtigen statistischen Kenngrössen wie den Mittelwert, den Modus, den Median, die Quartile oder die Standardweichung, die wir nach und nach in den folgenden Kapiteln kennenlernen werden, abfragen: Seite 14/39 v7 Einführung in die beschreibende Statistik Aufgabe 4.1 Die Tabelle zeigt die Einwanderungen nach Deutschland im Jahr 1976: Alter x Anzahl Einwanderer relative Häufigkeit Klassenbreite relative Häufigkeitsdichte* x < 18 163'593 32.8 % 18 1.82 % 18 ≤ x < 65 312'776 62.7 % 47 1.33 % 65 ≤ x < 80 22'298 4.5 % 15 0.30 % Total 498'667 100 % *Die Häufigkeitsdichte entspricht in diesem Fall der durchschnittlichen Häufigkeit pro Jahrgang. Es stellt sich die Frage, wie man die Klassenbreite im Histogramm berücksichtigt. Die einfachste Möglichkeit wäre, die Säulenbreite entsprechend der Klassenbreite zu wählen: Auf diese Weise werden aber die Grössenverhältnisse nicht richtig abgebildet: Zum Beispiel ist die relative Häufigkeit der 18 bis 64-jährigen Einwanderer (mittlere Säule) mit 62.7 % etwa doppelt so hoch wie die relative Häufigkeit der unter 18jährigen Einwanderer (linke Säule) mit 32.8 %. Der Flächeninhalt der mittleren Säule ist aber etwa fünfmal grösser als derjenige der linken Säule. Wie müsste man die Säulenhöhen anpassen, um diesen Effekt auszugleichen? Wie ändert sich dabei die Bedeutung der Ordinatenachse? Seite 15/39 v7 Einführung in die beschreibende Statistik 5 Das Summensymbol In der Mathematik und im Speziellen in der Statistik kommt es oft vor, dass man viele ähnliche Terme addieren muss. Das Summensymbol S fasst solche Terme zusammen. Möchten wir n Summanden x1 , x2 , x3 , …, x n addieren, so lässt sich die Summe mit dem Summensymbol S abgekürzt schreiben als: n ∑x i =1 i = x1 + x 2 + x3 + ... + x n („Summe aller xi für i = 1 bis i = n “) In der Statistik können die Summanden xi zum Beispiel die Daten der Urliste (Merkmalsausprägungen) sein, wenn wir sie mit einem Summenindex i von 1 bis n durchnummerieren. Beispiel 1: Für die Summe aller natürlichen Zahlen von 1 bis 20 ist xi = i und wir schreiben: 20 ∑ i = 1 + 2 + 3 + ... + 20 i =1 Beispiel 2: Für die Summe aller ungeraden Zahlen von 1 bis 99 ist xi = 2i − 1 : x1 = 2 ⋅ 1 − 1 = 1 x2 = 2 ⋅ 2 − 1 = 3 x3 = 2 ⋅ 3 − 1 = 5 ⋮ x50 = 2 ⋅ 50 − 1 = 99 Wir schreiben also: 50 ∑ (2i − 1) = 1 + 3 + 5 + ... + 99 i =1 Aufgabe 5.1 a) Schreibe die Summe der ersten 100 Zahlen der Dreierreihe mit dem Summensymbol. 5 b) Berechne die Summe ∑ i (i + 1) . i =1 Seite 16/39 v7 Einführung in die beschreibende Statistik Eine Summe muss natürlich nicht immer mit i = 1 beginnen: Beispiel 3: Für die Summe aller natürlichen Zahlen von 10 bis 20 schreiben wir mit dem Summensymbol: 20 ∑ i = 10 + 11 + 12 + ... + 20 i =10 Beispiel 4: Für die Summe aller ungeraden Zahlen von 51 bis 99 schreiben wir: 50 ∑ (2i − 1) = 51 + 53 + 55 + ... + 99 i = 26 Beispiel 5: Um die Summe aller zweistelligen Quadratzahlen aufzuschreiben, überlegen wir uns, dass 16 = 4 2 die kleinste und 81 = 92 die grösste zweistellige Quadratzahl ist. Wir erhalten so die Summe: 9 ∑i 2 = 16 + 25 + 36 + 49 + 64 + 81 i=4 Aufgabe 5.2 6 a) Berechne die Summe ∑ (3i + 2) i =3 b) Schreibe die Summe aller vierstelligen Quadratzahlen mit dem Summensymbol. Das Rechnen mit Summen erspart viel Schreibaufwand. Dabei ist es praktisch, wenn man die wesentlichen Rechenregeln für Summen kennt: Beispiel 6: Es gilt die Regel: Beweis: n n i =1 i =1 ∑ a ⋅i = a ⋅ ∑i (a œ ) n n i =1 i =1 ∑ a ⋅ i = a + 2a + 3a + ... + na = a (1 + 2 + 3 + ... + n) = a ⋅ ∑ i Aufgabe 5.3 Beweise die folgenden Rechenregeln (für a œ ): n a) ∑a⋅ x i =1 n i = a ⋅ ∑ xi i =1 n b) ∑a = n⋅a i =1 Seite 17/39 n c) ∑ (x i =1 i n n i =1 i =1 + y i ) = ∑ xi + ∑ y i v7 Einführung in die beschreibende Statistik Beispiel 7: Mit Hilfe dieser Regeln können wir zum Beispiel den Term 150 − ∑ i =1 (3 + 2i 2 ) wie 50 folgt vereinfachen: 50 50 50 50 50 i =1 i =1 i =1 i =1 i =1 150 − ∑ (3 + 2i 2 ) = 150 − ∑ 3 − ∑ (2i 2 ) = 150 − 50 ⋅ 3 − 2 ⋅ ∑ i 2 = −2 ⋅ ∑ i 2 Beispiel 8: Wir vereinfachen den folgenden Term: n n i =1 i =1 ∑ ( xi + yi )2 −∑ ( xi − yi )2 n n i =1 i =1 = ∑ ( xi 2 + 2 xi yi + yi 2 ) −∑ ( xi 2 − 2 xi yi + yi 2 ) n ( = ∑ ( xi 2 + 2 xi yi + yi 2 ) − ( xi 2 − 2 xi yi + yi 2 ) i =1 n ( = ∑ xi 2 + 2 xi yi + yi 2 − xi 2 + 2 xi yi − yi 2 i =1 ) ) n = ∑ 4 xi yi i =1 n = 4 ⋅ ∑ xi yi i =1 Aufgabe 5.4 a) Beweise für a, b œ b) Vereinfache: 1 2 gilt: n n n i =1 i =1 i =1 ∑ (axi + byi ) = a ⋅ ∑ xi + b ⋅ ∑ yi 10 2 ( i + 2 a ) + (i − 2a )2 ∑ ∑ i =1 i =1 10 n c) Zeige: Falls y = ⋅ ∑ xi , dann gilt 1 n i =1 Seite 18/39 n ∑(y − x ) = 0 . i =1 i v7 Einführung in die beschreibende Statistik 6 Zentralmasse Für statistische Untersuchungen ist das „Zentrum“ der Urliste von besonderer Bedeutung. Solche „Zentren“ werden als Zentralmasse bezeichnet. Das wohl bekannteste Zentralmass ist das arithmetische Mittel, das uns zum Beispiel als Notendurchschnitt in der Schule begegnet: Das arithmetische Mittel x (Mittelwert, Durchschnitt) einer Urliste, bestehend aus den n Zahlen x1 , x2 , x3 , …, x n , ist definiert durch x= x1 + x 2 + x3 + ... + x n 1 n = ⋅ ∑ xi n n i =1 Kommen einige der Zahlen in der Liste mehrmals vor, so ist es oft bequemer, das arithmetische Mittel mit Hilfe der Häufigkeiten zu bestimmen: x1 , ~ x2 , ~ x3 , …, ~ x k , die mit den absoluten HäufigBesteht eine Urliste aus k verschiedenen Zahlen ~ keiten H 1 , H 2 , H 3 , …, H k in der Liste vorkommen, so beträgt das arithmetische Mittel: x= H1 ⋅ ~ x1 + H 2 ⋅ ~ x2 + H 3 ⋅ ~ x3 + ... + H k ⋅ ~ xk 1 k = ⋅ ∑ Hi ⋅ ~ xi n n i =1 wobei n = H 1 + H 2 + H 3 + ... + H k ist. Beispiel 1: Das arithmetische Mittel der Liste {2, 2, 2, 4, 4, 5, 5, 5, 5, 5} beträgt: x= 2+2+2+4+4+5+5+5+5+5 = 3.9 . 10 Etwas bequemer ist die Berechnung mit Hilfe der Häufigkeiten: Die Zahl ~ x1 = 2 kommt mit der Häufigkeit H 1 = 3 , die Zahl ~ x 2 = 4 mit der Häufigkeit H 2 = 2 und die Zahl ~ x = 5 mit der Häufigkeit H = 5 vor. Wir erhalten damit: 3 3 x= H1 ⋅ xɶ1 + H 2 ⋅ xɶ2 + H 3 ⋅ xɶ3 3 ⋅ 2 + 2 ⋅ 4 + 5 ⋅ 5 = = 3.9 . n 10 Seite 19/39 v7 Einführung in die beschreibende Statistik Dies ist aber nicht die einzige Möglichkeit, ein „Zentrum“ der Urliste zu definieren. Stattdessen könnten wir auch den häufigsten Wert oder denjenigen Wert, der genau in der Mitte der sortierten Urliste liegt, als „Zentrum“ definieren. Etwas konkreter: Derjenige Wert, der am häufigsten in einer Liste vorkommt, heisst Modus (oder Modalwert). Der Modus ist vor allem bei qualitativen Merkmalen sinnvoll. Wenn wir beispielsweise eine Urliste von natürlichen Haarfarben haben, so ist der Modus die am häufigsten vorkommende Haarfarbe. Die Berechnung eines arithmetischen Mittels ist in diesem Beispiel dagegen unsinnig. Der Modus ist aber nicht eindeutig: Es ist durchaus möglich, dass es zwei häufigste Haarfarben gibt. Sind die Zahlen x1 , x2 , x3 , …, x n einer Zahlenliste der Grösse nach geordnet und ist n ungerade, so heisst der Wert in der Mitte der Liste Median (oder Zentralwert). Ist n gerade, so ist der Median das arithmetische Mittel5 der beiden Werte in der Mitte der Liste. Beispiel 2: Die Liste {1, 1, 2, 3, 3, 4, 5} hat den Median 3 ( n = 7 ungerade). Die Liste {1, 1, 2, 3, 4, 5} hat den Median Beispiel 3: 2+3 2 = 2.5 ( n = 6 gerade). Schulnoten einer Klasse mit 25 SchülerInnen Note Absolute Häufigkeit 2.5 A 3 E 3.5 c 4 c 4.5 d 5 E 5.5 B 6 A 5 Es gibt unterschiedliche Möglichkeiten, den Median für gerade n zu definieren. So kann je nach Definition grundsätzlich jede Zahl zwischen den beiden Werten in der Mitte der Urliste als Median verstanden werden. Seite 20/39 v7 Einführung in die beschreibende Statistik Arithmetisches Mittel: x= 1 ⋅ 2 .5 + 5 ⋅ 3 + 3 ⋅ 3 .5 + 3 ⋅ 4 + 4 ⋅ 4 .5 + 6 ⋅ 5 + 2 ⋅ 5 .5 + 1 ⋅ 6 = 4 .2 25 Modus: 5 (mit der Häufigkeit 6) Median: 4.5: Geordnete Urliste 2.5, 3, 3, 3, 3, 3, 3.5, 3.5, 3.5, 4, 4, 4 , 4.5, 4.5, 4.5, 4.5, 5, 5, 5, 5, 5, 5, 5.5, 5.5, 6 12 Werte 12 Werte Aufgabe 6.1 a) Die Tabelle in Beispiel 3 wird korrigiert: Es gibt nur 24 Noten und die Note 5 kommt einmal weniger vor. Berechne für diese Korrektur den Modus, den Median und das arithmetische Mittel. b) Leite aus der Formel x= H1 ⋅ ~ x1 + H 2 ⋅ ~ x2 + H 3 ⋅ ~ x3 + ... + H k ⋅ ~ xk 1 k = ⋅ ∑ Hi ⋅ ~ xi n n i =1 eine äquivalente Formel für die Berechnung des arithmetischen Mittels mit Hilfe der relativen Häufigkeit her. c) Welche Zentralmasse können jeweils für nominale, ordinale oder metrische Variablen verwendet werden? Seite 21/39 v7 Einführung in die beschreibende Statistik 7 Streuungsmasse Betrachten wir zunächst ein Beispiel: Beispiel 1: Zwei gleich grosse Klassen (je 25 Schüler) schreiben dieselbe Prüfung. Der Lehrer wertet die Resultate aus und erhält folgende Tabellen: Klasse A Note Klasse B Absolute Häufigkeit 3 Note Absolute Häufigkeit 3 B 3.5 A 3.5 C 4 Eb 4 Eb 4.5 Eeb 4.5 D 5 D 5 D 5.5 A 5.5 C 6 b 6 Für beide Klassen ergibt sich derselbe Mittelwert: x = 4.44 . Die Verteilungen der Noten der beiden Klassen unterscheiden sich aber massiv: Klasse A Klasse B Der Grossteil der Noten der Klasse A liegt in der Nähe des Mittelwerts. Die Noten der Klasse B sind dagegen sehr breit gestreut. Zentralmasse reichen nicht aus, um diese Verteilungen bzw. die Streuung der Daten um den Mittelwert zu beschreiben. Seite 22/39 v7 Einführung in die beschreibende Statistik Wir stehen nun vor der Frage, wie wir die Streuung von Daten einer Urliste quantitativ erfassen können. Wir suchen also ein Mass für die Streuung der Daten. Ein sehr einfaches Streuungsmass ist die so genannte Spannweite: Ist x min der kleinste und x max der grösste Wert einer Urliste, so bezeichnet man die Grösse x max − xmin als Spannweite der Urliste. Die Spannweite gibt also die Länge des gesamten Bereichs an, über den sich die Urliste erstreckt. In Beispiel 1 ist die Spannweite der Noten der Klasse B grösser als diejenige der Klasse A. Allerdings sagt die Spannweite nichts darüber aus, ob der Grossteil der Datenwerte um den Mittelwert konzentriert ist oder ob die Werte gleichmässig über die ganze Spannweite verstreut sind. Eine weitere Möglichkeit wäre, die Abweichungen der einzelnen Datenwerte vom Mittelwert zu mitteln. Für einen Datenwert xi und den Mittelwert x beträgt diese Abweichung xi − x . Wenn wir alle Abweichungen mitteln, erhalten wir aber ein sehr unbefriedigendes Ergebnis: 1 n 1 n 1 n 1 ⋅ ∑ ( xi − x ) = ⋅ ∑ xi − ⋅ ∑ x = x − ⋅ n ⋅ x = x − x = 0 n i =1 n i =1 n i =1 n =x Der Grund für dieses Ergebnis ist, dass die Abweichungen xi − x sowohl positiv als auch negativ werden können und dass sich die gesamten positiven und die gesamten negativen Beiträge gegenseitig aufheben. Dies könnten wir vermeiden, wenn wir stattdessen die Beträge der Abweichungen mitteln, sodass alle Beiträge positiv sind und sich deshalb nicht gegenseitig aufheben können. Das Rechnen mit Beträgen ist aber sehr umständlich. Stattdessen werden üblicherweise die (ebenfalls positiven) Quadrate ( xi − x ) 2 der Abweichungen gemittelt: Für eine Grundgesamtheit mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist σ2 = ( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2 1 n = ⋅ ∑ ( xi − x ) 2 n n i =1 ein Mass für die Streuung der Daten (um x ). Die Zahl σ 2 heisst (theoretische) Varianz. Weil hier die Abweichungen der Datenwerte vom Mittelwert quadriert werden, hat die Varianz nicht die Einheit der Datenwerte: Sind die Datenwerte beispielsweise Körpergrössen, angegeben in cm, so hat die Varianz die Einheit cm 2 . Seite 23/39 v7 Einführung in die beschreibende Statistik Deshalb wird in der Regel nicht die Varianz, sondern die so genannte Standardabweichung betrachtet: Für eine Grundgesamtheit mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist die (theoretische) Standardweichung definiert als: σ= Beispiel 2: ( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2 = n 1 n ⋅ ∑ ( xi − x ) 2 n i =1 Wir betrachten zunächst ein simples Beispiel aus der Physik: Ein Stein wird von einer 5 m hohen Brücke geworfen. Dieses einfache Experiment wird fünfmal wiederholt, wobei jeweils die Fallzeit in Sekunden notiert wird. Dies führt zu folgender Tabelle: 1. Wurf 2. Wurf 3. Wurf 4. Wurf 5. Wurf 0.98 s 1.05 s 1.02 s 0.98 s 0.96 s Der Mittelwert der Messwerte beträgt: x= 0.98 s + 1.05 s + 1.02 s + 0.98 s + 0.96 s = 0.998 s ≈ 1.00 s 5 Damit erhalten wir die Standardabweichung: σ = (0.98 − 0.998) + (1.05 − 0.998) + (1.02 − 0.998) + (0.98 − 0.998) + (0.96 − 0.998) 2 2 2 5 2 2 s ≈ 0.03 s Da die Standardabweichung ein Mass für die Streuung der Messwerte ist, wird sie auch als Kriterium für die Messgenauigkeit verwendet: In diesem kleinen Experiment würde man sagen, dass die Messung mit einem Fehler von etwa 0.03 s behaftet ist. Das Messergebnis wird üblicherweise mit dem MittelWert und der Standardabweichung wie folgt angegeben: (1.00 ± 0.03 ) s. Wäre die Messung exakt, so müssten alle Messwerte gleich und gleich dem Mittelwert sein. In diesem Fall wäre die Standardabweichung und damit der MessFehler Null. Seite 24/39 v7 Einführung in die beschreibende Statistik Für die Berechnung der Varianz mit einem einfachen Taschenrechner ist die obige, in Beispiel 2 verwendete Formel allerdings etwas umständlich. Etwas weniger aufwendig ist die folgende Formel: Für die (theoretische) Standardabweichung gilt der Verschiebungssatz: σ= Beweis: σ2 = = x1 + x 2 + ... + x n − x2 = n 2 2 2 1 n 2 ∑ xi − x 2 n i =1 1 n 1 n 2 ⋅ ∑ ( xi − x ) 2 = ⋅ ∑ ( xi − 2 xi x + x 2 ) n i =1 n i=1 1 n 2 1 n 1 n ⋅ ∑ xi − ⋅ ∑ 2 xi x + ⋅ ∑ x 2 n i =1 n i =1 n i =1 x2 n 1 n 2 1 n = ⋅ ∑ xi − 2 x ⋅ ∑ xi + ⋅ ∑1 n i =1 n i =1 n i =1 =n =x 1 n 2 = ⋅ ∑ xi − 2 x 2 + x 2 n i =1 = Beispiel 3: 1 n 2 ⋅ ∑ xi − x 2 n i =1 Um den Vorteil des Verschiebungssatzes zu illustrieren, berechnen wir die StandardAbweichung aus Beispiel 2 noch einmal unter der Verwendung dieses Satzes: σ = 0.98 + 1.05 + 1.02 + 0.98 + 0.96 2 2 2 2 5 2 − 0.9982 ≈ 0.03 s Aufgabe 7.1 a) Berechne die Standardabweichungen beider Klassen in Beispiel 1. Welcher Zusammenhang besteht zwischen den Resultaten und den Notenverteilungen? b) Ähnlich wie beim Mittelwert kann die Varianz etwas komfortabler mit Hilfe der absoluten Häufigkeiten berechnet werden. Wie sieht diese Formel aus? Seite 25/39 v7 Einführung in die beschreibende Statistik Die theoretische Varianz (bzw. Standardabweichung) wird verwendet, um die Streuung der Merkmalsausprägungen einer Grundgesamtheit quantitativ zu erfassen. In Beispiel 1 haben wir jeweils eine Klasse als Grundgesamtheit betrachtet. Kann aber nicht die Grundgesamtheit, sondern nur eine Stichprobe untersucht werden, so wird in der Regel die so genannte empirische Varianz (bzw. Standardabweichung) verwendet: Für eine Stichprobe mit der Urliste { x1 , x2 , x3 , …, x n } und dem Mittelwert x ist die empirische Varianz definiert durch: s2 = n ( x1 − x ) 2 + ( x 2 − x ) 2 + ... + ( x n − x ) 2 1 = ⋅ ∑ ( xi − x ) 2 n −1 n − 1 i =1 Die Zahl s heisst empirische Standardabweichung. Sie ist ein Schätzwert für die theoretische Standardabweichung der entsprechenden Grundgesamtheit. Um zu begründen, dass hierbei durch n − 1 statt durch n dividiert wird, ist eine ausgereifte Wahrscheinlichkeitstheorie erforderlich, was den Rahmen dieses Leitprogramms sprengt. Wir werden deshalb hier nicht näher darauf eingehen. Aufgabe 7.2 Für genügend grosse n ist der Unterschied zwischen der empirischen und der theoretischen Standardabweichung vernachlässigbar klein. Zeige, dass für n > 50 gilt: 1 < σs < 1.01 . Seite 26/39 v7 Einführung in die beschreibende Statistik 8 Normalverteilungen Es scheint in der Natur zahlreicher Merkmale zu liegen, dass die Merkmalsausprägungen einer angemessenen Stichprobe mehr oder weniger symmetrisch und glockenförmig um den Mittelwert verteilt sind: Dazu gehören beispielsweise die Körpergrösse und das Gewicht von Probanden, der IQ (gemessen an standardisierten IQ-Tests), die Füllmenge von Mineralwasserflaschen, Messfehler in Labors usw. Eine derartige Verteilung wird jeweils dort beobachtet, wo aus Erfahrung eine Art Norm erwartet wird. Bei der Körpergrösse werden wir bestimmt nicht erwarten, einen 10 cm oder 5 m hohen Menschen zu finden. Stattdessen erwarten wir auf Grund unserer Erfahrung, dass die meisten Werte von Erwachsenen in einem Normbereich um 160-190 cm liegen und dass die Häufigkeit nach aussen hin abnimmt. Derartige Verteilungen werden Normalverteilungen (oder auch Gaussverteilungen) genannt. Sie werden näherungsweise durch eine nach Carl Friedrich Gauss benannte Gaussfunktion beschrieben, deren Graph eine glockenförmige Kurve ist: Alter Zehn-Mark-Schein mit dem deutschen Mathematiker, Astronomen, Physiker und Philosophen Johann Carl Friedrich Gauss (1777-1855) und mit der Gaussschen GlockenKurve. Seite 27/39 v7 Einführung in die beschreibende Statistik Eine praktische Besonderheit der Normalverteilung ist der enge Zusammenhang zwischen der Gaussfunktion und der Standardabweichung: Entspricht die Urliste einer Normalverteilung, so gilt näherungsweise: 68.3 % aller Werte liegen zwischen x = µ − σ und x = µ + σ 95.5 % aller Werte liegen zwischen x = µ − 2σ und x = µ + 2σ 99.7 % aller Werte liegen zwischen x = µ − 3σ und x = µ + 3σ Dabei ist µ das arithmetische Mittel der Grundgesamtheit und σ die (theoretische) StandardAbweichung. Bemerkung: Diese Abschätzungen gelten nur für Normalverteilungen und nur für grosse n. Aufgabe 8.1 IQ-Tests sind so normiert, dass der Mittelwert bei 100 Punkten liegt und die Standardabweichung 15 Punkte beträgt. Eine Person mit einem IQ von 130 oder mehr wird hochbegabt genannt. Wie viele der rund 5 Mio. erwachsenen Schweizer (Stand: 2015) sind hochbegabt? Aufgabe 8.2 Würfle mit zwei Spielwürfeln 100-mal, bestimme bei jedem Wurf die Summe der geworfenen Augenzahlen und notiere wie oft die einzelnen Augenzahlsummen bei diesen 100 Würfen vorkommen. Bestimme anschliessend für die so erhaltenen Daten das arithmetische Mittel und die Standardabweichung. Handelt es sich hierbei um eine Normalverteilung? Seite 28/39 v7 Einführung in die beschreibende Statistik 9 Quartile Die in den vorherigen Kapiteln besprochenen Zentral- und Streuungsmasse geben nur wenig Einblick in die Verteilung der Merkmalsausprägungen einer Urliste. Insbesondere dann, wenn diese nicht normalverteilt sind, ist es nützlich weitere Kenngrössen zur Hand zu haben, die etwas mehr Aufschluss über die Verteilung geben. Eine sehr einfache und schnelle Möglichkeit bietet die Verwendung von so genannten Quartilen: Die Quartile q1 , q2 , q3 teilen eine sortierte Urliste in vier Abschnitte, sodass in jedem Abschnitt nahezu 25 % der Daten enthalten sind: Das Quartil q2 ist der Median der gesamten Urliste. Das Quartil q1 ist der Median aller Daten (ohne q2 ) im 1. und 2. Abschnitt. Das Quartil q3 ist der Median aller Daten (ohne q2 ) im 3. und 4. Abschnitt. Für die graphische Darstellung der Verteilung von Merkmalsausprägungen einer Urliste mit Hilfe von Quartilen wird oft ein so genanntes Kastenschaubild (Boxplot) verwendet, das auf einfache Weise einen guten Überblick über die Verteilung der Daten gewährt. Dabei werden der 2. und der 3. Abschnitt als Rechtecke, der 1. und der 4. Abschnitt hingegen durch Strecken dargestellt: Min und Max bezeichnen hierbei die kleinste und die grösste Merkmalsausprägung. Seite 29/39 v7 Einführung in die beschreibende Statistik Beispiel 1: In der Region Aarau/Buchs (387 m. ü. M.) wurden in den Jahren 1999 und 2014 die folgenden Windgeschwindigkeiten in m/s gemessen [5]: Jahr Jan Feb Mrz Apr Mai Jun Jul Aug Sep Okt Nov Dez 1999 2.1 2.3 1.7 1.7 1.2 1.3 1.3 1.0 1.1 1.1 1.3 2.4 2014 1.2 1.4 1.1 1.3 1.7 1.5 1.3 1.2 0.9 1.0 0.9 1.4 Anhand der Tabelle erhalten wir folgende Mittelwerte und Standartabweichungen: 1999: x ≈ 1.54 m/s und σ ≈ 0.47 m/s 2014: x ≈ 1.24 m/s und σ ≈ 0.23 m/s Daraus können wir aber nur schliessen, dass die Windgeschwindigkeiten 2014 im Mittel tiefer und näher beim Mittelwert lagen als im Jahr 1999. Mit Hilfe von Quartilen und Boxplots erhalten wir einen differenzierteren Einblick in die Verteilung der Windgeschwindigkeiten. Dazu sortieren wir die Urlisten: 1. Abschnitt 2. Abschnitt 3. Abschnitt 4. Abschnitt 1999 1.0 1.1 1.1 1.2 1.3 1.3 1.3 1.7 1.7 2.1 2.3 2.4 2014 0.9 0.9 1.0 1.1 1.2 1.2 1.3 1.3 1.4 1.4 1.5 1.7 min q1 q2 q3 max Die Boxplots sehen nun wie folgt aus: Seite 30/39 v7 Einführung in die beschreibende Statistik Durch die Boxplots haben wir nun eine bessere Vorstellung von der Verteilung der gemessenen Windgeschwindigkeiten. So sehen wir beispielsweise, dass die Verteilung 2014 näher an einer Normalverteilung liegt, als jene im Jahr 1999. Im Jahr 2014 liegen z.B. je 50% der Daten in den Intervallen [0.9, 1.2] (IntervallLänge 0.3 m/s) und [1.3, 1.7] (Intervalllänge 0.4 m/s), während im Jahr 1999 je 50% der Messwerte in den Intervallen [1.0, 1.3] (Intervalllänge 0.3 m/s) und [1.3, 2.4] (Intervalllänge 1.1 m/s) liegen. Wir sehen auch, dass die Spannweite der Messwerte rechts vom Median im Jahr 1999 deutlich grösser ist als jene links vom Median und dass der Mittelwert ( x ≈ 1.54 m/s) im Jahr 1999 grösser ist als der Median ( q2 = 1.3 m/s), während der Median und der Mittelwert im Jahr 2014 fast gleich sind ( x ≈ 1.24 m/s und q2 = 1.25 ). Bei einer perfekten Normalverteilung wären der Mittelwert und der Median gleich und der Boxplot symmetrisch bezüglich einer Spiegelung am Median. Aufgabe 9.1 Die folgenden Boxplots zeigen die Studiendauern (in Semestern) der Studenten einer Universität in verschiedenen Hauptfächern: Beantworte die folgenden Fragen anhand dieser Boxplots: a) Welcher Anteil der Philosophie Studenten benötigt höchstens 16 Semester für das Studium? b) Wie viele Semester benötigt diejenige Hälfte der Mathematik Studenten, die ihr Studium am schnellsten beenden. c) Welcher Anteil der Mathematik Stundenten benötigt 10 bis 12 Semester für das Studium? Seite 31/39 v7 Einführung in die beschreibende Statistik d) Zur Studiendauer im Studienfach Wirtschaft sind folgende Zahlen bekannt: Dauer in Semester 8 9 10 11 12 13 14 15 16 17 Anzahl Stundenten 27 29 37 42 34 51 41 53 45 21 Erstelle anhand dieser Zahlen einen Boxplot für die Studiendauer im Studienfach Wirtschaft. e) Welcher Kennwert ist in Teilaufgabe d) grösser: Median oder Mittelwert? Lässt sich dieses Resultat alleine mit Hilfe des Boxplots begründen? Seite 32/39 v7 Einführung in die beschreibende Statistik Anhang A: Zusammenhänge zwischen Zentral- und Streuungsmassen In Kapitel 7 haben wir uns darüber Gedanken gemacht, wie man ein Mass für die Streuung der Datenwerte um den Mittelwert definieren könnte. Eine Möglichkeit wäre – so unsere Überlegung – die Abstände | xi − x | zu mitteln, wodurch man die so genannte mittlere absolute Abweichung erhält: 1 ⋅ n n ∑ |x −x| i i =1 Da das Rechnen mit Beträgen sehr aufwendig ist, haben wir stattdessen die Standardabweichung bzw. ihr Quadrat, die Varianz σ 2 = ∑ 1 n n i =1 ( xi − x ) 2 , eingeführt. Dies ist aber nicht das einzige Argument, das für die Wahl der Standardabweichung bzw. der Varianz als Streuungsmass in Bezug auf den Mittelwert spricht. Tatsächlich besteht ein enger Zusammenhang zwischen dem arithmetischen Mittel x und der Varianz σ 2 . Um diesen Zusammenhang zu verstehen, ist es sinnvoll, die Varianz etwas allgemeiner als Funktion v( x) eines beliebigen Zentralmasses x zu definieren (mittlere quadratische Abweichung): n v( x) = ⋅ ∑ ( xi − x)2 1 n i =1 Es gilt dann: Für das arithmetische Mittel x = x ist die Funktion v( x) minimal und entspricht der Varianz: σ 2 = v( x ) . Beweis: n n n n n 1 1 1 v( x) = ⋅ ∑ ( xi − x) 2 = ⋅ ∑ ( xi 2 − 2 xi x + x 2 ) = ⋅ ∑ xi 2 − 2 x ⋅ ∑ xi + ∑ x 2 n n n i =1 i =1 i =1 i =1 i =1 n n n n = ⋅ ∑ xi 2 − 2 x ⋅ ⋅ ∑ xi + ⋅ ∑ x 2 = ⋅ ∑ xi 2 − 2 x ⋅ x + x 2 1 n 1 n i =1 i =1 =x 1 n i =1 1 n i =1 = nx 2 Das heisst, v( x) ist eine quadratische Funktion. Das Minimum der Funktion liegt im Scheitelpunkt des Funktionsgraphen. Diesen finden wir durch quadratisches Ergänzen: n n v( x) = x 2 − 2 x ⋅ x + ⋅ ∑ xi 2 = ( x − x ) 2 − x 2 + ⋅ ∑ xi 2 = ( x − x ) 2 + 1 n 1 n i =1 i =1 1 ⋅ n n ∑x i =1 i 2 − x2 =σ 2 (Verschiebungssatz!) Somit ist die Funktion v( x) = ( x − x ) 2 + σ 2 minimal für x = x und das Minimum hat an dieser Stelle den Wert σ 2 ( S( x | σ 2 ) ist der Scheitelpunkt des Funktionsgraphen!).Ñ Seite 33/39 v7 Einführung in die beschreibende Statistik Nun stellt sich natürlich die Frage, für welchen x-Wert oder für welches Streuungsmass die mittlere absolute Abweichung der Datenwerte minimal ist. Um die Frage zu beantworten, definieren wir die mittlere absolute Abweichung ebenfalls als Funktion a ( x) eines beliebigen x-Wertes: n a ( x) = ⋅ ∑ | xi − x | 1 n i =1 Wir wollen nun der Einfachheit halber den Vorfaktor 1 n der Funktion a ( x) weglassen. Das können wir ohne Bedenken tun, denn a ( x) ist genau dann minimal, wenn die Summe Σ in=1| xi − x | minimal ist. Der Ausdruck Σ in=1| xi − x | ist die Summe der Abstände aller Datenwerte xi vom Argument x. Stellen wir diese Abstände (blau und rot) in der sortierten Urliste für verschiedene x graphisch dar, so sieht das folgendermassen aus: für ungerade n für gerade n Wir wählen x zunächst so, dass der Wert entweder genau in der Mitte aller Datenwerte (für ungerade n) oder an einer beliebigen Stelle zwischen den beiden Werten in der Mitte aller Datenwerte (für gerade n) liegt, so wie in den oberen beiden Diagrammen dargestellt. Die Summe der blauen Linien entspricht dann gerade der Summe Σ in=1| xi − x | . Wir können uns nun überlegen, was passiert, wenn wir den x-Wert (in den Diagrammen grün dargestellt) verschieben. Dazu betrachten wir die unteren beiden Diagramme: Sobald der x-Wert nicht mehr in der Mitte der Datenwerte liegt, nimmt die Summe der Abstände zum x-Wert zu (hier jeweils um die rot markierten Abstände). Dies gilt, wie wir uns anhand der Beispiele überlegen können, für jeden x-Wert, der nicht in der Mitte aller Datenwerte liegt. Wir stellen also fest, dass die oberen beiden Diagramme gerade diejenigen x-Werte zeigen, für welche die Summe und damit auch die Funktion a ( x) minimal ist. Insbesondere6 gilt: n Falls x der Median ist, so ist die mittlere absolute Abweichung a ( x) = ⋅ ∑ | xi − x | minimal. 1 n i =1 6 Bei geraden n ist a( x ) nicht nur für den Median (so wie wir ihn definiert haben), sondern ebenso für jeden beliebigen Wert zwischen den mittleren beiden Datenwerten minimal. Seite 34/39 v7 Einführung in die beschreibende Statistik Anhnang B: Statistische Auswertungen mit Microsoft Excel 2007 Microsoft Excel beinhaltet alle behandelten statistischen Kenngrössen in Form von Funktionen: Kenngrösse Funktion in Excel Absolute Häufigkeit ZÄHLENWENN Stichprobenumfang/Anzahl Daten in einer Klasse ANZAHL Arithmetisches Mittel MITTELWERT Median MEDIAN Modus MODALWERT Empirische Varianz (Stichprobe) VARIANZ Empirische Standardabweichung (Stichprobe) STABW Theoretische Varianz (Grundgesamtheit) VARIANZEN Theoretische Standardabweichung (Grundgesamtheit) STABWN Mittlere absolute Abweichung vom Mittelwert MITTELABW Minimum MIN Maximum MAX Quartile QUARTILE7 Über den Menüpunkt „Einfügen“ können zudem verschiedene Diagramme eingefügt werden. Dabei ist allerdings zu erwähnen, dass Excel kein Statistikprogramm ist und sich deshalb hinsichtlich der graphischen Darstellung von Daten als etwas umständlich erweist. 7 Quartile werden in Excel nicht ganz genau so definiert, wie wir das in Kapitel 9 getan haben, weshalb die Quartile in Excel oft leicht von jenen gemäss der Definition in Kapitel 9 abweichen. Es gilt aber auch in Excel die Regel, dass die Quartile die Urliste in 4 Abschnitte unterteilen, die je ca. 25% der Daten enthalten. Seite 35/39 v7 Einführung in die beschreibende Statistik Beispiel 1: Kenngrössen Beispiel 2: Histogramm Um ein Histogramm zu erstellen, berechen wir zuerst die absoluten Häufigkeiten der Werte in Urliste mit dem Befehl „ZÄHLENWENN“. Dann markieren wir die Zellen, welche die absoluten Häufigkeiten enthalten, klicken dann unter dem Menüpunkt „Einfügen“ auf das Säulen-Symbol und wählen dort die 2D-Säule aus: Dadurch wird das gewünschte Histogramm eingefügt. Als nächstes wählen wir (immer noch im Menüpunkt „Einfügen“ ein passendes Layout, am besten mit Titel und Achsenbeschriftung: Durch Rechtsklick auf Teile des Diagramms (z.B. die Säulen) stehen diverse Optionen zur Anpassung des Layouts zur Verfügung (z.B. Säulenfarbe oder Säulenrand). Seite 36/39 v7 Einführung in die beschreibende Statistik Beispiel 3: Boxplot Das Erstellen von Boxplots (allerdings ohne Median) ist in Excel etwas umständlicher. Das beginnt mit der Eingabe der Daten zum Zeichnen des Boxplots. Diese müssen immer mit einem Datum versehen werden und folgende Struktur besitzen: beliebiges Datum 1. Quartil Max Min 3. Quartil Ferner ist es seltsamerweise nicht möglich nur einen Boxplot zu zeichnen. Wollen wir trotzdem nur einen Boxplot, so zeichnen wir zweimal denselben und löschen dann einen davon (durch Löschen der entsprechenden Zeile, sobald das Diagramm erstellt ist). Boxplots fügen wir ein, indem wir unter dem Menüpunkt „Einfügen“ das Symbol für „Andere Diagramme“ und dort unter „Kurs“ das passende Symbol auswählen: Durch etwas Kosmetik (Diagrammlayout mit Titel und Achsenbeschriftung auswählen und anpassen) erhalten wir dann die gewünschten Boxplots. Löschen wir nun die zweite, überflüssige Zeile, so haben wir nur noch einen Boxplot. Seite 37/39 v7 Einführung in die beschreibende Statistik Seite 38/39 v7 Einführung in die beschreibende Statistik Quellen- und Literaturverzeichnis [1] [2] B. Eicke, Statistik – Eine Einführung, Pythagoras Lehrmittel, Glarus, 2003 I. Hilsberg, E.Warmuth., Stochastik, Volk und Wissen Verlag GmbH, Berlin, 1997 [3] [4] [5] G. Malle, u.a., Mathematik verstehen, öbv Schulbuch GmbH & Co. KG, Wien, 2010 R. Keller, Unterrichtsskript: Einführung in die Statistik, 2009/2010 http://wind-data.ch/messdaten/monate.php?wmo=66330 (besucht am 28. Juli 2015) Seite 39/39 v7