1.1 Graphische Darstellung von Messdaten und unterschiedliche Mittelwerte D. Horstmann: Oktober 2014 4 Graphische Darstellung von Daten und unterschiedliche Mittelwerte Eine Umfrage nach der Körpergröße wurde von 87 weiblichen Personen beantwortet, die folgende Angaben machten: Das untersuchte Merkmal“Körpergröße” ist ein metrisch messbares Merkmal. Das bedeutet, die Messung bzw. die Unterscheidung der Merkmalsausprägungen erfolgt anhand einer metrischen Skala, auf der die aufeinanderfolgenden Skalenpunkte gleichlange Intervalle begrenzen (man denke hierbei einfach an einen Zollstock). Aber welche möglichen graphischen Darstellungen gibt es hierfür? D. Horstmann: Oktober 2014 5 Darstellung der erhobenen Daten mit Hilfe eines Säulendiagramms. Wenn man die Daten mit Hilfe eines Säulendiagramms darstellen will, so trägt man die Ausprägungen des untersuchten Merkmals (in unserem Fall der Körpergröße) gegen die absolute Häufigkeit Hxi der entsprechenden Merkmalsausprägung xi (Anzahl der Individuen, die xi cm groß sind) auf. Hierbei kann die absolute Häufigkeit Hxi auch durch die relative Häufigkeit hxi = Hxi N = absolute Häufigkeit Gesamtzahl der klassifizierten Objekte ersetzt werden. D. Horstmann: Oktober 2014 6 Darstellung der erhobenen Daten mit Hilfe eines Säulendiagramms. D. Horstmann: Oktober 2014 7 Darstellung der erhobenen Daten mittels eines Strecken- bzw. Flächendiagramms. Eine Fläche mit einer Grundseite der Länge L wird in Teilabschnitte der Längen lxi = L · hxi unterteilt, die dann den Merkmalsausprägungen zugewiesen werden. D. Horstmann: Oktober 2014 8 Kuchen- bzw. Kreisdiagramme. Man ordnet der Merkmalsausprägung xi einen Kreissektor mit Öffnungswinkel αxi = 360◦ ·hxi zu. D. Horstmann: Oktober 2014 9 Illustration der Daten mit Hilfe eines Boxplots. Achtung!! Besonders klausurrelevant !! D. Horstmann: Oktober 2014 10 Illustration der Daten mit Hilfe eines Boxplots. 1. Zunächst ordnen wir die Messdaten der Größe nach und nennen sie um, so dass x1 den kleinsten und xN den größten Wert bezeichnet. 2. Nun ermitteln wir zunächst das arithmetische Mittel xM der Messdaten (den im üblichen Sprachgebrauch als Durchschnittswert bezeichneten Wert). Dies macht man wie folgt: Man addiert alle Messwerte xi auf und teilt die so entstehende Summe durch die Anzahl an vorliegenden Messdaten, d.h. xM = 1 (x1 + x2 + .... + xN −1 + xN ) . N Der Mathematiker verwendet hierfür eine andere Schreibweise. Statt der Klammer schreibt man xM = N 1 X xi. N i=1 Dies bedeutet also nichts anderes, als dass man alle Werte xi anfangend mit x1 bis xN aufaddiert und dann durch den Wert N teilt. D. Horstmann: Oktober 2014 11 Das Summenzeichen Das Symbol X bedeutet, dass alle hinter diesem Symbol vorkommenden “Objekte” aufaddiert werden sollen. Hierbei werden die einzelnen “Objekte” mit Hilfe eines Laufindex durchnummeriert (bzw. falls möglich hierdurch ausgedrückt), der von einem beliebigen (gegebenen) Wert aus beginnen kann und mit einem gegebenen Wert endet. Somit ergibt sich also die Notation: Endwert des XLaufindex SummandLaufindex Laufindex=Startwert des Laufindex bzw. N X xi = xk + xk+1 + ... + xN −1 + xN i=k D. Horstmann: Oktober 2014 12 Das Summenzeichen Beispiele: 10 X i=1 10 X 1 = 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 = 10 i = 1 + 2 + 3 + 4 + 5 + 6 + 7 + 8 + 9 + 10 = 55 i=1 N X i = 1 + 2 + ... + (N − 1) + N = i=1 N +1 X N · (N + 1) 2 i = 1 + 2 + ... + (N − 1) + N + (N + 1) = i=1 N X i = 2 + ... + (N − 1) + N = i=2 N X (N + 1) · (N + 2) 2 N · (N + 1) − 2 2 xi = x1 + x2 + ... + xN −1 + xN i=1 D. Horstmann: Oktober 2014 13 Das α-Quantil Als nächstes müssen wir einen weiteren Begriff einführen: das sogenannte α-Quantil (wobei hier die Zahl α einen Wert zwischen Null und 1 annimmt, d.h. 0 < α < 1) der Beobachtungsreihe x1, ..., xN des metrischen Merkmals X (in unserem Fall der Körpergröße). Das α-Quantil wird mit dem Symbol xα notiert und ist der Wert der Beobachtungsreihe, der wie folgt ermittelt wird: Die uns vorliegende Beobachtungsreihe ist nach aufsteigender Größe geordnet. Wir bilden den Ausdruck r = N · α. Wenn r nicht ganzzahlig ist, gehen wir zur nächst grösseren ganzen Zahl r über und setzen xα gleich dem Wert unserer geordneten Beobachtungsreihe, der an der r -ten Stelle in der geordneten Reihe steht. Ist r jedoch ganzzahlig, so setzen wir xα gleich dem arithmetischen Mittel aus dem r -ten und dem (r + 1)-ten Wert unserer geordneten Reihe. D. Horstmann: Oktober 2014 14 Das α-Quantil Beispiel: Es sei 0 < α < 1. x1 = 1, x2 = 1, x3 = 2, x4 = 3, x5 = 15, x6 = 1, x7 = 4, x8 = 26, x9 = 5, x10 = 4, x11 = 1, x12 = 9, x13 = 2, x14 = 4, x15 = 4, x16 = 9, x17 = 2, x18 = 1 1. Schritt: Sortieren der gegebenen Werte der Größe nach aufsteigend. x1 = 1, x2 = 1, x6 = 1, x11 = 1, x18 = 1, x3 = 2, x13 = 2, x17 = 2, x4 = 3, x7 = 4, x15 = 4, x10 = 4, x14 = 4, x9 = 5, x12 = 9, x16 = 9, x5 = 15, x8 = 26 2. Schritt: Umbenennen der Werte. x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4, x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26 D. Horstmann: Oktober 2014 15 Das α-Quantil 3. Schritt: Bestimmung der Stelle, an der sich das α-Qunatil befindet, in dem man N · α =: r berechnet. x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4, x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26 In unserem Beispiel ist N = 18. Bislang hatten wir α nicht konkret bestimmt, sondern nur angenommen, dass es ein Wert zwischen 0 und 1 ist. Um nun das Beispiel konkret werden zu lassen, setzen wir für α zwei beliebige konkrete Werte ein. Zunächst setzen wir als Beispiel α = 0.125 = 18 . Damit ist N · α = 18 · 1 18 = = 2.25 8 8 Da 2.25 keine ganze Zahl ist, rundet man diesen Wert zur nächsten ganzen Zahl auf und nimmt als α-Qunatil (hier als 0.125-Quantil oder als 12.5%-Quantil) den Wert, der in der aufsteigend geordneten und umbenannten Datenreihe an der 3. Stelle liegt. In unserem Fall ist es somit der Wert x3 = 1. D. Horstmann: Oktober 2014 16 Das α-Quantil x1 = 1, x2 = 1, x3 = 1, x4 = 1, x5 = 1, x6 = 2, x7 = 2, x8 = 2, x9 = 3, x10 = 4, x11 = 4, x12 = 4, x13 = 4, x14 = 5, x15 = 9, x16 = 9, x17 = 15, x18 = 26 Nun setzen wir als konkretes zweites Beispiel α = 0.5 = 12 . Damit ist N · α = 18 · 18 1 = =9 2 2 Hier erhält man nun mit 9 eine ganze Zahl. Anstatt nun den Wert an der neunten Stelle in der aufsteigend geordneten und umbenannten Datenreihe zu nehmen, bildet man das arithmetische Mittel der Werte, die sich an ihrer neunten und zehnten Stelle befinden. Das heißt, man berechnet den Wert x9 + x10 3+4 = = 3.5 2 2 auch wenn sich der Wert 3.5 nicht in der aufsteigend geordneten und umbenannten Datenreihe befindet, so ist dieser Wert das zu der Datenreihe gehörige 0.5-Quantil bzw. das 50%-Quantil, das man auch den Median der gegebenen Datenreihe nennt. D. Horstmann: Oktober 2014 17 Illustration der Daten mit Hilfe eines Boxplots. Für den Boxplot bestimmen wir nun die 3 Quartile der geordneten Beobachtungsreihe. Die Quartile sind die α-Quantile der Beobachtungsreihe für die Werte α = 0.25, α = 0.5, α = 0.75. Die Besonderheit dieser Werte sind die folgenden Eigenschaften, die sie besitzen. Durch die oben beschriebene Berechnung der Quartile ist sichergestellt, dass 25% der Werte der geordneten Beobachtungsreihe kleiner oder gleich dem 25%-Quantil sind. Analog bedeutet das für das 75%-Quantil, dass 75% der Werte der geordneten Beobachtungsreihe kleiner oder gleich sind. Für das 50%-Quantil gilt, dass genau die Hälfte der Werte der geordneten Beobachtungsreihe kleiner und die andere Hälfte größer diesem sind. Das 50%-Quantil ist also ein besonderer “Mittelwert”, der Median genannt wird. Ein Boxplot ist nun ein Kasten bzw. eine “Schachtel”, dessen bzw. deren beide äußeren Grenzen am Ort des 1. und des 3. Quartils liegen. Im Inneren der Schachtel befindet sich eine Linie, die die Lage des Medians angibt. Von den Grenzen der Schachtel ausgehend zeichnet man je einen Stempel. Diese erstrecken sich bis zu den Extremstellen xmin und xmax der geordneten Beobachtungsreihe. Der arithmetische Mittelwert wird mit einem Kreuz dargestellt. D. Horstmann: Oktober 2014 18 In unserem Beispiel mit den Körpergrößen ergeben sich nun folgende Werte: xM = 168.59, x0.25 = 164, x0.75 = 173, x0.50 = 168, xmin = 150, xmax = 181. Die folgende Abbildung zeigt einen solchen Boxplot für unser konkretes Beispiel. Anmerkung 1. In der Regel weichen Median und arithmetischer Mittelwert weit voneinander ab. D. Horstmann: Oktober 2014 19 1.2 Weitere Analyse der vorliegenden Messdaten D. Horstmann: Oktober 2014 20 Die Stichprobenvarianz Interessant ist sicherlich die Frage, wie sehr die einzelnen Messdaten von dem durchschnittlichen Wert der Messreihe (dem arithmetischen Mittel) abweichen. Das heißt, man ist daran interessiert, die Streuung der Messdaten zu beschreiben. Ein hierbei verwendetes Hilfsmittel ist die sogenannte Stichprobenvarianz oder kurz die Varianz der Messreihe. Definition 1. Die Varianz s2x einer N Daten umfassenden Messreihe ist die durch N − 1 geteilte Summe der quadratischen Abweichungen der Messdaten vom durchschnittlichen Messwert, d.h. 2 sx := ” 1 “ 2 2 2 2 (x1 − xM ) + (x2 − xM ) + ... + (xN −1 − xM ) + (xN − xM ) N −1 = 1 X 2 (xi − xM ) . N − 1 i=1 N !! Klausurrelevant !! D. Horstmann: Oktober 2014 21 Die Stichprobenvarianz Die Varianz einer Messreihe ist also ein Streuungsmaß. Die Bezeichnung s2x soll darauf hinweisen, dass die Varianz als Summe von quadratischen Termen immer größer oder gleich Null ist. Berechnet man die Varianz in unserem Beispiel für die Körpergröße, so ergibt sich: 87 1 X 2 sx = 86 i=1 D. Horstmann: Oktober 2014 „ « 16859 2 30749247 xi − = ≈ 35.75. 100 860000 22 Der Verschiebungssatz für die Stichprobenvarianz Oftmals ist es nützlicher, eine andere Formel zur Berechnung der Varianz heranzuziehen. Wir sehen, dass: N 2 sx 1 X 2 (xi − xM ) n − 1 i=1 = N ” 1 X“ 2 2 xi − 2 · xi · xM + xM n − 1 i=1 ! ! N N X X 1 2 xi − 2 · xi · xM + n−1 i=1 i=1 = = N X !! 2 xM . i=1 Hieraus ergibt sich: 2 sx = D. Horstmann: Oktober 2014 1 n−1 N X i=1 ! 2 xi − 2 · xM · N X ! xi ! 2 + N · xM . i=1 23 Nun haben wir bereits gesehen, dass die Summe der Messdaten geteilt durch die Gesamtzahl der Messdaten gleich dem Wert xM ist. Somit gilt: 2 sx = = = = D. Horstmann: Oktober 2014 1 N −1 N X 1 N −1 N X 1 N −1 N X 1 N −1 N X ! 2 xi i=1 − 2 · xM 2 i=1 −2· N · xM N ! 2 2 xi i=1 2 xi ! 2 + N · xM N X ! xi i=1 ! 2 + N · xM ! 2 − 2 · N · xM + N · xM ! xi ! i=1 ! xi N X ! 2 − N · xM . i=1 24 Der Verschiebungssatz für die Stichprobenvarianz Lemma 1. [Verschiebungssatz für die Stichprobenvarianz] Die Stichprobenvarianz s2x bzw. die Varianz einer Messreihe läßt sich auch mit Hilfe der nachfolgenden Formel berechnen: 2 sx = 1 N −1 N X ! 2 xi ! 2 − N · xM . i=1 Oft ist es nützlich, von diesem Verschiebungssatz Gebrauch zu machen, wenn man die Varianz berechnen soll. D. Horstmann: Oktober 2014 25