Qualitative Charakterisierung von Verteilungen. Mehrgipflige versus eingipflige Verteilungen. Lage der Verteilung: Die Werte (und damit die Verteilung) könnten ganz weit links LIEGEN (Werte sehr klein) oder weit rechts sein. Was heißt nun aber: die Werte? Ist damit gemeint: der Großteil der Werte, die ‚mittleren’ Werte? Der kleinste ( bzw. der größte)? die 10% kleinsten? usw. Dispersion der Verteilung. Konzentration auf wenige Punkte bzw. engen Bereich versus auf viele verschiedene Punkte bzw. weiten Bereich. Das entspricht bei Intervallskalen der Breite der Verteilung (auch Streuung genannt ): Die Werte könnten ganz eng beieinander liegen oder aber weit gestreut. Auch hier: welche Werte? Alle? Ein Großteil? Der kleinste und größte? Die 10% kleinsten im Vergleich zu den 10% größten? usw. Schiefe der Verteilung: Manche Verteilungen sind mehr oder weniger symmetrisch, andere könnten als schief bezeichnet werden (linksschief bzw. rechtsschief). Kurtizität (Kurvigkeit, Wölbung) der Verteilung. Manche Verteilungen haben einen spitzen bzw. glatten Gipfel (leptokurtisch bzw. platykurtisch). Die Idealfigur ist die Normalverteilung. ideal glatte bzw. zerklüftete Verteilungen. Quantitative Charakterisierung, Lage: Min, Max, Mode Sortierte Liste Lagemaßzahl Beispiele: Minimum bzw. Maximum min(x)= x(1), max(x)= x(n). Mit x(1) und x(n) aus der sortierten Liste Modalwert (engl. Mode): mode(x) Der Modalwert ist der x-Wert mit größter Dichte. min(Alter) = 21 = x(1) max(Alter) = 30 = x(16) mode(Alter)= 21. Denn f(x) ist bei 21 am größten Für den Modalwert gilt: f(mode(x)) = max (f(x)) x mode(Familienstand) = 0 (=ledig). Denn f(x) ist bei ‚ledig‘ am größten: 11/16. mode(IQ) = 100. Denn f(x) ist bei 100 am größten. Problem: Es kann Dichtefunktion f(x),auch x=AlterZwei Lösungsstrategien: Streifendiagramm, vertikal Anteil f(x) mehrere Modalwerte Modalwertmenge berichten. 0.8 0.00100 0.4geben (bimodale oder Eindeutigkeitsstrategie: 0.00090 Bei Intervallen das 0.00080 0.6 multimodale 0.3sogar 0.03 0.00070 Intervallmittel berechnen. Verteilungen) f(IQ) 0.00060 Sonst: Modalwert nur für 0.2 0.4 f(x) 0.02 0.00050 unimodale Verteilungen als sinnvoll. 0.01 0.2 0.10.00040 0.00030 0 0.00020 50 0 0.00010 18 0 0 0 70 90 110 130 20 22verlobt 24 IQ ledig Normalverteilung für den 1000 2000 3000 IQ 150 26 28 getrennt 4000 30 5000 x mode(Einkommen) = Intervall von 0 bis 100. bzw. mode(Einkommen) = Intervallmittel = 50 Index (i) Wert x(i) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) 21 21 21 21 21 21 22 22 22 22 23 23 24 24 24 30 Quantitative Charakterisierung, Lage: Median und Co. Lagemaßzahl Median (‚mittlerer Wert‘): med(x) ist der x-Wert, der die Verteilung in zwei Hälften teilt. 0.03 Für diskrete Verteilungen präziser: med(x) ist der x-Wert, für den die beiden Forderungen gelten: 1. mindestens die Hälfte aller Werte ist kleiner gleich med(x) 2. mindestens die Hälfte aller Werte ist größer gleich med(x) 0 50 0.4 Der Median med(x) ist hier = 100. f(x) 0.02 Anteilsverteilung 0.01 0.3 Index 70 90 110 130 x 150 f(x) 0.2 0.1 0 18 20 22 24 26 28 30 x Anteil Wert i xi p(xi) 1 2 3 4 5 21 22 23 24 30 0.375 0.125 + 0.125 0.125 0.1875 0.0625 Der Median med(x) ist hier = 22 Diese Idee kann auch auf andere Quantelungen ausgedehnt werden: Einteilung in 3 Teile, 4 Teile usw. Terzile sind die beiden x-Werte, die die Verteilung in drei Drittel teilt: 1. Terzil und 2. Terzil. Quartile sind die 3 x-Werte, die die Verteilung in 4 Viertel teilt: 1. Quartil und 2. Quartil (= Median) und 3. Quartil. Darüber hinaus gibt es: Quintile (5 Teile), Sextile (6 Teile), Septile (7 Teile), Oktile (8 Teile), Dezile (10 Teile) usw. Perzentile heißen die 99 Werte, die eine Quantelung in 100 Teile ermöglichen: 1. Perzentil, 2. Perzentil usw. Quantile: Diese ‚-ile‘ können unter dem Begriff Quantil zu bestimmten Quanten (= q) zusammengefasst werden. Beispiel: Das 1. Terzil ist das Quantil zum Quantum 1/3. Das 2. Terzil ist das Quantil zum Quantum 2/3. Beispiel: Das 1. Quartil ist das Quantil zum Quantum 1/4. Das 3. Quartil ist das Quantil zum Quantum 3/4. Quantile 0.03 f(x) 0.4 Bis zu welchem x-Wert 0.01 liegt ein gegebenes 0 50 70 90 110 130 x 150 Quantum q (=Anteil) Dieser x-Wert heißt Quantil zum Quantum q: aller Werte? 0.2 0.02 0.3 f(x) 0.1 0 ~ xq 18 20 22 24 26 x ¾Sortierte Liste Bei diskreten Verteilungen Auf Grund der sortierten Liste das Quantil berechnen: 30 Quantile zu q= Für diskrete Verteilungen muss diese Definition präzisiert werden: für ~ xq gelten die beiden Forderungen: 1. mindestens q aller Werte ist kleiner gleich ~ xq , 2. mindestens (1-q) aller ~ Werte ist größer gleich x q . 28 Index Gesucht: ~ x1 3 . Das Quantum q=1/3, n=16. z:=16*(1/3) = 5.3333. z ist keine ganze Zahl; daher muss [z]+1 berechnet werden: [5.3333]+1 = 6. Das Quantil ~ x1 3 ist daher das 6. aus der sortierten Liste: x(6) = 21. Wert Sortierte Liste (i) x (i) Index Wert (1) 21 (i) x(i) (2) 21 Berechne z:= n*q (1) 21 (3) (2) (4) der21 Problem Ist z eine nein (3) 21 (5) Nichteindeutigkeit ganze Zahl? ~ (6) Quantils21wird Gesucht: x 3 4. Das Quantum q= ¾, des(4) ~ x q := x ([ z ]+1) n=16. z:=16*(¾) = 12. 21 nur(5) durch die (7) 22 ja z ist eine ganze Zahl. Daher ist das Konvention der (6) 21 (8) 22 ~ x x + ( ) ( ) z z +1 Quantil x 3 4 =: (x(12) + x(13) )/2 = Mittelwertbildung ~ (7) 22 (9) x q := 2 (23+24)/2 = 23.5. gelöst. (8) 22 (10) 22 [z] Die Klammern ummit die Zahl z bedeuten, dass die Dezimalstellen abgeschnitten werden sollen Verteilungsfunktion für(diese Alter(9) (11) 23 Die eckigen beiden Forderungen, So kann das Quantil auch mit Hilfe 1.0 Dezimalstellenabschneideregel auch Floor-Function). (10) 22 (12) 23 der Verteilungs- und Dichte-heißtder Verteilungsfunktion graphisch 0.9 F(x) (11) 23 (13) 24 0.8 funktion formuliert, lauten: = 2,bestimmt werden: Beispiele: [5.13] = 5, [2.4711] [0.61543] =0 q=¾ 0.7 (12) 23 (14) 24 q F( ~ x q ) und Starten von der Ordinate bei q. 0.6 (13) 24 (15) q = 0.5 ~ ~ F( x q ) f ( x q ) q An der Stelle, wo man auf die (14) 24 (16) 30 0.4 q = 1/3 Funktion F(x) stößt, ist auf der (15) 24 0.3 ~ d.h. x q liegt dort auf der xx-Achse (Abszisse) das Quantil 0.2 (16) 30 Achse, wo F(x) erstmals q zum Quantum q ablesbar. 0.1 0.0 überschreitet bzw. erreicht. 18 20 22 24 26 28 30 Quantile bei stetigen Verteilungen Für stetige Verteilungen können Quantile einfacher definiert werden als für die diskreten. ~ x q ist der x-Wert, für den gilt: q = F( ~ x q) . Graphisches Verfahren: Starten von der Ordinate bei q. An der Stelle, wo man auf die Funktion F(x) stößt, ist auf der x-Achse (Abszisse) das Quantil zum Quantum q ablesbar. 1.0 0.9 q = 0.80 0.8 0.7 0.6 q = ½ 0.5 0.4 0.3 q = ¼ 0.2 0.1 0.0 F(x) 1000 0 Berechnen für gruppierte Daten Die in Klassen gruppierten Messwerte seien pro Klasse gleichverteilt im Intervall [ui,oi). Zudem sei der kumulierte Anteil in jeder Klasse F(oi) bekannt. Dann kann das Quantil wie folgt berechnet werden. In der Anteilsverteilung den Index m finden, für den F(om) erstmals q überschreitet (F(om) > q) bzw. erreicht (F(om) = q). F(om) >q o u ~ x q := m + m +1 (q F(u m ))b m ~ x q:= u m + 2000 ~ 3000 xq 5000 x 4000 Gesucht: x0.7 , daher ist q = 0.7. Index m = 4. Hier erreicht F(o4) nun 0.7; F(o4) = 0.7. o4= 2000. u5=2000. Daher ist ~ das Quantil x0.7 = (2000 + 2000)/2 = 2000. ~ Gesucht: x.8 , daher ist q = 0.80. Index m = 5. Erst hier ist F(o5) > 0.80. u5= 2000. F(u5) = F(2000) = 0.70. Daher ist ~ das Quantil x.8 = 2000 + (0.80-0.70)3000/ 0.30 = 3000. Gesucht: x½ , daher ist q = 0.50. Index m = 4. Erst hier ist F(o4) > 0.50. u4= 1000. F(u4) = F(1000) = 0.40. Daher ist ~ der Median x½ = 1000 + (0.50-0.40)1000/ 0.30 = 1333.3. ~ Gesucht: x¼ , daher ist q = 0.25. Index m = 3. Erst hier ist F(o3) > 0.25. u3= 500. F(u3) = F(500) = 0.20. Daher ist das ~ 1. Quartil x¼ = 500 + (0.25-0.20)500/ 0.20 = 625. Jeder Klasse entspricht eine Gerade. Kumulierte Anteilsverteilung Für q muss festgestellt werden, welche Gerade benötigt wird. Die Geradengleichung allgemeinKlassen ist: y = a +Klassen bx. Die Gerade geht durch die Klassen Kum. Punkte (u m, F(u m) ) und (o m, F(o mIndex )) . Breite Anteil Grenzen F( o m ) F( u m ) F(o ) a und b kann durch Einsetzen der Punkte b bu m i o = bu= i o m iu m , a i F(u m ) i in die Gleichung berechnet werden. 100 1 0 100 0.10 ~ = a + b500 q xq ~ x0.20 /b Nun wird der Punkt (~ xq , q) in die 2 q = (q a )400 100 1 ~ F(u m ) +0.40 Gleichung eingesetzt. 3 x500 bu m ) b 500 q = (q 1000 F(x) 1000 4000 ~ =q 2 Begründung der Formel für das Quantil 0 3000 ~ F(o m ) F(u m ) 1.0 0.9 q = 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 2000 625 1333 5000 x Weiteres Umformen und Einsetzen von a und b liefert die Formel: 4 5 1000 2000 0.70 1000 om u m ~ = u m +5000 x q2000 (q F(u 1.00 m )) F( u m ) 3000 F( u m ) Median, Hinges und Eighths aus der EDA. In der EDA (TUKEY, 1977 Exploratory Data Analysis) wurden innovativ ‚anschauliche‘ Begriffe und Konzepte eingeführt, die denen der ‚klassischen‘ Statistik ähnlich sind, aber etwas anders definiert sind. So entsprechen die ‚Hinges‘ (=Falten) fast dem 1. und 3. Quartil, die ‚Eighths‘ fast dem 1. und 7. Oktil, aber nicht bei jedem n. Berechnungsmethode Zuerst wird die Tiefe für die Größen berechnet; das ist die Position in der sortierten Liste von vorne bzw. von hinten. Tiefe(Median)=(n+1)/2. Tiefe(Hinges)=([Tiefe(Median)]+1)/2. Tiefe(Eighths)=([Tiefe(Hinges)]+1)/2. Beispiel: 9 sortierte Werte 7, 18, 23, 24, 25 ... . Man denke sich die UEen als Perlen, die auf eine Schnur aufgezogen sind. Hält man die Schnur an beiden Enden fest, fällt die Schnur so, dass unten die Medianperle hängt. Der Median ist dann 25. 1 7 1 29 5 25 4 24 2 18 4 26 2 28 5 3 3 hu Hinges ho 25 27 23 Durch Hochziehen der Medianperle entstehen Falten, bei der 3. Perle (von vorn bzw. hinten): die beiden Werte 234und 27 sind die4Hinges 24 26 5 Beispiel: 10 Werte, zusätzlich 32. Hochziehen in der Mitte. 25 5 5 25 26 Mittel der beiden: 4 25.5 4 5 = Median 5 24 27 25 26 1 7 Der Median(x) = x(Tiefe(Median)) , falls Tiefe(Median) eine ganze Zahl ist, sonst ist der Median das Mittel der beiden Werte, zwischen denen die Dezimalzahl liegt. 2 18 3 23 Entsprechend erfolgt die Berechnung der beiden Hinges (hu, ho) und der beiden Eighths(eu, eo). 4 24 hu 5Hinges5 25 26 4 ho 27 1 32 2 29 3 28 4 4 Hochziehen der Medianperle. Beispiel: 11 Werte, zusätzlich 38. 27 24 Beispiel (9 Werte). Tiefe(Median)=(9+1)/2 = 5. Tiefe(Hinges)=([5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = 25. hu = 23 (3. von vorne), ho = 27 (3. von hinten), eu = 18 (2. von vorne), eo = 28 (2. von hinten). Beispiel (10 Werte). Tiefe(Median)=(10+1)/2 = 5.5. Tiefe(Hinges)=([5.5]+1)/2 = 3. Tiefe(Eighths)=([3]+1)/2 = 2. Median(x) = (25+26)/2. hu = 23 (3. von vorne), ho = 28 (3. von hinten), eu = 18 (2. von vorne), eo = 29 (2. von hinten). Beispiel (11 Werte). Tiefe(Median)=(11+1)/2 = 6. Tiefe(Hinges)=([6]+1)/2 = 3.5. Tiefe(Eighths)=([3.5]+1)/2 = (3+1)/2 = 2. Median(x) = 26. hu = 23.5 (Mittel des 3. und 4. von vorne), ho = 28.5 (Mittel des 3. und 4. von hinten), eu = 18 (2. von vorne), eo = 32 (2. von hinten). 5 6 5 25 26 26 1 7 2 18 5 25 4 3 5 24 23 25 Mittel der beiden: 23.5 4 hu 24 5 6 26 1 38 5 27 2 32 4 3 28 29 Mittel der beiden: 4 28.5 ho 28 5 27 6 Hinges 26 5 Der Prozess des Faltens könnte werden, indem 25 weiter fortgesetzt 27 die Hinges selbst hochgezogen werden. Das führt dann zu einer Art 6 Achtelung der Perlenkette. Usw. 26 Lagemaß Arithmetisches Mittel x Das arithmetische Mittel (engl. Mean) wird auch als Mittel, Durchschnitt oder Schwerpunkt (engl. Centroid) bezeichnet bzw. etwas unpräzis einfach als der Mittelwert. Für Urliste: + + ... + x n 1 n x = x1 x 2 = xi n n i =1 Die Schwerpunkt-Eigenschaft bedeutet, dass die Summe der Differenzen zum Mittel 0 ist, was auch mit Hilfe einer Dezimalwaage demonstriert werden kann. Die Summe der Differenzen zum Mittelwert ist 0: Für Verteilung: x = I i =1 pi x i = I 1 n = n i x i i 1 Arithmetisches Mittel des Alters (aus Urliste) x = (22+24+...+23+21+21) / 16 = 362 / 16 = 22.625. n=16, es wird über 16 Werte gemittelt (ungewichtet). Arithmetisches Mittel des Alters (aus Verteilung) mit Anteilen (I=5): 6 3 4 2 1 x = 16 21+ 16 22 + 16 23+ 16 24 + 16 30 = 22.625. Mittel über 5 Werte (mit Anteilen als Gewichten). 21 22 23 ( x1 x ) + ( x2 x ) + ...+ ( xn x ) = nx nx = 0 n x = x1 + x 2 + ... + x n _ X 22.625 x ist translationsäquivariant bei linearen Transformationen: y = a + b x. D. h.: Werden alle einzelnen Werte linear transformiert, gilt dies auch für das arithm. Mittel: y = a + bx Für jeden der n x-Werte werden die yWerte gebildet: y i = a + bx. i Den y-Mittelwert erhält man aus x mit der gleichen Transformation. Beweis: y = ((a + bx1 ) + ...+ (a + bxn )) / n = (na + b( x1 + ...+ xn )) / n = a + bx 25 26 27 27 28 29 30 Der Waagebalken habe kein Eigengewicht = x1 + x2 + ...+ xn nx Beachte: 24 Bei den Werten des Balken wird pro UE ein Gewicht gehängt. Balance ist beim Mittelwert als Haltepunkt gegeben. Beispiel(4 x-Werte 0, 1, 2, 3): x ist 1.5. Alle Werte werden linear via y = 96 + 100 x (96 ist a, 100 ist b) transformiert: Die y-Werte sind 96, 196, 296, 396. Wie groß ist der Mittelwert? Statt nochmals neu den Mittelwert zu berechnen, kann der Mittelwert ebenfalls nach der Transformation berechnet werden: 96 + 100*1.5 = 246. Beispiel: Währungsumrechnungen sind lineare Transformationen mit a=0. Ist der Mittelwert in einer Währung bekannt, kann er direkt in eine andere Währung umgerechnet werden (ohne Kenntnis der Einzelwerte). Entscheidungshilfe: Arithmetisches Mittel oder Median Das Mindestskalenniveau für das arithmetische Mittel ist das Intervallskalenniveau, für den Median reicht das Ordinalskalenniveau. Das arithmetische Mittel reagiert sensibel auf extreme Messwerte (Ausreißer), nicht aber der Median. Beispiel: 2 Einkommenslisten, unterscheiden sich in nur einem Wert Ohne Großverdiener: 100, 100, 100, 100, 200 Mit Großverdiener: 100, 100, 100, 100, 1100 0 500 1000 Mittel Median 120 100 300 100 Das arithm. Mittel eignet sich nicht als Indikator dafür, wie es den ‚meisten‘ Leuten geht. Der Median reagiert sensibler auf interne Veränderungen als das arithmetische Mittel. Beispiel: Zuerst haben 5 Leute das gleiche Vermögen, dann nimmt einer jedem 100 weg. Vor Putsch: 200, 200, 200, 200, 200 Nach Putsch: 100, 100, 100, 100, 600 0 500 Das arithm. Mittel bemerkt den ‚Putsch‘ nicht, der Median schon. 1000 Mittel Median 200 200 200 100 Arithmetisches Mittel (stetige Verteilung) Spezialfall: Berechnen für gruppierte Daten Für gruppierte Daten kann die übliche Formel für den Mittelwert verwendet werden mit den Klassenmitten als xWerten. Anteilsverteilung o + ui xi = i 2 Berechnen der Klassenmitten: Für Verteilung: x = I pi x i = i =1 I ni xi 1 n i =1 Klassen Grenzen Klassen Mitte Produkt Klassen Index i ui oi pi xi pi xi 1 2 3 4 5 0 100 500 1000 2000 100 500 1000 2000 5000 0.10 0.10 0.20 0.30 0.30 50 300 750 1500 3500 5 30 150 450 1050 Anteil x =Arithmetisches Mittel des Einkommens = 1685 Allgemeiner Fall 0.03 Der Mittelwert ist im stetigen Fall das Integral des Produktes der x-Werte mit der Dichtefunktion. Arithmetisches Mittel: b xf ( x )dx a f(x) x 0.01 0 50 f(x) ist die Dichtefunktion der Verteilung für x ( a , b) Erläuterung 0.02 60 70 80 90 100 110 120 130 140 150 120 130 140 150 0.03 0.02 Für eine Einteilung des Bereichs von a bis b in mehrere gleich breite (= x) Intervalle seien jeweils die Klassenmitten die x-Werte aus dem Bereich x (a, b) . Das arithmetische Mittel kann dann nach der üblichen Formel berechnet werden: f(x) 0.01 0 50 x x 60 70 80 90 100 110 0.03 Mittel = x p(x) = x (f(x) x ) x(a,b) x(a,b) Einteilung kann feiner gemacht werden, bis x mickrig klein ist: dx b xf ( x )dx a 0.02 0.01 0 50 Beispiel: Gleichverteilung f(x) = 1/(b-a), in x (a,b). Das unbestimmte Integral hier x b1a dx = 1 ba xdx = 1 1 ba 2 x 2, das bestimmte a x b 1a dx = b 1 1 b a 2 xf (x)dx ist (b a ) = 12 (b+ a). 2 Der Mittelwert der Gleichverteilung ist daher die Mitte des Definitions-Intervalls. 2 f(x) x 60 x 70 80 x 90 100 x 110 120 x 130 140 x 150 Beispiel: Normalverteilung. Das Integral für das arithmetische Mittel ist immer der Symmetriepunkt. Im vorliegenden Fall also: 100. Andere Mittelwerte: q-getrimmtes und q-winsorisiertes Mittel Diese Mittelwertbildungen soll die Anfälligkeit des arithmetischen Mittels für Ausreißer abschwächen. q ist der Anteil der fraglichen Ausreißer im oberen bzw. unteren Bereich und muss vorgängig festgelegt werden. q-getrimmtes Mittel. Beim getrimmten Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte eliminiert. Das arithm. Mittel der restlichen Werte heißt das q-getrimmte Mittel. q-winsorisiertes Mittel. Bei diesem Mittel wird ein Quantum q der kleinsten Werte bzw. größten Werte durch weniger extreme ersetzt. Das arithm. Mittel der so modifizierten Werte ist das q-winsorisierte Mittel. Für sortierte Liste: Berechne z:= n*q. Wähle die Werte zwischen dem [z]. und dem (n-[z]+1). aus: x([z]+1) ,..., x(n-[z]) Berechne den Mittelwert der ausgewählten Werte Für sortierte Liste: Wie oben z:= n*q. Sortierte Liste Beispiel: q-getrimmtes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). Index (i) Wert x(i) Daher sollen die alle Werte zwischen dem [z]. d.h. dem 1. und dem n-[z]+1. d.h. dem 16-1+1. = 16. Die Werte zwischen dem 1. und 16. sind die Werte vom 2. bis zum 15. (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) 21 21 21 21 21 21 22 22 22 22 23 23 24 24 24 30 24 Der Mittelwert über die verbleibenden Werte ist das q-getrimmte Mittel = 22.214 Beispiel: q-winsorisiertes Mittel des Alters für q=0.10. Bei n=16 ist z=1.6. [z]= 1 (Dezimalstellen abgeschnitten). Ersetze den 1. bis zum [z]. durch den [z]+1. Wert. Der 1. bis 1. Wert soll durch den 2. ersetzt werden. Ersetze den (n-[z]+1). bis zum n. durch den (n-[z]). Die Werte vom 16. bis zum 16. Sollen durch den 15. ersetzt werden. Berechne den Mittelwert dieser modifizierten Werte Der Mittelwert über die modifizierten Werte ist das q-winsorisierte Mittel = 22.25. Quantitative Charakterisierung, Streuung Streuungsmessung mit Hilfe der EDA Beispiel Differenz zweier markanter Lagemaßzahlen Streuungsmaßzahl 40 Beispiele: sp(x) := Max(x) –Min(x) Spannweite (engl. range) :=Maximum-Minimum. sp(Alter) = 30-21 = 9. 35 Sehr ‚sensibel‘ für einzelne Extremwerte. Für manche Verteilungen unbrauchbar! xq d q := ~ x 1 q ~ Quantilabstand Differenz zwischen symmetrischen Quantilen für ein gegebenes Quantum q e Für q = 0.25 ist d. 0.25 der Quartilabstand; für q = 0.10 ist d. 0.10 der Dezilabstand. Für Alter: d 0.25 := ~ x0.75 x~0.25= 23.5 - 21= 2.5. ~ ~ EDA-Beispiel d 0.25 := x 0.75 x 0.25 = 29-23 = 6. Der halbe Quantilabstand heißt mittlerer Quantilabstand. H-Spread (Hingedifferenz) E-Spread (Eighthsdifferenz) dh := ho – hu de := eo – eu 0.02 0.3 0.01 0.2 f(x) 110 89.9 110.1 ~ x 0.25 82.7 h e 130 ~ x 0.75 h 117.3 e 150 0 e 15 10 0.1 90 h x~ 20 EDA-Beispiel: hu=23.5. ho=28.5. eu= 18. eo= 32. dh =5, de =14 0.4 70 25 0.25 0.03 0 50 ~30 h x 0.75 5 18 20 22 24 21 23.5 ~ x ~ x h e h 0.25 0.75 e 26 28 30 x Alter Quantitative Charakterisierung, Streuung Streuungsmessung mit Hilfe der Abweichungen aller Werte zu einer Lagemaßzahl Median Streuungsmaßzahl Beispiele: 0.4 Urliste: Mittlere Abweichung n 1 vom Median := d ~x 0.5 := n | x i ~x 0.5 | i =1 arithmetisches Mittel der Distanzen aller Verteilung: I Werte zum Median. ~ d ~x 0.5 := p i | x i x 0.5 | i =1 Median-Abweichung Urliste: MAD := Median (| x i ~ vom Median := x 0.5 |) i =1,L, n Median der Distanzen aller Werte zum D.h. Erstellen einer sortierten Liste der Abweichungen Median. vom Median. engl. Median of Für diese sortierte Liste Absolute Deviations den Median bestimmen. = MAD. 0.3 f(x) 0.2 0.1 0 18 20 22 24 26 28 30 x ~ x½ d ~x0.5 = 166 | 21 22 | + 164 | 22 22 | + 162 | 23 22 | + 163 | 24 22 | + 161 | 30 22 | 6 3 4 2 1 = 16 1 + 16 0 + 16 1 + 16 2 + 16 8 = 1.375 Bei der Erstellung der sortierten Liste der Abweichungen vom Median ist die Verteilung hilfreich, weil da schon gleiche Werte zusammengefasst sind. Erstellen einer sortierten Liste der Abweichungen vom Median: 0, 0, 0, 0 1, 1, 1, 1, 1, 1, 2, 2, 2, 8. 4 Werte aus x=22. 4 Werte aus x=21, 2 Werte aus x=23 3 Werte aus x=24. aus x=30. ~ x½ Für die sortierte Liste den Median bestimmen: Der Median bei n=16 ist der Mittelwert des 8. und 9. Werts in der sortierten Liste: (1+1)/2 = 1 = MAD. Quantitative Charakterisierung, Streuung Var(x) = arithmetisches Mittel der quadrierten Distanzen aller Werte zum arithmetischen Mittel der Werte. Quadratsummen Varianz: Abweichungen aller Werte zum Lagemaß Arithm. Mittel 0.4 für Urliste: n sq x := ( x i x ) 2 i =1 f(x) 0.2 0.1 0 für Verteilung: 18 20 22 24 26 28 30 x I sq x := n p i ( x i x ) 2 i =1 x =22.625 sq x = 16 (166 (21 22.625) 2 + 164 (22 22.625) 2 + 162 (23 22.625) 2 Standardabweichung: Varianz Std(x) := Wurzel aus der Varianz 0.3 _ Streuungsmessung mit Hilfe der n 1 Var(x) := , n = n n sq x + 163 (24 22.625) 2 + 161 (30 22.625) 2 ) Für n* = n-1: Für n* = n : = 77.75 Var(x) = 77.75 / 15 5.18 Var(x) = 77.75 / 16 4.86 Andere Bezeichnungen der Varianz Var(x) Für die Stichprobe: s 2 oder s 2x (um an das Merkmal zu erinnern) oder s 2n (falls durch n dividiert wird) oder s 2n 1 (falls durch n-1 dividiert wird). Für die Population: 2 oder 2x (um an das Merkmal zu erinnern). Wann und wozu durch n-1 dividieren? Wann: Nur in Stichproben, wenn das arithmetische Mittel auch auf Grund der Stichprobe berechnet wurde. In allen übrigen Fällen wird durch n dividiert. Wozu: Die Division durch n-1 in Stichproben wird durchgeführt, wenn die Varianz der Population durch die Varianz in der Stichprobe ‚erwartungstreu‘ geschätzt werden soll. Bei Division durch n. für Verteilung: Var(x) := iI=1 p i (x i x) 2 Bei Division durch n bzw. in diskreten Populationsverteilungen kann die Varianz für die Verteilung etwas einfacher formuliert werden. Formeln zur Varianz Varianz einer Linearkombination. Alle x-Werte werden mit der Linearkombination y = a + bx. transformiert. Wie groß ist die Varianz der transformierten Werte? Varianz einer Linearkombination Var(a+bx)= b2*Var(x) Dehnung (um b) wirkt sich quadratisch im quadratischen Konzept der Varianz aus. ‚Breite‘ bleibt gleich bei Verschiebung um a. 4-Väter-Beispiel: 4 x-Werte Alter: 42, 44, 46, 52 x = 46 Sei y= -21+ 0.5*x. a= -21. b= 0.5. y=2 xi (xi x )2 42 44 52 46 16 4 36 0 Verschiebungssatz für sqx zur einfacheren Berechnung der Quadratsummen bei ‚krummen‘ Mittelwerten: n n sq x = (x i x )2 = x i2 nx 2 i =1 i =1 Zuerst Summe der quadrierten Werte bilden. Erst danach den Mittelwert (quadriert und mit n multipliziert) subtrahieren. (yi y )2 0 1 5 2 4 1 9 0 -21 + ½ x •¼ Var(x) = 56 / 3 Verschiebungssatz. yi (½)2 Var(y) = 14 / 3 Beispiel: Alter, 16 Studenten. Mittelwert = 22.625. Berechne zuerst Summe der quadrierten Werte: 2 2 2 2 6 * 21 + 4 * 22 + 2 * 23 + 3 * 24 + 30 2 = 8268 Danach 2 16*quadrierter Mw. berechnen 16 * 22.625 = 8190.25 Differenz: sqx = 8268 – 8190.25 =77.75 , wie vorher! (Geschätzter) Standardfehler des arithmetischen Mittels Der Standardfehler ist die Standardabweichung der Verteilung aller denkbaren Mittelwerte, die man erhielte, wenn man etwa sehr viele Stichproben ziehen würde (jeweils mit gleichem n). Standardfehler des arithmetischen Die Standardabweichung des arithm. Mittels 1 Mittels ist kleiner als die der Werte Stf ( x ) = Std( x ) 1 selbst, und zwar um den Faktor . n n Standardfehler des Altersmittelswerts bei einer Stichprobengröße von n=16 Std( X ) = Std(x) / n = Std(x) / 4. = 2.27668/ 4 = 0.56917 Etwas exakter spricht man vom geschätztem Standardfehler, wenn die Std(x) selbst auf Grund der Stichprobe geschätzt wird. Geometrische Interpretation der Varianz 4-Väter-Beispiel: y-Werte 0, 1, 2, 5 y=2 Im ‚Variablen-Raum‘ Varianz als mittlere Fläche Die Werte werden zentriert (d.h. arithmetisches Mittel wird subtrahiert) und auf dem Zahlenstrahl abgetragen. Die Abweichungen vom Mittelwert werden quadriert und können als Flächen-Quadrate dargestellt werden. 0 -2² 3² y -2 0 -1 1 0 2 1 3 Im ‚Einheiten-Raum‘ Pro UE wird eine Achse verwendet. Bei n UEen ist daher ein n-dimensionaler Raum nötig. Für jeden Wert, der genau dem Mittel entspricht, kann die Dimension um 1 reduziert werden. Der Nullpunkt stellt den Mittelwert dar. Auf jeder Achse werden als Werte die Differenzen zum Mittelwert eingetragen. Das Ergebnis ist ein Datenpunkt für die gesamte Stichprobe. 2 14/3 = Var(y) -1² yy 1 2 4 3 5 Std(y) = 2.1 3 _ yi y yi 0 1 5 2 (yi y )2 -2 -1 3 0 4 1 9 0 14 Var(y) = 14 / 3 = 4.66. n sq y = Var(y) := sq y : ( y i y ) 2 n 1 i =1 _ 3 y1 y Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. a 3 y2 d _ y b -3 3 -3 _ y3 y e c Berechnung der Distanz: wiederholte Anwendung des Pythagoras-Satzes: -2 -1 -3 Der quadrierte Abstand vom Nullpunkt zum Datenpunkt ist genau die Summe der quadrierten Abweichungen vom Mittelwert = Var(y) * (n-1) Zuerst noch eine Hilfsebene einfügen. Mit dem braunen Dreieck kann d auf Grund von a und c berechnet werden: d2 = a2 + c2. Mit dem lila Dreieck kann e auf Grund von d und b berechnet werden: e2 = d2 + b2. Nun ist e schon die gesuchte Distanz, quadriert: e2 = d2 + b2 = a2 + c2 + b2. Schiefe der Verteilung Schiefemaß: schiefe(X) Bei linksschiefen Verteilungen ist das arithmetische Mittel links(kleiner) vom Median. Daher ist dann die Differenz arithmetisches Mittel minus Median negativ. Bei symmetrischer Verteilung ist diese Differenz 0 und bei rechtsschiefer Verteilung positiv. Beispiele für unterschiedliche Verteilungen: symmetrisch rechtsschief linksschief Schiefemaß x ~x 0.5 schiefe ( x ) := std(x) xi ni xi ni xi ni 0 1 2 1 3 6 0 1 2 2 6 2 0 1 2 6 3 1 1 schiefe(x) 1 Anteil 0. 6 linksschief symmetrisch rechtsschief 0. 5 Die Division durch die Standardabweichung normiert den Schiefekoeffizient (siehe MOOD et al. 1974, S. 76) 0. 4 0. 3 0. 2 0. 1 0 arithm. Mittel - Median 0 1 2 0 1 2 0 * * * schiefe(x) = -0.71 * schiefe(x) = 0 1 2 * * schiefe(x) = 0.71 Box-Plot (bzw. Box-and-Whisker Plot) Median als Querstrich eintragen. Hinges ebenfalls eintragen. Ad-Hoc-Beispiel mit n=11. Alters-Werte sortiert: 7, 18, 23, 24, 24.5, 25, 27, 28, 29, 32, 38. Median = 25. hu= 23.5; ho=28.5; h-Spread= ho- hu=5. Bereiche: Innere Zäune = 16 bis 36. Äußere Zäune= 8.5 bis 43.5 Hinges mit einer Box (daher Box-Plot) verbinden Nun kann das Feld durch Zäune (engl. Fences) abgesteckt werden. Der obere innere Zaun liegt 1.5* h-Spread über dem oberen Hinge. Der untere innere Zaun liegt 1.5* h-Spread unter dem unteren Hinge. Der obere äußere Zaun liegt 3* h-Spread über dem oberen Hinge. Der untere äußere Zaun liegt 3* h-Spread unter dem unteren Hinge. Alter 40 Jeder Wert zwischen dem innere Zaun und äußerem Zaun wird durch einen Stern markiert. h-Spread *1.5 Oberer innerer Zaun h-Spread *1.5 Whisker Oberer Hinge ho 30 h-Spread 25 Median Unterer Hinge hu 20 Festlegung der Whiskers (=Schnurrbart). Das sind die Linien (nach oben bzw. unten) bis zum extremsten Wert, der noch innerhalb des inneren Zauns liegt. Box-Plot 35 Extremwerte-Markierung (Outlier, Ausreißer) Jeder Wert außerhalb der äußeren Zäune wird durch einen fetten Punkt markiert. Oberer äußerer Zaun 15 Whisker h-Spread *1.5 Unterer innerer Zaun h-Spread *1.5 10 Unterer äußerer Zaun Die Zäune gehören nicht zum Boxplot. 5 Streuungsmaße für qualitative Merkmale Alle bisher behandelten Streuungsmaße bauen auf der Breite der Verteilung auf. Das setzt für das Merkmal Intervallskalenniveau voraus. Für ein qualitatives Merkmal kann untersucht werden, inwiefern die Anteilsmasse auf eine einzige Ausprägung bzw. einige wenige Ausprägungen konzentriert ist (geringe Streuung), oder auf mehrere Ausprägungen eher gleichmäßig verteilt ist (große Streuung). Modaldispersion: md Der Anteil der Werte, die nicht in der Modal-Ausprägung liegen. Qualitative Varianz: qv Hier werden alle Anteile (quadratisch) berücksichtigt. Modaldispersion md ( x ) := 1 max( p1 ,..., p I ) 0 md( x ) 1 - 1/I (bzw. mittlere Entropie) Potentiell minimale mittlere Länge von Informationen in Bits (bzw. Nits), wenn alle Teilinformationen (Ausprägungen des Merkmals) optimal codiert werden. 0.60 0.60 0.40 0.40 0.20 0 11 16 ledig 4 16 Familienstand Anteil 0.20 1 16 6 16 0 verlobt getrennt 5 16 ledig 5 16 verlobt getrennt Anteilsmasse konzentriert sich Anteilsmasse ist eher gleichmäßig stark auf die Ausprägung‚ledig‘. auf die Ausprägungen aufgeteilt. (geringe Streuung) (große Streuung) 11 1 , p 2 = 164 , p3 = 16 . Die Anteile sind p1 = 16 6 5 5 p1 = 16 , p 2 = 16 , p 3 = 16 . 11 . Der größte Anteil ist max( p1 , p 2 , p3 ) = 16 6 max( p1 , p 2 , p 3 ) = 16 . 11 1 16 = 165 = 0.3125 Daher md = 6 10 md = 1 16 = 16 = 0.625 Qualitative Varianz qv(x) := 1 (p12 + ... + p 2I ) = p1 (1 p1 ) + ... + p I (1 p I ) 0 qv( x ) 1 - 1/I Entropie: h Familienstand Anteil Entropie(in bits) h(x) b := i=1 pi ld(pi ) = ln(12) h(x) I Entropie(in nits) h(x) := I p i =1 i ln(pi ) 0 hx( x ) ln (I) 2 2 2 = 1 138 256 2 2 qv =1 ( 166 + 165 + 165 ) 2 11 qv = 1 ( 16 + 164 + 161 ) = 0.461 = 86 1 256 = 0.664 Zur Entwicklung optimaler Codes im Sinne der Informationstheorie, später! 11 11 4 4 1 1 h(x) = 16 ln(16 ) 16 ln(16 ) 16 ln(16 ) 0.777 nits h(x)b =h(x) / ln(2)= 1.4427 h(x) 1.12 h(x) = 16 ln(16 ) 16 ln(16 ) 6 6 10 5 1.095 nits h(x)b = 1.4427 h(x) 1.58 Überlegungen zur Entwicklung optimaler Binär-Codes Die Entwicklung optimaler Binärcodes entspricht dem Finden einer optimalen Fragestrategie bei Unsicherheit, wobei jede Antwort nur binär (etwa: nein/ja; bzw. 0/1) sein darf. Beispiel: Anne und Bert spielen ‚Felderraten‘ auf dem PC. Der PC wählt zufällig (jedes Feld mit gleicher Chance) ein bestimmtes Feld auf einem Schachbrett. Anne soll erraten, welches Feld ausgewählt ist. Der PC antwortet auf Annes Fragen jeweils mit nein bzw. ja oder 0 bzw. 1. Bert macht das auch. Beide wiederholen das Spiel öfters. Gewinner ist, wer pro Spiel am wenigsten Fragen braucht. Welches ist hier die optimale Fragestrategie? 1 2 3 4 5 6 7 8 z.B. für Suche von C8 A 1. Feld oberhalb der Mitte? 1. B C 2. Feld links der Mitte? 0. * D 3. Liegt es in Zeile A bzw. B? 0. E 4. In Spalte 5 bzw. 6? 0. F 5. In der Zeile C? 1. G 6. Ist es in Spalte 7? 0. H Antwortfolge: 100010. Daher muss es Feld C8 sein. Bei I Ausprägungen sind ld(I) Fragen bei optimaler Fragestrategie erforderlich, wenn die Chancen aller Ausprägungen gleich sind. Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig identifiziert werden. Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche Antworten haben. Daher insgesamt 26 = 64 mögliche Antwortsequenzen. Der Logarithmus von 64 zur Basis 2 löst die Aufgabe: 2 hoch x = 64. D.h. x = ld(64) = 6. Umgeformt: 6 = - ld(1/64). Es gilt auch: ld(I) = -ld(1/I) Bei ungleichen Anteilen sind andere Fragestrategien besser. Die optimale Strategie wird auf Grund der Anteile entwickelt. Nach Ausprägungen mit großem Anteil wird zuerst gefragt. z.B. Falls der PC fast immer das Feld C8 wählt, ist es wohl optimaler, zuerst zu fragen: Ist es Feld C8? Überlegungen zur Entwicklung optimaler Binär-Codes, Forts. Die optimale Strategie wird auf Grund der Anteile entwickelt. Zuerst nach Ausprägungen mit dem größten Anteil fragen; danach die seltenen Fälle abklappern! 4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass der PC A in ½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie wählen? Vorschlag: Zuerst nach A fragen., weil der Anteil mit ½ am größten ist (Die Chance, nach der ersten Frage fertig zu sein ist groß). Falls nein nach B fragen (wegen ¼ Chance). Falls nein, nach C fragen. Fragestrategie in Form eines Flussdiagramms Für das Erraten von: A benötigte Fragenanzahl 1 Anteil ½ Optimal? Erwartete Fragelänge(in bits) I piFragenanzahl i i=1 B 2 ¼ C D 3 3 1/8 1/8 Durchschnittlich benötigte Anzahl ‚optimaler‘ Entropie(in bits) Fragen = h ( x ) := b iI=1 pi ld(pi ) Für das Erraten von: benötigte Fragenanzahl Anteil 1/Anteil ld(1/Anteil) A 1 ½ 2 1 B 2 ¼ 4 2 Das gewichtete arithmetische Mittel: kann dann so ausgedrückt werden: Übersetzen des Fragespiels in die Übermittlung von Nachrichten. Eine Antwortsequenz entspricht einem Binärcode, die Länge des Binärcodes (gemessen in bit) der Fragenanzahl. Übertragen vieler gleicher Ausprägungen in einer Nachricht als Packet. 1 A 0 B? 1 B 0 C? 0 1 D C Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die durchschnittlich benötigte Fragenlänge berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3. ½ * 1 + ¼ * 2 + 1/8* 3 + 1/8*3 = 14 / 8 Als gewichtetes arithmetische Mittel: Bei passenden Anteilen gilt: Fragenanzahl = ld(1/pi) = -ld(pi ) A? C 3 1/8 8 3 D 3 1/8 8 3 ½ * 1 + ¼ * 2 + 1/8 * 3 + 1/8 * 3. - (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8)) Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives ‚Spiel‘. Der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64 Schachfelder, die 4 Ausprägungen A B C D) optimal aufgebaut werden, damit zur Übertragung von Nachrichten (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen notwendig sind. Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B. 100010 für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A , 01 für B, 001 für C und 000 für D). Wenn in Nachrichten oft mehrere gleiche Ausprägungen hintereinander übertragen werden müssen, kann ein Wiederholungsmodus (eine zahlenmäßige Information derart, dass z.B.100 gleiche Zeichen folgen usw.) eingebaut werden. So kann die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden. Rest Anteilsverteilung Sortierte Liste Index (i) Wert x(i) (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12) (13) (14) (15) (16) 21 21 21 21 21 21 22 22 22 22 23 23 24 24 24 30 ui 1 2 3 4 5 0 100 500 1000 2000 .0010 .0009 .0008 .0007 .0006 .0005 .0004 .0003 .0002 .0001 0 Anteil Klassen Mitte oi pi xi 100 500 1000 2000 5000 0.10 0.10 0.20 0.30 0.30 100 400 500 1000 3000 Klassen Grenzen Klassen Index i f(x) 0 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 1000 2000 3000 4000 5000 3000 4000 5000 F(x) 0 1000 2000 x Das Verhältnis der Flächen ist gleich dem Verhältnis der Längen: p / q = b m/ s .0010 m m .0009 Daher: s = qmb m/ pm . .0008 .0007 .0006 .0005 .0004 .0003 .0002 .0001 0 .0010 .0009 .0008 .0007 .0006 .0005 .0004 .0003 .0002 .0001 0 f(x) F(u m) 0 1000 2000 um s ~ xq 3000 4000 5000 f(x) 0 1000 2000 3000 4000 5000 .0010 .0009 .0008 .0007 .0006 .0005 .0004 .0003 .0002 .0001 0 f(x) 0 1000 625 ~ 200 x 0.25 e 2000 3000 2500 ~ x 0.75 4000 5000 3750 e ~ Gesucht: x¼ , daher ist q = 0.25. Index m = 3. Erst hier ist F(o3) > 0.25. u3= 500. F(u3) = F(500) = 0.20. Daher ist das ~ 1. Quartil x¼ = 500 + (0.25-0.20)500/ 0.20 = 625. Begründung der Formel für das Quantil 1.0 0.9 q = 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Jeder Klasse entspricht eine Gerade. Für q muss festgestellt werden, welche Gerade benötigt wird. Die Geradengleichung allgemein ist: y = a + bx. Die Gerade geht durch die Punkte (u m, F(u m) ) und (o m, F(o m) ) . F( o ) F( u ) a und b kann durch Einsetzen der Punkte b = om u m , a = F(u m ) bu m m m in die Gleichung berechnet werden. ~ q = a + bx q ~ x q = (q a ) / b Nun wird der Punkt (~ xq , q) in die 1 ~ Gleichung eingesetzt. x q = (q F(u m ) + bu m ) b F(x) 0 1000 2000 ~ 3000 xq 4000 5000 x Weiteres Umformen und Einsetzen von a und b liefert die Formel: o u ~ x q = u m + (q F(u m )) F( u mm) Fm( u m ) n sq y Var(y) := sq y :=( y i y ) 2 n 1 i =1 3 Varianz 3 -3 3 -1 Quadratsummen -3 -2 -1 für Verteilung: I sq x := n p i ( x i x ) 2 i =1 -3 1 2 3 4 5 6 7 8 A B C D E F G H Der Einfachheit wegen werden die 3 Koordinaten mit a, b und c bezeichnet. a b Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes. c Berechnung der Distanz: wiederholte Anwendung des Pythagoras Satzes. Zuerst noch Hilfsebene einfügen Andere Mittelwerte, Geometrisches Mittel Das geometrische Mittel ist die n-te Wurzel aus dem Produkt aller Werte. An die Stelle des Addierens tritt das Multiplizieren. Statt durch n zu dividieren, wird die n-te Wurzel gezogen. Das arithmetische Mittel der logarithmierten Werte ist der Logarithmus des geometrischen Mittels. Bei Wachstumsfaktoren liefert das geometrische Mittel die adäquate Berechnung des Endwerts aus dem Anfangswert. Für Urliste: xG = n x1 x2 ... xn n = n xi i =1 Beispiel (Eine Firma habe seit 4 Jahren des Bestehens folgende Gewinne: 200, 400, 300, 300). Der Wachstumsfaktor des Gewinns ist hier das Verhältnis des jeweiligen Gewinns zum Vorjahresgewinn. Das ergibt 3 Wachstumsfaktoren: x1=400/200=2, x2 =0.75, x3 =1. x G = 3 20.751 = 1.14 (etwas anders formuliert: das ist ein durchschnittliches Wachstum von 14 %). Auf beiden Seiten Logarithmieren liefert: log(x G ) = n 1 n log(x i ) i =1 Die Formel gilt für jede Art von Logarithmus, hier wird der zur Basis e verwendet (natürlicher Logarithmus): ln(x G ) = 13 (ln(2) + ln(0.75) + ln(1)) 13 0.405465 Aus dem Logarithmus einer Zahl kann mit Hilfe des Potenzierens der Basis die Zahl selbst berechnet werden: x G = exp(ln(x G )) = exp( 13 0.405465) = 1.14 Wendet man den durchschnittlichen Wachstumsfaktor pro Jahr seit Beginn an: 200*1.14*1.14*1.14 =300. Der tatsächliche Gewinn am Ende kann damit vom Anfang her mit Hilfe des durchschnittlichen Wachstums berechnet werden. Das arithm. Mittel der Wachstumsfaktoren = 1.25 (=25% Wachstum; etwas größer). Wendet man dies als durchschnittliches Wachstum über die Jahre an wie vorher, erhält man: 200*1.25*1.25*1.25 =390.625 (Wohl etwas zu optimistisch). Voraussetzungen und Eigenschaften des geometrischen Mittels Das Merkmal muss mindestens Verhältnisskalenniveau haben. Die Werte sollten positiv sein. Generell ist das geometrische Mittel ist kleiner (bzw. gleich) als das arithmetische. Wenn über Wachstumsfaktoren gemittelt wird, sollte statt des arithmetischen auf jeden Fall das geometrische Mittel verwendet werden. Verteilungscharakterisierung durch Funktionen der Anteile Verhältnisangaben (engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen Als Darstellung interessiert das Verhältnis der Anteile (Häufigkeiten) zueinander bzw. zu einer ‚Referenz‘Ausprägung. Logit. Odds oddsj(pi ) := pi : pj = pi/pj mit j als Index für die Referenzausprägung Beispiel: Bei Sex unter den ersten 16 ist der ‚männlich‘-Anteil =14/16, der ‚weiblich‘-Anteil=2/16. Als Verhältnis 14 : 2 bzw. 7:1 mit ‚weiblich‘ als Referenzkategorie. bzw. (1/7) : 1 mit ‚männlich‘ als Referenzkategorie bzw. 0.1428 : 1 Beispiel: Nach MENDEL sollten 4 Erbsensorten bei einem Kreuzungsexperiment im Verhältnis 9 : 3 : 3 : 1 stehen (Angaben als Odds). Die Häufigkeiten beim MENDEL’schen Experiment waren: 315, 108, 101, 32. Mit der 4. Ausprägung als Referenzkategorie lauten die realisierten Odds: 9.8 : 3.375 : 3.156 : 1 Der Logit ist der natürliche Logarithmus der Odds. Die Verhältnisse werden logarithmiert; so werden die ‚multiplikativen‘ Verhältnisangaben ‚additiv‘. Logits Logitj(pi ) := ln( pi /pj ) = ln(pi )-ln(pj). mit j als Index für die Referenzausprägung Beispiel: Logit für den ‚männlich‘-Anteil logit(14/16) =ln(7) = 1.96. Der Logit für den ‚weiblich‘- Anteil logit(14/16)=ln(1/7) = -1.96. Durch das Logarithmieren erhält man bei zwei Ausprägungen den gleichen Wert (einmal positiv, einmal negativ). Die Wahl der Referenzausprägung ist dadurch nicht mehr so wichtig. Bei den Odds versucht man, die Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte größer als 1 resultieren (bei Odds für Teilgruppen schwer realisierbar).