Auswertung univariater Datenmengen - deskriptiv Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 1 Lage- und Streuungsparameter III Bibliografie ¾ Prof. Dr. Kück; Statistik, Vorlesungsskript Abschnitt 6.1.2 ¾ Bleymüller/Gehlert/Gülicher; Statistik für Wirtschaftswissenschaftler Verlag Vahlen ¾ Bleymüller/Gehlert; Formeln, Tabellen und Programme Verlag Vahlen Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 2 Lage- und Streuungsparameter III 1 Empirische Streuungsmaße Lageparameter können die Verteilung nicht vollständig beschreiben. Die drei extrem unterschiedlichen Verteilungen haben den gleichen (arithmetischen) Mittelwert von 1000: 2000 2000 2000 1000 1000 1000 0 0 1 2 3 4 5 1 2 3 4 0 5 1 2 3 4 5 Die zweite Aufgabe der statistischen Beschreibung ist die Messung der Streuung. Streuungsparameter dienen der näheren Charakterisierung von Verteilungen. Sie sind ein Maß dafür, wie weit die Daten auf der Merkmalsachse voneinander oder vom Zentrum der Verteilung entfernt liegen. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 3 Lage- und Streuungsparameter III Empirische Streuungsmaße Beispiel: Temperaturschwankungen Für Moskau und Dublin wird die gleiche Jahresdurchschnittstemperatur von 10°C ausgewiesen. Der Vergleich der gemessenen Einzelwerte zeigt folgendes Bild, wo man erkennen kann, dass die Temperaturschwankungen in Moskau größer als in Dublin sind: 30 30 20 20 10 10 0 0 -10 -10 -20 -20 J F M A M J J A S O N D J F M A M J J A S O N D Das Temperaturmittel reicht nicht, um die Temperatursituation zu vergleichen. Hier wird ein Streuungsmaß gebraucht, um die Schwankungen zu charakterisieren. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 4 Lage- und Streuungsparameter III 2 Empirische Streuungsmaße In der beschreibenden Statistik werden folgende Maßzahlen der Streuung verwendet: • Spannweite • Quartilsabstand • Mittlere absolute Abweichung • Varianz • Standardabweichung • Variationskoeffizient Streuungsmaße lassen sich nur für kardinalskalierte Merkmale ermitteln, da sich bei nominal- und ordinalskalierten Merkmalen keine (sinnvollen) Differenzen der Merkmalsausprägungen ermitteln lassen. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 5 Lage- und Streuungsparameter III Spannweite Die Spannweite ist die einfachste Maßzahl für die Differenz der Daten, die den Abstand zwischen dem kleinsten und dem größten Beobachtungswert angibt. Sie drückt damit nicht die mittleren sondern punktuelle Abweichungen aus: Spannweite (Englisch: range) R = a[N] – a[1] a[1] a[N] Dabei sind a[N] und a[1] die der Größe nach aufsteigend geordneten Einzelwerte. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 6 Lage- und Streuungsparameter III 3 Spannweite Beispiel: In der Reihe der geordneten Merkmalswerte der Gewichte für die zehn untersuchten Personen ist die Spannweite die Differenz aus dem Gewicht von Nils und Lisa: Name Lisa Anna Antje MarieDörte Sven Uwe Kai Nr. i 1 2 3 4 5 6 7 8 44 46 50 54 56 69 72 78 ai Jan Nils 9 10 80 101 Es ergibt sich: R = max ai – min ai = 101 – 44 = 57 Die Spannweite beträgt 57 kg. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 7 Lage- und Streuungsparameter III Quartilsabstand Der Quartilsabstand (Englisch: interquartil range) ist die Differenz zwischen dem 75%igen und 25%igen Quartil der Häufigkeitsverteilung. Das ist die Spanne, welche die mittleren 50 % der Daten umfasst: QA = Q3 – Q1 a[1] Q1 Q3 a[N] Dabei sind Q1 und Q3 das erste und das dritte Quartil der Verteilung Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 8 Lage- und Streuungsparameter III 4 Quartilsabstand -Beispiel Beispiel: Für die in Gewichtsklassen erfassten 100 Personen sind zunächst die 75%igen und 25%igen Quartilswerte zu bestimmen: 1,2 Gewicht von…bis unter… f(xi) F(xi) 42,5 – 47,5 0,04 0,04 F(xi) 1 47,5 – 52,5 0,18 0,22 0,8 52,5 – 57,5 0,26 0,48 0,6 57,5 – 62,5 0,20 0,68 62,5 – 67,5 0,12 0,80 … … … 0,4 0,2 0 42 ,5 b 4 7 is 4 7 ,5 b is ,5 52 52 ,5 ,5 5 7 b is 5 7 ,5 b is ,5 62 62 ,5 ,5 b 6 7 is 67 ,5 b is ,5 72 72 ,5 ,5 7 7 b is 7 7 ,5 b is ,5 82 82 ,5 ,5 b 8 7 is 8 7 ,5 ,5 b is 92 ,5 Einfallsklassen Man bestimmt für Q1: 53,1 und für Q3: 65,4. Der Quartilsabstand beträgt 12,3 kg. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 9 Lage- und Streuungsparameter III Mittlerer Quartilsabstand Mittelt man den Abstand der beiden Quartile, so erhält man den durchschnittlichen Abstand der Quartile gegenüber dem Zentrum der Verteilung. Dieser Wert sagt aus, wie weit die Quartile im Mittel von Q2 (Median) abweichen. MQA = Q 3 − Q1 2 Später lernen wir weitere Streuungsmaße kennen, bei denen die Einzelabweichungen gegenüber dem Median gemittelt werden. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 10 Lage- und Streuungsparameter III 5 Quartilsabstand unterschiedlicher Verteilungen Gleichverteilung: F(x) 1 f(x) 0,75 0,25 0 X Quartilsabstand X F(x) 1 Normalverteilung: f(x) 0,75 0,25 0 Quartilsabstand X X Der Quartilsabstand ist bei Normalverteilung kleiner als bei Gleichverteilung. Man kann aus dem Abstand auch vergleichende Aussagen über die Form von Verteilungen ableiten. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 11 Lage- und Streuungsparameter III Quartile einer empirischen Verteilung -Beispiel Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS) HHNE von…bis unter … Euro Früheres Bundesgebiet F(x) 0,072 Unter 900 7,2 900 – 1300 11,7 0,189 1300 – 1500 6,6 0,255 1500 – 2000 14,7 0,402 2000 – 2600 14,7 0,549 2600 – 3600 18,1 0,730 3600 – 5000 14,6 0,876 5000 – 18000 12,2 0,998 Q1 liegt in der Klasse von 1300 bis unter 1500 Euro Q3 liegt in der Klasse von 3600 bis unter 5000 Euro. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik Me = x iu + p− F(x iu ) ⋅ (x io − x iu ) 0 u F(x i ) − F(x i ) Der Median liegt in der Klasse von 2000 bis unter 2600 Euro. Daraus folgt: Me = 2000 + 0,5 − 0,402 ⋅ (2600 − 2000) = 2400 ∈ 0,549 − 0,402 Q1 = 1300 + 0,25 − 0,189 ⋅ (1500 − 1300) = 1484,85 ∈ 0,255 − 0,189 Q 3 = 3600 + 0,75 − 0,730 ⋅ (5000 − 3600) = 3791,78 ∈ 0,876 − 0,730 12 Lage- und Streuungsparameter III 6 Interquartilsabstand als Streuungsmaß - Beispiel Beispiel: Haushaltnettoeinkommen (HHNE) im früheren Bundesgebiet Erwerbsstatistik 2003 ( DESTATIS) HHNE von…bis unter … Euro Früheres Bundesgebiet F(x) Unter 900 7,2 0,072 900 – 1300 11,7 0,189 1300 – 1500 6,6 0,255 1500 – 2000 14,7 0,402 2000 – 2600 14,7 0,549 2600 – 3600 18,1 0,730 3600 – 5000 14,6 0,876 5000 – 18000 12,2 0,998 Q1=1484,85; Q2=Me=2400; Q3=3791,78 QA=Q3-Q1=3791,78-1484,85=2306,93 MQA = Q3 − Q1 2306,93 = = 1153,47 2 2 Die mittlere Hälfte der Haushaltsnettoeinkommen hat einen Abstand von 2306,93€, gegenüber dem Zentralwert beträgt die mittlere Abweichung des ersten und dritten Quartils 1153,47€. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 13 Lage- und Streuungsparameter III Beurteilung der Spannweite ¾ Die Spannweite ist eine einfache Maßzahl für die Streuung. ¾ Die Spannweite drückt die Variationsbreite der Beobachtungswerte aus. Da sie nur aus den beiden Extremwerten berechnet wird, ist sie sensibel für Ausreißer. ¾ Sie ist nicht geeignet, wenn die Anzahl der Beobachtungen sehr groß ist. Beispiel: Würde Nils nicht 101 kg sondern lediglich 81 kg wiegen, so ergäbe sich für die Spannweite 37 kg (statt 57 kg) Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 14 Lage- und Streuungsparameter III 7 Beurteilung des Quartilsabstandes ¾ Der Quartilsabstand wird nicht durch einzelne Extremwerte beeinflusst. Er ist gegenüber Ausreißern robuster. ¾ Der Quartilsabstand gibt die Differenz der Merkmalswerte an, welche die mittlere Hälfte der Einzelwerte repräsentiert. ¾ Der mittlere Quartilsabstand misst die Abweichung des ersten und dritten Quartils, indem die „mittlere Hälfte“ in zwei Bereiche geteilt wird. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 15 Lage- und Streuungsparameter III Mittlere absolute Abweichung für Einzelwerte ¾ Die mittlere absolute Abweichung wird meist gegenüber dem arithmetischen Mittel gebildet. ¾ Grundlage der Streuungsberechnung sind die Abweichungen aller Einzelwerte vom Mittelwert. ¾ Die mittlere absolute Abweichung ist das arithmetische Mittel aller Einzelabweichungen. 1 N MAD = ∑ a i − µ N i =1 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 16 Lage- und Streuungsparameter III 8 Mittlere absolute Abweichung - Beispiel Beispiel: Für die Verteilung der Gewichte der 10 betrachteten Personen ergeben sich bei einem arithmetischen Mittel von 65 kg folgende Abweichungen: MAD= Nils Jan Kai Uwe Sven Dörte Marie Antje Lisa Anna 120 100 80 60 40 20 0 1 (| 44 − 65 | + | 46 − 65 | + | 50 − 65 | +...+ | 101− 65 |) = 15 10 Man erhält als mittlere absolute Abweichung 15 kg. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 17 Lage- und Streuungsparameter III Mittlere absolute Abweichung für gehäufte oder klassierte Daten Für gehäufte bzw. klassierte Daten gilt: Anzahl der verschiedenen Merkmalsausprägungen bzw. Klassen MAD = absolute Häufigkeit der jeweiligen Klasse relative Häufigkeit der jeweiligen Klasse k 1 k x − µ ⋅ h = xi − µ fi ∑ i ∑ i N i =1 i =1 gehäufte Merkmalsausprägung bzw. Klassenmitte Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 18 Lage- und Streuungsparameter III 9 MAD für klassierte Daten -Beispiel Beispiel: Für die in Gewichtsklassen erfassten 100 Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg: Klasse von… Relative Absolute bis unter… Häufigkeit Differenz 42,5 bis 47,5 0,04 15 47,5 bis 52,5 0,18 10 52,5 bis 57,5 0,26 5 57,5 bis 62,5 0,20 0 62,5 bis 67,5 0,12 5 67,5 bis 72,5 0,09 10 72,5 bis 77,5 0,05 15 77,5 bis 82,5 0,03 20 82,5 bis 87,5 0,02 25 87,5 bis 92,5 0,01 30 Mittlere absolute Abweichung: Spalte 2* Spalte 3 0,60 1,80 1,30 0,00 0,60 0,90 0,75 0,60 0,50 0,30 7,35 Interpretation: Bei einem arithmetischen Mittel von (gerundet) 60 kg weichen die Einzelgewichte der 100 Personen durchschnittlich um 7,35 kg ab. Damit wird ein Streubereich von 52,65 kg bis unter 67,35 kg ausgewiesen. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 19 Lage- und Streuungsparameter III MAD für gehäufte Daten - Beispiel Beispiel: Klausuraufgabe 3 vom Februar 2003 In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, Arbeitslosigkeit und Bruttoinlandsprodukt vor: Bundesland Bevölkerungsanteil (%) Erwerbstätige (Tsd.) Erwerbsquote (%) Arbeitslosenzahl (Tsd.) Arbeitslosenquote (%) Bruttoinlands -produkt (Mrd.€) HB 4,8 385 53,5 40 13,6 23,4 HH 11,6 1.048 60,2 71 9,3 75,5 MV 11,8 730 41,2 168 19,6 29,7 NI 53,0 3.482 43,8 350 10,0 180,4 SH 18,8 1.230 43,6 116 9,4 66,0 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 20 Lage- und Streuungsparameter III 10 MAD für gehäufte Daten – Klausur 02/2003 Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung: 3.1 Berechnen Sie die Erwerbsquote (Erwerbstätige je Bevölkerung) für Norddeutschland und weisen Sie den Prozentwert aus. 3.2 Berechnen Sie die Arbeitslosenquote (Arbeitslosenzahl je Arbeitskräftepotenzial) als Prozentwert für Norddeutschland. 3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit dem Bevölkerungsanteil, die Differenziertheit der Bundesländer nach. Lösung … 3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von 25000 € BIP je Einwohner für Norddeutschland. Für die Berechnung der Landeswerte muss zuerst die Bevölkerungszahl nach Bundesländern berechnet werden. Die gewichtete mittlere absolute Abweichung der fünf Bundesländer vom Wert für Norddeutschland beträgt 5000 €. Damit wird ein Bereich in den Grenzen von 20000 und 30000 Euro für den Wert des BIP je Einwohner gebildet. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 21 Lage- und Streuungsparameter III MAD* gegenüber dem Median Wenn als Lageparameter der Median verwendet wird, dann ist die Angabe der mittleren absoluten Abweichung gegenüber dem Median aussagefähig. Median MAD* = 1 k ∑ x i − Me ⋅ h i N i =1 Interpretation: MAD* ist das arithmetische Mittel aller Abweichung der Einzelwerte gegenüber dem Merkmalswert, den die Hälfte der geordneten Daten annimmt. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 22 Lage- und Streuungsparameter III 11 MAD** gegenüber dem Median Es ist auch sinnvoll, anstelle des arithmetischen Mittels den Median der Abweichungen zu bestimmen: MAD** = Me({a 1 − Me ,..., a N − Me }) Abweichung zwischen Wert 1 und Median der Verteilung Interpretation: MAD** gibt den Median aller Abweichung der Einzelwerte gegenüber dem Median an, d.h. es gibt gleich viele negative wie positive Abweichungen gegenüber dem Median. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 23 Lage- und Streuungsparameter III MAD gegenüber dem Median - Beispiel Beispiel: Für das Körpergewicht der 10 etwa gleichaltrigen Personen ergibt sich bei einem Median von 62,5 kg der Zentralwert der Abweichungen wie folgt: Name Nr. i xi Lisa 1 44 Anna 2 46 Antje 3 50 Marie 4 54 Dörte 5 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 |xi - Me| 18,5 16,5 12,5 8,5 6,5 6,5 9,5 15,5 17,5 38,5 Summe=150 kg Das arithmetische Mittel der Abweichungen (MAD*) beträgt 15 kg. Abweichungen absolut, der Größe nach geordnet: Abw. 6,5 6,5 8,5 9,5 12,5 15,5 16,5 17,5 18,5 38,5 Der Zentralwert der Abweichungsbeträge (MAD**) ist 14 kg. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 24 Lage- und Streuungsparameter III 12 Beurteilung der mittleren absoluten Abweichung ¾Die mittlere absolute Abweichung ist eine sehr anschauliche und plausible Maßzahl der Streuung. ¾Allen Abweichungen wird das positive Vorzeichen gegeben, damit betragsmäßig gleiche, vom Vorzeichen jedoch verschiedene Abweichungen sich nicht aufheben. ¾Für asymmetrische Verteilungen ist es sinnvoll, die mittlere absolute Abweichung für den oberen und für den unteren Bereich getrennt zu ermitteln: Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 25 Lage- und Streuungsparameter III Beurteilung der mittleren absoluten Abweichung f(x) Unterer Bereich Für asymmetrische Verteilungen ergeben sich für den unteren und für den oberen Bereich unterschiedliche mittlere Abstände. Oberer Bereich x Arithmetisches Mittel bzw. Median f(x) Für symmetrische Verteilungen sind die Abstände des unteren und des oberen Bereiches gleich bzw. annähernd gleich. x Arithmetisches Mittel bzw. Median Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 26 Lage- und Streuungsparameter III 13 Varianz Die Varianz ist das am häufigsten verwendete Streuungsmaß. Analog zur mittleren absoluten Abweichung werden die Abweichungen der Einzelwerte vom Mittelwert gebildet, diese jedoch quadriert. Größere Abweichungen fallen dadurch stärker ins Gewicht, es treten nur positive Abweichungen auf. Es gilt für ungehäufte Daten: σ2 = 1 N ∑ (a i − µ )² N i =1 Einzelabweichungen zwischen Beobachtungswerten und arithmetischem Mittel der Verteilung Zur Begriffsabgrenzung sollte hier von empirischer Varianz gesprochen werden, da die modifizierte Form (Division durch n-1) in der induktiven Statistik bevorzugt wird. Achten Sie bei Standardoptionen in Programmpaketen darauf, welche Varianzberechnung vorgenommen wird! Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 27 Lage- und Streuungsparameter III Varianz - Beispiel Beispiel: Für das Gewicht der 10 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von 65 kg die Varianz wie folgt: Name Nr. i xi 2 (x i - µ) Lisa 1 44 Anna 2 46 Antje 3 50 Marie 4 54 Dörte 5 56 Sven 6 69 Uwe 7 72 Kai 8 78 Jan 9 80 Nils 10 101 441 361 225 121 81 16 49 169 225 1296 Summe=2.984 kg² σ2 = 1 ⋅ [(44 − 65)² + (46 − 65)² + ... + (101 − 65)²] = 298,4 kg ² 10 Infolge des Quadrierens hat die Varianz nicht die gleiche Maßeinheit wie das Merkmal selbst. Die Interpretation ist daher nicht sinnvoll. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 28 Lage- und Streuungsparameter III 14 Varianz - Berechnungsformel Bei manueller Berechnung kann eine andere Varianzformel vorteilhaft sein, deren Herleitung gezeigt wird: σ2 = 1 N 2 ai − µ2 ∑ N i =1 σ2 = 1 N N 2 ∑ (a i − µ ) i =1 = 1 N ∑ (a N i =1 2 i − 2 a iµ + µ 2 σ2 = N 1 N ( ∑ a i ² − 2 µ ∑ a i + Nµ 2 ) N i =1 i =1 σ2 = 1 N 2 1 ( ∑ a i − 2 Nµ 2 + Nµ 2 ) = N i =1 N Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik N ∑a i =1 2 i ) − µ2 29 Lage- und Streuungsparameter III Varianz für gehäufte bzw. klassierte Daten Für gehäufte bzw. klassierte Merkmalsausprägungen ergibt sich die Varianz wie folgt: Anzahl der verschiedenen Merkmalsausprägungen bzw. der Klassen Absolute Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse Relative Häufigkeit des gehäuften Merkmals bzw. der jeweiligen Klasse k 1 k σ = ∑ (x i − µ )² ⋅ h i = ∑ (x i − µ )² ⋅ f i N i =1 i =1 2 Einzelabweichungen zwischen gehäuften Beobachtungswerten bzw. zwischen Klassenmitten und arithmetischem Mittel der Verteilung Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 30 Lage- und Streuungsparameter III 15 Varianz für gehäufte bzw. klassierte Daten -BerechnungsformelOhne Herleitung sei auch hier die andere Varianzformel für gehäufte Daten angeführt: - mit absoluten Häufigkeiten: ⎛ k ⎜ ∑ xi ⋅ hi 1 k 2 σ = ∑ x i ² ⋅ h i − ⎜ i =1 ⎜ N i =1 N ⎜ ⎝ ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ 2 µ² - mit relativen Häufigkeiten: ⎛ k ⎞ σ = ∑ x i ² ⋅ fi − ⎜ ∑ xi ⋅ fi ⎟ i =1 ⎝ i =1 ⎠ k 2 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 2 31 Lage- und Streuungsparameter III Varianzberechnung - Beispiel Beispiel: Für das Gewicht der 100 betrachteten Personen ergibt sich bei einem arithmetischen Mittel von (gerundet) 60 kg die Varianz wie folgt: Klasse i hi xi (Mitte) (xi - µ)2 hi 1 4 45 2 18 50 3 26 55 3.600 32.400 16.900 4 20 60 5 12 65 6 9 70 7 5 75 8 3 80 9 2 85 10 1 90 0 3.600 8.100 5.625 3.600 2.500 900 Summe=77.225 kg² 1 k 2 σ 2 = ∑ (x i − µ ) ⋅ h i N i =1 σ2 = 1 2 2 2 [(45 − 60 ) ⋅ 4 + (50 − 60 ) ⋅ 18 + ... + (90 − 60 ) ⋅ 1] = 772,25 kg 2 100 Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 32 Lage- und Streuungsparameter III 16 Varianzberechnung - Beispiel Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt) In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung, Erwerb, … vor: Bundesland Bevölkerungs- Erwerbsanteil (%) tätige (Tsd.) Erwerbsquote (%) HB 4,8 385 53,5 HH 11,6 1.048 60,2 MV 11,8 730 41,2 NI 53,0 3.482 43,8 SH 18,8 1.230 43,6 Erwerbsquote Norddeutschland σ ² = (0,535-0,458)² 0,048 + + (0,602-0,458)² 0,116 + (0,412-0,458)² 0,118 + (0,438-0,458)² 0,530 + (0,436-0,458)² 0,188 σ² = 0,003242 45,8 Berechnen Sie die Varianz der Erwerbsquote. Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 33 Lage- und Streuungsparameter III Varianzberechnung - Beispiel Beispiel: Klausuraufgabe 3 vom Februar 2003 (gekürzt) In Norddeutschland lebten im Jahr 2001 15 Mill. Einwohner. Für die 5 Bundesländer liegen für 2001 folgende Eckdaten über Bevölkerung … und Bruttoinlandsprodukt vor: Bundesland Bevölkerungs- Bruttoinlandsanteil (%) produkt (Mrd.€) BIP je Einwohner (Tausend €) HB 4,8 23,4 32,5 HH 11,6 75,5 43,4 MV 11,8 29,7 16,8 NI 53,0 180,4 22,7 SH 18,8 66,0 23,4 BIP je Einwohner Norddeutschland 25,0 σ² = (32,5-25)² 0,048 + + (43,4-25)² 0,116 + (16,8-25)² 0,118 + (22,7-25)² 0,530 + (23,4-25)² 0,188 σ² = 53,192 Berechnen Sie die Varianz des BIP je Einwohner (in Tausend Euro). Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 34 Lage- und Streuungsparameter III 17 Varianzberechnung – Klausur 02/2003 Klausuraufgabe 3 vom Februar 2003, Aufgabenstellung: … 3.3 Geben Sie für die 5 Bundesländer und Norddeutschland gesamt die Quote des Bruttoinlandsproduktes in Tsd. Euro je Einwohner an. Weisen Sie mit der mittleren absoluten Abweichung gegenüber dem Wert für Norddeutschland, gewichtet mit dem Bevölkerungsanteil, die Differenziertheit der Bundesländer nach. Geben Sie zusätzlich die Varianz für die Messung der Streuung an. Lösung … 3.3 Unter Verwendung der Gesamtgrößen ergibt sich ein (mittleres) Verhältnis von 25000 € BIP je Einwohner für Norddeutschland. Für die Berechnung der Landeswerte muss zuerst die Bevölkerungszahl nach Bundesländern berechnet werden. Die gewichtete mittlere absolute Abweichung der fünf Bundesländer vom Wert für Norddeutschland beträgt 5000 €. Damit wird ein Bereich in den Grenzen von 20000 und 30000 Euro für den Wert des BIP je Einwohner gebildet. Die Varianz beträgt 53,192 [Tausend Euro² ] Prof. Kück / R. Bernitz / Dr. Ricabal Lehrstuhl Statistik 35 Lage- und Streuungsparameter III 18