Skript Deskriptive Statistik SS 2008 Prof. Dr. Waike Moos FB Wirtschaft Hochschule Bochum Bismarck: „Statistik ist die größte Lüge!“ Churchill: „Ich glaube keiner Statistik, außer der, die ich selbst gefälscht habe!“ 1 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Symbolverzeichnis ..........................................................................................................................4 0 Vorbemerkungen und Grundbegriffe ...........................................................................................7 0.1 Vorbemerkungen ...................................................................................................................7 0.2 Grundbegriffe der Statistik....................................................................................................7 1 Merkmalstypen und -skalen .......................................................................................................10 2 Aufbereitung des erhobenen Datenmaterials .............................................................................13 2.1 Absolute und relative Häufigkeiten.....................................................................................13 2.2 Klassierte Häufigkeiten .......................................................................................................18 2.2.1 Konstante Klassenbreiten .............................................................................................19 2.2.2 Ungleiche Klassenbreiten.............................................................................................21 2.3 Mehrdimensionale Häufigkeiten, Kreuztabellen.................................................................22 3 Parameter von Häufigkeitsverteilungen .....................................................................................24 3.1 Lageparameter.....................................................................................................................24 3.1.1 Der Modus....................................................................................................................26 3.1.2 Der Median...................................................................................................................28 3.1.3 p%-Quantile .................................................................................................................33 3.1.4 Arithmetisches Mittel...................................................................................................34 3.1.5 Harmonisches Mittel ....................................................................................................38 3.1.6 Geometrisches Mittel ...................................................................................................39 3.2 Streuungsparameter.............................................................................................................40 3.2.1 Spannweite ...................................................................................................................41 3.2.2 Quartilsabstand.............................................................................................................41 3.2.3 Mittlere absolute Abweichung .....................................................................................43 3.2.4 Varianz und Standardabweichung................................................................................43 3.2.5 Variationskoeffizient....................................................................................................46 3.2.6 Zusammenfassung Maße und Skalen ...........................................................................48 4 Weitere Verteilungsmaße...........................................................................................................48 4.1 Box-Plots.............................................................................................................................48 4.2 Schiefe, Wölbung ................................................................................................................50 4.3 Konzentrationsmaße............................................................................................................52 4.3.1 Absolute Konzentration................................................................................................53 4.3.2 Konzentrationsindex von Herfindahl ...........................................................................54 4.3.3 Relative Konzentration: Lorenz-Kurve und Gini-Koeffizient .....................................55 5 Zweidimensionale deskriptive Statistik .....................................................................................58 5.1 Kovarianz ............................................................................................................................58 2 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik 5.2 Korrelationskoeffizient von Bravais-Pearson .....................................................................59 5.3 Lineare Regressionsanalyse ................................................................................................61 5.4 Chi-Quadrat-Mehrfelder-Test, Kontingenzkoeffizient, Cramers V ....................................68 6 Verhältniszahlen.........................................................................................................................72 6.1 Gliederungszahlen ...............................................................................................................72 6.2 Beziehungszahlen................................................................................................................73 6.3 Messzahlen ..........................................................................................................................74 7 Indexzahlen (Indizes) .................................................................................................................76 7.1 Preisindizes..........................................................................................................................76 7.1.1 Preisindex nach Laspeyres ...........................................................................................77 7.1.2 Preisindex nach Paasche...............................................................................................79 7.2 Mengenindizes ....................................................................................................................80 7.3 Umsatzindizes .....................................................................................................................80 7.4 Umbasierung .......................................................................................................................81 7.5 Verknüpfung........................................................................................................................82 7.6 Preisbereinigung..................................................................................................................83 7.7 Preisindizes für die Lebenshaltung (Verbrauchspreisindizes) ............................................85 7.8 Kaufkraftparität ...................................................................................................................85 8 Zeitreihenanalyse .......................................................................................................................86 8.1 Aufgabe und Ziele...............................................................................................................86 8.2 Komponenten der Zeitreihe.................................................................................................86 8.2 Methoden der Trendermittlung ...........................................................................................88 Weiterführende Literatur zur Vertiefung ......................................................................................94 3 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Symbolverzeichnis X xi n m xj fj hj Variable, Merkmal Merkmalsausprägung, Beobachtungswert des i-ten Merkmalsträgers oder statistischen Elements, i=1,...,n Stichprobenumfang Anzahl der verschiedenen Merkmalsausprägungen Jeder Merkmalsträger kann m verschiedene Merkmalsausprägungen haben, j=1,...m. xj ist die j-te Merkmalsausprägung, Abzissenwert einer Häufigkeitsverteilung absolute Häufigkeit der Merkmalsausprägung xj, auch absolute Klassenhäufigkeit, Ordinatenwert einer Häufigkeitsverteilung, relative Häufigkeit der Merkmalsausprägungen= fj n , auch relative Klassenhäufig- keit fj hj % relative prozentuale Häufigkeit der Merkmalsausprägungen= Fj Hj Hj % kumulierte absolute Häufigkeit der Merkmalsausprägungen= f 1 + f 2 + ... + f j kumulierte relative Häufigkeit der Merkmalsausprägungen= h1 + h2 + ... + h j kumulierte relative prozentuale Häufigkeit = ( h1 + h2 + ... + h j ) ⋅ 100 B konstante Klassenbreite B = x arithmetisches Mittel (AM) in einer Stichprobe, x = HM harmonisches Mittel, HM = GM x ME x Mo geometrisches Mittel, GM = n x1 ⋅ x 2 ⋅ ... x n Median, Merkmalsausprägung des mittleren Merkmalsträgers Modus, häufigster Wert σ2 σ Varianz in der Grundgesamtheit Standardabweichung in der Grundgesamtheit s2 Varianz in einer Stichprobe s 2 = s Standardabweichung in einer Stichprobe sM = s VK Variationskoeffizient = n n ⋅ 100 Max − Min m 1 m ∑ xj f j n j =1 f 1 + f 2 + ... f m f f1 f 2 + + ... + m x1 x 2 xm 1 m 1 m 2 ( xi − x ) 2 f i oder s 2 = xi f i − x 2 ∑ ∑ n − 1 i =1 n − 1 i =1 Standardfehler des Mittelwertes s 100 |x| 4 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Gini-Koeffizient, GK = 1 − ∑ h j ⋅ (Y j −1 + Y j ) mit Y j =kumulierter Anteil der Merkm GK j =1 malsausprägungen und h j der relative Anteil der j-ten Merkmalsträger 1 n ∑ ( xi − x ) ⋅ ( y i − y ) n − 1 i =1 s xy Kovarianz zweier Merkmale in einer Stichprobe, s xy = sx Wurzel aus der Varianz des Merkmals X einer Stichprobe, s x = 1 n ( xi − x ) 2 ∑ n − 1 i =1 sy Wurzel aus der Varianz des Merkmals Y einer Stichprobe, s y = 1 n ∑ ( yi − y ) 2 n − 1 i =1 n Korrelationskoeffizient von Bravais-Pearson, r ∑(x r= i =1 n ∑(x i =1 r= b i i − x )( y i − y ) − x) 2 oder n ∑( y i =1 i − y) 2 s xy sx sy Regressionskoeffizient (Steigung) bei der linearen Regression n b= ∑(x i =1 i − x )( y i − y ) oder n ∑(x i =1 i b= − x)2 s xy s xx Ordinatenabschnitt bei der linearen Regression a = a R-squared ŷ ŷ i s n n i =1 i =1 ∑ y i − b∑ xi n 2 Bestimmtheitsmaß, r 2 = xy sx s y = a + bx geschätzte Regressionsgerade (Kurzform) = a + bxi geschätzte Regressionsgerade Preisindex für Berichtsjahr i gegenüber Basisjahr 0. p = Preis des Gutes j in der Basiszeit 0. p1j = Preis des Gutes j in der Berichtszeit 1. P0i j 0 q0j = Menge des Gutes j in der Basiszeit 0. q1j = Menge des Gutes j in der Basiszeit 1. 5 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft n ∑pq i j =1 P0iLaspeyres = 0 100 = n ∑p q 0 j =1 Summe aktueller Preis ⋅ alte Menge 100 , Preisindex von Laspeyres Summe alter Preis ⋅ alte Menge 0 n ∑pq P0iPaasche = j =1 i i 100 = n ∑p q j =1 0 Summe aktueller Preis ⋅ aktuelle Menge 100 , Preisindex von Paasche Summe alter Preis ⋅ aktuelle Menge i n ∑q p U 0i = j =1 i i 100 = n ∑q j =1 0 p0 Summe aktuelle Umsätze 100 , Umsatzindex Summe alte Umsätze 6 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 0 Vorbemerkungen und Grundbegriffe 0.1 Vorbemerkungen Statistik: Datensammlung zu bestimmten Themen (Bevölkerungsstatistik, Arbeitslosenstatistik, Preisstatistik usw.) Wissenschaft zur Erhebung und Analyse von Daten bzw. ein Vorlesungsfach: - - Deskriptive Statistik: Daten werden mittels Kenngrößen beschrieben und grafisch dargestellt. Wahrscheinlichkeitsrechung: analytische bzw. deduktive/induktive Statistik: allgemeingültige Schlüsse Quellen statistischer Daten: Amtliche Statistik - Eurostat - Statistisches Bundesamt - Statistische Landesämter - Europäische Zentralbank +Bundesbank Nichtamtliche Statistik - - Wirtschaftsforschungsinstitute (z.B. ifo, IWH, DIW, RWI, Kieler Institut für Weltwirtschaft, HWWI) Markt- und Meinungsforschungsinstitute (z.B. GfK, Infas ...) - Verbände und Unternehmen - ... 0.2 Grundbegriffe der Statistik Grundgesamtheit/Statistische Gesamtheit/Masse =Menge aller Merkmalsträger (Elemente, Einheiten, Units). Ein Merkmalsträger gehört dann zur Grundgesamtheit, wenn er sämtliche Abgrenzungsmerkmale (Identifikationsmerkmale) besitzt. Die Merkmalsträger stimmen hinsichtlich der Abgrenzungsmerkmale überein. Die Abgrenzung ist in sachlicher, räumlicher und zeitlicher 7 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Hinsicht vorzunehmen, indem für alle Elemente bestimmte Eigenschaften als identisch vorgegeben werden. Beispiel: Erstsemester im FB Wirtschaft an der BO (sachliches Abgrenzungsmerkmal: Eingeschriebene(r) Student(in) für Wirtschaft an der BO (räumliches Abgrenzungsmerkmal im SS 2008 (zeitliches Abgrenzungsmerkmal). Arbeitslose im Mai 2008 in Deutschland Teilgesamtheit/Stichprobe/sample: wenn aus einer statistischen Gesamtheit nicht alle Elemente in die Untersuchung eingehen. Wichtige Frage, ob die gewonnen Ergebnisse nur für die Teilgesamtheit gelten oder auch für die Grundgesamtheit Beispiel: alle Anwesenden im Hörsaal Merkmalsträger/Statistisches Element/Einheit/Fall: Das einzelne Element der Grundgesamtheit oder Stichprobe. Der Merkmalsträger ist der Träger der statistischen Information Beispiel: Der Student Klaus Ur. Merkmal/Variable:Eigenschaft des statistischen Elements oder Merkmalsträgers (Achtung: Merkmal nicht mit Identifikationsmerkmal verwechseln, die Merkmalsträger können hinsichtlich ersterem unterschiedliche Ausprägungen haben, müssen jedoch identische Identifikationsmerkmale haben, um zur Grundgesamtheit zu gehören. Beispiel: Einkommen (unterschiedliches Einkommen bei den Studierenden). Merkmalsausprägung/Merkmalswert/Beobachtungswert/Messwert: Der Wert, der bei der Beobachtung bei der einzelnen statistischen Einheit bzw. dem Merkmalsträger festgestellt wurde. Beispiel: blond (Der Student Klaus Ur ist blond). Erhebung: Feststellung der Merkmalsausprägung von Merkmalen bei den Merkmalsträgern Grundgesamtheit Merkmalsträger Merkmal Merkmalsausprägung Wohnbevölkerung in D im Jahr 2010 Einwohner Einkommen 35.000€ 8 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Studierende an der BO Studierende Studiendauer 6. Semester Belegschaft bei Nokia Angestellte Alter 32 Jahre Produktion von Glühbirnen Glühbirne Funktionsfähigkeit kaputt Statistik am Computer mit Excel oder NSDStat oder SPSS: Tabelle = Grundgesamtheit oder Teilgesamtheit/Stichprobe Spalte = Merkmal, Variable Zeile = Merkmalsträger, Element, Fall Zelle = Merkmalsausprägung, Wert Beispiel einer Excel-Tabelle: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A 20 19 23 24 21 23 25 23 24 22 21 20 21 23 10 24 B m w w m m w m w m w w m m w m w C 1,3 1,7 3 3,3 3,7 5 4 2,3 1,7 2 2,7 3,3 2 1 3,3 2,3 D MG KR KR VIE MG MG KR VIE NE D D NE VIE MG MG Variable A: Alter Variable B: Geschlecht Variable C: Klausurnote Variable D: Kfz-Kennzeichen 9 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Grundgesamtheit: Studierende im Fachbereich Wirtschaft Merkmalsträger: Student Nr. 10 Merkmal: Alter Merkmalsausprägung: 22 Grundgesamtheit: Studierende im Fachbereich Wirtschaft Merkmalsträger: Student Nr. 3 Merkmal: Kfz-Kennzeichen Merkmalsausprägung: BO 1 Merkmalstypen und -skalen Variablen1 haben bestimmte Arten von Werten/Merkmalsausprägungen. Variablen werden an Skalen „gemessen“. Skala: Vorschrift, nach der jedem Merkmalsträger einer Gesamtheit genau eine Merkmalsausprägung zugeordnet werden kann. Variablentyp: Qualitative Variable Skala Nominalskala (Nomen = Name): Wenn die Merkmalsausprägungen Namen oder Bezeichnungen sind, die ausschließlich der Kennzeichnung dienen. Keine Reihenfolge bestimmbar. Jedem Merkmalsträger der Gesamtheit wird ein Name zugeordnet. Rangvariable Ordinalskala (Ordnung, Rangfolge): Wenn die Merkmalsausprägung zusätzlich eine Rangfolge zum Ausdruck bringt. Jedem Merkmalsträger der Gesamtheit wird eine Rangnummer oder Rangbezeichnung zugeordnet 1 oder Merkmale 10 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Quantitative Variable Metrische Skala (messen): Wenn darüber hinaus noch Differenzen und Verhältnisse von Merkmalsausprägungen sinnvoll sind. Jedem Merkmalsträger der Gesamtheit wird eine reelle Zahl zugeordnet. Die metrische Skala2 bei den quantitativen Variablen ist entweder eine Intervallskala, wenn aussagefähige Differenzen der Ausprägungen gebildet werden können, z.B. heute ist es bei 10 Grad Temperatur 5 Grad wärmer als gestern, jedoch nicht doppelt so warm (die Angelsachsen mit einer Grad-FahrenheitSkala würden diesen Anstieg nicht als Verdopplung ansehen!). oder eine Verhältnisskala, wenn aussagefähige Quotienten der Ausprägungen gebildet werden können (Müllers haben genau doppelt so viele Kinder wie Meiers). Bei Verhältnisskalen gibt es einen natürlichen Nullpunkt. Quantitative Variable oder Merkmale heißen: diskret, wenn die Ausprägungen nur isolierte Zahlenwerte annehmen können. (Ausprägungen werden durch einen Zählvorgang ermittelt.) stetig, wenn sie alle Zahlenwerte eines Intervalls annehmen können. (Ausprägungen werden durch einen Messvorgang ermittelt.) Beispiele für diskrete quantitative Merkmale: Kinderzahl Einwohnerzahl Klausuranmeldungen Beispiele für stetige quantitative Merkmale: Körpergröße Gewicht Alter 2 Die Unterscheidung in Nominal-, Ordinal- oder metrische Skala ist für die Anwendbarkeit von statistischen Verfahren sehr wichtig. Nicht ganz so wichtig ist die Unterscheidung innerhalb der metrischen Skala in Intervall- oder Verhältnisskala. 11 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Nicht alle Variablen lassen sich eindeutig den obigen Kategorien zuordnen, denn das Messniveau und die Art der Messung beeinflusst den Variablentyp! Beispiele: Da jede Messung mit Messungenauigkeit behaftet ist, nimmt z.B. die Körpergröße nicht alle Zahlenwerte eines Intervalls (halbe Millimeter kann man nicht messen!) an, sondern nur durch Runden entstandene Werte. In der Praxis ist die Variable Körpergröße also eigentlich diskret, d.h. quasidiskret. Theoretisch ist es jedoch zweckmäßig, alle Zahlenwerte eines Intervalls als zulässig anzunehmen, d.h. die Körpergröße als stetiges Merkmal anzusehen, obwohl nur quasi-diskret gemessen wird. Das Lebensalter wird in Umfragen meist in ganzen Zahlen als vollendete Lebensjahre angegeben. Die theoretisch stetige Variable „Alter“ wird dann diskret! Für viele Fragestellungen wird die theoretisch stetige Variable „Einkommen“ nach Einkommensklassen angegeben: „bis 1000€, 1001-2000€, ...“. Diese Reduktion des Messniveaus (gröbere Skala) führt zu Informationsverlust. Man gibt nur noch an, in welche Einkommensklasse jemand fällt. Der exakte Zeitpunkt der Messung kann die Ausprägung einer Variable beeinflussen z.B. der Blutalkoholgehalt hängt davon ab, wie viel Zeit zwischen Messung und letztem Getränk liegt. Fließende Übergänge zwischen Rangvariablen und quantitativen Variablen: Beispiel: Punkteschema der Oberstufe ist Rangvariable mit verfeinerter Ordinalskala: 1+ 1 1- 2+ 2 2- 3+ 3 3- 4+ 4 4- 5+ 5 5- 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 Merke: Man kann Messergebnisse einer quantitativen Variable stets in eine Rangvariable oder eine qualitative Variable überführen. Dabei kommt es jedoch zu einem Informationsverlust. Beispiel: Brenndauer von Glühbirnen ist eine quantitative stetige Variable, deren Ausprägungen an einer metrischen (Verhältnis-)Skala gemessen werden. Eine Messung ist an der Ordinalskala möglich, wenn die Glühbirnen nach ihrer Brenndauer geordnet werden und Rangzahlen vergeben werden. Dann ist es allerdings nicht mehr möglich zu sagen, um wie viel länger eine Lam12 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft pe als eine andere brennt. Eine Messung an der Nominalskala ist möglich, wenn die Birnen in „gute Lampen-schlechte Lampen“ unterteilt werden. Beispiele zu Variablen und Skalen: Variablentyp Skala qualitativ qualitativ Nominal Nominal qualitativ Nominal Rang Rang Ordinal Ordinal Rang Ordinal quantitativ quantitativ quantitativ quantitativ Variable oder Merkmal Parteizugehörigkeit Wahrheitswert einer Aussage Spielausgang beim Toto Schulnoten Hausnummer Dienstgrade bei der Bundeswehr Metrisch, Intervallska- Uhrzeit la, stetig bzw. quasidiskret Metrisch, Intervallska- Temperatur in Grad la, stetig bzw. quasiCelsius diskret Metrisch, Verhältnis- Entfernung zwischen skala, stetig bzw. qua- Wohn- und Arbeitssi-diskret stätte Metrisch, Verhältnis- Alkoholgehalt im Blut skala, stetig bzw. quasi-diskret Merkmalsausprägung oder Wert CDU, SPD, Grüne,... Wahr, falsch 0,1,2 1,2,3,4,5,6 ...,12,14,16 ,... Gefreiter, ..., General 2:00, 4:00 ...,12,13,14,... 1 km, 1,5 km, ... 0, 0,1, ...0,8,... 2 Aufbereitung des erhobenen Datenmaterials 2.1 Absolute und relative Häufigkeiten Erhebung der Kinderzahl bei 30 Familien, Stichprobenumfang n=30 Merkmal Kinderzahl X={xi} i=1,...,n quantitative, diskrete Variable mit metrischer Verhältnisskala. 13 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Die Variable X kann die einzelnen Werte oder Merkmalsausprägungen xi annehmen. i=Laufindex der Urliste, i=1,...,n Urliste: 0, 4, 4, 1, 0, 3, 0, 1, 1, 1, 3, 6, 2, 1, 0, 2, 1, 0, 0, 1, 1, 3, 1, 3, 2, 2, 1, 0, 1, 2 Arbeitsschritte: 1) Sortierte Urliste: 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 4,4,6 Wie viele verschiedene Merkmalsausprägungen bzw. Kinderzahlen gibt es? 2) Gruppieren Es gibt m=6 Merkmalsausprägungen: Kein Kind, ein Kind, zwei Kinder , drei Kinder, vier Kinder, sechs Kinder Bezeichne die m=6 verschiedenen Merkmalsausprägungen mit x1, x2, x3, x4,x5,x6 bzw. allgemeiner mit xj, j=1,...,m j=Laufindex der unterschiedlichen Merkmalsausprägungen 3) Ermittlung der absoluten Häufigkeiten: Strichliste: Keine Kinder (x1=0): Ein Kind: (x2=1) Zwei Kinder: (x3=2) Drei Kinder: (x4=3) Vier Kinder: (x5=4) Sechs Kinder: (x6=6) Bezeichne mit fj, j=1,...,m, hier: j=1,...,6 die absolute Häufigkeit der Merkmalsausprägung xj, d.h. die Anzahl der Elemente, welche die Merkmalsausprägung xj besitzen. Keine Kinder (x1=0): f1=7 Ein Kind: (x2=1) f2=11 Zwei Kinder: (x3=2) f3=5 Drei Kinder: (x4=3) f4=4 Vier Kinder: (x5=4) f5=2 Sechs Kinder: (x6=6) f6=1 Das m-Tupel der Paare (xj,fj), j=1,...,m 14 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft ((x1,f1), (x2,f2), (x3,f3), (x4,f4), (x5,f5), (x6,f6)) ((0,7), (1,11), (2,5), (3,4), (4,2), (6,1)) heißt Häufigkeitsverteilung. Es gilt stets: m ∑f j =1 j = n , d.h. die Summe aller absoluten Häufigkeiten ist gleich der Anzahl der Elemente in der Gesamtheit. Probe: f1+f2+ f3+f4+ f5+f6=7+11+5+4+2+1=30=n Darüber hinaus gilt: 0≤fj≤n, j=1,...,m. Es können maximal n Elemente die Merkmalsausprägung xj haben. Beispiel: Wenn man nur kinderlose Paare betrachtet, ist f1=30, f2, ...,f6=0 4) und 5) Ermittlung der relativen und prozentualen relativen Häufigkeiten Bezeichne die Zahlen hj = 1 fj n als relative Häufigkeiten und die Zahlen h% j = h j ⋅ 100 als relative prozentuale Häufigkeiten. m Es gilt stets ∑ h j = 1 und j =1 m ∑h j =1 % j = 100 Darüber hinaus gilt: 0≤hj≤1, j=1,...,m und 0≤ h %j ≤100 6) Darstellung der Häufigkeitsverteilung als Tabelle oder Grafik xj fj hj h% j x1 = 0 x2 = 1 x3 = 2 x4 = 3 x5 = 4 x6 = 6 Summe 7 11 5 4 2 1 30 0,23333 0,36666 0,16666 0,13333 0,06666 0,03333 1 23,333 36,666 16,666 13,333 6,666 3,333 100 15 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Bei der grafischen Darstellung der Häufigkeitsverteilung kann man bei einem diskreten Merkmal ein höhenproportionales Balkendiagramm verwenden. Die Häufigkeiten werden durch Strecken, d.h. durch die Höhe der Balken beschrieben. Balkendiagramm Kinderzahl 12 11.0 10 8 7.0 6 5.0 4.0 4 2.0 2 1.0 0 0 Kinder 1 Kind 2 Kinder 3 Kinder 4 Kinder 6 Kinder Balkendiagramm Kinderzahl 40 % 36.7 35 % 30 % 25 % 23.3 20 % 16.7 15 % 13.3 10 % 6.7 5% 3.3 0% 0 Kinder 1 Kind 2 Kinder 3 Kinder 4 Kinder 6 Kinder 16 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Kuchendiagramm Kinderzahl 23.3 36.7 6 Kinder 4 Kinder 3 Kinder 3.3 2 Kinder 6.7 1 Kind 0 Kinder 16.7 13.3 7) Ermittlung von kumulierten Häufigkeiten Es wird im folgenden angenommen, dass bei quantitativen Variablen die Merkmalsausprägungen der Größe nach nummeriert und geordnet sind: x1<x2< x3<x4< x5<…<xm Die Anzahl der Elemente/Merkmalsträger einer statistischen Masse/Gesamtheit, bei denen die Ausprägungen des Merkmals höchstens gleich xj ist heißen kumulierte absolute Häufigkeiten. Fj: Fj=f1+f2+...+fj j=1,…,m, ... = j ∑f k =1 Es gilt: Beispiel: k F j − F j −1 = f j Die Anzahl der Familien mit höchstens 3 Kindern (Kein Kind, ein Kind, zwei Kinder, drei Kinder) ist f1+f2+f3+f4=7+11+5+4=27. Analog lassen sich auch die kumulierten relativen Häufigkeiten Hj berechnen: Hj=h1+h2+...+hj j=1,…,m, ... = j ∑h k =1 Es gilt: Beispiel: k oder Hj = Fj n H j − H j −1 = h j Der relative Anteil der Familien mit maximal 3 Kindern (Kein Kind, ein Kind, zwei Kinder, drei Kinder) ist h1+h2+h3+h4=0,2333+0,3666+0,1666+0,1333=0,8999 17 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Nr. kumulierte kumulierte kumulierte prozentuale prozentuale absolute absolute relative relative Häufigkeit relative Häu- relative Häu- Häufigkeit Häufigkeit Häufigkeit der Familien figkeit der figkeit der der Familien der Familien der Familien Anzahl der mit xj Kin- Familien mit Familien mit mit maximal mit maximal mit maximal dern xj Kindern xj Kindern Kinder xj Kindern xj Kindern xj Kindern % % j xj fj hj hj Fj Hj Hj 1 0 7 0,2333 23,3333 7 0,2333 23,333 2 1 11 0,3667 36,6667 18 0,6000 60 3 2 5 0,1667 16,6667 23 0,7667 76,667 4 3 4 0,1333 13,3333 27 0,9000 90 5 4 2 0,0667 6,6667 29 0,9667 96,667 6 6 1 0,0333 3,3333 30 1,0000 100 Summe - 30 1 100 - - - v1 Kinderzahl Wertelabels Codes Anzahl% insgesamt% von gültigen --------------------------------------------------0 Kinder 0 7 23.3 23.3 1 Kind 1 11 36.7 36.7 2 Kinder 2 5 16.7 16.7 3 Kinder 3 4 13.3 13.3 4 Kinder 4 2 6.7 6.7 6 Kinder 5 1 3.3 3.3 --------------------------------------------------Summe 30 100.0 100.0 --------------------------------------------------- Eingeschlossen sind 30 von insgesamt 30 Fällen 2.2 Klassierte Häufigkeiten Klasseneinteilungen, wenn die Ermittlung genauer Angaben zu umständlich oder nicht möglich ist, z.B. bei diskretem Merkmal mit sehr vielen unterschiedlichen Merkmalsausprägungen oder bei stetigem Merkmal. Beispiel: Will man eine Häufigkeitsverteilung des Einkommens in Deutschland aufstellen, wäre es unübersichtlich, die Anzahl von Beziehern von Einkommen in allen (in Cent) unterschiedlichen Einkommenshöhen anzugeben. Als repräsentativen Merkmalswert der Klasse j wählt man die Klassenmitte mj 18 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Ziel der Klasseneinteilung: Struktur der Gesamtheit möglichst deutlich herauszuarbeiten. Notwendige Anzahl der Klassen hängt vom Untersuchungsgegenstand und Datenmaterial ab. Zu wenige Klassen: Informationsverlust! Zu viele Klassen: Unübersichtlichkeit, da einige Klassen dann nur schwach besetzt sind. Bestrebung, konstante Klassenbreiten zu wählen! Problem, wenn Merkmalswert genau auf Klassengrenze fällt: er wird z.B. in niedrigere oder in höhere oder je zur Hälfte in beide Klassen aufgenommen. Soll die oberste Klasse eine Obergrenze haben? Wenn nicht, dann kommt es zu unterschiedlich breiten Klassen. 2.2.1 Konstante Klassenbreiten Berechnung der Klassengrenzen bei konstanten Klassenbreiten: 1) Bestimmung des Wertebereichs [MIN, …, MAX] 2) Bestimmung der Anzahl m der Klassen 3) Berechnung der Klassenbreiten B = Max − Min m 4) Berechnung der Klassenuntergrenzen und der Klassenobergrenzen Beispiel: Min = 500, Max=3500, wähle m=6 Klassen, B = 3500 − 500 = 500 , bestimme 6 die Klassengrenzen: Die m Klassen sind m Intervalle [mj-1/2⋅B;mj+1/2⋅B) (hier: links geschlossen, rechts offen), mit mj die jeweilige Klassenmitte. [500;1000) [1000;1500) [1500;2000) [2000;2500) [2500;3000) [3000;3500] Die Anzahl der Elemente, deren Merkmalswert in die Klasse j, j=1,...,m fällt, bezeichnet man als absolute Klassenhäufigkeit fj. Die relative Klassenhäufigkeit hj ergibt sich bei m Klassen als 19 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft hj = fj n m mit n = ∑ f j j =1 Beispiel: Kfz-Händler Einkommensverteilung der Beschäftigten Anzahl Anteil Klasse Bruttomonatsverdienst Klassenbreite Klassenmitte Beschäf- BeschäfNr. in € in € in € tigte tigte j Bj=const.= B mj fj hj 1 500 bis unter 1000 500 750 6 0,075 2 1000 bis unter 1500 500 1250 13 0,1625 3 1500 bis unter 2000 500 1750 16 0,2 4 2000 bis unter 2500 500 2250 28 0,35 5 2500 bis unter 3000 500 2750 10 0,125 6 3000 bis unter 3500 500 3250 7 0,0875 80 1 Summe Bei der grafischen Darstellung der Häufigkeitsverteilung kann bei konstanter Klassenbreite ein Histogramm3 verwendet werden mit den Klassenhäufigkeiten als Säulenhöhen Klassierte Daten lassen sich in einem Histogramm oder auch als Häufigkeitspolygon darstellen. Beim Häufigkeitspolygon werden die Klassenmitten an den oberen Säulenseiten miteinander verbunden. 3 Ein Histogramm ist ein Balkendiagramm, bei dem keine Zwischenräume zwischen den Balken liegen. 20 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Histogramm mit mit Klassen konstanter Breite, Anteil Histogramm Klassen konstanter Breite, hjfj Anzahl Beschäftigte Beschäftigte mit Häufigkeitspolygon 0,4 30 0,35 25 0,3 20 0,25 0,2 15 0,15 10 0,1 5 0,05 00 750 750 1250 1250 1750 1750 2250 2250 2750 2750 3250 3250 Einkommeninin€€ Einkommen 2.2.2 Ungleiche Klassenbreiten Verwendet man unterschiedliche Klassenbreiten Bj, dann dürfen nicht mehr die Balkenhöhen den Klassenhäufigkeiten proportional sein, sondern die Flächen. Dazu muss man die Klassenhäufigkeiten in „neue Balkenhöhen“ umrechnen. In einfachen Statistikprogrammen wird die Option unterschiedlicher Klassenbreiten meistens gar nicht angeboten, sondern die unterschiedlichen Berechnungsvorschriften für gleiche oder ungleiche Berechnungsvorschriften vernachlässigt. Zu den Berechnungsvorschriften für die „neuen Balkenhöhen“ bei ungleichen Klassenbreiten vgl. Literatur. Beispiel: Mietwohnungen 21 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Balkendiagramm Wohnungsgröße in Quadratmeter 70 62.0 60 50 40 36.0 30 21.0 20 10 8.0 0 15 - 52 53 - 90 91 - 128 129 - 170 2.3 Mehrdimensionale Häufigkeiten, Kreuztabellen Mehrdimensionale Häufigkeitsverteilung, wenn die Merkmalsträger hinsichtlich mehrerer Merkmale untersucht werden. Zweidimensionale Urliste: Erhebe zwei Merkmale pro Merkmalsträger (z.B. Merkmal Y: Wohnungsgröße und Merkmal X Kaltmiete.) Beispiel: Mietwohnungen v3 Kaltmiete in Euro v2 Wohnungsgröße in Quadratmeter Abs. Häufigkeit 120 - 389 390 - 659 660 - 929 930 - 1200 Summe ----------------------------------------------------------------15 - 52 34 2 0 0 36 53 - 90 27 32 3 0 62 91 - 128 0 16 5 0 21 129 - 170 0 3 4 1 8 ----------------------------------------------- -----------------Summe 61 53 12 1 ----------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen 22 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik v3 Kaltmiete in Euro v2 Wohnungsgröße in Quadratmeter Spaltenprozente 120 - 389 390 - 659 660 - 929 930 - 1200 Summe ----------------------------------------------------------------15 - 52 55.7 3.8 0.0 0.0 28.3 53 - 90 44.3 60.4 25.0 0.0 48.8 91 - 128 0.0 30.2 41.7 0.0 16.5 129 – 170 0.0 5.7 33.3 100.0 6.3 ----------------------------------------------------------------Summe 100.0 100.0 100.0 100.0 100.0 N= 61 53 12 1 127 ----------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen v3 Kaltmiete in Euro v2 Wohnungsgröße in Quadratmeter Zeilenprozente 120 - 389 390 - 659 660 - 929 930 - 1200 Summe N= --------------------------------------------------------------------15 - 52 94.4 5.6 0.0 0.0 100.0 36 53 - 90 43.5 51.6 4.8 0.0 100.0 62 91 - 128 0.0 76.2 23.8 0.0 100.0 21 129 - 170 0.0 37.5 50.0 12.5 100.0 8 --------------------------------------------------------------------Summe 48.0 41.7 9.4 0.8 100.0 127 --------------------------------------------------------------------Eingeschlossen sind 127 von insgesamt 127 Fällen 23 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Streudiagramm V2 Wohnungsgröße in Quadratmeter V3 Kaltmiete in Euro 1200 900 V3 600 300 0 0 50 100 150 200 V2 3 Parameter von Häufigkeitsverteilungen Ziel: Verdichten von vielen Einzelinformationen aus den Häufigkeitsverteilungen mit Hilfe von bestimmten Kenngrößen, Parametern oder Maßzahlen. 3.1 Lageparameter Die Lage einer Häufigkeitsverteilung auf der Merkmalswertachse stellt eine wesentliche Eigenschaft einer Häufigkeitsverteilung dar. 24 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Wohnungsgrößen von 1 bis 4 Zimmerwohnungen Balkendiagramm Wohnungsgröße in Quadratmeter 60 53.0 50 40 36.0 30 25.0 20 10 3.0 0 15 - 50 51 - 86 87 - 122 123 - 160 Beispiel: Wohnungsgrößen von 5 bis 7 Zimmerwohnungen Balkendiagramm Wohnungsgröße in Quadratmeter 5 5.0 4 3 2 2.0 2.0 1.0 1 0 60 - 86 87 - 113 114 - 140 141 - 170 25 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Idee: Beschreibung der Lage der Häufigkeitsverteilung mit der „Mitte“ bzw. dem „Zentrum“ der Verteilung. Es kann dann der relative Abstand der einzelnen Werte von der „Mitte“ bestimmt werden. 3.1.1 Der Modus Auch Modalwert, häufigster Wert, höchste Säule Definition: Modus ist derjenige Wert, der am häufigsten beobachtet wird. Voraussetzung: Mindestens Nominal-Skalierung der Merkmale. Beispiel: Mietwohnungen nach Anzahl Zimmer Balkendiagramm Anzahl der Zimmer 50 40.0 40 42.0 30 20 21.0 14.0 10 6.0 2.0 2.0 6 7 0 1 2 3 4 5 Eignung: Modus ist prinzipiell für jede Verteilung bestimmbar. Bildung des Modus ist nicht immer sinnvoll, z.B. wenn keine herausragende Häufigkeit zu beobachten ist. Einziger möglicher Mittelwert für nominalskalierte Merkmale Beurteilung: Schnelle und einfache Ermittlung. 26 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Von Ausreißern unbeeinflusst. Ist geeignet, wenn sich Verteilung auf den Modus hin „zuspitzt“, sollte „herausragender“ Wert sein. Klassierte Daten mit gleichen Klassenbreiten: - Bestimmung der Modusklasse als die Klasse mit der größten Klassenhäufigkeit. Bestimmung der Klassenmitte der Modusklasse als Näherungswert für den Modus. Beispiel: Mietwohnungen nach Kaltmiete Balkendiagramm Kaltmiete in Euro 40 40.0 30 24.0 21.0 20 16.0 10 8.0 5.0 6.0 3.0 3.0 1.0 0 120 - 209 300 - 389 480 - 569 660 - 749 840 - 929 210 - 299 390 - 479 570 - 659 750 - 839 1110 - 1200 Klassierte Daten mit ungleicher Klassenbreite: Die Berechnung ist etwas komplizierter und wird hier vernachlässigt. Schwierigkeiten der Bestimmung des Modus bei Verteilung mit mehreren Modi oder Gleichverteilung 27 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft hj, fj xj hj, fj xj 3.1.2 Der Median Auch Zentralwert, zentraler Wert Definition: Median heißt der Merkmalswert, dessen Merkmalsträger in der Rangordnung aller Merkmalsträger genau die mittlere Position einnimmt. Unterhalb und oberhalb des Medians liegen jeweils die Hälfte aller Merkmalsausprägungen oder Merkmalswerte. Voraussetzungen: Wegen der benötigten „Rangordnung“ müssen die Merkmale mindestens ordinalskaliert sein. Berechnung: Mittlere Position = n +1 2 Beispiel: Schuhgrößen Fall: n ungerade. Die Medianposition ist hier Position n +1 9 +1 = = 5. 2 2 28 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Der fünfte Schuh in der Reihe ist der „Medianschuh“. Seine Größe ist der Median. Beispiel: Überstunden Fall: n ungerade: Bestimmung des Merkmals xi, das an der mittleren Position n +1 steht. 2 Erfassung der geleisteten Überstunden: absolute kumulierte Anzahl Anzahl xj fj Fj 0 10 10 1 15 25 2 6 31 3 4 35 4 3 38 5 3 41 Summe 41 Die mittlere Position ist 41 + 1 = 21 . xME=1. 2 Der Beschäftigte mit der Positionsnummer 21 hat genau 1 Überstunde geleistet (Die ersten 10 Beschäftigten haben keine, der 11. bis 25. Beschäftigte hat eine Überstunde geleistet.). 50% der Beschäftigten haben 1 oder weniger Überstunden geleistet, 50% haben 1 oder mehr Überstunden geleistet. Beispiel: Fehltage Fall: n gerade: Die mittlere Positionsziffer ist keine ganze Zahl (hier: 10,5). 29 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Fehltage absolute Anzahl fj 4 2 2 2 4 3 2 1 20 xj 0 2 5 6 7 11 12 14 Summe 1 2 xME= ( x n + x n ) = 2 2 +1 kumulierte Anzahl Fj 4 6 8 10 14 17 19 20 1 (6 + 7 ) 2 Der Median ist hier der Durchschnitt der Merkmalsausprägungen der beiden zentral gelegenen Merkmalsträger (hier: Merkmalsträger mit Position 10 hat 6 Fehltage und Merkmalsträger mit Position 11 hat 7 Fehltage). 50% der Beschäftigten haben 6,5 und weniger Tage und 50% der Beschäftigten haben 6,5 und mehr Tage gefehlt. Beurteilung: unbeeinflusst von Ausreißern, da nur von Anzahl der Merkmalswerte abhängig, schnelle, einfache Ermittlung, Der Median kann u.U. selber als Merkmalswert nicht vorkommen (6,5 Fehltage gibt es nicht)! Bei ordinalskalierten Merkmalen und gerader Anzahl ist eine Durchschnittsbildung zwischen den zwei zentralen Merkmalen, wenn sie unterschiedliche Merkmalsausprägungen aufweisen, nicht möglich („50% aller Angehöriger der Bundeswehr haben den Dienstrang Leutnant oder einen tieferen Rang, 50% haben den Dienstrang Leutnant oder einen höheren Rang.“ Gemittelte Ränge gibt es jedoch nicht.). Geeignet für schiefe Verteilungen, Zerlegung der Gesamtheit in 2 Hälften gibt besseren Einblick in die Mitte. Bestimmung des Medians aus der kumulierten Häufigkeitsverteilung: 30 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Mietwohnungen nach Kaltmiete v3 Kaltmiete in Euro Codes Anzahl% insgesamt% von gültigen% kumuliert -------------------------------------------------------------120 120 2 1.6 1.6 1.6 185 185 1 0.8 0.8 2.4 195 195 1 0.8 0.8 3.1 205 205 1 0.8 0.8 3.9 225 225 1 0.8 0.8 4.7 230 230 1 0.8 0.8 5.5 245 245 1 0.8 0.8 6.3 250 250 2 1.6 1.6 7.9 255 255 1 0.8 0.8 8.7 260 260 1 0.8 0.8 9.4 270 270 1 0.8 0.8 10.2 275 275 1 0.8 0.8 11.0 285 285 1 0.8 0.8 11.8 290 290 2 1.6 1.6 13.4 295 295 4 3.1 3.1 16.5 300 300 1 0.8 0.8 17.3 305 305 1 0.8 0.8 18.1 310 310 5 3.9 3.9 22.0 313 313 1 0.8 0.8 22.8 315 315 1 0.8 0.8 23.6 320 320 2 1.6 1.6 25.2 329 329 1 0.8 0.8 26.0 330 330 6 4.7 4.7 30.7 335 335 1 0.8 0.8 31.5 340 340 2 1.6 1.6 33.1 345 345 1 0.8 0.8 33.9 350 350 4 3.1 3.1 37.0 355 355 1 0.8 0.8 37.8 360 360 6 4.7 4.7 42.5 370 370 3 2.4 2.4 44.9 380 380 3 2.4 2.4 47.2 385 385 1 0.8 0.8 48.0 395 395 1 0.8 0.8 48.8 400 400 3 2.4 2.4 51.2 410 415 420 426 430 440 445 450 460 470 485 490 500 530 545 550 4 1 1 1 3 2 1 3 2 2 1 1 1 1 1 3 3.1 0.8 0.8 0.8 2.4 1.6 0.8 2.4 1.6 1.6 0.8 0.8 0.8 0.8 0.8 2.4 3.1 0.8 0.8 0.8 2.4 1.6 0.8 2.4 1.6 1.6 0.8 0.8 0.8 0.8 0.8 2.4 54.3 55.1 55.9 56.7 59.1 60.6 61.4 63.8 65.4 66.9 67.7 68.5 69.3 70.1 70.9 73.2 410 415 420 426 430 440 445 450 460 470 485 490 500 530 545 550 31 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 570 570 1 0.8 0.8 74.0 590 590 1 0.8 0.8 74.8 600 600 5 3.9 3.9 78.7 614 614 1 0.8 0.8 79.5 620 620 2 1.6 1.6 81.1 630 630 1 0.8 0.8 81.9 650 650 10 7.9 7.9 89.8 660 660 1 0.8 0.8 90.6 665 665 1 0.8 0.8 91.3 685 685 1 0.8 0.8 92.1 690 690 2 1.6 1.6 93.7 720 720 1 0.8 0.8 94.5 750 750 2 1.6 1.6 96.1 795 795 1 0.8 0.8 96.9 850 850 1 0.8 0.8 97.6 890 890 1 0.8 0.8 98.4 895 895 1 0.8 0.8 99.2 1200 1200 1 0.8 0.8 100.0 -------------------------------------------------------------Summe 127 100.0 100.0 -------------------------------------------------------------Median = 400 Median (interpoliert) = 400.00 Mode = 650 Berechnung des Medians bei klassierten Daten: Median muss aus der Angabe der Klassierung geschätzt werden. Die Einfall- oder Medianklasse m ist die Klasse, in der der Merkmalsträger mit der Positionsziffer n oder 0,5 ⋅ n liegt4. 2 Zur Untergrenze der Medianklasse am ist eine Strecke d zu addieren, die sich aus dem Strahlensatz bzw. einer linearen Interpolation ergibt: xME=am+ 0,5 ⋅ n − Fm−1 (bm − am ) . fm Zur genauen Berechnung des Medians bei klassierten Daten vgl. z.B. Bourier S 75-76. Vereinfachend kann die Klassenmitte der Medianklasse als Näherung für den Median errechnet werden. 4 Es wird hier nicht mehr nach geradem oder ungeradem Stichprobenumfang unterschieden. 32 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 3.1.3 p%-Quantile Definition: Unterhalb des p%-Quartils liegen p % der Realisationen oder Werte. Neben dem allgemeinen Begriff der p%-Quantile sind auch bestimmte Spezialbegriffe gebräuchlich, z.B. die Quartile (teilen die Gesamtmasse in 4 Teile), die Quintile, (teilen die Gesamtmasse in 5 Teile), die Perzentile (teilen die Gesamtmasse in 100 Teile), Definition: Quartil: Unterhalb des 1. Quartils liegen 25% der Realisationen oder Werte. Unterhalb des 3. Quartils liegen 75% der Werte. Der Median entspricht dem 2. Quartil, unter dem 50% der Werte liegen. Für unklassierte Daten: Beispiel: Mietwohnungen nach Kaltmiete Das 1. Quartil beträgt ca. 320 €. Das 3. Quartil beträgt ca. 590 €. Die Werte können aus den kumulierten relativen prozentualen Häufigkeiten des Computer-Ausdrucks weiter vorne abgelesen werden. Für klassierte Daten: Die Berechnung der Quartile bzw. p%-Quantile erfolgt analog zur Berechnung des Medians. Die Quartilsklasse ist die Klasse, in der der Merkmalsträger mit der Positionsziffer 0,25⋅n bzw.0,75⋅n liegt5. Zur Untergrenze der Quartilsklasse am ist eine Strecke d zu addieren, die sich aus dem Strahlensatz bzw. einer linearen Interpolation ergibt: Q1 = am + 0,25 ⋅ n − Fm−1 0,75 ⋅ n − Fm−1 (bm − am ) bzw. Q 2 = am + (bm − am ) fm fm Allgemein wird das p%-Quantil berechnet als: 5 Es wird hier nicht mehr nach geradem oder ungeradem Stichprobenumfang unterschieden. 33 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft p% p%-Quantil= am + ⋅ n − Fm−1 100 (bm − am ) fm 3.1.4 Arithmetisches Mittel Auch Mittelwert, Durchschnitt, mean Definition: Das arithmetische Mittel x von n Werten xi ist die Summe dieser Werte, geteilt durch ihre Anzahl. Der Mittelwert x betrachtet die einfachen Entfernungen der Werte voneinander. x= 1 n ∑ xi n i =1 Voraussetzung: Es muss mindestens Intervallskalierung6 vorliegen; die Merkmale müssen messbar – nicht zählbar – sein! Achtung: Durchschnittsnoten über x eigentlich nicht zulässig! Von nominalskalierten Merkmalen kann man überhaupt kein x bilden! Beispiel: Gewicht von 5 Personen in kg 55 75 60 66 71 1 x = (55 + 75 + 60 + 66 + 71) = 65,4 kg 5 Eigenschaften: Die Summe der Differenzen aller Werte vom Mittelwert ist 0! (55 − 65,4) + (75 − 65,4) + (60 − 65,4) + (66 − 65,4) + (71 − 65,4) = ( −10,4) + 9,6 + ( −5,4) + 0,6 + 5,6 = 0 Die Summe der Quadrate der Differenzen aller Werte vom Mittelwert ist kleiner als die Summe der Quadrate der Differenzen aller Werte von irgendeinem anderen Wert (Minimumeigenschaft der arithmetischen Mittels) (55 − 65,4) 2 + (75 − 65,4) 2 + (60 − 65,4) 2 + (66 − 65,4) 2 + (71 − 65,4) 2 = 261,2 6 Man muss also Differenzen bilden können. Einen Nullpunkt braucht man indes nicht. 34 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Würde man bspw. die Differenzen zu 65 rechnen, wäre die Summe größer. (55 − 65) 2 + (75 − 65) 2 + (60 − 65) 2 + (66 − 65) 2 + (71 − 65) 2 = 262 Wenn ein einzelner Beobachtungswert mehrfach auftritt: Definition: Das gewogene arithmetische Mittel berechnet sich, indem die einzelnen Merkmalswerte mit ihrer Häufigkeit fj gewogen werden. x= 1 m ∑ xj f j n j =1 Beispiel: Semesterzahl für ein gewogenes arithmetisches Mittel: Semesterzahl 8 9 10 11 12 Summe fj 10 29 45 10 6 x= 100 1 (8 ⋅ 10 + 9 ⋅ 29 + 10 ⋅ 45 + 11 ⋅ 10 + 12 ⋅ 6 ) = 9,7 100 Der Mittelwert sollte nicht mit übertriebener Genauigkeit der Nachkommastellen angegeben werden, also besser 9,7 statt 9,73. Beurteilung: - Wird bei kleinen Gesamtheiten von Ausreißern stark beeinflusst. z.B. x = 1 (15 + 4 + 12 + 16) = 11,75 . x wird nach unten gezogen. 4 - Ungeeignet bei schiefen Verteilungen, geeignet bei unimodalen Verteilungen. - Wenn Merkmale als Quotienten definiert sind, ist x unzulässig: Beispiel: - Den Weg zur 2 km entfernten Hochschule legt S. Tudent mit 5 km/h zurück, den Heimweg mit 10 km/h. Die Durchschnittsgeschwindigkeit beträgt NICHT 7,5 km/h! Durchschnittsgeschwindigkeiten werden mit dem harmonischen Mittel berechnet! Die Mittelwerte zweier Verteilungen können zu einem gemeinsamen Mittelwert aggregiert werden: Beispiel: Semesterzahl Semesterzahl 8 in Bochum: fj 10 in Essen: fj 12 9 29 16 10 45 25 11 10 30 12 Summe 6 100 5 88 35 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft xBo = 1 (8 ⋅ 10 + 9 ⋅ 29 + 10 ⋅ 45 + 11 ⋅ 10 + 12 ⋅ 6) = 9,73 100 xE = 1 (8 ⋅ 12 + 9 ⋅ 16 + 10 ⋅ 25 + 11 ⋅ 30 + 12 ⋅ 5) = 10 88 xBo+ E = 1 (9,73 ⋅100 + 10 ⋅ 88) = 9,856 188 Für klassierte Häufigkeitsverteilungen: - x kann nur näherungsweise berechnet werden. - Es werden die Klassenmitten als Merkmalsausprägungen verwendet. Beispiel: Nebeneinkünfte Die durchschnittlichen Nebeneinkünfte betragen von 50 100 200 300 400 600 Summe x= Nebeneinkünfte in € bis unter mj 100 75 200 150 300 250 400 350 600 500 1000 800 fj 15 50 80 40 40 20 245 1 (75 ⋅ 15 + 150 ⋅ 50 + 250 ⋅ 80 + 350 ⋅ 40 + 500 ⋅ 40 + 800 ⋅ 20) = 320,92 245 Damit ist x deutlich größer als der Median xME = 271,90. Beispiel: Mietwohnungen nach Größe V2 Wohnungsgröße in Quadratmeter 36 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Mittelwert 71.46 Summe 9076.00 Minimum 15.00 Maximum 170.00 N 127 1. Quartil 47.25 Median 70.00 3. Quartil 89.95 Eingeschlossen sind 127 von insgesamt 127 Fällen Der Median liegt bei 70 und das arithmetische Mittel bei 71,46. Häufigkeitspolygon V2 Wohnungsgröße in Quadratmeter -50 Es gilt: 0 50 100 150 200 x MO < x ME < x bei rechtsschiefen bzw. linkssteilen unimodalen Vertei- lungen (rechtsschief heißt: rechts zu flach). x < x ME < x MO bei linksschiefen bzw. rechtssteilen unimodalen Vertei- lungen (linkssschief heißt: links zu flach). 37 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 3.1.5 Harmonisches Mittel Definition: Vom HM liegen die vor ihm in der Häufigkeitsverteilung liegenden Merkmalswerte in der Summe gesehen relativ gleich weit entfernt wie die nach ihm liegenden Merkmalswerte. Das harmonische Mittel7 betrachtet also die relativen Entfernungen der Merkmalswerte voneinander. (erinnere: Das AM betrachtete die einfachen Entfernungen.). HM = f 1 + f 2 + ... f m f f1 f 2 + + ... + m x1 x 2 xm Voraussetzungen: - Für relative Entfernungen braucht man Quotienten. HM ist einzige Möglichkeit, Durchschnittswerte von Quoten zu bestimmen. Der Zähler der Quote und die Häufigkeit muss auf dieselbe Größe bezogen sein. - Das Merkmal muss verhältnisskaliert8 sein. - Die Merkmalswerte müssen alle positiv oder alle negativ sein. Beispiel: Den Weg zur 2 km entfernten Hochschule legt S. Tudent mit 5 km/h zurück, den Heimweg mit 10 km/h. (Zähler der Quote: „km“, Häufigkeit (Hier: Entfernung) ebenfalls in „km“.) x1=5km/h, f1=2km x2=10km/h, f2=2km Gesamtstrecke: f1+f2=4km Hinweg: 2[km] 2[km] = 0,4[h ] , Rückweg: = 0,2[h ] , Gesamtzeit: 0,6[h]. 5[km / h ] 10[km / h ] Durchschnittsgeschwindigkeit= Gesamtstrecke 4[km] = = 6,67[km / h ] Gesamtzeit 0,6[h ] Alternative Berechnung nach der „Formel“: 7 Das harmonische Mittel lässt sich auch mit Hilfe der Harmonielehre der Musik erklären: Wenn die Schallwellen doppelt so schnell schwingen [in MHz bzw. Anzahl Schwingungen/Sekunde] wie beim Kammerton a, ist ein Ton doppelt so hoch. 8 Man muss also aussagefähige Quotienten mit den Merkmalen bilden können: doppelt so groß, halb so schnell... 38 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 2[km] + 2[km] 4[km] 4[km] = = = 6,67[km / h] 2[km] 2[km] 2 2 3 + [ h ] + [ h] [ h] km km 10 5 5[ ] 10[ ] 5 h h Klassierte Daten: Nehme Klassenmitten für die xj. 3.1.6 Geometrisches Mittel Definition: Das geometrische Mittel ist der Wert, der mehrere aufeinander folgende Vervielfachungen einer Größe als Mittelwert berechnet. GM = n x1 ⋅ x 2 ⋅ ... x n Voraussetzungen: - Merkmalswerte müssen verhältnisskaliert9 sein. - Merkmalswerte müssen größer als Null sein Beurteilung: Einzige Möglichkeit, um aus Wachstumsraten bzw. aus den zugehörigen Wachstumsfaktoren ein Durchschnittswachstum zu berechnen. Beispiel: Gewinn Wachstumsrate in % Wachstumsfaktor Es gilt: 2000 5000 Gewinnentwicklung 2001 5200 4,00 1,04 2002 5000 -3,8 0,962 2003 5400 8,0 1,080 2004 5600 3,7 1,037 Wachstumsrate [in %]=(Wachstumsfaktor-1)⋅100 2% = (1,02-1)⋅100 Der Wachstumsfaktor sagt aus, das wieviel-fache der neue Wert des alten Wertes ist. Der Wert des Jahres 2003 ist das 1,08-fache des Wertes des Jahres 2002. GM= 4 1,04 ⋅ 0,962 ⋅ 1,08 ⋅ 1,037 = 1,0289 Das Durchschnittswachstum beträgt 2,89%. 9 Aus den Merkmalen muss man aussagefähige Quotienten bilden können: z.B. doppelt so schnell. 39 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Es gilt: Ist der Anfangswert und der Endwert der Entwicklung einer wirtschaftlichen Größe bekannt, so kann die Gesamtvervielfachung aus diesen beiden Größen berechnet werden. 5200 5000 5400 5600 5600 ⋅ ⋅ ⋅ = 5000 5200 5000 5400 5000 Daraus folgt: GM= n GM = 4 Endwert Anfangswert 5600 = 1,0289 5000 Klassierte Daten: Beim geometrischen Mittel nicht möglich. 3.2 Streuungsparameter Ein Mensch, der von Statistik hört, denkt dabei nur an Mittelwert. Er glaubt nicht dran und ist dagegen, ein Beispiel soll es gleich belegen: Ein Jäger auf der Entenjagd hat einen ersten Schuss gewagt. Der Schuss zu hastig aus dem Rohr, lag eine gute Handbreit vor. Der zweite Schuss mit lautem Krach lag eine gute Handbreit nach. Der Jäger spricht ganz unbeschwert voll Glauben an den Mittelwert: Statistisch ist die Ente tot. Doch wär’ er klug und nähme Schrot - dies sei gesagt, ihn zu bekehren er würde seine Chancen mehren: Der Schuss geht ab, die Ente stürzt, weil Streuung ihr das Leben kürzt. P.H. List, Marburg 1977 Beschreiben die Streuung der Merkmalswerte um einen mittleren Wert Maß für Streuung kann auch Entfernung zwischen zwei ausgewählten Merkmalsträgern sein 40 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 3.2.1 Spannweite Auch Variationsbreite, range Definition: Maß für die Entfernung zwischen kleinstem und größtem beobachteten Merkmalswert, gibt Länge des Bereichs an, über den sich die Merkmalswerte verteilen. Voraussetzung: Berechnung von Differenzen erfordert mindestens Intervallskalierung. In Praxis häufig auch Ordinalskalierung als ausreichend angesehen („Die Noten streuen zwischen 1 und 5.“). Beurteilung: - Erste Abschätzung für die Streuung, sofern keine Ausreißer vorliegen. - Reagiert sehr empfindlich auf Ausreißer. - Anschauliches und leicht verständliches Maß für die Breite der Streuung. - Gibt keine Information über die Art der Streuung der Merkmalswerte. - In Praxis häufig nicht als absolutes Maß sondern als Wertepaar „höchst/tiefst“ (z.B. bei Temperaturen, Börsenkursen, Tidenhub) angegeben. Beispiel: Semesterzahl Semesterzahl fj 8 10 9 29 10 45 11 10 12 6 Summe 100 Die benötigte Semesterzahl bis zum Diplom streut zwischen 8 und 12 Semestern. Klassierte Daten: Nehme als kleinsten Wert die Untergrenze der tiefsten Klasse und als größten Wert die Obergrenze der höchsten Klasse. Beispiel: Im Beispiel der Nebeneinkünfte streut die Höhe der Einkünfte zwischen 50€ und 1000€. 3.2.2 Quartilsabstand Definition: Der zentrale Quartilsabstand ZQA = Q3 − Q1 ist die Entfernung zwischen den beiden Merkmalswerten, die die zentral gelegenen 50% der Merkmalsträger eingrenzen. 41 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Definition: Der halbe Quartilsabstand Q3 − Q1 2 wird als Streuungsmaß sinnvollerweise genau dann eingesetzt, wenn als Lageparameter der Median verwendet wird. Voraussetzung: Merkmale müssen mindestens intervallskaliert sein, da zur Berechnung des Abstandes die Differenz gebildet werden muss. Wenn statt des Abstandes nur die Werte der beiden Quartile Q1 und Q3 angegeben werden, reicht die Ordinalskala („50% der Noten streuen zwischen 2 und 3“). Grafische Darstellung des zentralen Quartilsabstand mit Hilfe des Summenpolygons Hj 1 0,75 50% 0,5 0,25 0 1 2 Q1 3 Zentraler Quartilsabstand 4 Q3 xj 5 Beurteilung: Ausreißer unproblematisch, da untere und obere 25% der Häufigkeitsverteilung abgeschnitten werden. Wie bei Spannweite wird über Streubereich informiert, aber nicht wie die Merkmalswerte in diesem Bereich streuen. Insbesondere geeignet für Verteilung des Einkommens und des Vermögens („50% der Einkommen liegen zwischen 1500 und 2300 €“) Klassierte Daten: Berechnung der Quartile wie weiter vorne beschrieben. 42 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 3.2.3 Mittlere absolute Abweichung Mean absolute deviation MADx = 1 m ∑ | x j − x | f j oder n j =1 MADxME = 1 m ∑ | x j − xME | f j n j =1 ist das arithmetische Mittel der absoluten Abweichungen der einzelnen Merk- malswerte vom arithmetischen Mittel oder vom Median, man braucht mindestens intervallskalierte Merkmale, allgemein lässt sich zeigen, dass die mittlere absolute Abweichung bezogen auf irgendeinen Wert nie kleiner werden kann als die mittlere absolute Abweichung bezogen auf den Median (Minimumeigenschaft des Medians). Die mittlere absolute Abweichung lässt sich inhaltlich interpretieren und ist einfach zu berechnen: z.B. im Durchschnitt weichen die Überstunden aus dem Überstundenbeispiel um 1,23 Stunden vom arithmetischen Mittel bzw. um 1,1 Stunden vom Median ab. 3.2.4 Varianz und Standardabweichung Variance, standard deviation Definition: Die Varianz ist ein Streuungsmaß, das als Summe der quadrierten Abweichungen der Merkmalswerte vom Mittelwert, dividiert durch die Anzahl der Elemente, berechnet wird. Die Standardabweichung ist die Wurzel aus der Varianz. Die Symbole σ 2 und σ stehen für die „theoretische“ Größe der Varianz bzw. Standardabweichung in der Grundgesamtheit. In der Praxis interessieren immer konkrete Varianzen und Standardabweichung in einer konkreten Stichprobe. Zur Unterscheidung von den „theoretischen“ Größen σ 2 und σ aus der Grundgesamtheit, die in der Regel unbekannt sind und nur abgeschätzt werden können, werden die Symbole s 2 und s verwendet. Die Varianz in einer Stichprobe ist: s2 = 1 m ( x j − x )2 f j ∑ n − 1 j =1 Die Formel für die Varianz in der Grundgesamtheit10 ist 10 Im Gegensatz zur Formel für s 2 für die Stichprobenvarianz wird hier statt durch 1 1 durch geteilt. Wenn n −1 n man durch etwas größeres teilt, kommt etwas kleineres heraus. Die theoretische Varianz der Grundgesamtheit fällt also immer etwas kleiner aus als die Stichprobenvarianz σ2 s 2 . Damit überschätzt die Stichprobenvarianz die 43 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft σ2 = 1 m ( x j − x )2 f j ∑ n j =1 Voraussetzungen: Wegen der Abstandsmessung müssen die Merkmale mindestens intervallskaliert sein. Beispiel: Überstunden Überstunden xj fj xj −x (xj −x)2 (xj −x)2 f j 0 1 2 3 4 5 10 15 6 4 3 3 41 -1,61 -0,61 0,39 1,39 2,39 3,39 2,59 0,37 0,15 1,93 5,71 11,49 25,92 5,58 0,91 7,73 17,14 34,48 91,76 1) x = 1,61 = 66 41 2) Berechnung der quadrierten Abweichungen ( x j − x ) 2 f j und Summenbildung ergibt 91,76. 3) s 2 = 91,76 = 2,29 [Überstunden zum Quadrat]!!! 41 − 1 4) s = 2,29 =1,51 [ Überstunden 2 ]!!! theoretische Varianz der Grundgesamtheit etwas. Man liegt also bei der Abschätzung auf der pessimistischen, aber sicheren Seite der Streuungsmessung. Obige Formel für die Varianz lässt sich auch in der etwas bequemeren Variante σ2 = 1 m 2 ∑ x j f j − x 2 darstellen (Verschiebungssatz). n j =1 44 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Achtung: Die Interpretation „Im Durchschnitt streuen die Merkmalswerte um 1,5 Stunden um den Mittelwert“ ist nicht zulässig! Richtig heißt es: „Die Streuung beträgt 1,5 Überstunden 2 !“ Beurteilung: Die Merkmale müssen mindestens intervallskaliert sein, da Differenzen berechnet werden. Die Varianz (und die Standardabweichung) kann nicht inhaltlich interpretiert werden, denn die resultierenden quadrierten Dimensionen sind inhaltlich nicht interpretierbar. Quadratur der Abweichungen führt zu positiven Abweichungswerten, die um so größer ausfallen, je weiter der Merkmalswert vom Mittelwert weg ist (Stärkere Gewichtung der Ausreißer!) Sinnvoll nur beim Vergleich zweier Verteilungen; es kann die mit der geringeren Varianz bzw. Streuung identifiziert werden. Ein Vergleich zweier Varianzen oder Standardabweichungen ist nur bei ähnlichem Mittelwert sinnvoll. Je größer die Varianz ist, desto größer ist die Standardabweichung. Klassierte Daten: Nur näherungsweise Berechnung der Varianz und Standardabweichung möglich Ersetze die Merkmalswerte durch die Klassenmitten (d.h. Annahme, dass alle Merkmalswerte auf die Klassenmitte fallen.). Beispiel: Nebeneinkünfte 45 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Nebeneinkünfte in € von bis zu 50 100 200 300 400 600 100 200 300 400 600 1000 Klassenmitte mj 75 150 250 350 500 800 1. x = fj 15 50 80 40 40 20 245 m j f 2 (m j − x ) ( m j − x ) j 1125 7500 20000 14000 20000 16000 78625 (m j − x )2 ⋅ f j -245,92 60.476,65 907.149,70 -170,92 29.213,65 1.460.682,32 -70,92 5.029,65 402.371,71 29,08 845,65 33.825,86 179,08 32.069,65 1.282.785,86 479,08 229.517,65 4.590.352,93 8.677.168,37 78.625 = 320,92€ 245 2. Berechnung der quadrierten Abweichungen der Klassenmitten mj vom Mittelwert und Addition 3. s 2 = 8.677.168,37 = 35.562,17€ 2 245 − 1 4. s = 188,58 € 2 Inhaltliche Interpretation der Ergebnisse nicht möglich, nur Größenvergleich! In einigen Veröffentlichungen wird statt der Standardabweichung der Standardfehler s.e. (standard error) angegeben. s .e. = s s oder der Standardfehler des Mittelwertes s M = n n 3.2.5 Variationskoeffizient Definition: Der Variationskoeffizient ist ein Maß zum Vergleich der Streuung zweier Verteilungen mit sehr unterschiedlichen Mittelwerten. VK= Beispiel: s 100 |x| Nebeneinkünfte 188,58 100 = 58,8% 320 , 92 VK= Die Standardabweichung beträgt 58,8% des arithmetischen Mittelwertes. Eine weitergehende Interpretation ist nicht zulässig. 46 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beurteilung: Wegen Verwendung der Standardabweichung nicht interpretierbar. Ist dimensionslose Größe und damit unabhängig vom Niveau der Ausgangswerte Eignet sich zum Vergleich von Streuungen von Häufigkeitsverteilungen mit unterschiedlichem Mittelwert. Beispiel: Mietwohnungen V2 Wohnungsgröße in Quadratmeter Mittelwert Summe Minimum Maximum N Standardabweichung Variationskoeffizient= 71.46 9076.00 15.00 170.00 127 31.45 31,45 ⋅ 100 = 44% 71,46 V3 Kaltmiete in Euro Mittelwert Summe Minimum Maximum N Standardabweichung Variationskoeffizient= 446.28 56677.00 120.00 1200.00 127 176.49 176,49 ⋅ 100 = 40% 446,28 Die Wohnungsgröße streut stärker als die Kaltmiete. 47 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik 3.2.6 Zusammenfassung Maße und Skalen Nominal Maß Modus Median arithmet. Mittel geometr. Mittel, harmonisch Ordinal Skala Intervall Verhältnis (mit natürlichem Nullpunkt) Lagemaße X Spannweite Quartilsabstand mittlere absolute Abweichung Varianz, Standardabweichung Variationskoeffizient X X X X X Streuungsmaße X X X X X X X X X X X X X X X nach: Bleymüller, Gehlert, Gülicher (2002), S. 24 4 Weitere Verteilungsmaße 4.1 Box-Plots Auch: Box-Whisker-Plot (whisker=Barthaar) Ein Box-Plot veranschaulicht vereinfacht die Lage und Streuung von Verteilungen grafisch. Es zeigt - 1. und 3. Quartil - Median - Extreme Werte - Ausreißer. Die mittleren 50% der Beobachtungen werden durch einen Kasten (Box) dargestellt, der durch das 1. und 3. Quartil begrenzt wird. In der Box wird der Median als Linie angezeigt. Es werden „Zäune“ festgelegt. Innerhalb der Zäune aber außerhalb der Box liegen die extremen Werte. Die Zäune liegen in einer Entfernung des 1-fachen Quartilsabstands d.h. das 1-fache der Boxlänge vom 1. bzw. 3. Quartil weg (adjacent values). Die Zäune können auch kürzer ausfallen, falls das Minimum oder das Maximum um weniger als einen Quartilsabstand von Q1 bzw. Q3 entfernt liegen. Außerhalb der Zäune liegen die Ausreißer. 48 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Beim Alter der Beschäftigten eines Unternehmens liege der Median bei 46 Jahren, das 1. Quartil bei 40, das 3. Quartil bei 50 Jahren. Der Praktikant ist 19 und die Hausmeisterin 55 Jahre. Wer von beiden ist Ausreißer? Die Zäune liegen bei 40-1⋅10=30 und 50+1⋅10=60. Das Alter der Hausmeisterin ist kein Ausreißer, es liegt diesseits des Zauns. 1,2 ZQA=Q3-Q1 1 • ZQA * Q1 xME Q3 0 Box-Plots können gut zum Vergleich verschiedener Verteilungen eingesetzt werden. Beispiel: Mietwohnungen Box-Plot einer linkssteilen Verteilung: V3 Kaltmiete in Euro Mittelwert Summe Minimum Maximum N Standardabweichung 1. Quartil Median 3. Quartil Schiefe Kurtosis 446.28 56677.00 120.00 1200.00 127 176.49 320.38 400.00 599.55 1.03 1.58 Eingeschlossen sind 127 von insgesamt 127 Fällen 49 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Häufigkeitspolygon V3 Kaltmiete in Euro -500 0 500 1000 1500 4.2 Schiefe, Wölbung Neben Lage und Streuung sind Schiefe und Wölbung weitere wichtige Eigenschaften einer Häufigkeitsverteilung. Schiefe: Schiefe >0: linkssteil bzw. rechtsschief! Schiefe = 0: symmetrische Verteilung Schiefe <0 rechtssteil bzw. linksschief 50 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft rechtssteil bzw . linksschief linkssteil bzw . rechtsschief 6 10 9 5 8 7 4 6 3 5 4 2 3 2 1 1 0 0 1 2 3 4 5 6 7 8 Schiefe/Skewness >0 9 10 1 2 3 4 5 6 7 8 9 10 Schiefe/Skewness <0 Es ist nur sinnvoll, die Wölbung symmetrischer Verteilungen zu berechnen! Wölbung/Kurtosis: Wölbung < 0: flacher gewölbt (als eine Normalverteilung mit denselben Parametern)11 Wölbung = 0 identische Wölbung (wie eine Normalverteilung mit denselben Parametern) Wölbung > 0: steiler gewölbt (als eine Normalverteilung mit denselben Parametern) Die Wölbung kann nur schlecht per Augenmaß identifiziert werden, weil sie immer mit der korrespondierenden Normalverteilung verglichen werden muss! Darüber hinaus reagiert das Wölbungsmaß sehr empfindlich auf unsymmetrische Verteilungen, so dass nur bei symmetrischen Verteilungen die Wölbung berechnet werden sollte. 11 Die Normalverteilung wird erst in der induktiven Statistik eingeführt. Die Gestalt der Normalverteilung mit den Parametern Erwartungswert 0 und Streuung 1 (auch als Gauß-Kurve bezeichnet) war auf dem alten 10 DM-Schein abgebildet. 51 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft steile Wölbung flache Wölbung 12 12 10 10 8 8 6 6 4 4 2 2 0 0 1 2 3 4 5 6 7 Wölbung > 0 8 9 10 1 2 3 4 5 6 7 8 9 10 Wölbung < 0 4.3 Konzentrationsmaße Wie ist die Merkmalswertsumme (kumulierte Merkmalsausprägungen) auf die Merkmalsträger verteilt? Ist sie gleichmäßig auf die Merkmalsträger verteilt oder konzentriert sie sich auf wenige Merkmalsträger? Beispiel: Verteilung des Einkommens (Merkmalswertsumme, kumulierte Merkmalswerte) auf die Haushalte (Merkmalsträger): Hat jeder denselben Einkommensanteil oder erhalten wenige einen großen Einkommensanteil? Verteilung der Marktanteile (Merkmalswertsumme, kumulierte Merkmalswerte) auf die Unternehmen (Merkmalsträger): Haben alle Unternehmen denselben Marktanteil oder gibt es einen Marktführer? 52 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 4.3.1 Absolute Konzentration Definition: Absolute Konzentration der ersten k Merkmalsträger k Ck = ∑x i ∑x i i =1 n i =1 k = ∑ ai mit 0≤Ck≤1 mit i =1 xi=Merkmalsausprägung (hier: Umsatz) des Merkmalsträgers i (hier: Unternehmen) und ai=Anteil der Merkmalsausprägung des i-ten Merkmalsträgers an der Summe aller Merkmalsausprägungen, Ck=Anteil der Summe der Merkmalsausprägungen der ersten k Merkmalsträger an der Summe aller Merkmalsausprägungen Beispiel: Umsätze Umsatzkonzentration Unternehmen, nach Umsatz sortiert Meier GmbH Müller GbR Schmitt GmbH Schneider OHG Franz GmbH Meyer GmbH Vogt OHG Summe Umsatz ai in Mio. € Umsatzanteil ai in % kumulierter Umsatzanteil ai in % für Herfindahl ai² 250 105 50 40 30 20 5 500 50% 21% 10% 8% 6% 4% 1% 50% 71% 81% 89% 95% 99% 100% 62.500 11.025 2.500 1.600 900 400 25 78.950 53 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Umsatzkonzentration 1% 4% Meier GmbH 6% Müller GbR Schmitt GmbH 8% Schneider OhG Franz GmbH 10% 50% Meyer GmbH Vogt OhG 21% Hier: x1=Umsatz des 1. Unternehmens, a1=Umsatzanteil des 1. Unternehmens am Gesamtumsatz alle Unternehmen, C1=Umsatzanteil des 1. Unternehmens am Gesamtumsatz, C2 Umsatzanteil der ersten beiden Unternehmen am Gesamtumsatz usw... C1 = 250 = 0,5 500 C2 = 250 + 105 = 0,71 500 Auf das umsatzstärkste Unternehmen entfällt 50% des Umsatzes. Auf die beiden umsatzstärksten Unternehmen entfallen 71% des Umsatzes. Willkürliche Festlegung von k, also wie viel Merkmalsträger betrachtet werden. Nachteil: 4.3.2 Konzentrationsindex von Herfindahl Definition: n C Herfindahl = ∑x i =1 2 i n ∑ xi i =1 2 mit 1 ≤ C Herfindahl ≤ 1 n Je größer der Konzentrationsindex, desto größer ist die Konzentration Bei einer Gleichverteilung ergibt sich für den Herfindal-Index der minimale Wert von Beispiel: 1 . n Umsätze 54 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft C Herfindahl = 78950 = 0,3158 . 500 2 Da sich der Umsatz schwerpunktmäßig auf zwei Unternehmen verteilt, ist die Konzentration nicht so hoch. Wenn die Meier GmbH und die Müller GbR fusionieren würden, ergäbe sich für den Herfindahl-Index C Herfindahl = (250 + 105)2 + 50 2 + 40 2 + 30 2 + 20 2 + 5 2 500 2 = 131.450 = 0,5168 . 250.000 4.3.3 Relative Konzentration: Lorenz-Kurve und Gini-Koeffizient Wie viel Prozent der Summe der Merkmalsausprägungen entfallen auf wie viel Prozent der Merkmalsträger? Klassen Einkommensverteilung Merkmalsträger Einkommen Klassenmitte von bis unter mj 0 500 250 500 1.000 750 1.000 2.000 1.500 2.000 3.000 2.500 3.000 6.000 4.500 Summe Klassen Einkommen Klassenmitte von bis unter mj 0 500 250 500 1.000 750 1.000 2.000 1.500 2.000 3.000 2.500 3.000 6.000 4.500 Summe Anzahl Personen fj 50 120 160 100 20 450 Anteil Personen hj 0,11 0,27 0,36 0,22 0,04 1,00 kumulierter Anteil: Anteil in Personen % Hj Hj´ 0,11 11,11 0,38 37,78 0,73 73,33 0,96 95,56 1,00 100,00 Merkmalswerte/Merkmalsausprägungen Einkommen: kumulierter Klassenmitte Anteil Anteil: Anteil in mal Anzahl Einkommen Einkommen % Yj´ mj fj yj Yj 12500 0,02 0,02 1,83 90000 0,13 0,15 15,02 240000 0,35 0,50 50,18 250000 0,37 0,87 86,81 90000 0,13 1,00 100,00 682500 1,00 Durch die Gegenüberstellung der beiden relativen kumulierten Häufigkeiten Hj´ und Yj´ können Konzentrationsaussagen getroffen werden. Beispiel: Einkommensverteilung 73,33% der Personen haben Einkünfte bis unter 2000€. 55 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 50,18% der Einkünfte werden von Personen der Einkommensklassen bis 2000 € erzielt. 73,33% der ärmsten Personen erzielen nur 50,18% der Einkünfte (es muss also ein paar „Reiche“ geben). Der Anteil der Personen mit dem höchsten Einkommen zwischen 3000 und 6000€ beträgt nur 4%, diese erzielen aber 13,2% des gesamten Einkommens. Der Anteil der Personen bis 500€ Einkommen (z.B. die Studierenden) beträgt 11%. Diese erzielen jedoch nicht 11% des gesamten Einkommens, sondern nur 1,83%. Auf 11% der ärmsten Personen entfällt 1,8% des Einkommens, auf 38% der ärmsten Personen entfällt 15% des Einkommens usw. kumulierter Anteil der Merkmalssumme (Einkommen) 100 Lorenzkurve B 90 80 70 60 50 40 F 30 20 F' 10 C 0 A 0 10 20 30 40 50 60 70 80 90 100 kumulierter Anteil der Merkmalsträger (Personen) Bei Gleichverteilung entspricht die Lorenz-Kurve der Winkelhalbierenden: Auf 10% der Personen entfällt 10% des Einkommens usw.. Bei sehr hoher Konzentration wird die Lorenz-Kurve immer „eckiger“ und entfernt sich immer weiter von der Winkelhalbierenden. 56 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Je näher die Lorenzkurve an der Winkelhalbierenden liegt, desto geringer ist die Konzentration, je weiter sie von der Winkelhalbierenden weg liegt, desto größer ist die Konzentration. Gini-Koeffizient: Konzentrationsmaß, das die Konzentration in einem Wert ausdrückt. GK = Fläche F Fläche ∆ABC m ( GK = 1 − ∑ h j ⋅ Y j −1 + Y j 0≤GK≤ n −1 n ) mit Y0=0. j =1 Je näher der GK bei 0, desto geringer ist die relative Konzentration (eher Gleichverteilung). Je näher der GK bei n −1 ,(das ist fast 1), desto größer ist die relative Konzentratin on (eher Ungleichverteilung). Die auf genau 1 normierte Variante des Gini-Koeffizienten heißt LorenzMünzner-Koeffizient und errechnet sich als LM = GK Beispiel: n n −1 Einkommensverteilung GK= 1-[0,11⋅(0+0,02) + 0,27⋅(0,02+0,15)+ 0,36⋅(0,15+0,50) +0,22⋅(0,50+0,87)+0,04⋅(0,87+1)] = 1-0,66=0,34 Der Gini-Koeffizient liegt unter der Mitte des Wertebereiches 0≤GK≤1⇒hier: schwache bis mittlere Konzentration. Beispiel: 12 Errechnete Konzentrationsmaße12 von Marktanteilen deutscher Fernsehsender (m=15 Sender) bzw. Netto-Einkommen in Deutschland (m=10 Klassen), Marktanteile von Unternehmen, die Unix-Server anbieten (m=4). aus: Zöfel, Peter: Statistik für Wirtschaftswissenschaftler, Pearson Verlag, 2003, S. 231. 57 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Beispiel m Gini Herfindahl TV-Sender 15 0,426 0,105 Einkommen 10 0,326 0,130 Unix-Server 4 0,190 0,281 Gini-Koeffizient und Herfindahl-Index unterscheiden sich um so stärker voneinander, je größer die Anzahl der Merkmalsträger ist. 5 Zweidimensionale deskriptive Statistik Frage nach Zusammenhang zwischen Variablen: Wird eine Variable von einer anderen beeinflusst? Frage nach Gleichläufigkeit (Berufserfahrung in Jahren und Einkommen) oder Gegenläufigkeit (Einkommen und Freizeit in Stunden) Frage nach Ausprägung des Zusammenhangs (stark oder schwach) Frage nach einzelnen „Ausreißern“, die ein atypisches Verhalten aufweisen (Personen mit sehr langer Berufserfahrung können trotzdem ein niedriges Einkommen haben). 5.1 Kovarianz Definition: Die Kovarianz misst die gleichzeitige Abweichung zweier Variablen. s xy = 1 n ∑ ( xi − x ) ⋅ ( y i − y ) n − 1 i =1 Einfachste Möglichkeit zur Messung eines Zusammenhanges Die Kovarianz13 kann Werte zwischen − ∞ und ∞ annehmen. Bei einer negative Kovarianz liegt ein gegenläufiger Zusammenhang vor. Bei einer positiven Kovarianz liegt ein gleichläufiger Zusammenhang vor. Bei einer Kovarianz von nahezu Null liegt kein Zusammenhang vor. 13 Achtung: In einigen Lehrbüchern wird in der Formel für die Kovarianz durch n statt durch (n-1) geteilt. 58 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 5.2 Korrelationskoeffizient von Bravais-Pearson Definition: Der Korrelationskoeffizient misst die Stärke des Zusammenhanges zweier quantitativer Variablen mit Intervall- oder Verhältnisskala14. Richtung der Kausalität spielt keine Rolle. Errechnet sich aus der normierten Kovarianz n r= ∑(x i =1 i − x )( y i − y ) n n i =1 i =1 ∑ ( xi − x ) 2 ∑ ( y i − y ) 2 oder in Kurzschreibweise r= mit s xy = 1 n ∑ ( xi − x ) ⋅ ( yi − y ) und s x = n − 1 i =1 s xy sx sy 1 n ( xi − x ) 2 und s y = ∑ n − 1 i =1 1 n ( yi − y ) 2 ∑ n − 1 i =1 Der Korrelationskoeffizient liegt zwischen –1 (bei vollständig gegenläufigem Zusammenhang) und +1 (bei vollständig gleichläufigen Zusammenhang). Der Korrelationskoeffizient misst die Stärke des Zusammenhangs zwischen den Messwerten Der Korrelationskoeffizient ist 0 bei fehlendem Zusammenhang. 14 Für qualitative Variablen gibt es den Rangkorrelationskoeffizient von Spearman (vgl. z.B. Bourier S 217-222) 59 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Prüfungsergebnisse in Mathematik und Statistik Ergebnis Teilnehmer Mathematik Statistik i xi yi 1 2 3 4 5 Summe Mittelwert r= 23 33 29 10 19 114 22,8 404,8 320,8 ⋅ 558,8 25 40 26 7 21 119 23,8 Hilfsspalten xi yi 575 1320 754 70 399 3118 xi −x yi −y (xi − x)(yi − y) 0,2 10,2 6,2 -12,8 -3,8 0 1,2 16,2 2,2 -16,8 -2,8 0 0,24 165,24 13,64 215,04 10,64 404,8 2 (xi −x)2 ( yi − y) 0,04 104,04 38,44 163,84 14,44 320,8 1,44 262,44 4,84 282,24 7,84 558,8 = 0,956 Es liegt ein stark positiver Zusammenhang zwischen der Mathematik- und StatistikPunktzahl vor. 60 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft V1 Mathe-Punkte V2 Statistik-Punkte 40 35 30 25 V2 20 15 10 5 10 15 20 25 30 35 V1 V1 Mathe-Punkte V2 Statistik-Punkte V1 V1 V2 +: p<0.05 V2 0.9561 + 0.9561 + *: p<0.01 !: p<0.001 -:Signif. nicht verfügbar. Fehlende Werte ausschließen: Fallweise Eingeschlossen sind 5 von insgesamt 5 Fällen 5.3 Lineare Regressionsanalyse Die Korrelationsanalyse bestimmte die Stärke des Zusammenhanges zwischen zwei Variablen. Mit der Regressionsanalyse soll der Zusammenhang in einer linearen Funktion beschrieben werden: y=a+b⋅x y soll die abhängige Variable sein x soll die unabhängige Variable sein 61 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Die Steigung b und der Ordinatenabschnitt a werden nach der Methode der kleinsten Quadrate (ordinary least squares (OLS)) bestimmt. Eine Gerade wird so durch die Punktwolke aller xi und yi gelegt, dass die Summe der quadrierten senkrechten Abstände der y-Koordinaten zur Regressionsgerade minimal wird. Die Methode der kleinsten Quadrate liefert die Regressionsgerade, die die Punktwolke bestmöglich repräsentiert. y (x2,y2) 3 2 (x3,y3) 1 (x1,y1) 0 0 1 2 x 3 Die Summe der (quadrierten) senkrechten Abstände zwischen den Punkten und der Regressionsgerade ist die kleinstmögliche. 62 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik y (x2,y2) 3 2 (x3,y3) 1 (x1,y1) 0 0 1 y 2 x 3 (x2,y2) 3 (x2,ŷ2) 2 (x1,ŷ1) (x3,y3) 1 (x1,y1) 0 0 1 2 x 3 63 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Wie errechnet man die Steigung b der Regressionsgerade? n b= Es gilt: ∑ ( x − x )( y i i =1 i n ∑ (x − x) − y) 2 i i =1 oder b= mit s xy = s xy s xx 1 n 1 n ( xi − x ) ⋅ ( yi − y ) und s xx = ( xi − x ) 2 ∑ ∑ n − 1 i=1 n − 1 i =1 Der Ordinatenabschnitt a errechnet sich als: n n i =1 i =1 ∑ y i − b∑ xi a= n = y −b⋅x Beispiel: Prüfungsergebnisse in Mathematik und Statistik Abhängige: V2 B V1 1.262 Statistik-Punkte Vorhersagevariable Mathe-Punkte Achsenschnittpunkt Multiples R Multiples R² Angepasstes R² F-Wert F-Sign. Gültige Fälle -4.970 0.96 0.91 0.89 31.92 0.0110 5 Fehlende Werte ausschließen: Fallweise Variablenauswahl: Alle einschließen 64 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Eingeschlossen sind 5 von insgesamt 5 Fällen Die Regressionsgerade lautet: ŷi =-4,97+1,262⋅xi. Es wird jetzt das Symbol ŷ als geschätzter y-Wert genommen, da mit der Regressionsgeraden nicht exakt die Punkte yi der Punktwolke getroffen werden. Man kann jetzt die Vorhersage treffen, dass jemand, der 30 Punkte in Mathematik erzielt, vermutlich ŷi =-4,97+1,2618⋅30=32,88 Punkte in Statistik erzielt. Beispiel: Vier „komische“ Punkte 3 2 1 0 0 1 2 3 65 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Zu-Fuß-Methode: Zeichnen Sie die Regressionsgerade so in die Punktwolke ein, dass die Summe der quadrierten senkrechten Abstände möglichst klein wird! 3 3 2,8 2,8 2,6 2,6 2,4 2,4 2,2 2,2 2 2 1,8 1,8 1,6 1,6 1,4 1,4 1,2 1,2 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 0 1 2 3 Summe = 0 2 + 12 + 0 2 + 12 = 2 0 1 2 3 Summe = 0,42 + (−0,6) 2 + (−1,5) 2 + (−0,5) 2 = 3,02 3 3 2,8 2,8 2,6 2,6 2,4 2,4 2,2 2,2 2 2 1,8 1,8 1,6 1,6 1,4 1,4 1,2 1,2 1 1 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0 0 0 1 2 Summe = (−1) 2 + 0 2 + 12 + 0 2 = 2 3 0 1 2 3 Summe = (−1) 2 + 0 2 + (−1) 2 + 02 = 2 66 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft OLS-Methode: i xi yi ( xi − x ) 1 2 3 4 Summe Mittelwert 1 2 1 2 6 1,5 1 1 2 2 6 1,5 -0,5 0,5 -0,5 0,5 0 n b= ∑ (x i i =1 − x )( yi − y ) n ∑ (x − x) ( xi − x )( yi − y ) ( xi − x ) 2 ( yi − y ) 2 0,25 -0,25 -0,25 0,25 0 0,25 0,25 0,25 0,25 1 0,25 0,25 0,25 0,25 1 -0,5 -0,5 0,5 0,5 0 0 =0, 1 i i =1 a= 2 = ( yi − y ) n n i =1 i =1 ∑ yi − b∑ xi n = 6 − 0⋅6 = 1,5 oder a = y − b ⋅ x = 1,5 − 0 ⋅ 1,5 = 1,5 4 Summe der quadrierten senkrechten Abstände zur Regressionsgerade: 0,5 2 + (−0,5) 2 + 0,52 + (−0,5) 2 = 1 Kleiner kann diese Summe nicht werden! Wie gut repräsentiert die Regressionsgerade die Punktwolke? Das Bestimmtheitsmaß15 (Multiples R2) (R-squared) ist ein Maß für die Güte der Regression. Das Bestimmtheitsmaß errechnet sich als das Quadrat des Korrelationskoeffizienten von Bravais-Pearson. s xy R − squared = r = s s x y 2 2 15 In vielen statistischen oder ökonometrischen Programmen wird das Bestimmtheitsmaß mit R2 oder R-squared bezeichnet. 67 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Prüfungsergebnisse in Mathematik und Statistik r= 404,8 320,8 ⋅ 558,8 = 0,956 . Daraus folgt R − squared = 0,956 2 = 0,914 Interpretation: Das Bestimmtheitsmaß gibt den Anteil der durch die Regression erklärten Varianz an der Gesamtvarianz an. Das Bestimmtheitsmaß kann zwischen 0 und 1 liegen. Bei einem Bestimmtheitsmaß von 1 liegen alle Punkte der Punktwolke exakt auf der Regressionsgeraden. Beispiel: Vier „komische“ Punkte, Bestimtheitsmaß r2 = ( 0 )2 = 0 1⋅ 1 5.4 Chi-Quadrat-Mehrfelder-Test, Kontingenzkoeffizient, Cramers V Bei qualitativen Variablen kann man einen Zusammenhang nur über die aufgetretenen Häufigkeiten bestimmter Beobachtungswerte bestimmen. Beispiel: Studiengangwahl Studieren Frauen andere Fächer als Männer? Gibt es einen Zusammenhang zwischen Geschlecht und Studiengangwahl? Gegeben: zwei-dimensionale Kreuztabelle: Befragung von 200 Männern und 200 Frauen nach ihrem Studienfach. Studienfach, beobachtete Häufigkeiten Geschlecht BWL Mathematik Biologie Summe 68 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Frauen 127 29 44 200 In % vom Geschlecht 63,5 14,5 22,0 100,0 Männer 90 74 36 200 In % vom Geschlecht 45,0 37,0 18,0 100,0 Summe 217 103 80 400 In % vom Geschlecht 54,3 25,8 20,0 100,0 Wenn das Geschlecht bei der Studiengangwahl keine Rolle spielt, würde man erwarten, dass sich die Verteilung der Frauen und Männer auf die Fächer genau wie in der Summenzeile ergibt, d.h. 54,3% der Frauen und 54,3% der Männer studieren BWL. 25,8% der Frauen und 25,8% der Männer studieren Mathematik usw. Studienfach, erwartete Häufigkeiten Geschlecht BWL Mathematik Biologie Summe Frauen 108,5 51,5 40 200 In % vom Geschlecht 54,3 25,8 20,0 100,0 Männer 108,5 51,5 40 200 In % vom Geschlecht 54,3 25,8 20,0 100,0 Summe 217 103 80 400 In % vom Geschlecht 54,3 25,8 20,0 100,0 In folgender Tabelle werden die beobachteten Häufigkeiten minus der erwarteten Häufigkeiten errechnet. Geschlecht Frauen Männer Summe Studienfach, beobachtete-erwartete Häufigkeiten BWL Mathematik Biologie Summe 18,5 -22,5 4 0 -18,5 22,5 -4 0 0 0 0 0 69 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Hier werden die Felder aus der Tabelle quadriert. Studienfach, (beobachtete-erwartete Häufigkeiten)2 Geschlecht BWL Mathematik Biologie Frauen 342,25 506,25 16 Männer 342,25 16 506,25 Hier werden die quadrierten Differenzen zwischen beobachteten und erwarteten Häufigkeiten durch die erwarteten Häufigkeiten geteilt. Studienfach, Chi-Quadrat= ∑ Geschlecht ( beobachtet e − erwartete ) 2 erwartete BWL Mathematik Biologie Frauen 3,15 9,83 0,4 Männer 3,15 9,83 0,4 Der Chi-Quadratwert ist 3,15+3,15+9,83+9,83+0,4+0,4=26,77. Also liegt ein Zusammenhang zwischen Studiengangwahl und Geschlecht vor. Nur wenn der Chi-Quadratwert nahe bei Null liegt, ist das ein Hinweis auf Unabhängigkeit. Der Chi-Quadratwert kann beliebig groß werden, auch in Abhängigkeit von der Größe der Kreuztabelle. Ein weiteres qualitatives Zusammenhangmaß ist der Kontingenzkoeffizient von Pearson16: P= χ2 χ 2 + n mit 0 ≤ P < 1 16 Für nominalskalierte Variablen kann man bekanntlich keinen Korrelationskoeffizienten berechnen. Mit dem Kontingenzkoeffizient hat man dennoch ein Maß für die Verbundenheit von Variablen. 70 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Der Kontingenzkoeffizient kann die 1 nie erreichen, sondern nur einen Maximalwert unter 1 in Abhängigkeit der Anzahl der Zeilen und Spalten. Er beträgt hier: 26,77 = 0,25 26,77 + 400 Das deutet ebenfalls auf einen Zusammenhang hin. Bei einem Kontingenzkoeffizienten von 0 liegt Unabhängigkeit vor. Noch ein Zusammenhangmaß ist Cramers V: V= χ2 n ⋅ ( k − 1) mit 0 ≤ V ≤ 1 mit k die kleinere Zahl von Zeilen und Spalten. Beispiel: Ist die Wohnungsgröße unabhängig davon, in welchem Stadtteil die Wohnung liegt? v1 Anzahl der Zimmer v4 Angabe, wo sich die Wohnung befindet (1=Kernstadt, 2=westliche Stadtteile, 3=östliche Stadtteile, 4=Ostkreis, 5=Südkreis, 6=Nordkreis) Abs. Häufigkeit 1 2 3 4 5 6 7 Summe -------------------------------------------------1 14 16 9 8 0 1 0 48 2 5 13 11 2 3 0 0 34 3 1 6 4 0 1 0 0 12 4 0 1 4 1 2 1 1 10 5 0 3 6 0 0 0 0 9 6 1 1 8 3 0 0 1 14 -------------------------------------------------Summe 21 40 42 14 6 2 2 127 -------------------------------------------------Chi-Quadrat = 53.982 Signifikanz = 0.0046 Freiheitsgrade = 30 Cramérs V = 0.292 Kontingenzkoeff. = 0.546 71 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 6 Verhältniszahlen Definition: Eine Verhältniszahl ist der Quotient zweier Zahlen, die in einem sachlogischen Verhältnis stehen. Verhältniszahlen werden in Gliederungszahlen, Beziehungszahlen und Messzahlen unterteilt. Verhältniszahlen Gliederungszahlen= Teilmasse/Gesamtmasse*100 Beziehungszahlen Vergleich verschiedener Gesamtheiten Messzahlen Wert der Bezugsgröße/Wert der Basisgröße *100 6.1 Gliederungszahlen Definition: Gliederungszahl = Teilmasse ⋅ 100 Gesamtmasse Geben wie relative Häufigkeiten einen Anteil bzw. eine Quote an Geben Informationen über die innere Struktur einer Masse bzw. Grundgesamtheit an. Eigenschaft der „Quote“ spiegelt sich häufig in Namen der Gliederungszahl wieder, z.B. Arbeitslosenquote, Durchfallquote, Ausschussquote, Trefferquote Beispiele: Die Arbeitslosenquote = Arbeitslose beträgt 11%. Erwerbspersonen Die Kapitalstruktur der Meier GmbH sei, Eigenkapital Fremdkapital Gesamtkapital 30 Mio € 50 Mio € 80 Mio € 37,5% 62,5% 100% Die Eigenkapitalquote beträgt 37,5%, die Fremdkapitalquote 62,5%. Mittelwerte von Gliederungszahlen: können nicht analog zum arithmetischen Mittel berechnet werden, sondern als gewichtetes arithmetisches Mittel oder als harmonisches Mittel Beispiel: Unternehmensfusion mit unterschiedlichen Eigenkapitalquoten 72 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Eigenkapital Gesamtkapital Eigenkapitalquote Müller GmbH 40 150 0,267 Meier GmbH 60 250 0,240 Fusion 100 400 0,250 Die durchschnittliche Eigenkapital-Quote ist nicht (26,7%+24%)/2=25,4%! Die Eigenkapitalquote des fusionierten Unternehmens ist 25% (siehe Tabelle). Dieser Wert lässt sich auch errechnen als mit der Unternehmensgröße gewichtetes arithmetisches Mittel: 1 (0,267 ⋅ 150 + 0,24 ⋅ 250) = 0,25 400 d.h. 150 „Einheiten“ des fusionierten Unternehmens hat eine EK-Quote von 26,7% und 250 „Einheiten“ des fusionierten Unternehmens hat eine EKQuote von 24%, ergibt im Mittel eine EK-Quote von 25%. Alternativ lässt sich die durchschnittliche Eigenkapitalquote auch über das harmonische Mittel berechnen mit f1 und f2 die Eigenkapitalmenge in jedem der beiden Unternehmen. HM = f1 + f 2 + ... f m 40 + 60 = = 0,25 f1 f 2 f 40 60 + + ... + m + x1 x2 xm 0,267 0,24 6.2 Beziehungszahlen Definition: Eine Beziehungszahl ist ein Quotient von zwei verschiedenartigen Größen, die in einem sachlogischen Zusammenhang stehen. Beziehungszahlen ermöglichen Vergleich von verschiedenen Gesamtheiten. Beziehungszahlen stellen oft eine Merkmalswertsumme (Alkoholkonsum) der zugehörigen Anzahl der Merkmalsträger (Zahl der Einwohner) gegenüber, so dass die Beziehungszahl „Alkohol pro Kopf“ einen Durchschnittswert der Trinkgewohnheiten angibt und dem arithmetischen Mittel entspricht. Aussage von Beziehungszahlen in Form von Pro-Kopf-Messungen häufig fragwürdig, wenn kein enger sachlogischer Zusammenhang zwischen den beiden betrachteten Größen besteht (Kinder, die i.d.R. keinen Alkohol konsumieren, gehören trotzdem zu den Einwohnern.). 73 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiele: Verschuldungsgrad = Fremdkapital ⋅ 100 Eigenkapital Eigenkapitalrendite = Gewinn ⋅ 100 Eigenkapital Zahl der Einwohner ⋅ 100 Fläche in km 2 Einwohnerdichte = 6.3 Messzahlen Definition: Eine Messzahl ist ein Quotient aus zwei sachlich gleichen, jedoch zeitlich unterschiedlichen Größen. Messzahl = Wert Berichtszeit ⋅ 100 Wert Basiszeit Messzahlen dienen alleine Vergleichszwecken. Messzahlen sind wichtig zur Beschreibung der zeitlichen Entwicklung von Preisen, Mengen, Umsätzen usw. Manchmal wird der Faktor „100“ weggelassen. Beispiel: Benzinpreis pro Liter im Januar (Basiszeit): 0,86 €. Benzinpreis pro Liter im April (Bezugszeit): 0,98 €. Messzahl= 0,98 100 = 113,95 . Der neue Preis beträgt das 1,14-fache bzw. 0,86 114% des alten Preises. Beispiel: Wein-Preis-Entwicklung Jahr 2000 2001 2002 2003 2004 Preis Burgunder 5,20 5,80 6,20 5,90 6,50 11,5 6,9 -4,8 10,2 111,5 119,2 113,5 125,0 11,5 6,9 -4,8 10,2 Preisänderung zum Vorjahr in % Preis-Messzahl Burgunder Preis-Messzahländerung zum Vorjahr in % 100,0 74 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Wachstumsfaktor zum Vorjahr 1,115 1,069 0,952 1,102 Basisperiode ist das Jahr 2000. Achtung: Die Wahl des Basisjahres beeinflusst die Messzahlen! Veränderung in Prozent zum Vorjahr: Messzahl Jahr − MesszahlVorjahr MesszahlVorjahr ⋅100 = Messzahl Jahr − 1100 = Veränderung in Prozent Messzahl Vorjahr 119,2 − 1100 = 6,9% 111,5 Beispiel: Differenz der Messzahlen: gibt die Änderung in Prozentpunkten an. Beispiel: 119,2-111,5=7,7 Prozent-Punkte. Der Burgunderpreis ist von 2001 zu 2002 um 7,7 Prozent-Punkte gestiegen. (beachte: er ist jedoch um 6,9 Prozent (= 6,20 − 5,80 100 ) gestiegen. 5,80 Achtung: Häufig werden die Prozent-Punkte als Differenz von zwei Messzahlen bereits als die Änderung in Prozent angesehen (Beispiel: Die Arbeitslosenquote ist von 9,8% auf 9,3% gesunken heißt nicht, dass sie um 0,5% gesunken ist, sondern um 0,5 Prozent-Punkte!) Umrechnung Prozentpunkt in Prozent: Messzahl Jahr − MesszahlVorjahr MesszahlVorjahr Beispiel: 100 = Prozent − Punkt 100 MesszahlVorjahr 7 ,7 100 = 6,9% 111,5 Wachstumsfaktor zum Vorjahr: Wachstumsfaktor = Beispiel: Wert Jahr Messzahl Jahr = WertVorjahr MesszahlVorjahr 6,20 119,2 = = 1,069 5,80 111,5 75 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Mittelwert von Messzahlen: Geometrisches Mittel der Wachstumsfaktoren-1 GM = n x1 ⋅ x2 ⋅ ...xn = 4 1,115 ⋅1,069 ⋅ 0,952 ⋅1,102 = 4 1,25 = 1,057 . Jährliches Durchschnittswachstum 5,7% oder n Endwert 6,50 −1 = 4 − 1 = 1,057 − 1 . Jährliches Durchschnittswachstum 5,7%. Startwert 5,20 7 Indexzahlen (Indizes) Messzahlen beschreiben die relative Veränderung einer Größe Indexzahlen sind die Zusammenfassung mehrerer Messzahlen (z.B. Lebenshaltungskosten als Kosten für einen bestimmten Warenkorb) Definition: Eine Indexzahl beschreibt die durchschnittliche relative Veränderung mehrerer Messzahlen durch eine einzige Zahl. Die Messzahlen werden mit einem Gewicht versehen und zusammengefasst. Indexzahlen dienen der Beschreibung zeitlicher Entwicklungen. 7.1 Preisindizes Beschreiben, um wie viel Prozent sich die Preise mehrerer Güter in dem Berichtsjahr gegenüber dem Basisjahr verändert haben Symbol P0i =Preisindex für Berichtsjahr i gegenüber Basisjahr 0. Auswahlentscheid, welche Güter in Index aufgenommen werden sollen. Entscheidung über Gewichtung der Güter anhand der relativen Bedeutung der Güter. Konstanz der Gewichtung bzw. der Bedeutung der Güter im Zeitablauf? Berechnung: Preismesszahl des Gutes j p ij w j mit wj das Gewicht des Gutes j. p 0j Multiplikation mit 100, damit man eine Prozentzahl erhält. n ∑ Preisindex P0i = j =1 pi j wj p0j n ∑w j =1 100 j j=Laufindex der Güter, i Jahreszahl des Berichtsjahres, 0=Basisjahr 76 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft p 0j = Preis des Gutes j in der Basiszeit 0. p1j = Preis des Gutes j in der Berichtszeit 1. q0j = Menge des Gutes j in der Basiszeit 0. q1j = Menge des Gutes j in der Basiszeit 1. 7.1.1 Preisindex nach Laspeyres Laspeyres (1834-1913) Wird in der Praxis fast durchgehend verwendet. Laspeyres gewichtet die Preise mit dem Warenkorb des Basisjahres w j = p0j q0j in den verschiedenen Berichtsjahren.´ P0iLaspeyres = 112 bedeutet, dass der Warenkorb des Basisjahres im Berichtsjahr 12 % mehr kostet als im Basisjahr. P0iLaspeyres =Preisindex nach Laspeyres aus dem Berichtsjahr i mit dem Basisjahr 0 n ∑p Formel: P0iLaspeyres = j =1 n ∑p j =1 j i q0 j 100 = j 0 q0 j Summe aktueller Preis ⋅ alte Menge 100 Summe alter Preis ⋅ alte Menge Zur besseren Übersichtlichkeit werden im weiteren die hochgestellten Laufindizes j für alle Güter weggelassen. Beispiel: Konsumgewohnheiten von Studierenden. Januar p1 Februar q1 März p2 q2 p3 q3 Bücher 20[€/Stück] 1[Stück] 22 2 23 1 Brot 2[€/kg] 5[kg] 2,5 6 2,6 5 Bier 1[€/L] 30[L] 1,1 25 1,5 40 77 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Preisindex nach Laspeyres für die Berichtsmonate Februar und März zum Basismonat Januar PJan , Feb , Laspeyres = = Kosten des Warenkorbes Jan. im Monat Feb. 100 = Kosten des Warenkorbes Jan. im Monat Jan. ∑p ∑p Feb q Jan Jan q Jan 100 22 ⋅ 1 + 2,5 ⋅ 5 + 1,1 ⋅ 30 67,5 100 = 100 = 112,5 20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 30 20 + 10 + 30 Die Preise im Februar sind gegenüber Januar um durchschnittlich 12,5% gestiegen. P1,3 Laspeyres = = Kosten des Warenkorbes Jan. im Monat März 100 = Kosten des Warenkorbes Jan. im Monat Jan. ∑p q ∑pq 3 1 100 1 1 23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 30 81 100 = 100 = 135 20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 30 20 + 10 + 30 Die Preise im März sind gegenüber Januar um durchschnittlich 35% gestiegen. Differenz der Indexzahlen: Prozent-Punkte gibt die relative Preisveränderung in Prozentpunkten an: P13 Laspeyres − P12 Laspeyres = 135-112,5=22,5 Prozent-Punkte. Die Preise im März sind gegenüber dem Februar um 22,5 Prozent-Punkte gestiegen. Umrechnung von Prozentpunkten in Prozent, indem Prozent-Punkte durch IndexzahlALT geteilt werden: 22,5 100 = 20%. 112,5 Quotient der Indexzahlen: gibt relative Preisveränderung direkt als Prozentzahl an: 135 100 = 120 , d.h. die 112,5 Preise sind von Februar auf März sind um 20% gestiegen. Beurteilung: Warenkorb des Basisjahres hat Vorteil, dass Gewichte nicht mit jedem Jahr neu berechnet werden müssen! Ermöglicht Vergleich von Indizes aus unterschiedlichen Berichtsjahren, ohne dass der Preisvergleich durch Mengenveränderungen verzerrt wird. Unterstellt Konstanz der Verbrauchsstruktur! Substitutionseffekte zwischen den Gütern werden nicht berücksichtigt, so dass bei großer Preiselastizität der Nachfrage (Konsumenten wechseln von einem Gut sehr schnell zu einem billigeren, wenn ersteres zu teuer wird) der Lasypeyeres-Index die Preisentwicklung überzeichnet und eine zu starke Inflation vorhersagt. 78 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Neues Basisjahr, wenn sich Verbrauchsstruktur stark verändert hat, führt zu Ende einer Indexzahlenreihe (allerdings: siehe 6.5 Verknüpfung von Indexzahlen möglich). 7.1.2 Preisindex nach Paasche Paasche (1851-1925) Paasche gewichtet die Preise mit dem Warenkorb des Berichtsjahres w j = p0j qij in den verschiedenen Berichtsjahren. P0iPaasche = 112 bedeutet, dass sich die Ausgaben für den Warenkorb im Berichtsjahr zwischen Basisjahr und Berichtsjahr um 12 % erhöht haben. n ∑pq P0iPaasche = j =1 n i ∑pq j =1 Beispiel: i 100 = Summe aktueller Preis ⋅ aktuelle Menge 100 Summe alter Preis ⋅ aktuelle Menge 0 i Konsumgewohnheiten von Studierenden. Januar p1 P1,3 Paasche = = Februar q1 März p2 q2 p3 q3 Bücher 20[€/Stück] 1[Stück] 22 2 23 1 Brot 2[€/kg] 5[kg] 2,5 6 2,6 5 Bier 1[€/L] 30[L] 1,1 25 1,5 40 Kosten des Warenkorbes März im Monat März 100 = Kosten des Warenkorbes März im Monat Jan. ∑p q ∑pq 3 3 100 1 3 23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 40 23 + 13 + 60 100 = 100 = 137,14 20 ⋅ 1 + 2 ⋅ 5 + 1 ⋅ 40 70 79 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Die Preise im März sind gegenüber Januar um 37% gestiegen17. P2,3 Paasche = = Kosten des Warenkorbes März im Monat März 100 = Kosten des Warenkorbes März im Monat Feb. ∑p q ∑p q 3 3 2 3 100 23 ⋅ 1 + 2,6 ⋅ 5 + 1,5 ⋅ 40 23 + 13 + 60 100 = 100 = 122,29 22 ⋅ 1 + 2,5 ⋅ 5 + 1,1 ⋅ 40 78,5 Die Preise im März sind gegenüber Februar um 22% gestiegen. Beurteilung: Wegen Warenkorb des Berichtsjahres werden Veränderungen der Verbrauchsgewohnheiten sofort erfasst, d.h. Substitutionseffekte von teuren zu preiswerten Gütern werden sofort erfasst. Ein starker Preisanstieg eines Gutes wird im Index dann nur abgeschwächt erfasst, wenn die Konsumenten dieses verteuerte Gut nicht mehr so stark nachfragen, sondern stattdessen das teurere durch ein billigeres ersetzten. Sehr aufwendig, ständig einen aktuellen Warenkorb zu erfassen. Es können durchgehende Indexzahlenreihen erstellt werden, da keine Aktualisierung eines nicht mehr aktuellen Basisjahres nötig ist. Ein Vergleich von Indexzahlen aus verschiedenen Berichtsjahren ist wegen der unterschiedlichen Gewichtung nicht zulässig! 7.2 Mengenindizes Beschreiben durchschnittliche relative Mengenentwicklung mehrerer Güter in der Berichtszeit gegenüber der Basiszeit Beispiele sind Index des tariflichen Wochenlohns, Index der Einfuhr von Investitionsgütern Ausgangsformeln für Mengenindizes analog zu denen der Preisindizes. Wie bei den Preisindizes gibt es Mengenindizes nach Laspeyres und nach Paasche (vgl. z.B. Bourier S 136-138, Zöfel S. 236). 7.3 Umsatzindizes Definition: Der Umsatzindex beschreibt, um wie viel Prozent sich die Umsätze im Berichtsjahr gegenüber dem Basisjahr verändert haben. 17 Beim Laspeyres-Index ergab sich eine Preiserhöhung um 35%. 80 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Es interessieren jetzt Veränderungen von Preis und Menge gleichzeitig. Der Umsatzindex wird aus gewichteten Umsatz-Messzahlen berechnet. n ∑q p U 0i = i 100 = n ∑q j =1 Beispiel: i j =1 0 p0 Summe aktuelle Umsätze 100 Summe alte Umsätze Konsumgewohnheiten von Studierenden. Januar p1 q1 Februar Umsatz 1 p2 q2 Umsatz 2 März p3 q3 Umsatz 3 Bücher 20 1 20 22 2 44 23 1 23 Brot 2 5 10 2,5 6 15 2,6 5 13 Bier 1 30 30 1,1 25 27,5 1,5 40 60 U 12 = 44 + 15 + 27,5 86,5 100 = 100 = 144,16 20 + 10 + 30 60 Der Umsatz von Januar auf Februar ist um 44,16% gestiegen. U 13 = 23 + 13 + 60 96 100 = 100 = 160 20 + 10 + 30 60 Der Umsatz von Januar auf März ist um 60% gestiegen. Die Preise sind zwar nur um 35% bzw. 37% gestiegen, aber die Biermenge hat um 10 L zugenommen! 7.4 Umbasierung Definition: Umrechnung einer Indexzahlenreihe von einem alten Basisjahr zu einem neuen Basisjahr. IndexNeueBasis;i = IndexAlteBasis;i IndexAlteBasis;NeueBasis 100 81 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Wird verwendet, um mehrere Indexzahlenreihen mit unterschiedlichen Basisjahren aneinander anzuschließen. Umbasieren ist nur rechentechnischer Vorgang (Dreisatz), für die umbasierten Preisindizes gilt nach wie vor das Mengengerüst aus dem alten Basisjahr. Beispiel: Preisentwicklung in Deutschland 1995 Preisindex Westdeutschland (1995=100) Deutschland (2000=100) Veränderungen gegen Vorjahr in % Westdeutschland Deutschland Umbasierung Westdeutschland (2000=100) Probe: Veränderungen gegen Vorjahr in % Westdeutschland 1996 1997 1998 1999 2000 2001 2002 2003 2004 100,00 102,30 103,40 104,00 105,20 106,00 107,10 108,50 109,80 111,00 - - - - - 100,00 103,00 104,50 105,20 106,00 - 2,300 - 1,075 - 0,580 - 1,154 - 0,760 - 1,038 3,000 1,307 1,456 1,198 0,670 1,093 0,760 94,340 96,509 97,547 98,113 99,245 100,000 101,038 102,358 103,585 104,717 Index 2000;2002 = Index 2000;2004 = 2,300 1,075 Index1995;2002 Index1995;2000 Index1995;2004 Index1995;2000 0,580 1,154 0,760 100 = 108,5 100 = 102,4 106 100 = 111 100 = 104,7 106 1,038 1,307 1,198 1,093 7.5 Verknüpfung - - - Aktualisierung des Gewichtungsschemas bei zu alten Basisjahren nötig. Grund: Technischer Fortschritt, Preisveränderungen, Änderungen der Konsumentenpräferenzen führen zu Veränderungen des Kaufverhaltens. Aktualisierung der Gewichte führt zu Bruch in der Reihe der Indexzahlen. Bei der Verknüpfung von zwei Indexzahlenreihen mit unterschiedlichen Basisjahren entsteht eine einzige neue Reihe. Überlappung an mindestens einem Zeitpunkt nötig. 82 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft - - Fortführung der alten Reihe: Annahme, dass Warenkorb aus altem Basisjahr noch immer gilt. Rückrechnung der neuen Reihe: Annahme, dass aktualisierter Warenkorb auch in den Jahren vor dem Basisjahr gilt. Beispiel: 1995=100 2000=100 1995=100 2000=100 1995 100 93,5 Preisindex für die Lebenshaltung privater Haushalte 1996 1997 1998 1999 2000 2001 2002 2003 2004 101,3 103,2 104,1 104,8 106,9 109,14 110,21 110,96 111,82 94,8 96,5 97,4 98,0 100 102,1 103,1 103,8 104,6 Veränderung gegenüber dem Vorjahr in Prozent 1,30 1,88 0,87 0,67 2,00 2,10 1,30 1,88 0,87 0,67 2,00 2,10 0,98 0,98 0,68 0,68 0,77 0,77 Fortführung der alten Indexreihe: Index AlteBasis ;i = Beispiel: Index1995;2002 = Index AlteBasis ; NeueBasis 100 Index1995;2000 100 Index 2000;2002 = Index NeueBasis ;i 106,9 103,1 = 110,21 100 Rückrechnung der neuen Indexreihe: Index NeueBasis;i = Beispiel: Index 2000;1996 = 100 Index AlteBasis ; NeueBasis Index AlteBasis ;i 100 100 Index1995;1996 = 101,3 = 94,76 Index1995;2000 106,9 7.6 Preisbereinigung Nominelle Wertgrößezum Zeitpunkt t = Mengezum Zeitpunkt t ⋅ Preiszum Zeitpunkt t 83 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiele: Umsatz, Bruttoinlandsprodukt, Einkommen Reale Wertgrößezum Zeitpunkt t =⋅ Mengezum Zeitpunkt t ⋅ Preiszu einem anderen vergangenen Zeitpunkt Beispiele: realer Umsatz, reales BIP, reales Einkommen - Aus der nominellen Wertgröße wird der Teil herausgerechnet, der auf Preisveränderungen zurück zu führen ist. - Bei zwischenzeitlichen Preiserhöhungen: Deflationierung - Bei zwischenzeitlichen Preissenkungen: Inflationierung Realer Wert = Beispiel: nomineller Wert 100 Preisindex Umsatzentwicklung eines Einzelhändlers Umsatzentwicklung eines Einzelhändlers 2000 Umsatz 2001 2002 2003 2004 20.000 24.000 25.000 24.500 25.500 Umsatzindex 100,0 120,0 125,0 122,5 127,5 PLaspeyres;2000;i (Quelle: Stat. Bundesamt) 100,0 102,2 103,5 104,1 105,5 Realer Umsatz 2003= nomineller Umsatz 24.500 100 = 100 = 23.535,06 PLaspeyres2000;2003 104,1 Der reale Umsatz (mengenmäßiger Mehrabsatz) seit 2000 ist um 3.535,06€ gestiegen (+17,68%). Der nominelle Umsatz ist um 4.500€ gestiegen. Die Preissteigerung betrug seit 2000 4,1%. Diese erhöhte den Umsatz um 4.500-3.535,06=964,94€. 84 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Realer Umsatzindex 2003= nomineller Umsatzindex 122,5 100 = 100 = 117,68 PLaspeyres2000;2003 104,1 Der reale Umsatz (mengenmäßiger Mehrabsatz) ist (wie bereits berechnet) um 17,68% gestiegen. 7.7 Preisindizes für die Lebenshaltung (Verbrauchspreisindizes) geben an, wie stark sich die Lebenshaltungskosten der Haushalte verteuert haben (zur Zeit 11 verschiedene Preisindizes für Lebenshaltung, seit 1997 harmonisierter Verbraucherpreisindex zum interregionalen Vergleich innerhalb der EU-Länder. Laspeyres-Index (konstantes Basisjahr): Annahme der konstanten Verbrauchsgewohnheiten Haushaltsbefragungen zur Erstellung eines Warenkorbes, in dem die Waren konstante Gewichte haben. Gewicht einer Ware gibt an, welchen Anteil die Ausgaben für diese Ware an den Ausgaben für alle Waren haben (z.B. Nahrungsmittel und alkoholfreie Getränke: 13,13%, Wohnung und Nebenkosten (27,48%), Freizeit und Kultur (10,36%) Preise der Waren werden zur Monatsmitte in 190 Berichtsgemeinden in Deutschland erhoben. 7.8 Kaufkraftparität - Zum interregionalen Vergleich von Preisniveauunterschieden. - Laspeyres-Index - Kaufkraftmessung, indem die Kosten eines Warenkorbes in der Berichtsregion (Ausland) denen der Basisregion (Inland) gegenübergestellt werden. Formel: PIn, Aus = ∑p ∑p Aus In q In q In 85 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Austauschstudent Klaus Ur in Dublin Ware Bücher [Stück] Brot [Kg] Bier [L] Wein [L] Menge 5 10 15 6 Preis in BO 20 3 1,1 5 Preis in Dublin 18 2,5 1,8 3 Formel: PBO , Dublin = Kosten Warenkorb BO in Dublin 18 ⋅ 5 + 2,5 ⋅ 10 + 1,8 ⋅ 15 + 3 ⋅ 6 160 = = = 0,9065 Kosten Warenkorb BO in BO 20 ⋅ 5 + 3 ⋅ 10 + 1,1 ⋅ 15 + 5 ⋅ 6 176,5 Interpretation: - - - Ausgaben für Güter in Höhe von 1 € in Bochum entsprechen Ausgaben in Höhe von 0,91 € in Dublin (weil der Wein dort so billig ist!) Derselbe Warenkorb kostet in Dublin 160 €, während er in Bochum 176,5 € kostet. Die Kaufkraft eines € in Dublin beträgt 1,10 €(=176,5/160). Der Kaufkraftgewinn des Austauschstudenten Klaus Ur beträgt 10%. 8 Zeitreihenanalyse 8.1 Aufgabe und Ziele Definition Zeitreihe: Eine Zeitreihe ist eine geordnete Folge von Merkmalswerten Struktur und Gesetzmäßigkeiten einer Zeitreihe identifizieren Einflussgrößen, die auf Zeitreihe einwirken, identifizieren Kenntnis davon hilft, eine Zeitreihe richtig fortzuschreiben 8.2 Komponenten der Zeitreihe Trend: beschreibt die langfristige Grundrichtung der Zeitreihe dauerhaft wirksame Einflüsse verantwortlich 86 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft ändert sich nur sehr langsam periodische Schwankungen: regelmäßig wiederkehrende Schwankungen um den Trend Witterungseinflüsse oder institutionelle Einflüsse Mehrjährige Schwankungen schlecht von Trend unterscheidbar Glatte Komponente = Trend + Periode Restkomponente: Unbekannte Einflussgrößen, die wiederholt aber unregelmäßig auf die Zeitreihe einwirken Meist von untergeordneter Bedeutung 130 120 110 100 Umsatz 90 Trend Periode 80 Rest 70 60 50 40 1 2 3 4 5 6 7 8 9 10 11 12 87 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Verknüpfung der Komponenten: Additive Verknüpfung, wenn Komponenten unabhängig voneinander wirken: yi=Ti+Si+Ri Bei additiver Verknüpfung z.B. zu jedem Trendwert einen konstanten Betrag dazu addieren. Multiplikative Verknüpfung, wenn sich die Komponenten gegenseitig beeinflussen, z.B. verstärken oder abschwächen. yi=Ti*Si*Ri Bei multiplikativer Verknüpfung´z.B. zu jedem Trendwert eine bestimmten Prozentsatz hinzufügen. 8.2 Methoden der Trendermittlung Ziel: Schwankungen, die den Trend überlagern, eliminieren. Methode der gleitenden Durchschnitte: Glättung der Zeitreihe, indem auf dem Weg der Durchschnittsbildung besonders hohe und besonders niedrige Werte abgesenkt oder angehoben werden. Bestimmung der Anzahl k, aus der die Durchschnitte berechnet werden, schwierig. Ungerades vs. gerades k? Großes oder kleines k? 1 2 3 4 5 6 7 8 9 10 11 12 Umsatz 100 110 115 80 70 60 70 90 100 110 120 110 k=3 108,33 101,67 88,33 70,00 66,67 73,33 86,67 100,00 110,00 113,33 k=4 k=5 95,00 87,00 79,00 74,00 78,00 86,00 98,00 106,00 88 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 130 120 110 100 Umsatz k=3 90 k=5 80 70 60 50 0 2 4 6 8 10 12 14 Methode der kleinsten Quadrate: 1. Schritt: Bestimmung des Funktionstyps (z.B. linear, Exponentialfunktion, Potenzfunktion) 2. Schritt: Schätzung der Parameter derart, dass die Streuung der Zeitreihenwerte um die Trendlinie möglichst klein ausfällt. Linearer Trendverlauf: yˆ = a + b ⋅ x mit n b= ∑ ( x − x )( y i i =1 i n ∑ (x − x) i =1 mit s xy = i − y) oder b = 2 s xy s xx 1 n 1 n ( xi − x ) ⋅ ( yi − y ) und s xx = ( xi − x ) 2 ∑ ∑ n − 1 i=1 n − 1 i =1 89 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft n Der Ordinatenabschnitt a errechnet sich als: a = Mittelwert t Umsatz x-xquer 1 100 -5,5 2 110 -4,5 3 115 -3,5 4 80 -2,5 5 70 -1,5 6 60 -0,5 7 70 0,5 8 90 1,5 9 100 2,5 10 110 3,5 11 120 4,5 12 110 5,5 6,5 94,58 Steigung b Achsenabschnitt a 1,17 86,97 ∑y i =1 n i − b∑ xi i =1 n y-yquer 5,42 15,42 20,42 -14,58 -24,58 -34,58 -24,58 -4,58 5,42 15,42 25,42 15,42 = y −b⋅x (x-xquer)^2 (x-xquer)*(y-yquer) Trend-Umsatz 30,25 -29,79 88,14 20,25 -69,38 89,31 12,25 -71,46 90,48 6,25 36,46 91,66 2,25 36,88 92,83 0,25 17,29 94,00 0,25 -12,29 95,17 2,25 -6,87 96,34 6,25 13,54 97,51 12,25 53,96 98,68 20,25 114,38 99,85 30,25 84,79 101,03 143 167,5 130 120 110 100 Umsatz 90 Trend-Umsatz 80 70 60 50 0 2 4 6 8 10 12 14 Nichtlinearer Trendverlauf Exponentialfunktion yˆ = a + b x Nach Logarithmieren: ln yˆ = ln a + x ⋅ ln b 90 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft Beispiel: Arbeitsunfälle Jahr xi 1 2 3 4 5 6 Unfälle yi 980 650 380 260 145 90 ln(a) 7,406 ln(b) -0,481 a=exp(ln(a)) 1645,08 b=exp(ln(b)) 0,62 ln(yi) 6,89 6,48 5,94 5,56 4,98 4,50 Geschätzte Funktion 1017,40 629,21 389,13 yi=1645,08*0,62^xi 240,66 148,84 92,05 yˆ = 1645,08 + 0,62 x 91 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft 1000 900 800 700 600 Unfälle yi Geschätzte Funktion 500 400 300 200 100 0 1 2 3 4 5 6 7 Potenzfunktion yˆ = a ⋅ x b Nach Logarithmieren: ln yˆ = ln a + b ⋅ ln x Beispiel: Beschäftigungsentwicklung 92 Deskriptive Statistik Prof. Dr. Waike Moos FB Wirtschaft xi 1 2 3 4 5 6 yi 205 230 245 252 270 285 ln(xi) 0,00 0,69 1,10 1,39 1,61 1,79 ln(a) 5,32 b 0,175 ln(yi) 5,32 5,44 5,50 5,53 5,60 5,65 Geschätzte Funktion 203,42 229,65 yi=203,42*xi^0,175 246,53 259,25 269,57 278,31 a=exp(ln(a)) 203,42 yˆ = 203,42 ⋅ x 0,175 300 280 260 yi Geschätzte Funktion 240 220 200 0 1 2 3 4 5 6 7 93 Prof. Dr. Waike Moos FB Wirtschaft Deskriptive Statistik Weiterführende Literatur zur Vertiefung Ein thematisch ausführliches, jedoch im Text eher knapp gehaltenes Buch: Bleymüller, Josef; Gehlert, Günther und Herbert Gülicher: Statistik für Wirtschaftswissenschaftler, WiSt Studienkurs, Verlag Vahlen, 13. Auflage 2002 Ein ausführliches und leicht zu lesendes Buch mit vielen Beispielen: Bourier, Günther: Beschreibende Statistik, Gabler Verlag, 4. Auflage 2001 Beleuchtet auf unterhaltsame Weise die Gefahren, die aus der falschen Verwendung von Statistiken resultieren: Krämer, Wolfgang: So lügt man mit Statistik, Verlag Piper. Ein leicht verständliches, übersichtlich gehaltenes Buch: Zöfel, Peter: Statistik, Statistik für Wirtschaftswissenschaftler, Pearson Studium, 2003. Ein umfangreiches und leicht verständliches Buch: Zwerenz, Karlheinz: Statistik, Datenanalyse mit EXCEL und SPSS, Oldenbourg Verlag, 2. Auflage 2001. 94