Statistik I / B. Ziegler Formelsammlung FORMELSAMMLUNG STATISTIK (I) Statistische Formeln, Definitionen und Erläuterungen A qualitatives Merkmal ai Merkmalsausprägung X quantitatives Merkmal xi Merkmalswert N Anzahl der statistischen Einheiten in der Grundgesamtheit n Stichprobenumfang hi absolute Häufigkeit von xi (alternativ: ni) fi relative Häufigkeit von xi (alternativ: ni/n) Hi kumulierte absolute Häufigkeit Fi kumulierte relative Häufigkeit xu i xo i Untergrenze der i-ten Klasse ∆xi Breite der i-ten Klasse: ∆xi = xio - xu i x* i Mitte der i-ten Klasse: xi* = k Anzahl der Klassen Obergrenze der i-ten Klasse xio + xui 2 F( xu ) kumulierte relative Häufigkeit an der Untergrenze der Klasse i i F( xio ) kumulierte relative Häufigkeit an der Obergrenze der Klasse i x arithmetisches Mittel (alternativ: µ) Z Zentralwert (Median) D Häufigster Wert (dichtester Wert, Modus bzw. Modalwert) xp Prozentpunkt F(x) Anteil der Merkmalswerte X < x Statistik I / B. Ziegler 1. Histogramm Histogramm Die Häufigkeitsverteilung quantitativ-stetiger Merkmale wird als Histogramm dargestellt. Bei konstanter Klassenbreite ∆xi sind die Rechteckhöhen proportional zu den relativen (oder absoluten) Klassenhäufigkeiten. Bei ungleichen Klassenbreiten ermittelt man die Rechteckhöhen, indem die relativen (oder absoluten) Klassenhäufigkeiten fi (bzw hi) durch die jeweiligen Klassenbreiten ∆xi dividiert werden: fi ∆xi di = Dadurch wird gewährleistet, daß die relative (bzw. absolute) Häufigkeit einer Klasse gleich der Rechteckfläche über dieser Klasse ist. 2. Verteilungsfunktion (Summenhäufigkeitsfunktion) quantitativ-stetiger Merkmale F(x i ) = f (x < x i ) Berechnung von Anteilswerten innerhalb einer Klasse x−x F (x ) = F (x ) + ∆x u i u i ⋅ fi i Das Konzept der p-Quantile xp = x + u i ( ) ⋅ ∆x F(x p ) − F x iu fi i 2 Statistik I / B. Ziegler 3. Mittelwerte Mittelwerte (auch als Lageparameter bezeichnet) Mittelwerte sind statistische Maßzahlen, die die durchschnittliche Lage ("Mitte") der Merkmalswerte einer Häufigkeitsverteilung wiedergeben. Eine sinnvolle Berechnung ist nur bei eingipfeligen Verteilungen möglich. 3.1. Das arithmetische Mittel x ist ein rechentypischer Mittelwert, d.h. jeder Merkmalswert xi beeinflußt seinen Wert. x gibt an, welchen Merkmalswert jede statistische Einheit (Merkmalsträger) haben würde, wenn die gesamte Merkmalssumme gleichmäßig auf alle statistischen Einheiten verteilt wäre (Ersatzwert). a) Ungruppierte Daten N ∑x x = i=1 i = N 1 N ⋅ xi N ∑ i=1 b) Gruppierte Daten k ∑ xi ⋅ hi x = i=1 N = k ∑ xi ⋅ fi i=1 bei Klassenbildung k ∑ xi* ⋅ hi x = i=1 N = k ∑ xi* ⋅ fi i=1 3 Statistik I / B. Ziegler 3.2. Mittelwerte Der Zentralwert (Median) Werden alle statistischen Einheiten nach der Größe ihres Merkmalswertes geordnet, so ist der Zentralwert (Z) der Wert der mittleren statistischen Einheit, d.h. 50 Prozent aller statistischen Einheiten haben einen Merkmalswert kleiner oder gleich dem Zentralwert und 50 Prozent haben einen Merkmalswert größer oder gleich dem Zentralwert. Der Median ist somit der 50-Prozentpunkt. a) Ungruppierte Daten Z = x N+1 bei N = ungerade 2 (x N + x N ) bei N = gerade 2 Z= 2 +1 2 b) Klassifizierte Daten Zunächst: Aufsuchen der Klasse i in der Fi = 0,5 (Einfallsklasse von Z) Z = xui + ( ) ⋅x ( F( x ) − F( x ) 0,5 − F xui 0 i u i 0 i ) − xiu = xui + ( ) ⋅ ∆x 0,5 − F xui fi i Anmerkung: Wird die "Trennung" zwischen dem oberen und dem unteren Abschnitt der Häufigkeitsverteilung nicht im Verhältnis 1 : 1 (wie beim Zentralwert), sondern im Verhältnis 1 : 3 bzw. 3 : 1 vollzogen, so spricht man vom Quartil 1 (= 25Prozentpunkt) bzw. Quartil 3 (=75-Prozentpunkt). Die entsprechenden Formeln für klassifizierte Daten lauten: Suche die Klasse, in der Fi = 0,25 (bzw. 0,75) wird 3.3. Q1 = xui Q3 = xui + + ( ) ⋅ ∆x 0,25 − F xui fi i ( ) ⋅ ∆x bzw. 0,75 − F xui fi i Der häufigste Wert, der auch als dichtester Wert oder Modus bezeichnet wird, ist der Merkmalswert mit der größten absoluten bzw relativen Häufigkeit. D = xi mit i aus hmax bzw. fimax i Bei klassifizierten Daten wird als häufigster Wert die Klassenmitte xi* der Klasse mit der größten absoluten bzw. relativen Häufigkeit bestimmt unter der Annahme konstanter Klassenbreiten. Im Falle ungleicher Klassenbreiten wird die max Klassenmitte der Klasse mit der größten Häufigkeitsdichte (di ) genommen. 4 Statistik I / B. Ziegler 3.4. Mittelwerte Geometrisches Mittel a) Ungruppierte Daten G = N x 1 ⋅ x 2 ⋅ x 3 ....x N bzw. log G = 1 N ⋅ ∑ log x i N i =1 b) Gruppierte Daten h G = N x1 1 ⋅ x 2 h2 h ⋅ x 3 3 ....x k hk bzw. 1 k log G = ⋅ ∑ h i log x i N i =1 3.5. Formale Eigenschaften der Mittelwerte Der Zentralwert besitzt die formale Eigenschaft, daß die Summe der absoluten Abweichungen der Merkmalswerte vom Zentralwert geringer ist als von irgendeinem anderen Wert: N ∑ i=1 x i - Z = min. Im Gegensatz zum Zentralwert gelten für das arithmetische Mittel folgende formale Eigenschaften: a) die Summe der Abweichungen der Merkmalswerte vom arithmetischen Mittel ist Null: N ∑ (x i - x) = 0 i=1 b) die Summe der quadrierten Abweichungen der Merkmalswerte von x ist kleiner als von jedem anderen Wert: N ∑ (x i - x) 2 = min. i=1 Relation zwischen den Mittelwerten: D = Z = x symmetrische Verteilung D > Z > x rechtssteile Verteilung D < Z < x linkssteile Verteilung 5 Statistik I / B. Ziegler Streuungsmaße 4. Streuungsmaße Streuungsmaße lassen erkennen, ob sich die Merkmalswerte eng um einen Mittelwert gruppieren oder stark streuen. Sie messen somit die Abweichungen der einzelnen Merkmalswerte von ihrem Mittelwert. 4.1. Spannweite Die Spannweite (R) ist die Differenz zwischen dem größten und dem kleinsten Merkmalswert einer Verteilung: R = xmax - xmin i i Bei klassifizierten Daten lassen sich entsprechend die Klassengrenzen der Randklassen verwenden. 4.2. Mittlere (bzw. durchschnittliche) absolute Abweichung Die mittlere absolute Abweichung (d) ist das arithmetische Mittel der absoluten Abstände der Merkmalswerte von einem Mittelwert (meist x zuweilen aber auch Z) a) Ungruppierte Daten N d= ∑x - x i i=1 = N N 1 ⋅ N ∑x 1 ⋅ N ∑x -Z - x i i=1 N d= ∑x - Z i i=1 = N N i i=1 b) Gruppierte Daten k d= ∑x - x ⋅ hi N k d= i i =1 ∑ i=1 x * i - x ⋅ hi N k = ∑x i - x ⋅ fi i=1 k = ∑ xi* - x ⋅ fi i=1 Entsprechendes gilt, wenn für x der Zentralwert eingesetzt wird. 6 Statistik I / B. Ziegler Streuungsmaße 4.3. Varianz und Standardabweichung der Die Varianz und die daraus hergeleitete Standardabweichung sind die gebräuchlichsten Streuungsmaße. Die Varianz (σ2) ist die durchschnittliche Abweichung der quadrierten Abstände Merkmalswerte vom arithmetischen Mittel. a) Ungruppierte Daten N σ2= ∑ (x i=1 - x) i 2 1 ⋅ N = N 1 ⋅ N σ= σ 2 = N ∑ (x i N ∑ (x - x) i 2 i=1 - x) 2 i=1 b) Gruppierte Daten k ∑ (x σ2 = - x) ⋅ h i 2 i i=1 = N k ∑ xi* σ2 = i =1 k ∑ (x - x) ⋅ f i 2 i i=1 2 - x ⋅ hi N k = ∑ xi* i =1 2 - x ⋅ fi Die jeweilige Standardabweichung σ ist die (positive) Quadratwurzel der Varianz. 4.4. Mittlerer Quartilsabstand MQ = 4.5. Q3 - Q1 2 Variationskoeffizient Mit dem Variationskoeffizienten soll die Streuung einer Häufigkeitsverteilung unabhängig von der absoluten Größe der Merkmalswerte charakterisiert werden. Er ist ein relatives Streuungsmaß und wird als Quotient aus Standardabweichung und arithmetischem Mittel berechnet: V= σ x bzw. V = σ x ⋅ 100 7 Statistik I / B. Ziegler 5. Momente und Schiefe / Konzentrationsmaße Momente und Schiefe Das dritte Moment um das arithmetische Mittel wird als Maßzahl für die Schiefe einer Häufigkeitsverteilung verwendet. Die Schiefe gibt an, wie stark die Häufigkeitsverteilung von der Symmetrie abweicht. Das dritte Moment gibt die durchschnittliche dritte Potenz der Abweichungen der Merkmalswerte vom arithmetischen Mittel an: a) Ungruppierte Daten 1 ⋅ m3 ( x ) = N ∑ (x i x) 3 b) Klassifizierte Daten m3 ( x ) = Interpretation m3 ( x ) > 0 m3 ( x ) < 0 6. k 1 k * ⋅ ∑ ( x − x ) 3 ⋅ h i = ∑ (x*i − x ) 3 ⋅ f i N i=1 i i=1 rechtsschiefe Verteilung linksschiefe Verteilung Konzentrationsmaße Konzentrationsmaße messen die Aufteilung einer gesamten Merkmalssumme auf die einzelnen statistischen Einheiten. In der Konzentrationsmessung werden die statistischen Einheiten auch als Merkmalsträger bezeichnet. Je nach Betrachtungsweise wird zwischen absoluter und relativer Konzentration unterschieden. Der Unterschied besteht darin, daß von absoluter Konzentration gesprochen wird, wenn ein Großteil der Merkmalssumme auf eine kleine Zahl von Merkmalsträgern entfällt, von relativer Konzentration, wenn ein Großteil der Merkmalssumme auf einen kleinen Anteil der Merkmalsträger fällt. Konzentrationskoeffizient (concentration ratio) Der Konzentrationskoeffizient (Konzentrationsrate, Konzentrationsziffer oder Konzentrationsgrad) ist ein weit verbreitetes Maß zur Messung der absoluten Konzentration. Gegeben sei eine Anzahl von N Merkmalsträgern (z. B. Unternehmen) mit dem Merkmal xi (z. B. Umsatz), wobei gilt: x1 ≤ x 2 ≤ K ≤ x N 8 Statistik I / B. Ziegler Konzentrationsmaße Der Konzentrationskoeffizient CRa für a = 2, 3, 4, 5, 6, 10 oder 100 (je nach Fragestellung) wird definiert als: N ∑ xi i = N − a +1 N CRa = ∑ xi i =1 Soll beispielsweise der Anteil der drei umsatzstärksten Unternehmen einer Branche N oder eines Marktes am Gesamtumsatz ( ∑ xi ) ermittelt werden, so gilt für CR3 bei i =1 N=10: 10 CR3 = ∑ xi i =10−3+1 10 ∑ xi i =1 Herfindahl-Index (Hirschman-Index) Eine weitere Maßzahl der absoluten Konzentration ist der Herfindahl-Index (auch als Hirschman-Index bezeichnet), der definiert wird als: N H = ∑ pi2 i =1 wobei pi = Anteil des Merkmalsträgers i an der gesamten Merkmalssumme. 1 ≤ H ≤1 N Maximale Konzentration liegt dann vor, wenn H = 1 ist (ein Merkmalsträger vereinigt die gesamte Merkmalssumme auf sich); bei minimaler Konzentration ist H= 1 N (alle Merkmalsträger haben den gleichen Anteil an der Merkmalssumme). 9 Statistik I / B. Ziegler Konzentrationsmaße Zwischen dem Herfindahl-Index und dem Variationskoeffizienten (s. Streuungsmaße) besteht folgender Zusammenhang: H= ( ) 1 ⋅ V2 + 1 N Lorenzkurve und Gini-Koeffizient Zur Messung der relativen Konzentration wird die Lorenzkurve herangezogen. In einem quadratischen Schaubild werden auf der Abszisse die kumulierten Anteile der Merkmalsträger abgetragen, auf der Ordinate die zugehörigen kumulierten Anteile der Merkmalssumme. Der Streckenzug, der die entsprechenden Punkte – vom Nullpunkt beginnend – miteinander verbindet, wird als Lorenzkurve (Konzentrationskurve) bezeichnet. Der Gini-Koeffizient G ist ein Maß für die Fläche zwischen der Gleichverteilungsgeraden und der Lorenzkurve: G= Fläche zwischen der Lorenzkurve und der Gleichverteilungsgeraden Fläche des Dreiecks unter der Gleichverteilungsgeraden Zur Berechnung kann folgende Formel verwendet werden: k G = 1 − ∑ (MS i −1 + MS i ) ⋅ f i i =1 mit MS0 = 0 Es gilt: 0 ≤ G ≤ 1. Bei G = 0 besteht Gleichverteilung, bei G = 1 vollständige Konzentration. 10