Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014 Inhaltsverzeichnis 2 Univariate Deskription und Exploration von Daten 2 3 Bivariate Deskription und Exploration von Daten 9 4 Zeitreihenanalyse 16 5 Indexzahlen 17 6 Wahrscheinlichkeitsrechnung 20 Formelsammlung Statistik A 2 Seite 2 Univariate Deskription und Exploration von Daten Gegeben seien Daten x1 , . . . , xn eines Merkmals X mit Ausprägungen a1 , . . . , ak . Häufigkeiten und ihre graphischen Darstellungen Formel/Notation h(aj ) = hj h f (aj ) = fj = nj {h1 , . . . , hk } {f1 , . . . , fk } Absolute Häufigkeit Relative Häufigkeit Abs. Häufigkeitsverteilung Rel. Häufigkeitsverteilung Diagramm Strichliste Stabdiagramm Säulendiagramm Balkendiagramm Kreisdiagramm Histogramm Erläuterung Anzahl der Werte mit xi = aj Anteil der Werte mit xi = aj Menge der abs. Häufigkeiten Menge der rel. Häufigkeiten Beschreibung Für jedes ak jeweils hk Striche Über a1 , . . . , ak jeweils zur x-Achse senkrechter Strich mit Höhe h1 , . . . , hk (oder f1 , . . . , fk ) wie Stabdiagramm, jedoch mit Rechtecken anstatt Strichen wie Säulendiagramm, jedoch mit a1 , . . . , ak auf der yAchse Kreissektoren mit Winkeln αj = fj · 360◦ , so daß Fläche proportional zu den Häufigkeiten Über den Klassen [c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit Breite δj = cj − cj−1 und Höhe gleich (oder proportional zu) hj /δj bzw. fj /δj . Damit ist die Fläche der Rechtecke gleich (oder proportinal zu) hj bzw. fj . Kumulierte Häufigkeitsverteilungen Absolute kumulierte Häufigkeitsverteilung Empirische Verteilungsfunktion (relative kumulierte Häufigkeitsverteilung) Formel/Notation P h(ai ) H(x) = Erläuterung Anzahl der Werte xi mit xi ≤ x i:ai ≤x F (x) = [email protected] H(x) n = P i:ai ≤x f (ai ) Anteil der Werte xi mit xi ≤ x Formelsammlung Statistik A Seite 3 Lagemaße Lagemaß Arithmetisches Mittel Formel n P x̄ = n1 xi i=1 k P x̄ = f j aj = j=1 Median Modus Geometrisches Mittel k P 1 n hj aj j=1 Für ungerades n: xmed = x( n+1 ) 2 Für gerades n: xmed = 12 x(n/2) + x(n/2+1) xmod = ai , mit fi = maxj=1,···k fj √ x̄geo = n x1 · x2 · · · xn n P bzw. ln(x̄geo ) = n1 ln(xi ) Erläuterung Empirischer Mittelwert der Beobachtungen hj = h(aj ) abs. Häufigkeiten fj = f (aj ) rel. Häufigkeiten x(1) ≤ . . . ≤ x(n) bezeichnet die aufsteigend sortierte Urliste x1 , . . . , x n . Ausprägung mit größter Häufigkeit. Nur für positive x1 , . . . , xn . i=1 bzw. ln(x̄geo ) = k P fj ln(aj ) Häufigkeitsdaten mit aj > 0 j=1 x̄har = Harmonisches Mittel bzw. bzw. 1 n 1 x̄har 1 x̄har 1 n P i=1 = = 1 xi 1 n n P i=1 k P j=1 1 xi fj a1j Lageregeln Verteilung symmetrisch linkssteil (rechtsschief) rechtssteil (linksschief) Lagemaße x̄ ≈ xmed ≈ xmod x̄ > xmed > xmod x̄ < xmed < xmod [email protected] Entweder alle xi > 0 oder alle xi < 0 Häufigkeitsdaten und entweder alle aj > 0 oder alle aj < 0 Formelsammlung Statistik A Seite 4 Streuungsmaße Streuungsmaß Formel s̃2 = Empirische Varianz s̃2 = 1 n Erläuterung n P (xi − x̄)2 = i=1 k P fj (aj − x̄)2 = j=1 √ Empirische Standardabweichung s̃ = Stichprobenvarianz s2 = 1 n n P x2i − x̄2 i=1 k P fj a2j − x̄2 Für Häufigkeitsdaten j=1 Quadratwurzel aus emp. Varianz s̃2 1 n−1 x̄ emp. Mittelwert n P (xi − x̄)2 Division durch n − 1 i=1 Variationskoeffizient v = s̃/x̄ Spannweite R = maxi xi − mini xi = x(n) − x(1) Interquartilsabstand QA = x0.75 − x0.25 Sinnvoll für Beobachtungen xi > 0 x(1) ≤ . . . ≤ x(n) , geordnete Urliste x0.25 , x0.75 unteres bzw. oberes Quartil Bemerkung: Die Formel für die empirische Varianz wird oft auch in der n P Form s̃2 = x2 − x̄2 , wobei x2 = n1 x2i der Mittelwert der quadrierten Daten i=1 ist, geschrieben. Schichtung und Streuungszerlegung Eine Erhebungseinheit E vom Umfang n sei zerlegt in Prr Schichten (oder Teilgesamtheiten) E1 , . . . , Er , jeweils vom Umfang nj , j=1 nj = n, mit Mittel x̄j und Varianz s̃2j . Dann gilt • Gesamtmittel in E: r 1X x̄ = nj x̄j n j=1 • Varianz in E: s̃2 = r r 1X 1X nj s̃2j nj (x̄j − x̄)2 + n j=1 n j=1 | {z } | {z } Streuung innerhalb Streuung zwischen der Schichten den Schichten [email protected] Formelsammlung Statistik A Seite 5 Quantile und Boxplot Quantile Für 0 < p < 1 heißt jeder Wert xp , für den Anzahl(xi : xi ≥ xp ) Anzahl(xi : xi ≤ xp ) ≥p und ≥1−p n n gilt, p-Quantil. Damit gilt für das p-Quantil: xp = x(bnpc+1) , wenn np nicht ganzzahlig xp ∈ x(np) , x(np+1) , wenn np ganzzahlig Bemerkungen: • Spezielle Bezeichnungen: x0.5 Median x0.25 , x0.75 Unteres bzw. Oberes Quartil x0.1 , . . . , x0.9 Dezile • Analog zum Median kann man für ganzzahliges np ein p-Quantil auch eindeutig als den Mittelwert xp = 12 x(np) + x(np+1) definieren. • In Statistikprogrammen werden empirische p-Quantile gewöhnlich durch lineare Näherung aus der empirischen Verteilungsfunktion gewonnen. Graphische Darstellung • 5-Punkte Zusammenfassung einer Verteilung: Angabe von xmin , x0.25 , xmed , x0.75 , xmax . • Boxplot: 1. x0.25 = Anfang der Box 2. x0.75 = Ende der Box 3. xmed durch senkr. Strich in der Box markieren 4. Berechnung der „Zäune“ zu = x0.25 − 1.5 QA und zo = x0.75 + 1.5 QA 5. Zwei Linien („whiskers“) gehen von der Box aus zum kleinsten und größten Beobachtungswert innerhalb des Bereichs [zu , zo ] der Zäune. (Üblicherweise werden die Endpunkte durch senkrechte Striche markiert.) 6. Beobachtungen außerhalb der Zäune zu , zo werden einzeln markiert. [email protected] Formelsammlung Statistik A Seite 6 Gruppierte Daten Lagemaße Arithm. Mittel Formel k P x̄ = fj c̄j Erläuterung j=1 Median i−1 xmed = ci−1 + δi 0.5−F fi Modus xmod = c̄i Geom. Mittel ln(x̄geo ) = Harm. Mittel 1 x̄har = k P 1 n k P 1 n j=1 fj ln(c̄j ) c̄j Mitte der Klasse (cj−1 , cj ] fj rel. Häufigkeit P Fi−1 = i−1 j=1 fj (emp. Vert.), (ci−1 , ci ] Einfallsklasse des Medians, d.h. Fi−1 ≤ 0.5 < Fi δi = ci − ci−1 Breite der i-ten Klasse c̄i Mitte der Modalklasse Alle c̄j > 0 j=1 fj c̄j Entweder alle c̄j > 0 oder alle c̄j < 0 Streuungsmaße Formel Empirische Varianz s̃2 = k P fj (c̄j − x̄)2 = j=1 k P k P j=1 Empirische Varianz mit Sheppard-Korrektur s̃2 = Spannweite R = ck − c0 Interquartilsabstand QA = x0.75 − x0.25 fj (c̄j − x̄)2 − j=1 δ2 12 fj c̄2j − x̄2 Erläuterung x̄ emp. Mittelwert, fj rel. Häufigkeit, c̄j Klassenmitte Nur für konstante Klassenbreiten δ = cj − cj−1 c0 Untergrenze der untersten Klasse ck Obergrenze der obersten Klasse x0.25 , x0.75 unteres bzw. oberes Quartil (für gruppierte Daten) p-Quantil für gruppierte Daten Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1) definiert durch p − Fi−1 xp = ci−1 + δi , fi P Pi wobei der Index i so bestimmt wird, daß i−1 j=1 fj ≤ p < j=1 fj . [email protected] Formelsammlung Statistik A Seite 7 Maßzahlen für Schiefe Empirische Momente Formel Empirische Momente Empirische zentrale Momente Mr = mr = 1 n 1 n Erläuterung n P xri r = 1, 2, . . . i=1 n P (xi − x̄)r r = 2, 3, . . . M1 = Arithmetisches Mittel m2 = Empirische Varianz i=1 Maßzahlen für Schiefe („Skewness“) Schiefemaß Formel Momentenkoeffizient der Schiefe gm = Quantilskoeffizient der Schiefe gp = m3 s3 mit m3 = 1 n n P (xi − x̄)3 i=1 (x1−p −xmed )−(xmed −xp ) x1−p −xp Erläuterung m3 emp. 3tes zentrales Moment, s emp. Standardabw. Für p = 0.25 ergibt sich der Quartilskoeffizient Konzentrationsmaße Lorenzkurve und Gini-Koeffizient Die Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (uκ , vκ ) = (1, 1), wobei für die Punkte (uj , vj ) gilt: • Bei geordneter Urliste x1 ≤ . . . ≤ xn : Pj xi j uj = vj = Pi=1 n n i=1 xi für j = 1, . . . , n • Bei Häufigkeitsdaten {(ai , fi )}1≤i≤k (aufsteigend geordnet): uj = j X Pj fi i=1 vj = Pi=1 k f i ai i=1 fi ai für j = 1, . . . , k • Bei gruppierten Daten mit Klassen [c0 , c1 ], . . . , (ck−1 , ck ] und Klassenmittelpunkten c̄i : uj = j X Pj fi i=1 [email protected] vj = Pi=1 k i=1 fi c̄i fi c̄i für j = 1, . . . , k Formelsammlung Statistik A Seite 8 Gini-Koeffizient Fläche zw. Diagonale u. Lorenzkurve = 2·Fläche zw. Diagonale u. Lorenzkurve G= Fläche zw. Diagonale und u-Achse Damit ergibt sich für den Gini-Koeffizienten • Bei geordneter Urliste x1 ≤ . . . ≤ xn : 2 G= n P ixi i=1 n P n n − xi n+1 1X n+1 = −2· vj n n n j=1 i=1 • Bei Häufigkeitsdaten {(ai , fi )}1≤i≤k (aufsteigend geordnet): Pk i=1 (ui−1 + ui )fi ai Pk i=1 fi ai G= −1=1−2· k X fj v̄j , mit v̄j = j=1 vj−1 + vj 2 • Bei gruppierten Daten mit Klassen [c0 , c1 ], . . . , (ck−1 , ck ] und Klassenmittelpunkten c̄i : Pk G= i=1 (ui−1 + ui )fi c̄i Pk i=1 fi c̄i −1=1−2· k X fj v̄j , mit v̄j = j=1 vj−1 + vj 2 Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient) G? = n G = G Gmax n−1 mit dem Wertebereich: G? ∈ [0, 1] Absolute Konzentrationsmaße Ausgangspunkt ist eine geordnete Urliste x1 ≤ . . . ≤ xn . • Merkmalsanteil der i-ten Einheit: pi = xi n P xj j=1 • Konzentrationsrate der g größten Merkmalsträger: CRg = n P i=n−g+1 n P • Herfindahl-Index: H = i=1 [email protected] p2i ; Wertebereich: H ∈ [ n1 , 1] pi Formelsammlung Statistik A 3 Seite 9 Bivariate Deskription und Exploration von Daten Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungen a1 , . . . , ak für X und b1 , . . . , bm für Y . Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1 , y1 ), . . . , (xn , yn ). Kontingenztabelle der absoluten Häufigkeiten Eine (k × m)–Kontingenztabelle der absoluten Häufigkeiten besitzt die Form XY a1 a2 .. . ak b1 b2 h11 h12 h21 h22 .. .. . . hk1 hk2 h•1 h•2 · · · bm . . . h1m h1• . . . h2m h2• .. .. . . . . . hkm hk• · · · h•m n und gibt die gemeinsame Verteilung der Merkmale X und Y in absoluten Häufigkeiten wieder. Bezeichnungen Absolute Häufigkeit der Kombination (ai , bj ) Zeilensummen Spaltensummen Gesamtsumme hij = h(ai , bj ) hi• = hi1 + · · · + him , h•j = h1j + · · · + hkj , 1 ≤ j ≤ m k P m k m P P P h• • = hij = hi• = h•j = n i=1 j=1 Randhäufigkeiten des Merkmals X Randhäufigkeiten des Merkmals Y [email protected] 1≤i≤k h1• , . . . , hk• h•1 , . . . , h•m i=1 j=1 Formelsammlung Statistik A Seite 10 Kontingenztabelle der relativen Häufigkeiten Eine (k × m)-Kontingenztabelle der relativen Häufigkeiten besitzt die Form XY a1 a2 .. . ak b1 b2 f11 f12 f21 f22 .. .. . . fk1 fk2 f•1 f•2 · · · bm . . . f1m f1• . . . f2m f2• .. .. . . . . . fkm fk• · · · f•m 1 und gibt die gemeinsame Verteilung der Merkmale X und Y wieder. Bezeichnungen Relative Häufigkeit der Kombination (ai , bj ) Zeilensummen Spaltensummen Gesamtsumme fij = fi• = fi1 + · · · + fim = [email protected] hi• , n h•j , n 1≤i≤k f•j = f1j + · · · + fkj = 1≤j≤m k m k m PP P P fij = fi• = f•j = 1 i=1 j=1 Randverteilung des Merkmals X Randverteilung des Merkmals Y Bedingte Häufigkeitsverteilung von X unter der Bedingung Y = bj , kurz X|Y = bj Bedingte Häufigkeitsverteilung von Y unter der Bedingung X = ai , kurz Y |X = ai hij n i=1 j=1 {f1• , . . . , fk• } {f•1 , . . . , f•m } f 1j kj , . . . , f (a |Y = b ) = X k j f f •j •j f fX (a1 |Y = bj ) = f f fY (b1 |X = ai ) = fi1 , . . . , fY (bm |X = ai ) = fim i• i• Formelsammlung Statistik A Seite 11 Graphische Darstellung quantitativer Merkmale Streudiagramm („Scatter plot“) • Darstellung der Meßwerte (x1 , y1 ), . . . , (xn , yn ) im xy-Koordinatensystem. Zweidimensionales Histogramm • Intervalle [c0 , c1 ], . . . , (ck−1 , ck ] für Merkmal X. • Intervalle [d0 , d1 ], . . . , (dm−1 , dm ] für Merkmal Y . • Quader mit den Rechtecken (ci−1 , ci ] × (dj−1 , dj ] als Grundfläche und Höhe hij (ci − ci−1 ) · (dj − dj−1 ) bzw. fij (ci − ci−1 ) · (dj − dj−1 ) „Odds“ und Kreuzproduktverhältnis Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häufigkeiten. • (Empirische) bedingte Chance („Odds“) zwischen Y = br und Y = bs für gegebenes X = ai ist: γ(br , bs |X = ai ) = hir his • Das Kreuzproduktverhältnis („Odds ratio“) zwischen X = ai und X = aj in bezug auf die Chancen von Y = br zu Y = bs ist: γ(br , bs |X = ai , X = aj ) = [email protected] hir /his hir hjs = hjr /hjs hjr his Formelsammlung Statistik A Seite 12 Kontingenz und χ2 –Koeffizient Formel χ2 -Koeffizient χ2 = Wertebereich/Erläuterung k X m X i=1 j=1 s Kontingenzkoeffizient K= Korrigierter Kontingenzkoeffizient K? = Assoziationsmaß V = von Cramér s hij − hi• h•j n hi• h•j n χ2 n + χ2 K Kmax χ2 n(min(k, m) − 1) 2 Es gilt: 0 ≤ χ2 ≤ n · (min(k, m) − 1) h h h̃ij = i•n •j = erwartete Häufigkeiten, wenn kein Zusammenhang vorliegt. K ∈ [0, Kmax ], wobei Kmax = M = min(k, m). V ∈ [0, 1] V = |φ-Koeffizient| für 2 × 2-Tafeln Für eine (2 × 2)–Kontingenztafel der Form h11 + h12 h11 h12 h21 h22 h21 + h22 h11 + h21 h12 + h22 n gilt n(h11 h22 − h12 h21 )2 (h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 ) und der φ-Koeffizient ist definiert als h11 h22 − h12 h21 φ= p (h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 ) und hat den Wertebereich φ ∈ [−1, 1]. [email protected] M −1 , M K ? ∈ [0, 1] Spezialfall: Vierfeldertafel χ2 = q Formelsammlung Statistik A Seite 13 Zusammenhangsmaße bei metrischen Merkmalen Empirischer Korrelationskoeffizient nach Bravais-Pearson • Empirische Standardabweichungen (für X bzw. Y ): s̃X , s̃Y n s̃2X 1X 2 = xi − x̄2 n i=1 n und s̃2Y 1X 2 = yi − ȳ 2 n i=1 • Empirische Kovarianz (zwischen X und Y ): n s̃XY n 1X 1X = (xi − x̄)(yi − ȳ) = xi yi − x̄ · ȳ n i=1 n i=1 • Empirischer Korrelationskoeffizient: r = rXY = • Wertebereich: r ∈ [−1, 1]. [email protected] s̃XY s̃X s̃Y Formelsammlung Statistik A Seite 14 Spearmans Korrelationskoeffizient • Rang von xi : rang(xi ) = Position des i-ten Messwertes in der aufsteigend sortierten Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) mit der Zusatzregel, dass gleichen Messwerten (sog. Bindungen, „ties“) jeweils das Mittel ihrer Ränge zugewiesen wird. • Mittel aller Ränge: rangX = 1 n n P rang(xi ) = i=1 1 n n P i= i=1 n+1 2 • Spearmans Korrelationskoeffizient: n P rSP = (rang(xi ) − rangX )(rang(yi ) − rangY ) r ni=1 P (rang(xi ) − rangX )2 i=1 n P (rang(yi ) − rangY )2 i=1 • Wertebereich: rSP ∈ [−1, 1] • Rechentechnisch günstige Version: Unter der Voraussetzung, dass keine Bindungen („ties“) auftreten (d.h., xi 6= xj , yi 6= yj für alle i, j), gilt: 6 rSP = 1 − n P Di2 i=1 n(n2 − 1) mit den Rangdifferenzen Di = rang(xi ) − rang(yi ), 1 ≤ i ≤ n. Lineare Einfachregression Gegeben seien n Beobachtungen der Merkmale Y und X: (y1 , x1 ), . . . , (yn , xn ). • Lineare Einfachregression: yi = α + βxi + i , i = 1, . . . , n • Parameter α, β: α bezeichnet den Achsenabschnitt, β die Steigung. • Fehlerterme i . (Annahme: Unsystematische Schwankung um 0.) [email protected] Formelsammlung Statistik A Seite 15 • Bestimmung der Paramter der Ausgleichsgeraden durch die KleinsteQuadrate-Methode: n P α̂ = ȳ − β̂ x̄, β̂ = (xi − x̄)(yi − ȳ) i=1 n P = (xi − x̄)2 s̃XY s̃2X i=1 • als Lösung der Normalgleichungen: α̂ n + β̂ α̂ n X xi + β̂ i=1 n X i=1 n X • Streuungszerlegung: n P n P x2i = i=1 • Angepaßte Werte: ŷi = α̂ + β̂xi , • Residuen: ˆi = yi − ŷi , xi = n X i=1 n X yi xi y i i=1 i = 1, . . . , n. i = 1, . . . , n. n P (yi − ȳ)2 = i=1 (ŷi − ȳ)2 + i=1 (yi − ȳ)2 n P (yi − ŷi )2 i=1 Gesamtstreuung i=1 n P (ŷi − ȳ)2 = β̂ 2 i=1 n P n P (xi − x̄)2 Durch Regression erklärte Streuung i=1 (yi − ŷi )2 Residualstreuung i=1 • Bestimmtheitsmaß (Determinationskoeffizient): n P 2 R = n P (ŷi − ȳ)2 i=1 n P (yi − ȳ)2 i=1 =1− (yi − ŷi )2 i=1 n P = (yi − ȳ)2 i=1 • Prognose an einer Stelle x0 : ŷ0 = α̂ + β̂x0 [email protected] s̃XY s̃X s̃Y 2 2 = rXY Formelsammlung Statistik A 4 Seite 16 Zeitreihenanalyse Gegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merkmals X: x1 , x2 , . . . , xn Graphische Darstellung • Zeitreihenpolygon: Darstellung der Werte {xt }1≤t≤n in Abhängigkeit von t mit anschließender linearer Interpolation. • Alternativ: Darstellung von xt in Abhängigkeit vom Datum der t-ten Messung mit anschließender linearer Interpolation. Komponentenmodelle • Additives Komponentenmodell: Modellierung der Zeitreihe als: xt = gt + st + zt |{z} |{z} |{z} Trend Saison Rest • Multiplikatives Komponentenmodell: Modellierung der Zeitreihe als: xt = gt · st · zt . Durch Logarithmieren kann ein multiplikatives Modell auf ein additives Komponentenmodell zurückgeführt werden: ln xt = ln gt + ln st + ln zt |{z} |{z} |{z} |{z} x?t gt? s?t Schätzung eines linearen Trends • Modell: gt = β0 + β1 · t • Schätzung der Parameter durch die KQ-Methode: β̂0 und β̂1 minimieren n X (xt − β0 − β1 · t)2 t=1 • Lösungen: (für t = 1, 2, . . . , n) β̂1 = n P xt · t t=1 n(n2 − 1) 12 − 6x̄ n−1 und β̂0 = x̄ − β̂1 • Geschätzte Trendfunktion: ĝt = β̂0 + β̂1 · t • Trendbereinigte Zeitreihe: xt − ĝt [email protected] n+1 2 zt? Formelsammlung Statistik A Seite 17 • Bestimmtheitsmaß: Pn 2 β̂12 n(n2 − 1) t=1 (ĝt − x̄) P P R = n = 2 12 nt=1 (xt − x̄)2 t=1 (xt − x̄) 2 • Exponentieller Trend: Durch Logarithmieren kann ein exponentielles Trendmodell der Form: gt = β0 · β1t in ein lineares Trendmodell überführt werden. Schätzung einer konstanten Saisonfigur • Gegebene Periodizität: l Für j = 1, . . . , l sind xj , xl+j , x2l+j , x3l+j , . . . jeweils die Beobachtungen zur j-ten Periode (Quartal, Monat, o.ä.) • Annahme: (Konstante Saisonfigur) Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · · • Schätzung der sj : Arithmetische Mittel ŝj = 1 mj mP j −1 (xkl+j − ĝkl+j ) k=0 (Bemerkung: Falls n = m · l, dann mj = m für alle j) • Geschätzte Saisonkomponente: ŝt = ŝj falls t = j, l + j, 2l + j, 3l + j, . . . • Prognose (von xn+h , h ≥ 1): x̂n+h = ĝn+h + ŝn+h (additiv) bzw. x̂n+h = ĝn+h · ŝn+h (multiplikativ) 5 Indexzahlen Klassifikation der Verhältniszahlen • Gliederungszahl • Beziehungszahl • Meßzahl (einfache/zusammengesetzte Indexzahl) Preis-, Mengen und Wertindizes Bezeichnungen • Bezeichnungen (Warenkorb mit m Gütern.) q0i , p0i : Menge und Preis des i-ten Gutes in der „Basisperiode 0“ qti , pti : Menge und Preis des i-ten Gutes in der „Berichtsperiode t“ [email protected] Formelsammlung Statistik A Seite 18 m P • Preisindex nach Laspeyres: P0tL i=1 m P = i=1 m P • Preisindex nach Paasche: P0tP = i=1 m P i=1 pti q0i p0i q0i pti qti p0i qti m P • Mengenindex nach Laspeyres: QL0t = i=1 m P i=1 m P • Mengenindex nach Paasche: QP0t = i=1 m P i=1 p0i qti p0i q0i pti qti pti q0i m P • Wertindex: (auch: Umsatz- oder Ausgabenindex) W0t = i=1 m P i=1 • Preisindex nach Fisher: P0tF = qti pti q0i p0i p P0tP P0tL Indexumrechnungen • Umbasierung: Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode 0): I00 = 1, I01 , I02 , . . . , I0k , . . . , I0n ? Ikt = I0t /I0k ergibt die auf die neue Basisperiode k umbasierte Zeitreihe. • Verknüpfung: Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode (hier in t) überlappen: I01 , I02 , . . . , I0t und Ikt , Ik,t+1 , . . . Fortführung der alten Zeitreihe: ? I0,t+h = Ik,t+h · I0t , Ikt h = 1, 2, . . . Rückrechnung der neuen Zeitreihe: ? Ik,t−h = I0,t−h · [email protected] Ikt , I0t h = 1, 2, . . . Formelsammlung Statistik A Seite 19 • Verkettung: Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode als Basis: I01 , I12 , I23 , I34 , . . . ? I0t = I01 · I12 · · · It−1,t bezeichnet die verkettete Zeitreihe mit gemeinsamer Basis 0. • Deflationierung oder Preisbereinigung: Division einer nominalen Größe Vt durch einen sachlich zugehörigen Preisindex P0t ergibt die reale (preisbereinigte) Größe Rt = Vt /P0t . [email protected] Formelsammlung Statistik A 6 Seite 20 Wahrscheinlichkeitsrechnung Kombinatorik Anzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln: ohne Zurücklegen Reihenfolge wichtig Reihenfolge nicht wichtig „Sortieren nicht erlaubt“ „Sortieren erlaubt“ N · (N − 1) · · · (N − (n − 1)) N n N mit Zurücklegen n n+N −1 n+N −1 = n N −1 Binomialkoeffizienten • Definition: n! n n · (n − 1) · · · (n − (k − 1)) = = k · (k − 1) · · · 1 k!(n − k)! k • Rechenregeln: n n = =1 0 n n n = k n−k n n = =n 1 n−1 n n−1 n−1 = + k k k−1 Rechenregeln für Mengen • Kommutativgesetz: A∩B =B∩A A∪B =B∪A • Assoziativgesetz: (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) • Distributivgesetz: (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) • De Morgansche Regeln: (A ∪ B) = Ā ∩ B̄ (A ∩ B) = Ā ∪ B̄ • Aus A ⊂ B folgt B̄ ⊂ Ā • Für die Differenzmenge A\B gilt: A\B = A ∩ B̄ [email protected] Formelsammlung Statistik A Seite 21 Wahrscheinlichkeiten und Axiome von Kolmogoroff • Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P ) - Grundraum - Ereignisse - Wahrscheinlichkeit P Ω P(Ω) P (A) = = = {ω1 , ω2 , . . . ωN } Menge aller Teilmengen A ⊂ Ω Wahrscheinlichkeit für das Eintreten von A Die Wahrscheinlichkeitsverteilung P erfüllt die Axiome von Kolmogoroff : (A1) (Nichtnegativität) P (A) ≥ 0 (A2) (Normiertheit) P (Ω) = 1 (A3) (Additivität) P (A ∪ B) = P (A) + P (B) für A ∩ B = ∅ • Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) ersetzt durch das Axiom ∞ ∞ [ X (A3’) (σ−Additivität) P( Ak ) = P (Ak ) für Ai ∩ Aj = ∅, i 6= j k=1 k=1 Rechenregeln für Wahrscheinlichkeiten 1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1 2. A ⊆ B ⇒ P (A) ≤ P (B) 3. P (Ā) = 1 − P (A) mit Ā = Ω\A 4. Additionssatz: P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ), falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅ 6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An ) 7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . bekannt sind, dann gilt für die Wahrscheinlichkeit eines Ereignisses A: X X P (A) = P ({ωi }) = pi i:ωi ∈A [email protected] i:ωi ∈A Formelsammlung Statistik A Seite 22 Laplace-Modell 1. Annahme: Endlicher Grundraum Ω = {ω1 , . . . , ωN } 2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN }) Wahrscheinlichkeiten: P (A) = Anzahl ωi in A #A #A = = Anzahl ωi in Ω #Ω N Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit von A gegeben B P (A|B) = P (A ∩ B) P (B) für A, B ⊂ Ω mit P (B) > 0 Unabhängigkeit von Ereignissen • Zwei Ereignisse A und B heißen stochastisch unabhängig, wenn P (A ∩ B) = P (A) · P (B) • Ereignisse A1 , . . . , An heißen stochastisch unabhängig, wenn für jede Auswahl Ai1 , . . . , Aik mit k ≤ n gilt: P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik ) Multiplikationssatz • Für Ereignisse A1 , . . . , An gilt: P (A1 ∩. . .∩An ) = P (A1 )·P (A2 |A1 )·P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩. . .∩An−1 ) • Falls die Ereignisse A1 , . . . , An unabhängig sind, gilt: P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An ) Totale Wahrscheinlichkeit und Satz von Bayes Seien A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte Vereinigung der Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j, und A1 ∪ A2 ∪ . . . ∪ An = Ω). [email protected] Formelsammlung Statistik A Seite 23 B sei ein Ereignis mit P (B) > 0. P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B) n n X X P (B) = P (B|Ai ) · P (Ai ) = P (B ∩ Ai ) i=1 P (Ak |B) = i=1 P (B|Ak ) · P (Ak ) P (B|Ak ) · P (Ak ) = n X P (B) P (B|Ai ) · P (Ai ) i=1 [email protected] (totale Wahrscheinlichkeit) (Satz von Bayes)