Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip / Dr. Scheer Universität Bonn Statistische Abteilung Wintersemester 2009/2010 Inhaltsverzeichnis 2 Univariate Deskription und Exploration von Daten 2 3 Bivariate Deskription und Exploration von Daten 9 4 Zeitreihenanalyse 16 5 Indexzahlen 17 6 Wahrscheinlichkeitsrechnung 20 Formelsammlung Statistik I 2 Seite 2 Univariate Deskription und Exploration von Daten Gegeben seien Daten x1 , . . . , xn eines Merkmals X mit Ausprägungen a1 , . . . , ak . Häugkeiten und ihre graphischen Darstellungen Absolute Häugkeit Relative Häugkeit Abs. Häugkeitsverteilung Rel. Häugkeitsverteilung Formel/Notation Erläuterung h(aj ) = hj f (aj ) = fj = {h1 , . . . , hk } {f1 , . . . , fk } Anzahl der Werte mit hj n Anteil der Werte mit x i = aj x i = aj Menge der abs. Häugkeiten Menge der rel. Häugkeiten Diagramm Beschreibung Strichliste ak jeweils hk Striche Über a1 , . . . , ak jeweils zur x-Achse senkrechter Strich mit Höhe h1 , . . . , hk (oder f1 , . . . , fk ) Stabdiagramm Säulendiagramm Balkendiagramm Kreisdiagramm Für jedes wie Stabdiagramm, jedoch mit Rechtecken anstatt Strichen wie Säulendiagramm, jedoch mit a1 , . . . , a k auf der y- Achse Kreissektoren mit Winkeln αj = fj · 360◦ , so daÿ Flä- che proportional zu den Häugkeiten [c0 , c1 ], . . . , (ck−1 , ck ] Rechtecke mit δj = cj − cj−1 und Höhe gleich (oder proportional zu) hj /δj bzw. fj /δj . Damit ist die Fläche der Rechtecke gleich (oder proportinal zu) hj bzw. fj . Über den Klassen Histogramm Breite Kumulierte Häugkeitsverteilungen Formel/Notation Absolute kumulierte H(x) = Häugkeitsverteilung P Erläuterung Anzahl h(ai ) mit i:ai ≤x der Werte xi xi ≤ x Empirische Verteilungsfunktion F (x) = (relative kumulierte Häugkeitsverteilung) [email protected] H(x) n = P i:ai ≤x f (ai ) Anteil der Werte xi ≤ x xi mit Formelsammlung Statistik I Seite 3 Lagemaÿe Lagemaÿ Arithmetisches Mittel Formel 1 n x̄ = Erläuterung n P obachtungen i=1 k P x̄ = Empirischer Mittelwert der Be- xi f j aj = j=1 k P 1 n hj aj j=1 n: xmed = x( n+1 ) 2 Für gerades n: xmed = 12 x(n/2) + x(n/2+1) Für ungerades Median Modus Geometrisches Mittel xmod = ai , mit fi = maxj=1,···k fj √ x̄geo = n x1 · x2 · · · xn n P 1 bzw. ln(x̄geo ) = ln(xi ) n hj = h(aj ) abs. Häugkeiten fj = f (aj ) rel. Häugkeiten x(1) ≤ . . . ≤ x(n) bezeichnet die aufsteigend sortierte Urliste x1 , . . . , x n . Ausprägung mit gröÿter Häugkeit. Nur für positive x1 , . . . , x n . i=1 bzw. ln(x̄geo ) = k P fj ln(aj ) Häugkeitsdaten mit aj > 0 j=1 x̄har = Harmonisches Mittel bzw. bzw. 1 n 1 x̄har 1 x̄har 1 n P i=1 = = 1 xi 1 n i=1 k P j=1 1 xi fj a1j Lageregeln Verteilung Lagemaÿe symmetrisch x̄ ≈ xmed ≈ xmod x̄ > xmed > xmod x̄ < xmed < xmod linkssteil (rechtsschief ) rechtssteil (linksschief ) [email protected] xi > 0 xi < 0 Entweder alle n P oder alle Häugkeitsdaten und entweder alle aj > 0 oder alle aj < 0 Formelsammlung Statistik I Seite 4 Streuungsmaÿe Streuungsmaÿ Formel s̃2 = Empirische Varianz s̃2 = 1 n Erläuterung n P (xi − x̄)2 = i=1 k P fj (aj − x̄)2 = j=1 Empirische Standard- abweichung s̃ = √ s2 = Stichprobenvarianz 1 n n P x2i − x̄2 i=1 k P fj a2j − x̄2 emp. Mittelwert Für Häugkeitsdaten j=1 Quadratwurzel s̃2 1 n−1 x̄ (xi − x̄)2 Division durch Sinnvoll für Spannweite R = maxi xi − mini xi = x(n) − x(1) Interquartilsabstand QA = x0.75 − x0.25 Beobachtungen n P x2i x(1) ≤ . . . ≤ x(n) , res Quartil der Mittelwert der quadrierten Daten i=1 Schichtung und Streuungszerlegung E vom Umfang n sei zerlegt in Prr Schichten (oder Teilgesamtheiten) E1 , . . . , Er , jeweils vom Umfang nj , j=1 nj = n, mit Mittel 2 x̄j und Varianz s̃j . Dann gilt Eine Erhebungseinheit Gesamtmittel in E: r 1X x̄ = nj x̄j n j=1 • Varianz in E: r s̃2 = 1X nj s̃2j n j=1 | {z } Streuung innerhalb der Schichten [email protected] r + geordnete x0.25 , x0.75 unteres bzw. obe- ist, geschrieben. • xi > 0 Urliste Bemerkung: Die Formel für die empirische Varianz wird oft auch in der 1 n n−1 i=1 v = s̃/x̄ s̃2 = x2 − x̄2 , wobei x2 = emp. Varianz n P Variationskoezient Form aus 1X nj (x̄j − x̄)2 n j=1 | {z } Streuung zwischen den Schichten Formelsammlung Statistik I Seite 5 Quantile und Boxplot Quantile Für 0<p<1 heiÿt jeder Wert xp , : x i ≤ xp ) ≥p n Anzahl(xi gilt, p-Quantil. für den und Damit gilt für das : xi ≥ xp ) ≥1−p n Anzahl(xi p-Quantil: xp = x(bnpc+1) , wenn np xp ∈ x(np) , x(np+1) , wenn np nicht ganzzahlig ganzzahlig Bemerkungen: • Spezielle Bezeichnungen: x0.5 x0.25 , x0.75 x0.1 , . . . , x0.9 • Median Unteres bzw. Oberes Quartil Dezile Analog zum Median kann man für ganzzahliges np ein p-Quantil auch xp = 12 x(np) + x(np+1) denieren. eindeutig als den Mittelwert • In Statistikprogrammen werden empirische p-Quantile gewöhnlich durch lineare Näherung aus der empirischen Verteilungsfunktion gewonnen. Graphische Darstellung • 5-Punkte Zusammenfassung einer Verteilung: Angabe von • xmin , x0.25 , xmed , x0.75 , xmax . Boxplot: 1. x0.25 = Anfang der Box 2. x0.75 = Ende der Box 3. xmed durch senkr. Strich in der Box markieren 4. Berechnung der Zäune zu = x0.25 − 1.5 QA und zo = x0.75 + 1.5 QA 5. Zwei Linien ( whiskers ) gehen von der Box aus zum kleinsten und gröÿten Beobachtungswert innerhalb des Bereichs [zu , zo ] der Zäu- ne. (Üblicherweise werden die Endpunkte durch senkrechte Striche markiert.) 6. Beobachtungen auÿerhalb der Zäune kiert. [email protected] zu , zo werden einzeln mar- Formelsammlung Statistik I Seite 6 Gruppierte Daten Lagemaÿe Formel x̄ = Arithm. Mittel k P Erläuterung fj c̄j j=1 Median i−1 xmed = ci−1 + δi 0.5−F fi Modus xmod = c̄i Geom. Mittel ln(x̄geo ) = 1 Harm. Mittel x̄har = k P 1 n k P 1 n j=1 fj ln(c̄j ) c̄j Mitte der Klasse (cj−1 , cj ] fj rel. Häugkeit P Fi−1 = i−1 j=1 fj (emp. Vert.), (ci−1 , ci ] Einfallsklasse des Medians, d.h. Fi−1 ≤ 0.5 < Fi δi = ci − ci−1 Breite der i-ten Klasse c̄i Mitte der Modalklasse Alle c̄j > 0 j=1 fj c̄j Entweder alle c̄j > 0 oder alle c̄j < 0 Streuungsmaÿe Formel Empirische Varianz s̃2 = k P Erläuterung fj (c̄j − x̄)2 = j=1 Empirische Varianz mit Sheppard-Korrektur s̃2 = k P k P fj c̄2j − x̄2 j=1 fj (c̄j − x̄)2 − j=1 x̄ emp. Mittelwert, fj rel. Häugkeit, c̄j Klassenmitte Nur für konstante Klas- δ2 12 senbreiten c0 Untergrenze der un- tersten Klasse R = ck − c0 Spannweite δ = cj − cj−1 ck Obergrenze der ober- sten Klasse x0.25 , x0.75 Interquartilsabstand QA = x0.75 − x0.25 unteres bzw. oberes Quartil (für gruppierte Daten) p-Quantil für gruppierte Daten Analog zum Median für gruppierte Daten wird ein deniert durch p − Fi−1 , fi Pi−1 Pi daÿ j=1 fj ≤ p < j=1 fj . xp = ci−1 + δi wobei der Index i so bestimmt wird, [email protected] p-Quantil (0 < p < 1) Formelsammlung Statistik I Seite 7 Maÿzahlen für Schiefe Empirische Momente Formel Mr = Empirische Momente Empirische zentrale mr = Momente 1 n 1 n Erläuterung n P xri r = 1, 2, . . . i=1 n P (xi − x̄)r r = 2, 3, . . . M1 = Arithmetisches Mittel m2 = Empirische Varianz i=1 Maÿzahlen für Schiefe ( Skewness ) Schiefemaÿ Formel Momentenkoezient gm = der Schiefe Quantilskoezient gp = der Schiefe Erläuterung m3 mit s3 m3 = 1 n n P m3 emp. 3tes zentrales Mo3 (xi − x̄) i=1 ment, s emp. Standardabw. Für (x1−p −xmed )−(xmed −xp ) x1−p −xp p = 0.25 ergibt sich der Quartilskoezient Konzentrationsmaÿe Lorenzkurve und Gini-Koezient Die Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1 , v1 ), . . . , (uκ , vκ ) = (1, 1), • wobei für die Punkte Bei geordneter Urliste uj = • j n Bei Häugkeitsdaten uj = j X (uj , vj ) x1 ≤ . . . ≤ xn : Pj xi vj = Pi=1 n i=1 xi {(ai , fi )}1≤i≤k Pj fi i=1 • gilt: vj = Pi=1 k mittelpunkten uj = j = 1, . . . , n (aufsteigend geordnet): f i ai i=1 fi ai Bei gruppierten Daten mit Klassen für für j = 1, . . . , k [c0 , c1 ], . . . , (ck−1 , ck ] und Klassen- c̄i : j X Pj fi i=1 [email protected] vj = Pi=1 k i=1 fi c̄i fi c̄i für j = 1, . . . , k Formelsammlung Statistik I Seite 8 Gini-Koezient G= Fläche zw. Diagonale u. Lorenzkurve Fläche zw. Diagonale und = 2·Fläche u-Achse zw. Diagonale u. Lorenzkurve Damit ergibt sich für den Gini-Koezienten • Bei geordneter Urliste 2 G= n P x1 ≤ . . . ≤ xn : ixi i=1 n P n n − xi n+1 1X n+1 = −2· vj n n n j=1 i=1 • Bei Häugkeitsdaten {(ai , fi )}1≤i≤k (aufsteigend geordnet): Pk i=1 (ui−1 + ui )fi ai Pk i=1 fi ai G= • −1=1−2· mit v̄j = [c0 , c1 ], . . . , (ck−1 , ck ] vj−1 + vj 2 und Klassen- c̄i : Pk G= fj v̄j , j=1 Bei gruppierten Daten mit Klassen mittelpunkten k X i=1 (ui−1 + ui )fi c̄i Pk i=1 fi c̄i −1=1−2· k X fj v̄j , mit v̄j = j=1 vj−1 + vj 2 Normierter Gini-Koezient (Lorenz-Münzner-Koezient) G? = n G = G Gmax n−1 mit dem Wertebereich: G? ∈ [0, 1] Absolute Konzentrationsmaÿe Ausgangspunkt ist eine • geordnete Urliste Merkmalsanteil der i-ten Einheit: x1 ≤ . . . ≤ xn . pi = xi n P xj j=1 • g Konzentrationsrate der gröÿten Merkmalsträger: CRg = n P i=n−g+1 • Herndahl-Index: n P H= i=1 [email protected] p2i ; Wertebereich: H ∈ [ n1 , 1] pi Formelsammlung Statistik I 3 Seite 9 Bivariate Deskription und Exploration von Daten Gegeben seien zwei Merkmale X a1 , . . . , a k für für X und b1 , . . . , b m und Y mit den möglichen Ausprägungen Y. Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1 , y1 ), . . . , (xn , yn ). Kontingenztabelle der absoluten Häugkeiten Eine (k × m)Kontingenztabelle der absoluten Häugkeiten besitzt die Form XY a1 a2 . . . ak und gibt die b1 b2 · · · bm h11 h12 . . . h1m h1• h21 h22 . . . h2m h2• . . . . . . . . . . . . hk1 hk2 . . . hkm hk• h•1 h•2 · · · h•m n gemeinsame Verteilung der Merkmale X und Y in absoluten Häugkeiten wieder. Bezeichnungen Absolute Häugkeit der Kombination (ai , bj ) Zeilensummen hij = h(ai , bj ) hi• = hi1 + · · · + him , Spaltensummen Gesamtsumme h•j = h1j + · · · + hkj , 1 ≤ j ≤ m k P m k m P P P h• • = hij = hi• = h•j = n i=1 j=1 Randhäugkeiten des Merkmals X Randhäugkeiten des Merkmals Y [email protected] 1≤i≤k h1• , . . . , hk• h•1 , . . . , h•m i=1 j=1 Formelsammlung Statistik I Seite 10 Kontingenztabelle der relativen Häugkeiten Eine (k × m)-Kontingenztabelle XY a1 a2 b1 b2 · · · bm f11 f12 . . . f1m f1• f21 f22 . . . f2m f2• . . . ak und gibt die der relativen Häugkeiten besitzt die Form . . . . . . . . . . . . fk1 fk2 . . . fkm fk• f•1 f•2 · · · f•m 1 gemeinsame Verteilung der Merkmale X und Y wieder. Bezeichnungen Relative Häugkeit der Kombination (ai , bj ) Zeilensummen fij = fi• = fi1 + · · · + fim = Spaltensummen i=1 j=1 Randverteilung des Merkmals Randverteilung des Merkmals von X Y = bj , kurz Bedingte Y X = ai , von X Y der Bedingung X|Y = bj Häugkeitsverteilung unter kurz 1≤i≤k i=1 der Bedingung Y |X = ai [email protected] j=1 {f1• , . . . , fk• } {f•1 , . . . , f•m } Häugkeitsverteilung unter hi• , n h•j , n f•j = f1j + · · · + fkj = 1≤j≤m k m k m PP P P fij = fi• = f•j = 1 Gesamtsumme Bedingte hij n f 1j kj , . . . , f (a |Y = b ) = X k j f f •j •j f fX (a1 |Y = bj ) = f f fY (b1 |X = ai ) = fi1 , . . . , fY (bm |X = ai ) = fim i• i• Formelsammlung Statistik I Seite 11 Graphische Darstellung quantitativer Merkmale Streudiagramm ( Scatter plot) • Darstellung der Meÿwerte (x1 , y1 ), . . . , (xn , yn ) im xy -Koordinatensystem. Zweidimensionales Histogramm • Intervalle [c0 , c1 ], . . . , (ck−1 , ck ] • Intervalle [d0 , d1 ], . . . , (dm−1 , dm ] • Quader mit den Rechtecken für Merkmal X. für Merkmal Y. (ci−1 , ci ] × (dj−1 , dj ] als Grundäche und Höhe hij (ci − ci−1 ) · (dj − dj−1 ) bzw. fij (ci − ci−1 ) · (dj − dj−1 ) Odds und Kreuzproduktverhältnis Ausgangspunkt ist eine • (k×m)-Kontingenztabelle der relativen Häugkeiten. bedingte Chance (Empirische) für gegebenes X = ai ( Odds ) zwischen Y = bs hir his Das Kreuzproduktverhältnis ( Odds ratio ) zwischen aj und ist: γ(br , bs |X = ai ) = • Y = br in bezug auf die Chancen von Y = br γ(br , bs |X = ai , X = aj ) = [email protected] zu Y = bs X = ai ist: hir /his hir hjs = hjr /hjs hjr his und X= Formelsammlung Statistik I Kontingenz und Seite 12 χ2 Koezient Formel χ 2 -Koezient Wertebereich/Erläuterung k X m X χ2 = hi• h•j n i=1 j=1 s Kontingenz- K= koezient Korrigierter K? = Kontingenzkoezient s Assoziationsmaÿ V = von Cramér hij − hi• h•j n χ2 n + χ2 K Kmax χ2 n(min(k, m) − 1) 2 2 Es gilt: 0 ≤ χ ≤ n · (min(k, m) − 1) hi• h•j h̃ij = n = erwartete Häugkeiten, wenn kein Zusammenhang vorliegt. K ∈ [0, Kmax ], wobei Kmax = M = min(k, m). (2 × 2)Kontingenztafel V ∈ [0, 1] V = |φ-Koezient| der Form h11 + h12 h11 h12 h21 h22 h21 + h22 h11 + h21 h12 + h22 n gilt χ2 = und der n(h11 h22 − h12 h21 )2 (h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 ) φ-Koezient ist deniert als h11 h22 − h12 h21 φ= p (h11 + h12 )(h11 + h21 )(h12 + h22 )(h21 + h22 ) und hat den Wertebereich φ ∈ [−1, 1]. [email protected] M −1 , M K ? ∈ [0, 1] Spezialfall: Vierfeldertafel Für eine q für 2 × 2-Tafeln Formelsammlung Statistik I Seite 13 Zusammenhangsmaÿe bei metrischen Merkmalen Empirischer Korrelationskoezient nach Bravais-Pearson • Empirische Standardabweichungen (für X bzw. n s̃2X • 1X 2 = xi − x̄2 n i=1 Empirische Kovarianz (zwischen n s̃2Y und X und n 1X 1X = (xi − x̄)(yi − ȳ) = xi yi − x̄ · ȳ n i=1 n i=1 • Empirischer Korrelationskoezient : r = rXY = • Wertebereich: 1X 2 = yi − ȳ 2 n i=1 Y ): n s̃XY Y ): s̃X , s̃Y r ∈ [−1, 1]. [email protected] s̃XY s̃X s̃Y Formelsammlung Statistik I Seite 14 Spearmans Korrelationskoezient • Rang von xi : rang(xi ) i-ten Messwertes in der aufstei≤ . . . ≤ x(n) mit der Zusatzregel, = Position des gend sortierten Urliste x(1) ≤ x(2) dass gleichen Messwerten (sog. Bindungen, ties ) jeweils das Mittel ihrer Ränge zugewiesen wird. • rangX = Mittel aller Ränge: 1 n n P rang(xi ) = i=1 1 n n P i= i=1 n+1 2 • Spearmans Korrelationskoezient : n P rSP = (rang(xi ) − rangX )(rang(yi ) − rangY ) r ni=1 P (rang(xi ) − rangX )2 i=1 • Wertebereich: n P (rang(yi ) − rangY )2 i=1 rSP ∈ [−1, 1] • Rechentechnisch günstige Version : Unter der (d.h., Voraussetzung, dass keine Bindungen ( ties) auftreten xi 6= xj , yi 6= yj für alle i, j ), gilt: 6 rSP = 1 − mit den n P Di2 i=1 n(n2 − 1) Rangdierenzen Di = rang(xi ) − rang(yi ), 1 ≤ i ≤ n. Lineare Einfachregression Gegeben seien n Beobachtungen der Merkmale Y und X : (y1 , x1 ), . . . , (yn , xn ). • Lineare Einfachregression : yi = α + βxi + i , • Parameter α, β : α • Fehlerterme i . i = 1, . . . , n bezeichnet den Achsenabschnitt, β die Steigung. (Annahme: Unsystematische Schwankung um [email protected] 0.) Formelsammlung Statistik I • Seite 15 Bestimmung der Paramter der Ausgleichsgeraden durch die Quadrate-Methode : n P α̂ = ȳ − β̂ x̄, β̂ = (xi − x̄)(yi − ȳ) i=1 n P = (xi − x̄)2 Kleinste- s̃XY s̃2X i=1 • als Lösung der Normalgleichungen : α̂ n + β̂ α̂ n X xi + β̂ i=1 n X i=1 n X • Streuungszerlegung : n P n P x2i = i=1 • Angepaÿte Werte : ŷi = α̂ + β̂xi , • Residuen : ˆi = yi − ŷi , xi = n X i=1 n X yi xi y i i=1 i = 1, . . . , n. i = 1, . . . , n. n P (yi − ȳ)2 = i=1 (ŷi − ȳ)2 + i=1 (yi − ȳ)2 n P (yi − ŷi )2 i=1 Gesamtstreuung i=1 n P (ŷi − ȳ)2 = β̂ 2 i=1 n P n P (xi − x̄)2 Durch Regression erklärte Streuung i=1 (yi − ŷi )2 Residualstreuung i=1 • Bestimmtheitsmaÿ n P 2 R = (Determinationskoezient): i=1 n P (yi − ȳ)2 i=1 • n P (ŷi − ȳ)2 Prognose an einer Stelle [email protected] =1− (yi − ŷi )2 i=1 n P = (yi − ȳ)2 i=1 x0 : ŷ0 = α̂ + β̂x0 s̃XY s̃X s̃Y 2 2 = rXY Formelsammlung Statistik I 4 Seite 16 Zeitreihenanalyse Gegeben sei eine zeitlich geordnete Folge von mals n Beobachtungen eines Merk- X : x1 , x2 , . . . , xn Graphische Darstellung • Zeitreihenpolygon: Darstellung der Werte {xt }1≤t≤n von t mit anschlieÿender linearer Interpolation. • Alternativ: Darstellung von xt in Abhängigkeit in Abhängigkeit vom Datum der t-ten Messung mit anschlieÿender linearer Interpolation. Komponentenmodelle • Additives Komponentenmodell: Modellierung der Zeitreihe als: xt = gt + st + zt |{z} |{z} |{z} Trend Saison Rest • Multiplikatives Komponentenmodell: Modellierung der Zeitreihe als: xt = gt · st · zt . Durch Logarithmieren kann ein multiplikatives Modell auf ein additives Komponentenmodell zurückgeführt werden: ln xt = ln gt + ln st + ln zt |{z} |{z} |{z} |{z} x?t gt? s?t Schätzung eines linearen Trends • Modell: gt = β0 + β1 · t • Schätzung der Parameter durch die KQ-Methode: β̂0 und β̂1 minimieren n X (xt − β0 − β1 · t)2 t=1 • Lösungen: (für t = 1, 2, . . . , n) β̂1 = n P xt · t t=1 n(n2 − 1) 12 − 6x̄ n−1 und • Geschätzte Trendfunktion: ĝt = β̂0 + β̂1 · t • Trendbereinigte Zeitreihe: xt − ĝt [email protected] β̂0 = x̄ − β̂1 n+1 2 zt? Formelsammlung Statistik I Seite 17 • Bestimmtheitsmaÿ: Pn 2 β̂12 n(n2 − 1) t=1 (ĝt − x̄) P P R = n = 2 12 nt=1 (xt − x̄)2 t=1 (xt − x̄) 2 • Exponentieller Trend: Durch Logarithmieren kann ein exponentielles Trendmodell der Form: gt = β0 · β1t in ein lineares Trendmodell überführt werden. Schätzung einer konstanten Saisongur • Gegebene Periodizität: l Für j = 1, . . . , l sind xj , xl+j , x2l+j , x3l+j , . . . zur j -ten Periode (Quartal, Monat, o.ä.) jeweils die Beobachtungen • Annahme: (Konstante Saisongur) Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · · • Schätzung der sj : Arithmetische Mittel (Bemerkung: Falls n = m · l, dann mj = m • Geschätzte Saisonkomponente: ŝt = ŝj • Prognose (von xn+h , h ≥ 1): x̂n+h = ĝn+h + ŝn+h (additiv) 5 bzw. ŝj = falls 1 mj mP j −1 (xkl+j − ĝkl+j ) k=0 für alle j ) t = j, l + j, 2l + j, 3l + j, . . . x̂n+h = ĝn+h · ŝn+h (multiplikativ) Indexzahlen Klassikation der Verhältniszahlen • Gliederungszahl • Beziehungszahl • Meÿzahl (einfache/zusammengesetzte Indexzahl) Preis-, Mengen und Wertindizes Bezeichnungen • Bezeichnungen (Warenkorb mit m Gütern.) q0i , p0i : Menge und Preis des i-ten Gutes in der Basisperiode 0 qti , pti : Menge und Preis des i-ten Gutes in der Berichtsperiode t [email protected] Formelsammlung Statistik I Seite 18 • Preisindex nach Laspeyres: m P P0tL i=1 m P = i=1 • Preisindex nach Paasche: P0tP = m P i=1 m P i=1 pti q0i p0i q0i pti qti p0i qti • Mengenindex nach Laspeyres: QL0t = m P i=1 m P i=1 • Mengenindex nach Paasche: QP0t = m P i=1 m P i=1 • Wertindex: p0i qti p0i q0i pti qti pti q0i m P (auch: Umsatz- oder Ausgabenindex) W0t = i=1 m P i=1 • Preisindex nach Fisher: P0tF = qti pti q0i p0i p P0tP P0tL Indexumrechnungen • Umbasierung: Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Basisperiode 0): ? Ikt = I0t /I0k I00 = 1, I01 , I02 , . . . , I0k , . . . , I0n ergibt die auf die neue Basisperiode k umbasierte Zeitrei- he. • Verknüpfung: Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode (hier in t) überlappen: I01 , I02 , . . . , I0t und Ikt , Ik,t+1 , . . . Fortführung der alten Zeitreihe: ? I0,t+h = Ik,t+h · I0t , Ikt h = 1, 2, . . . Rückrechnung der neuen Zeitreihe: ? Ik,t−h = I0,t−h · [email protected] Ikt , I0t h = 1, 2, . . . Formelsammlung Statistik I • Seite 19 Verkettung: Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperiode als Basis: I01 , I12 , I23 , I34 , . . . ? I0t = I01 · I12 · · · It−1,t bezeichnet die verkettete Zeitreihe mit gemeinsa- mer Basis 0. • Deationierung oder Preisbereinigung: Division einer nominalen Gröÿe Vt durch einen sachlich zugehörigen Preisindex reale (preisbereinigte) Gröÿe [email protected] Rt = Vt /P0t . P0t ergibt die Formelsammlung Statistik I 6 Seite 20 Wahrscheinlichkeitsrechnung Kombinatorik Anzahl der möglichen Ziehungen von ohne Zurücklegen n Kugeln aus einer Urne mit N Kugeln: Reihenfolge wichtig Reihenfolge nicht wichtig Sortieren nicht erlaubt Sortieren erlaubt N · (N − 1) · · · (N − (n − 1)) N n mit Zurücklegen N n n+N −1 n+N −1 = n N −1 Binomialkoezienten • Denition: n! n n · (n − 1) · · · (n − (k − 1)) = = k · (k − 1) · · · 1 k!(n − k)! k • Rechenregeln: n n = =1 0 n n n = k n−k n n = =n 1 n−1 n n−1 n−1 = + k k k−1 Rechenregeln für Mengen • Kommutativgesetz: • A∩B =B∩A A∪B =B∪A • (A ∩ B) ∩ C = A ∩ (B ∩ C) (A ∪ B) ∪ C = A ∪ (B ∪ C) Distributivgesetz: • (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) • Aus A⊂B folgt Assoziativgesetz: B̄ ⊂ Ā De Morgansche Regeln: (A ∪ B) = Ā ∩ B̄ (A ∩ B) = Ā ∪ B̄ • Für die Dierenzmenge gilt: [email protected] A\B = A ∩ B̄ A\B Formelsammlung Statistik I Seite 21 Wahrscheinlichkeiten und Axiome von Kolmogoro • Endlicher Wahrscheinlichkeitsraum (Ω, P(Ω), P ) - Grundraum - Ereignisse - Wahrscheinlichkeit P Ω P(Ω) P (A) = = = {ω1 , ω2 , . . . ωN } Menge aller Teilmengen Wahrscheinlichkeit für das Eintreten A von Die Wahrscheinlichkeitsverteilung • P erfüllt die Axiome von Kolmogoro : (A1) (Nichtnegativität) P (A) ≥ 0 (A2) (Normiertheit) P (Ω) = 1 (A3) (Additivität) P (A ∪ B) = P (A) + P (B) Für A⊂Ω für A∩B =∅ nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) er- setzt durch das Axiom (A3') (σ−Additivität) P( ∞ [ Ak ) = k=1 ∞ X P (Ak ) für Ai ∩ Aj = ∅, i 6= j k=1 Rechenregeln für Wahrscheinlichkeiten 1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1 2. A⊆B 3. P (Ā) = 1 − P (A) ⇒ 4. Additionssatz: P (A) ≤ P (B) mit Ā = Ω\A P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 5. P (A1 ∪ A2 ∪ · · · ∪ An ) = P (A1 ) + P (A2 ) + · · · + P (An ), falls A1 , A2 , . . . , An paarweise disjunkt, d.h. Ai ∩ Aj = ∅ 6. P (A1 ∪ A2 ∪ · · · An ) ≤ P (A1 ) + P (A2 ) + · · · + P (An ) 7. Wenn die Elementarwahrscheinlichkeiten pi = P ({ωi }), i = 1, 2, . . . sind, dann gilt für die Wahrscheinlichkeit eines Ereignisses P (A) = X i:ωi ∈A [email protected] P ({ωi }) = X i:ωi ∈A A: pi bekannt Formelsammlung Statistik I Seite 22 Laplace-Modell 1. Annahme: Endlicher Grundraum 2. Annahme: P ({ω1 }) = P ({ω2 }) = · · · = P ({ωN }) Wahrscheinlichkeiten: P (A) = Ω = {ω1 , . . . , ωN } Anzahl Anzahl ωi in A #A #A = = ωi in Ω #Ω N Bedingte Wahrscheinlichkeit Bedingte Wahrscheinlichkeit von A gegeben B P (A|B) = P (A ∩ B) P (B) für A, B ⊂ Ω mit P (B) > 0 Unabhängigkeit von Ereignissen • Zwei Ereignisse A und B heiÿen stochastisch unabhängig, wenn P (A ∩ B) = P (A) · P (B) • A1 , . . . , An heiÿen stochastisch unabhängig, Ai1 , . . . , Aik mit k ≤ n gilt: P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · P (Ai2 ) · · · P (Aik ) Ereignisse wenn für jede Aus- wahl Multiplikationssatz • Für Ereignisse A1 , . . . , A n gilt: P (A1 ∩. . .∩An ) = P (A1 )·P (A2 |A1 )·P (A3 |A1 ∩A2 ) · · · P (An |A1 ∩. . .∩An−1 ) • A1 , . . . , An unabhängig sind, gilt: P (A1 ∩ A2 ∩ . . . ∩ An ) = P (A1 ) · P (A2 ) · · · P (An ) Falls die Ereignisse Totale Wahrscheinlichkeit und Satz von Bayes Seien A1 , . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkte Ai ; es gilt: Ai 6= ∅, Ai ∩ Aj = ∅, i 6= j , und A1 ∪ A2 ∪ . . . ∪ An = Ω). Vereinigung der [email protected] Formelsammlung Statistik I B sei ein Ereignis mit Seite 23 P (B) > 0. P (B|Ak ) · P (Ak ) = P (B ∩ Ak ) = P (Ak |B) · P (B) n n X X P (B) = P (B|Ai ) · P (Ai ) = P (B ∩ Ai ) i=1 P (Ak |B) = i=1 P (B|Ak ) · P (Ak ) P (B|Ak ) · P (Ak ) = n X P (B) P (B|Ai ) · P (Ai ) i=1 [email protected] (totale Wahrscheinlichkeit) (Satz von Bayes)