FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Lineare Transformation Eine Transformation ist eine Überführung jedes beobachteten Wertes xv in einen g ( x ) = a + bx (a ,b reelle Zahlen, b ≠ 0) . neuen Wert yv . Transformationen liegen i.d.R. Funktionen y =g (x ) zugrunde. Eine Transformation ist linear, wenn die zugrundeliegende Funktion die Form g ( x )=a + bx hat. ( a ,b reelle Zahlen, b≠ 0) . Lernmodul Grundbegriffe ˆ ( x) Die empirische Verteilungsfunktion F Die empirische Verteilungsfunktionsfunktion ordnet jeder reellen Zahl die relative Häufigkeit der Beobachtungen eines Datensatzes zu, die kleiner oder gleich dieser Zahl sind. 0, x < x(1) v Fˆ (x) = , x(v) ≤ x < x(v+1) , v =1,K, n −1 n 1, x ≥ x(n) Fˆ ( x ) = h( X ≤ x) = ∑ h( X = xi ) xi ≤ x Lernmodul Datenanalyse aus einer Urliste x − xm* −1 * ˆ ˆ F ( x ) = F ( xm−1) + hm ∆m für klassierte Daten 1 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Median Der empirische Median x% ist ein Lagemaß, das die Eigenschaft hat, den geordneten Datensatz in zwei Hälften aufzuteilen. x n +1 2 x% = 1 x + x 2 n 2 für n ungerade n +1 2 für n gerade Sind die Daten klassiert, ist der Median gleich dem 0.5Quantil, x% = x0,5 Lernmodul Datenanalyse aus einer Urliste Häufigkeitsdichte Histogramm Ein Histogramm ist eine grafische Darstellung einer klassierten Häufigkeitstabelle. Über jeder Klasse x*i −1< X ≤xi* wird die zugehörige Häufigkeitsdichte fˆi in Form eines Kastens abgetragen. Die Fläche eines Kastens ist gleich der relativen Häufigkeit hi h( x*i −1 < X ≤ xi* ) , fˆ ( x) = ∆i i = 1,..., k 0, Lernmodul Klassierte Daten Relative Häufigkeit Die relative Häufigkeit der Merkmalsausprägung xi eines Merkmals X h( X = xi ) = ist der Anteil dieses Wertes an allen im Datensatz aufgetretenen Ausprägungen xi . Lernmodul Klassierte Daten n( X = xi ) n hi = h( xi*−1 < X ≤ xi* ) = n (xi*−1 < X ≤ x*i ) n für klassierte Daten 2 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Quantile Quantile aus kassierten Daten: Das empirische p-Quantil x p eines Datensatzes vom Umfang n ist der Wert, für xp = den n⋅ p Ausprägungen kleiner oder gleich x p und der Rest größer oder gleich x p sind. Sind die x(v ) die geordneten Beobachtungswerte, so ist x( np ) das p-Quantil; falls n⋅ p keine ganze Zahl ist, wird zur nächstgrößeren ganzen Zahl aufgerundet. x*m−1 ( p − Fˆ ( x*m−1 ))∆ m + hm dabei ist m die Klasse für die gilt: Fˆ ( x*m−1 ) < p ≤ Fˆ ( xm* ) Lernmodul Klassierte Daten Das arithmetische Mittel x Das arithmetische Mittel ist derjenige Wert, der sich ergibt, wenn die Summe aller Beobachtungen durch die Anzahl der Beobachtungen dividiert wird. x= 1 n ∑ xν n ν =1 Berechnung arithmetisches Mittel aus einer klassierten Häufigkeitstabelle: xi' xi*−1 + xi* = 2 Berechnung der Klassenmitte: Lernmodul Lagemaße x= k 1 k ' x n = ∑ i i ∑ xi' hi n i =1 i =1 3 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Das geometrische Mittel xgeo Das geometrische Mittel ist die nte Wurzel aus dem Produkt von n Beobachtungen. Die Verwendung des geometrischen Mittels ist sinnvoll, wenn der Unterschied zwischen den Merkmalswerten durch das Verhältnis und nicht durch die Differenz charakterisiert wird. xgeo = x1 × x2 × K × xn = n n n ∏ xν ν =1 Lernmodul Lagemaße Die Spannweite sM Die Spannweite ist die Differenz aus dem größten und dem kleinsten Wert eines Datensatzes. sM = x( n ) − x(1) = xmax − xmin Lernmodul Streuungsmaße Der Quartilsabstand sQ sQ = x0.75 − x0.25 Streuungsmaß für kardinalskalierte Merkmale unter Verwendung des unteren und des oberen Quartils. sQ gibt an, welche Ausdehnung die zentralen 50% der Daten haben. Lernmodul Streuungsmaße 4 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Die Mittlere quadratische Abweichung d2 = 1 n ∑ ( xν − x )2 n ν =1 Berechnung aus klassierten Häufigkeitstabellen: 1 k ' 1 k ' 2 d = ∑ ( xi − x ) ni = ∑ ( xi − x )2 hi n i =1 n i =1 2 Lernmodul Streuungsmaße Die Standardabweichung Die Standardabweichung ist die positive Wurzel aus der Varianz. s = s2 Lernmodul Streuungsmaße Die Varianz Die empirische Varianz ist ein Streuungsmaß, das die Streuung der Daten um das arithmetische Mittel beschreibt. s2 = 1 n ( xν − x ) 2 ∑ n − 1ν =1 s2 = n 2 d n −1 Lernmodul Streuungsmaße Zusammenhang zwischen der Varianz Abweichung d2 s2 und der mittleren quadratischen Lernmodul Streuungsmaße 5 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Das Konzentrationsmaß von Gini Zur Visualisierung von Konzentrationsphänomen lässt sich die Lorenzkurve heranziehen. Wenn man die Randpunkte (0;0) und (1;1) einer Lorenzkurve anhand einer Geraden verbindet, ist der Gini-Koeffizient G durch das Zweifache der Fläche zwischen dieser Geraden und der Lorenzkurve gegeben. Der Koeffizient G repräsentiert ein Maß für die Gleichmäßigkeit der Verteilung von Merkmalswerten auf mehrere Merkmalsträger. 1 2q G = n −1 − 1 n pn Lernmodul Konzentrationsmessung Der normierte Gini-Koeffizient Der Gini-Koeffizient G ist durch das Zweifache der Fläche gegeben, die zwischen einer Lorenzkurve und den durch die Randpunkte (0;0) und (1;1) der Lorenzkurve definierten Geraden liegen. Für die kleinste obere Schranke von G errechnet sich bei einem ungruppierten Datensatz x ,...,x der Wert = 1 – 1/n. Wenn man G durch dividiert, resultiert der normierte Gini-Koeffizient G* = G/ . Dessen kleinste obere Schranke ist 1. G* = G 1 = 1+ G Gmax n − 1 Gmax = 1 − 1 n Lernmodul Konzentrationsmessung Die bedingte relative Häufigkeit Die bedingte relative Häufigkeit ist der Anteil der Beobachtungen, bei denen das Merkmal Y den Wert y j angenommen hat unter denen, bei denen X den Wert xi h(Y = j | X = i ) = n ( X = i ,Y = j ) nij n ( X = i ,Y = j )/ n hij = = = . n( X = i) ni• n( X = i )/ n hi• angenommen hat. Lernmodul Kontingenztafel 6 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Randverteilung Wenn für zwei Zufallsvariablen X und Y eine gemeinsame Wahrscheinlichkeitsverteilung gegeben ist, so heißen die Verteilungen der einzelnen Zufallsvariablen ihre Randverteilungen. Bei diskreten Zufallsvariablen ergeben sie sich aus der gemeinsamen Wahrscheinlichkeitsfunktion P( X = xi ,Y = y j ) (i = 1,..., I , pi• = P(X = xi ) = P( X = xi, Y = y1) +...+ P(X = xi ,Y = yJ ) (i =1,...,I ) p• j = P(Y = yj ) =P(X =x1,Y = yj ) +... + P(X = xI ,Y = yj ) ( j =1,..., J) j = 1,..., J ) Lernmodul Kontingenztafel Der Phi-Koeffizient Φ 2 misst den Zusammenhang von X und Y . Im Fall zweier binärer Merkmale ist er im Sinne einer Korrelation zu interpretieren. Da er für andere Tafeln auch Werte annehmen kann, die 1 übersteigen, wird in der Regel der normierte Phi-Koeffizient als Zusammenhangsmaß genommen. ni • ⋅ n• j n − 1 1 ij n Φ² = ∑ ∑ . ni • ⋅ n• j i =0 j =0 2 Der Phi-Koeffizient für eine 2x2-Kontingenztafel: Φ² = ( h00 − h0• ⋅ h• 0 )² ( h01 − h 0• ⋅ h• 1)² + + h0• ⋅ h•0 h0• ⋅ h• 1 ( h10 − h1• ⋅ h• 0 )² ( h11 − h1• ⋅ h•1)² + h1• ⋅ h• 0 h1• ⋅ h• 1 1 Lernmodul Zusammenfassung in einer 2x2-Tafel 1 = ∑∑ i =0 j = 0 ( hij −h i • ⋅ h• j )² hi• ⋅ h• j . 7 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Phi-Koeffizient für die IxJ Tafel Φ *2 Lernmodul Zusammenfassung in einer 2x2-Tafel Φ2 = . min{ I - 1, J - 1} Die Kovarianz Die empirische Kovarianz sXY ist ein Maß für den (linearen) Zusammenhang zweier Merkmale X und Y . sXY = 1 n ∑ ( xν − x )( yν − y ). n − 1 ν =1 Lernmodul Streudiagramme und Korrelation Der Rangkorrelationskoeffizient Der Rangkorrelationskoeffizient von Spearman misst den Zusammenhang zwischen zwei Merkmalen X und Y , die mindestens ordinal skaliert sind. Er ist der übliche Korrelationskoeffizient von Bravais-Pearson, aber berechnet für die getrennt bestimmten Rangwerte ( R (xν ), R ( yν )) der Beobachtungspaare ( xν , yν ) . Der Rangkorrelationskoeffizient misst die Stärke des monotonen Zusammenhanges. Werte bei 1 deuten auf einen gleichgerichteten, Werte bei -1 auf einen entgegengesetzten und Werte um 0 auf einen fehlenden Zusammenhang hin. n rs = ∑ ( R( xν ) − R( xν ) )( R( yν ) − R( yν ) ) ν =1 n n ∑ ( R( xν ) − R( xν ) ) ∑ ( R( yν ) − R ( yν ) ) ν =1 2 . 2 ν =1 Lernmodul Streudiagramme und Korrelation 8 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Der Korrelationskoeffizienten Der Korrelationskoeffizient rXY von Bravais-Pearson ist ein Maß für die Stärke sowie die Richtung eines linearen Zusammenhangs. Dabei ist sXY die Kovarianz rXY = sXY = s X ⋅ sY und sX und sY sind die Standardabweichung der Beobachtungen. xy − x ⋅ y ( x − x )( y − y ) 2 2 2 2 Lernmodul Streudiagramme und Korrelation Zeitreihen von Messzahlen Die Basisperiode ist oft die erste Periode einer betrachteten Zeitreihe. Mit dem Wert x0 der Basisperiode erhalten wir die Zeitreihe: M 0,1 ,..., M 0,t ,... mit M 0,t = WertderBerichtsperiode xt = . WertderBasisperiode x0 Auf diese Weise erhalten wir Messzahlen, die die Entwicklung einer wirtschaftlichen Größe mit Bezug auf die Basisperiode widerspiegeln. Sie werden oft in Prozent angegeben. Lernmodul Indexrechnung Umbasierung von Zeitreihen Werden zwei Zeitreihen von Messzahlen mit unterschiedlichen Basisperioden verglichen, so muss die Entwicklung einer Zeitreihe auf die Basisperiode der anderen Reihe bezogen werden; formal gesprochen muss eine Zeitreihe umbasiert werden. Ist t 0 die ursprüngliche Basisperiode und soll t1 die neue Basisperiode sein, so bilden wir die Quotienten M t ,t / M t ,t 0 0 1 M t1 ,t = M t0 ,t M t 0 ,t1 xt xt x = 0 = t. xt1 xt 1 xt 0 Lernmodul Indexrechnung 9 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Verkettung von Zeitreihen Liegen für dieselbe Größe zwei Messzahlenreihen vor, die für unterschiedliche Zeiträume bestimmt wurden, dann können wir diesen beiden Messzahlenreihen verknüpfen und eine längere Zeitreihe daraus bilden. Diese Verknüpfung wird als Verkettung bezeichnet. M t(v,t) = M t(1),t ⋅ M t(2) ,t = 0 0 1 1 xt1 xt0 ⋅ xt x = t. xt1 xt0 Seien M (1) die Messzahlen des ersten Teils und M (2) die des zweiten. Dann t0 ,t t1,t ergeben sich die Messzahlen M ( v ) der verketteten Zeitreihe, bei der t 0 die t0 ,t Basisperiode ist: Lernmodul Indexrechnung Der Laspeyres-Index In wirtschaftlichen Zusammenhängen ergibt sich häufig die Problemstellung, die durch verschiedene Messzahlen erfasste zeitliche Entwicklung von Preisen, Absatzzahlen oder Umsätzen durch eine einzige Kenngröße zu erfassen. Eine solche kollektive Kenngröße für eine Vielzahl von Einzelentwicklungen ist eine Indexzahl. n I L = ∑ M 0,i t g i ,0 i =1 Lernmodul Indexrechnung 10 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Der Mengenindex von Laspeyres Ein Mengenindex drückt die mengenmäßige Veränderung eines Warenkorbes zwischen verschiedenen Zeiträumen aus. Q0,Lt =∑ gi ,0 = Lernmodul Indexrechnung Der Paasche-Index Der Paasche-Index ist ein gewichtetes harmonisches Mittel von Messziffern, bei dem die Gewichte aus der Berichtsperiode stammen. n qi ,t i =1 qi ,0 gi = qi ,0 pi ,0 ∑ q j,0 p j,0 j ∑ pi,0 qi, t ∑ pi,0qi,0 ∑ pi, t qi, t Q0,Pt = ∑ pi, t qi,0 n 1 I = ∑ i gi ,t i =1 M 0,t −1 P Lernmodul Indexrechnung Der Preisindex P0,Pt von Paasche Ein Preisindex drückt die preisliche Veränderung eines Warenkorbes zwischen verschiedenen Zeiträumen aus. P0,Pt = ∑ pi,t qi,t ∑ pi,0 qi,t Lernmodul Indexrechnung Der Fisher-Index Das geometrische Mittel aus Laspeyres- und Paasche-Index ist der Fisher-Index. I F = I LI P Lernmodul Indexrechnung 11 FORMELSAMMLUNG NEUE STATISTIK DESKRIPTIVE STATISTIK Der Umsatzindex Ein Wert- bzw. Umsatzindex drückt die wertmäßige Veränderung eines Warenkorbes zwischen verschiedenen Zeiträumen aus. U 0,L t = U 0,Pt = ∑ pi,t qi,t ∑ pi,0 qi,0 Lernmodul Indexrechnung Der Gesamtpreisindex nach Laspeyres Lernmodul Indexrechnung n ∑in= 1 pi , tq i,0 ∑ m i = 1 pi , t qi ,0 + ∑ i = m + 1 pi , tq i,0 P0,Lt = = = ∑in= 1 pi, 0qi ,0 ∑in = 1 pi ,0 qi ,0 P0,Lt (I ) ⋅ g I + P0,Lt ( II ) ⋅ g II 12 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Gleichmöglichkeitsmodell N =| Ω | Die Ergebnismenge Ω der eines Zufallsexperimentes habe mögliche Ergebnisse. Dann wird im Gleichmöglichkeitsmodell die Wahrscheinlichkeit für ein Ereignis A als Quotient der Anzahl P( A) = | A| N A der zum Ereignis A gehörigen Ergebnisse und der Anzahl aller Ergebnisse definiert: P( A) = | A| N . Man spricht hier auch von der Laplacesche Definition der Wahrscheinlichkeit. Lernmodul Statistische Wahrscheinlichkeit Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit P( A | B) gibt an, mit welcher Wahrscheinlichkeit das Ereignis A eintritt, wenn vorausgesetzt wird, dass das Ereignis eintritt bzw. eingetreten ist. B P( A | B) = P( A ∩ B ) . P( B ) ebenfalls Lernmodul Statistische Wahrscheinlichkeit Multiplikationssatz P( A ∩ B) = P ( A | B) ⋅ P( B). Als Multiplikationssatz wird die sich aus der Definition der bedingten Wahrscheinlichkeit ergebende Darstellung der Wahrscheinlichkeit des Durchschnittes A ∩ B als Produkt der bedingten Wahrscheinlichkeit und der Wahrscheinlichkeit des bedingenden Ereignisses bezeichnet. Lernmodul Statistische Wahrscheinlichkeit 13 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Satz der totalen Wahrscheinlichkeit P( B) = P( B ∩ A1 ) + ⋅ ⋅ ⋅ + P( B ∩ Ak ) Gegeben seien k Ereignisse = P(B | A1) ⋅ P( A1 ) + ⋅ ⋅ ⋅ + P( B | Ak ) ⋅ P( A k ) A1,..., Ak , die sich gegenseitig einander ausschließen und zusammen den Stichprobenraum ergeben: Ai ∩ A j = Ø UA k i i , j = 1,..., k ; i ≠ j für =Ω i =1 Weiterhin sei ein Ereignis P( B) > 0 . B gegeben, dessen Wahrscheinlichkeit größer als null ist, Dann lässt sich die Wahrscheinlichkeit des Ereignisses Wahrscheinlichkeiten der Durchschnitte B ∩ Ai B als Summe der darstellen. Lernmodul Statistische Wahrscheinlichkeit Satz von Bayes Das Theorem (oder auch Formel) von Bayes stellt einen Zusammenhang zwischen bedingten Wahrscheinlichkeiten P( Ai | B) und P( B | Ai ) und her, wobei A1,..., Ak eine Zerlegung des Stichprobenraumes Ω bilden. P( Ai | B ) = P( B | A i )P (Ai ) . P( B | A1 )P ( A1 ) + ⋅ ⋅ ⋅ + P ( B | Ak ) P ( Ak ) dabei wird P ( B) > 0 vorausgesetzt. Lernmodul Statistische Wahrscheinlichkeit 14 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Unabhängigkeit von Ereignissen P( A ∩ B) = P( A) ⋅ P( B) Zwei Ereignisse A und B heißen unabhängig, wenn die Wahrscheinlichkeit für den Durchschnitt der beiden Ereignisse gleich dem Produkt der Einzelwahrscheinlichkeiten ist. Lernmodul Statistische Wahrscheinlichkeit Diskrete Randverteilungen Wenn für zwei Zufallsvariablen X und Y eine gemeinsame Wahrscheinlichkeitsverteilung gegeben ist, so heißen die Verteilungen der einzelnen Zufallsvariablen ihre Randverteilungen. Bei diskreten Zufallsvariablen ergeben sich die beiden Wahrscheinlichkeitsfunktionen von X und Y aus der gemeinsamen Wahrscheinlichkeitsfunktion. pi• = P( X = xi ) = P ( X = xi , Y = y1 ) + ... + P( X = xi ,Y = yJ ) (i = 1,..., I ) p• j = P(Y = y j ) = P( X = x1 , Y = y j ) + ... + P( X = x I , Y = y j ) ( j = 1,..., J ) Lernmodul Statistische Wahrscheinlichkeit Erwartungswert Der Erwartungswert einer Zufallsvariablen X ist eine Maßzahl für das Niveau der Verteilung einer Zufallsvariablen. Die theoretische Varianz ist eine Maßzahl für die Streuung der Verteilung einer Zufallsvariablen X . Sie ist die erwartete quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert. I ( xi − µ ) 2 pi für diskretes X ∑ σ 2 = V ( X ) = i=1 ∞ ( x - µ ) 2 f (x ) dx für stetiges X ∫-∞ Lernmodul Diskrete Wahrscheinlichkeitsverteilungen 15 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Theoretische Varianz Die theoretische Varianz ist eine Maßzahl für die Streuung der Verteilung einer Zufallsvariablen X . Sie ist die erwartete quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert. I 2 für diskretes X ∑ ( xi − µ ) pi 2 i = 1 σ = V (X ) = ∞ ( x - µ ) 2 f (x ) dx für stetiges X ∫-∞ Lernmodul Diskrete Wahrscheinlichkeitsverteilungen Theoretische Standardabweichung Die theoretische Standardabweichung beschreibt die Streuung der Realisationen um das arithmetische Mittel bzw. den Erwartungswert. σ X = σ X2 = V ( X ) Lernmodul Diskrete Wahrscheinlichkeitsverteilungen Eigenschaften von Erwartungswert und Varianz E (a + bX ) = a + bE( X ) ∑ g ( xi ) pi E ( g (X )) = i ∞ g (x )dx ∫−∞ X diskret X stetig V (a + bX ) = b 2V ( X ) Lernmodul Diskrete Wahrscheinlichkeitsverteilungen V ( X ) = E ( X 2) − E ( X ) 2. 16 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Standardisierung einer Zufallsvariablen Die Standardisierung einer Zufallsvariablen X ist die Transformation, bei der der Erwartungswert subtrahiert und sie anschließend durch die Standardabweichung dividiert wird. Die Standardisierung ergibt die standardisierte Variable Erwartungswert 0 und die Varianz 1 hat. Z , die den Z= X − µX σX E (Z ) = 0, Var( Z ) = 1 Lernmodul Diskrete Wahrscheinlichkeitsverteilungen Tschebychev-Ungleichung Für Zufallsvariable X E ( X ) = µ und Varianz V ( X ) = σ gibt mit Erwartungswert 2 die Tschebychev-Ungleichung an, mit welcher Mindestwahrscheinlichkeit Wert aus dem k-fachen zentralen Schwankungsintervall annimmt. X P( µ − k σ ≤ X ≤ µ + kσ ) ≥ 1 − 1 k 2 einen Lernmodul Diskrete Wahrscheinlichkeitsverteilungen Kovarianz zweier Zufallsvariablen Die Kovarianz zweier Zufallsvariablen Zusammenhang. X und Y erfasst den linearen Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen I J falls X und Y diskret ∑∑(xi − µX )(y j − µY ) pij i=1 j=1 Cov( X , Y ) = ∞ ∞ (x − µ X )(y − µY ) f (x , y) dxdy falls X und Y stetig. ∫ ∫ −∞−∞ Cov( X , Y ) = E [( X −µ X )(Y − µY )] 17 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Korrelationskoeffizient zweier Zufallsvariablen Der Korrelationskoeffizient zweier Zufallsvariablen den linearen Zusammenhang. X und Y ist eine Maßzahl für ρ XY = Cor ( X , Y ) = Cov( X, Y ) V ( X ) V (Y ) Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen Bedingte diskrete Wahrscheinlichkeitsverteilung Die Wahrscheinlichkeitsverteilung der diskreten Zufallsvariablen Y unter der Voraussetzung, dass ein Wert von X gegeben ist, heißt bedingte Wahrscheinlichkeitsverteilung. Analog ist die bedingte Wahrscheinlichkeitsverteilung von {Y = y } definiert. X bei gegebenem P(Y = y j | X = xi ) = P( X = xi , Y = y j ) P ( X = xi ) P( X = xi ,Y = y j ) P( X = xi | Y = y j ) = P(Y = y j ) ( j = 1,..., J ). ( i = 1,..., I ). j Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen Unabhängigkeit von diskreten Zufallsvariablen P( X = xi , Y = y j ) = P ( X = xi ) P(Y = y j ) (i =1,..., I , j =1,..., J ) Zwei diskrete Zufallsvariablen X und Y heißen unabhängig, wenn die gemeinsame Wahrscheinlichkeitsfunktion gleich dem Produkt der einzelnen Wahrscheinlichkeitsverteilungen ist. Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen 18 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Wahrscheinlichkeitsfunktion für die hypergeometrische Verteilung M N − M x n − x f ( x) = P( X = x) = N n für max {0, n − ( N − M )} ≤ x ≤ min{n, M }. Lernmodul Diskrete Verteilungsmodelle Maßzahlen der hypergeometrische Verteilung Wahrscheinlichkeitsfunktion der Binomialverteilung Lernmodul Diskrete Verteilungsmodelle Maßzahlen der Binomialverteilung (Ansonsten ist f ( x) gleich null.) E( X ) = nM nM M N − n , V (X ) = . 1− N N N N −1 n f ( x) = P( X = x ) = p x (1 − p ) n− x (x = 0,1,..., n ) x (Ansonsten ist f ( x ) null.) E ( X ) = np, V ( X ) = np (1 − p ). 19 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Wahrscheinlichkeitsfunktion der Poisson-Verteilung Lernmodul Diskrete Verteilungsmodelle λx x! (Ansonsten ist f ( x ) null.) f ( x) = P( X = x) = e − λ (x = 0,1,2....) Maßzahlen der Poisson-Verteilung E ( X ) = λ, Reproduktionseigenschaft der Poisson-Verteilung X : PO ( λ ), Y : PO (κ ), X und Y unabhängig ⇒ X + Y : PO ( λ + κ ) Wahrscheinlichkeitsfunktion der geometrischen Verteilung f ( x) = P( X = x ) = p(1 − p ) x (x = 0,1,2,...) (Ansonsten ist f ( x ) null.) Lernmodul Diskrete Verteilungsmodelle Eigenschaften von Verteilungsfunktionen V ( X ) = λ. x1 < x2 ⇒ F ( x1 ) ≤ F ( x2 ) F ( x) → 1 für x → ∞, F ( x) → 0 für x →−∞ Lernmodul Diskrete Verteilungsmodelle 0 ≤ F ( x) ≤ 1. Verteilungsfunktion der geometrischen Verteilung F ( x) = 1 − (1 − p ) x +1 ( x = 0,1,2,...) Lernmodul Diskrete Verteilungsmodelle 20 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Maßzahlen der geometrischen Verteilung Wahrscheinlichkeitsfunktion der negativen Binomialverteilung Lernmodul Diskrete Verteilungsmodelle Maßzahlen der negativen Binomialverteilung Lernmodul Diskrete Verteilungsmodelle Theoretische Quantile E( X ) = 1− p 1− p , V (X ) = 2 p p f (0) = p k x −1+ k f (x ) = (1 − p ) f ( x −1) x E( X ) = k (1 − p ) , p V (X ) = x p = F −1 ( p) ( x = 1,2,...) k (1 − p) p2 0 < p < 1. Lernmodul Stetige Verteilungsmodelle Dichtefunktion einer stetigen Verteilung Die Dichtefunktion einer stetigen Verteilung ist dadurch charakterisiert, dass das bestimmte Integral über ein Intervall die Wahrscheinlichkeit ergibt, mit der eine zugehörige Zufallsvariable einen Wert aus diesem Intervall annimmt. b P( a < X ≤ b) = ∫ f (t )dt. a Lernmodul Stetige Verteilungsmodelle 21 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Dichtefunktion der stetigen Gleichverteilung Gleichverteilung über dem Intervall [0,1]. 1 für 0 ≤ x < 1 f (x) = 0 sonst Lernmodul Stetige Verteilungsmodelle Verteilungsfunktion der stetigen Gleichverteilung Gleichverteilung über dem Intervall [0,1]. Lernmodul Diskrete Verteilungsmodelle Maßzahlen der stetigen Gleichverteilung Gleichverteilung über dem Intervall [0,1]. x<0 0 für F ( x) = x für 0 ≤ x < 1 1 für x ≥1 1 E ( X ) = ∫ x ⋅1 dx = 0.5 0 1 Lernmodul Stetige Verteilungsmodelle V ( X ) = ∫( x − 0.5) 2 ⋅1 dx = 0 Verteilungsfunktion der Exponentialverteilung Lernmodul Stetige Verteilungsmodelle Dichtefunktion der Exponentialverteilung 1 − e −λ t F ( t) = 0 für t ≥ 0 . für t < 0 λe −λ t f (t ) = F (t ) = 0 ' 1 12 für t ≥ 0 . für t < 0 22 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Maßzahlen der Exponentialverteilung Dichtefunktion der Laplace-Verteilung Lernmodul Stetige Verteilungsmodelle Verteilungsfunktion der Pareto-Verteilung Lernmodul Stetige Verteilungsmodelle Maßzahlen der Pareto-Verteilung ∞ ∞ 2 1 1 1 E (T ) = ∫ tf (t) dt = , V (T ) = ∫ t − f ( t) dt = 2 λ λ λ 0 0 f (x ) = λ −λ |x − µ | e 2 0 F ( x) = k α 1- x für x≤k für x>k α k falls α > 1, α −1 α V (X)= k 2 falls α > 2. 2 (α − 1) (α − 2) E( X ) = 23 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Approximation der Binomialverteilung Für große n lassen sich die Binomialwahrscheinlichkeiten durch die entsprechenden Werte der Dichtefunktion der Normalverteilung approximieren. n x n− x p (1 − p ) : x dabei ist z= 2 1 e − z / 2; 2π np(1 − p) x − np . np(1 − p) Lernmodul Normalverteilung Dichte der Normalverteilung f (x ) = Lernmodul Normalverteilung Standardnormalverteilung Die Standardnormalverteilung ist die Normalverteilung mit dem Erwartungswert null und der Varianz eins, 1 2πσ 2 e − 1 ( x −µ )2 2 σ2 Z : N (0,1). µ = 0 und σ 2 = 1 . Lernmodul Normalverteilung Grenzwertsatz von de Moivre und Laplace Lernmodul Normalverteilung Falls X binomialverteilt ist, X ~ B( n , p ) , so gilt bei genügend großem n : k −µ P( X ≤ ko ) ≈ Φ o σ 24 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Dichtefunktion der logarithmischen Normalverteilung Lernmodul Normalverteilung Maßzahlen der logarithmischen Normalverteilung Lernmodul Normalverteilung Dichte der bivariaten Normalverteilung 0 (ln( x) − µ N ) 2 f (x) = 1 1 . .exp − 2πσ 2 x 2σ N2 N σ2 E ( X ) = exp µ N + N 2 für x ≤ 0 für x > 0 2 2 , V ( X ) = exp ( 2 µ N + σ N ) exp(σ N ) − 1 1 ( x−µ1)2 x−µ1 y−µ2 (y−µ2)2 − f (x,y) = .exp − 2 ρ ⋅ + 2 2 2 2 2(1 − ρ ) σ σ σ σ2 2πσσ 1 − ρ 1 1 2 1 2 1 Lernmodul Normalverteilung 25 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Zentraler Grenzwertsatz Der Zentrale Grenzwertsatz besagt im einfachsten Fall, dass die Verteilung der standardisierten Summe einer Folge von unabhängigen Zufallsvariablen X1 , X 2 ,..., X n ,... mit Erwartungswert µ und Varianz σ 2 für n → ∞ gegen die Standardnormalverteilung N (0,1) konvergiert, P( Zn ≤ z ) → Φ ( z ) für n → ∞, X1, X 2 ,... Zufallsvariablen mit Erwartungswert σ 2 µ n und Varianz n ∑ X i − nµ unabhängigen, identisch verteilten Zufallsvariablen mit Erwartungswert und Varianz große n durch eine Normalverteilung angenähert werden kann. µ . Dann gilt: Zn = Praktisch bedeutet dies, dass die Verteilung einer Summe von sei eine Folge von unabhängigen i =1 nσ 2 Zn :& N (0,1) ( n → ∞) σ 2 für Lernmodul Normalverteilung Anzahl von Permutationen ohne Wiederholung Man kann N verschiedene Objekte auf N ⋅( N −1) ⋅L⋅1=N ! verschiedene Weisen anordnen. N ! wird als N-Fakultät bezeichnet. Speziell wird 0!=1 gesetzt. N ⋅ ( N −1) ⋅L⋅ 1 = N ! 0! = 1 Lernmodul Exkurs Kombinatorik 26 FORMELSAMMLUNG NEUE STATISTIK WAHRSCHEINLICHKEITSRECHNUNG Anzahl von Permutationen mit Wiederholung Man kann N Objekte, die in Teilgruppen n1, n2 ....nk zerlegt werden können und bei N! n1 !⋅ n2 !..... ⋅ ⋅ nk ! n denen alle Elemente jeder Teilgruppe i nicht zu unterscheiden sind, in N! n1 !⋅ n2 !..... ⋅ ⋅ nk ! verschiedenen Abfolgen anordnen, wobei n1 + n2 +..... + nk = N gilt. Lernmodul Exkurs Kombinatorik 1. Kombinationsregel Sollen k Objekte in bestimmter Reihenfolge aus so ergeben sich insgesamt n Objekten ausgewählt werden, n !/ ( n − k )! mögliche Variationen für die k Objekte. n n! n! × k!= × k!= k !× ( n − k ) ! ( n − k )! k Anders ausgedrückt gibt es folgende Möglichkeiten. Lernmodul Exkurs Kombinatorik 27 FORMELSAMMLUNG NEUE STATISTIK ERHEBUNGSVERFAHREN Auswahlwahrscheinlichkeit der Einzelelemente bei der einfachen Zufallsstichprobe die Auswahlwahrscheinlichkeit der Einzelelemente bei der einfachen Zufallsstichprobe ist stets n N . Lernmodul einfache Zufallsstichprobe Anzahl möglicher Realisierungen von einfachen Zufallsstichproben Die Anzahl der möglichen einfachen Zufallsstichproben (ohne Zurücklegen) vom Umfang n aus einer Population mit N Elementen ist gleich: N − 1 n ( N − n ) N − N + n n p ( Element i) = 1 − = 1− = = N N N N n pi = n N N N! n = n !( N − n)! Lernmodul einfache Zufallsstichprobe Berechnen von Auswahlwahrscheinlichkeiten Die Berechnung der Wahrscheinlichkeit p, dass ein bestimmtes Element i einer Grundgesamtheit vom Umfang N Teil einer einfachen Zufallsstichprobe vom Umfang n wird, ist für jedes Element gleich: pi = n N Lernmodul einfache Zufallsstichprobe 28 FORMELSAMMLUNG NEUE STATISTIK ERHEBUNGSVERFAHREN Die Schätzformel für den Mittelwert einer Variablen in der Grundgesamtheit bei einer geschichteten Stichprobe H yˆ = ∑ wh ∗ yh h =1 H ∑ wh Lernmodul Geschichtete Zufallsstichprobe h =1 Auswahlwahrscheinlichkeit bei proportional geschichteten Stichproben Lernmodul Geschichtete Zufallsstichprobe Auswahlwahrscheinlichkeit bei disproportional geschichteten Stichproben pi = pih = nh Nh whi = Nh 1 1 = = nh nh phi Nh Lernmodul Geschichtete Zufallsstichprobe Gewichtung bei disproportional geschichteten Stichproben Gewicht des Elements i in der Schicht h n N = n Nh N Nh ∗ Lernmodul Geschichtete Zufallsstichprobe 29 FORMELSAMMLUNG NEUE STATISTIK ERHEBUNGSVERFAHREN Schätzformel für den Mittelwert bei disproportional geschichteten Stichproben H yˆ = ∑ wh ∗ yh h =1 H ∑ wh Lernmodul Geschichtete Zufallsstichprobe Neyman-Aufteilung Teilen wir die Grundgesamtheit in insgesamt H disjunkte Schichten vom Umfang Nh ein, dann ergibt sich für die Schicht h als „optimaler“ Umfang ein Stichprobenumfang von n: Lernmodul Klumpenstichprobe Auswahlwahrscheinlichkeit der Einzelelemente bei der Klumpenstichprobe Bezeichnet n die Anzahl der Klumpen in der Stichprobe und N die Zahl aller in der Population vorkommenden Klumpen, dann beträgt die Auswahlwahrscheinlichkeit h =1 nh = n N hσ h H ∑N σ h h h =1 σh ist die Standardabweichung in der Schicht h (n/ N) *1 für jeden Klumpen n / N . Da die Auswahlwahrscheinlichkeit jedes Elements innerhalb eines Klumpens gleich 1 ist, ist die Auswahlwahrscheinlichkeit für ein Einzelelement (n/ N ) *1, also gleich n / N . Lernmodul Klumpenstichprobe 30 FORMELSAMMLUNG NEUE STATISTIK ERHEBUNGSVERFAHREN Designeffekt Der Designeffekt ist definiert als das Verhältnis des Standardfehlers (SE) einer Stichprobenkenngröße eines gegebenen Stichprobenplans zum Standardfehler einer Stichprobenkenngröße einer einfachen Zufallsstichprobe. Am Beispiel des Mittelwerts lässt sich „deft“ definieren als: deft y = SEy sample SEy srs Lernmodul Klumpenstichprobe Schätzung Designeffekt Für große Stichproben lässt sich der Designeffekt einer Klumpenstichprobe für die Schätzung des Mittelwert annähern, wobei M die Anzahl der Elemente im Klumpen ist. deft y = SE ycluster SEy srs = [1 + (M − 1) ρ ] Lernmodul Klumpenstichprobe Der Intraklassenkorrelationskoeffizient ρ ρ = Intraklassenkorrelations-koeffizient N= Anzahl der Klumpen N ρ= N ∑∑∑ ( yij − y )( yik − y ) i =1 j =1 k ≠ j M= Anzahl der Elemente SSW = Summe der Quadrate innerhalb der Klumpen („sum of squares within“) SST = Summe aller Quadrate („sum of squares total“) M = die Anzahl der Elemente im Klumpen. M ρ = 1− ( NM − 1)( M − 1) S 2 M SSW M − 1 SST Lernmodul Klumpenstichprobe 31 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Schätzfunktion Eine Schätzfunktion θˆ für einen Parameter θ ist eine Stichprobenfunktion, deren Realisationen als Näherungswerte (Schätzwerte) für den unbekannten Parameterwert θ verwendet werden. θˆ = g ( X1 ,..., X n ) Lernmodul Grundlagen Erwartungstreue Schätzfunktion Eine Schätzfunktion θˆ heißt erwartungstreu oder unverzerrt (unbiased) für den Parameter θ , wenn sie den wahren Parameterwert θ im Mittel trifft. E (θˆ) = E(θˆ( X1 ,..., X n )) = θ für alle θ Lernmodul Weitere Eigenschaften von Punktschätzern Bias Der Bias (Verzerrung) ist die systematische Abweichung, die eine Schätzfunktion vom zu schätzenden Parameter aufweist. b(θˆ ,θ ) = E (θˆ) − θ Lernmodul Weitere Eigenschaften von Punktschätzern 32 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Asymptotische Erwartungstreue Eine Schätzfunktion heißt asymptotisch erwartungstreu oder unverzerrt, wenn der Bias bei gegen unendlich strebendem Stichprobenumfang n gegen Null geht. lim E( θˆ) = θ für alle θ . n →∞ Lernmodul Weitere Eigenschaften von Punktschätzern Konsistenz Eine Schätzfunktion θˆ heißt konsistent, wenn der mittlere quadratische Fehler mit wachsendem Stichprobenumfang gegen null geht (1). Alternative Definition: Eine Schätzfunktion θˆ heißt konsistent, wenn sie zumindest asymptotisch lim MQF (θˆ ,θ ) = 0 (1) n →∞ lim E (θˆ) = θ und lim V (θˆ) = 0 n→∞ n→∞ (2) erwartungstreu ist und die Varianz des Schätzers mit zunehmendem Stichprobenumfang gegen Null geht. (2) Lernmodul Weitere Eigenschaften von Punktschätzern Mittlerer quadratischer Fehler (MQF) Der mittlere quadratische Fehler einer Schätzfunktion θˆ gibt die erwartete quadratische Abweichung des Schätzers vom wahren Parameterwert an (1). Der mittlere quadratische Fehler kann zerlegt werden in die Summe aus der Varianz des Schätzers und dem quadrierten Bias : (2) ( ) ( ( ) ( ) ) 2 MQF θˆ,θ = E θˆ − θ (1). 2 ( ) MQF θˆ,θ = b θˆ ,θ + Var θˆ (2). Lernmodul Weitere Eigenschaften von Punktschätzern 33 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Alpha-getrimmtes Mittel Das für α -getrimmte Mittel ist eine robuste Alternative zum Mittelwert als Schätzer µ . Die Anwendung sollte nur dann erfolgen, wenn die X v aus einer Verteilung stammen, die symmetrisch ist. Xα = 1 n −r ∑X , n − 2r v =r +1 ( v ) wobei r die größte ganze Zahl ist, die die Ungleichung r ≤ nα erfüllt. Lernmodul Robustheit Schätzer für den Parameter Sigma^2 der Normalverteilung S2 ist ein konsistenter Schätzer für die Varianz σ2. S2 = 1 n ( X v − X )2 ∑ n -1 v =1 Lernmodul Vorstellung weiterer Schätzer Wahrscheinlichkeitsdichte der Chi^2-Verteilung Die stetige Verteilung mit der Wahrscheinlichkeitsdichte (1) heißt χ − Verteilung. Γ 2 ist die Gamma -Funktion (2). 1 yν / 2−1e − y / 2 ν /2 fν ( y ) = 2 Γ(ν /2) 0 y≥0 (1) y<0 ∞ Lernmodul Vorstellung weiterer Schätzer Γ (k ) = ∫ xk −1e − x dx (2) 0 34 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN MAD Der MAD (=Median Absolute Deviation) ist ein robuster Streuungsschätzer. Um einen konsistenten Schätzer für die Standardabweichung σ unter Normalverteilung zu erhalten, muss der MAD mit dem Korrekturfaktor 1.4826 multipliziert werden. MAD = median { x1 − x% , x2 − x% ,K , xn − x% } Lernmodul Vorstellung weiterer Schätzer Relative Effizienz Die relative Effizienz η eines erwartungstreuen Schätzers θˆ2 im Vergleich zu θˆ1 für denselben Parameter θ θˆ und der Varianz von θˆ . einem anderen erwartungstreuen Schätzer definiert als der Quotient der Varianz von 1 V (θˆ1) η = η (θˆ2 ,θˆ1) = V (θˆ2 ) ist 2 Lernmodul Auswahl von Schätzfunktionen Asymptotische relative Effizienz Den Grenzwert der relativen Effizienz bezeichnet man als die asymptotische relative Effizienz von θˆ2 bezüglich η ∞ = lim η (θˆ2 ,θˆ1 ) n →∞ θˆ1 . Lernmodul Auswahl von Schätzfunktionen 35 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Wahrscheinlichkeitsdichte der Laplace-Verteilung Die Laplace-Verteilung ist eine stetige Verteilung mit der Wahrscheinlichkeitsdichte (1). Skalenparameter, für den µ ist der Erwartungswert und V ( X ) = 2b 2 b ein 1 − f ( x) = e 2b x− µ b (1) gilt. Lernmodul Konfidenzintervall für My - Sigma bekannt Konfidenzintervall Ein Konfidenzintervall für einen Parameter Stichprobenfunktionen θ ist ein Paar von P ( gu ( X 1, X 2 ,..., X n ) ≤ θ ≤ go ( X 1 , X 2 ,..., X n ) ) ≥ 1 − α gu , g o , die den wahren Parameterwert mit einer vorgegebenen Mindestwahrscheinlichkeit einschließen: Die Mindestwahrscheinlichkeit (1 − α ) wird als Konfidenzniveau bezeichnet. Lernmodul Konfidenzintervall für My - Sigma bekannt Schwankungsintervall für den Mittelwert Das Intervall (1) ist das zentrale ( 1 − α )-Schwankungsintervall für den Mittelwert bei Normalverteilung. σ σ µ − z1−α / 2 n , µ + z1−α / 2 n (1) Lernmodul Konfidenzintervall für My - Sigma bekannt 36 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Konfidenzintervall für den Parameter bekannt Das Intervall (1) ist das µ der Normalverteilung, σ (1 − α ) − Konfidenzintervall für den Parameter µ der σ . Die Breite des Intervalls berechnet sich Normalverteilung bei bekanntem nach (2). [ µˆu , µˆo ] = X − z1−α / 2 σ σ , X + z1−α / 2 n n B = µˆo − µˆu = 2 z1−α / 2 σ n (1) (2) Lernmodul Konfidenzintervall für My - Sigma bekannt t-Verteilung Die stetige Verteilung, mit der Wahrscheinlichkeitsdichte (1) heißt StudentVerteilung oder auch t-Verteilung. Γ ist die Gamma -Funktion (2). Γ (ν 2+1 ) t 2 fν (t ) = 1 + Γ(ν2 ) πν ν − (ν +1 ) / 2 (1) ∞ Γ (k ) = ∫ xk −1e − x dx Lernmodul Konfidenzintervall für My - Sigma unbekannt Konfidenzintervall für den Parameter unbekannt µ der Normalverteilung, 0 σ (1 − α ) − Konfidenzintervall für den Parameter µ der Normalverteilung bei unbekanntem σ . Die Breite des Intervalls berechnet sich nach (2). Weil S eine Zufallsvariable ist, ist auch die Breite des Das Intervall (1) ist das [ µˆu , µˆo ] = X − tν ;1−α / 2 S S , X + tν ;1−α / 2 n n B = µˆo − µˆu = 2 tν ;1−α / 2 S n Konfidenzintervalls eine Zufallsvariable mit dem Erwartungswert (3). Lernmodul Konfidenzintervall für My - Sigma unbekannt (2) E (B) ≈ 2 tν ;1−α / 2 σ n (1) (2) (3) 37 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Konfidenzintervallfür Sigma^2 bei Normalverteilung Das Intervall (1) ist das (1 − α ) − Konfidenzintervall für den Parameter σ 2 der Normalverteilung. 2 2 σ u2 , σ o2 = (n −1) S , ( n −1) S 2 χν2;α / 2 χν ;1−α / 2 (1) Lernmodul Konfidenzintervall für Sigma Konfidenzintervall für Sigma bei Normalverteilung Das Intervall (1) ist das (1 − α ) − Konfidenzintervall für den Parameter σ der Normalverteilung. Die Breite (2) des Konfidenzintervalls ist eine Zufallsvariable. Statt der absoluten Breite werden häufig die relative Breite B/S bzw. die relativen Abstände der Unter- und Obergrenze von S angegeben (3). Lernmodul Konfidenzintervall für Sigma (n − 1) (n − 1) S , S 2 χν2;α / 2 χν ;1−α / 2 [σ u , σ o ] = n −1 B = σˆ o − σˆ u = − χν2;α / 2 σˆu = S (n − 1) χν2;1−α / 2 , σˆ o = S (1) n − 1 (2) S χν2;1−α / 2 ( n − 1) χν2;α / 2 (3) 38 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Konfidenzintervall für den Anteilswert p Das Intervall (1) ist das approximative Anteilswert und (1 − α ) − Konfidenzintervall für den p . Die Breite des Konfidenzintervalls ergibt sich aus (2). Sind np n(1 − p) hinreichend groß, so wird statt (1) gelegentlich die weiter vereinfachte Form (3) verwendet. z2 pˆ (1 − pˆ ) z12−α / 2 pˆ + 1−α / 2 − z1−α / 2 + 2n n 4n2 , p ˆ , p ˆ = [ u o] z2 (1) 1 + 1−α / 2 n pˆ + B = ˆpo − ˆpu = Lernmodul Konfidenzintervall für p z12−α / 2 pˆ (1 − pˆ ) z12−α / 2 + z1−α / 2 + 2n n 4n2 2 z 1 + 1−α / 2 n 2 z1−α / 2 pˆ (1 − pˆ ) z 12−α / 2 + n 4n2 (2) 2 z 1 + 1−α / 2 n pˆ (1 − pˆ ) pˆ (1 − pˆ ) , pˆ + z1−α / 2 pˆ − z1−α / 2 n n (3) 39 FORMELSAMMLUNG NEUE STATISTIK SCHÄTZEN Bootstrap-Konfidenzintervall für My Beim Bootstrap-Verfahren werden aus der empirischen Verteilungsfunktion Fˆ ( x) wiederholt Stichproben mit Zurücklegen jeweils vom gleichen Umfang wie sBasis ˆ sBasis ˆ xBasis + tα / 2 n , xBasis + t1−α / 2 n (1) die Ausgangsstichprobe gezogen. Die Verteilung der aus diesen Replikaktionsstichproben ermittelten statistischen Maßzahlen dient dann als Approximation für die tatsächliche Verteilung der Maßzahl. Sind xBasis und sBasis Mittelwert und Standardabweichung der Basisstichprobe, dann ist ein Bootstrap-Konfidenzintervall für µ zum Konfidenzniveau 1−α gegeben durch (1). tˆα / 2 und tˆ1−α / 2 sind die Quantile, die sich aus den Replikationsstichproben ergeben. Lernmodul Bootstrap Konfidenzintervalle 40 FORMELSAMMLUNG NEUE STATISTIK TESTEN Signifikanztest P( H0 ablehnen | H 0 wahr) ≤ α P(Fehler 1. Art) ≤ α Lernmodul Fehlerwahrscheinlichkeiten Fehler 1.Art und Fehler 2.Art Lernmodul Fehlerwahrscheinlichkeiten Ablehnbereich Der Ablehnbereich C ist ein Teil des Wertebereichs der Prüfgröße. Nimmt die Prüfgröße einen Wert aus diesem Bereich an, so wird die Nullhypothese abgelehnt. PH 0 (T ∈ C ) ≤ α . Im Sinne eines Signifikanztests wird der Ablehnbereich daher so gewählt, dass folgende Ungleichung erfüllt ist: Lernmodul Testentscheidungen 41 Wahrscheinlichkeitsverteilung unter H0 Ablehnbereich C Verwerfe H0, wenn für die Prüfgröße T gilt Berechnung des kritischen Werts Berechnung des p-Werts Test Hypothesenart Test A H0 :" ≤ " H1 :" > " C = {t : t > c1−α } T > c1−α PH 0 (T > c1−α ) = α PH 0 (T ≥ t ) = p Test B H0 :" ≥ " H1 :" < " C = {t : t < cα } T < cα PH0 (T < cα ) = α PH 0 (T ≤ t ) = p Test C H0 :" = " H1 :" ≠ " C = {t : t < cα / 2 } ∪ T < cα / 2 {t : t > c1−α / 2} T > c1−α / 2 oder PH0 (T < cα / 2 ) + PH0 (T > c1−α / 2 ) PH 0 (T ≤ tl ) + PH 0 (T ≥ tr ) =α = p Die Bilder zeigen beispielhaft eine Wilcoxon-Verteilung mit n=m=40. Die dunkelblauen Flächen stellen α .100% der Gesamtfläche dar. 42 FORMELSAMMLUNG NEUE STATISTIK TESTEN P-Werte à Verwirf H 0 , falls p < α Der p-Wert ist die Wahrscheinlichkeit unter H 0 , den à Behalte H 0 , falls p ≥ α beobachteten Prüfgrößenwert oder ein in Richtung Alternative extremeren Wert zu erhalten. Eine Testentscheidung mit Hilfe des p-Wertes wird für alle Testprobleme identisch durchgeführt: Lernmodul Testentscheidungen Wilcoxon-Rangsummen-Test: Annahmen 1) Die Daten müssen mindestens ordinal skaliert sein. 2) Die Stichproben X X1 ,K , X n , Y1 ,K ,Ym 3) und Y sind voneinander unabhängig und untereinander ebenfalls. X1, K , X n und Y1, K , Ym X besitzen die gleiche Varianz. besitzen die stetige Verteilungsfunktionen F bzw. G. Lernmodul Wilcoxon-Rangsummen-Test 4) und Y 43 FORMELSAMMLUNG NEUE STATISTIK TESTEN Wilcoxon-Rangsummen-Test: Hypothesen Testformulierung über die Verteilung Nullhypothese Alternativhypothese Test A H 0 : G(z ) = F (z ) H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0 Test B H 0 : G(z ) = F (z ) H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0 Test C H 0 : G(z ) = F (z ) H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0 Testformulierung über den Median Wilcoxon-Rangsummen-Test: Prüfgröße, Prüfverteilung Nullhypothese Alternativhypothese Test A H 0 : x% ≤ y% H1 : %x > %y Test B H 0 : x% ≥ y% H1 : x% < y% Test C H 0 : x% = y% H1 : %x ≠ %y n 1) W = ∑ R( X i ) ~ WnN i =1 2) für Stichproben mit n oder m > 25: Z= W − n (n + m + 1) / 2 mn( n + m + 1) / 12 Ho ~ N (0,1). appr. 44 FORMELSAMMLUNG NEUE STATISTIK TESTEN Wilcoxon-Rangsummen-Test:Minimale und maximale Rangsumme Minimale Rangsumme: WnN,min = n( n + 1) 2 Maximale Rangsumme: WnN,max = n(2m + n + 1) 2 Wilcoxon-Rangsummen-Test: Ablehnbereich Test A 1) W < wα (n, m) 2) Z < zα Test B 1) W > w1−α (n, m) 2) Z > z1−α Test C 1) W < wα / 2 (n, m) oder W > w1−α / 2 ( n, m) 2) Z > z1−α / 2 45 FORMELSAMMLUNG NEUE STATISTIK TESTEN Wilcoxon-Rangsummen-Test: R-Befehl Die Bibliothek „wicox.R“ muss geladen sein. wil.test(x,y,alternative=”t”,a=0.5) Argumente: X,Y numerischer Datenvektor alternative spezifiziert die Alternativhypothese: a „t“ =ˆ H1 :" ≠ " „g“ =ˆ H1 :" > " „l“ =ˆ H1 :" < " Signifikanzniveau alpha Wilcoxon-Laborlink 46 FORMELSAMMLUNG NEUE STATISTIK TESTEN Gauß-Test Zweistichprobenfall: Annahmen 1) Grundgesamtheit 1 X1, K , X n unabhängig und identisch normalverteilt mit X i ~ N (µ X ,σ X2 ), i = 1,K , n 2) Grundgesamtheit 2 Y1, K , Ym unabhängig und identisch normalverteilt mit Y j ~ N (µ Y ,σ Y ), j = 1,K , m 2 3) Die Stichproben X und Y sind voneinander unabhängig und X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls Lernmodul Gauß-Test für den Zweistichprobenfall 4) σ X2 , σ Y2 bekannt Gauß-Test Zweistichprobenfall: Hypothesen Gauß-Test Zweistichprobenfall: Prüfgröße, Prüfverteilung Nullhypothese Alternativhypothese Test A H 0 : µ x − µ y ≥ δ0 H1 : µ x − µ y < δ0 Test B H 0 : µ x − µ y ≤ δ0 H1 : µ x − µ y > δ0 Test C H0 : µx − µy = δ0 H1 : µ x − µ y ≠ δ0 Z= X −Y σ x2 n + σ 2y ~ N (0,1). H0 m 47 FORMELSAMMLUNG NEUE STATISTIK TESTEN Gauß-Test Zweistichprobenfall: R-Befehl Die Bibliothek „gauss.R“ muss geladen sein. gauss.test(x,y,vx=1,vy=3,alternative=“t“,a=0.5,mu=0) Argumente: X,Y numerischer Datenvektor vx,vy Angabe der entsprechenden Varianz alternative spezifiziert die Alternativhypothese: „t“ =ˆ H1 :" ≠ " „g“ =ˆ H1 :" > " „l“ =ˆ H1 :" < " a Signifikanzniveau alpha mu eine Zahl, die δ 0 (Mittelwertsdifferenz) spezifiziert Gauß-Laborlink 48 FORMELSAMMLUNG NEUE STATISTIK TESTEN Gauß-Test Zweistichprobenfall: Ablehnbereich t-Test Zweistichprobenfall: Annahmen Test A Z < zα = − z1−α Test B Z > z1−α Test C Z > z1−α / 2 1) Grundgesamtheit 1 X1, K , X n unabhängig und identisch normalverteilt mit X i ~ N (µ X ,σ X2 ), i = 1,K , n 2) Grundgesamtheit 2 Y1, K , Ym unabhängig und identisch normalverteilt mit Y j ~ N (µ Y ,σ Y ), j = 1,K , m 2 3) Die Stichproben X und Y sind voneinander unabhängig und X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls Lernmodul t-Test für den Zweistichprobenfall 4) σ 2X , σ Y2 t-Test Zweistichprobenfall: Hypothesen unbekannt, aber σ 2X = σ Y2 Nullhypothese Alternativhypothese Test A H 0 : µ x − µ y ≥ δ0 H1 : µ x − µ y < δ0 Test B H 0 : µ x − µ y ≤ δ0 H1 : µ x − µ y > δ0 Test C H0 : µx − µy = δ0 H1 : µ x − µ y ≠ δ0 49 FORMELSAMMLUNG NEUE STATISTIK TESTEN t-Test Zweistichprobenfall: Prüfgröße, Prüfverteilung T= X −Y − δ0 1 1 + S ² n m 1) n , m ≤ 30 : T ~ tn+ m−2 2) n , m > 30 : T ~ N ( 0,1) appr. Gepoolter Varianzschätzer n −1 m −1 1 S X2 + S Y2 = ( n − 1) S X2 + ( m − 1) SY2 n+m−2 n + m −2 n+m−2 m n 2 1 2 = ∑ ( X i − X ) + ∑ Yj − Y . n + m − 2 i =1 j=1 ( S2 = ( t-Test Zweistichprobenfall: Ablehnbereich ) ) Test A 1) T < tn+m−2;α = −tn+m −2;1−α 2) Z < zα Test B 1) T > tn + m−2;1−α 2) Z > z1−α Test C 1) T > tn +m−2;1−α / 2 2) Z > z1−α / 2 50 FORMELSAMMLUNG NEUE STATISTIK TESTEN t-Test Zweistichprobenfall: R-Befehl t.test(x,y,alternative=„t“,mu=0,var.equal=FALSE,conf.level=0.95) Argumente: X,Y numerischer Datenvektor alternative spezifiziert die Alternativhypothese: „t“ =ˆ H1 :" ≠ " „g“ =ˆ H1 :" > " „l“ =ˆ H1 :" < " δ 0 (Mittelwertsdifferenz) spezifiziert mu eine Zahl, die var.equal [TRUE / FALSE] logische Abfrage , ob die Varianzen σ X2 und σ Y2 als gleich oder ungleich behandelt werden sollen. Bei TRUE wird die gepoolte Varianz verwendet, bei FALSE wird der Welch-Test berechnet. conf.level Konfidenzwahrscheinlichkeit 1−α t-Test -Laborlink 51 FORMELSAMMLUNG NEUE STATISTIK TESTEN Welch-Test: Annahmen 1) Grundgesamtheit 1 X1, K , X n unabhängig und identisch normalverteilt mit X i ~ N (µ X ,σ X2 ), i = 1,K , n . 2) Grundgesamtheit 2 Y1, K , Ym unabhängig und identisch normalverteilt mit Y j ~ N (µ Y ,σ Y ), j = 1,K , m . 2 3) Die Stichproben X und Y sind voneinander unabhängig und X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls Lernmodul Welch-Test 4) σ 2X , σ Y2 Welch-Test: Hypothesen unbekannt Nullhypothese Alternativhypothese Test A H 0 : µ x − µ y ≥ δ0 H1 : µ x − µ y < δ0 Test B H 0 : µ x − µ y ≤ δ0 H1 : µ x − µ y > δ0 Test C H0 : µx − µy = δ0 H1 : µ x − µ y ≠ δ0 52 FORMELSAMMLUNG NEUE STATISTIK TESTEN Welch-Test: Prüfgröße, Prüfverteilung 1) 2) n, m ≤ 30 : T = X − Y − δ0 S X2 SY2 + n m appr. ~ H tυ . 0 n , m > 30 : T ~ N ( 0,1) appr. Welch-Test: Freiheitsgrade Freiheitsgrade unter H0 : 2 Sx2 SY2 + n m υ= 2 2 1 S 2X 1 SY2 + n −1 n m −1 m falls nötig, ist υ auf eine ganze Zahl abzurunden Welch-Test: Ablehnbereich Test A 1) T < tυ ;α = −tυ;1−α 2) Z < zα Test B 1) T > tυ ;1−α 2) Z > z1−α Test C 1) T > tυ ;1−α / 2 2) Z > z1−α / 2 53 FORMELSAMMLUNG NEUE STATISTIK TESTEN Welch-Test: R-Befehl t.test(x,y,alternative=„t“,mu=0,var.equal=FALSE,conf.level=0.95) Argumente: X,Y numerischer Datenvektor alternative spezifiziert die Alternativhypothese: „t“ =ˆ H1 :" ≠ " „g“ =ˆ H1 :" > " „l“ =ˆ H1 :" < " δ 0 (Mittelwertsdifferenz) spezifiziert mu eine Zahl, die var.equal [TRUE / FALSE] logische Abfrage , ob die Varianzen σ X2 und σ Y2 als gleich oder ungleich behandelt werden sollen. Bei TRUE wird die gepoolte Varianz verwendet, bei FALSE wird der Welch-Test berechnet. conf.level Konfidenzwahrscheinlichkeit 1−α Welch-Laborlink 54 FORMELSAMMLUNG NEUE STATISTIK TESTEN Gauß-Test Einstichprobenfall: Annahmen Annahme 1: σ2 bekannt Lernmodul Gauß-Test und T-Test im Einstichprobenfall Gauß-Test Einstichprobenfall: Hypothesen Nullhypothese Test A H 0 : µ ≥ µ0 Test B H 0 : µ ≤ µ0 Test C Gauß-Test Einstichprobenfall: Prüfgröße Gauß-Test Einstichprobenfall: Ablehnbereich t-Test Einstichprobenfall: Annahmen Z= H 0 : µ = µ0 Alternative gegen gegen gegen H1 : µ < µ0 H1 : µ > µ 0 H1 : µ ≠ µ 0 ( X − µ0 ) σ/ n Verwirf H0, falls Test A Z < zα = − z1−α Test B Z > z1−α Test C Z > z1−α / 2 Annahme 2: σ 2 unbekannt. Lernmodul Gauß-Test und T-Test im Einstichprobenfall 55 FORMELSAMMLUNG NEUE STATISTIK TESTEN t-Test Einstichprobenfall: Hypothesen Nullhypothese Test A H 0 : µ ≥ µ0 Test B H 0 : µ ≤ µ0 Test C t-Test Einstichprobenfall: Prüfgröße t-Test Einstichprobenfall: Ablehnbereich t= H 0 : µ = µ0 gegen gegen gegen H1 : µ < µ0 H1 : µ > µ 0 H1 : µ ≠ µ 0 (X − µ0 ) S/ n Verwirf H0, falls Test A Test B t < t n−1;α t > tn−1;1−α Test C Sigma-Test: Annahmen Alternative t > t n−1;1−α / 2 Annahme 1: µ bekannt oder Annahme 2: µ unbekannt. Lernmodul Sigma -Test 56 FORMELSAMMLUNG NEUE STATISTIK TESTEN Sigma-Test: Hypothesen Nullhypothese Alternative Test A H 0 : σ 2 ≥ σ 02 gegen H1 : σ 2 < σ 02 Test B H 0 : σ 2 ≤ σ 02 gegen H1 : σ 2 > σ 02 Test C H 0 : σ 2 = σ 02 gegen H1 : σ 2 ≠ σ 02 Sigma-Test: Prüfgröße 2 χ µ2 X −µ = ∑ i σ i =1 χ x2 Xi − X ( n − 1) S 2 = ∑ = σ σ2 i =1 n n bei bekanntem µ 2 bei unbekanntem µ 57 FORMELSAMMLUNG NEUE STATISTIK TESTEN Sigma-Test: Ablehnbereich Fall 1: Testentscheidung bei 2 Test A H 0 ablehnen, falls χ µ 2 Test B H 0 ablehnen, falls χ µ 2 Test C H 0 ablehnen, falls χ µ µ ≤ χ n2;α ≥ χn2;1−α ≤ χ n2;α / 2 oder Fall 2: Testentscheidung bei H0 ablehnen, falls χ x2 ≤ χ n2−1;α Test B H0 ablehnen, falls χ x2 ≥ χ n2−1;1−α H0 ablehnen, falls χ x2 ≤ χ n2−1;α / 2 oder Lernmodul p-Test χ µ2 ≥ χn2;1−α / 2 . µ unbekannt Test A Test C P-Test: Annahmen bekannt χx2 ≥ χn2−1;1−α /2 Es seien X1,..., X n Bernoulli-Variablen mit 1, falls A e intritt Xi = , i = 1,..., n, d.h. P( X i = 1 ) = p 0, falls A eintritt P( X i = 0 ) = 1 - p. und 58 FORMELSAMMLUNG NEUE STATISTIK TESTEN P-Test: Hypothesen Hypothesen H 0 : p ≥ p0 Test A P-Test: Prüfgröße gegen H1 : p < p0 Test B H 0 : p ≤ p0 gegen H1 : p > p0 Test C H 0 : p = p0 gegen H1 : p ≠ p0 n T = ∑ Xi i =1 P-Test: Ablehnbereich Approximativer P-Test: Prüfgröße Test A H0 ablehnen, falls Test B H0 ablehnen, falls Test C H0 ablehnen, falls Z= T ≤ kα T ≥ k1−α T ≤ kα / 2 oder T ≥ k1−α / 2 T − np np(1 − p) 59 FORMELSAMMLUNG NEUE STATISTIK TESTEN Approximativer P-Test: Ablehnbereich Test A H0 ablehnen, falls Z ≤ zα oder T ≤ np0 + npo (1 − p0 ) Vorzeichentest: Annahmen Test B H0 ablehnen, falls Z ≥ z1-α Test C H0 ablehnen, falls Z ≤ zα / 2 oder Z ≥ z 1− a/2 Di = X i − Yi , 1 = 1,..., n, Lernmodul Vorzeichentests Vorzeichentest: Hypothesen Hypothesen Test A H0 :MD ≥ 0 gegen H1 : M D < 0 Test B H0 : M D ≤ 0 gegen H1 : M D > 0 Test C Vorzeichentest: Prüfgröße H0 : M D = 0 gegen H1 : M D ≠ 0 n T = ∑ Bi , wobei Bi = 1 ist, falls Di > 0 und Bi = 0 , falls Di < 0 ist. i =1 Es gilt: Di = X i − Yi , 1 = 1,..., n, 60 FORMELSAMMLUNG NEUE STATISTIK TESTEN Vorzeichentest: Ablehnbereich Theoretischer Phi-Koeffizient Kontingenz-koeffizient Test A H0 ablehnen, falls T ≤ kα Test B H0 ablehnen, falls T ≥ k1−α Test C H0 ablehnen, falls oder Die Ausprägungen Wahrscheinlichkeit I J Φ 2theor = ∑∑ i =1 j =1 Lernmodul Tests in Kontingenztafeln χ2 − Unabhängigkeitstest: Annahmen X und Y T ≤ kα / 2 oder T ≥ k1−α / 2 ( xi , y j ) der Zufallsvariablen X und Y werden mit der pij ; i = 1,..., I , j = 1,..., J ( pij − pig pg j ) angenommen. Dann heißt 2 pi g pg j unabhängig: Φ 2theor = 0. 1) X und Y sind zwei kategoriale, diskrete oder klassifiziert stetige Zufallsvariablen. 2) Die Stichprobenvariablen ( X i , Yj ), i = 1,K , I , j = 1,K , J sind unabhängig. 61 FORMELSAMMLUNG NEUE STATISTIK TESTEN χ2 − χ2 − Unabhängigkeitstest: Hypothesen Unabhängigkeitstest: Prüfgröße Nullhypothese Alternativhypothese H 0 : pij = pi g pg j H1 : pij ≠ pi g pg j für alle für mindestens ein Paar (i, j) (i, j) Zweifelder (2x2) χ 2 2 n11n22 − n12 n21 ) ( = 2 χ skorr n1g ng1 n2 gng 2 / n n11n 22 − n12 n 21 − n2 ) ( = 2 n1g ng1 n2g ng2 / n Mehrfelder (IxJ) I J χ 2 = ∑∑ i =1 j =1 ( nij − n%ij ) n%ij 2 , wobei n%ij = ni gng j n 62 FORMELSAMMLUNG NEUE STATISTIK TESTEN χ2 − Unabhängigkeitstest: Prüfverteilung Zweifelder (2x2) χ2 ~ approx. χ12 = Z 2 ( Z 2 ist das Quadrat einer standardisierten Normalverteilung) Mehrfelder (IxJ) χ 2 ~ χ (2I −1)( J −1) approx. χ2 − Unabhängigkeitstest: Testentscheidung Zweifelder (2x2) χ 2 > z12−α / 2 Mehrfelder (IxJ) χ 2 > χ (2I −1)( J −1);1−α 63 FORMELSAMMLUNG NEUE STATISTIK TESTEN Mc-Nemar-Test: Annahmen 1) Zwei abhängige (verbundene) Stichproben X und Y , jeweils mit Stichprobenumfang n. 2) X und Y sind nominalskalierte, dichotome Zufallsvariablen, an ordbar in eine 2x2-Tafel: X Lernmodul Tests in Kontingenztafeln 3) x1 x2 Y y1 n11 n21 ng1 y2 n12 n22 ng 2 n1g n2 g n (n12 + n21 ) ≥ 20 Mc-Nemar-Test: Hypothesen Nullhypothese Alternativhypothese H 0 : p12 = p21 H1 : p12 ≠ p21 64 FORMELSAMMLUNG NEUE STATISTIK TESTEN Mc-Nemar-Test: Prüfgröße, Prüfverteilung 1) 20 ≤ (n12 + n21 ) < 30 (mit Stetigkeitskorrektur) 2) (n12 + n21 ) ≥ 30 χ 2 χ 2 ( n12 − n21 − 1) = 2 ~ n12 + n21 Mc-Nemar-Test: Ablehnbereich 2 χ 2 > χ1;1 −α McNemar-Test: R-Befehl mcnemar.test(x,y=NULL,correct=TRUE) 2 n12 − n21 ) ( = n12 + n21 H0 ~ H0 2 χ1;1 −α 2 χ1;1 −α Argumente: 2 × 2 -Tafel in Matrixform oder ein Datenvektor X entweder eine Y ein Datenvektor; wird ignoriert, wenn X eine Matrix ist correct [TRUE / FALSE] logische Abfrage, ob für die Berechnung der Prüfgröße eine Stetigkeitskorrektur verwendet werden soll 65 FORMELSAMMLUNG NEUE STATISTIK TESTEN Einfaktorielle Varianzanalyse: Annahmen 1) Normalverteilungsannahme für jede Gruppe i , i = 1,K , I : Y1 , K ,YI ~ N ( µ ,σ ²) 2) Varianzhomogenität zwischen den Gruppen, d.h. Lernmodul Einfaktorielle Varianzanalyse Einfaktorielle Varianzanalyse: Modell in Effektdarstellung σ 12 = K = σ I2 . Modell in Effektdarstellung Yij = µ + α i + eij mit i = 1,K , I ; j = 1,K, ni; eij ~ N (0, σ ) unabhängig 2 und der Nebenbedingung ∑ i=1 niα i = 0. I 66 FORMELSAMMLUNG NEUE STATISTIK TESTEN Einfaktorielle Varianzanalyse: Schätzer Globales Mittel Effekte Residuen Einfaktorielle Varianzanalyse: Hypothesen µˆ = 1 I ni ∑∑ yij = ygg n i =1 j =1 αˆ i = yi g − ygg , wobei 1 yi g = ni eˆij = yij − ( µˆ + αˆ i ), i = 1,K , I . ni ∑ yij i =1 Nullhypothese Alternativhypothese H 0 : α1 = L =α I = 0 H1 : mindestens zwei αi ≠ 0 67 FORMELSAMMLUNG NEUE STATISTIK TESTEN Einfaktorielle Varianzanalyse: Prüfgröße Version 1 n F= mit 2 1 I i Yi g − Ygg ) ( ∑∑ I − 1 i =1 j =1 1 N −I I ni ∑∑ (Yij − Yig ) 2 = SQ( A)/( I − 1) SQ ( E)/(N − I ) i =1 j =1 N = n1 + L + nI . Version 2 F= Einfaktorielle Varianzanalyse: Prüfverteilung Einfaktorielle Varianzanalyse: Ablehnbereich F 1 I niαˆi2 ∑ I − 1 i =1 1 N −I ~ H0 I ∑ i =1 (ni − 1)Si2 mit N = n1 + L + nI . FI −1, N −I F > FI −1, N− I ; 1−α . 68 FORMELSAMMLUNG NEUE STATISTIK TESTEN Quadratsumme (Sum of Squares) Faktor I ni ( SS ( A) = ∑∑ Yij − Ygg i =1 j =1 I ) = ∑ ( ni − 1) Si2 2 i =1 Fehler I ni SS (E ) = ∑∑ (Yi g − Ygg ) 2 i =1 j =1 Einfaktorielle Varianzanalyse: Varianzanalysetabelle Streuungsursache Freiheits -grade Streuung mittlerer quadrati scher Fehler Gruppen (Variabilität zwischen den Gruppen) I −1 SQ ( A ) SQ ( A) I −1 Residuen (Variabilität innerhalb der Gruppen) N −I SQ ( E ) SQ (E ) N −I Prüfgröße F F= SQ( A)/( I − 1) SQ( E )/(N − I ) 69 FORMELSAMMLUNG NEUE STATISTIK TESTEN Einfaktorielle Varianzanalyse: R-Befehl Varianzanalytisches Modell modell<-lm(Y : A) Argumente: Y numerischer Datenvektor Zielgröße A Faktorvariable Die Faktorvariable muss explizit als Faktorvariable mit dem Befehl as.factor(variable) erstellt werden. ANOVA-Laborlink Zweifaktorielle Varianzanalyse: Annahmen Lernmodul Zweifaktorielle Varianzanalyse 1) Die Zielgröße Yijk ist für die einzelnen Faktorkombinationen normalverteilt. 2) Die Zielgröße Yijk besitzt in den einzelnen Faktorkombinationen die gleiche Varianz. 70 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: Modell in Effektdarstellung Modell in Effektdarstellung Yijk = µ + αi + β j + (αβ )ij + eijk , mit i = 1,K , I , j = 1, K, J , k = 1, K, K; eijk ~ N (0, σ ) unabhängig 2 und den Nebenbedingungen I J I J i =1 j =1 i =1 j =1 ∑ α i = 0, ∑ β j = 0, ∑ (αβ )ij = ∑ (αβ )ij = 0 71 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: Schätzer Globales Mittel 1 I J K ) µ= ∑∑∑ yijk = yggg IJK i =1 j =1 k =1 Effekte Effekt Faktor A: i-te Faktorstufe αˆi = yigg − yggg , wobei yi gg = 1 JK J K ∑∑ yijk j =1 k =1 Effekt Faktor B: j-te Faktorstufe βˆ j = yg j g − yggg , wobei yg j g = 1 IK I K ∑∑ yijk i =1 k =1 Effekt Faktor A, B: i,i-te Faktorstufe ∧ (αβ )ij = yij g − yi gg − yg j g + yggg , yij • Residuen 1 = K wobei K ∑ yijk . k =1 ∧ eˆijk = yijk − µˆ + αˆi + βˆ j + (αβ )ij 72 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: Hypothesen Test A Nullhypothese Alternativhypothese H 0A×B : (αβ )ij = 0 H1A×B : für mindestens zwei Paare ( i , j) gilt: (αβ )ij ≠ 0; ∀ i = 1,K , I , j = 1,K , J ; Test B es gibt keine Wechselwirkung zwischen A und B Vorliegen von Wechselwirkung H 0A : α i = 0 H1A : für mindestens zwei α i α i ≠ 0; ∀ i = 1, K , I ; Test C es gibt keinen Effekt bedingt durch Faktor A Vorliegen von Haupteffekten bedingt durch Faktor A H0 : β j = 0 H1B : für mindestens zwei β j ∀ j = 1, K, J ; β j ≠ 0; es gibt keinen Effekt bedingt durch Faktor B Vorliegen von Haupteffekten bedingt durch Faktor B B gilt: gilt: 73 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: Prüfgröße, Prüfverteilung Test A Test B Test C Zweifaktorielle Varianzanalyse: Gepoolter Varianzschätzer Zweifaktorielle Varianzanalyse: Ablehnbereich S2 = FA×B = SQ ( A × B)/( I − 1)( J − 1) SQ( E ) / IJ ( K − 1) FA = SQ( A)/( I − 1) SQ ( E ) / IJ (K − 1) FB = SQ( B)/(J − 1) SQ (E ) / IJ ( K − 1) ~ H0 ~ H0 ~ H0 FI −1, J −1, IJ (K −1) FI −1,IJ ( K −1) FJ −1,IJ ( K −1) . I J K SQ(E ) 1 = (Yijk − Yij g ) 2 . ∑∑∑ IJ ( K −1) IJ ( K − 1) i =1 j =1 k =1 Test A FA×B > F1−α ,( I −1, J −1, IJ ( K −1)) . Test B FA > F1−α ,( I −1, IJ ( K −1) ) Test C FB > F1−α ,( J −1, IJ ( K −1)) . 74 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: Quadratsummen (Sum of Squares) Faktor A I I i =1 i =1 J J j =1 j =1 SQ ( A) = KJ ⋅ ∑ (Yi gg − Yggg )2 = KJ ⋅ ∑ αˆi 2 Faktor B 2 SQ( B) = KI ⋅ ∑ (Yg j g − Yggg ) 2 = KI ⋅ ∑ βˆ j Wechselwirkung A, B I J I J ∧ SQ ( A × B) = K ⋅ ∑∑ (Yij g − Yi gg − Yg j g + Yggg ) 2 = K ⋅ ∑∑ (αβ ) ij i=1 j=1 2 i =1 j =1 Fehler I J K SQ( E ) = IJ ( K −1) ⋅ ∑∑∑ (Yijk − Yij g )2 i =1 j =1 k =1 75 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse:Varianzanalysetabelle Streuungsursache Freiheits -grade Streuung Faktor A I −1 SQ ( A ) SQ ( A) I −1 FA = SQ ( A)/( I − 1) SQ (E ) / IJ ( K − 1) Faktor B J −1 SQ ( B ) SQ (B ) J −1 FB = SQ( B)/( J − 1) SQ( E) / IJ ( K − 1) Wechselwirkung A xB (I − 1)( J − 1) SQ ( A × B ) SQ( A × B ) ( I − 1)( J − 1) FA× B = SQ( A × B)/( I − 1)( J − 1) SQ ( E) / IJ (K −1) Residuen IJ ( K − 1) SQ ( E ) mittlerer quadratischer Fehler Prüfgröße F SQ( E ) IJ ( K − 1) 76 FORMELSAMMLUNG NEUE STATISTIK TESTEN Zweifaktorielle Varianzanalyse: R-Befehl Varianzanalytisches Modell nur mit Haupteffekten A und B lm(Y : A+B) Varianzanalytisches Modell mit allen Haupt- und Interaktionseffekten lm(Y : A*B) Varianzanalytisches Modell mit Haupteffekt A und Interaktionseffekt zwischen A und B lm(Y : A+A:B) Argumente: Y numerischer Datenvektor Zielgröße A,B Faktorvariable Die Faktorvariable muss explizit als Faktorvariable mit dem Befehl as.factor(variable) erstellt werden : Betrachtet nur den Interaktionseffekt * Es werden alle Haupt- und Interaktionseffekte der eingehenden Faktorvariablen betrachtet. ANOVA2-Laborlink 77 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Streuungszerlegung der Regression Sind die Koeffizienten â und b̂ n n n v =1 v =1 v =1 ∑ ( yv − y )2 =∑ ( yˆv − y ) 2 + ∑ ( yv − yˆv ) 2 des linearen Regressionsansatzes yv = a + b ⋅ xv + uv mittels der Methode der kleinsten Quadrate bestimmt, so gilt die ˆ = aˆ + bˆ ⋅ x . Zerlegung der Abweichungsquadrate der Y -Werte. Dabei ist y v v Lernmodul Die empirische Regression Bestimmtheitsmaß Das Bestimmtheitsmaß n R2 ∑ ( yˆi − y )2 gibt den Anteil der durch die Regressionsgerade ˆ erklärten Varianz an der yˆ = aˆ + bx Variablen Y an. R2 = ν n=1 gesamten Varianz der zu erklärenden ∑ ( yi − y )2 . ν =1 Lernmodul Die empirische Regression Schätzfunktionen α̂ und β̂ Die nach der Methode der kleinsten Quadrate bestimmten Schätzfunktionen β̂ α̂ und S βˆ = X Y = SX ∑ (Y −Y )( x − x ) ∑ (x − x ) v v und αˆ = Y − βˆ x . v für die Regressionskoeffizienten sind gegeben: Lernmodul Schätzen der Koeffizienten 78 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Empirische Kovarianz Die empirische Kovarianz Merkmale X und Y sXY ist ein Maß für den linearen Zusammenhang zweier sxy = . 1 n ∑ ( xν − x )( yν − y ) n − 1 ν =1 Lernmodul Schätzen der Koeffizienten Erwartungstreue der Schätzfunktionen α̂ und ( ) β̂ : E (αˆ ) = α und E βˆ = β . Lernmodul Schätzen der Koeffizienten Erwartungstreuer Schätzer der Fehlervarianz Regressionsmodell σ2 im linearen σˆ 2 = ( 1 n Yv − Yˆ ∑ n − 2 v =1 ) 2 = 1 n ˆ2 2 U v = sY2 (1 − rXY ). ∑ n − 2 v =1 Lernmodul Schätzen der Koeffizienten Schätzfunktionen für die Standardfehler der Koeffizientenschätzer β̂ α̂ und n ∑ xv2 im linearen Regressionsmodell σˆαˆ = Lernmodul Schätzen der Koeffizienten v =1 n n∑ ( xv − x ) v =1 ⋅ σˆ , 2 σˆ βˆ = 1 n ∑ ( xv − x ) ⋅ σˆ . 2 v =1 79 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Erwartungswert für die geschätzte Regressionsgerade an einer festen Stelle x ( ) E Yˆ x = α + β x. Lernmodul Schätzen der Koeffizienten Varianz für die geschätzte Regressionsgerade an einer festen Stelle x 2 x − x) 2 1 ( ˆ V Y x = + σ . n n 2 ∑ ( xv − x ) v =1 ( ) Lernmodul Schätzen der Koeffizienten Konfidenzintervalle für die Regressionkoeffizienten Das Modell mit normalverteilten Fehlern [αˆ − tn−2;1−γ / 2σˆαˆ , αˆ + tn−2;1−γ / 2σˆαˆ ] [ βˆ − tn −2;1−γ / 2σˆ βˆ , βˆ + tn −2;1−γ / 2σˆ βˆ ] . Konfidenzintervalle für die Regressionsgerade 1 (x− x) + n ∑ ( xv − x ) 2 2 Yˆx − t n− 2;1−α / 2σˆ ≤ 1 (x − x) E (Y | x) ≤Yˆx + t n− 2;1−α / 2σˆ + n ∑ ( xv − x ) 2 2 Das Modell mit normalverteilten Fehlern 80 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Prüfgrößen zum Testen der Regressionskoeffizienten Das Modell mit normalverteilten Fehlern βˆ − β 0 σˆ βˆ , αˆ − α0 . σˆαˆ Konfidenzband für die Regressionsgerade Yˆ x − 2 F 2 , n − 2;1 − γ σˆ ≤ E ( Yˆ | x ) ≤ Yˆ x + 1 + n (x − x ) 2 ∑ ( xv − x ) 2 2 F 2 , n − 2;1 − γ σˆ Das Modell mit normalverteilten Fehlern Punktprognose Die sinnvolle Prognose oder Vorhersage eines einzelnen Wertes der zu erklärenden Variablen Y an einer Stelle x ist der anhand der geschätzten Regressionsgeraden ermittelte Wert. 1 + n (x − ∑ ( xv x ) 2 − x ) 2 . yˆ x = αˆ + βˆ ⋅ x. Das Modell mit normalverteilten Fehlern Prognoseintervall 1 (x − x) Yˆx − t n−2;1−γ / 2σˆ 1 + + ≤ n ∑ ( xv − x ) 2 2 1 (x − x) Yx ≤ Yˆx + t n−2;1−γ / 2σˆ 1 + + . n ∑ ( xv − x )2 2 Das Modell mit normalverteilten Fehlern 81 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Potenz-transformationen x → xh mit h = ..., −2, −1.5, −1, −0.5,0.5,1.5,2,... Yv = α + β xvh + U v bzw. Yv = α + β ln( xv ) + U v Lernmodul Beurteilung der Regression Prüfgröße der Durbin-Watson-Tests n Der Durbin-Watson-Test dient zur Überprüfung der Unkorreliertheit der Fehler im linearen Regressionsmodell. Werte bei 2 weisen auf Unkorreliertheit hin, Werte bei 0 auf positive und Werte bei 4 auf negative Korrelation. DW = ∑ ( uˆv − uˆv−1 ) 2 v =2 n ∑ uˆv2 v =1 Lernmodul Beurteilung der Regression Das multiple lineare Regressionsmodell mit p Regressoren Yv = β 0 + β1 ⋅x1v + β 2 ⋅x 2v + K +β p ⋅x pv +U v ; v = 1, K, n U v : E (U v ) = 0,V (U v ) = σ 2 U v und U w sindunabhängigfüralle v ≠ w. Lernmodul Das multiple lineare Regressionsmodell unverzerrte Schätzung der Varianz der Fehler Regressionsmodell Uv im multiplen linearen 2 σµ = ( ( n 1 ∑ yv − βˆ0 + βˆ1 ⋅x1v + βˆ2 ⋅x2v + ... + βˆ p ⋅ x pv n − p − 1 v =1 )) . 2 Lernmodul Das multiple lineare Regressionsmodell 82 FORMELSAMMLUNG NEUE STATISTIK REGRESSION Prüfgröße zur Überprüfung der einzelnen Koeffizienten im multiplen linearen Regressionsmodell Die Prüfgrößen für die einzelnen Koeffizienten betreffenden Hypothesen H0 : βi = 0 Ti = βˆi − 0 . σˆ βˆ i Lernmodul Das multiple lineare Regressionsmodell adjustiertes Bestimmtheitsmaß R2Adj R2Adj = 1 − Lernmodul Beurteilung der multiplen linearen Regression n 1 ∑ ( yv − yˆv )2 n − p − 1 v =1 1 n ( yv − y ) 2 ∑ n −1 v =1 . 83