Formelsammlung - FernUni Hagen

Werbung
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Lineare Transformation
Eine Transformation ist eine Überführung jedes beobachteten Wertes xv in einen
g ( x ) = a + bx (a ,b
reelle Zahlen,
b ≠ 0) .
neuen Wert yv . Transformationen liegen i.d.R. Funktionen y =g (x ) zugrunde. Eine
Transformation ist linear, wenn die zugrundeliegende Funktion die Form g ( x )=a + bx
hat. ( a ,b reelle Zahlen, b≠ 0) .
Lernmodul Grundbegriffe
ˆ ( x)
Die empirische Verteilungsfunktion F
Die empirische Verteilungsfunktionsfunktion ordnet jeder reellen Zahl die relative
Häufigkeit der Beobachtungen eines Datensatzes zu, die kleiner oder gleich dieser
Zahl sind.
0, x < x(1)

v
Fˆ (x) =  , x(v) ≤ x < x(v+1) , v =1,K, n −1
n
1, x ≥ x(n)
Fˆ ( x ) = h( X ≤ x) =
∑ h( X = xi )
xi ≤ x
Lernmodul Datenanalyse aus einer Urliste
x − xm* −1
*
ˆ
ˆ
F ( x ) = F ( xm−1) +
hm
∆m
für klassierte Daten
1
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Median
Der empirische Median x% ist ein Lagemaß, das die Eigenschaft hat, den geordneten
Datensatz in zwei Hälften aufzuteilen.
x n +1 




 2 

x% =  
1  x + x
 2   n  
   2 
für n ungerade


n 
+1 
2 
für n gerade
Sind die Daten klassiert, ist der Median gleich dem 0.5Quantil, x% = x0,5
Lernmodul Datenanalyse aus einer Urliste
Häufigkeitsdichte Histogramm
Ein Histogramm ist eine grafische Darstellung einer klassierten Häufigkeitstabelle.
Über jeder Klasse x*i −1< X ≤xi* wird die zugehörige Häufigkeitsdichte fˆi in Form eines
Kastens abgetragen. Die Fläche eines Kastens ist gleich der relativen Häufigkeit hi
 h( x*i −1 < X ≤ xi* )
,

fˆ ( x) = 
∆i
i = 1,..., k
0,

Lernmodul Klassierte Daten
Relative Häufigkeit
Die relative Häufigkeit der Merkmalsausprägung xi eines Merkmals
X
h( X = xi ) =
ist der Anteil
dieses Wertes an allen im Datensatz aufgetretenen Ausprägungen xi .
Lernmodul Klassierte Daten
n( X = xi )
n
hi = h( xi*−1 < X ≤ xi* ) =
n (xi*−1 < X ≤ x*i )
n
für klassierte
Daten
2
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Quantile
Quantile aus kassierten Daten:
Das empirische p-Quantil x p eines Datensatzes vom Umfang n ist der Wert, für
xp =
den n⋅ p Ausprägungen kleiner oder gleich x p und der Rest größer oder gleich x p
sind. Sind die x(v ) die geordneten Beobachtungswerte, so ist x( np ) das p-Quantil;
falls n⋅ p keine ganze Zahl ist, wird zur nächstgrößeren ganzen Zahl aufgerundet.
x*m−1
( p − Fˆ ( x*m−1 ))∆ m
+
hm
dabei ist
m die
Klasse für die gilt:
Fˆ ( x*m−1 ) < p ≤ Fˆ ( xm* )
Lernmodul Klassierte Daten
Das arithmetische Mittel
x
Das arithmetische Mittel ist derjenige Wert, der sich ergibt, wenn die Summe aller
Beobachtungen durch die Anzahl der Beobachtungen dividiert wird.
x=
1 n
∑ xν
n ν =1
Berechnung arithmetisches Mittel aus einer klassierten
Häufigkeitstabelle:
xi'
xi*−1 + xi*
=
2
Berechnung der Klassenmitte:
Lernmodul Lagemaße
x=
k
1 k '
x
n
=
∑ i i ∑ xi' hi
n i =1
i =1
3
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Das geometrische Mittel
xgeo
Das geometrische Mittel ist die nte Wurzel aus dem Produkt von n Beobachtungen.
Die Verwendung des geometrischen Mittels ist sinnvoll, wenn der Unterschied
zwischen den Merkmalswerten durch das Verhältnis und nicht durch die Differenz
charakterisiert wird.
xgeo = x1 × x2 × K × xn =
n
n
n
∏ xν
ν =1
Lernmodul Lagemaße
Die Spannweite
sM
Die Spannweite ist die Differenz aus dem größten und dem kleinsten Wert eines
Datensatzes.
sM = x( n ) − x(1) = xmax − xmin
Lernmodul Streuungsmaße
Der Quartilsabstand
sQ
sQ = x0.75 − x0.25
Streuungsmaß für kardinalskalierte Merkmale unter Verwendung des unteren und
des oberen Quartils. sQ gibt an, welche Ausdehnung die zentralen 50% der Daten
haben.
Lernmodul Streuungsmaße
4
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Die Mittlere quadratische Abweichung
d2 =
1 n
∑ ( xν − x )2
n ν =1
Berechnung aus klassierten
Häufigkeitstabellen:
1 k '
1 k '
2
d = ∑ ( xi − x ) ni = ∑ ( xi − x )2 hi
n i =1
n i =1
2
Lernmodul Streuungsmaße
Die Standardabweichung
Die Standardabweichung ist die positive Wurzel aus der Varianz.
s = s2
Lernmodul Streuungsmaße
Die Varianz
Die empirische Varianz ist ein Streuungsmaß, das die Streuung der Daten um das
arithmetische Mittel beschreibt.
s2 =
1 n
( xν − x ) 2
∑
n − 1ν =1
s2 =
n 2
d
n −1
Lernmodul Streuungsmaße
Zusammenhang zwischen der Varianz
Abweichung
d2
s2
und der mittleren quadratischen
Lernmodul Streuungsmaße
5
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Das Konzentrationsmaß von Gini
Zur Visualisierung von Konzentrationsphänomen lässt sich die Lorenzkurve
heranziehen. Wenn man die Randpunkte (0;0) und (1;1) einer Lorenzkurve anhand
einer Geraden verbindet, ist der Gini-Koeffizient G durch das Zweifache der Fläche
zwischen dieser Geraden und der Lorenzkurve gegeben. Der Koeffizient G
repräsentiert ein Maß für die Gleichmäßigkeit der Verteilung von Merkmalswerten
auf mehrere Merkmalsträger.

1  2q
G =  n −1 − 1
n  pn

Lernmodul Konzentrationsmessung
Der normierte Gini-Koeffizient
Der Gini-Koeffizient G ist durch das Zweifache der Fläche gegeben, die zwischen
einer Lorenzkurve und den durch die Randpunkte (0;0) und (1;1) der Lorenzkurve
definierten Geraden liegen. Für die kleinste obere Schranke von G errechnet sich
bei einem ungruppierten Datensatz x ,...,x der Wert = 1 – 1/n. Wenn man G
durch dividiert, resultiert der normierte Gini-Koeffizient G* = G/ . Dessen kleinste
obere Schranke ist 1.
G* =
G
1 

= 1+
G
Gmax  n − 1 
Gmax = 1 −
1
n
Lernmodul Konzentrationsmessung
Die bedingte relative Häufigkeit
Die bedingte relative Häufigkeit ist der Anteil der Beobachtungen, bei denen das
Merkmal Y den Wert y j angenommen hat unter denen, bei denen X den Wert xi
h(Y = j | X = i ) =
n ( X = i ,Y = j ) nij n ( X = i ,Y = j )/ n hij
=
=
=
.
n( X = i)
ni•
n( X = i )/ n
hi•
angenommen hat.
Lernmodul Kontingenztafel
6
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Randverteilung
Wenn für zwei Zufallsvariablen X und Y eine gemeinsame
Wahrscheinlichkeitsverteilung gegeben ist, so heißen die Verteilungen der einzelnen
Zufallsvariablen ihre Randverteilungen. Bei diskreten Zufallsvariablen ergeben sie
sich aus der gemeinsamen Wahrscheinlichkeitsfunktion
P( X = xi ,Y = y j )
(i = 1,..., I ,
pi• = P(X = xi ) = P( X = xi, Y = y1) +...+ P(X = xi ,Y = yJ )
(i =1,...,I )
p• j = P(Y = yj ) =P(X =x1,Y = yj ) +... + P(X = xI ,Y = yj )
( j =1,..., J)
j = 1,..., J )
Lernmodul Kontingenztafel
Der Phi-Koeffizient
Φ 2 misst den Zusammenhang von X und Y . Im Fall zweier binärer Merkmale ist er
im Sinne einer Korrelation zu interpretieren. Da er für andere Tafeln auch Werte
annehmen kann, die 1 übersteigen, wird in der Regel der normierte Phi-Koeffizient
als Zusammenhangsmaß genommen.
ni • ⋅ n• j 

n
−
1 1  ij
n 

Φ² = ∑ ∑
.
ni • ⋅ n• j
i =0 j =0
2
Der Phi-Koeffizient für eine 2x2-Kontingenztafel:
Φ² =
( h00 − h0• ⋅ h• 0 )² ( h01 − h 0• ⋅ h• 1)²
+
+
h0• ⋅ h•0
h0• ⋅ h• 1
( h10 − h1• ⋅ h• 0 )² ( h11 − h1• ⋅ h•1)²
+
h1• ⋅ h• 0
h1• ⋅ h• 1
1
Lernmodul Zusammenfassung in einer 2x2-Tafel
1
= ∑∑
i =0 j = 0
( hij −h i • ⋅ h• j )²
hi• ⋅ h• j
.
7
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Phi-Koeffizient für die IxJ Tafel
Φ
*2
Lernmodul Zusammenfassung in einer 2x2-Tafel
Φ2
=
.
min{ I - 1, J - 1}
Die Kovarianz
Die empirische Kovarianz sXY ist ein Maß für den (linearen) Zusammenhang zweier
Merkmale X und Y .
sXY =
1 n
∑ ( xν − x )( yν − y ).
n − 1 ν =1
Lernmodul Streudiagramme und Korrelation
Der Rangkorrelationskoeffizient
Der Rangkorrelationskoeffizient von Spearman misst den Zusammenhang zwischen
zwei Merkmalen X und Y , die mindestens ordinal skaliert sind. Er ist der übliche
Korrelationskoeffizient von Bravais-Pearson, aber berechnet für die getrennt
bestimmten Rangwerte ( R (xν ), R ( yν )) der Beobachtungspaare ( xν , yν ) .
Der Rangkorrelationskoeffizient misst die Stärke des monotonen Zusammenhanges.
Werte bei 1 deuten auf einen gleichgerichteten, Werte bei -1 auf einen
entgegengesetzten und Werte um 0 auf einen fehlenden Zusammenhang hin.
n
rs =
∑ ( R( xν ) − R( xν ) )( R( yν ) − R( yν ) )
ν =1
n
n
∑ ( R( xν ) − R( xν ) ) ∑ ( R( yν ) − R ( yν ) )
ν =1
2
.
2
ν =1
Lernmodul Streudiagramme und Korrelation
8
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Der Korrelationskoeffizienten
Der Korrelationskoeffizient rXY von Bravais-Pearson ist ein Maß für die Stärke
sowie die Richtung eines linearen Zusammenhangs. Dabei ist sXY die Kovarianz
rXY =
sXY
=
s X ⋅ sY
und sX und sY sind die Standardabweichung der Beobachtungen.
xy − x ⋅ y
( x − x )( y − y )
2
2
2
2
Lernmodul Streudiagramme und Korrelation
Zeitreihen von Messzahlen
Die Basisperiode ist oft die erste Periode einer betrachteten Zeitreihe. Mit dem
Wert x0 der Basisperiode erhalten wir die Zeitreihe:
M 0,1 ,..., M 0,t ,... mit M 0,t =
WertderBerichtsperiode xt
= .
WertderBasisperiode
x0
Auf diese Weise erhalten wir Messzahlen, die die Entwicklung einer wirtschaftlichen
Größe mit Bezug auf die Basisperiode widerspiegeln. Sie werden oft in Prozent
angegeben.
Lernmodul Indexrechnung
Umbasierung von Zeitreihen
Werden zwei Zeitreihen von Messzahlen mit unterschiedlichen Basisperioden
verglichen, so muss die Entwicklung einer Zeitreihe auf die Basisperiode der
anderen Reihe bezogen werden; formal gesprochen muss eine Zeitreihe umbasiert
werden. Ist t 0 die ursprüngliche Basisperiode und soll t1 die neue Basisperiode
sein, so bilden wir die Quotienten M t ,t / M t ,t
0
0 1
M t1 ,t =
M t0 ,t
M t 0 ,t1
xt
xt
x
= 0 = t.
xt1 xt
1
xt 0
Lernmodul Indexrechnung
9
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Verkettung von Zeitreihen
Liegen für dieselbe Größe zwei Messzahlenreihen vor, die für unterschiedliche
Zeiträume bestimmt wurden, dann können wir diesen beiden Messzahlenreihen
verknüpfen und eine längere Zeitreihe daraus bilden. Diese Verknüpfung wird als
Verkettung bezeichnet.
M t(v,t) = M t(1),t ⋅ M t(2)
,t =
0
0 1
1
xt1
xt0
⋅
xt
x
= t.
xt1 xt0
Seien M (1) die Messzahlen des ersten Teils und M (2) die des zweiten. Dann
t0 ,t
t1,t
ergeben sich die Messzahlen M ( v ) der verketteten Zeitreihe, bei der t 0 die
t0 ,t
Basisperiode ist:
Lernmodul Indexrechnung
Der Laspeyres-Index
In wirtschaftlichen Zusammenhängen ergibt sich häufig die Problemstellung, die
durch verschiedene Messzahlen erfasste zeitliche Entwicklung von Preisen,
Absatzzahlen oder Umsätzen durch eine einzige Kenngröße zu erfassen. Eine solche
kollektive Kenngröße für eine Vielzahl von Einzelentwicklungen ist eine Indexzahl.
n
I L = ∑ M 0,i t g i ,0
i =1
Lernmodul Indexrechnung
10
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Der Mengenindex von Laspeyres
Ein Mengenindex drückt die mengenmäßige Veränderung eines Warenkorbes
zwischen verschiedenen Zeiträumen aus.
Q0,Lt
=∑
gi ,0 =
Lernmodul Indexrechnung
Der Paasche-Index
Der Paasche-Index ist ein gewichtetes harmonisches Mittel von Messziffern, bei
dem die Gewichte aus der Berichtsperiode stammen.
n
qi ,t
i =1 qi ,0
gi =
qi ,0 pi ,0
∑ q j,0 p j,0
j
∑ pi,0 qi, t
∑ pi,0qi,0
∑ pi, t qi, t
Q0,Pt =
∑ pi, t qi,0
n 1

I = ∑ i gi ,t 
 i =1 M 0,t

−1
P
Lernmodul Indexrechnung
Der Preisindex P0,Pt von Paasche
Ein Preisindex drückt die preisliche Veränderung eines Warenkorbes zwischen
verschiedenen Zeiträumen aus.
P0,Pt =
∑ pi,t qi,t
∑ pi,0 qi,t
Lernmodul Indexrechnung
Der Fisher-Index
Das geometrische Mittel aus Laspeyres- und Paasche-Index ist der Fisher-Index.
I F = I LI P
Lernmodul Indexrechnung
11
FORMELSAMMLUNG NEUE STATISTIK
DESKRIPTIVE STATISTIK
Der Umsatzindex
Ein Wert- bzw. Umsatzindex drückt die wertmäßige Veränderung eines
Warenkorbes zwischen verschiedenen Zeiträumen aus.
U 0,L t = U 0,Pt =
∑ pi,t qi,t
∑ pi,0 qi,0
Lernmodul Indexrechnung
Der Gesamtpreisindex nach Laspeyres
Lernmodul Indexrechnung
n
∑in= 1 pi , tq i,0 ∑ m
i = 1 pi , t qi ,0 + ∑ i = m + 1 pi , tq i,0
P0,Lt =
=
=
∑in= 1 pi, 0qi ,0
∑in = 1 pi ,0 qi ,0
P0,Lt (I ) ⋅ g I + P0,Lt ( II ) ⋅ g II
12
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Gleichmöglichkeitsmodell
N =| Ω |
Die Ergebnismenge Ω der eines Zufallsexperimentes habe
mögliche
Ergebnisse. Dann wird im Gleichmöglichkeitsmodell die Wahrscheinlichkeit für ein
Ereignis
A
als Quotient der Anzahl
P( A) =
| A|
N
A der zum Ereignis A gehörigen Ergebnisse
und der Anzahl aller Ergebnisse definiert:
P( A) =
| A|
N
.
Man spricht hier auch von der Laplacesche Definition der Wahrscheinlichkeit.
Lernmodul Statistische Wahrscheinlichkeit
Bedingte Wahrscheinlichkeit
Die bedingte Wahrscheinlichkeit
P( A | B) gibt an, mit welcher Wahrscheinlichkeit
das Ereignis A eintritt, wenn vorausgesetzt wird, dass das Ereignis
eintritt bzw. eingetreten ist.
B
P( A | B) =
P( A ∩ B )
.
P( B )
ebenfalls
Lernmodul Statistische Wahrscheinlichkeit
Multiplikationssatz
P( A ∩ B) = P ( A | B) ⋅ P( B).
Als Multiplikationssatz wird die sich aus der Definition der
bedingten Wahrscheinlichkeit ergebende Darstellung der Wahrscheinlichkeit des
Durchschnittes A ∩ B als Produkt der bedingten Wahrscheinlichkeit und der
Wahrscheinlichkeit des bedingenden Ereignisses bezeichnet.
Lernmodul Statistische Wahrscheinlichkeit
13
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Satz der totalen Wahrscheinlichkeit
P( B) = P( B ∩ A1 ) + ⋅ ⋅ ⋅ + P( B ∩ Ak )
Gegeben seien k Ereignisse
= P(B | A1) ⋅ P( A1 ) + ⋅ ⋅ ⋅ + P( B | Ak ) ⋅ P( A k )
A1,..., Ak , die sich gegenseitig einander ausschließen
und zusammen den Stichprobenraum ergeben:
Ai ∩ A j = Ø
UA
k
i
i , j = 1,..., k ; i ≠ j
für
=Ω
i =1
Weiterhin sei ein Ereignis
P( B) > 0 .
B
gegeben, dessen Wahrscheinlichkeit größer als null ist,
Dann lässt sich die Wahrscheinlichkeit des Ereignisses
Wahrscheinlichkeiten der Durchschnitte
B ∩ Ai
B
als Summe der
darstellen.
Lernmodul Statistische Wahrscheinlichkeit
Satz von Bayes
Das Theorem (oder auch Formel) von Bayes stellt einen Zusammenhang zwischen
bedingten Wahrscheinlichkeiten P( Ai | B) und P( B | Ai ) und her, wobei A1,..., Ak
eine Zerlegung des Stichprobenraumes
Ω
bilden.
P( Ai | B ) =
P( B | A i )P (Ai )
.
P( B | A1 )P ( A1 ) + ⋅ ⋅ ⋅ + P ( B | Ak ) P ( Ak )
dabei wird
P ( B) > 0 vorausgesetzt.
Lernmodul Statistische Wahrscheinlichkeit
14
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Unabhängigkeit von Ereignissen
P( A ∩ B) = P( A) ⋅ P( B)
Zwei Ereignisse A und B heißen unabhängig, wenn die Wahrscheinlichkeit für den
Durchschnitt der beiden Ereignisse gleich dem Produkt der
Einzelwahrscheinlichkeiten ist.
Lernmodul Statistische Wahrscheinlichkeit
Diskrete Randverteilungen
Wenn für zwei Zufallsvariablen X und Y eine gemeinsame
Wahrscheinlichkeitsverteilung gegeben ist, so heißen die Verteilungen der einzelnen
Zufallsvariablen ihre Randverteilungen. Bei diskreten Zufallsvariablen ergeben sich
die beiden Wahrscheinlichkeitsfunktionen von X und Y aus der gemeinsamen
Wahrscheinlichkeitsfunktion.
pi• = P( X = xi ) = P ( X = xi , Y = y1 ) + ... +
P( X = xi ,Y = yJ )
(i = 1,..., I )
p• j = P(Y = y j ) = P( X = x1 , Y = y j ) + ... +
P( X = x I , Y = y j )
( j = 1,..., J )
Lernmodul Statistische Wahrscheinlichkeit
Erwartungswert
Der Erwartungswert einer Zufallsvariablen X ist eine Maßzahl für das Niveau der
Verteilung einer Zufallsvariablen. Die theoretische Varianz ist eine Maßzahl für die
Streuung der Verteilung einer Zufallsvariablen X . Sie ist die erwartete
quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert.
 I
( xi − µ ) 2 pi
für diskretes X
∑

σ 2 = V ( X ) =  i=1
 ∞ ( x - µ ) 2 f (x ) dx für stetiges X
 ∫-∞
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
15
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Theoretische Varianz
Die theoretische Varianz ist eine Maßzahl für die Streuung der Verteilung einer
Zufallsvariablen X . Sie ist die erwartete quadratische Abweichung der
Zufallsvariablen von ihrem Erwartungswert.
 I
2
für diskretes X
 ∑ ( xi − µ ) pi
2
i
=
1
σ = V (X ) = 
 ∞ ( x - µ ) 2 f (x ) dx für stetiges X
 ∫-∞
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
Theoretische Standardabweichung
Die theoretische Standardabweichung beschreibt die Streuung der Realisationen um
das arithmetische Mittel bzw. den Erwartungswert.
σ X = σ X2 = V ( X )
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
Eigenschaften von Erwartungswert und Varianz
E (a + bX ) = a + bE( X )
∑ g ( xi ) pi

E ( g (X )) =  i
∞

g (x )dx
∫−∞
X diskret
X stetig
V (a + bX ) = b 2V ( X )
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
V ( X ) = E ( X 2) − E ( X ) 2.
16
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Standardisierung einer Zufallsvariablen
Die Standardisierung einer Zufallsvariablen X ist die Transformation, bei der der
Erwartungswert subtrahiert und sie anschließend durch die Standardabweichung
dividiert wird. Die Standardisierung ergibt die standardisierte Variable
Erwartungswert 0 und die Varianz 1 hat.
Z , die den
Z=
X − µX
σX
E (Z ) = 0, Var( Z ) = 1
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
Tschebychev-Ungleichung
Für Zufallsvariable
X
E ( X ) = µ und Varianz V ( X ) = σ gibt
mit Erwartungswert
2
die Tschebychev-Ungleichung an, mit welcher Mindestwahrscheinlichkeit
Wert aus dem k-fachen zentralen Schwankungsintervall annimmt.
X
P( µ − k σ ≤ X ≤ µ + kσ ) ≥ 1 −
1
k
2
einen
Lernmodul Diskrete Wahrscheinlichkeitsverteilungen
Kovarianz zweier Zufallsvariablen
Die Kovarianz zweier Zufallsvariablen
Zusammenhang.
X
und
Y
erfasst den linearen
Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen
I
J

falls X und Y diskret
 ∑∑(xi − µX )(y j − µY ) pij
 i=1 j=1
Cov( X , Y ) =  ∞ ∞

(x − µ X )(y − µY ) f (x , y) dxdy falls X und Y stetig.
∫ ∫
−∞−∞
Cov( X , Y ) = E [( X −µ X )(Y − µY )]
17
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Korrelationskoeffizient zweier Zufallsvariablen
Der Korrelationskoeffizient zweier Zufallsvariablen
den linearen Zusammenhang.
X
und
Y
ist eine Maßzahl für
ρ XY = Cor ( X , Y ) =
Cov( X, Y )
V ( X ) V (Y )
Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen
Bedingte diskrete Wahrscheinlichkeitsverteilung
Die Wahrscheinlichkeitsverteilung der diskreten Zufallsvariablen Y unter der
Voraussetzung, dass ein Wert von X gegeben ist, heißt bedingte
Wahrscheinlichkeitsverteilung.
Analog ist die bedingte Wahrscheinlichkeitsverteilung von
{Y = y } definiert.
X bei gegebenem
P(Y = y j | X = xi ) =
P( X = xi , Y = y j )
P ( X = xi )
P( X = xi ,Y = y j )
P( X = xi | Y = y j ) =
P(Y = y j )
( j = 1,..., J ).
( i = 1,..., I ).
j
Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen
Unabhängigkeit von diskreten Zufallsvariablen
P( X = xi , Y = y j ) = P ( X = xi ) P(Y = y j ) (i =1,..., I , j =1,..., J )
Zwei diskrete Zufallsvariablen X und Y heißen unabhängig, wenn die gemeinsame
Wahrscheinlichkeitsfunktion gleich dem Produkt der einzelnen
Wahrscheinlichkeitsverteilungen ist.
Lernmodul Gemeinsame Wahrscheinlichkeitsverteilungen
18
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Wahrscheinlichkeitsfunktion für die hypergeometrische Verteilung
 M  N − M 
 

x  n − x 

f ( x) = P( X = x) =
N 
 
n
für max {0, n − ( N − M )} ≤ x ≤ min{n, M }.
Lernmodul Diskrete Verteilungsmodelle
Maßzahlen der hypergeometrische Verteilung
Wahrscheinlichkeitsfunktion der Binomialverteilung
Lernmodul Diskrete Verteilungsmodelle
Maßzahlen der Binomialverteilung
(Ansonsten ist f ( x) gleich null.)
E( X ) =
nM
nM  M  N − n
, V (X ) =
.
1− 
N
N 
N  N −1
n
f ( x) = P( X = x ) =   p x (1 − p ) n− x (x = 0,1,..., n )
 x
(Ansonsten ist f ( x ) null.)
E ( X ) = np, V ( X ) = np (1 − p ).
19
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Wahrscheinlichkeitsfunktion der Poisson-Verteilung
Lernmodul Diskrete Verteilungsmodelle
λx
x!
(Ansonsten ist f ( x ) null.)
f ( x) = P( X = x) = e − λ
(x = 0,1,2....)
Maßzahlen der Poisson-Verteilung
E ( X ) = λ,
Reproduktionseigenschaft der Poisson-Verteilung
X : PO ( λ ), Y : PO (κ ), X und Y unabhängig
⇒ X + Y : PO ( λ + κ )
Wahrscheinlichkeitsfunktion der geometrischen Verteilung
f ( x) = P( X = x ) = p(1 − p ) x (x = 0,1,2,...)
(Ansonsten ist f ( x ) null.)
Lernmodul Diskrete Verteilungsmodelle
Eigenschaften von Verteilungsfunktionen
V ( X ) = λ.
x1 < x2 ⇒ F ( x1 ) ≤ F ( x2 )
F ( x) → 1 für x → ∞,
F ( x) → 0 für x →−∞
Lernmodul Diskrete Verteilungsmodelle
0 ≤ F ( x) ≤ 1.
Verteilungsfunktion der geometrischen Verteilung
F ( x) = 1 − (1 − p ) x +1 ( x = 0,1,2,...)
Lernmodul Diskrete Verteilungsmodelle
20
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Maßzahlen der geometrischen Verteilung
Wahrscheinlichkeitsfunktion der negativen Binomialverteilung
Lernmodul Diskrete Verteilungsmodelle
Maßzahlen der negativen Binomialverteilung
Lernmodul Diskrete Verteilungsmodelle
Theoretische Quantile
E( X ) =
1− p
1− p
, V (X ) = 2
p
p
f (0) = p k
x −1+ k
f (x ) =
(1 − p ) f ( x −1)
x
E( X ) =
k (1 − p )
,
p
V (X ) =
x p = F −1 ( p)
( x = 1,2,...)
k (1 − p)
p2
0 < p < 1.
Lernmodul Stetige Verteilungsmodelle
Dichtefunktion einer stetigen Verteilung
Die Dichtefunktion einer stetigen Verteilung ist dadurch charakterisiert, dass das
bestimmte Integral über ein Intervall die Wahrscheinlichkeit ergibt, mit der eine
zugehörige Zufallsvariable einen Wert aus diesem Intervall annimmt.
b
P( a < X ≤ b) = ∫ f (t )dt.
a
Lernmodul Stetige Verteilungsmodelle
21
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Dichtefunktion der stetigen Gleichverteilung
Gleichverteilung über dem Intervall [0,1].
1 für 0 ≤ x < 1
f (x) = 
0 sonst
Lernmodul Stetige Verteilungsmodelle
Verteilungsfunktion der stetigen Gleichverteilung
Gleichverteilung über dem Intervall [0,1].
Lernmodul Diskrete Verteilungsmodelle
Maßzahlen der stetigen Gleichverteilung
Gleichverteilung über dem Intervall [0,1].
x<0
0 für

F ( x) =  x für 0 ≤ x < 1
1 für
x ≥1

1
E ( X ) = ∫ x ⋅1 dx = 0.5
0
1
Lernmodul Stetige Verteilungsmodelle
V ( X ) = ∫( x − 0.5) 2 ⋅1 dx =
0
Verteilungsfunktion der Exponentialverteilung
Lernmodul Stetige Verteilungsmodelle
Dichtefunktion der Exponentialverteilung
1 − e −λ t
F ( t) = 
 0
für t ≥ 0
.
für t < 0
 λe −λ t
f (t ) = F (t ) = 
 0
'
1
12
für t ≥ 0
.
für t < 0
22
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Maßzahlen der Exponentialverteilung
Dichtefunktion der Laplace-Verteilung
Lernmodul Stetige Verteilungsmodelle
Verteilungsfunktion der Pareto-Verteilung
Lernmodul Stetige Verteilungsmodelle
Maßzahlen der Pareto-Verteilung
∞
∞
2
1
1
 1
E (T ) = ∫ tf (t) dt = , V (T ) = ∫  t −  f ( t) dt = 2
λ
λ
λ
0
0
f (x ) =
λ −λ |x − µ |
e
2
 0

F ( x) =   k α
1-  x 
  
für
x≤k
für
x>k
α
k falls α > 1,
α −1
α
V (X)=
k 2 falls α > 2.
2
(α − 1) (α − 2)
E( X ) =
23
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Approximation der Binomialverteilung
Für große n lassen sich die Binomialwahrscheinlichkeiten durch die entsprechenden
Werte der Dichtefunktion der Normalverteilung approximieren.
n x
n− x
  p (1 − p ) :
 x
dabei ist
z=
2
1
e − z / 2;
2π np(1 − p)
x − np
.
np(1 − p)
Lernmodul Normalverteilung
Dichte der Normalverteilung
f (x ) =
Lernmodul Normalverteilung
Standardnormalverteilung
Die Standardnormalverteilung ist die Normalverteilung mit dem Erwartungswert
null und der Varianz eins,
1
2πσ 2
e
−
1 ( x −µ )2
2 σ2
Z : N (0,1).
µ = 0 und σ 2 = 1 .
Lernmodul Normalverteilung
Grenzwertsatz von de Moivre und Laplace
Lernmodul Normalverteilung
Falls X binomialverteilt ist, X ~ B( n , p ) , so gilt bei
genügend großem n :
k −µ
P( X ≤ ko ) ≈ Φ  o

 σ 
24
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Dichtefunktion der logarithmischen Normalverteilung
Lernmodul Normalverteilung
Maßzahlen der logarithmischen Normalverteilung
Lernmodul Normalverteilung
Dichte der bivariaten Normalverteilung
0


 (ln( x) − µ N ) 2 
f (x) =  1
1
.
.exp
−

 2πσ 2 x
2σ N2


N


σ2
E ( X ) = exp  µ N + N
2

für x ≤ 0
für x > 0

2
2
 , V ( X ) = exp ( 2 µ N + σ N ) exp(σ N ) − 1

 1 ( x−µ1)2
x−µ1 y−µ2 (y−µ2)2
−
f (x,y) =
.exp
−
2
ρ
⋅
+ 2 
2 
2
2

2(1
−
ρ
)
σ
σ
σ
σ2 
2πσσ
1
−
ρ
1
1
2

1 2



1
Lernmodul Normalverteilung
25
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Zentraler Grenzwertsatz
Der Zentrale Grenzwertsatz besagt im einfachsten Fall, dass die Verteilung der
standardisierten Summe einer Folge von unabhängigen Zufallsvariablen
X1 , X 2 ,..., X n ,... mit Erwartungswert µ und Varianz σ 2 für n → ∞ gegen die
Standardnormalverteilung N (0,1) konvergiert,
P( Zn ≤ z ) → Φ ( z )
für
n → ∞,
X1, X 2 ,...
Zufallsvariablen mit Erwartungswert
σ
2
µ
n
und Varianz
n
∑ X i − nµ
unabhängigen,
identisch verteilten Zufallsvariablen mit Erwartungswert
und Varianz
große n durch eine Normalverteilung angenähert werden kann.
µ
. Dann gilt:
Zn =
Praktisch bedeutet dies, dass die Verteilung einer Summe von
sei eine Folge von unabhängigen
i =1
nσ 2
Zn :& N (0,1) ( n → ∞)
σ 2 für
Lernmodul Normalverteilung
Anzahl von Permutationen ohne Wiederholung
Man kann N verschiedene Objekte auf N ⋅( N −1) ⋅L⋅1=N ! verschiedene Weisen
anordnen. N ! wird als N-Fakultät bezeichnet. Speziell wird 0!=1 gesetzt.
N ⋅ ( N −1) ⋅L⋅ 1 = N !
0! = 1
Lernmodul Exkurs Kombinatorik
26
FORMELSAMMLUNG NEUE STATISTIK
WAHRSCHEINLICHKEITSRECHNUNG
Anzahl von Permutationen mit Wiederholung
Man kann
N
Objekte, die in Teilgruppen
n1, n2 ....nk
zerlegt werden können und bei
N!
n1 !⋅ n2 !.....
⋅ ⋅ nk !
n
denen alle Elemente jeder Teilgruppe i nicht zu unterscheiden sind, in
N!
n1 !⋅ n2 !.....
⋅ ⋅ nk !
verschiedenen Abfolgen anordnen, wobei
n1 + n2 +..... + nk = N gilt.
Lernmodul Exkurs Kombinatorik
1. Kombinationsregel
Sollen
k
Objekte in bestimmter Reihenfolge aus
so ergeben sich insgesamt
n
Objekten ausgewählt werden,
n !/ ( n − k )! mögliche Variationen für die k Objekte.
n
n!
n!
× k!=
 × k!=
k !× ( n − k ) !
( n − k )!
k 
Anders ausgedrückt gibt es folgende Möglichkeiten.
Lernmodul Exkurs Kombinatorik
27
FORMELSAMMLUNG NEUE STATISTIK
ERHEBUNGSVERFAHREN
Auswahlwahrscheinlichkeit der Einzelelemente bei der einfachen
Zufallsstichprobe
die Auswahlwahrscheinlichkeit der Einzelelemente bei der einfachen
Zufallsstichprobe ist stets
n
N
.
Lernmodul einfache Zufallsstichprobe
Anzahl möglicher Realisierungen von einfachen Zufallsstichproben
Die Anzahl der möglichen einfachen Zufallsstichproben (ohne Zurücklegen) vom
Umfang n aus einer Population mit N Elementen ist gleich:
 N − 1


n 
( N − n )  N − N + n n

p ( Element i) = 1 −
= 1− 
=
=
N
N
N
 N 
 
n 
pi =
n
N
N
N!
n  =
  n !( N − n)!
Lernmodul einfache Zufallsstichprobe
Berechnen von Auswahlwahrscheinlichkeiten
Die Berechnung der Wahrscheinlichkeit p, dass ein bestimmtes Element i einer
Grundgesamtheit vom Umfang N Teil einer einfachen Zufallsstichprobe vom Umfang
n wird, ist für jedes Element gleich:
pi =
n
N
Lernmodul einfache Zufallsstichprobe
28
FORMELSAMMLUNG NEUE STATISTIK
ERHEBUNGSVERFAHREN
Die Schätzformel für den Mittelwert einer Variablen in der
Grundgesamtheit bei einer geschichteten Stichprobe
H
yˆ =
∑ wh ∗ yh
h =1
H
∑ wh
Lernmodul Geschichtete Zufallsstichprobe
h =1
Auswahlwahrscheinlichkeit bei proportional geschichteten Stichproben
Lernmodul Geschichtete Zufallsstichprobe
Auswahlwahrscheinlichkeit bei disproportional geschichteten Stichproben
pi =
pih =
nh
Nh
whi =
Nh
1
1
=
=
nh
nh
phi
Nh
Lernmodul Geschichtete Zufallsstichprobe
Gewichtung bei disproportional geschichteten Stichproben
Gewicht des Elements i in der Schicht h
n
N = n
Nh
N
Nh ∗
Lernmodul Geschichtete Zufallsstichprobe
29
FORMELSAMMLUNG NEUE STATISTIK
ERHEBUNGSVERFAHREN
Schätzformel für den Mittelwert bei disproportional geschichteten
Stichproben
H
yˆ =
∑ wh ∗ yh
h =1
H
∑ wh
Lernmodul Geschichtete Zufallsstichprobe
Neyman-Aufteilung
Teilen wir die Grundgesamtheit in insgesamt H disjunkte Schichten vom Umfang Nh
ein, dann ergibt sich für die Schicht h als „optimaler“ Umfang ein
Stichprobenumfang von n:
Lernmodul Klumpenstichprobe
Auswahlwahrscheinlichkeit der Einzelelemente bei der Klumpenstichprobe
Bezeichnet n die Anzahl der Klumpen in der Stichprobe und N die Zahl aller in der
Population vorkommenden Klumpen, dann beträgt die Auswahlwahrscheinlichkeit
h =1
nh = n
N hσ h
H
∑N σ
h
h
h =1
σh
ist die Standardabweichung in der Schicht h
(n/
N)
*1
für jeden Klumpen n / N . Da die Auswahlwahrscheinlichkeit jedes Elements
innerhalb eines Klumpens gleich 1 ist, ist die Auswahlwahrscheinlichkeit für ein
Einzelelement
(n/
N ) *1, also gleich n / N .
Lernmodul Klumpenstichprobe
30
FORMELSAMMLUNG NEUE STATISTIK
ERHEBUNGSVERFAHREN
Designeffekt
Der Designeffekt ist definiert als das Verhältnis des Standardfehlers (SE) einer
Stichprobenkenngröße eines gegebenen Stichprobenplans zum Standardfehler einer
Stichprobenkenngröße einer einfachen Zufallsstichprobe. Am Beispiel des
Mittelwerts lässt sich „deft“ definieren als:
deft y =
SEy sample
SEy srs
Lernmodul Klumpenstichprobe
Schätzung Designeffekt
Für große Stichproben lässt sich der Designeffekt einer Klumpenstichprobe für die
Schätzung des Mittelwert annähern, wobei M die Anzahl der Elemente im Klumpen
ist.
deft y =
SE ycluster
SEy srs
= [1 + (M − 1) ρ ]
Lernmodul Klumpenstichprobe
Der Intraklassenkorrelationskoeffizient
ρ
ρ = Intraklassenkorrelations-koeffizient
N= Anzahl der Klumpen
N
ρ=
N
∑∑∑ ( yij − y )( yik − y )
i =1 j =1 k ≠ j
M= Anzahl der Elemente
SSW = Summe der Quadrate innerhalb der Klumpen („sum of squares within“)
SST = Summe aller Quadrate („sum of squares total“)
M = die Anzahl der Elemente im Klumpen.
M
ρ = 1−
( NM − 1)( M − 1) S
2
M  SSW 


M − 1  SST 
Lernmodul Klumpenstichprobe
31
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Schätzfunktion
Eine Schätzfunktion θˆ für einen Parameter θ ist eine Stichprobenfunktion,
deren Realisationen als Näherungswerte (Schätzwerte) für den unbekannten
Parameterwert θ verwendet werden.
θˆ = g ( X1 ,..., X n )
Lernmodul Grundlagen
Erwartungstreue Schätzfunktion
Eine Schätzfunktion θˆ heißt erwartungstreu oder unverzerrt (unbiased) für den
Parameter θ , wenn sie den wahren Parameterwert θ im Mittel trifft.
E (θˆ) = E(θˆ( X1 ,..., X n )) = θ
für alle
θ
Lernmodul Weitere Eigenschaften von Punktschätzern
Bias
Der Bias (Verzerrung) ist die systematische Abweichung, die eine
Schätzfunktion vom zu schätzenden Parameter aufweist.
b(θˆ ,θ ) = E (θˆ) − θ
Lernmodul Weitere Eigenschaften von Punktschätzern
32
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Asymptotische Erwartungstreue
Eine Schätzfunktion heißt asymptotisch erwartungstreu oder unverzerrt, wenn
der Bias bei gegen unendlich strebendem Stichprobenumfang n gegen Null
geht.
lim E( θˆ) = θ für alle θ .
n →∞
Lernmodul Weitere Eigenschaften von Punktschätzern
Konsistenz
Eine Schätzfunktion θˆ heißt konsistent, wenn der mittlere quadratische Fehler
mit wachsendem Stichprobenumfang gegen null geht (1). Alternative Definition:
Eine Schätzfunktion θˆ heißt konsistent, wenn sie zumindest asymptotisch
lim MQF (θˆ ,θ ) = 0 (1)
n →∞
lim E (θˆ) = θ und lim V (θˆ) = 0
n→∞
n→∞
(2)
erwartungstreu ist und die Varianz des Schätzers mit zunehmendem
Stichprobenumfang gegen Null geht. (2)
Lernmodul Weitere Eigenschaften von Punktschätzern
Mittlerer quadratischer Fehler (MQF)
Der mittlere quadratische Fehler einer Schätzfunktion θˆ gibt die erwartete
quadratische Abweichung des Schätzers vom wahren Parameterwert an (1). Der
mittlere quadratische Fehler kann zerlegt werden in die Summe aus der Varianz
des Schätzers und dem quadrierten Bias : (2)
( )
(
( )
( )
)
2
MQF θˆ,θ = E  θˆ − θ  (1).


2
( )
MQF θˆ,θ =  b θˆ ,θ  + Var θˆ (2).


Lernmodul Weitere Eigenschaften von Punktschätzern
33
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Alpha-getrimmtes Mittel
Das
für
α -getrimmte Mittel ist eine robuste Alternative zum Mittelwert als Schätzer
µ . Die Anwendung sollte nur dann erfolgen, wenn die X v aus einer
Verteilung stammen, die symmetrisch ist.
Xα =
1 n −r
∑X ,
n − 2r v =r +1 ( v )
wobei
r die größte ganze Zahl ist, die die Ungleichung
r ≤ nα erfüllt.
Lernmodul Robustheit
Schätzer für den Parameter Sigma^2 der Normalverteilung
S2
ist ein konsistenter Schätzer für die Varianz
σ2.
S2 =
1 n
( X v − X )2
∑
n -1 v =1
Lernmodul Vorstellung weiterer Schätzer
Wahrscheinlichkeitsdichte der Chi^2-Verteilung
Die stetige Verteilung mit der Wahrscheinlichkeitsdichte (1) heißt
χ − Verteilung. Γ
2
ist die Gamma -Funktion (2).
1

yν / 2−1e − y / 2
 ν /2
fν ( y ) =  2 Γ(ν /2)
0

y≥0
(1)
y<0
∞
Lernmodul Vorstellung weiterer Schätzer
Γ (k ) = ∫ xk −1e − x dx
(2)
0
34
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
MAD
Der MAD (=Median Absolute Deviation) ist ein robuster Streuungsschätzer. Um
einen konsistenten Schätzer für die Standardabweichung σ unter
Normalverteilung zu erhalten, muss der MAD mit dem Korrekturfaktor 1.4826
multipliziert werden.
MAD = median { x1 − x% , x2 − x% ,K , xn − x% }
Lernmodul Vorstellung weiterer Schätzer
Relative Effizienz
Die relative Effizienz
η
eines erwartungstreuen Schätzers
θˆ2
im Vergleich zu
θˆ1 für denselben Parameter θ
θˆ und der Varianz von θˆ .
einem anderen erwartungstreuen Schätzer
definiert als der Quotient der Varianz von
1
V (θˆ1)
η = η (θˆ2 ,θˆ1) =
V (θˆ2 )
ist
2
Lernmodul Auswahl von Schätzfunktionen
Asymptotische relative Effizienz
Den Grenzwert der relativen Effizienz bezeichnet man als die asymptotische
relative Effizienz von
θˆ2
bezüglich
η ∞ = lim η (θˆ2 ,θˆ1 )
n →∞
θˆ1 .
Lernmodul Auswahl von Schätzfunktionen
35
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Wahrscheinlichkeitsdichte der Laplace-Verteilung
Die Laplace-Verteilung ist eine stetige Verteilung mit der
Wahrscheinlichkeitsdichte (1).
Skalenparameter, für den
µ
ist der Erwartungswert und
V ( X ) = 2b
2
b
ein
1 −
f ( x) = e
2b
x− µ
b
(1)
gilt.
Lernmodul Konfidenzintervall für My - Sigma bekannt
Konfidenzintervall
Ein Konfidenzintervall für einen Parameter
Stichprobenfunktionen
θ
ist ein Paar von
P ( gu ( X 1, X 2 ,..., X n ) ≤ θ ≤ go ( X 1 , X 2 ,..., X n ) ) ≥ 1 − α
gu , g o , die den wahren Parameterwert mit einer
vorgegebenen Mindestwahrscheinlichkeit einschließen: Die
Mindestwahrscheinlichkeit (1 − α ) wird als Konfidenzniveau bezeichnet.
Lernmodul Konfidenzintervall für My - Sigma bekannt
Schwankungsintervall für den Mittelwert
Das Intervall (1) ist das zentrale ( 1 − α )-Schwankungsintervall für den
Mittelwert bei Normalverteilung.

σ
σ 
µ − z1−α / 2 n , µ + z1−α / 2 n 


(1)
Lernmodul Konfidenzintervall für My - Sigma bekannt
36
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Konfidenzintervall für den Parameter
bekannt
Das Intervall (1) ist das
µ
der Normalverteilung,
σ
(1 − α ) − Konfidenzintervall für den Parameter µ der
σ . Die Breite des Intervalls berechnet sich
Normalverteilung bei bekanntem
nach (2).
[ µˆu , µˆo ] =  X − z1−α / 2

σ
σ 
, X + z1−α / 2
n
n 
B = µˆo − µˆu = 2 z1−α / 2
σ
n

(1)
(2)
Lernmodul Konfidenzintervall für My - Sigma bekannt
t-Verteilung
Die stetige Verteilung, mit der Wahrscheinlichkeitsdichte (1) heißt StudentVerteilung oder auch t-Verteilung.
Γ
ist die Gamma -Funktion (2).
Γ (ν 2+1 )  t 2 
fν (t ) =
1 + 
Γ(ν2 ) πν  ν 
− (ν +1 ) / 2
(1)
∞
Γ (k ) = ∫ xk −1e − x dx
Lernmodul Konfidenzintervall für My - Sigma unbekannt
Konfidenzintervall für den Parameter
unbekannt
µ
der Normalverteilung,
0
σ
(1 − α ) − Konfidenzintervall für den Parameter µ der
Normalverteilung bei unbekanntem σ . Die Breite des Intervalls berechnet sich
nach (2). Weil S eine Zufallsvariable ist, ist auch die Breite des
Das Intervall (1) ist das
[ µˆu , µˆo ] =  X − tν ;1−α / 2

S
S 
, X + tν ;1−α / 2
n
n 
B = µˆo − µˆu = 2 tν ;1−α / 2
S
n

Konfidenzintervalls eine Zufallsvariable mit dem Erwartungswert (3).
Lernmodul Konfidenzintervall für My - Sigma unbekannt
(2)
E (B) ≈ 2 tν ;1−α / 2
σ
n
(1)
(2)
(3)
37
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Konfidenzintervallfür Sigma^2 bei Normalverteilung
Das Intervall (1) ist das
(1 − α ) − Konfidenzintervall für den Parameter σ
2
der
Normalverteilung.
2
2

σ u2 , σ o2  =  (n −1) S , ( n −1) S 
2


χν2;α / 2 
 χν ;1−α / 2
(1)
Lernmodul Konfidenzintervall für Sigma
Konfidenzintervall für Sigma bei Normalverteilung
Das Intervall (1) ist das
(1 − α ) − Konfidenzintervall für den Parameter σ
der
Normalverteilung. Die Breite (2) des Konfidenzintervalls ist eine Zufallsvariable.
Statt der absoluten Breite werden häufig die relative Breite B/S bzw. die
relativen Abstände der Unter- und Obergrenze von S angegeben (3).
Lernmodul Konfidenzintervall für Sigma
 (n − 1)
(n − 1) 
S
,
S
2
χν2;α / 2 
 χν ;1−α / 2
[σ u , σ o ] = 
 n −1
B = σˆ o − σˆ u = 
−
 χν2;α / 2

σˆu
=
S
(n − 1)
χν2;1−α / 2
,
σˆ o
=
S
(1)
n − 1  (2)
S
χν2;1−α / 2 
( n − 1)
χν2;α / 2
(3)
38
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Konfidenzintervall für den Anteilswert p
Das Intervall (1) ist das approximative
Anteilswert
und
(1 − α ) − Konfidenzintervall für den
p . Die Breite des Konfidenzintervalls ergibt sich aus (2). Sind np
n(1 − p) hinreichend groß, so wird statt (1) gelegentlich die weiter
vereinfachte Form (3) verwendet.

z2
pˆ (1 − pˆ ) z12−α / 2
 pˆ + 1−α / 2 − z1−α / 2
+
2n
n
4n2 ,

p
ˆ
,
p
ˆ
=
[ u o] 
z2
(1)
1 + 1−α / 2

n

pˆ +
B = ˆpo − ˆpu =
Lernmodul Konfidenzintervall für p
z12−α / 2
pˆ (1 − pˆ ) z12−α / 2
+ z1−α / 2
+
2n
n
4n2
2
z
1 + 1−α / 2
n
2 z1−α / 2






pˆ (1 − pˆ ) z 12−α / 2
+
n
4n2 (2)
2
z
1 + 1−α / 2
n

pˆ (1 − pˆ )
pˆ (1 − pˆ ) 
, pˆ + z1−α / 2
 pˆ − z1−α / 2

n
n


(3)
39
FORMELSAMMLUNG NEUE STATISTIK
SCHÄTZEN
Bootstrap-Konfidenzintervall für My
Beim Bootstrap-Verfahren werden aus der empirischen Verteilungsfunktion
Fˆ ( x) wiederholt Stichproben mit Zurücklegen jeweils vom gleichen Umfang wie

sBasis 
ˆ sBasis
ˆ
 xBasis + tα / 2 n , xBasis + t1−α / 2 n 


(1)
die Ausgangsstichprobe gezogen. Die Verteilung der aus diesen
Replikaktionsstichproben ermittelten statistischen Maßzahlen dient dann als
Approximation für die tatsächliche Verteilung der Maßzahl. Sind xBasis und
sBasis
Mittelwert und Standardabweichung der Basisstichprobe, dann ist ein
Bootstrap-Konfidenzintervall für
µ
zum Konfidenzniveau
1−α
gegeben durch
(1). tˆα / 2 und tˆ1−α / 2 sind die Quantile, die sich aus den Replikationsstichproben
ergeben.
Lernmodul Bootstrap Konfidenzintervalle
40
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Signifikanztest
P( H0 ablehnen | H 0 wahr) ≤ α
P(Fehler 1. Art) ≤ α
Lernmodul Fehlerwahrscheinlichkeiten
Fehler 1.Art und Fehler 2.Art
Lernmodul Fehlerwahrscheinlichkeiten
Ablehnbereich
Der Ablehnbereich C ist ein Teil des Wertebereichs der Prüfgröße. Nimmt die
Prüfgröße einen Wert aus diesem Bereich an, so wird die Nullhypothese
abgelehnt.
PH 0 (T ∈ C ) ≤ α .
Im Sinne eines Signifikanztests wird der Ablehnbereich daher so gewählt, dass
folgende Ungleichung erfüllt ist:
Lernmodul Testentscheidungen
41
Wahrscheinlichkeitsverteilung
unter H0
Ablehnbereich C
Verwerfe H0,
wenn für die
Prüfgröße T
gilt
Berechnung des
kritischen Werts
Berechnung des
p-Werts
Test
Hypothesenart
Test A
H0 :" ≤ "
H1 :" > "
C = {t : t > c1−α }
T > c1−α
PH 0 (T > c1−α ) = α
PH 0 (T ≥ t ) = p
Test B
H0 :" ≥ "
H1 :" < "
C = {t : t < cα }
T < cα
PH0 (T < cα ) = α
PH 0 (T ≤ t ) = p
Test C
H0 :" = "
H1 :" ≠ "
C = {t : t < cα / 2 } ∪ T < cα / 2
{t : t > c1−α / 2} T > c1−α / 2
oder
PH0 (T < cα / 2 ) + PH0 (T > c1−α / 2 ) PH 0 (T ≤ tl ) + PH 0 (T ≥ tr )
=α
= p
Die Bilder zeigen beispielhaft eine Wilcoxon-Verteilung mit n=m=40. Die dunkelblauen Flächen stellen α .100% der Gesamtfläche dar.
42
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
P-Werte
à Verwirf H 0 , falls p < α
Der p-Wert ist die Wahrscheinlichkeit unter H 0 , den
à Behalte H 0 , falls p ≥ α
beobachteten Prüfgrößenwert oder ein in Richtung
Alternative extremeren Wert zu erhalten.
Eine Testentscheidung mit Hilfe des p-Wertes wird für
alle Testprobleme identisch durchgeführt:
Lernmodul Testentscheidungen
Wilcoxon-Rangsummen-Test: Annahmen
1) Die Daten müssen mindestens ordinal skaliert sein.
2) Die Stichproben
X
X1 ,K , X n , Y1 ,K ,Ym
3)
und
Y
sind voneinander unabhängig und
untereinander ebenfalls.
X1, K , X n
und
Y1, K , Ym
X
besitzen die gleiche Varianz.
besitzen die stetige Verteilungsfunktionen
F
bzw.
G.
Lernmodul Wilcoxon-Rangsummen-Test
4)
und
Y
43
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Wilcoxon-Rangsummen-Test: Hypothesen
Testformulierung über die Verteilung
Nullhypothese
Alternativhypothese
Test A
H 0 : G(z ) = F (z )
H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0
Test B
H 0 : G(z ) = F (z )
H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0
Test C
H 0 : G(z ) = F (z )
H1 : G( z ) = F (z −θ ) , z ∈¡ , θ > 0
Testformulierung über den Median
Wilcoxon-Rangsummen-Test: Prüfgröße,
Prüfverteilung
Nullhypothese
Alternativhypothese
Test A
H 0 : x% ≤ y%
H1 : %x > %y
Test B
H 0 : x% ≥ y%
H1 : x% < y%
Test C
H 0 : x% = y%
H1 : %x ≠ %y
n
1)
W = ∑ R( X i ) ~ WnN
i =1
2) für Stichproben mit n oder m > 25:
Z=
W − n (n + m + 1) / 2
mn( n + m + 1) / 12
Ho
~ N (0,1).
appr.
44
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Wilcoxon-Rangsummen-Test:Minimale und
maximale Rangsumme
Minimale Rangsumme:
WnN,min =
n( n + 1)
2
Maximale Rangsumme:
WnN,max =
n(2m + n + 1)
2
Wilcoxon-Rangsummen-Test: Ablehnbereich
Test A
1)
W < wα (n, m)
2)
Z < zα
Test B
1)
W > w1−α (n, m)
2)
Z > z1−α
Test C
1)
W < wα / 2 (n, m) oder
W > w1−α / 2 ( n, m)
2)
Z > z1−α / 2
45
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Wilcoxon-Rangsummen-Test: R-Befehl
Die Bibliothek „wicox.R“ muss geladen sein.
wil.test(x,y,alternative=”t”,a=0.5)
Argumente:
X,Y
numerischer Datenvektor
alternative
spezifiziert die Alternativhypothese:
a
„t“
=ˆ
H1 :" ≠ "
„g“
=ˆ
H1 :" > "
„l“
=ˆ
H1 :" < "
Signifikanzniveau alpha
Wilcoxon-Laborlink
46
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Gauß-Test Zweistichprobenfall: Annahmen
1) Grundgesamtheit 1
X1, K , X n unabhängig und identisch normalverteilt mit
X i ~ N (µ X ,σ X2 ), i = 1,K , n
2) Grundgesamtheit 2
Y1, K , Ym unabhängig und identisch normalverteilt mit
Y j ~ N (µ Y ,σ Y ), j = 1,K , m
2
3) Die Stichproben
X und Y sind voneinander unabhängig und
X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls
Lernmodul Gauß-Test für den Zweistichprobenfall
4)
σ X2 , σ Y2 bekannt
Gauß-Test Zweistichprobenfall: Hypothesen
Gauß-Test Zweistichprobenfall: Prüfgröße,
Prüfverteilung
Nullhypothese
Alternativhypothese
Test A
H 0 : µ x − µ y ≥ δ0
H1 : µ x − µ y < δ0
Test B
H 0 : µ x − µ y ≤ δ0
H1 : µ x − µ y > δ0
Test C
H0 : µx − µy = δ0
H1 : µ x − µ y ≠ δ0
Z=
X −Y
σ x2
n
+
σ 2y
~
N (0,1).
H0
m
47
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Gauß-Test Zweistichprobenfall: R-Befehl
Die Bibliothek „gauss.R“ muss geladen sein.
gauss.test(x,y,vx=1,vy=3,alternative=“t“,a=0.5,mu=0)
Argumente:
X,Y
numerischer Datenvektor
vx,vy
Angabe der entsprechenden Varianz
alternative
spezifiziert die Alternativhypothese:
„t“
=ˆ
H1 :" ≠ "
„g“
=ˆ
H1 :" > "
„l“
=ˆ
H1 :" < "
a
Signifikanzniveau alpha
mu
eine Zahl, die
δ 0 (Mittelwertsdifferenz) spezifiziert
Gauß-Laborlink
48
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Gauß-Test Zweistichprobenfall: Ablehnbereich
t-Test Zweistichprobenfall: Annahmen
Test A
Z < zα = − z1−α
Test B
Z > z1−α
Test C
Z > z1−α / 2
1) Grundgesamtheit 1
X1, K , X n unabhängig und identisch normalverteilt mit
X i ~ N (µ X ,σ X2 ), i = 1,K , n
2) Grundgesamtheit 2
Y1, K , Ym unabhängig und identisch normalverteilt mit
Y j ~ N (µ Y ,σ Y ), j = 1,K , m
2
3) Die Stichproben
X und Y sind voneinander unabhängig und
X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls
Lernmodul t-Test für den Zweistichprobenfall
4)
σ 2X , σ Y2
t-Test Zweistichprobenfall: Hypothesen
unbekannt, aber
σ 2X = σ Y2
Nullhypothese
Alternativhypothese
Test A
H 0 : µ x − µ y ≥ δ0
H1 : µ x − µ y < δ0
Test B
H 0 : µ x − µ y ≤ δ0
H1 : µ x − µ y > δ0
Test C
H0 : µx − µy = δ0
H1 : µ x − µ y ≠ δ0
49
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
t-Test Zweistichprobenfall: Prüfgröße,
Prüfverteilung
T=
X −Y − δ0
1 1 
 + S ²
n m
1)
n , m ≤ 30 : T ~ tn+ m−2
2)
n , m > 30 : T ~ N ( 0,1)
appr.
Gepoolter Varianzschätzer
n −1
m −1
1
S X2 +
S Y2 =
( n − 1) S X2 + ( m − 1) SY2
n+m−2
n + m −2
n+m−2
m
 n
2
1
2
=
 ∑ ( X i − X ) + ∑ Yj − Y  .

n + m − 2  i =1
j=1

(
S2 =
(
t-Test Zweistichprobenfall: Ablehnbereich
)
)
Test A
1)
T < tn+m−2;α = −tn+m −2;1−α
2)
Z < zα
Test B
1)
T > tn + m−2;1−α
2)
Z > z1−α
Test C
1)
T > tn +m−2;1−α / 2
2)
Z > z1−α / 2
50
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
t-Test Zweistichprobenfall: R-Befehl
t.test(x,y,alternative=„t“,mu=0,var.equal=FALSE,conf.level=0.95)
Argumente:
X,Y
numerischer Datenvektor
alternative
spezifiziert die Alternativhypothese:
„t“
=ˆ
H1 :" ≠ "
„g“
=ˆ
H1 :" > "
„l“
=ˆ
H1 :" < "
δ 0 (Mittelwertsdifferenz) spezifiziert
mu
eine Zahl, die
var.equal
[TRUE / FALSE]
logische Abfrage , ob die Varianzen
σ X2 und σ Y2 als gleich
oder ungleich behandelt werden sollen. Bei TRUE wird die
gepoolte Varianz verwendet, bei FALSE wird der Welch-Test
berechnet.
conf.level
Konfidenzwahrscheinlichkeit
1−α
t-Test -Laborlink
51
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Welch-Test: Annahmen
1) Grundgesamtheit 1
X1, K , X n unabhängig und identisch normalverteilt mit
X i ~ N (µ X ,σ X2 ), i = 1,K , n .
2) Grundgesamtheit 2
Y1, K , Ym unabhängig und identisch normalverteilt mit
Y j ~ N (µ Y ,σ Y ), j = 1,K , m .
2
3) Die Stichproben
X und Y sind voneinander unabhängig und
X1 ,K , X n , Y1 ,K ,Ym untereinander ebenfalls
Lernmodul Welch-Test
4)
σ 2X , σ Y2
Welch-Test: Hypothesen
unbekannt
Nullhypothese
Alternativhypothese
Test A
H 0 : µ x − µ y ≥ δ0
H1 : µ x − µ y < δ0
Test B
H 0 : µ x − µ y ≤ δ0
H1 : µ x − µ y > δ0
Test C
H0 : µx − µy = δ0
H1 : µ x − µ y ≠ δ0
52
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Welch-Test: Prüfgröße, Prüfverteilung
1)
2)
n, m ≤ 30 : T =
X − Y − δ0
 S X2 SY2 
+


n
m


appr.
~
H
tυ .
0
n , m > 30 : T ~ N ( 0,1)
appr.
Welch-Test: Freiheitsgrade
Freiheitsgrade unter
H0 :
2
 Sx2 SY2 
+


n
m

υ=
2
2
1  S 2X 
1  SY2 

 +
 
n −1 n  m −1 m 
falls nötig, ist υ auf eine ganze Zahl abzurunden
Welch-Test: Ablehnbereich
Test A
1)
T < tυ ;α = −tυ;1−α
2)
Z < zα
Test B
1)
T > tυ ;1−α
2)
Z > z1−α
Test C
1)
T > tυ ;1−α / 2
2)
Z > z1−α / 2
53
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Welch-Test: R-Befehl
t.test(x,y,alternative=„t“,mu=0,var.equal=FALSE,conf.level=0.95)
Argumente:
X,Y
numerischer Datenvektor
alternative
spezifiziert die Alternativhypothese:
„t“
=ˆ
H1 :" ≠ "
„g“
=ˆ
H1 :" > "
„l“
=ˆ
H1 :" < "
δ 0 (Mittelwertsdifferenz) spezifiziert
mu
eine Zahl, die
var.equal
[TRUE / FALSE]
logische Abfrage , ob die Varianzen
σ X2 und σ Y2 als gleich
oder ungleich behandelt werden sollen. Bei TRUE wird die
gepoolte Varianz verwendet, bei FALSE wird der Welch-Test
berechnet.
conf.level
Konfidenzwahrscheinlichkeit
1−α
Welch-Laborlink
54
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Gauß-Test Einstichprobenfall: Annahmen
Annahme 1:
σ2
bekannt
Lernmodul Gauß-Test und T-Test im Einstichprobenfall
Gauß-Test Einstichprobenfall: Hypothesen
Nullhypothese
Test A
H 0 : µ ≥ µ0
Test B
H 0 : µ ≤ µ0
Test C
Gauß-Test Einstichprobenfall: Prüfgröße
Gauß-Test Einstichprobenfall: Ablehnbereich
t-Test Einstichprobenfall: Annahmen
Z=
H 0 : µ = µ0
Alternative
gegen
gegen
gegen
H1 : µ < µ0
H1 : µ > µ 0
H1 : µ ≠ µ 0
( X − µ0 )
σ/ n
Verwirf H0, falls
Test A
Z < zα = − z1−α
Test B
Z > z1−α
Test C
Z > z1−α / 2
Annahme 2: σ 2 unbekannt.
Lernmodul Gauß-Test und T-Test im Einstichprobenfall
55
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
t-Test Einstichprobenfall: Hypothesen
Nullhypothese
Test A
H 0 : µ ≥ µ0
Test B
H 0 : µ ≤ µ0
Test C
t-Test Einstichprobenfall: Prüfgröße
t-Test Einstichprobenfall: Ablehnbereich
t=
H 0 : µ = µ0
gegen
gegen
gegen
H1 : µ < µ0
H1 : µ > µ 0
H1 : µ ≠ µ 0
(X − µ0 )
S/ n
Verwirf H0, falls
Test A
Test B
t < t n−1;α
t > tn−1;1−α
Test C
Sigma-Test: Annahmen
Alternative
t > t n−1;1−α / 2
Annahme 1:
µ bekannt oder
Annahme 2:
µ unbekannt.
Lernmodul Sigma -Test
56
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Sigma-Test: Hypothesen
Nullhypothese
Alternative
Test A
H 0 : σ 2 ≥ σ 02
gegen
H1 : σ 2 < σ 02
Test B
H 0 : σ 2 ≤ σ 02
gegen
H1 : σ 2 > σ 02
Test C
H 0 : σ 2 = σ 02
gegen
H1 : σ 2 ≠ σ 02
Sigma-Test: Prüfgröße
2
χ µ2
 X −µ 
= ∑ i

σ 
i =1 
χ x2
 Xi − X 
( n − 1) S 2
= ∑
 =
σ 
σ2
i =1 
n
n
bei bekanntem
µ
2
bei unbekanntem
µ
57
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Sigma-Test: Ablehnbereich
Fall 1: Testentscheidung bei
2
Test A H 0 ablehnen, falls χ µ
2
Test B H 0 ablehnen, falls χ µ
2
Test C H 0 ablehnen, falls χ µ
µ
≤ χ n2;α
≥ χn2;1−α
≤ χ n2;α / 2
oder
Fall 2: Testentscheidung bei
H0 ablehnen, falls χ x2 ≤ χ n2−1;α
Test B
H0 ablehnen, falls χ x2 ≥ χ n2−1;1−α
H0 ablehnen, falls χ x2 ≤ χ n2−1;α / 2
oder
Lernmodul p-Test
χ µ2 ≥ χn2;1−α / 2 .
µ unbekannt
Test A
Test C
P-Test: Annahmen
bekannt
χx2 ≥ χn2−1;1−α /2
Es seien
X1,..., X n Bernoulli-Variablen mit
1, falls A e intritt 
Xi = 
, i = 1,..., n, d.h. P( X i = 1 ) = p
0, falls A eintritt 
P( X i = 0 ) = 1 - p.
und
58
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
P-Test: Hypothesen
Hypothesen
H 0 : p ≥ p0
Test A
P-Test: Prüfgröße
gegen
H1 : p < p0
Test B
H 0 : p ≤ p0
gegen
H1 : p > p0
Test C
H 0 : p = p0
gegen
H1 : p ≠ p0
n
T = ∑ Xi
i =1
P-Test: Ablehnbereich
Approximativer P-Test: Prüfgröße
Test A
H0
ablehnen, falls
Test B
H0
ablehnen, falls
Test C
H0
ablehnen, falls
Z=
T ≤ kα
T ≥ k1−α
T ≤ kα / 2
oder
T ≥ k1−α / 2
T − np
np(1 − p)
59
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Approximativer P-Test: Ablehnbereich
Test A
H0
ablehnen, falls
Z ≤ zα
oder
T ≤ np0 + npo (1 − p0 )
Vorzeichentest: Annahmen
Test B
H0
ablehnen, falls
Z ≥ z1-α
Test C
H0
ablehnen, falls
Z ≤ zα / 2
oder
Z ≥ z 1− a/2
Di = X i − Yi , 1 = 1,..., n,
Lernmodul Vorzeichentests
Vorzeichentest: Hypothesen
Hypothesen
Test A
H0 :MD ≥ 0
gegen
H1 : M D < 0
Test B
H0 : M D ≤ 0
gegen
H1 : M D > 0
Test C
Vorzeichentest: Prüfgröße
H0 : M D = 0
gegen
H1 : M D ≠ 0
n
T = ∑ Bi , wobei Bi = 1
ist, falls
Di > 0
und
Bi = 0 , falls Di < 0
ist.
i =1
Es gilt:
Di = X i − Yi , 1 = 1,..., n,
60
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Vorzeichentest: Ablehnbereich
Theoretischer Phi-Koeffizient
Kontingenz-koeffizient
Test A
H0
ablehnen, falls
T ≤ kα
Test B
H0
ablehnen, falls
T ≥ k1−α
Test C
H0
ablehnen, falls oder
Die Ausprägungen
Wahrscheinlichkeit
I
J
Φ 2theor = ∑∑
i =1 j =1
Lernmodul Tests in Kontingenztafeln
χ2 −
Unabhängigkeitstest: Annahmen
X
und
Y
T ≤ kα / 2
oder
T ≥ k1−α / 2
( xi , y j ) der Zufallsvariablen X und Y werden mit der
pij ; i = 1,..., I , j = 1,..., J
( pij − pig pg j )
angenommen. Dann heißt
2
pi g pg j
unabhängig:
Φ 2theor = 0.
1) X und Y sind zwei kategoriale, diskrete oder klassifiziert stetige
Zufallsvariablen.
2) Die Stichprobenvariablen
( X i , Yj ), i = 1,K , I , j = 1,K , J sind unabhängig.
61
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
χ2 −
χ2 −
Unabhängigkeitstest: Hypothesen
Unabhängigkeitstest: Prüfgröße
Nullhypothese
Alternativhypothese
H 0 : pij = pi g pg j
H1 : pij ≠ pi g pg j
für alle
für mindestens ein Paar
(i, j)
(i, j)
Zweifelder (2x2)
χ
2
2
n11n22 − n12 n21 )
(
=
2
χ skorr
n1g ng1 n2 gng 2 / n
n11n 22 − n12 n 21 − n2 )
(
=
2
n1g ng1 n2g ng2 / n
Mehrfelder (IxJ)
I
J
χ 2 = ∑∑
i =1 j =1
( nij − n%ij )
n%ij
2
,
wobei
n%ij =
ni gng j
n
62
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
χ2 −
Unabhängigkeitstest: Prüfverteilung
Zweifelder (2x2)
χ2 ~
approx.
χ12 = Z 2 ( Z 2
ist das Quadrat einer standardisierten Normalverteilung)
Mehrfelder (IxJ)
χ 2 ~ χ (2I −1)( J −1)
approx.
χ2 −
Unabhängigkeitstest: Testentscheidung
Zweifelder (2x2)
χ 2 > z12−α / 2
Mehrfelder (IxJ)
χ 2 > χ (2I −1)( J −1);1−α
63
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Mc-Nemar-Test: Annahmen
1) Zwei abhängige (verbundene) Stichproben X und Y , jeweils mit
Stichprobenumfang n.
2) X und Y sind nominalskalierte, dichotome Zufallsvariablen, an ordbar in eine
2x2-Tafel:
X
Lernmodul Tests in Kontingenztafeln
3)
x1
x2
Y
y1
n11
n21
ng1
y2
n12
n22
ng 2
n1g
n2 g
n
(n12 + n21 ) ≥ 20
Mc-Nemar-Test: Hypothesen
Nullhypothese
Alternativhypothese
H 0 : p12 = p21
H1 : p12 ≠ p21
64
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Mc-Nemar-Test: Prüfgröße, Prüfverteilung
1)
20 ≤ (n12 + n21 ) < 30
(mit Stetigkeitskorrektur)
2)
(n12 + n21 ) ≥ 30
χ
2
χ
2
( n12 − n21 − 1)
=
2
~
n12 + n21
Mc-Nemar-Test: Ablehnbereich
2
χ 2 > χ1;1
−α
McNemar-Test: R-Befehl
mcnemar.test(x,y=NULL,correct=TRUE)
2
n12 − n21 )
(
=
n12 + n21
H0
~
H0
2
χ1;1
−α
2
χ1;1
−α
Argumente:
2 × 2 -Tafel in Matrixform oder ein Datenvektor
X
entweder eine
Y
ein Datenvektor; wird ignoriert, wenn X eine Matrix ist
correct
[TRUE / FALSE]
logische Abfrage, ob für die Berechnung der Prüfgröße eine
Stetigkeitskorrektur verwendet werden soll
65
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Einfaktorielle Varianzanalyse: Annahmen
1) Normalverteilungsannahme für jede Gruppe
i , i = 1,K , I : Y1 , K ,YI ~ N ( µ ,σ ²)
2) Varianzhomogenität zwischen den Gruppen, d.h.
Lernmodul Einfaktorielle Varianzanalyse
Einfaktorielle Varianzanalyse: Modell in
Effektdarstellung
σ 12 = K = σ I2 .
Modell in Effektdarstellung
Yij = µ + α i + eij
mit
i = 1,K , I ; j = 1,K, ni;
eij ~ N (0, σ ) unabhängig
2
und der Nebenbedingung
∑ i=1 niα i = 0.
I
66
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Einfaktorielle Varianzanalyse: Schätzer
Globales
Mittel
Effekte
Residuen
Einfaktorielle Varianzanalyse: Hypothesen
µˆ =
1 I ni
∑∑ yij = ygg
n i =1 j =1
αˆ i = yi g − ygg ,
wobei
1
yi g =
ni
eˆij = yij − ( µˆ + αˆ i ), i = 1,K , I .
ni
∑ yij
i =1
Nullhypothese
Alternativhypothese
H 0 : α1 = L =α I = 0
H1 : mindestens zwei αi ≠ 0
67
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Einfaktorielle Varianzanalyse: Prüfgröße
Version 1
n
F=
mit
2
1 I i
Yi g − Ygg )
(
∑∑
I − 1 i =1 j =1
1
N −I
I
ni
∑∑ (Yij − Yig )
2
=
SQ( A)/( I − 1)
SQ ( E)/(N − I )
i =1 j =1
N = n1 + L + nI .
Version 2
F=
Einfaktorielle Varianzanalyse: Prüfverteilung
Einfaktorielle Varianzanalyse: Ablehnbereich
F
1 I
niαˆi2
∑
I − 1 i =1
1
N −I
~
H0
I
∑
i =1
(ni − 1)Si2
mit
N = n1 + L + nI .
FI −1, N −I
F > FI −1, N− I ; 1−α .
68
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Quadratsumme (Sum of Squares)
Faktor
I
ni
(
SS ( A) = ∑∑ Yij − Ygg
i =1 j =1
I
) = ∑ ( ni − 1) Si2
2
i =1
Fehler
I
ni
SS (E ) = ∑∑ (Yi g − Ygg )
2
i =1 j =1
Einfaktorielle Varianzanalyse: Varianzanalysetabelle
Streuungsursache
Freiheits
-grade
Streuung
mittlerer
quadrati
scher
Fehler
Gruppen
(Variabilität
zwischen
den
Gruppen)
I −1
SQ ( A )
SQ ( A)
I −1
Residuen
(Variabilität
innerhalb der
Gruppen)
N −I
SQ ( E )
SQ (E )
N −I
Prüfgröße F
F=
SQ( A)/( I − 1)
SQ( E )/(N − I )
69
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Einfaktorielle Varianzanalyse: R-Befehl
Varianzanalytisches Modell
modell<-lm(Y : A)
Argumente:
Y
numerischer Datenvektor
Zielgröße
A
Faktorvariable
Die Faktorvariable muss explizit als Faktorvariable mit dem
Befehl as.factor(variable) erstellt werden.
ANOVA-Laborlink
Zweifaktorielle Varianzanalyse: Annahmen
Lernmodul Zweifaktorielle Varianzanalyse
1) Die Zielgröße
Yijk
ist für die einzelnen Faktorkombinationen normalverteilt.
2) Die Zielgröße
Yijk
besitzt in den einzelnen Faktorkombinationen die gleiche
Varianz.
70
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: Modell in
Effektdarstellung
Modell in Effektdarstellung
Yijk = µ + αi + β j + (αβ )ij + eijk ,
mit
i = 1,K , I , j = 1, K, J , k = 1, K, K;
eijk ~ N (0, σ ) unabhängig
2
und den Nebenbedingungen
I
J
I
J
i =1
j =1
i =1
j =1
∑ α i = 0, ∑ β j = 0, ∑ (αβ )ij = ∑ (αβ )ij = 0
71
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: Schätzer
Globales
Mittel
1 I J K
)
µ=
∑∑∑ yijk = yggg
IJK i =1 j =1 k =1
Effekte
Effekt Faktor A: i-te Faktorstufe
αˆi = yigg − yggg , wobei
yi gg =
1
JK
J
K
∑∑ yijk
j =1 k =1
Effekt Faktor B: j-te Faktorstufe
βˆ j = yg j g − yggg , wobei
yg j g =
1
IK
I
K
∑∑ yijk
i =1 k =1
Effekt Faktor A, B: i,i-te Faktorstufe
∧
(αβ )ij = yij g − yi gg − yg j g + yggg ,
yij •
Residuen
1
=
K
wobei
K
∑ yijk .
k =1
∧


eˆijk = yijk −  µˆ + αˆi + βˆ j + (αβ )ij 


72
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: Hypothesen
Test A
Nullhypothese
Alternativhypothese
H 0A×B : (αβ )ij = 0
H1A×B : für mindestens zwei Paare
( i , j) gilt: (αβ )ij ≠ 0;
∀ i = 1,K , I , j = 1,K , J ;
Test B
es gibt keine Wechselwirkung
zwischen A und B
Vorliegen von Wechselwirkung
H 0A : α i = 0
H1A : für mindestens zwei α i
α i ≠ 0;
∀ i = 1, K , I ;
Test C
es gibt keinen Effekt bedingt
durch Faktor A
Vorliegen von Haupteffekten
bedingt durch Faktor A
H0 : β j = 0
H1B : für mindestens zwei β j
∀ j = 1, K, J ;
β j ≠ 0;
es gibt keinen Effekt bedingt
durch Faktor B
Vorliegen von Haupteffekten
bedingt durch Faktor B
B
gilt:
gilt:
73
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: Prüfgröße,
Prüfverteilung
Test A
Test B
Test C
Zweifaktorielle Varianzanalyse: Gepoolter
Varianzschätzer
Zweifaktorielle Varianzanalyse: Ablehnbereich
S2 =
FA×B =
SQ ( A × B)/( I − 1)( J − 1)
SQ( E ) / IJ ( K − 1)
FA =
SQ( A)/( I − 1)
SQ ( E ) / IJ (K − 1)
FB =
SQ( B)/(J − 1)
SQ (E ) / IJ ( K − 1)
~
H0
~
H0
~
H0
FI −1, J −1, IJ (K −1)
FI −1,IJ ( K −1)
FJ −1,IJ ( K −1) .
I J K
SQ(E )
1
=
(Yijk − Yij g ) 2 .
∑∑∑
IJ ( K −1) IJ ( K − 1) i =1 j =1 k =1
Test A
FA×B > F1−α ,( I −1, J −1, IJ ( K −1)) .
Test B
FA > F1−α ,( I −1, IJ ( K −1) )
Test C
FB > F1−α ,( J −1, IJ ( K −1)) .
74
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: Quadratsummen
(Sum of Squares)
Faktor A
I
I
i =1
i =1
J
J
j =1
j =1
SQ ( A) = KJ ⋅ ∑ (Yi gg − Yggg )2 = KJ ⋅ ∑ αˆi
2
Faktor B
2
SQ( B) = KI ⋅ ∑ (Yg j g − Yggg ) 2 = KI ⋅ ∑ βˆ j
Wechselwirkung A, B
I
J
I
J
∧
SQ ( A × B) = K ⋅ ∑∑ (Yij g − Yi gg − Yg j g + Yggg ) 2 = K ⋅ ∑∑ (αβ ) ij
i=1 j=1
2
i =1 j =1
Fehler
I
J
K
SQ( E ) = IJ ( K −1) ⋅ ∑∑∑ (Yijk − Yij g )2
i =1 j =1 k =1
75
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse:Varianzanalysetabelle
Streuungsursache
Freiheits
-grade
Streuung
Faktor A
I −1
SQ ( A )
SQ ( A)
I −1
FA =
SQ ( A)/( I − 1)
SQ (E ) / IJ ( K − 1)
Faktor B
J −1
SQ ( B )
SQ (B )
J −1
FB =
SQ( B)/( J − 1)
SQ( E) / IJ ( K − 1)
Wechselwirkung A
xB
(I − 1)( J − 1) SQ ( A × B )
SQ( A × B )
( I − 1)( J − 1)
FA× B =
SQ( A × B)/( I − 1)( J − 1)
SQ ( E) / IJ (K −1)
Residuen
IJ ( K − 1)
SQ ( E )
mittlerer
quadratischer
Fehler
Prüfgröße F
SQ( E )
IJ ( K − 1)
76
FORMELSAMMLUNG NEUE STATISTIK
TESTEN
Zweifaktorielle Varianzanalyse: R-Befehl
Varianzanalytisches Modell nur mit Haupteffekten A und B
lm(Y : A+B)
Varianzanalytisches Modell mit allen Haupt- und Interaktionseffekten
lm(Y : A*B)
Varianzanalytisches Modell mit Haupteffekt A und Interaktionseffekt
zwischen A und B
lm(Y : A+A:B)
Argumente:
Y
numerischer Datenvektor
Zielgröße
A,B
Faktorvariable
Die Faktorvariable muss explizit als Faktorvariable mit dem
Befehl as.factor(variable) erstellt werden
:
Betrachtet nur den Interaktionseffekt
*
Es werden alle Haupt- und Interaktionseffekte der
eingehenden Faktorvariablen betrachtet.
ANOVA2-Laborlink
77
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Streuungszerlegung der Regression
Sind die Koeffizienten
â
und
b̂
n
n
n
v =1
v =1
v =1
∑ ( yv − y )2 =∑ ( yˆv − y ) 2 + ∑ ( yv − yˆv ) 2
des linearen Regressionsansatzes
yv = a + b ⋅ xv + uv mittels der Methode der kleinsten Quadrate bestimmt, so gilt die
ˆ = aˆ + bˆ ⋅ x .
Zerlegung der Abweichungsquadrate der Y -Werte. Dabei ist y
v
v
Lernmodul Die empirische Regression
Bestimmtheitsmaß
Das Bestimmtheitsmaß
n
R2
∑ ( yˆi − y )2
gibt den Anteil der durch die Regressionsgerade
ˆ erklärten Varianz an der
yˆ = aˆ + bx
Variablen Y an.
R2 = ν n=1
gesamten Varianz der zu erklärenden
∑ ( yi − y )2
.
ν =1
Lernmodul Die empirische Regression
Schätzfunktionen
α̂
und
β̂
Die nach der Methode der kleinsten Quadrate bestimmten Schätzfunktionen
β̂
α̂
und
S
βˆ = X Y =
SX
∑ (Y −Y )( x − x )
∑ (x − x )
v
v
und αˆ = Y − βˆ x .
v
für die Regressionskoeffizienten sind gegeben:
Lernmodul Schätzen der Koeffizienten
78
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Empirische Kovarianz
Die empirische Kovarianz
Merkmale
X
und
Y
sXY
ist ein Maß für den linearen Zusammenhang zweier
sxy =
.
1 n
∑ ( xν − x )( yν − y )
n − 1 ν =1
Lernmodul Schätzen der Koeffizienten
Erwartungstreue der Schätzfunktionen
α̂
und
( )
β̂ :
E (αˆ ) = α und E βˆ = β .
Lernmodul Schätzen der Koeffizienten
Erwartungstreuer Schätzer der Fehlervarianz
Regressionsmodell
σ2
im linearen
σˆ 2 =
(
1 n
Yv − Yˆ
∑
n − 2 v =1
)
2
=
1 n ˆ2
2
U v = sY2 (1 − rXY
).
∑
n − 2 v =1
Lernmodul Schätzen der Koeffizienten
Schätzfunktionen für die Standardfehler der Koeffizientenschätzer
β̂
α̂
und
n
∑ xv2
im linearen Regressionsmodell
σˆαˆ =
Lernmodul Schätzen der Koeffizienten
v =1
n
n∑ ( xv − x )
v =1
⋅ σˆ ,
2
σˆ βˆ =
1
n
∑ ( xv − x )
⋅ σˆ .
2
v =1
79
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Erwartungswert für die geschätzte Regressionsgerade an einer festen
Stelle x
( )
E Yˆ x = α + β x.
Lernmodul Schätzen der Koeffizienten
Varianz für die geschätzte Regressionsgerade an einer festen Stelle
x



2

x − x)  2
1
(

ˆ
V Y x =
+
σ .
n n
2 

∑ ( xv − x ) 

v =1

( )
Lernmodul Schätzen der Koeffizienten
Konfidenzintervalle für die Regressionkoeffizienten
Das Modell mit normalverteilten Fehlern
[αˆ − tn−2;1−γ / 2σˆαˆ , αˆ + tn−2;1−γ / 2σˆαˆ ]
[ βˆ − tn −2;1−γ / 2σˆ βˆ , βˆ + tn −2;1−γ / 2σˆ βˆ ] .
Konfidenzintervalle für die Regressionsgerade
1
(x− x)
+
n ∑ ( xv − x ) 2
2
Yˆx − t n− 2;1−α / 2σˆ
≤
1
(x − x)
E (Y | x) ≤Yˆx + t n− 2;1−α / 2σˆ
+
n ∑ ( xv − x ) 2
2
Das Modell mit normalverteilten Fehlern
80
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Prüfgrößen zum Testen der Regressionskoeffizienten
Das Modell mit normalverteilten Fehlern
βˆ − β 0
σˆ βˆ
,
αˆ − α0
.
σˆαˆ
Konfidenzband für die Regressionsgerade
Yˆ x −
2 F 2 , n − 2;1 − γ σˆ
≤ E ( Yˆ | x ) ≤ Yˆ x +
1
+
n
(x − x )
2
∑ ( xv − x )
2
2 F 2 , n − 2;1 − γ σˆ
Das Modell mit normalverteilten Fehlern
Punktprognose
Die sinnvolle Prognose oder Vorhersage eines einzelnen Wertes der zu erklärenden
Variablen Y an einer Stelle x ist der anhand der geschätzten Regressionsgeraden
ermittelte Wert.
1
+
n
(x −
∑ ( xv
x
)
2
− x
)
2
.
yˆ x = αˆ + βˆ ⋅ x.
Das Modell mit normalverteilten Fehlern
Prognoseintervall
1
(x − x)
Yˆx − t n−2;1−γ / 2σˆ 1 + +
≤
n ∑ ( xv − x ) 2
2
1
(x − x)
Yx ≤ Yˆx + t n−2;1−γ / 2σˆ 1 + +
.
n ∑ ( xv − x )2
2
Das Modell mit normalverteilten Fehlern
81
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Potenz-transformationen
x → xh mit h = ..., −2, −1.5, −1, −0.5,0.5,1.5,2,...
Yv = α + β xvh + U v bzw. Yv = α + β ln( xv ) + U v
Lernmodul Beurteilung der Regression
Prüfgröße der Durbin-Watson-Tests
n
Der Durbin-Watson-Test dient zur Überprüfung der Unkorreliertheit der Fehler im
linearen Regressionsmodell. Werte bei 2 weisen auf Unkorreliertheit hin, Werte bei
0 auf positive und Werte bei 4 auf negative Korrelation.
DW =
∑ ( uˆv − uˆv−1 )
2
v =2
n
∑ uˆv2
v =1
Lernmodul Beurteilung der Regression
Das multiple lineare Regressionsmodell mit p Regressoren
Yv = β 0 + β1 ⋅x1v + β 2 ⋅x 2v + K +β p ⋅x pv +U v ; v = 1, K, n
U v : E (U v ) = 0,V (U v ) = σ 2
U v und U w sindunabhängigfüralle v ≠ w.
Lernmodul Das multiple lineare Regressionsmodell
unverzerrte Schätzung der Varianz der Fehler
Regressionsmodell
Uv
im multiplen linearen
2
σµ =
( (
n
1
∑ yv − βˆ0 + βˆ1 ⋅x1v + βˆ2 ⋅x2v + ... + βˆ p ⋅ x pv
n − p − 1 v =1
)) .
2
Lernmodul Das multiple lineare Regressionsmodell
82
FORMELSAMMLUNG NEUE STATISTIK
REGRESSION
Prüfgröße zur Überprüfung der einzelnen Koeffizienten im multiplen
linearen Regressionsmodell
Die Prüfgrößen für die einzelnen Koeffizienten betreffenden Hypothesen
H0 : βi = 0
Ti =
βˆi − 0
.
σˆ βˆ
i
Lernmodul Das multiple lineare Regressionsmodell
adjustiertes Bestimmtheitsmaß
R2Adj
R2Adj = 1 −
Lernmodul Beurteilung der multiplen linearen Regression
n
1
∑ ( yv − yˆv )2
n − p − 1 v =1
1 n
( yv − y ) 2
∑
n −1 v =1
.
83
Herunterladen