"Lineare Modelle in der Statistik" und - Mathematik

Werbung
Exkurse
zur Linearen Algebra, Wahrscheinlichkeitstheorie
und Statistik für die Skri pte
Lineare Modelle in der Statistik
Generaliserte Lineare Modelle
von
Gerhard Osius
0.4
0
2
0.2
0. 0 -~=:r::::.,__...,......:;::::....,......~~;=,-..,....::;:::::::;::=;=-;::::;::::::;:::=:;==;==-'I"""""T'".:::;:::;:::::;:::::;
-5
0
5
10
15
20
Dichten der t ('-y)-Verteilung für n = 5 und"(= 0, 2, 4 und 8.
n
Februar 2015
Fachbereich Mathematik/Informatik
Universität Bremen
Vorwort
Dies ist eine Zusammenstellung von Resultaten (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) die in meinen Skripten zu den Lehrveranstaltungen Lineare Modelle in der Statistik und Generalisierte Lineare Modelle verwendet werden. Die Exkurse behandeln unter anderem die univariaten Standardverteilungen von Teststatistiken (Chiquadrat-, t- und F- Verteilungen, auch nichtzentral), die multivariate Normalverteilung - deren Darstellung an Rao (1973) Linear
Statistical lnference and its Applications angelehnt ist - sowie Verteilungskonvergenz
in euklidischen Räumen - die weitgehend Billingsley (1968) Convergence of Probility
Measures und Billingsley (1979) Probability and Measure entnommen ist.
Die Beweise der Resultate die nicht als "Standardwissen" vorausgesetzt sind werden
am Ende des jeweiligen Exkurses mehr oder weniger vollständig zusammengestellt
oder es wird auf eine Literaturstelle verwiesen. Das "Standardwissen" kann in den
einschlägigen Lehrbüchern nachgelesen werden, z.B. wenn es sich um Verteilungen
handelt, bei Johnson und Kotz (1970-72) Distributions in Statistics.
Gegenüber der Auflage vom Februar 2014 sind nur gerinfügige Änderungen und
Korrekturen vorgenommen.
Bremen, im Februar 2015
Gerhard Osius
Inhaltsverzeichnis
27.2.15
Inhalt
1
(Seiten pro Kapitel)
Verteilungen
V
Die zentralen und nichtzentralen Chiquadrat-, tund F- Verteilungen
1
Die Chiquadrat-Verteilung
1.1 Die zentrale Chiquadrat-Verteilung
1.2 Die nichtzentrale Chiquadrat-Verteilung
1.3 Grenzwertsätze und Approximationen
(6)
2
Die t- Verteilung
2.1 Die zentrale t- Verteilung
2.2 Die nichtzentrale t- Verteilung
2.3 Approximationen der nichtzentralen t- Verteilung
(5)
3
Die F- Verteilung
3.1 Die zentrale F- Verteilung
3.2 Die F- Verteilung mit reellen Freiheitsgraden
3.3 Die nichtzentrale F- Verteilung
3.4 Approximationen der nichtzentralen F- Verteilung
(7)
Beweise
1
2
3
Die Chiquadrat-Verteilung
Die t- Verteilung
Die F- Verteilung
MN
Die multivariate Normalverteilung
1.
2.
3.
4.
5.
6.
Die eindimensionale Normalverteilung
Definition der multivariaten Normalverteilung
Eigenschaften der multivariaten Normalverteilung
Quadratische Formen von normalverteilten Variablen
Bedingte Normalverteilungen
Die zweidimensionale Normalverteilung
Beweise
3. Eigenschaften der multivariaten Normalverteilung
4. Quadratische Formen von normalverteilten Variablen
5. Bedingte Normalverteilungen
(7)
(7)
(6)
(17)
(15)
Inhaltsverzeichnis
27.2.15
M
Die Multinomialverteilung
1.
2.
3.
4.
5.
6.
7.
Definition
Auftreten
Randverteilungen, Erwartungswert, Covarianz
Erzeugende Funktionen
Multinomial-Grenzwertsatz
Darstellung als bedingte Poisson-Verteilung
Darstellung als Exponential-Familie
Q
1
2
(10)
(13)
Beweise
3.
4.
5.
6.
7.
2
Randverteilungen, Erwartungswert, Covarianz
Erzeugende Funktionen
Multinomial-Grenzwertsatz
Darstellung als bedingte Poisson-Verteilung
Darstellung als Exponential-Familie
Quantile von Verteilungen
(6)
Definition und elementare Eigenschaften
1.1 Binomialverteilung
1.2 Poisson-Verteilung
Verteilungskonvergenz und Quantile
Beweise
(8)
Inhaltsverzeichnis
27.2.15
3
Maß- und Wahrscheinlichkeitstheorie
CF
Charakteristische, Momente- und Kumulanten-erzeugende
Funktionen
1.
2.
3.
4.
5.
Definition der charakteristischen Funktion
Definition der Momente- und Kumulanten-erzeugenden Funktion
Die Eindeutigkeitssätze
Rechenregeln
Momente und Kumulanten eindimensionaler Verteilungen
5.1 Charakteristische Funktion und Momente
5.2 Moment-erzeugende Funktion und Momente
5.3 Kumulanten-erzeugende Funktion und Kumulanten
6.
Spezielle Verteilungen
6.1 Eindimensionale Normalverteilung
6.2 Multivariate Normalverteilung
6.3 Binomial-Verteilung
6.4 Multinomial-Verteilung
6.5 Poisson-Verteilung
Erwartungswert und Covarianzmatrix von Zufallsvektoren
7.
Beweise (noch unvollständig)
KV
1.
2
3
4
5
6
7
8
9
10
11
12
13
14
Konvergenz nach Verteilung in euklidischen Räumen
(11)
(1)
(12)
Definition der Verteilungskonvergenz
Konvergenz von Bildmaßen
Konvergenz von Produkt-Maßen
Konvergenz nach Wahrscheinlichkeit gegen eine Konstante
Rechenregeln von Slutzky über Konvergenz nach Verteilung
und Wahrscheinlichkeit
Die Reduktionsmethode von Cramer-Wald
Der Stetigkeitssatz für charakteristische Funktionen
Der Stetigkeitssatz für Moment-erzeugende Funktionen
Der Darstellungssatz von Skorohod
Stochastische Beschränktheit und der Satz von Prohorov
Konvergenz gegen Unendlich
Konvergenz von Wahrscheinlichkeiten
Konvergenz von Quantilen
Differenzierbare Transformation (Delta-Methode)
Beweise
(9)
Inhaltsverzeichnis
27.2.15
ZGS
Der zentrale Grenzwertsatz für reelle Zufallsvariablen
1.
2.
3.
4.
Die allgemeinen Resultate von Lindeberg und Ljapunov
Resultate für identische Verteilungen
Linearkombinationen unabhängiger Verteilungen
Die Ungleichung von Berry-Esseen
4
(9)
Beweise
(7)
BV
Bedingte Verteilungen
(9)
1.
Definition
1.1 Diskreter Fall
1.2 Allgemeiner Fall
2.
Methoden zur Bestimmung bedingter Verteilungen
2.1
2.2
2.3
2.4
3.
Stochastische Unabhängigkeit
Bildmaße bedingter Verteilungen
Unabhängigkeits-Transformationen
Bedingte Dichten
Erwartungswerte bedingter Verteilungen
3.1 Nicht-negative meßbare Abbildunden
3.2 Beliebige meßbare Abbildunden
Beweise
(2)
BEC Bedingte Erwartung und Covarianz-Matrix zufälliger Vektoren (3)
1.
2.
Grundlagen
Lineares Modell mit homogenen bedingten Covarianzen-
Beweise
COV Covarianz-Matrizen zufälliger Vektoren
Beweise
(2)
(1)
Inhaltsverzeichnis
27.2.15
5
WM Wurzeln positiv-semidefiniter Matrizen
(2)
Lineare Algebra
1.
2.
3.
Definition
Wurzeln positiv-definiter Matrizen
Die Cholesky-Wurzel
Beweise
(3)
SP
Skalarprodukte und orthogonale Projektionen
(5)
1.
2.
3.
Definitionen
Eigenschaften der Projektionen
Projektionen und Exponentialfunktion
Beweise
GI
Generalisierte Inverse einer Matrix
Beweise
(14)
(2)
(7)
Inhaltsverzeichnis
27.2.15
6
Statistik
MTK Multiple Tests und Konfidenzbereiche
2.
3.
Simultane Tests
Simultane Konfidenzbereiche
Sequentielle Tests
MS
Minimale und maximale gewichtete Streuung
1.
Problemstellung
Minimierung
Maximierung
Äquidistante Werte und konstante Gewichte
1.
2.
3.
4.
(6)
(7)
Beweise
(3)
CPR Cross-Product-Ratios
(5)
1.
2.
Der Cross-Product-Ratio einer 2x2-Tafel
Der Cross-Product-Ratio einer Tafel
Beweise
(2)
Exkurse
zur Linearen Algebra, Wahrscheinlichkeitstheorie
und Statistik für die Skri pte
Lineare Modelle in der Statistik
Generaliserte Lineare Modelle
von
Gerhard Osius
0.4
0
2
0.2
0. 0 -~=:r::::.,__...,......:;::::....,......~~;=,-..,....::;:::::::;::=;=-;::::;::::::;:::=:;==;==-'I"""""T'".:::;:::;:::::;:::::;
-5
0
5
10
15
20
Dichten der t ('-y)-Verteilung für n = 5 und"(= 0, 2, 4 und 8.
n
Februar 2014
Fachbereich Mathematik/Informatik
Universität Bremen
Vorwort
Dies ist eine Zusammenstellung von Resultaten (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) die in meinen Skripten zu den Lehrveranstaltungen Lineare Modelle in der Statistik und Generalisierte Lineare Modelle verwendet werden. Die Exkurse behandeln unter anderem die univariaten Standardverteilungen von Teststatistiken (Chiquadrat-, t- und F- Verteilungen, auch nichtzentral), die multivariate Normalverteilung - deren Darstellung an Rao (1973) Linear
Statistical lnference and its Applications angelehnt ist - sowie Verteilungskonvergenz
in euklidischen Räumen - die weitgehend Billingsley (1968) Convergence of Probility
Measures und Billingsley (1979) Probability and Measure entnommen ist.
Die Beweise der Resultate die nicht als "Standardwissen" vorausgesetzt sind werden
am Ende des jeweiligen Exkurses mehr oder weniger vollständig zusammengestellt
oder es wird auf eine Literaturstelle verwiesen. Das "Standardwissen" kann in den
einschlägigen Lehrbüchern nachgelesen werden, z.B. wenn es sich um Verteilungen
handelt, bei Johnson und Kotz (1970-72) Distributions in Statistics.
Gegenüber der Auflage vom Februar 2012 sind nur gerinfügige Änderungen und
Korrekturen vorgenommen.
Bremen, im Februar 2014
Gerhard Osius
Inhaltsverzeichnis
4.2.14
Inhalt
1
(Seiten pro Kapitel)
Verteilungen
V
Die zentralen und nichtzentralen Chiquadrat-, tund F- Verteilungen
1
Die Chiquadrat-Verteilung
1.1 Die zentrale Chiquadrat-Verteilung
1.2 Die nichtzentrale Chiquadrat-Verteilung
1.3 Grenzwertsätze und Approximationen
(6)
2
Die t- Verteilung
2.1 Die zentrale t- Verteilung
2.2 Die nichtzentrale t- Verteilung
2.3 Approximationen der nichtzentralen t- Verteilung
(5)
3
Die F- Verteilung
3.1 Die zentrale F- Verteilung
3.2 Die F- Verteilung mit reellen Freiheitsgraden
3.3 Die nichtzentrale F- Verteilung
3.4 Approximationen der nichtzentralen F- Verteilung
(7)
Beweise
1
2
3
Die Chiquadrat-Verteilung
Die t- Verteilung
Die F- Verteilung
MN
Die multivariate Normalverteilung
1.
2.
3.
4.
5.
6.
Die eindimensionale Normalverteilung
Definition der multivariaten Normalverteilung
Eigenschaften der multivariaten Normalverteilung
Quadratische Formen von normalverteilten Variablen
Bedingte Normalverteilungen
Die zweidimensionale Normalverteilung
Beweise
3. Eigenschaften der multivariaten Normalverteilung
4. Quadratische Formen von normalverteilten Variablen
5. Bedingte Normalverteilungen
(7)
(7)
(6)
(17)
(15)
Inhaltsverzeichnis
4.2.14
M
Die Multinomialverteilung
1.
2.
3.
4.
5.
6.
7.
Definition
Auftreten
Randverteilungen, Erwartungswert, Covarianz
Erzeugende Funktionen
Multinomial-Grenzwertsatz
Darstellung als bedingte Poisson-Verteilung
Darstellung als Exponential-Familie
Q
1
2
(10)
(13)
Beweise
3.
4.
5.
6.
7.
2
Randverteilungen, Erwartungswert, Covarianz
Erzeugende Funktionen
Multinomial-Grenzwertsatz
Darstellung als bedingte Poisson-Verteilung
Darstellung als Exponential-Familie
Quantile von Verteilungen
(6)
Definition und elementare Eigenschaften
1.1 Binomialverteilung
1.2 Poisson-Verteilung
Verteilungskonvergenz und Quantile
Beweise
(8)
Inhaltsverzeichnis
4.2.14
3
Maß- und Wahrscheinlichkeitstheorie
CF
Charakteristische, Momente- und Kumulanten-erzeugende
Funktionen
1.
2.
3.
4.
5.
Definition der charakteristischen Funktion
Definition der Momente- und Kumulanten-erzeugenden Funktion
Die Eindeutigkeitssätze
Rechenregeln
Momente und Kumulanten eindimensionaler Verteilungen
5.1 Charakteristische Funktion und Momente
5.2 Moment-erzeugende Funktion und Momente
5.3 Kumulanten-erzeugende Funktion und Kumulanten
6.
Spezielle Verteilungen
6.1 Eindimensionale Normalverteilung
6.2 Multivariate Normalverteilung
6.3 Binomial-Verteilung
6.4 Multinomial-Verteilung
6.5 Poisson-Verteilung
Erwartungswert und Covarianzmatrix von Zufallsvektoren
7.
(11)
Beweise (noch unvollständig)
KV
1.
2
3
4
5
6
7
8
9
10
11
12
13
14
Konvergenz nach Verteilung in euklidischen Räumen
(12)
Definition der Verteilungskonvergenz
Konvergenz von Bildmaßen
Konvergenz von Produkt-Maßen
Konvergenz nach Wahrscheinlichkeit gegen eine Konstante
Rechenregeln von Slutzky über Konvergenz nach Verteilung
und Wahrscheinlichkeit
Die Reduktionsmethode von Cramer-Wald
Der Stetigkeitssatz für charakteristische Funktionen
Der Stetigkeitssatz für Moment-erzeugende Funktionen
Der Darstellungssatz von Skorohod
Stochastische Beschränktheit und der Satz von Prohorov
Konvergenz gegen Unendlich
Konvergenz von Wahrscheinlichkeiten
Konvergenz von Quantilen
Differenzierbare Transformation (Delta- Methode)
Beweise
(9)
Inhaltsverzeichnis
4.2.14
ZGS
Der zentrale Grenzwertsatz für reelle Zufallsvariablen
1.
2.
3.
4.
Die allgemeinen Resultate von Lindeberg und Ljapunov
Resultate für identische Verteilungen
Linearkombinationen unabhängiger Verteilungen
Die Ungleichung von Berry-Esseen
4
(9)
Beweise
(7)
BV
Bedingte Verteilungen
(9)
1.
Definition
1.1 Diskreter Fall
1.2 Allgemeiner Fall
2.
Methoden zur Bestimmung bedingter Verteilungen
2.1
2.2
2.3
2.4
3.
Stochastische Unabhängigkeit
Bildmaße bedingter Verteilungen
Unabhängigkeits-Transformationen
Bedingte Dichten
Erwartungswerte bedingter Verteilungen
3.1 Nicht-negative meßbare Abbildunden
3.2 Beliebige meßbare Abbildunden
Beweise
(2)
BEC Bedingte Erwartung und Covarianz-Matrix zufälliger Vektoren (3)
1.
2.
Grundlagen
Lineares Modell mit homogenen bedingten Covarianzen-
Beweise
COV Covarianz-Matrizen zufälliger Vektoren
Beweise
(2)
(1)
Inhaltsverzeichnis
4.2.14
5
WM Wurzeln positiv-semidefiniter Matrizen
(2)
Lineare Algebra
1.
2.
3.
Definition
Wurzeln positiv-definiter Matrizen
Die Cholesky-Wurzel
Beweise
(3)
SP
Skalarprodukte und orthogonale Projektionen
(5)
1.
2.
3.
Definitionen
Eigenschaften der Projektionen
Projektionen und Exponentialfunktion
Beweise
GI
Generalisierte Inverse einer Matrix
Beweise
(14)
(2)
(7)
Inhaltsverzeichnis
4.2.14
6
Statistik
MTK Multiple Tests und Konfidenzbereiche
2.
3.
Simultane Tests
Simultane Konfidenzbereiche
Sequentielle Tests
MS
Minimale und maximale gewichtete Streuung
1.
Problemstellung
Minimierung
Maximierung
Äquidistante Werte und konstante Gewichte
1.
2.
3.
4.
(6)
(7)
Beweise
(3)
CPR Cross-Product-Ratios
(5)
1.
2.
Der Cross-Product-Ratio einer 2x2-Tafel
Der Cross-Product-Ratio einer Tafel
Beweise
(2)
V
Die zentralen und nichtzentralen Chiquadrat-,
t- und F-Verteilungen
Gerhard Osius
1
Die Chiquadrat-Verteilung
1.1
1.2
1.3
2
Die t- Verteilung
2.1
2.2
2.3
3
Die zentrale Chiquadrat-Verteilung
Die nichtzentrale Chiquadrat-Verteilung
Grenzwertsätze und Approximationen
Die zentrale t- Verteilung
Die nichtzentrale t- Verteilung
Approximationen der nichtzentralen t- Verteilung
Die F- Verteilung
3.1
3.2
3.3
3.4
Die zentrale F- Verteilung
Die F- Verteilung mit reellen Freiheitsgraden
Die nichtzentrale F- Verteilung
Approximationen der nichtzentralen F- Verteilung
V
Die zentralen und nichtzentralen Chiquadrat-,
t- und F-Verteilungen
Gerhard Osius
1
Die Chiquadrat-Verteilung
1.1
1.2
1.3
2
Die t- Verteilung
2.1
2.2
2.3
3
Die zentrale Chiquadrat-Verteilung
Die nichtzentrale Chiquadrat-Verteilung
Grenzwertsätze und Approximationen
Die zentrale t- Verteilung
Die nichtzentrale t- Verteilung
Approximationen der nichtzentralen t- Verteilung
Die F- Verteilung
3.1
3.2
3.3
3.4
Die zentrale F- Verteilung
Die F- Verteilung mit reellen Freiheitsgraden
Die nichtzentrale F- Verteilung
Approximationen der nichtzentralen F- Verteilung
G. Osius: Die Chiquadrat-Verteilung
8.7.10
1
Die Chiquadrat-Verteilung
1.1
Die zentrale Chiquadrat- Verteilung
V1-1
U = (U , ..., U ) sei ein n-dimensionaler Zufallsvektor, dessen Komponenten unab1
n
hängige reelle Zufallsvariablen mit Standard-Normalverteilung sind, d.h. L(U.)
Z
N(O, 1) für alle i = 1, ..., n. Die Verteilung der Quadratsumme
heißt eine zentrale Chiquadrat-Verteilung mit n Freiheitsgraden, die mit dem Symbol
2
X bezeichnet wird:
n
(2)
Da der Zufallsvektor U eine n-dimensionale Standard-Normalverteilung besitzt
n
(3)
L(U) = N (0,11 ) =
n
n
TI N(O, 1) ,
. 1
Z=
läßt sich die X2 -Verteilung auch suggestiv schreiben als das Normquadrat der n-din
mensionalen Standard-Normalverteilung
(4)
Die X2 - Verteilung besitzt eine Dichte cp , die nur auf den positiven Bereich (0,00)
n
n
konzentriert ist, und dort gegeben ist durch:
(5)
wobei
für
x> 0,
r die Eulersche Gamma/unktion ist:
00
(6)
r(a) = jtcx-1e-tdt.
o
Die Dichte cpn beschreibt auf (0,00) im Fall n < 2 eine fallende Kurve und im Fall
n> 2 eine schiefe Glockenkurve mit der Maximalstelle in x = n- 2 und zwei Wende-
punkten in x = (n- 2) ±
stelle.
J 2 (n -
2) also im Abstand
J 2 (n -
2) von der Maximal-
G. Osius: Die Chiquadrat-Verteilung
Vl-2
8.7.10
....Q)
..c
ü
(5
0.2
o. 0 +-Ä---.---.--....--,:::::;::::::::;:==;=-.,..::::;:::::::;::=r=;;;;;:=M=;=""T"'".,....-~:::;::=;=:;=;
o
5
10
15
20
25
2
Dichten der X -Verteilung jür die Freiheitsgrade m = 1,3,5 und 10.
m
Die Verteilungsjunktion P der X2 -Verteilung ist auf (0,00) streng monoton wachn
n
send und dort gegeben durch
x
(7)
Pn(x)
=P{x~ <x} =J cpn(u)du
für
x> o.
o
Das (obere) a-Quantil x~. et der x~ -Verteilung ist dann gegeben durch
,
(8)
X2
ni et
=p-1 (1-a)
n
bzw.
p{X 2 >X2
n-
Für den Freiheitsgrad n=l lassen sich P 1 bzw.
P bzw. das obere
~ -Quantil
}=a
ni et
xi.
et
fürO<a<1.
durch die Verteilungsfunktion
z et/2 = P- (1_ ~)' der Standard-Normalverteilung
1
N(O,l) beschreiben:
(9)
(10)
1- 2P(-JX)
für
x> 0,
für 0< a< 1.
Der Erwartungswert von X 2 ist der Freiheitsgrad n,und die Varianz ist der doppelte
n
Freiheitsgrad
(11)
G. Osius: Die Chiquadrat-Verteilung
8.7.10
Vl-3
Die Faltung von X2- Verteilungen ist wieder eine solche
2
xm
und X 2 stochastisch unabhängig
n
(12)
::::}
Für wachsenden Freiheitsgrad konvergiert die standardisierte X2 -Verteilung nach
n
Verteilung gegen die Standard-Normalverteilung
(x~ - n)/ y'2n ~ N(O,l)
(13)
für n ---+
00,
für n ---+
00.
und es folgt
x~/n
(14)
p)
1
Die X2 -Verteilung ist eine spezielle Gamma-Verteilung
n
X~ = Gam(~,2),
(15)
und hieraus kann man weitere (und teilweise auch obige) Eigenschaften der
X - Verteilungen herleiten. Eine Gamma-Verteilung der Form Garn ( ~, 2) mit belie2
bigem v> 0 wird daher auch als Chiquadrat-Verteilung mit Freiheitsgrad v bezeichnet:
Gam( ~,2)
(16)
1.2
für v> o.
Die nichtzentrale Chiquadrat-Verteilung
U = (U , ..., U ) sei ein n-dimensionale Zufallsvektor, dessen Komponenten unabhän1
n
gige reelle Zufallsvariablen mit folgneder Normalverteilung sind
(1)
L(U.)
z = N(fL·,l)
z
für i = 1,...,n.
Dann hängt die Verteilung der Quadratsumme
nur noch über die sogenannte Nichtzentralität
vom Vektor Jl = (fLl' ... ,fL ) der Erwartungswerte ab. Diese Verteilung
n
G. Osius: Die Chiquadrat-Verteilung
Vl-4
8.7.10
heißt die nichtzentrale X 2- Verteilung mit n Freiheitsgraden und Nichtzentraltität 8. Da
der Zufallsvektor U n-dimensional normalverteilt ist mit Erwartungsvektor Jl
n
(5)
cL'(U) = N (Jl,ll ) = TI N(Jlo,l) ,
n
n
i=l
z
läßt sich die X2 (8)- Verteilung auch suggestiv schreiben als
n
(6)
Für 8 =
mit
°bzw. Jl
2
= 0 liegt die zentrale X - Verteilung vor:
(7)
Die Faltung von nichtzentralen X2- Verteilungen ist wieder eine solche mit der
Summe der Freiheitsgerade bzw. Nichtzentralitäten als Freiheitsgrad bzw. Nichtzentralität:
Für den Freiheitsgrad n = 1 ist
und die Dichte <Pl6 bzw. Verteilungsfunktion P 1 6 von X; (8) ergeben sich aus der
,
,
Dichte <P bzw. Verteilungsfunktion P der Standardnormalverteilung N( 0,1) :
(10)
p(JX-j6) - p(-JX -)6)
(11)
(<p(JX-ß) + <p(-JX -J6))/2VX >
2
2
fürx>O,
°
fürx>O.
2
Für n> 1 läßt sich die X (8) als Faltung von X (8) mit der zentralen X l-Verteilung
n
l
ndarstellen
(12)
X; (8) und X~-l unabhängig
Hieraus ergibt sich für die Dichte <P
=*
xi( 8) + X~-l = X~( 8).
2
n,us: und Verteilungsfunktion P n,us: von X n(8):
00
(13)
(14)
<pni
, x)
Pn,6(x)
Folglich ist <P
folgt
J <Pl6 (x-y)
o00 '
. <Pn-l (y) dy >0
J P1 6 (x- y) . <P n-l (y) dy
o
für x> 0, n > 1,
für x> 0, n > 1.
'
2
n,us: auf (0,00) positiv, und für die Verteilungsfunktion Pn,us: von Xn(8)
G. Osius: Die Chiquadrat-Verteilung
Vl-5
8.7.10
P s: ist streng wachsend auf (0,00).
(15)
n,u
Die Verteilungsfunktion hängt von der Nichtzentralität wie folgt ab
Pn 8(x) = P{X~(8) < x}
(16)
,
ist streng wachsend in x> 0
und streng fallend in 8>0 für x> O.
Für 8 ---+ 00 ergeben sich - aus (9) für n= 1 und mit (11) für nE W - die Grenzwerte
für 8 ---+ 00,
(17)
P n,oo (x) = 0
(18)
für x
> o.
Das obere a-Quantil von X2 (8) ist definiert durch
n
2
X
(19)
1
n,et
2
2
(8) = P- s:(1-a) bzw. P{X n > X n ,,,(8)} = a
n,u
,u-
für 0< a< 1,
und es gilt
(20)
X
2
n,et
(8) ist streng fallend in a und streng wachsend in 8
sowie (vgl. z.B. Agresti 1990, p.98)
(21)
Pn,8 (X~ ,et) = P{X~(8) < X~ ,et} ist streng wachsend in n.
Der Erwartungswert und die Varianz von X2 (8) lauten
n
2
(22)
Var{x (8)} = 2(n
n
+ 28) .
o
0.1
o. 0 ~r--T""---r--"'T"'""""""T---r-~.....----T----r----r--T"'"""""'T---':=:::;=::;:::=;:~~
o
5
10
15
20
Dichten der X2 (8)-Verteilung für n = 5 und Nichtzentralitäten 8 = 0, 1, 2 und 4.
n
G. Osius: Die Chiquadrat-Verteilung
Vl-6
8.7.10
Allgemeiner ist die k-te Kumulante von X2 (8) gegeben durch (vgl. Johnson-Kotz
n
1970-72, Chap. 28, Sec. 4):
Hieraus ergeben sich speziell die Kumulanten und zentralen Momente 3. und 4.
Ordnung zu
(24)
~3(X~( 8))
fL3(X~( 8)) = 8 (n- 38) ,
(25)
~iX~(8))
48 (n- 48) ,
(26)
fL3(X~( 8))
~4(X~(8)) + 3 (Var{x~(8)})2
1.3
48(n-48)
+ 12(n+28)2.
Grenzwertsätze und Approximationen
Die nichtzentrale X2 (8)-Verteilung ist nach 1.3 (8) die n-fache Faltung von
n
X~( Verteilungen. Hieraus ergibt sich mit dem Zentralen Grenzwertsatz die
%)-
asymptotische Normalverteilung der Standardisierung von X2 (8) für n---+ 00
n
X~(8) - (n+8)
(1)
J2(n + 28)
L
)
N(O, 1) ,
n-HX!
die für 8 = 0 zu 1.1 (13) reduziert. Für nicht zu kleines n erhält man hieraus die Normal-Approximation von X2 (8)
n
(2)
fL = n+8,
mit
a=
J 2(n + 28)
.
Eine andere Approximation, die auch für kleines n gilt, hat Patnaik (Biometrika 36,
1949, 202-232) vorgeschlagen. Hierbei wird die nichtzentrale Verteilung X2 (8) durch
n
2
das Vielfache c· X einer zentralen Verteilung approximiert, wobei c> 0 und v> 0
v
so gewählt werden, daß die ersten beiden Momente beider Verteilung übereinstimmen (vgl. auch Johnson-Kotz 1970-72, Ch. 28, Sec. 8)
n+28
(3)
c =
n
+8
(n+8)2
v =
n
+ 28
Hieraus ergibt sich die Gamma-Approximation von X2 (8)
n
(4)
mit der sich die Dichte und Verteilungsfunktion von X2 (8) approximieren lassen.
n
G. Osius: Die t- Verteilung
V2-1
8.7.10
2
Die t- Verteilung
2.1
Die zentrale t- Verteilung
Sind U und V unabhängige reelle Zufallsvariablen mit den Verteilungen
L(U) = N(O, 1L
(1)
L(V) =
X
2
n!
so heißt die Verteilung des Quotienten
(2)
T=
U
V1n V
eine zentrale t-Verteilung mit n Freiheitsgraden, die mit t bezeichnet wird
n
tn : = L(T) = cL( U/
(3)
V~ V ) .
Die t -Verteilung läßt sich suggestiv auch schreiben als
n
(4)
tn
:=
N(O,l)
/V1n X2n
für unabhängige N(O, 1) und X2 .
n
Die t -Verteilung besitzt auf IR folgende Dichte ep
n
n
x2 )-(n+ 1)/2
(5)
epn ( x ) = an ( 1 + -n
für x E IR ,
wobei die Konstante a unter Verwendung der Eulerschen-Gammafunktion
n
niert ist durch
(6)
a
n
r(n~1 ) / (r( ~ );:;;;-).
Die Dichte ep beschreibt eine um
n
depunkten in x = ± Jn/(n+2) .
Die Verteilungs/unktion P mit
n
x=o symmetrische Glockenkurve
mit den Wen-
x
Pn(x) =P{tn <x} =
-
(7)
r defi-
J epn(u)du
00
ist eine streng monoton wachsende sigmoide Kurve, die drehsymmetrisch im Punkt
(0,
(8)
+)
ist:
P (-x) = 1- P (x).
n
n
Das obere a-Quantil t
(9)
1
n,(X
der t -Verteilung ist dann gegeben durch
t : = p- (1- a)
n,(X
n
n
bzw.
P {t
>t
n- n,(X
}= a
für 0< a < 1.
G. Osius: Die t- Verteilung
V2-2
8.7.10
500
004
0.3
0.2
0.1
o. 0 ~"""""=;=::;::~T""'T"""T""T"""r-T""'1r-r-r"""T""'T""T""'T""T""T'""'T""T'""'T""T""T""'T"""T""'T"""T'""'T""'1r-r=:;==;=-r..,....;r::;
-4
-3
-1
-2
o
2
3
4
Dichten der t -Verteilung für die Freiheitsgrade n = 1, 2, 5 und 500.
n
Der Erwartungswert existiert nur für n> 1 und lautet
(10)
für n> 1.
E{tn } = 0
Und die Varianz existiert erst für n> 2 und ist dann
(11 )
Var {t } = n/ (n - 2)
n
>1
für n>2.
Für wachsenden Freiheitsgrad konvergiert die t
n
Verteilung gegen die Standard-
Normalverteilung
(12)
t
n
cf)
N(O,l)
für n
---+ 00,
d.h. es gilt
(13)
lim P (x) = P (x)
n
n---+oo
für alle x E IR
wobei P die Verteilungsfunktion von N(O,l) ist. Folglich konvergieren auch die zugehörigen Quantile
(14)
lim t
n---+oo
n,(X
= z
(X
für alle O<a<l,
wobei z(X = p-1 (1- a) das obere a-Quantil von N( 0,1) ist. Außerdem konvergieren
auch die Dichten cp punktweise gegen die Dichte cp von N(O,l):
n
(15)
lim
n---+oo
cp (x) = cp(x)
n
für alle xE IR.
G. Osius: Die t- Verteilung
2.2
V2-3
8.7.10
Die nichtzentrale t- Verteilung
Sind U und V unabhängige reelle Zufallsvariablen mit den Verteilungen
(1)
L(U) = Nb, 1),
so heißt die Verteilung des Quotienten
(2)
T=
U
V1n V
eine doppelt nichtzentrale t-Verteilung mit n Freiheitsgraden und den Nichtzentralitäten
"( und 8, die mit t ("(,8) bezeichnet wird
n
(3)
tn ("(,8):= L(T) =
4U / V~ V).
Die t ("(,8)-Verteilung läßt sich suggestiv auch schreiben als
n
2
(4)
für unabhängige N("( ,1) und X (8).
n
Für 8 = 0 ergibt sich die (einfach) nichtzentrale t b)- Verteilung mit Nichtzentralität "(
n
(5)
t ("() : = t ("(,0) = Nb, 1) /
n
n
V1n X2n
2
für unabhängige N("( ,1) und X .
n
Und für "( = 8 = 0 erhält man die zentrale t -Verteilung
n
(6)
t = t (0) = t (0,0).
n
n
n
0.4
0
0.2
o. 0 -k::::'-r4-,...4.---'---'~'T"""""r"::::;::::'=r=-';::::;::::;==:;:=;==-~:::;::::;:::::;=;
-5
o
5
10
15
20
Dichten der t ("()-Verteilung für n = 5 und Nichtzentralitäten "( = 0, 2, 4 und 8.
n
G. Osius: Die t- Verteilung
Die Dichte cp
V2-4
8.7.10
, von t ("(,8) läßt sich unter Verwendung der Dichten cp von N( 0,1)
n,"f,V
n
2
und cp ,von X (8) angeben:
n,v
n
00
(7)
cp
n,"(,
8(x) =
2
2
J
2nw .cp(wx-"().cp 8(nw )dw >
0
n,
Und die Verteilungsfunktion P
0
für xEIR.
, von t ("(,8) ergibt sich
n,"(,v
n
(8)
für xEIR.
Im Zusammenhang mit Schärfebetrachtungen von Tests sind folgende MonotonieEigenschaften der Verteilungsfunktion von Interesse:
(9)
P n, "( , 8(x) ist streng monoton wachsend in x E IR,
(10)
Pn,"(, 8( x) ist streng monoton fallend in "(E IR,
(11)
Pn,"(, 8( x) ist für x> 0 streng monoton wachsend in 8> 0,
wobei sich für "( ---+
(12)
± 00 bzw. 8 ---+ 00 folgende Grenzwerte ergeben
P n,-oo, 8(x) = 1,
P n, +00, 8(x)=0
P n, "(,00 (x) = 1
für x> 0
für xE IR
weil
p
(13)
tn ("(, 8) -------+ ± 00
(14)
tn ("(, 8)
p
-------+
0
für "( ---+
± 00,
für 8 ---+
00.
Ein Vorzeichenwechsel der Nichtzentralität "( bewirkt eine Spiegelung der Verteilung um Null
(15)
tn (-"(,8) = - tn ("(,8),
und hieraus ergibt sich für die Verteilungsfunktion
(16)
P
,(x) = 1-pn,
n,-"(,v
,(-x)
für xEIR.
"(,v
Erwartungswert und Varianz der einfach nichtzentralen Verteilung lauten
(17)
"( .fiif2 . r ( n;-l )/ r ( ~ )
(18)
(1
+ "(2)n/(n-2)
- E{t ("()}2
n
für n> 1,
für n>2.
G. Osius: Die t- Verteilung
2.3
V2-5
8.7.10
Approximationen der nichtzentralen t- Verteilung
Wir betrachten die doppelt-nichtzentral-t-verteilte Zufallsvariable
(1)
U
Tn
mit stochastisch unabhängigen
)1 V
n n
(2)
Für n ---+ 00 gilt
(3)
)1n Vn
S :=
n
P
----+l
n---+ 00
1
und somit
(4)
Tn
L
n---+ 00
l
Nb,l)
bzw.
tn ('Y,8)
N( 'Y, 1)
n---+ 00
Die zugehörigen Approximationen
(5)
S
n
~
für großes n
1,
sind allerding relativ grob. Aus der asymptotischen Normalverteilung von S
(6)
n
mit
(7)
ergibt sich als Präzisierung von (3) die Normalapproximation
(8)
mit
f-L
n
-----+
a
1,
n
-----+
O.
Daraus erhält man folgende Approximation der doppelt-nicht-zentralen t- Verteilungsfunktion für nicht zu kleines n
(9)
<!>
n,
,(x)
"(,u
~
<!>(u)
mit
u
Für die einfach-nicht-zentrale t- Verteilung reduziert dies zur Approximation
(10)
<!>
n, "{,
o(x)
~
<!>(u)
mit
U
=
X-,
V 1+ 2n
x2
die auf Johnson & Welch (1940, Biometrika 31, 362-389) zurückgeht, vgl. auch
Scheffe (1959, The Analysis
1970-72, eh. 31, Sec. 6.
01 Variance)
problem IV.4, p. 415) sowie Johnson & Kotz
G. Osius: Die F- Verteilung
V3-1
8.7.10
3
Die F- Verteilung
3.1
Die zentrale F- Verteilung
Sind U und V unabhängige reelle Zufallsvariablen mit Chiquadrat-Verteilungen
2
(1)
L( V) = X2n ,
L(U) = X ,
m
so heißt die Verteilung des Quotienten
(2)
lU
m
F
lV
n
eine zentrale F-Verteilung mit Zähler-Freiheitsgrad m und Nenner-Freiheitsgrad n) die
mit F
m,n
(3)
bezeichnet wird
F
Die F
m,n
m,n
= L(F) = L((lU)/(lV)).
n
m
-Verteilung läßt sich suggestiv auch schreiben als
1
(4)
2
mXm
Fm,n
2
2
für unabhängige Xm und X n .
12
nXn
Die F
m,n
-Verteilung besitzt eine Dichte cp
m,n
,die nur auf dem positiven Bereich
(0,00) von Null verschieden ist, und dort gegeben ist durch
(x) = d
. ~1 (mx
(5)
cp
(6)
p = ~ m,
(7)
dm,n - m n . r(p). r(q) ,
wobei
m,n
m,n
_
+ n)-(p+q) >
°
q= ~ n
p q
mit
und
r(p+q)
r die Eulersche Gammafunktion ist.
Die Dichte cp mn beschreibt für positive Argumente x im Fall m
,
fallende Kurve und im Fall
··
- n(m-2) 1
f ur
x - m(n+2) < .
Die Verteilungsjunktion P
< 2 eine monoton
m> 2 eine
schiefe "Glockenkurve" mit einem Maximum
der F
-Verteilung ist auf (0,00) streng monoton
m,n
m,n
wachsend und dort gegeben durch
x
(8)
P m,n (x) =P{Fm,n <x} =
Das obere a-Quantil F
m,n;o:
der F
m,n
J cp m,n (u)du.
o
-Verteilung ist dann gegeben durch
G. Osius: Die F- Verteilung
F
(9)
:=
m,n;Oi
V3-2
8.7.10
p-l (1- a)
bzw.
m,n
P{Fmn>Fmn·Oi }=a
,
,,
für O<a<1.
Der Erwartungswert existiert nur für n> 2 und hängt nicht von m ab:
(10)
E{ Fm,n } = --.I!:-2
n-
>
für n> 2.
1
Und die Varianz existiert erst für n> 4 und ist dann
2
2n (m+n-2)
(11)
Var{F
m,n
} =
m (n-
2)
2
(n-
für n>4.
4)
Bei Vertauschen beider Freiheitsgrade ergibt sich
(12)
F
1
n,m
F
m,n
(13)
p
(14)
F
n,m
(x)=l-P m,n (1)
X
für x
1
n,m;Oi
> 0,
für 0 < a< 1.
F
m,n;l-Oi
Für den Zähler-Freiheitsgrad m = 1 ergeben sich folgende Zusammenhänge zur zentralen t -Verteilung und deren Verteilungsfunktion P :
n
n
2
(15)
F
(16)
Pl ,n ( x) = 1 - 2 P n (-
l,n
= t
n
JX)
für x
64
> 0,
64
m = 1, 4, 16, 64
m=8
n = 1, 4, 16, 64
n=8
0.5
0.5
o ...fL.r---.-T"""""T'"...,.....,---.-...,......,--.--,.......,...,..::;:::::;=:~;;;;=;;;;;;;;;;
o
2
Dichten der F
3
m,n
4
O-t-'-f'---r""--"""""'''''--'''''''''''--'--T"""""T"--r-T"""""T"--r-T""""T--r-.,.....,
o
2
3
-Verteilung für verschiedene Freiheitsgrade mund n.
4
G. Osius: Die F- Verteilung
2
F1,n;Ct = tn;Ct/2
(17)
V3-3
8.7.10
für
°< a<
Für wachsenden Nenner-Freiheitsgrad n konvergiert die F
m,n
skalierte X2- Verteilung:
(18)
ci:
Fm,n
1
2
-·X
m
m
-------+
1.
-Verteilung gegen eine
für n ---+ 00.
Im Zusammenhang mit der Konstruktion von Konfidenzintervallen ist noch folgende Monotonie der Quantile bzgl. des Zählerfreiheitsgrades von Interesse:
(19)
3.2
m· F
m,n,Ct
ist für
°< a< 1 streng monoton wachsend bzgl.
mElN.
Die F- Verteilung mit reellen Freiheitsgraden
Aus der Darstellung der Chiquadrat-Verteilung als Gamma-Verteilung
ergibt sich die zentrale F- Verteilung wie folgt
1. Gam(:0 1)
(2)
m
Fm,n
2'
für unabhängige Gam(!J], l)und Gam(%, 1).
1. Gam(!!:. 1)
n
2'
Ersetzt man die natürlichen Zahlen m, n durch positive reelle Zahlen r, s > 0, so erhält man die (zentrale) F -Verteilung mit reellen Freiheitsgraden r, s
r,s
(3)
1.
Gam(I...2' 1)
r
Fr,s
für unabhängige Gam(~, l)und Gam(~, 1).
1. Gam(~ 1)
2'
S
Die F -Verteilung besitzt eine Dichte cp ,die nur auf dem positiven Bereich
r~
r~
(0,00) von Null verschieden ist, und dort gegeben ist durch
d
. ~1 (rx
(5)
cpr/
, x)
(6)
P=2'
(7)
dr,s = "p sq. r(p+q)
r,s
r
+ s)-(p+q)
>
°
q=2..
mit
und
2
r(p)· r(q)
Die F- Verteilung läßt sich in eine Beta-Verteilung transformieren und umgekehrt.
Für die streng wachsende Funktion g: (0, (0)
-----+
(0,1)
G. Osius: Die F- Verteilung
(8)
1
1 + s/(rx)
rx
rx + s
g(x)
V3-4
8.7.10
ergibt sich
(9)
rFrs,
r Frs, + s
g(Fr,s)
1
1 + s/(r Fr ,s)
Insbesondere läßt sich die Verteilungsfunktion <P
(10)
<P
r,s (x):= P{Fr,s <x}
P{Frs>x}
,
r,s
'""-'
B(p, q) .
von F
r,s
wie folgt berechnen
P{ B(p, q) < g(x)} = I(g(x) p, q)
1
P{B(p,q) >g(x)} = I(l-g(x)lq,p)
mit 1(-1 p, q) als unvollständiger Beta-Quotienten-Funktion (vgl. Exkurs Beta-Vertei-
lung).
Die nichtzentrale F- Verteilung
3.3
Sind U und V unabhängige reelle Zufallsvariablen mit den Verteilungen
2
L(U) = Xm
(8),
(1)
so heißt die Verteilung des Quotienten
F =
(2)
lU
m
lV
n
eine (doppelt) nichtzentrale F- Verteilung mit dem Zähler- und Nenner-Freiheitsgrad m
und n, sowie den Zähler- und Nenner-Nichtzentralitäten 8 und c, die mit F
m,n
(8, c) be-
zeichnet wird:
(3)
Fm,n (8,c) = L(F) = L((lU)j(lV)).
m
n
Die F
m,n
(8, c)-Verteilung läßt sich suggestiv auch schreiben als
1
(4)
F
m,n
(8,c) =
2
(8)
X
;:
m
lX (c)
2
n n
Speziell für c = 0 ergibt sich die (einfach) nichtzentrale F
m,n
Nichtzentralität 8
2
für unabhängige Xm (8) und X n (c).
(8)-Verteilung mit der
G. Osius: Die F- Verteilung
(5)
2
Fm,n (8) = Fm,n (8,0) =
m,n
F
m,n
Die Dichte cp
cp
nf
2
m
= F
m,n
-Verteilung
(0) = F m,n (0,0).
s: von F
m,n,u,e
2
für unabhängige Xm (8) und Xn .
Und für 8 = c = 0 erhält man die zentrale F
(6)
V3-5
8.7.10
m,n
2
(8,c) läßt sich unter Verwendung der Dichten cp
s: und
m,u
von X (8) und X (c) angeben:
n
00
(7)
J mnv'cpm,us:(mvx)·cpn,e (nv)
cpm,n,u,e
s: (x) =
(8)
s: von X2 (8) zu
m,u
P
>
für
0
x> O.
o
Und die Verteilungsjunktion P
funktion P
dv
s: von F
m,n,u,e
m,n
(8,c) ergibt sich mit der Verteilungs-
m
m,n,b,e
(x)
P{ Fm,n(8,c) <x}
00
oJ n·P m, b(mvx).cpn,e (nv) dv
für
x> O.
Bei Vertauschen beider Freiheitsgrade und Nichtzentralitäten ergibt sich
(9)
1
Fn ,m(c,8) = F
(8 c)
m,n '
(10)
P
n,m,e,b
(x)=l-P
(1)
für x
m,n,b,e x
> 0,
m=8
n = 16
8 = 0, 1, 2, 4
0.5
o. 0 ~--r---r---r----r----r-----r-----r~---,-.----r--..----r--~--r---r---r----,
o
Dichten der F
m,n
1
(8)- Verteilung jür
2
m = 8)
3
n = 16 und verschiedene Nichtzentralitäten 8.
G. Osius: Die F- Verteilung
V3-6
8.7.10
Für den Zähler-Freiheitsgrad m = 1 erhält man folgenden Zusammenhang zur
nichtzentralen t- Verteilung:
(11)
F1,n (8,c)=t2n (j6,c).
Im Zusammenhang mit Schärfebetrachtungen von Tests sind folgende MonotonieEigenschaften der Verteilungsfunktion von Interesse:
(12)
p
s:
m,n,u,e
(x) ist
• streng wachsend in xE (0,00),
• streng wachsend in c> 0
für x> 0,
8 >0
für x> o.
• streng fallend in
(13)
p
s:
(~) ist für x>O streng monoton fallend in mElN.
m,n,u,e m
Für 8 ---+ 00 bzw. c ---+ 00 ergeben sich mit 1.2 (17) folgende Grenzwerte
(14)
F
P
(8,c) -------+
00
(15)
F
(8,c)
n,m
n,m
p
-------+
0
für 8 ---+ 00,
für c ---+ 00,
und somit insbesondere
(16)
p
p
s:
m,n,u,oo
m,n,oo,e
(x) = 1
für x >0,
(x) = 0
für x
> O.
G. Osius: Die F- Verteilung
3.4
V3-7
8.7.10
Approximationen der nichtzentralen F- Verteilung
Nach Severo & Zelen (1960, Biometrika 47, 411-416) läßt sich die Verteilungsfunktion
P
s: der (einfach) nichtzentralen F
(8)-Verteilung wie folgt durch die Verteim,n,u
m,n
lungsfunktion P von N(O,l) approximieren:
(1)
Pm,n,D (x) ~
p( u I JV)
mit
u = (1-~n)wl/3_(1-a),
a =
v = a
2 (m + 28)
9(m+8)2 '
2 3
+ 9n
2 w /
'
mx
m+8
w =--
Tiku (1966, Biometrika 52, 415-427) gibt eine Approximation der (einfach) nichtzen-
tralen F (8)-Verteilung durch eine zentrale F- Verteilung
m,n
(2)
[Fm,n (8)
+ c] /
b ~ Fr,n
(three-moment central-F approximation)!
wobei der reelle Freiheitsgrad r und die Parameter b, c so gewählt sind, daß die ersten drei Momente der beiden Verteilungen in (2) übereinstimmen:
(3)
r
~(n-2) h/1/(1-4K3IH2) -1],
(4)
b =
r·H
m K (2r + n - 2) ,
(5)
H= 2(m + 8)3
c =
n (b -1- 151m)
n-2
mit
+ 3 (m + 8)(m + 28)(n- 2) + (m + 38)(n- 2)2 ,
K= (m + 8)2 + (n- 2)(m + 28) .
Die Three-moment central-F approximation ist nach Tiku (1966, Biometrika 53, 606-610)
genauer als die Normalapproximation (1). Aus (2) ergibt sich nach 3.2 (10) folgende
Approximation der nicht-zentralen F (8)-Verteilungsfunktion durch die Verteim,n
lungsfunktion einer Beta-Verteilung bzw. durch die unvollständige Betaquotienten-Funktion I
(6)
(7)
P m,n, D(x) = P{Fmn
, (8) < x}
,.....,
,.....,
p{ B(%,%) < u}
I(ul%,%)
bzw.
P{Fmn
, (8) > x}
,.....,
,.....,
p{ B(%,%) > u}
I(l- u l%,%)
mit
u
1
l+ nbl(r[x+c]) ,
1- u
1+
1
r[x+c]/(nb)
Beweise zu: Chiquadrat-Verteilung
B V 1-1
11.8.06
Beweise zu:
1.1
Die zentrale Chiquadrat-Verteilung
Wir geben hier nur kurz die Beweisidee an, auf deren Grundlage man leicht einen
vollständigen Beweis erarbeiten kann. Die Reihenfolge entspricht hierbei aus beweisökonomischen Gründen nicht der Darstellung im Text.
Die Aussagen
(9)
(12)
für
x> 0,
2
xm
und x2 stochastisch unabhängig ::::}
n
sind bereits als Spezialfälle für 8 = 0 im Abschnitt 1.2 enthalten als
1.2 (10)
<P1 6(x) = <P( JX-/6)
-
<P( -JX- J6)
für
x>O,
'
1.2 (8)
und werden dort bewiesen.
Beweis von:
(5)
für
x> 0,
Der Beweis erfolgt durch Induktion über den Freiheitsgrad n. Der Induktionsanfang
n = 1 ergibt sich durch Differenzieren von (9). Und der Induktionsschritt n r----+ n + 1
verwendet (12) für m = 1 und n + 1 statt n.
Beweis von:
(10)
2
xl·a
'
(10) folgt direkt aus (9).
für 0 < a
< 1.
Beweise zu: Chiquadrat-Verteilung
11.8.06
B V 1-2
Beweis von:
(11)
Der Beweis erfolgt durch Induktion über den Freiheitsgrad n. Der Induktionsanfang
n = 1 verwendet das 2. und 4. Moment der Standard-Normalverteilung
E(N(0.1)
2
)
= 1,
Und der Induktionsschritt ergibt sich aus (12) in Verbindung mit den Rechenregeln
über Erwartungswert und Varianz.
Beweis von:
(13)
(x~-n)jy"'n ~ N(0,1)
für n ---+ oo ,
(14)
x~/n
für n ---+ oo .
_P----+ 1
(13) bzw. (14) folgen direkt aus der Darstellung (1) in Verbindung mit dem Zentralen Grenzwert bzw. dem Gesetz der großen Zahlen.
Beweise zu: Chiquadrat-Verteilung
B V 1-3
11.8.06
Beweise zu:
1.2 Die nichtzentrale Chiquadrat-Verteilung
Beweis von:
Dann hängt die Verteilung der Quadratsumme
nur noch über die sogenannte Nichtzentralität
(3)
2
8 = II llll = Jli
+... + Jl~
vom Vektor Jl = (Jll' ... ,Jln) der Erwartungswerte ab.
2
Zu zeigen ist, daß L(IIU 11 ) nur über 8 von Jl = (Jll' ... ,Jln) abhängt, wobei für Jl = 0
bzw. 8 = 0 nichts zu zeigen ist. Sei also Jl :;= 0. Wir zeigen erst, daß die Verteilung
von IIU 11 2 invariant ist gegenüber einer einer orthorrormalen Transformation. Für
eine orthorrormale Matrix C gilt
(i)
ccT = 11
also
IICUII2 = urcrcu = uru = IIUII2
(ii)
2
2
L(IIUII ) = L(IICUII ).
d.h.
n
und somit
Es genügt daher ein geeignetes C anzugeben, für das die Verteilung von CU nur
noch über 8 von Jl abhängt. Hierzu ergänzen wir den normierten Vektor ji
= llllii-1Jl
zu einer Orthonormal-Basis des IR n und betrachten die orthorrormale Matrix C deren Zeilen diese Orthonormal-Basis bilden. Da ji die erste Spalte von CT ist, folgt
für den ersten Einheitsvektor e = (1, 0, ... , 0)
1
(iii)
C -1 e 1 =
cT e
1
= ,,_-
bzw.
r
Die zentrierten Variablen
(iv)
Z. = U.- Jl·
z
z
z
mit
L(Z.)
= N(O, 1),
z
sind ebenfalls stochastisch unabhängig und daher gilt
(v)
L(Z) = N n (0, 11 n )
Aus der Darstellung
sow1e
L(CZ) = N n (0, CCT) = N n (0, 11 n )
Beweise zu: Chiquadrat-Verteilung
B V 1-4
11.8.06
(vi)
vgl. (iii)
ergibt sich dann mit (v), daß L(CU) nur noch über
IIJ.LII = J6 von J.L abhängt.
D
Beweis von (8)
Für stochastisch unabhängige reelle Zufallsvariablen V1' ... ,Vm' U1'" .. ,Un mit
L(V.) = N(.A.,1)
für j = 1, ... ,m.
L(U.)z = N(p,.,1)
z
für i = 1, ... ,n
J
J
gilt nach Definition der x2- Verteilung
Da I U
IIJ.LII 2,
mit
8=
mit
"f=II-AII 2 ,
mit
T
= IIJ.LII 2 + II-AII 2 = -A+8.
1 2 und I V 1 2 stochastisch unabhängig sind, folgt hieraus (8).
D
Beweis von (10) (11)
(10)
<P1 6(x) = <P( JX-/6)
-
<P( -JX- J6)
für x> 0,
'
Für x>O gilt:
P{xi(8)<x}
2
= P{N(J"6,1) < x}
= P{IN(J6))1
< Jx}
= P{-JX <N(J6,1) <)X}
=
P{ -JX -J6 <N(0,1) <
Jx -J6}
= <P(Jx -J6)- <P (-JX -J6).
Also gilt (10), und (11) ergibt sich durch Differenzieren von (10) für x> 0
D
Beweise zu: Chiquadrat-Verteilung
B V 1-5
11.8.06
Beweis von:
(12)
x~ (8) und x~_ 1 unabhängig
=?
xi (8) + X~+ 1 = X~ (8) .
Dies ist ein Spezialfall von (8).
D
Beweis von:
00
1 cp18(x-y)·cpn-1(y)dy
(13)
0
für x > 0, n > 1,
>0
'
00
1 p 1 8 (x- Y)
(14)
0
für x > 0, n > 1.
· cp n-1 ( Y) dY
'
Beide Integraldarstellungen folgen direkt aus der Faltungseigenschaft (12).
Die Ungleichung cp ,
n,u
> 0 auf dem Intervall (O,oo)
vgl. (11),
folgt aus den Ungleichungen
cpn-1
> O,
vgl. (15),
die ebenfalls beide auf dem Intervall (O,oo) gelten.
D
Beweis von:
(15)
P , ist streng wachsend auf (O,oo).
n,u
Die Behauptung folgt sofort aus cp ,( x) > 0 für x> 0, vgl. (13).
n,u
Beweis von:
(16)
P n 8(x) = P{x~(8) < x}
'
ist streng wachsend in x> 0
und streng fallend in 8> 0 für x > 0.
Der Beweis erfolgt durch Induktion über den Freiheitsgrad n.
Induktionsanfang: n = 1
Wegen
(i)
xi(8) =
2
N(c:,1) mit c: =
Pn,8(z
2
)
J6 ergibt sich für z =
2
P{xi (8) < z
}
P{ -z < N(c:,1) < z}
<I>(z-c:)- <1>(-z-c:).
JX>O:
D
Beweise zu: Chiquadrat-Verteilung
B V 1-6
11.8.06
Differenzieren nach z bzw. c liefert mit cp = P 1 :
(ii)
8~
(iii)
2
;e p1 78(z )
P1,8( z
2
cp(z-E)
)
+ cp(z-E) > 0
- cp(z-E)
da cp> 0,
+ cp( -Z-E)
da cp symmetrisch.
- cp(lz-cl) + cp(lz+cl)
Für c > 0 gilt
-(z+c) < z-E <z+c
und somit
wobei die Gleichheit gerrau für c = 0 gilt. Da cp auf der positiven Achse (0, oo)
streng monoton fallend ist, folgt
(iv)
bzw.
wobei die Gleichheit gerrau für c = 0 gilt. Folglich ist P
sogar streng fallend für c > 0, also auch streng fallend in c
Und wegen (ii) ist P
16
16
(z2 ) fallend für c > 0, und
>0 und in 8
=
c2 .
(z2 ) streng wachsend in z > 0, also auch in x = z2 .
'
lnduktionsschritt: n
f-----t
n+ 1
Da X~t ( 8) die Faltung von
1
(v)
xi( 8) und X~ ist, gilt folgende Darstellung
i
P n+ 1, x) = P { U + V
< x}
= P { U < x- V} ,
wobei U, V stochastisch unabhängige Zufallsvariablen sind mit
L(V) = x2n .
Die Dichte cp von V ist nach Induktionsvoraussetzung (für 8 = 0) positiv auf (O,oo ),
n
und es gilt
X
P{U< x-V}
1 cpn(v) · P{U<x-v} dv
0
X
1 cpn(v) · <I> 1,8 (x-v) dv.
0
Der Integrand ist für 0
send in x
send in x
<v<x
positiv und nach Induktionsanfang streng wach-
> 0 und streng fallend in 8 > 0. Damit ist auch das Integral streng wach> 0 und streng fallend in 8 > 0, und (16) ist für n + 1 gezeigt.
D
1108006
Beweise zu: Chiquadrat-Verteilung
B V 1-7
Beweise zu:
1.3 Grenzwertsätze und Approximationen
Beweis von:
(1)
N(O, 1),
n---+ oo
V2(n + 28)
Anwendung des Zentralen Grenzwertsatzes auf die zentrierte Dreiecksfolge Xnk mit
k = 1, 000, no
für
Wegen
a~ := Var(Xn1 )
und
E(X~ 1 ) = 48(n-4%) + 12(n+2%)
=
2(1 + 2%)
2
n---+oo
2
48n + 12 n 2
n---+ oo
ist die Ljapunov-Bedingung erfüllt (vgl. Exkurs Der Zentrale Grenzwertsatz für reelle
Zufallsvariablen, 2. Kriterium 2) und somit folgt (1), weil
Var(Xn+) = 2(n + 28) 0
D
Beweis von:
(3)
c
=
n + 28
n+8
V=
+ 8) 2
n + 28
(n
Gleichsetzen der ersten beiden Momente von x~ (8) und Garn ( ~, 2 c) liefert:
(i)
(ii)
E{Gam( ~,2c)},
cv
Var{x~ (8)} =
2(n + 28)
2vc
2
= Var{Gam( ~,2c)}
0
Einsetzen von (i) in (ii) ergibt 2(n + 28) = 2 (n+8) c und somit c aus (1)0 Aus (i)
ergibt sich weiter v = (n+8)/c und somit v aus (1)0
D
Beweise zu: t- Verteilung
B V 2-1
16.7.10
Beweise zu:
2.1 Die zentrale t- Verteilung
Beweis von:
(15)
cpn (x) = cp(x)
lim
n---+oo
Für festes x E IR ist für n
---+
für alle xE IR.
oo zu zeigen
Nun ist
cpn (x)
(21r)- 1/ 2 · b (c d )-1/ 2
bn
r ( n~1 ) [ r ( ~ )
cn
( 1 + ~x2r
dn
(1+ ~x
2
2
0
~l-1
).
d
für n---+ oo
Aus
c ---+ exp { x },
n
folgt
( c d )-1/2 -----+ exp {- 12 x2},
n
mit
n n n
n
---+
1
n
und für (i) bleibt nur noch zu zeigen
(ii)
b
n
-----+
1
für n ---+ oo .
Setzen wir z = ~ , so ist
Wir zeigen jetzt allgemeiner
(iii)
log T(z
+ ~)-log T(z)-
~ log(z)-----+ 0
für z---+ oo
woraus sich sofort log b ---+ 0 und somit (ii) ergibt. Der Nachweis von (iii) verwenn
det folgende Variante der Stirlingschen Formel- vgl. z.B. Abramowitz & Stegun (1970),
Handbook of Mathematical Functions, 6.1.40, p. 257) für z---+ oo:
(iv)
log T(z) = (z- ~) log(z)- z
Entsprechend ist
+~
log(27r)
+ o(1).
Beweise zu: t- Verteilung
B V 2-2
1607010
und somit folgt
+ ~) -log T(z) z [ log (z + ~ ) - log (z)] log T(z
~ log(z) =
~
+ o (1)
und für (iii) bleibt zu zeigen
(v)
z[log(z + ~) -log(z)]-----+ ~
für z---+ ooo
Nach dem Mittelwertsatz gibt es zu jedem z ein ~(z) E (z, z + ~) so daß
~) -log(z)
(vi)
log(z +
Wegen
z < ~(z) < z + ~
folgt
<
z
z
+ 1/2
_z_
~
(z)
=
~ ~~z)
<
...!.._
0
z
0
1.
Zusammen mit (vi) ergibt sich daher
1..
2
z/
0
z+ 1
2
< z (log (z + 12 ) -
log( z))
<
1
2
0
Wegen
z
z +1/2
folgt hieraus (v)o
für z---+ oo
D
Beweise zu: t- Verteilung
B V 2-3
1607010
Beweise zu:
2.2 Die nichtzentrale t- Verteilung
Beweis von:
00
(7)
cpn,'"'(,D (X)
1 2nw 2
0
(8)
p n,'"'(,D(x)
P{tn ( ')', 8) < x}
0
cp( wx -')') cp
0
n,cp
00
1 2nw
0
0
<!>( wx -')') cp
0
n,cp
(nw 2 ) dw
>
0
(nw 2 ) dw
für xEIRO
für xEIR
0
Die Verteilungsfunktion von W =~ergibt sich aus der von V bzwo x2 ( 8) mit
n
<~>w(w) = P{W<w} = P{V<nw 2 } = Px;(nw 2 )
für w>O,
und für die Dichte von W folgt
für w> 00
(i)
Zusammen mit der Dichte von U
für uEIR,
(ii)
ergibt sich daher die Dichte des Quotienten T= U /W (vgl. zo B. Skripte zur Stochastik
6.3 oder zur Maß- und Wahrscheinlichkeitstheorie 14)
00
cpT(x) =
1 wocpu(wx) ocpw(w) dwo
0
Mit (i) und (ii) ergibt sich hieraus (7), und (8) erhält man aus (7) wie folgt:
X
1 cpn,'"'(,D(t) dt
Pn,'"'(,D(x) =
-00
X
00
1 1 2nw 2
-00
0
J2nw 20
0
(
0
cp( wt -')') cp n,cp (nw 2 ) dw dt
0
Jcp(wt-')')dt) ocpn,cp (nw 2 )dw
-00
00
1
2nwo<I>(wx-'Y)ocp (nw 2 )dwo
0
n,cp
D
Beweise zu: t- Verteilung
B V2-4
16.7.10
Beweise von:
(9)
P n,'"'(, 8 ( x) ist streng monoton wachsend in xE IR,
(10)
P n, , 8 ( x) ist streng monoton fallend in 'Y E IR,
1
(11)
P n,'"'(, 8 ( x) ist für x > 0 streng monoton wachsend in 8> 0,
Nach Definition der t (')',8)-Verteilung gilt folgende Darstellung
n
(i)
Pn,'"'(,u,(x) =P{tn ('Y,8)<x}
=P{Z+'Y<Vx},
wobei Z, V stochastisch unabhängige Zufallsvariable sind mit
L(Z) = N(O))
Mit den Dichten cp bzw. f von Z bzw. V ergibt sich daher
(ii)
<!>
,(x) =P{Z<Vx-'Y}
n,'"'(,u
J
f(v)·cp(z)d(v,z)
{z::::;vx-1}
VX-'"'(
00
=
J(f(v)· J
0
cp(z)dz)dv
-00
00
=
J (f(v)·<I>(vx-'Y))dv.
0
ad (9-10}: Der Integrand f( v) · P (vx- 'Y) ist für jedes v > 0 positiv und
• streng wachsend in x,
• streng fallend in ')',
weil P streng wachsend ist. Damit hat auch das Integral P
,( x) dieselben Mono-
n,'"'(,u
tonie-Eigenschaften, d.h. (9) und (10) gelten.
ad {11):
Wir integrieren wir in (ii) erst über z und dann über
00
(iii)
J cp(z)·(
-oo
J
f(v)· dv)dz
{z::::;vx-1}
00
J cp(z) ·P{z<Vx-'Y} dz
-oo
v
Beweise zu: t- Verteilung
Nun ist für z >-
B V 2-5
16.7.10
r bzw. z + r > 0
P{z<Vx-r} = P{V>(z+r)/x}
=
P{ n V 2 > n(z + r) 2j x 2}
=
P{x~(8) > n (z + r) 2/ x 2}
= 1-<P n u,(h(z))
7
für z>-r
und <P , als Verteilungsfunktion von x2 (8).
n,u
n
Und für z <-
r bzw. z + r < 0 ist
P{z<Vx-r} = P{V>(z+r)/x}
1
für z <- ')'.
Damit ergibt sich aus (iii)
-'"'(
<P n,'"'(,u,(x) =
1
00
1 <p(z) ·(1-<Pn,8(h(z)))
<p(z) dz +
-oo
dz
-'"Y
00
+
<P(-r)
1 <p(z) ·(1-<Pn,8 (h(z)))
dz
1
-'"Y
und für (11) bleibt nur zu zeigen, daß das Integral
00
1 <p(z) ·(1-<Pn,8(h(z)))
dz
-'"Y
für x > 0 streng wachsend in 8 ist. Und dies ergibt sich daraus, daß der (positive) In-
tegrand <p(z) ·(1-<P n u,(h(z))) für z>-8 und somit h(z)>O nach 1.2 (16) streng
7
wachsend in 8 ist.
D
Beweise von:
p
± oo
(13)
tn (')', 8)
(14)
tn (')',8) ~ 0
-----+
für 1'---+
± oo,
für 8---+ oo.
Die Behauptungen ergeben sich mit Exkurs KV 11 (1) und (5) aus
N(r,1) ~ ± oo
für 1' ---+ ± oo
x2n (8) ~ oo
für 8 ---+ oo ,
vgl. 1.2 (17).
D
Beweise zu: t- Verteilung
B V 2-6
16.7.10
Beweise zu:
2.3 Approximationen der nichtzentralen t- Verteilung
Beweis von:
(3)
sn ·-- ~
n n
(6)
(S -p, )ja
n
n
n
(7)
I-Ln
p
1
n---+ oo
L
n---+ oo
N(O, 1)
= (1+~//2
n
'
mit
a
2n
-
1.(1.+1)
n 2
n
Ausgangspunkt für (6) ist die asymptotische Normalverteilung von
s2 = 1. 2 ( 8)
n
(i)
c
z
c
n
(5 2-z )
n
n
L
n---+ oo
2
E(Sn )
n
n
d.h. (vgl. 1.3 (1))
nxn
= Var(s
1.(n+8)
n
r
2 112
n
N(O, 1)
n (2n + 48f1/ 2 =
mit
1+1
n
Vn (2 +
n---+ oo
~ 8f1/2
n---+ oo
1'
00
Für die Transformation F(x) = x1/ 2 mit F'(x) = ~ x - 1/ 2 ergibt sich aus (i) mit der
Delta-Methode (vgl. Exkurs Konvergenz nach Verteilung in euklidischen Räumen, Ab-
schnitt 14)
(ii)
cn(S;;p,n)
1-L
n
n:oo
F'(1) ·N(0,1)
N(o, ~)
mit
= z1/2 = (1 + 1)1/2 .
n
n
Hieraus erhält man (6) mit
Aus (ii) folgt mit c ---+ oo und p, ---+ 1 auch (3).
n
n
D
Beweise zu: t- Verteilung
B V 2-7
16.7.10
Beweis von:
(9)
mit
u
Für W '"'"'"'N(p, 1 a 2 ) stochastisch unabhängig von U'"'"'"' N('Y, 1) ergibt sich
n
n n
(i)
<I>
,(x) = P{ U/ Sn < x}
n, "(,u
~ P{U/Wn<x}
vgl. (8)
Wegen
folgt
P { U- x W n
< 0}
Xf-Ln -
u =
Mit (i) ergibt sich (9).
"(
wobei
= <!>( u)
X~
-
"(
D
Beweise zu: F- Verteilung
B V 3-1
8.7.10
Beweise zu:
3.1 Die zentrale F- Verteilung
Beweise von:
(5)
mit
1
1
(6)
p =2m,
(7)
P q F(p+q)
dm,n- m n . r(p). r(q).
und
q=2n
Vgl. den Beweis von 3.2 (5) für r = m und s = n.
D
Beweise von (10)-(18 ) fehlen noch!!!
Beweis von (19) unter Verwendung von 3.3 (13)
(19)
m ·F
m,n;o:
ist für 0 < a
< 1 streng monoton wachsend bzgl. mE W.
Für 1 < k < m ist zu zeigen
(i)
k·Fk,n;o: <m·Fm,n;o: .
Mit x = m · F
m,n;o:
> 0 ergibt sich
1- a = Pmn (Fmn·o: )
'
' '
nach 3.3 (13) mit 8=c:=0.
Da mit Pk
,n
auch Pk-1 streng monoton wachsend ist, folgt weiter
,n
1
Fk ,n,o:
. = P-k ,n (1- a)
< ;;
r;;
d.h. (i) gilt.
D
Beweise zu: F- Verteilung
B V 3-2
8.7.10
Beweise zu:
3.2 Die F- Verteilung mit reellen Freiheitsgraden
Beweise von:
(x) = d · ~ 1 (rx
r,s
(5)
cp
(6)
p = ~ r,
(7)
dr,s -
r,s
'I
0
mit
q= ~ s
v q
-
+ s)-(p+q) >
s
0
und
r(p +q)
r(p) r(q) '
0
Für stochastisch unabhängige X"' Gam(p, 1) und Y"' Gam(q, 1) mit Dichten
_ 1 p-1 -X
f X (X) - F(p) X e ,
(i)
f Y (Y) -
q-1 -y
1
r(q) Y
e
'
ergibt sich die Dichte des Quotienten Z =X/ Y zu (vgl. Skript ,,Stochastik", Kap. 6.3)
00
fz(z) =
J y -fx(zy) -fy(y) dy
0
00
1
r(p) . r(q) z
p- 1
J
o Y
p+q- 1 -y(1 +z) d
e
Y
Substitution:
1
y = (1+zr u
1
dy = (1+zr du
00
1
r(p) . r(q) z
p-1 (
1+ z
J u p+q-1 e-u du
)-p-q
u = y(1+z)
0
r(p + q) zP- 1(1 + zr(p+q)
r(p) · r(q)
Die Dichte von F
für z
>0
0
1
r,s
= (Xjp)j(Yjq)) = qp- Z ist daher (vgl. z.B. Skript ,,Stochastik",
Kap. 4.4)
cp
r,s
(x) = pq-1-f(pq-1x)
r(p + q)
-1 ( -1 )p-1 ( 1 + -1 )-(p+q)
r(p) . r(q) P q . P q x
Pq x
F(p+q) JJ -p. J!-1( -1( + ))-(p+q)
r(p) . r(q) Y q
q q Px
r(p + q) JJ q. xP-1( + ) -(p+q)
r(p) . r(q) Y q
q Px
r(p + q) (2p)P (2q)q. xP- 1(2q + 2p x) -(p+q)
r(p). r(q)
da r = 2p, s = 2q.
D
Beweise zu: F- Verteilung
B V 3-3
8.7.10
Beweise von:
(9)
g(Fr,s)
1
1 + sj(r Fr 8 )
rFrs
r Frs + s
'
,.....__
B(p, q).
'
Wir knüpfen an den Beweis von (5) an.
Aus
XjY = Z = pFr,s jq
folgt
g(Fr,s)
1
rFr,s / s
1
1 + sj(r Fr 8
'
)
1+ Y/X
X
X+Y
,.....__
B(p, q).
D
Beweise zu: F- Verteilung
B V 3-4
8.7.10
Beweise zu:
3.3 Die nicht-zentrale F- Verteilung
Beweise von:
00
(7)
cpmn 8 e(x) =
' ' '
(8)
<[>
1 m n v · cpm,u,(m v x) · cpn,e (n v) dv > 0
für x > 0.
0
(x)
m,n,87e
00
1 n·Pm, 8 (mvx) ·cpn,e (nv) dv
für x
> 0.
0
(9)
(10)
Fn,m (c:,8) = F
<[>
1
(b c)
m,n '
(x)=1-P
(l)
n7m7e78
m,n,87e x
für x
> 0,
(11)
Die Dichte und Verteilungsfunktion von X =.l U und Y =.l V ergeben sich aus (1):
m
n
(i)
x> 0,
fx(x) = m cpm,im x),
FX(x) =<I> m,im x)
für
fy(Y) = ncpne(ny),
Fy(Y) = <I> n e (n y)
für y > 0.
7
'
Hieraus erhält man die Dichte und Verteilungsfunktion des Quotienten F=X/Y
(vgl. z.B. Skript zur Stochastik 6.3)
00
(ii)
für
X
(iii)
<[>
m,n,8,e
(x)
x> 0
oo
1 1 v-fjvw) -fy(v) dv dw
für x > 0
0 0
l'[!
fjvw) v dw ]!y(v) dv
00
1 Fjvx) -fy(v) dv
0
Mit (i) ergeben sich (7) und (8) aus (ii) und (iii). (9) ergibt sich aus (4). (10) folgt aus
(9), da g(x) = 1/x eine streng fallende Funktion in x > 0 ist. Und (11) ergibt sich durch
quadrieren aus 2.2 (4).
D
Beweise zu: F- Verteilung
B V 3-5
807010
Beweise von:
(12)
P
,
m 7n 7u7e
(x) ist • streng wachsend in xE (O,oo ),
• streng wachsend in c > 0
• streng fallend in
Nach Definition der F
m,n
<!>
8
(8,c)-Verteilung gilt für
x> 0,
für x> 00
für
>0
x> 0 folgende
Darstellung
P{Fm,n (8,c) < x} = P{U < Vx},
, (x) =
m 7n 7u7e
wobei U, V stochastisch unabhängige Zufallsvariable sind L( U)
L( ~ V)
= x~( c )0 Mit der Dichte f von V ergibt sich
xm2 (8)
und
00
J f(v)
Pm,n,D,e (x) =
0
P{U<vx} dv
0
0
00
J f(v)
2
0 P{xm(8)
< vx} 0 dv
0
0
Für v > 0 ist f( v)
> 0 nach
1.2 (13) und somit ist auch der Integrand
>0
0
Nach 1.2
2
(16) ist der Integrand f( v) P{x m
( 8) < vx} und damit auch das Integral P
, (x)
m 7n 7u7e
streng wachsend in x > 0 und streng fallend in 80
0
Die Monotonie von P
nie bzgl. 80
, (x) bzgl. c folgt mit (10) aus der eben gezeigten Monoto-
m,n,u7e
D
Beweise zu: F- Verteilung
B V 3-6
807010
Beweis von:
(13)
<[>
(~)
ist für x > 0 streng monoton fallend in m E W
m,n,87e m
0
Für 1 < k < m und x > 0 ist zu zeigen
(i)
<[>
m,n,87e (~)<<!>
m
k,n,87e (~)0
k
Seien U, V, W stochastisch unabhängige Zufallsvariable mit folgenden Verteilungen
(ii)
L( U) = x~( 8),
L(V) =
x~-k'
L(W) = x~(c)jno
Wir setzen
(iii)
X
U/k
(iv)
y
(U+ V)/m
w
w
mit
L(X) =Fk ,n, 8 e ,
7
mit
L(Y) = Fm,n, 8 e
7
°
Dann gilt
(v)
<[>
(_E_)
P{kX <x}
k,n,87e k
P{U*<x}
(vi)
<I>
, (__E__) =
m 7n 7u 7e m
mit
U* == u jw,
mit
V*:=V/Wo
P{mY<x}
= P{U*+ V*<x}
Die Zufallsvariable U* hat auf (0, oo) eine Dichte f> 0 mit
nach (v),
und somit gilt
(vii)
p { U*
+ V* < X}
X
= J
j( U) p {V* < X- U} dU
o
o
0
Wegen L(V*j(m-k)) = Fm -k ,n, 0 e gilt
7
(viii)
P{V*< x-u} < P{V*< x}
p
(-X ) <
m-knOe m-k
1
für O<u<x,
'''
und somit folgt aus (vii) weiter
X
P{U*+V*<x} < P{V*<x} Jf(u)du = P{V*<x}P{U*<x} < P{U*<x}o
0
Zusammen mit (v), (vi) und (viii) ergibt sich jetzt (i) aus
(ix)
D
MN Die multivariate Normalverteilung
Gerhard Osius
1.
Die eindimensionale Normalverteilung
2.
Definition der multivariaten Normalverteilung
3.
Eigenschaften der multivariaten Normalverteilung
4.
Quadratische Formen von normalverteilten Variablen
5.
Bedingte Normalverteilungen
6.
Die zweidimensionale Normalverteilung
G. Osius: Multivariate Normalverteilung
1.
17.5.108
MN-2
Die eindimensionale Normalverteilung
Wir gehen aus von den eindimensionalen Normalverteilungen N(p"a 2) mit p,EIR,
17
> o. Für
17 ---+
0 konvergiert N(p"
(7
2
) nach Verteilung gegen die Einpunkt-Vertei-
lung mit Träger {p,}, die wir daher suggestiv mit N(p" 0) bezeichnen und auch als
(degenerierte) Normalverteilung ansehen. Die Klasse aller eindimensionalen Normalverteilungen ist clann
Diese Klasse ist abgeschlossen gegenüber affinen Transformationen und Faltungen,
cl.h. es gilt
JY;:,
cL'( aX + b) E JY;: .
(2)
cL'(X) E
(3)
Für stochastisch unabhängige X ,X gilt
a, bE IR
1
Durch Induktion ergibt sich, daß
JY;:
2
gegen "unabhängige Linearkombination" abge-
schlossen ist, cl.h. es gilt:
(4)
Für stochastisch unabhängige Xl'" ..,X gilt
J
cL'(X) E JY;: für alle j=l, ,J
cL'( t 1Xl
=*
+ + tJXJ ) E JY;:
Die charakteristische Funktion 'Y( -I p" (7 2 ) von N(p"
(5)
(7
2
) ist
für sEIR,
und die Moment-erzeugende Funktion M( -I p,,( 2 ) von N(p"a 2 ) lautet
(6)
für sEIR.
G. Osius: Multivariate Normalverteilung
2.
17.5.108
MN-3
Definition der multivariaten Normalverteilung
Wir geben drei verschiedene Definitionen der multivariaten Normalverteilung und
weisen anschließend deren Äquivalenz nach.
1. Definition: konstruktiv
Die erste Definition ist konstruktiv in dem Sinn, daß die multivariaten Normalverteilungen aus stochastisch unabhängigen (eindimensionalen) Standard-Normalverteilungen N (0,1) konstruiert werden. Hierzu seien Z1' ...,ZJ stochastisch unabhängige
1
Zufallsvariable mit
(0)
L(Zj) = N (0,1)
für alle j = 1, ..., J
1
Für eme beliebige IxJ- Matrix C mit Rang (C) = J < I und beliebiges fL E IRI betrachten wir die affine Einbettung G: IR] ---+ IRI mit
(1)
G(z) = Cz
·· zE IR] .
f ur
+ fL
Fassen wir Z = (Zl' ...,ZJ) Tals J-dimensionalen Zufallsvektor auf, so ist
(2)
X = G(Z) = C z
+ fL
eine I-dimensionale ZV. Die Verteilung von X hängt nur von C und Jl ab und wird
als eine I-dimensionale Normalverteilung vom Rang J wie folgt (vorläufig) bezeichnet
Formal gesehen ist N/fLl C) das Bildrnaß der Verteilung L(Z) unter G. Erwartungswert und Covarianzmatrix von X ergeben sich
(4)
(5)
E = Cov(X) = CC
T
mit
Rang(E) = Rang(C) = J.
Wir erweitern diese Definition noch, indem wir die Einpunktverteilungen auch als
Normalverteilungen vom Rang 0 auffassen und wie folgt bezeichnen
(6)
N/fL I0) = L(X)
falls
P{X=fL} = 1.
Es wird sich noch herausstellen, daß N/fL IC) nur noch über E von C abhängt.
Speziell für C = 11J (Einheitsmatrix), fL = 0 ist X = Z und somit ist
G. Osius: Multivariate Normalverteilung
MN-4
17.5.108
Aus der Verteilungsfunktion P von N( 0,1) ergibt sich sofort die Verteilungsfunktion
PJ und die Dichte cpJ von Z bzw. N/ü 1 11J)
J
(8)
TI
PJ(x) =
p(x.)
j=l
J
J
TI
cpi x )
cp(x.)
j=l
J
= (21r)-J/2. exp{ -
~ x T x}
für x = (xl' ...'xJ ) EIRJ .
2. Definition: Charakterisierung via Linearkombinationen
Die zweite Definition charakterisiert die multivariate Normalverteilung durch die
Verteilungen aller ihrer Linearkombinationen. Formal ist die Klasse
JVf aller I-di-
mensionalen Normalverteilungen definiert.
(9)
cL'(Y) E
JVf
{}
Y ist I-dimensionaler Zufallsvektor mit
cL'(tTy) E~
für alle tE IRI ,
bzw. mit Wahrscheinlichkeits-Maßen formuliert:
(10)
PE JVj
{}
Für jedes tE IRI ist das Bildmaß von P unter t T :IRI
---+
IR aus
~.
Für I-dimensionales Y = (Yl'" ..,Y )T mit cL'(Y) E JVj gilt speziell cL'(Y ) E ~ und
1
i
somit existieren alle Momente von Y. für i = 1, ,... ,1. Damit existieren auch Erwarz
tungsvektor und Covarianzmatrix von Y:
(11)
Jl = E(Y),
E= Cov(Y).
Für beliebiges tE IRI folgt dann
d.h. cL'(tTy) ist für jedes t bereits durch Jl und E festgelegt. Damit ist (nach dem
Eindeutigkeitssatz für mehrdimensionale Verteilungen) auch cL'(Y) bereits durch Jl
und E festgelegt und wird wie folgt bezeichnet
Der Rang der multivariaten Normalverteilung N/Jl,E) ist definiert als der Rang ihrer Covarianzmatrix E, d.h. als Rang (E) .
G. Osius: Multivariate Normalverteilung
MN-5
17.5.108
3. Definition: via charakteristischer Funktion
Die dritte Definition beschreibt die multivariate Normalverteilung durch ihre charakteristische Funktion (kurz: CF). Für beliebiges p, E IRI und eine (I x I) -Matrix E definieren wir eine Funktion "( ( -I p" E) : IRI ---+ <C durch
für tEIRI
(14)
und betrachten die Funktionenklasse
(15)
ß[ = {"(( -1p,E) 1
p,E IRI , E symmetrische, positiv-semidefinite (lxI) -Matrix}.
Nach der dritten Definition heißt eine I-dimensionale Zufallsvariable Y normalverteilt, falls ihre charakteristische Funktion CPy zu der Klasse ß[ gehört.
Äquivalenz der drei Definitionen
Es soll jetzt die Aquivalenz aller drei Definitionen nachgewiesen werden. Zuerst zeigen wir, daß die erste Definition die zweite impliziert, d.h. es ist zu zeigen
(16)
N[(p,1 C)
E
JVj.
Für cL'(X) =Nip,IC) mit X aus (2) und C vom Rang J> 0 ist
tTX = (CTt)T Z + t T p,
für jedes tEIRI .
Nach 1 (4) ist cL'{( CTt) TZ} E JV;:, also auch t TXE JV;:, und es folgt cL'(X) E JVj.
Für cL'(X) = Nip,1 0) ist X Einpunktverteilt in p, und somit ist cL'(t TX) eine Einpunktverteilt in t Tp" die ebenfalls zur Klasse
JV;: gehört. Und damit ist (16) gezeigt.
Als nächstes zeigen wir, daß aus der zweiten Definition die dritte folgt, d.h.
(17)
CPy = "(( -I p"E) E ß r
Hierzu bestimmen wir für beliebiges cL'(Y) = N/p" E) die charakteristische Funktion CPy von Y. Für beliebiges tE IRI ist cL'( t TY) = N (t Tp" t TE t) und unter Ver1
wendung der charakteristischen Funktion CPtTy von tTy gilt
cpt T y(l)
exp {i t TP, - ~ t TE t },
nach 1 (5).
G. Osius: Multivariate Normalverteilung
MN-6
17.5.108
Damit ist (17) gezeigt, und zuletzt zeigen wir, daß die dritte Definition die erste impliziert. Sei also Y eine I-dimensionale Zufallsvariable mit charakteristischer
I
Funktion 'P y = 'Y( -I Jl, E) für ein JlE IR und eine positiv-semidefinites Matrix E.
Für E= 0 ist 'Y( -I Jl,O) die charakteristische Funktion der Einpunktverteilung im
Punkt Jl, und wegen (6) folgt cL'(Y) =NI(JlI 0). Für E;= 0 ist J = Rang(E) > 0, und
es gibt eine (IxJ)-Matrix C vom Rang J mit E= CC T. Die charakteristische
Funktion 'P
X
von X = CZ + Jl aus (2) ergibt sich dann aus der charakteristischen
Funktion 'P von Z wie folgt
Z
T
'Px(t) = 'PCZ+JL(t) ='Pz(CTt). exp{it Jl}
für tE IRI .
Nach 1 (8) ist
'P
z(s)
= exp { -
~ s Ts }
·· sE IR],
f ur
und wegen E = C C T ergibt sich
für tE IRI .
Also ist 'P X = 'Y( -I Jl, E) und aus dem Eindeutigkeitssatz für charakteristische
Funktionen folgt cL'(X) = cL'(Y). Insgesamt gilt daher
(18)
cL'(Y) = N/JlI 0)
oder
cL'(Y) = N/JlI C).
Damit sind alle drei Definitionen äquivalent. Insesondere folgt, daß die Verteilung
T
von N/JlIC) nur noch über E = CC von C abhängt. Die provisorische Notation
N/JlI C) bzw. N/JlI 0) aus der ersten Definition wird daher nicht weiter verwendet.
G. Osius: Multivariate Normalverteilung
3.
MN-7
17.5.108
Eigenschaften der multivariaten Normalverteilung
Es sollen jetzt einige wichtige Eigenschaften der multivariaten Normalverteilung
zusammengestellt werden. Hierbei verwenden wir lediglich die charakterisierende
(zweite) Definition der Klasse
JV]-,
d.h. die Äquivalenz der anderen Definitionen
wird hier nicht ausgenutzt.
Affine Transformationen
Die erste wichtige Eigenschaft der normalverteilten Zufallsvektoren ist die Abgeschlossenheit gegenüber affinen Transformationen. Für einen I-dimensionalen Zufallsvektor, eine (JxI)-Matrix A und einen Vektor hEIR] gilt:
Produktmaße
Das Produktmaß von K Normalverteilungen der Dimensionen 1 , ..., IK ist eine Nor1
malverteilung der Dimension 1+ = 1 +...+ IK:
1
(2)
TIK
k=1
NI (Jlk ,Ek )
k
=NI+(Jl, E)
mit Jl
=:[~]
,
JlK
Schreibweise für die Block-Diagonal-Matrix:
Unter Verwendung von Zufallsvariablen läßt sich (2) äquivalent formulieren:
(2)'
Sind Xl' ..., X
K
stochastisch unabhängige Zufallsvektoren mit
cL'(X k ) = NI (Jlk ,Ek )
für alle k = 1) ...) K)
k
so folgt für den I +-dimensionalen Zufallsvektor X = (Xl' ..., X )
K
cL'(X) = NI (Jl,E)
mit Jl, E aus (2).
+
Speziell ergibt sich für Produktmaße eindimensionaler Normalverteilungen
(2) *
2
TII N1 (Jl.,a.)
i =1
Z
.
2
= N/Jl, Dlag{a })
Z
bzw unter Verwendung von Zufallsvariablen
·· Jl, a 2 E IRI .
f ur
G. Osius: Multivariate Normalverteilung
(2)*'
MN-8
17.5.108
Sind Xl' ..., XI stochastisch unabhängige Zufallsvariablen mit
cL'(X.) = N (p,. ,a~)
für alle i = 1) ...) I)
2
l 2 2
so folgt für den I-dimensionalen Zufallsvektor X = (Xl' ...,XI)
cL'(X) = N/p" Diag{ a 2 }) .
Die I-dimensionale Standard-Normalverteilung N/O, llI) ist daher das Produkt von I
eindimensionalen Standard-Normalverteilungen
I
Tl
N1 (0,1)
2=1
bzw unter Verwendung von Zufallsvariablen
(3)
N1(0, 111 ) =
(3)'
Sind Xl' ..., XI stochastisch unabhängige N (O,l)-verteilte Zufallsvariablen,
l
so hat der I-dimensionale Zufallsvektor X = (Xl' ...,XI) eine I-dimensionale Standard-Normalverteilung
cL'(X) = N/O,l1I) .
Unabhängigkeit und U nkorrreliertheit
Bei multivariater Normalverteilung ist Unkorreliertheit äquivalent zur Unabhängigkeit.
Für einen I-dimensionalen normalverteilten Zufallsvektor X, d.h.
mit
cL'(X) E ~ betrachten wir eine Zerlegung X = (Xl' ..., X K ) in K Teilvektoren X k
der Dimension I k (für alle k), wobei I = I+" Dann gilt
(4)
Xl' , X
K
sind stochastisch unabhängig
{}
Xl' , X K sind paarweise unkorreliert, d.h. Cov(X) =Diag{ Cov(X k )}
Rang und Standard-Darstellung
Für einen normalverteilten Zufallsvektor X mit cL'(X) = NI(p"E) wollen jetzt die
Bedeutung des Ranges der Verteilung, d.h. von Rang(E), studieren. Zunächst sind die
Normalverteilungen vom Rang 0 genau die Einpunktverteilungen:
(5)
Rang(E) = 0
E=O
P{X=p,} = 1.
Dieses Resultat soll jetzt verallgemeinert werden. Wir zeigen, daß die Verteilung
cL'(X) = NI (p" E) stets konzentriert ist auf den affinen Teilraum
(6)
p,
+ vft
= {p,+m I mEv«}
C IRJ,
wobei
G. Osius: Multivariate Normalverteilung
17.5.108
MN-9
(7)
der von den Spalten von E erzeugte lineare Teilraum ist mit der Dimension
(8)
J = Dim(c.4) = Rang(E).
Bezeichnet Pc4: lRI -----+ lRI die orthogonale Projektion auf den linearen Teilraum
c.4, so erhält man folgendes Resultat:
(9)
X stimmt P- fast-sicher überein mit
X = Jl + P~ X - Jl) , d.h.
P{X =X} = 1.
(10)
cL'(X) = N1(Jl,E) ist auf Jl + c.4 konzentriert, d.h.
P{XEIl+c.4} =P{X-Il Ec.4} = 1.
Wegen (9) kann man X bei allen wahrscheinlichkeitstheoretischen Betrachtungen
ohne Beschränkung der Allgemeinheit durch seine Standard-Darstellung X E Jl + c.4
ersetzen. Wir wollen diese Standard-Darstellung noch anders beschreiben.
Im trivialen Fall J = 0 bzw. c.4 = {O} ist Jl + c.4 = {Jl} einelementig und
X = Jl
hängt nicht mehr von X ab.
Im Fall J> 0 gibt es eine (I x J) - Matrix C mit
(11)
E=CC
T
,
Rang(C) = J,
und C besitzt die Linksinverse
c.4 wird dann auch von den Spalten von Cerzeugt
und die orthogonale Projektion auf c.4 ist darstellbar durch (vgl. Exkurs SP 2 (2))
Definieren wir nun den J-dimensionalen Zufallsvektor Z = (Z1' ...,ZJ) durch
dann gilt
(16)
Zl'"..,ZJ sind stochastisch unabhängig identisch N (0, l)-verteilt, d.h.
1
cL'(Z) = NjO, 11).
G. Osius: Multivariate Normalverteilung
MN-lO
17.5.108
Und für die Standard-Darstellung X erhält man die Darstellung
Damit ist gezeigt, daß sich jede Normalverteilung vom Rang J> 0 aus J unabhängigen eindimensionalen Standard-Normalverteilungen im Sinn der ersten Definition
aus Abschnitt 2 konstruieren läßt, d.h. N/Jl,E) = N/JlI C). Somit haben wir einen
(weiteren) Beweis für die Äquivalenz der ersten beiden Definitionen der multivariaten Normalverteilung aus Abschnitt 2, wobei sich der triviale Fall J = 0 mit
N/Jl, 0) = NI (JlI 0) wegen (5) ergibt.
Dichte
Wir wollen jetzt noch eine Dichte der multivariaten Normalverteilung N/Jl, E) angeben. Da die Verteilung N/Jl, E) auf den affinen Teilraum Jl
+ .At konzentriert
ist, kann sie höchstens dann eine Dichte bzgl. des Lebesgue-Maßes )/ besitzen,
wenn .At die maximale Dimension I hat, weil gilt
(18)
Rang(E) <I
)/(Jl+.At) = 0,
N/Jl, E) besitzt keine )/- Dichte.
Falls .At jedoch die maximale Dimension I hat, d.h. falls .At = IR] und somit auch
Jl +.At = IR] gilt, so besitzt NI(Jl,E) eine i-Dichte:
(19)
Für Rang(E) = I ist eine )/-Dichte von N/Jl,E) gegeben durch
I
xEIR ,
mit der quadratischen Form
I
xEIR .
Obwohl N/Jl,E) nach (18) im allgemeinen keine Dichte bzgl. des I-dimensionalen LeI
lEsgue-Maßes
auf IR besitzt, kann man eine Dichte bzgl. des Lebesgue-Maßes ).. JL+Jft
i
auf dem affinen Raum Jl +.At angeben. Diese auf Jl + .At konzentrierte Dichte ergibt sich unter Vewendung der Zerlegung (11) wie folgt:
G. Osius: Multivariate Normalverteilung
(20)
MN -11
17.5.108
Ist C eine lxl-Matrix vom Rang 1 mit E= CC T, so ist eine auf Jl + vft
konzentrierte /\.t+c4-Dichte von NiJl,E) gegeben durch
<pjxIJlIC) = [(27f)I. Det(CTC). exp{Q(x-Jl)}]-1/2,
XEJl+vft,
mit der auf vft definierten quadratischen Form
xE vft,
wobei E- eine beliebige generalisierte Inverse von Eist.
Die quadratische Form Q: vft -----+ IR hängt (auf vft) nicht von der
speziellen Wahl von Y ab!
Speziell für Jl =
°ist
<P j
-I 0
1
C) eine Dichte von Ni 0, E) bzgl. des Lebesgue-Maßes
Ac4 auf dem linearen Raum vft, und für beliebige Borel-Mengen Acvft gilt
(21)
P{N/O,E)EA} = j<pj-IOIC)dAc4 = P{N/Jl,E)EJl+A}.
A
Mit A = vft folgt hieraus
jdet(CTC) = (27f)-J/2.jexp{-~uTYu}dAc4(u).
c4
Da die rechte Seite nur noch von E, aber nicht mehr explizit von C abhängt, ist
(22)
dies auch für die linke Seite der Fall, d.h. die Determinante det (C TC) - und damit
die Dichte <P j
-I JlI C) -
hängt nicht von der speziellen Wahl der Matrix C ab.
Man beachte, daß (19) sich als Spezialfall aus (20) ergibt, denn es gilt
(23)
Rang(E) = l
T
det(C C) = det(E).
Moment-erzeugende Funktion
Die Moment-erzeugende Funktion M( -I Jl, E) von N/Jl, E) ist gegeben durch
(24)
M(tIJl,E) = exp{tTJl+ ~ tTEt}
K
fürtEIR .
G. Osius: Multivariate Normalverteilung
4.
17.5.108
MN -12
Quadratische Formen von normalverteilten
Variablen
Es sei X eine I-dimensionale Zufallsvariable mit Normalverteilung
(1)
cL'(X) = Nf(Jl,E),
(2)
J = Rang(E) .
Ferner sei E- eine beliebige generalisierte Inverse von E, d.h. es gilt
Für die zentrierte Variable X - Jl gilt dann
Setzen wir
so gilt für die Variable X - v
(6)
(X-v)TE-(X-v) ist X;(8)-verteilt mit
(7)
8 = JlT E Jl.
Hierbei ist X;( 8) für J = 0 als Einpunktverteilung in 8 anzusehen. Wir betrachten
noch zwei wichtige Spezialfälle·
SpezialfallI: Eist idempotent
Dann ist E selbst eine generalisierte Inverse (sogar die Moore-Penrose-Inverse) von
E. Ferner ist E = Pc4 auch die orthogonale Projektion auf den von E erzeugten
Teilraum .At. Man erhält dann aus (4), (6):
(8)
(X-Jl)T(X-Jl) und (X-Jl)T E(X-Jl) sind fast sicher gleich und
x}verteilt.
(9)
Die 3 Variablen
(XTX-vTv), (X-v)T(X-v),
(X-v)T E(X-v)
sind fast-sicher gleich und jeweils x'l8)-verteilt.
Ist zusätzlich Jl = EJl, d.h. JlE vft, so erhält man speziell:
G. Osius: Multivariate Normalverteilung
(10)
17.5.108
Für Jl=EJl sind XTX und X T EX fast sicher gleich und X;(8)-verteilt
. (
T
T",
mIt 0 = Jl Jl = Jl ilJl.
Spezialfall 2: Eist invertierbar
Dann ist J = I, Y = Yl, und ergänzend zu (6) hat man
(11)
MN -13
p-1X 1st
. XI2 (C)
·1· i'
T p-1 Jl.
X T il
0 -vertel t mIt 0 = Jl il
G. Osius: Multivariate Normalverteilung
5.
MN -14
17.5.108
Bedingte Normalverteilungen
Es seien Xl und X jeweils 1 - und I -dimensionale Zufallsvariablen und die I-di2
2
1
mensionale Variable X = (Xl' X 2) mit I = 11 +12 sei normalverteilt
(1)
cL'(X) = N/Jl,E)
(2)
~=(~) ,
mit
E= (E E
l1
12 )
E 21 E 22 '
wobei für k, 1 = 1, 2
(3)
Jlk =
E{X k },
E kl = Cov{Xk,X l }
(IkxIrMatrix ).
Um die bedingte Verteilung von X auf Xl zu bestimmen, sind einige Vorbereitun2
gen zu treffen. Bezeichnet
(4)
.
Ik
=
Blld(E
kl)
C
IR
kl
vft
den von den Spalten E kl erzeugten Teilraum, so sind die zentrierten Variablen
X - Jlk auf den Teilraum vft konzentriert. Der von der Covarianz-Matrix E erk
kk
12
zeugte Teilraum vft
12
läßt sich durch sein orthogonales Komplement vft1~ wie folgt
beschreiben:
Und analog ist
(6)
vft~l
T
= {dE IRI2 1 X ist von d X stochastisch unabhängig}.
1
2
Es gilt nun
(7)
Für eine beliebige generalisierte Inverse E ; von E
2
E 22 faktorisieren
Für die ll-dimensionale Variable
gilt dann
(10)
Y1 ist von X
2
stochastisch unabhängig,
22
läßt sich E
12
wie folgt über
MN -15
G. Osius: Multivariate Normalverteilung
17.5.108
(11)
Jl1 - 1712 172; Jl 2 '
Y1
ist normalverteilt mit:
1711 - 1711 172; 1721
.
Nach diesen Vorüberlegungen ergibt sich "die" bedingte Verteilung von Xl auf X
2
als eine Normalverteilung
(12)
mit
Jl1 (X 2) = Jl1 + 1712 172; (X 2 - Jl 2),
d.h. für jedes x EIR
2
I2
ist durch
eine reguläre bedingte Verteilung von Xl auf X definiert. Man beachte, daß nur
2
der Erwartungswert, aber nicht die Covarianzmatrix E
X = x abhängt.
2
2
rv
1
von der Bedingung
G. Osius: Multivariate Normalverteilung
6.
MN -16
17.5.108
Die zweidimensionale Normalverteilung
2
Für Jl=(Jl 1,Jl 2 ), a=(a 1,a 2 )EIR mit a 1,a 2 >0 sowie (2E IR mit -1<(2<1 ist die
2x2-Matrix
(1)
E _
eer1
;2]
[er;
ea 1a 2
a2
positiv-definit (d.h. x TEx> 0 für alle x E IR 2 mit x
(2)
E
=
--2
l-e
mit der Inversen
-2
1
-1
:;= 0)
a1
[
-1 -1
a
2
-e a 1
Die zweidimensionale Normalverteilung NiJl, E) (vom Rang 2) ist gegeben durch die
zweidimensionale stetige Wahrscheinlichkeitsdichte f: IR 2-----+ (0,00) mit (vgl. Abb. 1)
(3)
(4)
mit
für i = 1, 2.
± 1)
Die Cholesky-Wurzel von Eist (auch für (2 =
(5)
12
C = E /
=
o
[
a
VI
2
(22
].
Für cL'(Z) = N 2 ( 0, 11 2 ) ist daher
(6)
bzw.
x2
=
+ a2j
(2 a 2 Zl
(2a 2 [
]
~ X 1 - Jl 1
1 (22 Z2
+ Jl 2
+ a 2 V~
1-(2- Z2 + Jl 2
zweidimensional normalteilt: cL'(X) = NiJl, E).
Hierbei ist die zweite Komponente X
(2 a 2a ~1 [Xl -
Jl ] + Jl
1
normalverteilten
Var(c) =
a;
(1- (22).
2
2
die Summe emer linearen Funktion
der ersten Komponente Xl und einer davon unabhhängigen
"Fehlervariablen"
c = a 2(1- (22)1/2 Z2
mit
E( c) = 0
und
G. Osius: Multivariate Normalverteilung
17.5.108
e =- 0.8
e=- 0.6
e=O
e= + 0.6
MN -17
Abb. 1: Dichten f der zweidimensionalen Normalverteilung für verschiedene e bei
gleicher Achsen-Skalierung. Der Vorzeichenwechsel von e = - 0.6 zu e = + 0.6 entspricht einer 90°-Drehung bzw. einer Richtungsänderung der x1- oder xTAchse.
Für wachsendes lei wird die Glocke steiler und zieht sich stärker zusammen über
der Geraden x2 = !-L2 + 17 21711[xl - !-L1] für e > 0 bzw. x2 = !-L2 - 17 21711[xl - !-L1] für
e< o. Diese Geraden entsprechen den "Diagonalen" u1 = u2 bzw. u1 = - u2 für die
1
Standardisierungen u. = [x. - !-L .] 17-:- .
z
z z z
Beweise zu: Multivariate Normalverteilung
BMN-1
17.5.10
Beweise zu:
Eigenschaften der multivariaten Normalverteilung
3.
Beweis von
(1)
cL'(X) = N/Jl,E)
=*
T
cL'(AX + b) = NJ(AJl+ b, AEA ).
Übung!
Beweis von
(2)
mit
Es seien Xl'
00"
X
K
[
]
, E =
[171 ". .
JlK
0
0 ]
.
EK
stochastisch unabhängige Zufallsvektoren mit
cL'(X k ) = NI (Jlk,Ek )
k
Für X = (Xl'
~1
Jl = :
für alle k
X ) gilt dann
K
K
cL'(X) = TI NI (Jlk,Ek ) ,
(i)
00"
k=1 k
und zu zeigen ist cL'(X) = NI (Jl,E)! d.h.
+
(ii)
cL'(X) E JVj
und
+
(iii)
E(X) = Jl,
Cov(X) = E.
ad (ii):
k
I
Für beliebige tkETI/ mit k = 1, oo.,K und t = (tFOO!t K) E IR + gilt
T
T
t X = t l Xl
Da ttX1'
00"
+ 00. + t KT X K .
t~XK stochastisch unabhängig sind mit cL'(t[X k ) E JV;:, folgt
cL'(tTX)EJV;: mit 1(4). Und da t beliebig war, folgt (ii).
ad (iii):
Es ist
E(X) = (E(X l ) ,oo.,E(XK )) = (Jll"oo,JlK) = Jl.
Und für k;= m folgt aus der Unabhängigkeit von X und X
k
m
Beweise zu: Multivariate Normalverteilung
Cov(X k, X m ) = 0,
BMN-2
17.5.10
mit 0 als I k x Im -Nullmatrix.
Zusammen mit Cov(Xk,X k) = Cov(X k) = E k folgt Cov(X) = E.
D
Beweis von
(4)
(a)
Xl' , X
(b)
Xl' , X K sind paarweise unkorreliert, d.h. Cov(X) =Diag{ Cov(X k)}
K
sind stochastisch unabhängig
Da die Implikation ,,::::}" stets gilt, bleibt nur
daß die gemeinsame Verteilung von Xl' ...,X
K
,,~"
{}
zu zeigen. (a) ist äquivalent dazu,
das Produktmaß der Randverteilungen
cL'(Xl)r ..!cL'(X ) ist, d.h. zu zeigen ist
K
(a)'
cL'(X) =
TI
k
NI (Jlk,Ek)
mit
k
weil mit X nach (1) auch jedes X
Jlk := E(X k),
E k := Cov(X k),
k normalverteilt ist.
Nun ist cL'(X) = N1(Jl,E) mit Jl = (Jll, ... ,JlK ) und aus (b) folgt
E = Diag{(Ek)}
Zusammen mit (2) folgt daher (a)'.
D
Beweis von
(5)
Rang(E) = 0
E=O
P{X=Jl} = 1.
Die erste Äquivalenz ist trivial und die zweite ergibt sich wie folgt.
ad
,~":
ad ,,~":
Für jedes i = 1, .... I folgt Var(X.) = 0 und somit P{ X.= fL.} = 1.
z
z z
Also ist auchP{X=j.L} = 1.
(X - Jl) ist Einpunktverteilt in 0 E IR]
(X - Jl)(X - Jl)T ist Einpunktverteilt in 0 E IRJxJ
E = Cov(X) = E((X - Jl)(X - Jl)~ =
o.
D
Beweise zu: Multivariate Normalverteilung
BMN-3
17.5.10
Beweise von
(9)
X stimmt P-fast-sicher überein mit
X = p, + P~X - p,) , d.h.
P{X =X} = 1.
(10)
cL'(X) = N[(p"E) ist auf p, + vft konzentriert, d.h.
P{XEIl+vft} =P{X-Il Evft} = 1.
Für (9) ist zu zeigen
P{X-X=O} = 1
(i)
cL'(X-X) = N[(O,O).
Nun ist
X-X
bzw. mit (5)
(X-p,) - P (X-p,)
c4
(ll-Pc4) (X-p,)
Pc4_d X -p,)
wobei vftl.- das orthogonale Komplement von vft ist. Aus (1) folgt
und somit
cL'(X-p,) = N/O,E)
cL'(X-X) = N/O,~l.- E Pc4l.-).
Für beliebiges xE IRJ gilt Ex E vft, also Pc4l.- E x =
°somit folgt ~
folgt. (10) ergibt sich aus (9), weil nach Definition von
X =X
=*
XEIl+vft.
l.- E
=
°und (i)
X gilt
D
Beweis von
I
T
Aus (11) folgt E x = C C x für alle xE IR , und somit gilt die Inklusion "e" in (13).
Aus C-E = C T bzw. C = EC- T folgt Cy = EC-Ty für alle YEIRJ! und somit
gilt die Inklusion ,,::::>" in (13).
D
Beweise zu: Multivariate Normalverteilung
BMN-4
17.5.10
Beweise von
(16)
Zl'"..,ZJ sind stochastisch unabhängig identisch N (0, l)-verteilt, d.h.
1
cL'(Z) = N ja, 11).
X = J-L + P~X-J-L) =
(17)
CZ + J-L.
Übung!
Beweis von
(18)
Rang(E) <I
N/J-L, E) besitzt keine )/- Dichte.
)/(J-L+vft) = 0,
Wegen Dirn vft = Rang(E) <I hat der lineare Raum vft das Lebesgue-Maß Null,
d.h.i( vft) = 0 [vgl. z.B. Billingsley (1979), Sec. 12, p. 144]. Es folgt
(i)
I
I
A (J-L + vft) = A (vft) = o.
Da der Träger J-L +vft von N1(J-L, E) das Lebesgue-Maß Null hat, kann es keine
i- Dichte j geben, denn sonst müßte gelten
J
1
jdA =1
nach (9)
fL+ c4
im Widerspruch zu (i) .
D
Beweis von
(19)
Für Rang(E) = I ist eine AI-Dichte von N/J-L,E) gegeben durch
I
xEIR ,
mit der quadratischen Form
I
xEIR .
Es folgt sofort vft = IRI und somit J-L + vft = IRI . Weiter gibt es eine invertierbare
lxI-Matrix C mit E = CC T, d.h (10) gilt.
X=
Nach (17) genügt es zu zeigen, daß
CZ+J-L mit cL'(Z) = N/O, 11) die Dichte cpj-IJ-L!E) besitzt. Nach 2 (8) besitzt
Z die Dichte 'PI mit
Beweise zu: Multivariate Normalverteilung
'PI(z) =
BMN-5
17.5.10
" zE IR!
f ur
((2'71-/ exp(zTz ))-1/2,
= 'Piz I O! 11)
Aus der Wahrscheinlichkeitstheorie ist bekannt [vgl. z.B. Billingsley (1979), (17.14),
p. 193]' daß eine Dichte f von
X
wie folgt durch die Dichte 'PI von N (O,l1) gegeben
I
ist
(i)
f(x)
Q(x)
'PI (C- 1(X-Jl)) 'IDet(C-1)1,
" xE IRI
f ur
((27f/ exp(Q(x-Jl)t 1/ 2 ·IDet(C)I-1
mit
xT[C-1]T C-1 x.
x TE-l x,
da
Weiter folgt mit dem Determinanten-Produktsatz
Det(E) = Det (CC T) = Det(C)2
und somit
IDet(C) I = Det(E)1/2
Eingesetzt in (i) ergibt sich jetzt f(x) = 'Pix IJl! E).
D
Beweis von
(20)
Ist C eine lxl-Matrix vom Rang 1 mit E= CC T, so ist eine auf Jl + vft
konzentrierte /\.t+c4-Dichte von NiJl,E) gegeben durch
'PjxIJl!C):=
[(27fl· Det(CTC). exp{Q(x-Jl)}]-1/2,
XEJl+vft,
mit der auf vft definierten quadratischen Form
xE
vft,
wobei E- eine beliebige generalisierte Inverse von Eist.
Die quadratische Form Q: vft-----+ IR hängt (auf vft) nicht von der
speziellen Wahl von E- ab!
Wir können o.B.d.A. voraussetzen, daß X mit seiner Standard-Darstellung aus (17)
übereinstimmt, d.h. X = CZ + Jl, wobei cL'(Z) = N ( 0,11J) und C eine beliebige MaJ
trix ist mit
(i)
CC
T
= E,
Rang(C) = l.
Beweise zu: Multivariate Normalverteilung
BMN-6
17.5.10
Für die affine Einbettung G: IRJ -----+ IRI , definiert durch
(ii)
G(z) = Cz
·· zE IRJ
f ur
+ J-L
ist X = G(Z), und somit ist cL'(X) das Bildmaß von cL'(Z) unter G. G besitzt eine
Linksinverse G - : IRI
---+
IRJ, definiert durch
C - = (C TC) -1 C T,
mit
(iii)
d.h. es gilt
·· zE IRJ.
f ur
(iv)
Nach 2 (8) besitzt Z eine Dichte !.pJ bzgl. des Lebesgue-Maßes )/, und wir zeigen zuerst
(v)
G(Z) bzgl. des Bildmaßes AG :=)/G-1
!.pJo G- ist eine Dichte von X =
J
von A unter G.
Für beliebiges A E lBI gilt
J
(!.pJ o G-o G)
dA
J
G-l[A]
J
!.pJ
J
dA ,
vgl. (iv)
G-l[A]
= P{ZEG-1 [A]}
= P{G(Z)EA},
und damit ist (v) bewiesen. Weiterhin ist das Bild von G gerade
wobei .At durch (13) gegeben ist. Das Bildmaß AG ist daher auf J-L +.At konzentriert
und stimmt dort bis auf einen Faktor mit dem Lebesgue-Maß
\l+Jft
überein, d.h. es gilt (vgl. Exkurs "Das Lebesgue-Maß auf Unterräumen").
(vii)
(viii)
mit
f(x)
a . !.pJ ( C - (x - J-L) ) ,
([27f]J. det (C TC)
vgl. (iii)
r
12
/ . exp{ Q(x-J-L)},
vgl. 1 (8)
auf J-L +.At
Beweise zu: Multivariate Normalverteilung
BMN-7
17.5.10
mit
·· xE IRI.
f ur
(ix)
Nun ist [C-] TC- eine g-Inverse von E (sogar die Moore-Penrose-Inverse) weil
C CT[C-]TC - C C T
CC T
)
Mit der Wahl dieser g-Inversen ist dannf= <pj-IJ-L,C), und zu zeigen bleibt noch,
daß Q auf vft unabhängig von der Wahl der g-Inversen E- von E ist. Für xEvft
gibt es nach (13) ein vE IRI mit x = Ev, und
ist unabhängig von E - .
D
Beweis von
(23)
T
Rang(E) = I
det(C C) = det(E).
Für J = I gilt nach dem Determinanten-Produkt-Satz
det (C TC) = [det (C ) ] 2 = det (C C T)
= det(E),
vgl. (10).
D
Beweis von
(24)
Für X mit cL'(X) = NjJ-L, E) gilt
(i)
cL'(tTX) = N 1(t TJ-L, tTE t)
Und für die MGF von X folgt
(ii)
MX(t) = E( exp {tTX} )
= MtTx(l)
= exp{
t TJ-L + ~ tTEt}
vgl. 1 (6).
D
Beweise zu: Multivariate Normalverteilung
BMN-8
17.5.10
Beweise zu
4.
Quadratische Formen von normalverteilten
Variablen
Beweise von
(4)
(X-Jl)TE-(X-Jl) ist x~-verteilt.
(6)
(X-v)TE-(X-v) ist X;(8)-verteilt mit
Fall 1:
J= 0
Da X = Jl P-fast-sicher gilt, sei o.B.d.A. X = Jl. Dann ist
per Definition X~ - verteilt, d.h. (4) gilt, und
(X - v) TE- (X - v)
(Jl-v) TE- (Jl- v)
Jl TE E- EJl
nach Definition von v
= JlTEJl = 8
ist X~(8)-verteilt, d.h. (6) gilt.
Fall 2:
J> 0
Da X P- fast-sicher mit semer Standardisierung X übereinstimmt, seI o.B.d.A.
X= X, d.h. mit der Darstellung 3 (17) ist
(i)
mit
cL'(Z) = NJ(O,ll),
(ii)
mit
Rang (C) = J.
Aus (3) ergibt sich
CC T = CC T E-CC T
und da C eine Links-Inverse und C Teine Rechts-Inverse besitzt, folgt
Beweise zu: Multivariate Normalverteilung
BMN-9
17.5.10
(CZ) TL'-(CZ)
ZTCTL'-CZ
ZTZ
J
wegen (iii)
2
2: Z ..
j=1 J
Damit ergibt sich (4) aus der Definition der X}Verteilung. Weiter ist
x
= CZ
vgl. (i)
CZ+L'p,+v
vgl. Definition von v
CZ+CCTp,+v
vgl. (ii)
C(Z
Aus
+ P,
+ A) + v
mit A = CTp,.
X - v = C (Z + A)
folgt dann
(Z+A) CTL'-C(Z+A)
(Z + A) T(Z+A)
J
2:
j=1
Mit der Definition der nichtzentralen
2
(Z.+A.) .
J
J
X} Verteilung ergibt sich hieraus (6), wobei
D
Beweise zu: Multivariate Normalverteilung
B MN-lO
17.5.10
Beweis von
(8)
(X-Jl)T(X-Jl) und (X-Jl)T E(X-Jl) sind fast sicher gleich und
x}verteilt.
(9)
Die 3 Variablen
(XTX-vTv), (X-v)T(X-v),
(X-v)T E(X-v)
sind fast-sicher gleich und jeweils x'l8)-verteilt.
(10)
Für Jl=EJl sind XTX und X T EX fast sicher gleich und X;(8)-verteilt
. (
T
TE
mIt 0 = Jl Jl = Jl
Jl.
Die orthogonale Projektion auf den Raum .At ergibt sich nach 2.1(14) zu
da E idempotent und symmetrisch
E,
da E- eine g- Inverse von Eist.
Nach 3 (10) gilt
(i)
X- Jl E.At
P-fast sicher
=*
E(X-Jl) = ~(X-Jl) = X-Jl
P-fast sicher
=*
(X-Jl) TE(X-Jl) = (X-Jl)T(X-Jl)
P-fast sicher.
Wegen (4) ist damit (8) gezeigt.
Weiter folgt aus der Definition von v
und wegen (i) ist
(ii)
X-v = (X-Jl) +~JlE.At
P-fast sicher.
Also folgt
(iii)
IIXI1 2 = IIX-vI1 2 + IIvl1 2
bzw.
XTX - vTv = (X-v)T(X-v)
P-fast sicher.
Aus (ii) folgt wie oben (mit v statt Jl)
(X-v)TE(X-v) = (X-v)T(X-v)
P-fast sicher.
Beweise zu: Multivariate Normalverteilung
17.5.10
B MN-11
Zusammen mit (iii) ergibt sich jetzt (9) aus (6).
Und (10) folgt aus (9), weil zusätzlich v = 0 und 8 = Jl TEJl = Jl TJl gelten.
D
Beweis von
(11)
X
T Ip-1X
. XI2(c)
I
1st
u -vertel·1·
t mIt
ui' = Jl T Ip-1
I
Jl.
Es gibt eine invertierbare I xl-Matrix C mit E = C C T (z.B. die Cholesky-Zerlegung, vgl. Stoer (1983), (4.3.3), p. 155). Also
(i)
C -1 EC-1 T = 11 ,
E-1 = C- 1T C-1 .
Für X = C-1 X gilt cL'(X) = NI(iJ"
Also liefert (6) angewandt auf
E)
mit iJ, = C-1 Jl,
X, iJ" E =
E= C-1 EC-1T =11.
11, iJ = iJ,- EiJ, = 0 sofort:
(i) X T y1 X ist X;( 8) -verteilt
mit
D
Beweise zu: Multivariate Normalverteilung
B MN -12
17.5.10
Beweis zu
5.
Bedingte Normalverteilungen
Beweis von
(5)
...4t2 =
Für
...4t2 = {
c ..1...4
12
{cETIl1 c T X 1 ist von X 2 stochastisch unabhängig}.
1
eie ..1...412 } gilt:
T
{}
c 17
{}
c . Cov (Xl' X 2) = 0,
da ...412 = Bild(E12 )
= 0 ,
12
T
da Cov(X1,X 2 ) =1712
T
Cov( c X 1,X 2 ) = 0 ,
T
c Xl von X 2 unabhängig,
T
da (c Xl' X 2) normalverteilt.
D
Beweis von
(7)
Aus Symmetrie genügt es ...4 C...4
12
11
zu zeigen) und hierzu zeigen wir für die or-
thogonalen Komplemente: ...4~ C ...4~
cE...4cl
11
{}
c T 17 = 0
=*
Var {c Xl} = c 1711 c = 0
=*
c Xl ist Einpunkt-verteilt
=*
c Xl ist von X stochastisch unabhängig
=*
cl
cE...412
11
T
T
T
T
2
nach (5).
Beweis von
Nach (7) ist ...4 C ...4
21
22
und somit gibt es ein C mit
1721 = 1722 C,
also
17
12
= 17
T
21
C
T
17 .
22
D
Beweise zu: Multivariate Normalverteilung
B MN -13
17.5.10
D
Beweis von
(10)
Y 1 ist von X stochastisch unabhängig,
2
Cov((X1 - 1712 172; X 2 ), X 2 )
Es ist
Cov (Xl' X 2)
-
1712 172; Cov(X 2, X 2)
vgl. (8).
Da (Yl' X 2) normalverteilt ist, folgt die Behauptung.
D
Beweis von
(11)
Y ist normalverteilt mit:
Jl1 - 1712 172; Jl 2 '
1
1711 - 1711 172; 1721
.
Y 1 ist als lineare Funktion von (X 2, Xl) ebenfalls normalverteilt mit
E(X 1 ) - 1712 172; E(X 2 ),
nach Definition
JL1 - 1712 172; JL 2·
Cov(Y
)
1
Cov( Y 1 ' (Xl - 1712 172; XJ),
nach Definition
Cov(Y1 ' Xl) - 1712 172; . Cov(Y1 ' X 2)
Cov(Y1 ' Xl)
vgl. (10)
Cov((Xl - 1712 172; XJ ' Xl)
nach Definition
Cov(X ,X
1
1
) -
1712 172;. Cov(X 2,X1 )
1711 - 1712 172; 1721 .
D
Beweise zu: Multivariate Normalverteilung
B MN -14
17.5.10
Beweis von
(12)
mit
Jl1 (X 2) = Jl1 + 1712 172; (X 2 - Jl 2),
d.h. für jedes x EIR
2
I2
ist durch
Es genügt (13) zu zeigen und hierzu verwenden wir den Exkurs Bedingte Verteilungen
(2.3 Unabhängigkeits-Transformation).
Für die Abbildungen G+: IRI I X IRI 2 -------+ IRI 2 definiert durch
gelten
G+(G_(x F x 2 )!x 2)
(Xl - 1712 172; x 2)
und
GjG+(x F x 2 )!x 2)
(xl
+ 1712 172;
+ 1712 172;
x 2 = xl
x 2) - 1712 172; x 2 = xl
d.h. bei festem x 2 sind Gj-!x 2 ) und G+hx2) invers zueinander.
Da Y1 = GjX ,X ) nach (10) von X stochastisch unabhängig ist, folgt - vgl. Ex2
1 2
kurs Bedingte Verteilungen (2.3 Unabhängigkeits-Transformation) - für jedes x
2
Da G+ linear ist, folgt aus (11) sofort, daß G+(Y 1,x 2) normalverteilt ist mit
E(G+(Y 1,X 2 )) = G+(E(Y 1 ),x 2 )
(Jl 1 - 1712 172; JlJ
+ 1712 172;
x2
Jl1 + 1712 172; (x 2 - Jl 2 )
Jl1(x 2)
Cov(G+(Y1,x 2))
Cov(Y )
1
1711 - 1711 172; 1721
17 '"
1
Hieraus ergibt sich (13).
.
D
Beweise der Übungsaufgaben zu: Multivariate Normalverteilung
1.8.05
B MN - 15
..
Beweise der Ubungsaufgaben zu:
Eigenschaften der multivariaten Normalverteilung
3.
Beweis von
Aus
den
Rechenregeln über Erwartungswerte
und
Covarianzen folgt
für
Y=AX+b:
T
E(Y) = AJl + h,
Cov(Y) = AEA .
Zu zeigen bleibt also nur cL'(Y) E ~ bzw.
(i)
sT y E JV;:
Nun ist
sTy
für alle sE IRJ.
sTAX + sTh
(ATs)TX
+ sTh .
Wegen cL'(X) E JVf folgt cL'( (ATs )TX ) E JV;: und somit auch (i).
D
Beweis von
(16)
Zl'" ..,ZJ sind stochastisch unabhängig identisch N (0, l)-verteilt, d.h.
1
cL'(Z) = NjO, 11).
(17)
X = Jl + P~X-Jl) =
CZ + Jl.
Nach (1) ist cL'(Z) E ~ mit E(Z) = 0 und
Cov( Z) = C - E C - T
J
C - ce TC - T = (C - C) (C - C ) T = 11 J. 11 = 11J"
Also gilt (16), und (17) folgt aus
D
M
Die Multinomialverteilung
Gerhard Osius
1.
Definition
2.
Auftreten
3.
Randverteilungen, Erwartungswert, Covarianz
4.
Erzeugende Funktionen
5.
Multinomial-Grenzwertsatz
6.
Darstellung als bedingte Poisson-Verteilung
7.
Darstellung als Exponential-Familie
G. Osius: Die Multinomial-Verteilung
1.
M-2
8.1.13
Definition
Die Multinomial-Verteilung MK(N,p) mit K Klassen (wobei KE W, K> 1) vom Umfang
NE W und dem K-dimensionalen Wahrscheinlichkeitsvektor p E (0, 1)K, d.h. p += 1, ist
eine K-dimensionale diskrete Verteilung auf dem (von p unabhängigen) Träger
(1)
TN= {
xEW~ I x+ =N}
und der Zähldichte
(2)
!Jx I p)
N!
K
1
TI -, ·p
k=l xk.
X
k
k
Speziell für N = 1 besteht der Träger T gerrau aus denK Einheitsvektoren
1
(3)
Tl = { el' ... , eK}
(4)
ek = (ekl) E IRK
wobei
mit
ekl = 8kl
für alle k, l
( 8 = Kronecker-Symbol)
und die Zähldichte vereinfacht sich zu
(5)
für alle k = 1, ... , K.
Unter Verwendung der MK(1,p)-Verteilung vom Umfang 1 läßt sich die Verteilung
MK(N, p) für beliebiges N > 1 auch rekursiv über den Umfang N definieren als Faltung von MK(N -1,p) und MK(1,p), d.h. es gilt
(6)
wobei
MK(N,p) = MK(N -1,p)
* MK(1,p),
* den Faltungs-Operator bezeichnet.
Insbesondere ist MK(N,p) dieN-fache Faltung von MK(1,p).
G. Osius: Die Multinomial-Verteilung
2.
8.1.13
M-3
Auftreten
Bei einem Zufallsexperiment betrachten wir eine Zerlegung des Ergebnisraumes .f2
in K disjunkte Ereignisse A , ... , AK
1
K
(1)
.f2 = U Ak'
k=l
mit positiven Wahrscheinlichkeiten
FürNunabhängige Wiederholungen des Zufallsexperiments bezeichne Xk die Anzahl der Wiederholungen, bei denen das Ereignis Ak eingetreten ist. Dann bilden
diese Anzahlen einen K-dimensionalen Zufallsvektor X= (X1'" .. ,XK) mit einer Multinomial-Verteilung
und dem Wahrscheinlichkeitsvektor p = (p , ... , pK ).
1
3.
Randverteilungen, Erwartungswert, Covarianz
Die Eigenschaften der Multinomialverteilung formulieren wir unter Verwendung
von Zufallsvariablen, d.h. wir betrachten einen K-dimensionalen Zufallsvektor
X= (X1,... ,XK) mit der Multinomial-Verteilung
Die Randverteilung einer Komponente von X ist binomial-verteilt
(2)
für jedes k.
Speziell für K = 2 ist X = N- X (P- fast-sicher) und somit ist X bereits durch seine
2
1
erste (binomialverteilte) Komponente X eindeutig bestimmt. In diesem Sinn ent1
spricht eine Multinomialverteilung mit K = 2 Klassen stets einer Binomialverteilung.
Der Erwartungsvektor und die KxK Covarianzmatrix von X lauten
G. Osius: Die Multinomial-Verteilung
(3)
E (X)
Jl"·-
p
EP(Xk)
(4)
M-4
8.1.13
Np
bzw.
Npk'
N ( Diag{p}- p pT)
bzw.
Cov P(Xk,Xz)
- Npkpl
für k ;= l
Cov P(Xk,Xk)
N Pk (1- pk))
E == Cov p (X)
Insbesondere sind X , ... , XK nicht stochastisch unabhängig, es besteht sogarein line1
arer funktionaler Zusammenhang
(5)
X+:=X1 + ... +XK=N
(P-fast sicher).
Zur weiteren Untersuchung der Covarianzmatrix wollen wir diese zuerst anders
darstellen. Bezeichnet
den Diagonalraum (der aus allen konstanten Vektoren besteht) und
(7)
D = Diag {J.L} = N · Diag {p}
die Diagonalmatrix des Erwartungsvektors, so läßt sich die Covarianzmatrix unter
Verwendung der D-orthogonalen Projektion P~ schreiben als
(8)
E
= D · (ITK- P~)
-D·PD
-65
mit
Hieraus ergibt sich insbesondere der Rang der Covarianzmatrix zu
(9)
RangE= K -1,
was im Hinblick auf (5) nicht überrascht.
Der Spaltenraum von Eist das (übliche) orthogonale Komplement von f!25
Eine (symmetrische) generalisierte Inverse von Eist gegeben durch
(11)
und die Moore-Penrose-Inverse von E lautet (nach Tanabe und Sagae, J. Royal Statistical Society B1 54, 1992, p. 211-219)
Go Osius: Die Multinomial-Verteilung
M-5
801.13
(12)
wobei
(13)
4.
Erzeugende Funktionen
Für einen Zufallsvektor X= (Xl'"oo,XK) mit Multinomial-Verteilung MK(N, p) ist die
charakteristische Funktion cpX gegeben durch
Analog ist die Moment-erzeugende Funktion MX von X gegeben durch
(2)
und hieraus ergibt sich die Kumulanten-erzeugende Funktion KX von X zu
(3)
= N olog(pTexp(t))
Die Ableitungen der Kumulant-erzeugenden Funktion lauten
(4)
(5)
DKx(t)
N ( p T exp { t}) -l p T Diag {exp (t)}
v Kx(t)
N ( pT exp{ t} rlo Diag {p} exp(t)
2
D Kx(t)
0
0
N ( pT exp{ t} )-10 Diag {p} 0Diag {exp(t)}N ( pTexp{ t} r
Und für t
bzwo
0
20
pT 0Dial {exp(t)} 0p
= 0 ergeben sich der Erwartungswert und die Covarianzmatix von X (in
Übereinstimmung mit 3 (3-4):
(6)
EP(X)
(7)
Cov (X)
p
VKx(O) = Np,
2
D Kx (0) = N ( Diag{p}- p pT)
0
G. Osius: Die Multinomial-Verteilung
5.
M-6
8.1.13
Multinomial-Grenzwertsatz
Für eine Folge X n = (Xn 1,... ,Xn K) von Zufallsvektoren mit
(1)
L(X)
=MK(Nn ,p)
n
n
gelte für n ---+ oo
(2)
N
(3)
p
n
n
-----+
oo
-----+
p
Dann ist X
oo
(wachsende Umfänge)
E (0, l)K.
asymptotisch (multivariat) normalverteilt, gerrauer gilt der Multino-
n
mial-Grenzwertsatz
(4)
(5)
mit
E
00
= Diag{p } - p
00
00
pT .
00
Hierbei ist E 00 nach 3 die Covarianz-Matrix der Multinomialverteilung MK(l, p 00)
und läßt sich daher auch darstellen als
= D oo · (11K -
(6)
E oo
(7)
D 00 = Diag{p 00}.
pDoo)
qz;
mit
Die Verteilungskonvergenz (3) läßt sich noch wesentlich verschärfen. Es konvergieren sogar die zugehörigen Moment-erzeugenden Funktionen MU von U n punktn
weise gegen die Moment-erzeugende Funktion M U von U
(8)
MV (t)
n
für alle t E IRK_
G. Osius: Die Multinomial-Verteilung
6.
M-7
8.1.13
Darstellung als bedingte Poisson-Verteilung
Die Multinomialverteilungen läßt sich auch als bedingte Poisson-Verteilungen wie
folgt darstellen. Gerrauer gilt für einen Zufallsvektor X= (X1'" .. ,XK)
(1)
Sind X , ... ,XK stochastisch unabhängig und Poisson-verteilt, d.h.
1
L(X) = Pois(J.L)
mit
so ist für jedes NE W die auf X+= N bedingte Verteilung von X eine
Multinomialverteilung
mit
p
1
= -J.L
E (0,1) K.
1-L+
Damit läßt sich jede Multinomialverteilung MK(N, p) als bedingte Poisson-Verteilung darstellen - indem man (1) auf J.L =Np anwendet - und dies ermöglicht es, Resultate über Multinomialverteilungen zu zeigen, indem man die Resultate für die zugehörigen bedingten Poissonverteilungen zeigt.
Umgekehrt kann man aus einer Multinomialverteilung MK(N, p) auch wieder unabhängige Poissonverteilungen erhalten, indem man den Umfang N =X+ gemäß einer
Poissonverteilungen variieren läßt. Gerrauer gilt für den Zufallsvektor X folgende
"Umkehrung" von (1)
(2)
Ist für jedes NE W die auf X+= N bedingte Verteilung von X eine Multinomialverteilung, d.h.
L(XIX+ =N) = MK(N,p)
wobei p E (0, 1)K nicht von N abhängt, und ist zusätzlich die Summe X+
Poissonverteilt, d.h.
L(X+) = Pois(-A)
mit -AE(O,oo),
so sind X , ... ,XK stochastisch unabhängig und Poisson-verteilt, d.h.
1
L(X) = Pois(J.L)
mit
G. Osius: Die Multinomial-Verteilung
7.
8.1.13
M-8
Darstellung als Exponential-Familie
Ein MK(N,p)-verteilter Zufallsvektor X ist wegen X+ =N bereits durch K- 1 Komponenten eindeutig bestimmt - und das trifft wegen
scheinlichkietsvketor
7r
+= 1 auch
7r
auf den Wahr-
zu. Deshalb wollen wir bei den folgenden Betrachtungen je-
weils eine Komponente von X und
7r
fortlassen. Hierbei ist es notationsmäßig
zweckmäßig, mit einer MK+ (N, p)-Verteilung zu beginnen, wobei wir die Vektoren
1
xEIRK+l jetzt mit 0, ... , K (statt 1, ... , K+1) indizieren. Dann ist
(1)
und
p ist eindeutig durch p bestimmt, weil
(2)
mit
Der "verkürzte" Wahrscheinlichkeitsvektor liegt im Parameterraum
(3)
!?I[(== {pE(0,1)K I Pt <1} c
IRK
der offen und konvex ist. Eine zweckmäßige Umparametrisierung erhält man
durch die multivariate Logit-Transformation
(4)
logit:
!?I[(
mit
-----+
k = 1, ... , K.
logitk(p) = log(pk/(1-p+))
Diese Transformation ist bijektiv und ihre Inverse ist
(5)
. -1 : IRK
1og1t
fJAo
mit
K
K
logitk\"P) = exp(1/;k) / (1 +
2:: exp(1fz) ),
k = 1, ... , K.
l =1
Der Parameter '1/J = logit(p) hat den Vorteil gegenüber p, daß er über den ganzen
IRK variieren kann. Eine weitere Umparametrisierung ergibt sich aus der multivariate Odds-Transformation
(6)
odds:
!?I[(
oddsk(p)
und ihrer Inversen
(0, oo)K
pk/(1- p +),
mit
k= 1, ... ,K
G. Osius: Die Multinomial-Verteilung
fJAo
(7)
M-9
8.1.13
mit
K
K
+ 2:= wz),
oddsk\w) = wk / (1
k = 1, ... , K.
l =1
Zwischen beiden Umparametriserung besteht der Zusanmmenhang
(8)
logit(p) = log( odds(p)) ,
logiC\"P) = odds- 1( exp("P)) ,
wobei log(-) bzw. exp( -) die komponentenweise Fortsetzung der Logarithmus- bzw.
Exponentialfunktion auf (0, oo)K bzw. IRK bezeichne.
Ein Zufallsvektor
ist wegen X+ = N bereits eindeutig bestimmt durch
(10)
da
Wir zeigen jetzt, daß die Klasse aller Verteilung von X mit Parameter p E ff'j( eine
K-dimensionale Exponentialfamilie mit kanonischem Parameter "P = logit p E IRK
bilden. Der Träger dieser Verteilungsklasse ist
und die Familie der Dichten ist für x E TN gegeben durch
(12)
!(X I p) = N!
K
1
TI -,
k=O xk.
X
0
p k
k
mit
x0 =
N-x+'
p0 = 1-p+
Mit den Bezeichnungen
(13)
w
= odds(p),
"P = logit(p) = log(w)
ergibt sich dann für die log-Dichte
K
(14)
logf(xlp) =
2:= xklogpk +
(N-x+) log(1-p+)
+
d(x)
k=1
K
l:=xklog(pk/(1-p+))
+
Nlog(1-p+)
+
d(x)
k=1
mit
G. Osius: Die Multinomial-Verteilung
M-10
8.1.13
K
(15)
d(x) = log N! -
2:: log xk!
-log (N- x +)!.
k=l
Nun ist nach (5)
K
(16)
exp( 1/Jk)
I (1 + 2:: exp(1/Jz) ),
k = 1, ... , K.
l =1
K
(17)
p0 = 1 - p
+
= 1
I (1 + 2:: exp(1/Jz)),
l =1
und somit ergibt sich die Darstellung
(18)
logf(xlp) = '1/JTx-h("P) +d(x)
mit
K
(19)
h("P) = N log (1
+ 2:: exp(1/Jz)) .
l =1
Folglich bilden die Dichten eine K-parametrige Exponentialfamilie mit kanonischem Parameter
"P = logit(p) E IRK und der sogenannten Kumulanten-Funktion
h("P). Die Kumulanten-erzeugende Funktion von X ist daher gegeben durch
für t E IRK.
(20)
Insbesondere ergeben sich die (bereits im Abschnitt 3 bestimmten) Momente
(21)
E"p(X) = D h("P)T = \7 h('I/J) = Np.
(22)
Cov"p(X) = D h("P) = N ( Diag{p}- p pT).
2
Hierbei gilt
(23)
Cov"p(X) ist positiv-definit.
Dies ist kein Widerspruch zur Darstellung 3 (8), weil hier für den "verkürzten"
Wahrscheinlichkeitsvektor p +< 1 gilt. Und als Folgerung ergibt sich
(24)
h ist streng konvex ..
Beweise: Die Multinomial-Verteilung
MB-1
801.13
Beweise zu
3.
Randverteilungen, Erwartungswert, Covarianz
Beweis von
(2)
für jedes ko
Der Beweis erfolgt durch Induktion über N. Für N = 1 folgt die Behauptung wegen
Xk E {0, 1} aus
P{Xk=1} = P{X=ek} = pko
Der Induktionsschritt N
(i)
(ii)
f-----t
N + 1 ergibt sich aus den Faltungseigenschaften
MK(N + 1,p) = MK(N,p)
B(N + 1,p) =
B(N,p)
* MK(1,p),
*
B(1,p)o
D
Beweis von
(3)
Jl : =
E p (X) = Np
bzwo
EP(Xk) = N pk,
(4)
E == Cov (X) = N ( Diag(p)- p pT)
p
bzwo
für k ;= l
Covp(Xk,Xz) = -Npkpl
Cov P(Xk,Xk) = N pk (1- pk)
1
Der Beweis erfolgt durch Induktion über N. Für N = 1 folgt die Behauptung wegen
Xk ,Xl E {0, 1} aus
(i)
(ii)
vgl. (2)
E(Xk Xz)- E(Xk) E(Xz)
0
0
8k lo E(Xk Xk)- E(Xk) E(Xz),
0
0
8 = Kronecker-Symbol
8k lo E(Xk)- E(Xk) E(Xz)
0
vgl. (i)
Der Induktionsschritt N
f-----t
N + 1 ergibt sich aus der Faltungseigenschaft
Beweise: Die Multinomial-Verteilung
8.1.13
MB-2
und den Rechenregeln
(iv)
E(X+ Y)
(v)
Cov(X+ Y)
E(X) + E(Y)
Cov(X) + Cov(Y) + 2 Cov(X, Y)
Cov(X) + Cov(Y)
falls X, Y st. unabhängig.
D
Beweis von
(8)
E = D · (ITK- P~ ).
Wegen
E = N ( Diag{p}- p pT)
=
D
vgl. (4)
-1
T
-p,+JlJl,
da N = p, +
ist daher zu zeigen
(i)
Nun ist
-1
1-L
+ Jl Jl
T
e + ( e~D e +r
1
1
e + (p, +r
-1
e~D,
vgl. Exkurs SP 3 (3)
e~D
TD
0+ e+e+
und somit bleibt für (i) noch zu zeigen
(ii)
und dies folgt sofort aus D e += Jl·
D
Beweise: Die Multinornial-Verteilung
MB-3
8.1.13
Beweis von
(9)
RangE= K -1,
(10)
Es ist
(i)
Also ist
vgl. (8)
RangE = Rang P4'D =Dirn {jj' = K- Dirn f!25 = K -1,
d.h. (9) gilt.
D-1 [ 0j_ ]
Aus
{jj' =
folgt
BildE = D [Bild
vgl.Exkurs SP 2 (10)
P1J
vgl. (i)
D [ß]
D [ u-1 [ qz;j_ l]
d.h. (10) gilt.
D
Beweis von
(11)
Die Behauptung folgt aus
E-D-1 -E
D. pD. D-1. D. pD
4'
4'
vgl. (8)
u.pD.pD
4'
4'
D·PD
4'
= E.
D
Beweise: Die Multinomial-Verteilung
8.1.13
MB-4
Beweis von
(12)
Für
(o)
E
--
E+ =
(i)
D·PD
-65
P.®_L. u-1. P.®_L
mit
-0'= 0j_n = u-1 [0j_J
vgl. Exkurs SP 2 (10)
ist (nach Definition der Moore-Penrose-Inversen, vgl. Exkurs GI) zu zeigen
(ii)
~-E
ist symmetrisch
(iii)
E-~
ist symmetrisch
(iv)
E·~·E =E
(v)
~-E·~=~.
'
Der folgende Beweis verwendet nicht die spezielle Struktur von D und 0 sondern
gilt für jede positiv-definite Matrix D und jeden Teilraum 0, wenn E und E+
durch (o) definiert sind.
ad (ii):
(vi)
P.®_L. u-1. P.®_L
·E
P.®_L -D-1 -E
da
Bild(E) = D [ -0'] = 0j_
D
p.®_L p-65
0
(11- P.® )(11- P~)
D
+ p.® p.®D
D
+ P.®D
II- p.®- p.®
11- P.®- P.®
vgl. Exkurs SP 2 (11)
da
Bild(P~) = 0
II- p
.®
also gilt (ii).
Beweise: Die Multinomial-Verteilung
ad (iii):
MB-5
801.13
Zunächst ergibt sich - analog (vi) -
(vii)
(11-
P~)(11- Pq;)
vgl. Exkurs SP 2 (11)
D
D
D
+ Pq;
II- Pq; - Pq; + Pq; Pq;
11- Pq; - Pq;
II- pD
q;
und hiermit folgt
D0
(vi)
PJ
0
Pq;j_
0
u-10 Pq;j_
DOPDou-1op
-65
q]_l_
da
Bild(D-1 Pq; j_) = -0' nach (i)
0
also gilt (iii)
ad (iv):
E ·E+ ·E
0
vgl. (vi)
da
E
Bild(E) = D [ -0'] = 0j_
vgl. (vi)
Pq;j_ D-10 Pq;j_
0
0
Pq;j_
Pq;j_ D-10 Pq;j_
0
L'+o
D
Beweis von
(13)
Wegen 0 = span{ e +} ergibt sich mit Exkurs SP 2 (3)
1
Pq;= e+(e!e+f e!
T
e+e+=K.
wobei
D
Beweise: Die Multinomial-Verteilung
8.1.13
MB-6
Beweise zu
4.
Erzeugende Funktionen
Beweise von
K
(1)
'Px (t)
E( exp (i · tTX))
[ 2:=
pk exp (i tk) ]N
k=l
( p Texp (i t) ) N
K
(2)
Mx(t)
E( exp (tTX))
[ 2:=
pk exp (tk) ]N
k=l
(PT exp (t) )N
(3)
KX(t) = logMX(t)
= N ·log(pTexp(t))
für tEIRK,
für tEIRK.
Da MK(N,p) dieN-fache Faltung von MK(1,p) ist, genügt es, die Behauptungen für
N = 1 zu zeigen. Für N = 1 gilt (1) wegen
K
2:=
pk exp { i tTek}
k=l
K
=
2:=
k=l
pk exp { i tk}
(2) folgt analog (ohne "i") für N = 1, und (3) ergibt sich aus (2).
D
Beweise: Die Multinomial-Verteilung
MB-7
801.13
Beweise von
(4)
(5)
DKx(t)
N ( pT exp{ t} )-10 pT 0Diag {exp(t)}
v Kx(t)
N ( pT exp { t}) - 1 Diag {p} exp (t)
0
2
bzwo
0
N ( pT exp { t}) - 1 Diag {p} Diag {exp (t)} -
D Kx(t)
0
0
N ( pT exp{ t} )- 2 0 pT 0 Diag 2 {exp(t)} 0 p
Die erste Gleichung in (4) ergibt sich durch Differenzieren von (3), und die zweite
Gleichung ergibt sich mit der Identität
für a, b E IRKO
(i)
Erneutes Differenzieren liefert
(ii)
2
D Kx (t) = D \7 KX(t)
r 1 Diag {p} Diag {exp (t)} N ( pT exp{ t} r 2 pT Diag {exp(t)} Diag {p}
= N ( pT exp { t}
0
0
0
0
0
0 exp(t)
und hireraus ergibt sich (5) mit
Diag{p} exp(t) = Diag{exp(t)} p,
0
0
vgl. (i)o
D
Beweise: Die Multinomial-Verteilung
MB-8
801.13
Beweise zu
5.
M ultinomial-G renzwertsatz
Beweise von
(4)
U n :=
(5)
E
(8)
MV (t)
~(
n
= Diag{p } - p
00
mit
Xn - Pn) ------=.:=--------+
;
00
00
pT 0
00
MU(t) = exp { ~ tTE00 t}
n
für alle t E IRKo
Da die Verteilungskonvergenz (4) mit dem Stetigkeitssatz für Moment-erzeugende
Funktionen (vgl. Exkurs KV 8) aus (8) folgt, genügt es (8) zu zeigen bzwo
(i)
für alle t E IRKo
Ku (t) = log Mu (t)
n
n
Bezeichnet K(-1 p) die Kumulanten-erzeugende Funktion von MK(l, p), doho
(ii)
für alle t E IRK,
K(tlp) = log(pTexp(t))
so läßt sich die Kumulanten-erzeugende Funktion von
(iii)
wie folgt darstellen
(iv)
Ku (t) = Kx
n
n
(~ 11 2 t)- ~ OP! t
= Nn 0K(~1/2t I pn)-
~ opJ t
vgl. Exkurs CV 4
vgl. 4 (3)
Nach der Taylor-Formel (vgl. zoB. Dieudonne, 1960, 8.1403) gilt dann die Entwikklung 20 Ordnung von K( s I p) im Punkt 0:
(V)
K( s I p) = K( 0 I p)
+
D K( 0 I p) 0s
+ ~ s T 0D2K( 0 I p) 0s +
R( s I p)
mit dem Restglied
1
(vi)
R(slp) =
(J~(l-T) 20 D 3 K(Tslp)dT)o(s,s,s)o
0
Wegen
K(O I p) = 0
DK(Oip) =PT
D 2K(O I p) = Diag{p}- p pT
vgl. 4 (6)
vgl. 4 (7)
Beweise: Die Multinomial-Verteilung
MB-9
8.1.13
reduziert (v) zu
Zusammen mit (iv) ergibt sich daher
(viii)
12
Ku (t) = N . KI(!V 1 t 1 p ) - VIr_ ·pJ t
n
n
n
= N . [!V1/2 PT t
n
n
n
n
n
+ 12 !V1
tT(Diag{p } n
n
p p T) t+ R(!V1/2 t I p )]
nn
n
n
-lir_n ·pT
t
n
=
12 tT(Diag{p }-p PT)t+N ·R(!V1/2tlp ).
n
n
n
n
n
n
Wegen
bleibt für (i) nur noch zu zeigen
(ix)
N
n
°
R(!V112 t I p )
n
n
----+
0
0
Da die Funktion D3K( TS I p) stetig ist bzgl. TE [ 0, 1] und p E (0, l)K, folgt
(x)
3
C(s) = sup{IID K(Tslp n)IIITE[O,l],nEW}
<
oo,
und man erhält die Restglied-Abschätzung
1
(xi)
< I (J
0
~(1-T) 2 ·D 3 K(T~1/ 2 tlpn) dT )1·11~1/ 2 t11 3 .
1
< ( J~
IID3 K(T~1/2t I pn)ll dT)
-~3/2 ·II t113.
0
< ~
aus der sich (ix) ergibt.
C(t)
0
~ 3/ 2 ·II t11 3)
D
Beweise: Die Multinomial-Verteilung
MB-10
8.1.13
Beweise zu
6.
Darstellung als bedingte Poisson-Verteilung
Beweise von
(1)
Sind X , ... ,XK stochastisch unabhängig und Poisson-verteilt, d.h.
1
L(X) = Pois(J.L)
mit
so ist für jedes NE W die auf X+= N bedingte Verteilung von X eine
Multinomialverteilung
L(X IX+ =N) = MK(N, p)
(2)
mit
p
1
K
= -J.L
E (0,1) .
1-L+
Ist für jedes NE W die auf X+ = N bedingte Verteilung von X eine Multinomialverteilung, d.h.
L(XIX+ =N) = MK(N,p)
wobei p E (0, 1)K nicht von N abhängt, und ist zusätzlich die Summe X+
Poissonverteilt, d.h.
L(X+) = Pois(-A)
mit -AE(O,oo),
so sind X , ... ,XK stochastisch unabhängig und Poisson-verteilt, d.h.
1
L(X) = Pois(J.L)
mit
Bemerkung: Man kann in (1) und (2) auch NEW zulassen, wenn man MK(O,p)
0
als Einpunkt-Verteilung in 0 E T = {0} interpretiert.
0
Da die Faltung von Poisson-Verteilungen wieder eine solche ist, ergibt sich aus den
Voraussetzungen in (1) sofort
(i)
L(X+) = Pois(-A)
mit,\ E (O,oo),
wobei A = J.L + ist. Da (i) in (2) sogar vorausgesetzt wird, genügt es für (1) und (2) unter der Voraussetzung (i) die Äquivalenz der beiden Aussagen für beliebiges p
E (0, 1)K zu zeigen:
(P)
L(X) = Pois(J.L)
(M)
L(XIX+ =N) = MK(N,p)
mit
für jedes NE W.
Beweise: Die Multinomial-Verteilung
MB-11
8.1.13
Für jedes XE w~ gilt trivialerweise
(ii)
P{X=x} = P{X=xiX =x } P{X =x}
+ +
+ +'
weil P{X+ = x +} > 0 nach (i). Zwischen der Dichte von MK(N, p)
f Jx Ip)
(iii)
= N!
TI p:k I xk!
für x = (x1'" .. ,xK) E TN"
k
und der Dichte von Pois(J.L)
..
1\..TK
f ur x E 11~ 0
(iv)
wobei p ( -I -A) die Dichte von Pois(-A) ist. Wir zeigen jetzt (P) {} (M).
1
ad (P) => (M): Für jedes NE W und x E TN gilt
P{X=xiX+ =x+} = P{X=x}/P{X+ =x+}
= PK(x IJ.L)
I Pl(NI -A)
= JN(xlp)
vgl. (P), (i)
vgl. (v)
Also gilt (M).
ad (M) => (P): Für jedes NE W und x E TN gilt
(vi)
P{X=x} = P{X=xiX+ =x+} · P{X+ =x+},
= !N(xlp). pl(NI-A)
= pK(x I J.L)
Und für x = 0 gilt
vgl. (M), (i)
Beweise: Die Multinomial-Verteilung
(vii)
P{X=O}
8.1.13
MB-12
exp(--A)
TI exp(p,k)
k
= pK(O I J.L)
Folglich stimmt die Dichte von X mit pK( -I J.L) überein auf
W~ = {0} U U TN,
NElN
d.h. (P) gilt.
D
Beweise: Die Multinomial-Verteilung
MB-13
8.1.13
Beweise zu
7.
Darstellung als Exponential-Familie
Beweise von
h("P)T = \1 h( '1/J) = Np .
(21)
E"p(X) = D
(22)
Cov"p(X) = D h("P) = N ( Diag{p} - p pT).
(23)
Cov"p(X) ist positiv-definit.
2
ad {21}(22): Die jeweils erste Gleichung gilt generell für Exponential-Familien- vgl.
z.B. G. Osius (2006) Einführung in die Statistik1 9.2 (10-11). Und die jeweils letzte
Gleichung ergibt sich komponentenweise aus 3 (3) (4).
ad{23):
Wegen (22) reicht es, die Behauptung für N=2 zu zeigen. Für t E IRK mit
(der Index
"P wird im Beweis unterdrückt) ist zu zeigen
(i)
t Cov(X) t = 0
T
t=O.
Nun gilt mit Jl = E(X)
(ii)
T
T
0 = t Cov(X) t = Var(t X)
=>
t..lT -p,
2
t ..l span(T2 - J.L).
Für den k-ten Einheitsvektor ek E IRK gilt
und
ek,
2ek E T2 = {XE w~ I X+< 2}
ek
= (2ek -J.L)- (ek -J.L) E span(T2 -J.L)
Da dies für alle k = 1, ... , K gilt, ist span(T - Jl) = IRK, und aus (ii) folgt (i).
2
D
G. Osius: Quantile von Verteilungen
Q
9.7.10
Quantile von Verteilungen
Gerhard Osius
1
2
Definition und elementare Eigenschaften
1.1
Binomialverteilung
1.2
Poisson-Verteilung
Verteilungskonvergenz und Quantile
Q-l
G. Osius: Quantile von Verteilungen
1
Q-2
9.7.10
Definition und elementare Eigenschaften
X sei eine reelle Zufallsvariable mit Verteilungsfunktion F: IR -----+ [ 0,1]. Für vorgebenes 0< p < 1 heißt
~E IR
ein unteres p-Quantil oder oberes (1- p)-Quantil der Vertei-
lung cL'(X) bzw. Verteilungsfunktion F, falls gilt
(1)
P{ X <~} < P < P{ X < ~}
F(~-)
bzw.
< P < F(~) .
Hierbei ist
F(~-) = sup {F(x)
I x <~}
= P{ X <~}
der linksseitige Limes von F im Punkt
~.
Falls F in
~
stetig ist, so ist (1) äquivalent
zu p = F(~).
Ist F stetig und injektiv) so ist das untere p-Quantil eindeutig bestimmt und gegeben
durch F-\p)s.
Für beliebiges F dagegen ist die Menge der p-Quantile ein Intervall, dessen Randpunkte wir bestimmen. Hierzu betrachten wir die links- bzw. rechts-stetige (Quasi-)
Inverse F-: (0,1) -----+ IR bzw. F : (0,1) -----+ IR von F, die definiert sind durch
(2)
F-(p)
inf{xEIR I p::;F(x)}
(links-stetige Inverse))
(3)
F_(p) : = sup {xE IR I F(x)::;p }
(rechts-stetige Inverse).
:=
Für jesdes xE IR gelten dann die grundlegenden Eigenschaften
(4)
F(Fjp)-) < P < F(F-(p)) ,
(5)
F-(p) < x
{}
P ::; F(x) ,
(6)
x < F_(p)
{}
F(x-) < p.
Hieraus erhält man die Darstellungen
(7)
F-(p)
Min {XEIR I p ::; F(x)}
= Min{ xEIR I p::; P{X<x}} ,
(8)
F_(p)
Max{ xEIR I F(x-) ::; p} = Max { x E IR I P{ X < x} ::; p} .
und die folgende Charakterisierung von Quantilen:
(9)
~
ist ein p-Quantil von F
Folglich ist F-(p) das kleinste und Fjp) das größte p-Quantil von F.
G. Osius: Quantile von Verteilungen
Q-3
9.7.10
Ist Y = a + bX mit a, b E IR und b:;= 0 eine (nichttriviale) lineare Transformation von
X, so ergeben sich die Quantile von Y aus denen von X wie folgt:
(10)
~
ist ein p-Quantil von cL'(X)
(a + b~) ist ein
p-Quantil von cL'( a + bX)
{ (a + b~) ist ein (1- p)-Quantil von cL'( a + bX)
falls
b> 0 }.
falls
b<O
Ein p-Quantil für p = ~ wird auch als Median bezeichnet, d.h. ~ ist ein Median von
cL'(X) bzw. von F, falls gilt
(11)
P{ X <~} < ~ < P{ X <~}
F(~-) < ~ < F(~) .
bzw.
Der (genauer: ein) Median ist ein Lokationsparameter, weil nach (10) für b :;= 0 gilt
(12)
~
=*
ist ein Median von cL'(X)
(a + b~) ist ein Median von cL'(a + bX) .
Im Gegensatz zum Erwartungswert ist der Median (selbst wenn er eindeutig bestimmt ist) nicht jaltungskompatibel, d.h. für unabhängige Zufallsvariablen Xl' X ist
2
der Median von Xl + X 2 im allgemeinen nicht die Summe der Mediane von Xl und
X 2· Als Beispiel seien Xl' X 2 jeweils x;-verteilt mit Median ~1 = ~2 = Xi;50% ~ 0,455.
Dann ist Xl +X2 x;-verteilt mit Median X;.50%
, ~ 1,386. Ein weitereres Beispiel für
diskrete Zufallsvariablen findet sich in 1.1.
Falls X integrierbar ist, so hat jeder Median von X die Minimimierungseigenschaft
(13)
~
E(IX-~I) =
ist ein Median von cL'(X)
Min E(IX-cl),
cE lR
woraus insbesondere folgt
(14)
~ l' ~2 sind Mediane von cL'(X)
=*
Falls X nicht integrierbar ist, so gilt (13) immer noch, ist aber uninteressant, weil
dann alle Erwartungswerte in (13) unendlich sind.
G. Osius: Quantile von Verteilungen
9.7.10
Q-4
1.1 Binomialverteilung
Für cL'(X) = B(n, 7r) ergeben sich für 0< p < 1 die Werte der beiden Inversen von F zu
(1)
Min {kE{O, ,n} I p ~ P{X<k}},
(2)
Max{kE{O, ,n} IP{X<k} ~p}.
Die Werte F-(p) und Fjp) liegen also im Träger TX = {O, ..., n} von X und sind charakterisiert durch (man beachte den Wechsel von
< und <)
(3)
P{X<F-(p)-l}
<
P
<
P{X<F-(p)})
(4)
p{X< Fjp)-l}
<
P
<
P{X< Fjp)} .
Falls p nicht im Bild der Verteilungsfunktion F liegt, so stimmen F-(p) und F (p)
überein
(5)
p ;= P{ X <k}
für alle kE{O, ..., n}
und andernfalls unterscheiden sie sich um den Wert 1
(6)
p=P{X<k}
für ein kE{O, ...,n}
(1) - (6) gelten sogar für eine beliebige Verteilung cL'(X) mit Träger TX={O, ..., n}.
Beispiele: Der Median von X für 7r = 0,4.
Für n = 1 ist F-(~) =F)~) =
°der eindeutig bestimmte Median von X.
Und für n = 2 ist wegen F(O) = 0,36 und F(l) = 0,84 der eindeutig bestimmte Median
F-(~) =F)~) = 1. Dieser stimmt nicht mit der Summe der Mediane von B(l,p) überein, was ein weiteres Beispiel zur Faltungs-Inkompatibilität des Medians liefert.
G. Osius: Quantile von Verteilungen
9.7.10
Q-5
1.2 Poisson-Verteilung
Für cL'(X) = Pois(p,) ergeben sich für 0< p < 1 die Werte der beiden Inversen von P
zu
(1)
Min {k E Wo I p ~ P{ X <k} } ,
(2)
Max { k E Wo I P{ X < k} ~ p } .
Die Werte P-(p) und Pjp) liegen also im Träger TX = Wo von X und sind charakterisiert durch (man beachte den Wechsel von
< und <)
(3)
p{X<P-(p)-l}
<
P
<
p{X<P-(p)})
(4)
p{X<Pjp)-l}
<
P
<
p{X<Pjp)}.
Falls p nicht im Bild der Verteilungsfunktion P liegt, so stimmen P-(p) und P (p)
überein
(5)
p ;= P{ X <k}
für alle k E Wo
und andernfalls unterscheiden sie sich um den Wert 1
(6)
p = P{ X <k}
für ein k E Wo
(1) - (6) gelten sogar für eine beliebige Verteilung cL'(X) mit Träger TX = Wo·
G. Osius: Quantile von Verteilungen
2
Q-6
9.7.10
Verteilungskonvergenz und Quantile
Sei X ~ X verteilungskonvergent und F bzw. F sei die Verteilungsfunktion von
n
n
X bzw. F.
n
Falls F in a E IRstetig ist, so gilt für jede Folge a -----+ a
n
(1)
lim
< an } = P{ X <
n P{ X n- a}
bzw.
lim F (a ) = F( a) ,
(2)
lim P{ X
n < an } = P{ X < a}
bzw.
lim F (a -) = F(a-) .
n
n
n
n n
n n
Wir setzen jetzt weiter voraus, daß F stetig und injektiv ist. Dann konvergiert jede
Folge ( von p-Quantilen von F gegen das (eindeutig bestimmte) p-Quantil von F:
n
n
(3)
bzw.
Insbesondere konvergiert auch die rechts- bzw. links-stetige Inverse von F punktn
weise gegen die Inverse von F:
(4)
lim F (p) = F-\p) .
n n-
Das p-Quantil F-\p) wird daher auch als asymptotisches p-Quantil von F ben
zeichnet und in der Praxis oft als Approximation für ein "echtes" p-Quantil von F
n
verwendet.
Anwendungsbeispiele
• Die t -Verteilung ist für n ----+ 00 verteilungskonvergent gegen N(O, 1), und somit
n
konvergieren die oberen a-Quantile t
gegen das obere a-Quantil z .
n,Q
Q
• Die Standardisierung (B(n,p)-p'n)ja n der B(n,p)-Verteilung mit P,n=np und
a 2 =np(1-p) ist für n----+oo verteilungskonvergent gegen N(O,l). Folglich ist ein
n
asymptotisches oberes a-Quantil von B(n ,p) gegeben durch: p, n + zQ a n .
• Die Standardisierung (Pois(p,) - p,)j
JIL der Pois(p,)- Veteilung ist für p, ----+ 00 vertei-
lungskonvergent gegen N(O,l). Folglich ist ein asymptotisches oberes a-Quantil
von Pois(p,) gegeben durch: p, + zQ
JIL.
Beweise: Quantile von Verteilungen
Q B-1
9.7.10
Beweise zu:
1
Definition und elementare Eigenschaften
Beweis von
(2)
F-(p)
inf{xEIR I p::;F(x)}
(links-stetige Inverse)!
(3)
F_(p) : = sup {xE IR I F(x)::;p }
(rechts-stetige Inverse).
(4)
F(Fjp)-) < P < F(F-(p))
:=
Wir zeigen zuerst, daß F- (p) wohldefiniert ist, d.h in IR liegt. Wegen F( (0) = 1 und
p< 1 ist A : = {x E IR I p < F(p)}
;=
x
n
0 und es gibt eine Infimum-Folge x E A mit
n
1 inf A E [-00, (0)
Da F in inf A rechts-stetig ist (auch für inf A = - (0), folgt
(i)
p <
lim F(x n ) = F(infA) .
n---+oo
Wegen F(- (0) = 0 und p > 0 folgt inf A;= - 00. Also ist F-(p) = inf A E IR wohldefiniert und aus (i) ergibt sich die zweite Ungleichung in (4).
Jetzt zeigen wir, daß F (p) wohldefiniert ist, d.h in IR liegt. Wegen F(-oo) = 0 und
p> 0 ist B : = {xEIR I F(x)::;p}
;=
0 und es gibt eine Supremum-Folge Y EB mit
n
Y t supB E (-00,00]
n
Es folgt (auch für supB = (0)
(ii)
F((supB)-) = n---+oo
lim F(y n ) < P
Wegen F( 00 -) = F( (0) = 1 und p < 1 folgt su pB ;= 00. Also ist F (p) = supBE IR
wohldefiniert und aus (ii) ergibt sich die erste Ungleichung in (4).
D
Beweise: Quantile von Verteilungen
QB-2
9.7.10
Beweis von
(5)
F-(p) < x
(6)
x
ad (5)
p ~ F(x) ,
< F_(p)
,;~":
F(x-) < p.
Da F monoton wachsend ist, ergibt sich mit (4)
,,<;:=.": Ergibt sich aus der Definition von
ad (6)
,,~":
F-(p) als Infimum.
Da F(x-) = P{X< x} monoton wachsend in x ist, ergibt sich mit (4)
F(x-) < F(Fjp)-) < P
,,<;:=.": Für jedes
y< x gilt dann F(y) < F(x-) < P , und somit
x = sup (-00, x) < sup {yEIR I F(y) ~p} = F_(p) .
D
Beweis von
(7)
F-(p)
Min{ xEIR I p ~ F(x)}
(8)
F_(p)
Max{ xEIR I F(x-) ~ p} = Max { x E IR I P{ X < x} ~ p} .
(9)
~
ad (7):
F-(p)
Min { x E IR I F-(p)
ad (8):
F (p)
Max{ xEIR I x < Fjp)}
ad (9)
~
ist ein p-Quantil von F
ist ein p-Quantil von F
{}
< x}
= Min{ xEIR
I p ~ P{X<x}} ,
F-(p) < ~ < F_(p).
Min { x E IR I p ~ F(x) }
vgl. (5).
Max{ xEIR I F(x-) ~ p}
vgl. (6).
< P < F(~)
{}
F(~-)
{}
F-(p) < ~ < F_(p)
vgl. (5)(6). D
Beweise: Quantile von Verteilungen
QB-3
9.7.10
Beweis von
~
(10)
ist ein p-Quantil von cL'(X)
(a + b~) ist ein
p-Quantil von cL'( a + bX)
{ (a + b~) ist ein(l- p)-Quantil von cL'( a + bX)
falls
falls
b> 0 }
b< 0 .
Für b> 0 folgt die Behauptung aus
<
P{a+bX<a+b~} = P{X<~}
P
<
P{X<~} = P{a+bX<a+b~}
und für b< 0 folgt sie aus
P{a+bX <a+b~} =
P{X>~} = 1-P{X<~}
1- p < 1-P{X <~} =
<
1- p,
P{X>~} = P{a+bX<a+b~}.
Beweis von
~ ist ein Median von cL'(X)
(13)
=*
E(IX-~I) =
Min E(IX-cl),
cE lR
Für eine Zufallsvariable Y > 0 läßt sich der Erwartungswert darstellen als
00
E(Y) =
J
P{Y> y} dy
o
vgl. z.B. Billingsley (1986), Probability and Measure, (21.9), p. 282. Also gilt
H(c)
E( IX-
cl)
00
J P { IX- c I > y} dy
o
00
J [P{X-c<-y}+P{X-c>y}Jdy
o
00
00
J P{X <c-y} dy
+
o
J P{X>c+y} dy
0
c
00
JP {X < x} dx + J P {X > x} dx .
Für
~
-00
c
c
c
< c folgt:
H(c) -
H(~)
JP {X < x} dx
~
c
J[P {X < x } ~
-
JP {X > x} dx
~
P {X > x }J dx .
Substitution: x = c ± y
D
Beweise: Quantile von Verteilungen
Für ~ < x gilt:
QB-4
9.7.10
~ < P{ X <~} < P{ X < x} < P{ X < x}
=*
P{X<x} = I-P{X<x} < ~
=*
P{X<x}-P{X>x} > 0
und somit:
H(c) -
H(~)
>
für ~ < c .
0
Analog folgt für c < ~:
H( c) - H(~) =
~
JP {X > x} dx
c
~
-
JP {X < x} dx
c
c
=
J[P {X > x } -
P {X < x }] dx .
~
Für x < ~ gilt:
P{ X < x} < P{ X <~} < ~
=*
P{X>x} > P{X>x} = I-P{X<x} > ~
=*
P{X>x}-P{X<x} > 0
und somit:
H(c) -
H(~)
Insgesamt folgt H( c) - H(~)
>
0
für c < ~ .
> 0 für alle c, und die
Behauptung gilt.
D
Beweise: Quantile von Verteilungen
9.7.10
QB-5
Beweise zu:
1.1 Binomialverteilung
Die folgenden Beweise benutzen nur, daß X den Träger Tx= {O, ..., n} besitzt, aber
nicht die konkreten Binomial-Wahrscheinlichkeiten. Sie gelten deshalb auch für beliebiges cL'(X) mit diesem Träger.
Beweis von
(1)
Min {kE{O, ,n} I p ~ P{X<k}},
(2)
Max{kE{O, ,n} IP{X<k} ~p}.
ad (1):
Aus
P{X<x} = P{X<Int(x)}
folgt
P-(p) = Min{ kEZ I p ~ P{X<k}}
Mit
P{X<-l} =
°<
mit
P = P{X<n}
Int(x) = Max {kE Z I k<x}
vgl. 1 (7).
ergibt sich (1).
ad (2):
Aus
P{X<x} = P{X<Suc(x)}
folgt
P_(p) =
Mit
P{X< O} =
mit
Max{kEZIP{X<k}~p}
°<
P
<
1 = P{X<n+1}
Suc(x) = Min {kE Z I x< k}
vgl. 1 (8).
ergibt sich (2).
Beweis von
(5)
p ;= P{ X <k}
für alle kE{O, , n}
P-(p) = P (p) ,
(6)
p=P{X<k}
für ein kE{O, ,n}
P-(p) = k = P (p) - 1.
Die Behauptungen folgen direkt aus den Charakterisierungen (3) und (4).
D
Beweise: Quantile von Verteilungen
9.7.10
QB-6
Beweise zu:
1.2 Poisson-Verteilung
Die folgenden Beweise benutzen nur, daß X den Träger TX = Wo besitzt, aber nicht
die konkreten Poisson-Wahrscheinlichkeiten. Sie gelten deshalb auch für beliebiges
cL'(X) mit diesem Trägers, also z.B. für die negative Binomialverteilung.
Alle Beweise sind völlig analog zu denen aus 1.1 Binomialverteilung.
Beweis von
(1)
Min {k E Wo I p ~ P{ X <k} } ,
(2)
Max { k E Wo I P{ X < k} ~ p } .
ad (1):
Aus
P{X<x} = P{X<Int(x)}
folgt
P-(p) = Min{ kEZ I p ~ P{X<k}}
Mit
P{X<-l} = 0
<
mit
Int(x) = Max {kE Z I k<x}
vgl. 1 (7).
ergibt sich (1).
P
ad (2):
Aus
P{X<x} = P{X<Suc(x)}
mit
Suc(x) = Min {kE Z I x< k}
folgt
P_(p) = Max{kEZ IP{X<k}
~p}
vgl. 1 (8).
Mit
P{X< O} = 0
<
P
ergibt sich (2).
Beweis von
(5)
p ;= P{ X <k}
für alle k E Wo
P-(p) = P (p) ,
(6)
P = P{ X <k}
für ein k E Wo
P-(p) = k = P (p) - 1.
Die Behauptungen folgen direkt aus den Charakterisierungen (3) und (4).
D
Beweise: Quantile von Verteilungen
Q B-7
9.7.10
Beweise zu:
2 Verteilungskonvergenz und Quantile
Beweis von
(1)
lim
< an } = P{ X <
n P{ X n- a}
bzw.
lim F (a ) = F( a) ,
(2)
lim P{ X
< an } = P{ X < a}
bzw.
lim F (a -) = F(a-) .
ad (1):
1. Beweis. Seien c und d beliebige Stetigkeitsstellen von F mit c < a
n
Dann gilt
n
c
F (c)
n
<
a
n
<
< Fn (a n) <
n
n n
n
n n
d
für fast alle n
F (d)
für fast alle n
n
t
t
F(c)
F(d)
< d.
da F stetig in c, d
Es folgt
< lim n inf Fn (a n) < lim n sup Fn (a n) < F(d)
(i)
F(c)
Fall 1:
aEIR
Da F höchstens abzählbare viele Unstetigkeitsstellen hat, gibt es Folge c
k
dkt a mit ck < a
(iii)
ta
und
< dk und
F ist stetig in ck und dk.
vgl. (i)
Aus
und der Stetigkeit von F in a folgt
(iv)
lim F (a ) = F( a) ,
Fall 2:
a=oo
n
d.h. (7) gilt.
n n
Die Herleitung von (i) bleibt auch für d = a =
ck ta und eine konstante Folge dk = a =
00.
00
gültig. Wie im Fall 1 wählen wir
Da F in
00
stetig ist, ergibt sich (iv) wie
im Fall 1.
Fall 3:
a=-oo
Die Herleitung von (i) bleibt auch für c = a = -
dk ta und eine konstante Folge ck = a = wie im Fall 1.
00.
00
gültig. Wie im Fall 1 wählen wir
Da F in -
00
stetig ist, ergibt sich (iv)
Beweise: Quantile von Verteilungen
ad (1):
9.7.10
QB-8
2. Beweis. Die Behauptung folgt direkt aus dem Exkurs Konvergenz nach
Verteilung in Euklidischen Räumen) 12 (1) für Y = a .
n
ad (1):
D
n
3. Beweis für a E IR. Die Behauptung ergibt sich mit dem Exkurs Kon-
vergenz nach Verteilung in Euklidischen Räumen) 2 (2) angewandt auf die Funktionenfolge g (x) = x- a + a, die auf IR gleichmäßig gegen die Identität g(x) = x konvern
n
giert. Daher folgt
X n -a n +a = gn(X)
n
n---+ 00
g(X) = X
und weil F in a stetig ist, ergibt sich
P { X n < an} P { X n - an + a < a}
n---+
(0)
P { X < a}
D
Anwendung von (7) auf -X ~---+-X und -a ---+-a unter Berücksichn
n
tigung von
ad (2):
P{ X
< a}
= P{ - a < - X} = 1 - P{ - X
<- a}
D
Beweis von
(3)
bzw.
Zu zeigen ist, daß jeder Häufungspunkt a von (( ) das p-Quantil von Fist, d.h.
n
(i)
bzw.
F(a) =p.
Nun gibt es eine gegen a konvergente Teilfolge (k ---+ a. Aus
ergibt sich für k ---+ 00 mit (1) und (2)
F(a-) = P { X
< a} < p < P { X < a}
Da F in a stetig ist, folgt (i).
= F(a).
D
CF Charakteristische, Momente- und
Kumulanten-erzeugende Funktionen
Gerhard Osius
1.
Definition der charakteristischen Funktion
2.
Definition der Momente- und Kumulanten-erzeugenden
Funktion
3.
Die Eindeutigkeitssätze
4.
Rechenregeln für charakteristische und Momente- und
Kumulanten-erzeugende Funktionen
5.
Momente und Kumulanten eindimensionaler Verteilungen
5.1
5.2
5.3
6.
Spezielle Verteilungen
6.1
6.2
6.3
6.4
6.5
7.
Charakteristische Funktion und Momente
Moment-erzeugende Funktion und Momente
Kumulanten-erzeugende Funktion und
Kumulanten
Eindimensionale Normalverteilung
Multivariate Normalverteilung
Binomial-Verteilung
Multinomial-Verteilung
Poisson-Verteilung
Erwartungswert und Covarianzmatrix von Zufallsvektoren
Literatur
Billingsley, P., (1968): Convergence
01 Probability Measures.
New York: Wiley.
Billingsley, P., (1979): Probability and Measure. New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
G. Osius: Charakteristische und Momenten-erzeugende Funktion
1.
CF - 2
22.4.05
Definition der charakteristischen Funktion
Für ein Wahrscheinlichkeitsmaß P auf (IRK , IB K ) ist die charakteristische Funktion
K
(kurz: CF) 'Pp: IR
---+
<C definiert als
j exp{i .tTx} P(dx)
(1)
j cos{tTx} P(dx)
+ i -J sin{tTx} P(dx)
'Pp wird auch als Fourier-Transformierte von P bezeichnet.
Ist X eine Zufallsvariable mit cL'(X) = P so ist die CF von X definiert als
'P X
(2)
:=
'Pp' cl.h.
'P x (t)
E( exp{i· tTX})
E ( cos {i . t TX} )
+ i . E ( sin {i . t TX} )
Man beachte, daß 'Pp(t)E<C stets definiert ist, weil wegen Isinl, Icosl
< 1 die Erwar-
tungswerte stets existieren!
2.
Definition der Momente- und Kumulanten-erzeugenden
Funktion
Für ein Wahrscheinlichkeitsmaß P auf (IRK , IB K ) ist die Momente-erzeugende (geneK
rierende) Funktion (kurz: MGF) M : IR
(1)
---+
(0,00] definiert als
Mp(t) = jexp{tTx}P(dx) E(O,oo].
M p wird auch als Laplace-Transformierte von P bezeichnet.
Ist X eine Zufallsvariable mit cL'(X) = P, so ist die MGF von X definiert als
MX:=Mp , cl.h.
(2)
MX(t)
:=
E( exp{ tTX})
Die Kumulanten-erzeugende (generierende) Funktion (kurz: KGF) K p bzw. K
bzw. X ist der Logarithmus der MGF von P bzw. X, d.h.
(3)
log Mp(t)
E
(-00,00] ,
log MX(t) E(-oo,oo].
X
von P
G. Osius: Charakteristische und Momenten-erzeugende Funktion
22.4.05
CF - 3
Man beachte, daß Mp(t) E(O,oo] und Kp(t) E (-00,00] zwar stets existieren, aber nicht
notwendig endlich sind. Die MGF und KGF ist nur dort von Interesse, wo sie endlich ist. Trivialerweise ist
(4)
3.
Die Eindeutigkeitssätze
Ein Wahrscheinlichkeitsmaß ist durch die charakteristische Funktion eindeutig bestimmt, d.h. es gilt der
Eindeutigkeitssatz für charakteristische Funktionen: Für Wahrscheinlichkeitsmaße P und Q auf (IRK,IBK) mit charakteristischen Funktionen !.pp und !.pQ gilt:
!.pp = !.pQ
{}
P= Q.
Als Folgerung ergibt sich, daß die Verteilung cL'(X) einer K-dimensionalen Zufallsvariablen X eindeutig bestimmt ist durch die Klasse cL'( t T X) der Verteilungen aller Linearkombinationen tTX für jedes tE IRK , d.h. es gilt der
Eindeutigkeitssatz für Verteilungen: Für K-dimensionale Zufallsvektoren X und Y
gilt :
für alle t E IRK .
cL'(X) = cL'(Y)
Eine Verteilung, deren Momente-erzeugende Funktion in einer Umgebung U von 0
endlich ist, ist durch ihre Momente-erzeugende Funktion auf U bereits eindeutig be-
stimmt, d.h. es gilt der
Eindeutigkeitssatz für Momente-erzeugende Funktionen: Es seien P und Q Warscheinlichkeitsmaße auf (IRK,IB K)) deren Moment-erzeugende Funktionen M p und M Q
beide in einer Umgebung U von 0 E IRK endlich sind. Dann gilt:
P=Q.
Hieraus folgt natürlich sofort der entsprechende Eindeutigkeitssatz für Kumulanten-erzeugende Funktionen.
G. Osius: Charakteristische und Momenten-erzeugende Funktion
4.
22.4.05
CF - 4
Rechenregeln
X sei ein K-dimensionaler Zufallsvektor, A eine (ix K) -Matrix und bE IRJ.
Für die i-dimensionale transformierte Zufallsvariable AX + b lassen sich die charakteristische, Momente- und Kumulanten-erzeugende Funktion direkt aus der von
X berechnen:
(1)
'PAX+b(t)
(2)
MAX +b (t) = MX (A t)
(3)
KAX+b(t) = Kx(A t) + b t
'Px(ATt)
T
T
für alle tE IRJ,
exp{i.bTt}
T
für alle tE IRJ,
exp{ b t}
T
für alle tE IRJ,
Ist weiter Y ein L-dimensionaler Zufallsvektor, so lassen sich die charakteristische,
Momente- und Kumulanten-erzeugende Funktion des (K + L )-dimensionalen Zufallsvektors (X, Y) direkt angeben, falls X und Y stochastisch unabhängig sind:
(3)
L
Sind X und Y stochastisch unabhängig) so giltjür alle sEIRK,tEIR :
'P (X, Y) ( s , t)
'PX(s)
'Py(t) ,
M(X, y)(s, t)
Mx(s)
My(t) ,
K(X, Y) ( s , t)
Kx(s) + Ky(t) .
Unter Verwendung des Eindeutigkeitssatzes für charakteristische Funktionen erhält
man sogar die folgende Charakterisierung stochastischer Unabhängigkeit
(4)
X und Y sind stochastisch unabhängig
{}
jür alle sEIRK,tEIRL .
Ein entsprechendes Resultat gilt auch für die Momente- bzw. Kumulantenerzeugenden Funktionen von X, Y und (X, Y) sofern diese in einer Umgebung von
o endlich sind.
Speziell für K = L ergeben sich die charakteristische, Momente und Kumulanten-erzeugende Funktion der Faltung X + Y aus den entsprechenden Funktionen von X
und Y:
G. Osius: Charakteristische und Momenten-erzeugende Funktion
22.4.05
CF - 5
Faltungssatz für CF, MGF und KGF: Für stochastisch unabhängige K-dimensionale
Zujallsvektoren X und Y gilt jür alle tE IRK :
<Px+y(t)
<Px (t)
<Py(t) ,
MX+y(t)
MX (t)
My(t) ,
Kx+y(t)
KX(t)
+ Ky(t) .
5.
Momente und Kumulanten eindimensionaler Verteilungen
5.1
Charakteristische Funktion und Momente
Für eine reelle (d.h. eindimensionale) Zufallsvariable X lassen sich die Momente
E{ X k } - sofern sie existieren - auch aus den Ableitungen der charakteristischen
Funktion <P = <PX von X bestimmen:
n
Falls E{ IXl } <
(1)
ist, so ist <P n-mal stetig differenzierbar mit
<p(k)(t) = i k .E{ X k eitX }
für k = 0, ... , n und alle tEIR .
(a)
00
Speziell für t = 0 ergeben sich die Momente von X aus
für k = 0, ... , n .
Die folgende Bedingung ist hinreichend dafür, daß <P sogar analytisch ist:
(CFA)
T
Alle Momente von X existieren, und für r>O gilt
Wenn (CFA) gilt, so läßt sich <P um jedes x E IRin eine Potenzreihe entwickeln
T
(2)
fürltl<r.
Speziell für x = 0 gilt
(3)
<p(t) =
f
(i t;k E{ X k }
k=O k.
für It I <r,
und somit ist <P dann bereits durch alle Momente von X eindeutig bestimmt.
G. Osius: Charakteristische und Momenten-erzeugende Funktion
5.2
22.4.05
CF - 6
Moment-erzeugende Funktion und Momente
Die Moment-erzeugende Funktion M = MX einer reellen Zufallsvariablen X ist nur
dort von Interesse, wo sie endlich ist, d.h. auf ihrem Endlichkeitsbreich
Endl(M) = {s EIR I M(s) <00 } .
(1)
Der Endlichkeitsbereich Endl(M) ist zusammenhängend - also ein Intervall -welches
stets die Null enthält, weil
(2)
M(O) = 1 .
Im (trivialen) Fall Endl(M) = {O} enthält die MGF keine detaillierten Information
über die Verteilung von X, und wir wollen daher im folgenden davon ausgehen, daß
der Endlichkeitsbereich ein nicht-degeneriertes Intervall ist, d.h. wir setzen für ein
r
> 0 voraus
(MGF)
T
M ist auf [-r, +r] endlich,
bzw.
[-r, +r] C Endl(M).
Hieraus folgt, daß alle absoluten Momente von X endlich sind
(3)
für alle k E W,
und es folgt die Bedingung (CFA) für die charakteristische Funktion. Weiter erT
hält man folgende Reihenentwicklung von M
00
(4)
M(t) =
k'fo
k
k!
k
E{X }
für It I <r.
M ist auf dem offenen Intervall ( -r, +r) beliebig oft differenzierbar mit
(5)
für alle kEWU{O} und
Itl < r.
Speziell für t = 0 ergeben sich die Momente von X aus den Ableitungen von M( und
darum heißt M auch die Moment-erzeugende Funktion)
(6)
für alle k E WU{O} .
Folglich stellt (4) die Taylor-Entwicklung der Funktion M im Nullpunkt dar.
G. Osius: Charakteristische und Momenten-erzeugende Funktion
5.3
22.4.05
CF - 7
Kumulanten-erzeugende Funktion und Kumulanten
Aus der Bedingung (MGF)
T
- die wir weiter voraussetzen - ergibt sich, daß auch
die Kumulanten-erzeugende Funktion K = log MX der reellen Zufallsvariablen X
X
auf dem abgeschlossenen Intervall [-r, +r] endlich und auf dem offenen Intervall
( -r , +r) beliebig oft differenzierbar ist.
Die Ableitungen von K X im Nullpunkt heißen Kumulanten von X und werden wie
folgt bezeichnet
(1)
k-te Kumulante von X,
kEWU{O}.
Die Kumulanten lassen sich aus den (zentralen) Momenten von X berechnen und
umgekehrt. Die Kumulanten bis zur Ordnung 4 lauten:
(2)
K;O(X) = 0
(3)
K;1 (X) = E(X)
(4)
K;2(X) = E([X-fL]2)
fL 2 (X)
(5)
K;iX)
E( [X - fL] 3)
fL 3 (X)
(6)
K;iX)
E( [X - fL] 4) - 3 fL~(X)
a
Var(X)
2
Die Kumulanten der transformierten Zufallvariablen U = aX + b ergeben sich direkt
aus den Kumulanten von X
(7)
K;1(aX + b) = aK;1(X)
+b
(8)
K; r (a X + b) = aT K; r (X)
bzw.
E(aX + b) = aE(X)
für
+b
r> 2.
Und die Kumulanten einer Faltung ergeben sich als Summe der entsprechenden Kumulanten
(9)
X und Y stochastisch unabhängig
K; r (X + Y) = K; r (X)
+ K; r (Y)
für alle r.
G. Osius: Charakteristische und Momenten-erzeugende Funktion
6.
Spezielle Verteilungen
6.1
Eindimensionale Normalverteilung
22.4.05
Für cL'(X) = N(p"a 2 ) mit p,E IR und 17 2 > 0 ist die charakteristische Funktion
(1)
für tEIR.
Die Momente und Kumulanten--erzeugende Funktion ist überall endlich mit
+ ~ t2 a 2 }
(2)
Mx( t) = exp {p,t
(3)
KX(t) = p,t + ~ t a
2 2
für tE IR,
für tE IR.
Aus den Ableitungen
(4)
K~(t)
P,
K~(t)
17
~2(t)
0
+ ta 2 ,
2
für
r> 2
ergeben sich die Kumulanten von X zu
(5)
;;;1 (X) = P, ,
;;;/X) = 0
6.2
für
r> 2.
Multivariate Normalverteilung
Für cL'( X) = NK (p" E) lautet die charakteristische Funktion
(1)
'P
T
T
X (t) = exp { i . t P, - ~ t E t}
K
für tE IR .
Die Momente und Kumulanten--erzeugende Funktion ist überall endlich mit
(2)
MX(t) = exp{tTp,+ ~ tTEt}
fürtEIR ,
(3)
KX(t) = tTp,+ ~ tTEt
fürtEIR .
K
K
CF - 8
G. Osius: Charakteristische und Momenten-erzeugende Funktion
6.3
22.4.05
CF - 9
Binomial-Verteilung
Für cL'(X) = B(N,p) ist die charakteristische Funktion
(1)
für tE IR.
Die Momente und Kumulanten--erzeugende Funktion ist überall endlich mit
(2)
MX(t) = (p et
(3)
KX(t) = N ·log(p et
6.4
+ 1- p)N
+ 1- p)
für tE IR,
für tE IR.
Multinomial-Verteilung
Für cL'(X) =MK(N,p) mit P=(Pk) E[O,l]K und P+ =1 ist die charakteristische
Funktion
(1)
Die Momente und Kumulanten--erzeugende Funktion ist überall endlich mit
(2)
(3)
G. Osius: Charakteristische und Momenten-erzeugende Funktion
6.5
22.4.05
CF - 10
Poisson-Verteilung
Für cL'(X) = Pois (p,) ist die charakteristische Funktion
(1)
't
!.pX( t) = exp {p, (e Z
-
I)}
für tE IR.
Die Momente und Kumulanten--erzeugende Funktion sind überall endlich mit
(2)
MX ( t) = exp {p, ( et - I)}
für tE IR,
(3)
KX(t) = p,(et -1)
für tE IR.
Aus den Ableitungen
(4)
für rE W
ergibt sich, daß alle Kumulanten von X mit dem Erwartungswert p, übereinstimmen:
(5)
K,
r
(X) = p,
für rE W .
G. Osius: Charakteristische und Momenten-erzeugende Funktion
7.
22.4.05
CF - 11
Erwartungswert und Covarianzmatrix von Zufallsvektoren
Für einen K-dimensionalen ZuJallsvektor X = (Xk) bzw. für eine JxK ZuJallsmatrix
Y = (Y ) ist der Erwartungswert komponentenweise definiert, d.h. als Vektor bzw.
jk
JxK Matrix der Erwartungswerte der Komponenten, sofern diese existieren:
(1)
bzw.
Wenn der Erwartungswert Jl: = E(X) E IRK existiert, so ist die KxK Covarianzmatrix von X als Matrix aller Covarianzen der Komponenten definiert durch
Die Diagonale der Covarianzmatrix enthält also die Varianzen Var(X ), und für
k
eindimensionales X ist daher Cov(X) = Var(X).
Wenn die Covarianzmatrix Cov(X) existiert, so gilt für eine JxK Matrix A:
(3)
Cov(AX) = A· Cov(X) .A T.
Wenn die Moment-erzeugende Funktion MX von X in einer Umgebung von 0 endlich ist, so ergeben sich der Erwartungswert und die Covarianzmatrix wie folgt aus
den Ableitungen der Kumulant-erzeugenden Funktion K
(4)
E(X)
(5)
Cov(X)
DKX(O)
2
T
D KX(O).
= \7 KX(O),
X
von X
Beweise zu: Charakteristische und Momenten-erzeugende Funktion
27.7.05
B CF - 1
Beweise zu:
Erwartungswert und Covarianzmatrix von
7
Zufallsvektoren
Beweis von:
(4)
(5)
E(X) = DKx(O)T = V Kx(O),
2
Cov(X) = D Kx(O).
Es gibt eine Kugel um 0 vom Radius r> 0, so daß KX(t) für 11 t
11
< r endlich ist. Für
festes (beliebiges) tE lRK - {O} ist die KGF von Z = tTX nach 4 (3) gegeben durch
und somit auch endlich für Is I < sO: = r
11 t 11-1. Differenzieren nach s liefert
(i)
=
DKx(st) = DKx(st).t = t T . V Kx(st)
fürlsl<so
(ii)
=
D(t T. V Kx(st)) = t T .D2Kx (st) . t
fürlsl<so·
Hieraus ergeben sich mit 5.3 (2) und (3)
(iii)
t T E(X)
(iv)
t T Cov(X) t = Var(tTX) = Var(Z) = K~(O) = t TD2Kx (O) t
=
E(tTX)
Dies gilt nicht nur für alle
c> 0)
11
t 11
=
E(Z)
=
K~(O)
=
tTV KX(O)
< r sondern (nach Multiplikation mit geeignetem
sogar für alle tE lRK . Damit ergeben sich die Behauptungen aus dem allge-
meinen Resultat für Vektoren u, v E lRK und symmetrische KxK-Matrizen A, B:
(v)
(vi)
tTu = tTv
t TAt = tTB t
für alle tElRK
u=v,
für alle tE lRK
A=B.
Zum Nachweis von (v) und (vi) erhält man mit t = e als k-tem Einheitsvektor
k
für alle k,
(vii)
Und für t = e
d.h.
u=v
für alle k
k
+ e z ergibt sich
für alle k, l
und mit (viii) erhält man A = B.
D
KV Konvergenz nach Verteilung in
euklidischen Räumen
Gerhard Osius
1
Definition der Verteilungskonvergenz
2
Konvergenz von Bildmaßen
3
Konvergenz von Produkt-Maßen
4
Konvergenz nach Wahrscheinlichkeit gegen eine Konstante
5
Rechenregeln von Slutzky über Konvergenz nach Verteilung
und Wahrscheinlichkeit
6
Die Reduktionsmethode von Cramer-Wold
7
Der Stetigkeitssatz für charakteristische Funktionen
8
Der Stetigkeitssatz für Moment-erzeugende Funktionen
9
Der Darstellungssatz von Skorohod
10
Stochastische Beschränktheit und der Satz von Prohorov
11
Konvergenz gegen Unendlich
12
Konvergenz von Wahrscheinlichkeiten
13
Konvergenz von Quantilen
14
Differenzierbare Transformation (Delta-Methode)
15
Konvergenz von quadratischen Formen
Literatur
Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.
Billingsley, P., (1986): Probability and Measure. New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
1.
5.12.14
KV-2
Definition der Verteilungskonvergenz
Für Wahrscheinlichkeitsmaße (P )
1\.T
n nEm
sagen (VK)
0
-
und P auf (lRI, IBI) sind die folgenden Aus-
(VK) äquivalent
4
Für die Verteilungsfunktionen F und F von P und P gilt
(VK) 0
n
F stetig in a
=?
n
lim F (a) = F(a)
n
n
für jedes aElRI
Für jede beschränkte (gleichmäßig) stetige Funktion h: lR I---+ lR gilt:
lhm 1h dPn = 1h dP.
Für jedes BE IBI gilt ( BB ist der topalogische Rand von B):
(VK) 2
P(BB) = 0
(VK)
lim P (B) = P(B).
=?
P(B)
=?
lim sup P (B)
n---+ oo n
n
n
Für jedes BEIBI gilt:
3
B offen
(VK)
=?
< lim
inf P (B)·
n---+ oo n
Für jedes BE IBI gilt:
4
B abgeschlossen
< P(B).
Beweis: vgl. z.B. Billingsley (1968) Thm. 2.1, Billingsley (1986) Thm. 29.1.
D
In (VK) kann "gleichmäßig" äquivalent fortgelassen werden oder stehen bleiben.
1
Falls eine bzw. alle Bedingungen (VK) 0
-
(VK) 4 gelten, so heißt die Folge (Pn)
schwach konvergent gegen P und man schreibt hierfür:
P =?P
n
p~p
oder
(schwache Konvergenz)
n
Falls die Wahrscheinlichkeitsmaße P
X : .f2
n
n
-----+
lR I bzw. X: .f2
Pn = L(X)
n
-----+
bzw. P Verteilungen von Zufallsvektoren
n
lR I sind, d.h.
bzw.
P= L(X),
so heißt die Folge (Xn) verteilungskonvergent gegen X, falls für die Verteilungen gilt
L(Xn ) ~ L(X), und man schreibt kurz:
x~x
n
(Verteilungskonvergenz von Zufallsvariablen)
Die Wahrscheinlichkeitsmaße auf den zugrunde liegenden Wahrscheinlichkeitsräumen (Dn, dn,Pn) und (D, ~P) sind bei Betrachtungen der Verteilungen von Xn
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
KV-3
5.12.14
und X nur von untergeordneter Bedeutung. Die Bedingungen (VK)
0
-
(VK) lassen
4
sich unter Verwendung der Zufallsvektoren äquivalent umformulieren, z.B.
(VK1)1
Für jede beschränkte (gleichmäßig) stetige Funktion h: 1R1 ---+ lR gilt:
(VK);
lim E{ h(X )} = E{h(X)}.
n
n
Für jedes BE IB 1 gilt:
P{XEBB} = 0
lim P{X EB} = P(XEB}.
n
n
Obwohl sich hierbei die Erwartungswerte E {-} und die Wahrscheinlichkeiten
P{-} auf die entsprechenden Wahrscheinlichkeitsmaße P bzw. P des Definitionsn
bereichs der in {-} auftretenden Zufallsvektoren beziehen, wollen wir diese Abhängigkeit zur Vereinfachung nicht mit in die Notation einbeziehen.
Für die schwache Konvergenz gilt das elementare (aber wichtige)
Teilfolgenkriterium: P ~ P gilt genau dann 1 wenn jede Teilfolge (P
n
tere Teilfolge (P
n
11 )
enthält mit P
n
11
~ P.
n1
)
eine wei-
Der Beweis ergibt sich direkt aus dem entsprechenden Teilfolgenkriterium für die
Konvergenz reeller Zahlenfolgen x
2
n
-----+
x.
Konvergenz von Bildmaßen
Es sei g: 1R1 ---+ lRK eine meßbare Abbildung und D(g) = {xE1R1 Ig unstetig in x} die
Menge der Unstetigkeitsstellen von g. Dann ist D(g) eine Bore1-Menge und es gilt:
(1)
Ist g P- fast sicher stetig, d.h. P { D (g)} = 0, so folgt
L
p g-1
P g-1 -----+
n
0
Für die Zufallsvektoren lautet (1)
(1)*
P{XED(g)} = 0, Xn ~X
=?
g(Xn) ~ g(X).
Für stetiges g gilt stets D(g) = 0 und somit auch P{D(g)} = 0 = P{XED(g)}.
Allgemeiner gilt für eine Folge g : 1R1 ---+ lRK meßbarer Abbildungen, die auf jeder
n
kompakten Menge K C 1R1 gleichmäßig gegen g konvergiert:
(2)
P{D(g)} = 0,
p~p
n
L
p -1
P g -1 -----+
g
n n
0
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
(2) *
P{XED(g)} = 0,
x~x
5.12.14
KV-4
L
g (X ) -----+
g(X).
n
n
n
Für die konstante Folge g = gergibt sich (1) aus (2).
n
Beweis: Zu (1) vgl. z.B. Billingsley (1968) Thm. 5.1 oder (1986) Thm. 29.2. Und zu (2)
vgl. Billingsley (1968) Thm. 5.5 und die darauf folgenden Bemerkungen.
3
D
Konvergenz von Produkt-Maßen
Für Wahrscheinlichkeitsmaße P~, P' auf (1R1, IB 1 ) und P~, P" auf (lRK, IBK) gilt für
die Produktmaße
P'xP''
~P'xP'' {} P'~P'
P''~P''.
n
n
n
'
n
(1)
Für Zufallsvektoren X', X' und X", X" lautet (1):
n
n
Falls X', X" stochastisch unabhängig und
(1)*
X', X'' stochastisch unabhängig für jedes n, so gilt
n
n
X''){} X' ~X' X"~X".
(X'n' X")~(X'
n
'
n
' n
Beweis: Vgl. z.B. Billingsley (1968) Thm. 3.2.
4
D
Konvergenz nach Wahrscheinlichkeit gegen eine Konstante
von Zufallsvektoren mit Werten in 1R1 heißt nach Wahrscheinlichkeit
n
konvergent gegen a ElR1 (Schreibweise: X ~ a ), falls gilt
n
Eine Folge X
(KW)
Für jedes c > 0 gilt: li~ P{ll xn- a II
> c}
limP{IIX
-all < c}
n
n
bzw.
= 0
= 1,
oder in äquivalenter "topologischer" Formulierung
(KW)*
Für jede Umgebung U von a gilt:
lim P{ X
n
n
\t U}
= 0
bzw.
lim P{ X E U} = 1.
n
n
Fassen wir a E lR I als konstanten Zufallsvektor auf, so erhält man (elementar):
(1)
p
X -----+ a.
n
Für beliebige a E 1R1, aufgefaßt als konstante Zufallsvektoren, gilt offenbar:
n
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
(2)
L
a -----+ a
n
{}
a
n
p
-----+
a
{}
5.12.14
KV-5
lim a = a.
n n
X heißt eine stochastische Nullfolge falls X ~ 0 gilt. Man schreibt dann auch (in
n
n
Anlehnung an die Symbolik von Landau): X = o (1 ).
n
p
5
1
Rechenregeln von Slutzky über Konvergenz nach Verteilung
und Wahrscheinlichkeit
Seien X , X I-dimensionale und Y K-dimensionale Zufallsvektoren mit
n
n
(0)
Dann folgt:
L
(1)
(Xn ,Y)
n
(X,a).
(2)
Für I= K: [X ±Y]
n
n
(3)
Für K= 1: Y·X
n
n
L
L
[X±a],
<Xn ,Yn >
L
<X,a>.
a·X.
Man beachte insbesondere den Spezialfall a = 0.
Beweis: (1) folgt aus Billingsley (1968) Thm. 4.1, und (2- 3) ergeben sich aus (1)
und 2 (1) *" weil die Operatoren "± " < - , - > und " · " stetig sind.
6
D
Die Reduktionsmethode von Cramer-Wold
Sind X , X I-dimensionale Zufallsvektoren, so läßt sich die Verteilungskonvergenz
n
X ~X auf die Konvergenz aller Linearkombinationen <t,X >~<t,X> zun
n
rückführen:
X
n
L
X {}
< t,X >
n
L
<t,X> für alle tElR 1 .
1
O.B.d.A. kann man in (8) nur normierte Vektoren tElR zulassen, d.h.lltll = 1.
Beweis: Vgl. z.B. Billingsley (1968) Thm. 7.7 oder Billingsley (1986) Thm. 29.4.
D
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
7
KV-6
5.12.14
Der Stetigkeitssatz für charakteristische Funktionen
Für die charakteristischen Funktionen cp , cp: lRI ---+ <C der I-dimensionalen Zufallsn
vektoren X , X gilt:
n
lim cp = cp (punktweise) in 1R1
n
X
n
X.
n
Beweis: Vgl. z.B. Billingsley (1968) Thm. 7.6 oder Billingsley (1986) Sec. 29.
8
D
Der Stetigkeitssatz für Moment-erzeugende Funktionen
Sind die Moment-erzeugende Funktionen M , M: lR I ---+ [ 0, oo] der I-dimensionalen
n
Zufallsvektoren X , X in einer Umgebung U des Nullpunktes OE lRI endlich, so gilt:
n
lim M = M (punktweise) in U
n
n
=?
X
X.
n
Die Umkehrung gilt i.a. nicht.
Beweis: Für I = 1 vgl. z.B. Billingsley (1979) Sec. 30, und mit der Methode von
Cramer-Wold ergibt sich die Behauptung für beliebiges I.
9
D
Der Darstellungssatz von Skorohod
Für Wahrscheinlichkeitsmaße P , P auf ( 1R1, IB 1 ) gilt P ~ P dann und nur dann,
n
n
wenn es I-dimensionale Zufallsvektoren Y , Y auf einem gemeinsamen Wahrscheinn
lichkeitsraum ( D, d, P) gibt mit L(Y ) = P , L(Y) = P, so daß Y punktweise
n
n
n
gegen Y konvergiert: Y (w) -----+ Y ( w) für alle w E .f2.
n
Beweis: Vgl. z.B. Billingsley (1986) Thm. 29.6 .
10
D
Stochastische Beschränktheit und der Satz von Prohorov
Eine Folge P von Wahrscheinlichkeitsmaßen auf (lRI, IBI) heißt straff (engl.: tight ),
n
falls es für jedes c: > 0 eine kompakte Menge K C lR I gibt mit P (K) > 1- c: für alle n.
n
Für I-dimensionale Zufallsvektoren X ist P = L(X ) gerrau dann straff, wenn gilt
n
n
n
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
(SB)
Zu jedem
c: > 0
5.12.14
KV-7
gibt es ein M > 0, so daß für (fast) alle n E W gilt:
P{IIXnll > M} < c.
Falls (SB) gilt, so heißt X
n
auch stochastisch beschränkt, und man verwendet dafür
(in Anlehnung an das Landau'sche Symbol 0) die Schreibweise X = 0 (1). Verteip
n
lungskonvergente Folgen sind stochastisch beschränkt:
X
X
n
X = 0 (1).
n
p
=?
Allgemeiner gilt der
Satz von Prohorov: Für I-dimensionale Zufallsvektoren X
(i)
(ii)
n
sind äquivalent
X
ist stochastisch beschränkt.
n
Jede Teilfolge von X besitzt eine verteilungskonvergente Teilfolge.
n
Beweis: vgl. z.B. Billingsley (1968) Thm. 6.1-2.
11
D
Konvergenz gegen Unendlich
Eine Folge X
von reellen Zufallsvariablen heißt nach Wahrscheinlichkeit konvergent
n
gegen oo (Schreibweise: X
p
oo), falls gilt
n
Für jedes M> 0 gilt:
(KW) 00
lim
P{Xn<M} = 0.
n
Für positive Zufallsvariablen läßt sich dieses Konzept auf Konvergenz nach Wahrscheinlichkeit gegen Null zurückführen
(1)
Falls X
n
> 0 für allen, so gilt:
X _P----t oo
n
{}
x-n 1 -P----t 0.
Konvergenz von X nach Wahrscheinlichkeit gegen -oo ist analog definiert durch
n
(KW) -00 Für jedes M> 0 gilt:
lim
P{Xn>-M} = 0
n
d.h. es gilt
(2)
X
p
n
-oo
{}
-Xn
p
+oo.
Für weitere Zufallsvariablen Y und Y ergeben sich folgende Rechenregeln:
n
p
(3)
X -----+ + oo,
n
(4)
X -----+ ± oo,
p
n
X
p
< Y ?-fast-sicher für alle n
n- n
y = 0 (1)
n
p
y n-----+ + 00 '
=?
p
X n +Yn-----+±oo,
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
p
Y ~ Y, Y>O ?-fast-sicher
(5) X n-----+ ± oo,
(6)
X
n
p
p
X -----+ + oo,
n
y-----+
n
+ 00
::::}
KV-8
5.12.14
p
· Y -----+
n
n
± oo,
p
+ Y n-----+
+ oo,
n
p
X · Y -----+ + oo.
n
n
X
Für eine Folge a E lR interpretiert als Folge konstanter Zufallsvariablen gilt
n
(7)
12
p
lim a = oo
n
a -----+ oo.
n
n
Konvergenz von W ahrscheinlichkeiten
Für Zufallsvariablen X n, Y n, X und -oo <
- a<
- oo gilt
(1)
13
X
X,
n
p
Y ----+ a,
n
P{X=a} = 0
Konvergenz von Quantilen
Für eine reelle Zufallsvariable X mit Verteilungsfunktion F und 0 < a < 1 heißt
x E lR ein (oberes) a- Quantil der Verteilung P : = d: (X), wenn gilt
Ct
(1)
P(X <xa)
< 1-a < P(X < xa)
bzw.
F ( xa-) == lim F( x) < 1- a < F ( x) .
xixa
Das a-Quantil ist im allgemeinen nicht eindeutig bestimmt, und man kann zeigen,
daß die Menge der a-Quantile ein abgeschlossenes Intervall ist. Für stetiges Fist (1)
äquivalent zu F(x) = 1-a, d.h. jedes Urbild von 1-a unterFistein a-Quantil.
Es sei jetzt X
ablen und x
n
np
L
bzw. x
X eine verteilungskonvergente Folge von reellen Zufallsvaria
sei oberes a-Quantil von X
n
bzw. X. Dann erhält man für
die Quantilfolge folgendes Resultat
(2)
Ist die Verteilungsfunktion F von X stetig, und ist das a-Quantil
von F eindeutig, d.h. F-1 {1- a} = { x }, so gilt:
Ct
lim
n---+
00
X
n,et
=X
·
et
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
KV-9
5.12.14
14 Differenzierbare Transformation (Delta-Methode)
Y , Z seien I-dimensionale Zufallsvektoren, die nach Wahrscheinlichkeit gegen
n n
dasselbe a E lRI konvergieren:
(1)
y
p
n
zn
a,
p
a.
Ferner sei c > 0 eine reelle Skalierungsfolge, sodaß c [Y -Z ] nach Verteilung gen
n n n
gen einen I-dimensionalen Zufallsvektor U konvergiert :
(2)
c [Y -Z]
n n
n
U.
Weiter sei F: 1R1 -----+ lRK eine meßbare Transformation, die in einer Umgebung A
von a differenzierbar ist, und deren Ableitung DF auf A stetig ist. Dann läßt sich die
Verteilungskonverenz (2) mit F "transformieren" zu
(3)
c [F(Y) -F(Z )]
n
n
n
DF(a). U,
und es gilt die stochastische Taylor-Formel
(4)
c ( [F (Y ) - F (Z ) ] - DF ( a) · [ Y - Z ] )
n
n
n
n
n
p
0.
Ist G: 1R1 ---+ lRK eine weitere meßbare Transformation, die mit F in einer Umgebung von a übereinstimmt, so gilt weiter
(5)
c ( [F (Y ) - F (Z ) ] - [ G ( Y ) - G (Z ) ] )
n
n
n
n
n
p
0.
Zusatz 1: Wenn c -----+ oo gilt, dann folgt aus (2) bereits [ Y - Z ]
n
n
n
mit sind die beiden Konvergenzen in (1) zueinander äquivalent.
p
0 und so-
Zusatz 2: Die stochastische Taylor-Formel (4) folgt bereits, wenn statt der Verteilungskonvergenz
(2)*
(2) nur stochastische Beschränktheit vorausgesetzt wird:
c [Y -Z ] = 0 (1).
n
n
n
p
Spezialfall (asymptotische Normalverteilung): Bei normalverteiltem U, d.h.
(6)
L { U} = N/p,,E),
ist die Limesverteilung in (3) ebenfalls eine Normalverteilungg:
(7)
mit
D:=DF(a).
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
KV- 10
Anwendungen
Für eine reelle Zufallsvariable X mit p, = E(X) und a 2 = Var(X) E (0, oo) sei X eine
n
Folge stochastisch unabhängiger und wie X verteilter reeller Zufallsvariablen (also unabhängige Wiederholungen von X). Für den Mittelwert fi(n) =~X~) der ersten n Zufallsvariablen als Schätzer für p, gilt dann (Gesetz der großen Zahlen)
(8)
i/(n)
r
P
n---+ oo
1-L
und (Zentralen Grenzwertsatz)
(9)
n---+
oo
Für Y = fi(n\ Z = a = p, und c = JTi sind somit die Voraussetzungen (1) und (2)
n
n
n
2
sowie (6) mit I= 1 und a = E erfüllt. Wir betrachten jetzt einige spezielle Verteilungen von X und zugehörige interessierende Transformationen F.
Binomialverteilung: Für L(X) =B(1,p) ist a 2 = p(1-p) und neben dem Erwar-
tungswert p, = pistauch der "kanonische Parameter" 1/J = logit(p): = ln[p/(1-p)] von
Interesse. Da die logistische Funktion logit(p) nur für p E (0, 1) definiert ist, setzen
wir sie zu einer Funktion F auf ganz IR meßbar fort, indem wir sie auf dem Komplement IR\ (0, 1) beliebig (aber meßbar, also z.B. konstant Null) setzen. Mit der
Ableitung
F'(p) = logit'(p) = [p(1-p)]-1 = a -2
ergibt sich dann aus (9) bzw. (3) und (7) - mit
L
(10)
n---+ oo
p statt fi
N(O a- 2 )
'
Wegen (5) gilt (10) auch für jede andere meßbare Fortsetzung G der logistischen
Funktion logit: (0, 1) -----+IR und deshalb schreibt man (10) auch suggestiv als
(11)
Vn [logit(p(n)) - 1/J]
J n p (1- p)
[ logit(p(n)) -1/J J
n---+
oo
n---+
oo
N(O,a- 2 )
bzw.
N(0,1).
Somit ist die Schätzung {; = logit(p) von 1/J asymptotisch normalverteilt.
D
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
KV -11
Poissonverteilung: Für L(X) = Pois(p,) ist a 2 = p, und neben dem Erwartungswert
p, ist auch der "kanonische Parameter" 1/J = ln(p,) von Interesse. Da der Logarithmus
nur auf (0, oo) definiert ist, setzen wir ihn wieder zu einer Funktion F auf ganz lR
beliebig - aber meßbar - fort. Mit der Ableitung
ergibt sich dann aus (9) bzw. (3) und (7)
(12)
Vn [ln((L(n)) -1/J]
Vn; [ ln((L(n)) -1/J J
n---+ oo
n---+ oo
N(O,a- 2 )
bzw.
N(0,1),
wobei wir statt F suggestiv Zn geschrieben haben, weil es nach (5) nicht auf die konkrete Fortsetzung ankommt. Insgesamt ist die Schätzung {; = ln((L) von 1/J also
asymptotisch normalverteilt.
D
Exponentialverteilung: Für L(X) = Expo().) ist p, = ).- 1, a 2 = p, 2 = ).- 2 und neben
dem Erwartungswert ist auch der "kanonische Parameter" ). = p,- 1 von Interesse,
den man hier auch als Hazard bezeichnet. Mit F(x) = x- 1 für x :;= 0 (und beliebig für
x = 0) ergibt sich aus
-2
-a
analog (11) und (12) die asymptotische Normalverteilung des Schätzers ~ = (1,-1
(wieder in suggestiver Schreibweise)
(13)
n---+ oo
D
G. Osius: Konvergenz nach Verteilung in euklidischen Räumen
15
Konvergenz von quadratischen Formen
Für Folgen X , Y S-dimensionaler Zufallsvektoren gilt
n n
(1)
Xn = Op(1),
(2)
II
xn
2
11
(Xn- Y n) = op(1)
*
= Op(1)
xn =
=?
Op(1).
Für Folgen A , B von (SxS)- Zufallsmatrizen gilt:
n n
(3)
(A n -B)
= op(1)
n
(XT A X ) - (XTB X ) = op(1).
n
n
n
n
n
n
5.12.14
KV- 12
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
B KV- 1
Beweise zu:
Konvergenz nach Verteilung in euklidischen Räumen
Beweise zu
11
Konvergenz gegen Unendlich
Beweis von
(1)
Falls X > 0 für alle n, so gilt: X
n
n
p
oo
{}
p
x-1
0.
n
Folgt direkt aus den Definitionen (KW), (KW) 00 da
X <M
n-
x-n 1 ->M-1.
{}
D
Beweis von
(3)
p
X -----+ + oo,
n
Wegen P{Xn
X
< Yn}
p
< Y n P-fast-sicher für alle n
n-
y n-----+ + 00 '
= 1 gilt für jedesM>O:
D
Beweis von
(4)
p
X n -----+ ± oo,
y = 0 (1)
n
p
::::}
p
X n + Y n-----+ ± oo ,
Es genügt den Fall "+ oo" zu beweisen, weil sich der Fall "- oo" hieraus durch Übergang auf- X ergibt.
n
Zu zeigen ist also X
(i)
P{Xn
+ Yn
n
p
+ oo, d.h. für beliebiges M> 0 gilt
+ Y n> M}-----+ 0.
Hierzu leiten wir für beliebiges c > 0 her:
Da Y stochastisch beschränkt ist, gibt es zu c > 0 ein K> 0 mit
n
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
B KV- 2
für fast alle n.
(iii)
Nun gilt
(M+K) <X ,
n
-K<Y
n
M<(Xn +Y)
n
und somit
P{Xn + Yn <M} <
(iv)
P{Xn <M+K oder Yn <-K}
<
Wegen X
p
00
n
(v)
P{Xn <M+K} + P{Yn <-K}.
gilt
P{X <M +K}-----+ 0
und mit (iii) folgt (ii).
D
Beweis von
(5)
p
X -----+ ± oo,
n
Y ~ Y, Y>O P-fast-sicher
n
X
p
· Y -----+ ± oo,
n
n
Es genügt den Fall "+ oo" zu beweisen, weil sich der Fall "- oo" hieraus durch Übergang auf- X , - Y ergibt. Hierfür ist für beliebiges M, c > 0 zu zeigen:
n
n
(i)
limnsup P{Xn Yn <M} < c.
Nun gibt es höchstens abzählbar viele a E lR mit P { Y = a} > 0 - vgl. z.B. Billingsley
(1979) Thm. 10.2 (iv) -und folglich existiert eine fallende Folge 0 <Km l 0 mit
(ii)
P{Y=K } = 0
m
für allem.
Also gilt für jedes m:
für n ---+ oo, m fest.
(iii)
Aus K
(iv)
m
l 0 folgt andererseits für m ---+ oo
P{Y <Km} -----+ P{Y < 0} = 0,
Zu c>O gibt es daher ein m(c)EW mit
P{Y < Km(e)} < c
und für K =Km(e/olgt aus (iii)
da Y>O P-fast-sicher.
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
(v)
5.12.14
B KV- 3
für fast alle n.
Aus
M/K<X,
n
folgt
P {Xn · Y n < M}
K<Y
n
<
M<X ·Y
n n
P {Xn < M / K oder Y n < K}
< P{Xn <MjK}
Wegen X
p
00
n
P{Xn
+
P{Yn <K}.
gilt
< MjK}-----+
0
und mit (v) folgt (i).
D
Beweis von
(6)
X
p
-----+
n
+ oo,
Y
p
-----+
n
+ oo
::::}
X
n
+Y
p
-----+
+ oo,
n p
X · Y-----+ +oo.
n
n
Für beliebiges M> 0 gilt
1<X,
n
M<Y
M<X +X,
n
n
n
M<X Y
n n
und somit folgt
(i)
P{Xn + Yn < M}
<
P{Xn < 1}
+ P{Yn <M}
(ii)
P{Xn · Yn < M}
<
P{Xn < 1}
+ P{Yn < M}.
Die rechten Seiten von (i) und (ii) konvergieren nach Voraussetzung gegen 0, und
da M beliebig war, folgt die Behauptung.
D
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
B KV- 4
Beweise zu
12
Konvergenz von W ahrscheinlichkeiten
Beweis von
(1)
X
Fall 1:
- oo
X,
n
y
p
n
P{X=a} = 0
a,
< a < + oo .
Nach den Regeln von Slutzky 5 (2) gilt
X -Y
n
X-a
n
und wegen P{X-a = 0} = P{X=a}=O folgt hieraus
Fall 2:
P{Xn <Yn}
P{Xn- Yn
< 0} -----+ P{X- a < 0}
P{X<a},
P{Xn> Yn}
P{Xn-Yn>O}-----+ P{X-a>O}
P{X>a}.
a = oo. Es genügt, zu zeigen
P{X <Y }-----+1,
(i)
n
n
denn mit P{Xn < Y n } <
< Y n} folgt hieraus auch- P{Xn(ii)
P{Xn< Y n } -----+ 1.
Nach 10 ist mit der Folge X
n
auch die Folge -X stochastisch beschränkt, und
n
mit 11 (4) ergibt sich
(iii)
p
Y - X ----+ oo.
n
n
Also gilt P{Xn> Yn} = P{Yn -Xn < 0} -----+ 0,
Fall 3:
d.h. (i) gilt.
a = -oo.
Die Behauptung folgt aus Fall 2, angewendet auf- X , - Y , -X, - a, weil
n
n
-Xn
-X
'
-Yn
p
oo,
P {-X = -
a} =
0.
D
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen 5012014 B KV- 5
Beweise zu
13
Konvergenz von Quantilen
Beweis von
(2)
Ist die Verteilungsfunktion F von X stetig1 und ist das a-Quantil
von F eindeutig, doho F-1 {1- a} = { x }, so gilt:
Ct
lim
n---+
00
X
n,et
o
=X
et
Es genügt, für eine beliebige konvergente Teilfolge
x
m,a
-----+
zu zeigen: a = x
0
Ct
a E [ -oo, +oo J
für m---+ oo
Nach Definition des Quantils gilt:
P{Xm <xm,a }<1-a<P{X
<x }0
m - m,a
Da F stetig ist, gilt P {X= a} = 0 und aus 12 (1) mit Y
m
:= x
m,a
ergibt sich
P{X<a} < 1-a < P{X<a}
doho a ist ein a-Quantil von F. Und aus der Eindeutigkeit des a-Quantils von F folgt
dann a = x
0
Ct
D
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
5.12.14
B KV- 6
Beweise zu
Differenzierbare Transformation (Delta-Methode)
14
Beweis zu "Differenzierbare Transformation"
L
DF(a). U,
(3)
c [F(Y) -F(Z )]
n
n
n
(4)
c ( [F (Y ) - F (Z ) ] - DF (a) · [Y - Z ] )
n
n
n
n
n
(5)
c ( [F (Y ) - F (Z ) ] - [G ( Y ) - G (Z ) ] )
n
n
n
n
n
p
p
0.
0.
ad (4) incl. Zusatz, d.h. mit (2)* statt (2):
Es gibt eine abgeschlossene Kugel B =
{ulll u-a I < r}
um a E lB mit Radius r > 0,
so daß F in B differenzierbar ist. Nach der Taylor-Formel gilt dann die Entwicklung
(vgl. z.B. Dieudonne, 1960, 8.14.3) :
(i)
F(y)- F(z) = H(y,z) · (y-z)
(ii)
H(y,z) =
für y, zEB
mit
1
J DF(z + t(y-z))dt
0
1
DF(a)
+ f [DF(z+t(y-z))- DF(a)] dt.
0
Also
(iii)
IIH(y,z)- DF( a) I < s(y,z) : =
sup
IIDF(z + t(y-z )) -
O<t<1
Definieren wir jetzt
(iv)
R(y,z) = F(y)-F(z)-DF(a)[y-z]
= [H(y,z)-DF(a)](y-z)
füry,zElR 1
für y, zEB
so ist für die stochastische Taylor-Formel (4) zu zeigen
(v)
c R(Y ,z )
n
n n
d.h. für beliebiges
c: > 0
p
ist zu zeigen
P { llcn R (Yn ,zn ) I
bzw. für beliebige
c: > 0
o,
> c:}-----+ 0,
und 71 > 0 ist zu zeigen
DF( a) II·
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen
P{llcn R(Yn ,zn )II > c:} < 3 71
(vi)
5.12.14
B KV- 7
für fast alle n.
Wegen (2)* gibt eine Schranke K> 0 mit
(vii)
p { II cn [ y n - zn ] II > K} < 7l
für fast alle n.
Da die Ableitung DF in a stetig ist, gibt es ein 0<8 = 8(c:,K) < r mit
(viii)
IIDF(u)- DF(a) II <; .
llu-all < 8
Die offene KugelB6 = {ulllu-all < 8} ist konvex, d.h.
y, zEB6
=?
z + t(y-z)
B6
für alle 0 < t< 1.
=?
II DF(z + t(y-z))- DF( a) II < ;
für alle tE [0,1]
=?
IIH(y,z)- DF( a) II < ;
vgl. (iii)
=?
II[H(y,z)- DF(a)] · (y-z) II < lly-zll· ~ .
*
IIR(y,z)ll < lly-zll· ;
E
Also folgt aus (viii)
II y-a II, llz-all < 8
vgl. (iv), da B6 cB.
und hieraus ergibt sich für alle n
IIYn -aii,IIZn -all<8,
bzw.
llcnR(Yn,Zn)ll>c:
=?
IIYn -all>8 oder IIZn -all > 8 oder llcn(Yn -Zn) II > K.
Für die Wahrscheinlichkeiten folgt daher (mit der Sub-Additivität)
(ix)
P{llcnR(Yn,Zn) II
> c:} <
P{IIYn -all>8} + P{IIZn -all>8} + P{llcn(Yn -Zn) II >K}.
Nach Voraussetzung (1) gilt
(x)
P{ll Yn -all > 8} < 7l
für fast alle n.
(xi)
P{IIZn -all > 8} < 7l
für fast alle n.
Aus (vii) und (ix)- (xi) folgt (vi), und somit ist (4) inclusive Zusatz 2 bewiesen.
D
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen 5012014 B KV- 8
ad (3):
Multiplikation von (2) mit der Kxl-Matrix DF(a) liefert
c DF(a)
n
0
[Yn - Z n ]
DF(a) 0U,
und Addition zu (4) ergibt (3)0
D
ad (5):
Nach Voraussetzung gilt DG(a) = DF(a) und (4) lautet mit G statt F:
p
c ([G(Y)- G(Z )]-DF(a) [Y -Z])
n
n
n
n
n
0,
0
und Subtraktion von (4) liefert dann (5)0
D
Beweis von Zusatz 1:
Multiplikation von (2) mit c-1 -----t 0 liefert [Y -Z ]
n
n
n
L
p
0 0 = 00
°
D
Beweis des "Spezialfalles":
Folgt sofort aus den Rechenregeln über Normalverteilungeno
D
Beweise zu: Konvergenz nach Verteilung in euklidischen Räumen 5012014 B KV- 9
Beweise von
15
Konvergenz von quadratischen Formen
(1)
Xn = Op(l),
(2)
I xn 1 2 =
(Xn- Y n) =
*
Op(l)
(3)
op(l)
=?
xn = Op(l)o
(A n -B)
= op(l)
n
(XT A X ) - (XTB X ) = op(l)o
n n n
n n n
Aus beiden Voraussetzungen folgt Y n = Op(l) und somit
ad (1):
IIXn 2 -IIY n
11
11
2
= xrx
_yry
n n
n n
= (X
n
+ Y n)T(Xn -Yn ),
= (Op(l)
ad (2):
ad (3):
+ Op(l) )T 0op(l))
daXTY = YTX
n n
n n
Op(l)T op(l) = op(l)o
0
IIXnll < 1 + 11Xn11 2
(XTA X )-(XTB X)= XT(A -B )X
nnn
nnn
n n
n
n
(2) ergibt sich aus der Abschätzung
= Op(l)
T
0
op(l) Op(l)= op(l)o
0
D
D
ZGS Der zentrale Grenzwertsatz für reelle
Zufallsvariablen
Gerhard Osius
1.
Die allgemeinen Resultate von Lindeberg und Ljapunov
2.
Resultate für identische Verteilungen
3.
Linearkombinationen unabhängiger Verteilungen
4.
Die Ungleichung von Berry-Esseen
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
1.
28.7.10
ZGS- 2
Die allgemeinen Resultate von Lindeberg und
Ljapunov
Für jedes n E W seien Xnk für k = 1, ...1 K(n) unabhängige reellwertige Zufallsvariablen mit
(1)
deren Summe
K(n)
(2)
X
n+
==l:Xk
k=l n
eine positive Varianz hat
(3)
a
K(n)
2
n+
2
Var(X ) - 2:: a k
n+
k= 1 n
:=
Theorem 1 (Lindeberg):
>
0.
Gilt für jedes c > 0 und n---+ oo
(4)
(Lindeberg-Bedingung)
so ist die Standardisierung von X n+ für n---+ oo verteilungskonvergent gegen die Standard-Normalverteilung
(5)
1
-X
an+
n+
n---+ oo
N(0,1).
Zusatz: Aus der Lindeberg-Bedingung folgt
(6)
Max
ank
1::; k::; K(n) an+
n---+ oo
0
und aus der FeZZer-Bedingung folgen weiter
K(n)
2::
(7)
n---+ oo
k=1
(8)
0,
lim K(n) = oo.
n---+oo
Folgerung: Wenn
(9)
a
2
n+
n---+oo
oo
gilt1 und es eine Schranke M > 0 gibt mit
(Feller-Bedingung).
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 3
für allen E Wund k = 1, ... , K(n),
(10)
so folgt die Lindeberg-Bedingung
(4) für alle c > 0 und die Verteilungskonvergenz (5).
Theorem 2 (Ljapunov): Gilt für irgendein 8 > 0 die Ljapunov-Bedingung
1
- 2+8
(Lih)
an+
K(n)
~
u
k=l
E{IXnk 12+8}
so folgt die Lindeberg-Bedingung
2.
----+
n---+ 00
0,
(4) für alle c > 0 und die Verteilungskonvergenz (5).
Resultate für identische Verteilungen
Für jedes n E W seien X nk für k = 1, ... , K( n) unabhängige und identisch verteilte reelle
Zufallsvariablen mit
(1)
0
< a n2 == Var{Xn k} < oo.
Die Varianz der Summe X n+ ist dann
(2)
und für die Gültigkeit der Lindeberg- bzw. Ljapunov-Bedingung hat man folgende
Kriterien.
Kriterium 1: Die folgenden drei Bedingungen zusammen implizieren die Lindeberg-Bedingung
(3)
lim K(n) = oo.
n---+oo
2
ist von Null wegbeschränkt1 d.h. a - 2 ist beschränkt.
n
(4)
a
(5)
(X~ ) n E lN ist gleichgradig integrierbar.
n
1
Umgekehrt folgt aus der Lindeberg-Bedingung auch
(6)
a
2
n
(5) falls zusätzlich gilt
1
ist beschränkt.
Insgesamt ist unter
Integrierbarkeit
(3) (4) und (6) die Lindeberg-Bedingung äquivalent zur gleichgradigen
1
(5) der quadrierten Variablen.
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 4
Kriterium 2: Aus den Bedingungen (3) 1 (4) und
(7)
E{1Xn1 12+8 } ist nach oben beschränkt.
für irgendein 8 > 01 folgt die Ljapunov-Bedingung (LI h) für dieses 8.
Theorem (Lindeberg-Levy): Sei X
n
eine Folge unabhängiger und identisch verteilter
reeller Zufallsvariablen mit
(8)
E{Xn } = p,,
0
< a 2 :=
Var {X } < oo,
n
und _X(n) sei der Mittelwert von X1'" .. ,Xn' d.h.
(9)
n
g(n) = 1. 2:: X ..
n .
z
z=l
Dann ist der standardisierte Mittelwert für n ---+ oo verteilungskonvergent gegen die
Standard-Normalverteilung:
(10)
n---+ oo
a
Binomial-Grenzwertsatz
(de
Moivre-Laplace):
N(0,1)
Es
sez
Y
n
ezne
Folge
B( n,p )-verteilter Zufallsvariablen mit
n
(11)
p ist von 0 und von 1 wegbeschränkt1 d.h.
n
p- 1 und (1- p ) - 1 sind beschränkt.
n
n
Dann ist die Standardisierung von Y
n
für n---+ oo verteilungskonvergent gegen die Stan-
dard-Normalverteilung
(12)
Yn- npn
Jnpn(1-pn)
n---+ oo
N(0,1).
Zusatz: Im Spezialfall p = p . für alle n besagt {11) nur1 daß 0 < p < 1 gilt.
n
z
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 5
Poisson-Grenzwertsatz: Es sei Y
eine Folge Poisson-verteilter Zufallsvariablen mit
n
0 : = E { Y } -----+ oo. Dann ist die Standardisierung von Y für n ---+ oo Verteilungsn
n
n
konvergent gegen die Standard-Normalverteilung
(13)
L
n---+ oo
3.
N(0,1).
Linearkombinationen unabhängiger Verteilungen
(Y)
sei eine Folge von stochastisch unabhängigen reellen Zufallsvariablen mit
n nEm
li.T
(1)
E{Y } = 0,
n
< T n2 : =
0
Var {Y }
n
< oo.
Für eine Dreiecksfolge (ank) reeller Zahlen mit n E W und k = 1, ... , K( n) und
K(n)
(2)
lla 112 == 2:=
a2k
k=l n
n
> 0
betrachten wir die Linearkombination
K(n)
(3)
(4)
S
=
n
2:= a kY.k
k=l n
E{Sn }=0,
mit
a
2
n
K(n)
:=Var{S }=
n
2:=
2 2
a kTk >0.
k=l n
Gesucht sind hinreichende Kriterien für die asymptotische Normalverteilung der
LinearkombinationS , d.h für die Verteilungskonvergenz
n
(ANL)
L
n---+ oo
N(0,1).
Satz 1: Ist (Yn2 ) nEm
li.T gleichgradig integrierbar und erfüllt die Folge (a k) die Kriterien
n
(5)
Max
l~k~K(n)
n---+ oo
0,
sup
nEW
2
llan11
a2n <
00'
so gilt die Lindeberg-Bedingung für die Variablen Xnk = ank Yk, und die Verteilungskonvergenz
(ANL)
gilt.
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 6
Zusatz 1: Die gleichgradige Integrierbarkeit der Folge (Y 2 ) impliziert die Beschräntktheit
n
der Folge (T 2 ). Wenn zusätzlich (T 2 ) von Null wegbeschränkt ist1 d.h. (T - 2) beschränkt
n
n
n
ist1 so ist die Bedingung
(6)
Max
a~k
1~k~K(n)
llanll 2
äquivalent zu
0,
n---+ oo
(5) und somit hinreichend für die Verteilungskonvergenz (ANL).
Zusatz 2: Ist die Folge (Y) identisch verteilt (und somit gleichgradig integrierbar) ist so
n
ist die Bedingung (6) hinreichend für die Verteilungskonvergenz (ANL).
1
Satz 2: Sei an k = ak unabhängig von n und K(n) = n für alle n. Ist (Yn2 ) nEm
-r-.T gleichgra2
dig integrierbar und (T ) von Null wegbeschränkt1 dann folgt aus
n
n
(7)
111
a
112
= l 2:= ak2
c E ( 0' oo) '
n n
nk
n---+ oo
=1
die Bedingung (6) und somit die Verteilungskonvergenz (ANL).
Folgerung:
Sei ank = ak unabhängig von n und K(n) = n für alle n. Ist die Folge
(Yn2) nEm-r-.T identisch verteilt wie Y mit
T
2
= Var(Y) 1 so folgt aus der Bedingung
(7) die
Verteilungskonvergenz (ANL) bzw. die äquivalente Aussage
(8)
Zum Beweis von Satz 2 werden noch zwei Resultate über reelle Folgen verwendet:
Lemma 1: Seien cn' yn
> 0,
n E W reelle Folgen1 und cn ---+ 0 sei nicht-wachsend. Dann
gilt
lim
n---+oo
c y = 0
lim
<=?
n n
n---+oo
c · Max { y , ... ,y } = 0.
n
1
n
B ezspze l e: c = n-1 , c = n-1/2 .
n
n
0
0
Lemma 2: Seien cn' yn
> 0,
nE W reelle Folgen1 und cn---+ 0 sei nicht-wachsend. Ferner
sei m: W ---+ W eine Abbildung mit m ( n)
11
< n für
alle n E W, d.h. m( n) repräsentiert eine
Auswahl 11 aus der Menge { l, ... ,n }. Dann gilt:
lim
n---+oo
c y = 0
n n
lim
n---+oo
cn ym (n ) = 0.
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 7
Beispiel: m(n)< n sei ein Index1 bei dem {y1' ... ,yn} sein Maximum annimmt1 d.h.
ym(n) = Max{yl' ... ,yn}. Der kleinste Index dieser Art läßt sich definieren durch:
m(n) == Min{ m<n I ym=Max{yl' ... ,yn}}.
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
4.
ZGS- 8
28.7.10
Die Ungleichung von Berry-Esseen
Die Verteilungskonvergenz der standardisierten Zufallsvariablen U gegen die Norn
malverteilung N(O, 1) im zentralen Grenzwertsatz bedeutet, daß die Verteilungsfunktion F von U punktweise gegen die Verteilungsfunktion P der Standard-Norn
n
malverteilung konvergiert:
(1)
lim F (x) = <I>(x)
für alle x E IR.
n---+oo n
Unter zusätzlichen Voraussetzungen ist die Konvergenz sogar gleichmäßig und die
Konvergenzgeschwindigkeit der Differenz F - P gegen 0 kann abgeschätzt werden.
n
Bezeichnet
(2)
IIJII : =
sup IJ(x) I
<
00
XE 1R
die Supremums-Norm einer (nicht notwendig beschränkten) Funktion!: IR-----+ IR, so
läßt sich für beliebige VerteilungsfunktionenFund G die Norm II F- G II
< oo
unter
Verwendung der Ableitung G' und den zugehörigen charakteristischen Funktionen
cpF und cp G wie folgt abschätzen (vgl. z:B. Gänssler-Stute 1977, Lemma 4.2.5)
Fundamental-Ungleichung von Esseen: Für jedes T> 0 gilt
(2)
IIF-GII <
[frl cpp{x)~cpdx)
~
ldx
+
241~'11]
Man beachte, daß die Ungleichung trivialerweise gilt, wenn das Integral oder II G 'II
nicht endlich sind. Als Abschätzung der Konvergenzgeschwindigkeit im zentralen
Grenzwertsatz läßt sich zeigen (vgl. z:B. Gänssler-Stute 1977, Satz 4.2.10 und Korollar 4.2.12)
Satz von Berry-Esseen: Für k = 1r ...1 K seien X k unabhängige reelle Zufallsvariablen
mit E(Xk) = 0 und Varianz
ai = Var(Xk) < oo. Bezeichnet
K
(3)
U= ;
2:= Xk
a~
mit
+ k=l
K
=
2:=
k=l
ai =
Var(X+)
die Standardisierung der Summe X t = X + ... +XK) so gilt für die Verteilungsfunktion
1
Fvon
(4)
U
IIF-<PII
<
6
-3 .
CJ
K
2:= E{IXkl
+ k=l
3
}.
G. Osius: Der Zentrale Grenzwertsatz für reelle Zufallsvariablen
28.7.10
ZGS- 9
Zusatz 1: Die entsprechende Abschätzung gilt auch für die 1pbere 11 Verteilungsfunktion
d.h.
(5)
Zusatz 2: Falls die Varianzen und dritten absoluten Momente übereinstimmen
(6)
für alle k = 1, ... , K
(was bei identisch verteilten XF ...1 XK der Fall ist) 1 so ist a~ =K a
2
und die obere
Schranke vereinfacht sich zu
(7)
Man beachte, daß die Abschätzungen (4) und (5) trivialerweise gelten, wenn mindestens eins der absoluten Momente E { IXk } nicht endlich ist.
3
1
Beweise zu: Der Zentrale Grenzwertsatz
B ZGS -1
3.3.11
Beweise zu:
1.
Die allgemeinen Resultate von Lindeberg und
Ljapunov
Beweis von
Folgerung: Wenn
(9)
a
2
n+
n---+oo
oo
gilt1 und es eine Schranke M
> 0 gibt mit
für allen E Wund k = 1, ... , K(n),
(10)
so folgt die Lindeberg-Bedingung
(4) für alle c > 0 und die Verteilungskonvergenz (5).
Für jedes c > 0 gibt es wegen (9) ein n(c) E W mit c an+> M für allen> n(c).
Dann ist P { IXnm I> c a n +} <
- P { IXnm I> M} = 0
für allen> n(c),
und die Lindeberg-Bedingung folgt, weil die Integrale für n > n(c) verschwinden:
1
K(n)
a~
k=l
2:=
1
{IXnk I> eaJ
x~k dP
=
o
für allen> n(c).
D
Beweis von
Theorem 2 (Ljapunov): Gilt für irgendein 8 > 0 die Ljapunov-Bedingung
(Lih)
1 K(n)
- 2+8 u
~ E{IXnk 12+8} n---+
00
an+
o'
k=l
so folgt die Lindeberg-Bedingung
(4) für alle c > 0 und somit die Verteilungskonvergenz
(5).
Für jedes c > 0 ist die Lindeberg-Bedingung zu zeigen, wobei wir a : = a + setzen:
n
n
(4)
Wegen
1
K(n)
1
a~
k=l
{IXnkl>eaJ
2:=
2
0
Xnk dP
n---+oo
(Lindeberg-Bedingung)
Beweise zu: Der Zentrale Grenzwertsatz
a n D 1Xnk1 2 +D
x2
nk
IXnkl >can
a2
17
xnk
n
B ZGS- 2
3.3.11
2+D
<
n
1Xnk1 2 +D
1
CD
17
2+D
n
folgt
1
K(n)
a2n
k=l
2:
2
1
{IXnk I> eaJ
<
XnkdP
<
1
K(n)
cD a 2+D
n
k=l
1
K(n)
cD a 2+D
k=l
n
2:
2:
1
{IXnk I> eaJ
1Xnk12+DdP
E{IXnki 2+D}.
Der letzte Ausdruck konvergiert nach (L 16) gegen 0 und somit folgt (4).
D
Beweise zu:
3.
Linearkombinationen unabhängiger Verteilungen
Beweis von
Satz 1: Ist (Yn2 ) nEm
-r-.T gleichgradig integrierbar und erfüllt die Folge (a k) die Kriterien
n
(5)
Max
a~k
1 ~k ~K(n)
a,J
sup
nEW
0'
n----+oo
llanll 2
a,J
<
00'
so gilt die Lindeberg-Bedingung für die Variablen Xnk = ank Yk, und die Verteilungskonvergenz (ANL) gilt.
Nachzuweisen ist nur die Lindeberg-Bedingung d.h. für beliebiges c > 0 ist für
n---+ oo
zu ze1gen
(LB)
Setzen wir
(i)
so gilt
m
n ==
2
llan 11 max
=
2
Max
k a nk
>
0,
vgl. (2)
Beweise zu: Der Zentrale Grenzwertsatz
Iank Y k I > c CJ n
B ZGS- 3
3.3.11
2
2
2
2
>
c
mnYk
>
c
y2
>
a ·-
::::}
ank Yk
::::}
2
2
CJ
CJ
n
2
n
2
k
n
2
c an
mn
Hiermit ergibt sich die Abschätzung
(ii)
K(n)
1
2:
a2n
k=l
1
K(n)
a2
k=l
1
K(n)
a2
k=l
1
K(n)
a2
k=l
2:
n
n
1
2
lank Yk 1
dP
1
Y k2 dP
nk {Yf > ftJ
a
l an11
a2
1
{Yf > ftJ
a2
2:
lank Yk
{lank Yk I> c:aJ
2:
n
1
2
l an11
nE lN
a2
1
2
dP
<
<
Y 2 dP
k
<
. sup
1 Y 2 dP
k ElN {Yf > ftJ k
<
.
nk k ElN {Yf > ftJ
n
sup
sup
2
1
2
n
. sup
1 Y 2 dP
k ElN {Yf > ftJ k
Nach (5) ist das erste Suprememum endlich und es gilt a n ---+ oo. Da (Yn2 ) nEm
-r-.T
gleichgradig integrierbar ist, konvergiert das zweite Supremum gegen 0 und die
Lindeberg-Bedingung (LB) folgt.
D
Beweis von
Zusatz 1: Die gleichgradige Integrierbarkeit der Folge (Y 2 ) impliziert die Beschräntktheit
der Folge (T
2
).
Wenn zusätzlich (T
n
ist1 so ist die Bedingung
(6)
Max
a~k
l~k~K(n)
llanll 2
2
n
von Null wegbeschränkt ist1 d.h. (T - 2) beschränkt
n
n
)
n---+ oo
0,
äquivalent zu (5) und somit hinreichend für die Verteilungskonvergenz (ANL).
Beweise zu: Der Zentrale Grenzwertsatz
3.3.11
B ZGS- 4
Wenn (Y 2 ) gleichgradig integrierbar ist, so ist T 2 =E{Y 2 } beschränkt, vgl. z.B.
n
n
n
Nach Billingsley (1968), p.32 (5.1). Nach Voraussetzung gibt es Schranken u, v mit
(i)
Ü
<
U
<
2
Tk
<
V
<
für alle k.
00
und somit ist die zweite Bedingung von (5) erfüllt (das Supremum ist
< 1/u). Die
Äquivalenz der ersten Bedingung in (5) zu (6) ergibt sich aus den Abschätzungen
<
<
D
Beweis von
Zusatz 2: Ist die Folge (Y) identisch verteilt (und somit gleichgradig integrierbar) ist
n
so ist die Bedingung (6) hinreichend für die Verteilungskonvergenz (ANL).
1
Wenn alle Y identisch verteilt sind, dann ist die Folge (Y 2 ) trivialerweise
n
n
gleichgradig integrierbar und die Folge (T~) ist konstant. Damit sind die Voraussetzungen von Zusatz 1 erfüllt und somit folgt (ANL) aus (6).
D
Beweis von (mit Lemma 1)
Satz 2: Sei an k = ak unabhängig von n und K(n) = n für alle n. Ist (Yn2 ) nEm
-r-.T gleichgra2
dig integrierbar und (T ) von Null wegbeschränkt1 dann folgt aus
n
n
(7)
.lila
1 2 =1.n k2:=
n n
=1
ak2
cE
n---+ oo
(O,oo),
die Bedingung (6) und somit die Verteilungskonvergenz
Folgerung:
Sei ank = ak unabhängig von n und K(n) = n für alle n. Ist die Folge
(Yn2) nEm-r-.T identisch verteilt wie Y mit
Verteilungskonvergenz
(8)
(ANL).
T
2
= Var(Y) 1 so folgt aus der Bedingung
(ANL) bzw. die äquivalente Aussage
(7) die
Beweise zu: Der Zentrale Grenzwertsatz
B ZGS- 5
3.3.11
ad "Satz 2": Es ist nur (6) zu zeigen, und mit Satz 1, Zusatz 1 folgt dann (ANL). Aus
(7) folgt
llan112 n----+oo
(i)
oo
und somit ist c == lla 11-2 eine nicht-wachsende Nullfolge. Nach Lemma 1 (angen
n
2
wandt auf y : = a ist (6) in diesem Fall äquivalent zu
n
n
a2n
(ii)
2 - - - - + 0'
II anll
Aus
(iii)
n----+oo
n n
1 2
-a
n n
n-1
n
2:: a~ n k= z
1.. a 2 = 1..
1..
1
-----+
2:: a~
folgt mit (7)
n k= 1 z
c-c = 0,
und Division von (iii) durch (7) liefert (ii).
2 II anll 2· T 2und nach (7)
ad "Folgerung": In diesem Fall ist a n =
2
la
n n
(iv)
n----+oo
cT
gilt
2
.
Die Äquivalenz von (ANL) zu (8) ergibt sich durch Multipliaktion bzw. Division
durch die "Wurzel aus (iv)".
D
Beweis von Lemma 1 (mit Lemma 2)
Lemma 1: Seien cn' yn
> 0,
n E W reelle Folgen, und cn
---+
0 sei nicht-wachsend. Dann
gilt
lim
n----+oo
ad
,;~":
c y = 0
n n
lim
n----+oo
c · Max { y , ... ,y } = 0.
n
1
n
Folgt aus dem Beispiel zu Lemma 2.
D
Beweise zu: Der Zentrale Grenzwertsatz
3.3.11
B ZGS- 6
Beweis von
Lemma 2: Seien cn' yn
> 0,
nE W reelle Folgen1 und cn---+ 0 sei nicht-wachsend. Ferner
sei m: W ---+ W eine Abbildung mit m ( n)
< n für
alle n E W, d.h. m( n) repräsentiert eine
11
11
Auswahl aus der Menge { l, ... ,n }. Dann gilt:
lim
n---+oo
c y = 0
lim
n n
n---+oo
cn ym (n ) = 0.
Beispiel: m(n)< n sei ein Index1 bei dem {y1' ... ,yn} sein Maximum annimmt1 d.h.
ym(n) = Max{yl' ... ,yn}. Der kleinste Index dieser Art läßt sich definieren durch:
m(n) == Min{ m<n I ym=Max{yl' ... ,yn}}.
Fall1:
Die Folge (m(n))nElN besitzt eine obere Schranke MEW.
Dann ist cn y mn
() <
- cn Max {y 1,... ,yM}
Fall 2:
-----+
0
da c ---+ 0.
n
Die Folge (m(n))nElN ist unbeschränkt.
Da c nicht-wachsend ist, gilt c < c ( )' und statt c y ( ) ---+ 0 genügt es zu zeigen
n
n- mn
n mn
(i)
cm(n) . ym(n)-----+ 0.
Angenommen, (i) gilt nicht, d.h. es gibt ein c: > 0 sodaß cmn
( ) · ymn( ) > c: für unendlich
viele nE W gilt. Da m( n) unbeschränkt ist, folgt cky k > c: für unendlich viele k E W im
Widerspruch zu c y ---+ 0 .
n n
D
Beweise zu: Der Zentrale Grenzwertsatz
3.3.11
B ZGS -7
Beweise zu:
4.
Die Ungleichung von Berry-Esseen
Beweis von
Zusatz 1: Die entsprechende Abschätzung gilt auch für die ;pbere 11 Verteilungsfunktion
d.h.
(5)
Anwendung des Satzes auf Yk =- Xk für k = 1, ... , K liefert für die Verteilungsfunktion G der Standardisierung V=- U
(i)
Wegen
G(-x) = P{V<-x} = P{ U>x}
und
<I>(-x) = P{N(O,l) >x}
folgt
sup IP{U>x}-P{N(O,l)>x}l
XE 1R
sup I G(- x)- <!>(- x) I
XE 1R
II G- <I> II
und mit (i) folgt die Behauptung.
D
BV Bedingte Verteilungen
Gerhard Osius
1.
Definition
1.1
1.2
2.
Methode zur Bestimmung bedingter Verteilungen
2.1
2.2
2.3
2.4
3.
Diskreter Fall
Allgemeiner Fall
Stochastische Unabhängigkeit
Bildmaße bedingter Verteilungen
Unabhängigkeits-Transformationen
Bedingte Dichten
Erwartungswerte bedingter Verteilungen
3.1
3.2
Nicht-negative meßbare Abbildunden
Beliebige meßbare Abbildunden
Literatur
Billingsley, P., (1986): Probability and Measure) (2 nd Edition). New York: Wiley
Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.
G. Osius: Bedingte Verteilungen
1.
BV-2
24.9.08
Definition
Für Zufallsvektoren X: (fl, d,P)
-----t
(IRm,IBm) und Y: (fl,d,P)
-----t
(IR n, IBn) soll
eine bedingte Verteilung von X bedingt auf Y definiert werden. Zur Motivation betrachten wir zunächst den Fall, daß Y diskret ist.
1.1
Diskreter Fall
Y sei eine diskrete Zufallsvariable mit dem (höchstens) abzählbaren Träger
Für jedes yE T y ist durch die bedingte Wahrscheinlichkeit
(2)
P{XEA I Y=y}
ein Wahrscheinlichkeitsmaß auf IBm definiert, die sogenannte bedingte Verteilung
cL'( X IY = y) von X unter der Bedingung Y = y. Erweitert man die Definition der
bedingten Wahrscheinlichkeit wie folgt
(3)
P(A IB) =
P(A nB)
P(B)
{
P(A)
falls
P(B) > 0
falls
P(B) = 0
so gilt stets
(4)
p(AnB) = P(AIB) . P(B).
Mit dieser Erweiterung läßt sich die bedingte Verteilung cL'(X IY = y) gemäß (2)
für beliebige y E IRn definieren, wobei gilt
(5)
cL'(XIY=y) = cL'(X).
Die gemeinsame Verteilung von X und Y ist durch die Verteilung P y von Y und
die Familie cL'(X IY) = (cL'(X IY = y))y E lRn aller bedingten Verteilungen von X
auf Y eindeutig bestimmt:
G. Osius: Bedingte Verteilungen
(6)
P{XEA, YEB}
24.9.08
2:=
BV-3
P{XEAIX=y}·P{Y=y}
yEBnS
J
P{XEA I X=y}· Py(dy)
B
1.2
Allgemeiner Fall
Für beliebiges (also nicht notwendig diskretes) Y hat die bedingte Wahrscheinlichkeit 1.1 (2) nicht mehr die gewünschte Eigenschaft 1.1 (6). Im allgemeinen Fall geben wir daher keine konstruktive, sondern eine charakterisierende Definition der
bedingten Verteilung von X auf Y (nach Gänsler-Stute 1997, 5.3), die sich aus der
fundamentalen Beziehung 1.1 (6) ergibt. Eine Funktion p,: IBmxIRn ---+ [0,1] mit
(1)
(A,y)
1----+
fL(A,y) =: P{XEAIY=y}
heißt eine reguläre bedingte Verteilung von X auf Y falls sie die folgenden drei Bedingungen erfüllt:
(BVO)
Für jedes AE IBm ist fL(A,y) = P {XEA I Y = y} eine meßbare Funktion in
yE IR n.
(BV1)
Für jedes AEIB m und jedes BE IBn gilt:
P{XEA, YEB} =
J P{XEA I Y=y}· Py(dy).
B
(BV2)
Für jedes yE IR n ist fL(A,y) = P {XEA IY = y} als Funktion in AE IBn
ein Wahrscheinlichkeitsmaß.
Die Bedingung (BVO ) ist technischer Natur, aber notwendig, damit das Integral in
(BV1) definiert ist. Nach (BV2) ist fL(- ,y) ein Wahrscheinlichkeitsmaß, das wir als
bedingte Verteilung von X unter der Bedingung Y = y interpretieren und wie folgt
bezeichnen
(2)
cL'(XIY=y) := fL(-,Y) = P{XE(-) I Y=y}.
Die entscheidende Bedingung (BV1 ) besagt dann, daß die gemeinsame Verteilung
von (X, Y) eindeutig bestimmt ist durch die Verteilung Py = cL'( Y) von Y und die
Familie cL'( X I Y) = (cL'(X I Y = y)) yE lRn aller bedingter Verteilungen.
G. Osius: Bedingte Verteilungen
24.9.08
BV-4
Betrachtet man für ein festes A E IBm das Maß v A auf IBn mit
(3)
so ist v A offenbar von P y dominiert. Die Bedingungen (BVO) und (BV1) besagen
gerade, daß ,u(A, - ) eine Dichte von vA bezüglich P y ist. Nach dem Satz von Radon-Nikodym ist damit die Existenz von ,u mit (BVO) und (BV1) gesichert. Man
kann zeigen, daß es stets eine reguläre bedingte Verteilung von X auf Y gibt, d.h.
die Dichten ,u(A, -) von vA bezüglich P y lassen sich derart wählen, daß auch (BV2)
gilt. Darüberhinaus ist die reguläre bedingte Verteilung im folgenden Sinn eindeutig:
Zu je zwei Versionen ,ul und ,u2 einer regulären bedingten Verteilung von
(4)
X auf Y gibt es eine Menge BQ E IBn mit:
(a)
P{Y EBQ} = 1
(b)
,ul (y, -) = ,u2(y, -)
für alle YEB o·
Einen Beweis für Existenz und Eindeutigkeit der regulären bedingten Verteilung
findet in Gänssler-Stute (1997), Abschnitt 5.3.
Für diskretes Y ist durch 1.1 (2) eine reguläre bedingte Verteilung von X auf Y definiert und für zwei Versionen ,u2' ,u2 gilt nach (4) ,ul (y, -) = ,u2 (y, - ) zumindest für
alle yETy ' d.h. für YET y ist cL'(XIY=y) eindeutig durch 1.1 (2) gegeben.
Beispiel: Y = X
Als triviales (aber wichtiges) Beispiel zeigen wir, daß die Verteilung von X unter
der Bedingung X = x die Einpunktverteilung (Dirac-Verteilung) im Punkt x ist
cL'(X IX=x) = Dirac(x) ,
d.h. die zugehörige reguläre bedingte Verteilung von X auf X ist definiert durch
,u(A,x) = P{XEA I X=x} :=IA(x),
mit I
A
als Indikatorfunktion von A. Die Bedingungen (BVO), (BV2) sind evident
und (BV1) ergibt sich aus
P{XEA, XEB}
J
AnB
dP X
D
G. Osius: Bedingte Verteilungen
2.
24.9.08
BV-5
Methoden zur Bestimmung bedingter Verteilungen
Wir betrachten jetzt einige spezielle Situationen, bei denen sich eine reguläre bedingte Verteilung von X auf Y explizit angeben läßt (wie es z.B. für diskretes Y
der Fall ist).
2.1
Stochastische Unabhängigkeit
Sind X und Y stochastisch unabhängig, so ist die bedingte Verteilung von X auf Y
gleich der Verteilung von X:
cL'(X IY) = cL'(X)
(1)
d.h. durch
(2)
P{XEA I X=y}:= P{XEA}
ist eine reguläre bedingte Verteilung von X auf Y definiert.
2.2
Bildmaße bedingter Verteilungen
Das Bildmaß einer regulären bedingten Verteilung cL'(XIY) von X auf Y unter einer meßbaren Transformation H: IRm
-----+
IR n ist eine reguläre bedingte Verteilung
von H(X) auf Y, also
(1)
cL'(H(X) I Y) = H- 1 cL'(X IY).
Gemeint ist damit, daß durch
(2)
P{H(X)ECI Y=y}:= P{XEH-1[C] I Y=y}
eine reguläre bedingte Wahrscheinlichkeit von H(X) bedingt auf Y definiert ist,
sofern P{XEA I X=y} eine reguläre bedingte Verteilung von X auf Y ist.
G. Osius: Bedingte Verteilungen
2.3
BV-6
24.9.08
U nabhängigkeits-Transformationen
Wir geben jetzt die bedingte Verteilung von X auf Y für den Fall an, daß es eine
geeignete Transformation U = G(X, Y) gibt, die von Y stochastisch unabhängig
ist. Hierzu betrachten wir meßbare Transformationen
die sich bei festgehaltenem zweiten Argument gegenseitig umkehren:
(1)
H(G(x,y),y) = x,
Die meßbare Abbildung
(2)
G(H(u,y),y) =
für alle x, y, u.
u
G: IRmxIRn -----+ IRkxIRn definiert durch
G(x,y) = (G(x,y),y)
ist daher bijektiv mit der meßbaren Umkehrabbildung
(3)
H(u,y) = (H(u,y),y).
Damit läßt sich das Paar (X,Y) umkehrbar-eindeutig zu G(X,Y) =(U,Y) mit
U = G(X,Y) transformieren. Wir setzen jetzt voraus
(4)
U und Y sind stochastisch unabhängig.
Dann ist die bedingte Verteilung von X auf Y = y durch die Verteilung von
H(U,y) gegeben, d.h.
(5)
cL'(XIY=y)
cL'(H(U,y))
für alle y.
Genauer ist durch
(6)
P{XEAIY=y}
P{H(U,y) EA}
P{U,y) EH-1 [A]}
eine reguläre bedingte Verteilung von X auf Y definiert.
für alle y, A
G. Osius: Bedingte Verteilungen
2.4
BV-7
24.9.08
Bedingte Dichte
Die Konstruktion der bedingten Verteilung von X auf Y unter Verwendung einer
bedingten Dichte ist dann möglich, wenn es Maße
V
x : IBm -----+ IR und v y :IBn -----+ IR
gibt, deren Produktmaß v = vXx v y die (gemeinsame) Verteilung des Paares
(X, Y) : (.f2, d) -----+ (IR m, IBm) X (IR n, IBm) dominiert. Dann besitzt cL'(X, Y) eme
v- Dichte p : IR m x IR m -----+ IR, deren Werte wir auch suggestiv schreiben als
(1)
p(X=x, Y=y):= p(x,y).
Damit definiert
(2)
p(Y =y) : = Py(y) : =
Jp(X=x, Y =y) vX(dx)
eine vy-Dichte von cL'(Y), und
{ Y E IR n I p(Y =
(3)
y) > 0 }
ist ein Träger von Y:
Wir definieren nun - analog zur bedingten Wahrscheinlichkeit 1.1 (3) - die bedingte
Dichte von X unter der Bedingung Y = y durch
(5)
p(X=x, Y =y)
p(X = x I Y =y) := PXly(x) : =
p(Y =y)
{
p(X=x)
falls p(Y =y) > 0,
falls p(Y =y) = 0 .
Für jedes y E IR n gilt dann
(6)
p(X=x, Y=y) = p(X=x I Y=y) ·p(Y=y)
vX-fast überall.
Wegen
(7)
JPXly(x) vX(dx) = 1
ist PXly: IR
m-----+ IR die vX-Dichte eines Wahrscheinlichkeitsmaßes p,(-, y) auf IBm.
Man überzeugt sich leicht davon, daß die Funktion p, die Bedingungen (BVO-2) aus
1.2 erfüllt, und somit eine reguläre bedingte Verteilung von X auf Y darstellt.
Insbesondere ist die bedingte Dichte PXly also eine vX-Dichte der bedingten VerteilungcL'(XIY=y) =p,(-,y).
G. Osius: Bedingte Verteilungen
3.
BV-8
24.9.08
Erwartungswerte bedingter Verteilungen
Bezeichne P X
Iy = ci:{X I Y
=
y} die (genauer: eine reguläre) bedingte Verteilung
von X unter Y = y. Für eine meßbare Abbildung H: IR m -----+ IR ist der Erwartungswert von H(X) bzgl. der bedingten Verteilungen P X
(1)
Iy
definiert als
E{H(X) IY=y}:= JH(x)· PX1y(dx)
(sofern das rechte Integral existiert), und wird auch als bedingter Erwartungswert
von H(X) unter der Bedingung Y = y bezeichnet. Wir leiten jetzt eine andere Charakterisierung des bedingten Erwartungswertes (1) her. Zunächst betrachten wir
den Fall, daß die Abbildung H nicht-negativ ist.
3.1
Nicht-negative meßbare Abbildungen
Betrachten wir 3 (1) als eine FunktionJ: IR n
(1)
---+
IR in y, d.h.
J(y):= JH(x) PX1y(dx),
so gilt
(2)
J ist meßbar.
Und für beliebiges BE IBn ist
(3)
JJ(y) . Py(dy)
B
J
H(X) dP
d.h.
{YEB}
wobei I C die Indikatorfunktion der Menge C bezeichnet. Speziell mit B = IR n läßt
sich der Erwartungswert von H(X) wie folgt darstellen:
(5)
E{H(X)} = E { E{H(X) I Y = (-)}} = E{J}.
Wegen H > 0 folgt hieraus
(6)
E{H(X)} < 00
J < 00
P y - fast-sicher.
G. Osius: Bedingte Verteilungen
3.2
24.9.08
BV-9
Beliebige meßbare Abbildungen
Wir setzen voraus, daß H(X) integrierbar bzgl. H ist, d.h.
(1)
E{IH(X)I}<oo.
Nach 3.1 (6) - angewandt auf
IHI - ist jetzt die
durch 3.1 (1) definierte Funktion f
nur Py-fast-sicher definiert, d.h. f ist definiert auf einer Menge TE IBn mit
(2)
P{YET}=1.
Setzt man f auf IR n fort durch
(3)
f(y) = 0
für y
\t T,
so ist f auf ganz IR n definiert und dort endlich. Die Beziehungen 3.1 (3 - 5) gelten
dann auch für beliebiges H, sofern die Bedingung (1) gilt.
Beweise: Bedingte Verteilungen
BBV -1
24.9.08
Beweise zu:
Bedingte Verteilungen
Beweise zu 2.1 - 2.3
Der Nachweis der Bedingungen (BVO) - (BV2) für die jeweils angegeben bedingten
Verteilungen ist "streight forward".
Beweise zu
2.4
Bedingte Dichten
Beweis von
(6)
p(X=x, Y=y) = p(X=x I Y=y) ·p(Y=y)
vX-fast überall.
Für p(Y = y) = 0 folgt aus (2)
p(X=x, Y =y) = 0
und somit gilt dann (6). Und für p(Y =y)
> 0 gilt (6)
sogar für alle xE IR m .
D
>0
folgt sie
Beweis von
(7)
JPXly(x) vX(dx) =
1
Für p(Y = y) = 0 gilt die Behauptung trivialerweise, und für p(Y = y)
aus den Definitionen (2) und (5).
D
Beweise: Bedingte Verteilungen
BBV-2
24.9.08
Beweis von (BVO-2)
(BVO) folgt aus der Meßbarkeit von p, und (BV2) ergibt sich aus (7). Zum Nachweis von (BV1) ist für beliebige A E lB
P{XEA, YEB} =
J fL(A,y)
m
n
und BE lB zu zeigen
. Py(dy)
bzw.
. Py(Y) . vy(dy)
bzw.
B
=
J fL(A,y)
B
=
=
1(j p(X I Y
1(1 p(X=x, Y
=x
Die letzte Formulierung gilt, da p eine
=y) . vx(dx) ) Py(Y) . Vy(dy)
=y) . vx(dx) ) . Vy(dy)
V
x xVy-Dichte von (X, Y)
bzw
wegen
ist..
(6).
D
G. Osius: Bedingte Erwartung und Covarianz-Matrix
BEC-1
4.2.14
BEC Bedingte Erwartung und
Covarianz-Matrix zufälliger Vektoren
Gerhard Osius
1.
Grundlagen
Für Zufallsvektoren X:(.f2,d,P)
-----t
(IRm,IBm) und Y:(.f2,d,P)
-----t
(IRn,IBn) wol-
len wir den Erwartungswert E(Y) und die Covarianz-Matrix Cov(Y) aus dem bedingten Erwartungswerten E(Y I X = x) und der bedingten Covarianz.Matrix
2
2
Cov(Y I X= x) bestimmen. Hierfür setzen wir voraus, daß E(ll Xll ) und E(ll Yll )
endlich sind, d.h. die folgenden Erwartungswerte und Covarianz-Matrizen existie-
ren:
(1)
1-Lx == E(X)
E
IRm,
EX:= Cov(X)
E
IRmxm,
1-Ly == E(Y)
E
IRn,
Ey: = Cov(Y)
E
IRnxn.
Dann existieren auch für jedes x E X[n] die bedingten Erwartungswerte und bedingten Covarianz-Matrizen
(2)
1-Lylx(x) : = E(Y I X= x) ,
(3)
EYIX(x): = Cov(Y I X= x)
= E(YYT I X= x) -p,YIX(x) 1-Lyljx)T
Aus den Eigenschaften bedingter Erwartungen ergibt sich sofort
(4)
(5)
1-Ly = 1E(Y I X= x) dP\x) = E(p,yljX)).
E(YYI) = 1E(YYT IX= x) dV(x)
= E( EYIX(X))
+ E(p,YIX(X) I-Lylx(X)1),
vgl. (3).
und somit
(6)
L'y = E(YYI)- 1-Lyi-LyT
= E( EYIX(X))
+ E(p,YIX(X) 1-Lylx(X) 1) -
= E( EYIX(X))
+ Cov(p,yljX)) .
E(p,YIX(X)) E(p,yljX)
l
G. Osius: Bedingte Erwartung und Covarianz-Matrix
2.
4.2.14
BEC-2
Lineares Modell mit homogenen bedingten Covarianzen
Für eine feste meßbare Funktion h: IR m-----+ R k betrachten wir jetzt den Zufallsvektor U = h(X) und setzen voraus, daß
(7)
Jlu := E(U) E IR k , Eu : = Cov(U) E IR kxk
existieren. Weiter setzen wir ein lineares Modell
(LM)
Jlylx(x) = a
+ ßTh(x)
mit den Parametern a E IR m und ß E IR mxn voraus. Mit (4) und (6) ergibt sich
T
(7)
Jly = a
(8)
Cov(J.LYIX(X)) = Cov(ßTU) = ßTEuß
(9)
Ey = E(EYIX(X))
+ ß Jlu·
+ ßTEuß.
Fordern wir noch die Homogenität der bedingten Covarianzen
für alle x
(HC)
so ergibt sich schließlich
(10)
Triviales Beispiel: Y =X
Dann ist L(Y I X= x) die Einpunkt-verteilung Dirac(x) und somit gilt
x,
Folglich liegt für h als Identität bzw. U = X das lineare Modell (LM) vor mit a
und ß als Einheitsmatrix. Da auch (HC) gilt, reduziert sich (10) zu Ey =EX
=0
G. Osius: Bedingte Erwartung und Covarianz-Matrix
Beweise zu:
4.2.14
BEC-3
1. Grundlagen
Zu zeigen ist nur die Existenz der bedingten Erwartunswerte in (2) und (3) sowie
die (jeweils erste) Darstellung in (4) und (5). Wir betrachten allgemeiner eine meßbare Funktion g :IR n-----+ R k für die der Erwartungswert von V = g(Y) existiert.
Nach Gänssler-Stute (Wahrscheinlichkeitstheorie) Springer Verlag 1970 S. 191) existiert
dann die bedingte Erwartung E(V I X= x) für x E X[D] und aus 5.2.20 Satz (i) folgt
(i)
E(V) = J E(V I X= x) dV(x)
Für V= Y bzw. V= yyT ergeben sich dann die Behauptungen. Es gibt noch einen
elementaren Beweis von (i), wenn wir voraussetzen, daß (X, Y) einen Träger der
Form .f2 = .f2xx.f2 y und eine positive Dichte f: .f2-----+ (0, oo) bzgl. eines Produktmaßes
v = vXX vY besitzt, wobei vX bzw. vY a-endliche Maße auf IR m bzw. IR n sind. Dann
sind auch die Randdichten
fy(y) = Jf(x,y) dv (x)
(ii)
X
positiv und fast-überall endlich, weshalb wir endliche Versionen wählen können und damit gilt (ii) nur fast-überall. Weiter ist
eine Dichte der bedingten Verteilung L(Y I X= x). Dann ist
(iii)
E(lg(Y)I) =
f lg(y)lfy(y) dvy(y)
= J lg(y)l UJ(x,y) dv)x)] dvy(Y)
= J lg(y)l UJ'X(y Ix)fx(x) dv)x)] dvy(y)
= J [Jig(y)IJ'X(y I x) dvy(y)] fx(x) dv x(x).
= J E(lg(Y)II X= x) fx(x) dv x(x)
= J E(lg(Y)II X= x) dV(x).
Da der Integrand nicht-negativ und das Integral nach Voraussetzung endlich ist, ist
auch der bedingte Erwartungswert E(lg(Y)II X= x) fast-überall endlich und somit
existiert der bedingte Erwartungswert E(g(Y) I X= x) fast-überall. Jetzt ergibt sich
(i) aus (iii) mit V statt lg(Y)I.
G. Osius: Covarianz-Matrizen von Zufallsvektoren
cav
20.3.02
COV-1
Covarianz-Matrizen zufälliger Vektoren
Gerhard Osius
Allgemein ist für einen I-dimensionalen Zufallsvektor U und einen i-dimensionalen
Zufallsvektor V die (Ixi)-Covarianzmatrix von U und V definiert als die Matrix
der Covarianzen aller Komponenten von U mit allen von V, d.h.
(1)
Cov(U, V) = (Cov(U., V.)) . ..
z ]
Z,]
Definiert man für eine (Ixi) Zufalls-Matrix Z den Erwartungswert komponentenwelse
(2)
E(Z) = (E(Z ..)) .. ,
ZJ
ZJ
so läßt sich die obige Covarianz-Matrix auch schreiben als
(3)
Cov(U,V)
E{(U-E(U)). (V-E(V ))T}
E{UVT} - E(U) E(V)T.
Für lineare Transformationen AU und BV von U und Vergibt sich die Covarianz
(4)
T
Cov(AU,BV) = A·Cov(U,V)·B ,
wobei A und B feste Matrizen geeigneten Formats sind.
Die Covarianz ist translationsinvariant, d.h. für beliebige aE IRI und bE IR] gilt
(5)
Cov(U +a, V + b) = Cov(U, V).
Speziell für U = Vergibt sich in (1) die Covarianz-Matrix von U
(6)
Cov(U) = Cov(U,U) = E{(U-E(U)).(U-E(U))T}.,
und die (4) und (5) entsprechenden Rechenregeln lauten
(7)
Cov(A U)
A· Cov(U)· AT,
(8)
Cov(U +a)
Cov(U).
Ferner gilt für den Erwartungswert
(9)
E(AZB
+ C)
= A·E(Z)·B
+ C,
G. Osius: Covarianz-Matrizen von Zufallsvektoren
20.3.02
COV-2
wobei A, Bund C beliebige feste Matrizen (vom richtigen Format) sind.
Für eine feste lxl-Matrix A läßt sich der Erwartungswert der Bilinearform
U TA V = V TATU unter Verwendung der Covarianzmatrix darstellen
(10)
E(U TA V)
Spur(A Cov(U,V)T)+ E(U)TA E(V)
Spur(Cov(U,V) A T) + E(V) TA T E(U).
Hieraus ergibt sich der Erwartungswert einer quadratischen Form U T Q U für eine
feste symmetrische lxI-Matrix Q zu
(11)
E(UTQU) = Spur(QCov(U)) + E(U)TQE(U).
Beweise: Covarianz-Matrizen von Zufallsvektoren
9.7.10
COVB 1
Beweise
Die Beweise von (3)-(5) und (9) ergeben sich direkt aus den Definitionen
und den Eigenschaften des Erwartungswertes.
Beweis von
(10)
Für
E(U TA V)
Spur(ACov(U,V)T)
+ E(U)TAE(V)
Spur(Cov(U,V) AT)
+ E(V) TAT E(U) .
JlU = E(U),
X = U - JlU
Jly = E(V),
Y = A(V - Jl y )
ist
E(X) = 0,
E(Y) = 0
und
E(XTy) = E(2: XY.) = 2: E(X.Y.)
.
Z
z z
.
z z
Z
= 2: Cov(X., Y.)
.
z z
z
Spur(Cov(X, Y))
Spur(Cov([U - Jlu]' A[V - Jl y ]))
Spur(Cov(U, V)A T)
Spur(A Cov(U, V) T).
Mit
E(XTy) = E([U - Jlu]TA[V - Jl y ])
T
E(U A V) - E(U)TAJly - JlJ AE(V)
+ JlJAJly
T
E(U A V) - JlJAJly
folgt die Behauptung.
D
G. Osius: Wurzeln positiv-semidefiniter Matrizen
4.6.10
WM-1
WM Wurzeln positiv-semidefiniter Matrizen
Gerhard Osius
1.
Definition einer Wurzel
Es seI A eine reelle symmetrische positiv-semi-definite I xl-Matrix. Eine I xIMatrix B heißt eine Wurzel von A, falls gilt
Eine Wurzel von A existiert stets, und kann durch Zusatzbedingungen sogar eindeutig bestimmt werden. So gibt es z.B. genau eine symmetrische positiv-semi-definite
Wurzel von A, die wir suggestiv mit ~ bezeichnen, vgl. z.B. Debnath & Mikusiriski
Introduetion to Hilbert Spaces with Applications (Academic Press, Boston 1990), The-
orem 4.6.5. Jede mit A kommutierende lxI-Matrix C kommutiert auch mit~, d.h.
(2)
~C=C~.
AC=CA
Falls C auch symmetrisch und positiv-semidefinit ist, so ist auch das Produkt AC
symmetrisch und positiv-semidefinit - vgl. z.B. Debnath & Mikusiriski (1990), Theorem 4.6.3 - und die Wurzel des Produkts ist das Produkt der Wurzeln
(3)
AC=CA
Eine beliebige Wurzel von A bezeichen wir suggestiv mit A 1/2 d.h. es gilt stets
(1) I
A = A 1/ 2 . A T/ 2
mit
Hieraus ergibt sich speziell
(4)
RangA
< Rang A 1/2 .
Weiter gilt für cE IR mit c > 0
(5)
~ A 1/2 ist eine Wurzel von cA,
und für die symmetrische Wurzel folgt
(6)
~ = ~JA.
Die Elemente einer Wurzel A 1/2 lassen sich durch die Diagonalelemente von A abschätzen:
G. Osius: Wurzeln positiv-semidefiniter Matrizen
(7)
IA~(21
<
~
Z)
zz
4.6.10
WM-2
i,j = 1, ... ,1.
für
Für eine Folge A mit einer zugehörigen Folge A 1/ 2 von Wurzeln gilt daher
n
n
(8)
(An1/1"T'>T
ist beschränkt.
nEll'I
=*
(A)"T'>T
ist beschränkt
n nEll'I
Hieraus ergibt sich die Stetigkeit der symmetrischen Wurzel:
(9)
2.
lim~=VA.
lim A = A
n
n
n
n
Wurzeln positiv-definiter Matrizen
Wenn A symmetrisch und positiv-definit - und somit invertierbar - ist, so folgt aus
1 (4), daß auch jede Wurzel A 1/2 invertierbar ist, und Inversion von 1 (1) I liefert
A-1 = A-T/2. A-1/2
(1)
mit
A-1/2 = (A1/ 2 )-1 ,
d.h. A -T/2 ist eine Wurzel der inversen Matrix A -1.
Speziell gilt für die symmetrische Wurzel
(2)
JIT =
(3)
j
3.
11
A-1 =
mit 11 als Einheitsmatrix,
[JA ]-1.
Die Cholesky-Wurzel
Wenn A symmetrisch und positiv-definit ist, so gibt es genau eine Wurzel von A,
die eine untere Dreiecksmatrix ist, die sogenannte Cholesky-Wurzel von A - vgl. z.B.
Stoer (1983), (4.3.3), Satz, S. 155. Für die Cholesky-Wurzel von cA gilt
(1)
(2)
für
A invertierbar
cEIR, c>O,
=*
Die Cholesky-Wurzel ist ein stetiger Operator, d.h. es gilt
(3)
lim A = A
n
n
lim A 1/ 2 = A 1/2 .
n
n
Beweise: Wurzeln positiv-semidefiniter Matrizen
28.7.06
BWM-1
Beweise zu:
1.
Definition einer Wurzel
Beweis von
(5)
~ A 1/2 ist eine Wurzel von cA,
(6)
~ = ~VA.
Wegen
cA = cA 1/2 A T/2 = ~ A 1/ 2 [~ A 1/ 2 JT
gilt (5).
Da mit VA auch ~ VA symmetrisch ist, ergibt sich (6) aus (5).
D
Beweis von
(7)
für
Für jedes i folgt aus (1):
A ..
und somit
~
V.f1
ii
n
i,j = 1, ... ,1.
=~B
j
2
..
zJ
>B 2..
-
zJ
>IB··I
Z)
D
Beweis von
(9)
lim~=VA.
lim A = A
n
n
n
n
Nach dem Teilfolgen-Kriterium ist zu zeigen, daß jede Teilfolge k = k(n)
weitere Teilfolge m = m(k)
---+ 00
enthält mit ~
m
---+
---+ 00
eine
VA . Wegen (8) ist die Folge
~ beschränkt, und somit enthält jede Teilfolge k ---+
n
---+ B.
00
eine konvergente Teilfolge
..r;cm
Aus
A
m
= ~ ~
m
m
-----t
BB
folgt
A = BB.
Nun ist B als Limes symmetrischer Matrizen wieder symmetrisch und somit ist
D
Beweise: Wurzeln positiv-semidefiniter Matrizen
BWM-2
28.7.06
Beweise zu:
3.
Die Cholesky-Wurzel
Beweis von
(1)
für
cEIR,
c>o.
· A 1/ 2 1st
. auc h c
.
1/2· A 1/ 2 eme
. k smatnx.
. W egen
M lt
untere D relec
C 1/ 2
.
A 1/2 . [ c 1/ 2 . A 1/2] T = cA 1/2 A T/2 = cA
ist daher c 1/2 . A 1/2 die (eindeutig bestimmte) Cholesky-Wurzel von cA.
D
Beweis von
(2)
A invertierbar
Nach 1 (4) ist A 1/2 invertierbar. Wegen
A = A 1/ 2 A T/ 2
bleibt nur zu zeigen, daß [A T/ 2 ]-1 eine untere bzw. [A1/ 2 ]-1 eine obere Dreiecksmatrix ist, und dies ergibt sich aus dem folgenden Lemma.
Lemma: Für eine invertierbare untere Dreiecksmatrix B ist die Inverse B-1 eine obere
Dreiecksmatrix.
1
Beweis des Lemmas: Ist B = (b ) eine nxn-Matrix mit C: = B- = (c
ij
kl
) und D =
det(B), so gilt - vgl. z.B. H.-i. Kowalsky (1972)) Lineare Algebra) 15.3 c = D-1 . (_l)k+l. det(BÄ) ,
kl
wobei die (n-l)x(n-l)-Matrix B*.. aus B durch Streichung der k-ten Zeile und l-ten
Z)
Spalte entsteht. Nach Voraussetzung gilt
(i)
i<j
und zu zeigen ist für 1 < l < k
(ii)
b.. = 0,
Z)
<n
bzw.
det(B'k l) =
o.
Beweise: Wurzeln positiv-semidefiniter Matrizen
Für festes l
<k
sei
B\ Z =
BWM-3
28.7.06
(brj ) und unter Verwendung der Indikatorfunktion IA
einer Menge A ergibt sich
(iii)
i*=i+I{i~k}'
mit
Zum Nachweis von (ii) genügt es zu zeigen, daß B*kZ eine untere Dreiecksmatrix ist,
die auf der Hauptdiagonalen eine 0 enthält, also
b~o =
(iv)
i<j
(v)
biz =
ad (iv):
Falls i
Und für k
< i ist l< k< i <j, also i* = i+1 <j+1 =j* und wieder b7j
ad (v):
Wegen l<k ist
Z)
0,
0.
<k
gilt, so ist i* = i
b7z = bZ(Z+1)
<j <
j*
-
und somit b~o = bo*o* = 0 nach (i).
Z)
Z]
= bi*j* =
o.
D
= 0 nach (iii) und (i).
Beweis von
(3)
Ern A 1/ 2 = A 1/2 .
n
n
Ern A = A
n
n
Nach dem Teilfolgen-Kriterium ist zu zeigen, daß jede Teilfolge k = k(n)
weitere Teilfolge m = m(k)
---+ 00
enthält mit A 1/2
m
---+
A 1/ 2 beschränkt, und somit enthält jede Teilfolge k ---+
n
1 2
A / ---+ B.
---+ 00
eine
A 1/2. Nach (3) ist die Folge
00
eine konvergente Teilfolge
m
folgt
A=BB
T
,
d.h. B ist eine Wurzel von A.
Nun ist B als Limes von unteren Dreiecksmatrizen wieder eine solche, und somit
ist B die Cholesky-Wurzel A 1/2 von A.
D
G. Osius: Skalarprodukte und orthogonale Projektionen
SP
SP-1
30.8.11
Skalarprodukte und orthogonale Projektionen
Gerhard Osius
1.
Definitionen
Das Standard-Skalarprodukt (-,-) auf IR] ist definiert durch
(1)
/u,v):= u Tv =
\
~
.
J
u.v ..
JJ
Unter Verwendung einer positiv-definiten symmetrischen ]
x] - Matrix
D läßt sich ein
Skalarprodukt bzgl. D definieren durch
(2)
(u,v)D:= uTDv = (u,Dv) = (Du,v).
Für D = 11J (Einheitsmatrix) ergibt sich wieder das Standard-Skalarprodukt. Für
eine beliebige Wurzel D 1/2 von D erhält man die Darstellung
(3)
T2
T2
(u,v)D = (D / u, D / v) .
Da D T/ 2 : IRJ
J
IR ein Isomorphismus ist, läßt sich das Skalarprodukt bzgl. D als
Modifikation des Standard-Skalarproduktes bzgl. des Isomorphismus D T/ 2 inter-----+
pretieren.
Die zugehörige Norm li-liD bzgl. D ist gegeben durch
(4)
T2 2
Ilullt:= (u,u)D = IID / uI1 .
Mit der Matrixnorm IIAII = sup IIAxl1 ergeben sich die Abschätzungen
Ilxll<1
(5)
Ilu liD
< IID
T2
/ 11·11 ull,
Folglich ist die Norm li-liD äquivalent zur Norm 11-11 und die von den Normen erzeugten Topologien stimmen überein.
Für einen linearen Teilraum vft ist die D-orthogonale Projektion
p! :IR
J
-----+
vft
auf vft definiert als die orthogonale Projektion bzgl. des Skalarproduktes (-, - )D'
d.h. für beliebiges y E IRJ ist
y wie folgt charakterisiert:
p!
(6)
v-pDy
-.At
{}
vEvft und [v - Y]..lD vft
{}
vEvft und (v - y, u)D = 0
für alle u Evft.
G. Osius: Skalarprodukte und orthogonale Projektionen
2.
SP- 2
30.8.11
Eigenschaften der Projektionen
Die D-orthogonale Projektion läßt sich auch durch die übliche orthgonale Projektion P T/2 [
D
T/2
D
] bzgl. des Standard-Skalarproduktes auf das isomorphe Bild
.At
[...4] von ...4 beschreiben:
(1)
Allgemeiner ist für eine beliebige KxJ-Matrix A vom Rang J die symmetrische
Matrix AT DA auch positiv-definit, und für den Bildraum A[...4] von ...4 unter der
Einbettung A: IRJ -----+ IRK gilt
(2)
A·
p~DA
=
p~[.At]. A.
Unter Verwendung einer JxS-Matrix X, deren Spalten den Raum...4 erzeugen, läßt
sich die D-orthogonale Projektion als JxJ-Matrix darstellen
(3)
J
X[XTDX]- XTD,
falls ...4 = X[IR ],
X [XTDXr1XTD ,
falls Rang X = Dim...4.
Hierbei ist [X TDXr eine beliebige verallgemeinerte Inverse von X TDX, die unter
der Bedingung Rang X = Dim...4, d.h. die Spalten von X bilden eine Basis von ...4,
die übliche inverse Matrix [XTDXr1 ist.
Beispiel: Eindimensionaler Raum vi(
Ein eindimensionaler Raum ...4 wird von jedem xE...4 - {O} aufgespannt, und die
JxJ-Projektionsmatrix ergibt sich zu
D
Die D-orthogonale Projektion ist idempotent, stellt aber als Matrix betrachtet im
allgemeinen keine symmetrische Matrix dar:
(4)
pD . pD = pD
.At
.At
.At
(5)
[p!]T =D.P! .D-1
(6)
. [DT/2]-1 _ P T ,/ 2
D T/2 . pD
.At
D / [.At]
(Idempotenz)
bzw.
[p!]T. D = D .
ist symmetrisch .
Für die Norm einer Projektion ergeben sich die Darstellungen
p!
G. Osius: Skalarprodukte und orthogonale Projektionen
(7)
IIP~ull~
(8)
IIP~ull~
30.8.11
SP- 3
UTDP~u
T 2
11
P DT/2[c4l D / u
2
11
·· uE IRJ
f ur
Das D-orthogonale Komplement .At~D von .At ist definiert als orthogonales Komplement bzgl. des Skalarproduktes ( -. - )D' d,h.
(9)
.At~D
{vEIRJI v..lD.At}
{vEIRJI (u,v)D = 0 für alle UE.At}.
Zwischen dem D-orthogonalen Komplement und dem üblichen Komplement .At~
bzgl. des Standard-Skalarproduktes besteht folgender Zusammenhang:
Für die D-orthogonalen Projektionen auf .At und .At~D gelten
für alle u E IRJ .
(11)
(12)
Weiter läßt sich die D-orthgonale Projektion auf .At~D auch durch die
D-1-orthogonale Projektion auf das übliche Komplement .At~beschreiben.
(13)
Für einen weiteren linearen Teilraum J'V C IR] gilt
(14)
Die D-orthogonale Projektion ist invariant gegenüber Multiplikation von D mit einer positiven Konstanten
für jedes cE IR, c> o.
(15)
Die D-orthogonale Projektion ist stetig bzgl. D, d.h. für eine Folge (D)
l\.T posin nEll'I
tiv-definiter symmetrischer 1 xl-Matrizen gilt
(16)
D
D
::::}
(17)
Spur(~)
Dim.At.
(18)
.At ..lD J'V
n
-----+
Weiter gelten:
::::}
G. Osius: Skalarprodukte und orthogonale Projektionen
3.
30.8.11
SP-4
Projektionen und Exponentialfunktion
Für einen linearen Teilraum vft C IRJ ist jedes y E IRI eindeutig bestimmt durch
seine beiden Projektionen Pc4 Y und Pc4...L y, und die resultierende lineare Abbildung (pc4 ,Pc4...L) : IRI -----+ vft x vft~ ist bijektiv. Für die komponentenweise definierte Exponentialfunktion exp : IRI -----+ (0,00 ist auch die Abbildung
l
I
((Pc4oexp),Pc4...L): IR -----+ Pc4 [(O,ooll
(1)
y
1------+
xvft~
(pc4 exp(y) , Pc4...L y)
noch bijektiv (Haberman 1974, Theorem 2.6). Wir wollen jetzt wir eine leichte Verallgemeinerung angeben, die darin besteht, daß wir D-orthogonale Projektionen
für eine Diagonalmatrix D betrachten. Hierzu zeigen wir zuerst das
Theorem: Sei D = Diag{ cl} mit cl E (0,00)1 gegeben und vft C IRI sei ein linearer Teilraum mit
l
JV vft~ D. Dann gibt es zu jedem u E (0,00
und v E JV genau ein
I
y = H(u, v) E IR mit
(i)
(ii)
Damit gibt es eine Funktion H: (0 , (0) Ix JV
-----+
IRI die implizit definiert ist durch
I
Die Funktion H ist surjektiv) weil für jedes y E IR gilt
(a)
H( exp(y), P~y) =
y.
Weiter ist H differenzierbar mit stetigen partiellen Ableitungen und für diese gelten
(c)
(Identität auf JV).
Zusatz: Die Bedingungen
(i) und (ii) zusammen sind äquivalent dazu) daß r, =
Maximalstelle der streng konkaven Funktion
(iii)
e: vft -----+ IR ist mit
e("l) = ~i d·(TJ·u.
- exp(v·+TJ·))
.
Z
Z Z
Z
Z
Als unmittelbare Folgerung ergibt sich dann das
y- v die
G. Osius: Skalarprodukte und orthogonale Projektionen
l
Korollar: Sei D = Diag{ cl} mit cl E (0,00
raum mit JV
30.8.11
gegeben und vft C IR! sei ein linearer Teil-
vft~ D. Dann ist die folgende Abbildung bijektiv
F = ((P~ 0 exp), P~) :IR
-----+
P~[(O,oo/l x.AI
y
r------+
F(y) = (P~ exp(y) , P~y) .
1
SP- 5
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP-l
Beweise zu:
1.
Definitionen
Beweis von
(D Tu, v).
(2)
(3)
(u, Y)D = (D T/ 2u, D T/ 2y) .
Es ist
u T D y = u T D 1/ 2 D T/ 2 y = (D T/ 2u, D T/ 2 y).
Nachzuweisen sind ferner die Eigenschaften eines Skalarproduktes:
(i)
(ii)
(iii)
(- ,- )D
(- ,- )D
(-, - )D
ist bilinear
ist symmetrisch
ist positiv-definit, d.h.
(u, u)D > 0 für u;= o.
(i) und (ii) folgen sofort aus (2), und (iii) ergibt sich mit (3) weil D T/ 2u;=O für
u;=o.
D
Beweis von
(5)
Ilu liD < IID T/ 2 11·11 ull ,
Es ist
Ilu liD = IID T/ 2 ull < IID T/ 2 11·11 ull
und
Ilu I < IID- T/ 2 11·11 ulI D·
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP- 2
Beweise zu:
2.
Eigenschaften der Projektionen
Beweis von
(1)
(2)
Wir beweisen zuerst (2) indem wir für beliebiges yE IR] zeigen
(i)
v:= A·
pi
DA
Y =
P~[c4l . Ay
Nach 1 (6) ist hierfür zu zeigen
(ii)
vE A[ Jt]
(iii)
(v-Ay, AU)D = 0 für alle uEJt.
Für
w:=P
gilt
v=Aw
ATDA
c4
yEJt
,
und (ii) folgt. Weiter ist
(v-Ay, AU}D
(Aw-Ay, AU}D
[Aw-Ay]TDAu
[w-y]TAT DAu
(w-y, U}ATDA
o
nach Definition von w
als Projektion von y
Also gilt auch (iii), und (2) ist gezeigt. Anwendung von (2) auf D = 11 und A = D T/ 2
liefert (1), weil D 1/ 2 . D T/ 2 = D.
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP- 3
1. Beweis von
(3)
J
x [XTDXrXTD,
falls .At = X[IR ],
X[XTDXrlXTD,
falls Rang X = Dim.At.
Das Resultat gilt für das Standard-Skalarprodukt, d.h. D = 11, nach Skript ))Lineare
Modelle" (Abschnitt 2.1), und wir führen den allgemeinen Fall darauf zurück. Für
DT/2[~ = D T/ 2X[IR J ] gilt daher:
[D T/ 2X] . ([D T/ 2X]T [D T/ 2X]t . [D T/ 2X]T
DT/2X(XTD1/2DT/2Xr X T D 1/ 2
DT/2X(XTDXt X T D 1/ 2
DT/2X(XTDXt X T D 1/ 2 D T/ 2 [D T/ 2]-1
DT/2X(XTDXt X T D [D T/ 2]-1
Zusammen mit (1) folgt hieraus (3)
D
2. Beweis von
(3)
J
X [XTDXrXTD,
falls .At = X[IR ],
X[XTDXrlXTD,
falls Rang X = Dim.At.
Für yE IRJ ist die orthogonale Projektion v = ~(y) charakterisiert durch
(i)
v E .At
(ii)
(y - v) ~D .At .
Da .At von den Spalten von X erzeugt wird, sind (i) und (ii) äquivalent zu
(i)'
Es gibt ein OEIRS mit v = XO.
(ii) ,
bzw.
Zum Beweis von (3) genügt es daher zu zeigen, daß
(iii)
w:=
X(XTDXrXTDy
ebenfalls die Bedingungen (i)' und (ii) , erfüllt, d.h. zu zeigen ist:
(iv)
Es gibt ein 0' E IRS mit w = XO'.
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP-4
= XTDw.
(v)
XTDy
ad (iv):
Gilt nach Definition von w für () = (XTDXrXTDy.
ad(v):
Nach (ii) , und (i)' gilt
(vi)
XTDy
= XTDv = XTDX()
und somit
XTDw = XTDX(XTDXrXTDy
= XTDX(XTDX)-XTDX()
nach (iii)
nach (vi)
= XTDX()
nach (vi)
= XTDy,
D
Beweis von
(4)
(Idempotenz)
Dies folgt sofort aus ~u = u für jedes uE.At.
Beweis von
(5)
bzw.
Für ein beliebiges X mit Rang X = Dim.At gilt:
[~lT = DX[XTDXrl X T
nach (3)
DX[XTDXrl XTDD- 1
D. pD. D- 1
":At
nach (3).
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP-5
Beweis von
(6)
. [DT/2j-l _ P T ,/ 2
D T/2 . pD
.At
- D / [.Atl
ist symmetrisch .
Die Gleichung in (6) folgt aus (1). Und P DT/2 [.Atl ist symmetrisch, weil orthogonale
Projektionen Pd (bzgl. des Standard-Skalarproduktes) auf beliebige Unterräume d
stets symmetrisch sind (dies folgt z.B. aus der zweiten Gleichheit in (3) für D = 11).
D
Beweis von
(7)
IIP~ull~
(8)
IIP~ull~
uTDP~u
11
T2
2
P DT/2[.Atl D / u 11
f"ur uE IRJ
(7) ergibt sich aus
IIP~ull~
uT[p~jT.D.P~u
u T D·P D .p D u
.At .At
nach (5)
uTD.P~u
nach (4).
Und (8) erhält man wie folgt:
IIP~ull~
11
11
. D T/ 2 u 11 2
DT/2[.Atl
D
T2
2
P DT/2[.Atl· D / u 11
[D T/ 2j-l P
nach (1)
nach 1 (4)
D
Beweis von
Für beliebiges vE IR] gilt
v E .At~D
{}
(u, v)D = (u,Dv) = 0
{}
Dv E.At~
für alle u E .At
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP- 6
Beweis von
(11)
d.h. y
Zu zeigen ist
d.h. nach 1 (5), angewandt auf.At
~
D,
(i)
bzw.
(ii)
(i) folgt aus 1 (5) angewandt auf.At, und (ii) ergibt sich aus ~ y E.At
D
Beweis von
(12)
Multiplikation von (11) mit ~ liefert
pD. pD
.At.At
pD
.At
+
+
pD. pD
.At.At ~ D
pD.pD
.At.At ~ D
nach (4)
und hieraus folgt (12).
D
Beweis von
(13)
Es ist
nach (10)
nach (2)
nach (5).
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP-7
Beweis von
(14)
pD. pD =
JtC JV
":At
JV
D
D
~.~.
~YEJtCJV
Für beliebiges y E IRJ gilt
D
~y.
und somit
Also folgt:
(i)
Einsetzen von
pJ
D-1 [ ~lTD,
nach (5)
in (i) liefert
D-1 [pJlT[~lTD = D-l[~lTD
und somit
[pJlT[~lT
=
[~lT
Transponieren hiervon liefert
(ii)
und zusammen mit (i) ist alles gezeigt.
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP- 8
Beweise von
(15)
für jedes cE IR, c> O.
~n ----t ~
(16)
Für eine Matrix X, deren Spalten eine Basis von .At bilden, gilt nach (3)
~D = X[X T cDXr 1 X T cD = X[XTDXr1XTD = ~
~n = X[XTDnXr1XTDn ----tX[X T DXr1 X T D = ~.
D
Beweise von
(17)
Spur(~)
(18)
.At..l D JV
ad (17):
Betrachte eine Jx5-Matrix B
Dim.At.
D
D
D
~+JV= ~ +~
= (bl' ... ,b5 ), deren Spalten b1, ... , b5 EIRJ
eine D-Orthonormal-Basis von .At bilden, wobei 5 = Dirn .At ist. Dann gilt
(i)
B T DB = 115,
und
pD_ BBTD
.At-
Also
D
Spur(~ ) =
vgl. (3).
J
2:= (BB
. 1
J=
J
=
5
T
D) ..
JJ
J
2:= 2:= 2:=
5
b. b. d .. =
j =1 s=1 i =1 JS zs zJ
J
J
2:= 2:= 2:=
b. b. d ..
s=1 j =1 i =1 JS zs ZJ
5
= 2:= Ilbsll~.
s=1
Wegen
IlbS II~= 1 für alle s= 1, ... ,5 folgt also Spur(P.At) = S.
ad (18):
Für y E IR! gibt es u E .At und v E JV; sodaß
D
~+JVy = u+v.
E fIt
pD
":At y
Analog ist
~ Y = v und somit
sog
-
(14)
pD (pD
)
":At ":At + JVY
u,
für alle y,
d.h. (18) gilt.
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP- 9
Beweise zu:
Projektionen und Exponentialfunktion
3.
Beweise von
Theorem: Sei D = Diag{ cl} mit cl E (0,00)1 gegeben und vft C IRI sei ein linearer Teilraum mit JV
vft~ D.
l
Dann gibt es zu jedem u E (0,00
und v E JV genau ein
I
y = H(u, v) E IR mit
(i)
(ii)
Damit gibt es eine Funktion H: (0 , (0) Ix JV
-----+
IRI die implizit definiert ist durch
I
Die Funktion H ist surjektiv) weil für jedes y E IR gilt
(a)
H( exp(y), P~y) = y.
Weiter ist H differenzierbar mit stetigen partiellen Ableitungen und für diese gelten
(c)
(Identität auf JV).
Zusatz: Die Bedingungen (i) und (ii) zusammen sind äquivalent dazu) daß
Maximalstelle der streng konkaven Funktion
(iii)
r, = y- v
die
e: vft -----+ IR ist mit
e("l) = ~i d·(TJ·u.
- exp(v·+TJ·))
.
Z
Z Z
Z
Z
Wir führen das Problem auf die Existenz und Eindeutigkeit der Maximum-Likelihood-Schätzung für log-lineare Poisson-Modelle (mit Gewichten) zurück und verwenden dabei Resultate aus dem Skript G. Osius 1998, Lineare Modelle in der Statistik, Teil II (Generalisierte Lineare Modelle), Teil III (Modelle für diskrete Daten) das
wir hier mit LM-Skript 11 bzw. III abkürzen.
Die Bedingungen (i) und (ii) lassen sich äquivalent formulieren als
(i) I
P~(exp(y) - u) = 0
bzw.
D( exp(y) - u) ~ vft
(ii)
y-vEvft
bzw.
yEv+vft
Setzen wir
Beweise zu: Skalarprodukte und orthogonale Projektionen
(iii)
r, =
also
y- v,
30.8.11
B SP-lO
y=v+r,
so bleibt zu zu zeigen, daß es genau ein "I E vft gibt mit
(iv)
D (exp(v +
r,) -
u) ~ .At.
Für die positiv-definite Diagonalmatrix
(v)
E(v) = Diag{ exp(v)}
(vi)
E(v) . exp(r,) = (exp(v.) . exp(r,.)). = exp(v + "I).
folgt
z
z z
Setzen wir noch
(vii)
E-\v).u
z(u, v)
=
(exp(-v.)z .U.).E
(O,ool
zz
= Diag(u)· exp(-v)
so läßt sich (iv) äquivalent schreiben als
(iv)'
D· E(v)· (exp(r,) - z(u, v)) ~ .At.
Mit der Diagonalmatrix
(viii)
W(v) = D· E(v) = Diag{w(v)},
w(v) = D· exp(v) =
mit
(d z.. exp(v.)).
E (O,ool
z z
ergibt sich als weitere Äquivalenz von (iv)'
(iv) "
(exp( r,)
-
z( u, v)) ~W(v) vft
p~(v) (exp(r,) - z(u, v)) = 0
bzw.
bzw.
P~(v) exp(r,) = P~(v) z(u, v) .
Dies entspricht der Normalengleichung für die Maximum-Likelihood-Schätzung eines log-linearen Poisson-Modells mit dem Modellraum vft (für den log-Erwartungsvektor "I = log Jl), dem Gewichtsvektor w> 0 und der "Beobachtung" z(u, v) > 0
(vgl. LM-Skript III, 2.3). Insbesondere ist das gesuchte r, E vft die (eindeutig) bestimmte Maximalstelle
mit
r,
des (streng konkaven) log-Likelihood-Kerns
e: vft--dR
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP-11
~ w. (71 . z .( v) - exp( 71 .))
i
Z
Z Z
Z
(ix)
~ d.· exp(v . ) (71 . u . exp(- v .) - exp(71 .))
i Z
Z
zz
Z
Z
~ d. (71 . u. - exp( v . + 71 .)).
i Z Z Z
Z
Z
Damit ist die Eindeutigkeit von
~
gezeigt, und die Existenz von
~
ergibt sich wegen
z(u, v) > 0 aus dem entsprechenden Existenzsatz für den Schätzer (vgl. LM-Skript II,
2.6.2 Existenzsatz 1 und 2.6.5). Unter Verwendung der Schätzfunktion ~(-,-) für t'( -)
ergibt sich dann
(x)
~ = ~(z(u, v), w(v)) = ~(Diag-l{exp(v)}. u, D· exp(v))
und das gesuchte y ist
(xi)
y = H(u,v)
v
+ ~(z(u, v), w(v))
v
+ ~(Diag-l{exp(v)}. u, D· exp(v))
Die Schätzfunktion ~(z, w) ist für z, w> 0 differenzierbar mit stetigen partiellen
Ableitungen vgl. LM-Skript 2.7.1 (9), (4) und 2.7 (22) (mit identischer Varianzfunktion)
(xii)
mit
(xiii)
b(z, w) = Diag{ w· exp(~(z, w))},
(xiv)
D2~(z,w) = Dl~(z,w).Diag{[z-exp(~(z,w))l/w}.
Folglich ist auch H differenzierbar mit stetigen partiellen Ableitungen, und Differenzieren von (i)H nach u bzw. von (ii)H nach v liefert (b) bzw. (c).
(a) ergibt sich daraus, daß y für u = exp(y) und v = P~y die Bedingungen (i) und
(ii) erfüllt.
Obwohl das Theorem jetzt schon bewiesen ist, wollen wir für die partiellen Ableitungen von H noch eine explizite Darstellung angeben. Partielles Differenzieren
von (xi) ergibt
(xv)
D1 H(u, v)
(xvi)
D2 H(u, v)
= I
D1 ~(z(u, v), w(v)) . D1z(u, v),
+ D1~(z( u, v), w( v)) . D2z( u, v) + D2~( z( u, v), w( v)) . D w( v)
.
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP -12
mit der lxI-Matrix I, die die Einbettung J'V-----+ IRJ darstellt. Nun ist
(xvii)
exp[r](z(u, v), w(v))] = exp[H(u,v)-v]
(xviii)
b(z(u, v), w(v))
Diag{ w(v) . exp(r](z(u, v), w(v)))}
Diag{ D . exp(v) . exp(H(u, v) -v)}
Diag{ D· exp(H(u, v)}
D· Diag{ exp(H(u, v)}
D(u, v)
und eingesetzt in (xii) ergibt sich
(xix)
D1r](z(u,v),w(v)) = Pj(u,v).Diag-1{exp[H(u,v)-v]}
Mit den Ableitungen
(xx)
D z(u, v)
1
E-\v) = Diag-1{exp(v)}
D2 z(u, v) = - Diag(u) . Diag{ exp(-v)} = - Diag(u) . Diag -l{ exp(v)}
(xxi)
D w(v) = D· Diag {exp(v)} = D· E(v)
erhält man weiter
Beweise zu: Skalarprodukte und orthogonale Projektionen
(xxii)
D H(u, v)
1
30.8.11
B SP -13
Pj(u,v). Diag-1{exp[H(u, v) -v]}. Diag-1{exp(v)}
= Pj(u, v) . Diag-1{exp[H(u, v)]}
(xxiii)
D1r7( z(u, v), w(v)) . D2z(u, v)
= - Pj(u, v) . Diag-1{exp[H(u, v) -v]}. Diag(u) . Diag -l{ exp(v)}
= - Pj(u,v). Diag-1{exp[H(u, v)]}. Diag(u)
(xxiv)
D2r7(z(u, v), w(v)) . Dw(v)
= - Pj(u, v) . Diag-1{exp[H(u, v) -v]}. Diag(u) . Diag -l{ exp(v)}
D1r7(z(u, v), w(v)) . Diag{[z(u, v) - exp(H(u, v) - v)] /w}. Dw(v)
D1H(u, v) . [D1z(v)r1 . Diag{[z(u, v) - exp(H(u, v) - v)] /w}. Dw(v)
D1H(u, v) . E(v) . Diag{[z(u, v) - exp(H(u, v) - v)] /w}. D· E(v)
D1H(u, v) . E 2(v) . Diag{[z(u, v) - exp(H(u, v) - v)] /w}. D ,
wobei im letzten Schritt die Kommutativität der Matrizenmultiplikation für Diagonalmatrizen verwendet wurde. Damit ergibt sich schließlich
(xxv)
D2 H(u, v) =
I - Pj(u,v). Diag-1{exp[H(u, v)]}. Diag(u)
+ D1H(u, v) . Dial(exp(v)) . Diag{[z(u, v) -
exp(H(u, v) - v)] /w} . D.
D
Beweise von
l
Korollar: Sei D = Diag{ cl} mit cl E (0,00
raum mit JV
gegeben und vft C IR! sei ein linearer Teil-
vft~ D. Dann ist die folgende Abbildung bijektiv
F = ((P~ 0 exp), P~) :IR
-----+
P~[(O,oo/] x JV
y
r------+
F(y) = (P~ exp(y) , P~y) .
1
Zu jedem ZEP~[(O,oo/] gibt es ein UE(O,oo/, sodaß z=P~u. Und nach dem
Theorem gibt es zu jedem v E JV ein y E IR! mit
also
F(y) = (z, v).
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP -14
Damit ist F surjektiv und wir zeigen jetzt die Injektivität. Aus F(y1) = F(y
D
D
Pc4 exp(Y1) = Pc4 exp(y 2)'
D
J folgt
D
PJV Y 1 = PJVY 2 =:
V
Für u = exp(y 2) erfüllen sowohl Y1 als auch y 2 die Bedingungen (i) und (ii) des
Theorems und somit folgt y 1 = Y2. Folglich ist F auch injektiv.
D
Beweise zu: Skalarprodukte und orthogonale Projektionen
30.8.11
B SP -14
Damit ist F surjektiv und wir zeigen jetzt die Injektivität. Aus F(y1) = F(y
D
D
Pc4 exp(Y1) = Pc4 exp(y 2)'
D
J folgt
D
PJV Y 1 = PJVY 2 =:
V
Für u = exp(y 2) erfüllen sowohl Y1 als auch y 2 die Bedingungen (i) und (ii) des
Theorems und somit folgt y 1 = Y2. Folglich ist F auch injektiv.
D
G. Osius: Generalisierte Inverse einer Matrix
GI-l
31.5.06
GI Generalisierte Inverse einer Matrix
Gerhard Osius
Es sei A eine Ixl-Matrix. Eine lxI-Matrix A- heißt eine generalisierte Inverse
(kurz: g-Inverse) von A, falls gilt
(G I)
A . A- . A = A.
Und eine lxI-Matrix A + heißt eine Moore-Penrose-Inverse (kurz: MP-Inverse) oder
Pseudo-Inverse von A, falls die folgenden 4 Bedingungen gelten
(MP1)
A . A +. A
(MP2)
A+ .A . A+ = A+
(d.h. A ist g-Inverse von A +)
(MP3)
A . A+
ist symmetrisch:
A·A+=A+T·AT !
(MP4)
A +. A
ist symmetrisch:
(d.h. A + ist g-Inverse von A)!
= A
!
Diese Bedingungen lassen sich unter Verwendung orthogonaler Projektionen interpretieren. Die beiden Bedingungen (MP1) und (MP3) zusammen sind äquivalent
zu
(MP1,3) A A + ist die orthogonale Projektion Pc4(A) auf den Spaltenraum
...4(A) = Bild A
c
IRf von A.
Analog sind beide Bedingungen (MP2) und (MP4) zusammen äquivalent zu
(MP2,4) A + A ist die orthogonale Projektion Pc4(A +) auf den Spaltenraum
...4(A +) = Bild A + c IR] von A +.
Wenn (MP1), (MP2) und (MP3) gelten, so ist (MP4) zu der folgenden Verschärfung äquivalent
(MP 4)*
A +A ist die orthogonale Projektion Pc4(A T) auf den Spaltenraum
...4(AT ) = Bild AT C IR] von AT.
Die Existenz- und Eindeutigkeitsfrage einer MP-Inversen klärt das folgende
Theorem: Zu jeder Matrix A gibt es genau eine Moore-Penrose-Inverse A +.
Der Nachweis des Theorems verwendet bereits einige der folgenden Eigenschaften
G. Osius: Generalisierte Inverse einer Matrix
A++ = A.
(1)
A ist die MP-Inverse von A +:
(2)
Für invertierbares A gilt:
(3)
Falls A vollen Zeilenrang hat, d.h. Rang(A) = I, so gilt:
(b)
(4)
(5)
AA+=II
GI- 2
31.5.06
d.h. A + ist eine Rechts-Inverse von A.
I'
Falls A vollen Spaltenrang hat, d.h. Rang(A) = J, so gilt:
(b)
d.h. A + ist eine Links-Inverse von A.
Für die Nullmatrix gilt:
0+ =
o.
(6)
(7)
Asymmetrisch
A + symmetrisch,
(8)
A positiv-semidefinit
A + positiv-semidefinit .
(9)
(cA)+ = c-1 A +
(10)
·· a EIst:
IR I .
Fur
A A + = A +A .
für jedes cE IR mit c :;=
(Diag {a})+ =
Diag { a +}
a:
-1
= {
~i
o.
wobei
falls ai :;= 0 }.
falls a. = 0
z
Für eine Folge A quadratischer IxI- Matrizen mit (beliebigen) g- Inversen A - gilt
n
n
(11)
lim A = A,
n---+oo
n
A ist invertierbar
Insbesondere ist die Moore-Penrose-Inverse stetig im Bereich der invertierbaren
Matrizen. Auf die Invertierbarkeit kann nicht verzichtet werden, wie das folgende
Beispiel zeigt.. Für reelle Zahlen (aufgefaßt als lxI-Matrizen) a = 1.. -----+ a = 0 folgt
n n
a + = n -----+ 00 :;= 0 = a + und somit ist die Moore-Penrose-Inverse im Punkt a = 0
n
nicht stetig.
Beweise: Generalisierte Inverse einer Matrix
28.7.06
B GI-l
Beweise zu:
Generalisierte In verse einer Matrix
Beweis der Äquivalenz (MP1) & (MP3) <=> (MP1,3)
(MP1,3) A A + ist die orthogonale Projektion Pc4(A) auf den Spaltenraum
...4(A) = Bild A
ad
c IRf von A.
,;~":
P = AA + ist nach (MP3) symmetrisch und wegen
AA +AA = AA +,
vgl. (MPl)
auch idempotent. Folglich ist P die orthogonale Projektion auf seinem Spaltenraum ...4(P) = Bild P. Wegen P = AA + ist
Bild P
c
Bild A
und aus (MP1) folgt
Bild A
c
Bild AA +
Bild P.
Insgesamt ist also
...4(A) = Bild A
Bild P
...4(P)
und (MP1,3) ist gezeigt.
ad ,,<;:=.":
Die Projektion P = AA + ist symmetrisch, d.h. (MP3) gilt.
Für jedes x E IR] ist Ax E ...4(A) und somit gilt
PAx= Ax
für alle x.
Hieraus folgt PA = A, d.h. (MP1) gilt.
D
Beweise: Generalisierte Inverse einer Matrix
28.7.06
B GI- 2
Beweis der Äquivalenz (MP2) & (MP4) <=> (MP2,4)
(MP2,4) A + A ist die orthogonale Projektion Pc4(A +) auf den Spaltenraum
...4(A +) = Bild A + c IR] von A +.
Der Beweis ergibt sich aus dem von ,,(MPl)&(MP3)<:>(MPl,3)" durch Vertauschen
von A mit A +.
D
Beweis der Äquivalenz (MP4) <=> (MP4)* unter (MPl-3)
(MP 4)* A +A ist die orthogonale Projektion Pc4(A T) auf den Spaltenraum
...4(AT ) = Bild AT C IR] von AT.
Da (MP4)* eine Verschärfung von (MP4) ist, genügt es die Implikation ,,::::}" zu zeigen, also (MP4)* aus (MPl-4) herzuleiten. Nach (MP2,4) ist
die orthogonale Projektion auf
(ii)
Bild A + = Bild P ,
und zu zeigen bleibt nur
(iii)
Bild AT = Bild P.
Aus (i) folgt zunächst
Bild P
c
Bild AT,
und aus
vgl. (MPl)
ergibt sich
Bild AT
c
Bild P.
D
Beweise: Generalisierte Inverse einer Matrix
BGI- 3
28.7.06
Beweis von
Theorem: Zu jeder Matrix A gibt es genau eine Moore-Penrose-Inverse A +.
Eindeutigkeit:
Ai und
At
(i)
seien Moore-Penrose-Inversen von A. Dann gilt
AA} =
Pc4(A)
z
für i = 1,2
vgl.. (MP1,3)
für i = 1,2
vgl.. (MP4)*
und somit
(ii)
AAt·
AA+
1
Analog folgt
(iii)
A}A
z
Pc4(A T )
A+A
At A.
und somit
(iv)
1
Damit ergibt sich
A+
1
A+ AA+
vgl. (MP2)
A+ AA+
vgl. (iv)
A+ AA+
vgl. (ii)
A+
vgl. (MP2).
1
2
2
1
1
2
2
D
Existenz unter Verwendung von (3) und (4):
Ist K = Rang A, so gibt es eine IxK-Matrix B und eine KxJ-Matric C mit
(*)
A=BC
,
Rang B = Rang C = K.
Obwohl dies aus der linearen Algebra bekannt sein sollte, geben wir hierfür unten
noch einen Beweis an.
Weil B+ = (B TBr1 B T eine Linksinverse von B ist, und C+ = C T(CC T)-l eme
Rechtsinverse von C ist, gilt
(i)
Beweise: Generalisierte Inverse einer Matrix
BGI-4
28.7.06
Aus den folgenden Eigenschaften ergibt sich nun, daß C+B+ eine MP-Inverse von
A=BC ist:
(B C)(C+B+)(B C)
B (CC+)(B+B) C
BC
vgl. (i),
(C+B+)(B C)(C+B+)
C+(B+B) (CC+)B+
C+B+
vgl. (i),
(BC)(C+B+)
B(CC+)B+
BB+
ist symmetrisch
vgl. (4),
(C+B+)(BC)
C+(B+B) C
C+C
ist symmetrisch
vgl. (3).
D
Beweis von (*):
Bezeichnet .At = .At(A) den Spaltenraum von A, und ist
(i)
K:= Dim.At = Rang A,
so gibt es eine IxK- Matrix B, deren Spalten eine Orthonormal-Basis von .At sind.
Daher ist
(ii)
und die orthogonale Projektion auf .At hat die Gestalt
(iii)
T
vgl. z.B. Exkurs SP 2.
Pc4 = BB ,
Da Pc4 auf .At die Identität repräsentiert, folgt
(iv)
für alle x,
Damit ist
(v)
A=Pc4 A=BBTA=BC
(vi)
C= BTA.
mit
Hieraus ergibt sich
(vii)
Rang A = Rang BC
< Rang C = Rang B TA < Rang A
und somit ist
(ix)
K = Rang A = Rang C .
D
Beweise: Generalisierte Inverse einer Matrix
28.7.06
B GI- 5
Beweis von
(1 )
A ist die MP-Inverse von A +:
A++ = A.
Die Bedingungen (MPl) - (MP4) sind "symmetrisch" in A und A +, d.h. durch Vertauschen von A mit A + gehen (MPl) bzw. (MP3) in (MP2) bzw. (MP4) über. Also
erfüllt A die definierenden Gleichungen für A ++.
D
Beweis von
(2 )
Für invertierbares A gilt:
Für invertierbares A erfüllt A + = A -1 die Bedingungen (MPl) - (MP4) trivialerwelse.
D
Beweis von
(3)
Falls A vollen Zeilenrang hat, d.h. Rang(A) = I, so gilt:
(b)
AA+=l1
I'
d.h. A + ist eine Rechts-Inverse von A.
Betrachtet man (a) als eine Definition von A + so folgt (b) sofort, und zu zeigen
bleiben die Bedingungen (MPl) - (MP4). Wegen (b) gelten (MPl) - (MP3) trivialerweise, und (MP 4) folgt aus A +A = A(A TA)-l AT.
D
Beweis von
(4)
Falls A vollen Spaltenrang hat, d.h. Rang(A)= J, so gilt:
(b)
d.h. A + ist eine Links-Inverse von A.
Betrachtet man (a) als eine Definition von A +, so folgt (b) sofort und zu zeigen
bleiben die Bedingungen (MPl) - (MP4). Wegen (b) gelten (MPl), (MP2), (MP4) trivialerweise, und (MP3) folgt aus AA + = A(AAT)-l AT.
D
Beweise: Generalisierte Inverse einer Matrix
BGI- 6
28.7.06
Beweis von
(5)
0+ = o.
Für die Nullmatrix gilt:
A + = 0 erfüllt die Bedingungen (MPI - (MP4) für A =
o.
D
Beweis von
(6)
A +T = A T+.
Transponieren von (MPl), (MP2) liefert
(MPl)T
AT. A +T. AT = AT,
(MP2)T
A+ T . AT. A+ T = A+ T,
und (MP3), (MP4) lassen sich schreiben als
(MP3)
A +T . AT ist symmetrisch,
(MP4)
AT. A +T ist symmetrisch.
Also erfüllt A +T die definierenden Gleichungen für die MP-Inverse von AT.
D
Beweis von
(7)
Asymmetrisch
::::}
A + symmetrisch,
(8)
A positiv-semidefinit
::::}
A + positiv-semidefinit .
ad (7):
(7) folgt direkt aus (6) und (MP3).
ad (8):
Nach (7) ist A + symmetrisch und für beliebiges tE IR! gilt nach (MP2)
tTA+t = tTA+ AA+t = (A+t)TA(A+t)
> o.
A A + = A +A .
D
Beweise: Generalisierte Inverse einer Matrix
BGI-7
28.7.06
Beweis von
(9)
für jedes cE IR mit c :;=
o.
Zu zeigen ist, daß c-1 A + die definierenden Gleichungen für die MP-Inverse von cA
erfüllt, und diese ergeben sich wie folgt
(i)
cA· c-1 A +.cA = c (AA TA) = cA,
vgl. (MP 1)
(ii)
c-1 A + . cA· c-1 A + = c-1 (A +AA +) = c-1 A +,
vgl (MP 2)
(iii)
cA· c-1 A + = AA + ist symmetrisch,
vgl. (MP 3)
(iv)
c-1 A + . cA = A +A ist symmetrisch,
vgl. (MP 4).
D
Beweis von
·· a EIst:
IR!·
P ur
(10)
(Diag {a})+ =
Diag { a +}
a:
wobei
-1
= {
~i
falls a i :;= 0 }.
falls a. = 0
z
Zu zeigen ist, daß Diag{ a +} die Bedingungen (MP1-4) erfüllt.
(MP1-2) folgen aus
a.a}- a. = a.,
z z z
für alle i.
z
Und (MP3-4) gelten, weil Produkte von (quadratischen) Diagonalmatrizen wieder
solche und somit auch symmetrisch sind.
D
Beweis von
(11)
A ist invertierbar
lim A n = A,
n---+oo
Wegen det(A
n
)
-----t
det(A)
:;=
0 gibt es ein n so daß für k > n gilt:
o
d.h.
Da die Matrixinversion in A stetig ist, folgt
k > n ' und hieraus ergibt sich die Behauptung.
O
o
A ist invertierbar.
k
Ai: = Ai:1
-----t
A -1 für die Teilfolge
D
G. Osius: Multiple Tests und Konfidenzbereiche
30.7.05
MTK -1
MTK Multiple Tests und Konfidenzbereiche
Gerhard Osius
1.
Simultane Tests
Bei vielen statistischen Analysen werden mehrere Tests durchgeführt. So ist z.B. bei
einem Modell mit Parametervektor () von Interesse, welche Parameterkomponenten
von
0
verschieden
sind,
und
hierzu
werden
Nullhypothesen
der
Form
HOT: () = 0 gegen ihre Alternative H T: () :;= 0 für verschiedene r = 1, ..., R getestet.
r
r
Zur Analyse dieser Situation betrachten wir allgemein R > 2 einzelne Testprobleme
einer Nullhypothese H~ gegen eine Alternative H T (die typischerweise die Negation
der Nullhypothese ist) für r = 1, ... ,R. Ferner sei für jedes r = 1, ... ,R eine Teststatistik T , ein Signifikanzbereich S und ein Testniveau a
r
r
r
gegeben, so daß für den
Einzeltest gilt
(1)
Ablehnung von HoT {} T ES .
r
r
(2)
Für jede Auswahl g'( C {l, ... ,R} können wir die Kombination aller Nullhypothesen
H~ mit rE g'( betrachten
(3)
Hi:: Für alle rE g'( gilt die Nullhypothese H~,
und diese gegen die Alternative testen
(4)
Hg(: Für mindestens ein rEg'( gilt die Alternative H T .
Es ist naheliegend, die kombinierte Nullhypothese Hr; abzulehnen, falls bei den
Einzeltests H~ für mindestens ein rE g'( abgelehnt wird, d.h.
(5)
Ablehnung von Hg(
{}
Es gibt rEg'( mit T ES .
r
Die Schärfe dieses simultanen Tests ist
(6)
"( g( = P{ Ablehnung von Hg'(} =
p{ T U {TTEST}}
Eg(
und läßt sich durch die Schärfe der Einzeltests
r
G. Osius: Multiple Tests und Konfidenzbereiche
MTK -2
30.7.05
r
(7)
"( = P{ Ablehnung von H } = P{T ES }
r
o
r
r
wegen der Monotonie und Subadditivität von Wahrscheinlichkeitsmaßen wie folgt
abschätzen:
(8)
Unter der kombinierten Nullhypothese Hg( ist "( g( das Fehlerrisiko 1. Art des simultanen Tests und läßt sich nach (2) durch die Summe der Fehlerrisiken 1. Art
der Einzeltests abschätzen
Will man für alle simultanen Tests ein Niveau eYg(
< eY erreichen, so kann man z.B.
alle Einzeltests zum gleichen Niveau eY = ~ durchführen (Bonferroni-Korrektur).
r
Wenn der zusätzliche Informationen über den Zusammenhang der Teststatistiken
Tl' ... ,T für die Einzeltests vorliegen, so läßt sich die Abschätzung (8) eventuell verR
bessern. Insbesondere ergibt sich bei stochastischer Unabhängigkeit der Teststatistiken statt der Abschätzung (8) sogar eine Gleichung:
(10)
2.
falls Tl' ... ,TR stochastisch unabhängig.
Simultane Konfidenzbereiche
Für die Konstruktion simultaner Konfidenzbereiche gelten analoge Überlegungen
2 Parameter er E IRSr
wie für simultane Tests. Hierzu betrachten wir allgemein R>
mit Konfidenzbereichen zur Sicherheit 1- eY , d.h. zufällige Bereiche C E IBSr mit
r
(1)
eY
r
r
=p{er tJ-C}
r
für r = 1, ..., R.
Das kartesiche Produkt dieser Konfidenzbereiche ist dann ein simultaner Konfidenzbereich für den Vektor () = (e , ..., eR) zum simultanen Niveau
l
R
(2)
eY.
szm
=
p{() tJ- r=l
TI Cr }
R
=
p{ r=l
U {e r tJ- cr }} .
Das simultane Niveau läßt sich wieder abschätzen durch
R
(3)
Max{eY l , ..., eYR }
<
eY
sim
<
2:
r=l
eY
r
·
G. Osius: Multiple Tests und Konfidenzbereiche
30.7.05
Um zu erreichen, daß das simultane Niveau a.
szm
nicht überschreitet, kann man z.B. gleiche Niveaus a
MTK -3
einen vorgegebenes Niveau a
r
= ~ wählen (Bonferroni-Kor-
rektur). Wenn der zusätzliche Informationen über den Zusammenhang der Konfi-
denzbereiche Cl' ... ,C der Komponenten vorliegen, so läßt sich die Abschätzung (3)
R
eventuell verbessern.
3.
Sequentielle Tests
Wir betrachten jetzt den Spezialfall, daß die R
> 2 Nullhypothesen
eine aufsteigende
Sequenz bilden, d.h. es gilt
(1)
1
H2O::::}···::::} H0R HO::::}
1
::::}
R
H0
'
(statt der Implikation ,,::::}" kann auch die Inklusion "e" stehen, wenn man die Hypothesen mit den zugehörigen Parametermengen bzw. Modellen identifiziert). Beim
sequentiellen Testproblem will man sich für genau eine sequentielle Hypothese der
Form
(2)
s Hr0 un d nzc. ht H0r- 1
Hr:
entscheiden, wobei r = 1, ..., R und formal
Hg als falsch
(bzw. leere Menge) gesetzt
wird. Man beachte, daß "nicht H~- L, nach (1) äquivalent ist zu "nicht H~ für alle
i<r"
Eine typische Anwendung für (1) ist ein parametrisches Modell mit Parametervektor () = (e l' ..., eR) und den Hypothesen
(3)
H~: er = ... = eR = 0 .
Die zugehörigen sequentiellen Hypothesen (2) lauten
Man beachte, daß diese sequentielle Hypothese wesentlich von der Reihenfolge der
Parameterkomponenten abhängt, die daher bei konkreten Anwendungen sinnvoll
gewählt sein sollte.
Wir gehen wieder davon aus, daß für jedes rein Einzeltest der Nullhypothese H~
gegen ihre Negation (nicht H~) als Alternative gegeben ist durch eine Teststatistik
T , ein Signifikanzbereich S und ein Testniveau a ,so daß gilt
r
r
r
G. Osius: Multiple Tests und Konfidenzbereiche
(5)
Ablehnung von HOT {} T ES .
(6)
Unter H~ gilt:
r
MTK -4
30.7.05
r
P{Tr ESr } <
- ar .
Führt man die Einzeltests aufsteigend für r = 1, 2, ... solange durch, bis erstmals die
Nullhypothese nicht abgelehnt wird, so ergibt sich folgendes Entscheidungskriterium für die
(7)
Aufsteigende sequentielle Testprozedur:
Entscheidung für H;
H~
und
Ablehnung von H5' .... , H~-l
{}
keine Ablehnung von
T t/:. S
{}
r
T. ES. für alle i < r.
und
r
z
z
Bei der aufsteigend sequentiellen Testsprozedur wird im r-ten Schritt die Nullhypothese H~ nur dann noch mit dem Einzeltest überprüft, wenn die vorangegangenen
Einzeltests die Nullhypothesen H~, .... ,H~-l bereits abgelehnt haben. Die zugehörige Schärfe der aufsteigendenden Prozedur im r-ten Schritt ist daher
(8)
"(
iT
= P{ Ablehnung von Hol, .... ,HOT} =
p{ .<n{T.ES.}} ,
Z
T
Z
Z
und läßt sich durch die Schärfe der Einzeltests
(9)
"(. = P{ Ablehnung von H
Z
o}
Z
= P{T.ES.}
Z
Z
wegen der Monotonie von Wahrscheinlichkeitsmaßen nach oben abschätzen:
(10)
"( iT <
Min T.
-.<
Z
Z
T
Im r-ten Schritt der aufsteigenden Prozedur besteht ein Fehler 1. Art darin, die
Nullhypothese H~ und zuvor alle vorangegangenen Nullhypothesen H~, .... ,H~-l
abzulehnen, obwohl irgendeine dieser r Nulhypothesen - und wegen (1) somit auch
HOT - zutrifft. Das zugehörige Fehlerrisiko 1. Art a jr ist daher durch die Schärfe "( jr
unter H~ gegeben und läßt sich nach (10) und (6) durch das Fehlerrisiko 1. Art des
zuletzt durchgeführten Einzeltests abschätzen
(11)
Unter HOT gilt: a
ir
=
'1!
<
'ir -
'1!
< ar .
'r -
Wenn man alle Einzeltests zum gleichen Niveau a = a durchführt, so hat auch die
r
aufsteigend sequentielle Prozedur ein Niveau von höchstens a - und zwar unabhängig davon, nach welchem Schritt r die Prozedur beendet ist. Im Gegensatz zu den
simultanen Tests ist bei der sequentiellen Testprozedur also keine (Bonferroni-)Kor-
G. Osius: Multiple Tests und Konfidenzbereiche
MTK -5
30.7.05
rektur des Niveaus der Einzeltests erforderlich. Dafür muß man sich von vorn herein auf eine feste Sequenz interessierender Hypothesen festlegen.
Bei der bisherigen betrachteten aufsteigenden Testprozedur werden die Einzeltests
aufsteigend für r = 1,2, ... durchgeführt. Wenn man die Einzeltest dagegen absteigend
für r = R, R-1, ... solange durchführt, bis erstmals die Nullhypothese abgelehnt wird,
so ergibt sich folgende
(12)
Absteigende sequentielle Testprozedur:
Entscheidung für H;
{}
Ablehnung von H~-l
keine Ablehnung von
{}
T
r-1
ES
r-1
und
und
H~, .... ,H~
T.dS. für alle i > r.
zv::. z
-
Bei der absteigenden Testsprozedur wird die Nullhypothese H~ nur dann noch mit
dem Einzeltest überprüft, wenn die vorangegangenen Einzeltests die Nullhypothesen H~+\ .... ,H~ nicht abgelehnt haben. Die zugehörige Schärfe der absteigendenden Prozedur ist dann
(13)
"(J-r = P{ Ablehnung von H~ und keine Ablehnung von H~+ , .... , H~ }
1
=P{{T ES}
r
r
n
n i>r{T.\tS.}}
Z
Z
und läßt sich durch die Schärfe des zuletzt durchgeführten Einzeltests nach oben
abschätzen:
Beim Test von H~ in der absteigenden Prozedur besteht ein Fehler 1. Art darin, die
Nullhypothese H~ abzulehnen - und zuvor alle vorher gestesten Nullhypothesen
H~+\ .... ,H~ anzunehmen -, obwohl H~ zutrifft. Das zugehörige Fehlerrisiko 1. Art
unter H r und läßt sich nach (14) durch das Fehlerrisiken 1.
o
J-r
Art des zuletzt durchgeführten Einzeltests abschätzen
ist daher die Schärfe "(
(15)
Unter H r gilt:
o
a
J-r =
'1!
I
a
J-r <
- '1!'r <
- r
.
Wenn man alle Einzeltests zum gleichen Niveau a = a durchführt, so hat auch
r
also auch die absteigende Prozedur ein Niveau von höchstens a - und zwar auch
wieder unabhängig davon, nach welchem Schritt die Prozedur beendet ist.
Beide sequentielle Testprozeduren kommen aber nicht notwendig zum gleichen Ergebnis, d.h zur gleichen sequentiellen Hypothese HS . Bezeichnet r bzw. r den jer
i
J-
G. Osius: Multiple Tests und Konfidenzbereiche
MTK -6
30.7.05
weiligen Index r bei sich die auf- bzw. absteigende Prozedur für HS entscheidet, so
r
wird H für r = r beim Einzeltest nach (12) nicht abgelehnt, und mit (7) folgt, daß
J-
r
dann r nicht kleiner als r j sein kann. Folglich gilt stets
(16)
rj
<
r J- .
-
Andererseits wird H für s = r -1 beim Einzeltest nach (12) abgelehnt und mit (7)
s
folgt r j
:;=
J-
s. Hieraus ergibt sich
(17)
Falls r j und r J- verschieden sind, so gibt es daher Indizes
t = rj
<
s = r -1
J-
<
r=r
J- '
bei denen für die zugehörigen Nullhypothesen
die Einzeltest die mittlere Nullhypothese H~ ablehnen, aber die beiden äußeren Hypothesen H~ und H~ nicht ablehnen. Dies erscheint zwar paradox, läßt sich aber unter den bisherigen sehr allgemeinen Voraussetzungen nicht ausschließen. Lediglich
im Fall R = 2 ergibt sich aus (16) und (17) stets die Gleichheit r j = r
f
Wenn in einer konkreten Situation beide sequentiellen Testprozeduren zu unterschiedlichen Resultaten gelangen, so muß von Fall zu Fall entschieden werden, welches Resultat "plausibler" ist.
G. Osius: Minimale und maximale gewichtete Streuung
10.3.06
MS-1
MS Minimale und maximale gewichtete Streuung
Gerhard Osius
1.
Problemstellung
Für K> 2 Beobachtungen xl' ..., x E IR mit positiven Gewichten w ' ..., w > 0 soll
K
1
K
die gewichtete Streuung
K
(1)
S(x I w) = 2: wk(xk - x)2
k=l
der x-Werte um ihr gewichtetes Mittel
K
_
1 K
mit
(2)
x =
2: wkxk
w+ = 2: w k ·
+k=l
k=l
w
untersucht werden. Hierbei betrachten wir den Gewichtsvektor w = (w l' ..., W K) als
fixiert und wollen S( x I w) bzgl. x minimieren und maximieren. Wegen
(3)
S(xlcw) = c·S(xlw)
fürc>O
können - und wollen wir zunächst auch - die Gewichte normieren durch
(4)
W
+ = 1,
so daß insbesondere w E (0, l)K gilt. Da S(x I w) invariant gegenüber einer Permutation der Indizes ist, setzen wir ohne Einschränkung der Allgemeinheit voraus
(5)
Für konstantes x ist S(x I w) = 0 und deshalb betrachten wir nur noch den Fall
(6)
Spannweite (Range) von x.
Für fixiertes xl und x
K
untersuchen wir S(x I w) jetzt als Funktion der restlichen x-
Werte, d.h. als Funktion in
Im Fall K = 2 ist S(x I w) bei fixiertem xl und x konstant und deshalb wollen wir
2
(8)
K> 3
voraussetzen. Zur Minimierung bzw. Maximierung von S(x I w) führen wir eine lineare Transformation der x-Werte durch
G. Osius: Minimale und maximale gewichtete Streuung
.l(x-x)
r
k
1
(9)
10.3.06
MS-2
bzw.
Dann gilt
(10)
S(x I w) = r 2 . S(u I w),
und statt S(x I w) können wir auch
K
(11)
S(ulw) = ~wk(uk-u)2
k=l
f
k=l
2
wku k -
[
f
k=l
WkU k ] 2
für fixiertes
(12)
als Funktion in
(13)
minimieren bzw. maximieren.
2.
Minimierung
Für die Minimierung von S(u I w) bzgl. u
geben wir zwei verschiedene Wege an.
Zunächst ergibt sich folgende Abschätzung - sogar auch für K = 2 -
(1)
S(ulw) > w1(u1-u)2+wK(uK-u)2
w u
1
2
1 (12)
+ wK(1-u)2
(w1 +wK )u 2 - 2wK u +
2
(WI
+wKl[u- Wl:~K] +WK[l- Wl:~K]
WK[l-Wl:~K]
>
wobei bei der ersten und letzten Abschätzung genau dann die Gleichheit gilt, wenn
(2)
u
k
= u
für alle 1 < k < K
und
U
=
W
K.
W +W
1
Definieren wir nun u'
(3)
u'
k
E (0,1)
für 1 < k
< K,
u~ = 0,
K
G. Osius: Minimale und maximale gewichtete Streuung
MS-3
10.3.06
so folgt
WK
li'
W +W
'
1
K
und somit erfüllt u' die Bedingung (1). Also ist u' eine Minimalstelle von S(u w)
1
und das zugehörige Minimum ist
(4)
S (u 'I w ) --
w
w1 K
W +W
1
_
-
(
K
wl +wK ) wKl (
1-w)
Kl
mit
w
K
W +W
wKl =
.
K
1
u' ist auch die einzige Minimalstelle, weil jede ander Minimalstelle u die Bedin-
gung (2) erfüllen muß, was nur für u = u' der Fall ist. Im Fall K = 2 ist S(u w) bei
1
fixiertem u und u konstant gleich dem in (4) angegebenen Wert.
l
2
Wir wollen jetzt die Minimalstelle alternativ unter Verwendung der Ableitungen
bestimmen, wobei wir K> 2 voraussetzen. Nach der zweiten Darstellung in 1 (11) ist
8
-8
S(ulw)
W
(5)
z
82
8 8
(6)
Wz
S(u w)
1
Wk
mit 8 als Kronecker-Symbol. Nun gilt
D S(ulw) = (Dl~S(ulw))l,k=2, ... ,K_l ist negativ-definit,
2
(7)
und somit ist S(u w) streng konkav bzgl. u . Für u' aus (3) gilt
1
(8)
für allel< l < K
u =u'
und es folgt erneut, daß u' die einzige Minimalstelle von S(u w) ist.
1
Insgesamt ist damit - auch für K = 2 - folgendes gezeigt:
und xl < x mit r = x - xl hat die Funktion
K
K
S(x 1 w) bzgl. x_ = (x 2' ... xK _ l ) E [xl' xK ]K-2 genau eine Minimalstelle in
Minimierungssatz: Für festes w
(8)
>0
für 1 < k < K,
mit
_
wKl -
wK
W +W
1
Das zugehörige Minimum in x' mit x~ = xl' xk = xK ist
Zuzsatz: Bei festem w
l
+ wK wird das Minimum (9) maximal bzgl. wKl für
wKl = ~ ,d.h. für w l =wK
.
K
G. Osius: Minimale und maximale gewichtete Streuung
3.
MS-4
10.3.06
Maximierung
Wir wollen jetzt S(u I w) bzgl. u_ maximieren. Da der Wertebereich [0, 1]K-2 von u_
kompakt ist, nimmt S(u I w) sein Maximum an. Allerdings kann die Maximalstelle
nicht in der offenen Menge (0,1)K-2 liegen, weil die Funktion (nach 2.) nur einen kritischen Wert besitzt, der eine Minimalstelle ist. Zur Bestimmung des Maximums betrachten wir erneut die partielle Ableitung aus 1 (5) für
(1)
wdu z-
2:
k
1< l < K
2: wku k]
wkuJ = wdu Z(l-w Z) -
k~Z
wZ(l-w Z)[u Z-u ]
m
(2)
um
Bei festem
= l_lwz
um
wachsend für
k"fz wkuk
ist S(u I w) in
U
mit
als gewichtetem Mittel von
U
z
daher streng fallend für
U
z
um =
m] und streng
E [0, U
zE [um' 1]. Folglich wird S(u I w) maximal für U z=
(uk)k~Z·
°oder
U
z= 1. Da
diese Überlegung für jedes l = 2, ..., K-1 gilt, folgt insgesamt, daß S(u I w) sein Maximum nur in u 2' ..., u K _ l E{O, I} annehmen kann.
Jedes solche u _ E {O, 1}K-2 bzw. das zugehörige u E {O, l}K ist von der Form u mit
1
falls
falls
(3)
kEI }
ktJ-I
für ein I C {I, ..., K -I} mit 1 EI.
Es folgt
(4)
(5)
U1 =
2: wk =
1- w(J)
mit
krfJ
S(uII w) =
~lWkUlk2 [k~lWkUlk
-
r liI
w(J) =
2: wk
kEI
Wk
-
[krI
2
Wk ]
uI(l-uI ) = w(J)[l-w(J)]
~- [w(J)- ~]2.
Die Maximierung von S(u I w) bzgl. u E{O, l}K ist also äquivalent zur Minimierung
von I w(J) - ~ I bzgl. I. Zur Bestimmung des Minimums von I w(J) - ~ I muß man prinzipiell für alle ~-2 verschiedenen Teilmengen I den Wert w(J) berechnen und diejenigen bestimmen, bei denen der Abstand zu ~ minimal ist. Eine explizite Angabe
des Minimums ist aber in Spezialfällen möglich, z.B. bei konstanten Gewichten.
G. Osius: Minimale und maximale gewichtete Streuung
MS-5
10.3.06
Spezialfall: Konstante Gewichte
Bei konstanten Gewichten
(6)
mit
w
+
=1
ist
(7)
= k# 1 .
w(I)
Für gerades Kund 10 = {I, ..., ~} ist w(Io) = ~ und 10 ist auch die einzige Minimal-
stelle von 1w(I) - ~
Damit ist u1 die einzige Maximimalstelle von S( U
o
zugehörigen Maximum
(8)
S( U I
o
1
k)
I·
=
~
k) mit dem
1
(für gerades K).
Für ungerades Kund 11 = {I, ..., K~1}, 12 = {I, ..., Kt1 } ist
und 11 und 11 sind die beiden einzigen Minimalstelle von 1w(I) - ~ I· Damit sind u1
1
und u1 die einzigen Maximalstellen von S( U
mit dem (gleichen) Maximum
1
2
(9)
k)
(für ungerades K).
D
G. Osius: Minimale und maximale gewichtete Streuung
10.3.06
MS-6
Insgesamt haben wir daher gezeigt
Maximierungssatz: Für festes
Funktion S(x
w> 0
und xl < x
K
mit r = x - xl nimmt die
K
I w) bzgl. x_ = (x 2' ... xK_ 1) E [xl' xK ]K-2 ihr Maximum auf der Menge
{xl' x }K-2 an. Das Maximum läßt sich dann ermitteln) indem man die für alle
K
verschiedenen Elemente xI E {xl' x }K-2 der Form
K
(10)
falls k EI }
falls k ItI
iK- 2
für ein I C {I, ..., K -I} mit 1 E 1.
den Funktionswert
berechnet und davon das Maximum bestimmt oder (äquivalent) das Minimum von
I w(l) - ~ I bzgl. I bestimmt.
Zusatz für konstante Gewichte: w1 = w 2 = ... = wK = w
Für gerades K besitzt S(x I w) genau eine Maximalstelle xI für 10 = {I, ..., ~} und das
o
zugehörige Maximum ist
(für gerades K).
(12)
Für ungerades K besitzt S(x I w) genau zwei Maximalstellen xI und xI für
1
2
1 = {I, ..., K~l} und 1 = {I, ..., Ki1 } 1 = {I, ..., ~} und das zugehörige Maximum ist
1
0
2
(13)
(für ungerades K).
G. Osius: Minimale und maximale gewichtete Streuung
4.
10.3.06
MS-7
Aquidistante Werte und konstante Gewichte
Neben dem Minumum und dem Maximum von S(x I w) bzw S(u I w) interessiert
O
uns auch der Wert für äquidistantes X bzw. uO, d.h. für
(1)
bzw.
oder explizit
(2)
für 1 < k
bzw.
Für konstante Gewichte
(3)
mit
W
+
=1
ergibt sich dann
K
(4)
U ° = K(l-l)
K
(5)
2
2: w k u k
k=l
K-l
2: (k-1)
k=l
1
= K(K-l)2
=
= K(l-l)
2: k
k=l
= K(l-l)
K
1
2: (k-1)2
= K(K-l)2
k=l
K(~-1)2 ~K(K-1)(2K-1)
-
(~)
1
2
K-l
2: k2
k=l
~~::::~)
und somit
(6)
K
'I\"
02
-02
u wk u k - u
6(K-l) - 4
12(~-1) [2(2K-1) - 3(K-1)]
K+l
12(K-l) .
2K-l
k=l
1
Für beliebige konstante Gewichte
(7)
erhalten wir dann
mit
w =Kw
+
<K
Beweise zu: Minimale und maximale gewichtete Streuung
28.7.06
B MS-l
Beweise zu:
1.
Problemstellung
Beweis von
(10)
2
S(x I w) = r ·S(u I w)
Es ist
x = r 2( u - -)2
U
.
(x k - -)2
k
und somit
D
Beweise zu:
2.
Minimierung
Beweis von
(7)
2
D S(ulw) =
(D Z2k S(U I w))Z,k=2, ... ,K-l ist negativ-definit.
Für beliebiges y_ = (Y 2, ..., YK - 1) setzten wir Y1 = YK = 0 und erhalten
- ~ y~D2S(ulw)y_ =
K-l K-l
2:= 2:=
Z=2k=2
wd8kZ -wJYZYk
K K
2:= 2:=
W
l =1 k=1
K
K
wkYk
2:=
wk (Yk - y)2
k=1
- ~ y~D2S(ulw)y_=O
ist D 2 S(u I w) negativ-definit.
{}
K
+ 2:= 2:=
2:=
k=1
K
Wegen
z [8 kZ - w k] Yz Yk
l=1k=1
wZwkYZYk
> o.
Y1 = ... =YK
D
Beweise zu: Minimale und maximale gewichtete Streuung
B MS-2
28.7.06
Beweis von
(8)
DzS(ulw) =0
Es gilt
DzS(ulw) =0
(i)
u = ... = u = u.
2
K
ad
,;~":
für allel< l < K
{}
u =u'
für alle 1 < l < K
Aus (i) folgt
K
U = 2: w k u k
k=l
WK
-
u
W
vgl. (i), (3).
u =u'
twK
1
ad ,,-{=": Für u = u' wurde bereits (2) gezeigt, und somit gilt auch (i).
D
Beweis von
Minimierungssatz: Für festes w
S(x I w)
>0
und xl < x
mit r = x - xl hat die Funktion
K
K
bzgl. x_ = (x ' ... x _ ) E [xl' x ]K-2 genau eine Minimalstelle in
2
K l
K
(8)
für 1 < k < K,
mit
_
w Kl -
wK
tw .
W
1
K
Das zugehörige Minimum in x' mit x~ = xl' xk = x ist
K
l + wK wird das Minimum (9) maximal bzgl. wKl für
Zuzsatz: Bei festem w
wKl = ~ ,cl.h. für w l =wK
Für w =
(i)
~ w ist W t = 1, und für u aus 1 (9) gilt
+
2
S( x I w) = W t S( x I w) = W t r . S( u I w) ,
vgl. 1 (10).
Nun ist u' mit u~=wKl =wKl für l<k<K die einzige Minimalstelle von S(ulw).
Also ist das zugehörige x' mit x~ = xl + r u ~ die einzige Minimalstelle von S( x I w)
und somit von S(x I w). Das resultierende Minimum ergibt sich mit (i) und (4) zu
W
+r 2 . (w l + wK) wKl (1- wKl )
2
r . (w
l
+ wK) wKl (1- W Kl ),
da wKl = wKl"
Der Zusatz folgt, weil f( x) = x(l- x) ein globales Maximum in x = ~ hat.
D
Beweise zu: Minimale und maximale gewichtete Streuung
28.7.06
BMS-3
Beweise zu:
3.
Maximierung
Beweis von
Maximierungssatz: Für festes
w> 0
und xl < x
K
mit r = x - xl nimmt die
K
Funktion S(x I w) bzgl. x_ = (x ' ... x _ ) E [xl' x ]K-2 ihr Maximum auf der Menge
2
K 1
K
{xl' x }K-2 an. Das Maximum läßt sich dann ermitteln) indem man die für alle iK- 2
K
verschiedenen Elemente xI E {xl' x }K-2 der Form
K
falls k EI }
falls k ItI
(10)
für ein I C {I, ..., K -I} mit 1 E 1.
den Funktionswert
berechnet und davon das Maximum bestimmt oder (äquivalent) das Minimum von
I w(l) - ~ I bzgl. I bestimmt.
Zusatz für konstante Gewichte: w1 = w 2 = ... = wK = w
Für gerades K besitzt S(x I w) genau eine Maximalstelle xI für 10 = {I, ..., ~} und das
o
zugehörige Maximum ist
(für gerades K).
(12)
Für ungerades K besitzt S(x I w) genau zwei Maximalstellen xI und xI für
1
2
1 = {I, ..., K~l} und 1 = {I, ..., Ki1 } 1 = {I, ..., ~} und das zugehörige Maximum ist
2
1
0
(für ungerades K).
(13)
Für w =
(i)
~ w ist w += 1, und für u aus 1 (9) gilt
+
2
S( x I w) = w +S( x I w) = w +r .S( u I w) ,
vgl.
1 (10).
Der Satz ergibt sich aus den Betrachtungen für S(u I w), da obiges xI das zu u geI
D
hörige Argument nach 1 (9) ist. Und der Zusatz folgt, weil dort w + = K w ist.
CPR Cross-Product-Ratios
Gerhard Osius
1.
Der Cross-Produet-Ratio einer 2x2- Tafel
2.
Die Cross-Produet-Ratio-Matrix einer Tafel
G Osius: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
1.
CPR 1- 2
2.8.01
Der Cross-Product-Ratio einer 2X2-Tafel
Für eine 2x2-Matrix Jl= (J-Ljk) E (0,00)2X2 mit positiven Komponenten ist der CrossProduet-Ratio (kurz: CPR) oder das Kreuzverhältnis von Jl definiert als
(1)
Die elementaren Eigenschaften des CPR sind:
(2)
Der CPR ist invariant gegenüber Matrix-Transposition:
(3)
Der CPR ist invariant gegenüber Multiplikation von Zeilen und Spalten mit positiven Faktoren Cj' dk > 0:
(4)
Vertauschen der Zeilen oder Spalten invertiert den CPR:
CPR (J1 21 J1 22 ) = 1/ CPR( (J-L
J-L n J-L 12
]k
0
))
= CPR (J1 12 J1 n
J-L 22 J-L 21
).
Eine 2x2-Matrix Il> 0 ist durch ihre Zeilen- und Spaltensummen sowie ihren CPR
bereits eindeutig bestimmt. Genauer gilt:
(5)
Für beliebig vorgegebene "Zeilensummen" z1' z2 E (0,00) und "Spaltensummen"
s1' s2E(0,00) mit z+ =s+ gibt es zu jedem
e>o
genau eine 2x2-Matrix
Jl= (J-Ljk) E (0,00)2X2 mit
(a)
J-L °t = z °
für j = 1, 2 ,
(b)
J-L+k = sk
für k = 1, 2 ,
(c)
]
CPR(Jl) =
]
e.
Diese Matrix Jl ist nach (a) und (b) eindeutig gegeben durch J-L
!Ln = zl s/ s+
falls
e= 1
J-L
falls
e:;= 1,
n =l(J(l-b)
2a
a = 1-e ,
n mit
wobei
2
d=b -4ac.
G Osius: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
2.
2.8.01
CPR 1- 3
Die Cross-Product-Ratio-Matrix einer Tafel
Für eine JxK-Matrix Jl= (J-Ljk) E (O,oo/xK mit positiven Komponenten ist die CrossProduet-Ratio-Matrix (kurz: CPR-Matrix) definiert als die JxK-Matrix () = CPR(Jl)
deren Komponenten ()jk gerade die Cross-Produet-Ratios der 2x2-Teiltafeln von Jl
mit den beiden Zeilen 1, j und den beiden Spalten 1, k, d.h. es gilt:
fl n . fl ik
(1)
für alle j, k.
fl1k . flj1
1
....
k
· ...
K
1
@
· ...
@
· ...
fl 1K
J
6Y
· ...
@
· ...
fljK
J
fl
· ...
fl
· ...
fl
J1
Jk
JK
1
k
K
1
1
1
1
J
1
(9
(JjK
J
1
(JJk
(JJK
Tabelle 1: Das markierte Element ()jk der CPR-Matrix () (unten) ist der CPR
der markierten 2x2-Teiltafel der Matrix Jl (oben).
G Osius: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
2.8.01
CPR 1- 4
Durch die CPR-Matrix () sind bereits die Cross-Produet-Ratios aller 2x2-Teiltafeln
bestimmt, denn für je zwei beliebige Zeilen i j E {I, ... ,i} und Spalten k, l E {I, ... ,K}
gilt:
(2)
Die erste Zeile und erste Spalte der CPR-Matrix ist konstant =1, d.h.
(3)
()lk =
für alle j, k,
1,
und damit ist die CPR-Matrix bereits durch die (i -l)x(K -l)-Untermatrix
(4)
vollständig bestimmt. Folglich könnte man die CPR-Matrix auch von vornherein
durch die (i-l)x(K -l)-Matrix (4) definieren, aber die hier gewählte Definition mit
der redundanten ersten Zeile und ersten Spalte ist für viele Formulierungen praktischer.
Aus den elemetaren Eigenschaften des CPR einer 2x2-Matrix ergeben sich sofort
die entsprechenden Eigenschaften der CPR-Matrix:
(5)
Die CPR-Matrix von Jl ist invariant gegenüber Transposition von Jl
(6)
Die CPR-Matrix von Jl ist invariant gegenüber Multiplikation von Zeilen und
Spalten der Matrix Jl mit positiven Faktoren Cj' dk > 0:
(7)
Der CPR-Matrix-Operator ist idempotent:
CPR ( CPR (Jl) ) = CPR(Jl) .
Eine ix K- Matrix Il> 0 ist durch ihre Zeilen- und Spaltensummen sowie ihre CPRMatrix bereits eindeutig bestimmt. Genauer gilt:
G Osius: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
Theorem: Für beliebig vorgegebene )ßeilensummen 11
S
Z
2.8.01
CPR 1- 5
E (O,oo)J und )ßpaltensummen 11
E (0 ,oo)K mit z + = s+ gibt es zu jeder J x K-Matrix () E (0,00/xK, deren erste Zeile und
Spalte konstant =1 ist (d.h. (3) giltJ) genau eine JxK-Matrix p,E (0 , oo)JxK mit
(b)
= Zj
jt
J.L +k = sk
(c)
CPR(p,) = () .
(a)
J.L
für j = 1, , J,
für k = 1, , K,
Einen elementaren Beweis hierfür findet man in R. Sinkhorn (Diagonal equivalence
to matrices with prescribed row and column sums. Amer. Math. Mon. 74, 1967,
402-405). Das Theorem ergibt sich auch aus Resultaten von S. Haberman (The Analysis Of Frequency Data University of Chicago Press 1974, Theorem 2.6) über die Exi-
stenz von Maximum-Likehood-Schätzungen in bedingten Poisson-Modelle.
Beweise: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
12.8.05
CPR B 1-1
Beweise zu:
1.
Der Cross-Product-Ratio einer 2X2-Tafel
ad (2)-(4): Die Behauptungen ergeben sich dirket aus der Definition des CPR.
ad (5):
Wenn die Zeilen- und Spaltensummen von Jl durch (a) und (b) vorgegeben sind, so
ist die Matrix Jl bereits durch Jl
n eindeutig bestimmt, weil
Wegen Jljk> 0 muß zusätzlich gelten
(ii)
A := max { 0 , (z1 - s2)}
<
!Ln
< E: =
min { z1' s1} .
Unter (a) und (b) lautet daher die Bedingung (c)
(iii)
Zu zeigen ist also, daß (iii) genau eine Lösung !Ln im Bereich (ii) besitzt, aus der
sich dann mit (i) die gesuchte Matrix Jl ergibt. Definieren wir das Polynom 2. Grades durch
so ist (iii) äquivalent zu f(!L
n ) = o.
Zu zeigen bleibt also, daß die Funktion f im offe-
nen Intervall (A ,E) genau eine Nullstelle !Ln besitzt. Nun ist
f(O)
- ß·z ·s
f(z1 - s2)
- ß . s2 . (s +- z1) = - ß ·s2 . (z +- z1)
f(z1)
z1· s2
f(s1)
s1·(s+ -z1) = s1·(z+ -z1) = s1· z2
und somit auch f(A)
1
1
< 0 und f(E) > o.
<
-ß·s 2 ·z2 <
>
>
0,
0,
0,
0,
Folglich hat die Funktion f im Intervall (A ,E)
zunächst mindestens eine Nullstelle, und weil es sich um ein Polynom 2. Grades handelt, hat sie auch genau eine Nullstelle im Intervall (A ,E). Zur expliziten Bestim-
Beweise: Der Cross-Produet-Ratio (CPR) einer 2x2-Tafel
12.8.05
CPR B 1- 2
mung dieser Nullstelle ,u11 E (A ,E) schreiben wir f in der Form
f( x) = a x 2 + bx
a = 1-e
+C
mit
,
C
= - e zlsl= (a-1) zlsr
s+ -sl-zl +e(zl +sl)
= s+ -a(zj+sk)·
e
Für = 1 bzw. a = 0 ist f eine lineare Funktion und die Nullstelle lautet
(iv)
für
e= 1 bzw. a = 0
Für e:;= 1 bzw. a:;= 0 hat f die beiden Nullstellen
x
1,2
=-l(b+va)
2a-
d = b2 - 4ac.
mit
Für a> 0 ist max { xl' x 2 } und für a< 0 ist min{ xl' x 2 } die gesuchte Nullstelle in
(A ,E), d.h. in beiden Fällen gilt
(v)
,u
11
= -
l2a ( b - va)
für
e:;= 1 bzw. a :;= 0 .
Man kann anolog (iv) bzw. (v) auch eme explizte Darstellung von ,ujk für jedes
j, k = 1, 2 erhalten:
(vi)
,ujk = z/k/ S +
(vii)
,u0k = _1_
J
2a
jk
für
(~- b k )
o
J
J
e= 1,
für e:;= 1,
mit
_
(_l)j+k
ajk - 1-e
,
bjk = s+ -ajk(Zj+Sk) '
cjk = (ajk -1) z/k'
d = b2 - 4 a c .
jk
jk
jk jk
Zum Beweis von (vi) bzw. (vii) wende man jeweils (iv) bzw. (v) auf diejenige Tafel
an, bei der man die Zeilen und/oder die Spalten vertauscht hat, wobei nach (4) ggf.
e in e- 1 übergeht.
Beweise zu:
2.
Die Cross-Product-Ratio-Matrix
ad (5)-(7): Die Behauptungen ergeben sich direkt aus der Definition des CPR.
D
Herunterladen