12 Multivariate Statistik Kapitel 3 Modelle 3.1 a Vektorielle Zufallsvariable Zufallsvektor Vektoren werden in der Linearen Algebra als Spalten geschrieben. Beobachtung“ ” (1) x x(2) x = . = [x(1) , x(2) , . . . , x(m) ]T = [x(j) ]j .. x(m) Manchmal auch xj statt x(j) . Für die Schliessende Statistik brauchen wir Wahrscheinlichkeitsmodelle. Zufallsvektor X (gross, unterstrichen) b Matrizen: Notation B11 B12 . . . B1m .. .. .. B = [Bij ]ij = ... . . . Bn1 Bn2 . . . Bnm (j) oder [Bi ]ij Bald auch Matrizen von Zufallsvariablen. c Erwartungswert Der Erwartungswert eines Zufallsvektors ist einfach festgelegt als T EhXi = EhX (1) i, EhX (2) i, . . . , EhX (m) i und wird oft als µ = [µ(1) , µ(2) , . . . , µ(m) ]T abgekürzt. c W. Stahel Version Vorlesung WS 2000/01, 14 Multivariate Statistik d Kovarianzmatrix Die Varianzen könnte man ebenso zu einem Vektor zusammenfassen, aber dieser wäre für die Theorie kaum nützlich. Wichtige Resultate erhält man hingegen für die Varianz-Kovarianz-Matrix“ oder einfach Kovarianz-Matrix“ ” ” (1) (1) varhX i covhX , X (2) i . . . covhX (i) , X (m) i covhX (2) , X (1) i varhX (2) i . . . covhX (2) , X (m) i varhXi = . .. .. .. .. . . . . covhX (m) , X (1) i covhX (m) , X (2) i . . . varhX (m) i | Diese Matrix wird oft auch mit Σ| oder ΣhXi bezeichnet (ein grosses Sigma, das durch den vertikalen Strich vom Summenzeichen unterscheidbar gemacht wird). Da covhX (j) , X (k) i = covhX (k) , X (j) i gilt, ist Σ| symmetrisch, Σ| T = Σ| . e Kovarianzmatrix als Erwartungswert Für einfache Zufallsvariable ist varhXi = E (X − µ)2 . Mehrdimensional: D T E varhXi = E X −µ X −µ = EhXX T i − µµT . (X − µ ist ein Spaltenvektor und deshalb (X − µ) (X − µ)T eine m × m-Matrix!) f Lineare Transformation Für einfache Zufallsvariable ist Eha + bXi = a + b EhXi, varha + bXi = b2 varhXi. Mehrdimensional: Y = a + B X , EhY i = Eha + B Xi = a + B EhXi . D T E varhY i = E B(X − µ) B(X − µ) = E B(X − µ)(X − µ)T B T = B E (X − µ)(X − µ)T B T = B varhXiB T . varha + B Xi = B · varhXi · B T . g Linearkombinationen Spezialfall: a = 0, B = bT varhbT Xi = bT · varhXi · b . Daraus folgt, dass bT ·varhXi·b ≥ 0 ist für alle b. Jede Kovarianzmatrix ist positiv semidefinit. Falls es eine Linearkombination gibt, für die varhbT Xi = 0 ist, dann liegen Beobachtungen mit Wahrscheinlichkeit 1 in einem linearen Unterraum des Rm . Falls es keine solche Linearkombination gibt, dann ist die Kovarianzmatrix ist positiv definit. | + µT Aµ. h Aufgabe. Beweisen Sie EhX T AXi = trhA Σi 3.1. VEKTORIELLE ZUFALLSVARIABLE 15 i Standardisierung p Für eine einfache Zufallsvariable X ist Z = (X − EhXi)/ varhXi die zugehörige (auf Erwartungswert 0 und Standardabweichung 1) standardisierte Zufallsvariable. eB e T = Σ| (nicht Für jede positiv semidefinite Matrix Σ| gibt es eine Zerlegung B eindeutig!) e invertierbar. Sei Falls Σ| positiv definit (also invertierbar) ist, dann ist auch jedes B −1 e B =B und Z = B(X − µ) = −Bµ + BX EhZi = B(EhXi − µ) = 0 e −1 B eB e T (B e −1 )T = I . | T =B varhZi = B ΣB Durch lineare Transformation haben wir erreicht, dass die Zufallsvariablen Z (j) unkorreliert sind. j Zerlegungen eB e T = Σ| (nicht eindeutig!) B • e untere (oder obere) Dreiecksmatrix, Z (j) hängt nur von X (1) , ..., X (j) Cholesky: B ab (vgl. Gram-Schmidtsche Orthogonalisierung einer Basis.) • e symmetrisch, “symmetrische Wurzel”. B e ist eindeutig bis auf orthog. Transformation. B Aufgabe. Zeigen Sie, wie man die symmetrische Zerlegung aus der Eigenwert-EigenvektorZerlegung von Σ| erhalten kann! k Mahalanobis-Distanz Quadratische Form d2 = aT Σ| −1 a Für a = x − µ erhält man d2 = (x − µ)T Σ| −1 (x − µ) = z T z = kzk2 Norm des zugehörigen standardisierten Vektors. “Metrik der Kovarianzmatrix”, Bedeutung folgt. l Mehrdimensionale Verteilung Dichte f hxi, Verteilungsfunktion F hxi = P hX (1) ≤ x(1) , ..., X (m) ≤ x(m) i Z = f huidu(1) ...du(m) u(1) ≤x(1) ,...,u(m) ≤x(m) m Transformationen D E −1 f (X) hxi Y = ghXi. f (Y ) hghxii = det ∂ghxi ∂x lineare Transformation: Y = a + B X , B regulär. Dichte f (Y ) ha + B xi = dethB i−1 f hxi 16 Multivariate Statistik n Partitionierte Vektoren und Matrizen: Notation Wir werden oft den Zufallsvektor vkX in zwei (oder mehr) Teile aufspalten, X [1] X= X [2] wobei X [k] die Dimension mk hat und P k mk = m ist. Dementsprechend zerfällt auch der Erwartungswert (und andere Vektoren) in zwei (oder mehr) Teile, und die Kovarianzmatrix in 4 (oder mehr 2 ), Σ| [11] Σ| [12] Σ| = Σ| [21] Σ| [22] o Randverteilung und bedingte Verteilung Randverteilung von X [1] gegeben durch * F[1] hx[1] i = F x[1] + ∞ ... ∞ Bedingte Verteilung von X [2] , gegeben X [1] : Falls gemeinsame Verteilung eine stetige Dichte hat, charakterisiert durch Dichte x[1] f[1|2] hx[1] |x[2] i = f f[1] hx[1] i x[2] 3.2 Normalverteilung a Mehrdimensionale Standard-Normalverteilung Z ist m-dimensional standand-normalverteilt, wenn die Komponenten Z (j) unabhängig und standand-normalverteilt sind. Dichte: f hzi = m Y 1 √ exphz (j)2 /2i = (2π)−m/2 exphkzk2 /2i = fehkzk2 i 2π j=1 b Verteilung von Linearkombinationen Jede Linearkombination von normalverteilten Zufallsvariablen ist normalverteilt. Also X bT Z ∼ N h0, b2j i = N h0, kbk2 i j 3.2. NORMALVERTEILUNG c 17 Definition Die Familie der m-dimensionalen Normalverteilungen ist die Familie der Verteilungen aller Zufallsvektoren X = a + B Z , wobei Z m-dimensional standard-normalverteilt ist und B quadratisch (und a ∈ Rm ). Es gilt EhXi = a =: µ , varhXi = B B T =: Σ| Nachzuweisen: Die Verteilung von X 1 und X 2 ist gleich, wenn Erwartungswert µ1 = µ2 und Kovarianzmatrix Σ| 1 = Σ| 2 gleich ist – auch wenn B 1 6= B 2 . | Geeigneten Parameter sind deshalb [µ, Σ]. Jede positiv semidefinte Matrix ist Kovarianzmatrix (Parameter) einer multivariaten Normalverteilung (wegen 3.1.j: Für jede positiv semidefinite Matrix Σ| gibt es (mind.) eB e T = Σ| ). eine Zerlegung B d Dichte Falls Σ| regulär, hat die Normalverteilung die Dichte f hxi = c exph(x − µ)T Σ| −1 (x − µ)/2i | 1/2 . Sonst keine Dichte, konzentriert mit der Normierungskonstanten c = (2π)m/2 | Σ| auf Unterraum. Veranschaulichung: Dichte ist konstant auf Ellipsen, die sich nur durch Streckung vom Zentrum = Erwartungswert aus unterscheiden. e Lineare Transformation | und Y = a + B X , dann Wenn X ∼ N m hµ, Σi Y ∼ N m ha + µ, B Σ| B T i Familie abgeschlossen bezüglich linearen Transformationen (auch singulären). Jede Linearkombination ist normalverteilt. Alle Randverteilungen (auch mehrdimensionale) sind normal. f Charakterisierung Die letzte Eigenschaft charakterisiert die multivariate Normalverteilung: Wenn jede Linearkombination bT X , b ∈ Rm , normalverteilt ist (oder allenfalls degeneriert), dann ist X multivariat normalverteilt. g Unkorreliert heisst unabhängig Sei X 1 ∼ N m hµ1 , Σ| 1 i und X 2 ∼ N m hµ2 , Σ| 2 i. (j) (k) Die beiden seien unkorreliert, covhX1 , X2 i = 0 für alle j, k . Dann sind X 1 und X 2 stochastisch unabhängig, wenn sie gemeinsam multivariat normalverteilt sind. Dass der letzte Zusatz notwendig ist, zeigt zB. Flury (1997, Th.3.2.8): Sei X1 ∼ N h0, 1i und X2 = X1 mit Wahrscheinlichkeit 0.5, X2 = −X1 sonst. Dann ist covhX1 , X2 i = 0, aber die gemeinsame Verteilung liegt auf den beiden Diagonalen, also sind X1 und X2 nicht unabhängig. 18 Multivariate Statistik h Bedingte Verteilungen Partitionierter Vektor, siehe 3.1.n. Die bedingte Verteilung von X [2] , gegeben X [1] , ist eine Normalverteilung, D E −1 | | | | X [2] | X [1] = x[1] ∼ N m2 µ + Σ| [21] Σ| −1 − µ (x ), Σ − Σ Σ Σ [22] [21] [11] [12] [11] [1] [2] [1] Allgemein: Regressionsfunktion“ EhX[2] | X [1] = x[1] i. ” Sie ist für die multivariate Normalverteilung linear, = µ[2] + Σ| [21] Σ| −1 [11] (x[1] − µ[1] ). Aufgabe. Herleitung via X [1] X [2] = BZ mit B untere Dreiecksmatrix. i Chiquadrat-Verteilung P 2 Die χ2 -Verteilung mit m Freiheitsgraden ist definiert als Verteilung von U = m j=1 Zj , Zj ∼ N h0, 1i unabhängig. Die Mahalanobis-Distanz 3.1.k vom Erwartungswert hat eine Chiquadrat-Verteilung mit m Freiheitsgraden, D2 = (X − µ)T Σ| −1 (X − µ) ∼ χ2m (siehe 3.1.k). j Der hochdimensionale Raum Aufgabe. Sei Z standard-normalverteilt. Man beantworte die folgenden Fragen für m = 2, 10, gross“. ” Wo ist die Dichte der Normalverteilung am höchsten? Wie gross ist der Erwartungswert des (quadrierten) Abstandes einer Beobachtung zum Nullpunkt? Wie gross ist die Wahrscheinlichkeit, dass eine Beobachtung innerhalb der Einheitskugel liegt? k Bedeutung der multivariaten Normalverteilung Siehe 1.1.m. Aufgabe. Leiten Sie die Verteilung der Kleinste-Quadrate-Schätzung b = (X T X )−1 X T Y β in der multiplen Regression Y = X β + E , Ei ∼ N 1 h0, σ 2 i, unabhängig, her. (Tipp: Y ∼ N h...i.) 3.3. ALTERNATIVE MODELLE 3.3 a 19 Alternative Modelle Sphärische Modelle f hzi = fehkzk2 i Elliptische Modelle X = µ + B Z , Z ∼ sphärisch, Dichte fe0 hkzki. Es folgt, dass | = wie bei der Normalverteilung nur Σ| = B B T identifizierbar ist, und f hx | µ, Σi −1 T e f0 h(x − µ) Σ| (x − µ)i. b Anwendung Weshalb unplausibel als Modell für Beobachtungen? Es gibt keine unabhängigen Variablen! Die elliptischen Verteilungen haben eine formale Bedeutung für robuste Schätzungen (siehe 5.3.d) und die Multivariate t-Verteilung (sphärisch) als Verteilung einer Statistik. c Lokations-Skalen-Familien X = µ + B Z , Z ∼ F0 wie oben. • F0 = N m h0, I i −→ Normalverteilung, • F0 sphärisch −→ elliptische Verteilungen, • F0 : X (j) unabhängig −→ allenfalls sinnvolle Modelle. Für nicht-normale F0 wird B identifizierbar; Σ| = varhXi genügt nicht mehr als Parameter. Das wird bei independent component analysis (ICA) ausgenützt. (j) d Fazit Es gibt kaum plausible Modelle für multivariate Daten ausser der multivariaten Normalverteilung. Praxis: Transformation der Randverteilungen, so dass X (j) ≈∼ N , dann hoffen auf multivariate Normalverteilung. 3.4 a Klassische Schätzung der Parameter Stichprobe n unabhängige Zufallsvektoren X i werden zu einer Matrix zusammengefasst. LEIDER werden die Spaltenvektoren X i dabei zu Zeilen der Matrix X . (j) X = [Xi ]ij Das entspricht einer sinnvollen Tabelle von Daten. Die Spaltenvektoren entsprechen einer langen Tradition der Mathematik. Für die Statistik wären Zeilenvektoren geeigneter. (Widerstand ist aber sinnlos.) X ist eine Zufallsmatrix. b Empirische Verteilung (j) Fbhxi = #{i | Xi ≤ x(j) , j = 1, ..., m} / n. Wenn man mit δh. | x∗ i die Punktmasse“ in x∗ bezeichnet (P hX = x∗ i = 1), dann P ” b kann man schreiben F h.i = (1/n) i δh. | X i i. 20 Multivariate Statistik c Mittelwert Der Erwartungswert µ wird geschätzt durch das arithmetische Mittel n h i 1X 1 (1) (2) (m) T µ b = X = X ,X ,...,X = Xi = X T 1 . n n i=1 > apply(t.d,2,mean) d Empirische Kovarianzmatrix Zusammenfassung der empirischen Varianzen und Kovarianzen ergibt die empirische Kovarianzmatrix c Σ| = S = n X T 1 1 XT X . Xi − X Xi − X = n−1 n−1 i=1 > t.var <− var(t.d) e Geschätzte Standardisierung b −1 (X i − µ bB bT = c Plug-in: Z i = B b), B Σ| (Cholesky oder symmetrisch). > t.b <− solve(chol(t.var)); t.xc <− scale(t.x,scale=F) te abziehen t.z <− t.xc%*%t.b Von der Numerik her daneben! # Mittelwer- Numerisch richtig:“ Q-R-Zerlegung von X c := X − 1X =: ” X c = Q R, Q T Q = I pseudo-orthogonal“, ” R right-triangular b −T Q = Z, R = B > t.qr <− qr(t.xc); t.z <− qr.Q(t.qr) Geschätzte Mahalanobis-Norm b 2 = (X − µ D b)T c Σ| −1 (X − µ b) ≈∼ χ2m Sollte ungefähr unabhängig chiquadrat-verteilt sein mit m FG. Überprüfung durch QQ-plot. > apply(t.z^2,1,sum) > qqplot(qchisq(ppoints(length(t.d2)),ncol(t.z)),t.d2, xlab="Quantiles of the Chisq. Distr.", ylab="Ordered Mahalanobis Dist.", main="QQ-plot for Mahalanobis Distances") f Streubereiche, grafisch Höhenkurven“ der Dichte der geschätzten Verteilung sind Ellipsoide, gegeben durch ”b 2 D = const. Aufgabe. Zeichnen Sie mit S Höhenlinien in ein Streudiagramm. 3.5. FEHLENDE DATEN 3.5 a 21 Fehlende Daten (j) Einzelne Daten Xi sind nicht vorhanden. Falls das Fehlen unabhängig ist von den Werten selbst, kann man trotzdem Parameter schätzen. Andernfalls braucht man ein spezifisches Modell für das Auftreten der Lücken, um noch etwas retten zu können. (Ein einfaches Modell: Zensierte Daten (censored data), Nachweisgrenze einer Messmethode.) b Missing at Random Verschiedene Definitionen ... c Listwise Deletion (j) Wenn Xi fehlt, wird die Beobachtung X i weggelassen. (Wenn einzelne Variable viele Lücken haben, lässt man besser diese Variablen weg.) > t.x[rbind(c(1,2),c(2,3),c(3,3))] <− NA > var(t.x,na.rm=T) ergibt das Gleiche wie > var(na.omit(t.x)) d Schätzung der einzelnen Parameter Man schätzt die einzelnen µ(j) als Mittelwerte über die jeweils vorhandenen Werte. Für Σ| jk : vorhandene Paare. Problem c Σ| nicht unbedingt positiv (semi-) definit. e Imputation Allgemein: Fehlende Daten schätzen“. Auf Grund von Regressionen. ” EM-Algorithmus. > library(norm) ; t.impi <- prelim.norm(t.x) ; t.impe <- em.norm(t.impi) ; t.impo <- getparam.norm(t.impi,t.impe) Multiple Imputation: Man setzt nicht den bedingten Erwartungswert ein, sondern eine Zufallszahl entsprechend der bedingten Verteilung. > rngseed(27463) ; imp.norm (setzt nur einmal ein) f Maximum likelihood Aufgabe. herleiten, programmieren mit Hilfe einer allgemeinen Optimierungsfunktion für m = 2. g Literatur: Rencher (1998), Sec. 1.9: Überblick für multivariate Statistik, kontinuierliche Daten, Schafer (1997), Little and Rubin (1987) ganze Bücher. S> library(norm) enthält Prozeduren, die in Schafer (1997) beschrieben sind. R> library(norm): ähnlich. 22 3.6 Multivariate Statistik Verteilungen der Schätzungen, Wishart-Verteilung a Verteilung des arithmetischen Mittels | Satz (a) EhXi = µ, varhXi = Σ/n | unabhängig, dann X ∼ N m hµ, Σ/ni | (b) Falls X i ∼ N m hµ, Σi (c) Bester linearer, erwartungstreuer Schätzer (strikt kleinste Kovarianzmatrix) für “alle” Verteilungen (mit endlicher Varianz). strikt kleinste Kovarianzmatrix“ ” heisst: varhT i−varhXi positiv semidefinit für alle T , oder varhaT T i ≥ varhaT Xi für alle a, für alle T . b Verteilung der empirischen Kovarianzmatrix: Wishart-Verteilung Satz EhS i = Σ| | unabhängig. Annahme X i ∼ N m hµ, Σi, Dann existiert B , so dass X i = B Z i + µ und Z i ∼ N m h0, I i. P S = B S Z B T ist eine lineare Funktion von S Z = (1/(n − 1) i Z i Z Ti . Also genügt es, die Verteilung von S für N m h0, I i zu kennen. Die Verteilung von (n − 1)S heisst Standard-Wishart-Verteilung. Die Verteilung für allgemeine µ und Σ| hängt nicht von µ ab und heisst WishartVerteilung. | unabhängig. Definition. Seien X 1 , ..., X n ∼ N m h0, Σi, P | Die Wishart-Verteilung Wh Σ, ni ist die Verteilung von i X i X Ti . Dichte (unwichtig!) 1 f hW i = c dethW i(n−m−1)/2 exphtrh− Σ| −1 W ii , 2 | m/2 1/c = 2nm/2 Γm hn/2i deth Σi falls n ≥ m und Σ| regulär. c Satz | unabhängig, dann (n − 1)S ∼ Wh Σ, | n − 1i Falls X i ∼ N m hµ, Σi, d Satz | unabhängig, dann sind X und S unabhängig. Falls X i ∼ N m hµ, Σi, Allgemein gilt: X und S sind unkorreliert. (Beweis siehe 3.8.d) Literatur: Fahrmeir, Hamerle and Tutz (1996, Satz 1.1), Bilodeau and Brenner (1999, Ch.7), Mardia, Kent and Bibby (1979, Ch.3.4). e Umgang mit Zufallsmatrizen Die Verteilung einer Schätzung von Σ| hat selber einen Erwartungswert und eine Kovarianzmatrix. Der Erwartungswert ist“ eine Matrix (kann als solche definiert werden), ” aber die Kovarianzmatrix enthält die Kovarianzen zwischen allen Paaren von Elementen c Σ| ij , c Σ| k` . Könnte man also als 4-dimensionalen Array aufziehen. Um so etwas zu umgehen, wurden die Notationen vec und Kronecker-Produkt eingeführt: vechAi: alle Spalten untereinanderschreiben: a(1) vechAi = ... a(m) A = [a(1) , ..., a(m) ] Kronecker-Produkt A ⊗ B : Matrix B mit jedem Element von A multiplizieren und 3.7. TESTS UND VERTRAUENSREGIONEN 23 wie Matrix A anordnen: (1) (m) A1 B · · · A1 B (j) .. .. .. A ⊗ B = [Ai B ]ij = . . . (1) (m) An B · · · An B Es ergibt sich ein eigenes Kalkül, zB. vechA X B i = (B T ⊗ A)vechX i. | Verteilungen lassen sich bestimmen: X ∼ N mn hvech1µT i, I n ⊗ Σi Literatur: Bilodeau and Brenner (1999, Ch.6) 3.7 a Tests und Vertrauensregionen Lokation einer Stichprobe | Von Interesse: H0 : µ = 0 (resp. = µ ) X i ∼ N m hµ, Σi. 0 b Sei Σ| bekannt. Likelihood-Ratio-Test (LRT): T Teststatistik nX Σ| −1 X ∼ χ2m unter H0 (exakt). Aufgabe. : Beweis. c Union-Intersection Man spricht von einem Union-Intersection-Test, falls • die Nullhypothese H0 als Durchschnitt von Hypothesen H0a und • der kritische Bereich C als Vereinigung der kritischen Bereiche C0a von Tests für H0a dargestellt werden kann. Bsp: Als Durchschnitt geschrieben: H0a : aT µ = 0, H0 = ∩a:kak=1 H0a . | Test von H0a : Teststatistik Ta = n(aT X)2 /(aT Σa), Ca = {Ta > c} C = ∪a:kak=1 = {maxa:kak=1 Ta > c}. T Es gilt maxa:kak=1 Ta = nX Σ| −1 X , also erhält man die Teststatistik des LRT. d e Σ| unbekannt −1 T Teststatistik ist Hotellings T 2 = X c Σ| X , n−m 2 (n−1)m T ∼ F hm, n − mi Vertrauensregionen | für µ: ein Ellipsoid, bestimmt durch µ b und c Σ/n. f Tests über Σ| Tests für Unkorreliertheit von einer Variablen mit einer oder mehreren anderen −→ Regression, t- resp. F-Test. Siehe nächstes Kapitel. g Bootstrap siehe... Literatur: Bilodeau and Brenner (1999, Ch.14) 24 3.8 Multivariate Statistik Geometrie im Raum der Stichproben oder der Zufallsvariablen a Der IRn Betrachte die Spalten von X als Vektoren im IRn . Leider reicht unsere Anschauung nur bis IR3 , also eine Stichprobe vom Umfang n = 3. Vektorraum im mathematischen Sinn. Addition, Vielfaches, P Skalarprodukt xT y = i xi yi , wenn zentriert, x = 0, y = 0, proportional zur empiriyi = xT y/(kxkkyk) gleich der empirischen Korrelation. schen Kovarianz; P coshx, 2 2 Norm kxk = i xi proportional zum empirischen 2. Moment. Wenn zentriert, proportional zur empirischen Varianz. b Linearkombinationen {λ1 x(1) + ... + λk x(p) } linearer Unterraum. c Multiple Regression als Projektion Zielgrösse Y , projiziert auf Unterraum, der durch die erklärenden Grössen x(1) , ..., x(p) aufgespannt ist. P Angepasste Werte (fit) Yb := j βbj X (j) , Residuen R := Y − Yb . Projektionsmatrix H = X (X T X )−1 X T macht aus Y den (Least Squares) fit Yb = H Y . d Unabhängigkeit von X und S √ Sei Q eine orthogonale Matrix mit erster Zeile 1T / n. Bilde U = Q X . √ Es ist U1 = nX . X i unkorreliert =⇒ U i unkorreliert. Orthogonale Transformation ( Rotation“) lässt Skalarprodukt invariant: ” T T X T X = (X − 1X )T (X − 1X ) + nXX Xn = UT U = U U T + U 1 U T1 i=2 i i T Letzte Terme P gleich, also auch zweitletzte. X ist Funktion von U 1 ; S ist Vielfaches der Summe ni=2 U i U Ti , also Funktion von U 2 , ..., U n . Also sind X und S unkorreliert. e Zufallsvariable im Hilbertraum Zufallsvariable X (j) mit endlicher Varianz bilden Vektorraum (über reellen oder komplexen Zahlen). Addition, Vielfaches, Skalarprodukt EhX · Y i, daraus Norm −→ unitärer Raum. Wenn ausserdem vollständig, dann Hilbertraum Alles vorher Erwähnte lässt sich übertragen. f Hilbertraum auch sehr nützlich für Zeitreihen und zufällige Funktionen.