I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Eine Einführung in R: Dichten und Verteilungsfunktionen Bernd Klaus, Verena Zuber Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig 4. November 2010 Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 1/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen I. Diskrete Daten Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen II. Stetige Daten Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 2/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Einschub: Zufallsvariablen Eine Variable oder Merkmal X , dessen Werte die Ergebnisse eines Zufallsvorganges sind, heiÿt Zufallsvariable. Notation: I X : Die Zufallsvariable I x : Eine Realisierung oder Beobachtung der Zufallsvariable Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 3/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen I. Diskrete Daten Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 4/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen Eine Zufallsvariable heiÿt diskret, wenn sie endlich viele Werte x1 , ..., xk , ... annehmen kann. Die Wahrscheinlichkeitsfunktion f (x ) einer diskreten Zufallsvariable X ist für x ∈ R deniert durch die Wahrscheinlichkeiten pi : f (x ) = P (X 0 = xi ) = pi falls x = xi ∈ {x1 , ..., xk , ...} sonst Die Verteilungsfunktion F (x ) einer diskreten Zufallsvariable ist gegeben durch die Summe: F (y ) = P (X ≤ y) = X f (xi ) i :x i ≤ y Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 5/24 I. Diskrete Daten Theorie: Wahrscheinlichkeits und Verteilungsfunktion II. Stetige Daten Diskrete Verteilungen III. Der Umgang mit Zufallszahlen Eigenschaften Für die Wahrscheinlichkeitsfunktion f (x ) gilt: 0 ≤ f (x ) ≤ 1 X pi =1 i ≥1 Für die Verteilungsfunktion F (x ) gilt: F (x ) = 1 0 x ≥ max (x ) x ≤ min(x ) F(x) ist monoton steigend mit Wertebereich 0 bis 1. Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 6/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen Bernoulli-Experiment Binäre Zufallsvariable X X : Tritt ein Ereignis A ein? = 1 falls 0 falls A eintritt A nicht eintritt Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 < π < 1 ein P (X = 1) = π P (X = 0) = 1 − π Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 7/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen Binomialverteilung Die Binomialverteilung entspricht dem n-maligen Durchführen eines Bernoulli-Experimentes mit Wahrscheinlichkeit π n x n−x f (x ) = x π (1 − π) 0 falls x = 0, 1, ..., n sonst Bsp: Ein Schütze schieÿt n = 10 mal auf eine Torwand. Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal trit, wenn er eine Treerwahrscheinlichkeit π von 25 % hat? P (X = 5) = 10 0.255 (1 − 0.25)10−5 = 0.058 5 Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 8/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Wahrscheinlichkeits und Verteilungsfunktion Diskrete Verteilungen Diskrete Gleichverteilung Die diskrete Gleichverteilung charakterisiert die Situation, dass k1 , . . . , kn -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommen werden. f (x ) = falls x = 1, ..., n 0 sonst 1 n Bsp: Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 1 6 9/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen II. Stetige Daten Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 10/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen Eine Zufallsvariable heiÿt stetig, wenn sie unendlich viele Werte x1 , ..., xk , ... annehmen kann, wie beispielsweise metrische Variablen. Die Dichte f (x ) einer stetigen Zufallsvariable [a, b] deniert als: P (a ≤ X ≤ b) = Z b a X ist für ein Intervall f (x )∂ x Die Verteilungsfunktion F (y ) einer stetigen Zufallsvariable ist gegeben durch das Integral: F (y ) = P (X ≤ y) = Bernd Klaus, Verena Zuber Z y −∞ f (x )∂ x Dichten und Verteilungsfunktionen 11/24 I. Diskrete Daten Theorie: Dichte und Verteilungsfunktion II. Stetige Daten Stetige Verteilungen III. Der Umgang mit Zufallszahlen Eigenschaften Für die Dichte f (x ) gilt: Z +∞ −∞ P (X f (x )∂ x = 1 = a) = Z a a f (x )∂ x = 0 Für die Verteilungsfunktion F (x ) gilt: F (x ) = 1 für 0 für F 0 (x ) = x ≥ max(x ) x ≤ min(x ) ∂ F (X ) = f (x ) ∂x Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 12/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Normalverteilung Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen N (µ, σ) Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ-Verteilung mit Erwartungswert µ und Varianz σ 2 : 1 1 f (x |µ, σ) = √ exp − 2 σ · 2π I I I x −µ 2 ! σ Symmetrisch um µ Nur abhängig von µ und σ Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler, Gröÿe und Gewicht Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 13/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Stetige Gleichverteilung Theorie: Dichte und Verteilungsfunktion Stetige Verteilungen U (a, b) Gegeben: ein Intervall, deniert durch reelle Zahlen a < b: 1 für x ∈ [a, b] f (x ) = 0b−a sonst a und b mit Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests. Hat man x1 , . . . , xn Realisierungen einer Variablen X mit Verteilungsfunktion F , so gilt: F (x1 ), . . . , F (xn ) ∼ U (0, 1) Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 14/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen III. Umgang mit Zufallszahlen Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 15/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen R ermöglicht den Umgang mit Zufallszahlen. Beispiel: (Standard)Normalverteilung 1. Ziehen von n Zufallszahlen: rnorm(n, mean=0, sd=1) 2. Dichte im Wert x : dnorm(x, mean=0, sd=1) Beispiel: dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 3. Verteilungsfunktion im Wert x : pnorm(x, mean=0, sd=1) Beispiel: pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 4. Quantil für Wahrscheinlichkeit p : qnorm(p, mean=0, sd=1) Beispiel: qnorm(c(0.25,0.5,0.75)) -0.67449 0.00000 0.67449 Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 16/24 I. Diskrete Daten Erzeugen von Zufallszahlen II. Stetige Daten Darstellung von Verteilungen III. Der Umgang mit Zufallszahlen Beispiel: (Standard)Normalverteilung 1. Dichte im Wert x : dnorm(c(-1,0,1)) 0.24197 0.39894 0.24197 2. Verteilungsfunktion im Wert x : pnorm(c(-1,0,1)) 0.15866 0.50000 0.84134 Verteilungsfunktion 1.0 0.4 Dichte Fx 0.4 ● 0.2 0.1 ● 0.0 0.0 fx 0.2 0.6 0.3 0.8 ● −4 −2 0 2 4 x Bernd Klaus, Verena Zuber −4 −2 0 2 4 x Dichten und Verteilungsfunktionen 17/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen R-Befehle I I I I I I I I I Erzeugen von Zufallszahlen Darstellung von Verteilungen für weitere Verteilungen rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean und Standardabweichung sd rexp(n, rate=1) Exponentialverteilung mit Rate rate rpois(n, lambda) Poissonverteilung mit Rate lambda rcauchy(n, location=0, scale=1) Cauchyverteilung mit Lokations- und Skalenparameter rt(n, df)(Studen)t -verteilung mit Freiheitsgraden df rbinom(n, size, prob) Binomialverteilung vom Umfang size und Wahrscheinlichkeit prob rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeit prob rhyper(nn, m, n, k) Hypergeometrische Verteilung runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min, max] Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 18/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen Darstellung: Histogramme und Kerndichteschätzer 1. Histogramme: Darstellung von stetigen und diskreten Verteilungen hist(x, breaks = AnzahlBins, freq = NULL ) I I I I x: Daten breaks = AnzahlBins: Steuerung der Teilintervalle freq=TRUE: absolute Häugkeiten freq=FALSE: relative Häugkeiten (empirische Dichte) 2. Kerndichteschätzer: Darstellung von stetigen Verteilungen plot(density(x, kernel=gaussian, bw)) I I I density(x): Kerndichteschätzung der Daten kernel: Option für spezielle Kerntypen bw: Bandbreite Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 19/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen Darstellung: Kerndichteschätzer Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zur Schätzung von stetigen Dichten Hat man gegebene Daten x1 , . . . , xn und eine konstante Bandbreite h ∈ R so ist der Kerndichteschätzer gegeben durch: n x − xi fˆ(x ) = K n i =1 h h 1X1 Typische Kerne sind: I Bisquare Kern: K (u ) = 15 (1 − u 2 )2 für 16 I Gauÿ Kern: K (u ) = √1 2π u ∈ [−1, 1] und 0 sonst exp − Bernd Klaus, Verena Zuber 1 2 u ! 2 für u∈R Dichten und Verteilungsfunktionen 20/24 I. Diskrete Daten Erzeugen von Zufallszahlen II. Stetige Daten Darstellung von Verteilungen III. Der Umgang mit Zufallszahlen Beispiel: Simulation aus der Normalverteilung data10<-rnorm(10) hist(data10, freq=FALSE) lines(density(data10), col=2) data1000<-rnorm(1000) hist(data1000, freq=FALSE) lines(density(data1000), col=2) Histogram of data1000 Density 0.0 0.1 0.2 0.2 0.1 0.0 Density 0.3 0.3 0.4 0.4 Histogram of data10 −2 −1 0 1 2 3 data10 Bernd Klaus, Verena Zuber −3 −2 −1 0 1 2 3 data1000 Dichten und Verteilungsfunktionen 21/24 I. Diskrete Daten Erzeugen von Zufallszahlen II. Stetige Daten Darstellung von Verteilungen III. Der Umgang mit Zufallszahlen Beispiel: Wie plottet man die Normalverteilung? x<-seq(from=-4, to=4, by=0.1) ] Dichte fx<-dnorm(x) plot(x,fx, type=l) ] Verteilungsfunktion Fx<-pnorm(x) plot(x,Fx, type=l) Verteilungsfunktion Fx 0.4 0.0 0.2 0.1 0.0 fx 0.2 0.6 0.3 0.8 1.0 0.4 Dichte −4 −2 0 2 4 x Bernd Klaus, Verena Zuber −4 −2 0 2 4 x Dichten und Verteilungsfunktionen 22/24 I. Diskrete Daten II. Stetige Daten III. Der Umgang mit Zufallszahlen Erzeugen von Zufallszahlen Darstellung von Verteilungen Darstellung: Q-Q-Plot Quantil-Quantil-Plots tragen die (eventuell empirischen) Quantile zweier Verteilungen gegeneinander ab. Somit können Verteilungen miteinander verglichen werden. I qqplot(x,y): Plottet die emp. Quantile von x gegen die von y I qqnorm(y): Plottet die emp. Quantile von y gegen die einer Standard-Normalverteilung I qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch das erste und dritte Quartil geht Bsp: Vergleich von Normal- und t -Verteilung data <- rt(400, df = 2) qqnorm(data, main = QQ-Plot, xlab= Normalverteilung, ylab = t-Verteilung) qqline(data, col = green) Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 23/24 I. Diskrete Daten Erzeugen von Zufallszahlen II. Stetige Daten Darstellung von Verteilungen III. Der Umgang mit Zufallszahlen Darstellung: Q-Q-Plot 10 QQ−Plot ● ● 5 ● −5 ● −10 ● ●● ● −15 t−Verteilung 0 ● ● ●●●●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● −3 −2 −1 0 1 2 3 Normalverteilung Bernd Klaus, Verena Zuber Dichten und Verteilungsfunktionen 24/24