Einführung in die Geostatistik (2) Fred Hattermann (Vorlesung), [email protected] Michael Roers (Übung), [email protected] Gliederung 2 Allgemeine Statistik 2.1 Deskriptive Statistik 2.2 Wahrscheinlichkeitstheorie 2.3 Statistische Tests Was ist die Aufgabe der Statistik? Aufgabe der Statistik ist die Zusammenfassung von Daten, deren Darstellung, Analyse und Interpretation. Sie müssen schon bei der Planung eines Versuches berücksichtigt werden. Man unterscheidet zwischen beschreibender oder deskriptiver und schließender oder analytischer Statistik. Statistik und Stochastik: Statistik ist die Methodik, Daten nach einem Zufallsverfahren zu gewinnen und zu analysieren, um zu neuen Erkenntnissen zu gelangen. Stochastik ist die wissenschaftliche Disziplin, die sich mit der Behandlung von Zufallsereignissen und der Wahrscheinlichkeitsrechnung befasst. Die Notwendigkeit zur Anwendung statistischer Methoden ergibt sich immer dann, wenn die Datengrundlage für numerische Analysen nicht vollständig ist, d.h. wenn nur eine Stichprobe anstelle der eigentlich interessierenden Grundgesamtheit zur Verfügung steht. Warum Statistik? Ein statistisches Modell beschreibt die Eigenschaften Zufallsprozesses. Fallhöhe [m] Beispiel für deterministisches Ereignis: Fallhöhe eines Balles. Zeit [t] Niederschlag [mm] Augenzahl Beispiel für unkorreliertes stochastisches (stat.) Ereignis: Würfeln. Zeit [t] Beispiel für korreliertes stochastisches (stat.) Ereignis : Zeit [t] Niederschlagshöhe. eines 2 Allgemeine Statistik - Einführung 1 – Es ist grundsätzlich unmöglich, die Umwelt vollständig zu beschreiben, vielmehr werden Realitätsausschnitte oder Merkmale untersucht. Die konkrete Merkmalsausprägung ist messbar und wird für die mathematische (statistische) Analyse in Zahlwerte kodiert. In der Mathematik bezeichnet man die Merkmale als Variablen und die durch Zahlwerte kodierten Merkmalsausprägungen als Werte. Beispiel: Beobachtungsvariable = Stoffkonzentration; Wert der Beobachtungsvariable = X [mg/l]. Es gibt unabhängige und abhängige Variablen. Z.B. ist die Temperatur von der Höhe abhängig, die Höhe aber nicht von der Temperatur. Diese Abhängigkeit kann man sich bei der Interpolation zunutze machen. Weiter gibt es kategorische oder qualitative Variablen wie z.B. geologische Einheiten und metrische oder quantitative Variablen wie z.B. Konzentrationen. 2 Allgemeine Statistik - Einführung 1 – Beispiel: Hinzunahme von Höheninformation zur Interpolation von Temperaturen (links ohne, rechts mit). 2 Allgemeine Statistik 2.1 Einführung (2) Die deskriptive Statistik dient der Beschreibung quantitativempirischer Daten. Ziel ist es, Daten und die ihnen zugrunde liegenden Muster sinnvoll darzustellen und zusammenzufassen. Beispiele sind: • Tabellen (z.B. Häufigkeitstabellen, oft Einteilung in Klassen); • Grafiken (z.B. Balkendiagramme oder Histogramme, Kreisdiagramme, Liniendiagramme); • Statistische Kennwerte (z.B. Mittelwerte, Streuungsmaße). Im Gegensatz zur deskriptiven Statistik versucht man in der analytischen Statistik, von den Ergebnissen der Stichprobe auf die Grundgesamtheit der Beobachtungsvariablen zu schließen: • Auf der Basis der Stichprobenwerte kann man auf die (räumliche) Verteilung der Beobachtungsvariablen schließen; • Auf der Basis von Stichprobenwerten kann man Hypothesen überprüfen (ist z.B. die Temperatur in der zweiten Hälfte des letzten Jahrhunderts signifikant höher als in der Zeit davor?). -> statistische Tests 2 Allgemeine Statistik 2.1 Deskriptive Statistik Häufigkeitsverteilung: Messwerte qualitativer (kategorischer) Variablen treten meist mehrfach auf. Bei quantitativen (metrischen) Variablen bildet man meist Intervalle oder Klassen, denen die Messwerte zugeordnet werden. Das Ergebnis ist in beiden Fällen eine Häufigkeitsverteilung. Diese Häufigkeitsverteilung lässt sich tabellarisch oder grafisch darstellen: 1 2 3 4 5 6 7 Klassengrenzen 1.0 - 2.0 2.0 - 3.0 3.0 - 4.0 4.0 - 5.0 5.0 - 6.0 6.0 - 7.0 7.0 - 8.0 Anzahl Werte 1 4 6 11 7 3 2 12 10 Anzahl Werte Klasse 8 6 4 2 Tabelle 0 1 Histogramm 2 3 4 Klasse 5 6 7 2 Allgemeine Statistik 2.1 Deskriptive Statistik Z.B. Temperaturen [°C] Klimastationen 2 Allgemeine Statistik 2.1 Lagemaße Lagemaße: Modalwert = der in der Stichprobe am häufigsten auftretende Wert; Medianwert = sowohl oberhalb als auch unterhalb des Medianwertes liegen 50 % der nach Größe sortierten Werte, er wird deshalb auch Zentralwert genannt; Mittelwert = arithmetisches Mittel oder Durchschnitt, also die Summe der Werte xi durch die Anzahl n der Werte: x 1 n n xi i 1 2 Allgemeine Statistik 2.1 Streuungsmaße Dispersions- oder Streuungsmaße: Streuungsmaße beschreiben die Streuungsbreite oder Heterogenität der Werte. Bei kleiner Dispersion verteilen sich die Werte eng um den Mittelwert, bei großer weit. Wichtig sind: Range = Variationsbreite oder Spannweite zwischen dem größten und dem kleinsten Wert. Varianz = Die empirische Varianz ist eine Kennzahl für die Dispersion von gemessenen Werten um den Mittelpunkt herum. Je stärker die Messwerte der einzelnen Werte vom Mittelwert abweichen, desto größer ist die Varianz s2 der Variablen. In die Berechnung der empirischen Varianz gehen die quadrierten Abweichungen der einzelnen Werte xi von ihrem Mittelwert ein: s2 1 n 1i 2 n ( xi x) 1 Standardabweichung = Quadratwurzel der Varianz. 2 Allgemeine Statistik 2.1 Beispiel Lagemaße und Streuungsparameter Mittelwert x 1 n n 1 Varianz s 2 xi n 1i i 1 2 n ( xi x) 1 Errechnung Varianz s2 Meßwerte 5 (x- x )2 = (5-4)2 = 1 3 1 4 0 3 1 5 1 4 0 Summe Summe 4 Mittelwert Varianz 0.8 Was ist ein statistisches Modell? Ein statistisches Modell beschreibt die Eigenschaften Zufallsprozesses. Fallhöhe [m] Beispiel für deterministisches Ereignis: Fallhöhe eines Balles. Zeit [t] Niederschlag [mm] Augenzahl Beispiel für unkorreliertes stochastisches (stat.) Ereignis: Würfeln. Zeit [t] Beispiel für korreliertes stochastisches (stat.) Ereignis : Zeit [t] Niederschlagshöhe. eines 2 Allgemeine Statistik 2.2 Wahrscheinlichkeitstheorie Wahrscheinlichkeitsdichte oder Dichtefunktion: Betrachtet man stetige Zufallsvariablen, so kann man die Wahrscheinlichkeit für das Auftreten einer Realisation (eines Elementarereignisses) nicht bestimmen, dafür aber die Wahrscheinlichkeit, dass der Wert innerhalb eines Intervalls liegt. Die Wahrscheinlichkeitsdichte oder Dichtefunktion gibt an, mit welcher Wahrscheinlichkeit die stetige Zufallsvariable X innerhalb von a und b liegt: b P(a X b) f ( x)dx a Die Gesamtfläche unter dem Integral ist auf 1 normiert: f ( x)dx 1 2 Allgemeine Statistik 2.2 Eintrittswahrscheinlichkeiten Unterschreitungswahrscheinlichkeit Zwischenwahrscheinlichkeit Überschreitungswahrscheinlichkeit 2 Allgemeine Statistik 2.2 Verteilungsmodelle 2 Allgemeine Statistik 2.2 Verteilungsmodelle Verteilungsmodelle: Die meisten Zufallsvariablen können durch Verteilungsmodelle beschrieben werden, wobei für stetige und diskrete Zufallsvariablen unterschiedliche Modelle Anwendung finden. Gleichverteilung: Für eine diskrete Zufallsvariable bedeutet die Tatsache, dass sie gleichverteilt ist, dass alle k möglichen Ereignisse bzw. xi-Werte gleich wahrscheinlich sind: f(xi) = 1/k für alle i = 1, ..., k Für eine stetige Zufallsvariable bedeutet die Tatsache, dass sie gleichverteilt ist, dass der Graph der Funktionsvorschrift einen konstanten Wert hat und parallel zur x-Achse verläuft. 2 Allgemeine Statistik 2.2 Normalverteilung Wichtigstes statistisches Modell: Normalverteilung Mit Mittelwert (Erwartungswert) µ, Streuung (Varianz) σ2 und Standardabweichung σ. Für die Standardnormalverteilung ist µ = 0 und σ = 1. )2 -σ µ +σ -1 0 1 Normalverteilung 2 0.50 0.40 0.30 y y 1 e 2 1 (x 2 0.20 0.10 0.00 -3 -2 x 2 3 2 Allgemeine Statistik 2.2 Normalverteilung Normalverteilung: Die Normalverteilung ist ein Verteilungsmodell für stetige Zufallsvariablen und wurde von Carl Friedrich Gauß entwickelt -> „Gaußsche Glockenkurve“. Wichtig: • Die Normalverteilung ist symmetrisch (Erwartungswert) µ mit einer Streuung σ. • Die Streuung bestimmt dabei die Breite der Verteilung. • Normalverteilungen mit gleichem µ und σ sind identisch. • Modalwert = Median = Mittelwert • Im Bereich µ - σ bis µ + σ liegen ca. 68 % der Werte. • Im Bereich µ - 2σ bis µ + 2σ liegen ca. 95.5 % der Werte. um den Mittelwert 2 Allgemeine Statistik 2.2 Vertrauensbereiche Vertrauensbereich für einen Beobachtungswert: • Im Bereich µ - 1.96*σ bis µ + 1.96*σ liegen ca. 95 % der Werte. • Im Bereich µ - 2.58*σ bis µ + 2.58*σ liegen ca. 99 % der Werte. • Im Bereich µ - 3.29*σ bis µ + 3.29*σ liegen ca. 99.9 % der Werte. Beispiel: µ = 3, σ = 1 => 95% der Werte liegen zwischen 3 +/- 1.96 * 1 2 Allgemeine Statistik 2.2 Vertrauensbereiche Vertrauensbereich für den wahren Mittelwert µ: Gibt das Intervall an, das den wahren Mittelwert µ mit einer bestimmten Wahrscheinlichkeit einschließt. Vorraussetzung ist, dass die Verteilung der für eine Stichprobe errechneten Mittelwerte eine Normalverteilung ist. Formel: Vertrauensbereich x s z* n Dabei ist z für z.B. einen Vertrauensbereich von 95% = 1.96. x 2 Allgemeine Statistik 2.2 Zentrale Grenzwertsatz Zentraler Grenzwertsatz: Wenn man eine Serie von Zufallsstichproben gleicher Größe aus derselben Grundgesamtheit zieht und die Mittelwerte berechnet, dann tendiert die Verteilung der Mittelwerte zur Normalverteilung. Durch welche Parameter wird ein statistisches Modell beschrieben? 1. Moment: Erwartungswert von Z: E[ Z ] x z f ( z )dz 1 n n Für Normalverteilung gleich dem Mittelwert xi i 1 2. Moment: Varianz von Z 2 s Var[Z ] E[(Z E[Z ]) ] 2 1 n 1i n x )2 ( xi 1 Kovarianz zweier Zufallsvarialen Z1 und Z2: Cov[Z1Z 2 ] E[(Z1 E[ Z1 ])(Z 2 E[Z 2 ])] Korrelation zweier Zufallsvariablen: Kor[ Z1Z 2 ] Cov( Z1Z1 ) Var[ Z1 ] Var[ Z 2 ] Cov( Z1 , Z 2 ) 1 n n ( z1,i i 1 z1 )( z2,i z2 ) 2 Allgemeine Statistik 2.2 Unterschiedliche Normalverteilungen y1 Gleiche Varianz, unterschiedliche Mittelwerte 5 2. 6 3. 2 3. 8 4. 4 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 y1 5 2. 6 3. 2 3. 8 4. 4 2 0. 2 0. 8 1. 4 y2 -1 -0 .4 -4 -3 .4 -2 .8 -2 .2 -1 .6 Gleiche Mittelwerte unterschiedliche Varianz 2 0. 2 0. 8 1. 4 y2 -1 -0 .4 -4 -3 .4 -2 .8 -2 .2 -1 .6 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 2 Allgemeine Statistik 2.2 Verteilungsmodelle – Z-Transformation Die Z-Transformation Für viele biometrische Verfahren wird die Umwandlung der untersuchten Variablen einer gegebenen Normalverteilung in die Standard-Normalverteilung vorausgesetzt. Sie erfolgt durch: z ( xi f ( z) x) mit s 1 e 2 z2 2 x = Mittelwert und s = Standardabweichung 2 Allgemeine Statistik 2.2 Analytische Statistik Aber: Viele natürlichen Zufallsvariablen sind nicht normalverteilt. Eine häufig vorkommende Verteilung natürlicher Zufallsvariabler, welche per Definition nur positiv sein ykönnen (z.B. der Permeabilität von Böden), ist die Lognormalverteilung: y 1 x 1 e 2 1 (ln x 2 )2 2 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 0 0.5 1 1.5 2 2.5 3 2 Allgemeine Statistik 2.2 Verteilungstransformation Transformation in eine Normalverteilung: Viele statistische Methoden setzen eine Normalverteilung der untersuchten Größe voraus. Liegt diese nicht vor, können verschiedene Verfahren angewandt werden, um eine schiefe Verteilung in eine Normalverteilung umzuwandeln: Logarithmische Transformation: y log x, y ln x y 1 oder y x 1 x Beispiel: Linkssteile Verteilungen Kehrwerttransformation: Beispiel: Rechtssteile Verteilungen Quadratwurzeltransformation: y x Beispiel: Vorliegen kleiner ganzer Zahlen bei einer Zählung Potenztransformation: Beispiel: Bei Rechtsgipfligkeit y xn 2 Allgemeine Statistik 2.3 Statistische Tests Vertrauensbereich: Der aus der Stichprobe berechnete Mittelwert µ ist nur ein Schätzwert für den Mittelwert (man kennt normalerweise nicht die gesamte Zufallsfunktion). Mit bestimmter statistischer Sicherheit lässt sich allerdings ein Vertrauensbereich +/- µ bis zu einem Schwellenwert α angeben, der den Parameter mit einschlisst. Nullhypothese und Alternativhypothese: Ho: Die Nullhypothese ist die Behauptung, dass beobachtete Unterschiede zwischen zwei Verteilungen rein zufällig sind. Ha: Durch Ausschluss von Ho wird die Alternativhypothese angenommen, welche bedeutet, dass ein Effekt vorhanden ist. Fehler 1. und 2. Art: Fehler 1. Art: Die Nullhypothese wurde unberechtigt abgelehnt. Fehler 2. Art: Die Nullhypothese wurde unberechtigt beibehalten. T-Verteilung Tabellenwerte H0 -> Unterschiede sind zufällig Ha -> Unterschiede sind nicht zufällig T - test für gleichgroß e Stichprobe n : t Prüfhypoth esen : Ho : a µb Ha : a µb http://www.faes.de/Basis/Basis-Statistik/Basis-Statistik-Tabelle-Studen/basis-statistik-tabelle-studen.html | x1 - x 2 | s12 s 22 n 2 Allgemeine Statistik 2.3 Statistische Tests Zur Erläuterung Vertrauensbereich: Der aus der Stichprobe berechnete Mittelwert µ ist nur ein Schätzwert für den Mittelwert (man kennt normalerweise nicht die gesamte Zufallsfunktion). Mit bestimmter statistischer Sicherheit lässt sich allerdings ein Vertrauensbereich +/- µ bis zu einem Schwellenwert α angeben, der den Parameter mit einschlisst. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Statistische Tests: Statistische Test liefern Kriterien, um ausgehend von den Messwerten aus den Stichproben die aufgestellte Hypothesen (Ho bzw. Ha) anzunehmen oder abzulehnen. Dazu wird meist eine Prüfgröße errechnet. Anpassungstests ermitteln, ob die Werte der Stichprobe einer theoretischen Verteilung, z.B. der Normalverteilung, gehorchen. Sie selbst sind verteilungsfreie Verfahren. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Konservative Tests: Fest vorgegebene Fehlerwahrscheinlichkeiten α für den Fehler 1. oder 2. Art zugunsten der Nullhypothese (halten länger als geboten an der Nullhypothese fest, darum ist ein relativ großer Stichprobenumfang nötig, um Ho zu verwerfen). Einseitige und zweiseitige Tests: Die Nullhypothese lautet meist, dass zwei Parameter einer gleichen Grundgesamtheit entstammen. Die Alternativhypothese kann alternativ lauten „die Parameter sind ungleich“ (zweiseitige Alternativhypothese, da der Parameter 1 größer oder kleiner als Parameter 2 sein kann). Man müsste einen zweiseitigen Test anwenden. Weiß man allerdings schon die Richtung der Änderung (größer oder kleiner), muss man einen einseitigen Test anwenden. Beim einseitigen Test ist die Fehlerwahrscheinlichkeit (α/2) kleiner als beim zweiseitigen Test. Daher hat der einseitige eine höhere Teststärke und deckt bestehende Unterschiede eher auf. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Statistische Tests: Parametrische Tests (Vergleich von Parametern) setzten im allgemeinen Normalverteilung und Varianzhomogenität voraus. Bei den parameterfreien oder verteilungsfreien Verfahren werden anstelle der Messwerte Rankzahlen verwendet. Sie haben allerdings eine geringere Teststärke. Z.B. werden beim Kolmorogoff-Smirnoff-Test (K-S-Test) nur die Summenkurven der Normalverteilung und die der empirischen Daten auf ihre Abstände überprüft. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Beispiel 1: Es soll untersucht werden, ob die Werte einer Stichprobe Normalverteilt sind. Anwendbare Tests: - graphisch durch Wahrscheinlichkeitsnetz - Chi2-Test als Anpassungstest - G-Test als Anpassungtest - Test nach Kolmogoroff-Smirnoff - Schnelltest nach David und Mitarbeitern - Prüfung auf Schiefe und Excess 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Beispiel 1: Test auf Normalverteilung. Schnelltest nach David und Mitarbeitern: Man errechnet die Spannweite (den Range) und die Standardabweichung der Verteilung und vergleicht deren Quotient mit tabellierten Werten. Liegt er oberhalb einer kritischen Grenze, wird Ho abgelehnt. Prüfgröße: Spannweite (Range) Streuung R s Spannweite (Range) Streuung 10 1.36 Mit R = 10.0, s = 1.36: 7.35 Man liest dann aus einer Tabelle ab, ob der Wert 7.35 bei einer bestimmten Fehlerwahrscheinlichkeit (z.B. N = 280, α = 5%) den oberen Grenzwert überschreitet. Ist dies der Fall, wird die Hypothese der Normalverteilung abgelehnt. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Beispiel 2: Es soll untersucht werden, ob sich zwei normalverteilte Stichproben signifikant unterscheiden. y1 5 2. 6 3. 2 3. 8 4. 4 2 0. 2 0. 8 1. 4 y2 -1 -0 .4 -4 -3 .4 -2 .8 -2 .2 -1 .6 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Beispiel 2: Es soll untersucht werden, ob sich zwei normalverteilte Stichproben signifikant unterscheiden (hier: Eiergröße bei Fischen verschiedenen Alters). A B 40 38 38 40 33 41 37 39 34 43 36 42 39 37 35 40 x 36.5 40.0 s 6.0 4.0 n 8 8 Freiheitsg rade 8 8 2 T - test für gleichgroß e Stichprobe n : t Prüfhypoth esen : Ho : a µb Ha : a µb Irrtumswah rscheinlic hkeiten : 0.025 (Test einseitig) t | 36.5 - 40.0 | 6 4 8 3.13 | x1 - x 2 | s12 s 22 n 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Beispiel 2: Es soll untersucht werden, ob sich zwei normalverteilte Stichproben signifikant unterscheiden (hier: Eiergröße bei Fischen verschiedenen Alters). Ergebnis: Der errechnete Wert für den einseitigen T-Test ist 3.13 . Er liegt damit über dem tabellierten Wert von 2.15 für 14 Freiheitsgrade und ein Signifikanzniveau von 2.5%. Daraus folgt, dass Ho (µa=µb) abgelehnt werden muss, die Verteilungen sind also ungleich, und die Eier jüngerer Fische kleiner als die älterer Fische. 2 Allgemeine Statistik 2.3 Analytische Statistik – statistische Tests Trenduntersuchung Strahlung Mann/Kendall Test (Zeitreihen gehen von 1951-2003). 2 Allgemeine Statistik 2. Wahrscheinlichkeitstheorie Zufallsexperiment: Die Wahrscheinlichkeit P (probabilité) ist ein quantitatives Maß, das die Sicherheit oder Unsicherheit eines Ereignisses ausdrückt. Ein Zufallsexperiment ist ein reales oder gedachtes Experiment, das theoretisch beliebig oft wiederholt werden kann, nach einer bestimmten Vorschrift durchgeführt wurde und dessen Ergebnis nicht mit Sicherheit vorhersehbar ist. Beispiel: Würfeln. Das Ergebnis eines Zufallsexperiments heißt Ereignis. Der Ereignisraum S ist die Grundgesamtheit oder Menge aller möglichen Elementarereignisse (nicht mehr in weitere Ereignisse zu unterteilen). Beispiel: „Werfen eines Würfels“ ist das Zufallsexperiment, {6}, {gerade Augenzahl}, {<4} sind Ereignisse, {6} und {5} sind Elementarereignisse, S={1, 2, 3, 4, 5, 6} ist der Ereignisraum. Jedes Ereignis ist also eine Teilmenge des Ereignisraums und setzt sich aus einem oder mehreren Elementarereignissen zusammen. 2 Allgemeine Statistik 2.2 Wahrscheinlichkeitstheorie Rechenregeln: Komplementärereignis: Ist B das Komplementärereignis von A, so ist die Wahrscheinlichkeit für das Auftreten von B: P( B) 1 P( A) Beispiel: Ist P(A) = 0.7, dann ist P(B) = 0.3 Additionssatz: Für zwei sich ausschließende Ereignisse A und B eines Zufallsexperiments gilt, dass die Wahrscheinlichkeit, dass A oder B auftritt, folgendermaßen errechnet werden kann: P( A B) P( A) P( B) Beispiel: Ist P(A) = 0.11 und P(B) = 0.14, dann ist P(A U B) = 0.25 Bedingte Wahrscheinlichkeit: Die bedingte Wahrscheinlichkeit P(B|A), dass das Ereignis B eintritt, obwohl das Ereignis A bereits eingetroffen ist, ist: P( B | A) P( A B) P( A) Multiplikationssatz: Für zwei voneinander unabhängige Ereignisse A und B eines Zufallsexperiments gilt: Die Wahrscheinlichkeit, dass sowohl A als auch B eintreten, ist: P( A B) P( A) P( B) 2 Allgemeine Statistik 2.2 Analytische Statistik Zufallsvariable: Man erhält eine Zufallsvariable, indem man jedem möglichen Elementarereignis des Ereignisraums eine reelle Zahl zuordnet. Die Zahlwerte stehen für einzelne Elementarereignisse, man nennt sie Realisation der Zufallsvariablen. Beispiel für Zufallsvariable: Körpergröße, Niederschlag, Konzentrationen … Zufallsvariablen werden mit großen, die tatsächlichen Realisationen mit Kleinbuchstaben gekennzeichnet. Wahrscheinlichkeitsfunktion: Die Wahrscheinlichkeitsfunktion der diskreten Zufallsvariablen X ordnet jeder möglichen Realisation xi eine Wahrscheinlichkeit P zu: Zum Beispiel beim Würfeln: f(xi) = P(X=xi) (f(5) = P(x=5) = 1/6 = 0.1667)