Universität Augsburg Fakultät für Angewandte Informatik Institut für Physische Geographie und Quantitative Methoden Prof. Dr. Jucundus Jacobeit Geostatistik I – Übungen mit R im WS 2011/2012 Donnerstag 11.45 – 13.15 Uhr in Raum 3067/D Sitzung am 08.12.2011 Dipl.-Geogr. Claudia Weitnauer Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 1 Inhalte Sitzung V 1. Korrektur Übung 2 2. Jährlichkeiten/Wiederkehrzeiten 3. Weitere theoretische Verteilungen 4. Anpassungstests 5. Übung 3 Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 2 Geostatistik-Tutorium Termine: Montag, 19.12.2011 17.30 – 19.00 Uhr, Raum 3067 Dienstag, 20.12.2011 08.15 – 09.45 Uhr, Raum 3065 Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 3 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 4 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. augmon read.table(„augsburg_monat.txt“,header=TRUE,na.strings=„-999.0“) 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. bgrad augwind$BEDECKUNGSGRAD x seq(min(bgrad),max(bgrad),length=200) ynorm dnorm(x,mean=mean(bgrad),sd=sd(bgrad)) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 5 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 6 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. hist(bgrad,freq=FALSE) lines(x,ynorm) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 7 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 8 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, 1 – pnorm(7,mean=mean(bgrad),sd=sd(bgrad)) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 9 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, 5. und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5. Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 10 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, 5. und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5. pnorm(5,mean=mean(bgrad),sd=sd(bgrad)) – pnorm(3,mean=mean(bgrad),sd=sd(bgrad)) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 11 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, 5. Und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5. 6. Welcher Bedeckungsgrad wird mit einer Wahrscheinlichkeit von 70% überschritten? Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 12 Übung zur Normalverteilung 1. Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer Größen in Augsburg) in R. 2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an. 3. Stellen Sie das Histogramm für die Variable „Windstärke“ und die Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar. 4. Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7, 5. Und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5. 6. Welcher Bedeckungsgrad wird mit einer Wahrscheinlichkeit von 70% überschritten? qnorm(0.3,mean=mean(bgrad),sd=sd(bgrad) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 13 Übung: Jährlichkeiten/Wiederkehrzeiten Gegeben sei eine Stichprobe mit jährlichen Niederschlagswerten in mm, einem Mittelwert von 900 mm/a und einer Standardabweichung = 100. Eine Normalverteilung der Daten wird angenommen. a) Wie häufig (nach wievielen Jahren) werden 700 mm i.d.R. unterschritten bei der Annahme einer Normalverteilung der Stichprobe? b) Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R. überschritten? Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 14 Übung: Jährlichkeiten/Wiederkehrzeiten a) Wie häufig (nach wievielen Jahren) werden 700 mm i.d.R. unterschritten bei der Annahme einer Normalverteilung der Stichprobe? mean = 900 sd = 100 pnorm(700,mean=900,sd=100) = 0,0227 = 2,27% aller Fälle = Jahre (hier Jahreswerte!) In einem Zeitraum von 100 Jahren: 2,27% aller Jahre = in 100 Jahre 2,27 mal 100a/2,27 = 1mal 44,05 a = 1 mal Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 15 Übung: Jährlichkeiten/Wiederkehrzeiten b) Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R. überschritten? 1 – pnorm(1100,mean=900,sd=100) = 1 – 0,9772 = 0,0227 = 2,27% c) Wie häufig werden 1100 mm/a überschritten und 700 mm/a unterschritten? Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 16 Übung: Jährlichkeiten/Wiederkehrzeiten b) Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R. überschritten? 1 – pnorm(1100,mean=900,sd=100) = 1 – 0,9772 = 0,0227 = 2,27% c) Wie häufig werden 1100 mm/a überschritten und 700 mm/a unterschritten? pnorm(700,mean=900,sd=100) + 1 – pnorm(1100,mean=900,sd=100) = 0,0228 + 0,0228 = 0,044 = 4,4% aller Fälle d) Welcher Wert wird alle 100 Jahre einmal unterschritten? Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 17 Übung: Jährlichkeiten/Wiederkehrzeiten d) Welcher Wert wird alle 100 Jahre einmal unterschritten? 100 = 1.0/pnorm(z,mean=900,sd=100)*Zeiteinheit (a) 1.0/100 = pnorm(z,mean=900,sd=100) 0.01 = pnorm(z.mean=900,sd=100) qnorm(0.01,mean=900,sd=100) qnorm liefert zu einer gegebenen Wahrscheinlichkeit den entsprechenden Wert z (Umkehrfunktion zu pnorm()) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 18 Theoretische Verteilungen - Standardnormalverteilung Standardisiert man eine mit (µ,σ) normalverteilte Zufallsvariable X, indem man statt X die Variable Z mit Z = x-µ/σ Betrachtet, so ist Z normalverteilt mit (0,1), also dem Mittelwert = 0 und der Standardabweichung = 1. mit µ = 0 und σ = 1 Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 19 Theoretische Verteilungen – t- oder Student-Verteilung • ähnlich der Standardnormalverteilung, hat den Mittelwert µ = 0, ist symmetrisch um Null, Standardabweichung σ > 1 (=flachere Form) • Einzige Bestimmgröße = Freiheitsgrad (FG) • Freiheitsgrad = Anzahl der Stichprobenelemente, die zur Berechnung des Wertes der Stichprobenfunktion notwendig und hinreichend sind • Z.B. Mittelwert: für die Stichprobenfunktion „Mittelwert“ werden n Stichprobenelemente benötigt, FG = n tV mit φ = 1 Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer tV mit φ = 4 20 Theoretische Verteilungen – χ2-Verteilung • Χ2-Verteilung (chi square distribution) ist eine stetige, asymmetrische Verteilung und nur für positive Werte definiert! • Einzige Bestimmungsgröße: Freiheitsgrade (FG) φ= 1 φ= 2 φ= 3 φ= 4 Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 21 Warum theoretische Verteilungen? • Frage nach den Eigenschaften der zugrundeliegenden Grundgesamtheit (Population) • Entwicklung theoretischer (Grundgesamtheits-) Verteilungen und Zuordnung empirischer Verteilungen (Verteilungsanpassung: beinhaltet „Suche“ nach der zur empirischen Häufigkeitsverteilung ähnlichsten theoretischen Verteilung und „Umrechnung“ der theoretischen Verteilung auf Datenwerte der empirischen Häufigkeitsverteilung) • Überprüfung der Güte der Anpassung mittels Anpassungstests Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 22 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) • Ziel: mit Hilfe von Stichproben Hypothesen (Vermutungen über Grundgesamheiten) prüfen • Resultat nie sicher im Sinne von; eine Hypothese ist wahr oder falsch Resultat statistischer Tests kann nur sein: Hypothese ist mit einer gewissen Wahrscheinlichkeit wahr oder falsch • Gegenüberstellung einer Nullhypothese (H0) und einer oder zweier Alternativhypothesen (A1 und A2) Nullhypothese: • Parameter oder Verteilungen von zwei (oder mehreren) Grundgesamheiten (GG) sind gleich; • Verteilung einer GG ist gleich einer bestimmten vorgegebenen Verteilung, z.B. Normalverteilung; • Parameter einer GG sind gleich bestimmten vorgegebenen Werten. Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 23 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) • Gegenüberstellung einer Nullhypothese (H0) und einer oder zweier Alternativhypothesen (A1 und A2) Nullhypothese: • Parameter oder Verteilungen von zwei (oder mehreren) Grundgesamheiten (GG) sind gleich; • Verteilung einer GG ist gleich einer bestimmten vorgegebenen Verteilung, z.B. Normalverteilung; • Parameter einer GG sind gleich bestimmten vorgegebenen Werten. Alternativhypothese (A1 und A2) (= Verneinung von H0): Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 24 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) • Alternativhypothese (A1 und A2) (= Verneinung von H0) • Unterschied zwischen einseitigen und zweiseitigen Tests • Beispiel: Mittelwerte µ1 und µ2 zweier GG werden betrachtet H0 : µ 1 = µ 2 HA : µ 1 ≠ µ 2 Nicht bekannt: µ1 < µ2 oder µ1 > µ2? Bei Ausschluss einer der beiden Möglichkeiten, bleibt z.B. HA = µ1 > µ2, H0 : µ1 ≤ µ2 Durchführung eines einseitigen Tests Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 25 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Alternativhypothese (A1 und A2) (= Verneinung von H0): • Zu prüfende Besonderheit ist überzufällig (signifikant, auf einem gewählten Signifikanzniveau Si) (z.B. Unterscheid zweier Stichproben bzgl. zentraler Tendenz) • Testentscheid: A1 bzw. A2 wird angenommen (positiver Testentscheid) • Testentscheid: H0 wird angenommen (negativer Testentscheid) • Die Summe aus H0 + A1 + A2 muss alle Möglichkeiten der Fragestellung umfassen Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 26 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Durchführung einer Hypothesenprüfung: • Formulierung von Null- und Alternativhypothese • Festlegung von Sicherheits- bzw. Irrtumswahrscheinlichkeit (Si bzw. α) • Auswahl eine geeigneten Prüfverfahrens Prüfverfahren: P = f(a,b,c,...) P = Prüfgröße a,b,c,... = Prüfparameter (z.B. Mittelwert, ...) P folgt einer bestimmten (für H0 bekannten) theoretischen Verteilung (Prüfverteilung) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 27 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Durchführung einer Hypothesenprüfung: • Formulierung von Null- und Alternativhypothese • Festlegung von Sicherheits- bzw. Irrtumswahrscheinlichkeit (Si bzw. α) • Auswahl eine geeigneten Prüfverfahrens • Berechnung der Prüfgröße aus der (den) Stichprobe (n) • Bestimmung des kritischen Testwertes der Prüfverteilung (für Si bzw. α) • Vergleich von Prüfgröße und Testwert Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 28 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Pr < P (H0 annehmen, A1 ablehnen) (auf dem gewählten Signifikanzniveau) Pr > P (H0 ablehnen, A1 annehmen) (Auf dem gewählten Signifikanzniveau) Pr = Prüfgröße aus der Stichprobe P = kritischer Testwert aus theoretischer Prüfverteilung (für Si und α) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 29 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Pr < P (H0 annehmen, A1 ablehnen) (auf dem gewählten Signifikanzniveau) Pr > P (H0 ablehnen, A1 annehmen) (Auf dem gewählten Signifikanzniveau) Pr = Prüfgröße aus der Stichprobe P = kritischer Testwert aus theoretischer Prüfverteilung (für Si und α) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 30 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Das Signifikanzniveau: • Si = Signifikanzniveau (Sicherheitswahrscheinlichkeit) = Wahrscheinlichkeit eines richtigen Testentscheids • α = Irrtumswahrscheinlichkeit (1 – Si) = Wahrscheinlichkeit eines falschen Testentscheids • Grobe (und willkürliche) Einteilung: Si = 90% = „signifikant“ Si = 95% = „sehr signifikant“ Si = 99% = „hochsignifikant“ Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 31 Prüfung der Güte der Verteilungsanpassung – Statistische Anpassungstests (Beispiele) Testentscheid in R (und anderen Statistikpaketen): • Ausgeben der Wahrscheinlichkeit p für das Eintreten des empirisch festgestellten Ereignisses (ermittelter Wert der Prüfgröße) bei Gültigkeit von H0 • Ablehnen (Verwerfen) der Nullhypothese auf dem gewählten Signifikanzniveau, wenn p < α Mögliche Fehler beim Testentscheid: • Fehler 1. Art: fälschliche Ablehnung der Nullhypothese (Risiko für Fehler 1. Art entspricht α) • Fehler 2. Art: fälschliche Ablehnung der Alternativhypothese (wird minimiert mit kleinerer Si) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 32 Statistische Anpassungstests: Kolmogorov-Smirnov-Test n: K: SHk(SP): SHk(TV): Stichprobenumfang Anzahl der Klassen Summenhäufigkeit der empirischen Verteilung (SP) Summenhäufigkeit der theoretischen Verteilung • Klassenorientierung der SP, n > 50, verteilungsfreier Test • Pr < Si oder p > α H0: Hypothese muss beibehalten werden • Pr > Si oder p < α H0 ablehnen, H1 beibehalten Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 33 Statistische Anpassungstests: Kolmogorov-Smirnov-Test Beispiel R: Reinladen Zugspitz-Datensatz: x read.table(„zug.txt“,header=TRUE) t03 x$LUFTTEMPERATUR[x$Monat==3] n03 rnorm(length(t03),mean=mean(t03),sd=sd(t03)) ks.test(t03,n03) Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 34 Übungsaufgabe 3 • Berechnen Sie für Ihre Station (siehe PDF zu Übung 3 im GeoWiki) den Wert der im Schnitt nur alle 100 Jahre überschritten und denjenigen, der alle 100 Jahre einmal unterschritten wird. • Abgabe bis spätestens 15.12.2011 • Bitte R-Skript als Textdokument an [email protected] • Betreff: geostat1_u03_<RZ-Kennung>, alsoz.B. geostat1_u03_weitnacl • Dateiname des Anhangs: geostat1_u03_<RZKennung>.txt, also geostat1_u03_weitnacl.txt Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 35 Vielen Dank für die Aufmerksamkeit! Geostatistik I Übung im WS 2011/2012 Dipl.-Geogr. Claudia Weitnauer 36