Geostatistik I – Übungen mit R im WS 2011/2012

Werbung
Universität Augsburg
Fakultät für Angewandte Informatik
Institut für Physische Geographie und Quantitative Methoden
Prof. Dr. Jucundus Jacobeit
Geostatistik I – Übungen mit R
im WS 2011/2012
Donnerstag 11.45 – 13.15 Uhr
in Raum 3067/D
Sitzung am 08.12.2011
Dipl.-Geogr. Claudia Weitnauer
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
1
Inhalte Sitzung V
1. 
Korrektur Übung 2
2. 
Jährlichkeiten/Wiederkehrzeiten
3. 
Weitere theoretische Verteilungen
4. 
Anpassungstests
5. 
Übung 3
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
2
Geostatistik-Tutorium
Termine:
Montag, 19.12.2011 17.30 – 19.00 Uhr, Raum 3067
Dienstag, 20.12.2011 08.15 – 09.45 Uhr, Raum
3065
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
3
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte
verschiedener meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable
„Windstärke“ an.
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
4
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener
meteorologischer Größen in Augsburg) in R.
augmon  read.table(„augsburg_monat.txt“,header=TRUE,na.strings=„-999.0“)
2. Passen Sie eine Normalverteilung an die Variable „Windstärke“ an.
bgrad  augwind$BEDECKUNGSGRAD
x  seq(min(bgrad),max(bgrad),length=200)
ynorm  dnorm(x,mean=mean(bgrad),sd=sd(bgrad))
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
5
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte
verschiedener meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable
„Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und
die Wahrscheinlichkeitsdichte der angepassten
Normalverteilung in einer Abbildung dar.
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
6
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte
verschiedener meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable
„Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und
die Wahrscheinlichkeitsdichte der angepassten
Normalverteilung in einer Abbildung dar.
hist(bgrad,freq=FALSE)
lines(x,ynorm)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
7
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte
verschiedener meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable
„Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und
die Wahrscheinlichkeitsdichte der angepassten
Normalverteilung in einer Abbildung dar.
4.  Ermitteln Sie die Wahrscheinlichkeit für einen
Bedeckungsgrad von mehr als 7,
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
8
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte
verschiedener meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable
„Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und
die Wahrscheinlichkeitsdichte der angepassten
Normalverteilung in einer Abbildung dar.
4.  Ermitteln Sie die Wahrscheinlichkeit für einen
Bedeckungsgrad von mehr als 7,
1 – pnorm(7,mean=mean(bgrad),sd=sd(bgrad))
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
9
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener
meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable „Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und die
Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer
Abbildung dar.
4.  Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr
als 7,
5.  und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5.
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
10
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener
meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable „Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und die
Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer
Abbildung dar.
4.  Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr
als 7,
5.  und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5.
pnorm(5,mean=mean(bgrad),sd=sd(bgrad)) –
pnorm(3,mean=mean(bgrad),sd=sd(bgrad))
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
11
Übung zur Normalverteilung
1.  Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener
meteorologischer Größen in Augsburg) in R.
2.  Passen Sie eine Normalverteilung an die Variable „Windstärke“ an.
3.  Stellen Sie das Histogramm für die Variable „Windstärke“ und die
Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer
Abbildung dar.
4.  Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr
als 7,
5.  Und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5.
6.  Welcher Bedeckungsgrad wird mit einer Wahrscheinlichkeit von 70%
überschritten?
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
12
Übung zur Normalverteilung
1. 
Importieren Sie den Übungsdatensatz 3 (Monatswerte verschiedener meteorologischer
Größen in Augsburg) in R.
2. 
Passen Sie eine Normalverteilung an die Variable „Windstärke“ an.
3. 
Stellen Sie das Histogramm für die Variable „Windstärke“ und die
Wahrscheinlichkeitsdichte der angepassten Normalverteilung in einer Abbildung dar.
4. 
Ermitteln Sie die Wahrscheinlichkeit für einen Bedeckungsgrad von mehr als 7,
5. 
Und die Wahrscheinlichkeit für einen Bedeckungsgrad im Intervall 3 – 5.
6. 
Welcher Bedeckungsgrad wird mit einer Wahrscheinlichkeit von 70% überschritten?
qnorm(0.3,mean=mean(bgrad),sd=sd(bgrad)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
13
Übung: Jährlichkeiten/Wiederkehrzeiten
Gegeben sei eine Stichprobe mit jährlichen Niederschlagswerten in mm,
einem Mittelwert von 900 mm/a und einer Standardabweichung =
100. Eine Normalverteilung der Daten wird angenommen.
a)  Wie häufig (nach wievielen Jahren) werden 700 mm i.d.R.
unterschritten bei der Annahme einer Normalverteilung der
Stichprobe?
b)  Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R.
überschritten?
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
14
Übung: Jährlichkeiten/Wiederkehrzeiten
a) 
Wie häufig (nach wievielen Jahren) werden 700 mm i.d.R. unterschritten
bei der Annahme einer Normalverteilung der Stichprobe?
mean = 900
sd = 100
pnorm(700,mean=900,sd=100) = 0,0227 = 2,27% aller Fälle = Jahre (hier
Jahreswerte!)
In einem Zeitraum von 100 Jahren:
2,27% aller Jahre = in 100 Jahre 2,27 mal
100a/2,27 = 1mal
44,05 a = 1 mal
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
15
Übung: Jährlichkeiten/Wiederkehrzeiten
b) Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R.
überschritten?
1 – pnorm(1100,mean=900,sd=100) = 1 – 0,9772 = 0,0227 = 2,27%
c) Wie häufig werden 1100 mm/a überschritten und 700 mm/a
unterschritten?
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
16
Übung: Jährlichkeiten/Wiederkehrzeiten
b) Wie häufig (nach wievielen Jahren) werden 1100 mm i.d.R.
überschritten?
1 – pnorm(1100,mean=900,sd=100) = 1 – 0,9772 = 0,0227 = 2,27%
c) Wie häufig werden 1100 mm/a überschritten und 700 mm/a
unterschritten?
pnorm(700,mean=900,sd=100) + 1 – pnorm(1100,mean=900,sd=100) =
0,0228 + 0,0228 = 0,044 = 4,4% aller Fälle
d) Welcher Wert wird alle 100 Jahre einmal unterschritten?
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
17
Übung: Jährlichkeiten/Wiederkehrzeiten
d) Welcher Wert wird alle 100 Jahre einmal unterschritten?
100 = 1.0/pnorm(z,mean=900,sd=100)*Zeiteinheit (a)
1.0/100 = pnorm(z,mean=900,sd=100)
0.01 = pnorm(z.mean=900,sd=100)
qnorm(0.01,mean=900,sd=100)
 qnorm liefert zu einer gegebenen Wahrscheinlichkeit den
entsprechenden Wert z (Umkehrfunktion zu pnorm())
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
18
Theoretische Verteilungen - Standardnormalverteilung
Standardisiert man eine mit (µ,σ) normalverteilte Zufallsvariable X,
indem man statt X die Variable Z mit
Z = x-µ/σ
Betrachtet, so ist Z normalverteilt mit (0,1), also dem Mittelwert = 0
und der Standardabweichung = 1.
mit µ = 0 und σ = 1
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
19
Theoretische Verteilungen – t- oder Student-Verteilung
• 
ähnlich der Standardnormalverteilung, hat den Mittelwert µ = 0, ist
symmetrisch um Null, Standardabweichung σ > 1 (=flachere Form)
• 
Einzige Bestimmgröße = Freiheitsgrad (FG)
• 
Freiheitsgrad = Anzahl der Stichprobenelemente, die zur Berechnung
des Wertes der Stichprobenfunktion notwendig und hinreichend sind
• 
Z.B. Mittelwert: für die Stichprobenfunktion „Mittelwert“ werden n
Stichprobenelemente benötigt, FG = n
tV mit φ = 1
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
tV mit φ = 4
20
Theoretische Verteilungen – χ2-Verteilung
• 
Χ2-Verteilung (chi square distribution) ist eine stetige, asymmetrische
Verteilung und nur für positive Werte definiert!
• 
Einzige Bestimmungsgröße: Freiheitsgrade (FG)
φ= 1
φ= 2
φ= 3
φ= 4
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
21
Warum theoretische Verteilungen?
•  Frage nach den Eigenschaften der zugrundeliegenden
Grundgesamtheit (Population)
•  Entwicklung theoretischer (Grundgesamtheits-) Verteilungen und
Zuordnung empirischer Verteilungen (Verteilungsanpassung:
beinhaltet „Suche“ nach der zur empirischen Häufigkeitsverteilung
ähnlichsten theoretischen Verteilung und „Umrechnung“ der
theoretischen Verteilung auf Datenwerte der empirischen
Häufigkeitsverteilung)
•  Überprüfung der Güte der Anpassung mittels Anpassungstests
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
22
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
•  Ziel: mit Hilfe von Stichproben Hypothesen (Vermutungen über
Grundgesamheiten) prüfen
•  Resultat nie sicher im Sinne von; eine Hypothese ist wahr oder
falsch  Resultat statistischer Tests kann nur sein: Hypothese ist
mit einer gewissen Wahrscheinlichkeit wahr oder falsch
•  Gegenüberstellung einer Nullhypothese (H0) und einer oder zweier
Alternativhypothesen (A1 und A2)
Nullhypothese:
•  Parameter oder Verteilungen von zwei (oder mehreren)
Grundgesamheiten (GG) sind gleich;
•  Verteilung einer GG ist gleich einer bestimmten vorgegebenen
Verteilung, z.B. Normalverteilung;
•  Parameter einer GG sind gleich bestimmten vorgegebenen
Werten.
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
23
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
•  Gegenüberstellung einer Nullhypothese (H0) und einer oder zweier
Alternativhypothesen (A1 und A2)
Nullhypothese:
•  Parameter oder Verteilungen von zwei (oder mehreren)
Grundgesamheiten (GG) sind gleich;
•  Verteilung einer GG ist gleich einer bestimmten vorgegebenen
Verteilung, z.B. Normalverteilung;
•  Parameter einer GG sind gleich bestimmten vorgegebenen
Werten.
Alternativhypothese (A1 und A2) (= Verneinung von H0):
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
24
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
•  Alternativhypothese (A1 und A2) (= Verneinung von H0)
•  Unterschied zwischen einseitigen und zweiseitigen Tests
•  Beispiel:
Mittelwerte µ1 und µ2 zweier GG werden betrachtet
H0 : µ 1 = µ 2
HA : µ 1 ≠ µ 2
Nicht bekannt: µ1 < µ2 oder µ1 > µ2?
Bei Ausschluss einer der beiden Möglichkeiten, bleibt z.B. HA = µ1 >
µ2, H0 : µ1 ≤ µ2
 Durchführung eines einseitigen Tests
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
25
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Alternativhypothese (A1 und A2) (= Verneinung von H0):
•  Zu prüfende Besonderheit ist überzufällig (signifikant, auf einem
gewählten Signifikanzniveau Si) (z.B. Unterscheid zweier
Stichproben bzgl. zentraler Tendenz)
•  Testentscheid: A1 bzw. A2 wird angenommen (positiver
Testentscheid)
•  Testentscheid: H0 wird angenommen (negativer Testentscheid)
•  Die Summe aus H0 + A1 + A2 muss alle Möglichkeiten der
Fragestellung umfassen
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
26
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Durchführung einer Hypothesenprüfung:
• 
Formulierung von Null- und Alternativhypothese
• 
Festlegung von Sicherheits- bzw. Irrtumswahrscheinlichkeit (Si bzw. α)
• 
Auswahl eine geeigneten Prüfverfahrens
Prüfverfahren:
P = f(a,b,c,...)
P = Prüfgröße
a,b,c,... = Prüfparameter (z.B. Mittelwert, ...)
P folgt einer bestimmten (für H0 bekannten) theoretischen Verteilung
(Prüfverteilung)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
27
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Durchführung einer Hypothesenprüfung:
• 
Formulierung von Null- und Alternativhypothese
• 
Festlegung von Sicherheits- bzw. Irrtumswahrscheinlichkeit (Si bzw. α)
• 
Auswahl eine geeigneten Prüfverfahrens
• 
Berechnung der Prüfgröße aus der (den) Stichprobe (n)
• 
Bestimmung des kritischen Testwertes der Prüfverteilung (für Si bzw. α)
• 
Vergleich von Prüfgröße und Testwert
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
28
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Pr < P (H0 annehmen, A1 ablehnen) (auf dem gewählten Signifikanzniveau)
Pr > P (H0 ablehnen, A1 annehmen) (Auf dem gewählten Signifikanzniveau)
Pr = Prüfgröße aus der Stichprobe
P = kritischer Testwert aus theoretischer Prüfverteilung (für Si und α)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
29
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Pr < P (H0 annehmen, A1 ablehnen) (auf dem gewählten Signifikanzniveau)
Pr > P (H0 ablehnen, A1 annehmen) (Auf dem gewählten Signifikanzniveau)
Pr = Prüfgröße aus der Stichprobe
P = kritischer Testwert aus theoretischer Prüfverteilung (für Si und α)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
30
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Das Signifikanzniveau:
•  Si = Signifikanzniveau (Sicherheitswahrscheinlichkeit) =
Wahrscheinlichkeit eines richtigen Testentscheids
•  α = Irrtumswahrscheinlichkeit (1 – Si) = Wahrscheinlichkeit eines
falschen Testentscheids
•  Grobe (und willkürliche) Einteilung:
Si = 90% = „signifikant“
Si = 95% = „sehr signifikant“
Si = 99% = „hochsignifikant“
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
31
Prüfung der Güte der Verteilungsanpassung – Statistische
Anpassungstests (Beispiele)
Testentscheid in R (und anderen Statistikpaketen):
•  Ausgeben der Wahrscheinlichkeit p für das Eintreten des empirisch
festgestellten Ereignisses (ermittelter Wert der Prüfgröße) bei
Gültigkeit von H0
•  Ablehnen (Verwerfen) der Nullhypothese auf dem gewählten
Signifikanzniveau, wenn p < α
Mögliche Fehler beim Testentscheid:
•  Fehler 1. Art: fälschliche Ablehnung der Nullhypothese (Risiko für
Fehler 1. Art entspricht α)
•  Fehler 2. Art: fälschliche Ablehnung der Alternativhypothese (wird
minimiert mit kleinerer Si)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
32
Statistische Anpassungstests: Kolmogorov-Smirnov-Test
n:
K:
SHk(SP):
SHk(TV):
Stichprobenumfang
Anzahl der Klassen
Summenhäufigkeit der empirischen Verteilung (SP)
Summenhäufigkeit der theoretischen Verteilung
•  Klassenorientierung der SP, n > 50, verteilungsfreier Test
•  Pr < Si oder p > α  H0: Hypothese muss beibehalten werden
•  Pr > Si oder p < α  H0 ablehnen, H1 beibehalten
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
33
Statistische Anpassungstests: Kolmogorov-Smirnov-Test
Beispiel R:
Reinladen Zugspitz-Datensatz:
x  read.table(„zug.txt“,header=TRUE)
t03  x$LUFTTEMPERATUR[x$Monat==3]
n03  rnorm(length(t03),mean=mean(t03),sd=sd(t03))
ks.test(t03,n03)
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
34
Übungsaufgabe 3
• 
Berechnen Sie für Ihre Station (siehe PDF zu Übung 3
im GeoWiki) den Wert der im Schnitt nur alle 100
Jahre überschritten und denjenigen, der alle 100 Jahre
einmal unterschritten wird.
• 
Abgabe bis spätestens 15.12.2011
• 
Bitte R-Skript als Textdokument an
[email protected]
• 
Betreff: geostat1_u03_<RZ-Kennung>, alsoz.B.
geostat1_u03_weitnacl
• 
Dateiname des Anhangs: geostat1_u03_<RZKennung>.txt, also geostat1_u03_weitnacl.txt
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
35
Vielen Dank für die
Aufmerksamkeit!
Geostatistik I Übung im WS 2011/2012
Dipl.-Geogr. Claudia Weitnauer
36
Herunterladen