Seminarplan Stochastik 3 Seminarplan Stochastik 4 Hypothesentest

Werbung
15.11.2015
The english translation is another file.
Seminarplan Stochastik 3
Seminarplan Stochastik 4
Überblick über Vorgehensweisen der
Stochastik:
• Angabe von Messwerten
• Gauß-Test mit Messwerten
• Regression,
g
Korrelation
• Elemente der beschreibenden Statistik,
• Weitere Verteilungen,
• Empirisches Forschen
W.‐Rechner
Das war Stochastik 3
• Normalverteilung,
• Standardabweichung, Messwerte
g,
• Gaußsches Wurzel(n)‐Gesetz, Standardfehler
•Irrtumswahrscheinlichkeit,( P‐Wert).
The english translation 4 is another file.
Stochastik ist der Oberbegriff von
beschreibender und beurteilender Statistik
und Wahrscheinlichkeitstheorie
Folie 1
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
W.-Rechner
Folie 2
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Hypothesentest bei Messwerten
Hypothesentest bei Messwerten
Der Test ist links-einseitig, weil er vor der Messung zu kleine
Werte vermutet hat.
grün:Verteilung der Einzelwerte
Messprotokoll
Mathix hat den Eindruck, sein Messgerät zeige zu kleine Werte an. Er
betrachtet einen Vorgang, bei dem bekanntermaßen 20 mA mit sigma=1.6 mA
gemessen werden. Er misst xi={18,19,17,18} mA . Zeigt sein Messgerät
signifikant andere Werte?
Verteilung solsol
cher Mittelwerte
Velangt sind die Elemente der folgenden Seite
Beibehaltungsbereich für H0
Mittelwert
Ist der Mittelwert in kritischen
Gebiet muss man H1 annehmen
und H0 verwerfen.
Dieser Wert
heißt
Folie 3
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Folie
Standardfehler Ist der Mittelwert im Beibehaltungsbereich von H0, ist nichts bewiesen.
4
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Regression, Ausgleichsgerade
Regression, Regeressionsgerade
Es gibt zwei Parameter für die Gerade, m und k. Also ist die Summe der Fehlerquadrate eine Funktion von zwei Variablen, gezeigt als 3D-Raumfläche.
Ihr Minimalpunkt (m,k) ist das Ziel.
Gegeben sind Messpunkte. Das Ziel ist, eine beste Gerade durch die Punktwolke zu finden. Gezeigt sind in Braun die Fehlerquadrate, auch Residuenquadrate. In Blau ist deren Summe links gezeigt. Sie muss minimal sein. Folie
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Oft ist es möglich, eine Ausgleichsgerade
nach Augenmaß zu finden.
Andere Regressionskurven sind möglich.
In Excel und GeoGebra werden die
Ausgleichskurven Trendlinien genannt.
Hiermit kann man exakte Polynome n-Grades durch n+1 Punkte legen. Folie 6
in Optimierung
S. 208 ff
und Stochastik
S. 259
5
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
1
15.11.2015
Regression, Korrelationskoeffizient
Regressionsgerade, Ausgleichs‐, Trendlinie
Die Parabeln hier sind die aus der 3D-Sicht, nun
aber in derselben Ebene dargestellt.
starke Korrelation
starke Korrelation
schwache Korrelation
Links sind die x- und y-Varianz und die
gemischte Varianz zu sehen.
Folie 7
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Stochastik
S. 258
Bild b) ist falsch, weil die y-Achse bei 1500€
beginnt. So werden erscheint das Einkommensverhältnis kleiner als es in Wahrheit ist.
Bild c) ist falsch, weil man die Größe des Einkommens der Frauen nicht erkennen kann. Diese
Darstellung wäre allenfalls sinnvoll, wenn es um
das Familieneinkommen bei zwei Verdienern
ginge.
Folie 9
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
r = 0.674
r = - 0.968
Folie 8
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Arbeitslohn von
Männern und
Frauen
Werte wie oben
Beschreibende Statistik
falsche Darstellungen
Arbeitslohn von
Männern und Frauen
r = 0.974
Beschreibende Statistik
falsche Darstellungen
d) Hi
Hier iistt di
die d
dritte
itt W
Wurzell
aus den Werten von a)
berechnet. Wenn der Lohn in
Euromünzen vorläge, hätten
die Würfel exakt.
Durch den perspektivischen
Effekt, wird die Information verschleiert.
Das Bild ist richtig, aber die
Nutzer von Excel machen
das nicht so.
Bild e) ist falsch, da Excel dazu verleitet, die
Löhne aus a) als Kantenlängen zu nehmen.
Die so gezeigten Volumina werden falsch.
Überlege: Ein Würfel mit der halben Kantenlänge hat nur ein Achtel das Volumens.
Bild e) ist aus demselben Grund falsch.
Für die Ikosaeder ist der Effekt noch
deutlicher.
Folie 10
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Vierfeldertafeln
Vierfeldertafeln
Beispiel
A sind die Studis, die die Aufgaben machen,
B diejenigen, die die Klausur bestehen.
nicht für die Klausur
Wenn das Verhältnis e  ea  eb , dann sind auch die anderen
n e
e
passsenden
Verhältnisse fast gleich.
Dann sind die Gruppen bezüglich E nicht unterscheidbar.
Nullhypothese H0: Die Gruppen bezüglich E nicht unterscheidbar.
Folie 11
Forschungshypothese H1: B hat deutlich weiniger E (entspr. oben)
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
nicht für die Klausur
Folie 12
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
2
15.11.2015
Vierfeldertafeln
nicht für die Klausur
Dieses Beispiel hatte ich vorbereitet, musste es dann aber weglassen. Daher ist es nun nicht klausurrelevant.
Es ist aber so interessant und wichtig für Lebenspraxis, dass ich es nicht weglassen möchte.
Situation: Mathilde geht zur Vorsorgeuntersuchung. Es geht um eine Krankheit K.
Der Test fällt positiv aus, T+. Das heißt aber nicht, dass Mathilde die Krankheit
wirklich hat. Wie groß ist die Wahrscheinlichkeit, dass sie trotz T+ gesund ist?
T+
K
T‐
130
Beispiel aus Sachs,Hedderich: Angewandte Statistik, Springer 2006 S. 135
150
n K
10000
Bekannt ist die Spezifität des Testes, die
Wahrscheinlichkeit, dass ein Gesunder doch
T- erhält. Das ist P(T-| n K)=94%
D it kkann man iin di
Damit
dieser T
Tabelle
b ll alle
ll lleeren Plät
Plätze füll
füllen.
Zuerst den freien Platz rechts 10000-150=9850, dann (n K, T-)=0.94*9850=9259.
Der Rest ergibt sich durch Ergänzungen. Dann kann man die Sensitivität des Testes.
ausrechnen P(T+| K)=130:150=86,7%, die W.,
T+
T‐
dass ein Kranker T+ bekommt. Mit Sensitivität und
Spezifität werden richtige Entscheidungen ben K
591
9259 9850
schrieben. Mathilde hofft, in dem Feld mit der 591
721
9279 10000 zu sein, in dem die Gesunden sind, die T+ hatten.
Die W. für ein falsch-positves Erg. ist P(K|T+)=591:721=82%. Mathilde wartet mit
Gelassenheit auf weitere Tests. Oft denkt man nicht an die Prävalenz P(K)=0.0150.
K
130
20
150
Datentypen, Merkmalstypen
• nominal, qualitative Daten
Haarfarbe, Religion, Herkunftsland, Familientand..
• ordinal, Rangdaten
man kann sie sinnvoll ordnen: Schulnoten, Zustimmumgsgrad ,
Platzierungen in Wettbewerben, Schwierigkeit von Ski-Abfahrten
p
creditpoints
• metrisch,
t i h Maßdaten
M ßd t
• Intervalldaten Größen ohne natürlichen Nullpunkt,
z.B. Temperatur, „doppelt“ geht nicht
•Verhältnisdaten
Größen mit natürlichem Nullpunkt, die man ins Verhältnis setzen kann.
z.B. Masse, Länge, Zeit, , Anzahl Treffer , „doppelt“ ist sinnvoll
Maßdaten sind diskret oder stetig
Folie 14
Folie 13
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Benfordverteilung
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Benfordverteilung
Erst 1995 deckte der Mathematik Theodore Hill genaueres auf und bewies auch noch weitere
Zusammenhänge. Diese setzte der Mathematiker Mark Negrini in einem Analyseprogramm
um, mit dem man die Echtheit von Daten prüfen kann, die „Benford-verteilt“ sein müssten.
Dazu gehören vor allem Daten aus exponentiellen zusammenhängen, aber aggregierte Daten,
die selbst nicht benford-verteilt sind, folgen der Benford-Verteilung. Auf diese Weise kann man
Wirtschafts- und Bankdaten, wissenschaftliche Messdaten u.a. prüfen und Betrug aufdecken.
Historisches
Im Jahre 1881 entdeckte der Mathematiker Simon Newcomb, dass die Seiten
einer fünfstelligen Logarithmentafel für die kleine führende Ziffernfolgen
wesentlich stärker abgegriffen waren als für große.
Newcomb veröffentlichte seine Beobachtung, stellte auch schon eine logarithmische
Formel auf, aber seine Arbeit wurde nicht beachtet. Im Jahr 1938 entdeckte der
Physiker Frank Benford das Gestetz neu und untermauerte es mit Daten.
Er bewies es aber nicht.
Folie 15
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Stochastik
Seminarplan Stochastik 4
W.-Rechner
Das war Stochastik 4
• Überblick über Vorgehensweisen der
Stochastik:
•Regression, Korrelation
• Elemente der beschreibenden Statistik,
• Weitere Verteilungen,
• Empirisches Forschen
www.mathematik‐sehen‐und‐verstehen.de
Folie 16
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Folie 17
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
Ich hoffe, es hat Sie bereichert!
Vorlesung in vier Teilen im Rahmen von Mathematik für alle, Leuphanasemester
Folie 18
Prof. Dr. Dörte Haftendorn, Leuphana Universität Lüneburg, 2015 http://www.mathematik‐sehen‐und‐verstehen.de
3
Herunterladen