Mathematik für Biologen - Lehrstuhl Numerische Mathematik

Werbung
Mathematik für Biologen
Vorlesung SS 2011
Universität Heidelberg
Elfriede Friedmann
AG Numerik, IWR, Heidelberg
12. April 2011
Overview
Datenerhebung
Datenerhebung
Dang
Nikolas Strüchler [ImbodenKoch04]
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
3
Datenerhebung
Ding & Dong
Nikolas Strüchler [ImbodenKoch04]
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
4
Datenerhebung
Datenerhebung
Empirische Daten müssen quantiziert werden, bevor eine mathematische
Behandlung möglich ist. Die Daten werden durch Tabellen und Graphiken
dargestellt und angeordnet.
Denition
Bei einer Datenerhebung werden an ausgewählten Versuchseinheiten, den
Merkmalsträgern, [engl. experimental units]) ein oder mehrere Merkmale
festgestellt.
Die Werte, die von einem Merkmal angenommen werden, heiÿen
Merkmalsausprägungen.
Die einfachste Form der Quantizierung ist die Klassizierung, d.h. eine
Einteilung von Merkmale in Klassen, die durch qualitativ verschiedene
Merkmalausprägungen festgelegt sind.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
5
Datenerhebung
Datenerhebung
Beispiel
Merkmalsträger
Merkmal
Population
Gewicht
Merkmalsausprägung
IR
Geschlecht
M/W
Cholesterinkonz.
Bäume eines Waldes
Panzen
Schädlingsbefall
IR
IR
Blattlänge
IR
Blütenzahl
E. Friedmann
AG Numerik, IWR, Heidelberg
+
keiner, gering, mittel, stark
Höhe, Gewicht
Blütenfarbe
+
+
+
IN
weiÿ, blau, gelb, rosa
Mathe f. Biologen
6
Datenerhebung
Datenerhebung
Beispiel
Die Blutgruppe (AB0-System) ist ein Merkmal mit Ausprägungen A, B, AB
und 0.
Das Ergebnis einer Blutgruppenbestimmung ergab: Von 21104 Personen
gehörten 9123 der Blutgruppe A, 2987 der Blutgruppe B, 7725 der Blutgruppe
0 und 1269 der Blutgruppe AB an.[VogelM82]
E. Friedmann
Merkmalsträger
Merkmal
Personen
Blutgruppe
AG Numerik, IWR, Heidelberg
Merkmalsausprägung
A, B, 0, AB
Mathe f. Biologen
7
Datenerhebung
Untersuchte Merkmale
ˆ
messbare Merkmale
ˆ
ˆ
nominale Merkmale
ˆ
ˆ
ˆ
Merkmale, deren Unterscheidung anhand einer metrischen
Skala erfolgt (Körpergröÿe, Gewicht)
Merkmale, deren Ausprägungen nur eine begriiche
Unterscheidung zulassen und sich mit Hilfe einer nominalen
Skala angeben lassen (Geschlecht, Haarfarbe, Studienfach, ...)
die Merkmale sind nur nach einer bestimmten
Merkmalausprägung abzählbar
ordinale Merkmale
ˆ
E. Friedmann
Mermale, die neben einer nominellen Unterscheidung auch
noch eine Ordnung zulassen und sich mit Hilfe einer ordinalen
Skala (Rangskala, Notenskala) angeben lassen
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
8
Datenerhebung
Stichproben
Denition
Die Grundgesamtheit ist die Menge der Merkmalsträger, über die eine Aussage
getroen werden soll. (z.B. Panzen eines Feldes, Menschen einer Stadt)
Genaue Denition der Grundgesamtheit wichtig!
Eine Untersuchung aller Elemente einer Grundgesamtheit, eine Totalerhebung,
ist in der Regel nicht möglich. Man bedient sich einer repräsentativen
Teilauswahl.
Denition
Eine Zufallsstichprobe ist eine repräsentative Teilauswahl, d.h. alle Elemente
der Grundgesamtheit haben die gleiche Chance, ausgewählt zu werden.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
9
Datenerhebung
Stichproben
Problem 1
Mit welcher Verlässlichkeit können auf der Basis einer Stichprobe
Schlussfolgerungen auf eine Grundgesamtheit gezogen werden?
A: Aus den Messwerten der Stichproben berechnet man Schätzwerte, die die
wahren Werte der Grundgesamtheit schätzen. Zield der Test-Theorie ist es,
aufgrund dieser Schätzwerte Aussagen über die wahren Werte zu machen und
Entscheidungen zu treen.
Beispiel
Ein langjähriger Erfahrungswert besagt, dass etwa 48% aller Neugeborenen
weiblich sind.
Wahrscheinlichkeit einer Mädchengeburt:
p=
.
0 48
Erhebung an 3 Krankenhäusern: Bei 680 Geburten einen Stichprobenanteil von
51%, d.h. 3% mehr
Fragen:
ˆ
ˆ
Ist die Erhöhung nur zufällig wegen einer zu kleinen Stichprobe?
Ist die Eröhung signikant?
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
10
Datenerhebung
Stichproben
Problem 2
Welche Schlüsse lassen sich aus einer Datenerhebungen ziehen?
Beispiel
In der Nähe der BASF häufen sich die Funde toter Tiere. Ein Biologe vermutet,
dass eine bestimmte Chemikalie, die dort produziert wird, für das Sterben
verantwortlich sei. Messungen an 10 toten Hasen ergeben die folgenden
Konzentrationen: 33, 66, 26, 43, 46, 55, 42, 38, 17, 63.
Behauptung d. Chemiefabrik: Die Konzentrationen seinen nicht höher als
üblich.
Frage: Deuten die Werte auf eine signikant höhere Belastung hin?
Antwort ndet man nur wenn man die Werte mit Werten anderen Regionen
vergleicht.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
11
Datenerhebung
Graphische Darstellung
x1 , ..., xn
a1 , ..., ak
Gegeben sei eine Datenreihe
das in den Ausprägungen
aus n Beobachtungen und eine Merkmal,
vorliegt.
Denition
Die durch Abzählen der Merkmale mit einer bestimmten Merkmalausprägung
ai
erhaltene Anzahl
H (ai ) i = , .., k
H (ai )
,
Merkmalsausprägung, d.h.
Denition
Die relative Häugkeit
h ( ai )
1
ist die absolute Häugkeit der jeweiligen
ist die Anzahl der Indizes j, für die
xj = a i
.
erhält man, indem man die absolute Häugkeit
durch die Gesamtzahl N der klassizierten Merkmale teilt:
h(ai ) := H (nai ) =
E. Friedmann
absolute Häugkeit von
ai
Gesamtzahl der Merkmale
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
12
Datenerhebung
Graphische Darstellung
Beispiel
AB0-System
H(A)=9123
H(B)=2987 H(0)=7725 H(AB)=1269
h(A)=0.4323 h(B)=0.1416
h(0)=0.366 h(AB)=0.0601
=43.23%
E. Friedmann
=14.16%
=36.6%
AG Numerik, IWR, Heidelberg
=6.01%
Mathe f. Biologen
13
Datenerhebung
Graphische Darstellung mit Liniendiagramme
Hier wird der funktionelle Zusammenhang zweier (bei 2D-Darstellung) oder
dreier (bei 3D-Darstellung) Merkmale in Linienform dargestellt.
Wenn bei einer Messung genügend viele Messpunkte gesammelt werden,
können die Punkte über eine Linie verbunden werden.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
14
Datenerhebung
Graphische Darstellung mit Säulendiagramme
bei sehr schmalen Säulen:Stabdiagramm
Hier wird durch auf der x-Achse senkrecht stehende, nicht aneinander grenzende
Säulen (Rechtecke mit bedeutungsloser Breite) die Häugkeitsverteilung einer
diskreten (Zufalls-)Variablen veranschaulicht (bis ca. 15). Bei mehr Kategorien
leidet die Anschaulichkeit und es sind Liniendiagramme zu bevorzugen.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
15
Datenerhebung
Graphische Darstellung mit Balkendiagramme
Streckendiagramm (1D )
Hier wird eine Fläche mit einer Grundseite der Länge L in Teilabschnitte der
Längen
l = L·h
unterteilt. Diese Teilabschnitte werden dann den jeweiligen
Merkmalausprägungen zugewiesen.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
16
Datenerhebung
Graphische Darstellung mit Kreisdiagramme
Kuchen- oder Tortendiagramms
Ein Kreisdiagramm ist eine Darstellungsform für Teilwerte eines Ganzen als
Teile eines Kreises. Das Kreisdiagramm ist kreisförmig und in mehrere
Kreissektoren eingeteilt, wobei jeder Kreissektor einen Teilwert und der Kreis
somit die Summe der Teilwerte (das Ganze) darstellt. Die alternative
Benennung als Kuchen- oder Tortendiagramm bezieht sich auf Schnitte eines
runden Kuchens, die den Kreissektoren entsprechen.
Kreisdiagramme eignen sich besonders für die Darstellung von Verteilungen und
Anteilen (nicht mehr als 10).
Die Kreissektoren werden jeweils durch Radiuslinien vom Rand zur Mitte
deniert. Der Mittelpunktswinkel zwischen zwei benachbarten Radiuslinien
bestimmt die Gröÿe der Kreissektoren. Die jeweilige Sektorgröÿe (als Winkel)
wird folgendermaÿen errechnet: Winkel = 360
E. Friedmann
AG Numerik, IWR, Heidelberg
◦
Teilwert
· Gesamtwert
Mathe f. Biologen
17
Datenerhebung
Graphische Darstellung mit Kreisdiagramme
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
18
Datenerhebung
Graphische Darstellung mit Kreisdiagramme
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
19
Datenerhebung
Quantizierung von Verteilungen
Charakteristika von Messreihen:
ˆ
ˆ
ˆ
Lage von Messwerten - verschiedene Begrie von 'Mittelwert'
Streuung von Messwerten - Variabilität
Gestalt der Verteilung - Symmetrie oder Schiefe?
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
20
Datenerhebung
Lageparameter
Lageparameter Mittelwerte dienen zur Beschreibung der Lage der erhobenen
Daten. Sie geben die zentrale Tendenz der Verteilung wieder.
Denition
Das arithmetische Mittel (Durchschnitt) ist ein Mittelwert, der als Quotient aus
der Summe aller beobachteten Werte und der Anzahl der Werte deniert ist:
x̄ = n (x1 + x2 + x3 + ... + xn−1 + xn ) = n Σni=1 xi
1
1
Behauptung: Die Summe der positiven Abweichungen der Einzelwerte vom
arithmetischen Mittelwert ist gleich der Summe der negativen Abweichungen,
d.h.
Σni=1 (xi − x̄ ) = 0
Beweis: Ausführliches Hinschreiben der Summe ergibt
(x1 − x̄ ) + (x2 − x̄ ) + ... + (xn − x̄ ) = 0
x1 + x2 + ... + xn − (x̄ + x̄ + ... + x̄ ) = nx̄ − nx̄ =
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
0
21
Datenerhebung
Lageparameter
Minimaleigenschaft
xi − x ∗
x = x̄
Die Summe der Quadrate der Abweichungen
beliebigen Zahl
x
∗
nimmt ihr Minimum für
∗
der Messwerte einer
an.
Q (x̄ ) = Σni=1 |xi − x ∗ |2 ≤ Q (m)
∀m ∈ IR
Beweis: ÜBUNGSAUFGABE
Physikalische Interpretation: Man kann sich das arithmetische Mittel als
Schwerpunkt vorstellen: Liegen Kugeln gleicher Masse an den Stellen
xi
auf einem Lineal, das von min{
xi
} bis max{
} reicht, so ist
x̄
x1 , ..., xN
genau die Stelle,
an der man einen Stift ansetzten muÿ, damit das Lineal im Gleichgewicht ist.
a1 , ..., ak
H (a1 ), ..., H (ak )
Für Merkmalausprägungen
Häugkeiten
und Messwerte
x1 , ..., xn
h(a1 ), ..., h(ak )
mit absoluten
und relativen Häugkeiten
gilt:
x̄ = Σki=1 h(ai ) · ai = n Σki=1 H (ai ) · ai = n Σni=1 xi
1
E. Friedmann
AG Numerik, IWR, Heidelberg
1
Mathe f. Biologen
22
Datenerhebung
Lageparameter
Bemerkung
Das arithmetische Mittel ist nicht robust gegenüber Ausreiÿern.
Beispiel: Wir untersuchen eine Hasenpopulation in der Nähe von Fokushima;
die Konzentration eines Schadstos werden in den Nieren von erlegten Hasen
gemessen. Das Messergebnis lautet:
3
5
8
6
.
38
Für das arithmetische Mittel erhält man
x̄ =
1
5
(3 + 5 + 8 + 6 + 38) = 12.
Dieser Wert ist aber nicht für die gemessene Schadstokonzentration
charakteristisch, da nur ein Messwert gröÿer und alle übrigen kleiner als
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
x̄
sind.
23
Datenerhebung
Lageparameter
Denition
Der Median (Zentralwert)
x̃med
bezeichnet eine Grenze zwischen zwei Hälften.
In der Statistik halbiert der Median eine Verteilung, unterhalb und oberhalb M
liegen jeweils 50% der Messwerte:
x̃med :=
(
x
1( n
2 2 +1
x n+2 1 ,
+ x n2 ) ,
falls n ungerade
falls n gerade
Beispiel
Hasenpopulation, Messwerte: 3, 5, 6, 8, 38 (, 9)
M=
E. Friedmann
6
AG Numerik, IWR, Heidelberg
(M = 7)
Mathe f. Biologen
24
Datenerhebung
Lageparameter
Bemerkung
Der Median ist robuster gegenüber Ausreiÿern und läÿt sich auch auf ordinal
skalierte Variablen anwenden.
Minimaleigenschaft
xi − x ∗
x = x̃med
Die Summe der Abweichungen
nimmt ihr Minimum für
∗
der Messwerte einer beliebigen Zahl
an:
Q (x̃med ) = Σni=1 |xi − x̃med | ≤ Q (x ∗ )
E. Friedmann
x∗
AG Numerik, IWR, Heidelberg
∀m ∈ IR
Mathe f. Biologen
25
Datenerhebung
Lageparameter
Bei nominal skalierten Gröÿen kann kein arithmetisches Mittel berechnet
werden.
Denition
Der Modalwert
x̂mod
ist derjenige Wert der Merkmalsausprägung, der am
häugsten vorkommt.
Kommen viele Werte gleich oft vor, so gibt es keinen Modalwert.
Der Modalwert kann für alle Skalen berechnet werden.
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
26
Datenerhebung
Streuung
Empirische Messwerte auf einer metrischen Skala stimmen i. A. nicht mit
einem Lageparameter wie Median oder Mittelwert überein. Die Messwerte
streuen um den Lageparameter. Zwei Verteilungen können gleiche Mittelwerte
und völlig verschiedene Streuungen aufweisen. Wir wollen ein Maÿ für die
Streuung einführen:
Denition
Die mittlere quadratische Abweichung
m2 =
q
Q (x̄ ) =
n
q
1 Σn
2
n i =1 (xi − x̄ ) .
m2
vom Mittelwert
Sie beschreibt die Streuung der Messwerte
xi
um
x̄
x̄
ist gegeben durch
.
Die mittlere quadratische Abweichung der Messwerte vom wahren Wert x
schätzt man über die Varianz ab:
Denition
Die Varianz ist deniert durch:
E. Friedmann
sx2 = n−1 1 Σni=1 (xi − x̄ )2
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
27
Datenerhebung
Streuung
Denition
Die Standarabweichung ist die Quadratwurzel aus der Varianz:
Denition
Der Standardfehler (mittlerer Fehler) ist gegeben durch
einer Messung in der Form
x̄ + −sx̄
sx = sx2
sx̄ = √sxn
p
mit der Güte
.
Denition
Die mittlerer absolute Abweichung ist gegeben durch
MAD
:= n1 Σni=1 |xi − x̃med |.
Bemerkung
Der MAD ist nicht robust gegenüber Ausreiÿern, daher wird auch der Median
der Abweichungen als Streumaÿ betrachtet: med
E. Friedmann
AG Numerik, IWR, Heidelberg
(|x1 − x̃med |, ..., |xn − x̃med |)
Mathe f. Biologen
28
Datenerhebung
Dang & Dong
Nikolas Strüchler [ImbodenKoch04]
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
29
Datenerhebung
Elfriede Friedmann
Department of Applied Mathematics
University of Heidelberg
E. Friedmann
AG Numerik, IWR, Heidelberg
Mathe f. Biologen
30
Herunterladen