Mathematik für Biologen Vorlesung SS 2011 Universität Heidelberg Elfriede Friedmann AG Numerik, IWR, Heidelberg 12. April 2011 Overview Datenerhebung Datenerhebung Dang Nikolas Strüchler [ImbodenKoch04] E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 3 Datenerhebung Ding & Dong Nikolas Strüchler [ImbodenKoch04] E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 4 Datenerhebung Datenerhebung Empirische Daten müssen quantiziert werden, bevor eine mathematische Behandlung möglich ist. Die Daten werden durch Tabellen und Graphiken dargestellt und angeordnet. Denition Bei einer Datenerhebung werden an ausgewählten Versuchseinheiten, den Merkmalsträgern, [engl. experimental units]) ein oder mehrere Merkmale festgestellt. Die Werte, die von einem Merkmal angenommen werden, heiÿen Merkmalsausprägungen. Die einfachste Form der Quantizierung ist die Klassizierung, d.h. eine Einteilung von Merkmale in Klassen, die durch qualitativ verschiedene Merkmalausprägungen festgelegt sind. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 5 Datenerhebung Datenerhebung Beispiel Merkmalsträger Merkmal Population Gewicht Merkmalsausprägung IR Geschlecht M/W Cholesterinkonz. Bäume eines Waldes Panzen Schädlingsbefall IR IR Blattlänge IR Blütenzahl E. Friedmann AG Numerik, IWR, Heidelberg + keiner, gering, mittel, stark Höhe, Gewicht Blütenfarbe + + + IN weiÿ, blau, gelb, rosa Mathe f. Biologen 6 Datenerhebung Datenerhebung Beispiel Die Blutgruppe (AB0-System) ist ein Merkmal mit Ausprägungen A, B, AB und 0. Das Ergebnis einer Blutgruppenbestimmung ergab: Von 21104 Personen gehörten 9123 der Blutgruppe A, 2987 der Blutgruppe B, 7725 der Blutgruppe 0 und 1269 der Blutgruppe AB an.[VogelM82] E. Friedmann Merkmalsträger Merkmal Personen Blutgruppe AG Numerik, IWR, Heidelberg Merkmalsausprägung A, B, 0, AB Mathe f. Biologen 7 Datenerhebung Untersuchte Merkmale messbare Merkmale nominale Merkmale Merkmale, deren Unterscheidung anhand einer metrischen Skala erfolgt (Körpergröÿe, Gewicht) Merkmale, deren Ausprägungen nur eine begriiche Unterscheidung zulassen und sich mit Hilfe einer nominalen Skala angeben lassen (Geschlecht, Haarfarbe, Studienfach, ...) die Merkmale sind nur nach einer bestimmten Merkmalausprägung abzählbar ordinale Merkmale E. Friedmann Mermale, die neben einer nominellen Unterscheidung auch noch eine Ordnung zulassen und sich mit Hilfe einer ordinalen Skala (Rangskala, Notenskala) angeben lassen AG Numerik, IWR, Heidelberg Mathe f. Biologen 8 Datenerhebung Stichproben Denition Die Grundgesamtheit ist die Menge der Merkmalsträger, über die eine Aussage getroen werden soll. (z.B. Panzen eines Feldes, Menschen einer Stadt) Genaue Denition der Grundgesamtheit wichtig! Eine Untersuchung aller Elemente einer Grundgesamtheit, eine Totalerhebung, ist in der Regel nicht möglich. Man bedient sich einer repräsentativen Teilauswahl. Denition Eine Zufallsstichprobe ist eine repräsentative Teilauswahl, d.h. alle Elemente der Grundgesamtheit haben die gleiche Chance, ausgewählt zu werden. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 9 Datenerhebung Stichproben Problem 1 Mit welcher Verlässlichkeit können auf der Basis einer Stichprobe Schlussfolgerungen auf eine Grundgesamtheit gezogen werden? A: Aus den Messwerten der Stichproben berechnet man Schätzwerte, die die wahren Werte der Grundgesamtheit schätzen. Zield der Test-Theorie ist es, aufgrund dieser Schätzwerte Aussagen über die wahren Werte zu machen und Entscheidungen zu treen. Beispiel Ein langjähriger Erfahrungswert besagt, dass etwa 48% aller Neugeborenen weiblich sind. Wahrscheinlichkeit einer Mädchengeburt: p= . 0 48 Erhebung an 3 Krankenhäusern: Bei 680 Geburten einen Stichprobenanteil von 51%, d.h. 3% mehr Fragen: Ist die Erhöhung nur zufällig wegen einer zu kleinen Stichprobe? Ist die Eröhung signikant? E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 10 Datenerhebung Stichproben Problem 2 Welche Schlüsse lassen sich aus einer Datenerhebungen ziehen? Beispiel In der Nähe der BASF häufen sich die Funde toter Tiere. Ein Biologe vermutet, dass eine bestimmte Chemikalie, die dort produziert wird, für das Sterben verantwortlich sei. Messungen an 10 toten Hasen ergeben die folgenden Konzentrationen: 33, 66, 26, 43, 46, 55, 42, 38, 17, 63. Behauptung d. Chemiefabrik: Die Konzentrationen seinen nicht höher als üblich. Frage: Deuten die Werte auf eine signikant höhere Belastung hin? Antwort ndet man nur wenn man die Werte mit Werten anderen Regionen vergleicht. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 11 Datenerhebung Graphische Darstellung x1 , ..., xn a1 , ..., ak Gegeben sei eine Datenreihe das in den Ausprägungen aus n Beobachtungen und eine Merkmal, vorliegt. Denition Die durch Abzählen der Merkmale mit einer bestimmten Merkmalausprägung ai erhaltene Anzahl H (ai ) i = , .., k H (ai ) , Merkmalsausprägung, d.h. Denition Die relative Häugkeit h ( ai ) 1 ist die absolute Häugkeit der jeweiligen ist die Anzahl der Indizes j, für die xj = a i . erhält man, indem man die absolute Häugkeit durch die Gesamtzahl N der klassizierten Merkmale teilt: h(ai ) := H (nai ) = E. Friedmann absolute Häugkeit von ai Gesamtzahl der Merkmale AG Numerik, IWR, Heidelberg Mathe f. Biologen 12 Datenerhebung Graphische Darstellung Beispiel AB0-System H(A)=9123 H(B)=2987 H(0)=7725 H(AB)=1269 h(A)=0.4323 h(B)=0.1416 h(0)=0.366 h(AB)=0.0601 =43.23% E. Friedmann =14.16% =36.6% AG Numerik, IWR, Heidelberg =6.01% Mathe f. Biologen 13 Datenerhebung Graphische Darstellung mit Liniendiagramme Hier wird der funktionelle Zusammenhang zweier (bei 2D-Darstellung) oder dreier (bei 3D-Darstellung) Merkmale in Linienform dargestellt. Wenn bei einer Messung genügend viele Messpunkte gesammelt werden, können die Punkte über eine Linie verbunden werden. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 14 Datenerhebung Graphische Darstellung mit Säulendiagramme bei sehr schmalen Säulen:Stabdiagramm Hier wird durch auf der x-Achse senkrecht stehende, nicht aneinander grenzende Säulen (Rechtecke mit bedeutungsloser Breite) die Häugkeitsverteilung einer diskreten (Zufalls-)Variablen veranschaulicht (bis ca. 15). Bei mehr Kategorien leidet die Anschaulichkeit und es sind Liniendiagramme zu bevorzugen. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 15 Datenerhebung Graphische Darstellung mit Balkendiagramme Streckendiagramm (1D ) Hier wird eine Fläche mit einer Grundseite der Länge L in Teilabschnitte der Längen l = L·h unterteilt. Diese Teilabschnitte werden dann den jeweiligen Merkmalausprägungen zugewiesen. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 16 Datenerhebung Graphische Darstellung mit Kreisdiagramme Kuchen- oder Tortendiagramms Ein Kreisdiagramm ist eine Darstellungsform für Teilwerte eines Ganzen als Teile eines Kreises. Das Kreisdiagramm ist kreisförmig und in mehrere Kreissektoren eingeteilt, wobei jeder Kreissektor einen Teilwert und der Kreis somit die Summe der Teilwerte (das Ganze) darstellt. Die alternative Benennung als Kuchen- oder Tortendiagramm bezieht sich auf Schnitte eines runden Kuchens, die den Kreissektoren entsprechen. Kreisdiagramme eignen sich besonders für die Darstellung von Verteilungen und Anteilen (nicht mehr als 10). Die Kreissektoren werden jeweils durch Radiuslinien vom Rand zur Mitte deniert. Der Mittelpunktswinkel zwischen zwei benachbarten Radiuslinien bestimmt die Gröÿe der Kreissektoren. Die jeweilige Sektorgröÿe (als Winkel) wird folgendermaÿen errechnet: Winkel = 360 E. Friedmann AG Numerik, IWR, Heidelberg ◦ Teilwert · Gesamtwert Mathe f. Biologen 17 Datenerhebung Graphische Darstellung mit Kreisdiagramme E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 18 Datenerhebung Graphische Darstellung mit Kreisdiagramme E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 19 Datenerhebung Quantizierung von Verteilungen Charakteristika von Messreihen: Lage von Messwerten - verschiedene Begrie von 'Mittelwert' Streuung von Messwerten - Variabilität Gestalt der Verteilung - Symmetrie oder Schiefe? E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 20 Datenerhebung Lageparameter Lageparameter Mittelwerte dienen zur Beschreibung der Lage der erhobenen Daten. Sie geben die zentrale Tendenz der Verteilung wieder. Denition Das arithmetische Mittel (Durchschnitt) ist ein Mittelwert, der als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte deniert ist: x̄ = n (x1 + x2 + x3 + ... + xn−1 + xn ) = n Σni=1 xi 1 1 Behauptung: Die Summe der positiven Abweichungen der Einzelwerte vom arithmetischen Mittelwert ist gleich der Summe der negativen Abweichungen, d.h. Σni=1 (xi − x̄ ) = 0 Beweis: Ausführliches Hinschreiben der Summe ergibt (x1 − x̄ ) + (x2 − x̄ ) + ... + (xn − x̄ ) = 0 x1 + x2 + ... + xn − (x̄ + x̄ + ... + x̄ ) = nx̄ − nx̄ = E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 0 21 Datenerhebung Lageparameter Minimaleigenschaft xi − x ∗ x = x̄ Die Summe der Quadrate der Abweichungen beliebigen Zahl x ∗ nimmt ihr Minimum für ∗ der Messwerte einer an. Q (x̄ ) = Σni=1 |xi − x ∗ |2 ≤ Q (m) ∀m ∈ IR Beweis: ÜBUNGSAUFGABE Physikalische Interpretation: Man kann sich das arithmetische Mittel als Schwerpunkt vorstellen: Liegen Kugeln gleicher Masse an den Stellen xi auf einem Lineal, das von min{ xi } bis max{ } reicht, so ist x̄ x1 , ..., xN genau die Stelle, an der man einen Stift ansetzten muÿ, damit das Lineal im Gleichgewicht ist. a1 , ..., ak H (a1 ), ..., H (ak ) Für Merkmalausprägungen Häugkeiten und Messwerte x1 , ..., xn h(a1 ), ..., h(ak ) mit absoluten und relativen Häugkeiten gilt: x̄ = Σki=1 h(ai ) · ai = n Σki=1 H (ai ) · ai = n Σni=1 xi 1 E. Friedmann AG Numerik, IWR, Heidelberg 1 Mathe f. Biologen 22 Datenerhebung Lageparameter Bemerkung Das arithmetische Mittel ist nicht robust gegenüber Ausreiÿern. Beispiel: Wir untersuchen eine Hasenpopulation in der Nähe von Fokushima; die Konzentration eines Schadstos werden in den Nieren von erlegten Hasen gemessen. Das Messergebnis lautet: 3 5 8 6 . 38 Für das arithmetische Mittel erhält man x̄ = 1 5 (3 + 5 + 8 + 6 + 38) = 12. Dieser Wert ist aber nicht für die gemessene Schadstokonzentration charakteristisch, da nur ein Messwert gröÿer und alle übrigen kleiner als E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen x̄ sind. 23 Datenerhebung Lageparameter Denition Der Median (Zentralwert) x̃med bezeichnet eine Grenze zwischen zwei Hälften. In der Statistik halbiert der Median eine Verteilung, unterhalb und oberhalb M liegen jeweils 50% der Messwerte: x̃med := ( x 1( n 2 2 +1 x n+2 1 , + x n2 ) , falls n ungerade falls n gerade Beispiel Hasenpopulation, Messwerte: 3, 5, 6, 8, 38 (, 9) M= E. Friedmann 6 AG Numerik, IWR, Heidelberg (M = 7) Mathe f. Biologen 24 Datenerhebung Lageparameter Bemerkung Der Median ist robuster gegenüber Ausreiÿern und läÿt sich auch auf ordinal skalierte Variablen anwenden. Minimaleigenschaft xi − x ∗ x = x̃med Die Summe der Abweichungen nimmt ihr Minimum für ∗ der Messwerte einer beliebigen Zahl an: Q (x̃med ) = Σni=1 |xi − x̃med | ≤ Q (x ∗ ) E. Friedmann x∗ AG Numerik, IWR, Heidelberg ∀m ∈ IR Mathe f. Biologen 25 Datenerhebung Lageparameter Bei nominal skalierten Gröÿen kann kein arithmetisches Mittel berechnet werden. Denition Der Modalwert x̂mod ist derjenige Wert der Merkmalsausprägung, der am häugsten vorkommt. Kommen viele Werte gleich oft vor, so gibt es keinen Modalwert. Der Modalwert kann für alle Skalen berechnet werden. E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 26 Datenerhebung Streuung Empirische Messwerte auf einer metrischen Skala stimmen i. A. nicht mit einem Lageparameter wie Median oder Mittelwert überein. Die Messwerte streuen um den Lageparameter. Zwei Verteilungen können gleiche Mittelwerte und völlig verschiedene Streuungen aufweisen. Wir wollen ein Maÿ für die Streuung einführen: Denition Die mittlere quadratische Abweichung m2 = q Q (x̄ ) = n q 1 Σn 2 n i =1 (xi − x̄ ) . m2 vom Mittelwert Sie beschreibt die Streuung der Messwerte xi um x̄ x̄ ist gegeben durch . Die mittlere quadratische Abweichung der Messwerte vom wahren Wert x schätzt man über die Varianz ab: Denition Die Varianz ist deniert durch: E. Friedmann sx2 = n−1 1 Σni=1 (xi − x̄ )2 AG Numerik, IWR, Heidelberg Mathe f. Biologen 27 Datenerhebung Streuung Denition Die Standarabweichung ist die Quadratwurzel aus der Varianz: Denition Der Standardfehler (mittlerer Fehler) ist gegeben durch einer Messung in der Form x̄ + −sx̄ sx = sx2 sx̄ = √sxn p mit der Güte . Denition Die mittlerer absolute Abweichung ist gegeben durch MAD := n1 Σni=1 |xi − x̃med |. Bemerkung Der MAD ist nicht robust gegenüber Ausreiÿern, daher wird auch der Median der Abweichungen als Streumaÿ betrachtet: med E. Friedmann AG Numerik, IWR, Heidelberg (|x1 − x̃med |, ..., |xn − x̃med |) Mathe f. Biologen 28 Datenerhebung Dang & Dong Nikolas Strüchler [ImbodenKoch04] E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 29 Datenerhebung Elfriede Friedmann Department of Applied Mathematics University of Heidelberg E. Friedmann AG Numerik, IWR, Heidelberg Mathe f. Biologen 30