Mathematik für Biologen 1 Dr. Maria Neuss-Radu Universität Heidelberg Wintersemester 2006/07 Inhaltsverzeichnis 1 Messen und Datenbeschreibung 1.1 Merkmale und Mess-Skalen . . . . . . . . . . . . . . . . . . . . . . . 1.2 Die Zahlensysteme , , , . . . . . . . . . . . . . . . . . . . . . 1.2.1 Die natürlichen Zahlen . . . . . . . . . . . . . . . . . . . . . 1.2.2 Die ganzen Zahlen . . . . . . . . . . . . . . . . . . . . . . . 1.2.3 Die rationalen Zahlen (Bruchzahlen) . . . . . . . . . . . . . 1.2.4 Die reellen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . 1.2.5 Dokumentation von Messergebnissen . . . . . . . . . . . . . 1.2.6 Fehlerfortpflanzung . . . . . . . . . . . . . . . . . . . . . . . 1.3 Empirische Analyse der Messergebnisse . . . . . . . . . . . . . . . . 1.3.1 Empirische Häufigkeitsverteilung . . . . . . . . . . . . . . . 1.3.2 Lagemaße und Streuungsmaße . . . . . . . . . . . . . . . . . 1.3.3 Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C, Dr. Cordula Harter, BZH) . . . . . . . . . . . . . . 1.3.4 Stochastische Abhängigkeit: Korrelation und Regression . . . 1.3.5 Anwendung der Regressionsanalyse bei der Bestimmung der Proteinkonzentration in biologischem Gewebe. (Grundpraktikum, Dr. Markus Wirtz, HIP) . . . . . . . . . . . . . . . . . 2 Wahrscheinlichkeitsrechnung 2.1 Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . . 2.2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . 2.2.1 Die Laplace-Wahrscheinlichkeitsverteilung . . . . 2.2.2 Die Binomialverteilung . . . . . . . . . . . . . . . 2.2.3 Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Wahrscheinlichkeitsverteilungen auf 2.3.1 Die Gleichverteilung . . . . . . . . . . . . . . . . 2.3.2 Die Normalverteilung . . . . . . . . . . . . . . . . 2.4 Zufallsvariable und ihre Verteilungen . . . . . . . . . . . 2.4.1 Verteilung einer Zufallsvariable . . . . . . . . . . 2.4.2 Erwartungswert und Varianz einer Zufallsvariable 2.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 5 5 5 6 6 9 10 11 11 17 . 23 . 24 . 30 . . . . . . . . . . . . 32 32 37 37 40 43 44 45 47 48 49 53 55 INHALTSVERZEICHNIS 3 3 Induktive Statistik 3.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit . . . . . . 3.1.2 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . . 3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. . . . . . . 3.2.2 Test des Erwartungswertes einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.3 t-Test auf Lageunterschied bei verbundenen Stichproben . . 3.2.4 Anwendung des t-Testes bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Prof. Dr. Stephan Frings, IZ) . . . . . . . . . 4 Lösen von linearen Gleichungssystemen 4.1 Motivation: Lösungen einer Substanz . . . 4.2 Lineare (quadratische) Gleichungssysteme 4.2.1 Gaußsche Eliminationsmethode . . 4.3 Berechnen von Konzentrationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 57 57 60 65 66 . 67 . 69 . 70 . . . . 74 74 74 76 78 Kapitel 1 Messen und Datenbeschreibung 1.1 Merkmale und Mess-Skalen Bei Untersuchungen oder Beobachtungen von biologischen Vorgängen werden bestimmte Eigenschaften (Charakteristika) der zu untersuchenden Objekte gemessen bzw. beobachtet. Diese Eigenschaften nennen wir Merkmale. Merkmale können verschiedene Werte (Merkmalausprägungen) annehmen. Der Informationsgehalt der gemessenen Werte hängt von der Skala ab, auf der die Messung erfolgt. Merkmale können grob in qualitative und quantitative Merkmale eingeteilt werden. Man spricht von quantitativen Merkmalen, wenn sie zahlenmäßig erfassbar sind. Sind sie nur artmäßig erfassbar, so spricht man von qualitativen Merkmalen. Bei allen qualitativen Merkmalen besteht die Mess-Skala aus endlich vielen, diskreten (isolierten) Werten, welche 1. bei der Nominal-Skala unabhängig von irgendeiner Reihenfolge mit treffenden Namen bezeichnet werden, z. B. Merkmal Ausprägung Blutgruppe { 0, A, B, AB} Rhesusfaktor {positiv, negativ} 2. bei der Ordinal-Skala zusätzlich der Reihenfolge nach angeordnet sind, z. B. Merkmal Ausprägung Reifestadien { Ei, Larve, Puppe, Falter} Schädlingsbefall {keiner, gering, mittel, stark} Bei den quantitativen Merkmalen kann die Mess-Skala sowohl diskret (mit Hilfe der ganzen Zahlen ) als auch kontinuierlich (anhand der reellen Zahlen ) gewählt werden. 3. Bei der Intervall-Skala ist ein Bezugspunkt für die Abstands“-Messung, ” der sogenannte Nullpunkt, willkürlich festgelegt (z. B. Christi Geburt, Gefrierpunkt von Wasser). Es lassen sich sinnvollerweise Summen und Differenzen der Skalenwerte bilden. Da der Nullpunkt nicht physikalisch zwingend ist, 4 1.2. DIE ZAHLENSYSTEME , , , 5 sind Quotienten nicht interpretierbar. Merkmal Ausprägung Diskret/Kontinuierlich Datum 12.10.2004 D ◦ Temperatur 16,2 C K 4. Demgegenüber erlaubt die Verhältnis-Skala, wie der Name es auch ausdrückt, die Bildung von Quotienten (rationale Zahlen ) bezüglich eines absoluten Nullpunktes, z. B. Merkmal Ausprägung Diskret/Kontinuierlich Anzahl Individuen 0,1,2,3... D Größe 5,6 cm K Welches Skalenniveau günstig ist, hängt von der Fragestellung, aber auch von dem Messaufwand der eingesetzt werden kann ab. 1.2 Die Zahlensysteme , , , Bei der Einführung der Mess-Skalen haben wir gesehen, dass Zahlen eine wichtige Rolle bei der Beschreibung und Zusammenfassung von Messergebnissen spielen. 1.2.1 Die natürlichen Zahlen Die beim Zählen oder Abzählen verwendeten natürlichen Zahlen werden mit = {0, 1, 2, 3, 4, ...} bezeichnet. Wir stellen die natürlichen Zahlen im Zehnersystem dar, d. h. basierend auf Potenzen von 10. Z. B. steht 213785 für 213785 = 2 · 100000 + 1 · 10000 + 3 · 1000 + 7 · 100 + 8 · 10 + 5 · 1 = 2 · 105 + 1 · 104 + 3 · 103 + 7 · 102 + 8 · 101 + 5 · 100 Auch bezglich anderer Zahlensystemen kann man die natrlichen Zahlen darstellen. Das Dual- oder Zweiersystem ist zum Beispiel für die Anwendungen in der Codierungstheorie besonders wichtig. 1.2.2 Die ganzen Zahlen Da das Rechnen mit natürlichen Zahlen Beschränkungen unterliegt, z. B. ist die Differenz 12 − 15 in nicht durchführbar, verallgemeinert man dieses System durch Hinzunahme aller negativen Zahlen. Man erhällt dabei die ganzen Zahlen = {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }. 6 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG 1.2.3 Die rationalen Zahlen (Bruchzahlen) Bruchzahlen treten in natürlicher Weise bei der Angabe von Verhältnissen auf: Um ” die Substanz A anzusetzen, mische man 3 Teile der Fluessigkeit B und 5 Teile der Flüssigkeit C.“ Insgesamt hat man dann 8 Teile (genauer: Volumen oder Gewichtseinheiten), so dass die Mischung zu 38 aus B und zu 58 aus C besteht. Die rationalen Zahlen bezeichnet man mit m = { , m ∈ , n ∈ \ {0}}. n 1.2.4 Die reellen Zahlen Die reellen Zahlen kann man sich vorstellen als die Menge aller Punkte der unendlichen Zahlengeraden. Es stellt sich die Frage, ob die reellen Zahlen nicht dasselbe sind wie die rationalen Zahlen. Dies ist nicht der Fall: Es gibt Lücken“ in . Auf ” diese Lücken stößt man bereits, wenn man Wurzeln betrachtet. Die posititve Lösung der Gleichung x2 = 2 √ √ bezeichnet man mit 2. 2 kann nicht als Bruch geschrieben werden. Solche Zahlen heißen irrationale Zahlen. Darstellung reeller Zahlen Jede reelle Zahl hat eine Darstellung im Dezimalsystem als unendlicher Dezimalbruch. Z.B. 1 1 1 1 +1· +4· +5· + ... 10 100 1000 10000 = 1 · 101 + 7 · 100 + 3 · 10−1 + 1 · ·10−2 + 4 · 10−3 + 5 · 10−4 + . . . 17, 3145 . . . = 1 · 10 + 7 + 3 · Da es aber in der Praxis nicht möglich ist, mit unendlich vielen Dezimalstellen nach dem Komma zu rechnen, bricht man die Dezimalentwicklung durch Runden an einer geeigneten Stelle ab. Anstelle von π = 3, 141592654 . . . verwendet man π = 3, 14 (Abrunden nach der zweiten Stelle) oder π = 3, 1416 (Aufrunden nach der vierten Stelle) Die Regel für das Runden nach der n−ten Stelle nach dem Komma ist: Ist die (n + 1)−Ziffer nach dem Komma eine 5, 6, 7, 8 oder 9, wird die vorangehende Ziffer um 1 erhöht, anderenfalls behält sie ihren Wert. Rundet man eine Dezimalzahl auf die n-te Stelle ab, so erhält man für sie einen Näherungswert. Dabei entsteht ein Rundungsfehler der gleich dem Abstand 1.2. DIE ZAHLENSYSTEME , , , 7 zwischen dem Näherungswert und der genauen Zahl ist. Sei also x die genaue Zahl und x̃ der Näherungswert, so ist der Fehler δx gegeben durch δx = |x − x̃|. Rundet man auf die n-te Stelle ab, so ist der entstandene Rundungsfehler kleiner oder gleich 5 · 10−(n+1) . Zum Beispiel: √ 3 = 1, 732050808 . . . √ 3 = 1, 7321 Näherungswert durch Runden auf dien = 4 − te Ziffer Fehler ≤ 0.00005 = 5 · 10−5 √ 3 = 1, 73 Näherungswert durch Runden auf die n = 2 − te Ziffer Fehler ≤ 0.005 = 5 · 10−3 Die Ziffern, die bei solchen Näherungswerten auftreten, heißen signifikante Ziffern oder signifikante Stellen. Dabei werden voranstehende Nullen nicht mitgezählt. Beispiele 1 ln 2 = 0, 006931 hat vier signifikante Stellen 100 π = 3, 14 hat drei signifikante Stellen √ 19225 = 183, 65 hat fünf signifikante Stellen 1, 2 hat zwei signifikante Stellen 1, 20 hat drei signifikante Stellen In den Naturwissenschaften ist es üblich, Zahlen mit Hilfe von Zehnerpotenzen auf eine Standardform, die naturwissenschaftliche Darstellung zu bringen. So schreibt man 1, 471 · 102 statt 147, 1 3, 75 · 10−2 statt 0, 0375 In dieser Darstellung hat man also in der Regel nur eine Stelle vor dem Komma. Größenordnungen auf der biologischen Skala Man sagt eine Zahl ist von der Größenordnung 10k , k ∈ Z falls 10k die höchste Potenz in ihrer Dezimaldarstellung ist. Z.B. 107, 3 = 1 · 102 + 7 · 100 + 3 · 10−1 ist von der Ordnung 102 0, 0037 = 3 · 10−3 + 7 · 10−4 ist von der Ordnung 10−3 0, 5 · 10−3 = 5 · 10−4 ist von der Ordnung 10−4 Die biologische Skala umfaßt einen enormen Wertebereich und erfordert daher ein gekonntes umgehen mit Größenordnungen und Zehnerpotenzen. Als hilfreich erweist sich dabei die Verwendung bestimmter Vorsilben für 10er Potenzen. 8 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Vorsilbe Tera Giga Mega Kilo Milli Mikro Nano Pico Symbol T G M k m µ n p 10er Potenz 1012 109 106 103 10−3 10−6 10−9 10−12 Da diese Vorsilben jeweils um 103 anwachsen, läßt man machmal auch 3 Stellen vor dem Komma in der naturwissenschaftlichen Darstellung zu. Beispiele für biologische Größen • Viren wiegen ≈ 10−15 g = 0, 001pg und haben eine Größe von ≈ 10−7 m = 0, 1µm. • Zellmembrane haben eine Dicke von ≈ 6 · 10−9 m = 6nm • Bakterien haben eine Größe von ≈ 10−6 m = 1µm. • Rote Blutkörperchen haben einen Durchmesser von ≈ 7−8·10−6m = 7−8µm. • Großsäuger haben Größen von bis zu 10 m. • Die Anzahl der roten Blutkörperchen/µl Blut ist ≈ 4 − 6 · 106 . Dezimalbruchentwicklung Wir wollen nun die rellen Zahlen konstruieren, indem wir sie immer besser durch rationale Zahlen approximieren. Mathematisch präzise: wir zeigen, dass man jede reelle Zahl x ≥ 0 als Limes einer Folge von Dezimalbrüchen erhalten kann. Anschauliche Konstruktion: Zuerst wählen wir ein minimales l ∈ , so dass Z.B. bei x = √ 0 ≤ x < 10l+1 2 = 1, 4151.... ist l = 0, denn √ 0 ≤ 2 < 101 . Dann legen wir auf dem Zahlenstrahl Gitter die immer feiner werdende Gittermaschen haben: 1 1 10l , 10l−1 , . . . , 100 , , ,... 10 100 1 Bei jedem Schritt werden also die Gittermaschen um dem Faktor 10 kleiner und der Gitterpunkt, der von linkes am nächsten an x liegt, wird als neue Approximation gewählt, 1.2. DIE ZAHLENSYSTEME , , , 9 x= 2 . 0 1 2 3 4 5 6 7 8 9 10 .1,42 1,4 1,41 1,5 x= 2 Abbildung 1.1: Approximation durch Dezimalbrüche in unseren Beispiel: √ 1 ≤ √2 < 2 1, 4 ≤ √2 < 1, 5 1, 41 ≤ 2 < 1, 42 ... Wir erhalten somit eine Folge von Dezimalzahlen wachsender Stellenzahl, deren Glieder die reelle Zahl x immer besser approximieren: √ 1; 1, 4; 1, 41; 1, 414; 1, 4142; . . . → 2. Mathematische Konstruktion: Wir wählen zuerst ein minimales l ∈ , so dass 0 ≤ x < 10l+1 . Nun definieren wir : s−(l+1) = 0, sk = sk−1 + ak · 10−k für k ≥ −l, wobei ak ∈ {0, 1, . . . , 9} so gewählt wird, dass sk−1 + ak · 10−k ≤ x < sk−1 + (ak + 1) · 10−k . Damit ist eindeutig eine Folge (ak )k≥−l definiert und es gilt: sk → x für k → ∞. Bemerkung 1 Die gleiche Konstruktion kann man mit Brüchen in einer beliebigen Basis b ∈ {2, 3, 4, 5, . . .} durchführen. Solche Brüche werden b-adische Brüche genannt. Für viele Anwendungen ist die Entwicklung in der Basis 2 (Dualsystem) besonders wichtig, da sie z. B. für die Codierung von Information benutzt werden kann. 1.2.5 Dokumentation von Messergebnissen Alle Messvorgänge liefern in der Regel nur Näherungswerte. Wir nehmen einmal an, dass ein Messverfahren einen Messwert x̃ mit n-ten Stelle nach dem Komma liefert, was daher kommen kann, dass die Anzeige des Messgrätes nur solche Zahlen angibt oder es ist durch die Versuchsplanung festgelegt worden, nur soweit abzulesen. Dann 10 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG hat der Messwert einen Ablesefehler δx, der kleiner oder gleich 5 · 10−(n+1) ist. Die Dokumentation des Messwertes lautet dann x = x̃ ± 5 · 10−(n+1) , was soviel bedeutet wie x̃ − 5 · 10−(n+1) ≤ x ≤ x̃ + 5 · 10−(n+1) . Beispiel 1 Nach der Extraktion von Proteinen aus biologischem Gewebe muss die Menge der isolierten Proteine durch quantitative Nachweisverfahren experimentell bestimmt werden. Hierzu wird normalerweise ein Farbtest verwendet, der auf der Bindung von Coomassie Brilliant Blue“ an basische Aminosuren innerhalb des Pro” teins beruht. Photometer der neuen Generation können Extinktionen mit hoher Genauigkeit aus Lösungen bestimmen. Misst man nun eine Exitnktion von E=0.23856 so ist dieses Messergebnis folgendermaen zu dokumentieren E = 0.23856 ± 5 · 10−6 Hat man nun einen Messwert x̃ und einen Ablesefehler δx gegeben, so ist es sinnvoll die Dezimaldarstellung von x̃ dort abzubrechen, wo der entstehende Rundungsfehler von der gleichen Größenordnung ist wie der Ablesefehler. Beispiel 2 Hat man die Länge eines Tisches mit einem Zollstock gemessen, so ist die Aussage, der Tisch sei x̃ = 1, 0753483 m lang, unsinnig, denn der Ablesefehler bei einem Zollstock ist δx ≤ 0, 0005m = 5 · 10−4 m. Das Ergebnis sollte 1, 075 m lauten, weil dann der Rundungsfeler von der Größenordnung 10−4 , und damit von der gleichen Größenordnung wie der Ablesefehler δx ist. Der Messwert hat also vier signifikante Stellen 1,075. 1.2.6 Fehlerfortpflanzung Beim Rechnen mit Näherungswerten pflanzen sich die Fehler fort. Wir veranschaulichen dies anhand eines einfachen Beispiels. Seien zwei Messwerte x1 = 1, 621±5·10−4 und x2 = 0, 834 ± 10−4 gegeben. Dann ist x1 + x2 = 1, 621 ± 5 · 10−4 + 0, 834 ± 5 · 10−4 = 2, 455 ± 1 · 10−3 x1 · x2 = (1, 621 ± 5 · 10−4 ) · (0, 834 ± 5 · 10−4) = 1, 621 · 0, 834 ± (1, 621 + 0, 834) · 5 · 10−4 ± 25 · 10−8 = 1, 351914 ± 0, 0012275 ± 25 · 10−8 = 1, 352 ± 10−3 Wir sehen also, dass in beiden Rechnungen der Fehler in dem Ergebnis um eine Größenordnung größer geworden ist als der Fehler in den Ausgangsgrößen. Die obige Vorgehensweise den Fehler für errechnete Größen zu bestimmen nennt man auch Intervallarithmetik“. ” 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 1.3 11 Empirische Analyse der Messergebnisse Möchte man ein bestimmtes Merkmal X untersuchen, so wird man eine Versuchsreihe aufstellen, bei welcher ein Versuch n-mal durchgeführt wird. Nach jedem Versuch notiert man, welche Ausprägung aufgetreten ist und erhält so eine Messreihe (x1 , x2 , . . . , xn ). Beispiel 3 (Endliches, diskretes Merkmal) Merkmal: Anzahl der Blütenblätter der Butterblume (de Vries) Mögliche Ausprägungen: {5, 6, 7, 8, 9, 10} Messreihe: j 1 2 3 4 5 6 7 8 9 · · · · · · 222 xj 6 8 7 10 6 5 5 9 5 · · · · · · 5 Abbildung 1.2: Die Butterblume Beispiel 4 (Kontinuierliches Merkmal) Merkmal: Gewicht einer gewissen Mäuseart Mögliche Ausprägungen: alle reellen Zahlen zwischen 19 Messreihe: j 1 2 3 4 5 6 7 8 xj 22,5 24,3 20,8 19,7 24,9 24,1 22,1 24,0 11 12 13 14 15 16 17 18 19,9 24,2 22,5 23,1 19,6 22,1 24,0 23,1 1.3.1 und 25 9 10 19,4 22,6 19 20 22,6 20,7 Empirische Häufigkeitsverteilung Häufigkeitsverteilung bei endlichem diskretem Merkmal Zu den diskreten Merkmalen zählen alle qualitativen Merkmale sowie die quantitativdiskreten Merkmale. Die Anzahl k der Ausprägungen eines diskreten Merkmals ist in der Regel wesentlich kleiner als die Anzahl n der Elemente in der Messreihe und damit überschaubar. Seien {a1 , a2 , . . . , ak }, k ∈ die möglichen Ausprägungen eines Merkmals X. Um Aussagen über eine Messreihe zu machen, kann man zunächst einmal zählen, wie oft jede Ausprägung ai (i = 1, . . . , k) unter den xj (j = 1, . . . , n) vorkommt. Man erhält die Häufigkeitszahlen h(ai ) = Anahl der Messungen, für die xj = ai . 12 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG h(ai ) heißt absolute (empirische) Häufigkeit der Ausprägung ai in der Messreihe. Die Gesamtheit der Werte h(ai ) bilden die absolute empirische Häufigkeitsverteilung für das Merkmal X. Da sich alle n Messwerte x1 , x2 , . . . , xn auf die Ausprägungen a1 , a2 , . . . , ak aufteilen, sind die absoluten Häufigkeiten ganze Zahlen zwischen 0 und n, deren Summe genau die Anzahl n der Messwerte ergibt, in Formeln: h(ai ) ∈ 0 ≤ h(ai ) ≤ n k ! h(ai ) := h(a1 ) + h(a2 ) + ... + h(ak ) = n (1.1) (1.2) (1.3) i=1 Um den Anteil eines Merkmals ai am Gesamtvorkommen zu ermitteln, berechnen wir die relativen Häufigkeiten h(ai ) , i = 1, 2, ..., k (1.4) n Aus den Eigenschaften für die absoluten Häufigkeiten (1.1)-(1.3) ergibt sich: r(ai ) := r(ai ) ∈ 0 ≤ r(ai ) ≤ 1 k ! r(ai ) := r(a1 ) + r(a2 ) + ... + r(ak ) = 1 (1.5) (1.6) (1.7) i=1 Für die graphische Darstellung einer diskreten Häufigkeitsverteilung benutzt man Stabdiagramme, die man erhält, indem man über den Ausprägungen ai Stäbe zeichnet, deren Höhe entweder den absoluten Häufigkeiten h(ai ) oder den relativen Häufigkeiten r(ai ) entspricht. Betrachten wir das Beispiel 3 so haben wir: " Anzahl der Blütenblätter ai 5 6 7 8 9 10 Absolute Häufigkeit h(ai ) 133 55 23 7 2 2 222 133 55 23 7 2 2 Relative Häufigkeit r(ai ) 1 222 222 222 222 222 222 Relative Häufigkeit r(ai ) in % 59.9 24.8 10.3 3.2 0.9 0.9 100 Zur Zeichnung des Diagramms der relativen Häufigkeiten braucht man am Diagramm der absoluten Häufigkeiten nur eine Skalenänderung an der vertikalen Achse vorzunehmen. Man gibt daher meistens beide Diagramme durch eine Zeichnung wider mit zwei Skalen an der vertikalen Achse. Ein weiterer Häufigkeitsbegriff, der für die Beschreibung empirischer Daten weitere Aussagen liefert, ist die Summenhäufigkeit. (Ihr Analogon als Verteilungsfunktion wird uns in der Wahrscheinlichkeitsrechnung wieder begegnen). Für unser Beispiel ist es sinnvoll zu fragen, wieviele Butterblumen höchstens m Blütenblätter haben (m = 5, 6, 7, 8, 9, 10). Dazu summieren wir einfach die Häufigkeiten für die 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE h(a i ) r (a i ) (in %) 133 59,9 55 24,8 23 7 2 10,4 3,1 0,9 5 6 7 8 ai 9 10 13 5 6 7 8 9 10 ai Abbildung 1.3: Stabdiagramme der absoluten und relativen Häufigkeiten Blütenblätterzahlen von 1 bis m auf und erhalten das Stabdiagramm der absoluten und relativen Summenhäufigkeiten aus Abb. 1.4. Allgemein lässt sich für jedes diskrete, ordinal-skalierte Merkmal der Begriff der absoluten Summenhäufigkeit der Ausprägung am definieren als hh(am ) = h(a1 ) + ... + h(am ) =: m ! i=1 h(ai ) =: ! h(ai ) i≤m hh(am ) gibt an, wie oft eine der ersten m Ausprägungen a1 , a2 , ..., am unter den Messwerten vorkommt. Entsprechend definieren wir die relative Summenhäufigkeit als m ! ! rr(am ) = r(a1 ) + ... + r(am ) =: r(ai ) =: r(ai ) i=1 i≤m Für die höchste Ausprägung gilt: rr(ak ) = k ! r(ai ) = 1 (siehe (1.7)) i=1 Häufigkeitsverteilungen bei kontinuierlichem Merkmal Betrachten wir zunächst das Beispiel 4. Tatsächlich haben die Mäuse nicht genau das Gewicht 22,5g, 24,3g usw. Die abgelesenen Werte basieren auf einer vorher vereinbarten Messgenauigkeit - in unserem Fall von 5 · 10−2 . Gewicht von 22,5g bedeutet also genau genommen, dass das Gewicht im Interwall 22, 5 ± 5 · 10−2 liegt. Bei dieser Messung sind also alle Ausprägungen, die zwischen 22,45 und 22,55 liegen zu einer Klasse zusammengefasst. Diese Klassenbreite ist aber für unsere relativ kleine Messreihe viel zu fein. Wir müssten die 20 Messwerte auf etwa 60 Klassen 14 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG hh(a m) rr(a m) (in %) 222 220 218 211 100 99,1 98,2 95,1 188 84,7 133 59,9 5 6 7 8 9 10 am Abbildung 1.4: Stabdiagramme der Summenhäufigkeiten aufteilen. Dabei entstehen also viele Klassen mit keinem Element und viele mit einem Element. Um aus einer Messreihe in der Praxis Nutzen zu ziehen, sollte sie so groß sein, dass in jeder Klasse ausreichend viele“ Messwerte fallen. Steht jedoch nur eine ” begrenzte Anzahl von Messwerten zur Verfügung, so muss man die Klassenbreite so groß wählen, dass in jede Klasse einige“ Messwerte fallen. In unserem Beispiel 4 ist ” letzteres der Fall. Wir wählen die Klassenbreite auf zwei Arten: 1. Klassen mit Klassenbreite 1g: ]19-20], ]20-21], ..., ]24-25] 2. Klassen mit Klassenbreite 2g: ]19-21], ]21-23], ]23-25] Nun bestimmen wir für diese Klassen jeweils die Häufigkeiten: 1. ai h(ai ) 19-20 20-21 21-22 22-23 23-24 24-25 4 2 0 6 3 5 2. ai h(ai ) 19-21 21-23 23-25 6 6 8 Wir sehen, dass die erste Klassenbreite (1g) noch immer zu fein ist, da Klassen entstehen, welche keinen Messwert enthalten. Allgemeiner legen wir eine Klassifizierung einer kontinuierlichen Skala folgendermaßen fest: Wir bestimmen den kleinsten Wert xmin := min{x1 , x2 , . . . , xn } und den größten Wert xmax := max{x1 , x2 , . . . , xn } der Messreihe. Dann wählen wir Klassengrenzen c 0 < c1 < · · · < c k so dass c0 < xmin und xmax < ck , wobei die Klassenbreite b (gewöhnlich) konstant gewählt wird, d.h. b = ci − ci−1 , i = 1, . . . , k. Ein Messwert xj liegt dann in der Klasse ai =]ci−1 , ci ], falls ci−1 < xj ≤ ci gilt. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 15 Durch die Klassenbildung erhält man eine endliche Liste von Ausprägungen und hat das seiner Natur nach kontinuierliche Merkmal als ein diskretes aufgefasst. Damit können die Begriffe der Häufigkeitsverteilung auf klassifizierte Messreihen übertragen werden. Die absolute Klassenhäufigkeit h(ai ) = h(]ci−1 , ci ]) ist gleich der Anzahl der Messwerte, die in die Klasse ai =]ci−1 , ci ] fallen. Die relativen Klassenhäufigkeiten definiert man dann als r(ai ) = r(]ci−1 , ci ]) := h(ai ) . n Die absoluten und relativen Klassenhäufigkeiten werden üblicherweise mit Hilfe von Balkendiagrammen dargestellt, wobei als Balkenbreite die Klassenbreite gewählt wird. Für das Beispiel 4 (mit Klassenbreite b = 2) sind die Histogramme in Abb.1.5 gegeben. Erhöht man die Anzahl der Messungen, so kann man die Klassenbreite h r 8 8 20 6 6 20 19 21 23 25 ai Abbildung 1.5: Absolute und relative Klassenhäufigkeiten feiner wählen, was zu einer genaueren Beschreibung der Häufigkeitsverteilung führt. Oft ist es der Fall, dass mit immer feiner werdenden Klassenbreite (bei entsprechender Erhöhung der Messwerteanzahl) die Häufigkeitsverteilung immer besser durch eine stetige Funktion approximiert wird. Im nächsten Kapitel werden wir auf Grund ähnlicher Überlegungen Dichte-Funktionen einführen, mit Hilfe deren kontinuierliche Wahrscheinlichkeitsmodelle konstruiert werden. Basierend auf den absoluten und relativen Klassenhäufigkeiten berechnet man die Summenhäufigkeiten für klassifizierte Merkmale ebenso wie bei diskreten Merkmalen. Wir bemerken dass die relative Klassenhäufigkeit rr(ai) die relative Häufigkeit angibt mit der Ausprägungen die kleiner oder gleich ci sind in der Messreihe vorkommen. Eine allgeinere Frage ist nun, die relative Häufigkeit zu bestimmen, mit der Ausprägungen vorkommen, die kleiner oder gleich einer gegebenen Zahl x ∈ sind. Dazu definieren wir die Funktion F : R → [0, 1] die einem x den Wert F (x) gleich der relativen Häufigkeit, mit der Ausprägungen kleiner oder gleich x vorkommen, zuordnet. Wir bemerken dass 16 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG 1. Für x = ci , i = 1, . . . , k, gilt F (ci ) = rr(ai ), wobei rr(ai ) die relative Summenhäufigkeit der Klasse ai ist. Um F (x) für x )= ci zu bestimmen betrachten wir das Balkendiagramm der relativen Klassenhäufigkeiten. Wir stellen fest, dass F (ci ) = rr(ai ) den Flächen-Anteil links von ci im in diesem Histogramm darstellt, denn Fläche links von ci = rr(ai ) · b (Unter Flächenanteil verstehen wir die Fläche geteilt durch die Klassenbreite.) 2. Für x ∈]ci−1 , ci] approximieren wir die relative Häufigkeit, mit der Ausprägungen kleiner oder gleich x vorkommen, durch den Flächen-Anteil links von x im Histogramm. Dieser Anteil berechnet sich wie folgt: F (x) = rr(ai−1 ) + # $% & r(ai ) (x − ci−1 ) b F (ci−1 ) h r 2F(x) 8 8 20 6 6 20 19 21 x 23 25 x Abbildung 1.6: Fläche links von x im Histogramm Im Beispiel 4 ist b = 2. Der Flächen-Anteil der schraffierten Fläche im Histogramm Abb. 1.6 gibt den Wert F (x) an. Die Funktion F heißt empirische Verteilungsfunktion für ein klassifiziertes Merkmal. Sie gibt an mit welcher relativen Häufigkeit Ausprägungen kleiner oder gleich x in der Messreihe vorkommen. Die analytische Form der Verteilungsfuktion ist folgende: 0, x ≤ c0 r(a1 ) F (c0 ) + b (x − c0 ), x ∈]c0 , c1 ] r(a2 ) F (c1 ) + b (x − c1 ), x ∈]c1 , c2 ] F (x) = ... r(ai ) F (ci−1 ) + b (x − ci−1 ), x ∈]ci−1 , ci ] ... 1, ck < x Im Falle des Beispiels 4 ist das Schaubild von F in Abb. 1.7 dargestellt. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 17 F(x) 1 12 20 6 20 19 21 23 25 x Abbildung 1.7: Empirische Verteilungsfunktion F (x) 1.3.2 Lagemaße und Streuungsmaße Aufgrund eines Diagramms, z. B. Stab- oder Balkendiagramm, lassen sich folgende Eigenschaften einer Verteilung qualitativ abschätzen: • Lage der Datenwerte: In welchen Bereichen konzentrieren sich die Daten? • Streuung: Wie weit streuen die Werte? Gibt es Ausreisser? • Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch? Für eine statistische Datenanalyse sind aber Kenngrößen gefordert die die oben genannten Eigenschaften quantitativ beschreiben. Mit derartigen Kenngrößen werden wir uns in diesem Paragraph beschäftigen. Lagemaße Lagemaße sollen das Zentrum representieren, um das die Daten streuen. Ein Lagemaß, welches für alle ordinalskalierten Merkmalen definiert werden kann, ist das zentrale Wertepaar (bzw. der Median). Um es zu bestimmen, werden die Messdaten x1 , x2 , . . . , xn der Größe nach geordnet. Man erhält die geordnete Messreihe xmin = x(1) , x(2) , . . . , x(n) = xmax Dabei ist x(1) der kleinste, x(2) der zweitkleinste und x(n) der größte Datenwert. Es gibt zwei Fälle: 1. n gerade Dann kann die geordnete Reihe in zwei gleich lange Stücke aufgeteilt werden. x(1) , x(2) , . . . , x( n2 ) , x( n2 +1) , . . . , x(n) 18 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG 2. n ungerade In diesem Falle gibt es ein mittleres Element, nämlich x( n+1 ) , in dem Sinne, 2 dass vor und nach ihm gleich viele Elemente kommen: x(1) , x(2) , . . . , x( n+1 −1) , x( n+1 ) , x( n+1 +1) , . . . , x(n) 2 2 2 Im ersten Fall setzen wir Z1 = x( n2 ) , Z2 = x( n2 +1) . Im zweiten Fall: Z1 = Z2 = Z = x( n+1 ) . 2 (Z1 , Z2 ) nennen wir das zentrale Wertepaar, im zweiten Fall Z auch den Zentralwert oder Median. Ist das Merkmal sogar quantitativ, so definiert man als Zentralwert (Median) Z= Z1 + Z2 . 2 Der Median teilt also die geordnete Messreihe in zwei Hälften: Die eine Hälfte der Daten ist höchstens so groß wie der Median, die andere Hälfte mindestens so groß. Beispiel 5 (Untersuchung von Kranken auf den Erkrankungsgrad) Das Merkmal Erkrankungsgrad hat folgende Ausprägungen: L M leicht mittel S G schwer lebensgefährlich Die Skala ist nur eine Ordinalskala. Dem Gradunterschied kommt also keine quantitative Bedeutung zu. Die Messreihe ist: L M M L M M S S M G Die geordnete Messreihe: L L M S S G Wir erhalten Z1 = x(4) = M, Z2 = x(5) = M Die praktische Bedeutung lautet in Worten: Bei 50% der Patienten ist die Krankheit höchstens mittelstark, bei 50% ist sie mindestens mittelstark. Von Lagemaßen erwartet man dass sie die Lage der Werte xj optimal schätzten, d. h. die Abweichungen der xj von dem Lagemaß sollten möglichst gering sein. Für den Median einer quantitativen Messreihe gilt in diesem Sinne folgende Minimumseigenschaft: Satz 1 (Minimumeigenschaft des Medians) Gegeben sei die Messreihe (x1 , x2 , . . . , xn ) für ein quantitatives Merkmal X. Der Median erfüllt folgende Eigenschaft: n ! j=1 |xj − Z| ≤ n ! j=1 |xj − c|, ∀c ∈ . 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 19 Bemerkung 2 Aus der Definition der relativen Häufigkeit folgt, dass Z1 diejenige Ausprägung ist, bei der die relative Summenhäufigkeit zum ersten Mal 50% erreicht oder übersteigt. Damit kann man das zentrale Wertepaar aus dem Diagramm der Summenhäufigkeiten leicht bestimmen. Bei kontinuierlichen Merkmalen, wo nur noch die Information über die Klassenhäufigkeit vorliegt, kann man den klassifizierten Median mit Hilfe der empirischen Verteilungsfunktion ermitteln, und zwar ist es der Wert Z, für den gilt: F (Z) = 0.5 (1.8) Wenn alle Klassen nichtleer sind, dann ist die Verteilungsfunktion streng monoton wachsend und der durch die Gleichung (1.8) bestimmte Wert Z ist eindeutig definiert. Das bekannteste Lagemaß, welches für quantitative Merkmale definiert werden kann, ist das arithmetische Mittel (der Mittelwert). Für eine Messreihe (x1 , x2 , . . . , xn ) ist es definiert als n 1 1! x̄ = (x1 + x2 + . . . + xn ) = xj n n j=1 Kommen unter den Messwerten x1 , x2 , . . . , xn genau die Ausprägungen a1 , a2 , . . . , ak , mit den absoluten Häufigkeiten h(a1 ), h(a2 ), . . . , h(ak ) vor, so folgt: 1 (x1 + x2 + . . . + xn ) n 1 = (h(a1 )a1 + h(a2 )a2 + . . . + h(ak )ak ) n k 1! = h(ai )ai n i=1 x̄ = = k ! h(ai ) i=1 = k ! n (1.9) ai r(ai )ai (1.10) i=1 Auch der Mittelwert besitzt eine Minimumseigenschaft die im folgenden Satz formuliert wird. Satz 2 (Minimumeigenschaft des Mittelwertes) Für den Mittelwert x̄ einer Messreihe (x1 , x2 , . . . , xn ) gilt: n ! j=1 2 (xj − x̄) ≤ n ! j=1 (xj − c)2 , ∀c ∈ . Bemerkung 3 x̄ ist abhängig von der Größe jedes einzelnen Messwertes xj . Das bedeutet, dass ein Ausreisser“ das arithmetische Mittel bei kleinen Messreihen stark ” beeinflussen kann. Bei kleinen Messreihen nimmt man daher für die Beschreibung der Lage der Messwerte oft lieber den Zentralwert. 20 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Bei klassifizierten Daten ist es rechnerisch weniger aufwendig, die Lagemaße basierend auf den Klassenmitten a∗i = ci−1 + ci 2 und den Klassenhäufigkeiten h(ai ) zu ermitteln (anstatt alle Stichprobenwerte xj zu berücksichtigen). Der klassifizierte Mittelwert lässt sich demnach berechnen als k x̄kl = k ! 1! h(ai )a∗i = r(ai )a∗i n i=1 i=1 Der klassifizierte Mittelwert stimmt nicht genau mit dem Mittelwert der Messreihe überein, ist aber für immer größer werdende Messreihen immer näher bei x̄. Quantile sind weitere Lagemaße, welche benutzt werden, um darzustellen, in welchen Bereichen große Teile einer Messreihe liegen. Sie werden ausgehend von der geordneten Messreihe folgendermaßen definiert. Für p ∈ (0, 1) ist das empirische p-Qantil definiert als + 1 (x(np+1) + x(np) ), falls np ganzzahlig 2 x̃p = x([np]+1) , falls np nicht ganzzahlig Dabei ist die Gauß-Klammer [z] definiert als der ganzzahlige Anteil einer reellen Zahl z. Das p-Quantil ist also der Wert, unter welchem mindestens p·100% der Messwerte liegen. Das 0,5-Quantil haben wir bereits kennengelernt. Es ist das sogenannte 2. Quartil oder Median und stellt den Wert dar, unter welchem mindestens 0, 5 · 100% = 50% der Messwerte liegen. Die empirischen Quantile x̃0,25 und x̃0,75 werden auch 1. bzw. 3. Quartil genannt. Beispiel 6 Wir betrachten folgende Messreihe, die bereits geordnet wurde: 2 4 7 11 16 22 29 37 45 56 Die Quartile ergeben sich dann wie folgt p = 0, 25, np = 2, 5 =⇒ x̃p = x([np]+1) = x(3) = 7 1 p = 0, 5, np = 5 =⇒ x̃p = (x(6) + x(5) ) = 19 2 p = 0, 75, np = 7, 5 =⇒ x̃p = x([np]+1) = x(8) = 37 Bemerkung 4 Man kann die Quantile im Falle diskreter Merkmale aus dem Stabdiagramm der relativen Summenhäufigkeiten bestimmen. Für gegebenes p ∈ (0, 1) ist das p-Quantil x̃p der Wert für den die relative Summenhäufigkeit zum ersten mal p · 100% erreicht oder überschreitet. Im Falle klassifizierter Merkmale, kann man die Quantile mit Hilfe der empirischen Verteilungsfunktion bestimmen, und zwar ist das p-Quantil x̃p der Wert, für den gilt F (x̃p ) = p. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 21 Streuungsmaße Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund der Streuung der Messwerte sehr unterschiedlich sein. Mit Hilfe der Streuungsmaße können wir die Abweichungen vom Lagemaß quantifizieren. In diesem Abschnitt betrachten wir wieder ein quantitatives Merkmal mit einer Intervallskala aus ganzen oder reellen Zahlen. Die am einfachsten zu berechnenden Streuungsmaße sind die Spannweite (oder Variationsbreite): R = xmax − xmin = x(n) − x(1) und der Interquartilabstand: q = x̃0,75 − x̃0,25 Die Spannweite R berücksichtigt nur die beiden extremsten Werte und ist daher von Ausreißern sehr stark beeinflusst. Der Interquartilabstand gibt einen Bereich an, in dem mindestens 50% der Messwerte liegen. Die meist verwendeten Kennzahlen für die Streuung erhält man folgendermaßen: Wir wählen als Lagemaß das arithmetische Mittel und betrachten die quadratischen Abstände (x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2 Als Kennzahl wählen wir dann das arithmetische Mittel dieser Abstände. Wir erhalten die mittlere quadratische Abweichung (oder Varianz) n 1! σ(x) = (xj − x̄)2 n j=1 2 In der Praxis wird oft die sogenannte empirische Varianz benutzt, die gegeben ist als n 1 ! 2 s(x) = (xj − x̄)2 . n − 1 j=1 Die Gründe dafür werden in einem späteren Kapitel klar werden. Da die Maßeinheit für die Varianz das Quadrat der Maßeinheit der Messwerte ist, ist diese Größe schwer zu interpretieren. Deswegen definiert man die Standardabweichung , - ! -1 n σ(x) = . (xj − x̄)2 n j=1 und entsprechend die empirische Standardabweichung / s(x) = s(x)2 Die Standardabweichung ist also immer eine positive Zahl. Ihre Bedeutung besteht unter anderen darin, dass im Intervall ]x̄ − σ(x), x̄ + σ(x)[ viele“ Messwerte liegen. ” 22 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Das obengenannte Intervall heißt Standard-Streuintervall. Generell findet man bei allen Verteilungen mindestens 34 aller Werte im Intervall ]x̄ − 2σ(x), x̄ + 2σ(x)[ und 89 aller Werte im Intervall ]x̄ − 3σ(x), x̄ + 3σ(x)[. Ein nützlicher Ausdruck für die Varianz, vor allem im Hinblick auf die Übertragung auf klassifizierte Daten, ist gegeben durch: k k ! 1! σ(x) = h(ai )a2i − x̄2 = r(ai )a2i − x̄2 n i=1 i=1 2 Im Falle klassifizierter Daten erhalten wir also die klassifizierte Varianz als k σ(x)2kl k ! 1! = h(ai )(a∗i )2 − x̄2kl = r(ai )(a∗i )2 − x̄2kl n i=1 i=1 wobei a∗i wieder die Klassenmitte darstellen soll. Box-Plots Box-Plots ermöglichen die geschlossene graphische Darstellung wichtiger Kenngrößen einer Messreihe. Sie sind vor allem sehr hilfreich, wenn es darum geht, unterschiedliche Datenerhebungen zu vergleichen. Für die Anfertigung der Box-Plots wird die Fünf-Punkte-Zusammenfassung herangezogen: xmin , 1.Quartil, Median, 3.Quartil und xmax . Der Box-Plot für das Beispiel 6 ist in Abb. 1.8 dargestellt. 56 37 19 7 2 0 Abbildung 1.8: Box-Plot für das Beispiel 6. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 1.3.3 23 Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C, Dr. Cordula Harter, BZH) Die Genauigkeit einer Pipette bezeichnet die Differenz zwischen dem Mittelwert einer Anzahl wiederholter Messungen und dem Nominalwert. Die Präzision gibt an, wie gut die Messwerte übereinstimmen. Versuch: Mit einer Kolbenhubpipette werden 100µl destilliertes Wasser pipettiert und das Gewicht der Probe gemessen. Dieses Vorgehen wird weitere 9 Mal wiederholt. Man erhält z.B. folgende Messreihe (gj ist das Gewicht der j-ten Probe): j 1 2 3 4 5 6 7 8 9 10 gj (in mg) 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9 Da die Dichte des Wassers d(H2 O) = 1g/cm3 ist, kann aus dem Gewicht einer Probe ihr Volumen berechnet werden. Die obige Tabelle stellt also auch die Werte vj (in µl) für die Volumina der Proben dar. Abbildung 1.9: Die Kolbenhubpipette Um die Genauigkeit zu überprüfen, bildet man zuerst den Mittelwert der Messreihe n 1! 1 v̄ = vj = · 999, 8 = 99, 98. n j=1 10 Die Genauigkeit E berechnet sich dann als E = | v̄ − v0 | = | 99, 98 − 100 | = 0, 02, (µl) wobei v0 = 100µl der Nominalwert ist. Die relative Genauigkeit ist gegeben durch E 0, 02 = = 0, 0002. v0 100 In den Herstellerrichtlinien wird die relative Genauigkeit in % angegeben, d.h. in unserem Fall E = 0, 02%. v0 Als Maß für die Präzision benutzt man die empirische Standardabweichung (bzw. den Variationskoeffizienten). Für die Standardabweichung erhalten wir 0" n 2 j=1 (vj − v̄) s(v) = = 1, 496 (µl) n−1 24 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Um die Standardabweichung mit der Größe der Messwerte in Bezug zu bringen, berechnen wir den Variationskoeffizienten V = s(v) 1, 496 = = 0, 01496 oder V = 1, 496%. v̄ 99, 98 Wir möchten nun die Frage beantworten, ob die untersuchte Pipette genau und präzise ist. Die Herstellerrichtlinien für die Pipette schreiben vor: • relative Genauigkeit E v0 ≤ 0, 80% • Variationskoeffizient V ≤ 0, 15% Aus unseren Berechnungen folgt also, dass die untersuchte Pipette zwar genau, aber nicht präzise ist (und daher an den Hersteller zurückgeschickt werden müsste). 1.3.4 Stochastische Abhängigkeit: Korrelation und Regression Bei vielen Untersuchungen biologischer Phänomene werden mehrere Merkmale der Beobachtungseinheiten erfasst, z.B. Länge und Gewicht, Höhe und Biomasse bei Pflanzen, Düngermenge, Regenmenge und Ernteertrag usw. In diesen Fällen ist es interessant und wünschenswert, nicht nur die einzelnen Merkmale zu beschreiben, sondern auch den Zusammenhang zwischen zwei oder mehreren Merkmalen zu untersuchen. Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder mehreren Größen gut bekannt. So besteht beispielsweise zwischen dem Umfang U und dem Radius r eines Kreises die lineare Beziehung U = 2πr. Der Weg S, den ein aus dem Ruhestand frei nach unten fallender Körper nach der Zeit t zurück gelegt hat, ist gegeben durch S = 12 gt2 , g Gravitationskonstante. Diese Art von Zusammenhängen nennt man funktional. Eine Größe kann aus einer anderen mittels einer Funktion exakt berechnet werden. Die Zusammenhänge in den Biowissenschaften sind oft stochastisch; d.h. sie werden auch vom Zufall beeinflusst. Demzufolge kann nicht jedem Wert einer Größe ein eindeutiger Wert der anderen Größe zugeordnet werden, sondern ein ganzer Bereich, in dem Werte liegen können. In diesem Paragraphen werden wir uns damit beschäftigen, Zusammenhänge zwischen zwei Merkmalen nachzuweisen und zu beschreiben. Dabei werden wir die ihrer Natur nach stochastischen Zusammenhänge durch funktionale approximieren. Punktwolke und Korrelation Untersucht man zwei quantitative Merkmale X und Y , wie etwa die Körpergröße von Menschen (in m) und die Körpermasse (in kg), so erhält man als Messreihe eine endliche Folge (xj , yj ) von Zahlenpaaren. Das folgende Beispiel zeigt die Messwerte für die Körpergröße und das Gewicht von 241 Männern. X(cm) Y (kg) 189 168 175 177 181 169 172 175 176 174 . . . 85 70 72 81 79 65 71 73 84 65 . . . 172 72 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 25 Stellt man diese Messpaare als Punkte der Ebene dar, so erhält man eine Punktwolke (s. Abb. 1.10). An dem obigen Beispiel ist anschaulich zu erkennen: Wenn Abbildung 1.10: Punktwolke X wächst, so steigt auch Y im Mittel an. Es besteht also eine Abhängigkeit oder ein Zusammenhang zwischen den beiden Messreihen. Man kann auch sagen, es gibt eine Korrelation zwischen X und Y . Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhanges auf einen Blick erkennbar: • Die Stärke des Zusammenhangs: Je dichter die Punkte beieinander liegen, desto stärker ist der Zusammenhang. Mithilfe der Korrelationsanalyse lassen sich Kennzahlen berechnen, die die Stärke des Zusammenhangs quantifizieren. • Die Art des Zusammenhangs: Die Art wird durch eine mathematische Funktion angegeben, die den Zusammenhang am besten beschreibt. Es ist Aufgabe der Regressionsanalyse, diese Funktion zu finden. Wenn, wie in unserem Beispiel, der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang. Die dazugehörende Gerade nennt man Regressionsgerade. Die positive Steigung der Regressionsgeraden besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht: es besteht eine positive Korrelation. Bei negativer Steigung spricht man von negativer Korrelation. Kennzahlen für lineare Abhängigkeit Wenn die Punktwolke so geartet ist, dass sich mittendurch eine Gerade legen lässt, um die die Punkte elipsenförmig liegen, so kann man den Zusammenhang als linear ansehen. Um den linearen Zusammenhang zwischen zwei Merkmalen X und Y durch eine Kennzahl zu quantifizieren, gehen wir wie folgt vor: 26 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Wir betrachten Produkte von der Form (xj − x̄)(yj − ȳ), wobei x̄ und ȳ die Mittelwerte der Messreihen (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) sind. Die Mittelwerte x̄ und ȳ teilen die Ebene, und damit die Daten, in 4 Quadranten. Für Daten im ersten und im dritten Quadranten sind die obigen Produkte (xj − x̄)(yj − ȳ) ≥ 0, für die Daten im zweiten und vierten Quadranten negativ. Wenn sich also die Daten um eine Gerade mit positiver Steigung gruppieren, d.h. im Quadranten I und III liegen, ist zu erwarten, dass gilt: n 1! σ(x, y) = (xj − x̄)(yj − ȳ) ≥ 0. n j=1 Bei Messwerten im Quadranten II und IV ist σ(x, y) ≤ 0. Wenn sich die Daten etwa gleichmäßig auf alle vier Quadranten verteilen, so ist der Mittelwert der Terme (xj − x̄)(yj − ȳ) ungefähr 0. Die Größe σ(x, y) heißt Kovarianz. Wie schon bei der Varianz erwähnt, wird auch bei der Kovarianz in der Praxis nicht der Mittelwert der Terme (xj − x̄)(yj − ȳ) sondern die empirische Kovarianz n 1 ! s(x, y) = (xj − x̄)(yj − ȳ) n − 1 j=1 benutzt. An der Kovarianz ist also zu sehen, ob positive oder negative lineare Korrelation besteht. Die Kovarianz ist aber wenig informativ zur quantitativen Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist, denn der Betrag der Kovarianz ist abhängig vom jeweiligen Maßstab der zur Messung verwendet wird. Um ein normiertes Maß zur Quantifizierung der Korrelation zu erhalten, nehmen wir zuerst an, dass alle (xj , yj ) auf einer Geraden y = a x + b liegen. Dann ist die Kovarianz n 1! σ(x, y) = (xj − x̄) (a xj + b − a x̄ − b) n j=1 n 1! = (xj − x̄) a (xj − x̄) n j=1 n a! = (xj − x̄)2 = a σ(x)2 . n j=1 (1.11) 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 27 Berechnen wir nun n σ(y) 2 1! = (yj − ȳ)2 n j=1 n 1! = (a xj + b − a x̄ − b)2 n j=1 n 1! 2 = a (xj − x̄)2 = a2 σ(x)2 n j=1 Daraus folgt σ(y) = |a σ(x)|. (1.12) Es folgt also durch Einsetzen von (1.12) in (1.11) |σ(x, y)| = σ(x) σ(y) Im allgemeinen gilt aber |σ(x, y)| ≤ σ(x) σ(y) und das Gleichheitszeichen gilt genau dann, wenn die (xj , yj ) auf einer Geraden liegen. Bildet man also für σ(x) )= 0 und σ(y) )= 0 die Größe r(x, y) = σ(x, y) σ(x)σ(y) genannt linearer Korrelationskoeffizient, so gilt −1 ≤ r(x, y) ≤ 1. Mit Hilfe des Korrelationskoeffizienten r können wir nun folgende Aussagen über eine lineare Korrelation machen: 1. Falls |r| = 1, so liegen (xj , yj ) auf einer Geraden (es besteht perfekte Korrelation). 2. Falls r > 0 (bzw. r < 0) besteht positive (bzw. negative) Korrelation und umso näher r bei 1 oder −1 ist, desto stärker ist die Korrelation. Für unser Beispiel ist der Korrelationskoeffizient r(x, y) = 0, 55, also eine eher lose Korrelation, was auch aus der Punktwolke in Abb.1.10 ersichtlich ist. Bemerkung 5 Im Falle einer nichtlinearen Korrelation ist der lineare Korrelationskoeffizient bedeutungslos. Insbesondere bedeutet σ(x, y) ≈ 0 nicht, dass generell kein Zusammenhang besteht, sondern nur, dass kein linearer Zusammenhang nachzuweisen ist! 28 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG y y y r=1 r = 0,95 x y r = 0,3 x y x y r = −1 r=0 r = − 0,7 x x x Abbildung 1.11: Verschiedene Werte des Korrelationskoeffizienten Ausgleichgerade (oder Regressionsgerade) In dem Fall, wo anhand der Punktwolke ein annähernd linearer Zusammenhang festgestellt wurde, kann die Gerade, die den Messwerten am besten angepasst ist, berechnet werden. Diese Gerade nennen wir Ausgleichgerade oder Regressionsgerade. Anhand ihrer Gleichung lässt sich dann aus einem bekannten Wert für das X-Merkmal ein Wert für das dazugehörende Y -Merkmal prognostizieren. Konstruktion der Regressionsgeraden Die allgemeine Gleichung einer Geraden ist y = ax + b (1.13) Unsere Aufgabe ist es nun, die Parameter a und b so zu finden, dass die entsprechende Gerade den Messwerten am besten angepasst ist. Was am besten angepasst“ ” bedeuten soll, wollen wir im folgenden präzisieren: Zunächst wollen wir verlangen, dass die Gerade durch den Mittelpunkt (x̄, ȳ) gehen soll, dass also gilt ȳ = ax̄ + b. Nach b aufgelöst: b = ȳ − ax̄. Setzen wir (1.14) in (1.13) ein, erhalten wir y = ax + ȳ − ax̄. (1.14) 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 29 Betrachte nun für jeden Messwert xj den Wert ŷj , so dass (xj , ŷj ) auf der Ausgleichgeraden liegt, d.h. ŷj = axj + ȳ − ax̄. (1.15) Die Abweichungen der Messpunkte yj von der Geraden sind dann yj − ŷj . Wir wollen nun den Parameter a so bestimmen, dass die mittlere quadratische Abweichung n 1 ! (yj − ŷj )2 (1.16) n j=1 minimal ist. Dazu setzen wir nun (1.15) in (1.16) ein und rechnen n n 1 ! 1 ! 2 (yj − ŷj ) = [(yj − ȳ) − a(xj − x̄)]2 n j=1 n j=1 n 1 ! = [(yj − ȳ)2 − 2 a(xj − x̄)(yj − ȳ) + a2 (xj − x̄)2 ] n j=1 n n n ! 1 ! 1! 2 21 = (yj − ȳ) − 2 a (xj − x̄)(yj − ȳ) + a (xj − x̄)2 n j=1 n j=1 n j=1 = σ(y)2 − 2aσ(x, y) + a2 σ(x)2 =: Q(a) Die notwendige Bedingung, dass die Funktion Q(a) = σ(y)2 − 2aσ(x, y) + a2 σ(x)2 Q : R → R, im Punkt a ein Minimum hat, ist Q& (a) = 0. D.h. −2 σ(x, y) + 2 a σ(x)2 = 0. Daraus erhalten wir für unseren gesuchten Parameter a den Wert a= σ(x, y) σ(x)2 Die Gleichung der Ausgleichgeraden lautet also y= σ(x, y) σ(x, y) x + ȳ − x̄. 2 σ(x) σ(x)2 Oder äquivalent y= σ(x, y) (x − x̄) + ȳ. σ(x)2 (1.17) Die Geradensteigung a = σ(x,y) wird auch Regressionskoeffizient genannt. Das σ(x)2 Vorzeichen von a stimmt mit dem Vorzeichen des Korrelationskoeffizienten überein. 30 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Dieses bedeutet, dass bei positiver (negativer) Korrelation die Steigung der Regressionsgeraden positiv (negativ) ist. Die Methode, mit der wir die Gleichung der Regressionsgeraden gefunden haben, heisst Methode der kleinsten Quadrate. Mit der Gleichung (1.17) lässt sich bei Vorliegen eines Wertes xj nach folgender Formel ein Wert für das Y - Merkmal prognostizieren: ŷj = σ(x, y) (xj − x̄) + ȳ σ(x)2 Die Gleichung der Ausgleichgeraden für unser Beispiel ist: y = 1.01x − 99, 7 Dieser Zusammenhang entspricht der Formel, die der französische Arzt Pierre Broca im 19. Jahrhundert beim Vermessen von Soldaten festgestellt hat: Masse = Körpergröße − 100, und gilt vor allem für Personen mittlerer Körpergröße. Nach den neuesten Kenntnissen der Wissenschaft wird der Zusammenhang zwischen der Masse und der Körpergröße durch folgenden nichtlinearen (genauer quadratischen) Zusammenhang modelliert: y = BMI · x2 , wobei BMI die sogenannte Körpermassenzahl (body mass index) ist, und die Körpergröße in m angegeben ist. Dieser Zusammenhang ist auch für besonders kleine bzw. besonders große Menschen anwendbar (allerdings für Kinder ungeeignet). Der lineare Zusammenhang hat jedoch den Vorteil, dass die Berechnung der Masse bei gegebener Körpergröße einfacher ist. 1.3.5 Anwendung der Regressionsanalyse bei der Bestimmung der Proteinkonzentration in biologischem Gewebe. (Grundpraktikum, Dr. Markus Wirtz, HIP) Nach der Extraktion von Proteinen aus biologischem Gewebe muss die Menge der isolierten Proteine durch quantitative Nachweisverfahren experimentell bestimmt werden. Hierzu wird normalerweise ein Farbtest verwendet, der auf der Bindung von Coomassie Brilliant Blue“ an basische Aminosäuren innerhalb des Proteins ” beruht. Mit Hilfe von Photometern wird die Extinktion bei 595 nm gemessen. Aus dem Wert der Extinktion wird dann mittels einer Eichgerade die Proteinmenge in der Probe berechnet. Diese Eichgerade ist eine Regressionsgerade, die auf Grund eines Datensets bestimmt wird. In der untenstehenden Tabelle sind Proteinkonzentrationen und entsprechende Messwerte für die Extinktion angegeben. Wegen der zu Grunde liegenden Chemie ist das Verfahren mit einem hohen Fehler behaftet, der sich in hohen Schwankungen bei den Messungen von parallel durchgeführten Tests derselben Probe zeigt. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 31 Deswegen wurden zur Bestimmung der Extinktion für jede Proteinkonzentration 4 Extinktionsmessungen M1 - M4 parallel durchgeführt und anschließend daraus der Mittelwert berechnet. Protein (µg) 0 0,1 0,2 0,4 M1 M2 M3 M4 0,0100 -0,0200 0,0150 0,002 0,2200 0,1980 0,1699 0,2001 0,3981 0,3684 0,4402 0,3788 0,7080 0,7655 0,8503 0,7956 Basierend auf diesem Datenset bestehend aus 4 Proteinkonzentrationen und den entsprechenden Extinktionen wurde dann mittels Regressionsanalyse die Eichgerade in Abb. 1.12 berechnet. Abbildung 1.12: Regressionsgerade für die Berechnung der Proteinkonzentration Kapitel 2 Wahrscheinlichkeitsrechnung Im ersten Kapitel beschäftigten wir uns mit der • Erfassung und Aufbereitung gemessener Daten (Tabellen, Diagramme) sowie mit der • Berechnung von Kenngrößen zur quantitativen Beschreibung der Verteilung der Daten (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient). Die gemessenen Daten stammen aus der Untersuchung einer Stichprobe, d. h. einer kleinen Menge der Gesamtpopulation. Das Ziel unserer Untersuchung ist aber, Aussagen über die Gesamtpopulation zu machen. Daher stellt sich die Frage, ob sich die Erkenntnisse, die man aus der Untersuchung der Stichprobe gewonnen hat, auf die Gesamtpopulation übertragen lassen. Die Beantwortung dieser Frage ist mit den Methoden der induktiven (schließenden) Statistik möglich. Um die statistischen Methoden anwenden zu können, benötigen wir mathematische Modelle, welche die Gesamtpopulation hinreichend genau beschreiben. Bei der Beschreibung der Abläufe in der Natur (und damit auch in den Biowissenschaften) muss man mit Unsicherheiten und mit Mangel an Information rechnen. Wir haben es mit Erscheinungen zu tun, deren Ausgang ungewiss, zufällig (d. h. nicht vorhersagbar) ist. Die Beschreibung solcher Erscheinungen wird im Rahmen der Wahrscheinlichkeitstheorie vorgenommen. Die Wahrscheinlichkeit ist dabei ein Maß für die Möglichkeit des Auftretens bestimmter Ereignisse. 2.1 Zufall und Wahrscheinlichkeit Ein Zufallsexperiment ist ein Vorgang, der genau beschreibbar und wiederholbar, dessen Ergebnis jedoch nicht vorhersagbar (zufällig) ist (etwa aufgrund der Komplexität des Vorgangs). So stellen zum Beispiel • das Würfeln mit einem Würfel, • das Werfen einer Münze, 32 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 33 • das Bestrahlen einer Zellkolonie und die Bestimmung der Anzahl der Mutationen, • das Erfassen des Alters von Schildkröten Zufallsexperimente dar. Der Ausgang (das Ergebnis) eines Zufallsexperimentes kann folgendes sein: • das Auftreten der Augenzahl 5 beim Würfeln, • das Auftreten von Wappen“ beim Werfen einer Münze, ” • das Auftreten von 2 Mutationen bei der Bestrahlung einer Zellkolonie, • eine zufällig ausgewählte Schildkröte ist 50 Jahre alt. Die Menge aller möglichen Ausgänge (Ergebnisse) eines Zufallsexperimentes ist in dem Ergebnisraum enthalten. Der Ergebnisraum wird mit Ω bezeichnet. Für die oben angeführten Beispiele von Zufallsexperimenten sind unten mögliche Ergebnisräume angeführt: • Ω = {1, 2, 3, 4, 5, 6} beim Würfeln, • Ω = {W, Z} beim Münzwurf, • Ω = {0, 1, 2, 3, ...} = • Ω = {t ∈ bei der Bestrahlung der Zellkolonie, , t > 0} = ]0, ∞[ für das Ermitteln des Alters von Schildkröten. Bemerkung 6 Für die letzten zwei Beispiele ist der Ergebnisraum eine unendliche Menge. Dabei entstehen mögliche Ergebnise (Ausgänge) die theoretisch, aber nicht praktisch denkbar sind, z. B. Alter von Schildkröten gleich 5000 Jahre. Solchen Ausgängen werden wir aber später sehr kleine Wahrscheinlichkeiten zuordnen, so dass sie letztendlich praktisch unmöglich sind. Die Wahl des Ergebnisraumes ist zum Teil durch die Art der Information bestimmt, die man erhalten will. Interessiert beim Würfeln beispielsweise nur, ob eine 5 gefallen ist, so wird man als Ergebnisraum folgendes wählen: Ω = {5, nicht 5}. Ein anderes Beispiel in diesem Sinne wäre auch: Beispiel 7 Ein Viehbestand soll hinsichtlich einer Krankheit untersucht werden. Dafür wird folgendes Zufallsexperiment angestellt: Es werden n Tiere aus dem Viehbestand ausgewählt und auf die Krankheit getestet. Den Gesunden wird das Symbol 1, den Kranken das Symbol 0 zugeordnet. Die Ausgänge (Ergebnisse) des Experimentes sind also n−Tupel der Form (1# 1 0 0 1 $% 0 1 ... 0 1 &0). Das Merkmal, welches uns n interessiert, ist aber die Anzahl der gesunden Tiere. Diese erhalten wir, indem wir die Einträge aus unserem n−Tupel aufsummieren. Der neue Ergebnisraum Ω ist dann Ω = {0, 1, 2, ..., n}. 34 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Da wir uns nicht nur für einzelne Ausgänge (Ergebnisse) eines Experimentes, sondern auch für ganze Bereiche, in denen die Ausgänge liegen können, interessieren, definieren wir Ereignisse. Diese sind Teilmengen von Ω. Teilmengen bestehend aus einem einzigen Element heißen Elementarereignisse. Der Ereignisraum F ist eine Familie von Ereignissen, d.h. eine Teilmenge von Pot(Ω). Dabei ist die Potenzmenge von Ω als Pot(Ω) = die Menge aller Teilmengen von Ω definiert. Ist Ω ein endlicher Ergebnisraum so besteht der Ereignisraum aus allen Teilmengen von Ω; F = Pot(Ω). Ist Ω = [a, b] (oder gar ), so besteht F aus allen Teilintervallen (allen Intervallen) sowie ihren Durchschnitten und ihren Vereinigungen. Man sagt: Ein Ereignis A ist eingetreten“, wenn ein Zufallsexperiment ein Er” gebnis ω ∈ A liefert. Beispiele von Ereignissen sind: • A = {2, 4, 6} Es wird eine gerade Zahl gewürfelt.“ ” • Ω = {W, Z} Es wird Wappen oder Zahl geworfen“ (das sichere Ereignis). ” • A = {7, 8, 9, 10} Es sind zwischen 7 und 10 Mutationen eingetreten.“ ” • A = {t ∈ , t ≥ 50} = [50, ∞[ Das Alter ist mindestens 50 Jahre.“ ( oder ” Die Schildkröte ist mindestens 50 Jahre alt.“) ” Das Ereignis A = Ω bezeichnen wir als das sichere Ereignis: Alle möglichen Ergebnisse ω sind in Ω enthalten, das Ereignis Ω tritt also sicher ein. Das Ereignis A = Φ (Φ bezeichnet die leere Menge) heißt das unmögliche Ereignis: Die leere Menge enthält kein Ergebnis, das Ereignis Φ kann also niemals eintreten. Das Ereignis CA = Ω \ A = {ω ∈ Ω : ω ∈ / A} heißt das zu A komplementäre Ereignis. CA tritt genau dann ein, wenn A nicht eintritt, denn wird ω ∈ CA beobachtet, so ist ω ∈ / A. Wir haben Ereignisse als Teilmengen des Ergebnisraumes Ω eingeführt. Dieses erlaubt uns, auf besonders einfache Weise die Beziehung zwischen den Ereignissen durch Mengenoperationen auszudrücken. Seien A, B ⊂ Ω (oder A, B ∈ F ) zwei Ereignisse. Dann gilt: A ∪ B tritt genau dann ein, wenn A oder B eintritt A ∩ B tritt genau dann ein, wenn A und B gleichzeitig eintreten. A \ B tritt genau dann ein, wenn A eintritt und B nicht eintritt. Zwei Ereignisse sind disjunkt, wenn sie nicht gleichzeitig eintreten können (d. h. wenn sie sich gegenseitig ausschließen). A und B sind genau dann disjunkt, wenn A ∩ B = Φ. Beispiel 8 Beim Würfeln mit einem Würfel seien A = {2, 4, 6} Es wird eine gerade Zahl geworfen.“ ” 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 35 B = {3, 4, 5, 6} Die Augenzahl ist mindestens 3.“ ” C = {1, 3, 5} Es wird eine ungerade Augenzahl gewürfelt.“ ” Dann gilt: A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {4, 6} A ∪ C = Ω, A ∩ C = Φ A \ B = {2}, B \ A = {3, 5} Als nächstes wollen wir Aussagen über die Möglichkeit des Eintretens eines bestimmten Ereignisses machen. Darunter wollen wir nicht Aussagen der Form: Wahr” scheinlich regnet es heute“ verstehen, sondern wir meinen damit die Festlegung eines Zahlenwertes, der die Wahrscheinlichkeit angibt. Das empirische Vorgehen für die Definition der Wahrscheinlichkeit wäre folgendes: Betrachten wir ein Zufallsexperiment mit endlichem Ω = {ω1 , ..., ωk }. Wenn man immer längere Versuchsreihen anstellt und bei jeder Länge n der Versuchsreihe die relative Häufigkeit hn (ωi ) rn (ωi ) = n berechnet, so stellt man in vielen Fällen fest, dass sich die rn (ωi) mit immer größer werdendem n kaum noch ändern. Dieses nennt man ein empirisches Gesetz der großen Zahlen. Es liegt folglich die Annahme nahe, dass es reelle Zahlen gibt, die • die Wahrscheinlichkeit dafür angeben, dass bei einem Zufallsexperiment das Ereignis {ωi} eintritt, • für hinreichend großes n beliebig genau durch rn (ωi ) approximiert werden. Es ist dann zu erwarten, dass die Wahrscheinlichkeiten auch ähnliche Regeln erfüllen wie die relativen Häufigkeiten (s. (1.5)-(1.7)). Die axiomatischen Grundlagen für die Definition der Wahrscheinlichkeit legte Kolmogorow im Jahre 1933 mit der Einführung der folgenden Axiome. Zuerst verlangen wir, dass das System F (der Raum der sinnvollen Ereignisse) folgende Eigenschaften hat: Ω, Φ ∈ F A∈F ⇒Ω\A∈F A, B ∈ F ⇒ A ∪ B ∈ F , A ∩ B ∈ F (oder allgemeiner A1 , A2 , ... ∈ F ⇒ A1 ∪ A2 ∪ ... ∈ F , A1 ∩ A2 ∩ ... ∈ F ). Obwohl es naheliegt, für F alle Teilmengen von Ω zu wählen, gibt es wichtige mathematische Gründe, auf eine solche Forderung zu verzichten. Wir definieren nun das Wahrscheinlichkeitsmaß (oder die Wahrscheinlichkeitsverteilung) P als eine Funktion, die jedem Ereignis A aus F eine Wahrscheinlichkeit P (A) für das Eintreffen von A zuordnet, d. h. P :F → , A /→ P (A), 36 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG so, dass folgende Axiome erfüllt sind K1: P (A) ≥ 0, ∀A ∈ F (Wahrscheinlichkeiten sind immer positiv.) K2: P (Φ) = 0, P (Ω) = 1 (Die Wahrscheinlichkeit des unmöglichen Ereignisses ist Null, die des sicheren Ereignisses ist 1.) K3: A, B ∈ F , A ∩ B = Φ ⇒ P (A ∪ B) = P (A) + P (B) (Wenn A und B disjunkte Ereignisse sind so ist die Wahrscheinlichkeit ihrer Vereinigung gleich der Summe der Wahrscheinlichkeiten.) Im Falle von unendlich-dimensionalen Ergebnisräumen reicht diese Forderung nicht aus, es wird angenommen dass für abzählbar viele Ereignisse, die paarweise disjunkt sind, die Wahrscheinlichkeit der Vereinigung gleich ist mit der Summe der Wahrscheinlichkeiten der einzelnen Ereignissen. Das somit festgelegte Tripel (Ω, F , P ) nennt man Wahrscheinlichkeitsraum. Ein System, das dem Zufall unterworfen ist, wird also mit Hilfe eines Wahrscheinlichkeitsraumes (Ω, F , P ) beschrieben. Wir können dabei folgende Analogien zu den Konzepten aus dem ersten Kapitel herstellen: Der Ergebnisraum Ω kann als die Menge der möglichen Ausprägungen eines Merkmals aufgefasst werden. Der Ereignisraum F definiert Bereiche, in denen Ausprägungen liegen. Das Wahrscheinlichkeitsmaß P approximiert die relative Häufigkeit, mit der einzelne Ausprägungen oder Bereiche von Ausprägungen vorkommen. Damit diese Interpretation stimmt, muss man aber sehr sorgfältig bei der Wahl des Ergebnisraumes Ω und des Wahrscheinlichkeitsmaßes P vorgehen, siehe auch Beispiel 7. Aus der Definition des Wahrscheinlichkeitsmaßes können weitere Eigenschaften hergeleitet werden. Diese sind in dem folgenden Satz zusammengefasst. Satz 3 (Elementare Rechenregel für Wahrscheinlichkeiten) Es sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Dann gilt: 1. A, B ∈ F , A ⊂ B ⇒ P (A) ≤ P (B) A B 2. A1 , A2 , ..., An paarweise disjunkt, d. h. Ai ∩ Aj = Φ, ∀i )= j ⇒ P (A1 ∪ A2 ∪ ... ∪ An ) = P (A1 ) + P (A2 ) + ... + P (An ) 3. A ∈ F ⇒ P (CA) = 1 − P (A) Α Ω Α 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN A A B 37 B 4. A, B ∈ F ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis: Siehe Übungsblatt 6. Zwei Ereignisse A und B heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B). 2.2 (2.1) Diskrete Wahrscheinlichkeitsverteilungen Wir werden im folgenden verschiedene Wahrscheinlichkeitsräume (Ω, F , P ) untersuchen. Als erstes betrachten wir diskrete Wahrscheinlichkeitsräume, d.h. Wahrscheinlichkeitsräume, für die der Ergebnisraum Ω = {ω1 , ω2 , ..., ωk } endlich oder Ω = {ω1 , ω2 , ω3, ...} abzählbar ist. Im Fall endlicher Wahrscheinlichkeitsräume ist die Ereignismenge F = Pot(Ω). Satz 4 Sei (Ω, F , P ) ein endlicher Wahrscheinlichkeitsraum. Dann ist das Wahrscheinlichkeitsmaß P eindeutig durch die Werte auf den Elementarereignissen {ωi }, i = 1, ..., k bestimmt, d. h. durch P ({ω1}) = p1 , P ({ω2}) = p2 , . . . , P ({ωk }) = pk mit p1 , p2 , . . . , pk ≥ 0, p1 + p2 + . . . + pk = 1. Beweis: Für ein Ereignis A = {ωi1 , ..., ωil } ∈ F gilt nach Satz 3, da die Elementarereignisse paarweise disjunkt sind: P (A) = P ({ωi1 } ∪ {ωi2 } ∪ . . . ∪ {ωil }) = P ({ωi1 }) + . . . + P ({ωil }) = pi1 + . . . + pil . Wir wollen nun einige Beispiele von diskreten Wahrscheinlichkeitsräumen untersuchen. 2.2.1 Die Laplace-Wahrscheinlichkeitsverteilung Sei Ω = {ω1 , . . . , ωk } endlich. Falls alle Elementarereignisse {ωi }, i = 1, ..., k gleich wahrscheinlich sind, d. h. P ({ω1}) = P ({ω2}) = ... = P ({ωk }) , 38 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG so heißt (Ω, F , P ) Laplace-Wahrscheinlichkeitsraum. P heißt dann LaplaceWahrscheinlichkeitsverteilung oder diskrete Gleichverteilung. Es gilt dann P ({ωi}) = 1 , für jedes i = 1, . . . , k. k Damit gilt für ein A ∈ F P (A) = ! ωi ∈A P ({ωi}) = |A| , k (2.2) wobei mit |A| die Anzahl der Elemente aus A bezeichnet wird. Formel (2.2) ist etwas einprägsamer als Wahrscheinlichkeit von A = Anzahl der günstigen Ausgänge Anzahl aller möglichen Ausgänge bekannt. Beispiel 9 (Einmaliges Würfeln mit einem fairen Würfel) Ω = {1, 2, 3, 4, 5, 6}, F = Pot(Ω) Wenn der Würfel halbwegs homogen und symmetrisch ist, kann man davon ausgehen, dass alle Augenzahlen dieselben Chancen haben gewürfelt zu werden. Es gilt also 1 P ({1}) = P ({2}) = ... = P ({6}) = . 6 P({ωi }) ! 1 6 " ω Das Ereignis A = {2, 4, 6}: Es ist eine gerade Zahl gefallen“ hat die Wahrschein” lichkeit |A| 3 1 P (A) = = = . |Ω| 6 2 Beispiel 10 (Zweimaliges Würfeln mit einem fairen Würfel) Ω = {(1, 1), (1, 2), (1, 3), . . . (1, 6), (1, 2), . . . , (6, 6)} = {(i, j), i, j = 1, . . . , 6} Man geht davon aus, dass die beiden Würfe unabhängig voneinander stattfinden, so dass man annehmen kann, dass alle Paare gleich wahrscheinlich sind. Da insgesamt 6 × 6 = 36 mögliche Paare gebildet werden können, gilt: P ({(1, 1)}) = P ({(1, 2)}) = . . . = P ({(6, 6)}) = 1 . 36 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 39 Das Ereignis Die Augensumme ist 5“ ist A = {(1, 4), (2, 3), (3, 2), (4, 1)}. Die ” Wahrscheinlichkeit für das Auftreten dieses Ereignisses ist P (A) = |A| 4 1 = = . |Ω| 36 9 In den bisherigen Beispielen war es recht einfach, die Kardinalität |Ω| der Ergebnismenge und die der Ereignisse |A| zu bestimmen. Oft ist es aber notwendig, kombinatorische Argumente für die Berechnung von Kardinalitäten anzuwenden. Beispiel 11 Wie viele Wörter mit 5 Buchstaben kann man mit den 26 Buchstaben des Alphabets bilden, wenn auch Wörter ohne Bedeutung zugelassen werden? (Auch Buchstabenwiederholungen sind natürlich erlaubt). Wir haben: • 26 Möglichkeiten für die Wahl des 1. Buchstaben • 26 Möglichkeiten für die Wahl des 2. Buchstaben • 26 Möglichkeiten für die Wahl des 3. Buchstaben • 26 Möglichkeiten für die Wahl des 4. Buchstaben • 26 Möglichkeiten für die Wahl des 5. Buchstaben. Wenn wir alle Auswahlmöglichkeiten zusammensetzen, erhalten wir also 26 × 26 × . . . × 26 = 265 Wörter mit 5 Buchstaben. Jetzt können wir uns fragen, wie groß die Wahrscheinlichkeit der Auswahl eines bestimmten Wortes ist. Da alle Wörter gleich wahrscheinlich sind, können wir auch diese Situation mit Hilfe eines Laplace-Wahrscheinlichkeitsraumes modellieren, wobei Ω = {ω = (x1 , x2 , . . . , x5 ); x1 ∈ {a, b, . . . , z}, . . . , x5 ∈ {a, b, . . . , z}} 1 , ∀ ω ∈ Ω. 265 Die gesuchte Wahrscheinlichkeit ist also 2615 . P ({ω}) = Die gleiche Problemstellung kommt in vielen anderen Situationen vor, wenn es darum geht, k verschiedene Plätze mit je einem Objekt zu besetzen, wobei es n Arten von Objekten gibt und von jeder Art beliebig viele zur Verfügung stehen. Es gibt dann k n (2.3) # ×n× $%. . . × n& = n Möglichkeiten, k mal die Plätze zu besetzen. 40 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 2.2.2 Die Binomialverteilung Die einfachsten nichttrivialen Zufallsexperimente sind solche mit zwei möglichen Ausgängen, wie z. B. Münzwurf (Kopf, Zahl), Bestimmung des Geschlechtes für Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten von Mutationen (Mutation, keine Mutation). Solche Zufallsexperimente mit zwei Ausgängen bezeichnet man als Bernoulli-Experimente. Sie werden eindeutig durch den Wahrscheinlichkeitsraum (Ω, F , P ) mit Ω = {1, 0}, P ({1}) = p, F = {Φ, {1}, {0}, Ω}, P ({0}) = 1 − p = q beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintretens von {1}. Wir wollen uns nun mit n unabhängigen Wiederholungen eines solchen BernoulliExperimentes befassen. Beispiel 12 (Auftreten von Mutationen) Die Wahrscheinlichkeit des Auftretens von Mutationen in einem Gen bei der Bestrahlung von Mäusen ist ungefähr 2, 5 · 10−7 (vgl. Neel und Schull, 1958). Wir möchten bestimmen mit welcher Wahrscheinlichkeit bei der Bestrahlung eines Ensembles von 10000 Genen in 5 Genen Mutationen auftreten. Dabei setzen wir voraus, dass das Auftreten von Mutationen in einem Gen unabhängig von den Prozessen in den anderen Genen passiert. Das Zufallsexperiment, bei dem ein Bernoulli-Experiment n Mal wiederholt wird, wird durch den folgenden Wahrscheinlichkeitsraum (Ωn , Fn , P ) beschreiben: • Der Ergebnisraum besteht aus n-Tupeln der Gestalt Ωn = {ω = (x1 , x2 , . . . , xn ); xj ∈ {0, 1}, j = 1, . . . , n}. • Die Menge Fn ist gebildet aus allen Teilmengen von Ωn . • Die Wahrscheinlichkeit eines Elementarereignises {(x1 , x2 , . . . , xn )} erhält man folgendermaßen: Wir schreiben dieses Elementarereignis als Schnitt von n Ereignissen {(x1 , x2 , . . . , xn )} = n 1 {(y1 , ..., yi−1 , xi , yi+1, ..., yn ); yj ∈ {0, 1}, j = 1, ..., n, j )= i} i=1 Dabei stellt das Ereignis {(y1 , ..., yi−1, xi , yi+1, ..., yn ); yj ∈ {0, 1}, j = 1, ..., n, j )= i} für xi = 1 das Eintreten einer Eins, für xi = 0 das Eintreten einer Null bei der i-ten Wiederholung des Bernoulli Experimentes dar. Da die n BernoulliExperimente unabhängig sind, ist nach (2.1) die Wahrscheinlichkeit dieses Schnittes gleich dem Produkt der Wahrscheinlichkeiten der einzelnen Ereignissen, also gegeben durch P ({(x1 , x2 , . . . , xn )}) = pk q n−k , wenn das n-Tupel (x1 , x2 , . . . , xn ) k Einsen und n − k Nullen enthält. 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 41 Wir sind nun an der Wahrscheinlichkeit des Ereignisses, bei dem k der n BernoulliExperimente das Ergebnis 1 haben, interessiert. Dieses Ereignis enthält alle n-Tupel, die genau k Einsen enthalten und kann folgendermaßen charakterisiert werden: Ak = {ω = (x1 , x2 , . . . , xn ) ∈ Ω; n ! xj = k}. j=1 Was ist nun P (Ak )? Aufgrund der vorigen Überlegung wissen wir dass die Wahrscheinlichkeit jedes Elementarereignisses ω ∈ Ak gleich pk q n−k ist. Wir müssen daher nur noch die Kardinalität von A bestimmen. Dafür müssen wir wieder zählen, und zwar auf wieviele Arten wir aus den n verschiedenen Plätzen in einem n−Tupel k Plätze für die Einsen auswählen können. Dieses Abzählproblem kann man ganz anschaulich mit Hilfe des folgenden Urnenmodells lösen: Auf wieviele Arten kann man aus einer Urne mit n verschiedenen (z. B. von 1 bis n nummerierten) Kugeln k Kugeln ziehen, ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge, in der die Kugeln gezogen wurden. (Für unsere Anwendung entspricht das Ziehen einer Kugel mit der Nummer j dem Belegen des j-ten Platzes in dem n-Tupel mit einer Eins.) Die Lösung ist folgende: Es gibt • n Möglichkeiten für die Wahl der 1. Kugel, • (n − 1) Möglichkeiten für die Wahl der 2. Kugel, • (n − 2) Möglichkeiten für die Wahl der 3. Kugel, ... • (n − (k − 1)) Möglichkeiten für die Wahl der k. Kugel. Es gibt also insgesamt n(n − 1)(n − 2) . . . (n − (k − 1)) Möglichkeiten, k Kugeln von n verschiedenen Kugeln auszuwählen. Bei dieser Überlegung wurde allerdings die Reihenfolge, in der die Kugeln gezogen wurden, berücksichtigt. Da bei uns aber die Reihenfolge irrelevant ist, müssen wir das obige Resultat durch die Anzahl k! = 1 · 2 · 3 · · · k aller Umordnungen von k verschiedenen Kugeln teilen. Es bleiben also noch n(n − 1)(n − 2) . . . (n − (k − 1)) = k! n! (n−k)! k! = n! (n − k)!k! Möglichkeiten für die Auswahl von k aus n verschiedenen Kugeln, ohne Berücksichtigung der Reihenfolge. Diese Zahl bezeichnen wir mit n über k“ ” 2 3 n n! = k (n − k)!k! und nennen sie Binomialkoeffizient. Wir erhalten also 2 3 n k n−k P (Ak ) = p q , k = 0, 1, . . . , n. k 42 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Das Zufallsexperiment, bei dem ein Bernoulli-Experiment n Mal wiederholt wird und anschließend die Anzahl der Einsen ermittelt wird, kann also durch den folgenden Wahrscheinlichkeitsraum (Ω, F , P ) beschrieben werden: Ω = {0, 1, . . . , n}, F = Pot(Ω) 2 3 n k n−k P ({k}) = bn,p (k) = p q , k k = 0, 1, . . . , n. (2.4) Diese Wahrscheinlichkeitsverteilung nennt man Binomialverteilung. Bemerkung 7 Der binomische Lehrsatz n 2 3 ! n k n−k (x + y) = x y , k k=0 n ∀x, y ∈ R, n ∈ N liefert eine analytische Rechtfertigung dafür, dass bn,p eine Wahrscheinlichkeitsverteilung induziert. Graphische Darstellung: Stabdiagramme der Binomialverteilung 1.) p = 1 2 2 4 n=2 1 4 0 1 4 1 3 8 n=3 n=4 k 3 8 1 8 0 " 2 1 8 1 4 16 2 6 16 k 4 16 1 16 0 " 3 1 16 1 2 3 4 " k 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 2.) p = 43 1 6 n=9 0,3 ! 0,25 0,2 0,15 0 1 2 3 4 5 6 7 8 9 " k Wenn wir nun zu unserem Beispiel 12 zurückkommen, so ist die Wahrscheinlichkeit, mit der bei der Bestrahlung eines Ensembles von 10000 Genen in 5 Genen Mutationen auftreten, gegeben durch 2 3 10000 P ({5}) = · (2, 5 · 10−7 )5 · (1 − 2, 5 · 10−7 )9995 (2.5) 5 = 832500291625002000 · (2, 5 · 10−7 )5 · (1 − 2, 5 · 10−7 )9995 (2.6) = 8, 1096 · 10−16 (2.7) 2.2.3 Die Poissonverteilung In vielen Anwendungen haben wir es mit Wiederholungen von Bernoulli-Experimenten zu tun, bei denen n groß und p klein ist, während das Produkt np mäßig groß ist. Ein Beispiel für eine solche Situation ist auch im Beispiel 12 gegeben, und wie wir gesehen haben, ist die Berechnung von P ({5}) recht mühsam. In solchen Fällen ist es praktisch, eine Näherungsformel für die Binomialverteilung zu verwenden. Um eine solche Formel zu erhalten, untersuchen wir, welche Grenzverteilung wir erhalten, wenn m = np konstant bleibt und n → ∞, p → 0 gilt. Die Rechnung, die wir aus Zeitgründen nicht ausführlich machen können, ergibt 2 3 n k mk e−m lim p (1 − p)n−k = , k = 0, 1, 2, . . . n→∞ k k! Wir können also die Werte der Binomialverteilung durch die Werte der sogenannten Poissonverteilung approximieren. Diese ist definiert durch mk e−m , k = 0, 1, 2, . . . (2.8) k! Die Wahrscheinlichkeit, mit der bei der Bestrahlung eines Ensembles von 10000 Genen in 5 Genen Mutationen auftreten, kann also folgendermaßen berechnet werden: (0, 0025)5e−0,0025 P ({5}) = = 8, 1177 · 10−16 . (2.9) 5! P ({k}) = 44 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG 0,3 ! 0,25 0,2 0,15 0 1 2 3 4 5 6 7 8 9 k " Poissonverteilung zum Parameter m = 1, 5 2.3 Wahrscheinlichkeitsverteilungen auf Wir werden uns nun mit Wahrscheinlichkeitsräumen (Ω, F , P ) beschäftigen, deren Ergebnisraum Ω ein reelles Intervall I ⊂ R oder sogar R ist. Diese Räume gehören zu den stetigen Wahrscheinlichkeitsräumen. In diesem Kontext möchten wir nun Fragen der Form: Mit welcher Wahrscheinlichkeit liegen die Ausgänge unserer Zu” fallsexperimente in einem Intervall [α, β] ⊂ I?“ beantworten. Deswegen werden wir verlangen, dass die Ereignismenge F alle Teilintervalle [α, β] ⊂ I enthält. Dazu noch deren (abzählbare) Vereinigungen und Durchschnitte. Die Wahrscheinlichkeitsverteilung P wird folgendermaßen definiert: Sei f : Ω → R eine reellwertige, stückweise stetige Funktion auf Ω = I oder Ω = R, mit f (x) ≥ 0 (2.10) und 4 f (x)dx = 1. (2.11) Ω Die Funktion f heißt Wahrscheinlichkeitsdichte (oder Dichtefunktion). Die Bedingung (2.11) besagt, dass der Flächeninhalt unter dem Schaubild von f gleich 1 sein muss. Mit Hilfe der Dichtefunktion definieren wir nun die Wahrscheinlichkeitsverteilung P auf I (bzw. R) durch P : F → [0, 1], P ([α, β]) = 4β f (x)dx (2.12) α für alle Ereignisse [α, β] ∈ F . Setzt man im Falle Ω = I die Funktion f (x) = 0 außerhalb von I, so können wir immer I durch R ersetzen. Der Wert P ([α, β]) stellt den Flächeninhalt unter der Funktion f über dem Intervall [α, β] dar, siehe Abb.2.2. Aus (2.11) folgt sofort, dass die Wahrscheinlichkeit für das sichere Ereignis P (I) = 1 (bzw. P (R) = 1) ist. Setzt man in (2.12) α = β, so ergibt sich sofort, dass die 2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF 45 f(x) a 0 b x Abbildung 2.1: Die Dichtefunktion f (x) Wahrscheinlichkeit P ([α, α]) eines Elementarereignisses [α, α] gleich Null ist, denn P ([α, α]) = 4α f (x)dx = 0. α Dieses ist auch geometrisch einsichtig, da die Fläche über einem Punkt der x−Achse gleich Null ist. Bemerkung 8 Im Falle diskreter Merkmale haben wir gesehen, dass die Wahrscheinlichkeit als eine Approximation für die relative Häufigkeit aufgefasst werden kann. Im Falle stetiger Merkmale ist die Wahrscheinlichkeitsdichte eine Approximation für die normierte“ Klassenhäufigkeit. Wenn nämlich bei der Klassenbildung die ” Klassenbreite b immer feiner wird (unter der Voraussetzung immer größer werdender Messreihen), so ist die Verteilung der normierten“ relativen Klassenhäufigkeiten ” r(ai ) immer näher bei einer stetigen Funktion, welche die Wahrscheinlichkeitsdichte b darstellt. 2.3.1 Die Gleichverteilung Sei I = [a, b], a < b. Die Funktion f : R → R mit + 1 , x ∈ [a, b] b−a f (x) = 0 , sonst (2.13) ist die Dichte der Gleichverteilung in [a, b]. So wie der Name es auch sagt, sind alle Ereignisse [α, β] ∈ I mit β − α = l gleich wahrscheinlich mit P ([α, β]) = 4β α f (x)dx = 4β α 1 β−α l dx = = . b−a b−a b−a 46 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG f(x) P([α, β]) a 0 α b β x Abbildung 2.2: Die Wahrscheinlichkeit P ([α, β]) Für ein Ereignis [γ, δ] ⊂ R \ I gilt P ([γ, δ]) = 0, denn P ([γ, δ]) = 5δ 0dx = 0. γ In Anwendungen wird man die Gleichverteilung immer dann wählen, wenn es keine erkennbaren Gründe gibt, dass bestimmte Ausgänge von Zufallsexperimenten wahrscheinlicher sind als andere. Beispiel 13 (Orientierung von Vögeln) In einer Verhaltensstudie wurden Vögel einzeln und unter Umständen, die die Orientierung erschwerten, freigelassen. Man erwartete, dass die Vögel jede Richtung θ ∈ [0◦ , 360◦ ] mit der gleichen Wahrscheinlichkeit einschlagen würden. Deswegen wurde das Experiment mit Hilfe der Gleichverteilung modelliert. Die Wahrscheinlichkeitsdichte ist also gegeben durch + 1 , θ ∈ [0, 360] 360 f (θ) = 0 , sonst. Die Wahrscheinlichkeit, dass ein Vogel in einer Richtung aus dem Intervall [θ0 , θ1 ] f(x) 1 360 0 360 x Abbildung 2.3: Die Dichtefunktion zum Beispiel 13 2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF 47 losfliegt, ist gegeben durch P ([θ0 , θ1 ]) = 4θ1 1 θ1 − θ0 dx = . 360 360 θ0 2.3.2 Die Normalverteilung Die Normalverteilung ist eine der wichtigsten Verteilungen in der Stochastik. Für µ ∈ R und σ 2 > 0 sei (x−µ)2 1 fµ,σ (x) = √ e− 2σ2 . (2.14) 2πσ 2 die Wahrscheinlichkeitsdichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Die Wahrscheinlichkeitsverteilung gegeben durch Pµ,σ ([α, β]) = √ 1 2πσ 2 4β e− (x−µ)2 2σ 2 dx (2.15) α heißt Normalverteilung in R mit Erwartungswert µ und Varianz σ 2 . In Abb. Abbildung 2.4: Zwei verschiedene Dichtefunktionen fµi ,σi , i = 1, 2. 2.4 sind die Dichtefunktionen fµi ,σi , i = 1, 2, für zwei verschiedene Werte des Erwartungswertes und der Varianz dargestellt. Wir sehen, dass für größere σ die Glocke breiter wird, σ gibt also ein Maß für die Streuung der Wahrscheinlichkeitsverteilung Pµ,σ an. Für µ = 0 und σ = 1 erhalten wir die standardisierte Normalverteilung (Gaußsche Glockenkurve) mit der Wahrscheinlichkeitsdichte x2 1 f0,1 (x) = √ e− 2 . 2π (2.16) Da die Normalverteilung von ∞ bis −∞ reicht, scheint es keine Verteilung zu 48 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Abbildung 2.5: Dichtefunktion f0,1 der standardisierten Normalverteilung. sein, die man in biologischen Anwendungen gebrauchen kann, denn keine praktische Größe kann einen beliebig großen Wert annehmen. Doch diese Betrachtungsweise stimmt nicht ganz, denn wegen der Exponentialfunktion in (2.16) nimmt die Dichtefunktion fµ,σ mit wachsendem |x| sehr schnell ab. Dieses führt dazu, dass z. B. Ereignisse, die außerhalb des Intervalls [−3, 3] liegen, im Falle der standardisierten Normalverteilung, mit einer Wahrscheinlichkeit kleiner als −3 4 4+∞ 1 P0,1 (] − ∞, −3] ∪ [3, +∞[) = √ f0,1 (x)dx + f0,1 (x)dx = 0, 0027 2π −∞ 3 auftreten. Ereignisse außerhalb [−4, 4] treten mit einer Wahrscheinlichkeit kleiner als 0,00004 auf. Solche Ereignisse sind praktisch unmöglich. Die Gründe, weswegen die Normalverteilung so häufig in der Praxis auftritt, werden wir in einem der nächsten Paragraphen erläutern. 2.4 Zufallsvariable und ihre Verteilungen Mithilfe von Zufallsvariablen können den möglichen Ausgängen ω ∈ Ω eines Zufallsexperimentes numerische Werte (Messwerte) zugeordnet werden. Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine reellwertige Funktion X : Ω → R. Zufallsvariable mit diskretem Wertebereich X heißt diskret, wenn X(Ω) = {X(ω), ω ∈ Ω} ein diskreter Raum ist (d. h. endlich oder abzählbar). 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 49 Beispiel 14 Wir betrachten den Wahrscheinlichkeitsraum (Ωn , Fn , P ), welcher das n-malige Wiederholen eines Bernoulli-Experimentes beschreibt. Wie wir im Paragraph 2.2.2 gesehen haben gilt: • Ωn = {ω = (x1 , x2 , . . . , xn ); xj ∈ {0, 1}, j = 1, . . . , n} • Fn = P ot(Ωn ) • P ({(x1 , x2 , . . . , xn )}) = pk q n−k , wenn das n-Tupel (x1 , x2 , . . . , xn ) k Einsen und n − k Nullen enthält. Auf diesem Wahrscheinlichkeitsraum definieren nun wir die Zufallsvariable n ! X : Ωn → {0, 1, 2, . . . , n}, X((x1 , x2 , . . . , xn )) = xi . i=1 Diese Zufallsvariable misst“, in wie vielen der n Bernoulli-Experimenten die Eins ” aufgetreten ist. Zufallsvariable mit stetigem Wertebereich Beispiel 15 a) Sei Ω eine Menge von Personen. X:Ω→R X(ω) = Konzentration des α − Globulins im Blutplasma der Person ω. b) Sei Ω eine Menge von Individuen. X:Ω→R X(ω) = Gewicht des Individuums ω. 2.4.1 Verteilung einer Zufallsvariable Sei X eine Zufallsvariable mit Wertebereich X(Ω) ⊆ R. Zu X(Ω) definieren wir nun einen Ereignisraum FX , welcher Bereiche enthält, in denen die Werte von X liegen. Wir sind nun daran interessiert, ein Wahrscheinlichkeitsmaß auf FX zu finden, welches die Wahrscheinlichkeiten beschreibt, mit denen die Werte von X auftreten. Dieses Wahrscheinlichkeitsmaß wird mit PX bezeichnet und heißt Verteilung der Zufallsvariable X. Es ist gegeben durch PX : FX → [0, 1], PX (A) = P ({ω ∈ Ω; X(ω) ∈ A}) (2.17) für jedes Ereignis A ⊂ X(Ω) aus dem Ereignisraum FX von X(Ω). Da PX (A) angibt, mit welcher Wahrscheinlichkeit X Werte in einer Menge A ∈ FX annimmt, wird diese Wahrscheinlichkeit anschaulich auch mit P [X ∈ A] bezeichnet. Es gilt also P [X ∈ A] := PX (A) = P ({ω ∈ Ω; X(ω) ∈ A}). Ist X eine diskrete Zufallsvariable, d. h. ist X(Ω) endlich oder abzählbar, so ist (nach Satz 4) die Verteilung von X eindeutig charakterisiert durch PX ({η}) = P ({ω ∈ Ω : X(ω) = η}) =: P [X = η], η ∈ X(Ω). P [X = η] stellt die Wahrscheinlichkeit dar, mit der der Wert η auftritt. 50 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Beispiel 16 Die Verteilung der Zufallsvariable X aus Beispiel 14 ist durch die Werte auf den Elementarereignissen {k}, k = 0, 1, . . . , n, also durch PX ({k}) = P [X = k] = P ({ω = (x1 , x2 , . . . , xn ) ∈ Ωn ; X(ω) = k}) n ! = P ({ω = (x1 , x2 , . . . , xn ) ∈ Ωn ; xi = k}) i=1 bestimmt. Diese Werte stellen genau die Binomialverteilung dar, d.h. 2 3 n k n−k P [X = k] = bn,p (k) = p q , k = 0, 1, . . . , n. k Eine Zufallsvariable, die als Verteilung die Binomialverteilung besitzt, heißt binomialverteilte Zufallsvariable. Ist X eine Zufallsvariable mit stetigem Wertebereich, d. h. X(Ω) = R, so ist die Verteilung PX von X eindeutig charakterisiert durch PX ((−∞, y]) = P ({ω ∈ Ω : X(ω) ∈ (−∞, y]}) =: P [X ≤ y], y ∈ R. D. h. wenn man die Werte PX ((−∞, y]) für jedes y ∈ R kennt, so kann man die Wahrscheinlichkeit PX ([α, β]) für jedes Intervall [α, β] ⊂ R berechnen. Denn ist fX die Dichtefunktion der Verteilung PX , so gilt: PX ([α, β]) = 4β α fX (x)dx = 4β fX (x)dx − −∞ 4α fX (x)dx −∞ = PX ((−∞, β]) − PX ((−∞, α]). PX ([α, β]) gibt die Wahrsscheinlichkeit an, mit der die Zufallsvariable X Werte in dem Intervall [α, β] annimmt. Deswegen bezeichnet man sie anschaulich auch mit P [α ≤ X ≤ β]. Die Werte PX ((−∞, y]), y ∈ sind tabelliert. Sie werden mit Hilfe der im folgenden definierten Verteilungsfunktion FX festgehalten. Die Funktion FX : R → [0, 1], F (y) = PX ((−∞, y]) = 4y fX (x)dx −∞ heißt Verteilungsfunktion der Zufallsvariable X. Interessieren wir uns nun für die Wahrscheinlichkeit, mit der die Zufallsvariable X Werte in einem Intervall [α, β] annimmt, so berechnet sich diese folgendermaßen: P [α ≤ X ≤ β] = PX ([α, β]) = PX ((−∞, β]) − PX ((−∞, α]) = FX (β) − FX (α). (2.18) Es ist nützlich, siehe Beispiel 17, das Verhalten der Verteilungsfunktion einer Zufallsvariablen unter linearen Transformationen zu kennen. Dazu dient fogender Satz. 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 51 Satz 5 Es sei X eine Zufallsvariable mit der Verteilung PX gegeben durch die Dichtefunktion fX . Dann besitzt die Zufallsvariable Y =9 aX:+b, a, b ∈ R, die Verteilung PY gegeben durch die Dichtefunktion fY (y) = a1 fX y−b . a Beweis: Seien α, β ∈ R. Laut Definition ist 4 P [α ≤ Y ≤ β] = β fY (y)dy. (2.19) α Andererseits rechnen wir ; < 4 α−b a α−b β−b P [α ≤ aX + b ≤ β] = P ≤X ≤ = fX (x)dx β−b a a a Wenn wir jetzt die Variablentransformation x = P [α ≤ aX + b ≤ β] = 4 β α fX y−b a 2 durchführen so erhalten wir y−b a 3 1 dy a (2.20) Durch Identifikation der Integranden in (2.19) und (2.20) ist der Satz bewiesen. Beispiel 17 Eine Zufallsvariable, die als Verteilung die Normalverteilung besitzt, heißt normalverteilte Zufallsvariable. Sei zunächst X eine Zufallsvariable, deren Verteilung durch die standardisierte Normalverteilung gegeben ist, d. h. PX = P0,1 . Die Verteilungsfunktion von X bezeichnen wir mit F0,1 . Die Werte 1 F0,1 (y) = P0,1 ((−∞, y]) = √ 2π 4y x2 e− 2 dx (2.21) −∞ entnimmt man aus Tabellen. Da aus Symmetriegründen (siehe auch Abb. 2.6) gilt, dass 1 F0,1 (−y) = 1 − F0,1 (y), F0,1 (0) = , 2 genügt es, F0,1 nur für y ≥ 0 zu tabellieren, siehe Tabelle 1. Sei nun X eine normalverteilte Zufallsvariable mit Parametern µ und σ. Aus Satz 5 folgt dann, dass die standardisierte Zufallsvariable X−µ standandardnorσ malverteilt ist (siehe auch Aufgabe 3, Blatt 8). Daher können wir die Werte der Verteilungsfunktion Fµ,σ aus den Werten von F0,1 berechnen. Beispiel 18 (Verteilung der Körpergröße) Sei X die Zufallsvariable, welche die Körpergröße der Einwohner einer Stadt beschreibt. Es sei bekannt, dass X normalverteilt ist mit Parametern µ = 178cm und σ = 8cm. Wir wollen nun berechnen, mit welcher Wahrscheinlichkeit Einwohner mit der Körpergröße zwischen 186 cm und 190 cm vorkommen, oder in Formeln ausgedrückt, die Wahrscheinlichkeit P [186 ≤ X ≤ 190]. 52 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG f0,1(t) F0,1(-y) 1 - F0,1(y) -y 0 y t Abbildung 2.6: Werte der Verteilungsfunktion F0,1 Da X nicht standardnormalverteilt ist und wir auf die Tabellen für die Standardnormalverteilung zurückgreifen wollen, benutzen wir die standardisierte Zufallsvariable X −µ X − 178 Y = = . σ 8 Von Y wissen wir, dass sie standardnormalverteilt ist. Für a, b ∈ R gilt dann P [a ≤ X ≤ b] = = = = ; < a−µ X −µ b−µ P ≤ ≤ σ σ σ ; < a−µ b−µ P ≤Y ≤ σ σ 2; <3 a−µ b−µ P0,1 , σ σ 2 3 2 3 b−µ a−µ F0,1 − F0,1 σ σ Wenn wir also bestimmen wollen, mit welcher Wahrscheinlichkeit in der oben angesprochenen P178,8 -verteilten Stadt Einwohner zwischen 186 cm und 190 cm vorkommen, so rechnen wir folgendermaßen: ; < 186 − 178 190 − 178 P [186 ≤ X ≤ 190] = P ≤Y ≤ 8 8 = F0,1 (1, 5) − F0,1 (1) = 0, 9332 − 0, 8413 = 0, 0919 ≈ 9, 2% Dabei wurden die Werte von F0,1 (1, 5) und F0,1 (1) aus der Tabelle 1 entnommen. 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 2.4.2 53 Erwartungswert und Varianz einer Zufallsvariable In Analogie zum Mittelwert und Varianz für Messreihen definieren wir für diskrete Zufallsvariablen den Erwartungswert von X ! ! E[X] = x · PX ({x}) = x · P [X = x] (2.22) x∈X(Ω) x∈X(Ω) und die Varianz von X V [X] = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 . (2.23) Die Quadratwurzel aus der Varianz / / V [X] = E[(X − E[X])2 ] heißt Streuung oder Standardabweichung von X. Im Falle stetiger Zufallsvariablen, deren Verteilungen PX die Dichte fX besitzen, ist der Erwartungswert gegeben durch 4∞ E[X] = xfX (x)dx. −∞ Die Varianz berechnet sich aus V [X] = 4∞ (x − E[X])2 fX (x)dx. −∞ Dabei beschreibt E[X] den typischen“ Wert von X. V [X] ist ein Maß für die ” Größe der Abweichung der Werte von X vom typischen“ Wert E[X]. ” Beispiel 19 Sei X eine Zufallsvariable, die einem Bernoulli-Experiment entspricht, d. h. X nehme die Werte Eins und Null an und die Verteilung PX von X ist gegeben durch PX ({1}) = P [X = 1] = p, PX ({0}) = P [X = 0] = 1 − p = q. (Siehe auch Übungsblatt 8, Aufgaben 1 und 2.) Der Erwartungswert E[X] und die Varianz V [X] berechnen sich wie folgt. E[X] = 1 · P [X = 1] + 0 · P [X = 0] = 1 · p + 0 · q = p V [X] = E[X 2 ] − (E[X])2 = 1 · P [X = 1] + 0 · P [X = 0] − p2 = p − p2 = p(1 − p) = pq Beispiel 20 (Erwartungswert und Varianz für normalverteilte Zufallsvariable) Sei X eine normalverteilte Zufallsvariable mit PX = Pµ,σ . Dann ist E[X] = µ und V [X] = σ 2 . Um dieses zu zeigen, berechnen wir E[X] und V [X]. 4∞ (x−µ)2 1 E[X] = x· √ e− 2σ2 dx 2πσ 2 −∞ = √ 1 2πσ 2 4∞ −∞ (x−µ)2 − 2σ 2 (x − µ)e dx + √ µ 2πσ 2 4∞ −∞ e− (x−µ)2 2σ 2 dx. 54 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Aufgrund der Symmetrieeigenschaften des Integranden verschwindet das erste Inte√ 2 gral. Das zweite Integral ergibt 2πσ , wir erhalten also E[X] = µ. Für die Berechnung der Varianz benutzen wir die Substitution x−µ = y und erhalten: σ V [X] = √ 4∞ 1 2πσ 2 σ2 = √ 2π (x − µ)2 e− (x−µ)2 2σ 2 dx −∞ 4∞ y2 y 2 e− 2 dy = σ 2 . −∞ Für eine normalverteilte Zufallsvariable X stellen also die Parameter µ und σ 2 gerade den Erwartungswert und der Varianz von X dar. Eigenschaften von Erwartungswert und Varianz a) Wie wir schon bei Mittelwert und Varianz für Messreihen gesehen haben, gilt auch hier E[aX + b] = aE[X] + b (2.24) V [aX + b] = a2 V [X]. (2.25) Sei X eine Zufallsvariable mit der Verteilung PX gegeben durch die Dichtefunktion fX und sei Y = aX + b. 9 Da: wir im Satz 5 gezeigt haben, dass die Dichtefunktion von Y durch fY = a1 fX y−b gegeben ist, können wir wie folgt den Erwartungswert a und die Varianz von Y berechnen: 2 3 4 ∞ 4 ∞ 1 y−b E[Y ] = yfY (y)dy = y fX dy a −∞ −∞ a 4 ∞ 4 ∞ 4 ∞ = (ax + b)fX (x)dx = a xfX (x)dx + b fX (x)dx = aE[X] + b, −∞ V [Y ] = = 4 ∞ 4−∞ ∞ −∞ −∞ 2 (y − E[Y ]) fY (y)dy = 4 −∞ ∞ −∞ (ax + b − aE[X] − b) 21 a fX 2 y−b a 3 dy a2 (x − E[X])2 fX (x)dx = a2 V [X], wobei wir wieder die Variablentransfomation x = y−b wie in Satz 5 benutzt haben. a Sei nun X eine Zufallsvariable mit E[X] = µ, V [X] = σ 2 . Dann gilt für die standardisierte Zufallsvariable X ∗ = X−µ , dass σ E[X ∗ ] = 0, V [X ∗ ] = 1. b) Man sagt, zwei Zufallsvariablen X und Y sind unabhängig, wenn die Messung von X die Messung von Y nicht beeinflusst. Dieses bedeutet, dass die Mengen {ω ∈ Ω : X(ω) ∈ A} und {ω ∈ Ω : Y (ω) ∈ B} für alle A und B unabhängig sind. In diesem Falle gilt E[X · Y ] = E[X] · E[Y ]. 2.5. DER ZENTRALE GRENZWERTSATZ 55 c) Es seien X und Y zwei Zufallsvariablen. Dann gilt E[aX + bY ] = aE[X] + bE[Y ]. Falls X und Y unabhängig sind, gilt V [X + Y ] = V [X] + V [Y ]. Beispiel 21 Seien X1 , X2 , . . . , Xn n unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Sei X̄n das arithmetische Mittel der Variablen X1 , X2 , . . . , Xn : n 1 1! X̄n = (X1 + X2 + . . . + Xn ) = Xi . n n i=1 Dann ist: = > n n 1! 1! nµ E[X̄n ] = E Xi = E[Xi ] = =µ n i=1 n i=1 n = n > n 1! 1 ! 1 σ2 V [X̄n ] = V Xi = 2 V [Xi ] = 2 · (n · σ 2 ) = n i=1 n i=1 n n 2.5 Der zentrale Grenzwertsatz Die Tatsache, dass die Normalverteilung in vielen praktischen Anwendungen auftritt, kann durch den folgenden Satz erklärt werden. Satz 6 (Zentraler Grenzwertsatz, Satz von de Moivre-Laplace) Seien X1 , X2 , . . . , Xn eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 > 0. Dann ist das arithmetische Mittel n 1! 1 X̄n = Xi = (X1 + X2 + . . . + Xn ) n i=1 n 2 näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Insbesondere konvergiert, für n → ∞, die Verteilung der standardisierten Zufallsvariablen X̄n∗ = X̄n − µ √σ n gegen die standardisierte Normalverteilung. D. h. P [a ≤ X̄n∗ 1 ≤ b] −→ √ 2π n→∞ 4b a t2 e− 2 dt. 56 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Dieser Satz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist, wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken. Da dieses bei Vorgängen in der Natur oft der Fall ist, sind auch viele Größen in den Biowissenschaften normalverteilt. Auch Messfehler kann man auf Grund des zentralen Grenzwertsatzes als normalverteilt annehmen. Beispiel 22 (Anwendung des zentralen Grenzwertsatzes) Eine Labormaschine fülle Flüssigkeit in n = 36 Reagenzgläser ein. Mit einer Streuung σ = 0, 12g erreicht die Maschine einen mittleren Abfüllwert von µ = 1g. Die 36 Proben werden nun in einen einzigen Erlenmeyerkolben gefüllt. Mit welcher Wahrscheinlichkeit weicht die Endmenge höchstens um 1g vom Zielwert ab? Mögen die Zufallsvariablen Xi , i = 1, . . . , 36 die Füllmengen in den 36 Reagenzgläsern beschreiben. Dann beschreibt die Zufallsvariable Y = X1 + X2 + . . . + Xn die Endmenge. Wir haben also P [35 ≤ Y ≤ 37] zu berechnen. ; < 35 37 P [35 ≤ Y ≤ 37] = P ≤ X̄n ≤ 36 36 = > 35 37 − 1 − 1 X̄ − 1 n = P 360,12 ≤ 0,12 ≤ 360,12 √ √ √ 36 36 ? @ 36 ∗ = P −1, 389 ≤ X̄n ≤ 1, 389 ≈ F0,1 (1, 389) − F0,1 (−1, 389) = 0, 8354, da gemäß dem zentralen Grenzwertsatz X̄n∗ annähernd standardnormalverteilt ist. Kapitel 3 Induktive Statistik Wir haben im vorigen Kapitel gesehen, dass Wahrscheinlichkeitsräume und die darauf definierten Zufallsvariablen mathematische Modelle zur Beschreibung zufallsbedingter Eigenschaften von Grundgesamtheiten darstellen. Basierend auf diesen Modellen ist es nun mit den Methoden der induktiven Statistik möglich, ausgehend von Stichproben quantitative Aussagen über die Grundgesamtheit zu machen. 3.1 Schätzverfahren Allgemein gilt, dass eine Grundgesamtheit durch eine Zufallsvariable X und deren Verteilung beschrieben wird. Bezeichne etwa Ω die Gesamtheit der Einwohner einer Stadt; die normalverteilte Zufallsvariable X könnte die Körpergröße der Einwohner beschreiben. Als Maßzahlen von X haben wir den Erwartungswert E[X] und die Varianz V [X] kennengelernt. Diese sind a priori unbekannt. Man ist daher bemüht, anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit zu schätzen. In diesem Paragraphen werden wir in einem ersten Schritt Schätzwerte für unsere unbekannten Parameter konstruieren. Ein einzelner Schätzwert enthält aber keine Information darüber, wie sehr er vom wahren“ Parameter abweicht. Des” wegen werden wir in einem zweiten Schritt versuchen, Bereiche anzugeben, die mit hoher Wahrscheinlichkeit den unbekannten Parameter enthalten. 3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit Oft sind gewisse Eigenschaften einer Zufallsvariablen X (etwa der Verteilungstyp) aus Erfahrung bekannt oder ergeben sich aus der Beschreibung des zugrunde liegenden Zufallsexperiments. Die charakteristischen Parameter sind dagegen meist unbekannt. So kann man zum Beispiel leicht nachvollziehen, dass die Anzahl von Kopf beim Werfen einer unfairen Münze durch eine binomialverteilte Zufallsvariable beschrieben werden kann. Es liegt jedoch in der Natur der Sache, dass eine exakte Angabe der Erfolgswahrscheinlichkeit p nicht möglich ist. 57 58 KAPITEL 3. INDUKTIVE STATISTIK Unser Ziel wird nun sein, anhand von Stichprobenwerten Schätzwerte für die unbekannten Parameter zu bestimmen. Seien x1 , x2 , . . . , xn die Ergebnisse einer " Stichprobe vom Umfang n. Es liegt beispielsweise nahe, den Mittelwert x̄ = n1 nj=1 xj als Schätzwert für den Erwartungswert E[X] = µ zu benutzen. Es ist andererseits auch klar, dass eine andere Stichprobe vom Umfang n einen anderen Schätzwert liefern kann. Eine Abbildung θn , die jeder Stichprobe vom Umfang n aus einer Grundgesamtheit einen Schätzwert für eine bestimmte Maßzahl zuordnet, heißt Schätzfunktion (oder Schätzer) für diese Maßzahl. In unserem Beispiel haben wir also folgende Schätzfunktion für den Erwartungswert angenommen: n (x1 , x2 , . . . , xn ) /→ θn (x1 , x2 , . . . , xn ) = 1! xj . n j=1 (3.1) Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe annimmt, nennt man Schätzwerte. Erwartungstreue Schätzfunktionen Es stellt sich nun natürlich die Frage nach der Güte eines Schätzers. Ein Kriterium, mit dem sich die Güte beurteilen lässt, ist die Erwartungstreue. Offensichtlich gibt ein einzelner Schätzwert den unbekanten Parameter (Maßzahl) nicht exakt wieder. Allerdings sollte die Schätzvorschrift nicht systematisch einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Erwartungswert der Zufallsvariable, welche alle theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n beschreibt, mit dem unbekannten Parameter übereinstimmt. Mathematisch formulieren wir das folgendermaßen: Sei x1 , . . . , xn eine Stichprobe der Länge n. Diese Stichprobe entspricht einer Realisierung (oder Auswertung) des n-Tupels1 (X1 , . . . , Xn ) von n unabhängigen, gleichverteilten Zufallsvariablen X1 , . . . , Xn , die die Verteilung von X besitzen. Deswegen kann man θn (x1 , . . . , xn ) als Realisierung der Zufallsvariable θn (X1 , . . . , Xn ) auffassen. Dem Schätzer des Erwartungswertes (3.1) entspricht also die Zufallsvariable θn (X1 , . . . , Xn ) : Ω × Ω × . . . × Ω → n 1! θn (X1 , . . . , Xn ) = Xj . n j=1 Eine Schätzfunktion θn für eine unbekannte Maßzahl κ heißt erwartungstreu bezüglich κ, falls E[θn (X1 , . . . , Xn )] = κ. 1 Das n-Tupel (X1 , . . . , Xn ) ist folgendermaßen definiert: (X1 , . . . , Xn ) : Ω × Ω × . . . × Ω → × × ...× (X1 , . . . , Xn )(ω1 , . . . , ωn ) = (X1 (ω1 ), . . . , Xn (ωn )) 3.1. SCHÄTZVERFAHREN 59 Beispiele für erwartungstreue Schätzfunktionen a) Das arithmetische Mittel (3.1) ist eine erwartungstreue Schätzfunktion für den Erwartungswert E[X]. Beweis: Sei µ = E[X] = E[Xj ], j = 1, . . . , n. Dann gilt: = n > n ! 1 1! 1 E[θn (X1 , . . . , Xn )] = E Xj = E[Xj ] = · n · µ = µ. n j=1 n j=1 n b) Die empirische Varianz n θn (x1 , . . . , xn ) = 1 ! (xj − x̄)2 n − 1 j=1 ist eine erwartungstreue Schätzfunktion für die Varianz V [X]. Beweis: Sei wieder µ = E[X] = E[Xj ] und σ 2 = V [X] = V [Xj ], j = 1, . . . , n. Zu zeigen ist also: = > n 1 ! E (Xj − X̄n )2 = σ 2 n − 1 j=1 Berechne zuerst n n ! ! (Xj − X̄n )2 = (Xj2 − 2 · Xj · X̄n + X̄n2 ) j=1 = j=1 n ! Xj2 j=1 = n ! Xj2 j=1 − 2n − "n j=1 Xj # 2nX̄n2 n $% X̄n + & ·X̄n + nX̄n2 = n ! j=1 n ! j=1 X̄n2 Xj2 − nX̄n2 . Es gilt also: = n > = n > ! ! 2 2 2 E (Xj − X̄n ) = E Xj − nX̄n j=1 j=1 = n ! j=1 E[(Xj − µ + µ)2 ] − nE[(X̄n − µ + µ)2 ] 2 2 = E[(Xj − µ ) + µ ] − nE[(X̄n − µ )2 + µ2 ] #$%& #$%& j=1 n ! = n ! j=1 E[Xj ] V [Xj ] + nµ2 − nV [X̄n ] − nµ2 = nσ 2 − n σ2 = (n − 1)σ 2 n E[X̄n ] 60 KAPITEL 3. INDUKTIVE STATISTIK Dabei haben wir verwendet, dass für eine Zufallsvariable X mit E[X] = µ gilt E[X − µ] = E[X] − µ = 0. 3.1.2 Intervallschätzungen Im vorigen Paragraphen haben wir mithilfe einer Schätzfunktion aus den Daten einer Stichprobe einen Schätzwert für den unbekannten Parameter bestimmt. Um nun Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruieren wir aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das den gesuchten Parameter überdeckt. Es ist allerdings nicht auszuschließen, dass die Daten der Stichprobe ein Intervall erzeugen, das daneben liegt“ und das den ge” suchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten. • Mit der Wahrscheinlichkeit 1−α erhält man ein Intervall, das den unbekannten Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit (oder Konfidenzniveau) bezeichnet. Für α = 5% z. B. beträgt die Konfidenzwahrscheinlichkeit 95%. • Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten Parameter nicht enthält. Konfidenzintervalle für den Erwartungswert Zur Bestimmung des Konfidenzintervalls für den Erwartungswert einer Zufallsvariablen X erinnern wir uns zuerst, dass der Mittelwert eine erwartungstreue Schätzfunktion für den Erwartungswert ist (siehe Beispiel (a.) im vorigen Paragraph). Als nächstes wollen wir festzustellen, in welchen Bereichen die Werte von x̄ mit großer Wahrscheinlichkeit zu erwarten sind. Dazu bemerken wir, dass alle theoretisch denkbaren Mittelwerte, die sich aus Stichproben des Umfangs n ergeben, Realisierungen der Zufallsvariablen n 1! X̄n = Xj . n j=1 sind. Dabei sind X1 , . . . , Xn unabhängige Kopien der Zufallsvariablen X. Auf Grund des zentralen Grenzwertsatzes ist X̄n annähernd normalverteilt (zumindest für genügend große n), mit Erwartungswert µ und Standardabweichung √σn . Für die Konstruktion des Konfidenzintervalls werden wir in einem ersten Schritt annehmen, σ sei bekannt. Sei z1− α2 so, dass = P −z1− α2 ≤ X̄n − µ √σ n ≤ z1− α2 > = 1 − α. (3.2) 3.1. SCHÄTZVERFAHREN z1− α2 wird aus der Bedingung = 61 P −∞ < X̄n − µ √σ n ≤ z1− α2 > =1− α 2 bestimmt. Beispiele für Irrtumswahrscheinlichkeiten α und die entsprechenden Werte von α z1− 2 sind in der folgenden Tabelle angegeben: α 1−α 0,1 0,9 0,05 0,95 0,01 0,99 0,001 0,999 z1− α2 1,645 1,960 2,576 3,291 Durch äquivalentes Umformen der Beziehung (3.2) erhalten wir: ; < σ σ P −z1− α2 · √ ≤ X̄n − µ ≤ z1− α2 · √ = 1 − α. n n Das bedeutet, dass der Abstand zwischen dem Mittelwert x̄ und dem Erwartungswert µ = E[X̄n ] betragsmäßig mit einer Wahrscheinlichkeit von 1 − α unterhalb des Wertes z1− α2 √σn liegt. Anders formuliert: mit der Wahrscheinlichkeit von 1−α fällt der B A σ σ √ √ α α berechnete Mittelwert x̄ der Stichprobe in das Intervall µ − z1− 2 · n , µ + z1− 2 · n , d. h. σ σ µ − z1− α2 · √ ≤ x̄ ≤ µ + z1− α2 · √ . n n Wenn wir von allen Gliedern dieser Ungleichung den Wert µ + x̄ abziehen und dann die Ungleichung mit (−1) multiplizieren erhalten wir: σ σ −x̄ − z1− α2 · √ ≤ −µ ≤ −x̄ + z1− α2 · √ . n n 62 KAPITEL 3. INDUKTIVE STATISTIK σ σ x̄ − z1− α2 · √ ≤ µ ≤ x̄ + z1− α2 · √ . n n Daraus ergibt sich für µ das Konfidenzintervall auf dem Niveau 1 − α (oder mit der Konfidenzwahrscheinlichkeit 1 − α) ; < σ σ x̄ − z1− α2 · √ , x̄ + z1− α2 · √ . n n Beispiel 23 Wir betrachten eine Apfelernte: Das Gewicht der Äpfel wird durch die Zufallsvariable X mit der Standardabweichung σ = 10g und unbekanntem Erwartungswert µ beschrieben. Diesen Erwartungswert gilt es jetzt aus den Daten einer Stichprobe vom Umfang n = 100 zu schätzen Konstruktion des Konfidenzintervalls 1. 100 Äpfel werden gewogen. Wir berechnen x̄ = 142g. 2. Wir wählen die Irrtumswahrscheinlichkeit α = 0, 1. 3. z1− α2 muss erfüllen F0,1 (z1− α2 ) = 1 − α2 = 0, 95. Aus der Tabelle der standardisierten Normalverteilung erhalten wir z1− α2 = 1, 645. 4. Das Konfidenzintervall für µ auf dem Niveau 1 − α = 0, 9 = 90% ist 142 − 10 10 · 1, 645 ≤ µ ≤ 142 + · 1, 645. 10 10 Oder ausgerechnet 140, 355g ≤ µ ≤ 143, 645g. D. h. mit einer Konfidenzwahrscheinlichkeit von 90% enthält das Intervall [140,355; 143,645] den Erwartungswert µ. 3.1. SCHÄTZVERFAHREN 63 Bei den obigen Überlegungen haben wir vorausgesetzt, dass die Standardabweichung σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen fast niemals der Fall. In dieser Situation wählt man die empirische Varianz n s(x)2 = 1 ! (xj − x̄)2 n − 1 j=1 als Schätzwert für σ 2 . Nun gehen wir ähnlich wie vorher vor und betrachten die Zufallsvariable X̄n − µ , X̄n∗ = σ √ n welche standardnormalverteilt ist. Da σ unbekannt ist, ersetzen wir es durch s(x) und betrachten die Zufallsvariable T = X̄n − µ s(x) √ n . (3.3) T ist nicht normalverteilt. Die korrekte Verteilung heißt Student’sche t-Verteilung mit n − 1 Freiheitsgraden. Die Wahrscheinlichkeitsdichte der t−Verteilung mit n − 1 Freiheitsgraden ist gegeben durch 2 3− n2 x2 fn−1 (x) = cn−1 1 + , n ≥ 2, n−1 dabei ist cn−1 ein Normierungsfaktor, so dass 5∞ fn−1 (x)dx = 1. −∞ Die Student’sche t-Verteilung ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen Xj , aus denen X̄n berechnet wird, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 . Eigenschaften der t-Verteilung: • Die Dichte der t-Verteilung ist symmetrisch um 0, stetig und glockenförmig. (siehe Abb. 3.1). Die t-Verteilung nähert für große n der standardisierten Normalverteilung an. • Die t-Verteilung ist abhängig vom Parameter n − 1, der die Anzahl der Freiheitsgrade angibt. Es existiert also für jeden Umfang n der Stichprobe eine spezielle t-Verteilung mit n − 1 Freiheitsgraden! In Abb. 3.1 ist die Wahrscheinlichkeitsdichte der t-Verteilung, f1 (x) = 1 1 · π 1 + x2 für Stichproben vom Umfang n = 2, d.h. mit n − 1 = 1 Freiheitsgraden, eingezeichnet (durchgezogene Linie). Zum Vergleich ist die Dichte f0,1 der standardisierten 64 KAPITEL 3. INDUKTIVE STATISTIK Abbildung 3.1: Wahrscheinlichkeitsdichte f1 der Student t-Verteilung mit n − 1 = 1 Freiheitsgraden (durchgezogene Linie). Zum Vergleich dazu f0,1 (punktierte Linie). Normalverteilung angegeben (punktierte Linie). Der Erwartungswert der t-verteilten Zufallsvariablen T aus (3.3) ist 0. Die Werte der entsprechenden Verteilungsfunktion sind tabelliert, siehe Tabelle 2. Ähnlich wie vorhin ergibt sich nun das Konfidenzintervall für µ auf dem Niveau 1 − α aus der Beziehung ? @ P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α. (3.4) Dabei wird tn−1,1− α2 aus der Beziehung ? @ α P −∞ ≤ T ≤ tn−1,1− α2 = 1 − 2 bestimmt. Aus (3.4) ergibt sich nun für µ das Konfidenzintervall < ; s(x) s(x) . x̄ − tn−1,1− α2 · √ , x̄ + tn−1,1− α2 · √ n n 3.2. STATISTISCHE TESTS 3.2 65 Statistische Tests Die wissenschaftlichen Fortschritte, die ein empirischer Forscher macht, beruhen letzten Endes auf Erkenntnissen, die aus Experimenten gewonnen werden. Aus diesen Erkenntnissen, gepaart mit fachlich-theoretischen Überlegungen, entsteht eine Vermutung und - wenn diese präzise formuliert wird - eine Hypothese. Diese Hypothese stellt also i.A. einen innovativen Aspekt dar und wird einer sogenannten Nullhypothese gegenüber gestellt, welche i.A. den status quo” in dem betreffenden ” Bereich beschreibt. Mit Hilfe eines statistischen Tests gilt es dann, anhand relevanter Daten aus einer oder mehreren Stichproben, zu entscheiden, ob die Nullhypothese abgelehnt (verworfen) werden muss oder nicht abgelehnt (verworfen) werden kann. Wir wollen nun die Begriffsbildung anhand eines Beispiels aus dem Alltag durchführen: Eine Brauerei besitze eine Abfüllanlage, die in jede Flasche 500ml Bier abfüllen soll. Kleine Abweichungen sind unvermeidlich. Falls nun Zweifel über die Genauigkeit der Abfüllmenge auftreten, muss die Behauptung dass die Anlage im Mittel 500ml Bier in eine Flasche füllt, überprft werden. In der Sprache der Statistik sei X eine Zufallsvariable, die die Abfüllmenge beschreibt. Zu prüfen ist die Nullhypothese H0 : E[X] = µ0 = 500ml. Um diese Hypothese zu prüfen, bestimmen wir zunächst den Mittelwert x̄ der Stichprobe. Die Frage ist dann: Welche Abweichung des Mittelwertes vom Erwartungswert µ0 ist als so signifikant einzustufen, dass die Nullhypothese abgelehnt wird? Die Antwort auf diese Frage kann von der Interessenlage abhängen. Der Verband der Biertrinker etwa wird die Hypothese nur dann ablehnen, wenn im Mittel zu wenig Bier abgefüllt wird. Die Alternativhypothese würde dann lauten: H1 : E[X] < µ0 = 500ml. Bei dieser Art von Alternativhypothesen spricht man von linksseitiger Fragestellung. Hier wird man H0 nur dann ablehnen, wenn der Mittelwert x̄ signifikant kleiner als µ0 ist. Der Bierproduzent andererseits könnte vor allem daran interessiert sein, nicht zu viel Bier abzufüllen. Seine Alternativhypothese wäre dann H1 : E[X] > µ0 ; man spricht von einer rechtsseitigen Fragestellung. Dem Hersteller der Abfüllanlage schließlich könnte vor allem an der Funktionstüchtigkeit der Anlage gelegen sein. Seine Gegenhypothese könnte also H1 : E[X] )= µ0 lauten; eine zweiseitige Fragestellung. Nullhypothese und Alternativhypothese sind also wichtige Bestandteile eines statistischen Tests. Die Frage, ob einseitig oder zweiseitig getestet wird, hat weniger mit Statistik als mit sachlogischen Überlegungen zu tun. 66 KAPITEL 3. INDUKTIVE STATISTIK Ein weiterer Bestandteil eines statistischen Tests ist die sogenannte Testgröße (oder Prüfgröße) (in unserem Beispiel der Mittelwert der Stichprobe), die aus den Daten der Stichprobe ermittelt wird. Diese Größe erlaubt es, nach einem festgelegten Verfahren zu entscheiden, ob die Nullhypothese verworfen werden muss oder nicht verworfen werden kann. 3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. Das Verfahen, welches zur Testentscheidung führt, ist anschaulich beschrieben folgendes: Unter der Annahme der Gültigkeit der Nullhypothese wird ein Intervall bestimmt, in das die Werte der Prüfgröße mit Wahrscheinlichkeit 1 − α fallen. Dieses Intervall heißt Annahmebereich für die Nullhypothese. Mit Wahrscheinlichkeit α liegen die Werte der Prüfgröße außerhalb dieses Intervalls, dieser Bereich wird kritischer Bereich (oder Ablehnungsbereich für die Nullhypothese) genannt. Die Wahrscheinlichkeit α heißt Signifikanzniveau und hat üblicherweise den Wert α = 5%. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0, 1%, hin und wieder α = 10%. Der Wert von α sollte vor der Durchführung des Tests bestimmt werden. Dadurch ist gewährleistet, dass keine willkürlichen oder subjektiven Entscheidungen getroffen werden. Entscheidungsregel • Wenn die Prüfgröße in den Annahmebereich fällt, kann die Nullhypothese nicht verworfen werden. Man formuliert die Entscheidung: Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“ ” • Wenn die Prüfgröße im kritischen Bereich liegt, kann die Nullhypothese verworfen werden, was als Folgerung die Gültigkeit der Alternativhypothese hat. Ein solches Ergebnis heißt (in Abhängigkeit vom α) schwach-signifikant (α = 10%), signifikant (α = 5%), hoch-signifikant (α = 1%) oder höchstsignifikant (α = 0, 1%). Man formuliert die Entscheidung als: Die Nullhypothese wird auf dem Signifikanzniveau α verworfen“ ” Fehlerarten Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den Stichprobenwerten ermittelt. Es ist deshalb möglich, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt. Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise für die Alternativhypothese entscheidet, liegt ein Fehler 1. Art oder α-Fehler vor. Ein Fehler 1. Art ist leider nicht vermeidbar, aber er ist kontrollierbar, denn dieser Fehler kann nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig formuliert. Die Wahrscheinlichkeit für einen Fehler 1. Art ist höchstens α. Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist, und man sich fälschlicherweise für die Nullhypothese entscheidet. In diesem Fall begeht man einen β−Fehler oder Fehler 2. Art. Dieser lässt sich im Gegensatz zum α-Fehler kaum abschätzen, da i.A. die Alternativhypothese nicht explizit gebeben ist. In der nachstehenden Tabelle werden die möglichen Situationen 3.2. STATISTISCHE TESTS 67 übersichtlich zusammengefasst: Wirklichkeit H0 richtig H0 richtig H1 richtig H1 richtig 3.2.2 Testentscheidung H0 kann nicht verworfen werden H0 wird verworfen H0 kann nicht verworfen werden H0 wird verworfen Fehlerart kein Fehler Fehler 1. Art Fehler 2. Art kein Fehler (3.5) Test des Erwartungswertes einer normalverteilten Grundgesamtheit Sei X normalverteilt mit unbekanntem Erwartungswert µ = E[X] und unbekannter Varianz σ 2 = V [X]. X1 , X2 , . . . , Xn seien unabhängige Kopien vom X und x1 , x2 , . . . , xn seien Stichprobendaten. Die Hypothesen lauten (bei 2-seitiger Fragestellung): H0 : H1 : µ = E[X] = µ0 µ = E[X] )= µ0 Nullhypothese Alternativhypothese. Wir wählen ein festes Signifikanzniveau α. Aufgrund der Voraussetzungen dieses Tests und unter Annahme der Nullhypothese ist die Zufallsvariable X̄n − µ0 T = s(x) (3.6) √ n t−verteilt mit n − 1 Freiheitsgraden. Es gilt also: ? @ P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α. Ist also die Nullhypothese richtig, so produziert T mit Wahrscheinlichkeit 1−α Werte im Intervall [−tn−1,1− α2 , tn−1,1− α2 ]. Dieses ist der Annahmebereich für die Nullhypothese. Mit der Wahrscheinlichkeit α fallen die Werte von T in dem Bereich (−∞, −tn−1,1− α2 )∪ (tn−1,1− α2 , ∞). Dies ist der kritische Bereich. Nach der Vorschrift (3.6) berechnet man aus den Daten der Stichprobe die Prüfgröße t: x̄ − µ0 t = s(x) . (3.7) √ n Es gilt folgende Entscheidungsregel: • Falls die Prüfgröße oder äquivalent t ∈ [−tn−1,1− α2 , tn−1,1− α2 ] s(x) s(x) x̄ ∈ [µ0 − tn−1,1− α2 · √ , µ0 + tn−1,1− α2 · √ ] n n 68 KAPITEL 3. INDUKTIVE STATISTIK (d. h. x̄ weicht nicht sehr stark von µ0 ab), so kann die Nullhypothese auf Signifikanzniveau α nicht abgelehnt werden. • Falls die Prüfgröße t∈ / [−tn−1,1− α2 , tn−1,1− α2 ] oder äquivalent s(x) s(x) x̄ ∈ / [µ0 − tn−1,1− α2 · √ , µ0 + tn−1,1− α2 · √ ] n n (d. h. x̄ weicht stark von µ0 ab), so wird die Nullhypothese auf Signifikanzniveau α abgelehnt. Liegt nun ein Vorwissen über die die Richtung des erwarteten Unterschiedes zwischen µ0 und x̄ vor, so wird eine einseitige Fragestellung formuliert. Dabei betrachtet man die Hypothesen: H0 : H1 : µ = µ0 µ < µ0 (bzw. µ > µ0 ). Unter der Nullhypothese gilt nun P [−tn−1,1−α ≤ T < ∞] = 1 − α > X̄n − µ0 P −tn−1,1−α ≤ s(x) < ∞ = 1 − α = √ n ; < s(x) P µ0 − tn−1,1−α · √ ≤ X̄n < ∞ = 1 − α. n Der Annahmebereich für die Nullhypothese ist also [−tn−1,1−α , ∞), denn t ∈ [−tn−1,1−α , ∞) bedeutet s(x) x̄ ∈ [µ0 − tn−1,1−α · √ , ∞), n x̄ ist also nicht viel kleiner als µ0 . Analog erhält man im Falle der rechtsseitigen Fragestellung µ > µ0 den Annahmebereich für die Nullhypothese (−∞, tn−1,1−α ]. Beispiel 24 Aus der Fachliteratur ist bekannt, dass das durchschnittliche Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenen Schwangerschaft µ0 = 3500g beträgt. Ein Mediziner möchte statistisch absichern, dass Babys von Raucherinnen im allgemeinen weniger wiegen. Dazu werden 20 Babys herangezogen, deren Mütter stark rauchen. Es wird ein mittleres Geburtsgewicht von x̄ = 3280g mit einer 3.2. STATISTISCHE TESTS 69 empirischen Standardabweichung von 490g ermittelt. Der Unterschied zu µ0 beträgt also im Durchschnitt 220g. Ist dieses Ergebnis eine Bestätigung für die Vermutung des Arztes? Oder ist der Unterschied zufällig bedingt und hat ansonsten keine Bedeutung? Da man davon ausgehen kann, dass - falls ein Unterschied existiert - das durchschnittliche Gewicht der Raucher-Babys geringer ist als der Sollwert, verwendet man die einseitige Fragestellung mit den Hypothesen H0 : µ = 3500g H1 : µ < 3500g. Als Prüfgröße ergibt sich nach (3.7) t= 3280 − 3500 490 √ 20 = −2, 008. Mit n − 1 = 19 und α = 5% erhalten wir tn−1,1−α = t19;0,95 = 1, 729. Der Annahmebereich ist [−1, 729; ∞). Der kritische Bereich ist (−∞; −1, 729). Da t = −2, 008 ∈ / [−1, 729; ∞), ist das Ergebnis signifikant; die Nullhypothese wird auf dem Signifikanzniveau 5% verworfen und die Alternativhypothese wird angenommen. 3.2.3 t-Test auf Lageunterschied bei verbundenen Stichproben Dies ist ein Test, der zur Überprüfung der Gleichheit von zwei Erwartungswerten herangezogen wird. Er setzt voraus: zwei verbundene Stichproben des Umfangs n mit Wertepaaren {xj }, {yj }, j = 1, . . . , n, die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ2 stammen. Die Hypothesen lauten bei zweiseitiger Fragestellung: H0 : µ 1 = µ 2 H1 : bzw. bei einseitiger Fragestellung H1 : µ1 )= µ2 µ1 < µ2 (oder µ1 > µ2 ). Um diese Hypothesen zu überprüfen, betrachten wir die Differenzen Dj = Yj − Xj , j = 1, . . . , n. Es wird vorausgesetzt, dass die Zufallsvariablen Dj normalverteilt sind mit unbekannten µ und σ. Unsere Hypothesen lassen sich wie folgt umformulieren: H0 : H1 : bzw. H1 : µ = E(D) = µ2 − µ1 = 0 µ )= 0 µ < 0 (oder µ > 0) (zweiseitige Fragestellung) (einseitige Fragestellung) 70 KAPITEL 3. INDUKTIVE STATISTIK Wir wählen wieder ein festes Signifikanzniveau α. Die Zufallsvariable T = D̄n − 0 s(d) √ n n , 1 ! ¯ 2, mit s(d) = (dj − d) n − 1 j=1 2 ist t−verteilt mit n − 1 Freiheitsgraden. Die Prüfgröße t berechnet sich dann aus den Daten d¯ t = s(d) . √ n Der Annahmebereich für die Nullhypothese ist dann [−tn−1,1− α2 , tn−1,1− α2 ] [−tn−1,1−α , ∞) (−∞, tn−1,1−α ] 3.2.4 bei zweiseitiger Fragestellung bei linksseitiger Fragestellung bei rechtsseitiger Fragestellung Anwendung des t-Testes bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Prof. Dr. Stephan Frings, IZ) Wenn Wanderheuschrecken (Locusta migratoria) zu ihren Wanderschaften aufbrechen, müssen sie als Brennstoff für den Flug aus ihren Fettreserven eine bestimmte Art von Fett (Diglyzeride) mobilisieren. Das funktioniert so, dass eine bestimmte Drüse im Kopf ein Hormon ausschüttet (adipokinetisches Hormon), und dieses Hormon setzt Diglyzeride aus den Fettreserven frei. Um diese hormonelle Regulation nachzuweisen wird in einem Versuch mit 4 Heuschrecken die Diglyzeridkonzentration in der Hämolymphe (Blut der Insekten) vor und nach einer Injektion des adipokinetischen Hormons gemessen. Es wird untersucht, ob die Konzentration nach der Hormonverabreichung ansteigt. Mithilfe einer statistischen Analyse soll nun beurteilt werden, ob die Änderung der Diglyzeridkonzentration von vor Hormon“ nach nach Hormon“ signifikant ist. ” ” Aus dem Experiment erhalten wir zwei Messreihen: • xj , j = 1, . . . , 4 beschreibt die Werte der DG-Konzentration vor der Hormonverabreichung und • yj , j = 1, . . . , 4 gibt die entsprechende Konzentration nach der Hormonverabreichung an. Probe j xj (ng/ml) yj (ng/ml) dj = yj − xj dj − d¯ 1 2 3 4 11 23 20 11 62 49 69 49 " 51 26 49 38 d¯ = 14 4j=1 dj = 41 " ¯ 2 = 132, 7 10 -15 8 -3 s(d)2 = 13 4j=1 (dj − d) 3.2. STATISTISCHE TESTS 71 Abbildung 3.2: Die Wanderheuschrecke (Locusta migratoria) Da uns in diesem Fall die Erhöhung der Lipidkonzentration interessiert, betrachten wir folgende rechtsseitige Fragestellung H0 : H1 : µ = E[D] = 0 µ>0 Nullhypothese Alternativhypothese Wähle α = 0, 05 = 5%. Die Prüfgröße berechnet sich nach der Vorschrift t= d¯ s(d) √ 4 41 =C 132,7 4 =√ 41 41 ≈ ≈ 7, 12. 5, 76 33, 18 Der Annahmebereich der Nullhypothese ist (−∞, t3;0,95 ] = (−∞; 2, 353]. Da 7, 12 ∈ / (−∞; 2, 353] ist das Ergebnis signifikant; d. h. die Nullhypothese wird auf dem Signifikanzniveau von 5% verworfen und die Alternativhypothese wird angenommen. 72 KAPITEL 3. INDUKTIVE STATISTIK Tabelle 1: Werte von F0,1 (y) y .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 3.2. STATISTISCHE TESTS 73 Tabelle 2: Kritische Werte der t-Verteilung mit n − 1-Freiheitsgraden n − 1 tn−1;0,9 1 3,078 2 1,886 3 1,638 4 1,533 5 1,476 6 1,440 7 1,415 8 1,397 9 1,383 10 1,372 11 1,363 12 1,356 13 1,350 14 1,345 15 1,341 16 1,337 17 1,333 18 1,330 19 1,328 20 1,325 21 1,323 22 1,321 23 1,319 24 1,318 25 1,316 26 1,315 27 1,314 28 1,313 29 1,311 ∞ 1,282 tn−1;0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,645 tn−1;0,975 12,76 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 1,960 tn−1;0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326 tn−1;0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576 n−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ∞