Mathematik für Biologen 1 Dr. Maria Neuss-Radu Universität Heidelberg Wintersemester 2004/05 Inhaltsverzeichnis 1 Messen und Datenbeschreibung 1.1 Merkmale und Mess-Skalen . . . . . . . . . . . . . . 1.2 Die Zahlensysteme , , , . . . . . . . . . . . . 1.2.1 Die natürlichen Zahlen . . . . . . . . . . . . 1.2.2 Die ganzen Zahlen . . . . . . . . . . . . . . 1.2.3 Die rationalen Zahlen (Bruchzahlen) . . . . 1.2.4 Die reellen Zahlen . . . . . . . . . . . . . . . 1.2.5 Näherungswerte und signifikante Stellen . . 1.3 Empirische Analyse der Messergebnisse . . . . . . . 1.3.1 Empirische Häufigkeitsverteilung . . . . . . 1.3.2 Lagemaße und Streuungsmaße . . . . . . . . 1.3.3 Stochastische Abhängigkeit: Korrelation und . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regression . 2 Wahrscheinlichkeitsrechnung 2.1 Zufall und Wahrscheinlichkeit . . . . . . . . . . . . . . . 2.2 Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . 2.2.1 Die Laplace Wahrscheinlichkeitsverteilung . . . . 2.2.2 Die Binomialverteilung . . . . . . . . . . . . . . . 2.2.3 Die Poissonverteilung . . . . . . . . . . . . . . . . 2.3 Wahrscheinlichkeitsverteilungen auf . . . . . . . . . . 2.3.1 Die Gleichverteilung . . . . . . . . . . . . . . . . 2.3.2 Die Normalverteilung . . . . . . . . . . . . . . . . 2.4 Zufallsvariable und ihre Verteilungen . . . . . . . . . . . 2.4.1 Verteilung einer Zufallsvariable . . . . . . . . . . 2.4.2 Erwartungswert und Varianz einer Zufallsvariable 2.5 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 . 4 . 5 . 5 . 5 . 5 . 6 . 7 . 8 . 9 . 14 . 20 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 34 34 37 40 41 43 44 46 47 50 52 . . . . . 53 53 53 56 60 61 3 Induktive Statistik 3.1 Schätzverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit . . . . . . 3.1.2 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . . 3.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. . . . . . . 3.2.2 Test des Erwartungswertes einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 . 63 INHALTSVERZEICHNIS 3.2.3 3 t-Test auf Lageunterschied bei verbundenen Stichproben . . . 64 4 Lösen von linearen Gleichungssystemen 4.1 Motivation: Lösungen einer Substanz . . . 4.2 Lineare (quadratische) Gleichungssysteme 4.2.1 Gaußsche Eliminationsmethode . . 4.3 Berechnen von Konzentrationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 69 69 71 73 Kapitel 1 Messen und Datenbeschreibung 1.1 Merkmale und Mess-Skalen Bei Untersuchungen oder Beobachtungen von biologischen Vorgängen werden bestimmte Eigenschaften (Charakteristika) der zu untersuchenden Objekte gemessen bzw. beobachtet. Diese Eigenschaften nennen wir Merkmale. Merkmale können verschiedene Werte (Merkmalausprägungen) annehmen. Der Informationsgehalt der gemessenen Werte hängt von der Skala ab, auf der die Messung erfolgt. Merkmale können grob in qualitative und quantitative Merkmale eingeteilt werden. Man spricht von quantitativen Merkmalen, wenn sie zahlenmäßig erfassbar sind. Sind sie nur artmäßig erfassbar, so spricht man von qualitativen Merkmalen. Bei allen qualitativen Merkmalen besteht die Mess-Skala aus endlich vielen, diskreten (isolierten) Werten, welche 1. bei der Nominal-Skala unabhängig von irgendeiner Reihenfolge mit treffenden Namen bezeichnet werden, z. B. Merkmal Ausprägung Blutgruppe { 0, A, B, AB} Rhesusfaktor {positiv, negativ} 2. bei der Ordinal-Skala zusätzlich der Reihenfolge nach angeordnet sind, z. B. Merkmal Ausprägung Reifestadien { Ei, Larve, Puppe, Falter} Schädlingsbefall {keiner, gering, mittel, stark} Bei den quantitativen Merkmalen kann die Mess-Skala sowohl diskret (mit Hilfe der ganzen Zahlen ) als auch kontinuierlich (anhand der reellen Zahlen ) gewählt werden. 3. Bei der Intervall-Skala ist ein Bezugspunkt für die Abstands“-Messung, ” der sogenannte Nullpunkt, willkürlich festgelegt (z. B. Christi Geburt, Gefrierpunkt von Wasser). Es lassen sich sinnvollerweise Summen und Differenzen der Skalenwerte bilden. Da der Nullpunkt nicht physikalisch zwingend ist, 4 1.2. DIE ZAHLENSYSTEME , , , 5 sind Quotienten nicht interpretierbar. Merkmal Ausprägung Diskret/Kontinuierlich Datum 12.10.2004 D ◦ Temperatur 16,2 C K 4. Demgegenüber erlaubt die Verhältnis-Skala, wie der Name es auch ausdrückt, die Bildung von Quotienten (rationale Zahlen ) bezüglich eines absoluten Nullpunktes, z. B. Merkmal Ausprägung Diskret/Kontinuierlich Anzahl Individuen 0,1,2,3... D Größe 5,6 cm K Welches Skalenniveau günstig ist, hängt von der Fragestellung, aber auch von dem Messaufwand der eingesetzt werden kann ab. 1.2 Die Zahlensysteme , , , Bei der Einführung der Mess-Skalen haben wir gesehen, dass Zahlen eine wichtige Rolle bei der Beschreibung und Zusammenfassung von Messergebnissen spielen. 1.2.1 Die natürlichen Zahlen Die beim Zählen oder Abzählen verwendeten natürlichen Zahlen werden mit = {0, 1, 2, 3, 4, ...} bezeichnet. Wir stellen die natürlichen Zahlen im Zehnersystem dar, d. h. basierend auf Potenzen von 10. Z. B. steht 213785 für 213785 = 2 · 100000 + 1 · 10000 + 3 · 1000 + 7 · 100 + 8 · 10 + 5 · 1 = 2 · 105 + 1 · 104 + 3 · 103 + 7 · 102 + 8 · 101 + 5 · 100 1.2.2 Die ganzen Zahlen Da das Rechnen mit natürlichen Zahlen Beschränkungen unterliegt, z. B. ist die Differenz 12 − 15 in nicht durchführbar, verallgemeinert man dieses System durch Hinzunahme aller negativen Zahlen. Man erhällt dabei die ganzen Zahlen = {· · · , −3, −2, −1, 0, 1, 2, 3, · · · }. 1.2.3 Die rationalen Zahlen (Bruchzahlen) Bruchzahlen treten in natürlicher Weise bei der Angabe von Verhältnissen auf: Um ” die Substanz A anzusetzen, mische man 3 Teile der Fluessigkeit B und 5 Teile der Flüssigkeit C.“ Insgesamt hat man dann 8 Teile (genauer: Volumen oder Gewichtseinheiten), so dass die Mischung zu 83 aus B und zu 58 aus C besteht. 6 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Die rationalen Zahlen bezeichnet man mit ={ 1.2.4 m ,m ∈ n , n ∈ \ {0}}. Die reellen Zahlen Die reellen Zahlen kann man sich vorstellen als die Menge aller Punkte der unendlichen Zahlengeraden. Es stellt sich die Frage, ob die reellen Zahlen nicht dasselbe sind wie die rationalen Zahlen. Dies ist nicht der Fall: Es gibt Lücken“ in . Auf ” diese Lücken stößt man bereits, wenn man Wurzeln betrachtet. Die posititve Lösung der Gleichung x2 = 2 √ √ bezeichnet man mit 2. 2 kann nicht als Bruch geschrieben werden. Solche Zahlen heißen irrationale Zahlen. Dezimalbruchentwicklung Wir wollen nun die rellen Zahlen konstruieren, indem wir sie immer besser durch rationale Zahlen approximieren. Mathematisch präzise: wir zeigen, dass man jede reelle Zahl x ≥ 0 als Limes einer Folge von Dezimalbrüchen erhalten kann. Anschauliche Konstruktion: Zuerst wählen wir ein minimales l ∈ , so dass Z.B. bei x = √ 0 ≤ x < 10l+1 2 = 1, 4151.... ist l = 0, denn √ 0 ≤ 2 < 101 . Dann legen wir auf dem Zahlenstrahl Gitter die immer feiner werdende Gittermaschen haben: 1 1 ,... 10l , 10l−1 , . . . , 100, , 10 100 1 kleiner und der Bei jedem Schritt werden also die Gittermaschen um dem Faktor 10 Gitterpunkt, der von linkes am nächsten an x liegt, wird als neue Approximation gewählt, in unseren Beispiel: √ 1 ≤ √2 < 2 1, 4 ≤ √2 < 1, 5 1, 41 ≤ 2 < 1, 42 ... Wir erhalten somit eine Folge von Dezimalzahlen wachsender Stellenzahl, deren Glieder die reelle Zahl x immer besser approximieren: √ 1; 1, 4; 1, 41; 1, 414; 1, 4142; . . . → 2. 1.2. DIE ZAHLENSYSTEME , , , 7 x= 2 . 0 1 2 3 4 5 7 6 8 9 10 .1,42 1,41,41 1,5 x= 2 Abbildung 1.1: Approximation durch Dezimalbrüche Mathematische Konstruktion: Wir wählen zuerst ein minimales l ∈ , so dass 0 ≤ x < 10l+1 . Nun definieren wir : s−(l+1) = 0, sk = sk−1 + ak · 10−k für k ≥ −l, wobei ak ∈ {0, 1, . . . , 9} so gewählt wird, dass sk−1 + ak · 10−k ≤ x < sk−1 + (ak + 1) · 10−k . Damit ist eindeutig eine Folge (ak )k≥−l definiert und es gilt: sk → x für k → ∞. Bemerkung 1 Die gleiche Konstruktion kann man mit Brüchen in einer beliebigen Basis b ∈ {2, 3, 4, 5, . . .} durchführen. Solche Brüche werden b-adische Brüche genannt. Für viele Anwendungen ist die Entwicklung in der Basis 2 (Dualsystem) besonders wichtig, da sie z. B. für die Codierung von Information benutzt werden kann. 1.2.5 Näherungswerte und signifikante Stellen Jede reelle Zahl hat also eine Darstellung als unendlicher Dezimalbruch. Da es aber in der Praxis nicht möglich ist, mit unendlich vielen Dezimalstellen nach dem Komma zu rechnen, bricht man die Dezimalentwicklung durch Runden an einer geeigneten Stelle ab. Rundet man eine Dezimalzahl auf die n-te Stelle ab, so erhält man für sie einen Näherungswert. Hierbei ist der Fehler zwischen dem Näherungswert und der genauen Zahl kleiner oder gleich ∆x = 5 · 10−(n+1) . Eine positive Zahl ∆x, die größer oder gleich dem absolut genommenen Fehler zwischen dem Näherungswert und der genauen Zahl ist, heißt absolute Fehlerschranke. 8 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Alle Messvorgänge liefern in der Regel nur Näherungswerte. Wir nehmen einmal an, dass ein Messverfahren eine Dezimalzahl bis zur n-ten Stelle liefert, etwa den Messwert x̃ = 27, 3. Dabei ist also n = 1, was daher kommen kann, dass die Anzeige des Messgrätes nur solche Zahlen angibt oder es ist durch die Versuchsplanung festgelegt worden, nur soweit abzulesen. Dann hat der Messwert einen Ablesefehler, der durch δx = 0, 05 = 5 · 10−2 beschränkt ist. Die Dokumentation des Messwertes lautet dann x = x̃ ± δx, was soviel bedeutet wie x̃ − δx ≤ x ≤ x̃ + δx. In unserem Beispiel: x = 27, 3 ± 0, 05. Hat man nun einen Messwert x̃ und einen Ablesefehler δx gegeben, so ist es sinnvoll die Dezimaldarstellung von x̃ dort abzubrechen, wo die Fehlerschranke, die man beim Runden des Messwertes erhält, von der gleichen Größenordnung ist wie der Ablesefehler. Die Stellen, die dabei erhalten werden, heißen signifikante Stellen. Beispiel 1 Hat man beispielsweise die Länge eines Tisches mit einem Zollstock gemessen, so ist die Aussage, der Tisch sei x̃ = 1, 0753483 m lang, unsinnig, denn der Ablesefehler bei einem Zollstock ist etwa δx = 0, 001m = 1mm, also von der Ordnung 10−3 . Das Ergebnis sollte also 1, 08 m lauten, weil dann die Fehlerschranke beim Runden ∆x = 5 · 10−3 von der selben Größenordnung ist wie die angegebene Messgenauigkeit δx. Der Messwert hat also drei signifikante Stellen 1, 08. Bei Messgeräten wird die Genauigkeit häufig in % angegeben. Dabei handelt es sich dann um den relativen Fehler, genauer, die relative Fehlerschranke. Sie ist definiert durch: ∆x ∆x := , x wobei ∆x die absolute Fehlerschranke ist. 1.3 Empirische Analyse der Messergebnisse Möchte man ein bestimmtes Merkmal X untersuchen, so wird man eine Versuchsreihe aufstellen, bei welcher ein Versuch n-mal durchgeführt wird. Nach jedem Versuch notiert man, welche Ausprägung aufgetreten ist und erhält so eine Messreihe (x1 , x2 , . . . , xn ). Beispiel 2 (Endliches, diskretes Merkmal) Merkmal: Anzahl der Blütenblätter der Butterblume (de Vries) Mögliche Ausprägungen: {5, 6, 7, 8, 9, 10} Messreihe: j 1 2 3 4 5 6 7 8 9 · · · · · · 222 xj 6 8 7 10 6 5 5 9 5 · · · · · · 5 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 9 Abbildung 1.2: Die Butterblume Beispiel 3 (Kontinuierliches Merkmal) Merkmal: Gewicht einer gewissen Mäuseart Mögliche Ausprägungen: alle reellen Zahlen zwischen 19 Messreihe: j 1 2 3 4 5 6 7 8 xj 22,5 24,3 20,8 19,7 24,9 24,1 22,0 24,0 11 12 13 14 15 16 17 18 19,9 24,2 22,5 23,1 19,6 22,1 24,0 23,1 1.3.1 und 25 9 10 19,4 22,6 19 20 22,6 20,7 Empirische Häufigkeitsverteilung Häufigkeitsverteilung bei endlichem diskretem Merkmal Zu den diskreten Merkmalen zählen alle qualitativen Merkmale sowie die quantitativdiskreten Merkmale. Die Anzahl k der Ausprägungen eines diskreten Merkmals ist in der Regel wesentlich kleiner als die Anzahl n der Elemente in der Messreihe und damit überschaubar. die möglichen Ausprägungen eines Merkmals X. Seien {a1 , a2 , . . . , ak }, k ∈ Um Aussagen über eine Messreihe zu machen, kann man zunächst einmal zählen, wie oft jede Ausprägung ai (i = 1, . . . , k) unter den xj (j = 1, . . . , n) vorkommt. Man erhält die Häufigkeitszahlen h(ai ) = Anahl der Messungen j, für die xj = ai . h(ai ) heißt absolute (empirische) Häufigkeit der Ausprägung ai in der Messreihe. Die Gesamtheit der Werte h(ai ) bilden die absolute empirische Häufigkeitsverteilung für das Merkmal X. Da sich alle n Messwerte x1 , x2 , . . . , xn auf die Ausprägungen a1 , a2 , . . . , ak aufteilen, sind die absoluten Häufigkeiten ganze Zahlen zwischen 0 und n, deren Summe genau die Anzahl n der Messwerte ergibt, in Formeln: h(ai ) ∈ 0 ≤ h(ai ) ≤ n k X i=1 h(ai ) := h(a1 ) + h(a2 ) + ... + h(ak ) = n (1.1) (1.2) (1.3) 10 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Um den Anteil eines Merkmals ai am Gesamtvorkommen zu ermitteln, berechnen wir die relativen Häufigkeiten h(ai ) , i = 1, 2, ..., k (1.4) n Aus den Eigenschaften für die absoluten Häufigkeiten (1.1)-(1.3) ergibt sich: r(ai ) := r(ai ) ∈ (1.5) 0 ≤ r(ai ) ≤ 1 k X (1.6) r(ai ) := r(a1 ) + r(a2 ) + ... + r(ak ) = 1 (1.7) i=1 Für die graphische Darstellung einer diskreten Häufigkeitsverteilung benutzt man Stabdiagramme, die man erhält, indem man über den Ausprägungen ai Stäbe zeichnet, deren Höhe entweder den absoluten Häufigkeiten h(ai ) oder den relativen Häufigkeiten r(ai ) entspricht. Betrachten wir das Beispiel 2 so haben wir: P Anzahl der Blütenblätter ai 5 6 7 8 9 10 Absolute Häufigkeit h(ai ) 133 55 23 7 2 2 222 133 55 23 7 2 2 Relative Häufigkeit r(ai ) 1 222 222 222 222 222 222 Relative Häufigkeit r(ai ) in % 59.9 24.8 10.3 3.2 0.9 0.9 100 h(a i ) r (a i ) (in %) 133 59,9 55 24,8 23 7 2 10,4 3,1 0,9 5 6 7 8 9 10 ai 5 6 7 8 9 10 ai Abbildung 1.3: Stabdiagramme der absoluten und relativen Häufigkeiten Zur Zeichnung des Diagramms der relativen Häufigkeiten braucht man am Diagramm der absoluten Häufigkeiten nur eine Skalenänderung an der vertikalen Achse vorzunehmen. Man gibt daher meistens beide Diagramme durch eine Zeichnung wider mit zwei Skalen an der vertikalen Achse. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 11 Ein weiterer Häufigkeitsbegriff, der für die Beschreibung empirischer Daten weitere Aussagen liefert, ist die Summenhäufigkeit. (Ihr Analogon als Verteilungsfunktion wird uns in der Wahrscheinlichkeitsrechnung wieder begegnen). Für unser Beispiel ist es sinnvoll zu fragen, wieviele Butterblumen höchstens m Blütenblätter haben (m = 5, 6, 7, 8, 9, 10). Dazu summieren wir einfach die Häufigkeiten für die Blütenblätterzahlen von 1 bis m auf und erhalten das Stabdiagramm der absoluten und relativen Summenhäufigkeiten aus Abb. 1.4. hh(a m) rr(a m) (in %) 222 220 218 211 100 99,1 98,2 95,1 188 84,7 133 59,9 5 6 7 8 9 10 am Abbildung 1.4: Stabdiagramme der Summenhäufigkeiten Allgemein lässt sich für jedes diskrete, ordinal-skalierte Merkmal der Begriff der absoluten Summenhäufigkeit der Ausprägung am definieren als hh(am ) = h(a1 ) + ... + h(am ) =: m X i=1 h(ai ) =: X h(ai ) i≤m hh(am ) gibt an, wie oft eine der ersten m Ausprägungen a1 , a2 , ..., am unter den Messwerten vorkommt. Entsprechend definieren wir dir relative Summenhäufigkeit als m X X rr(am ) = r(a1 ) + ... + r(am ) =: r(ai ) =: r(ai ) i=1 i≤m Für die höchste Ausprägung gilt: rr(ak ) = k X r(ai ) = 1 (siehe (1.7)) i=1 Häufigkeitsverteilungen bei kontinuierlichem Merkmal Betrachten wir zunächst das Beispiel 3. Tatsächlich haben die Mäuse nicht genau das Gewicht 22,5g, 24,3g usw. Die abgelesenen Werte basieren auf einer vorher vereinbarten Messgenauigkeit - in unserem Fall von 5 · 10−2 . Gewicht von 22,5g 12 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG bedeutet also genau genommen, dass das Gewicht im Interwall 22, 5 ± 5 · 10−2 liegt. Bei dieser Messung sind also alle Ausprägungen, die zwischen 22,45 und 22,55 liegen zu einer Klasse zusammengefasst. Diese Klassenbreite ist aber für unsere relativ kleine Messreihe viel zu fein. Wir müssten die 20 Messwerte auf etwa 60 Klassen aufteilen. Dabei entstehen also viele Klassen mit keinem Element und viele mit einem Element. Um aus einer Messreihe in der Praxis Nutzen zu ziehen, sollte sie so groß sein, dass in jeder Klasse ausreichend viele“ Messwerte fallen. Steht jedoch nur eine ” begrenzte Anzahl von Messwerten zur Verfügung, so muss man die Klassenbreite so groß wählen, dass in jede Klasse einige“ Messwerte fallen. In unserem Beispiel 3 ist ” letzteres der Fall. Wir wählen die Klassenbreite auf zwei Arten: 1. Klassen mit Klassenbreite 1g: [19-20[, [20-21[, ..., [24-25[ 2. Klassen mit Klassenbreite 2g: [19-21[, [21-23[, [23-25[ Nun bestimmen wir für diese Klassen jeweils die Häufigkeiten: 1. ai h(ai ) 19-20 20-21 21-22 22-23 23-24 24-25 4 2 0 6 3 5 2. ai h(ai ) 19-21 21-23 23-25 6 6 8 Wir sehen, dass die erste Klassenbreite (1g) noch immer zu fein ist, da Klassen entstehen, welche keinen Messwert enthalten. Allgemeiner legen wir eine Klassifizierung einer kontinuierlichen Skala folgendermaßen fest: Wir bestimmen den kleinsten Wert xmin := min{x1 , x2 , . . . , xn } und den größten Wert xmax := max{x1 , x2 , . . . , xn } der Messreihe. Dann wählen wir Klassengrenzen c 0 < c1 < · · · < ck so dass c0 ≤ xmin und xmax < ck , wobei die Klassenbreite b (gewöhnlich) konstant gewählt wird, d.h. b = ci − ci−1 , i = 1, . . . , k. Ein Messwert xj liegt dann in der Klasse ai = [ci−1 , ci [, falls ci−1 ≤ xj < ci gilt. Durch die Klassenbildung erhält man eine endliche Liste von Ausprägungen und hat das seiner Natur nach kontinuierliche Merkmal als ein diskretes aufgefasst. Damit können die Begriffe der Häufigkeitsverteilung auf klassifizierte Messreihen übertragen werden. Die absolute Klassenhäufigkeit h(ai ) = h([ci−1 , ci [) ist gleich der Anzahl der Messwerte, die in die Klasse ai = [ci−1 , ci[ fallen. Die relativen Klassenhäufigkeiten definiert man dann als r(ai ) = r([ci−1 , ci [) := h(ai ) . n 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 13 Basierend auf den absoluten und relativen Klassenhäufigkeiten berechnet man die Summenhäufigkeiten ebenso wie bei diskreten Merkmalen. Die absoluten und relativen Klassenhäufigkeiten werden üblicherweise mit Hilfe von Balkendiagrammen dargestellt, wobei als Balkenbreite die Klassenbreite gewählt wird. Für das Beispiel 3 (mit Klassenbreite b = 2) sind die Histogramme in Abb.1.5 gegeben. Erhöht man die h r 8 8 20 6 6 20 19 21 23 25 ai Abbildung 1.5: Absolute und relative Klassenhäufigkeiten Anzahl der Messungen, so kann man die Klassenbreite feiner wählen, was zu einer genaueren Beschreibung der Häufigkeitsverteilung führt. Oft ist es der Fall, dass mit immer feiner werdenden Klassenbreite (bei entsprechender Erhöhung der Messwerteanzahl) die Häufigkeitsverteilung immer besser durch eine stetige Funktion approximiert wird. Im nächsten Kapitel werden wir auf Grund ähnlicher Überlegungen Dichte-Funktionen einführen, mit Hilfe deren kontinuierliche Wahrscheinlichkeitsmodelle konstruiert werden. Befassen wir uns nun mit der Frage der relativen Häufigkeit, mit der Ausprägungen vorkommen, die kleiner sind als x ∈ , so gilt: 1. Für x = ci , i = 1, . . . , k, ist die relative Häufigkeit mit der Ausprägungen kleiner als x vorkommen gleich rr(ai ), der Summenhäufigkeit der Klasse ai . Wir bemerken, dass rr(ai ) den Flächen-Anteil links von ci im Histogramm des klassifizierten Merkmals darstellt, denn Fläche links von ci = rr(ai ) · b Wir bezeichen nun mit F (x) den Flächen-Anteil links von x im Histogramm. Es gilt also F (c0 ) = 0 und F (ci ) = rr(ai), i = 1, . . . , k. 2. Für x ∈ [ci−1 , ci [ approximieren wir die relative Häufigkeit, mit der Ausprägungen kleiner als x vorkommen, durch den Flächen-Anteil links von x im Histogramm. Dieser Anteil berechnet sich wie folgt: F (x) = rr(ai−1 ) + | {z } F (ai−1 ) r(ai ) (x − ci−1 ) b 14 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG h r 2F(x) 8 8 20 6 6 20 19 21 x 23 25 x Abbildung 1.6: Fläche links von x im Histogramm Im Beispiel 3 ist b = 2. Der Flächen-Anteil der schraffierten Fläche im Histogramm Abb. 1.6 gibt den Wert F (x) an. Wir erhalten somit die empirische Verteilungsfunktion für ein klassifiziertes Merkmal. Sie ist gegeben durch: , x ≤ c0 0 r(ai ) F (x) = F (ci−1 ) + b (x − ci−1 ) , x ∈ [ci−1 , ci [, i = 1, · · · , k 1 , x ≥ ck Im Falle des Beispiels 3 ist das Schaubild von F in Abb. 1.7 dargestellt: F(x) 1 12 20 6 20 19 21 23 25 x Abbildung 1.7: Empirische Verteilungsfunktion F (x) 1.3.2 Lagemaße und Streuungsmaße Aufgrund eines Diagramms, z. B. Stab- oder Balkendiagramm, lassen sich folgende Eigenschaften einer Verteilung qualitativ abschätzen: • Lage der Datenwerte: In welchen Bereichen konzentrieren sich die Daten? • Streuung: Wie weit streuen die Werte? Gibt es Ausreisser? • Form: Hat die Verteilung eine besondere Form? Ist sie symmetrisch? 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 15 Für eine statistische Datenanalyse sind aber Kenngrößen gefordert die die oben genannten Eigenschaften quantitativ beschreiben. Mit derartigen Kenngrößen werden wir uns in diesem Paragraph beschäftigen. Lagemaße Lagemaße sollen das Zentrum representieren, um das die Daten streuen. Ein Lagemaß, welches für alle ordinalskalierten Merkmalen definiert werden kann, ist das zentrale Wertepaar (bzw. der Median). Um es zu bestimmen, werden die Messdaten x1 , x2 , . . . , xn der Größe nach geordnet. Man erhält die geordnete Messreihe xmin = x(1) , x(2) , . . . , x(n) = xmax Dabei ist x(1) der kleinste, x(2) der zweitkleinste und x(n) der größte Datenwert. Es gibt zwei Fälle: 1. n gerade Dann kann die geordnete Reihe in zwei gleich lange Stücke aufgeteilt werden. x(1) , x(2) , . . . , x( n2 ) , x( n2 +1) , . . . , x(n) 2. n ungerade In diesem Falle gibt es ein mittleres Element, nämlich x( n+1 ) , in dem Sinne, 2 dass vor und nach ihm gleich viele Elemente kommen: x(1) , x(2) , . . . , x( n+1 −1) , x( n+1 ) , x( n+1 +1) , . . . , x(n) 2 2 2 Im ersten Fall setzen wir Z1 = x( n2 ) , Z2 = x( n2 +1) . Im zweiten Fall: Z1 = Z2 = Z = x( n+1 ) . 2 (Z1 , Z2 ) nennen wir das zentrale Wertepaar, im zweiten Fall Z auch den Zentralwert oder Median. Ist das Merkmal sogar quantitativ, so definiert man als Zentralwert (Median) Z= Z1 + Z2 . 2 Der Median teilt also die geordnete Messreihe in zwei Hälften: Die eine Hälfte der Daten ist höchstens so groß wie der Median, die andere Hälfte mindestens so groß. Beispiel 4 (Untersuchung von Kranken auf den Erkrankungsgrad) Das Merkmal Erkrankungsgrad hat folgende Ausprägungen: L M leicht mittel S G schwer lebensgefährlich 16 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Die Skala ist nur eine Ordinalskala. Dem Gradunterschied kommt also keine quantitative Bedeutung zu. Die Messreihe ist: L M M L L M M S S M G Die geordnete Messreihe: L M S S G Wir erhalten Z1 = x(4) = M, Z2 = x(5) = M Die praktische Bedeutung lautet in Worten: Bei 50% der Patienten ist die Krankheit höchstens mittelstark, bei 50% ist sie mindestens mittelstark. Von Lagemaßen erwartet man dass sie die Lage der Werte xj optimal schätzten, d. h. die Abweichungen der xj von dem Lagemaß sollten möglichst gering sein. Für den Median einer quantitativen Messreihe gilt in diesem Sinne folgende Minimumseigenschaft: Satz 1 (Minimumeigenschaft des Medians) Gegeben sei die Messreihe (x1 , x2 , . . . , xn ) für ein quantitatives Merkmal X. Der Median erfüllt folgende Eigenschaft: n X j=1 |xj − Z| ≤ n X j=1 |xj − c|, ∀c ∈ . Bemerkung 2 Aus der Definition der relativen Häufigkeit folgt, dass Z1 diejenige Ausprägung ist, bei der die relative Summenhäufigkeit zum ersten Mal 50% erreicht oder übersteigt. Damit kann man das zentrale Wertepaar aus dem Diagramm der Summenhäufigkeiten leicht bestimmen. Bei kontinuierlichen Merkmalen, wo nur noch die Information über die Klassenhäufigkeit vorliegt, kann man den klassifizierten Median mit Hilfe der empirischen Verteilungsfunktion ermitteln, und zwar ist es der Wert Z, für den gilt: F (Z) = 0.5 (1.8) Wenn alle Klassen nichtleer sind, dann ist die Verteilungsfunktion streng monoton wachsend und der durch die Gleichung (1.8) bestimmte Wert Z ist eindeutig definiert. Das bekannteste Lagemaß, welches für quantitative Merkmale definiert werden kann, ist das arithmetische Mittel (der Mittelwert). Für eine Messreihe (x1 , x2 , . . . , xn ) ist es definiert als n 1 1X x̄ = (x1 + x2 + . . . + xn ) = xj n n j=1 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 17 Kommen unter den Messwerten x1 , x2 , . . . , xn genau die Ausprägungen a1 , a2 , . . . , ak , mit den absoluten Häufigkeiten h(a1 ), h(a2 ), . . . , h(ak ) vor, so folgt: 1 (x1 + x2 + . . . + xn ) n 1 = (h(a1 )a1 + h(a2 )a2 + . . . + h(ak )ak ) n k 1X = h(ai )ai n i=1 x̄ = k X h(ai ) = i=1 k X = n (1.9) ai r(ai )ai (1.10) i=1 Auch der Mittelwert besitzt eine Minimumseigenschaft die im folgenden Satz formuliert wird. Satz 2 (Minimumeigenschaft des Mittelwertes) Für den Mittelwert x̄ einer Messreihe (x1 , x2 , . . . , xn ) gilt: n X j=1 (xj − x̄)2 ≤ n X j=1 (xj − c)2 , ∀c ∈ . Bemerkung 3 x̄ ist abhängig von der Größe jedes einzelnen Messwertes xj . Das bedeutet, dass ein Ausreisser“ das arithmetische Mittel bei kleinen Messreihen stark ” beeinflussen kann. Bei kleinen Messreihen nimmt man daher für die Beschreibung der Lage der Messwerte oft lieber den Zentralwert. Bei klassifizierten Daten ist es rechnerisch weniger aufwendig die Lagemaße basierend auf den Klassenmitten a∗i = ci−1 + ci 2 und den Klassenhäufigkeiten h(ai ) zu ermitteln (anstatt alle Stichprobenwerte xj zu berücksichtigen). Der klassifizierte Mittelwert lässt sich demnach berechnen als k k X 1X x̄kl = h(ai )a∗i = r(ai )a∗i n i=1 i=1 Der klassifizierte Mittelwert stimmt nicht genau mit dem Mittelwert der Messreihe überein, ist aber für immer größer werdende Messreihen immer näher bei x̄. 18 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Streuungsmaße Wenn sich zwei Verteilungen hinsichtlich ihrer Lagemaße ähneln, können sie dennoch aufgrund der Streuung der Messwerte sehr unterschiedlich sein. Mit Hilfe der Streuungsmaße können wir die Abweichungen vom Lagemaß quantifizieren. In diesem Abschnitt betrachten wir wieder ein quantitatives Merkmal mit einer Intervallskala aus ganzen oder reellen Zahlen. Das am einfachsten zu berechnende Streuungsmaß ist die Spannweite (oder Variationsbreite): R = xmax − xmin = x(n) − x(1) Die Spannweite R berücksichtigt nur die beiden extremsten Werte und ist daher von Ausreissern sehr stark beeinflusst. Die meist verwendeten Kennzahlen für die Streuung erhält man folgendermaßen: Wir wählen als Lagemaß das arithmetische Mittel und betrachten die quadratischen Abstände (x1 − x̄)2 , (x2 − x̄)2 , . . . , (xn − x̄)2 Als Kennzahl wählen wir dann das arithmetische Mittel dieser Abstände. Wir erhalten die mittlere quadratische Abweichung (oder Varianz) n σ(x)2 = 1X (xj − x̄)2 n j=1 In der Praxis wird oft die sogenannte empirische Varianz benutzt, die gegeben ist als n 1 X 2 s(x) = (xj − x̄)2 . n − 1 j=1 Die Gründe dafür werden in einem späteren Kapitel klar werden. Da die Maßeinheit für die Varianz das Quadrat der Maßeinheit der Messwerte ist, ist diese Größe schwer zu interpretieren. Deswegen definiert man die Standardabweichung v u X u1 n σ(x) = t (xj − x̄)2 n j=1 und entsprechend die empirische Standardabweichung p s(x) = s(x)2 Die Bedeutung von σ(x) besteht unter anderen darin, dass im Intervall ]x̄−σ(x), x̄+ σ(x)[ viele“ Messwerte liegen. Das obengenannte Intervall heißt Standard-Streuintervall. ” Generell findet man bei allen Verteilungen mindestens 43 aller Werte im Intervall ]x̄ − 2σ(x), x̄ + 2σ(x)[ und 98 aller Werte im Intervall ]x̄ − 3σ(x), x̄ + 3σ(x)[. Ein nützlicher Ausdruck für die Varianz, vor allem im Hinblick auf die Übertragung auf klassifizierte Daten, ist gegeben durch: k k X 1X h(ai )a2i − x̄2 = r(ai )a2i − x̄2 σ(x) = n i=1 i=1 2 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 19 Im Falle klassifizierter Daten erhalten wir also die klassifizierte Varianz als k σ(x)2kl = k X 1X h(ai )(a∗i )2 − x̄2 = r(ai )(a∗i )2 − x̄2 n i=1 i=1 wobei a∗i wieder die Klassenmitte darstellen soll. Anwendung von Mittelwert und Varianz bei der Überprüfung der Genauigkeit und Präzision einer Pipette. (Grundpraktikum C) Die Genauigkeit einer Pipette bezeichnet die Differenz zwischen dem Mittelwert einer Anzahl wiederholter Messungen und dem Nominalwert. Die Präzision gibt an wie gut die Messwerte übereinstimmen. Versuch: Mit einer Kolbenhubpipette werden 100µl destilliertes Wasser pipettiert und das Gewicht der Probe gemessen. Dieses Vorgehen wird weitere 9 Mal wiederholt. Man erhält z.B. folgende Messreihe (gj ist das Gewicht der j - ten Probe): 1 2 3 4 5 6 7 8 9 10 j gj (in mg) 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9 Da die Dichte des Wassers d(H2 O) = 1g/cm3 ist, kann aus dem Gewicht einer Probe ihr Volumen berechnet werden. Man erhält dabei folgende Werte (vj ist das Volumen der j - ten Probe): j vj (in µl ) 1 2 3 4 5 6 7 8 9 10 103,1 100,3 100,1 100,4 97,6 100,3 100,1 100,0 100,0 97,9 Abbildung 1.8: Die Kolbenhubpipette Um die Genauigkeit zu überprüfen bildet man zuerst den Mittelwert der Messreihe n 1X 1 · 999, 8 = 99, 98. v̄ = vj = n j=1 10 Die Genauigkeit E berechnet sich dann als E = | v̄ − v0 | = | 99, 98 − 100 | = 0, 02, (µl) 20 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG wobei v0 = 100µl der Nominalwert ist. Die relative Genauigkeit (in %) ist gegeben durch E 0, 02 · 100 = 0, 02. (%) · 100 = v0 100 Als Maß für die Präzision benutzt man die empirische Standardabweichung (bzw. den Variationskoeffizienten). Für die Standardabweichung erhalten wir sP n 2 j=1 (vj − v̄) s(v) = = 1, 496 (µl) n−1 Um die Standardabweichung mit der Größe der Messwerte in Bezug zu bringen, berechnen wir den Variationskoeffizienten V = s(v) 1, 496 = = 0, 01496 v̄ 99, 98 V = 1, 496% Wir möchten nun die Frage beantworten, ob die untersuchte Pipette genau und präzise ist. Die Herstellerrichtlinien für die Pipette schreiben vor: • relative Genauigkeit E v0 ≤ 0, 80% • Variationskoeffizient V ≤ 0, 15% Aus unseren Berechnungen folgt also, dass die untersuchte Pipette zwar genau aber nicht präzise ist (und daher an den Hersteller zurückgeschickt werden müßte). Symmetrieeigenschaften empirischer Verteilungen Hat das Stabdiagramm bzw. das Histogramm einer Häufigkeitsverteilung nur eine Spitze, so spricht man von einer eingipfligen Verteilung. Anderenfalls nennt man die Verteilung mehrgipflig. Geht das Diagramm einer Häufigkeitsverteilung nach einer Spiegelung an einer zur y-Achse parallelen Geraden wieder in sich selbst über, so heißt die Verteilung symmetrisch, sonst: schief. Zur Veranschaulichung dieser Begriffe siehe Aufgabe 4 auf dem Übungsblatt 3. 1.3.3 Stochastische Abhängigkeit: Korrelation und Regression Bei vielen Untersuchungen biologischer Phänomene werden mehrere Merkmale der Beobachtungseinheiten erfasst, z.B. Länge und Gewicht, Höhe und Biomasse bei Pflanzen, Düngermenge, Regenmenge und Ernteertrag usw. In diesen Fällen ist es interessant und wünschenswert, nicht nur die einzelnen Merkmale zu beschreiben, sondern auch den Zusammenhang zwischen zwei oder mehreren Merkmalen zu untersuchen. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 21 Aus der Mathematik und der Physik sind Zusammenhänge zwischen zwei oder mehreren Größen gut bekannt. So besteht beispielsweise zwischen dem Umfang U und dem Radius r eines Kreises die lineare Beziehung U = 2πr. Der Weg S, den ein aus dem Ruhestand frei nach unten fallender Körper nach der Zeit t zurück gelegt hat, ist gegeben durch S = 21 gt2 , g Gravitationskonstante. Diese Art von Zusammenhängen nennt man funktional. Eine Größe kann aus einer anderen mittels einer Funktion exakt berechnet werden. Die Zusammenhänge in den Biowissenschaften sind oft stochastisch; d.h. sie werden auch vom Zufall beeinflußt. Demzufolge kann nicht jedem Wert einer Größe ein eindeutiger Wert der anderen Größe zugeordnet werden, sondern ein ganzer Bereich, in dem die Werte entsprechend einer Zufallsverteilung liegen. In diesem Paragraphen werden wir uns damit beschäftigen, den Zusammenhang zwischen zwei Merkmalen nachzuweisen und zu beschreiben. Punktwolke und Korrelation Untersucht man zwei quantitative Merkmale X und Y , wie etwa die Körpergröße von Menschen (in cm) und das Körpergewicht (in kg) so erhält man als Messreihe eine endliche Folge (xj , yj ) von Zahlenpaaren. Das folgende Beispiel zeigt die Messwerte für die Körpergröße und das Gewicht von 241 Männern. X(cm) Y (kg) 189 168 175 177 181 169 172 175 176 174 . . . 85 70 72 81 79 65 71 73 84 65 . . . 172 72 Stellt man diese Messpaare als Punkte der Ebene dar, so erhält man eine Punktwolke (s. Abb. 1.9). An dem obigen Beispiel ist anschaulich zu erkennen: Wenn X Abbildung 1.9: Punktwolke wächst, so steigt auch Y im Mittel an. Es besteht also eine Abhängigkeit oder ein 22 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Zusammenhang zwischen den beiden Messreihen. Man kann auch sagen, es gibt eine Korrelation zwischen X und Y . Anhand der Punktwolke sind zwei charakteristische Eigenschaften eines Zusammenhanges auf einen Blick erkennbar: • Die Stärke des Zusammenhangs: Je dichter die Punkte beieinander liegen, desto stärker ist der Zusammenhang. Mithilfe der Korrelationsanalyse lassen sich Kennzahlen berechnen, die die Stärke des Zusammenhangs quantifizieren. • Die Art des Zusammenhangs: Die Art wird durch eine mathematische Funktion angegeben, die den Zusammenhang am besten beschreibt. Es ist Aufgabe der Regressionsanalyse diese Funktion zu finden. Wenn, wie in unserem Beispiel, der Zusammenhang durch eine Gerade charakterisiert werden kann, spricht man von einem linearen Zusammenhang. Die dazugehörende Gerade nennt man Regressionsgerade. Die positive Steigung der Regressionsgeraden besagt, dass zwischen Körpergröße und Körpergewicht ein gleichsinniger Zusammenhang besteht oder es besteht eine positive Korrelation. Bei negativer Steigung spricht man von negativer Korrelation. Kennzahlen für lineare Abhängigkeit Wenn die Punktwolke so geartet ist, dass sich mittendurch eine Gerade legen lässt, um die die Punkte elipsenförmig liegen, so kann man den Zusammenhang als linear ansehen. Um den linearen Zusammenhang zwischen zwei Merkmalen X und Y durch eine Kennzahl zu quantifizieren, gehen wir wie folgt vor: Wir betrachten Produkte von der Form (xj − x̄)(yj − ȳ), wobei x̄ und ȳ die Mittelwerte der Messreihen (x1 , . . . , xn ) bzw. (y1 , . . . , yn ) sind. Die Mittelwerte x̄ und ȳ teilen die Ebene, und damit die Daten, in 4 Quadranten. Für Daten im ersten und im dritten Quadranten sind die obigen Produkte (xj − x̄)(yj − ȳ) ≥ 0, für die Daten im zweiten und vierten Quadranten negativ. Wenn sich also die Daten um eine Gerade mit positiver Steigung gruppieren, d.h. im Quadranten I und III liegen, ist zu erwarten, dass gilt: n 1X σ(x, y) = (xj − x̄)(yj − ȳ) ≥ 0. n j=1 Bei Messwerten im Quadranten II und IV ist σ(x, y) ≤ 0. Wenn sich die Daten auf alle vier Quadranten verteilen so ist der obige Mittelwert ungefähr 0. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 23 Die Größe σ(x, y) heißt Kovarianz. Wie schon bei der Varianz erwähnt, wird auch bei der Kovarianz in der Praxis nicht der Mittelwert der Terme (xj − x̄)(yj − ȳ) sondern die empirische Kovarianz n 1 X σ(x, y) = (xj − x̄)(yj − ȳ) n − 1 j=1 benutzt. An der Kovarianz ist also zu sehen, ob positive oder negative lineare Korrelation besteht. Die Kovarianz ist aber wenig informativ zur quantitativen Beurteilung der Frage, ob ein Zusammenhang besonders eng oder eher lose ist, denn der Betrag der Kovarianz ist abhängig vom jeweiligen Maßstab der zur Messung verwendet wird. Um ein normiertes Maß zur Quantifizierung der Korrelation zu erhalten nehmen wir zuerst an, dass alle (xj , yj ) auf einer Geraden y = a x + b liegen. Dann ist die Kovarianz n σ(x, y) = 1X (xj − x̄) (a xj + b − a x̄ − b) n j=1 n = 1X (xj − x̄) a (xj − x̄) n j=1 n = aX (xj − x̄)2 = a σ(x)2 . n j=1 (1.11) Berechnen wir nun n σ(y)2 = 1X (yj − ȳ)2 n j=1 n = 1X (a xj + b − a x̄ − b)2 n j=1 n = 1X 2 a (xj − x̄)2 = a2 σ(x)2 n j=1 Daraus folgt σ(y) = ± a σ(x). (1.12) Es folgt also durch Einsetzen von (1.12) in (1.11) |σ(x, y)| = σ(x) σ(y) Im allgemeinen gilt aber |σ(x, y)| ≤ σ(x) σ(y) und das Gleichheitszeichen gilt genau dann, wenn die (xj , yj ) auf einer Geraden liegen. Bildet man also für σ(x) 6= 0 und σ(y) 6= 0 die Größe r(x, y) = σ(x, y) σ(x)σ(y) 24 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG genannt linearer Korrelationskoeffizient, so gilt −1 ≤ r(x, y) ≤ 1. Mit Hilfe des Korrelationskoeffizienten r können wir nun folgende Aussagen über eine lineare Korrelation machen: 1. Falls |r| = 1 so liegen (xj , yj ) auf einer Geraden (es besteht perfekte Korrelation) 2. Falls r > 0 (bzw. (r < 0) besteht positive (bzw. negative) Korrelation und umso näher r bei 1 oder −1 ist, desto stärker ist die Korrelation. Für unser Beispiel ist der Korrelationskoeffizient r(x, y) = 0, 55, also eine eher lose Korrelation, was auch aus der Punktwolke in Abb.1.9 ersichtlich ist. y y y x y v 8 9 v w 8 9 t u 6 6 7 z { : ; 2 : ; 2 3 4 5 s p p q r n . 0 . / n o 0 1 * * + j k , l m d e - h i ( ) b c $ % $ % f g & f g ' " # " # ` ! ` a ! _ r=1 r = 0,95 x y \ \ ] r = 0,3 ^ x y x y Z [ X Y ¶ ¶ · X Y V W V W R S R S T U R S ² ³ ´ ´ µ µ º º » ¼ ¼ ½ ½ R S P Q P Q N O ° ± ° ± L M ¸ ¹ J K ¦ § ¦ § H I ­ ® ¯ F G ª ª « ¬ ¨ ¨ © D E ¤ ¥ ¢ £ ¢ £ ¡ r = −1 ¤ ¥ ¢ £ ¢ £ | } ~ r=0 r = − 0,7 x B C @ A > ? < = < = x x Abbildung 1.10: Verschiedene Werte des Korrelationskoeffizienten Bemerkung 4 Im Falle einer nichtlinearen Korrelation ist der lineare Korrelationskoeffizient bedeutungslos. Insbesondere bedeutet σ(x, y) ≈ 0 nicht, dass generell kein Zusammenhang besteht, sondern nur, dass kein linearer Zusammenhang nachzuweisen ist! Ausgleichgerade (oder Regressionsgerade) In dem Fall, wo mithilfe der Korrelationsanalyse ein annähernd linearer Zusammenhang festgestellt wurde, kann man versuchen, die Gerade zu finden, die den Messwerten am besten angepasst ist. Diese Gerade nennen wir Ausgleichgerade 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 25 oder Regressionsgerade. Anhand ihrer Gleichung lässt sich dann aus einem bekanten Wert für das X− Merkmal ein Wert für das dazugehörende Y − Merkmal prognostizieren. Konstruktion der Regressionsgeraden Die allgemeine Gleichung einer Geraden ist y = ax + b (1.13) Unsere Aufgabe ist es nun, die Parameter a und b so zu finden, dass die entsprechende Gerade den Messwerten am besten angepasst ist. Was am besten angepasst“, ” bedeuten soll wollen wir im folgenden präzisieren: Zunächst wollen wir verlangen, dass die Gerade durch den Mittelpunkt (x̄, ȳ) gehen soll, dass also gilt ȳ = ax̄ + b. Nach b aufgelöst: b = ȳ − ax̄. (1.14) Setzen wir (1.14) in (1.13) ein, erhalten wir y = ax + ȳ − ax̄. Betrachte nun für jeden Messwert xj den Wert ŷj , so dass (xj , ŷj ) auf der Ausgleichgeraden liegt, d.h. ŷj = axj + ȳ − ax̄. (1.15) Die Abweichungen der Messpunkte yj von der Geraden sind dann yj − ŷj . Wir wollen nun den Parameter a so bestimmen, dass die mittlere quadratische Abweichung n 1 X (yj − ŷj )2 (1.16) n j=1 minimal ist. Dazu setzen wir nun (1.15) in (1.16) ein und rechnen n n 1 X 1 X 2 (yj − ŷj ) = [(yj − ȳ) − a(xj − x̄)]2 n j=1 n j=1 n 1 X = [(yj − ȳ)2 − 2 a(xj − x̄)(yj − ȳ) + a2 (xj − x̄)2 ] n j=1 n n n X 1 X 1X 2 21 = (yj − ȳ) − 2 a (xj − x̄)(yj − ȳ) + a (xj − x̄)2 n j=1 n j=1 n j=1 = σ(y)2 − 2aσ(x, y) + a2 σ(x)2 =: Q(a) Die notwendige Bedingung, dass Q(a) im Punkt a0 ein Minimum hat, ist Q0 (a0 ) = 0. D.h. −2 σ(x, y) + 2 a0 σ(x)2 = 0. 26 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Daraus erhalten wir für unseren gesuchten Parameter a den Wert a= σ(x, y) σ(x)2 Die Gleichung der Ausgleichgeraden lautet also y= σ(x, y) σ(x, y) x + ȳ − x̄. 2 σ(x) σ(x)2 Oder äquivalent y= σ(x, y) (x − x̄) + ȳ. σ(x)2 (1.17) Die Geradensteigung a0 = σ(x,y) wird auch Regressionskoeffizient genannt. Das σ(x)2 Vorzeichen von a0 stimmt mit dem Vorzeichen des Korrelationskoeffizienten überein. Dieses bedeutet, dass bei positiver (negativer) Korrelation die Steigung der Regressionsgeraden positiv (negativ) ist. Die Methode mit der wir die Gleichung der Regressionsgeraden gefunden haben heisst Methode der kleinsten Quadrate. Mit der Gleichung (1.17) lässt sich bei Vorliegen eines Wertes xj nach folgender Formel ein Wert für das Y - Merkmal prognostizieren: ŷj = σ(x, y) (xj − x̄) + ȳ σ(x)2 Die Gleichung der Ausgleichgeraden für unser Beispiel ist: y = 1.01x − 99, 7 Dieser Zusammenhang entspricht der Formel die der französische Arzt Pierre Broca im 19. Jahrhundert beim Vermessen von Soldaten festgestellt hat: Körpergröße − 100 = Normalgewicht, und gilt vor allem für Personen mittlerer Körpergröße. Nach den neuesten Kenntnissen der Wissenschaft wird der Zusammenhang zwischen Gewicht und Körpergröße durch einen nichtlinearen, genauer durch einen quadratischen Zusammenhang modelliert. Dieser Zusammenhang ist auch für besonders kleine bzw. besonders große Menschen anwendbar (allerdings für Kinder ungeeignet). Dazu wird der sogenannte BMI (body mass index) verwendet, der als Propotionalitätskonstante in das Gesetz eingeht: y = BMI · x2 . Man erhält dadurch eine genauere Relation zwischen den beiden Größen. Der lineare Zusammenhang hat jedoch den Vorteil, dass die Berechnung des Gewichtes bei gegebener Körpergröße einfacher ist. 1.3. EMPIRISCHE ANALYSE DER MESSERGEBNISSE 27 Bestimmung des Zusammenhangs zwischen Länge und Biomasse von Schilfhalmen Als nächstes wollen wir ein anderes Beispiel anschauen, wo die Korrelation von Bedeutung ist. Es ist der Dissertation von D. Ritterbusch: Wachstum und Habitatbe” setzung von Schilf in Karpfenteichen“ entnommen. In dieser Arbeit werden Vorgänge wie Wachstum, Fortpflanzung und Ausbreitung von Schilf bei der Besiedlung neuer Standorte untersucht. Abbildung 1.11: Nichtlinearer Zusammenhang zwischen Biomasse und Halmvolumen In diesem Zusamenhang ist es von Bedeutung, die Biomasse eines Schilfbestandes zu ermitteln. Es wurde dabei festgestellt, dass der Durchmesser eines Halmes im Jahresverlauf unverändert bleibt, so dass die Länge das Wachstum einzelner Halme beschreibt. Bei der Errechnung der Halmmassen wurde zuerst von einem Zusammenhang zwischen Halmmasse und Halmvolumen ausgegangen. Die Masse eines Halmes hätte in diesem Fall linear mit dem Produkt aus der Länge (L) und dem Quadrat des Durchmessers (D 2 ) zusammenhängen müssen. Für Schilf trifft dieser Zusammenhang jedoch nicht zu. Siehe Abb.1.11. Die lineare Ausgleichsfunktion in Abb.1.11 beschreibt die empirischen Daten mit einem sehr hohen Korrelationskoeffizienten r = 0.93. Da aber kein linearer Zusammenhang vorliegt ist dieser Wert bedeutungslos. Der quadratische Einfluss des Durchmessers wurde offenbar falsch eingeschätzt. Daher wurde eine Abhängigkeit von der Halmoberfläche überprüft. Hier wurde der in Abb.1.12 dargestellte, lineare Zusammenhang gefunden. 28 KAPITEL 1. MESSEN UND DATENBESCHREIBUNG Abbildung 1.12: Lineare Abhängigkeit der Feuchtmasse eines Schilfhalmes von seiner Oberfläche Kapitel 2 Wahrscheinlichkeitsrechnung Im ersten Kapitel beschäftigten wir uns mit der • Erfassung und Aufbereitung gemessener Daten (Tabellen, Diagramme) sowie mit der • Berechnung von Kenngrößen zur quantitativen Beschreibung der Verteilung der Daten (z. B. Mittelwert, Standardabweichung, Korrelationskoeffizient). Die gemessenen Daten stammen aus der Untersuchung einer Stichprobe, d. h. einer kleinen Menge der Gesamtpopulation. Das Ziel unserer Untersuchung ist aber, Aussagen über die Gesamtpopulation zu machen. Daher stellt sich die Frage, ob sich die Erkenntnisse, die man aus der Untersuchung der Stichprobe gewonnen hat, auf die Gesamtpopulation übertragen lassen. Die Beantwortung dieser Frage ist mit den Methoden der induktiven (schließenden) Statistik möglich. Um die statistischen Methoden anwenden zu können, benötigen wir Modelle, welche die Gesamtpopulation hinreichend genau beschreiben. Bei der Beschreibung der Abläufe in der Natur (und damit auch in den Biowissenschaften) muss man mit Unsicherheiten und mit Mangel an Information rechnen. Wir haben es mit Erscheinungen zu tun, deren Ausgang ungewiss, zufällig (d. h. nicht vorhersagbar) ist. Die Beschreibung solcher Erscheinungen wird im Rahmen der Wahrscheinlichkeitstheorie vorgenommen. Die Wahrscheinlichkeit ist dabei ein Maß für die Möglichkeit des Auftretens bestimmter Ereignisse. Wir wollen diese Aussagen nun präzisieren, um dann die Konzepte der Wahrscheinlichkeitstheorie herzuleiten. 2.1 Zufall und Wahrscheinlichkeit Ein Zufallsexperiment ist ein Vorgang, der genau beschreibbar und wiederholbar, dessen Ergebnis jedoch nicht vorhersagbar (zufällig) ist (etwa aufgrund der Komplexität des Vorgangs). So stellen zum Beispiel • das Würfeln mit einem Würfel, 29 30 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG • das Werfen einer Münze, • das Bestrahlen einer Zellkolonie und die Bestimmung der Anzahl der Mutationen, • das Erfassen des Alters von Schildkröten Zufallsexperimente dar. Der Ausgang (das Ergebnis) eines Zufallsexperimentes kann folgendes sein: • das Auftreten der Augenzahl 5 beim Würfeln, • das Auftreten von Wappen“ beim Werfen einer Münze, ” • das Auftreten von 2 Mutationen bei der Bestrahlung einer Zellkolonie, • Alter = 50 Jahre einer zufällig ausgewählten Schildkröte. Die Menge aller möglichen Ausgänge (Ergebnisse) eines Zufallsexperimentes wird Ergebnisraum genannt und mit Ω bezeichnet. Für die oben angeführten Beispiele von Zufallsexperimenten sind die Ergebnisräume folgendermaßen definiert: • Ω = {1, 2, 3, 4, 5, 6} beim Würfeln, • Ω = {W, Z} beim Münzwurf, • Ω = {0, 1, 2, 3, ...} = • Ω = {t ∈ bei der Bestrahlung der Zellkolonie, , t > 0} = ]0, ∞[ für das Ermitteln des Altersvon Schildkröten. Bemerkung 5 Für die letzten zwei Beispiele ist der Ergebnisraum eine unendliche Menge. Dabei entstehen mögliche Ergebnise (Ausgänge) die theoretisch, aber nicht praktisch denkbar sind, z. B. Alter von Schildkröten gleich 5000 Jahre. Solchen Ausgängen werden wir aber später sehr kleine Wahrscheinlichkeiten zuordnen, so dass sie letztendlich praktisch unmöglich sind. Die Wahl des Ergebnisraumes ist zum Teil durch die Art der Information bestimmt, die man erhalten will. Interessiert beim Würfeln beispielsweise nur, ob eine 5 gefallen ist, so wird man als Ergebnisraum folgendes wählen: Ω = {5, nicht 5}. Ein anderes Beispiel in diesem Sinne wäre auch: Beispiel 5 Ein Viehbestand soll hinsichtlich einer Krankheit untersucht werden. Dafür wird folgendes Zufallsexperiment angestellt: es werden n Tiere aus dem Viehbestand ausgewählt und auf die Krankheit getestet. Den Gesunden wird das Symbol 1, den Kranken das Symbol 0 zugeordnet. Die Ausgänge (Ergebnisse) des Experimentes sind also n−Tupel der Form (1| 1 0 0 1 {z 0 1 ... 0 1 }0). Das Merkmal, welches uns n interessiert, ist aber die Anzahl der gesunden Tiere. Diese erhalten wir, indem wir die Einträge aus unserem n−Tupel aufsummieren. Der neue Ergebnisraum Ω ist dann Ω = {0, 1, 2, ..., n}. 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 31 Teilmengen von Ω nennt man Ereignisse. Teilmengen bestehend aus einem einzigen Element heißen Elementarereignisse. Der Ereignisraum F ist die Familie der sinnvollen“ Ereignissen. In dem Fall ei” nes endlichen Ergebnisraumes Ω besteht der Ereignisraum aus allen Teilmengen von Ω; F = Pot(Ω), wobei mit Pot(Ω) die Potenzmenge von Ω, oder die Menge aller Teilmengen bezeichnet wird. Ist Ω = [a, b] (oder gar ), so besteht F aus allen Teilintervallen (allen Intervallen) sowie ihren Durchschnitten und ihren Vereinigungen. Man sagt: Ein Ereignis A ist eingetreten“, wenn ein Zufallsexperiment ein Ergebnis ” ω ∈ A liefert. Beispiele von Ereignissen sind: • A = {2, 4, 6} Es wird eine gerade Zahl gewürfelt.“ ” • Ω = {W, Z} Es wird Wappen oder Zahl geworfen“ (das sichere Ereignis). ” • A = {7, 8, 9, 10} Es sind zwischen 7 und 10 Mutationen eingetreten.“ ” • A = {t ∈ , t ≥ 50} = [50, ∞[ Das Alter ist mindestens 50 Jahre.“ ( oder ” Die Schildkröte ist mindestens 50 Jahre alt.“) ” Das Ereignis A = Ω bezeichnen wir als das sichere Ereignis: alle möglichen Ergebnisse ω sind in Ω enthalten, das Ereignis Ω tritt also sicher ein. Das Ereignis A = Φ (Φ bezeichnet die leere Menge) heißt das unmögliche Ereignis : die leere Menge enthält kein Ergebnis, das Ereignis Φ kann also niemals eintreten. Das Ereignis CA = Ω \ A = {ω ∈ Ω : ω ∈ / A} heißt das zu A komplementäre Ereignis. CA tritt genau dann ein, wenn A nicht eintritt, denn wird ω ∈ CA beobachtet, so ist ω ∈ / A. Wir haben Ereignisse als Teilmengen des Ergebnisraumes Ω eingeführt. Dieses erlaubt es uns, auf besonders einfache Weise die Beziehung zwischen den Ereignissen durch Mengenoperationen auszudrücken. Seien A, B ⊂ Ω (oder A, B ∈ F ) zwei Ereignisse. Dann gilt: A ∪ B tritt genau dann ein, wenn A oder B eintritt A ∩ B tritt genau dann ein, wenn A und B gleichzeitig auftreten. Zwei Ereignisse sind disjunkt, wenn sie nicht gleichzeitig eintreten können (d. h. wenn sie sich gegenseitig ausschließen). A und B sind genau dann disjunkt, wenn A ∩ B = Φ. Beispiel 6 : Beim Würfeln mit einem Würfel seien A = {2, 4, 6} Es wird eine gerade Zahl geworfen.“ ” B = {3, 4, 5, 6} Die Augenzahl ist größer als 3.“ ” C = {1, 3, 5} Es wird eine ungerade Augenzahl gewürfelt.“ ” Dann gilt: A ∪ B = {2, 3, 4, 5, 6}, A ∩ B = {4, 6} A ∪ C = Ω, A ∩ C = Φ 32 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Als nächstes wollen wir Aussagen über die Möglichkeit des Eintretens eines bestimmten Ereignisses machen. Darunter wollen wir nicht Aussagen der Form: Wahr” scheinlich regnet es heute“ verstehen, sondern wir meinen damit die Festlegung eines Zahlenwertes, der die Wahrscheinlichkeit angibt. Das empirische Vorgehen für die Definition der Wahrscheinlichkeit wäre folgendes: Betrachten wir ein Zufallsexperiment mit endlichem Ω = {ω1 , ..., ωk }. Wenn man immer längere Versuchsreihen anstellt und bei jeder Länge n der Versuchsreihe die relative Häufigkeit hn (ωi ) rn (ωi ) = n berechnet, so stellt man in vielen Fällen fest, dass sich die rn (ωi) mit immer größer werdendem n kaum noch ändern. Dieses nennt man ein empirisches Gesetz der großen Zahlen. Es liegt folglich die Annahme nahe, dass es reelle Zahlen gibt, die • die Wahrscheinlichkeit dafür angeben, dass bei einem Zufallsexperiment das Ereignis {ωi} eintritt, • für hinreichend großes n beliebig genau durch rn (ai ) approximiert werden. Es ist dann zu erwarten, dass die Wahrscheinlichkeiten auch änliche Regeln erfüllen wie die relativen Häufigkeiten (s. (1.5)-(1.7)). Die axiomatischen Grundlagen für die Definition der Wahrscheinlichkeit legte Kolmogorow im Jahre 1933 mit der Einführung der folgenden Axiome. Zuerst verlangen wir, dass das System F (der Raum der sinnvollen Ereignisse) folgende Eigenschaften hat: Ω, Φ ∈ F A∈F ⇒Ω\A∈F A, B ∈ F ⇒ A ∪ B ∈ F , A ∩ B ∈ F (oder allgemeiner A1 , A2 , ... ∈ F ⇒ A1 ∪ A2 ∪ ... ∈ F , A1 ∩ A2 ∩ ... ∈ F ). Obwohl es naheliegt, für F alle Teilmengen von Ω zu wählen, gibt es wichtige mathematische Gründe, auf eine solche Forderung zu verzichten. Wir definieren nun das Wahrscheinlichkeitsmaß (oder die Wahrscheinlichkeitsverteilung) P als eine Funktion, die jedem Ereignis A aus F eine Wahrscheinlichkeit P (A) für das Eintreffen von A zuordnet, d. h. P :F → A 7→ P (A), so, dass folgende Axiome erfüllt sind K1: P (A) ≥ 0, ∀A ∈ F K2: P (Φ) = 0, P (Ω) = 1 K3: A, B ∈ F , A ∩ B = Φ ⇒ P (A ∪ B) = P (A) + P (B) 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 33 Das somit festgelegte Tripel (Ω, F , P ) nennt man Wahrscheinlichkeitsraum. Ein System, das dem Zufall unterworfen ist, wird also mit Hilfe eines Wahrscheinlichkeitsraumes (Ω, F , P ) beschrieben. Wir können dabei folgende Analogien zu den Konzepten aus dem ersten Kapitel herstellen: Der Ergebnisraum Ω kann als die Menge der möglichen Ausprägungen eines Merkmals aufgefasst werden. Der Ereignisraum F definiert Bereiche in denen Ausprägungen liegen. Das Wahrscheinlichkeitsmaß P approximiert die relative Häufigkeit, mit der einzelne Ausprägungen oder Bereiche von Ausprägungen vorkommen. Damit diese Interprätation stimmt, muss man aber sehr sorgfältig bei der Wahl des Ergebnisraumes Ω und des Wahrscheinlichkeitsmaßes P vorgehen, siehe auch Beispiel 5. Aus der Definition des Wahrscheinlichkeitsmaßes können weitere Eigenschaften hergeleitet werden: Satz 3 (Elementare Rechenregel für Wahrscheinlichkeiten) Es sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Dann gilt: 1. A, B ∈ F , A ⊂ B ⇒ P (A) ≤ P (B) A B 2. A1 , A2 , ..., An paarweise disjunkt, d. h. Ai ∩ Aj = Φ, ∀i 6= j ⇒ P (A1 ∪ A2 ∪ ... ∪ An ) = P (A1 ) + P (A2 ) + ... + P (An ) A1 A2 3. A ∈ F ⇒ P (CA) = 1 − P (A) Α Ω Α 4. A, B ∈ F ⇒ P (A ∪ B) = P (A) + P (B) − P (A ∩ B) Beweis: Siehe Übungsaufgabe 5∗ , Blatt 5. Zwei Ereignisse A und B heißen unabhängig, wenn P (A ∩ B) = P (A) · P (B). (2.1) 34 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG A A B 2.2 B Diskrete Wahrscheinlichkeitsverteilungen Wir werden im folgenden verschiedene Wahrscheinlichkeitsräume (Ω, F , P ) untersuchen. Als erstes betrachten wir endliche Ergebnisräume Ω = {ω1 , ω2 , ..., ωk }. Die zugehörigen Wahrscheinlichkeitsräume (Ω, F , P ) heißen dann endliche Wahrscheinlichkeitsräume. Für solche Räume ist die Ereignismenge F = PotΩ. Satz 4 Das Wahrscheinlichkeitsmaß für einen diskreten Wahrscheinlichkeitsraum ist eindeutig durch die Werte auf den Elementarereignissen {ωi }, i = 1, ..., k festgelegt, d. h. durch P ({ω1}) = p1 , P ({ω2}) = p2 , . . . , P ({ωk }) = pk mit p1 , p2 , . . . , pk ≥ 0, p1 + p2 + . . . + pk = 1. Für ein Ereignis A = {ωi1 , ..., ωil } ∈ F gilt dann nach Satz 3 (da die Elementarereignisse paarweise disjunkt sind): P (A) = P ({ωi1 } ∪ {ωi2 } ∪ . . . ∪ {ωil }) = P ({ωi1 }) + . . . + P ({ωil }) = pi1 + . . . + pil . Man kann zeigen, dass ein so definiertes Wahrscheinlichkeitsmaß die Axiome K1 − K3 erfüllt. Ein Wahrscheinlichkeitsraum (Ω, F , P ) heißt diskret, wenn Ω endlich oder Ω = {ω1 , ω2 , ω3 , ...} ist. Im letzten Fall gilt die obige Definition sinngemäß für diskrete Räume. Wir wollen nun einige Beispiele von diskreten Wahrscheinlichkeitsräumen untersuchen. 2.2.1 Die Laplace Wahrscheinlichkeitsverteilung Sei Ω = {ω1 , . . . , ωk } endlich. Falls alle Elementarereignisse {ωi}, i = 1, ..., k gleich wahrscheinlich sind, d. h. P ({ω1}) = P ({ω2 }) = ... = P ({ωk }) = 1 , k 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 35 so heißt (Ω, F , P ) Laplace Wahrscheinlichkeitsraum. P heißt dann Laplace Wahrscheinlichkeitsverteilung oder diskrete Gleichverteilung. Die letzte Gleichheit folgt wieder aus Satz 3, da die Elementarereignisse paarweise disjunkt sind: 1 = P (Ω) = P ({ω1 } ∪ {ω2 } ∪ . . . ∪ {ωk }) = P ({ω1 }) + P ({ω2}) + . . . + P ({ωk }) = k · P ({ωi}), ∀i = 1, . . . , k. Damit gilt für ein A ∈ F P (A) = X ωi ∈A P ({ωi}) = |A| , k (2.2) wobei mit |A| die Anzahl der Elemente aus A bezeichnet wird. Formel (2.2) ist etwas einprägsamer als Wahrscheinlichkeit von A = Anzahl der günstigen Ausgänge Anzahl aller möglichen Ausgängen bekannt. Beispiel 7 (Einmaliges Würfeln mit einem fairen Würfel) Ω = {1, 2, 3, 4, 5, 6}, F = Pot(Ω) Wenn der Würfel halbwegs homogen und symmetrisch ist, kann man davon ausgehen, dass alle Augenzahlen dieselben Chancen haben gewürfelt zu werden. Es gilt also 1 P ({1}) = P ({2}) = ... = P ({6}) = . 6 P({ωi }) 6 1 6 - ω Das Ereignis A = {2, 4, 6}: Es ist eine gerade Zahl gefallen“ hat die Wahrschein” lichkeit |A| 3 1 P (A) = = = . |Ω| 6 2 Beispiel 8 (Zweimaliges Würfeln mit einem fairen Würfel) Ω = {(1, 1), (1, 2), (1, 3), . . . (1, 6), (2.1), . . . , (6, 6)} 36 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Man geht davon aus, dass die beiden Würfe unabhängig voneinander stattfinden, so dass man annehmen kann, dass alle Paare gleich wahrscheinlich sind. Da insgesamt 6 × 6 = 36 mögliche Paare gebildet werden können, gilt: 1 P ({(1, 1)}) = P ({(1, 2)}) = . . . = P ({(6, 6)}) = . 36 Das Ereignis Die Augensumme ist 5“ ist A = {(1, 4), (2, 3), (3, 2), (4, 1)}. Die ” Wahrscheinlichkeit für das Auftreten dieses Ereignisses ist P (A) = 4 1 |A| = = . |Ω| 36 9 In den bisherigen Beispielen war es recht einfach, die Kardinalität |Ω| der Ergebnismenge und die der Ereignisse |A| zu bestimmen. Oft ist es aber notwendig, kombinatorische Argumente für die Berechnung von Kardinalitäten anzuwenden. Beispiel 9 Wie viele Wörter mit 5 Buchstaben kann man mit den 26 Buchstaben des Alphabets bilden, wenn auch Wörter ohne Bedeutung zugelassen werden? (Auch Buchstabenwiederholungen sind natürlich erlaubt). Wir haben: • 26 Möglichkeiten für die Wahl des 1. Buchstaben • 26 Möglichkeiten für die Wahl des 2. Buchstaben • 26 Möglichkeiten für die Wahl des 3. Buchstaben • 26 Möglichkeiten für die Wahl des 4. Buchstaben • 26 Möglichkeiten für die Wahl des 5. Buchstaben. Wenn wir alle Auswahlmöglichkeiten zusammensetzen, erhalten wir also 26 × 26 × . . . × 26 = 265 Wörter mit 5 Buchstaben. Jetzt können wir uns fragen, wie groß die Wahrscheinlichkeit der Auswahl eines bestimmten Wortes ist. Da alle Wörter gleich wahrscheinlich sind, können wir auch diese Situation mit Hilfe eines Laplace Wahrscheinlichkeitsraumes modellieren, wobei Ω = {ω = (x1 , x2 , . . . , x5 ); x1 ∈ {a, b, . . . , z}, . . . x5 ∈ {a, b, . . . , z}} 1 , ∀ ω ∈ Ω. 265 Die gesuchte Wahrscheinlichkeit ist also 2615 . P ({ω)} = Die gleiche Problemstellung kommt in vielen anderen Situationen vor, wenn es darum geht, k verschiedene Plätze mit je einem Objekt zu besetzen, wobei es n Arten von Objekten gibt und von jeder Art beliebig viele zur Verfügung stehen. Es gibt dann k n (2.3) | ×n× {z. . . × n} = n Möglichkeiten k mal die Plätze zu besetzen. 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 2.2.2 37 Die Binomialverteilung Die einfachsten nichttrivialen Zufallsexperimente sind solche mit zwei möglichen Ausgängen, wie z. B. Münzwurf (Kopf, Zahl), Bestimmung des Geschlechtes für Nachkommen (männlich, weiblich), Qualitätskontrolle (defekt, intakt) oder das Auftreten von Mutationen (Mutation, keine Mutation). Solche Zufallsexperimente mit zwei Ausgängen bezeichnet man als Bernoulli-Experimente. Sie werden eindeutig durch den Wahrscheinlichkeitsraum (Ω, F , P ) mit Ω = {1, 0}, F = {Φ, {1}, {0}, Ω}, P ({1}) = p, P ({0}) = 1 − p = q beschrieben. Dabei ist also 0 ≤ p ≤ 1 die Wahrscheinlichkeit des Eintreffens von {1}. Wir wollen uns nun mit n unabhängigen Wiederholungen eines solchen Bernoulli Experimentes befassen. Beispiel 10 (Genetik: Rekombination von Genen) Nehmen wir an, dass eine Fischpopulation ihre Fortpflanzungszellen ins Wasser entlässt. Betrachten wir einen bestimmten Genlocus mit den Allelen A und a. Jede Fortpflanzungszelle (Spermium oder Eizelle) enthält genau eines der beiden Allele, entweder A oder a. Sei p die Wahrscheinlichkeit, dass eine Spermienzelle A enthält und q = 1 − p die Wahrscheinlichkeit, dass diese a enthält. Wir nehmen zudem an, dass in den Eizellen dieselbe Wahrscheinlichkeitsverteilung herrsche, also: Ω = {A, a}, P ({A}) = p, P ({a}) = q, p + q = 1. (Dieses Modell entspricht einem Bernoulli Experiment. Dabei haben wir die möglichen Ausgänge nicht mit 0, 1 sondern mit A, a bezeichnet.) Nach der Befruchtung der Eizellen durch die Spermienzellen erhalten wir den neuen Ereignisraum Ω2 = {AA, Aa, aA, aa}. (Hier betrachten wir also 2 unabhängige Wiederholungen eines Bernoulli Experimentes.) Nehmen wir an, dass sich die einzelnen Fortpflanzungszellen zufällig treffen, dass der Prozess also unabhängig vom Gengehalt jeder Zelle ist, dann können die Wahrscheinlichkeiten der Elementarereignisse wie folgt bestimmt werden: {AA} = ” {AA, Aa} | {z } Spermium enthält das Allel A“ Aus unseren Modellannahmen folgt ∩ ” {AA, aA} | {z } . Eizelle enthält das Allel A“ P ({AA, Aa}) = P ({AA, aA}) = p. Wegen der Unabhängigkeit der zwei Ereignisse gilt dann die Produktregel (2.1) und wir erhalten P ({AA}) = P ({AA, Aa}) · P ({AA, aA}) = p · p = p2 . 38 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Analog erhalten wir P ({Aa}) = pq, P ({aA}) = qp, P ({aa}) = q 2 . Da die beiden Genotypen aA und Aa biologisch nicht unterscheidbar sind, fassen wir sie zusammen und addieren die Wahrscheinlichkeiten P ({aA − Aa}) = P ({aA, Aa}) = P ({aA}) + P ({Aa}) = 2pq. Die Rekombination von Genen führt also zu P ({AA}) = p2 , P ({aA − Aa}) = 2pq, P ({aa}) = q 2 . Da unser Ergebnisraum Ω = {AA, aA − Aa, aa} ist, sollte die Summe der drei Wahrscheinlichkeiten 1 sein. Tatsächlich gilt: p2 + 2pq + q 2 = (p + q)2 = 12 = 1. Allgemeiner: Wenn wir ein Bernoulli Experiment n Mal wiederholen, so erhalten wir folgendes wahrscheinlichkeitstheoretisches Modell (Ωn , Fn , P ): • Der Ergebnisraum besteht aus n-Tupeln der Gestalt Ωn = {0, 1}n = {ω = (x1 , x2 , . . . , xn ) : xj ∈ {0, 1}, j = 1, . . . , n}. • Die Menge Fn ist gebildet aus allen Teilmengen von Ωn • Die Wahrscheinlichkeitsverteilung P erhält man durch analoge Überlegungen wie im Beispiel 10 und ist gegeben durch P ({ω}) = pk q n−k für ein n-Tupel ω, dessen Einträge k Einsen und n − k Nullen sind. Wenn man nun nicht an einer bestimmten Reihenfolge des Auftretens der Einsen und Nullen interessiert ist, so kann man alle Tupel mit der gleichen Anzahl von Einsen zusammenfassen zu einem Ereignis Ak = {ω = (x1 , x2 , . . . , xn ) ∈ Ω | n X xj = k}, k = 1, . . . , n j=1 (das Ereignis Ak enthält alle n-Tupel, in denen k mal die 1 vorkommt). Was ist nun P (Ak ) ? An dieser Stelle müssen wir wieder zählen, und zwar: auf wieviele Arten können wir aus den n verschiedenen Plätzen in einem n−Tupel k Plätze für die Einsen auswählen? Dieses Abzählproblem kann man ganz anschaulich mit Hilfe des folgenden Urnenmodells lösen: Auf wieviele Arten kann man aus einer Urne mit n verschiedenen (z. B. von 1 bis n nummerierte) Kugeln k Kugeln ziehen, ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge, in der die Kugeln gezogen wurden. (Für unsere Anwendung entspricht das Ziehen einer Kugel mit der Nummer j dem Belegen des j-ten Platzes in dem n-Tupel mit einer Eins.) Die Lösung ist folgende: Es gibt 2.2. DISKRETE WAHRSCHEINLICHKEITSVERTEILUNGEN 39 • n Möglichkeiten für die Wahl der 1. Kugel, • (n − 1) Möglichkeiten für die Wahl der 2. Kugel, • (n − 2) Möglichkeiten für die Wahl der 3. Kugel, ... • (n − (k − 1)) Möglichkeiten für die Wahl der k. Kugel. Wenn die Reihenfolge berücksichtigt wird, gibt es also insgesamt n(n − 1)(n − 2) . . . (n−(k−1)) Möglichkeiten, k Kugeln von n verschiedenen Kugeln auszuwählen. Da bei uns aber die Reihenfolge irrelevant ist, müssen wir das obige Resultat durch die Anzahl aller Umordnungen von k verschiedenen Kugeln teilen. Diese Anzahl ist k! = 1 · 2 · 3 · · · k. Es bleiben also noch n(n − 1)(n − 2) . . . (n − (k − 1)) = k! n! (n−k)! k! = n! (n − k)!k! Möglichkeiten für die Auswahl von k aus n verschiedenen Kugeln, ohne Berücksichtigung der Reihenfolge. Dabei ist n! = 1 · 2 · 3 . . . n, 0! = 1. Diese Zahl bezeichnen wir mit n über k“ ” n! n = (n − k)!k! k und nennen sie Binomialkoeffizient. Wir erhalten also n k n−k P (Ak ) = p q , k = 0, 1, . . . , n. k Wenn wir nur an den Wahrscheinlichkeiten interessiert sind, dass bei n Bernoulli Experimenten k mal die 1 eintritt, k = 0, 1, . . . , n , so können wir diese im folgenden Wahrscheinlichkeitsmodell beschreiben: Ω = {0, 1, . . . , n}, F = Pot(Ω) n k n−k p q , k = 0, 1, . . . , n. P ({k}) = bn,p (k) = k (2.4) Diese Wahrscheinlichkeitsverteilung nennt man Binomialverteilung. Der binomische Lehrsatz n X n k n−k n (x + y) = x y , ∀x, y ∈ R, n ∈ N k k=0 liefert eine analytische Rechtfertigung dafür, dass bn,p eine Wahrscheinlichkeitsverteilung induziert. 40 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Graphische Darstellung: Stabdiagramme der Binomialverteilung 1) p = 21 2 4 n=2 1 4 1 4 0 1 3 8 n=3 - 2 k 3 8 1 8 1 8 0 1 n=4 2 4 16 - 3 6 16 k 4 16 1 16 2) p = 1 16 0 1 2 3 4 0 1 2 3 4 - k 1 6 n=4 - k n=9 0 2.2.3 1 2 3 4 5 6 7 8 9 k - Die Poissonverteilung In vielen Anwendungen haben wir es mit Bernoulli-Experimenten zu tun, bei denen n groß und p klein ist, während das Produkt np mäßig groß ist. In solchen Fällen ist es praktisch, eine Näherungsformel für die Binomialverteilung zu verwenden. 2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF 41 Beispiel 11 (Ökologie) Gesucht ist das Verteilungsmuster einer bestimmten Pflanze über ein bestimmtes Gebiet (etwa ein Feld oder einen Wald). Dazu wird das Gebiet in eine große Zahl von Parzellen, etwa Quadrate oder Rechtecke gleicher Fläche unterteilt. Man zählt die Anzahl der Pflanzen pro Parzelle. Wahrscheinlichkeitstheoretisches Modell: Wir setzen voraus, dass auf einem Feld n Objekte so geworfen werden, dass jede Parzelle mit der gleichen Wahrscheinlichkeit p getroffen wird. (Entsprechend wird sie mit q = 1 − p nicht getroffen.) Die Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, ist gegeben durch die Binomialverteilung n k n−k p q . P ({k}) = k Soll eine große Anzahl von Objekten und Parzellen betrachtet werden (d. h. n sehr groß, p sehr klein), so ist die Berechnung von P ({k}) recht mühsam und man ist auf Approximationen angewiesen. Wir fragen daher, welche Grenzverteilung wir erhalten, wenn m = np konstant bleibt und n → ∞, p → 0 gilt. Die Rechnung, die wir aus Zeitgründen nicht ausführlich machen können, ergibt n k mk e−m lim p (1 − p)n−k = , k = 0, 1, 2, . . . n→∞ k k! Wir können also die Wahrscheinlichkeit, dass eine bestimmte Parzelle k mal getroffen wird, approximieren durch P ({k}) = mk e−m . k! (2.5) Mit der Formel (2.5) ist die berühmte Poissonverteilung hergeleitet worden. 0,3 6 0,25 0,2 0,15 0 1 2 3 4 5 6 7 8 - k Poissonverteilung zum Parameter m = 1, 9 2.3 Wahrscheinlichkeitsverteilungen auf Wir werden uns nun mit Wahrscheinlichkeitsräumen (Ω, F , P ) beschäftigen, deren Ergebnisraum Ω ein reelles Intervall I ∈ R oder sogar ist. Diese Räume gehören zu den stetigen Wahrscheinlichkeitsräumen. In diesem Kontext möchten wir nun 42 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Fragen der Form: Mit welcher Wahrscheinlichkeit liegen die Ausgänge unserer Zu” fallsexperimente in einem Intervall [α, β] ⊂ I?“ beantworten. Deswegen werden wir verlangen, dass die Ereignismenge F alle Teilintervalle [α, β] ⊂ I enthält. Dazu natürlich auch noch deren (abzählbare) Vereinigungen und Durchschnitte. Die Wahrscheinlichkeitsverteilung P wird folgendermaßen definiert: Sei f : Ω → R eine reellwertige, stückweise stetige Funktion auf Ω = I oder Ω = R, mit f (x) ≥ 0 (2.6) und Z f (x)dx = 1. (2.7) Ω Die Funktion f heißt Wahrscheinlichkeitsdichte (oder Dichtefunktion). Die Bedingung (2.7) besagt, dass der Flächeninhalt unter dem Schaubild von f gleich 1 sein muss. Mit Hilfe der Dichtefunktion definieren wir nun die Wahrscheinlich- f(x) a 0 b x Abbildung 2.1: Die Dichtefunktion f (x) keitsverteilung P auf I (bzw. R) durch P : F → [0, 1], P ([α, β]) = Zβ f (x)dx (2.8) α für alle Ereignisse [α, β] ∈ F . Setzt man im Falle Ω = I die Funktion f (x) = 0 außerhalb von I, so können wir immer I durch R ersetzen. Der Wert P ([α, β]) stellt den Flächeninhalt unter der Funktion f über dem Intervall [α, β] dar, siehe Abb.2.2. Aus (2.7) folgt sofort, dass die Wahrscheinlichkeit für das sichere Ereignis P (I) = 1 (bzw. P (R) = 1) ist. Setzt man in (2.8) α = β, so ergibt sich sofort, dass die 2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF 43 f(x) a 0 α P([α, β]) β b x Abbildung 2.2: Die Wahrscheinlichkeit P ([α, β]) Wahrscheinlichkeit P ([α, α]) eines Elementarereignisses [α, α] gleich Null ist, denn P ([α, α]) = Zα f (x)dx = 0. α Dieses ist auch geometrisch einsichtig, da die Fläche über einem Punkt der x−Achse gleich Null ist. Bemerkung 6 Im Falle diskreter Merkmale haben wir gesehen, dass die Wahrscheinlichkeit als eine Approximation für die relative Häufigkeit aufgefasst werden kann. Im Falle stetiger Merkmale ist die Wahrscheinlichkeitsdichte eine Approximation für die normierte“ Klassenhäufigkeit. Wenn nämlich bei der Klassenbildung die ” Klassenbreite b immer feiner wird (unter der Voraussetzung immer größer werdender Messreihen), so ist die Verteilung der normierten“ relativen Klassenhäufigkeiten ” r(ai ) immer näher bei einer stetigen Funktion, welche die Wahrscheinlichkeitsdichte b darstellt. 2.3.1 Die Gleichverteilung Beispiel 12 (Orientierung von Vögeln) In einer Verhaltensstudie wurden Vögel einzeln und unter Umständen, die die Orientierung erschwerten, freigelassen. Man erwartete, dass die Vögel jede Richtung θ ∈ [0◦ , 360◦ ] mit der gleichen Wahrscheinlichkeit einschlagen würden. Die Wahrscheinlichkeitsdichte ist darum eine Konstante über dem Intervall [0◦ , 360◦ ]. Da die Fläche zwischen dem Intervall [0◦ , 360◦] und dem Graphen von f (θ) gleich 1 sein muss, ist der konstante Wert von f (α) gleich 1 . Die Wahrscheinlichkeitsdichte ist also gegeben durch 360 1 , θ ∈ [0, 360] 360 f (θ) = 0 , sonst. 44 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Die Wahrscheinlichkeit, dass ein Vogel in einer Richtung aus dem Intervall [θ0 , θ1 ] f(x) 1 360 0 x 360 losfliegt, ist also: P ([θ0 , θ1 ]) = Zθ1 1 θ1 − θ0 dx = . 360 360 θ0 Im allgemeinen, sei I = [a, b]. Die Funktion f : R → R mit 1 , x ∈ [a, b] b−a f (x) = 0 , sonst (2.9) ist die Dichte der Gleichverteilung in [a, b]. So wie der Name es auch sagt, sind alle Ereignisse [α, β] ∈ I mit β − α = l gleich wahrscheinlich mit P ([α, β]) = Zβ α f (x)dx = Zβ α 1 β−α l dx = = . b−a b−a b−a Für ein Ereignis [γ, δ] ⊂ R \ I gilt P ([γ, δ]) = 0, denn P ([γ, δ]) = Rδ 0dx = 0. γ In Anwendungen wird man die Gleichverteilung immer dann wählen, wenn es keine erkennbaren Gründe gibt, dass bestimmte Ausgänge von Zufallsexperimenten wahrscheinlicher sind als andere. 2.3.2 Die Normalverteilung Die Normalverteilung ist eine der wichtigsten Verteilungen in der Stochastik. Für µ ∈ R und σ 2 > 0 sei (x−µ)2 1 fµ,σ (x) = √ e− 2σ2 . (2.10) 2πσ 2 die Wahrscheinlichkeitsdichte der Normalverteilung mit Erwartungswert µ und Varianz σ 2 . Die Wahrscheinlichkeitsverteilung gegeben durch Pµ,σ ([α, β]) = √ 1 2πσ 2 Zβ α e− (x−µ)2 2σ 2 dx (2.11) 2.3. WAHRSCHEINLICHKEITSVERTEILUNGEN AUF 45 Abbildung 2.3: Zwei verschiedene Dichtefunktionen fµi ,σi , i = 1, 2. heißt Normalverteilung in R mit Erwartungswert µ und Varianz σ 2 . In Abb.2.3 sind die Dichtefunktionen fµi ,σi , i = 1, 2, für zwei verschiedene Werte des Erwartungswertes und der Varianz dargestellt. Wir sehen, dass für größere σ die Glocke breiter wird, σ gibt also ein Maß für die Streuung der Wahrscheinlichkeitsverteilung Pµ,σ an. Für µ = 0 und σ = 1 erhalten wir die standardisierte Normalverteilung (Gaußsche Glockenkurve) mit der Wahrscheinlichkeitsdichte x2 1 f0,1 (x) = √ e− 2 . 2π (2.12) Da die Normalverteilung von ∞ bis −∞ reicht, scheint es keine Verteilung zu Abbildung 2.4: Dichtefunktion f0,1 der standardisierten Normalverteilung. sein, die man in biologischen Anwendungen gebrauchen kann, denn keine praktische Größe kann einen unendlichen Wert annehmen. Doch diese Betrachtungsweise 46 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG stimmt nicht ganz, denn wegen der Exponentialfunktion in (2.12) nimmt die Dichtefunktion fµ,σ mit wachsendem |x| sehr schnell ab. Dieses führt dazu, dass z. B. Ereignisse, die außerhalb des Intervalls [−3, 3] liegen, im Falle der standardisierten Normalverteilung, mit einer Wahrscheinlichkeit kleiner als −3 Z Z+∞ 1 P0,1 ((−∞, −3] ∪ [3, +∞)) = √ f0,1 (x)dx + f0,1 (x)dx = 0, 0027 2π 3 −∞ auftreten. Ereignisse außerhalb [−4, 4] treten mit einer Wahrscheinlichkeit kleiner als 0,00004 auf. Solche Ereignisse sind praktisch unmöglich. Die Gründe, weswegen die Normalverteilung so häufig in der Praxis auftritt, werden wir in einem der nächsten Paragraphen erläutern. 2.4 Zufallsvariable und ihre Verteilungen Mithilfe von Zufallsvariablen können den möglichen Ausgängen ω ∈ Ω eines Zufallsexperimentes numerische Werte (Messwerte) zugeordnet werden. Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum. Eine Zufallsvariable ist eine reellwertige Funktion X : Ω → R. Zufallsvariable mit diskretem Wertebereich X heißt diskret, wenn X(Ω) = {X(ω), ω ∈ Ω} ein diskreter Raum ist (d. h. endlich oder abzählbar). Beispiel 13 a) Sei (Ω, F , P ) ein Wahrscheinlichkeitsraum für einen einmaligen Münzwurf mit einer unfairen Münze, d. h. Ω = {K, W }, F = {Φ, {K}, {W }, Ω}, P ({K}) = p, P ({W }) = 1 − p = q. (2.13) Wir können den Ausgängen Kopf“ und Wappen“ numerische Werte zuordnen ” ” mithilfe der Zufallsvariable X : Ω → {0, 1} X(K) = 1, X(W ) = 0. b) Sei (Ω, F , P ) der Wahrscheinlichkeitsraum, der dem zweimaligen Würfeln mit einem fairen Würfel entspricht, siehe Beispiel 8. Ω = {(m, n) : m ∈ {1, . . . , 6}, n ∈ {1, . . . , 6}}. Die Zufallsvariable, die die Augensumme der beiden Würfeln beschreibt, ist X : Ω → {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} X((m, n)) = m + n. 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 47 Zufallsvariable mit stetigem Wertebereich Beispiele: a.) Sei Ω eine große Menge von Personen X:Ω→R X(ω) = Konzentration des α − Globulins im Blutplasma der Person ω. b.) Sei Ω eine große Menge von Individuen X:Ω→R X(ω) = Gewicht des Individuums ω. 2.4.1 Verteilung einer Zufallsvariable Sei X eine reellwertige Zufallsvariable, die der Modellierung eines zufällig variierenden Messwertes dient. Wir sind nun daran interessiert, ein Wahrscheinlichkeitsmaß auf X(Ω) ⊆ R zu finden, welches die Wahrscheinlichkeiten beschreibt, mit der Werte von X angenommen werden. Dieses Wahrscheinlichkeitsmaß wird mit PX bezeichnet und heißt Verteilung der Zufallsvariable X. Es ist gegeben durch: PX (A) := P ({ω ∈ Ω : X(ω) ∈ A}) =: P [X ∈ A] (2.14) für jedes Ereignis A ⊂ X(Ω) aus dem Ereignisraum F auf X(Ω) ⊆ R. Ist X eine diskrete Zufallsvariable, d. h. X(Ω) ist endlich oder abzählbar, so ist (nach Satz 4) die Verteilung von X eindeutig charakterisiert durch PX ({η}) = P ({ω ∈ Ω : X(ω) = η}) =: P [X = η], η ∈ X(Ω). P [X = η] stellt die Wahrscheinlichkeit dar, mit der der Wert η angenommen wird. Beispiel: Für den Fall des zweimaligen Würfelns mit einem fairen Würfel, siehe Beispiel 13 b.), ist für k = 2, . . . , 12 PX ({k}) = P ({(m, n) : m + n = k}) = P [X = k]. Für k = 5 gilt: 1 4 = . 36 9 Ist X eine Zufallsvariable mit stetigem Wertebereich, d. h. X(Ω) = R, so ist die Verteilung von X eindeutig charakterisiert durch PX ({5}) = P ({(1, 4), (2, 3), (3, 2), (4, 1)}) = PX ((−∞, y]) = P ({ω ∈ Ω : X(ω) ∈ (−∞, y]}) =: P [X ≤ y], y ∈ R. D. h., wenn man die Werte PX ((−∞, y]) für jedes y ∈ R kennt, so kann man die Wahrscheinlichkeit PX ([α, β]) für jedes Intervall [α, β] ⊂ R berechnen. Denn, ist die Verteilung PX von X mit Hilfe einer Dichtefunktion fX gegeben, so gilt: PX ([α, β]) = Zβ α fX (x)dx = Zβ −∞ fX (x)dx − Zα −∞ = PX ((−∞, β]) − PX ((−∞, α]). fX (x)dx 48 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Die Werte PX ((−∞, y]), y ∈ sind tabelliert. Sie werden mit Hilfe der im folgenden definierten Verteilungsfunktion FX festgehalten. Die Funktion FX : R → [0, 1] y 7→ PX ((−∞, y]) heißt Verteilungsfunktion der Zufallsvariable X. Ist die Verteilung PX von X mit Hilfe einer Dichtefunktion fX gegeben, so gilt: FX (y) = PX ((−∞, y]) = Zy fX (x)dx. −∞ Falls die Verteilung PX einer Zufallsvariable X die Gleichverteilung bzw. die Normalverteilung ist, so heißt die Zufallsvariable X gleichverteilt bzw. normalverteilt. Interessieren wir uns nun für die Wahrscheinlichkeit, mit der die Zufallsvariable X Werte in einem Intervall [α, β] annimmt, so berechnet sich diese folgendermaßen: P [α ≤ X ≤ β] = PX ([α, β]) = PX ((−∞, β]) − PX ((−∞, α]) = FX (β) − FX (α). (2.15) Verteilungsfunktion einer normalverteilten Zufallsvariable Sei zunächst X eine Zufallsvariable deren Verteilung durch die standardisierte Normalverteilung gegeben ist, d. h. PX = P0,1 . Die Verteilungsfunktion von X bezeichnen wir mit F0,1 . Die Werte 1 F0,1 (y) = √ 2π Zy x2 e− 2 dx (2.16) −∞ entnimmt man aus Tabellen. Da aus Symmetriegründen (siehe auch Abb. ) gilt,dass F0,1 (−y) = 1 − F0,1 (y), 1 F0,1 (0) = , 2 genügt es, F0,1 nur für y ≥ 0 zu tabellieren. Die Werte der Verteilungsfunktion Fµ,σ für eine normalverteilte Zufallsvariable X mit Parametern µ und σ ergeben sich aus den Werten von F0,1 durch folgende Transformation: Satz 5 Es sei X eine normalverteilte Zufallsvariable mit der Verteilungsfunktion Fµ,σ . Dann ist die standardisierte Zufallsvariable Y = X−µ standardnormalverσ teilt, d. h. FY = F0,1 . Beweis: Siehe Übungsaufgabe 5, Blatt 7. 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 49 f0,1(t) F0,1(-y) 1 - F0,1(y) -y 0 y t Abbildung 2.5: Werte der Verteilungsfunktion F0,1 Beispiel 14 (Verteilung der Körpergröße) Sei X die Zufallsvariable, welche die Körpergröße der Einwohner einer Stadt beschreibt. Es sei bekannt, dass X normalverteilt ist, mit Parametern µ = 178cm und σ = 8cm. Wir wollen nun aus den tabellierten Daten für F0,1 die Wahrscheinlichkeit P [a ≤ X ≤ b] für gegebene Werte von a, b ∈ R berechnen. Wir betrachten zunächst die standardisierte Zufallsvariable Y = X−µ = X−178 . σ 8 Y ist nach Satz 5 normalverteilt mit Parametern 0 und 1. Es gilt dann P [a ≤ X ≤ b] = = = = X −µ b−µ a−µ ≤ ≤ P σ σ σ a−µ b−µ ≤Y ≤ P σ σ a−µ b−µ P0,1 , σ σ a−µ b−µ F0,1 − F0,1 σ σ Wenn wir also bestimmen wollen, wieviel Prozent der Bevölkerung in der oben angesprochenen P178,8 -verteilten Stadt zwischen 186 und 190 cm groß sind, so rechnen wir folgendermaßen: 186 − 178 190 − 178 P [186 ≤ X ≤ 190] = P ≤Y ≤ 8 8 = F0,1 (1, 5) − F0,1 (1) = 0, 9332 − 0, 8413 = 0, 0919 ≈ 9, 2% Dabei wurden die Werte von F0,1 (1, 5) und F0,1 (1) aus der Tabelle entnommen. 50 2.4.2 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Erwartungswert und Varianz einer Zufallsvariable In Analogie zum Mittelwert und Varianz für Messreihen definieren wir für diskrete Zufallsvariablen den Erwartungswert von X X X E[X] = x · PX ({x}) = x · P [X = x] (2.17) x∈X(Ω) x∈X(Ω) und die Varianz von X V [X] = E[(X − E[X])2 ]. (2.18) Die Quadratwurzel aus der Varianz p p V [X] = E[(X − E[X])2 ] heißt Streuung oder Standardabweichung von X. Dabei beschreibt E[X] den typischen Wert von X. V [X] ist ein Maß für die Gruöße der Abweichung der Werte von X vom typischen “ Wert E[X]. ” Im Falle stetiger Zufallsvariablen, deren Verteilungen PX eine Dichte fX besitzen, ist der Erwartungswert gegeben durch Z∞ E[X] = xfX (x)dx. −∞ Die Varianz ist gegeben als V [X] = Z∞ (x − E[X])2 fX (x)dx. −∞ Beispiel 15 (Erwartungswert und Varianz für normalverteilte Zufallsvariable) Sei X eine normalverteilte Zufallsvariable mit PX = Pµ,σ . Dann ist E[X] = µ und V [X] = σ 2 , denn Z∞ (x−µ)2 1 e− 2σ2 dx E[X] = x· √ 2πσ 2 −∞ = √ 1 2πσ 2 Z∞ − (x − µ)e (x−µ)2 2σ 2 dx + √ −∞ µ 2πσ 2 Z∞ e− (x−µ)2 2σ 2 dx. −∞ Aufgrund der Symmetrieeigenschaften des Integranden verschwindet das erste Inte√ 2 gral. Das zweite Integral ergibt 2πσ , wir erhalten also E[X] = µ. Für die Berechnung der Varianz benutzen wir die Substitution x−µ = y und erhalten: σ V [X] = √ 1 2πσ 2 σ2 = √ 2π Z∞ (x − µ)2 e− (x−µ)2 2σ 2 −∞ Z∞ −∞ y2 y 2 e− 2 dy = σ 2 , dx 2.4. ZUFALLSVARIABLE UND IHRE VERTEILUNGEN 51 Für eine normalverteilte Zufallsvariable X sind die Parameter µ und σ 2 gerade durch den Erwartungswert und der Varianz von X gegeben. Eigenschaften von Erwartungswert und Varianz a) Wie wir schon bei Mittelwert und Varianz für Messreihen gesehen haben, gilt auch hier E[aX + b] = aE[X] + b (2.19) V [aX + b] = a2 V [X]. Sei nun X eine Zufallsvariable mit E[X] = µ, standardisierte Zufallsvariable X −µ , X∗ = σ (2.20) V [X] = σ 2 . Dann gilt für die folgendes E[X ∗ ] = 0, V [X ∗ ] = 1. b) Man sagt, zwei Zufallsvariablen X und Y sind unabhängig, wenn die Messung von X die Messung von Y nicht beeinflusst. Dieses bedeutet, dass die Mengen {ω ∈ Ω : X(ω) ∈ A} und {ω ∈ Ω : Y (ω) ∈ B} für alle A und B unabhängig sind. In diesem Falle gilt E[X · Y ] = E[X] · E[Y ]. c) Es seien X und Y zwei Zufallsvariablen. Dann gilt E[aX + bY ] = aE[X] + bE[Y ]. Falls X und Y unabhängig sind, gilt V [X + Y ] = V [X] + V [Y ]. Anwendung Seien X1 , X2 , . . . , Xn n unabhängige, identisch verteilte Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 . Sei X̄n das arithmetische Mittel der Variablen X1 , X2 , . . . , Xn : n 1 1X X̄n = (X1 + X2 + . . . + Xn ) = Xi . n n i=1 Dann ist: " # n n X 1X nµ 1 E[X̄n ] = E Xi = E[Xi ] = =µ n i=1 n i=1 n # " n n X 1 1 X 1 σ2 2 Xi = 2 V [Xi ] = 2 · (n · σ ) = V [X̄n ] = V n i=1 n i=1 n n 52 2.5 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG Der zentrale Grenzwertsatz Die Tatsache, dass die Normalverteilung in vielen praktischen Anwendungen auftritt, kann durch den folgenden Satz erklärt werden. Satz 6 (Zentraler Grenzwertsatz, Satz von de Moivre-Laplace) Seien X1 , X2 , . . . , Xn eine Folge unabhängiger und identisch verteilter Zufallsvariablen mit Erwartungswert µ und Varianz σ 2 > 0. Dann ist das arithmetische Mittel n 1X 1 X̄n = Xi = (X1 + X2 + . . . + Xn ) n i=1 n 2 näherungsweise normalverteilt mit Erwartungswert µ und Varianz σn . Insbesondere konvergiert, für n → ∞, die Verteilung der standardisierten Zufallsvariablen X̄n∗ = X̄n − µ √σ n gegen die standardisierte Normalverteilung. D. h. P [a ≤ X̄n∗ 1 ≤ b] −→ √ 2π n→∞ Zb t2 e− 2 dt. a Dieser Satz rechtfertigt die Annahme, dass eine Zufallsvariable normalverteilt ist, wenn zahlreiche Einflüsse additiv und unabhängig voneinander zusammenwirken. Da dieses bei Vorgängen in der Natur oft der Fall ist, sind auch viele Größen in den Biowissenschaften normalverteilt. Auch Messfehler kann man auf Grund des zentralen Grenzwertsatzes als normalverteilt annehmen. Beispiel 16 (Anwendung des zentralen Grenzwertsatzes) Eine Labormaschine fülle Flüssigkeit in n = 36 Reagenzgläser ein. Mit einer Streuung σ = 0, 12g erreicht die Maschine einen mittleren Abfüllwert von µ = 1g. Die 36 Proben werden nun in einen einzigen Erlenmeyerkolben gefüllt. Mit welcher Wahrscheinlichkeit weicht die Endmenge höchstens um 1g vom Zielwert ab? Mögen die Zufallsvariablen Xi , i = 1, . . . , 36 die Füllmengen in den 36 Reagenzgläsern beschreiben. Dann beschreibt die Zufallsvariable Y = X1 + X2 + . . . + Xn die Endmenge. Wir haben also P [35 ≤ Y ≤ 37] zu berechnen. 37 35 ≤ X̄n ≤ P [35 ≤ Y ≤ 37] = P 36 36 " # 35 37 − 1 − 1 X̄n − 1 = P 360,12 ≤ 0,12 ≤ 360,12 √ 36 = P −1, 389 ≤ √ 36 ∗ X̄n ≤ √ 36 1, 389 ≈ 0, 8354, da gemäß dem zentralen Grenzwertsatz X̄n∗ annähernd standardnormalverteilt ist. Kapitel 3 Induktive Statistik Wir haben im vorigen Kapitel gesehen, dass Wahrscheinlichkeitsräume und die darauf definierten Zufallsvariablen mathematische Modelle zur Beschreibung zufallsbedingter Eigenschaften von Grundgesamtheiten darstellen. Basierend auf diesen Modellen ist es nun mit den Methoden der induktiven Statistik möglich, ausgehend von Stichproben quantitative Aussagen über die Grundgesamtheit zu machen. 3.1 Schätzverfahren Allgemein gilt, dass eine Grundgesamtheit durch eine Zufallsvariable X und deren Verteilung beschrieben wird. Bezeichne etwa Ω die Gesamtheit der Einwohner einer Stadt; die normalverteilte Zufallsvariable X könnte die Körpergröße der Einwohner beschreiben. Als Maßzahlen von X haben wir den Erwartungswert E[X] und die Varianz V [X] kennengelernt. Diese sind a priori unbekannt. Man ist daher bemüht, anhand der Stichprobe den oder die unbekannten Parameter der Grundgesamtheit zu schätzen. In diesem Paragraphen werden wir in einem ersten Schritt Schätzwerte für unsere unbekannten Parameter konstruieren. Ein einzelner Schätzwert enthält aber keine Information darüber, wie sehr er vom wahren“ Parameter abweicht. Des” wegen werden wir in einem zweiten Schritt versuchen, Bereiche anzugeben, die mit hoher Wahrscheinlichkeit den unbekannten Parameter enthalten. 3.1.1 Schätzung von Maßzahlen einer Grundgesamtheit Oft sind gewisse Eigenschaften einer Zufallsvariablen X (etwa der Verteilungstyp) aus Erfahrung bekannt oder ergeben sich aus der Beschreibung des zugrunde liegenden Zufallsexperiments. Die charakteristischen Parameter sind dagegen meist unbekannt. So kann man zum Beispiel leicht nachvollziehen, dass die Anzahl von Kopf beim Werfen einer unfairen Münze durch eine binomialverteilte Zufallsvariable beschrieben werden kann. Es liegt jedoch in der Natur der Sache, dass eine exakte Angabe der Erfolgswahrscheinlichkeit p nicht möglich ist. 53 54 KAPITEL 3. INDUKTIVE STATISTIK Unser Ziel wird nun sein, anhand von Stichprobenwerten Schätzwerte für die unbekannten Parameter zu bestimmen. Seien x1 , x2 , . . . , xn die Ergebnisse einer P Stichprobe vom Umfang n. Es liegt beispielsweise nahe, den Mittelwert x̄ = n1 nj=1 xj als Schätzwert für den Erwartungswert E[X] = µ zu benutzen. Es ist andererseits auch klar, dass eine andere Stichprobe vom Umfang n einen anderen Schätzwert liefern wird. Eine Abbildung θn , die jeder Stichprobe vom Umfang n aus einer Grundgesamtheit einen Schätzwert für eine bestimmte Maßzahl zuordnet, heißt Schätzfunktion (oder Schätzer) für diese Maßzahl. In unserem Beispiel haben wir also folgende Schätzfunktion für den Erwartungswert angenommen: n (x1 , x2 , . . . , xn ) 7→ θn (x1 , x2 , . . . , xn ) = 1X xj . n j=1 (3.1) Die Werte, die die Schätzfunktion in Abhängigkeit von der jeweiligen Stichprobe annimmt, nennt man Schätzwerte. Erwartungstreue Schätzfunktionen Es stellt sich nun natürlich die Frage nach der Güte eines Schätzers. Ein Kriterium, mit dem sich die Güte beurteilen lässt, ist die Erwartungstreue. Offensichtlich gibt ein einzelner Schätzwert den unbekanten Parameter (Maßzahl) nicht exakt wieder. Allerdings sollte die Schätzvorschrift nicht systematisch einen zu hohen oder zu niedrigen Wert liefern. Das Kriterium der Erwartungstreue fordert daher, dass der Erwartungswert der Zufallsvariable, welche alle theoretisch denkbaren Schätzwerte aus den Stichproben des Umfangs n beschreibt, mit dem unbekannten Parameter übereinstimmt. Mathematisch formulieren wir das folgendermaßen: Sei x1 , . . . , xn eine Stichprobe der Länge n. Diese Stichprobe entspricht einer Realisierung (oder Auswertung) des n-Tupels1 (X1 , . . . , Xn ) von n unabhängigen, gleichverteilten Zufallsvariablen X1 , . . . , Xn , die die Verteilung von X besitzen. Deswegen kann man θn (x1 , . . . , xn ) als Realisierung der Zufallsvariable θn (X1 , . . . , Xn ) auffassen. Dem Schätzer des Erwartungswertes (3.1) entspricht also die Zufallsvariable θn (X1 , . . . , Xn ) : Ω × Ω × . . . Ω → n 1X Xj . θn (X1 , . . . , Xn ) = n j=1 Eine Schätzfunktion θn für eine unbekannte Maßzahl κ heißt erwartungstreu bezüglich κ, falls E[θn (X1 , . . . , Xn )] = κ. 1 Das n-Tupel (X1 , . . . , Xn ) ist folgendermaßen definiert: (X1 , . . . , Xn ) : Ω × Ω × . . . Ω → × × ... × (X1 , . . . , Xn )(ω1 , . . . , ωn ) = (X1 (ω1 ), . . . , Xn (ωn )) 3.1. SCHÄTZVERFAHREN 55 Beispiele für erwartungstreue Schätzfunktionen a) Das arithmetische Mittel (3.1) ist eine erwartungstreue Schätzfunktion für den Erwartungswert E[X]. Beweis: Sei µ = E[X] = E[Xj ], j = 1, . . . , n. Dann gilt: # " n n X 1X 1 1 Xj = E[Xj ] = · n · µ = µ. E[θn (X1 , . . . , Xn )] = E n j=1 n j=1 n b) Die empirische Varianz n θn (x1 , . . . , xn ) = 1 X (xj − x̄)2 n − 1 j=1 ist eine erwartungstreue Schätzfunktion für die Varianz V [X]. Beweis: Sei wieder µ = E[X] = E[Xj ] und σ 2 = V [X] = V [Xj ], j = 1, . . . , n. Zu zeigen ist also: # " n 1 X (Xj − X̄n )2 = σ 2 E n − 1 j=1 Berechne zuerst n n X X (Xj − X̄n )2 = (Xj2 − 2 · Xj · X̄n + X̄n2 ) j=1 = j=1 n X Xj2 j=1 = n X Xj2 j=1 − 2n − Pn j=1 Xj | 2nX̄n2 n {z X̄n + } ·X̄n + nX̄n2 = n X j=1 n X j=1 X̄n2 Xj2 − nX̄n2 . Es gilt also: " n # " n # X X 2 2 2 E (Xj − X̄n ) = E Xj − nX̄n j=1 j=1 = n X j=1 E[(Xj − µ + µ)2 ] − nE[(X̄n − µ + µ)2 ] 2 2 = E[(Xj − µ ) + µ ] − nE[(X̄n − µ )2 + µ2 ] |{z} |{z} j=1 n X = n X j=1 E[Xj ] V [Xj ] + nµ2 − nV [X̄n ] − nµ2 = nσ 2 − n σ2 = (n − 1)σ 2 n E[X̄n ] 56 KAPITEL 3. INDUKTIVE STATISTIK Dabei haben wir verwendet, dass für eine Zufallsvariable X mit E[X] = µ gilt E[X − µ] = E[X] − µ = 0. 3.1.2 Intervallschätzungen Im vorigen Paragraphen haben wir mithilfe einer Schätzfunktion aus den Daten einer Stichprobe einen Schätzwert für den unbekannten Parameter bestimmt. Um nun Anhaltspunkte bezüglich der Genauigkeit der Schätzung zu gewinnen, konstruieren wir aus den Daten der Stichprobe ein so genanntes Konfidenzintervall (oder Vertrauensbereich). Man hofft, bei diesem Verfahren ein Intervall zu erhalten, das den gesuchten Parameter überdeckt. Es ist allerdings nicht auszuschließen, dass die Daten der Stichprobe ein Intervall erzeugen, das daneben liegt“ und das den ge” suchten Parameter nicht enthält. Diese Irrtumswahrscheinlichkeit wird vor der Bestimmung des Konfidenzintervalls festgelegt. Sie wird mit α bezeichnet und beträgt üblicherweise 5%, in besonderen Fällen auch 1% oder 0,1%. Generell gibt es bei der Konstruktion eines Konfidenzintervalls zwei Möglichkeiten. • Mit der Wahrscheinlichkeit 1−α erhält man ein Intervall, das den unbekannten Parameter enthält. Der Wert 1 − α wird als Konfidenzwahrscheinlichkeit (oder Konfidenzniveau) bezeichnet. Für α = 5% z. B. beträgt die Konfidenzwahrscheinlichkeit 95%. • Mit der Wahrscheinlichkeit α erhält man ein Intervall, das den unbekannten Parameter nicht enthält. Konfidenzintervalle für den Erwartungswert Zur Bestimmung des Konfidenzintervalls für den Erwartungswert einer Zufallsvariablen X erinnern wir uns zuerst, dass der Mittelwert eine erwartungstreue Schätzfunktion für den Erwartungswert ist (siehe Beispiel (a.) im vorigen Paragraph). Als nächstes wollen wir festzustellen, in welchen Bereichen die Werte von x̄ mit großer Wahrscheinlichkeit zu erwarten sind. Dazu bemerken wir, dass alle theoretisch denkbaren Mittelwerte, die sich aus Stichproben des Umfangs n ergeben, Realisierungen der Zufallsvariablen n 1X X̄n = Xj . n j=1 sind. Dabei sind X1 , . . . , Xn unabhängige Kopien der Zufallsvariable X. Auf Grund des zentralen Grenzwertsatzes ist X̄n annähernd normalverteilt (zumindest für genügend große n), mit Erwartungswert µ und Standardabweichung √σn . Für die Konstruktion des Konfidenzintervalls werden wir in einem ersten Schritt annehmen, σ sei bekannt. Sei z1− α2 so, dass " P −z1− α2 ≤ X̄n − µ √σ n ≤ z1− α2 # = 1 − α. (3.2) 3.1. SCHÄTZVERFAHREN z1− α2 wird aus der Bedingung " 57 P −∞ ≤ X̄n − µ √σ n ≤ z1− α2 # =1− α 2 bestimmt. Beispiele für Irrtumswahrscheinlichkeiten α und die entsprechenden Werten von α z1− 2 sind in der folgenden Tabelle angegeben: α 1−α 0,1 0,9 0,05 0,95 0,01 0,99 0,001 0,999 z1− α2 1,645 1,960 2,576 3,291 Durch äquivalentes Umformen der Beziehung (3.2) erhalten wir: σ σ P −z1− α2 · √ ≤ X̄n − µ ≤ z1− α2 · √ = 1 − α. n n Das bedeutet, dass der Abstand zwischen dem Mittelwert x̄ und dem Erwartungswert µ = E[X̄n ] betragsmäßig mit einer Wahrscheinlichkeit von 1 − α unterhalb des Wertes z1− α2 √σn liegt. Anders formuliert: mit der Wahrscheinlichkeit von 1−α fällt der h i σ σ √ √ α α berechnete Mittelwert x̄ der Stichprobe in das Intervall µ − z1− 2 · n , µ + z1− 2 · n , d. h. σ σ µ − z1− α2 · √ ≤ x̄ ≤ µ + z1− α2 · √ . n n Wenn wir von allen Gliedern dieser Ungleichung den Wert µ + x̄ abziehen und dann die Ungleichung mit (−1) multiplizieren erhalten wir: σ σ −x̄ − z1− α2 · √ ≤ −µ ≤ −x̄ + z1− α2 · √ . n n 58 KAPITEL 3. INDUKTIVE STATISTIK σ σ x̄ − z1− α2 · √ ≤ µ ≤ x̄ + z1− α2 · √ . n n Daraus ergibt sich für µ das Konfidenzintervall auf dem Niveau 1 − α (oder mit der Konfidenzwahrscheinlichkeit 1 − α) σ σ x̄ − z1− α2 · √ , x̄ + z1− α2 · √ . n n Beispiel 17 Wir betrachten eine Apfelernte: Das Gewicht der Äpfel wird durch die Zufallsvariable X mit der Standardabweichung σ = 10g und unbekanntem Erwartungswert µ beschrieben. Diesen Erwartungswert gilt es jetzt aus den Daten einer Stichprobe vom Umfang n = 100 zu schätzen Konstruktion des Konfidenzintervalls 1. 100 Äpfel werden gewogen. Wir berechnen x̄ = 142g. 2. Wir wählen die Irrtumswahrscheinlichkeit α = 0, 1. 3. z1− α2 muss erfüllen F0,1 (z1− α2 ) = 1 − α2 = 0, 95. Aus der Tabelle der standardisierten Normalverteilung erhalten wir z1− α2 = 1, 645. 4. Das Konfidenzintervall für µ auf dem Niveau 1 − α = 0, 9 = 90% ist 142 − 10 10 · 1, 645 ≤ µ ≤ 142 + · 1, 645. 10 10 Oder ausgerechnet 140, 355g ≤ µ ≤ 143, 645g. D. h. mit einer Konfidenzwahrscheinlichkeit von 90% enthält das Intervall [140,355; 143,645] den Erwartungswert µ. 3.1. SCHÄTZVERFAHREN 59 Bei den obigen Überlegungen haben wir vorausgesetzt, dass die Standardabweichung σ der Grundgesamtheit bekannt ist. Dies ist aber bei praktischen Untersuchungen fast niemals der Fall. In dieser Situation wählt man die empirische Varianz n s(x)2 = 1 X (xj − x̄)2 n − 1 j=1 als Schätzwert für σ 2 . Nun gehen wir ähnlich wie vorher vor und betrachten die Zufallsvariable X̄n − µ X̄n∗ = σ √ n welche standardnormalverteilt ist. Da σ unbekannt ist, ersetzen wir es durch s(x) und betrachten die Zufallsvariable T = X̄n − µ s(x) √ n . (3.3) T ist nicht normalverteilt. Die korrekte Verteilung heißt Student’sche t-Verteilung mit n − 1 Freiheitsgraden. Die Wahrscheinlichkeitsdichte der t−Verteilung mit n − 1 Freiheitsgraden ist gegeben durch − n2 x2 , n ≥ 2, fn−1 (x) = cn−1 1 + n−1 dabei ist cn−1 ein Normierungsfaktor, so dass R∞ fn−1 (x)dx = 1. −∞ Die Student’sche t-Verteilung ist für alle n ≥ 2 (also auch für kleine Stichprobenumfänge) definiert. Dabei muss allerdings vorausgesetzt werden, dass die Einzelbeobachtungen Xj , aus denen X̄n berechnet wird, normalverteilt sind mit Erwartungswert µ und Varianz σ 2 . Eigenschaften der t-Verteilung: • Die Dichte der t-Verteilung ist symmetrisch um 0, stetig und glockenförmig. (siehe Abb. 3.1). Die t-Verteilung nähert für große n der standardisierten Normalverteilung an. • Die t-Verteilung ist abhängig vom Parameter n − 1, der die Anzahl der Freiheitsgrade angibt. Es existiert also für jeden Umfang n der Stichprobe eine spezielle t-Verteilung mit n − 1 Freiheitsgraden! In Abb. 3.1 ist die Wahrscheinlichkeitsdichte der t-Verteilung, f1 (x) = 1 1 · π 1 + x2 für Stichproben vom Umfang n = 2, d.h. mit n − 1 = 1 Freiheitsgraden, eingezeichnet (durchgezogene Linie). Zum Vergleich ist die Dichte f0,1 der standardisierten 60 KAPITEL 3. INDUKTIVE STATISTIK Abbildung 3.1: Wahrscheinlichkeitsdichte f1 der Student t-Verteilung mit n − 1 = 1 Freiheitsgraden (durchgezogene Linie). Zum Vergleich dazu f0,1 (punktierte Linie). Normalverteilung angegeben (punktierte Linie). Der Erwartungswert der t-verteilten Zufallsvariablen T aus (3.3) ist 0. Die Werte der entsprechenden Verteilungsfunktion sind tabelliert. Ähnlich wie vorhin ergibt sich nun das Konfidenzintervall für µ auf dem Niveau 1 − α aus der Beziehung P −tn−1,1− α2 ≤ T ≤ tn−1,1− α2 = 1 − α. (3.4) Dabei wird tn−1,1− α2 aus der Beziehung α P −∞ ≤ T ≤ tn−1,1− α2 = 1 − 2 bestimmt. Aus (3.4) ergibt sich nun für µ das Konfidenzintervall s(x) s(x) x̄ − tn−1,1− α2 · √ , x̄ + tn−1,1− α2 · √ . n n 3.2 Statistische Tests Die wissenschaftlichen Fortschritte, die ein empirischer Forscher macht, beruhen letzten Endes auf Erkenntnissen, die aus Experimenten gewonnen werden. Aus diesen Erkenntnissen, gepaart mit fachlich-theoretischen Überlegungen, entsteht eine Vermutung und - wenn diese präzise formuliert wird - eine Hypothese. In der Regel ist es nicht möglich, derlei Hypothesen zu beweisen. Ihre Überprüfung erfolgt mit Hilfe statistischer Tests anhand relevanter Daten aus einer oder mehreren Stichproben. Wir wollen nun die Begriffsbildung anhand eines Beispiels aus dem Alltag durchführen: Eine Brauerei besitze eine Abfüllanlage, die in jede Flasche genau 500ml Bier abfüllen soll. Kleinere Abweichungen sind unvermeidlich. 3.2. STATISTISCHE TESTS 61 Es wird also behauptet, dass die Anlage im Mittel 500ml Bier in eine Flasche füllt. In der Sprache der Wahrscheinlichkeitstheorie sei X eine Zufallsvariable, die die Abfüllmenge beschreibt. Dann soll E[X] = 500ml gelten. Diese Aussage soll mittels einer Stichprobe überprüft werden. In der Statistik drückt man das folgendermaßen aus: Zu prüfen ist die Nullhypothese H0 H0 : E[X] = µ0 = 500ml. Um diese Hypothese zu prüfen, bestimmen wir zunächst den Mittelwert x̄ der Stichprobe. Die Frage ist dann: Welche Abweichung des Mittelwertes vom Erwartungswert ist als so signifikant einzustufen, dass die Nullhypothese abgelehnt wird? Die Antwort auf diese Frage kann von der Interessenlage abhängen. Der Verband der Biertrinker etwa wird die Hypothese nur dann ablehnen, wenn im Mittel zu wenig Bier abgefüllt wird. Die Alternativhypothese würde dann lauten: H1 : E[X] < µ0 = 500ml. Bei dieser Art von Alternativhypothesen spricht man von linksseitiger Fragestellung. Hier wird man H0 nur dann ablehnen, wenn der Mittelwert x̄ signifikant kleiner als µ0 ist. Der Bierproduzent andererseits könnte vor allem daran interessiert sein, nicht zu viel Bier abzufüllen. Seine Alternativhypothese wäre dann H1 : E[X] > µ0 ; man spricht von einer rechtsseitigen Fragestellung. Dem Hersteller der Abfüllanlage schließlich könnte vor allem an der Funktionstüchtigkeit der Anlage gelegen sein. Seine Gegenhypothese könnte also H1 : E[X] 6= µ0 lauten; eine zweiseitige Fragestellung. Nullhypothese und Alternativhypothese sind also wichtige Bestandteile eines statistischen Tests. Die Frage, ob einseitig oder zweiseitig getestet wird, hat weniger mit Statistik als mit sachlogischen Überlegungen zu tun. Ein weiterer Bestandteil ist die sogenannte Testgröße (oder Prüfgröße) (in unserem Beispiel der Mittelwert der Stichprobe), die aus den Daten der Stichprobe ermittelt wird. Diese Größe erlaubt es, nach einem festgelegten Verfahren eine objektive und nachvollziehbare Entscheidung zugunsten von einer Hypothese zu treffen. 3.2.1 Annahmebereich. Kritischer Bereich. Fehlerarten. Das Verfahen, welches zur Testentscheidung führt, ist anschaulich beschrieben folgendes: Unter der Annahme der Gültigkeit der Nullhypothese wird ein Intervall bestimmt, in das die Werte der Prüfgröße mit Wahrscheinlichkeit 1 − α fallen. Dieses Intervall heißt Annahmebereich für die Nullhypothese. Mit Wahrscheinlichkeit 62 KAPITEL 3. INDUKTIVE STATISTIK α liegen die Werte der Prüfgröße außerhalb dieses Intervalls, dieser Bereich wird kritischer Bereich (oder Ablehnungsbereich für die Nullhypothese) genannt. Die Wahrscheinlichkeit α heißt Signifikanzniveau und hat üblicherweise den Wert α = 5%. Bei besonderen Fragestellungen wählt man auch α = 1% oder α = 0, 1%, hin und wieder α = 10%. Der Wert von α sollte vor der Durchführung des Tests bestimmt werden. Dadurch ist gewährleistet, dass keine willkürlichen oder subjektiven Entscheidungen getroffen werden. Entscheidungsregel • Wenn die Prüfgröße in den Annahmebereich fällt, entscheidet man sich für die Nullhypothese. Man formuliert die Entscheidung: Die Nullhypothese wird angenommen“ oder ” Die Nullhypothese kann auf dem Signifikanzniveau α nicht verworfen werden“ ” oder Es ergibt sich kein Widerspruch zur Nullhypothese“. ” • Wenn die Prüfgröße im kritischen Bereich liegt, entscheidet man sich für die Alternativhypothese. Ein solches Ergebnis heißt (in Abhängigkeit vom α) schwach-signifikant (α = 10%), signifikant (α = 5%), hoch-signifikant (α = 1%) oder höchst-signifikant (α = 0, 1%). Man formuliert die Entscheidung als: Die Nullhypothese wird verworfen“ oder ” Die Alternativhypothese wird angenommen“. ” Fehlerarten Die Testentscheidung hängt von der Prüfgröße ab; diese wiederum wird aus den Stichprobenwerten ermittelt. Es ist deshalb möglich, dass das Testverfahren im Einzelfall zu einer Fehlentscheidung führt. Wenn in Wirklichkeit die Nullhypothese richtig ist und man sich fälschlicherweise für die Alternativhypothese entscheidet, liegt ein Fehler 1. Art oder α-Fehler vor. Ein Fehler 1. Art ist leider nicht vermeidbar, aber er ist kontrollierbar, denn dieser Fehler kann nur bei Gültigkeit der Nullhypothese auftreten, und diese ist eindeutig formuliert. Die Wahrscheinlichkeit für einen Fehler 1. Art ist höchstens α. Nun ist auch umgekehrt möglich, dass in Wirklichkeit die Alternativhypothese richtig ist, und man sich fälschlicherweise für die Nullhypothese entscheidet. In diesem Fall begeht man ein β−Fehler oder Fehler 2. Art. Dieser lässt sich im Gegensatz zum α-Fehler kaum abschätzen, da die Alternativhypothese nicht explizit gebeben ist. In der nachstehenden Tabelle werden die möglichen Situationen übersichtlich zusammengefasst: Wirklichkeit H0 richtig H0 richtig H1 richtig H1 richtig Testentscheidung H0 wird angenommen H1 wird angenommen H0 wird angenommen H1 wird angenommen Fehlerart kein Fehler Fehler 1. Art Fehler 2. Art kein Fehler (3.5) 3.2. STATISTISCHE TESTS 3.2.2 63 Test des Erwartungswertes einer normalverteilten Grundgesamtheit Sei X normalverteilt mit unbekanntem Erwartungswert µ = E[X] und unbekannter Varianz σ 2 = V [X]. X1 , X2 , . . . , Xn seien unabhängige Kopien vom X und x1 , x2 , . . . , xn seien Stichprobendaten. Die Hypothesen lauten (bei 2-seitiger Fragestellung): H0 : H1 : E[X] = µ0 E[X] 6= µ0 Nullhypothese Alternativhypothese. Wir wählen ein festes Signifikanzniveau α. Aufgrund der Voraussetzungen dieses Tests und unter Annahme der Nullhypothese ist die Zufallsvariable X̄n − µ0 (3.6) T = s(x) √ n t−verteilt mit n − 1 Freiheitsgraden. Es gilt also: P tn−1, α2 ≤ T ≤ tn−1,1− α2 = 1 − α. Ist also die Nullhypothese richtig, so produziert T mit Wahrscheinlichkeit 1 − α Werte im Intervall [tn−1, α2 , tn−1,1− α2 ]. Dieses ist der Annahmebereich für die Nullhypothese. Mit der Wahrscheinlichkeit α fallen die Werte von T in dem Bereich (−∞, tn−1, α2 ) ∪ (tn−1,1− α2 , ∞). Dies ist der kritische Bereich. Nach der Vorschrift (3.6) berechnet man aus den Daten der Stichprobe die Prüfgröße t: x̄ − µ0 t = s(x) . (3.7) √ n Es gilt folgende Entscheidungsregel: Falls die Prüfgröße t ∈ / [tn−1, α2 , tn−1,1− α2 ] oder s(x) s(x) äquivalent x̄ ∈ / [µ0 + tn−1, α2 · √n , µ0 + tn−1,1− α2 · √n ] (d. h. x̄ weicht stark von µ0 ab), so wird die Nullhypothese auf Signifikanzniveau α abgelehnt. Bei einseitiger Fragestellung formuliert man die Hypothesen als: H0 : H1 : µ = µ0 µ < µ0 (bzw. µ > µ0 ). Unter der Nullhypothese gilt nun P [−tn−1,1−α ≤ T < ∞] = 1 − α # X̄n − µ0 P −tn−1,1−α ≤ s(x) < ∞ = 1 − α " √ n s(x) P µ0 − tn−1,1−α · √ ≤ X̄n < ∞ = 1 − α. n 64 KAPITEL 3. INDUKTIVE STATISTIK Daraus ergibt sich der Annahmebereich für die Nullhypothese [−tn−1,1−α , ∞), denn √ , ∞), x̄ ist also nicht viel kleiner t ∈ [−tn−1,1−α , ∞) bedeutet x̄ ∈ [µ0 − tn−1,1−α · s(x) n als µ0 . Analog erhält man im Falle der rechtsseitigen Fragestellung µ > µ0 den Annahmebereich (−∞, tn−1,1−α ]. Beispiel 18 Aus der Fachliteratur ist bekannt, dass das durchschnittliche Geburtsgewicht gesunder Kinder nach einer unauffällig verlaufenen Schwangerschaft µ0 = 3500g beträgt. Ein Mediziner möchte statistisch absichern, dass Babys von Raucherinnen im allgemeinen weniger wiegen. Dazu werden 20 Babys herangezogen, deren Mütter stark rauchen. Es wird ein mittleres Geburtsgewicht von x̄ = 3280g mit einer Streuung von 490g ermittelt. Der Unterschied zu µ0 beträgt also im Durchschnitt 220g. Ist dieses Ergebnis eine Bestätigung für die Vermutung des Artztes? Oder ist der Unterschied zufällig bedingt und hat ansonsten keine Bedeutung? Da man davon ausgehen kann, dass - falls ein Unterschied existiert - das durchschnittliche Gewicht der Raucher-Babys geringer ist als der Sollwert, verwendet man die einseitige Fragestellung mit den Hypothesen H0 : µ = 3500g H1 : µ < 3500g. Als Prüfgröße ergibt sich nach (3.7) t= 3280 − 3500 490 √ 20 = −2, 008. Mit n − 1 = 19 und α = 5% erhalten wir tn−1,1−α = t19;0,95 = 1, 729. Der Annahmebereich ist [−1, 729; ∞). Der kritische Bereich ist (−∞; −1, 729). Da t = −2, 008 ∈ / [−1, 729; ∞), ist das Ergebnis signifikant; d. h. die Alternativhypothese wird angenommen. 3.2.3 t-Test auf Lageunterschied bei verbundenen Stichproben Dies ist ein Test, der zur Überprüfung der Gleichheit von zwei Erwartungswerten herangezogen wird. Er setzt voraus: zwei verbundene Stichproben des Umfangs n mit Wertepaaren {xj }, {yj }, j = 1, . . . , n, die aus Grundgesamtheiten mit den Erwartungswerten µ1 und µ2 stammen. Die Hypothesen lauten bei zweiseitiger Fragestellung: H0 : µ 1 = µ 2 H1 : µ1 6= µ2 3.2. STATISTISCHE TESTS 65 bzw. bei einseitiger Fragestellung H1 : µ1 < µ2 (oder µ1 > µ2 ). Um diese Hypothesen zu überprüfen, betrachten wir die Differenzen Dj = Yj − Xj , j = 1, . . . , n. Es wird vorausgesetzt, dass die Zufallsvariablen Dj normalverteilt sind mit unbekannten µ und σ. Unsere Hypothesen lassen sich wie folgt umformulieren: H0 : H1 : bzw. H1 : µ = E(D̄n ) = µ2 − µ1 = 0 µ 6= 0 (zweiseitige Fragestellung) µ < 0 (oder µ > 0) (einseitige Fragestellung) Wir wählen wieder ein festes Signifikanzniveau α. Die Zufallsvariable T = D̄n − 0 s(d) √ n n , 1 X ¯ 2, (dj − d) mit s(d) = n − 1 j=1 2 ist t−verteilt mit n − 1 Freiheitsgraden. Die Prüfgröße t berechnet sich dann aus den Daten d¯ t = s(d) . √ n Der Annahmebereich für die Nullhypothese ist dann [−tn−1,1− α2 , tn−1,1− α2 ] [−tn−1,1−α , ∞) (−∞, tn−1,1−α ] bei zweiseitiger Fragestellung bei linksseitiger Fragestellung bei rechtsseitiger Fragestellung Anwendung bei der Untersuchung der hormonellen Regulation des Lipidstoffwechsels bei Insekten (Grundpraktikum C, Teil 4) Wenn Wanderheuschrecken (Locusta migratoria) zu ihren Wanderschaften aufbrechen, müssen sie als Brennstoff für den Flug aus ihren Fettreserven eine bestimmte Art von Fett, Diglyzeride, mobilisieren. Das funktioniert so, dass eine bestimmte Drüse im Kopf ein Hormon ausschüttet (adipokinetisches Hormon), und dieses Hormon setzt Diglyzeride aus den Fettreserven frei. Um diese hormonelle Regulation nachzuweisen wird in einem Versuch mit 4 Heuschrecken die Diglyzeridkonzentration in der Hämolymphe (Blut der Insekten) vor und nach einer Injektion des adipokinetischen Hormons gemessen. Es wird untersucht, ob die Konzentration nach der Hormonverabreichung ansteigt. Mithilfe einer statistischen Analyse soll nun beurteilt werden, ob die Änderung der Diglyzeridkonzentration von vor Hormon“ nach nach Hormon“ signifikant ist oder ” ” nicht. Aus dem Experiment erhalten wir zwei Messreihen: 66 KAPITEL 3. INDUKTIVE STATISTIK Abbildung 3.2: Die Wanderheuschrecke (Locusta migratoria) • xj , j = 1, . . . , 4 beschreibt die Werte der DG-Konzentration vor der Hormonverabreichung und • yj , j = 1, . . . , 4 gibt die entsprechende Konzentration nach der Hormonverabreichung an. 1 2 3 4 11 23 20 11 62 49 69 49 P d¯ = 14 4j=1 dj = 41 51 26 49 38 P ¯ 2 = 132, 7 10 -15 8 -3 s(d)2 = 31 4j=1 (dj − d) Probe j xj (ng/ml) yj (ng/ml) dj = yj − xj dj − d¯ Da uns in diesem Fall die Erhöhung der Lipidkonzentration interessiert, betrachten wir folgende rechtsseitige Fragestellung H0 : H1 : µ = E[D̄n ] = 0 µ>0 Nullhypothese Alternativhypothese Wähle α = 0, 05 = 5%. Die Prüfgröße berechnet sich nach der Vorschrift t= d¯ s(d) √ 4 41 =q 132,7 4 =√ 41 41 ≈ 7, 12. ≈ 5, 76 33, 18 Der Annahmebereich der Nullhypothese ist (−∞, t3;0,95 ] = (−∞; 2, 353]. Da 7, 12 ∈ / (−∞; 2, 353] ist das Ergebnis signifikant; d. h. die Alternativhypothese wird angenommen. 3.2. STATISTISCHE TESTS 67 Anhang 1: Werte von F0,1 (y) y .00 .01 .02 .03 .04 .05 .06 .07 .08 .09 .0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.8413 0.8643 0.8849 0.9032 0.9192 0.9332 0.9452 0.9554 0.9641 0.9713 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9987 0.9990 0.9993 0.9995 0.9997 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9864 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.9995 0.9997 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8686 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9987 0.9991 0.9994 0.9995 0.9997 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9082 0.9236 0.9370 0.9484 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.9996 0.9997 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7995 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9977 0.9984 0.9988 0.9992 0.9994 0.9996 0.9997 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7422 0.7734 0.8023 0.8289 0.8531 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.9996 0.9997 0.5239 0.5636 0.6026 0.6406 0.6772 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9994 0.9996 0.9997 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8078 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9989 0.9992 0.9995 0.9996 0.9997 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.9996 0.9997 0.5359 0.5753 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8621 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 0.9997 0.9998 68 KAPITEL 3. INDUKTIVE STATISTIK Anhang 2: Kritische Werte der t-Verteilung mit n − 1-Freiheitsgraden n − 1 tn−1;0,9 1 3,078 2 1,886 3 1,638 4 1,533 5 1,476 6 1,440 7 1,415 8 1,397 9 1,383 10 1,372 11 1,363 12 1,356 13 1,350 14 1,345 15 1,341 16 1,337 17 1,333 18 1,330 19 1,328 20 1,325 21 1,323 22 1,321 23 1,319 24 1,318 25 1,316 26 1,315 27 1,314 28 1,313 29 1,311 ∞ 1,282 tn−1;0,95 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,645 tn−1;0,975 12,76 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 1,960 tn−1;0,99 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,326 tn−1;0,995 63,657 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,576 n−1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 ∞ Kapitel 4 Lösen von linearen Gleichungssystemen 4.1 Motivation: Lösungen einer Substanz Beispiel 19 Sie haben 100ml 30 %igen Alkohol. Wieviel ml 96 %igen Alkohol müssen Sie zusetzen, um 40 %igen Alkohol zu erhalten? Sei x die Menge des 96 %igen Alkohols, die dazugegeben werden muss. Dann gilt 100 · 30 + x · 96 = (100 + x) · 40 96x − 40x = −3000 + 4000 56x = 1000 1000 [ml]. x= 56 4.2 (4.1) Lineare (quadratische) Gleichungssysteme Die Gleichung (4.1) ist eine lineare Gleichung mit einer Unbekannten. Derartige Gleichungen sind Spezialfälle von linearen Gleichungsystemen von n Gleichungen mit n Unbekannten. Die allgemeine Form eines solchen Systems ist a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 ................................ ai1 x1 + ai2 x2 + . . . + ain xn = bi ................................ an1 x1 + an2 x2 + . . . + ann xn = bn (4.2) Dabei sind die Koeffizienten aij , i = 1, . . . , n, j = 1, . . . , n und die rechten Seiten bi , i = 1, . . . , n gegebene reelle Zahlen. xj ∈ R, j = 1, . . . , n sind die unbekannten Größen. Wir wollen als nächstes eine Methode zur Lösung des linearen Gleichungssystems (4.2) kennenlernen. Bevor wir uns aber mit dem allgemeinen Fall befassen, betrachten wir einige Beispiele. 69 70 KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN Beispiel 20 (Unlösbares System) 2x1 + 2x2 = 10 x1 + x2 = 1 (4.3) Wir sehen sofort, dass dieses System keine Lösung besitzt, denn für eine Lösung müsste aus der ersten Gleichung gelten x1 + x2 = 5. Dies steht aber im Widerspruch zur zweiten Gleichung in (4.3). Beispiel 21 (Unbestimmtes System) 2x1 + 2x2 = 10 x1 + x2 = 5 (4.4) Es ist leicht zu sehen, dass dieses System unendlich viele Lösungen besitzt, nämlich alle Paare (x1 , x2 ), für welche gilt x1 + x2 = 5. Beispiel 22 (Eindeutig lösbares System) 2x1 + 2x2 + 5x3 = 27 6x2 − 10x3 = 0 3x3 = 9 (4.5) Um dieses System zu lösen, fangen wir bei der dritten Gleichung an und erhalten sofort x3 = 3. Dann setzen wir in die zweite Gleichung den bekannten Wert von x3 = 3 ein und erhalten 10 · 3 = 5. x2 = 6 Schließlich setzen wir in die erste Gleichung x2 = 5 und x3 = 3 ein und berechnen x1 = 27 − 2 · 5 − 5 · 3 = 1. 2 Eine Lösung des Systems (4.5) ist also (x1 , x2 , x3 ) = (1, 5, 3). Aus dem Lösungsverfahren ist klar, dass diese auch die einzige Lösung ist. Die obigen Beispiele zeigen, dass lineare Gleichungssysteme nicht immer eindeutig lösbar sind. Mit der allgemeinen Lösungstheorie linearer Gleichungssysteme werden wir uns allerdings erst im nächsten Semester befassen. Im Rahmen dieser Vorlesung werden wir eine Lösungsmethode kennenlernen, die unter der Voraussetzung der eindeutigen Lösbarkeit angewendet werden kann. 4.2. LINEARE (QUADRATISCHE) GLEICHUNGSSYSTEME 4.2.1 71 Gaußsche Eliminationsmethode Die Gaußsche Eliminationsmethode besteht darin, dass man das System (4.2) durch geeignete Umformungen in ein sogenanntes gestaffeltes System, d. h. ein System der Form (4.6) oder (4.8) umwandelt. Dieses System wird dann rekursiv gelöst. Betrachten wir zunächst folgendes gestaffelte System: r11 x1 + r12 x2 + . . . r22 x2 + . . . .. . + r1n xn = c1 + r2n xn = c2 (4.6) rnn xn = cn In dem Beispiel (4.5) haben wir bereits ein gestaffeltes System der Form (4.6) gelöst. Wir wollen nun den Lösungsalgorithmus für den allgemeinen Fall (4.6) aufschreiben. Offenbar erhalten wir (x1 , x2 , . . . , xn ) durch rekursive Auflösung beginnend mit der Zeile n: xn = xn−1 = .. . x1 = cn , rnn cn−1 − rn−1,n xn , rn−1,n−1 falls rnn 6= 0 falls rn−1,n−1 6= 0 c1 − r12 x2 − . . . − r1n xn , r11 falls r11 6= 0. Diese Auflösung gestaffelter Systeme heißt Rückwärtssubstitution. Der angegebene Algorithmus ist genau dann anwendbar, wenn rii 6= 0, für alle i = 1, . . . , n. (4.7) Wir werden im nächsten Semester sehen, dass (4.7) eine notwendige und hinreichende Bedingung für die eindeutige Lösbarkeit des Systems (4.6) ist. Vollkommen analog lässt sich ein gestaffeltes System der Form l11 x1 l21 x1 + l22 x2 ln1 x1 + ln2 x2 .. . + ... = c1 = c2 (4.8) + lnn xn = cn lösen, indem man in der ersten Zeile beginnt und sich zur letzten Zeile durcharbeitet. Diese Auflösung heißt Vorwärtssubstitution. Wir kehren nun zurück zu dem allgemeinen System (4.2) und versuchen, es in ein gestaffeltes umzuformen. Die erste Zeile muss dazu nicht verändert werden. Die restlichen Zeilen wollen wir so behandeln, dass die Koeffizienten vor x1 verschwinden, d. h. die Variable x1 aus den Zeilen 2 bis n eliminiert wird. So entsteht ein System 72 KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN der Art a11 x1 + a12 x2 + . . . + a1n xn = b1 a022 x2 + . . . + a02n xn = b02 .. . (4.9) a0n2 x2 + . . . + a0nn xn = b0n Haben wir das erreicht, so können wir dasselbe Verfahren auf die letzten n−1 Zeilen anwenden und so rekursiv ein gestaffeltes System erhalten. Es genügt daher den ersten Eliminationsschritt von (4.2) nach (4.9) zu untersuchen. Wir setzen voraus a11 6= 0. (Falls diese Bedingung nicht erfüllt ist, vertauschen wir die erste Zeile mit einer Zeile aus dem System (4.2) für welche ai1 6= 0.) Um den Term ai1 x1 in der Zeile i (i = 2, . . . , n) zu eliminieren, subtrahieren wir von der Zeile i ein Vielfaches der unveränderten Zeile 1 und erhalten (ai1 − li1 a11 ) x1 + (ai2 − li1 a12 ) x2 + . . . + (ain − li1 a1n ) xn = bi − li1 bi , | {z } | {z } {z } {z } | | =0 =a0i2 =a0in i = 2, . . . , n =b0i i1 Aus ai1 − li1 a11 = 0 folgt sofort li1 = aa11 , i = 2, . . . , n. Damit ist der erste Eliminationsschritt unter der Annahme a11 6= 0 ausführbar. In der Zeilen 2 bis n bleibt nach diesem ersten Schritt ein (n − 1, n − 1)− ”Restsystem“ stehen. Darauf wenden wir die Eliminationsvorschrift erneut an. Beispiel 23 : Löse das System 2x1 + 7x2 4x1 + 14x2 x1 + 3x2 10x1 + 5x2 + 9x3 + 8x3 + 5x3 − x3 + x4 + 3x4 − 3x4 − 4x4 = 1 = 6 = −13 = −1 Wir wollen also die Terme mit x1 aus der 2., 3. und 4. Zeile eliminieren. Dazu multipliziere Zeile 1 mit 2 und subtrahiere sie von Zeile 2, multipliziere Zeile 1 mit 21 und subtrahiere sie von Zeile 3, multipliziere Zeile 1 mit 5 und subtrahiere sie von Zeile 4: 2x1 + 7x2 + 9x3 + x4 = 1 − 10x3 + x4 = 4 − 0, 5x + 0, 5x − 3, 5x = −13, 5 2 3 4 − 30x2 − 46x3 − 9x4 = −6 Da der Koeffizient von x2 in der und dritte Zeile: 2x1 + 7x2 − 0, 5x2 − 30x2 2-ten Zeile a22 = 0 ist, vertauschen wir die zweite + 9x3 + 0, 5x3 − 10x3 − 46x3 + x4 − 3, 5x4 + x4 − 9x4 = 1 = −13, 5 = 4 = −6 4.3. BERECHNEN VON KONZENTRATIONEN 73 Nun multiplizieren wir die 2. Zeile mit 60 und subtrahieren sie von der 4. Zeile: 2x1 + 7x2 + 9x3 + x4 = 1 − 0, 5x2 + 0, 5x3 − 3, 5x4 = −13, 5 − 10x3 + x4 = 4 − 76x3 + 201x4 = 804 Multipliziere jetzt noch die 3. Zeile mit 7,6 2x1 + 7x2 + 9x3 − 0, 5x2 + 0, 5x3 − 10x3 und subtrahiere sie von der 4. Zeile: + − + x4 3, 5x4 x4 193, 4x4 = 1 = −13, 5 = 4 = 773, 6 Daraus berechnen wir nun durch Rückwärtssubstitution: x4 = 773, 6 = 4. 193, 4 Aus der dritten Gleichung berechnen wir x3 : x3 = 4−4 4 − x4 = =0 10 10 Aus der zweiten Gleichung folgt: x2 = −13, 5 − 0, 5 · 0 + 3, 5 · 4 −13, 5 − 0, 5x3 + 3, 5x4 = = −1 −0, 5 −0, 5 Zum Schluss wird x1 ausgerechnet: x1 = 1 − 7x2 − 9x3 − x4 1 − 7 · (−1) − 9 · 0 − 4 = =2 2 2 Die Lösung des Systems ist also (x1 , x1 , x1 , x1 ) = (2, −1, 0, 4). 4.3 Berechnen von Konzentrationen Aufgabe: Es sind zwei Lösungen vorhanden. In der ersten Lösung sind 40% Methanol und 20% Formaldehyd enthalten. In der zweiten Lösung sind 30% Methanol und 10% Formaldehyd enthalten. Welche Mengen der beiden Lösungen und Wasser müssen zusammengemischt werden, um 1 Liter Endlösung mit 15% Methanol und 6% Formaldehyd zu erhalten? Lösung: Um die benötigten Mengen zu berechnen, bezeichnen wir mit x = Menge [in Liter] der ersten Lösung die nötig ist y = Menge [in Liter] der zweiten Lösung die nötig ist 74 KAPITEL 4. LÖSEN VON LINEAREN GLEICHUNGSSYSTEMEN z = Menge [in Liter] Wasser die nötig ist Diese drei Mengen sollen sich zu 1 Liter addieren, d. h. x+y+z =1 Die Menge von Methanol in eine Lösung, die durch das Zusammenmischen von x Liter der ersten Lösung, y Liter der zweiten Lösung und z Liter Wasser entsteht, berechnet sich zu: x · 40% + y · 30% + z · 0%. Diese Methanolmenge stellt 15% von 1 Liter Endlösung dar. Wir erhalten also die Gleichung: 40x + 30y = 15. Analog ergibt die Bilanz der Formaldehydmenge in 1 Liter Endlösung die Gleichung: 20x + 10y = 6. Wir erhalten also das Gleichungssystem: x + 40x + 20x + y + 30y 10y z = 1 = 15 = 6 Um ein gestaffeltes Gleichungssystem zu erhalten, eliminieren wir die Unbekannte y aus der dritten Gleichung. D. h. wir multiplizieren die zweite Gleichung mit 31 und subtrahieren sie von der dritten Gleichung. x + 40x + 20 x 3 y + 30y z = 1 = 15 = 1 Wir erhalten also als Lösung unserer Aufgabe: 3 20 3 15 − 40 · 20 6 y = = 30 20 6 11 3 − = z = 1− 20 20 20 x = 3 Es müssen also 20 Liter Methanol, sammengemischt werden. 6 20 Liter Formaldehyd und 11 20 Liter Wasser zu- Bemerkung 7 Es ist von vornerein klar, dass eine Lösung (x, y, z) dieser Aufgabe die Nebenbedingungen 0 ≤ x ≤ 1, 0 ≤ y ≤ 1, 0≤z≤1 erfüllen muss. Deswegen muss man am Ende noch ueberprüfen, ob die erhaltene Lösung auch zulässig“ ist. ”