Mathematik für MolekularbiologInnen Vorlesung VII Block III: Wahrscheinlichkeit und Statistik Verteilungen und Lagemaßzahlen Übersicht • Allgemeine Definitionen • Beziehung und Visualisierung von Daten – Regression, Fehlerbetrachtung •Häufigkeitsverteilungen (Konzept und Begriffe) • Lagemaßzahlen (Mittelwert u. a.) • Streuungsmaße (Standardabweichung u. a.) • Kurvenmaße für Verteilungen Verteilungen Häufigkeitsverteilungen (deskriptive Statistik) Wahrscheinlichkeitsverteilungen (Wahrscheinlichkeitstheorie) Häufigkeitsverteilungen Beispiel: Gewicht von 100 männlichen Schülern/Studenten Konzept und Grundbegriffe • Eine Urliste ist die numerisch ungeordnete Sammlung von Daten einer Gruppe. Ein Beispiel für eine Urliste ist die eine alphabetische Liste von 100 männlichen Schülern, deren Gewicht man ermittelt hat. • Eine Verteilungstafel ist die Anordnung numerischer Daten nach ihrer Größe (d.h. steigend oder fallend sortiert). Die Differenz zwischen kleinstem und größtem Wert nennt man Spannweite/Variationsbreite der Daten. Beispielsweise beträgt die Spannweite 14 kg, wenn unter den Schülern das kleinste Gewicht 60 kg und das größte 74 kg beträgt. • Eine Häufigkeitsverteilung wird aus der Verteilungstafel erhalten, indem Teile des Datensatzes in Klassen oder Kategorien zusammengefasst werden. Die Klassifizierung erfolgt i. A. numerisch, und den numerischen Bereich (die Definition) einer Klasse nennt man Klassenintervall. Für jedes Intervall wird angegeben, wie viele Daten in die jeweilige Klasse gehören. Diese Angabe wird als Klassenhäufigkeit bezeichnet. Häufigkeitsverteilungen Konzept und Grundbegriffe • Die Klassengrenzen entsprechen den angegebenen Endzahlen des Klassenintervalls Ist beispielsweise die erste Klasse der Häufigkeitsverteilung von Schülern durch das Klassenintervall 60 – 62 kg definiert, so beträgt die untere Klassengrenze 60 kg und die obere Grenze 62 kg • Die Klassenränder oder wahren Klassengrenzen sind die numerischen Grenzen eines Intervalls unter Berücksichtigung der Zahlengenauigkeit. Im oberen Beispiel symbolisiert die Angabe 60 kg unter Annahme einer Genauigkeit von 1 kg (letzte Stelle) den Bereich von 59,5 bis 60,5 (60,49) kg (62 kg entsprechend 61,5 – 62,5 kg). Folglich beträgt der untere Klassenrand 59,5 kg und der obere Klassenrand 62,5 kg • Der Klassenrand zwischen zwei Intervallen lässt sich auch als Mittelwert zwischen der Obergrenze einer Klasse und der Untergrenze der nächsthöheren Klasse finden. 60-62 kg 63-65 kg Der Klassenrand zwischen den Intervallen beträgt (62 + 63) kg / 2 = 62,5 kg Häufigkeitsverteilungen Konzept und Grundbegriffe • Die Klassenbreite oder Klassengröße ist die Differenz zwischen oberem und unterem Klassenrand. 60-62 kg 63-65 kg für die erste Klasse beträgt die Breite (62,5 – 59,5) kg = 3 kg, für die zweite (65,5 – 62,5) kg, also ebenfalls 3 kg • Sind die Klassen einer Häufigkeitsverteilung alle gleich breit, dann ist die Breite – gleich der Differenz aufeinanderfolgender Unter- oder Obergrenzen – gleich der Gesamtbreite geteilt durch die Anzahl von Klassen In unserem Beispiel beträgt die Spannweite 14 kg (74 kg – 60 kg), und es soll 5 Klassen geben. Die äußeren Klassenränder betragen 59,5 und 74,5 kg. Die Gesamtbreite der Verteilung beträgt 15 kg, die Breite der einzelnen Klassen also 3 kg. Häufigkeitsverteilungen Konzept und Grundbegriffe Klassenbreite: Falls keine weiteren Angaben gegeben sind, gilt die Faustregel nach Sturges zur Bestimmung der Klassenbreite: b V 1 3,32 lg( n) n...Stichprobe numfang , V ...Variations breite ( Spannweite ) Bestimmung der Klassenbreite unter Berücksichtigung der Standardabweichung nach Scott : b 3,49 s 3 n s... St andardabweichung , Wichtig ist die Beachtung des Kontextes, welche Klassenzahl und Klassenbreite sinnvoll ist (viele Klassen, mehr Information, weniger Übersichtlichkeit…). Die Klassenmitte ist der Mittelpunkt einer Klasse und berechnet sich als Mittelwert der Klassengrenzen (bzw. der Klassenränder). Für die ersten beiden Klassen unserer Verteilung betragen die Mittelpunkte 61 kg und 64 kg 60-62 kg 63-65 kg Häufigkeitsverteilungen Beispiel I: Eine Häufigkeitsverteilung aufstellen und visualisieren • Aufgabe: Gegeben ist eine Urliste von ProteinExpressions-Ansätzen, zeitlich geordnet (Probe A – Probe T). Observable ist die Ausbeute, gerundet auf die nächsten 10 μg. Stellen Sie eine Häufigkeitsverteilung der Protein-Ausbeute auf. Zunächst wird die Urliste numerisch aufsteigend sortiert. Man ermittelt die Spannweite (letzter minus erster Wert nach der Sortierung) und bestimmt das Klassenintervall für eine geeignete Anzahl von Klassen. 1 - Urliste 2 - Verteilungstafel Probe Ausbeute [μg] Probe Ausbeute [μg] A 430 H 200 B 890 F 310 C 660 R 380 D 640 A 430 E 940 L 460 F 310 G 470 G 470 K 520 H 200 O 540 I 760 S 600 J 670 D 640 K 520 C 660 L 460 J 670 M 1190 T 700 N 820 Q 730 O 540 I 760 P 1030 N 820 Q 730 B 890 R 380 E 940 S 600 P 1030 T 700 M 1190 Häufigkeitsverteilungen 2 - Verteilungstafel Probe Ausbeute [μg] H 200 F 310 R 380 A 430 L 460 G 470 K 520 O 540 S 600 D 640 C 660 J 670 T 700 Q 730 I 760 N 820 B 890 E 940 P 1030 M 1190 3 - Häufigkeitsverteilung • Wegen der Rundung der Ausgangsdaten beträgt die Genauigkeit der letzten Stelle ±5 μg (statt ±0,5 μg) • Die Daten-Spannweite beträgt 990 μg, entsprechend einer Gesamtbreite von 1000 μg (1195 – μg 195 μg). • Wir wählen 5 Klassen mit einer Breite von jeweils 200 μg. V b 188 1 3,32 lg(n) • Prinzipiell können entweder die Klassengrenzen oder die Klassenränder für die Intervalle angegeben werden Klasse Häufigkeit Klassenmitte 195 – 395 μg 3 295 395 – 595 μg 5 495 595 – 795 μg 7 695 795 – 995 μg 3 895 995 – 1195 μg 2 1095 Häufigkeitsverteilungen 4- Histogramm und Häufigkeitspolygon zeichnen • Ein Histogramm ist ein Stab- oder Balkendiagramm mit folgenden Eigenschaften: - jeder Balken repräsentiert die Klasse einer Häufigkeitsverteilung - die Grundseiten dieser Rechtecke liegen auf der x-Achse, zentriert auf dem jeweiligen Klassenmittelpunkt - die Breite eines Balkens ist die Klassenbreite (d.h. die Balken liegen lückenlos nebeneinander) - die Fläche eines Balkens ist proportional zur Klassenhäufigkeit; bei gleich breiten Intervallen wird daher die Rechteck-Höhe der jeweiligen Häufigkeit gleichgesetzt Häufigkeit Klassenmitte 3 295 5 495 7 695 3 895 2 1095 Klassenmitte Häufigkeitsverteilungen Histogramm und Häufigkeitspolygon • Ein Häufigkeitspolygon ist ein Liniendiagramm - Die zu verbindenden Punkte haben die Klassenmittelpunkte als x-Koordinaten und die Werte der Klassenhäufigkeiten als yKoordinaten - vom Histogramm zum Häufigkeitspolygon gelangt man also, indem die Mittelpunkte der Balken-Oberkanten miteinander verbunden werden Es werden für das Polygon zwei zusätzliche Klassen mit Häufigkeit null ergänzt, so dass seine Fläche gleich der Summe der Rechteckflächen im Histogramm ist. Häufigkeitsverteilungen Eine Häufigkeitsverteilung graphisch visualisieren •Ausgehend von der Verteilung aus Beispiel I (Proteinexpression), zeichnen Sie ein Histogramm und ein Häufigkeitspolygon • Lösung: Histogramm Häufigkeitspolygon Häufigkeitsverteilungen Kumulative und relative Häufigkeitsverteilungen • Werden alle Klassenhäufigkeiten bis einschließlich einer gegebenen Klasse (bis zum oberem Klassenrand) summiert, dann liegt eine kumulative Verteilung (vom Typ „kleiner als“) vor • Die Summation kann auch dergestalt erfolgen, dass alle Häufigkeiten beginnend mit dem unteren Rand einer Klasse, hin zu größeren Klassen betrachtet werden (Typ „oder größer“) • Kumulative Verteilungen werden als kumulatives Häufigkeitspolygon, kurz Summenkurve, dargestellt. Die Kurve ist ansteigend für den Typ „kleiner als“ und abfallend für den Typ „oder größer“ Klasse Häufigkeit 195 – 395 μg 3 395 – 595 μg 5 595 – 795 μg 7 795 – 995 μg 3 995 – 1195 μg 2 Häufigkeitsverteilungen Kumulative und relative Häufigkeitsverteilungen • Von absoluten zu relativen Häufigkeitsverteilungen gelangt man, indem die jeweilige Klassenhäufigkeit oder kumulative Häufigkeit durch die Gesamthäufigkeit der Verteilung geteilt wird • Sowohl Histogramme als auch Summenkurven haben für relative Verteilungen die selbe Gestalt wie für absolute, lediglich die Häufigkeitsachse (Ordinate) des Diagramms wird vom absoluten auf den relativen Maßstab umgestellt Klasse Häufigkeit 195 – 395 μg 3 395 – 595 μg 5 595 – 795 μg 7 795 – 995 μg 3 995 – 1195 μg 2 Häufigkeitsverteilungen Beispiel II: Absolute und relative Summenkurve • Aufgabe: Ausgehend von der Verteilung aus Beispiel I (Proteinexpression), stellen Sie die entsprechende kumulative Verteilung sowohl als absolute als auch relative Summenkurve vom Typ „kleiner als“ dar. • Lösung: Zunächst ermitteln wir die absoluten Summen der Klassenhäufigkeiten aller Klassen bis einschließlich der jeweils betrachteten. Die Gesamthäufigkeit der Verteilung ist gleich der kumulativen Häufigkeit der höchsten Klasse, also 20 (da wir 20 Expressionsproben betrachtet hatten). Zur Berechnung relativer Häufigkeiten muss folglich durch 20 geteilt werden Häufigkeit Klasse Häufigkeit kumulativ 195 – 395 μg 3 kleiner als 395 μg 3 15% 395 – 595 μg 5 kleiner als 595 μg 8 40% 595 – 795 μg 7 kleiner als 795 μg 15 75% 795 – 995 μg 3 kleiner als 995 μg 18 90% 995 – 1195 μg 2 kleiner als 1195 μg 20 100% absolut relativ Häufigkeitsverteilungen Beispiel II: Absolute und relative Summenkurve • Die Daten werden nun als Summenkurve aufgetragen – die x-Koordinate eines jeden Punktes ist der obere Klassenrand (wir beginnen wie beim Häufigkeitspolygon eine Klasse früher, mit Häufigkeit null) – die y-Koordinate ist die jeweilige kumulative Häufigkeit (absolut bzw. relativ) Häufigkeitsverteilungen Verteilungskurven und Glättung • Handelt es sich bei der Urliste um den Datensatz einer Grundgesamtheit mit vielen Beobachtungen, dann kann man die Klassenintervalle sehr klein wählen und dennoch in jeder Klasse eine erfassbare Zahl von Beobachtungen erhalten. • die Verteilungspolygone für absolute und kumulative Häufigkeit nehmen dann, da sie in sehr viele kleine Strecken zerfallen, die Form einer Kurve an. • Die Häufigkeitsverteilung selbst einer kleinen repräsentativen Stichprobe sollte die Verteilung der Grundgesamtheit korrekt wiederspiegeln. Daher ist die Approximation einer Kurve durch Glättung prinzipiell gerechtfertigt. • Je größer der Stichprobenumfang, desto besser ist die Annäherung an die Kurvenform. Häufigkeitsverteilungen Typen von Häufigkeitsverteilungen und ihre Kurvenform Lagemaßzahlen/Lokationsparamter Durchschnitte als Lagemaßzahlen • In der Umgangssprache wird der Begriff „Durchschnitt“ gelegentlich mit dem arithmetischen Mittel gleichgesetzt. In der Statistik ist ein Durchschnitt ein repräsentativer Wert, der in der Mitte einer Menge numerisch geordneter Daten liegt, also eine „Lagemaßzahl“. • Es gibt mehrere Arten von Durchschnitten. Jede dieser Lagemaßzahlen wird anders bestimmt, und jede hat ihren bestimmten Zweck, Vor- und Nachteil. • Die gebräuchlichsten Lagemaßzahlen sind das arithmetische, das geometrische und das quadratische Mittel, der Median und der Modus Lagemaßzahlen Das arithmetische Mittel (arithmetic mean) • Das arithmetische Mittel X („X quer“) wird auch als Mittelwert bezeichnet N X X i 1 Mittelwert = Summe der Werte geteilt durch Anzahl der Werte i N • Kommen K verschiedene Werte X i mit den ganzzahligen Häufigkeiten f i vor, dann K K gilt: fX f X f X ... f K X K X 1 1 2 2 f1 f 2 ... f K i 1 K i 1 i fi i fX i 1 i i N • Sind die Werte X i mit Gewichtungsfaktoren w i (ggf. als Bruchzahlen) versehen, dann gilt: N w X w2 X 2 ... wN X N X 1 1 w1 w2 ... wN w X i 1 N i w i 1 i i gewichtetes arithmetisches Mittel Lagemaßzahlen Beispiel I: Arithmetisches Mittel • Aufgabe: Die prozentualen Ausbeuten verschiedener Protein-Expressions-Ansätze (bezogen auf eine maximale Ausbeute) betragen 40, 55, 75, 50, 40, und 75%. a) Berechnen Sie den Mittelwert der Protein-Ausbeute b) Berechnen Sie einen gewichteten Mittelwert unter der Annahme, dass aufgrund von Messfehlern dem ersten Experiment nur die halbe Zuverlässigkeit, dem letzten jedoch die doppelte Zuverlässigkeit gegeben werden kann • Lösung: 2 40 55 2 75 50 335 a) X 55,8% 2 1 2 1 6 K X fX i i 1 i N N 0,5 40 55 75 50 40 2 75 390 60% b) X 0,5 1 1 1 1 2 6,5 X w X i 1 N i w i 1 i i Lagemaßzahlen Quadratisches, geometrisches und harmonisches Mittel • Das in den Naturwissenschaften vielfach verwendete quadratische Mittel (Q.M.), englisch root-mean-squares (r.m.s.), berechnet sich als Wurzel des Mittelwertes von quadrierten Einzelwerten (größere Werte haben mehr Einfluß als kleine): z.B: Berechnung in der Elektrophysik (Spannungsspitzen) N Q.M . X 2 2 X i i 1 N 1 N N X i 1 2 i • Das geometrische Mittel G von N Werten ist die N-te Wurzel ihres Produkts (z.B.: z. B.: Berechnung des mittleren Wachstumsfaktor einer Bakterienkultur): G N X 1 X 2 X 3 ... X N N N X i i 1 • Das harmonische Mittel H von N Werten ist der Kehrwert des arithmetischen Mittels der einzelnen Kehrwerte 1/X i : 1 N z.B: Berechnung einer durchschnittlichen Geschwindigkeit, wenn nicht stündlich, sondern nach Strecke gemessen wird. H 1 N N 1 i 1 X i N 1 i 1 X i Lagemaßzahlen • Das harmonische Mittel H von N Werten ist der Kehrwert des arithmetischen Mittels der einzelnen Kehrwerte 1/X i : 1 N z.B: Berechnung einer durchschnittlichen Geschwindigkeit, wenn nicht stündlich, sondern nach Strecke gemessen wird. H 1 N N 1 i 1 X i N 1 i 1 X i Vgl. Beobachtungsmerkmale wie z.B. „Geschwindigkeit“ (Dichte=m/V, Stromstärke = U/R), hat z.B. im Zähler die Dimension „Länge“ und im Nenner die Dimension „Zeit“. Bei solchen Merkmalen können die Beobachtungen die Dimension des Zählers oder des Nenners aufweisen. Haben sie die Dimension des Zählers („Länge“), ist das harmonische Mittel heranzuziehen, haben sie die Dimension des Nenners („Zeit“) ist das arithmetische Mittel heranzuziehen. Beispiel: Ein Fahrzeug fährt die ersten 100 km mit 150km/h, weitere 100 km mit 50km/h. Was ist die durchschnittliche Geschwindigkeit und die durchschnittliche Fahrzeit pro 100 km (Berechnung der durchschnittlichen Geschwindigkeit über das harmonische Mittel)? 𝐻= 𝑁 𝑁 1 1 𝑋 𝑖 = 200 200 200 200 = = = = 75 100 100 100 100 2 8 + + 3+2 3 150 50 150 50 Antwort: Die durchschnittliche Geschwindigkeit beträgt 75 km/h, die durchschnittliche Fahrzeit pro 100 km beträgt also (1/75)*100=1,33h. Lagemaßzahlen Beispiel II: Vergleich von Mittelwert-Typen Aufgabe: Ausgehend von den Ausbeute-Werten aus Beispiel I (Die prozentualen Ausbeuten verschiedener Protein-Expressions-Ansätze betragen 40, 55, 75, 50, 40, und 75%.), arithmetisches Mittel: 55,8% berechnen Sie: a) quadratisches, b) geometrisches und c) harmonisches Mittel • Lösung: a) b) c) Q.M . 2 402 552 2 752 502 2 1 2 1 G H 6 19975 57,7% 6 40 40 55 75 75 50 54,0% 6 1 1 1 1 1 1 40 40 55 75 75 50 • Üblicherweise gilt: H G X Q.M . 52,2% H = G = X = Q.M., wenn alle X i gleich sind Lagemaßzahlen Der Median (Zentralwert, engl. median) • Der Median wird auf sortierte Datenwerte angewandt. Bei N Daten ist der Median – die Zahl in der Mitte der Liste (z.B. Häufigkeitstafel), wenn N ungerade ist – der Mittelwert der beiden Zahlen in der Mitte, wenn N gerade ist • für sortierte, nicht-klassierte Daten: bei N ungerade: Median X N 1 2 bei N gerade: Median 1 XN XN 1 2 2 2 • Der Median ist ein besseres Maß für einen Durchschnitt von Werten, wenn „Ausreißer“ das arithmetische Mittel verfälschen würden • Geometrisch betrachtet markiert der Median die Senkrechte auf der x-Achse, die ein Histogramm in zwei flächengleiche Hälften teilt Lagemaßzahlen Der Median • Der Median wird auf sortierte Datenwerte angewandt. • Der Median ist ein besseres Maß für einen Durchschnitt von Werten, wenn „Ausreißer“ das arithmetische Mittel verfälschen würden • Für gruppierte (klassierte) Daten, z.B. Häufigkeitsverteilungen, berechnet sich der Median als N (f )1 Median L1 2 c f MK ( mit: ) L1 = unterer Rand der medianen Klasse c = Breite der medianen Klasse N = Gesamt-Anzahl der Datenwerte fMK = Häufigkeit der medianen Klasse (Σ f)1 = Summe der Häufigkeiten aller Klassen, die kleiner als die mediane sind • Geometrisch betrachtet markiert der Median die Senkrechte auf der x-Achse, die ein Histogramm in zwei flächengleiche Hälften teilt Lagemaßzahlen Der Modus (engl. mode; häufigster Wert) • Der Modus von N Werten ist der am häufigsten vorkommende Wert. – kommen alle Werte nur einmal vor, existiert kein Modus. – gibt es zwei Werte, die häufiger als alle anderen vorkommen, dann ist der Modus nicht eindeutig • Bei gruppierten Daten, z.B. Häufigkeitsverteilungen, gibt der Modus die Lage des Maximums der Verteilungskurve bzw. des Histogramms an. Er berechnet sich als: Modus L1 ( ) c 1 1 mit: 2 L1 = unterer Rand der modalen Klasse c = Breite der modalen Klasse ∆1 = Überschuss der modalen Häufigkeit über die der nächst kleineren Klasse ∆2 = Überschuss der modalen Häufigkeit über die der nächst größeren Klasse • hat eine Häufigkeitsverteilung ein Maximum, nennt man sie unimodal; bei 2 und mehr Maxima bimodal, multimodal (vgl. Folie 22) Lagemaßzahlen Zusammenhang zwischen Mittelwert, Median und Modus • Bei symmetrischen Verteilungen fallen alle drei Lagemaßzahlen zusammen • Bei unimodalen, mäßig asymmetrischen Verteilungen gilt: Mittelwert – Modus = 3 ∙ (Mittelwert - Median) Bsp: Lagemaßzahlen - Häufigkeitsverteilungen 1 - Urliste 2 - Verteilungstafel Probe Ausbeute [μg] Probe Ausbeute [μg] A 430 H 200 B 890 F 310 C 660 R 380 D 640 A 430 E 940 L 460 F 310 G 470 G 470 K 520 H 200 O 540 I 760 S 600 J 670 D 640 K 520 C 660 L 460 J 670 M 1190 T 700 N 820 Q 730 O 540 I 760 P 1030 N 820 Q 730 B R 380 S T 3 - Häufigkeitsverteilung • Wegen der Rundung der Ausgangsdaten beträgt die Genauigkeit der letzten Stelle ±5 μg (statt ±0,5 μg) • Die Daten-Spannweite beträgt 990 μg, entsprechend einer Gesamtbreite von 1000 μg (1195 – μg 195 μg). • Wir wählen 5 Klassen mit einer Breite von jeweils 200 μg. • Prinzipiell können entweder die Klassengrenzen oder die Klassenränder für die Intervalle angegeben werden Klasse Häufigkeit 200–– 395 390μg μg 195 3 400–– 595 590μg μg 395 5 890 600–– 795 790μg μg 595 7 E 940 800–– 995 990μg μg 795 3 600 P 1030 1000 1190 μg μg 995 –– 1195 2 700 M 1190 Lagemaßzahlen Beispiel III: Vergleich von Mittelwert, Median und Modus • Aufgabe: Ausgehend von der Häufigkeitsverteilung des Beispiels auf vorigen Folien, berechnen Sie: a) Mittelwert, b) Modus und c) Median der Daten-Werte • Lösung: K a) Mittelwert: Wir verwenden die Formel: für die 5 Klassen (j) und erhalten: X X j 1 K fjX j f j 1 Klasse Häuf. 195 – 395 3 395 – 595 5 595 – 795 7 795 – 995 3 995 – 1195 2 j 3 295 5 495 7 695 3 895 2 1095 655 20 • Berechnet man das arithmetische Mittel aller einzelnen (ungruppierten) 20 Werte, dann erhält man als Ergebnis 647. Die Abweichung des Mittelwerts für die gruppierten Daten erklärt sich damit, dass die 5 Klassenmitten nicht exakt die Mittelwerte der jeweiligen Werte in der Klasse sind, was wiederum mit der geringen Datenzahl erklärbar ist. Lagemaßzahlen Beispiel III: Vergleich von Mittelwert, Median und Modus b) Wir verwenden die Formel 1 Modus L1 c 1 2 ( ) Klassenbreite c=200; die modale Klasse ist offensichtlich #3 (f = 7). Also ist L1 = 595, ∆1 = 2 und ∆2 = 4 Wir erhalten: Modus 595 ( Klasse Häuf. 195 – 395 3 395 – 595 5 595 – 795 7 795 – 995 3 995 – 1195 2 2 ) 200 595 1 200 662 24 3 c) Wir verwenden die Formel N (f )1 2 Median L1 c f MK ( ) Die mediane Klasse sollte ebenfalls #3 sein, da die beiden anderen Lagemaßzahlen dort liegen. Also ist L1 = 595, c = 200, fMK = 7 und (Σ f)1 = 3 + 5 = 8 Wir erhalten: Median 595 (107 8) 200 595 72 200 652 • Berechnet man den Median als Mittelwert von X10 und X11 in der sortierten Liste, dann ergibt sich Median = (660 – 640) / 2 = 650, was einer recht guten Übereinstimmung entspricht Lagemaßzahlen Beispiel III: Vergleich von Mittelwert, Median und Modus Die Tatsache, dass der Median (652) kleiner als der Modus (662) ist, spricht für eine leicht linksschiefe Verteilung, was auch mit einer groben Kurven-Approximation übereinstimmt. Allerdings würden wir den Mittelwert dann bei 3 ( Median Modus) 2 3 (652 662) 647 2 X (statt bei 655) erwarten, was auch exakt dem „ungruppiert“ berechneten Wert entspricht. Kurvenmaße Schiefe einer Verteilungskurve • Die Schiefe (skewness) einer Verteilungskurve wird quantifiziert, indem man die Abweichung zwischen Mittelwert und Modus durch die Standardabweichung teilt bzw. das auf die dritte Potenz der Standardabweichung bezogene zentrale 3 N Moment 3. Ordnung x x skew i s i 1 • Die Schiefe ist offensichtlich null für symmetrische Häufigkeitsverteilungen, da der Modus mit dem Mittelwert zusammenfällt Ist „skew >0“, so ist die Verteilung rechtsschief, ist „skew <0“, ist die Verteilung linksschief (left tail longer) Faustregel für Modus, Median und arithmetisches Mittel (gilt nicht immer!!!): * rechtsschiefe Häufigkeitsverteilung: Modus < Median < arithmetisches Mittel * linksschiefe Häufigkeitsverteilung: Modus > Median > arithmetisches Mittel * symmetrische Häufigkeitsverteilung: Modus ≈ Median ≈ arithmetisches Mittel • Vereinfachte Berechnung nach K. Pearson (Pearson mode oder first skewness coefficient) Schiefe X Modus s Kurvenmaße Beispiel I: Schiefe einer Verteilungskurve bestimmen • Aufgabe: Bestimmen Sie die Schiefe (nach Pearson) der Häufigkeitsverteilung aus dem Beispiel Proteinausbeute. X 647 siehe Folie Modus 662 siehe Folie s 233 siehe Folie • Lösung: Schiefe X Modus 0,064 s • Der Wert der Schiefe ist negativ, da es sich um eine linksschiefe Kurve handelt. Streuungsmaße / Streuungsmaßzahlen Mittlere Abweichung, Standardabweichung, Varianz Streuungsmaße Streuung von Daten • Das Ausmaß der Abweichung numerischer Daten von Durchschnittswerten wird als Streuung (spread, dispersion) oder Variation der Daten bezeichnet • Wie für die Lage gibt es auch für die Streuung verschiedene Maße, welche unterschiedliche Anwendung finden Spannweite und mittlere Abweichung • Die Spannweite (range) einer Menge von Zahlen ist die Differenz zwischen größtem und kleinstem Zahlenwert (wie bereits früher kennengelernt für die Häufigkeitstafel) Beispiel: Die Spannweite der Menge (2, 3, 3, 5, 5, 5, 8, 10, 12) beträgt 12 – 2 = 10 Streuungsmaße Spannweite und mittlere Abweichung • Die mittlere Abweichung (mean deviation) (vom arithmetischen Mittel) berechnet sich analog zum Mittelwert als N M . A. | X X | | X i 1 i N X | 1 N N | X i 1 i X | Beispiel: Der Durchschnitt der Menge (2, 3, 6, 8, 11) beträgt 30/5 = 6. Dann ist |X X | | 2 6 | | 3 6 | | 6 6 | | 8 6 | | 11 6 | 43 0 25 2,8 5 5 Hinweis: Wird die mittlere Abweichung ohne die Einführung der absoluten Werte (Beträge) berechnet, würden sich positive und negative Abweichungen gegenseitig aufheben. Streuungsmaße Standardabweichung und Varianz • Die Standardabweichung s (standard deviation, rmsd) (σ) von N Zahlen ist das quadratische Mittel der Abweichungen vom arithmetischen Mittel, und wird daher auch als quadratische mittlere Abweichung bezeichnet N s 2 ( X X ) i englisch: r.m.s.d (root mean square deviation) i 1 N • Für gruppierte Daten in K Klassen mit den Klassenmitten X j und Häufigkeiten f j gilt analog zu Eigenschaft 5 des Mittelwerts: K s f j 1 j (X j X ) K f j 1 K 2 j f j 1 j ( X j X )2 N Streuungsmaße Beispiel: Standardabweichung einer Häufigkeitsverteilung • Aufgabe: Berechnen Sie die Standardabweichung für die Häufigkeitsverteilung des Beispiels auf Proteinausbeute ( X 647 ). K • Lösung: Zu verwenden ist die Formel: s f j 1 j (X j X ) N für die 5 Klassen (j) mit dem Mittelwert X 647 2 Klasse Häufigkeit 195 – 395 μg 3 395 – 595 μg 5 595 – 795 μg 7 795 – 995 μg 3 995 – 1195 μg 2 Man erhält: 3 (295 647) 2 5 (495 647) 2 7 (695 647) 2 3 (895 647) 2 2 (1095 647) 2 s 20 233 Streuungsmaße Standardabweichung und Varianz • Die Varianz (variance, v) s2 ist das Quadrat der Standardabweichung, also die Quadratsumme der Abweichungen geteilt durch N, ohne Wurzel. N s2 (X i 1 i X )2 s v N • Die Standardabweichung kann äquivalent formuliert werden als: N s X i 1 N N 2 i ( X i 1 N i ) 2 1 N X N i 1 X 2 i d.h. alternativ lässt sich s über den Mittelwert der Einzelwert-Quadrate und das Quadrat des Mittelwerts berechnen. Beispiel: Die Werte (2, 3, 6, 8, 11) mit Mittelwert 6 haben eine Standardabweichung von s 22 32 62 82 112 62 5 4 9 36 64 121 36 5 234 36 3.3 5 Streuungsmaße Eigenschaften der Standardabweichung Bei Normalverteilungen (systematisch behandelt in nächster VL) bestimmt die Standardabweichung die relative Häufigkeit von Werten innerhalb entsprechender Bereiche um den Mittelwert 68,27% X s X X s 95,45% X 2s X X 2s • Die standardisierte Variable z misst die Abweichung eines Wertes vom Mittelwert in Einheiten der Standardabweichung X X z s Beispiel: z 19 m 20 m 1 1m Einzelne Abweichungen mit dem Betrag von einer Standardabweichung (1 s) sind typisch für eine Verteilung, während es sich bei mehr als 2 s um „Ausreißer“ handelt (vgl. Normalverteilungs-Häufigkeiten)