Document

Werbung
Mathematik für MolekularbiologInnen
Vorlesung VII
Block III: Wahrscheinlichkeit und Statistik
Verteilungen und Lagemaßzahlen
Übersicht
• Allgemeine Definitionen
• Beziehung und Visualisierung von Daten –
Regression, Fehlerbetrachtung
•Häufigkeitsverteilungen (Konzept und Begriffe)
• Lagemaßzahlen (Mittelwert u. a.)
• Streuungsmaße (Standardabweichung u. a.)
• Kurvenmaße für Verteilungen
Verteilungen
Häufigkeitsverteilungen
(deskriptive Statistik)
Wahrscheinlichkeitsverteilungen
(Wahrscheinlichkeitstheorie)
Häufigkeitsverteilungen
Beispiel: Gewicht von 100 männlichen Schülern/Studenten
Konzept und Grundbegriffe
• Eine Urliste ist die numerisch ungeordnete Sammlung von Daten einer Gruppe.
Ein Beispiel für eine Urliste ist die eine alphabetische Liste von 100 männlichen Schülern,
deren Gewicht man ermittelt hat.
• Eine Verteilungstafel ist die Anordnung numerischer Daten nach ihrer Größe
(d.h. steigend oder fallend sortiert). Die Differenz zwischen kleinstem und größtem
Wert nennt man Spannweite/Variationsbreite der Daten.
Beispielsweise beträgt die Spannweite 14 kg, wenn unter den Schülern das kleinste Gewicht
60 kg und das größte 74 kg beträgt.
• Eine Häufigkeitsverteilung wird aus der Verteilungstafel erhalten, indem Teile
des Datensatzes in Klassen oder Kategorien zusammengefasst werden.
Die Klassifizierung erfolgt i. A. numerisch, und den numerischen Bereich (die
Definition) einer Klasse nennt man Klassenintervall. Für jedes Intervall wird
angegeben, wie viele Daten in die jeweilige Klasse gehören. Diese Angabe wird
als Klassenhäufigkeit bezeichnet.
Häufigkeitsverteilungen
Konzept und Grundbegriffe
• Die Klassengrenzen entsprechen den angegebenen Endzahlen des Klassenintervalls
Ist beispielsweise die erste Klasse der Häufigkeitsverteilung von Schülern durch das
Klassenintervall 60 – 62 kg definiert, so beträgt die untere Klassengrenze 60 kg und
die obere Grenze 62 kg
• Die Klassenränder oder wahren Klassengrenzen sind die numerischen Grenzen
eines Intervalls unter Berücksichtigung der Zahlengenauigkeit.
Im oberen Beispiel symbolisiert die Angabe 60 kg unter Annahme einer Genauigkeit von 1 kg
(letzte Stelle) den Bereich von 59,5 bis 60,5 (60,49) kg (62 kg entsprechend 61,5 – 62,5 kg).
Folglich beträgt der untere Klassenrand 59,5 kg und der obere Klassenrand 62,5 kg
• Der Klassenrand zwischen zwei Intervallen lässt sich auch als Mittelwert zwischen
der Obergrenze einer Klasse und der Untergrenze der nächsthöheren Klasse finden.
60-62 kg
63-65 kg
Der Klassenrand zwischen den Intervallen beträgt (62 + 63) kg / 2 = 62,5 kg
Häufigkeitsverteilungen
Konzept und Grundbegriffe
• Die Klassenbreite oder Klassengröße ist die Differenz zwischen oberem und
unterem Klassenrand.
60-62 kg
63-65 kg
für die erste Klasse beträgt die Breite (62,5 – 59,5) kg = 3 kg,
für die zweite (65,5 – 62,5) kg, also ebenfalls 3 kg
• Sind die Klassen einer Häufigkeitsverteilung alle gleich breit, dann ist die Breite
– gleich der Differenz aufeinanderfolgender Unter- oder Obergrenzen
– gleich der Gesamtbreite geteilt durch die Anzahl von Klassen
In unserem Beispiel beträgt die Spannweite 14 kg (74 kg – 60 kg), und es soll 5 Klassen geben.
Die äußeren Klassenränder betragen 59,5 und 74,5 kg. Die Gesamtbreite der Verteilung
beträgt 15 kg, die Breite der einzelnen Klassen also 3 kg.
Häufigkeitsverteilungen
Konzept und Grundbegriffe
Klassenbreite: Falls keine weiteren Angaben gegeben sind, gilt die Faustregel
nach Sturges zur Bestimmung der Klassenbreite:
b
V
1  3,32  lg( n)
n...Stichprobe numfang , V ...Variations breite ( Spannweite )
Bestimmung der Klassenbreite unter
Berücksichtigung der
Standardabweichung nach Scott :
b
3,49  s
3
n
s... St andardabweichung ,
Wichtig ist die Beachtung des Kontextes, welche Klassenzahl und Klassenbreite
sinnvoll ist (viele Klassen, mehr Information, weniger Übersichtlichkeit…).
Die Klassenmitte ist der Mittelpunkt einer Klasse und
berechnet sich als Mittelwert der Klassengrenzen (bzw. der
Klassenränder).
Für die ersten beiden Klassen unserer Verteilung betragen die
Mittelpunkte 61 kg und 64 kg
60-62 kg
63-65 kg
Häufigkeitsverteilungen
Beispiel I: Eine Häufigkeitsverteilung
aufstellen und visualisieren
• Aufgabe:
Gegeben ist eine Urliste von ProteinExpressions-Ansätzen, zeitlich geordnet
(Probe A – Probe T). Observable ist die
Ausbeute, gerundet auf die nächsten 10 μg.
Stellen Sie eine Häufigkeitsverteilung der
Protein-Ausbeute auf.
Zunächst wird die Urliste numerisch
aufsteigend sortiert.
Man ermittelt die Spannweite (letzter minus
erster Wert nach der Sortierung) und
bestimmt das Klassenintervall für eine
geeignete Anzahl von Klassen.
1 - Urliste
2 - Verteilungstafel
Probe
Ausbeute [μg]
Probe
Ausbeute [μg]
A
430
H
200
B
890
F
310
C
660
R
380
D
640
A
430
E
940
L
460
F
310
G
470
G
470
K
520
H
200
O
540
I
760
S
600
J
670
D
640
K
520
C
660
L
460
J
670
M
1190
T
700
N
820
Q
730
O
540
I
760
P
1030
N
820
Q
730
B
890
R
380
E
940
S
600
P
1030
T
700
M
1190
Häufigkeitsverteilungen
2 - Verteilungstafel
Probe
Ausbeute [μg]
H
200
F
310
R
380
A
430
L
460
G
470
K
520
O
540
S
600
D
640
C
660
J
670
T
700
Q
730
I
760
N
820
B
890
E
940
P
1030
M
1190
3 - Häufigkeitsverteilung
• Wegen
der
Rundung
der
Ausgangsdaten beträgt die Genauigkeit
der letzten Stelle ±5 μg (statt ±0,5 μg)
• Die Daten-Spannweite beträgt 990 μg,
entsprechend einer Gesamtbreite von
1000 μg (1195 – μg 195 μg).
• Wir wählen 5 Klassen mit einer Breite
von jeweils 200 μg.
V
b
 188
1  3,32  lg(n)
• Prinzipiell können entweder die
Klassengrenzen oder die Klassenränder
für die Intervalle angegeben werden
Klasse
Häufigkeit
Klassenmitte
195 –
395 μg
3
295
395 –
595 μg
5
495
595 –
795 μg
7
695
795 –
995 μg
3
895
995 –
1195 μg
2
1095
Häufigkeitsverteilungen
4- Histogramm und Häufigkeitspolygon zeichnen
• Ein Histogramm ist ein Stab- oder
Balkendiagramm mit folgenden Eigenschaften:
- jeder Balken repräsentiert die Klasse einer
Häufigkeitsverteilung
- die Grundseiten dieser Rechtecke liegen auf
der x-Achse, zentriert auf dem
jeweiligen Klassenmittelpunkt
- die Breite eines Balkens ist die Klassenbreite
(d.h. die Balken liegen lückenlos nebeneinander)
- die Fläche eines Balkens ist proportional zur
Klassenhäufigkeit; bei gleich breiten Intervallen
wird daher die Rechteck-Höhe der jeweiligen
Häufigkeit gleichgesetzt
Häufigkeit
Klassenmitte
3
295
5
495
7
695
3
895
2
1095
Klassenmitte
Häufigkeitsverteilungen
Histogramm und Häufigkeitspolygon
• Ein Häufigkeitspolygon ist ein
Liniendiagramm
- Die zu verbindenden Punkte haben die
Klassenmittelpunkte als x-Koordinaten und
die Werte der Klassenhäufigkeiten als yKoordinaten
- vom Histogramm zum Häufigkeitspolygon
gelangt man also, indem die Mittelpunkte
der Balken-Oberkanten miteinander
verbunden werden
Es werden für das Polygon zwei
zusätzliche Klassen mit Häufigkeit null
ergänzt, so dass seine Fläche gleich der
Summe der Rechteckflächen im
Histogramm ist.
Häufigkeitsverteilungen
Eine Häufigkeitsverteilung graphisch visualisieren
•Ausgehend von der Verteilung aus Beispiel I (Proteinexpression), zeichnen Sie ein
Histogramm und ein Häufigkeitspolygon
• Lösung:
Histogramm
Häufigkeitspolygon
Häufigkeitsverteilungen
Kumulative und relative Häufigkeitsverteilungen
• Werden alle Klassenhäufigkeiten bis einschließlich
einer gegebenen Klasse (bis zum oberem Klassenrand)
summiert, dann liegt eine kumulative Verteilung
(vom Typ „kleiner als“) vor
• Die Summation kann auch dergestalt erfolgen,
dass alle Häufigkeiten beginnend mit dem
unteren Rand einer Klasse, hin zu größeren
Klassen betrachtet werden (Typ „oder größer“)
• Kumulative Verteilungen werden als
kumulatives Häufigkeitspolygon, kurz
Summenkurve, dargestellt. Die Kurve ist
ansteigend für den Typ „kleiner als“ und
abfallend für den Typ „oder größer“
Klasse
Häufigkeit
195 – 395 μg
3
395 – 595 μg
5
595 – 795 μg
7
795 – 995 μg
3
995 – 1195 μg
2
Häufigkeitsverteilungen
Kumulative und relative Häufigkeitsverteilungen
• Von absoluten zu relativen Häufigkeitsverteilungen gelangt man, indem die
jeweilige Klassenhäufigkeit oder kumulative Häufigkeit durch die Gesamthäufigkeit
der Verteilung geteilt wird
• Sowohl Histogramme als auch Summenkurven haben für relative Verteilungen die
selbe Gestalt wie für absolute, lediglich die Häufigkeitsachse (Ordinate) des
Diagramms wird vom absoluten auf den relativen Maßstab umgestellt
Klasse
Häufigkeit
195 – 395 μg
3
395 – 595 μg
5
595 – 795 μg
7
795 – 995 μg
3
995 – 1195 μg
2
Häufigkeitsverteilungen
Beispiel II: Absolute und relative Summenkurve
• Aufgabe:
Ausgehend von der Verteilung aus Beispiel I (Proteinexpression), stellen Sie die
entsprechende kumulative Verteilung sowohl als absolute als auch relative Summenkurve
vom Typ „kleiner als“ dar.
• Lösung:
Zunächst ermitteln wir die absoluten Summen der Klassenhäufigkeiten aller Klassen bis
einschließlich der jeweils betrachteten.
Die Gesamthäufigkeit der Verteilung ist gleich der kumulativen Häufigkeit der höchsten
Klasse, also 20 (da wir 20 Expressionsproben betrachtet hatten).
Zur Berechnung relativer Häufigkeiten muss folglich durch 20 geteilt werden
Häufigkeit
Klasse
Häufigkeit
kumulativ
195 – 395 μg
3
kleiner als 395 μg
3
15%
395 – 595 μg
5
kleiner als 595 μg
8
40%
595 – 795 μg
7
kleiner als 795 μg
15
75%
795 – 995 μg
3
kleiner als 995 μg
18
90%
995 – 1195 μg
2
kleiner als 1195 μg
20
100%
absolut
relativ
Häufigkeitsverteilungen
Beispiel II: Absolute und relative Summenkurve
• Die Daten werden nun als Summenkurve aufgetragen
– die x-Koordinate eines jeden Punktes ist der obere Klassenrand (wir beginnen wie
beim Häufigkeitspolygon eine Klasse früher, mit Häufigkeit null)
– die y-Koordinate ist die jeweilige kumulative Häufigkeit (absolut bzw. relativ)
Häufigkeitsverteilungen
Verteilungskurven und Glättung
• Handelt es sich bei der Urliste um den Datensatz einer Grundgesamtheit mit
vielen Beobachtungen, dann kann man die Klassenintervalle sehr klein wählen
und dennoch in jeder Klasse eine erfassbare Zahl von Beobachtungen erhalten.
• die Verteilungspolygone für absolute und kumulative Häufigkeit nehmen dann,
da sie in sehr viele kleine Strecken zerfallen, die Form einer Kurve an.
• Die Häufigkeitsverteilung selbst einer kleinen repräsentativen Stichprobe sollte
die Verteilung der Grundgesamtheit korrekt wiederspiegeln. Daher ist die
Approximation einer Kurve durch Glättung prinzipiell gerechtfertigt.
• Je größer der Stichprobenumfang, desto besser ist die Annäherung an die
Kurvenform.
Häufigkeitsverteilungen
Typen von Häufigkeitsverteilungen und ihre Kurvenform
Lagemaßzahlen/Lokationsparamter
Durchschnitte als Lagemaßzahlen
• In der Umgangssprache wird der Begriff „Durchschnitt“ gelegentlich mit
dem arithmetischen Mittel gleichgesetzt. In der Statistik ist ein
Durchschnitt ein repräsentativer Wert, der in der Mitte einer Menge
numerisch geordneter Daten liegt, also eine „Lagemaßzahl“.
• Es gibt mehrere Arten von Durchschnitten. Jede dieser Lagemaßzahlen
wird anders bestimmt, und jede hat ihren bestimmten Zweck, Vor- und
Nachteil.
• Die gebräuchlichsten Lagemaßzahlen sind das arithmetische, das
geometrische und das quadratische Mittel, der Median und der Modus
Lagemaßzahlen
Das arithmetische Mittel (arithmetic mean)
• Das arithmetische Mittel X („X quer“) wird auch als Mittelwert bezeichnet
N
X 
X
i 1
Mittelwert = Summe der Werte
geteilt durch Anzahl der Werte
i
N
• Kommen K verschiedene Werte X i mit den ganzzahligen Häufigkeiten f i vor, dann
K
K
gilt:
fX
f X  f X  ...  f K X K
X  1 1 2 2

f1  f 2  ...  f K
i 1
K

i 1
i
fi
i

fX
i 1
i
i
N
• Sind die Werte X i mit Gewichtungsfaktoren w i (ggf. als Bruchzahlen) versehen,
dann gilt:
N
w X  w2 X 2  ...  wN X N
X  1 1

w1  w2  ...  wN
w X
i 1
N
i
w
i 1
i
i
gewichtetes arithmetisches
Mittel
Lagemaßzahlen
Beispiel I: Arithmetisches Mittel
• Aufgabe:
Die prozentualen Ausbeuten verschiedener Protein-Expressions-Ansätze (bezogen auf
eine maximale Ausbeute) betragen 40, 55, 75, 50, 40, und 75%.
a) Berechnen Sie den Mittelwert der Protein-Ausbeute
b) Berechnen Sie einen gewichteten Mittelwert unter der Annahme, dass aufgrund von
Messfehlern dem ersten Experiment nur die halbe Zuverlässigkeit, dem letzten jedoch
die doppelte Zuverlässigkeit gegeben werden kann
• Lösung:
2  40  55  2  75  50
335
a) X 

 55,8%
2 1 2 1
6
K
X 
fX
i
i 1
i
N
N
0,5  40  55  75  50  40  2  75
390

 60%
b) X 
0,5  1  1  1  1  2
6,5
X 
w X
i 1
N
i
w
i 1
i
i
Lagemaßzahlen
Quadratisches, geometrisches und harmonisches Mittel
• Das in den Naturwissenschaften vielfach verwendete quadratische Mittel (Q.M.),
englisch root-mean-squares (r.m.s.), berechnet sich als Wurzel des Mittelwertes
von quadrierten Einzelwerten (größere Werte haben mehr Einfluß als kleine):
z.B: Berechnung in der Elektrophysik (Spannungsspitzen)
N
Q.M . 
X
2

2
X
 i
i 1
N

1
N
N
X
i 1
2
i
• Das geometrische Mittel G von N Werten ist die N-te Wurzel ihres Produkts (z.B.:
z. B.: Berechnung des mittleren Wachstumsfaktor einer Bakterienkultur):
G 
N
X 1  X 2  X 3  ...  X N 
N
N
X
i
i 1
• Das harmonische Mittel H von N Werten ist der Kehrwert des arithmetischen
Mittels der einzelnen Kehrwerte 1/X i :
1
N
z.B: Berechnung einer durchschnittlichen Geschwindigkeit,
wenn nicht stündlich, sondern nach Strecke gemessen wird.
H 
1
N
N
1

i 1 X i

N
1

i 1 X i
Lagemaßzahlen
• Das harmonische Mittel H von N Werten ist der Kehrwert des arithmetischen
Mittels der einzelnen Kehrwerte 1/X i :
1
N
z.B: Berechnung einer durchschnittlichen Geschwindigkeit,
wenn nicht stündlich, sondern nach Strecke gemessen wird.
H 
1
N
N
1

i 1 X i

N
1

i 1 X i
Vgl. Beobachtungsmerkmale wie z.B. „Geschwindigkeit“ (Dichte=m/V, Stromstärke = U/R), hat z.B. im
Zähler die Dimension „Länge“ und im Nenner die Dimension „Zeit“. Bei solchen Merkmalen können
die Beobachtungen die Dimension des Zählers oder des Nenners aufweisen. Haben sie die Dimension
des Zählers („Länge“), ist das harmonische Mittel heranzuziehen, haben sie die Dimension des
Nenners („Zeit“) ist das arithmetische Mittel heranzuziehen.
Beispiel: Ein Fahrzeug fährt die ersten 100 km mit 150km/h, weitere 100 km mit 50km/h.
Was ist die durchschnittliche Geschwindigkeit und die durchschnittliche Fahrzeit pro 100 km
(Berechnung der durchschnittlichen Geschwindigkeit über das harmonische Mittel)?
𝐻=
𝑁
𝑁 1
1 𝑋
𝑖
=
200
200
200
200
=
=
=
= 75
100 100 100 100 2
8
+
+
3+2
3
150 50
150 50
Antwort: Die durchschnittliche Geschwindigkeit beträgt 75 km/h, die durchschnittliche Fahrzeit
pro 100 km beträgt also (1/75)*100=1,33h.
Lagemaßzahlen
Beispiel II: Vergleich von Mittelwert-Typen
Aufgabe: Ausgehend von den Ausbeute-Werten aus Beispiel I (Die prozentualen
Ausbeuten verschiedener Protein-Expressions-Ansätze betragen 40, 55, 75, 50, 40, und
75%.), arithmetisches Mittel: 55,8%
berechnen Sie: a) quadratisches, b) geometrisches und c) harmonisches Mittel
• Lösung:
a)
b)
c)
Q.M . 
2  402  552  2  752  502

2 1 2 1
G 
H 
6
19975
 57,7%
6
40  40  55  75  75  50  54,0%
6
1
1
1
1
1
1

   
40 40 55 75 75 50
• Üblicherweise gilt: H  G  X
 Q.M .
 52,2%
H = G = X = Q.M.,
wenn alle X i gleich sind
Lagemaßzahlen
Der Median (Zentralwert, engl. median)
• Der Median wird auf sortierte Datenwerte angewandt. Bei N Daten ist der Median
– die Zahl in der Mitte der Liste (z.B. Häufigkeitstafel), wenn N ungerade ist
– der Mittelwert der beiden Zahlen in der Mitte, wenn N gerade ist
• für sortierte, nicht-klassierte Daten:
bei N ungerade:
Median

X N 1
2
bei N gerade:
Median 

1
XN  XN 
1 
2  2
2

• Der Median ist ein besseres Maß für einen Durchschnitt von Werten, wenn
„Ausreißer“ das arithmetische Mittel verfälschen würden
• Geometrisch betrachtet markiert der Median die Senkrechte auf der x-Achse, die
ein Histogramm in zwei flächengleiche Hälften teilt
Lagemaßzahlen
Der Median
• Der Median wird auf sortierte Datenwerte angewandt.
• Der Median ist ein besseres Maß für einen Durchschnitt von Werten, wenn
„Ausreißer“ das arithmetische Mittel verfälschen würden
• Für gruppierte (klassierte) Daten, z.B. Häufigkeitsverteilungen, berechnet sich der
Median als
N
 (f )1
Median  L1  2
c
f MK
(
mit:
)
L1 = unterer Rand der medianen Klasse
c = Breite der medianen Klasse
N = Gesamt-Anzahl der Datenwerte
fMK = Häufigkeit der medianen Klasse
(Σ f)1 = Summe der Häufigkeiten aller Klassen, die kleiner als die mediane sind
• Geometrisch betrachtet markiert der Median die Senkrechte auf der x-Achse, die
ein Histogramm in zwei flächengleiche Hälften teilt
Lagemaßzahlen
Der Modus (engl. mode; häufigster Wert)
• Der Modus von N Werten ist der am häufigsten vorkommende Wert.
– kommen alle Werte nur einmal vor, existiert kein Modus.
– gibt es zwei Werte, die häufiger als alle anderen vorkommen, dann ist der
Modus nicht eindeutig
• Bei gruppierten Daten, z.B. Häufigkeitsverteilungen, gibt der Modus die Lage des
Maximums der Verteilungskurve bzw. des Histogramms an. Er berechnet sich als:
Modus  L1 
(    ) c
1
1
mit:
2
L1 = unterer Rand der modalen Klasse
c = Breite der modalen Klasse
∆1 = Überschuss der modalen Häufigkeit über die der nächst kleineren Klasse
∆2 = Überschuss der modalen Häufigkeit über die der nächst größeren Klasse
• hat eine Häufigkeitsverteilung ein Maximum, nennt man sie unimodal;
bei 2 und mehr Maxima bimodal, multimodal (vgl. Folie 22)
Lagemaßzahlen
Zusammenhang zwischen Mittelwert, Median und Modus
• Bei symmetrischen Verteilungen fallen alle drei Lagemaßzahlen zusammen
• Bei unimodalen, mäßig asymmetrischen Verteilungen gilt:
Mittelwert – Modus = 3 ∙ (Mittelwert - Median)
Bsp: Lagemaßzahlen - Häufigkeitsverteilungen
1 - Urliste
2 - Verteilungstafel
Probe
Ausbeute [μg]
Probe
Ausbeute [μg]
A
430
H
200
B
890
F
310
C
660
R
380
D
640
A
430
E
940
L
460
F
310
G
470
G
470
K
520
H
200
O
540
I
760
S
600
J
670
D
640
K
520
C
660
L
460
J
670
M
1190
T
700
N
820
Q
730
O
540
I
760
P
1030
N
820
Q
730
B
R
380
S
T
3 - Häufigkeitsverteilung
• Wegen der Rundung der Ausgangsdaten
beträgt die Genauigkeit der letzten Stelle
±5 μg (statt ±0,5 μg)
• Die Daten-Spannweite beträgt 990 μg,
entsprechend einer Gesamtbreite von
1000 μg (1195 – μg 195 μg).
• Wir wählen 5 Klassen mit einer Breite
von jeweils 200 μg.
• Prinzipiell können entweder die
Klassengrenzen oder die Klassenränder
für die Intervalle angegeben werden
Klasse
Häufigkeit
200–– 395
390μg
μg
195
3
400–– 595
590μg
μg
395
5
890
600–– 795
790μg
μg
595
7
E
940
800–– 995
990μg
μg
795
3
600
P
1030
1000
1190 μg
μg
995 –– 1195
2
700
M
1190
Lagemaßzahlen
Beispiel III: Vergleich von Mittelwert, Median und Modus
• Aufgabe:
Ausgehend von der Häufigkeitsverteilung des Beispiels auf vorigen Folien, berechnen
Sie: a) Mittelwert, b) Modus und c) Median der Daten-Werte
• Lösung:
K
a) Mittelwert:
Wir verwenden die Formel:
für die 5 Klassen (j)
und erhalten:
X 
X 

j 1
K
fjX j
f
j 1
Klasse
Häuf.
195 – 395
3
395 – 595
5
595 – 795
7
795 – 995
3
995 – 1195
2
j
3  295  5  495  7  695  3  895  2 1095
 655
20
• Berechnet man das arithmetische Mittel aller einzelnen (ungruppierten) 20 Werte, dann
erhält man als Ergebnis 647. Die Abweichung des Mittelwerts für die gruppierten Daten
erklärt sich damit, dass die 5 Klassenmitten nicht exakt die Mittelwerte der jeweiligen
Werte in der Klasse sind, was wiederum mit der geringen Datenzahl erklärbar ist.
Lagemaßzahlen
Beispiel III: Vergleich von Mittelwert, Median und Modus
b) Wir verwenden die Formel
1
Modus  L1 
c
1   2
(
)
Klassenbreite c=200; die modale Klasse ist offensichtlich #3
(f = 7). Also ist L1 = 595, ∆1 = 2 und ∆2 = 4
Wir erhalten:
Modus  595  (
Klasse
Häuf.
195 – 395
3
395 – 595
5
595 – 795
7
795 – 995
3
995 – 1195
2
2
) 200  595  1  200  662
24
3
c) Wir verwenden die Formel
N
 (f )1
2
Median  L1 
c
f MK
(
)
Die mediane Klasse sollte ebenfalls #3 sein, da die beiden anderen Lagemaßzahlen
dort liegen. Also ist L1 = 595, c = 200, fMK = 7 und (Σ f)1 = 3 + 5 = 8
Wir erhalten:
Median  595 
(107 8) 200  595  72  200  652
• Berechnet man den Median als Mittelwert von X10 und X11 in der sortierten Liste, dann ergibt
sich Median = (660 – 640) / 2 = 650, was einer recht guten Übereinstimmung entspricht
Lagemaßzahlen
Beispiel III: Vergleich von Mittelwert, Median und Modus
Die Tatsache, dass der Median (652) kleiner als
der Modus (662) ist, spricht für eine leicht
linksschiefe Verteilung, was auch mit einer
groben Kurven-Approximation übereinstimmt.
Allerdings würden wir den Mittelwert dann bei
3
( Median  Modus)
2
3
 (652  662)  647
2
X 
(statt bei 655) erwarten, was auch exakt dem
„ungruppiert“ berechneten Wert entspricht.
Kurvenmaße
Schiefe einer Verteilungskurve
• Die Schiefe (skewness) einer Verteilungskurve wird quantifiziert, indem man die
Abweichung zwischen Mittelwert und Modus durch die Standardabweichung
teilt bzw. das auf die dritte Potenz der Standardabweichung bezogene zentrale
3
N
Moment 3. Ordnung
x

x


skew    i

s 
i 1 
• Die Schiefe ist offensichtlich null für symmetrische Häufigkeitsverteilungen,
da der Modus mit dem Mittelwert zusammenfällt
Ist „skew >0“, so ist die Verteilung rechtsschief, ist „skew <0“, ist die Verteilung
linksschief (left tail longer)
Faustregel für Modus, Median und arithmetisches Mittel (gilt nicht immer!!!):
* rechtsschiefe Häufigkeitsverteilung: Modus < Median < arithmetisches Mittel
* linksschiefe Häufigkeitsverteilung: Modus > Median > arithmetisches Mittel
* symmetrische Häufigkeitsverteilung: Modus ≈ Median ≈ arithmetisches Mittel
• Vereinfachte Berechnung nach K. Pearson
(Pearson mode oder first skewness coefficient)
Schiefe 
X  Modus
s
Kurvenmaße
Beispiel I: Schiefe einer Verteilungskurve bestimmen
• Aufgabe:
Bestimmen Sie die Schiefe (nach Pearson) der Häufigkeitsverteilung aus dem Beispiel
Proteinausbeute.
X  647
siehe Folie
Modus  662
siehe Folie
s  233
siehe Folie
• Lösung:
Schiefe 
X  Modus
  0,064
s
• Der Wert der Schiefe ist negativ, da es sich um eine linksschiefe Kurve handelt.
Streuungsmaße / Streuungsmaßzahlen
Mittlere Abweichung, Standardabweichung, Varianz
Streuungsmaße
Streuung von Daten
• Das Ausmaß der Abweichung numerischer Daten von Durchschnittswerten wird
als Streuung (spread, dispersion) oder Variation der Daten bezeichnet
• Wie für die Lage gibt es auch für die Streuung verschiedene Maße, welche
unterschiedliche Anwendung finden
Spannweite und mittlere Abweichung
• Die Spannweite (range) einer Menge von Zahlen ist die Differenz zwischen
größtem und kleinstem Zahlenwert (wie bereits früher kennengelernt für die
Häufigkeitstafel)
Beispiel: Die Spannweite der Menge (2, 3, 3, 5, 5, 5, 8, 10, 12) beträgt 12 – 2 = 10
Streuungsmaße
Spannweite und mittlere Abweichung
• Die mittlere Abweichung (mean deviation) (vom arithmetischen Mittel)
berechnet sich analog zum Mittelwert als
N
M . A.  | X  X | 
| X
i 1
i
N
X |
1

N
N
| X
i 1
i
X |
Beispiel: Der Durchschnitt der Menge (2, 3, 6, 8, 11) beträgt 30/5 = 6. Dann ist
|X X | 
| 2  6 |  | 3  6 |  | 6  6 |  | 8  6 |  | 11  6 |
43 0 25

 2,8
5
5
Hinweis: Wird die mittlere Abweichung ohne die Einführung der absoluten Werte
(Beträge) berechnet, würden sich positive und negative Abweichungen gegenseitig
aufheben.
Streuungsmaße
Standardabweichung und Varianz
• Die Standardabweichung s (standard deviation, rmsd) (σ) von N Zahlen ist das
quadratische Mittel der Abweichungen vom arithmetischen Mittel, und wird
daher auch als quadratische mittlere Abweichung bezeichnet
N
s 
2
(
X

X
)
 i
englisch: r.m.s.d
(root mean square deviation)
i 1
N
• Für gruppierte Daten in K Klassen mit den Klassenmitten X j und Häufigkeiten f j
gilt analog zu Eigenschaft 5 des Mittelwerts:
K
s 
f
j 1
j
(X j  X )

K
f
j 1
K
2
j
f
j 1
j
( X j  X )2
N
Streuungsmaße
Beispiel: Standardabweichung einer Häufigkeitsverteilung
• Aufgabe:
Berechnen Sie die Standardabweichung für die Häufigkeitsverteilung des Beispiels auf
Proteinausbeute ( X  647 ).
K
• Lösung:
Zu verwenden ist die Formel:
s 
f
j 1
j
(X j  X )
N
für die 5 Klassen (j) mit dem Mittelwert X  647
2
Klasse
Häufigkeit
195 – 395 μg
3
395 – 595 μg
5
595 – 795 μg
7
795 – 995 μg
3
995 – 1195 μg
2
Man erhält:
3  (295  647) 2  5  (495  647) 2  7  (695  647) 2  3  (895  647) 2  2  (1095  647) 2
s 
20
 233
Streuungsmaße
Standardabweichung und Varianz
• Die Varianz (variance, v) s2 ist das Quadrat der Standardabweichung, also die
Quadratsumme der Abweichungen geteilt durch N, ohne Wurzel.
N
s2 
(X
i 1
i
 X )2
s 
v
N
• Die Standardabweichung kann äquivalent formuliert werden als:
N
s 
X
i 1
N
N
2
i

(
X
i 1
N
i
)
2

1
N
 X
N
i 1
X
2
i
d.h. alternativ lässt sich s über den Mittelwert der Einzelwert-Quadrate und das Quadrat
des Mittelwerts berechnen.
Beispiel: Die Werte (2, 3, 6, 8, 11) mit Mittelwert 6 haben eine Standardabweichung von
s 
22  32  62  82  112
 62 
5
4  9  36  64  121
 36 
5
234
 36  3.3
5
Streuungsmaße
Eigenschaften der Standardabweichung
Bei Normalverteilungen (systematisch behandelt in nächster VL) bestimmt die
Standardabweichung die relative Häufigkeit von Werten innerhalb entsprechender
Bereiche um den Mittelwert
68,27%
X s
X
X s
95,45%
X  2s
X
X  2s
• Die standardisierte Variable z misst die Abweichung eines Wertes vom
Mittelwert in Einheiten der Standardabweichung
X X
z 
s
Beispiel:
z 
19 m  20 m
 1
1m
Einzelne Abweichungen mit dem Betrag von einer Standardabweichung (1 s) sind typisch
für eine Verteilung, während es sich bei mehr als 2 s um „Ausreißer“ handelt (vgl. Normalverteilungs-Häufigkeiten)
Herunterladen