Statistik - MTA-Schule Ludwigshafen

Statistik
Definition: Statistik ist die Zusammenfassung bestimmter Methoden, um Massenerscheinungen zu
quantifizieren und zu interpretieren.
Man unterscheidet verschiedene Teilgebiete:
Deskriptiv: Beschreibende Statistik
Daten werden in geeigneter Weise beschrieben und zusammengefasst. Darstellung in Tabellen oder
graphischen Diagrammen.
Induktiv: mathematische Statistik
Ableitung von Eigenschaften der Grundgesamtheit aus den Daten einer Stichprobe.
Wahrscheinlichkeitstheorie:
Sie befasst sich mit den mathematisch-theoretischen Gesetzmäßigkeiten, auf denen die Verfahren der
induktiven Statistik beruhen. Anwendungsgebiete: medizinische Statistik, Qualitätssicherung
Induktive Statistik und Wahrscheinlichkeitstheorie werden unter dem Oberbegriff Stochastik
zusammengefasst.
Grundgesamtheit
Stichprobe
Deskriptive Statistik
1.
Induktive Statistik
Geschichte der Statistik
Bis zum 18. Jahrhundert wurde Statistik fast ausschließlich für staatliche und bevölkerungspolitische
Zwecke benutzt. Ethymologie: status – Zustand, statisticum – den Staat betreffend
Im 17. – 19. Jahrhundert wurden erste Lehrstühle für Statistik an deutschen Universitäten eingerichtet.
Statistik galt als Wissenschaft, die die Besonderheiten eines Staates, der Bevölkerung, des Heeres
und des Gewerbes erfassen und beschreiben soll. (deskriptive Statistik).
Des weiteren wurden statistische Methoden benutzt, um Gewinnchancen bei Glücksspielen zu
berechnen. Dadurch wurden bedeutende Mathematiker wie Galileo Galilei (1564 – 1642), Blaise
Pascal (1623 – 1662), Christiaan Huygens (1629 – 1695), Pierre Simon Marquis de Laplace (1749 –
1827) zur Berechnung von Wahrscheinlichkeiten und theoretischen Abhandlungen angeregt. Auch
Carl Friedrich Gauß (1777 – 1855) gehört zu den Mitbegründern der angewandten Statistik
(Gaußsche Normalverteilung).
Die Naturwissenschaft baute nun auf objektiven Beobachtungen und nachvollziehbaren Experimenten
auf. Naturvorgänge wurden nicht mehr nur theologisch oder philosophisch hergeleitet, sondern durch
Naturgesetze erklärt. Dies wirkte sich bald auch auf die Medizin aus.
Beobachtungen am Kranken waren nicht mehr subjektiv, sondern wurden durch objektive Messwerte
ersetzt oder ergänzt. Die Erkenntnisse, die man dadurch gewann, waren nachvollziehbar und
Grundlage für weitere Forschungen. Dadurch entwickelte sich ein besseres Verständnis der Vorgänge
im gesunden und kranken Menschen. Außerdem wurden technische Geräte entwickelt, die die exakte
Messung von physiologischen Parametern erlaubten.
Die Beobachtung zahlreicher Einzelfälle, die lückenlose Aufzeichnung der erhobenen Daten und die
rechnerische Auswertung folgte im 18. Jahrhundert. So begann die Statistik langsam Einzug in die
Medizin zu halten.
Heute herrscht allgemein Konsens, dass die Beobachtung von Individuen und die damit verbundene
Datenanalyse für die medizinische Forschung unverzichtbar sind.
2.
Anwendungen der Statistik in der Medizin
17./18. Jahrhundert:

John Graunt (1620 – 1674) versuchte, aus den Daten der Londoner Geburts- und
Sterberegister Gesetzmäßigkeiten bezüglich der Bevölkerungsentwicklung herzuleiten.

John Arbuthnot (1667 – 1735) widerlegte die These, dass Mädchen- und Jungengeburten
gleich häufig seien.

Edward Jenner (1749 – 1823) belegte statistisch die Wirkung der Kuhpockenimpfung.
19. Jahrhundert:

Pierre Charles Alexandre Louis (1787 – 1872) überprüfte die Wirkung des Aderlasses und wies
mittels statistischer Analysen nach, dass der Aderlass oft nutzlos oder sogar schädlich war.

John Snow (1813 – 1858) entdeckte, dass das Cholera-Risiko in London mit der Aufnahme von
Trinkwasser in Verbindung stand.

Ignaz Philipp Semmelweis (1818 – 1865) bewies den Wert der Händedesinfektion mit der
statistischen Auswertung der Mortalitätsraten der Wöchnerinnenstationen.

Gregor Johann Mendel (1822 – 1884) stellte die Vererbungsgesetze vor, die er statistisch
verifiziert hatte.
20. Jahrhundert:
Es wurden Methoden entwickelt, mit denen sich anhand einer relativ kleinen Stichprobe
allgemeingültige Zusammenhänge und Unterschiede nachweisen lassen. Leistungsfähige Computer
und benutzerfreundliche Software führten zu einer Vereinfachung und Beschleunigung und damit zu
besserer Akzeptanz der Statistik in der Medizin.
3.
Deskriptive Statistik
3.1
Theoretische Grundlagen
Grundgesamtheit: Gesamte Population, auf die sich die Ergebnisse beziehen sollen, statistische
Masse
Total-, Vollerhebung: Auswertung aller Daten der Grundgesamtheit (Bsp.: Todesursachenstatistik)
Stichprobe: Untersuchung einer kleinen Teilmenge
Repräsentativ: die charakteristischen Eigenschaften der Stichprobe stimmen mit denen der
Grundgesamtheit überein (abgesehen von zufälligen Abweichungen).
Urliste: Ergebnis der Stichprobe
Rohdaten: alle in der Urliste enthaltenen Daten
Erhebungsumfang: Anzahl der untersuchten Objekte (Merkmalsträger)
Merkmal: Eigenschaft, die untersucht werden soll (Bsp.: Blutgruppe)
Merkmalsträger: Untersuchungseinheit (Bsp.: Schüler der MTA-Schule)
Merkmalsausprägung: Alle möglichen Werte, die ein Merkmal annehmen kann (Bsp.: Blutgruppe A,
B, O, AB)
Merkmalswert xi (i = 1,2,3,…,n): Beobachteter Wert (Bsp.: Blutgruppe A bei Schüler X)
3.2
Merkmale
3.2.1 Qualitativ
Das Vorhandensein einer Eigenschaft wird beschrieben (Bsp.: Geschlecht, Blutgruppe)
Wenn ein Merkmal nur 2 Ausprägungen haben Kann (Geschlecht), nennt man auch binäres Merkmal.
Qualitative Merkmal können durch Zahlen angeben werden (Bsp.: Geschlecht. M = 1, W = 2). Diese
Zahlen haben dann aber keine numerische Bedeutung.
Für die Weiterverarbeitung wichtig ist das Skalenniveau. Die Nominalskala hat das niedrigste Niveau
und stellt Daten dar, die sich nur begrifflich unterscheiden (Bsp.: Augenfarbe). Es gibt keinen
Vergleich und keine Wertung. Man kann die Daten nicht ordnen.
Mit der Ordinal- oder Rangskala können Merkmale nach Rangfolge geordnet werden (Bsp.:
Schuhgröße). Die Merkmale lassen sich ordnen und vergleichen.
3.2.2 Quantitativ
Messbare Merkmale sind quantitativ (Bsp.: Größe, Gewicht). Die Daten können metrisch dargestellt
werden.
Dazu eignet sich eine Intervallskala (Abstandsskala), bei der der Nullpunkt willkürlich festgelegt ist
und der Abstand definiert ist. (Bsp.: Temperatur in °C)
Die Skala mit dem höchsten Niveau ist die Ratioskala (Verhältnisskala), die einen absoluten
Nullpunkt besitzt. Die Messwerte sind alle positiv. Außer der Differenz kann auch das Verhältnis
zwischen Ausprägungen bestimmt werden. (A : B, wenn B  0) (Bsp.: Größe: A = 170, B = 182; A : B
= 0,93, d.h Schüler A ist 0,93 mal so groß wie Schüler B)
Merkmalsart
Skalenniveau
qualitativ
nicht-metrisch
Nominalskala
Ordinalskala
quantitativ
metrisch
Intervallskala
(Abstandsskala)
Ratioskala
(Verhältnisskala)
Beispiele
Hinweise
Geschlecht,
Augenfarbe,
Blutgruppe
Schuhgröße
Niedrigstes
Niveau
Vergleich 2er
Ausprägungen
A=B
AB
Rangfolge
ist definiert
A=B
AB
Temperatur
in °C,
IQ
Größe,
Gewicht,
Alter
Willkürlicher
Nullpunkt,
Abstand ist
definiert
Höchstes
Niveau,
absoluter
Nullpunkt,
definiertes
Verhältnis
A=B
A>B
A<B
A=B
AB
A=B
A>B
A<B
d=A-B
A=B
AB
A=B
A>B
A<B
d=A–B
c = A : B (B  0)
3.2.3 Diskret
Diskrete Merkmal können abzählbar viele Merkmalsausprägungen annehmen. Alle qualitativen
Merkmale sind daher auch diskret. Quantitative Merkmale sind dann diskret, wenn die
Merkmalsausprägungen durch Abzählen ermittelt werden können.
3.2.4 Stetig
Stetige Merkmale können alle Werte innerhalb eines Intervalls annehmen. Dies wird durch einen
Messvorgang ermittelt.
Merkmal
Geschlecht
Alter
Größe in cm
Gewicht in kg
Augenfarbe
Schuhgröße
Blutgruppe
Ausprägung
M, W
17 bis 40 Jahre
0 bis 200 cm
0 bis 150 kg
Blau, braun, grün, grau
20, 21, …. 48
A, B, O, AB
Skala
Nominalskala
Ratioskala (Verhältnisskala)
Ratioskala (Verhältnisskala)
Ratioskala (Verhältnisskala)
Nominalskala
Ordinalskala
Nominalskala
stetig/diskret
diskret
diskret
stetig
stetig
diskret
diskret
diskret
In der Praxis sind letzten Endes alle Merkmale diskret, da die begrenzte Messgenauigkeit nur
abzählbar viele Ausprägungen zulässt. So wird die Körpergröße (eigentlich stetig, da unendlich viele
Ausprägungen möglich sind) meist ganzzahlig in cm angegeben (diskret).
3.3
Skalentransformation
Ein höheres Skalenniveau kann zu einem niedrigeren Niveau transformiert werden. Dabei hat man
immer einen Informationsverlust.
Ausprägungen
Menge des pro Jahr
konsumierten Tabaks in Gramm
Anzahl der pro Jahr gerauchten
Zigaretten
Nichtraucher – schwacher
Raucher – mäßiger Raucher –
starker Raucher
Nichtraucher – Raucher
Merkmalsart
Quantitativ - stetig
Skala
Verhältnisskala
Quantitativ – diskret
Verhältnisskala
Qualitativ
Ordinalskala
Qualitativ – binär
Nominalskala
Die Wahl des Skalenniveaus ist nicht immer einfach, wie folgendes Beispiel verdeutlichen soll:
Schulnoten werden in der Regel als quantitativ-diskrete Merkmale angesehen und man berechnet
Mittelwerte. Dies ist eigentlich nicht korrekt, denn die Differenz zwischen den Noten ist nicht genau
definiert. Der Unterschied zwischen 4 und 6 ist nicht gleich dem Unterschied zwischen 2 und 4. MAN
kann auch kein Verhältnis bilden, 2 ist nicht doppelt so gut wie 4. Sinnvoll ist nur die Rangfolge, 1 ist
besser als 2, 2 ist besser als 3, usw. Deshalb handelt es sich bei Schulnoten um ein ordinal-skaliertes
Merkmal, also qualitativ.
Bei ordinal-skalierten qualitativen Merkmalen kann es durch unscharfe Abgrenzung zwischen den
Ausprägungen (Bsp.: Nichtraucher – schwacher Raucher – mäßiger Raucher – starker Raucher) zu
ungenauen Ergebnissen und fehlerhaften Schlussfolgerungen kommen. Deshalb muss man darauf
achten, dass die Abgrenzungen möglichst scharf sind oder mit quantitativen oder nominalskalierten
Merkmalen arbeiten.
4.
Listen und Tabellen
Die erhobenen Daten werden in Listen dokumentiert. Für jede Beobachtungseinheit (Bsp.: Schüler,
Nummer) ist eine Liste notwendig. In diese Liste müssen auch alle sonstigen relevanten Informationen
eingetragen werden (Bsp.: Ort und Zeit der Erhebung). Falls ein Merkmal nicht erhoben werden kann,
muss auch dies mit Grund notiert werden, damit zu einem späteren Zeitpunkt nachvollziehbar ist,
warum ein Wert fehlt.
Statistisch relevante Daten werden in einer Tabelle zusammengefasst. Eine Tabelle besteht aus
Zeilen und Spalten. Angaben zum Inhalt der Spalten stehen in der ersten Tabellenzeile
(Tabellenkopf). Angaben zu den Zeilen stehen in der ersten Spalte (Vorspalte).
Charakteristische Eigenschaften und Zusammenhänge der erhobenen Merkmale sind in der Tabelle
nicht gut ersichtlich. Deshalb müssen die Daten grafisch aufbereitet werden.
5.
Häufigkeiten
5.1
Absolute Häufigkeit
Bei allen diskreten (qualitativen und quantitativ-diskreten) Merkmalen kann man die Häufigkeit
bestimmen, da die Ausprägungen abzählbar sind und meist kleiner als der Stichprobenumfang.
Das Merkmal G (Blutgruppe) hat k verschiedene Ausprägungen: G1 = O, G2 = A, G3 = B, G4 = AB.
Mit i bezeichnet man den Laufindex, der zwischen 1 und k variiert.
Die absolute Häufigkeit ni einer Ausprägung Gi (Bsp.: G2 = A) erhält man durch Abzählen.
n1 =11, n2 =12, n3 =5, n4 =2
Die Summe aller absoluten Häufigkeiten ni entspricht dem Stichprobenumfang n:
k
n
i 1
5.2
i
n
(Bsp.: 11 + 12 + 5 + 2 = 30)
Relative Häufigkeit
Unter der relativen Häufigkeit hi versteht man den Quotienten aus der absoluten Häufigkeit ni und
dem Stichprobenumfang n:
h
ni
n
(Bsp.: n2 = 12, n = 30; h2 = 12 / 30 = 0,4 )
Man kann die relative Häufigkeit auch in Prozent ausdrücken, 0,4 = 40%. Die Summe der relativen
Häufigkeiten einer Stichprobe ergibt 1 bzw. 100%.
5.3
Summenhäufigkeit
Manchmal ist es sinnvoll, die Häufigkeiten in aufsteigender Reihenfolge aufzuaddieren. Bei
geordneten ordinalen oder metrischen Merkmalen (Bsp.: Größe in cm) erhält man dadurch die Anzahl
der Merkmale, die eine bestimmte Obergrenze nicht überschreiten.
Bsp.: Alter
Ausprägung
Wert
Absolute
Häufigkeit
Relative Häufigkeit
Absolute
Summenhäufigkeit
Relative
Summenhäufigkeit
A1
19
7
A2
20
9
A3
21
7
A4
22
2
A5
23
2
A6
24
1
A7
25
1
A8
26
1
0,23
23%
7
0,3
30%
16
0,23
23%
23
0,07
7%
25
0,07
7%
27
0,03
3%
28
0,03
3%
29
0,03
3%
30
0,23
23%
0,53
53%
0,77
77%
0,83
83%
0,9
90%
0,93
93%
0,97
97%
1
100%
90% aller Schüler sind jünger als 24 Jahre.
5.4
Klassenbildung
Bei stetigen Merkmalen (Bsp.: Größe, Gewicht) werden aufgrund der beschränkten Messgenauigkeit
die Werte auf- oder abgerundet. Es ergeben sich zahlreiche Ausprägungen mit meist sehr geringer
Häufigkeit. Es ist daher sinnvoll, mehrere nebeneinander liegende Ausprägungen in eine Klasse
zusammenzufassen. (Bsp.: Körpergröße: 151 – 160 cm, 161 – 170 cm, 171 – 180 cm, ...)
Die Klassenbreite sollte konstant sein, oft ist es jedoch sinnvoll, an den Rändern breitere Klassen zu
bilden. Weniger als 3 Klassen zu bilden, ist nicht sinnvoll.
Man kann statt der Häufigkeit der einzelnen Ausprägungen nun die Klassenhäufigkeit berechnen.
6.
Grafische Darstellungen
6.1
Kreisdiagramm
Ein Kreisdiagramm eignet sich für die Darstellung der absoluten und relativen Häufigkeit. Dabei ändert
sich nur der Maßstab des Diagramms, nicht die Form.
Der Nachteil dieser Darstellung besteht darin, dass sich nicht erkennen lässt, welches die größte oder
kleinste Ausprägung ist, außer man beschriftet die Kreissegmente. Daher eignet sich diese
Darstellung vor allem für nominale Merkmale. (Kein Vergleich der Merkmale, nur Aufzählung)
2; 7%
2; 7%
5; 17%
11; 37%
O
5; 17%
11; 37% O
A
A
B
B
AB
AB
12; 39%
12; 39%
6.2
Blockdiagramm (Rechteckdiagramm)
Ein Rechteck ist entsprechend der Häufigkeiten unterteilt. Da ein Anfang und ein Ende erkennbar ist,
eignet sich diese Darstellung auch für ordinale Merkmale. (Bsp.: Blutgruppe, Schuhgröße)
100%
80%
60%
2
5
12
40%
20%
11
AB
2 1
5
5
6
4
2 2 111
A
O
0%
1
6.3
1
B
0%
20%
40%
60%
80%
100%
Gr. 41
Gr. 36
Gr. 37
Gr. 38
Gr. 39
Gr. 40
Gr. 42
Gr. 43
Gr. 44
Gr. 45
Gr. 46
Balkendiagramm, Säulendiagramm
Bei dieser Darstellung zeigen die Längen der Balken oder Säulen die Häufigkeiten der Merkmale. Alle
diskreten Merkmale lassen sich darstellen. (Bsp.: Schuhgröße)
7
6
5
4
1
3
2
1
0
Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr. Gr.
36 37 38 39 40 41 42 43 44 45 46
Gr. 36
Gr. 37
Gr. 38
Gr. 39
Gr. 40
Gr. 42
Gr. 43
Gr. 44
Gr. 45
Gr. 46
Gr. 41
6.4
Punktediagramm
Dies ist die einfachste Art der Darstellung für quantitative Merkmale. Die Werte werden als Punkte
eingetragen. (Bsp.: Körpergröße, Gewicht, Analysenergebnisse)
Diese Art der Darstellung ist üblich in der Qualitätskontrolle der Laborparameter. Hierbei werden die
Werte in Reihenfolge in eine Tabelle und ein Punktediagramm eingetragen. Man erhält dabei einen
Überblick über die Verteilung der Werte. Häufigkeiten lassen sich nicht erkennen.
Körpergröße:
geordnet nach Größe
in der Reihenfolge der Werte
200
200
190
190
180
180
170
170
160
160
150
150
140
140
0
6.5
5
10
15
20
25
0
30
5
10
15
20
25
30
Stamm-und-Blatt-Diagramm
Dazu werden Stichprobenwerte (quantitativ) zuerst geordnet und dann von unten nach oben
aufgetragen. Den Stamm bilden die ersten Stellen der Werte, die Blätter bestehen aus den folgenden
Ziffern.
Auch hierbei lassen sich keine Häufigkeiten erkennen, die Darstellung gibt nur einen Überblick über
die Merkmalsverteilung. (Bsp.: Größe in cm)
19
18
17
16
15
6.6
0
0
0
0
3
2
0
0
8
5 8
0 3 3 4 5 5 8 8
1 3 3 3 5 6 8 8 9 9
9
Histogramm
Ein Histogramm wird bei klassierten Daten erstellt. Meist werden gleiche Klassenbreiten
angenommen. An den Enden können die Klassen auch breiter sein und damit die Ausreißer
miterfassen.
Histogramme sind sinnvoll bei stetigen und diskreten Merkmalen mit sehr vielen Ausprägungen (Bsp.:
Blutzellzählung, Körpergröße, Gewicht)
Klasse
Häufigkeit
150-160
2
161-165
4
166-170
6
171-175
10
176-180
8
181-185
4
10
8
6
4
2
150
160
170
180
190
200 cm
186-190
2
191-200
1
Lagemaße
7.
Lagemaße geben an, in welchem Bereich sich Stichprobenwerte konzentrieren. Sie werden aus den
Stichprobenwerten ermittelt und dienen als Schätzwerte für die Grundgesamtheit.
7.1
Arithmetisches Mittel = Mittelwert
Der Mittelwert x oder Durchschnitt ist das bekannteste Lagemaß. Alle Stichprobenwerte werden
addiert und durch den Stichprobenumfang n dividiert.
n
x
x
i 1
i
n
(Bsp.: Durchschnittliches Gewicht:
1950,9kg
 65,03kg
30
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – MITTELWERT – Zellbereich markieren - ok
7.2
Median
Durch den Median ~
x oder Zentralwert werden die Stichprobenwerte in zwei Hälften geteilt. Dazu
müssen die Stichprobenwerte der Größe nach sortiert sein. Bei ungerader Anzahl der
Stichprobenwerte ist der mittlere Wert der Median, bei gerader Anzahl wird der Mittelwert der beiden
inneren Werte berechnet.
(Geordnete Stichprobenwerte erhalten den Zusatz (n), um sie von den ursprünglichen
Stichprobenwerten zu unterscheiden, z.B. x(1), x(2), usw.)
Bsp.:
2,3,3,4,5,5,6,6,7
~
x 5
2,3,3,4,5,5,6,6
45
~
x
 4,5
2
Da bei nominalskalierten Merkmalen (z.B. Blutgruppe) keine Rangfolge ermittelt werden kann, kann
auch kein Median ermittelt werden. Bei ordinalskalierten Merkmalen (Schuhgröße) kann kein
Mittelwert gebildet werde, der median als Lagemaß ist jedoch zulässig.
Der große Vorteil des Medians liegt darin, dass er weitgehend unabhängig von Ausreißern ist.
Bsp.: 1,2,3,3,4,5,5,6,13
x  4,7
~
x 4
Daten ordnen: Daten (Zeilen) markieren – „Daten“ – „Sortieren“ –Spalte angeben – ok
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „MEDIAN“ – Zellbereich markieren (Text wird
ignoriert) - ok
7.3
Quartile und Quantile
Mit Quartilen untereilt man die Stichprobenwerte in Viertel.
Das untere Quartil Q1 bedeutet, dass 25 % aller Stichprobenwerte kleiner oder gleich Q 1 sind und 75
% aller Werte größer oder gleich Q1. Für das dritte Quartil Q3 gilt entsprechend, 75 % aller Werte sind
kleiner oder gleich und 25 % sind größer oder gleich.
Das zweite Quartil entspricht dem Median.
Oft ist es sinnvoll, von einer Stichprobe die äußeren Werte abzutrennen, um den Einfluss von
Ausreißern zu verhindern. Dazu werden aber nur wenige Prozent der Werte nicht in die weiteren
x , wobei α alle Werte zwischen 0
Berechnungen einbezogen. Diese Quantile bezeichnet man mit ~
und 1 annehmen kann. (Alle Prozentzahlen kann man auch als Bruch
x
ausdrücken und erhält
100
dann immer eine Zahl zwischen 0 und 1. Bsp.: 10% = 0,1)
In geordneten Datenreihen wird
~
x und die entsprechende Rangzahl k (der k-te Werte der
geordneten Reihe) nach folgender Formel bestimmt:
k  n
falls
 n
keine ganze Zahl ist, sei k die direkt folgende ganze Zahl und es gilt:
~
x  x  k 
falls
 n
Bsp.:
also
k 5
also
5.Wert  6.Wert
2
eine ganze Zahl ist, gilt:
xk   xk 1
~
x 
2
7.4
  n  0,1  45  4,5
Bsp.:
  n  0,1  50  5
Modalwert
Der Modalwert D ist die Ausprägung mit der größten Häufigkeit. Er kann bei allen Skalentypen
ermittelt werden.
In der grafischen Darstellung der Stichprobenwerte kann man den Modalwert meist gut erkennen, man
erkennt auch, ob die Verteilung eingipfelig (unimodal), zweigipfelig (bimodal) oder mehrgipfelig
(multimodal) bei heterogenen Populationen ist.
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „MODALWERT“ – Zellbereich markieren
(Text wird ignoriert) - ok
7.5
Geometrisches Mittel
Das geometrische Mittel wird bei relativen Änderungen verwendet, bei denen sich der Unterscheid
zweier Merkmale besser durch einen Quotienten als durch eine Differenz beschreiben lässt, z.B.
Wachstumsraten. Es ist die n-te Wurzel des Produkts der relativen Änderungen.
xG  n x1  ...  xn
Bsp.: Schüler einer Schule
Jahr
Anzahl
Relative
Änderung
Prozentuale
Zunahme
2000
1000
2001
1020
2002
1055
2003
1030
2004
1040
1020
 1,02
1000
1055
 1,03
1020
1030
 0,98
1055
1040
 1,01
1030
2%
3%
-2%
1%
xG  4 1,02 *1,03 * 0,98 *1,01  1,01  1%
8.
Streuungsmaße
Zwei Stichproben können sich hinsichtlich der Lagemaße sehr ähnlich sein, aber sich dennoch
anhand der Streuungsmaße unterscheiden. Die Streuungsmaße geben Auskunft über die Variabilität
der Werte.
8.1
Varianz
n
Var 
 x
i 1
i
Die Varianz Var beschreibt die Abweichung der Einzelwerte vom Mittelwert
der Stichprobe anhand der mittleren quadratischen Abweichung.
2
Berechnet man die Varianz aus der Grundgesamtheit (und nicht aus einer
Stichprobe der Grundgesamtheit), wird nur durch n geteilt.
n 1
n
Var 
 x
2
 x
i 1
i
 x
n
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „VARIANZ“ – Zellbereich markieren (Text
wird ignoriert) – ok (Grundgesamtheit: „VARIANZEN“)
8.2
Standardabweichung
Die Varianz ist schwer zu interpretieren, da sie eine quadratische Dimension hat. Um ein
Streuungsmaß mit gleicher Dimension wie die Stichprobenwerte zu erhalten zieht man die Wurzel
aus der Varianz und erhält die Standardabweichung. Je größer die Standardabweichung, desto
heterogener die Stichprobe. (Auch hier kann man zwischen der Berechnung aus einer Stichprobe und
aus der Grundgesamtheit unterscheiden.)
n
s  Var 
 x
i 1
i
 x
n
2
s  Var 
n 1
 x
i 1
i
 x
2
n
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „STABW“ – Zellbereich markieren (Text wird
ignoriert) – ok (Grundgesamtheit: „STABWN“)
Bei Normalverteilungen liegen etwa 2/3 aller Werte im Bereich zwischen x  s und x  s .
Bei eingipfeligen symmetrischen Verteilungen liegen mindestens 8/9 (etwa 90%) aller Werte in
Bereich x  2s und sogar 95% im Bereich x  3s .
Auch bei nicht symmetrischen Verteilungen liegen 75% aller Werte im Bereich x  2s und 90%
im Bereich x  3s .



8.3
V 
Variationskoeffizient
s
x
falls
x 0
Der gleiche Wert der Standardabweichung kann unterschiedliche
Bedeutung haben, z.B. beträgt eine Standardabweichung von 6,5 cm
bei einer Durchschnittsgröße von 182 cm wesentlich weniger als bei
der Durchschnittsgröße von 90 cm. Der Variationskoeffizient
beschreibt diese Abhängigkeit.
8.4
Relativer Variationskoeffizient
Als relativen Variationskoeffizient bezeichnet man V in Prozent
s
V   100%
x
8.5
Variationsbreite
R  xmax  xmin
8.6
Die Variationsbreite oder Spannweite R ist das am einfachsten zu berechnende
Streuungsmaß und sie bezeichnet den Abstand der beiden Extremwerte. Sie ist
extrem stark abhängig von Ausreißern.
Interquartilsbereich, Interdezilsbereich
Der Interquartilsbereich (Quartilsabstand) I50 enthält die mittleren 50% aller Werte, beim
Interdezilsbereich werden jeweils die unteren und oberen 10% abgeschnitten und er enthält die
mittleren 80% der Werte.
9.
Übersicht univariate Datenbeschreibung – geeignete
Maßzahlen und grafische Darstellung
Skala
Nominalskala
Lagemaße
Modalwert
Streuungsmaße
Ordinalskala
Modalwert
Median
Quartile
Quantile
Modalwert
Median
Quartile
Quantile
Mittelwert
Spannweite
(Inter)quartilsabstand
Interquantilsabstand
Intervallskala
Ratioskala
Verhältnisskala
Spannweite
(Inter)quartilsabstand
Interquantilsabstand
Standardabweichung
Spannweite
(Inter)quartilsabstand
Interquantilsabstand
Standardabweichung
Variationskoeffizient
Grafische Darstellung
Kreisdiagramm
Rechteckdiagramm
Balkendiagramm
Rechteckdiagramm
Balkendiagramm
Diskrete Daten:
Balkendiagramm
Stamm-Blatt-Diagramm
Stetige Daten, klassierte
Daten:
Histogramm
9.1
Box-and-Whisker-Plot
Für jede Stichprobe wird eine Box gezeichnet, die oben und unten vom 1. und 3. Quartil begrenzt ist.
50 % aller Stichprobenwerte sind also innerhalb der Box.
Ein Strich innerhalb der Box bezeichnet den Median, ein „Plus“ oder Kreuz markiert den Mittelwert.
Der Mittelwert kann auch außerhalb der Box liegen. Je weiter Mittelwert und Median
auseinanderliegen, desto größer ist der Einfluss von Ausreißern, desto schiefer ist die Verteilung.
Mit der Box als „Whisker“ (Schnurrhaare) verbunden, sind der tiefste und der höchste Wert.
Natürlich ist es auch möglich, statt den Quartilen andere Abstände zu wählen bzw. die äußeren
Extremwerte abzugrenzen (z.B. um 5 %), um den Einfluss von Ausreißern zu minimieren.
Bsp.:
Körpergröße männlicher Studenten
Der Mittelwert ist von wenigen sehr großen
Werten beeinflusst, während die meisten
Werte im unteren Bereich liegen (siehe
Median).
200
Maximum
3. Quartil
190
Mittelwert
180
Median
1. Quartil
170
Minimum
Männliche
Studenten
10.
Bivariate Datenbeschreibung
Bei vielen Merkmalen möchte man wissen, ob sie in einem Zusammenhang stehen, so kennt man
einen Zusammenhang zwischen Körpergröße und Gewicht, dem Auftreten von bestimmten
Krankheiten (z.B. Hämophilie) und Geschlecht usw.
Oft ist der Zusammenhang aber erst eine Theorie, die man mithilfe von statistischer Auswertung von
Daten beweisen möchte.
Mit Hilfe von Tabellen und Grafiken, Korrelationsanalyse und Regressionsanalyse lassen sich diese
Zusammenhänge darstellen und/oder berechnen.
Die Zusammenhänge in der Medizin werden oft vom Zufall beeinflusst (sie sind stochastisch). Man
kann deshalb keine exakten Aussagen oder Vorhersagen treffen, nur Wahrscheinlichkeiten.
10.1 Zweidimensionale Häufigkeiten
Wenn man an n Einheiten zwei Merkmale betrachten möchte und das Merkmal A hat k verschiedene
Ausprägungen, das Merkmal B hat l verschiedene Ausprägungen, dann beträgt die Anzahl der
denkbaren Ausprägungskombinationen k mal l.
10.2 Kontingenztafel, Korrelationstabelle
Die Häufigkeiten lassen sich übersichtlich in einer Kontingenztafel darstellen. Dabei werden im Kopf
und in der 1. Spalte (Vorspalte) die Ausprägungen aufgelistet. Das Innere der Tafel enthält k mal l
Felder mit de jeweiligen Häufigkeiten. Die einfachste Form der Kontingenztafel ist die Vierfeldertafel
mit jeweils zwei Ausprägungen pro Merkmal.
Erstellt man eine Tafel mit klassierten Daten, nennt man sie Korrelationstabelle.
Bsp.: Kontingenztafel mit der Merkmalskombination Geschlecht und Rauchen
Absolute Häufigkeiten (relative Häufigkeiten)
Raucher
Nichtraucher
gesamt
Männlich
19 (0,28 = 28%)
20 (0,29 = 29%)
39 (0,57 = 57%)
Weiblich
10 (0,15 = 15%)
20 (0,29 = 29%)
30 (0,43 = 43%)
gesamt
29 (0,42 = 42%)
40 (0,58 = 58%)
69 (100%)
Bsp.: Korrelationstabelle für die Kombination Körpergröße / Gewicht (absolute Häufigkeiten)
Größe in cm
165-174
175-184
185-194
195-204
Summe
60-69
3
6
70-79
1
11
6
18
80-89
2
6
8
90-99
1
2
1
4
20
14
1
39
Gewicht in kg
Summe
4
9
Anhand der Korrelationstabelle kann man oft schon Zusammenhänge erkennen. So liegen im Beispiel
die am stärksten besetzten Felder auf der Hauptdiagonalen (von links oben nach rechts unten).
10.3 Grafische Darstellung
10.3.1 Balkendiagramm
2-dimensionales Balkendiagramm
45
40
35
30
25
Nichtraucher
20
Raucher
15
10
5
0
Männlich
Weiblich
3-dimensionales Balkendiagramm
20
15
10
Raucher
Nichtraucher
5
Nichtraucher
0
Raucher
Männlich
Weiblich
10.3.2 Punktwolke
Für jede Beobachtungseinheit wird ein Merkmalspaar (x/y) in ein Koordinatensystem eingetragen. Je
dichter die Punkte beieinander liegen, desto stärker der Zusammenhang. Mit Hilfe der
Regressionsanalyse versucht man, eine mathematische Funktion anzugeben, die diesen
Zusammenhang am besten beschreibt.
Lässt sich er sich bei metrischen Werten durch eine Gerade charakterisieren, spricht man von einem
linearen Zusammenhang und die dazugehörende Gerade Regressionsgerade.
Größe in cm/Gewicht in kg
100
90
80
70
60
50
40
150
160
170
180
190
200
Die zugrunde liegende Tabelle:
Nummer
Größe in cm
Gewicht in kg
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
170
182
166
168
153
188
175
163
169
174
170
159
173
178
160
163
168
173
160
185
175
65,3
93,1
58,5
53,2
47,9
75,6
68,9
75,2
70,3
66,2
79,3
49,3
75,6
65,9
55,4
61,2
56,6
65,8
54,5
65,4
72,5
163
180
190
169
178
165
158
161
170
59,3
72,1
75,3
55,1
80,6
54,2
47,3
60,4
70,9
Tabelle in Excel kopieren
Datenspalten (Größe, Gewicht) markieren – Icon
für Grafik anklicken – Diagrammtyp „Punkt (XY)“
– „weiter“ – Reihe in „Spalten“ – „weiter“ –
Diagrammtitel eingeben, Legende ausblenden –
„weiter“ – „fertig stellen“
In der Grafik die Größenachse x anklicken –
Recktsklick „Achse formatieren“ – „Skalierung“:
Minimum: 150 – „ok“
Dasselbe bei der y-Achse – Minimum: 40 – „ok“
Einen Datenpunkt anklicken – Rechtsklick:
„Trendlinie hinzufügen“ – Linear – „ok“
10.4 Korrelationsanalyse
Mit der Korrelationsanalyse kann man die Stärke eines Zusammenhangs berechnen. Voraussetzung
dafür ist, dass beide Merkmale, die untersucht werden sollen, metrisch skaliert (und stetig) sind. Der
Zusammenhang soll vorab theoretisch geklärt werden und annähernd linear sein. Dies lässt sich durch
die oben genannte Punktwolke darstellen. Liegen die Punkte so, dass sich eine Gerade
(Regressionsgerade) legen lässt, um die die Punkte elliptisch liegen, kann man von einem linearen
Zusammenhang ausgehen.
10.4.1 Kovarianz
Mit der Kovarianz kann man den Zusammenhang zweier Merkmale berechnen. Ist der Wert > 0,
besteht ein gleichsinniger Zusammenhang, ist er < 0, ein gegensinniger.
Eine Kovarianz , die etwa 0 beträgt, bedeutet, dass kein linearer Zusammenhang besteht. Das
bedeutet allerdings nicht, dass überhaupt kein Zusammenhang besteht.
s xy
1 n
   xi  x  y i  y 
n i 1
Die Einheit ist das Produkt der beiden Einheiten der Merkmale, im
Bsp. oben: sxy = 69,2 cm*kg
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „KOVAR“ – Zellbereich1 markieren (Text wird
ignoriert) – Zellbereich2 markieren (Text wird ignoriert) – ok
10.4.2 Korrelationskoeffizient nach Pearson
Der Korrelationskoeffizient r ist ein normiertes Maß, das den Zusammenhang zweier Merkmale
beschreibt. Zur Berechnung werden Kovarianz und die beiden Standardabweichungen benötigt.
r
s xy
Bsp. oben: r = 0,72
sx  s y
In eine leere Zelle klicken – „Einfügen“ – „Funktion“ – „KORREL“ – Zellbereich1 markieren (Text
wird ignoriert) – Zellbereich2 markieren (Text wird ignoriert) – ok
Der Wert hat keine Dimension (Einheit) und kann nur Werte zwischen -1 und +1 annehmen. Je näher
der Wert bei +1 (oder -1) liegt, desto stärker ist der Zusammenhang. Erhält man den Extremwert +1
(oder -1), liegen alle Punkte auf der Regressionsgeraden.