Teil I: Deskriptive Statistik

Teil I: Deskriptive Statistik
2 Grundbegriffe
2.1 Merkmal und Stichprobe
2.2 Skalenniveau von Merkmalen
2.3 Geordnete Stichproben und Ränge
2.1 Merkmal und Stichprobe
An (geeignet ausgewählten)
Untersuchungseinheiten (Beobachtungsein–
heiten, Merkmalsträger)
werden Werte eines oder mehrerer Merkmale
festgestellt.
Merkmal (Variable) ist die zu untersuchende
Größe einer Untersuchungseinheit.
StatBio
24
Merkmalsausprägungen sind die möglichen
Werte, die von einem Merkmal angenommen
werden können.
Tabelle 2–1 Merkmale und ihre Ausprägungen
Einheit
Person
Merkmal
Geschlecht
Alter in Jahren
Blutgruppe
Bluthochdruck
Ausprägung
weiblich, männlich
1, 2, 3, . . .
A, B, AB, 0
Werte in mmHg
Bakterienkolonie
Durchmesser
Werte in mm
Baum
Baumart
Eiche, Buche,...
Grundgesamtheit (Kollektiv, Population):
Menge aller potentiellen Untersuchungseinheiten
für eine bestimmte Fragestellung.
Totalerhebung: Alle Merkmalsträger einer
Grundgesamtheit werden in die Untersuchung
einbezogen.
StatBio
25
Stichprobe: Endliche Teilmenge einer Grundgesamtheit. Hat diese Menge n Elemente, so
spricht man von einer Stichprobe vom Umfang
n (sample of size n).
Daten, Beobachtungen: konkrete Werte der
Merkmalsausprägungen einer Stichprobe.
Beispiel:
Grundgesamtheit: Alle Personen
Merkmal: Plasmaalbumingehalt
Stichprobe vom Umfang 5: A, B, C, D, E
Daten: 3.9, 3.3, 4.6, 4.0, 3.8
Bemerkung: Die Begriffe Stichprobe und Daten
werden auch häufig synonym verwendet (so auch
im Folgenden).
StatBio
26
Qualitative (artmäßig erfassbare) Merkmale
haben nur endlich viele Ausprägungen, die Namen oder Kategorien sind.
Beispiele:
– Geschlecht
– Blutgruppe
– Rhesusfaktor
Quantitative (in natürlicher Weise zahlenmäßig
erfassbare) Merkmale liegen vor, wenn ihre Ausprägungen eine Größe wiedergeben.
Beispiele:
– Kinderzahl
– Anzahl zuckerkranker Personen
– Körpertemperatur
– Adrenalinkonzentration
– Körpergewicht
– Körpergröße
StatBio
27
Eine andere Unterscheidung ist in diskrete und
stetige Merkmale.
• Diskretes Merkmal (discrete variable): Ein
solches Merkmal kann nur endlich viele oder
höchstens abzählbar unendlich viele Ausprägungen annehmen (häufig ganzzahlig, also
0, 1, 2, ...). Alle qualitativen Merkmale sind
trivialerweise diskret. Quantitative Merkmale
sind dann diskret, wenn ihre Merkmalsausprägungen durch einen Zählvorgang ermittelt
werden (sogenannte Zähldaten).
Beispiele für Zähldaten:
–
–
–
–
StatBio
Anzahl
Anzahl
Anzahl
Anzahl
herzkranker Personen
der Blutspender
der Pulsschläge
der Bäume in einer Region
28
• Stetiges Merkmal (continuous variable): Die
Ausprägungen können (wenigstens dem Prinzip nach) beliebige Werte aus einem Intervall
annehmen, alle Werte aus einem Intervall sind
also denkbar. Die Ausprägungen werden in der
Regel durch einen Messvorgang ermittelt, sogenannte Messdaten.
Beispiele für Messdaten:
–
–
–
–
Blutdruck
Körpertemperatur
Adrenalinkonzentration
Laktatkonzentration
Zusammenfassung:
Merkmal
qualitativ
quantitativ
StatBio
diskret
ja
ja
(Zähldaten)
stetig
nein
ja
(Messdaten)
29
Bemerkung: Stetige Merkmale können nur diskret beobachtet werden (Messgenauigkeit), Angaben z. B. auf zwei Dezimalstellen hinter
dem Komma genau (Rundungen). In der Praxis ist die Unterscheidung diskret/stetig vielfach
willkürlich.
2.2 Skalenniveau von Merkmalen
Für statistische Analysen ist die Einteilung in
qualitative und quantitative Merkmale zu grob.
Von entscheidender Bedeutung für die
– Interpretation von Daten und
– Eignung statistischer Verfahren
ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen gemessen und geordnet werden können.
StatBio
30
Grundsätzlich erfolgt die Messung der Merkmalswerte mit Hilfe einer Skala (Messvorschrift).
Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen eindeutig zugordnet werden.
Skalenwerte: Zahlenwerte, die auf einer Skala
Berücksichtigung finden. Man spricht in diesem
Zusammenhang auch von Skalierung.
Das Skalenniveau gibt an
1. welche Vergleichsaussagen und welche rechnerischen Operationen für die Skalenwerte sinnvoll und somit zulässig sind
2. welche Transformationen von Skalenwerten die Messung erhalten (sogenannte zulässige Transformationen).
StatBio
31
Die verschiedenen Skalenniveaus (Übersicht):
Qualitative Merkmale
Nominalskala
Quantitative Merkmale
Ordinalskala
Metrische Skala
Intervallskala
StatBio
Verhältnisskala
32
Nominalskala (Skala mit dem niedrigsten Niveau)
Charakteristika:
– keine natürliche Rangordnung der Skalenwerte
– Zuordnung von Zahlen ist lediglich eine Kodierung der Merkmalsausprägungen
– Anordnung hat keine inhaltliche Bedeutung
Vergleichsaussagen: gleich (=), ungleich (6=)
Rechnerische Operationen: Häufigkeiten
Zulässige Transformationen: bijektive (eineindeutige) Abbildungen (siehe Aufgabe 3, Blatt
1)
StatBio
33
Tabelle 2–2 Nominale Merkmale und Kodierungen
Merkmal
Baumart
Merkmalsausprägungen
Eiche
Buche
Birke
Linde
sonstige
Kodierung
1
2
3
4
5
Geschlecht
männlich
weiblich
0
1
Blutgruppe
0
A
B
AB
0
1
2
3
Spezialfall nominalskalierter Merkmale sind
binäre Merkmale (dichotome Merkmale):
Merkmale mit nur zwei Ausprägungen (häufig
0/1–kodiert).
StatBio
34
Ordinalskala (Rangskala)
Charakteristika:
Die Merkmalsausprägungen sind Kategorien, bei
denen eine natürliche Rangordnung aufgrund
ihrer Größe bzw. Intensität gegeben ist.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische
Ränge
Operationen:
Häufigkeiten,
Zulässige Transformationen: streng monotone
(ordnungserhaltende) Abbildungen (siehe Aufgabe 3, Blatt 1)
StatBio
35
Tabelle 2–3 Ordinale Merkmale und Kodierungen
Merkmal
Antibiotikaresistenz
Ausprägung
sehr sensitiv
sensitiv
intermediär
resistent
sehr resistent
Kodierung
1
2
3
4
5
Schmerzen
wenig
mittel
stark
−1
0
1
1
2
3
3
2
1
Bei nominal– und ordinalskalierten Merkmalen
haben Abstände (Differenzen) und Verhältnisse (Quotienten) von Skalenwerten keine inhaltliche Bedeutung, sind also nicht vergleichbar.
StatBio
36
Bei quantitativen Merkmalen verwendet man eine metrische Skala. Hier liegt Messbarkeit im
engeren Sinne vor, wobei Skalenwerte im Allgemeinen eine Dimension haben (Celsius, mg/l,
mmol, sec, cm, usw.).
Charakteristika:
– Abstände zwischen Skalenwerten sind interpretierbar
– Natürliche Rangordnung durch Größe der
Merkmalswerte.
Bei der metrischen Skala wird zwischen Intervall–
und Verhältnisskala unterschieden.
StatBio
37
Intervallskala (Differenzenskala)
Charakteristika:
Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert) ist willkürlich festgelegt. Konsequenz: Vergleich von Differenzen ist sinnvoll,
nicht aber von Quotienten.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische Operationen:
Ränge, Subtraktionen
Häufigkeiten,
Zulässige Transformationen: lineare Abbildungen (siehe Aufgabe 3, Blatt 1)
Beispiele intervallskalierter Merkmale:
– Temperatur in Celsius (Gefrierpunkt Wasser
=
ˆ 0◦ C) bzw. in Fahrenheit (Körpertemperatur Mensch =
ˆ 100◦ F) (Vgl. Aufgabe 4, Blatt 1)
StatBio
38
– Intelligenzquotient nach Wechsler
(Durchschnittswert = 100)
Verhältnisskala (Ratioskala)
Charakteristika:
Natürlicher (absoluter) Nullpunkt ist gegeben,
Vergleich von Verhältnissen (Quotienten) ist
daher sinnvoll. Gleiche Quotienten drücken einen
gleich großen Unterschied aus.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische Operationen: Häufigkeiten,
Ränge, Subtraktionen, Divisionen
Zulässige Transformationen: lineare homogene Abbildungen (siehe Aufgabe 3, Blatt 1)
StatBio
39
Beispiele verhältnisskalierter Merkmale:
–
–
–
–
Alter in Jahren
Länge
Gewicht
Temperatur in Kelvin
(0◦ Kelvin =
ˆ −273.15◦ Celsius).
Die verschiedenen Skalenniveaus stellen eine
Hierachie dar:
Tabelle 2–4 Sinnvoll interpretierbare Berechnungen
Skala
Nominal
Ordinal
Intervall
Verhältnis
StatBio
zählen
ja
ja
ja
ja
ordnen
nein
ja
ja
ja
subtrahieren
nein
nein
ja
ja
dividieren
nein
nein
nein
ja
40
Bemerkung: Statistische Methoden, die für ein
niedriges Skalenniveau geeignet sind, können
auch für ein höheres Skalenniveau verwendet
werden (zählen und ordnen ist stets für metrische Merkmale durchführbar). Die Umkehrung
gilt nicht! Für metrische Merkmale kann etwa der Durchschnittswert (arithmetisches Mittel) berechnet werden, was für ordinal– und nominalskalierte Merkmale im Allgemeinen völlig
sinnlos ist.
StatBio
41
Skalentransformationen
Für die statistische Analyse kann es sinnvoll sein,
metrische Daten so zu transformieren, dass ihre Ausprägungen ordinalskaliert sind, auch wenn
solche Transformationen immer mit einem gewissen Informationsverlust verbunden sind (denn
aus der Kenntnis der transformierten Werte
können die ursprünglichen Werte nicht mehr
zurückgewonnen werden).
Die wichtigsten Transformationen sind der Übergang zu
– Kategorien, Klassen (Klassenbildung ,,von
... bis”, ,,Klassierung der Daten”)
– Rängen (Daten werden der Größe nach geordnet, der kleinste Wert erhält Rang 1, der
zweitkleinste Wert Rang 2, usw.)
StatBio
42
Beispiel 2.1: Von 20 Blutproben wurde der
Plasmaalbumingehalt (in g/dl) bestimmt, wobei
sich folgende Werte ergaben:
3.9, 3.3, 4.6, 4.0, 3.8, 3.8, 3.6, 4.6 4.0 3.9
3.9, 3.9, 4.1, 3.7, 3.6, 4.6 4.0, 4.0, 3.8 4.1
Die Merkmalsausprägung Plasmaalbumingehalt
wird auf der Verhältnisskala gemessen. Ordnet man die Werte in aufsteigender Reihenfolge, so lassen sich die Rangpositionen zuordnen. Des Weiteren wird die Kategorie 1
,,Plasmaalbumingehalt ≤ 4.0” und die Kategorie 2 ,,Plasmaalbumingehalt > 4.0” betrachtet.
StatBio
43
Tabelle 2–5 Skalen–Transformation der Plasma–Daten
Patient–
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
StatBio
Wert
3.9
3.3
4.6
4.0
3.8
3.8
3.6
4.6
4.0
3.9
3.9
3.9
4.1
3.7
3.6
4.6
4.0
4.0
3.8
4.1
geordnete
Werte
3.3
3.6
3.6
3.7
3.8
3.8
3.8
3.9
3.9
3.9
3.9
4.0
4.0
4.0
4.0
4.1
4.1
4.6
4.6
4.6
Rang
Kategorie
1
2.5
2.5
4
6
6
6
9.5
9.5
9.5
9.5
13.5
13.5
13.5
13.5
16.5
16.5
19
19
19
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
44
Durchschnittsrang
Der Beobachtungswert 3.6 kommt zweimal vor.
Es sind die Ränge 2 und 3 zu vergeben. Bilden
des Durchschnittsrangs:
2+3
Rang(3.6) =
= 2.5
2
Der Beobachtungswert 3.8 kommt dreimal vor.
Es sind die Ränge 5, 6 und 7 zu vergeben: Bilden
des Durchschnittsrangs:
5+6+7
=6
Rang(3.8) =
3
etc.
StatBio
45
2.3 Geordnete Stichproben und Ränge
Gegeben seien Daten
x1, x2, . . . , xn
Bezeichne
x(1) die kleinste der n Zahlen x1, . . . , xn
x(2) die zweitkleinste der n Zahlen x1, . . . , xn
..
x(n) die größte der n Zahlen x1, . . . , xn
x(k) heißt k–te Ordnungsgröße. Per Definition
gilt stets
x(1) ≤ x(2) ≤ . . . ≤ x(n)
x(1), . . . , x(n) heißt geordnete Stichprobe.
StatBio
46
Tabelle 2–6 Geordnete Plasma–Daten
i
1
2
3
4
5
6
7
8
9
10
xi
3.9
3.3
4.6
4.0
3.8
3.8
3.6
4.6
4.0
3.9
x(i)
3.3
3.6
3.6
3.7
3.8
3.8
3.8
3.9
3.9
3.9
i
11
12
13
14
15
16
17
18
19
20
xi
3.9
3.9
4.1
3.7
3.6
4.6
4.0
4.0
3.8
4.1
x(i)
3.9
4.0
4.0
4.0
4.0
4.1
4.1
4.6
4.6
4.6
Der Rang einer Zahl xi innerhalb einer Stichprobe gibt an, die wie–vielt–kleinste Zahl sie ist.
Um den Rang einer Beobachtung zu bestimmen
ist es sinnvoll, die Daten der Größe nach zu
ordnen.
Formaler versteht man unter einem Rang folgendes:
StatBio
47
1. Fall: Der Beobachtungswert xi kommt in der
Stichprobe nur einmal vor. Dann ist der Rang
von xi gleich 1 plus Anzahl der Beobachtungen
die kleiner als xi sind:
Rang(xi) = 1 + Anzahl der xj mit xj < xi
2. Fall: Der Beobachtungswert xi kommt in der
Stichprobe k–mal vor, k ≥ 2 (man spricht von
einer Bindung der Länge k). Dann hat man für
diese k gleichen Beobachtungswerte die Ränge
ri, ri + 1, . . . , ri + (k − 1)
zu vergeben, wobei
ri = 1 + Anzahl der xj mit xj < xi
Käme der Beobachtungswert xi nur einmal vor,
so wäre die Zahl ri der Rang von xi.
StatBio
48
Diese k gleichen Beobachtungswerte bekommen
alle den gleichen Rang, den Durchschnittsrang.
Dieser ist definiert als das arithmetische Mittel
der zu vergebenden Ränge:
Rang(xi)
ri + (ri + 1) + . . . + [ri + (k − 1)]
=
k
(2.1)
Formel (2.1) lässt sich vereinfachen (Aufgabe 6,
Blatt 1).
Beachte: Die Rang–Transformation
xi → Rang(xi)
einer Beobachtung xi ist immer nur in Bezug auf
die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe
7, Blatt 1)
StatBio
49