Teil I: Deskriptive Statistik

Werbung
Teil I: Deskriptive Statistik
2 Grundbegriffe
2.1 Merkmal und Stichprobe
2.2 Skalenniveau von Merkmalen
2.3 Geordnete Stichproben und Ränge
2.1 Merkmal und Stichprobe
An (geeignet ausgewählten)
Untersuchungseinheiten (Beobachtungsein–
heiten, Merkmalsträger)
werden Werte eines oder mehrerer Merkmale
festgestellt.
Merkmal (Variable) ist die zu untersuchende
Größe einer Untersuchungseinheit.
StatBio
24
Merkmalsausprägungen sind die möglichen
Werte, die von einem Merkmal angenommen
werden können.
Tabelle 2–1 Merkmale und ihre Ausprägungen
Einheit
Person
Merkmal
Geschlecht
Alter in Jahren
Blutgruppe
Bluthochdruck
Ausprägung
weiblich, männlich
1, 2, 3, . . .
A, B, AB, 0
Werte in mmHg
Bakterienkolonie
Durchmesser
Werte in mm
Baum
Baumart
Eiche, Buche,...
Grundgesamtheit (Kollektiv, Population):
Menge aller potentiellen Untersuchungseinheiten
für eine bestimmte Fragestellung.
Totalerhebung: Alle Merkmalsträger einer
Grundgesamtheit werden in die Untersuchung
einbezogen.
StatBio
25
Stichprobe: Endliche Teilmenge einer Grundgesamtheit. Hat diese Menge n Elemente, so
spricht man von einer Stichprobe vom Umfang
n (sample of size n).
Daten, Beobachtungen: konkrete Werte der
Merkmalsausprägungen einer Stichprobe.
Beispiel:
Grundgesamtheit: Alle Personen
Merkmal: Plasmaalbumingehalt
Stichprobe vom Umfang 5: A, B, C, D, E
Daten: 3.9, 3.3, 4.6, 4.0, 3.8
Bemerkung: Die Begriffe Stichprobe und Daten
werden auch häufig synonym verwendet (so auch
im Folgenden).
StatBio
26
Qualitative (artmäßig erfassbare) Merkmale
haben nur endlich viele Ausprägungen, die Namen oder Kategorien sind.
Beispiele:
– Geschlecht
– Blutgruppe
– Rhesusfaktor
Quantitative (in natürlicher Weise zahlenmäßig
erfassbare) Merkmale liegen vor, wenn ihre Ausprägungen eine Größe wiedergeben.
Beispiele:
– Kinderzahl
– Anzahl zuckerkranker Personen
– Körpertemperatur
– Adrenalinkonzentration
– Körpergewicht
– Körpergröße
StatBio
27
Eine andere Unterscheidung ist in diskrete und
stetige Merkmale.
• Diskretes Merkmal (discrete variable): Ein
solches Merkmal kann nur endlich viele oder
höchstens abzählbar unendlich viele Ausprägungen annehmen (häufig ganzzahlig, also
0, 1, 2, ...). Alle qualitativen Merkmale sind
trivialerweise diskret. Quantitative Merkmale
sind dann diskret, wenn ihre Merkmalsausprägungen durch einen Zählvorgang ermittelt
werden (sogenannte Zähldaten).
Beispiele für Zähldaten:
–
–
–
–
StatBio
Anzahl
Anzahl
Anzahl
Anzahl
herzkranker Personen
der Blutspender
der Pulsschläge
der Bäume in einer Region
28
• Stetiges Merkmal (continuous variable): Die
Ausprägungen können (wenigstens dem Prinzip nach) beliebige Werte aus einem Intervall
annehmen, alle Werte aus einem Intervall sind
also denkbar. Die Ausprägungen werden in der
Regel durch einen Messvorgang ermittelt, sogenannte Messdaten.
Beispiele für Messdaten:
–
–
–
–
Blutdruck
Körpertemperatur
Adrenalinkonzentration
Laktatkonzentration
Zusammenfassung:
Merkmal
qualitativ
quantitativ
StatBio
diskret
ja
ja
(Zähldaten)
stetig
nein
ja
(Messdaten)
29
Bemerkung: Stetige Merkmale können nur diskret beobachtet werden (Messgenauigkeit), Angaben z. B. auf zwei Dezimalstellen hinter
dem Komma genau (Rundungen). In der Praxis ist die Unterscheidung diskret/stetig vielfach
willkürlich.
2.2 Skalenniveau von Merkmalen
Für statistische Analysen ist die Einteilung in
qualitative und quantitative Merkmale zu grob.
Von entscheidender Bedeutung für die
– Interpretation von Daten und
– Eignung statistischer Verfahren
ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen gemessen und geordnet werden können.
StatBio
30
Grundsätzlich erfolgt die Messung der Merkmalswerte mit Hilfe einer Skala (Messvorschrift).
Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen eindeutig zugordnet werden.
Skalenwerte: Zahlenwerte, die auf einer Skala
Berücksichtigung finden. Man spricht in diesem
Zusammenhang auch von Skalierung.
Das Skalenniveau gibt an
1. welche Vergleichsaussagen und welche rechnerischen Operationen für die Skalenwerte sinnvoll und somit zulässig sind
2. welche Transformationen von Skalenwerten die Messung erhalten (sogenannte zulässige Transformationen).
StatBio
31
Die verschiedenen Skalenniveaus (Übersicht):
Qualitative Merkmale
Nominalskala
Quantitative Merkmale
Ordinalskala
Metrische Skala
Intervallskala
StatBio
Verhältnisskala
32
Nominalskala (Skala mit dem niedrigsten Niveau)
Charakteristika:
– keine natürliche Rangordnung der Skalenwerte
– Zuordnung von Zahlen ist lediglich eine Kodierung der Merkmalsausprägungen
– Anordnung hat keine inhaltliche Bedeutung
Vergleichsaussagen: gleich (=), ungleich (6=)
Rechnerische Operationen: Häufigkeiten
Zulässige Transformationen: bijektive (eineindeutige) Abbildungen (siehe Aufgabe 3, Blatt
1)
StatBio
33
Tabelle 2–2 Nominale Merkmale und Kodierungen
Merkmal
Baumart
Merkmalsausprägungen
Eiche
Buche
Birke
Linde
sonstige
Kodierung
1
2
3
4
5
Geschlecht
männlich
weiblich
0
1
Blutgruppe
0
A
B
AB
0
1
2
3
Spezialfall nominalskalierter Merkmale sind
binäre Merkmale (dichotome Merkmale):
Merkmale mit nur zwei Ausprägungen (häufig
0/1–kodiert).
StatBio
34
Ordinalskala (Rangskala)
Charakteristika:
Die Merkmalsausprägungen sind Kategorien, bei
denen eine natürliche Rangordnung aufgrund
ihrer Größe bzw. Intensität gegeben ist.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische
Ränge
Operationen:
Häufigkeiten,
Zulässige Transformationen: streng monotone
(ordnungserhaltende) Abbildungen (siehe Aufgabe 3, Blatt 1)
StatBio
35
Tabelle 2–3 Ordinale Merkmale und Kodierungen
Merkmal
Antibiotikaresistenz
Ausprägung
sehr sensitiv
sensitiv
intermediär
resistent
sehr resistent
Kodierung
1
2
3
4
5
Schmerzen
wenig
mittel
stark
−1
0
1
1
2
3
3
2
1
Bei nominal– und ordinalskalierten Merkmalen
haben Abstände (Differenzen) und Verhältnisse (Quotienten) von Skalenwerten keine inhaltliche Bedeutung, sind also nicht vergleichbar.
StatBio
36
Bei quantitativen Merkmalen verwendet man eine metrische Skala. Hier liegt Messbarkeit im
engeren Sinne vor, wobei Skalenwerte im Allgemeinen eine Dimension haben (Celsius, mg/l,
mmol, sec, cm, usw.).
Charakteristika:
– Abstände zwischen Skalenwerten sind interpretierbar
– Natürliche Rangordnung durch Größe der
Merkmalswerte.
Bei der metrischen Skala wird zwischen Intervall–
und Verhältnisskala unterschieden.
StatBio
37
Intervallskala (Differenzenskala)
Charakteristika:
Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert) ist willkürlich festgelegt. Konsequenz: Vergleich von Differenzen ist sinnvoll,
nicht aber von Quotienten.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische Operationen:
Ränge, Subtraktionen
Häufigkeiten,
Zulässige Transformationen: lineare Abbildungen (siehe Aufgabe 3, Blatt 1)
Beispiele intervallskalierter Merkmale:
– Temperatur in Celsius (Gefrierpunkt Wasser
=
ˆ 0◦ C) bzw. in Fahrenheit (Körpertemperatur Mensch =
ˆ 100◦ F) (Vgl. Aufgabe 4, Blatt 1)
StatBio
38
– Intelligenzquotient nach Wechsler
(Durchschnittswert = 100)
Verhältnisskala (Ratioskala)
Charakteristika:
Natürlicher (absoluter) Nullpunkt ist gegeben,
Vergleich von Verhältnissen (Quotienten) ist
daher sinnvoll. Gleiche Quotienten drücken einen
gleich großen Unterschied aus.
Vergleichsaussagen: gleich (=), ungleich (6=)
sowie kleiner (<), größer (>)
Rechnerische Operationen: Häufigkeiten,
Ränge, Subtraktionen, Divisionen
Zulässige Transformationen: lineare homogene Abbildungen (siehe Aufgabe 3, Blatt 1)
StatBio
39
Beispiele verhältnisskalierter Merkmale:
–
–
–
–
Alter in Jahren
Länge
Gewicht
Temperatur in Kelvin
(0◦ Kelvin =
ˆ −273.15◦ Celsius).
Die verschiedenen Skalenniveaus stellen eine
Hierachie dar:
Tabelle 2–4 Sinnvoll interpretierbare Berechnungen
Skala
Nominal
Ordinal
Intervall
Verhältnis
StatBio
zählen
ja
ja
ja
ja
ordnen
nein
ja
ja
ja
subtrahieren
nein
nein
ja
ja
dividieren
nein
nein
nein
ja
40
Bemerkung: Statistische Methoden, die für ein
niedriges Skalenniveau geeignet sind, können
auch für ein höheres Skalenniveau verwendet
werden (zählen und ordnen ist stets für metrische Merkmale durchführbar). Die Umkehrung
gilt nicht! Für metrische Merkmale kann etwa der Durchschnittswert (arithmetisches Mittel) berechnet werden, was für ordinal– und nominalskalierte Merkmale im Allgemeinen völlig
sinnlos ist.
StatBio
41
Skalentransformationen
Für die statistische Analyse kann es sinnvoll sein,
metrische Daten so zu transformieren, dass ihre Ausprägungen ordinalskaliert sind, auch wenn
solche Transformationen immer mit einem gewissen Informationsverlust verbunden sind (denn
aus der Kenntnis der transformierten Werte
können die ursprünglichen Werte nicht mehr
zurückgewonnen werden).
Die wichtigsten Transformationen sind der Übergang zu
– Kategorien, Klassen (Klassenbildung ,,von
... bis”, ,,Klassierung der Daten”)
– Rängen (Daten werden der Größe nach geordnet, der kleinste Wert erhält Rang 1, der
zweitkleinste Wert Rang 2, usw.)
StatBio
42
Beispiel 2.1: Von 20 Blutproben wurde der
Plasmaalbumingehalt (in g/dl) bestimmt, wobei
sich folgende Werte ergaben:
3.9, 3.3, 4.6, 4.0, 3.8, 3.8, 3.6, 4.6 4.0 3.9
3.9, 3.9, 4.1, 3.7, 3.6, 4.6 4.0, 4.0, 3.8 4.1
Die Merkmalsausprägung Plasmaalbumingehalt
wird auf der Verhältnisskala gemessen. Ordnet man die Werte in aufsteigender Reihenfolge, so lassen sich die Rangpositionen zuordnen. Des Weiteren wird die Kategorie 1
,,Plasmaalbumingehalt ≤ 4.0” und die Kategorie 2 ,,Plasmaalbumingehalt > 4.0” betrachtet.
StatBio
43
Tabelle 2–5 Skalen–Transformation der Plasma–Daten
Patient–
Nr.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
StatBio
Wert
3.9
3.3
4.6
4.0
3.8
3.8
3.6
4.6
4.0
3.9
3.9
3.9
4.1
3.7
3.6
4.6
4.0
4.0
3.8
4.1
geordnete
Werte
3.3
3.6
3.6
3.7
3.8
3.8
3.8
3.9
3.9
3.9
3.9
4.0
4.0
4.0
4.0
4.1
4.1
4.6
4.6
4.6
Rang
Kategorie
1
2.5
2.5
4
6
6
6
9.5
9.5
9.5
9.5
13.5
13.5
13.5
13.5
16.5
16.5
19
19
19
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
44
Durchschnittsrang
Der Beobachtungswert 3.6 kommt zweimal vor.
Es sind die Ränge 2 und 3 zu vergeben. Bilden
des Durchschnittsrangs:
2+3
Rang(3.6) =
= 2.5
2
Der Beobachtungswert 3.8 kommt dreimal vor.
Es sind die Ränge 5, 6 und 7 zu vergeben: Bilden
des Durchschnittsrangs:
5+6+7
=6
Rang(3.8) =
3
etc.
StatBio
45
2.3 Geordnete Stichproben und Ränge
Gegeben seien Daten
x1, x2, . . . , xn
Bezeichne
x(1) die kleinste der n Zahlen x1, . . . , xn
x(2) die zweitkleinste der n Zahlen x1, . . . , xn
..
x(n) die größte der n Zahlen x1, . . . , xn
x(k) heißt k–te Ordnungsgröße. Per Definition
gilt stets
x(1) ≤ x(2) ≤ . . . ≤ x(n)
x(1), . . . , x(n) heißt geordnete Stichprobe.
StatBio
46
Tabelle 2–6 Geordnete Plasma–Daten
i
1
2
3
4
5
6
7
8
9
10
xi
3.9
3.3
4.6
4.0
3.8
3.8
3.6
4.6
4.0
3.9
x(i)
3.3
3.6
3.6
3.7
3.8
3.8
3.8
3.9
3.9
3.9
i
11
12
13
14
15
16
17
18
19
20
xi
3.9
3.9
4.1
3.7
3.6
4.6
4.0
4.0
3.8
4.1
x(i)
3.9
4.0
4.0
4.0
4.0
4.1
4.1
4.6
4.6
4.6
Der Rang einer Zahl xi innerhalb einer Stichprobe gibt an, die wie–vielt–kleinste Zahl sie ist.
Um den Rang einer Beobachtung zu bestimmen
ist es sinnvoll, die Daten der Größe nach zu
ordnen.
Formaler versteht man unter einem Rang folgendes:
StatBio
47
1. Fall: Der Beobachtungswert xi kommt in der
Stichprobe nur einmal vor. Dann ist der Rang
von xi gleich 1 plus Anzahl der Beobachtungen
die kleiner als xi sind:
Rang(xi) = 1 + Anzahl der xj mit xj < xi
2. Fall: Der Beobachtungswert xi kommt in der
Stichprobe k–mal vor, k ≥ 2 (man spricht von
einer Bindung der Länge k). Dann hat man für
diese k gleichen Beobachtungswerte die Ränge
ri, ri + 1, . . . , ri + (k − 1)
zu vergeben, wobei
ri = 1 + Anzahl der xj mit xj < xi
Käme der Beobachtungswert xi nur einmal vor,
so wäre die Zahl ri der Rang von xi.
StatBio
48
Diese k gleichen Beobachtungswerte bekommen
alle den gleichen Rang, den Durchschnittsrang.
Dieser ist definiert als das arithmetische Mittel
der zu vergebenden Ränge:
Rang(xi)
ri + (ri + 1) + . . . + [ri + (k − 1)]
=
k
(2.1)
Formel (2.1) lässt sich vereinfachen (Aufgabe 6,
Blatt 1).
Beachte: Die Rang–Transformation
xi → Rang(xi)
einer Beobachtung xi ist immer nur in Bezug auf
die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe
7, Blatt 1)
StatBio
49
Herunterladen