Beispiel für Possion

Werbung
Diskrete Wahrscheinlichkeitsmodelle
• Poisson-Verteilung: Zählen seltener Ereignisse
Wahrscheinlichkeitsfunktion
P( X  k ) 
k
k!
exp(  )
Beispiele: Zahl der Fischvergiftungen pro Zeiteinheit
Zahl der Spontantumoren pro Zeiteinheit
historisch: Zahl der Todesfälle durch Hufschlag pro Jahr und
Regiment
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
1
Beispiel für Possion-Verteilung
Wahrscheinlichkeitsfunktion
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
2
Lebensdauerverteilungen
• Exponentialverteilung
Beispiel: Lebensdauern
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
3
Zusammenfassung: Verteilungen
• Wahrscheinlichkeitsmodelle dienen dazu, bestimmte (unsichere)
Phänomene zu charakterisieren.
• Das Wahrscheinlichkeitsmodell ist abhängig von der zu
charakterisierenden Größe.
In der Literatur gibt es eine Vielzahl solcher Verteilungen.
• Man unterscheidet diskrete und stetige Verteilungen
(Wahrscheinlichkeitsmodelle).
• Wichtige Kennzahlen von Verteilungen sind Erwartungswert und
Varianz.
• Verteilungen haben meist Parameter, die durch das Problem
gegeben sind, oder aus Daten geschätzt werden.
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
4
Statistische Erhebungen
Bei der Erhebung von Daten unterscheidet man:
• Befragungen
z.B. Befragung der Landwirte über das Verhalten der Tiere im Stall
• Experimente
z.B. Versuch, welches Arzneimittel am besten zur Heilung führt
• Beobachtungen
Auftreten einer Krankheit
Erhebungen zu Tieren in einer Tierklinik
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
5
Unterscheidungseinheiten / statistische Einheit /
Merkmalsträger
Individuen, die einer Erhebung zugrunde liegen
Beispiele:
• Einzelne Tiere
• Einzelne Herden
• Einzelne Landwirte
• Haushalte
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
6
Merkmale (Variablen)
Eigenschaften Untersuchungseinheiten z.B.
• Krankheitsstatus
• Blutparameter
• Geschlecht
• Anzahl der Kühe (bei Untersuchungseinheit Landwirt)
Merkmalsausprägungen
mögliche Werte des Merkmals
• Messergebnisse / positive Zahlen
• krank / gesund
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
7
Charakterisierung von Merkmalen
quantitative Merkmale unterscheiden sich durch ihre Größe
• Alter, Gewicht, Milchleistung, Temperatur, Anzahl Keime,
Schadstoffgehalt, …
qualitative Merkmale unterscheiden sich durch ihre Art
• Geschlecht, Namen, Rassen, Haltungsform
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
8
Merkmalswerte
Die gemessenen, erfragten oder beobachteten Ausprägungen
des Untersuchungsmerkmals sind die Merkmalswerte. Sie
stellen die Daten der Erhebung dar.
• Wiederkauverhalten: z.B. in Stunden pro Tag
• Arzneimittel: Dosis 1, Dosis 2, Dosis 0 (Placebo)
• Befund: gesund, fraglich, erkrankt
• Keimzahlen: Anzahl in 1000
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
9
Skalen
Metrische Skala: Die Werte unterliegen einer Rangfolge und die
Abstände zwischen den Werten der Skala lassen sich interpretieren.
•
Gewicht, Keimzahlen, Schadstoffmessung
Ordinalskala: Die Werte unterliegen einer Rangfolge, aber die Abstände zwischen den Werten der Skala lassen sich nicht interpretieren.
•
Bewertung (Noten), Gesundheitszustand
Nominalskala: Die Werte unterliegen keiner Rangfolge und sind nicht
Vergleichbar
•
Geschlecht, Rasse, Haltungsform
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
10
Deskriptive Statistik
Ziel:
Beschreibung von Daten mit möglichst geringem
Informationsverlust
•
•
•
•
Eigenschaften und Strukturen sichtbar machen
Graphisch und durch Kennwerte
Eindimensional und mehrdimensional
Zunächst keine Schlüsse auf die Grundgesamtheit
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
11
Rohdaten und Datenmatrix
Die Daten liegen in der Regel als Datenmatrix vor:
•
•
•
•
Zeilen entsprechen Untersuchungseinheiten
Spalten entsprechen Merkmalen
Elemente der Matrix sind die Merkmalsausprägungen
Fragen mit Mehrfachnennungen als Einzelne binäre Merkmale definieren
Hinweise zur Eingabe unter:
www.stat.uni-muenchen.de/stablab/Excel.html
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
12
Beispiel: Daten zu Mastenten (Ausschnitt)
- Ändern -
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
13
Eindimensionale Statistische Kennwerte
Lagemaßzahlen
•
•
•
•
Wo liegt die Masse der Daten?
Wo liegt die Mehrzahl der Daten?
Wo liegt die Mitte der Daten?
Welche Mehrmalsausprägung ist typisch für die
Häufigkeitsverteilung?
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
14
Statistische Kennwerte
Streumaßzahlen
• Über welchen Bereich erstrecken sich
die Daten?
• Wie groß ist die Schwankung der
Ausprägungen?
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
15
Eindimensionale Häufigkeitsverteilung
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
16
Der Modus
Definition: Häufigster Wert
Eigenschaften:
• oft nicht eindeutig
• nur bei gruppierten Daten oder bei Merkmalen mit wenigen
Ausprägungen sinnvoll
• stabil bei allen eindeutigen Transformationen
• geeignet für alle Skalenniveaus
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
17
Beispiel Modus
Modus = 4
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
18
Der Median
Definition: Wert für den gilt
50% der Daten sind kleiner oder gleich med
50% der Daten sind größer oder gleich med
med =
n 1

(k )
x
falls
k

ganze Zahl


2
1
 ( x ( k )  x ( h 1) ) falls k  n ganze Zahl

2
2
x (1)  x ( n )
sind geordnete Werte
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
19
Eigenschaften des Median
•
•
•
•
anschaulich
stabil gegenüber monotonen Transformationen
geeignet für ordinale Daten
stabil gegenüber Ausreißern
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
20
Beispiel Median
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
Statistiken
Hämatokrit
N
Gültig
Fehlend
Median
Modus
80
40
40,00
40
21
Das Quantil (Perzentil)
Definition: Wert für den gilt
Anteil p der Daten sind kleiner oder gleich xp
Anteil 1-p der Daten sind größer oder gleich xp

(k )

 x falls np keine ganze Zahl und k kleinsteZahl  np

1 (k )
( h 1)

(
x

x
) falls k  np ganze Zahl

2

Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
22
Fünf-Punkte
Zusammenfassung
Minimum, 25%-Quantil, Median,75%-Quantil,Maximum
Hämatokrit
Gültig
Fehlend
Ges amt
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
Statistiken
Hämatokrit
N
Gültig
Fehlend
Median
Perzentile 10
25
50
75
90
99
80
40
40,00
36,00
38,00
40,00
41,00
42,00
44,00
23
Der Mittelwert (arithmetisches Mittel)
1 n
x   xi
n i 1
• bekanntestes Lagemaß
• instabil gegen extreme Werte
• geeignet für Intervallskalierte Daten
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
24
Beispiel Mittelwert
Hämatokrit
Gültig
Fehlend
Ges amt
Häufigkeit
3
7
3
9
16
18
12
5
6
1
80
40
120
35
36
37
38
39
40
41
42
43
44
Ges amt
Sys tem
Prozent
2,5
5,8
2,5
7,5
13,3
15,0
10,0
4,2
5,0
,8
66,7
33,3
100,0
Gültige
Prozente
3,8
8,8
3,8
11,3
20,0
22,5
15,0
6,3
7,5
1,3
100,0
Kumulierte
Prozente
3,8
12,5
16,3
27,5
47,5
70,0
85,0
91,3
98,8
100,0
Deskriptive Statistik
N
Hämatokrit
Gültige Werte
(Lis tenweise)
80
Minimum
35
Maximum
44
Mittelwert
39,48
Standardab
weichung
2,093
80
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
25
Die Spannweite (Range)
Definition:
q  xmax  xmin
• „Bereich in dem die Daten liegen“
• Wichtig für Datenkontrolle
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
26
Der Quartilsabstand
Definition:
q  x0, 75  x0, 25
• „Größe des Bereichs in dem die mittlere Hälfte der Daten liegt“
• Geeignet für ordinal skalierte Daten
• Zentraler 50%-Bereich
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
27
Standardabweichung
2
Definition: S 
S
1
2
(
x

x
)
 i
n 1
S2
• „Mittlere Abweichung vom Mittelwert“
• Manchmal auch 1/n statt 1/(n-1)
• Intervallskala Voraussetzung
Vorlesung: Biometrie für Studierende
der Veterinärmedizin 17.11.2005
28
Herunterladen