Deskriptive Statistik

Werbung
Die Statistik beschäftigt sich mit
Massenerscheinungen,
bei denen die dahinterstehenden
Einzelereignisse meist zufällig sind.
Statistik benutzt die Methoden der
Wahrscheinlichkeitsrechnung.
Fundamentalregeln:
Statistischen Aussagen beziehen sich nie auf
ein Einzelereignis, sondern nur
auf Gesamtheiten vieler Ereignisse.
Jede statistische Aussage ist mit einer
prinzipiell unvermeidlichen Unsicherheit
behaftet.
2
Deskriptive Statistik
KAD 2013.09.12
das erste Anwendungsgebiet der Statistik
bestand in der
Staatsbeschreibung
(Völkszählung)
Status = Zustand
Semmelweis (18181865) war der erste
bekannte Arzt, der
den Nutzen einer
neuen Therapie
mit statistischen
Methoden belegte
3
http://www.medizin.uni-koeln.de/kai/imsie/kursinfo/q1/Q1-01-Einfuehrung.pdf
4
Labormessergebnisse
Was messen Physiker, Arzt und Medizinstudent?
5
6
Pr.Buch Tabelle 3
Klassifizierung der Merkmale
Skalentypen der metrischen Merkmale
diskret
Intervallskala
kontinuierlich
Tage in
einem
Kalender
Temperatur
in °C
Anzahl
der
Zähne
Temperatur
in K
definierte Differenz,
„kein” 0 Punkt
Verhältnisskala
definiertes
Verhältnis,
0 Punkt
7
8
Element
=, ≠
=, ≠
<, >
+,−
=, ≠
<, >
=, ≠
<, >
+, −
*, /
Auseinanderhalten
Anordnung
Differenz
Stichprobe:
Gesamtheit der Individuen
(Elemente), deren Eigenschaften
bei der Studie untersucht werden
sollen. Die gesamte Menge der
interessierenden Daten.
Der für die Studie
ausgewählte Teil
der Population.
N = „unendlich”
Verhältnis
n = endlich
N >>n (Umfang)
9
über die man
etwas aussagen
möchte
die Stichprobenelemente sollen
zufällig
ausgewählt
werden
Grundgesamtheit (Population):
10
Wie hoch ist die normale Pulsfrequenz (einer Population)?
Merkmal: Pulsfrequenz
zufällige Erhebung einiger
Elementen der Population: Stichprobe
Grundgesamtheit
Daten der Stichprobe liegen in Form einer Urliste vor:
Stichprobe
66, 56, 89, 63, 66, 69, 71, 68, 58, 69, 78, 66, 64, 84, 74, 76, 69, 77, 74, 76 (Einheit: 1/Min),
oder:
Zufall !
deskriptive
Statistik
Unsicherheit !
„Die Werte sollen geordnet und verdichtet werden.” !?
induktive Statistik
(schließende St.
analytische St.)
Stellen wir die Daten entlang einer Zahlengeraden dar!
Die deskriptive Statistik ist die Vorstufe zur induktiven Statistik
keine Daten
11
wenige Daten
viele Daten
wenige Daten keine Daten
12
Pr.Buch Abb. 4
Häufigkeitsdichte
Verfeinern wir die Klassen noch weiter!
Δn
Δx
Unterteilen wir die Zahlengerade in gleich breite Klassen
(Intervalle) und zählen wir ab, wie viele Daten sich in den
so erhaltenen Klassen befinden!
⎛
⎞
⎜ 1 ⎟ ⎛ Min ⎞
⎜
⎟=⎜
⎟
⎜5 1 ⎟ ⎝ 5 ⎠
⎜
⎟
⎝ Min ⎠
in Excel:
=frequency(...)
=Häufigkeit(...)
Die Fläche unter der
Treppenfunktion
zwischen 55 und 60:
5
Die Grenzwerte und die Breiten der Klassen sind willkürlich.
Stellen wir diese Treppenfunktion dar!
13
⎛ 1 ⎞
⎜
⎟
⎝ Min ⎠
1
Min
⋅2
=2
Min
5
Die Gesamtfläche unter der
Treppenfunktion: 20 = n,
Anzahl der Messdaten in
der Stichprobe
14
Pr.Buch Tabelle 5
Δn
Δx
⎛ Min ⎞
⎜
⎟
⎝ 5 ⎠
absolute
Häufigkeitsdichteverteilung
1 Δn
n Δx
⎛ 1 Min ⎞
⎜
⎟
⎝ 20 5 ⎠
relative
Fläche unter
der Kurve:
n
⎛ 1 ⎞
⎜
⎟
⎝ Min ⎠
absolute
Häufigkeitsdichte
(Histogramm)
relative
Häufigkeitsdichte
(Histogramm)
Fläche unter
der Kurve:
1
n = 1 = 100 • •
n
⎛ 1 ⎞
⎜
⎟
⎝ Min ⎠
„Jedes Rechteck
entspricht einem
Messwert. „
15
16
Pr.Buch Abb. 5
Bestimmung der optimalen
Klasseneinteilung
empirische
Funktion
empirische
Funktion
n vergrößert sich,
die Klassenbreite Δx kann
verkleinert werden
optimale Klassenanzahl m:
m 2 = 2n
m = 2n
m = 40 = 6.3
optimale Klassenbreite Δx:
x − xmin
Δx = max
m
89 − 56
Δx =
= 5.2
6 .3
17
Pr.Buch Abb. 5
Bei großen Stichproben ergibt die
empirische Verteilungsfunktion
eine sehr gute Näherung der
theoretischen Verteilungsfunktion.
(Die Stichprobe ist „gleich” der
18
Grundgesamtheit.)
theoretische
Funktion
Pr.Buch Abb. 6
Lagemasse, Lokationsmasse
Analyse von Häufigkeitsverteilungen
Lageparameter. Charakterisierung das Zentrum der Daten
Durchschnittswert (der arithmetische Mittelwert)
homogene symmetrische Stichprobe:
heterogene Stichprobe:
Vermutung:
linksschief
rechtsschief
=Mittelwert(...)
n
x=
homogene nichtsymmetrische Stichproben:
=average(...)
x1 + x 2 + K + x n
=
n
∑x
i =1
i
n
Modus (Modalwert, Dichtemittel): der Wert mit der
größten Wahrscheinlichkeit;
der häufigste Wert einer Häufigkeitsverteilung
=mode(...)
=Modalwert(...)
Median (Zentralwert): halbiert eine Stichprobe.
Anzahl der Daten der Stichprobe kleiner als Median =
= Anzahl der Daten der Stichprobe größer als Median
Gleichverteilung?
Normalverteilung?
Überlagerung von zwei
Normalverteilungen?
⎧ x( n +1) / 2 falls n ungerade
xmed = ⎨
⎩( x n / 2 + x( n / 2+1) ) / 2 falls n gerade
=median(...)
=Median(...)
20
Durchschnittswert (der arithmetische Mittelwert)
+
x1
+
x2
x3
Linkssteile bzw. rechtschiefe Verteilung
=
f(x)
=skew(...) > 0
=Schiefe(...) > 0
=
n
∑ (x
i =1
i
+
x
x
− x ) = ∑ xi − ∑ x = ∑ xi − n x = 0
+
x
Die Summe der Abweichungen
der Daten von diesem Wert ist
gleich Null.
z.B. Einkommensverteilungen in einem Land:
Der Großteil der Bevölkerung verdient relativ wenig,
während es nur wenig Leute gibt, die sehr viel verdienen.
n
x=
x1 + x 2 + K + x n
=
n
∑x
i =1
n
i
=average(...)
=Mittelwert(...)
x
Modus Median Durchschnitt
=3x
21
22
Weitere Beispiele
Linksschiefe bzw. rechtssteile Verteilung
f(x)
MaxwellBoltzmannVerteilung
=skew(...) < 0
=Schiefe(...) < 0
Durchschnitt
Komplexität
der Tiere
Median
Modus
x
z.B. Dauer einer
Schwangerschaft
23
www.vordenker.de/if_gould/images/verteilung.gif
24
Streuungsmasse (Variabilitätsmaße,
Variationsmaße)
Mass für die Streubreite von Daten
Streuungsparameter.
Charakterisierung der Variation der Daten
Daten und ihre Durchschnittswerte
Die Daten
streuen um
den Durchschnittswert.
Standardabweichung
(Streuung der
Messdaten, s):
die mittlere Abweichung
vom Durchschnitt:
das Quadrat der Streuung,
die mittlere quadratische
Abweichung, auch als
Varianz bezeichnet:
Pulsfrequenzen (1/Min)
25
Spannweite: xmax-xmin
n
s=
∑(x
i =1
i
n −1
n
s2 =
− x )2
∑(x
i =1
i
=stdev(...)
=Stabw(...)
− x )2
n −1
=var(...)
=Varianz(...)
=max(...)-min(...)
26
Pr.Buch Abb. 10
α-Quantil
0 <α <1
(seien dazu die xi aufsteigend sortiert):
Perzentilenkurven
sind ein Werkzeug
für den Arzt.
falls nα keine ganze Zahl ist
⎧ x
xα = ⎨ [nα ]+1
+
(
x
x
⎩ nα nα +1 ) / 2 falls nα ganzzahlig ist
x1/4 – unteres Quartil
x3/4 – oberes Quartil
x1/10 – unteres Dezil
x9/10 – oberes Dezil
=Quartil(...)
Wachstums- und
Gewichtskurven
für Mädchen
halber Quartilabstand : (x3/4 – x1/4)/2
mit Wörter: z.B. Dezile
Durch Dezile (lat. „Zehntelwerte“) wird die Verteilung in
10 gleich große Teile zerlegt. Unterhalb des dritten
Dezils liegen 30 % der Verteilung.
=percentile(...)
=Quantil(...)
27
28
Position des Medians und des Durchschnitts einer Verteilung
f(x)
ΔN
Δx
rechtsschiefe
Verteilung
Apunktierte = Aschraffierte
50%
x
Modus Median Durchschnitt
Skalentypen
50%
zulässige LageParameter
zulässige StreuungsParameter
Nominalskala
Modus
–
Ordinalskala
Modus, Median
–
numerische Skalen
Modus, Median,
Durchschnittswert
Spannweite,
Quartilabstand,
Standardabweichung
Summen- (kumulierte/kumulative) Häufigkeitsverteilung
N
14
Wieviele
Werte sind
kleiner als h?
12
10
8
6
4
2
0
150
ΔN
Δh
⎛ 1 ⎞
⎜⎜
⎟⎟
⎝ 10 cm ⎠
HäufigkeitsdichteVerteilung
„SummenHäufigkeitsverteilung”
170
180
190
200
210
220
h (cm)
6
5
DD-”Spektrum”
4
3
2
1
0
150
M=N0-N
160
160
170
180
190
200
210
220
14
12
ID-”Spektrum”
10
8
6
4
2
0
150
h (cm)
Wieviele
Werte sind
grösser als h?
h (cm)
160
170
180
190
200
210
220
ΔN
Δx
Median
Schwerlinie
29
SummenHäufigkeitsverteilung
x
31
Durchschnitt
Coulter-Zähler
x
30
Herunterladen