Folie 1

Werbung
Department of Sport
Science and Kinesiology
Universitätslehrgang Sports Physiotherapy
Einführung in die Statistik
Gerda Strutzenberger
Block I
Deskriptive Statistik
Definition
Die Deskriptive Statistik befasst sich mit Methoden zur
Aufbereitung und Darstellung von Daten, sowie mit der
Charakterisierung dieser Daten durch Maßzahlen.
Ziel
 Daten ordnen
 Daten graphisch und tabellarisch übersichtlich darstellen
 Durch Kennzahlen zusammenfassen (Mittelwert,
Summe...)
Deskriptive Statistik
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
Block 1
Mittwoch 15.2.2012
• 13:00 bis 14:50 Grundlagen, Skalenniveau
• 15:05 bis 17:00 Gütekriterien, Hypothese, Wiss. Arbeit
Donnerstag (16.2.2012.)
• 08:00 bis 09:50 zentrale Tendenz, Streumaße, Grafiken
• 10:05 bis 12:00 Normalverteilung, z-Transformation,
• 13:00 bis 14:50 Korrelation
• 15:05 bis 17:00 Regression/partielle Regression
Deskriptive Statistik
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
2. Graphische Darstellungen (beschreibender Charakter)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
dienen zur Weiterverarbeitung in der Inferenzstatistik
3.1 Maße der zentralen Tendenz (Lokationsmaße)
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
1.Tabellen
Strichliste
Das Zählen von Merkmalsausprägungen ist bereits der deskriptiven
Statistik zuzuordnen.
2. Graphische Darstellungen (beschreibender Charakter)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
Zählen heißt das Einsortieren der beobachtbaren Ausprägungen in
bereits festgelegte Merkmalsklassen.
dienen zur Weiterverarbeitung in der Inferenzstatistik
3.1 Maße der zentralen Tendenz (Lokationsmaße)
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
Beispiel einer Strichliste: Befragung zum Familienstand (n=86)
Häufigkeit
(f)
ledig
|||||||||| |||||||||| |||||||||| ||
32
verheiratet
|||||||||| |||||||||| |||||||||| |||||||
37
verwitwet
|||||
5
geschieden
|||||||||| ||
12
1
Tabellen
Tabellen
Häufigkeitstabelle – Begriffserklärung
Häufigkeitstabelle
Ziel:
Zusammenfassen der Strichliste in eine Häufigkeitstabelle
Häufigkeit:
…die Anzahl, mit der ein bestimmtes Ergebnis bzw. Ereignis eingetreten
ist. Bei der Angabe dieser Häufigkeit unterscheidet man verschiedene
Formen:
ledig
verheiratet
verwitwet
geschieden
Σ
Absolute Häufigkeit (f):
Häufigkeiten (f)
32
37
5
12
86
Rel. Häufigkeiten (f/n)
32/86 =0,37
37/86 =0,43
5/86 =0,06
12/86 =0,14
1.00
…wie viele Merkmalsträger zu einer bestimmten Merkmals-ausprägung in
einem Datensatz gehören.
Rel. Prozenthäufigkeiten
(%)
37,0
43,0
6,0
14,0
100,00
Kumulierte Häufigkeiten
(cum f)
32
69
74
86
Relative Häufigkeit (f/n):
….ist die absolute Häufigkeit f dividiert durch die Anzahl aller
Beobachtungswerte. Für den Vergleich unterschiedlicher Datensätze wird
sie als normiertes Maß verwendet.
Kumulierte Prozent37,0
86,0 (N=86)100,00
Häufigkeitstabelle
einer Befragung
zum80,0
Familienstand
häufigkeiten (cum f%)
Tabellen
Tabellen
Häufigkeitstabelle – Begriffserklärung
Übungsaufgabe – Häufigkeitstabelle
Relative Prozenthäufigkeit (Prozentwert):
Ein Prozentwert ist definiert als die Anzahl der Beobachtungen, die einen
bestimmten Wert annehmen, dividiert durch die Anzahl aller
Beobachtungen, multipliziert mit 100. Kurz: die relative Häufigkeit f/n x
100.
Häufigkeiten (f)
nominal
ordinal
intervall
verhältnis
4
11
28
3
Σ
Rel. Häufigkeiten (f/n)
Kumulierte Häufigkeit:
Die kumulierte Häufigkeit cum f ist die sukzessive summierte absolute
Häufigkeit f.
Rel. Prozenthäufigkeiten
(%)
Kumulierte Häufigkeiten
(cum f)
Kumulierte Prozenthäufigkeiten (Prozentränge):
Prozentränge cum f% sind kumulierte (aufsummierte) Prozentwerte.
Tabellen
Kumulierte Prozenthäufigkeiten (cum f%)
Häufigkeitstabelle der auf Frage nach Skalennvieau (n=46)
Deskriptive Statistik
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
Übungsaufgabe – Häufigkeitstabelle
2. Graphische Darstellungen (beschreibender Charakter)
nominal
ordinal
intervall
verhältnis
Σ
Häufigkeiten (f)
4
11
28
3
46
Rel. Häufigkeiten (f/n)
4/46 =0,09
11/46 =0,24
28/46 =0,61
3/46 =0,06
1,00
Rel. Prozenthäufigkeiten
(%)
9
24
61
6
100,00
Kumulierte Häufigkeiten
(cum f)
4
15
43
46
Kumulierte Prozenthäufigkeiten (cum f%)
9
33
94
100
Häufigkeitstabelle der Vorlesungsfrage 8 (N=46)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
dienen zur Weiterverarbeitung in der Inferenzstatistik
3.1 Maße der zentralen Tendenz (Lokationsmaße)
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
2
Graphische Darstellung von Daten
•
•
•
•
•
Balkendiagramme
Kreisdiagramm
Liniendiagramm
Boxplot
Streudiagramm
Kreisdiagramm
• Eignet sich sehr gut
für nominalskalierte
Daten
• Z. B. Geschlecht,
Spotart…
Balkendiagramm
• Balkendiagramm bei
nominal- und
ordinalskalierten Daten
• Histogramm ab
intervallskalierten Daten
(keine Zwischenräume)
Liniendiagramm
• Kommt hauptsächlich
zum Einsatz, wenn
Zeitverläufe dargestellt
werden
Boxplot
Streudiagramm
1. Quartil (oder 25%-Quantil)
teilt die Daten bei einem
Viertel: Ein Viertel der Werte
sind kleiner, drei Viertel sind
größer.
• Darstellung des
Zusammenhangs
zweier
intervallskalierter
Daten
3. Quartil (oder 75%-Quantil)
teilt die Daten bei 75%
2. Quartil ist das 50%-Quartil =
Median.
• Aufschluss über
Stärke und Form
des
Zusammenhangs
3
Graphische Darstellung
Wichtige Hinweise
Daten werden aus Gründen der Übersicht zusammengefasst dargestellt.
Ziel dieser Art der Visualisierung ist die Fokussierung bestimmter Aspekte,
die sich aus den Daten ergeben.
Graphische Darstellung
Verfälschungen
Dabei kann es zu beabsichtigten oder unbeabsichtigten Verzerrungen
kommen.
WICHTIG:
Die y-Achse muss immer möglichst alle annehmbaren Werte einschließen
(Beispiel 0% -100%).
Fehler:
In manchen Fällen werden Unterschiede verstärkt dargestellt, indem die
Achse unterbrochen oder verzerrt wird.
Graphische Darstellung
Verfälschungen
Graphische Darstellung
Verfälschungen
4
Deskriptive Statistik
Charakteristische Maßzahlen (Kenngrößen)
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
2. Graphische Darstellungen (beschreibender Charakter)
Maße der zentralen Tendenz (Lokationsmaße)
Beschreibung der Verteilung bzgl. ihres Schwerpunktes
(Mittelwert, Modus, Median)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
dienen zur Weiterverarbeitung in der Inferenzstatistik
3.1 Maße der zentralen Tendenz (Lokationsmaße)
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
Streuungsmaße (Dispersionsmaße)
Aussagen über die Streuung von Häufigkeitsverteilungen
(Standardabweichung, Varianz, Range, Quantilmaße)
Formmaße
Aussagen über die Anpassung der Verteilung an die
Normalverteilung (Schiefe, Exzess)
Maße zentrale Tendenz
Statistische Kennwerte
Modus oder Modalwert
 Geben Auskunft über bestimmte Eigenschaften
eines Datenkollektivs oder einer Verteilung
• Ist derjenige Wert, der am häufigsten vorkommt
• Lässt sich aus einer Häufigkeitstabelle ablesen
 Aus vielen Werten werden einige wenige
Einzelwerte gebildet  Reduzierung
Modus:
15-20 Punkte
Maße zentrale Tendenz)
Maße zentrale Tendenz)
Unimodal und bimodale Verteilung
Median (Zentralwert)
Haarfarbe
Häufigkeit
Treffer/Min
Häufigkeit
Braun
5
1
3
Blond
12
2
6
3
4
Schwarz
1
4
6
andere
2
5
0
6
2
Unimodal; Modus blond
Md = x(n+1)/2
• … ist der Wert, von dem alle übrigen Werte im
Durchschnitt am wenigsten abweichen
• Die Summe der Abweichungsbeträge ist minimal
• Es liegen genauso viel Werte über als unter dem Median
Bimodal; Modus 1 und 3 Treffer/min
7
12
6
10
5
Treffer/Minute
14
8
6
4
3
2
4
1
2
0
1
0
braun
blond
schwarz
andere
2
3
4
5
6
Häufigkeit
5
Maße zentrale Tendenz
Maße zentrale Tendenz
Arithmetischer Mittelwert
• …ist die Summe aller Messwerte dividiert durch
die Anzahl n.
Aufgabe: Bestimme den Median
Die Mitglieder eine Gruppe haben folgendes Alter
59 68 51 72
67 65 53
geordnete Reihenfolge:
51 53 59 65 67 68 72
Md = x(n+1)/2 = x(7+1)/2= x(4)
Maße zentrale Tendenz
Aufgabe: Bestimme den Mittelwert
1. Messwerte:
12, 24, 34, 11, 2, 7, 35, 7, 34, 21, 22, 37
Maße zentrale Tendenz
Die Maße der zentralen Tendenz für das jeweilige
Skalenniveau
x  20,5
2. Messwerte:
66, 78, 56, 77, 98, 54, 85, 60, 56, 88, 76, 45,
112, 81
x  73,7
Rasch et al., 2006
Maße zentrale Tendenz)
Verwendung der Maße für die zentrale Tendenz
Modus
- wenn lediglich ein grober Überblick über eine Verteilung gefragt ist
- wenn „durchschnittlich im Sinne von „am häufigsten“ benutzt wird
Median
- wenn
- wenn
- wenn
- wenn
Deskriptive Statistik
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
2. Graphische Darstellungen (beschreibender Charakter)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
dienen zur Weiterverarbeitung in der Inferenzstatistik
mindestens ordinalskalierteVariablen vorliegen
man den exakten Mittelpunkt einer Verteilung kennen möchte
Extremwerte das arithmetische Mittel stark verzerren würden
eine deutliche Abweichung von der Normalverteilung vorliegt
Arithmetisches Mittel
3.1 Maße der zentralen Tendenz (Lokationsmaße)
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
- wenn mindestens eine Intervallskalierung vorliegt
- wenn die Verteilung in etwa symmetrisch ist
6
Streuungsmaße
Streumaße
Verteilungen die bezüglich ihrer zentralen Tendenz übereinstimmen können
trotzdem voneinander abweichen.
 Berechnung um Angabe von Streuungsmaßen um die Verteilung besser zu
beschreiben
Beispiel:
Messreihe mit gleicher zentraler Tendenz, aber Unterschiedlicher Streuung
1. Messreihe: 100 100 110 150 150 150 190 200 200
2. Messreihe: 145 146 147 150 150 150 153 154 155





Streubreite (Range)
Quartile/Boxplot
Standardabweichung
Varianz
Variabilitätskoeffizient
Modus = 150
Median = 150
Mittelwert = 150
Streubreite (Range)
Streubreite (Range)
Aufgabe : Bestimme den Range
…Differenz zwischen dem größten und dem
kleinsten Wert
Messung 1: 100 100 110 150 150 150 190 200 200
Range= 200 – 100 = 100
Z. B.: Zahlenreihe: 7,8,9,5,7,12
R = 12-5 = 7
Messung 2: 145 146 147 150 150 150 153 154 155
Voraussetzung: mindestens Ordinalskalenniveau
Range= 155 – 145 = 10
Quartile/Boxplot
•
•
•
1. Quartil [Q1 = P25]: Wert, bei dem ¼ der Messwerte darunter, ¾
darüber liegen.
2. Quartil: [Q2 = P50 ]: Median
3. Quartil [Q3 = P75]: Wert, bei dem ¾ der Messwerte darunter, ¼
darüber liegen.
Dezil
Einteilung in 10 gleichgroße Teile.
1. Dezil = P10 usw
Interquartilsabstand:
Maß für die
Streubreite ist hier
Differenz zwischen Q1
und Q3.
Boxplot
1. Quartil (oder 25%-Quantil)
teilt die Daten bei einem
Viertel: Ein Viertel der Werte
sind kleiner, drei Viertel sind
größer.
3. Quartil (oder 75%-Quantil)
teilt die Daten bei 75%
2. Quartil ist das 50%-Quartil =
Median.
max
Q3
Q2
Q1
min
7
Balkendiagramm vs .Box-Plot
Standardabweichung
3. Quartil
Interquartilabstand
2. Quartil
1. Quartil
…durchschnittliche Abweichung der Messwerte
vom Mittelwert
Standardabweichung
Standardabweichung
Aufgabe : Berechne die Standardabweichung
N=6
x
Xi-mw
(xi-mw)2
s
n

i 1
( xi  x ) 2
n
Messung 1: 100 100 110 150 150 150 190 200 200
4
s = 38,3
5
3
10
16
Messung 2: 145 146 147 150 150 150 153 154 155
7
mw =
Summe
…durchschnittliche Abweichung der Messwerte
vom Mittelwert
Varianz s2
…Quadrat der Standardabweichung
s = 3,3
Varianz s2
Aufgabe : Berechne die Varianz
Messung 1: 100 100 110 150 150 150 190 200 200
s2 = 1466,7
…ist die Summe aller quadrierten Abweichungen vom
Mittelwert, dividiert durch die Anzahl n.
Messung 2: 145 146 147 150 150 150 153 154 155
s2 = 11,1
Anwendung
Intervallskalierten Daten
8
Streuungsmaße
Variabilitätskoeffizient
Beispiel Variabilitätskoeffizient
prozentuelle Abweichung der Standardabweichung
vom Mittelwert
Versuch
Bei N=100 Vpn wird die Anzahl der Treffer in einem Experiment am
Reaktionsgerät ermittelt. Es soll überprüft werden, wie groß die
Streuung der Trefferzahlen beim 1., 5. und 10. Versuch ist.
Anwendung:
Verhältnisskalenniveau
Deskriptive Statistik
Arten der Darstellung:
1. Tabellen (beschreibender Charakter)
2. Graphische Darstellungen (beschreibender Charakter)
3. Charakteristische Maßzahlen (statistische Kenngrößen)
Versuchsreihe
Mittelwert
(Treffer)
Standardabweichung
VK %
1. Versuch
13.85
4.75
34.3
5. Versuch
22.60
4.65
20.6
VKs zeigen, dass die Variabilität der individuellen Leistungen im
Laufe 10.
desVersuch
Trainings 24.50
abnimmt. Die
Mittelwert
3.90Streuung um den15.9
wird geringer.
Verteilungen
 Gleichverteilung
 Dreiecksverteilung
 Gaußsche Glockenkurve/Normalverteilung
dienen zur Weiterverarbeitung in der Inferenzstatistik
3.1 Maße der zentralen Tendenz (Lokationsmaße)
• Formmaße
– Skewness & Excess
3.2 Streuungsmaße (Dispersionsmaße)
3.3 Formmaße (Anpassung an die Normalverteilung)
Gleichverteilungen
Dreiecksverteilung
• Im Experiment A wird 1 Würfel 60-mal gerollt.
• Wie oft, glauben Sie, wird jede Zahl gewürfelt
(Erwartungswert)?
• In einem Experiment B wurde mit 2 Würfel
gerollt.
fa…absolute Häufigkeit
frel…relative Häufigkeit
fre…erwartete relative Häufigkeit
9
Normalverteilung
Normalverteilung
• In Experiment C wird mit unendlich vielen Würfel
gespielt. Wie sieht die Verteilung nun aus?
Eigenschaften:
 Mittelwert, Median, Modus fallen zusammen
 symmetrisch um den Mittelwert
 Mittelwert ist häufigster Wert
 asymmetrisch gegen x-Achse
 2 Wendepunkte (max. u. min. Steigung) bei x ± s
 Häufigkeit [ x -s, x +s] ~68% [2/3]
[ x -2s, x +2s] ~95%
[ x -3s, x+3s] ~ 99,7%
 die Gesamtfläche zwischen Kurve und x-Achse entspricht der
Wahrscheinlichkeit 1. D.h. eine Versuchsperson erreicht mit
einer Wahrscheinlichkeit von 1 einen Wert, der im Definitionsbereich
liegt.
Normalverteilung
Standard-NV (z-Transformation)
Die Gaußsche Glockenkurve beschreibt eine Normalverteilung der Werte.
Beispiel: z-Werte
Normalverteilung bedeutet, dass hohe Häufigkeiten der Werte im Bereich
des Mittelwertes und geringe Häufigkeiten bei Extremwerten auftreten
[Willimczik,1993].
2 Tests mit 30 Schülern: Coopertest und Weitsprung (mw & s gegeben)
Martin und Josef erreichen folgende Werte
Der Kurvenverlauf wird durch die Standardabweichung und den Mittelwert
bestimmt. Je kleiner die Standardabweichung wird, desto steiler ist ihr
Verlauf.
 Ist Martin individuell im Weitsprung oder beim Coopertest besser?
Die Kurve nähert sich an die x-Achse an, erreicht diese aber nie, da sie
Werte von   annimmt.
 Hat Josef sein Talent in der Ausdauerleistung, oder doch eher im Weitsprung?
Standard-NV (z-Transformation)
Standard-NV (z-Transformation)
Beispiel: z-Werte
Berechnung der z-Werte um die unterschiedlichen Daten
vergleichbar zu machen
Beispiel: z-Werte
Coopertest
z Martin 
Weitsprung zMartin 
2200  2000
1
200
4,2  4,0
 1,33
0,15
z Joseph 
1900  2000
 0,5
200
z Joseph 
3,9  4,0
 0,66
0,15
 Martin: ist im Weitsprung besser als im Coopertest, da er
hier den höheren z-Wert erreicht
 Josef: ist beim Coopertest besser als beim Weitsprung, da
er hier den höheren z-Wert erreicht
10
Standardnormalverteilung
Standardnormalverteilung
zi 
xi  x
s
x 0
x  s  1

z p(z)*100%
-3
0,13
-2
2,28
-1
15,87
0
50
1
84,13
2
97,72
3
99,87
 f ( z )dz  1

Die z-Transformation hat alle Eigenschaften
einer Normalverteilung
Charakteristische Maßzahlen (Kenngrößen)
z
p(z)*100%
[-1,+1]
68,26
[-2,+2]
95,44
[-3,+3]
99,74
p(z)*100%
z
95
1,65
97,5
1,96
99
2,33
99,5
2,58
Bitte lösen Sie folgende Beispiele! (Gruppe)
Überblick über die wichtigsten Kenngrößen in Abhängigkeit
vom Skalenniveau
Kenngrößen
Maße der zentralen
Tendenz
Streuungsmaße
Formmaße
Nominalskalen
Modus
Keine Berechnung
möglich
Keine Berechnung
möglich
Ordinalskalen
Intervallskalen
Modus
Median
Modus
Median
Mittelwert
Quantilmaße
Dezildifferenz
Quartilabstand
Keine Berechnung
möglich
Quantilmaße
Dezildifferenz
Quartilabstand
Range
Varianz
Standardabweichung
1.
a)
b)
Bestimmen Sie den z-Wert einer Standardverteilung,
Oberhalb dessen ca 25% der Werte liegen
Unterhalb dessen ca. 16% der Werte liegen
2.
Im Leichtathletikverein Neukirchen liegt der Mittelwert der
Weitsprungleistung der Frauen bei 6,4m mit einer Standardabweichung
von 0,35m. Wie weit muss eine Athletin springen, um unter den besten
16% zu sein?
3.
Eine Versuchsperson erhält in einem Angsttest (μ = 20, s = 5) den
Testwert 12. Welches Ergebnis würde sie theoretisch in einem anderen
Angsttest mit μ = 0 und s = 10 erreichen?
4.
Ein Firmenchef möchte nur sehr intelligente Bewerber einstellen, nämlich
nur solche, die in den oberen 3% der Population liegen. Wie groß muss der
IQ-Wert einer Person in einem Intelligenztest mindestens sein, um bei ihm
einen Job zu bekommen (Intelligent-Test: μ = 100, s = 15)
Schiefe
Exzess
Weiter Beispiele
Lösung: 1. Beispiel
A) z = 1
b) z= -1
Lösung: 3. Beispiel
1. z berechnen; z= -1,6
2. x = -1,6*10
3. x = -16
Lösung: 2. Beispiel
1. z-Wert von 1
2.
3. x= (1*0,35) + 6,4
4. 6,75m
Weitsprung Rumpfbeuge
mw Jungs
sd Jungs
mw Mädchen
sd Mädchen
Josef
Lisa
Lösung: 4. Beispiel
X = 130
•
•
•
144
22.7
135
18.6
150
150
-3.17
6.29
-0.69
6.73
2
2
Seitl hin&her
springen
25.29
6.18
26.48
5.72
20
23
Ist Lisa oder Josef im Weitsprung besser?
Ist Lisa oder Josef bei der Beweglichkeit besser?
Wer von den beiden erreicht die höheren Werte in der
Gesamtwertung?
11
Aufgabenblatt
12
Herunterladen