Deskriptive Statistik

Werbung
Deskriptive Statistik
Korpuslinguistik
Heike Zinsmeister
WS 2009/10
Abgrenzung:
deskriptive vs. analytische Statistik (1)
• Deskriptive Statistik = beschreibende Statistik
• Aufgabe
– Zustände und Vorgänge beschreiben
• Methoden
– Tabelle, grafische Darstellungen, Verhältniszahlen, typische
Kenngrößen wie Lagemaße (z. B. arithmetischer Mittelwert)
und Streuungsmaße (z. B. Varianz und
Standardabweichung)
• Ursprung
– von Herrschern benötigte Daten über die Bevölkerung, z B.
die Zahl der wehrfähigen Männer
– durch den Spieltrieb angeregte Überlegungen über
Wettchancen beim Würfelspiel
13. Januar 2010
(Sachs
und
Hedderich
2009:1-2)
1
Abgrenzung:
deskriptive vs. analytische Statistik (2)
• Analytische Statistik = beurteilende Statistik
• Aufgabe
– anhand von geeigneten Daten auf allgemeine
Gesetzmäßigkeiten schließen, die über den
Beobachtungsraum hinaus gültig sind
• Methoden
– anhand von Zufallsstichproben auf die Grundgesamtheit
schließen; Prüfen von Hypothesen über die
Grundgesamtheit; statistische Kenngröße: (Zufalls-)Fehler
• Ursprung
– in der “politischen Arithmetik”, die sich mit Tauf, Heirats- und
Sterberegistern beschäftigte, um Geschlechtsverhältnisse,
Fruchtbarkeit, Altersaufbau und Sterblichkeit der
Bevölkerung abzuschätzen
– basiert auf der Wahrscheinlichkeitsrechnung, die
mathematische Methoden zur Erfassung stochastischer
Experimente beschreibt.
2
13. Januar 2010
(Sachs
und
Hedderich
2009:1-2)
Visualisierung von Häufigkeiten
• Punkt-/Streu- und Liniendiagramme
– Abbildung individueller Datenpunkte eines Vektors
– Bsp. Vektor (1, 3, 5, 2, 4)
13. Januar 2010
3
Visualisierung von Häufigkeiten
• Kreis- und Säulendiagramme
– Nominal-/Kategorialvariablen
– Bsp. Häufigkeiten von Pausenelementen
13. Januar 2010
4
Visualisierung von Häufigkeiten
• Histogramme
– Klassenbildung über Verhältnisdaten
– Bsp. Häufigkeiten der Längen von
Planungspausen abgebildet auf Längenklassen
13. Januar 2010
5
Maße der zentralen Tendenz
• Modalwert (mode)
– Häufigster Wert einer Verteilung
– bei allen Datentypen einsetzbar, einschließlich
nominalen/kategorialen Daten
– In R (nach Gries 2008: 113)
> x <-c("kalt", "lau", "kalt", "kalt",
"warm", "heiß", "warm", "kalt")
> which.max(sort(table(x)))
kalt
4
13. Januar 2010
6
Maße der zentralen Tendenz
• Charakterisieren eine Verteilung durch eine
einzelne Zahl
13. Januar 2010
7
Maße der zentralen Tendenz
• Modalwert (mode)
– Häufigster Wert einer Verteilung
• Median (median)
– Zentralwert
– Geeignet für ordinale Daten
• Arithmetisches Mittel (arithmetic mean)
– Summe aller Werte eines Vektors geteilt durch Anzahl der
Werte
• Geometrisches Mittel (geometric mean)
– Bei relativen Änderungen (z.B. Wachstum, Zuwachsraten,
Produktionssteigung)
13. Januar 2010
8
Dispersion und Streuung
• Bei Mittelwertangaben immer auch ein
Dispersions- oder Streuungsmaß angeben.
13. Januar 2010
9
Beispiel
• Durchschnittlich Temperaturen
Jan
Feb Mär Apr
Mai
Jun
Jul
Aug Sep Okt
Nov Dez
S1
-5
-12
5
12
15
18
22
23
20
16
8
1
S2
6
7
8
9
10
12
16
15
11
9
8
7
(Gries 2008: 117f.)
13. Januar 2010
10
Maße der zentralen Tendenz
• Median (median)
– Zentralwert
• die Werte nach ihrer Größe sortieren und den Mittleren
wählen
• bei einer geradzahligen Menge von Elementen das
arithmetische Mittel der beiden Mittelwerte
– geeignet für Ordinal-, Intervall- und Verhältnisvariablen
– In R:
> Stadt1= c(-5,-12,5,12,15,18,22,23,20,16,8,1)
> median(Stadt1)
[1] 13.5
> Stadt2= c(6,7,8,9,10,12,16,15,11,9,8,7)
> median(Stadt2)
[1] 9
13. Januar 2010
11
Maße der zentralen Tendenz
•
Arithmetisches Mittel (arithmetic mean)
– Summe aller Werte geteilt durch die Anzahl n aller Werte
– angemessen nur für metrische Variablen (Intervall- und
Verhältnisvariablen)
n
"x
> sum(Stadt1)/length(Stadt1)
[1] 10.25
> mean(Stadt1)
[1] 10.25
> mean(Stadt2)
[1] 9.833333
> round(mean(Stadt2),2)
[1] 9.83
µ=
i
i=1
n
Eine
alternative
Notation
für
µ
("my")
ist: x
!
13. Januar 2010
12
!
Streuungsmaße: Motivation
> mean(Stadt1)
[1] 10.25
> mean(Stadt2)
[1] 9.833333
> plot(Stadt1, type="b", xlab="Monate",
ylab="Temperatur", col="darkgreen")
> lines(c(rep(0,12)), col="lightgrey")
> lines(Stadt2, type="b", col="darkblue")
13. Januar 2010
13
Streuungsmaße
•
Relativer Informationsgehalt / relative Entropie (relative entropy)
– z.B. Häufigkeitsverteilung von kategorialen Daten
– H=1, wenn die Werte maximal gleichmäßig über alle Ausprägungen
verteilt sind
– H=0, wenn alle Werte die selbe Ausprägung annehmen (Zentralwert)
n
$ ( p # ln p )
i
H rel = "
i
i=1
ln n
– Bsp.: 300 NPs, davon 164 ohne Artikel, 33 mit indefinitem, 103 mit
definitem Artikel (Gries 2008:119)
!
> artikel<-c(164,
33, 103)
> prozente<-artikel/sum(artikel)
> hrel<--sum(prozente*log(prozente))/log(length(prozente)); hrel
[1] 0.8556091
13. Januar 2010
14
Streuungsmaße
•
Spannweite / Variationsbreite (range)
– Verhältnisskalierte Daten
– Differenz des höchsten und niedrigsten Wertes
– Einfach, aber empfindlich gegenüber „Ausreißern“
> range(Stadt1)
[1] -12 23
> diff(range(Stadt1)) # diff bildet paarweise Differenzen
[1] 35
> max(Stadt1)-min(Stadt1) # alternative Berechnung
[1] 35
> range(Stadt1)[2]-range(Stadt1)[1] # zweite Alternative
[1] 35
> range(Stadt2)
[1] 6 16
> diff(range(Stadt2)) # diff bildet paarweise Differenzen
[1] 10
13. Januar 2010
15
Streuungsmaße
•
Quantile
–
–
Aufsteigend sortierte Werte
Angabe, welcher Wert die niedrigsten x%, y% usw. abgrenzt
> quantile(a, probs=c(0.05, 0.1, 0.5, 0.9, 0.95), type=1)
5% 10% 50% 90% 95%
5 10 50 90 95
•
Sonderfall: Quartile (= Default von quantile())
> quantile(Stadt1)
0%
25%
50%
75% 100%
-12.0
4.0 13.5 18.5 23.0
> IQR(Stadt1) # die Funktion fuer den Interquartilsabstand
[1] 14.5
> quantile(Stadt2)
0%
25%
50%
75% 100%
6.00 7.75 9.00 11.25 16.00
> IQR(Stadt2)
[1] 3.5
13. Januar 2010
16
Durchschnittliche Abweichung
• average deviation
• Für jeden Datenpunkt wird die Abweichung zum
Mittelwert µ angegeben
• Die absoluten Abweichungen werden summiert
und gemittelt (d.h. durch die Anzahl n der
Datenpunkte geteilt).
n
#( x
AD =
13. Januar 2010
!
i
" µ)
i=1
n
17
Durchschnittliche Abweichung
• Beispiel
> Stadt1
[1] -5 -12
5 12 15 18 22 23 20 16
8
1
> Stadt1-mean(Stadt1)
[1] -15.25 -22.25 -5.25
1.75
4.75
7.75 11.75 12.75
9.75
[10]
5.75 -2.25 -9.25
> abs(Stadt1-mean(Stadt1)) # Absolutbeträge
[1] 15.25 22.25 5.25 1.75 4.75 7.75 11.75 12.75 9.75
5.75 2.25
[12] 9.25
> mean(abs(Stadt1-mean(Stadt1)))
[1] 9.041667
> mean(abs(Stadt2-mean(Stadt2)))
[1] 2.472222
13. Januar 2010
18
Streuungsmaße
•
Varianz
– Summe der quadratischen Abweichungen vom Mittelwert µ
> var(Stadt1)
[1] 123.6591
> var(Stadt2)
[1] 9.969697
n
2
(x
"
µ
)
# i
var =
i=1
n
!
13. Januar 2010
19
Standardabweichung
• Wurzel der Varianz
• ist das meist verbreitete Streuungsmaß
• Nachteil
– Ist abhängig von der Höhe des Mittelwerts
– Schlechter Vergleich von Verteilungen mit
unterschiedlichen Mittelwerten
> sd(Stadt1)
[1] 11.12021
> sd(Stadt2)
[1] 3.157483
n
2
(x
"
µ
)
# i
sd =
13. Januar 2010
i=1
n
20
!
Variationskoeffizient
• Normalisiert die Standardabweichung in Bezug auf
die Größe des Mittelwerts
• Division der Standardabweichung durch den
Mittelwert
> sd(Stadt1)
[1] 11.12021
> sd(Stadt1*10)
[1] 111.2021
# Vergleich nicht möglich
> sd(Stadt1)/mean(Stadt1)
[1] 1.084899
> sd(Stadt1*10)/mean(Stadt1*10) # nun erhalten wir
den gleichen Wert
[1] 1.084899
> sd(Stadt2)/mean(Stadt2)
[1] 0.3210999
13. Januar 2010
21
Zusammenfassende Funktion
> summary(Stadt1)
Min. 1st Qu. Median
-12.00
4.00
13.50
> summary(Stadt2)
Min. 1st Qu. Median
6.000
7.750
9.000
13. Januar 2010
Mean 3rd Qu.
10.25
18.50
Max.
23.00
Mean 3rd Qu.
9.833 11.250
Max.
16.000
22
Zusammenfassende Darstellung
• Boxplot (siehe Gries 2008: 125)
> boxplot(Stadt1, Stadt2, notch=T)
> text(1:2, c(mean(Stadt1), mean(Stadt2)), c("+", "+"))
> summary(Stadt1)
Min. 1st Qu. Median
-12.0013. Januar
4.00 2010
13.50
Mean 3rd Qu.
10.25
18.50
Max.
23.00
> summary(Stadt2)
Min. 1st Qu. Median
6.000
7.750
9.000
Mean 3rd Qu.
9.833 11.250
Max.
16.000
23
Zusammenfassende Darstellung
Boxplot
•
•
•
•
•
horizontale fette Linie = Median
horizontale Linie, die obere und untere Grenze der Box darstellen =
obere und untere Hinges (ca. der 75%- und 25%-Quartil)
die gestrichelte vertikale Linien mit den horizontalen Begrenzungen
(Whiskers) markieren den höchsten und niedrigsten Werte, die nicht
mehr als 1.5 Interquartilsabstände von der Box entfernt sind
Ausreißer außerhalb der Whiskers werden mit einzelnem Punkt
dargestellt
die durch notch=true erzeugten Einschnürungen erstrecken sich über
den Bereich ±1.58*IQR/sqrt(n): wenn sich die Einschnürungen nicht
überlappen (sondern eine die andere einschließt), unterscheiden sich die
Mediane wahrscheinlich nicht signifikant.
13. Januar 2010
24
Standardisierung (z-Werte)
•
•
Notwendig beim Vergleich von unterschiedlichen Skalen
Bsp.: Noten aus unterschiedlichen Klassenarbeiten
– „Güte“ zweier Noten, die zu zwei Verteilungen mit
unterschiedlichen Durchschnitten (mean) gehören.
•
•
Transformation der Abstände zum jeweiligen Mittelwert in die
Anzahl der jeweiligen Standardabweichungen, die der Wert
abweicht.
Z-transformierte Werte besitzen einen Mittelwert von 0 und eine
Standardabweichung von 1
Von
ordinalskalierten
Daten
wie
Schulnoten
darf
mathematisch
gesehen
eigentlich
nur
der
Median
gebildet
werden.
Im
Alltag
wird
auch
hier
oft
der
Mittelwert
verwendet.
13. Januar 2010
25
Standardisierung (z-Werte)
> a<-1:5
# Beispielverteilung
> z.werte<-(a-mean(a))/sd(a); z.werte
#"zu Fuß"
[1] -1.2649111 -0.6324555 0.0000000 0.6324555
1.2649111
> mean(z.werte) # standardisierter Mittelwert
[1] 0
> sd(z.werte)# standardisierte Standardabweichung
[1] 1
> scale(a) # Standardisierungsfunktion in R
[,1]
[1,] -1.2649111
[2,] -0.6324555
[3,] 0.0000000
[4,] 0.6324555
[5,] 1.2649111
attr(,"scaled:center") # Mittelwert der Eingabedaten
[1] 3
attr(,"scaled:scale") # Standardabweichung der Eingabedaten
[1] 1.581139
13. Januar 2010
26
Standardisierung (z-Werte)
Beispiel nach Gries (2008:127)
• Frage: Wenn Schüler X in Kurs A eine 2 erhalten hat
und Schüler Y in Kurs B eine 3, ist Schüler X dann
wirklich besser als Schüler Y?
> Noten.vom.Kurs.A<-rep(1:6, 6:1); Noten.vom.Kurs.A
> Noten.vom.Kurs.B<-rep(1:6, 1:6); Noten.vom.Kurs.B
> scale(Noten.vom.Kurs.von.A)
> scale(Noten.vom.Kurs.von.B)
13. Januar 2010
27
Herunterladen