Deskriptive Statistik

Werbung
Modul G.1 WS 07/08: Statistik
8.11.2006
1
Deskriptive Statistik
Definition
Unter deskriptiver Statistik versteht man eine Gruppe statistischer Methoden zur
Beschreibung von Daten anhand statistischer Kennwerte, Graphiken, Diagramme und/oder
Tabellen.
Ziel
Die deskriptive Statistik beschreibt und analysiert Merkmalseigenschaften in einer
bestimmten Stichprobe zum Erhebungszeitpunkt der Daten, so dass Aussagen über genau jene
Objekte gemacht werden, welche tatsächlich untersucht wurden.
Beispiel
Wenn an einem Tag das Alter aller Patienten in einem Krankenhaus erhoben wurde, können
mit Hilfe einer deskriptiven Statistik Aussagen über das Alter der Patienten an genau diesem
Tag in genau diesem Krankenhaus gemacht werden.
Klingt trivial – wir alle haben uns an diese Art der Beschreibung der messbaren Wirklichkeit
gewöhnt. (Arbeitslosenzahlen, Verkehrstote etc.)
Schließende Statistik (Inferenzstatistik) schließt aus den Daten einer Stichprobe auf Werte in
der Population. Z.B. Einschätzung der Altersstruktur in anderen Krankenhäusern.
So eine Schätzung ist immer nur mit einer gewissen Fehlerwahrscheinlichkeit möglich.
Wie kommen wir zu unseren Daten?
Wir messen. Danach können wir analysieren und interpretieren, d.h. Schlüsse über die reale
Welt ziehen. Um mit Hilfe von statistischen Methoden analysieren und interpretieren zu
können müssen wir unsere Messungen in Merkmalsausprägungen und Variablen umwandeln.
z.B. männlich = 1 und weiblich =0.
Was sind Merkmale und Variablen?
Definition
Ein Merkmal ist eine Eigenschaft, die zu einem Objekt oder einer Person gehört und eine
bestimmte Anzahl von Merkmalsausprägungen hat.
Es wird versucht diese Merkmale durch Messungen in Zahlen zu überführen. Merkmale, die
in Zahlen überführt wurden, werden als Variablen bezeichnet.
Es wird zwischen qualitativen und quantitativen Merkmalen unterschieden:
Qualitative Merkmale
Mit qualitativen Merkmalen wird die Zugehörigkeit zu einer Kategorie beschrieben.
z.B. Geschlecht – entweder/oder
Quantitative Merkmale:
Quantitative Merkmale beschreiben die Ausprägung eines Objekts oder einer Person in
diesem Merkmal. Dies geschieht auf einem Kontinuum von Werten. Z.B. Körpergröße. Jede
Person hat zum Messzeitpunkt einen bestimmten Wert.
Hinweis: Skalen. Qualitative Merkmale > Nominalskala. Quantitative Merkmale: höhere
Skalen. (Ordinal, Intervall und Verhältnis)
Definition
Eine Variable ist ein in Zahlen überführtes Merkmal.
Diese Überführung wird auch Operationalisierung genannt.
Modul G.1 WS 07/08: Statistik
8.11.2006
2
Es gibt zwei Arten von Variablen, die sich parallel zu qualitativen und quantitativen
Merkmalen verhalten:
Diskrete Variablen
Merkmale bei denen nur endlich viele, bzw. abzählbar unendlich viele Ausprägungen möglich
sind werden in diskrete Variablen überführt. Es gibt keine Zwischenstufen zwischen zwei
Kategorien.
Beispiele: Parteizugehörigkeit, Berufe, Pflanzenarten
Kontinuierliche Variablen
Kontinuierliche Variablen können (zumindest) theoretisch auf einem beliebig genauen
Kontinuum beschrieben werden.
Beispiel: Körpergröße, Reaktionszeiten, Lautdauern
Wie kommen wir zu unseren Variablen? Durch Messen. Messen ist also eine Zuordnung von
Objekten zu Zahlen. Die Relationen zwischen den gemessenen Zahlen reflektieren dann die
analogen Relationen zwischen den Objekten.
Maße der zentralen Tendenz und der Dispersion
Maße der zentralen Tendenz und der Dispersion stellen Beschreibungen der Verteilung der
Messwerte einer Variablen dar. Z.B die Mitte einer Menge von Werten oder die Streuung von
Werten. D.h. letzlich wird die Verteilungsform dargestellt.
Maße der zentralen Tendenz
Modalwert oder Modus (engl. mode)
Definition
Der Modalwert ist derjenige Wert einer Verteilung, welcher am häufigsten besetzt
ist.
Eigenschaften
 stabil gegenüber Extremwerten (erklären > Ausreißer)
 kann für alle Skalenniveaus verwendet werden
 Maximum einer Verteilung
 unimodale vs. bimodale vs. multimodale Verteilungen
 wird oft bei nominalskalierten Daten und bei Daten mit asymmetrischer Verteilung
verwendet
 Bsp. gehörte Kategorie
Modul G.1 WS 07/08: Statistik
8.11.2006
3
Median
Definition
Der Median ist derjenige Wert, der die geordnete Reihe der Messwerte in die oberen
und unteren 50 Prozent aufteilt. Somit ist die Anzahl der Messwerte über und unter
dem Median gleich.
Beispiel
Bei 17 Personen belegt die neunte (17+1/2) den Median. Bei 16 Personen wird der Median
über den Mittelwert zwischen der achten und der neunten Person der Rangreihe berechnet.
Eigenschaften
 Anzahl der Messwerte über und unter dem Median ist gleich (entspricht einem
Prozentrang von 50)
 mindestens Ordinalskalenniveau
 stabil gegenüber Extremwerten
Arithmetisches Mittel (mean, arithmetic average)
Definition
Das arithmetische Mittel ist die Summe aller Messwerte, geteilt durch deren Anzahl
N. Beim artihmetischen Mittel handelt es sich um den Durchschnitt aller Messwerte.
Modul G.1 WS 07/08: Statistik
8.11.2006
4
Das Rechnen mit dem Summenzeichen ∑ (Sigma).
Das Summenzeichen ∑ ermöglicht eine kürzere Schreibweise für additive Verknüpfungen.
Die sog. Zählervariable i gibt den „Startwert“ einer Addition an, er ist hier 1. N ist die obere
Grenze der Summe, sozusagen der „Endwert“. Hinter dem Summenzeichen wird der zu
addierende Term angegeben. D.h. obige Formel würde in Langschreibweise folgendermaßen
aussehen:
𝑥=
x1 + x2 + x3 + …..+ xn
N
Eigenschaften
 Summe der Zentralen Momente ergibt Null.
Zentrales Moment= (xi – 𝑥)
Formel: 𝑁
𝑖=1 𝑥i − 𝑥 = 0
 Bei kleinen Stichproben sehr abhängig von Extremwerten
 Die Daten müssen mindestens intervallskaliert sein.
Gewichtete arithmetische Mittel
Gewichtete artihmetische Mittel werden sinnvoll, wenn ein Gesamtmittelwert aus
verschiedenen Stichproben unterschiedlicher Größe gebildet werden soll.
Definition: Beim Gewichteten arithmetischen Mittel (GAM) werden die einzelnen
Gruppenmittelwerte an der jeweiligen Gruppengröße gewichtet.
Vergleich Modus, Median und Mittelwert
Modul G.1 WS 07/08: Statistik
8.11.2006
5
Maße der Dispersion
Mittelwerte sind Maße der Mitte von Verteilungen. Nun soll die Variabilität oder auch
Streuung von Verteilungen definiert werden.
Variationsbreite (range)
Definition
Der Range, die Spannweite, beschreibt bei kontinuierlichen Daten Differenz
zwischen Maximum und Minimum; bei nominalskalierten Daten die Anzahl der
Kategorien
Vorteile
 sehr einfach zu berechnen
 kann für alle Skalenniveaus verwendet werden
Nachteile
 sehr abhängig von nur 2 Werten
 keine Aussage über die dazwischen liegenden Werte
 kann nicht für theoretische Verteilungen verwendet werden, da z.B. die Normalverteilung
für einen Bereich von  definiert ist.
Quartile, Interquartilabstand (interquartile range)
Definition
Als Quartile werden jene Punkte Q1, Q2 und Q3 bezeichnet, welche eine Verteilung in
vier gleich große Abschnitte aufteilen. Das mittlere Quartil Q2 entspricht dem
Median, das untere Quartil Q1 einem Prozentrang von 25 und das obere Quartil Q3
von 75. Die Differenz von Q3 und Q1 wird als Interquartilabstand (IQA) bezeichnet.
15
Frequency
10
Modul G.1 WS 07/08: Statistik
8.11.2006
6
0
5
Vorteile
 Kann auch auf ordinalskalierte Daten angewendet werden.
 Der Interquartilabstand bezieht sich nur auf die mittleren 50 % der Daten, weshalb
Ausreißer keine Rolle spielen.
Q1
Median Q3
Nachteil
300
350 nicht berücksichtigt.
400
450
 Die Werte außerhalb
werden
formants$f1
Varianz (variance)



Quadrieren, da einfache Summe null ergeben würde  unterschiedliche Stichproben
können verglichen werden
Mittelwert aller Abweichungsquadrate
Unterschied Population (griechische Buchstaben) und Stichprobe (lateinische Buchstaben)
(Wir können oft nicht die gesamte Population untersuchen (z.B. alle Sprecher des
Deutschen), so müssen wir von einer Stichprobe ausgehen und übertragen die Ergebnisse
auf die Gesamtpopulation. > Wir machen Vorhersagen.
Definition
Freiheitsgrade (degrees of freedom): beschreibt die Anzahl der frei wählbaren Werte. Durch
die Berechnung eines Kennwerts aus N Messwerten wird ein Messwert „unfrei“.
Beispiel
Wenn vier Freunde um Geld gespielt haben:
Der erste sagt er habe 20 Euro gewonnen, Der zweite sagt: 20 Euro verloren, der dritte: 10
Euro gewonnen, dann MUSS der vierte 10 Euro verloren haben. Der Messwert wird „unfrei“.
Also:
df=N-1
Im Prinzip führt das Rechnen mit N-1 zu einer größeren Varianz (vorsichtige oder auch
konservative Schätzung). Die Varianz mit N-1 wird natürlich bei zunehmender
Stichprobengröße N immer ähnlicher.
Modul G.1 WS 07/08: Statistik
8.11.2006
7
Standardabweichung(standard deviation)
Durch das Quadrieren der Werte bei der Berechnung der Varianz ensteht ein schwierig zu
interpretierender Kennwert. Deshalb wird die Wurzel aus der Varianz gezogen und so die
Standardabweichung (Streuung des Mittelwerts) berechnet. Die Standardabweichnung hat so
auch wieder die gleiche physikalische Einheit wie das arithmetische Mittel.
Da die Abweichungen für die Varianz quadriert wurden, muss die Wurzel gezogen werden,
um wieder die gleiche physikalische Einheit der Messwerte zu erhalten.
Variabilitätskoeffizient
Die Standardabweichung hängt von der Größe des Mittelswert ab, d.h. je größer der
Mittelwert umso größer auch die Standardabweichung. Um feststellen zu können, ob zwei
Stichproben mit sehr unterschiedlichen Mittelwerten unterschiedlich stark streuen, wird der
Variabilitätskoeffizient berechnet.
Definition
Der Variabilitätskoeffizient gibt an, wie viel Prozent des arithmetischen Mittels die
Standardabweichung beträgt.
𝑠𝑥
∗ 100
𝑥
Beispiel
Zwei Psychologen testen soziale Kompetenz mit unterschiedlichen Fragebögen an der selben
Gruppe. Beide Fragebögen ergeben einen verhältnisskalierten Messwert. Die Befragungen
ergeben unterschiedliche Mittelwerte und Standardabweichungen. Der Variabilitätskoeffizient
kann klären, welche Erhebung eine größere Streuung hat.
Modul G.1 WS 07/08: Statistik
8.11.2006
8
Ein Überblick zu den Maßen
Die folgende Tabelle gibt einen Überblick zu den vorausgesetzten Skalenniveaus bei den
verschiedenen Lage- und Streuungsmaßen
Maß
Häufigkeit
Modalwert
Range
Quartile
Median
Arithmetisches Mittel
Varianz
Standardabweichung
Variabilitätskoeffizient
Nominal
+
+
+
-
Ordinal
+
+
+
+
+
-
Intervall
+
+
+
+
+
+
+
+
-
Verhältnis
+
+
+
+
+
+
+
+
+
Herunterladen