Kapitel 5 Kenngrößen empirischer Verteilungen

Werbung
STATISTIK – Teil 1
Beschreibende Statistik
Von: Anne Schmidt
Kapitel 5 – Kenngrößen empirischer Verteilungen
5.1. Lagemaße
Wofür?
Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten
ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines
Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden
Lageparameter
dienen dem Zweck, solche Befunde zu präzisieren und zu objektivieren
Modus/ Modalwert
xmod (lies: x-mod)
Zentrum
Dieser lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägungen
nur Kategorien sind (qualitative Merkmale). Er ist definiert als die
Merkmalsausprägung mit der größten Häufigkeit.
Median
Zentralwert
(lies: x-Schlange)
Natürliche Rangordnung, mittlerer Wert des geordneten Datensatzes
Ungerade z.B. 5 Werte, gibt es einen genauen Median
Gerade z.B. 6 Werte, nicht eindeutig bei ordinalskaliert, metrisch wird der Mittelwert
gebildet
Mittelwert
Arithmetisches Mittel
x̅ (x –quer)
nur metrisch anwendbar, es werden alle Werte addiert und mit der Anzahl n dividiert.
Reagiert empfindlich gegenüber extremen Werten (höhere Sensivität)
Geringere Robustheit des Mittelwerts gegenüber Ausreißern, d.h. gegenüber auffällig
großen oder kleinen Beobachtungswerten
Folgende Gleichung
beinhaltet, dass sich der Mittelwert als Schwerpunkt des Datensatzes interpretieren lässt
Alternative zur
Berechnung des
Mittelwerts
Der Mittelwert lässt sich als Summe der mit den relativen Häufigkeiten gewichteten
Ausprägungen ermitteln
STATISTIK – Teil 1
Beschreibende Statistik
Von: Anne Schmidt
-
Welche
Lageparameter ist
geeignet?
-
Skalierung des Merkmals
nominalskaliertes Merkmal > Modalwert
metrisch skaliertes Merkmal > Modalwert, Median und Mittelwert
Fragestellung ist wichtig
überlegen, wie robust die zu berechnende Kenngröße gegenüber
Extremwerten sein soll
5.2. Streuungsmaße
Definition
Charakterisiert Abstände zwischen den Merkmalsausprägungen
Spannweite
Charakterisiert die Differenz aus größten xn und kleinsten x1 Wert, geordneter
Datensatz nach aufsteigende Größe, für metrisch skalierte Werte
Nachteil: hohe Sensivität gegenüber Ausreißern
R (range)
Formel
R≔ xn-x1
Varianz
Auch empirische Varianz
s2
(Abkürzung)
Quadratisches Streuungsmaß, bildet den Mittelwert aus den Quadraten der
Abweichungen, es gilt:
Formel
Standardabweichung s (Abkürzung)
lineares (geradliniges) Streuungsmaß, wenn aus der Varianz die Wurzel gezogen wird
= anschauliches Streuungsmaß
Korrigierte Varianz In der Literatur nicht einheitlich, es gibt noch folgende Formeldarstellungen zu
s*2 & s*
&
Standardabweichung
STATISTIK – Teil 1
Beschreibende Statistik
Von: Anne Schmidt
Wichtig zu wissen zu
den Formeln!
Die Unterschiede zwischen beiden Größen verschwinden mit zunehmendem n,
können aber bei kleinem n ins Gewicht fallen.
Die korrigierte Varianz wird beim Schätzen und Testen bevorzugt verwendet, weil sie
günstigere Eigenschaften besitzen. Die Division durch n-1 wird erst im Kontext der
schließenden Statistik nachvollziehbar‼
Alternative Formel
zur Varianz
Relative Häufigkeitsverteilung
Liegt für ein diskretes Merkmal X mit den Ausprägungen a1,…,ak eine größere
Anzahl n von Beobachtungswerten x1, …,xn (n > k)
Vergleich von
Grundgesamtheiten
=
z- Transformation
(Z)
Der Einsatzzweck ist, wenn unterschiedlich verteilte Zufallsvariablen miteinander
vergleichen zu können
jedem Element X eines Datensatzes jeweils dessen Mittelwert 𝜇 subtrahieren und die
Differenz noch durch die Standardabweichung 𝜎 oder die korrigierte
Standardabweichung dividieren
= standardisierte Zufallsvariable mit Erwartungswert/Mittelwert 0 und
Varianz/Standardabweichung 1
5.3. Quantile und Boxplots
Median
Makiert die Mitte eines Datensatzes, verallgemeinert q-Quantile, setzt wieder ein
metrisch (eindeutig) oder zumindest ordinalskaliertes Merkmal (nicht eindeutig)
voraus
xp (Abkürzung)
hat die Eigenschaft, dass mindestens p*100% der Elemente der geordneten Folge
kleiner oder gleich und mindestens (1-p)*100% größer oder gleich xp sind.
Veranschaulichung
Formal
STATISTIK – Teil 1
Beschreibende Statistik
Von: Anne Schmidt
Spezielle Quantile
Differenz der
Quantile
𝑄 ≔ 𝑥0,75 − 𝑥0,25
Misst den Quartilabstand, auch Interquartilabstand IQR.
Dezile
Ferner sind noch die Dezile zu nennen, die sich bei Wahl von p=0,1; p=0,2;…;p=0,9
ergeben und oft mit D1, D2, ..., D9 abgekürzt werden. Der Median stimmt also mit
dem Dezil D5 überein.
Asymmetrische
Verteilung
Die Nicht-Übereinstimmung von Median und Mittelwert einer empirischen
Verteilung ist stets ein Indiz für eine Asymmetrie dieser Verteilung
Linkssteile (rechtsschiefe) Verteilung
Rechtssteile (linksschiefe) Verteilung
http://images.slideplayer.org/1/662836/slides/slide_4.jpg
Boxplot
Schachtelzeichnung
https://de.wikipedia.org/wiki/Boxplot
STATISTIK – Teil 1
Beschreibende Statistik
Basisversion
Von: Anne Schmidt
Herunterladen