STATISTIK – Teil 1 Beschreibende Statistik Von: Anne Schmidt Kapitel 5 – Kenngrößen empirischer Verteilungen 5.1. Lagemaße Wofür? Im Datensatz stehende Informationen auf wenige Kenngrößen verdichten ermöglicht eine unmissverständliche Beschreibung von Charakteristika eines Datensatzes, ist aber grundsätzlich mit Informationsverlust verbunden Lageparameter dienen dem Zweck, solche Befunde zu präzisieren und zu objektivieren Modus/ Modalwert xmod (lies: x-mod) Zentrum Dieser lässt sich immer anwenden, also auch bei Merkmalen, deren Ausprägungen nur Kategorien sind (qualitative Merkmale). Er ist definiert als die Merkmalsausprägung mit der größten Häufigkeit. Median Zentralwert (lies: x-Schlange) Natürliche Rangordnung, mittlerer Wert des geordneten Datensatzes Ungerade z.B. 5 Werte, gibt es einen genauen Median Gerade z.B. 6 Werte, nicht eindeutig bei ordinalskaliert, metrisch wird der Mittelwert gebildet Mittelwert Arithmetisches Mittel x̅ (x –quer) nur metrisch anwendbar, es werden alle Werte addiert und mit der Anzahl n dividiert. Reagiert empfindlich gegenüber extremen Werten (höhere Sensivität) Geringere Robustheit des Mittelwerts gegenüber Ausreißern, d.h. gegenüber auffällig großen oder kleinen Beobachtungswerten Folgende Gleichung beinhaltet, dass sich der Mittelwert als Schwerpunkt des Datensatzes interpretieren lässt Alternative zur Berechnung des Mittelwerts Der Mittelwert lässt sich als Summe der mit den relativen Häufigkeiten gewichteten Ausprägungen ermitteln STATISTIK – Teil 1 Beschreibende Statistik Von: Anne Schmidt - Welche Lageparameter ist geeignet? - Skalierung des Merkmals nominalskaliertes Merkmal > Modalwert metrisch skaliertes Merkmal > Modalwert, Median und Mittelwert Fragestellung ist wichtig überlegen, wie robust die zu berechnende Kenngröße gegenüber Extremwerten sein soll 5.2. Streuungsmaße Definition Charakterisiert Abstände zwischen den Merkmalsausprägungen Spannweite Charakterisiert die Differenz aus größten xn und kleinsten x1 Wert, geordneter Datensatz nach aufsteigende Größe, für metrisch skalierte Werte Nachteil: hohe Sensivität gegenüber Ausreißern R (range) Formel R≔ xn-x1 Varianz Auch empirische Varianz s2 (Abkürzung) Quadratisches Streuungsmaß, bildet den Mittelwert aus den Quadraten der Abweichungen, es gilt: Formel Standardabweichung s (Abkürzung) lineares (geradliniges) Streuungsmaß, wenn aus der Varianz die Wurzel gezogen wird = anschauliches Streuungsmaß Korrigierte Varianz In der Literatur nicht einheitlich, es gibt noch folgende Formeldarstellungen zu s*2 & s* & Standardabweichung STATISTIK – Teil 1 Beschreibende Statistik Von: Anne Schmidt Wichtig zu wissen zu den Formeln! Die Unterschiede zwischen beiden Größen verschwinden mit zunehmendem n, können aber bei kleinem n ins Gewicht fallen. Die korrigierte Varianz wird beim Schätzen und Testen bevorzugt verwendet, weil sie günstigere Eigenschaften besitzen. Die Division durch n-1 wird erst im Kontext der schließenden Statistik nachvollziehbar‼ Alternative Formel zur Varianz Relative Häufigkeitsverteilung Liegt für ein diskretes Merkmal X mit den Ausprägungen a1,…,ak eine größere Anzahl n von Beobachtungswerten x1, …,xn (n > k) Vergleich von Grundgesamtheiten = z- Transformation (Z) Der Einsatzzweck ist, wenn unterschiedlich verteilte Zufallsvariablen miteinander vergleichen zu können jedem Element X eines Datensatzes jeweils dessen Mittelwert 𝜇 subtrahieren und die Differenz noch durch die Standardabweichung 𝜎 oder die korrigierte Standardabweichung dividieren = standardisierte Zufallsvariable mit Erwartungswert/Mittelwert 0 und Varianz/Standardabweichung 1 5.3. Quantile und Boxplots Median Makiert die Mitte eines Datensatzes, verallgemeinert q-Quantile, setzt wieder ein metrisch (eindeutig) oder zumindest ordinalskaliertes Merkmal (nicht eindeutig) voraus xp (Abkürzung) hat die Eigenschaft, dass mindestens p*100% der Elemente der geordneten Folge kleiner oder gleich und mindestens (1-p)*100% größer oder gleich xp sind. Veranschaulichung Formal STATISTIK – Teil 1 Beschreibende Statistik Von: Anne Schmidt Spezielle Quantile Differenz der Quantile 𝑄 ≔ 𝑥0,75 − 𝑥0,25 Misst den Quartilabstand, auch Interquartilabstand IQR. Dezile Ferner sind noch die Dezile zu nennen, die sich bei Wahl von p=0,1; p=0,2;…;p=0,9 ergeben und oft mit D1, D2, ..., D9 abgekürzt werden. Der Median stimmt also mit dem Dezil D5 überein. Asymmetrische Verteilung Die Nicht-Übereinstimmung von Median und Mittelwert einer empirischen Verteilung ist stets ein Indiz für eine Asymmetrie dieser Verteilung Linkssteile (rechtsschiefe) Verteilung Rechtssteile (linksschiefe) Verteilung http://images.slideplayer.org/1/662836/slides/slide_4.jpg Boxplot Schachtelzeichnung https://de.wikipedia.org/wiki/Boxplot STATISTIK – Teil 1 Beschreibende Statistik Basisversion Von: Anne Schmidt