Zusammenfassung Statistik Tutorium 1 & 2 Studienassistentin Kathrin Figl Alle Informationen ohne Gewähr! ............................................................................................ Lagemaße Geben Eindruck von Höhe der Meßwerte Bsp: Elfi hat folgende Punkte auf die Zwischentests in Geographie: 1, 3, 3, 2, 4, 3, 2 n= 7 1.Mittelwert (Durchschnittswert) berechnen wir um repräsentatives, zusammenfassendes Maß für die Stichprobe zu haben, ein Lagemaß, um zu wissen, wie hoch „im Durchschnitt“ die Werte der Stichprobe sind. 1 n x = ⋅ ∑ xi n i =1 = 1+ 3+ 3+ 2 + 4 + 3+ 2 = 7 2.57 n..Stichprobenumfang, Summierung: x1(:1)+x2(:3)+x3(:3)....usw. (Berechnung: arithmetische Mittel : Summe der Messwerte der Stichprobe dividiert durch den Stichprobenumfang) 2. Modalwert ( häufigster Wert) ≈ besonders “typischer” Ausgang (-> Wert 1 kommt 1 mal vor ... 2* 2, 3* 3, 1* 4) -> = 3 Wert der am häufigsten vorkommt, also ein besonders typischer Wert der Stichprobe, falls mehrere gleich häufig: nicht eindeutig definiert 3. Median ( liegt nach Ordnen in der „Mitte“) 1, 2, 2, 3 , 3, 3, 4 zuerst Werte nach Größe ordnen, dann ist der Median, der der in der Mitte liegt, für gerades n: durchschnitt der beiden mittleren Werte Bsp: 1,2,3,4 Median:2.5! 1 Wie gut beschreiben folgende Maßzahlen die Stichproben? Mittelwert: Zb. x=3 Noten von Max: Noten von Kathi: 1, 3, 5 3, 3, 3 Max und Kathi haben beiden einen Noten-Mittelwert von 3, für Kathi beschreibt dies ihre Noten sehr gut, für Max jedoch nicht, da seine Leistung sehr schwankt. Weiters ist zb. die Information verlorengegangen, dass seine Leistung kontinuierlich abgenommen hat. Modalwert: Zb. = 2 Messwertreihe 1 : 2, 6, 5, 4, 7, 3, 2 Messwertreihe 2 : 2, 2, 2, 2, 2, 2, 2 Für Messwertreihe 2 ist der Modalwert von 2 sehr „typisch“, für Messwertreihe 1 jedoch nicht, da zb. alle anderen Werte höher als 2 sind. Es ist somit nicht garantiert, dass der Modalwert in der Mitte der Verteilung liegt. Median: Zb. = 14 000 vs. Mittelwert x =39.724 zb. Jahreseinkommen: 12 000, 12 000, 13 000, 14 000, 17 000, 90 000, 120 000 Der Median beschreibt in diesem Beispiel die Verteilung des Jahreseinkommens besser als der Mittelwert. Der Median ist ein robustes Maß, er lässt sich durch „Ausreißer“ wie 90 000 und 120 000 nicht beeinflussen. 2 Streuungsmaße Geben Eindruck wie ähnlich. bzw. unterschiedlich die Messwerte sind Bsp: Elfi hat folgende Punkte auf die Zwischentests in Geographie: 1, 3, 5, 3, 5, 1, 3 n= 7 , = 3 x 1.Minimum und Maximum Min(kleinster Wert): 1 Max(größter Wert): 5 2.Varianz und Standardabweichung dient dazu anzugeben, wie weit die Werte der Stichprobe um den Mittelwert streuen, Varianz: s = 2 1 n ⋅ ∑i =1 ( xi − x ) 2 n ‚Mittleres Quadrat der Abweichungen der beobachteten Werte vom Mittelwert’ Die Varianz ist ein quadratisches Streuungsmaß, oft benötigt man ein lineares -> dann können wir die Standardabweichung nehmen. Standardabweichung: s = Varianz Die Standardabweichung ist größenmäßig so groß wie der mittlere Absolutbetrag der Abweichungen vom Mittelwert, sie gibt uns also einen Eindruck um welchen Betrag die Werte im Schnitt vom Mittelwert abweichen. Steiner’sche Verschiebungsatz -> (Umformung der ursprünglichen Formel um es besser händisch ausrechnen zu können! Hü2- Bsp 3: Beweis im alten, gelben Skriptum der Vorlesung auf Seite 27!) = = 1 (1² + 3² + 5² + 3² + 5² + 1² + 3² ) − 7 2 ∑n x i 1 n 2 i =1 2 sx = ∑ xi − n n i =1 (1+3+5+3+5+1+3) 2 7 1 (79 ) − 21² = 2.29 7 7 3 Wie erstelle ich Stichproben mit gleichem MW , aber anderer Varianz ? (für Hü 2: Spss/Excel Bsp1) Bsp: ich nehme als MW zb. 50: für die erste Stichprobe zähle ich abwechselnd 1 dazu, 1 ab: 51,49,52,48,53,47,54,46 für die zweite Stichprobe zähle ich abwechselnd 10 dazu, 10 ab: 60,40,70,30,80,20,90,10 nun habe ich 2 Stichproben mit gleichem MW, die Varianz ist bei Stichprobe 2 aber viel höher als bei Stichprobe 1! Bsp: zb.: Noten von Max: Noten von Kathi: 1, 5, 3 3, 3, 3 MW bei beiden gleich, bei Max höhere Varianz. Inhaltliche Deutung: Kathi lernt fleißig und kontinuierlich, Max bemüht sich manchmal und ist dann auch zu Höchstleistungen fähig, manchmal hat er aber auch überhaupt keine Lust und lernt überhaupt nichts. Standardisierung allgemeine Formel: T* = X −x s Die Standardisierung ist eine spezielle Lineartransformation. Sie dient dazu, Werte aus unterschiedlichen Datensätzen mit unterschiedlichem Mittelwert und Varianz zu vergleichen, und von einem Wert in Datensatz 1 z b. den entsprechenden Wert in Datensatz 2 zu berechnen. Merke: standardisierte Variablen haben Mittelwert= 0, Varianz (sowie Standardabweichung)= 1 (auch wichtig für Hü2: PC-Bsp2) Bsp: Karin kann sich nicht entscheiden, welche Berufsausbildung sie nach der Matura beginnen soll, daher sucht sie eine Psychologin auf um zu erfahren, wo ihre besonderen Begabungen liegen. Die Psychologin testet sie sowohl mit einem Test zum technischen Verständnis, als auch einem Test der sprachliche Begabung erfasst. Normierung des Tests: techn. Test: =55, s=8 Sprachtest: =90, s=10 x x a) Karin erreicht folgende Punkteanzahl: techn. Test: 65, Sprachtest: 79 ->Wo ist Sie begabter?? Wir können die zwei Testwerte nicht direkt miteinander vergleichen, da die beiden Tests unterschiedlichen Varianzen und Mittelwerte aufweisen. Vergleichbarkeit ist nur dann gegeben, wenn man die Testwerte auf einen gemeinsamen Standard transformiert, dh.: standardisiert. 4 x Standardisierung: t*tech x = tech t*sprach= −x s x tech 65 − 55 = 1.25 8 = tech sprach −x s sprach sprach = 79 − 90 = -1.1 10 t*tech > t*sprach : daher ist Karin im technischen Bereich begabter. Der Durchschnitt der Vergleichspopulation ist 0 (siehe oben!) , daher liegt Karin mit positiven t*tech über dem Durchschnitt der Vergleichspopulation, und mit negativem t*sprach unter dem Durchschnitt der Vergleichspopulation. b) Welche Punktezahl im techn. Test entspricht die Leistung im Sprachtest (79) ? Wenn die Leistungen einander entsprechen sollen, so müssen sie den gleichen t-Wert haben, daraus folgt, dass der t-Wert der gesuchten technischen Leistung auch –1.1 sein muß! t*sprach= -1.1 x -> -1.1= t*tech= -1.1= x tech tech −x s tech tech = x tech − 55 8 − 55 8 | *8 -1.1 *8 = xtech –55 xtech= 46.2 46,2 Punkte im technischen Test und 79 Punkte im sprachlichen Test sind einander entsprechend gute Leistungen. (haben beide einen t-Wert von –1.1 !) 5