Folien zur Statistik Einführung in die Statistik für Pädagogen und Psychologen WS 2002/2003 Fr 9.45 – 11.15 Fr 11.30 – 12.15 (Vertiefung) Uni Bonn, Römerstraße 164, HS D E.Jo. Zimmermann Inhalt 1 Deskriptive Statistik .................................................................................. 3 1.1 Skalenniveaus ................................................................................... 3 1.2 Häufigkeitsverteilungen.................................................................... 9 1.2.1 Univariate Häufigkeitsverteilungen....................................... 10 1.2.2 Bivariate Häufigkeitsverteilungen ......................................... 16 1.3 Statistische Kennwerte.................................................................... 19 1.3.1 Maße der zentralen Tendenz.................................................. 20 1.3.2 Dispersionsmaße .................................................................... 25 1.4 Die z-Transformation...................................................................... 28 1.5 Zusammenhangsmaße..................................................................... 30 1.5.1 Kovarianz und Korrelation .................................................... 31 1.5.2 Weitere bivariate Zusammenhangsmaße............................... 34 1.6 Lineare Regression ......................................................................... 35 1.6.1 Bestimmung der Geradengleichung ...................................... 37 1.6.2 Beobachtete, vorhergesagte und Residualwerte .................... 40 2 Wahrscheinlichkeit und Verteilungen..................................................... 43 2.1 Wahrscheinlichkeit ......................................................................... 43 2.2 Diskrete Verteilungen..................................................................... 49 2.3 Stetige Verteilungen ....................................................................... 53 Literatur ...................................................................................................... 58 Griechisches Alphabet................................................................................ 59 -2- 1 Deskriptive Statistik In der deskriptiven Statistik geht es um die graphische und tabellarische Darstellung von Datenmengen sowie deren Beschreibung durch Kennwerte. 1.1 Skalenniveaus • Messen ist eine strukturerhaltende Zuordnung von Zahlen zu Objekten und Ereignissen. • Diese Zuordnung kann Aussagen unterschiedlicher „Güte“ erlauben, wobei die jeweiligen Gütestufen als Skalenniveaus bezeichnet werden. Grundsätzlich wird unterschieden zwischen • Nominalskalen • Ordinalskalen • Intervallskalen • Ratio- oder Verhältnisskalen Diese Skalenniveaus unterscheiden sich in ihrem Informationsgehalt. Dieser determiniert die erlaubten (mathematischen) Operationen und damit die statistischen Verfahren, die auf die jeweiligen Daten angewendet werden dürfen. -3- Nominalskala Objekte mit gleicher Merkmalsausprägung erhalten gleiche Zahlen, Objekte mit verschiedener Merkmalsausprägung erhalten verschiedene Zahlen. Die einzelnen Ausprägungen des Merkmals und damit die Stufen der Skala sind ungeordnet (gleichberechtigt). • Mögliche Aussagen: Gleichheit, Verschiedenheit. • Erlaubte Operationen: =,≠ • Zulässige Transformation: Eindeutige Transformationen, die zahlenmäßige Gleichheit und Verschiedenheit nicht verändern. • Beispiele: Augenfarbe, Geschlecht -4- Ordinalskala Eine Ordinalskala ordnet Objekten Zahlen zu, die so geartet sind, dass von jeweils zwei Objekten das Objekt mit der größeren Merkmalsausprägung die größere Zahl erhält. Über das Ausmass des Unterschiedes zwischen den einzelnen Ausprägungen ist nichts bekannt. • Mögliche Aussagen: Größer-kleiner-Relationen. • Erlaubte Operationen: =,≠,>,< • Zulässige Transformation: Monotone Transformationen, die Ordnung der Daten muss erhalten bleiben. • Beispiele: Militärische Ränge, Windstärken. -5- Intervallskala Wie bei der Ordinalskala, so sind auch bei der Intervallskala die Stufen geordnet. Zusätzlich sind hier die Abstände zwischen den einzelnen Stufen alle gleich gross. Hat z.B. ein Objekt den Skalenwert 1, so ist es von dem Objekt mit dem Skalenwert 2 genauso weit entfernt, wie dieses von einem Objekt mit dem Skalenwert 3. Der Nullpunkt einer Intervallskala ist relativ. • Mögliche Aussagen: Abstandsvergleiche. • Erlaubte Operationen: =,≠,>,<,+,− • Zulässige Transformation: Lineare Transformationen der Form X‘ = a⋅X + b, die Verhältnisse zwischen Differenzen bleiben erhalten. • Beispiele: Temperatur in Celsius oder Fahrenheit. -6- Verhältnisskala Eine Verhältnisskala ist eine Intervallskala mit absolutem Nullpunkt, der das „Nichtvorhandensein“ des Merkmals ausdrückt. • Mögliche Aussagen: Vergleich von Verhältnissen. • Erlaubte Operationen: =,≠,>,<,+,− ,•,/ • Zulässige Transformation: Ähnlichkeitstransformation der Form X‘ = a⋅X, der Nullpunkt wird nicht verändert und die Verhältnisse von Werten bleiben erhalten. • Beispiele: Größe in m, Gewicht in kg, Zeit in sec, Temperatur in Kelvin. Weitere Bezeichnungen Intervall- und Verhältnisskalen werden zusammenfassend auch als Kardinalskalen bezeichnet. Häufigkeiten besitzen Verhälnisskalenniveau und werden auch als Absolutskala bezeichnet. -7- Skalenniveaus, mögliche Operationen und statistische Kennwerte Nominal GleichUngleich Ordinal GleichUngleich Intervall GleichUngleich Verhältnis GleichUngleich GrößerKleiner GrößerKleiner GrößerKleiner Vergleich von Differenzen Vergleich von Differenzen Eindeutige Monotone Lineare Transfor- Transfor- Transformamation mationen tion Modus Modus, Modus, Zentrale Median Median, Tendenz Mittelwert Variations- Variationsbreite breite, ADDispersion Streuung, Varianz Vergleich von Verhältnissen Ähnlichkeitstransformation Modus, Median, Mittelwert Variationsbreite, ADStreuung, Varianz Aussagen Transformationen -8- 1.2 Häufigkeitsverteilungen Urliste mit Daten (Messwerte) von n = 92 Teilnehmern der Lehrveranstaltung Statistik im WS 98/99. Die Liste enthält neben den Probanden-Nummern (nr) die Variablen „Geschlecht“ (sex), „Ängstlichkeit“ (angst) und „Körperlänge“ (lang). nr sex angst 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 2 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 1 1 1 1 1 1 1 4 4 4 5 3 4 2 2 3 3 2 5 3 2 2 5 5 2 1 2 4 4 5 lang 173 165 169 174 172 173 176 160 171 170 176 174 170 170 175 195 165 165 166 160 164 177 165 nr sex angst 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 3 4 5 4 2 5 3 1 2 2 5 3 2 3 3 4 5 6 2 4 4 2 2 lang 160 174 174 158 180 180 167 177 167 165 184 168 171 165 170 170 168 178 175 173 170 176 172 -9- nr sex angst 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 1 1 2 1 2 1 1 1 1 2 1 1 1 1 1 1 2 1 2 1 1 1 1 2 2 5 4 3 4 4 2 2 3 3 2 5 4 4 4 6 7 1 4 5 5 5 lang nr sex angst lang 163 175 189 170 170 167 169 170 170 181 162 162 171 164 168 168 180 167 175 180 169 165 152 169 175 168 169 164 169 176 185 169 175 166 159 173 184 168 175 176 167 165 176 171 173 171 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 5 5 6 3 4 5 1 5 3 4 4 2 3 2 2 4 3 2 3 4 4 5 4 1.2.1 Univariate Häufigkeitsverteilungen • Ordnung der Daten nach der jeweiligen Variablen in aufsteigender Reihenfolge. • Auszählung des Auftretens einzelner Punktwerte bzw. Kategorien. Folgende Häufigkeiten lassen sich bestimmen: f h f% fkum hkum f%kum Absolute Häufigkeit mit der ein Wert auftritt. f Relative Häufigkeit: . n f Prozentuale Häufigkeit: ⋅100. n Kumulierte absolute Häufigkeit: Die bis zu dem betrachteten Wert einschließlich aufsummierten absoluten Häufigkeiten. Kumulierte relative Häufigkeit: Die bis zu dem betrachteten Wert einschließlich aufsummierten relativen Häufigkeiten. Kumulierte prozentuale Häufigkeit: Die bis zu dem betrachteten Wert einschließlich aufsummierten prozentualen Häufigkeiten. f kum ⋅ 100 wird auch als Prozentrang ben zeichnet. -10- Aufsteigende Reihenfolge der „Ängstlichkeit“ nr angst 19 1 31 1 65 1 76 1 7 2 8 2 11 2 14 2 15 2 18 2 20 2 28 2 32 2 33 2 36 2 42 2 45 2 46 2 47 2 nr angst 48 2 54 2 55 2 58 2 81 2 83 2 84 2 87 2 5 3 9 3 10 3 13 3 24 3 30 3 35 3 37 3 38 3 51 3 56 3 nr angst 57 3 73 3 78 3 82 3 86 3 88 3 1 4 2 4 3 4 6 4 21 4 22 4 25 4 27 4 39 4 43 4 44 4 50 4 52 4 -11- nr angst 53 4 60 4 61 4 62 4 66 4 74 4 79 4 80 4 85 4 89 4 90 4 92 4 4 5 12 5 16 5 17 5 23 5 26 5 29 5 nr angst 34 5 40 5 49 5 59 5 67 5 68 5 69 5 70 5 71 5 75 5 77 5 91 5 41 6 63 6 72 6 64 7 Primäre Häufigkeitsverteilung der „Ängstlichkeit“ Wert f 1 4 2 23 3 17 4 25 5 19 6 3 7 1 å n = 92 h 0,043 0,250 0,185 0,272 0,207 0,033 0,011 1 f% 4,3 25,0 18,5 27,2 20,7 3,3 1,1 100,0 fkum 4 27 44 69 88 91 92 hkum 0,043 0,293 0,478 0,750 0,957 0,989 1,000 f%kum 4,3 29,3 47,8 75,0 95,7 98,9 100,0 absolute Häufigkeit 30 25 20 15 10 5 0 1 2 3 4 5 6 7 Ängstlichkeit Abb. 1. Histogramm der Verteilung von „Ängstlichkeit“. -12- Primäre Häufigkeitsverteilung der „Körperlänge“ Wert 152 158 159 160 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 180 181 184 185 189 195 å f 1 1 1 3 2 1 3 8 2 5 6 7 10 5 2 5 4 7 6 2 1 4 1 2 1 1 1 n = 92 h 0,011 0,011 0,011 0,033 0,022 0,011 0,033 0,087 0,022 0,054 0,065 0,076 0,109 0,054 0,022 0,054 0,043 0,076 0,065 0,022 0,011 0,043 0,011 0,022 0,011 0,011 0,011 1 f% 1,1 1,1 1,1 3,3 2,2 1,1 3,3 8,7 2,2 5,4 6,5 7,6 10,9 5,4 2,2 5,4 4,3 7,6 6,5 2,2 1,1 4,3 1,1 2,2 1,1 1,1 1,1 100,0 -13- fkum 1 2 3 6 8 9 12 20 22 27 33 40 50 55 57 62 66 73 79 81 82 86 87 89 90 91 92 hkum 0,011 0,022 0,033 0,065 0,087 0,098 0,130 0,217 0,239 0,293 0,359 0,435 0,543 0,598 0,620 0,674 0,717 0,793 0,859 0,880 0,891 0,935 0,946 0,967 0,978 0,989 1,000 f%kum 1,1 2,2 3,3 6,5 8,7 9,8 13,0 21,7 23,9 29,3 35,9 43,5 54,3 59,8 62,0 67,4 71,7 79,3 85,9 88,0 89,1 93,5 94,6 96,7 97,8 98,9 100,0 absolute Häufigkeit 12 10 8 6 4 2 15 2 15 6 16 0 16 4 16 8 17 2 17 6 18 0 18 4 18 8 19 2 0 Körperlänge Abb. 2. Histogramm der „Körperlänge“. Sekundäre Häufigkeitsverteilung der „Körperlänge“ Kategorie f 1 150 – 154 2 155 – 159 9 160 – 164 28 165 – 169 26 170 – 174 16 175 – 179 7 180 – 184 2 185 – 189 0 190 – 194 1 195 – 199 å n = 92 h 0,011 0,022 0,098 0,304 0,283 0,174 0,076 0,022 0,000 0,011 1 f% 1,1 2,2 9,8 30,4 28,3 17,4 7,6 2,2 0,0 1,1 100,0 -14- fkum 1 3 12 40 66 82 89 91 91 92 hkum 0,011 0,033 0,130 0,435 0,717 0,891 0,967 0,989 0,989 1,000 f%kum 1,1 3,3 13,0 43,5 71,7 89,1 96,7 98,9 98,9 100,0 absolute Häufigkeit 30 25 20 15 10 5 0 150- 155- 160- 165- 170- 175- 180- 185- 190- 195154 159 164 169 174 179 184 189 194 199 Körperlänge absolute Häufigkeit Abb. 3. Histogramm der kategorisierten „Körperlänge“. 90 80 70 60 50 40 30 20 10 0 weiblich männlich Geschlecht Abb. 4. Histogramm von „Geschlecht“. -15- 1.2.2 Bivariate Häufigkeitsverteilungen • Ordnung der Daten nach den jeweiligen Variablenpaaren in aufsteigender Reihenfolge. • Auszählung des Auftretens einzelner Kombinationen von Punktwerten bzw. Kategorien. Aufsteigende Reihenfolge von „Geschlecht“ und „Ängstlichkeit“ nr sex angst nr sex angst nr sex angst nr sex angst nr sex angst 19 1 1 58 1 2 78 1 3 60 1 4 40 1 5 31 1 1 81 1 2 82 1 3 61 1 4 59 1 5 65 2 1 84 1 2 86 1 3 62 1 4 67 1 5 76 2 1 87 1 2 88 1 3 66 1 4 68 1 5 7 1 2 15 2 2 51 2 3 74 1 4 69 1 5 8 1 2 42 2 2 56 2 3 79 1 4 70 1 5 11 1 2 46 2 2 2 1 4 80 1 4 71 1 5 14 1 2 83 2 2 3 1 4 85 1 4 75 1 5 18 1 2 5 1 3 6 1 4 89 1 4 91 1 5 20 1 2 9 1 3 21 1 4 90 1 4 16 2 5 28 1 2 10 1 3 22 1 4 92 1 4 49 2 5 32 1 2 13 1 3 25 1 4 1 2 4 77 2 5 33 1 2 24 1 3 27 1 4 4 1 5 41 1 6 36 1 2 30 1 3 39 1 4 12 1 5 72 1 6 45 1 2 35 1 3 43 1 4 17 1 5 63 2 6 47 1 2 37 1 3 44 1 4 23 1 5 64 1 7 48 1 2 38 1 3 50 1 4 26 1 5 54 1 2 57 1 3 52 1 4 29 1 5 55 1 2 73 1 3 53 1 4 34 1 5 -16- Primäre Häufigkeitsverteilung von „Geschlecht“ und „Ängstlichkeit“ sex angst f 1 1 2 1 2 19 1 3 15 1 4 24 1 5 16 1 6 2 1 7 1 2 1 2 2 2 4 2 3 2 2 4 1 2 5 3 2 6 1 2 7 0 n = 92 å h 0,022 0,207 0,163 0,261 0,174 0,022 0,011 0,022 0,043 0,022 0,011 0,033 0,011 0,000 1 -17- f% 2,2 20,7 16,3 26,1 17,4 2,2 1,1 2,2 4,3 2,2 1,1 3,3 1,1 0,0 100,0 Darstellung in einer Kreuztabelle oder Kontingenztafel: angst 1 2 3 4 5 6 7 Σ sex 1 2 2,2 19 20,7 15 16,3 24 26,1 16 17,4 2 2,2 1 1,1 79 85,8 -18- 2 2 2,2 4 4,3 2 2,2 1 1,1 3 3,3 1 1,1 0 0,0 13 14,2 Σ 4 4,3 23 25,0 17 18,5 25 27,2 19 20,7 3 3,3 1 1,1 92 100,0 1.3 Statistische Kennwerte Statistische Kennwerte (etwas verwirrend häufig auch Statistiken genannt) haben die Funktion, in zusammengefaßter (aggregierter) Form Auskunft über Eigenschaften von Verteilungen zu geben. Grundlegende statistische Kennwerte sind • Maße der zentralen Tendenz, die die Lage (Lokation) einer Reihe von Meßwerten zusammenfassend repräsentieren und • Dispersionsmaße (Streuungsmaße), die Auskunft über die Variabilität (Breite der Streuung um einen Zentralwert) einer Reihe von Meßwerten geben. -19- 1.3.1 Maße der zentralen Tendenz Durch welchen Wert wird eine Vielzahl von Werten am besten repräsentiert? – Hierzu geben Maße der zentralen Tendenz Auskunft über die Lage bzw. Lokation einer Verteilung in Termini der zugrundeliegenden Skala. Modalwert (Modus) Der Modalwert oder Modus ist der Wert, der in einer Verteilung am häufigsten vorkommt. Es kann auch mehr als einen Modus geben. Beispiele: Mosex = 1, Moangst = 4, Molang = 170. -20- Median Der Median ist der Wert, der eine der Größe nach geordnete Merkmalsverteilung in zwei gleichgroße Hälften teilt. Bei gerader Anzahl von Werten wird das arithmetische Mittel aus dem größten Wert der unteren Hälfte und dem kleinsten Wert der oberen Hälfte bestimmt. Statistische Eigenschaften: Die Summe der absoluten Abweichungen vom Median ist minimal. Beispiele: x( 46) + x( 47 ) 4 + 4 Md angst = = = 4 , wobei x(a) der a-te 2 2 Wert in der aufsteigenden Reihenfolge ist; Mdlang = 170. -21- Arithmetisches Mittel Das arithmetische Mittel bzw. der Mittelwert ist die Summe aller Messwerte dividiert durch die Anzahl der Messwerte n: n å xi x = i =1 . n Statistische Eigenschaften: • Die Summe der Abweichungen aller Messwerte vom Mittelwert ist Null. • Die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist ein Minimum. Beispiel: xlang = 15717 = 170,837 . 92 -22- Zusammenhang zwischen Modus, Median und Mittelwert -23- Statistische Kennwerte der zentralen Tendenz und Skalenniveaus Zentrale Tendenz Nominal Modus Ordinal Modus, Median Intervall Modus, Median, Mittelwert Verhältnis Modus, Median, Mittelwert Weitere Lokationsmaße Geometrisches Mittel, harmonisches Mittel, gewichtetes Mittel, getrimmtes Mittel u.v.a.m.. Perzentile Das Perzentil PX% ist der Punkt auf einer Skala, unterhalb dessen X% der aufsteigend angeordneten Messwerte einer Stichprobe liegen. Der Median ist das 50%-Perzentil einer Verteilung. -24- 1.3.2 Dispersionsmaße Zwei Verteilungen können gleiche Maße der Zentralen Tendenz haben, dabei aber durchaus unterschiedlich breit streuen. Dispersionsmaße geben Auskunft über die Streuung bzw. Variabilität der Werte. Variationsbreite Die Variationsbreite (engl. Range) ist die Differenz zwischen dem größten (Maximum) und dem kleinsten Wert (Minimum). -25- Varianz Die Varianz ist die Summe der quadrierten Abweichungen vom Mittelwert, dividiert durch die Anzahl der Messwerte n: n å ( xi − x ) 2 s 2 = i =1 n . Dieser Kennwert ist auf den ersten Blick nur schwer interpretierbar, hat aber in der Statistik einen hohen Stellenwert. Standardabweichung Die Standardabweichung oder Streuung ist die Wurzel aus der Varianz: n s = s2 = å ( xi − x ) 2 i =1 n . Statistische Kennwerte der Dispersion und Skalenniveaus Nominal Dispersion Ordinal Variationsbreite -26- Intervall Variationsbreite, Varianz Verhältnis Variationsbreite, Varianz Beispiel Deskription von „Geschlecht“, „Ängstlichkeit“ und „Körperlänge“ sex 92 0 Angst 92 0 lang 92 0 --1,000 -4,000 4,000 170,837 170,000 170,000 Varianz Standardabweichung Minimum Maximum Variationsbreite ------ --1,000 7,000 6,000 45,832 6,770 152,000 195,000 43,000 Perzentile ------ 2,000 2,000 4,000 4,000 6,000 160,000 167,000 170,000 175,000 184,000 n gültig fehlende Werte Mittelwert Median Modus 5% 25% 50% 75% 95% -27- 1.4 Die z-Transformation Die z-Transformation überführt jede Verteilung in eine Verteilung mit Mittelwert 0 und Streuung bzw. Varianz 1: xi − x zi = . sx Die z-Transformation ermöglicht den relativen Vergleich von Variablenausprägungen, da sie Mittelwerts- und Streuungsunterschiede „wegrelativiert“. -28- Beispiel Ist eine Psychologiestudentin mit 184 cm Körperlänge relativ länger als ein Psychologiestudent derselben Länge? Relativ bedeutet in Bezug zur jeweiligen Geschlechtsgruppe. N Mittelwert Streuung zFrauen = Körperlänge Frauen Männer 79 13 169,456 179,231 5,632 7,040 184 − 169,456 = 2,582 5,632 zMänner = 184 − 179,231 = 0,677 7,040 Während eine Frau von 184 cm Körperlänge um 2,582 Einheiten (Standardabweichungen) über dem Mittelwert liegt, liegt ein Mann derselben Länge um nur 0,677 Einheiten (Standardabweichungen) über dem Mittelwert, jeweils in Bezug zur Geschlechtsgruppe. Die Frau besitzt also eine „überdurchschnittlichere“ Länge. -29- 1.5 Zusammenhangsmaße 200 Länge Y 190 180 y = 170,837 170 160 150 40 x = 59,846 50 60 70 80 90 100 Gewicht X Abb. 5. Streudiagramm (Scatterplot) der Variablen „Körperlänge und -gewicht“ (n = 92). -30- 1.5.1 Kovarianz und Korrelation Mit der Kovarianz läßt sich bestimmen, wie sich die relativen Positionen von gepaarten Messwerten aus zwei Variablen zueinander verhalten: n å ( xi − x )( yi − y ) cov( x,y ) = i =1 n . Die Kovarianz kann nur hinsichtlich ihres Vorzeichens, nicht aber hinsichtlich ihrer Größe interpretiert werden. • Ein positives Vorzeichen der Kovarianz zeigt an, daß sowohl überdurchschnittliche Werte von X stärker mit überdurchschnittlichen Werten von Y gepaart sind als auch, daß unterdurchschnittliche Werte von X stärker mit unterdurchschnittlichen Werten von Y zusammen auftreten. • Ein negatives Vorzeichen zeigt entprechend an, daß überdurchschnittliche Werte von X stärker mit unterdurchschnittlichen Werten von Y gepaart sind und umgekehrt. -31- Die Kovarianz kann maximal den Wert sx·sy annehmen. Dies ist damit ein sehr schöner Term zur Relativierung bzw. Standardisierung von Kovarianzen. Diese Standardisierung nennt Moment-Korrelation r(x,y). r( x , y ) man Produkt- cov( x , y ) = . sx ⋅ s y Die Korrelation rx,y kann Werte zwischen –1 und +1 annehmen, wobei • –1 einen perfekt negativen linearen Zusammenhang anzeigt, • +1 einen perfekt positiven linearen Zusammenhang anzeigt und • 0 keinen linearen Zusammenhang anzeigt. Perfekter linearer Zusammenhang: Die Werte der einen Variablen lassen sich durch eine Lineartransformation in die der anderen überführen: yi = a·+ b·xi -32- Beispiel: xi 62 53 70 70 66 å 321 yi 176 166 177 175 176 870 xi − x yi − y ( xi − x )⋅( yi − y ) 2,0 −4,4 89,6 −8,0 3,0 17,4 1,0 5,8 2,0 3,6 0 112 −2,2 −11,2 5,8 5,8 1,8 0 x = 64,2, sx = 40,16 = 6,337 y = 174,0, sy = 16,4 = 4,050 cov(x,y) = 112 = 22,4 5 cov( x , y ) 22,4 r( x , y ) = = = 0,873 sx ⋅ s y 6,337 ⋅ 4,050 Korrelation und Kausalität Die Kovariation zweier Variablen kann auf eine kausale Beziehung der beiden Variablen oder auf die Beeinflussung durch eine oder mehrere Drittvariablen zurückgehen. Auf Basis einer Korrelation kann nicht auf die Art der Verursachung geschlossen werden. (Z.B. korrelieren bei Kindern Intelligenz und Schuhgröße.) -33- 1.5.2 Weitere bivariate Zusammenhangsmaße dichotom ordinal dichotomintervall isiert dichotom ordinal Phi Rangbiserial − Punktbiserial Rangkorrelation − − (Tau,Rho) dichotomisiert TetrachoBiserial risch ProduktMoment intervall -34- 1.6 Lineare Regression Hängen zwei Variablen (wie z.B. Körperlänge und Gewicht) zusammen, so ist es möglich, eine Variable jeweils auf Basis der anderen vorherzusagen. Die Vorhersagevariable wird als unabhängige Variable oder Prädiktorvariable (X) bezeichnet, die Variable, die vorhergesagt werden soll, als abhängige Variable oder Kriteriumsvariable (Y). Im Rahmen der bivariaten Regression wird die Vorhersage über folgende lineare Beziehung vorgenommen: yˆi = a + b ⋅ xi , wobei ŷi = vorhergesagter Wert, a = Schnittpunkt der Geraden mit der y-Achse (Ordinatenabschnitt, Interzept) und b = Steigung der Geraden. Ziel ist die Bestimmung einer Geraden, die den Gesamttrend aller Punkte am besten wiedergibt. -35- Beispiel: Für die Körper der 92 Erstsemester des WS 1998 ermittelt man folgende Gleichung: Länge = 139,74 + 0,52 ⋅ Gewicht. 200 Länge Y 190 180 170 160 150 40 50 60 70 80 90 100 Gewicht X Abb. 6. Lineare Regression von Länge auf Gewicht (n = 92). -36- 1.6.1 Bestimmung der Geradengleichung Bei der linearen Regression wird die Gleichung yˆi = a + b ⋅ xi gesucht, für die die Summe der quadrierten Abweichungen zwischen vorhergesagten und tatsächlichen Werten minimal ist (Kriterium der kleinsten Quadrate): n å ( yi − yˆi ) 2 = i =1 n 2 [ y − ( a + b ⋅ x ) ] = min . å i i i =1 Durch partielle Ableitung dieser Funktion nach a bzw. b lassen sich allgemeine Lösungen sowohl für a als auch für b finden, die obiges Kriterium erfüllen: cov ( x , y ) byx = und a yx = y − byx ⋅ x . 2 sx Bei byx und ayx bezeichnet der erste Index (hier y) die Variable, die vorhergesagt wird, und der zweite Index die Variable, die vorhersagt (hier x). -37- Beispiel: Körpergewicht X (Prädiktor) 62 53 70 70 66 Körperlänge Y (Kriterium) 176 166 177 175 176 x = 64,2, sx = 40,16 = 6,337, y = 174,0 cov(x,y) = 112 = 22,4 5 cov( x , y ) 22,4 byx = = = 0,558 2 40,16 sx a yx = y − b yx ⋅ x = 174 − 0,558 ⋅ 64,2 = 138,176 Die Regressionsgleichung lautet also: yˆi = 138,176 + 0,558 ⋅ xi -38- 178 176 Länge Y 174 172 170 168 166 164 50 60 70 80 Gewicht X Abb. 7. Lineare Regression von Länge auf Gewicht. Für eine Person, die 70 kg wiegt, sagen wir gemäß der linearen Regression folgende Körperlänge voraus: ŷ = 138,176 + 0,558 ⋅ 70 = 177,236. -39- 1.6.2 Beobachtete, vorhergesagte und Residualwerte Die Abweichungen der beobachteten Werte von den vorhergesagten Werten heißen Regressionsresiduen: yi∗ = yi − yˆ i . Die Residuen enthalten die Anteile der Kriteriumsvariablen, die durch die Prädiktorvariable nicht erfaßt werden. Mittelwerte • Die Mittelwerte der Kriteriumsvariablen und der vorhergesagten Werte sind gleich: 1 n y = 1 n yˆ . å å n i =1 i n i =1 i • Der Mittelwert der Residuen ist 0: 1 n y* = 0. å n i =1 i Im Beispiel: ŷi yi xi yi∗ å AM 62 53 70 70 66 321 64,2 176 166 177 175 176 870 174 172,772 167,750 177,236 177,236 175,004 870 174 -40- 3,228 −1,750 −0,236 −2,236 0,996 0 0 Zerlegung der Kriteriumsvarianz Die Varianz der y-Werte setzt sich additiv aus der Varianz der vorhergesagten ŷ -Werte und der Varianz der Residuen y* zusammen: s 2y = s 2yˆ + s 2y * . Im Beispiel: 16,4 = 12,5 + 3,9. Determinationskoeffizient Varianzanteil der abhängigen Variablen, der mit der unabhängigen vorhergesagt bzw. erklärt werden kann: 2 s yˆ 2 r( y , yˆ ) = 2 . sy Im Beispiel: 12,5/16,4 = 0,762. 0,762 ⋅ 100% = 76,2% der Varianz der „Körperlänge“ kann durch das „Körpergewicht“ erklärt werden (und umgekehrt). -41- Korrelationen • Die Korrelation zwischen Kriterium und Vorhersage ist gleich der Korrelation zwischen Kriterium und Prädiktor: r( y , yˆ ) = r( y , x ) . • Die Korrelation zwischen Prädiktor und Residuen ist 0: r(x,y*) = 0. • Für die Korrelation zwischen Kriterium und Residuen gilt: r(2y , y*) = 1 − r(2x , y ) . Im Beispiel: x y ŷ y* x 1 ŷ 1,000 0,873 1 y 0,873 1 y* 0,000 0,488 0,000 1 0,4882 = 0,238 = 1 − 0,762 = 1 − 0,8732 -42- 2 Wahrscheinlichkeit und Verteilungen 2.1 Wahrscheinlichkeit Ein Zufallsexperiment ist ein beliebig oft wiederholbarer wohldefinierter Vorgang, dessen Ausgang nicht vorhersagbar ist. Ein Ausgang wird als Ergebnis oder Elementarereignis ω, die Menge aller Elementarereignisse wird als Ergebnisraum Ω = {ω1, ω2, ..., ωn} bezeichnet. Die Ergebnisse eines Raumes sind vollständig und schließen sich gegenseitig aus. Bei der theoretischen (kombinatorischen) Bestimmung einer Wahrscheinlichkeit geht man oft von der Gleichwahrscheinlichkeit aller Ergebnisse aus: p( A) = Anzahl günstiger Ergebnisse . Anzahl möglicher Ergebnisse Günstige Ergebnisse sind solche, bei denen sich A ereignet, mögliche Ergebnisse sind alle Ergebnisse des endlichen Ergebnisraumes (A kann durchaus mehr als ein einziges ωi umfassen). -43- Beispiel 1: Zufallsexperiment „Münzwurf“: Die möglichen Elementarereignisse sind „Kopf“ (K) und „Zahl“ (Z): Ω = {K, Z}. Unter Annahme einer „fairen“ Münze (Gleichwahrscheinlichkeit) ist p(K) = p(Z) = ½. Beispiel 2: Zufallsexperiment „Reißzweckenwurf“: Der Ergebnisraum ist auch hier Ω = {ω1, ω2} = {„Spitze oben“, „Spitze schräg unten“}, aber die Annahme der Gleichwahrscheinlichkeit ist unplausibel. In solchen Fällen können die p(ωi) meist nur über viele Versuche geschätzt werden. Ein statistischer Schätzer der Wahrscheinlichkeit eines Ereignisses A ist die relative Häufigkeit eben dieses Ereignisses: h( A) = f ( A) . n -44- Begriffe: • Der Durchschnitt A∩B bedeutet, daß sich A und B ereignen. • Die Vereinigung A∪B bedeutet, daß sich A und/oder B ereignen. • Addition: p(A∪B) = p(A) + p(B) − p(A∩B). • Disjunkt bzw. unvereinbar sind Ereignisse, die keinen Durchschnitt besitzen; dann gilt: p(A∪B) = p(A) + p(B). • Multiplikation: p(A∩B) = p(B) ⋅ p(A|B). Bedingte Wahrscheinlichkeit Die bedingte Wahrscheinlichkeit p(A|B) ist die Wahrscheinlichkeit von A, sofern B eingetreten ist: p( A ∩ B) p( A | B) = . p( B) Ein Schätzer für p(A|B) ist die bedingte, relative Häufigkeit: h( A | B ) = h( A ∩ B ) f ( A ∩ B ) n f ( A ∩ B ) . = = h( B ) f (B ) n f (B ) -45- Beispiel: In einer Zufallsstichprobe mit n = 1000 sind: • Frauen: 500. • Raucherinnen: 100. • Raucher: 150. R („raucht“) f R F (Frau) f(F ∩ R) = 100 f(F ∩ R ) = 400 500 F (Mann) f( F ∩ R) =150 f( F ∩ R ) =350 500 250 750 1000 f Der Anteil der Frauen an der gesamten Stichprobe beträgt: h(F) = 500/1000 = 0,5. Wie groß ist der Anteil der Frauen unter den Rauchern und Rauerinnen? f ( F ∩ R ) 100 h ( F|R ) = = = 0 ,4 . f (R ) 250 Oder: Wie groß ist der Anteil der Raucher und Rauerinnen unter den Frauen? f ( F ∩ R ) 100 h( R|F ) = = = 0,2 . f (F ) 500 h(F) ≠ h(F | R) deutet daraufhin, daß die Ereignisse F und R nicht unabhängig voneinander auftreten. -46- Stochastische Unabhängigkeit Zwei Ereignisse A und B sind stochastisch unabhängig, wenn die Wahrscheinlichkeit für das gemeinsame Auftreten der Ereignisse A und B dem Produkt ihrer Einzelwahrscheinlichkeiten entspricht: p(A∩B) = p(A) ⋅ p(B). Äquivalent hierzu ist p(A) = p(A|B), sofern p(B) > 0, und p(B) = p(B|A), sofern p(A) > 0. Wenn A unabhängig von B, dann ändert das Eintreten von B nichts an der Eintretenswahrscheinlichkeit von A, und umgekehrt. -47- Beispiel für Unabhängigkeit: F F p R 0,1 0,1 0,2 R 0,4 0,4 0,8 p 0,5 0,5 1 Bei Unabhängigkeit müßte gelten: p(R)⋅p(F)=p(R∩F). Das ist hier der Fall: 0,2 ⋅ 0,5 = 0,1. Dann gilt auch: p(R|F) = p(R) ó 0,1 / 0,5 = 0,2. Beispiel für Abhängigkeit: F F p R 0,05 0,15 0,2 R 0,45 0,35 0,8 Bei Unabhängigkeit müßte gelten: p(R) ⋅ p(F) = p(R∩F), aber: 0,2 ⋅ 0,5 ≠ 0,05. Dann ist auch: p(R|F) ≠ p(R), hier: 0,05 / 0,5 ≠ 0,2. -48- p 0,5 0,5 1 2.2 Diskrete Verteilungen Diskrete Wahrscheinlichkeitsfunktionen ordnen einer endlichen Anzahl von Ereignissen Auftretenswahrscheinlichkeiten zu. Zufallsexperiment „Wurf von 2 Münzen“: Mögliche Ergebnisse: Ω={ZZ, ZK, KZ, KK}. Wenn die Münzen fair und unabhängig voneinander sind, tritt jedes Ergebnis mit p = ¼ = 0,5 ⋅ 0,5 = 0,25 auf. Bei den möglichen Ergebnissen wird die Abfolge der Ereignisse (mit welcher Münze was geworfen wird) berücksichtigt. Man kann aber auch fragen, wie wahrscheinlich ist es, X × Kopf zu werfen: p(„0 × Kopf“) = p({ZZ}) = 0,25. p(„1 × Kopf“) = p({ZK, KZ}) = 0,5. p(„2 × Kopf“) = p({KK}) = 0,25. 0,6 0,5 0,4 0,3 0,2 0,1 0 0 x Kopf 1 x Kopf 2 x Kopf Abb. 8. Diskrete Wahrscheinlichkeitsfunktion. -49- Zufallsexperiment „Wurf von 3 Münzen“: Ω={ZZZ, ZZK, ZKZ, KZZ, ZKK, KZK, KKZ, KKK}, p(ωi) = 1/8 = 0,53 = 0,125. p(„0 × Kopf“) = p({ZZZ}) = 0,125. p(„1 × Kopf“) = p({ZZK, ZKZ, KZZ}) = 0,375. p(„2 × Kopf“) = p({ZKK, KZK, KKZ}) = 0,375. p(„3 × Kopf“) = p({KKK}) = 0,125. 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 x Kopf 1 x Kopf 2 x Kopf 3 x Kopf Abb. 9. Diskrete Wahrscheinlichkeitsfunktion. -50- Binomialverteilung Ein Experiment, welches in der n-fachen Wiederholung von unabhängigen Einzelexperimenten mit nur zwei möglichen Ausgängen besteht, heißt Bernoulli-Experiment. Wenn ein Ereignis X in einem Einzelexperiment mit einer Wahrscheinlichkeit p auftritt, dann kann die Wahrscheinlichkeit P, daß X in n Wiederholungen k-mal auftritt, allgemein bestimmt werden: ænö k n −k P ( X = k ) = ç ÷ ⋅ p ⋅ (1 − p ) . èk ø Diese Wahrscheinlichkeitsfunktion heißt Binomialverteilung und gibt an, wie wahrscheinlich das Eintreten eines Ereignisses X = k ist. Die Verteilungsfunktion hingegen gibt an, mit welcher Wahrscheinlichkeit ein Ereignis höchstens kmal auftritt: ænö j n− j P ( X ≤ k ) = å ç ÷ ⋅ p ⋅ (1 − p ) . j =0 è j ø k Die Verteilungsfunktion ist die kumulierte Wahrscheinlichkeitsfunktion. -51- 0,3 0,25 0,2 0,15 0,1 0,05 X =9 X =1 0 X =8 X =7 X =6 X =5 X =4 X =3 X =2 X =1 X =0 0 Abb. 10. Wahrscheinlichkeitsverteilung mit p= 0,35, n = 10. X =0 X <= 1 X <= 2 X <= 3 X <= 4 X <= 5 X <= 6 X <= 7 X <= 8 X <= X 9 <= 10 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Abb. 11. Verteilungsfunktion für p = 0,35, n = 10. Andere diskrete Verteilungen sind die hypergeometrische, die Poisson- und die multinomiale Verteilung. -52- 2.3 Stetige Verteilungen In einem Zufallsexperiment mit einer stetigen Variable besteht die Ergebnismenge aus unendlich vielen möglichen Ergebnissen. Die Wahrscheinlichkeit einzelner Ergebnisse läßt sich daher nicht bestimmen. Stetige Verteilungen werden nicht mit Balken, sondern mit Kurven symbolisiert. Abb. 12. Binomial- vs. Normalverteilung. -53- Die Gesamtfläche unter der Kurve ist auf 1 normiert, was bedeutet, daß mit einer Wahrscheinlichkeit 1 irgendein Ergebnis eintritt. Die Fläche über einem Intervall von zwei Werten gibt an, mit welcher Wahrscheinlichkeit Werte innerhalb dieses Intervalls eintreten. Abb. 13. Wahrscheinlichkeit eines Intervalls ∆X. Die Wahrscheinlichkeitsfunktion einer stetigen Verteilung wird als Wahrscheinlichkeitsdichte oder Dichtefunktion bezeichnet. Erst über Integrale dieser Dichtefunktion können Werteintervallen Wahrscheinlichkeiten zugeordnet werden. -54- Die Dichtefunktion der Normalverteilung lautet: 1 − ( x −µ) 2 f ( x) = ⋅e 2 2π ⋅ σ 2σ 2 . Diese Funktion beschreibt eine Schar von Verteilungen, die sich hinsichtlich µ und σ unterscheiden. Abb. 14. Verschiedene Normalverteilungen. -55- Eigenschaften der Normalverteilung: • Glockenförmiger Verlauf. • Symmetrie, d.h. Modalwert, Median und Mittelwert fallen zusammen. • Die Verteilung nähert sich asymptotisch der xAchse. • Zwischen den zu den Wendepunkten gehörenden x-Werten befinden sich ungefähr 2/3 der Gesamtfläche. Standardnormalverteilung Durch eine z-Transformation kann jede Normalverteilung in die Standardnormalverteilung mit µ = 0 und σ = 1 [Abk.: N(0, 1)] überführt werden: 1 −z2 2 f ( z) = ⋅e . 2π Diese Dichte (siehe „Ordinate“) und deren Verteilungsfunktion (siehe „Fläche“) ist bei Bortz (1999) in Tabelle B (S. 768-772) wiedergegeben. -56- Beispiele • Wie groß ist die Fläche von −∞ bis −1,96? p(z ≤ −1,96) = F(z = −1,96) = 0,025. • Wie groß ist die Fläche zwischen −1 und 1? p(−1 ≤ z ≤ 1) = F(z = 1) − F(z = –1) = 0,8413 – 0,1587 = 0,6826. D.h. bei Normalverteilungen liegen zwischen −σ und +σ immer 68,26% aller Werte. • Wie groß ist die Fläche von 1,65 bis +∞? p(z ≥ 1,65) = 1 – F(z = 1,65) = F(z = –1,65) = 0,0495. Bedeutsamkeit der Normalverteilung Die Normalverteilung nimmt eine zentrale Stellung unter den theoretischen Verteilungen ein, da sich verschiedene Verteilungen von ihr herleiten (χ2, t, F) und andere gegen sie konvergieren (Binomial, Poisson). Die Normalverteilung dient als theoretisches Modell für die Verteilung von ... • Stichprobenkennwerten, • Zufallsfehlern, • (manchen) empirischen Merkmalen. -57- Literatur Grundlage dieser Veranstaltung: Βοrtz, J. (1999). Statistik für Sozialwissenschaftler. Berlin: Springer. Weitere Einführungen: Diehl, J.M. & Kohr, H.U. (1991). Deskriptive Statistik. Frankfurt a.M.: Klotz. Diehl, J.M. & Arbinger, R. (1989). Einführung in die Inferenzstatistik. Frankfurt a.M.: Klotz. Hays, W.L. (1988). Statistics. Orlando: Holt, Rinehart & Winston. Krengel, U. (1988). Einführung in die Wahrscheinlichkeitstheorie und Statistik. Wiesbaden: Vieweg. -58- Griechisches Alphabet Α Β Γ ∆ Ε Ζ Η Θ Ι Κ Λ Μ α β γ δ ε ζ η ϑ ι κ λ µ Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Jota Kappa Lambda My -59- Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω ν ξ ο π ρ σ τ υ ϕ χ ψ ω Ny Xi Omikron Pi Rho Sigma Tau Ypsilon Phi Chi Psi Omega Methodenlehre B2, B3 & B4 Dieses Skript richtet sich nach den Anforderungen, die die Abteilung Methodenlehre & Diagnostik für das Vordiplom stellt. Das Skript erhebt keinen Anspruch auf Vollständigkeit und Richtigkeit, ist aber sicher eine gute Hilfe zum Verständnis der Thematiken sowie zur Prüfungsvorbereitung. Bortz: Statistik SKRIPTLISTE: Grundstudium: erstellt Hauptstudium: erstellt B – Methodenlehre (+ Bortz) 2002 C – Allgemeine Psychologie 1 2001 D – Wahrnehmung & Denken 2002 KEINE weiteren Skripte geplant weitere Skripte in Vorbereitung Viel Spaß! Manuel Ulrich Zur Überprüfung: 151 Seiten Erstellt wurde das Skript Januar bis April 2002. 1 Methodenlehre B2, B3 & B4 Inhaltsverzeichnis: Diverses: S. 5 (Konzeption des Skriptes; Literaturliste; griechisches Alphabet; Warnhinweis) Statistik (B2): Deskriptive Statistik: S. 8 (Skalenniveaus; Maße der zentralen Tendenz: Modus, Median & Arithmetisches Mittel; Dispersionsmaße: Variationsbreite und Perzentile, Quadratsummen, Varianz und Standardabweichung; z-Werte) Merkmalszusammenhänge & -vorhersagen: S. 12 (Kovarianz und Korrelation; Korrelation und Kausalität; Lineare Regression; Beobachtete, vorhergesagte und Residualwerte; Determinationskoeffizient) Wahrscheinlichkeitstheorie und -verteilungen: S. 16 (Zufallsexperimente; Grundbegriffe der Wahrscheinlichkeitsrechnung; Axiome der Wahrscheinlichkeitstheorie; Das Theorem von Bayes; Variationen, Permutationen, Kombinationen; Verteilungsfunktionen; Diskrete Verteilungen; Stetige Verteilungen 1: Normalverteilung & Standardnormalverteilung; Stetige Verteilungen 2: Chi2 -Verteilung, t-Verteilung sowie F-Verteilung; Zusammenhänge von NV, STNV, Chi2 -, t- und F -Verteilung) Stichprobe und Grundgesamtheit: S. 27 (Begriffe der Inferenzstatistik; Stichprobenarten; Verteilung von Stichprobenkennwerten; Kriterien der Parameterschätzung: Erwartungstreue, Konsistenz, Effizienz, Suffizienz; Methoden der Parameterschätzung: Methode der kleinsten Quadrate, Maximum-likelihood-Methode; Intervallschätzung: Wertebereich, Konfidenzintervalle; Bedeutung des Stichprobenumfangs) Formulierung und Überprüfung von Hypothesen: S. 35 (Alternativhypothesen; Varianten von Alternativhypothesen; Die Nullhypothese; Fehlerarten bei statistischen Entscheidungen: Alpha- & Beta-Fehler; Signifikanzaussagen; Bestimmung der Irrtumswahrscheinlichkeit; Einseitige und zweiseitige Tests; Statistische Signifikanz und praktische Bedeutsamkeit; Effektgröße; Der Beta-Fehler; Indifferenzbereiche; Teststärke („power“); Bedeutung der Stichprobengröße; Monte-Carlo-Studien, Bootstrap-Technik) Verfahren zur Überprüfung von Unterschiedshypothesen: S.44 (Verfahren für Intervalldaten; z-Test, t-Test; t-Test für unabhängige Stichproben; t-Test für abhängige Stichproben; chi2 -Test für eine Varianz; F-Test; Verfahren für Ordinaldaten; Randomisationstest nach Fisher; U-Test; WilcoxonTest; Verfahren für Nominaldaten; Vergleich der Häufigkeit eines zweifach gestuften Merkmals; Vergleich der Häufigkeit eines k-fach gestuften Merkmals; 4-Felder-chi2 -Test; k x l-chi2 -Test; Konfigurationsanalyse; Allgemeine Bemerkungen zu den chi2 -Techniken) Verfahren zur Überprüfung von Zusammenhangshypothesen: S.65 (Die Statistische Absicherung von linearen Regressionen; Determinanten der Vorhersagegenauigkeit; Nonlineare Regression; Interpretationshilfen für r; k-fach gestufte Merkmale; Korrelation für nonlineare Zusammenhänge; Fischers Z-Transformation; Spezielle Korrelationstechniken) 2 Methodenlehre B2, B3 & B4 Varianzanalyse (B3): Einfaktorielle Versuchspläne: S. 75 (Begriffe der Varianzanalyse; Grundprinzip der einfaktoriellen Varianzanalyse; Quadratsummenzerlegung; Varianzschätzungen; Entscheidung; Effektgrößen; Varianzaufklärung; Voraussetzungen; Einzelvergleiche; Alpha-FehlerKorrektur; Scheffé -Test; Trendtests; Zusammenhänge; Rangvarianzanalyse) Mehrfaktorielle Versuchspläne: S. 88 (Zweifaktorielle Varianzanalyse; Quadratsummen; Freiheitsgrade und Varianzschätzungen; Hypothesenprüfung; Varianzaufklärung; Interaktionsdiagramme; Feste und zufällige Faktoren; Effektgrößen und Einzelvergleiche; Dreiund mehrfaktorielle Varianzanalysen; Ungleiche Stichprobengrößen; Voraussetzungen) Versuchspläne mit Messwiederholungen: S. 97 (Einfaktorielle Varianzanalyse mit Messwiederholung; Datenschema; Hypothesen; Quadratsummen; Varianzschätzungen; Prüfung der Nullhypothese; Trendtests und Einzelvergleiche; Mehrfaktorielle Varianzanalyse mit Messwiederholung; Mathematik total; Voraussetzungen) Kovarianzanalyse: S. 103 (Einfaktorielle Kovarianzanalyse; Datenschema; Hypothesen; Quadratsummen; Freiheitsgrade und Varianzschätzungen; Hypothesenprüfung; Unterschiedliche Stichprobengrößen, A-priori Einzelvergleiche; Effektgrößen; Zusammenfassung; Voraussetzungen; Mehrfaktorielle Kovarianzanalyse; Kovarianzanalyse mit Messwiederholung) Unvollständige, mehrfaktorielle Versuchspläne: S. 109 (Hierarchische und teilhierarchische Versuchspläne; Lateinische Quadrate; Griechisch-lateinische Quadrate; Quadratische Anordnungen mit Messwiederholungen) Theoretische Grundlagen der Varianzanalyse: S. 111 (Einfaktorielle Varianzanalyse; Mehrfaktorielle Varianzanalyse; Varianzanalyse mit Messwiederholung; Einfaktorielle Kovarianzanalyse; Weitere Verfahren; Allgemeine Regeln) 3 Methodenlehre B2, B3 & B4 Multivariate Verfahren (B4): Partialkorrelation und Multiple Korrelation: S. 114 (Partialkorrelation; Berechnung der Partialkorrelation; Semipartialkorrelation; Berechnung der Semipartialkorrelation; Partialkorrelationen höherer Ordnung; Signifikanztests; Multiple Korrelation und Regression; Voraussetzungen und Signifikanztests; Schrumpfungskorrektur; Beta-Koeffizienten; Strukturkoeffizienten; Effektgröße; Lineare Strukturgleichungsmodelle; Zeit & Korrelation) Das Allgemeine Lineare Modell (ALM): S. 127 (Grundprinzip des Allgemeinen Linearen Modells; Dummycodierung; Effektcodierung; Kontrastcodierung; Zusammenfassung) Faktorenanalyse: S. 130 (Erste Schritte zur Faktorenanalyse; Grundprinzip der Faktorenanalyse; Zusammenfassung; Die „richtige“ Faktorenanalyse; Kennwerte der Faktorenanalyse: Eigenwert, Faktorladung & Kommunalität; Die Kenwerte Eigenwert, Faktorladung & Kommunalität am empirischen Beispiel; Kriterien für relevante Faktoren; Interpretation der Faktoren; Rotationsverfahren: Orthogonal vs. Oblique; Weiteres) Clusteranalyse: S. 141 (Grundprinzip der Clusteranalsyse; Grundprinzip hierarchischer clusteranalytischer Methoden; Fusionskriterien; Nichthierarchische clusteranalytische Verfahren; Die k-means-Methode; Probleme bei der Clusteranalyse; Zusammenfassung) Multivariate Mittelwertvergleiche: S. 146 (Mehrfach univariate Analysen vs. eine multivariate Analyse) Diskriminanzanalyse: S. 148 (Grundprinzip der Diskriminanzanalyse) Kanonische Korrelationsanalyse: S. 153 (Grundprinzip der kanonischen Korrelationsanalyse; Schlussbemerkung) © Manuel Ulrich Gegen eine Vervielfältigung dieses Skriptes für private Zwecke bestehen keine Einwände. Die kommerzielle Nutzung ist untersagt. 4 Methodenlehre B2, B3 & B4 Zusammenfassung der gebrauchten Abkürzungen: NV = STNV = SKV = H0 = H1 = KI = df = r = Abszisse = AV = UV = KV = QS = ANOVA = ANCOVA = MANOVA = FA = Vp(n) = VT = NT = QUEX = Reliabilität = Validität = Axiom = DK = EG = KG = SP = IA = Normalverteilung Standardnormalverteilung Stichprobenkennwerteverteilung Nullhypothese Alternativhypothese Konfidenzintervall Freiheitsgrade Korrelation x-Achse abhängige Variable unabhängige Variable Kontrollvariable Quadratsumme Varianzanalyse Kovarianzanalyse Multivariate Varianzanalyse Faktoranalyse Versuchsperson(en) Vortest Nachtest Quasi-Experiment Zuverlässigkeit der Daten Gültigkeit inhaltlic her Schlussfolgerungen nicht beweisbare Grundannahme Determinationskoeffizient (der %-Anteil der Varianz, der vorhergesagt wird) Experimentalgruppe Kontrollgruppe Stichprobe Interaktion 5 Methodenlehre B2, B3 & B4 Konzeption des Skriptes Das Skr ipt folgt beim Mathematikteil (B2, B3 & B4) den Kapiteln des Bortz (sofern nicht anders angegeben), ergänzend dazu habe ich die Folien von B2, B3 & B4 nachgearbeitet. Ein Eingang auf SPSS – Ausdrucke (wäre wohl eher B5) erfolgt im B4 Teil. Da ich im Mathematikteil auf den Bortz als Grundlage, sowie zur Absicherung auf die offiziellen Folien und ein Skript aus der Fachschaft zurückgreifen konnte, meine ich, dass ich alle relevanten Informationen (eher zuviel) für B2, B3 & B4 in diesen Skript stehen habe. Den Methodenlehreteil (B1) habe ich in einem gesonderten Skript stehen, da die Anforderungen & Themen pro Uni unterschiedlich sind. In der Psychologiefachschaft der Uni Bonn ist aber der B1-Teil zu finden (oder schreibt mir eine eMail mit der Bitte um Sendung des B1-Teils). Das Erstellen eines eigenen Lernskriptes – was den eigentlichen Lernerfolg bringt, da ihr die Sachen nicht nur verstehen, sondern auch erklären müsst – ersetzt das Lesen dieses Skriptes mit Sicherheit nicht. Benutzte Literatur für das Skript: Statistik (B2), Varianzanalyse (B3) & Multivariate Verfahren (B4): • Bortz (1999): Statistik für Sozialwissenschaftler (5. Auflage) [Unsere Bibel] • Die Folien der Lehrveranstaltungen B2 (WS 01/02), B3 (SS 01) & B4 (WS 01/02) • Das Statistik -Skript von Benjamin Zeller (B2 & B3) 6 Methodenlehre B2, B3 & B4 Griechisches Alphabet: Α Β Γ ∆ Ε Ζ Η Θ Ι Κ Λ Μ α β γ δ ε ζ η ϑ ι κ λ µ Ν Ξ Ο Π Ρ Σ Τ Υ Φ Χ Ψ Ω Alpha Beta Gamma Delta Epsilon Zeta Eta Theta Jota Kappa Lambda My ν ξ ο π ρ σ τ υ ϕ χ ψ ω Ny Xi Omikron Pi Rho Sigma Tau Ypsilon Phi Chi Psi Omega ACHTUNG! Bevor es losgeht: In diesem Skript stehen viele mit dem Formeleditor von Windows erstellte Formeln sowie einige Formeln aus dem B2 & B3-Skript. Es kann sein, dass die Formeln sich verändern, da der Formeleditor von Windows nicht bei allen PCs die Formeln genau gleich darstellt (dies kann beim „Anklicken“ der Formeln geschehen). Deswegen ist das Skript schreibgeschützt. Bitte also nur Änderungen speichern, wenn Ihr – zu eurem eigenen Interesse – eine anders benannte Sicherheitskopie erstellt habt. Wenn gar nichts klappt, kopiert Euch mein Skript ausgedruckt aus der Fachschaft. Zur Kontrolle: es folgen eine fehlerfreie Kovarianzformel und ein z-Test (für eine Population). n cov( x , y ) = ∑ (x i =1 i − x )( y i − y ) n z emp = 7 x −µ σx Methodenlehre B2, B3 & B4 Statistik Deskriptive Statistik: Deskriptive Statistik = beschreibende Statistik, d.h. sie dient zur Zusammenfassung und Darstellung von Daten (z.B. durch schöne Grafiken, Kennwerte wie Mittelwert, Streuung, etc.). Skalenniveaus: Terminologie: um Menschen empirisch untersuchen zu können, müssen wir ihnen Zahlen zuordnen können (nach bestimmten, vorgegebenen Regeln), so dass wir auf dieser Basis Berechnungen anstellen können: Die z.B. Größe von Herrn Schmitz (ein empirisches Relativ) lässt sich durch Zuordnung von Zahlen in einem numerischen Relativ (z.B. 1,85 m) ausdrücken. Wenn ein empirisches Relativ nur durch bestimmte Zahlen ausgedrückt werden kann und nicht auch durch andere, dann ist es eindeutig bzw., anders ausgedrückt: homomorph. D.h. auf das Beispiel bezogen: die Größe von Herrn Schmitz beträgt 1,85 m; oder mathematisch formuliert: Herr Schmitz = Größe in Metern (1,85) Die oben zu sehende Gleichung ist eine homomorphe Abbildungsfunktion zusammen mit einem empirischen und einem numerischen Relativ. Dies bezeichnet man auch als SKALA. Die Funktionswerte (nur der Teil der Gleichung rechts vom „=“) werden auch als Skalenwerte oder Messwerte bezeichnet. Messen ist also eine strukturerhaltende Zuordnung von Zahlen zu Objekten und Ereignissen. Diese Zuordnung kann Aussagen unterschiedlicher „Güte“ erlauben, wobei die jeweiligen Gütestufen als Skalenniveaus bezeichnet werden: Grundsätzlich wird unterschieden zwischen • Nominalskalen • Ordinalskalen • Intervallskalen • Ratio- oder Verhältnisskalen Eselsbrücke: Wenn Ihr bei der Reihenfolge schwarz (französisch: „noir“) seht. Die Skalenniveaus unterscheiden sich in ihrem Informationsgehalt. Dieser determiniert die erlaubten (mathematischen) Operationen und damit die statistischen Verfahren, die auf die jeweiligen Daten angewe ndet werden dürfen. 8 Methodenlehre B2, B3 & B4 Nominalskala: Objekte mit gleicher Merkmalsausprägung erhalten gleiche Zahlen, Objekte mit verschiedenen Merkmalsausprägung erhalten verschiedene Zahlen. Die einzelnen Ausprägungen des Merkmals und damit die Stufen der Skala sind ungeordnet (gleichberechtigt). Beispiele: Augenfarbe, Geschlecht (solange es ohne Wertung bleibt) Ordinalskala: Eine Ordinalskala ordnet Objekten Zahlen zu, die so geartet sind, dass von jeweils zwei Objekten das Objekt mit der größeren Merkmalsausprägung die größere Zahl erhält. Über das Ausmaß des Unterschiedes zwischen den einzelnen Ausprägungen ist nichts bekannt. Beispiele: Windstärken, Militärische Ränge, Ranglisten beim Sport Intervallskala: Wie bei der Ordinalskala, so sind auch bei der Intervallskala die Stufen geordnet. Zusätzlich sind hier die Abstände zwischen den einzelnen Stufen alle gleich groß. Hat z.B. ein Objekt den Skalenwert 1, so ist es von dem Objekt mit dem Skalenwert 2 genauso weit entfernt, wie dieses vo n einem Objekt mit dem Skalenwert 3. Der Nullpunkt einer Intervallskala ist relativ. Beispiele: Temperatur in Celsius oder Fahrenheit Eine Verhältnisskala ist eine Intervallskala mit absolutem Nullpunkt, der das „Nichtvorhandensein“ des Merkmals ausdrückt. Beispiele: Temperatur in Kelvin, Größe in m; Gewicht in kg, Zeit in sec. Null Kelvin (ca. -273 °C): das Fehlen jedweder atomarer Bewegung Verhältnisskala: Mögliche Aussagen: Mögliche Transformationen: Nominalskala: gleich / ungleich Ordinalskala: gleich / ungleich; größer/ kleiner Intervallskala: gleich / ungleich; größer/ kleiner; Abstandsvergleiche gleich / ungleich; größer/ kleiner; Abstands-; Verhältnisvergleiche Alle, die die Unterscheidung der Werte nicht verhindern. Alle, die die Ordnung der Werte nicht verändern. Multiplikation/ Division, Addition/ Sub traktion nur Multiplikation/ Division (Erhaltung des Nullpunktes) Mögliche zentrale Tendenzen: Mögliche Dispersionsmaße: Nominalskala: Modus --- Ordinalskala: Modus, Median Variationsbreite Intervallskala: Modus, Median, Arithmetisches Mit- Variationsbreite, AD-Streuung, Varitel anz Modus, Median, Arithmetisches Mit- Variationsbreite, AD-Streuung, Varitel anz Verhältnisskala: Verhältnisskala: 9 Methodenlehre B2, B3 & B4 Um noch vernünftige Berechnungen a nstellen zu können, geht man u.a. in der psychologischen Forschung meist von Intervallskalenniveau aus, auch wenn das streng mathematisch gesehen nicht vorhanden ist. [Die Kultusministerkonferenz definiert Schulnoten als intervallskaliert, um so einen Durchschnitt u.a. beim Abitur berechnen zu können, auch wenn z.B. zum Erreichen einer „Vier glatt“ 50 % oder zwei Drittel der Punkte zu erreichen sind.] Maße der zentralen Tendenz: Modus, Median & Arithmetisches Mittel: Durch welchen Wert wird eine Vielzahl von Werten am besten repräsentiert? Hierzu geben Maße der zentralen Tendenz Auskunft über die Lage bzw. Lokation einer Verte ilung in Termini der zugrund eliegenden Skala. Modalwert (Modus): Der Modus ist der Wert, der in einer Verteilung am häufigsten vorkommt. Es kann auch mehr als einen Modus geben (durch mehrere Maxima; Ausdruck bei Kurvendiskussion: Hochpunkte). Statistische Abkürzung: Mo Median: Der Median ist der Wert, der eine der Größe nach geordnete Merkmalsverteilung (also mind. Ordinalskalenniveau) in zwei gleichgroße Hälften teilt. Bei gerader Anzahl von Werten wird das arithmetische Mittel aus dem größten Wert der unteren Hälfte und dem kleinsten Wert der oberen Hälfte bestimmt. Bei ungerader Anzahl wird der Wert in der Mitte genommen. Statistische Abkürzung: Md Statistische Eigenschaften: • Die Summe der absoluten Abweichungen vom Median ist minimal. Arithmetisches Mittel Das arithmetische Mittel bzw. der Mittelwert ist die Summe aller Messwerte dividiert durch die Anzahl der Messwerte n: n ∑ xi x = i =1 . n Statistische Eigenschaften: • Die Summe der Abweichungen aller Messwerte vom Mittelwert ist Null. • Die Summe der quadrierten Abweichungen der Messwerte vom Mittelwert ist ein Minimum. Modus, Median und Arithmetisches Mittel sind im wissenschaftlichen, populärwissenschaftlichen und alltäglichen Gebrauch beliebte Werkzeuge zum Beweisen eigener Thesen: „Die meisten Abiturienten wählen Jura.“ (auch wenn es nur 8,6 % sind) [Zahl fiktiv!] „Die besten 50% haben einen Schnitt von 3,4 oder besser. “ (Aha! Und wie verteilt sich das?) „Im Gegensatz zu den 50er können die Hauptschüler heute im Durchschnitt nicht sauber schreiben.“ (In den 50ern gingen auch fast 90% aller Schüler auf die Hauptschule; heute 30%.) 10 Methodenlehre B2, B3 & B4 Weitere Maße der zentralen Tendenz: Geometrisches Mittel, Harmonisches Mittel, Gewichtetes Mittel (siehe Bortz S. 40) Dispersionsmaße: u.a. Perzentile, Quadratsummen & Varianzen: Zwei Verteilungen mit ähnlichen oder sogar gleichen Maßen der zentralen Tendenz können trotzdem sehr unterschiedlich sein, und zwar aufgrund ungleicher Streuungen (Dispersionen) ihrer einzelnen Werte. Dispersionsmaße geben also Auskunft über die Stre uung bzw. Variabilität der Werte. „Für die empirische Forschung sind Dispersionswerte den Maßen der zentralen Tendenz zumindest ebenbürtig.“ (Bortz) Perzentile und Variationsbreite: Das Perzentil PX% ist der Punkt auf einer Skala, unterhalb dessen X% der aufsteigend angeordneten Messwerte einer Stichprobe liegen. Der Median ist das 50. Perzentil einer Verteilung. Die Variationsbreite (engl. Range) ist die Differenz zwischen dem größten (Maximum) und dem kleinsten Wert (Minimum). Wenn dieser Wert stark von Extremwerten abhängt, betrachtet man nur einen „eingeschränkten“ Streubereich, z.B. nur die mittleren 90% aller Werte (also den Bereich zwischen dem 5. und 95. Perzentil.). [Bei einer Standardnormalverteilung liegen die Werte zwischen − ∞ und + ∞ , betrachtet man aber „nur“ 99, 74% aller Werte, liegen die Werte zwischen –3,00 und +3,00!] Die Quadratsumme (QS) ist die Summe der quadrierten Abweichungen aller Messwerte vom Mittelwert. Die Varianz ist die Summe der quadrierten Abweichungen aller Messwerte vom Mittelwert, dividiert durch die Anzahl der Messwerte n: n s2 = ∑ ( xi − x )2 i =1 . n Die Standardabweichung oder Streuung ist die Wurzel aus der Varianz: n s = s2 = 11 ∑ ( xi − x ) i =1 n 2 . Methodenlehre B2, B3 & B4 z-Werte: In der psychologischen Diagnostik ergibt sich oftmals die Aufgabe, Testwerte zweier Personen aus verschiedenen Kollektiven (oder Gruppen, e tc.) zu vergleichen. Deswegen werden die individuellen Leistungen an der Gesamtleistung des (eigenen) Kollektivs relativiert, d.h. standardisiert. Dies geschieht über eine z-Transformation: Die z-Transformation ermöglicht den relativen Vergleich von Variab lenausprägungen, da sie Mittelwerts- und Streuungsunterschiede „wegrelativiert“: zi = xi − x . sx Die z-Transformation überführt jede Verteilung in eine Verteilung mit Mittelwert 0 und Streuung bzw. Varianz 1. Merkmalszusammenhänge & -vorhersagen: Ich ziehe hier die Bereiche „Kovarianz und Korrelation“, „Korrelation und Kausalität“, „Lineare Regression“ , „Beobachtete, vorhergesagte und Residualwerte“ und „Determinationskoeffizient“ aus Kapitel 6 im Bortz vor, da mir eine Thematisierung in Kapitel 6 als zu spät erscheint. Kovarianz und Korrelation: Mit der Kovarianz lässt sich bestimmen, wie sich die relativen Positionen von gepaarten Messwerten aus zwei Variablen zueinander verhalten: n ∑ ( xi − x )( yi − y ) cov ( x,y) = i =1 . n Die Kovarianz kann nur hinsichtlich ihres Vorzeichens, nicht aber hinsichtlich ihrer Größe interpretiert werden. [Da man auch mit Inches statt cm oder m statt cm arbeiten kann, kann die Größe der Kovarianz stark schwanken.] [Die Kovarianz ist bei Monte-Carlo-Studien sehr robust.] • • Ein positives Vorzeichen der Kovarianz zeigt an, dass sowohl überdurchschnittliche Werte von X stärker mit überdurchschnittlichen Werten von Y gepaart sind als auch, dass unterdurchschnittliche Werte von X stärker mit unterdurchschnittlichen Werten von Y zusammen auftreten. Ein negatives Vorzeichen zeigt entsprechend an, dass überdurchschnittliche Werte von X stärker mit unterdurchschnittlichen Werten von Y gepaart sind und umgekehrt. 12 Methodenlehre • • B2, B3 & B4 Keine Kovarianz entsteht dann, wenn sich die Werte von X und Y ausgleichen. Dies macht eine Interpretation unmöglich. Nur zur Erinnerung: selbst der kleinste positive lineare Zusammenhang ergibt eine positive Kovarianz! Damit man das auch erkennen kann, nutzt man Korrelationen. Man standardisiert eine Kovarianz und erhält eine Korrelation: Die Kovarianz kann maximal den Wert sx·sy annehmen. Dies ist damit ein sehr schöner Term zur Relativierung bzw. Standardisierung von Kovar ianzen. (Man macht so was wie eine z-Transformation, nur für beide Variablen (X, Y) gleichzeitig.) Diese Standardisierung nennt man Produkt-Moment-Korrelation r(x,y) . r( x , y ) = cov( x , y ) . sx ⋅ s y Die Korrelation rx,y kann Werte zwischen –1 und +1 annehmen, wobei • –1 einen perfekt negativen linearen Zusamme nhang anzeigt, • +1 einen perfekt positiven linearen Zusammenhang anzeigt und • 0 keinen linearen Zusammenhang anzeigt. Perfekter linearer Zusammenhang: Die Werte der einen Variablen lassen sich durch eine Lineartransformation in die der anderen überführen: yi = a·+ b·xi (Und schon schließt sich der Kreis zu Linearer Regression.) [Die Abkürzung „r“ bei der Korrelation ist auf das Wort „Regression“ zurückzuführen, da Korrelations- wie Regressionsrechnung eng miteinander verknüpft sind.] Korrelation und Kausalität: Die Kovariation zweier Variablen kann auf eine kausale Beziehung der beiden Variablen oder auf die Beeinflussung durch eine oder mehrere Drittvariablen zurückgehen. Auf Basis einer Korrelation kann nicht auf die Art der Verursachung geschlossen werden. (Z.B. korrelieren bei Kindern Intelligenz und Sc huhgröße.) Kausalität lässt sich nur widerlegen, nicht beweisen. Lineare Regression: Hängen zwei Variablen (wie z.B. Körperlänge und Gewicht) zusammen, so ist es möglich, eine Variable jeweils auf Basis der anderen vorherzusagen. Die Vorhersagevariable wird als unabhängige Variable oder Prädiktorvariable (X) bezeichnet, die Variable, die vorhergesagt werden soll, als abhängige Variable oder Kriteriumsvariable (Y): 13 Methodenlehre B2, B3 & B4 (Prädiktorvariablen sind im allgemeinen einfacher und billiger zu messen; z.B. IQ-Tests) Im Rahmen der bivariaten Regression wird die Vorhersage über folgende lineare Beziehung vorgenommen: yˆi = a + b ⋅ xi , wobei ŷi = vorhergesagter Wert, a = Schnittpunkt der Geraden mit der y-Achse (Ordinatenabschnitt, Interzept) und b = Steigung der Geraden. Ziel ist die Bestimmung einer Geraden, die den Gesamttrend aller Punkte am besten wiedergibt. 200 190 Länge Y 180 170 160 150 40 50 60 70 80 90 100 Gewicht X Gleichungen: b yx = cov ( x , y ) ayx = y − byx ⋅ x ; s x2 (Grafiken im Bortz S. 181) Bei der linearen Regression wird die Gleichung gesucht, für die die Summe der quadrierten Abweichungen zwischen vorhergesagten und tatsächlichen Werten minimal ist (= Kriterium n der kleinsten Quadrate). ∑ (y i =1 i − yˆ i ) 2 = min . , wobei ŷi = Wert auf der Graden Beobachtete, vorhergesagte und Residualwerte: Die Abweichungen der beobachteten Werte von den vorhergesagten Werten heißen Regressionsresiduen: yi∗ = yi − yˆi . 14 Methodenlehre B2, B3 & B4 Die Residuen enthalten die Anteile der Kriteriumsvariablen (Y), die durch die Prädiktorvariable nicht erfasst werden: • Die Mittelwerte der Kriteriumsvariablen und der vorhergesagten Werte sind gleich. • Der Mittelwert der Residuen ist 0. Diese Anteile der Kriteriumsvariablen sind auf Messfehler, vor allem aber auch durch Bestandteile des Kriteriums, die durch andere, mit der Prädiktorvariablen nicht zusammenhängende Merkmale, erklärt werden können (z.B. Störvariablen). Zerlegung der Kriteriumsvarianz: Die Varianz der y-Werte setzt sich additiv aus der Varianz der vorhergesagten ŷ -Werte und der * Varianz der Residuen y zusammen: s 2y = s 2yˆ + s 2y* . Determinationskoeffizient: = Varianzanteil der abhängigen Variablen, der mit der unabhängigen vorhergesagt bzw. erklärt werden kann: r(2y , yˆ ) s 2yˆ . = 2 sy Dabei kann man die „Power“ einer Regressionsgeraden erfassen, d.h. wie viel Prozent sagt sie vorher und wie viel bleibt im Dunkeln. Korrelationen: • Die Korrelation zwischen Kriterium und Vorhersage ist gleich der Korrelation zwischen Kriterium und Prädiktor: r( y , yˆ ) = r( y , x ) . • Die Korrelation zwischen Prädiktor (X) und Residuen (von Y) ist 0: (muss ja, die Residuen sind ja der Teil, den der Prädiktor X nicht aufklärt) r(x,y*) = 0. • Für die Korrelation zwischen Kriterium und Residuen gilt: r(2y , y*) = 1 − r(2x , y) . 15 Methodenlehre B2, B3 & B4 Wahrscheinlichkeitstheorie und -verteilungen: Eine der wichtigsten Eigenschaften des Menschen ist es, Redundanzen (unnötige Ausführlichkeit einer Information) zu erkennen und zu erlernen. Dies verhindert, dass der Mensch in dem Chaos von Zufälligkeiten und in der Fülle von Informationen zugrunde geht. Der Mensch schafft sich ein Ordnungssystem (z.B. Zahlen, Buchstaben, Gesetze), an dem er sein Verhalten orientiert – in (teils blindem) Vertrauen darauf, dass das System auch funktioniert. Jedoch gibt es in der Welt keine absoluten Wahrheiten und Wahrscheinlichkeiten. Wir regulieren unser Verhalten nach einem System unterschiedlich wahrscheinlicher Hypothesen, die teils völlig blöde sind (Geld in Glücksspiele investieren), teils sehr vernünftig sind (wir steigen in ein Flugzeug, weil es sehr unwahrscheinlich ist, dass es abstürzt.). Der Mensch schafft sich Grundsätze (in der Mathematik: Axiome), die er beweislos voraussetzt. Aus mehreren Axiomen (einem Axiomssystem) können Lehrsätze nach den Regeln der Logik hergeleitet werden. Wichtig dabei: 1.) Widerspruchsfreiheit 2.) Unabhängigkeit: kein Axiom lässt sich aus einem anderen herleiten. 3.) Vollständigkeit: alle Axiome reichen aus, um alle inhaltlich richtigen Sätze zu beweisen. Zufallsexperimente: Für die Definition objektiver Wahrscheinlichkeiten (das will ja der Methodiker) ist der Begriff des „Zufallsexperimentes“ zentral: Ein Zufallsexperiment ist ein beliebig oft wiederholbarer wohldefinierter Vorgang, dessen Ausgang nicht vorhersagbar ist. Ein Ausgang wird als Ergebnis oder Elementarereignis ω, die Menge aller Elementarereignisse wird als Ergebnisraum Ω = {ω1, ω2 , ..., ωn} bezeichnet. Bei der theoretischen (kombinatorischen) Bestimmung einer Wahrscheinlichkeit geht man oft von der Gleichwahrscheinlichkeit aller Ergebnisse aus: p ( A) = Anzahl günstiger Ergebnisse . Anzahl möglicher Ergebnisse Günstige Ergebnisse sind solche, bei denen sich A ereignet, mögliche Ergebnisse sind alle Ergebnisse des endlichen Ergebnisraumes (A kann durchaus mehr als ein einziges ωi umfassen). Ein Beispiel: Ich werfe einen perfekten sechsseitigen Würfel: Die Chance, das ich eine „sechs“ erhalte, beträgt also ein Sechstel, oder, mathematisch formuliert: 1 p (Wurf ) = 6 16 Methodenlehre B2, B3 & B4 Grundbegriffe der Wahrscheinlichkeitsrechnung: disjunkt = unvereinbar; die Ereignisse haben keine gemeinsame Menge, keinen Durchschnitt p = Possibility (Wahrscheinlichkeit) p ( A) = Wahrscheinlichkeit von A p (A ) = Wahrscheinlichkeit des Fehlens von A p ( A ∩ B ) = die Wahrscheinlichkeit von A und B (gleichzeitig) p ( A ∪ B) = die Wahrscheinlichkeit von A und/oder B (also entweder A oder B oder A&B gleichzeitig!) • • Das Ereignis, dass sich A und B ereignen, wird als Durchschnitt bezeichnet. Symbol: ∩ (= logisches Produkt) Das Ereignis, dass sich A und/oder B ereignen, wird als Vereinigung bezeichnet. Bei unvorhersehbaren Wahrscheinlichkeiten muss man über viele Versuche die Wahrscheinlichkeiten schätzen (z.B. Reiszwecken werfen: zu wie viel Prozent landet es mit der Spitze nach oben, zu wie viel mit der Spitze schräg nach unten?) (je größer n, desto genauer): Ein statistischer Schätzer der Wahrscheinlichkeit eines Ereignisses A ist die relative Häufigkeit eben dieses Ereignisses: h( A) = f ( A) . n Axiome der Wahrscheinlichkeitstheorie: 1.) Für die Wahrscheinlichkeit eines zufälligen Ereignisses A gilt p( A) ≥ 0 (Nicht- Negativität). 2.) Die Wahrscheinlichkeit eines sicheren Ereignisses ist gleich 1 (Normierung). 3.) Die Wahrscheinlichkeit, dass eines der disjunkten Ereignisse A1 oder A2 oder ... Ak auftritt, ist gleich der Summe der Einzelwahrscheinlichkeiten p (A1 ), p(A2 ), ... p(Ak ). Additionstheorem für vereinbare bzw. nicht disjunkte Ereignisse: • p(A∪B) = p(A) + p(B) − p(A∩B). Bei disjunkten bzw. nicht vereinbaren Ereignissen: • p(A∪B) = p(A) + p(B). 17 Methodenlehre B2, B3 & B4 Die bedingte Wahrscheinlichkeit p(A|B) ist die Wahrscheinlichkeit von A, sofern B bereits eingetreten ist: p ( A ∩ B) . p( A | B ) = p ( B) Multiplikationstheorem für abhängige Ereignisse: p ( A ∩ B) = p( A) ⋅ p(B A) oder p ( A ∩ B ) = p(B ) ⋅ p( A B ) Multiplikationstheorem für unabhängige Ereignisse: p( A ∩ B ) = p ( A) ⋅ p(B ) Zwei Ereignisse A und B sind stochastisch unabhängig, wenn A unabhängig von B eintreten kann, d.h. das Eintreten von B ändert nichts an der Eintretenswahrscheinlichkeit von A, und umgekehrt. Das Theorem von Bayes: Das Theorem von Bayes verknüpft die bedingten Wahrscheinlichkeiten p (A B ) und p(B A) unter Verwendung des Satzes der totalen Wahrscheinlichkeit (Bo rtz S. 57). Eine der beiden bedingten Wahrscheinlichkeiten kann damit von der anderen aus erschlossen werden. In der statistischen Entscheidungstheorie hat somit das Theorem von Bayes eine besondere Bedeutung; statistischen Entscheidungen werden immer aufgrund bedingter Wahrscheinlichkeiten getroffen. [Die Wahrscheinlichkeit für das Auftreten bestimmter Daten (D) unter der Bedingung, dass eine bestimmte Hypothese (H) richtig ist: p (D H ) ] Variationen, Permutationen, Kombinationen: Insbesondere durch Glücksspiele wurde eine Reihe von Rechenregeln erarbeitet, mit denen die Wahrscheinlichkeit bestimmter Ereigniskombinationen von gleichwahrscheinlichen Elementarereignissen ermittelt wird. 1. Variationsregel: Wenn jedes von k sich gegenseitig ausschließenden Ereignissen bei jedem Versuch auftreten kann, ergeben sich bei n Versuchen k n verschiedene Ereignisabfolgen. Beispiel: die Chance, fünf mal hintereinander beim Münzwurf „Zahl“ zu erhalten (2 mögliche Ereignisse), beträgt k n = 25 = 32 verschiede Ereignisabfolgen. Da es sich um ein günstiges Ereignis handelt, beträgt die Wahrscheinlichkeit p = 1/32 = 0,031 2. Variationsregel: Werden n voneinander unabhängige Zufallsexperimente durchgeführt und besteht die Ereignismenge des 1. Zufallsexperime nts aus k 1 , die Ereignismenge des 2. Zufallsex- 18 Methodenlehre B2, B3 & B4 periments aus k 2 , .... und die Ereignismenge des n-ten Zufallsexperiments aus k n verschiedenen Elementarereignissen, sind k 1 x k 2 x ..... x k n Ereignisabfolgen möglich (x bedeutet „mal“). Beispiel: Ein Münzwurf und ein Würfelwurf, man möchte Zahl und eine 6 erhalten. Es ergeben sich 2 x 6 = 12 Ereignismöglichkeiten. Die Wahrscheinlichkeit beträgt also p = 1/12 = 0.08. Permutationsregel: n verschiedene Objekte können in n! = 1 x 2 x 3 x ..... x (n-1) x n verschiedenen Abfolgen angeordnet werden. (n! bedeutet n Fakultät) Beispiel: In einer Urne befinden sich 6 unterschiedlich schwere Kugeln. Wie groß ist die Chance, die Kugeln in der Reihenfolge ihres Gewichtes herauszunehmen? (Es ist also ein unterschiedliches Ereignis ohne Zurücklegen; ergo ein abhängiges Ereignis) 6 x 5 x 4 x 3 x 2 x 1 = 720 mögliche Abfolgen. Nur eine ist richtig, also p = 1/720 = 0,0014 1. Kombinationsregel: Wählt man aus n verschiedenen Objekten r zufällig aus, ergeben sich n!/ (n- r) verschiedene Reihenfolgen der r Objekte. Beispiel: Ich will aus einem Kartenspiel (32 Karten) in vier Zügen die Asse herausziehen. Die Reihenfolge der Asse ist festgelegt: 32! = 32 x 31 x 30 x 29 = 863040 (32 − 4)! Die Wahrscheinlichkeit beträgt also 1/ 863040 = 1,16 x 10-6 Möglichkeiten 2. Kombinationsregel: Wählt man aus n verschiedenen Objekten r zufällig aus und lässt hierbei n die Reihenfolge außer acht, ergeben sich für die r Objekte verschiedene Kombinationen. r Beispiel: Wie groß ist die Wahrscheinlichkeit, 6 Richtige aus 49 zu haben? (Reihenfolge ist im Gegensatz zur 1. Kombinationsregel ja egal) Da wir noch alle wissen, dass n! 49! 49 ⋅ 48 ⋅ 47 ⋅ 46 ⋅ 45 ⋅ 44 n 49 ist also eingesetzt: = = = = 6 ⋅ 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅1 r r! (n − r )! 6 6!( 49 − 6)! = 13.983.816 (Noch genauere Rechenschritte: Bortz S. 61) Die Wahrscheinlichkeit, sechs Richtige im Lotto zu haben beträgt also 1/ 13.983.816 = = 7,15 x 10-8 Möglichkeiten. (Und die Lottobranche boomt. Sollten wir Psychologen da nicht mal eingreifen?) 3. Kombinationsregel: Sollen n Objekte in k Gruppen der Größen n1 , n2 , ...., nk eingeteilt werden (wobei n1 + n2 + ... + nk = n), ergeben sich n!/ (n1 ! ....... nk !) Möglichkeiten. Beispiel: In einer Urne sind 4 rote, 3 blaue und 3 grüne Kugeln. Wie groß ist die Wahrscheinlichkeit, erst die 4 roten Kugeln zusammen, denn die 3 blauen und zuletzt die 3 grünen Kugeln zu entnehmen? 10! = 4200 4!⋅3!⋅3! Die Wahrscheinlichkeit, erst die 4 roten Kugeln zusammen, denn die 3 blauen und zuletzt die 3 grünen Kugeln zu entnehmen, beträgt also 1/ 4200 = 2,38 x 10 -4 Möglichkeiten. 19 Methodenlehre B2, B3 & B4 Verteilungsfunktionen: Wenn man Experimente durchführt, erhält man jede Menge Daten (z.B. Studiengang von allen Studenten der Uni Bonn). Diesen Daten kann man bestimmte Kennungen (z.B. 1, 2, 3, etc.) hinzufügen, und so erhält man eine Tabelle. Das ist eine diskrete Wahrscheinlichkeitsfunktion.* Diskrete Wahrscheinlichkeitsfunktionen bestehen aus einer endlichen Anzahl von Ereignissen. Auftretens wahrscheinlichkeiten einzelner Ereignisse lassen sich damit bestimmen. Beispiele: Würfelergebnisse, Noten (manche haben gleiche Ergebnisse) Man kann aber Daten auf bestimmte Kennungen zufügen, d.h. z.B. ich ordne alle Studenten der Uni Bonn der Größe nach. So erhält man eine Kurve . Das ist eine stetige Wahrscheinlichkeitsfunktion.* Stetige Wahrscheinlichkeitsfunktionen bestehen aus einer unendlichen Anzahl von Ereignissen. Auftretenswahrscheinlichkeiten einzelner Ereignisse lassen sich damit nicht bestimmen. Beispiele: Körpergröße, Geschwindigkeit (Niemand ist gleich groß, wenn man es genau nimmt.) * Diese Beispiele sind von mir sind konstruiert. Ich kann z.B. den Zahlen 1 bis X die Studiengänge der Studenten der Uni Bonn zuordnen, bin deswegen aber nicht bei einer stetigen Wahrscheinlichkeitsfunktion. Der eigentliche Unterschied zwischen STETIG und DISKRET ist in dem fett Geschrieben festgehalten. (Bei Stetigkeit Kurven und bei Diskretheit Tabellen zu benutzten stimmt aber.) Diskrete Verteilungen: 0,6 0,5 0,4 0,3 0,2 0,1 0 0 x Kopf 1 x Kopf 20 2 x Kopf Methodenlehre B2, B3 & B4 x und s 2 einer empirischen Verteilung / Stichprobe werden durch µ (Erwartungswert) und σ2 bei einer theoretischen Verteilung einer Zufallsvariabeln / Population ersetzt, bei diskreter Verteilung N N ergibt sich µ = ∑ xi ⋅ pi i =1 und σ = ∑ pi ⋅ ( xi − µ ) 2 i =1 2 . Binomialverteilung: Ein Experiment, welches in der n- fachen Wiederholung von unabhängigen Einzelexperimenten mit nur zwei möglichen Ausgängen besteht, heißt Bernoulli-Experiment. Wenn ein Ereignis X in einem Einzelexperiment mit einer Wahrscheinlichkeit p auftritt, dann kann die Wahrscheinlichkeit P, dass X in n Wiederholungen k-mal auftritt, allgemein bestimmt werden: n . P( X = k ) = ⋅ p k ⋅ (1 − p )n −k k [ 1-p = q ] Diese Wahrscheinlichkeitsfunktion heißt Binomialverteilung und gibt an, wie wahrscheinlich das Eintreten eines Ereignisses X = k ist. Beispiel: Ich möchte wissen, wie groß die Chance ist in 10 Münzwürfen genau 7x „Zahl“ zu erhalten. Die Wahrscheinlichkeit einer Zahl beträgt 50%, mathematisch formuliert: p = 0,5 =½ Wenn ich jetzt einsetzte: [n = 10, da 10 Würfe; k = 7, da 7x „Zahl“ gewünscht] 10 1 1 10 ⋅ 9 ⋅ 8 ⋅ 7 ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 1 p ( X = 7) = ⋅ ⋅ = ⋅ = 0,117 7 ⋅ 6 ⋅ 5⋅ 4⋅ 3 ⋅ 2 ⋅1 2 7 2 2 Die Wahrscheinlichkeit, mit 10 Münzen genau 7 mal Zahl zu treffen, beträgt 11,7%. 7 3 10 Die Verteilungsfunktion hingegen gibt an, mit welcher Wahrscheinlichkeit ein Ereignis höchstens k-mal auftritt: k n . P ( X ≤ k ) = ∑ ⋅ p j ⋅ (1 − p )n− j j= 0 j Die Verteilungsfunktion ist die kumulierte Wahrscheinlichkeitsfunktion. Andere diskrete Verteilungen: • Hypergeometrische Verteilung: wird benutzt bei schwankenden Wahrscheinlichkeiten (z.B. durch Ziehen ohne Zurücklegen) • Poisson-Verteilung: Verteilung seltener Ereignisse; wird benutzt bei großem n & kleinem k. • Multinominale Verteilung: auch Polynominalverteilung genannt; ermöglicht mehrere unte rschiedlich große kx . • Negative Binomialverteilung: ermittelt die Wahrscheinlichkeit, dass ein Ereignis nach x Versuchen erst dann eintritt, wird häufig benutzt zur Analyse von Wartezeiten. 21 Methodenlehre B2, B3 & B4 Stetige Verteilungen 1: Normalverteilung & Standardnormalverteilung: Für alle stetigen Verteilungen geltend: • Die Gesamtfläche unter der Kurve ist auf 1 normiert, was bedeutet, dass mit einer Wahrscheinlichkeit 1 irgendein Ergebnis eintritt. Die Fläche über einem Intervall von zwei Werten gibt an, mit welcher Wahrscheinlichkeit Werte innerhalb dieses Intervalls eintreten. Normalverteilung(NV): Die Normalverteilung ist die für die Statistik wichtigste Verteilung ; aus ihr werden weitere stetige Verteilungen wie u.a. die χ 2 -Verteilung, die t-Verteilung sowie die F-Verteilung abgele itet; diskrete Verteilungen wie die Binomial- und Poisson-Verteilung konvergieren gegen sie. Die Zusammenhänge zwischen χ 2 -Verteilung, t-Verteilung sowie F-Verteilung folgen. Alle Normalverteilungen haben typische Eigenschaften: • Die Verteilung hat einen glockenförmigen Verlauf. • Die Verteilung ist symmetrisch. • Modus, Median und Mittelwert fallen zusammen. • Es gibt nur einen Modus (wie auch bei Chi2-Verteilung, t-Verteilung sowie F-Verteilung.) • Die Verteilung nähert sich asymptotisch der x-Achse (geht also von − ∞ bis + ∞ ). • Zwischen den zu den Wendepunkten gehörenden x-Werten befinden sich ungefähr 2/3 der Gesamtfläche. • Zwischen den Werten x + s (= Streuung) und x - s liegen 68,26% aller Werte, im Bereich x +- 2s liegen 95,44%. • Binomfinalverteilung ist für n => ∞ gleich der Normalverteilung (S. 78 Bortz) Fesche Bilder von Normalverteilungen im Bortz auf S. 74. Normalverteilungen unterscheiden sich durch a.) unterschiedliche Erwartungswerte ( µ ) [also Mittelwerte] und b.) unterschiedliche Streuungen ( σ ). Zwei Normalverteilungen mit gleichem σ und µ sind identisch. Die Normalverteilung wird somit durch die beiden Parameter σ und µ festgelegt. Ihre Dichtefunktion lautet: f ( x) = 1 −( x − µ ) 2 ⋅ e 2π ⋅ σ 2 2σ 2 . Damit klar ist, was diese Funktion da oben soll: Mithilfe von Funktionen kann man durch Einsetzten des x-Wertes den y-Wert bestimmen und erhält somit eine wunderschöne Kurve, wie z.B. bei der Parabel: f(x) = x2 Diese Funktion da oben gibt dann den y-Wert an, der aber gleichzeitig die Wahrscheinlichkeit des Eintretens dieses (eingesetzten) x-Wertes (in einem Intervall ∆ X ) angibt. (in der Tabelle als „Ordinate“ bezeichnet.) Über ein Integral dieser Dichtefunktion kann die Fläche berechnet werden (das ist ja der Sinn von Integralen). Alles klar? 22 Methodenlehre B2, B3 & B4 Grundprinzip mathematisch ausgedrückt: Die Wahrscheinlichkeitsfunktion einer stetigen Verteilung wird als Wahrscheinlichkeitsdichte oder Dichtefunktion bezeichnet. Erst über Integrale dieser Dichtefunktion können Werteinterva llen Wahrscheinlic hkeiten zugeordnet werden. Standardnormalverteilung (STNV): Die Standardnormalverteilung (STNV) ist eine ganz normale Normalverteilung; wird aber als Grundlage aller Vergleiche zwischen Normalverteilungen genutzt, da sie einen Mittelwert µ = 0 und eine Streuung σ = 1 [Abk.: N(0, 1)] hat. Durch eine z-Transformation kann jede Normalverteilung in die Standardnormalverteilung übe rführt werden; somit sind Vergleiche zwischen allen Normalverteilungen möglich!! Ihre Dichtefunktion lautet: 2 f ( z ) = 1 ⋅ e− z 2π 2. [Man hat hier x durch z ersetzt, um zum Ausdruck zu bringen, das diese Funktion nur zu Standardnormalverteilung gehört.] Diese Dichte (siehe „Ordinate“) und deren Verteilungsfunktion (siehe „Fläche“) ist im Bortz in Tabelle B (S. 768-772) wiedergegeben. [Einen z-Wert in der Tabelle nachzusehen setzte ich als bekannt voraus.] Das hier ist übrigens die Integralformel, die benötigt wird, um die zu den z-Werten zugehörigen Flächenanteile [von − ∞ bis a ] bei der Standardnormalverteilung (STNV) auszurechen: a p (z < a) = ∫ -∞ 1 2π ⋅e − z2 / 2 dz Schön, nicht? Die anderen Formeln sind noch komplizierter (das ist aber, ebenso wie diese Formel, nicht relevant für die Prüfung – nur zu Anschauung gedacht :-). Die Bedeutsamkeit der Normalverteilung (NV) lässt sich auf 4 Aspekte zurückführen: • die NV als empirische Verteilung: eine Reihe von Messungen verteilt sich meistens annährend normal, z.B. Körpergröße, -gewicht, Testleistungen. (Im 19. Jahrhundert entdeckt, heute relativiert.) • die NV als Verteilungsmodell für statistische Kennwerte: wenn man genug Stichproben zieht verteilen sich die Mittelwerte der Stichproben normal (Inferenzstatistik!). • die NV als mathematische Basisverteilung: Verknüpfungen u.a. zu χ 2 -, t- sowie FVerteilung. 23 Methodenlehre B2, B3 & B4 • die NV in der statistischen Fehlertheorie: kaum eine Messungen ist absolut fehlerfrei. Misst man andauernd, erhält man irgendwann normalverteilte Werte. Der Mittelwert ist das wahrscheinlichste richtige Ergebnis (Strategie der alten Römer u.a. beim Aquäduktbau.). Stetige Verteilungen 2: Chi2 -Verteilung, t-Verteilung sowie F-Verteilung: χ 2 -Verteilung: Gegeben sei eine normalverteilte Zufallsvariable z mit µ = 0 und σ = 1, also eine STNV. Das Quadrat dieser Zufallsvariablen bezeichnen wir als χ 12 -verteilte Zufallsvariable. χ 12 = z2 (Die untere Zahl am Chi2 kennzeichnet die Annzahl der normalverteilten Zufallsvariablen z.) Wenn wir jetzt (theoretisch unendlich) viele χ12 -Werte aus zufällig gezogenen z-Werten nach der oben stehenden Formel ermitteln, erhalten wir eine stetige χ 12 -Verteilung. (Dichtefunktion steht nicht im Bortz) [Ein Bild verschiedener χ 2 -Verteilungen im Bortz auf S. 80.] χ 2n = z12 + z 22 + ... + zn2 . χ 2 -Verteilungen haben: • in Abhängigkeit von der Anzahl der z2 - Variabeln unterschiedliche Freiheitsgrade bzw. df (degrees of freedom)= n • eine Variationsbreite von 0 bis +∞ • bei df = n einen Erwartungswert von µ = n, eine Streuung von 2n und eine Schiefe (ob es linkssteil oder rechtssteil ist.) von 8/n . Mit größer werdendem n nährt sich die χ 2 -Verteilung einer NV mit µ = n und σ = 2n an. t-Verteilung: Aus einer STNV wird ein z-Wert und aus einer hiervon unabhängigen χ2 –Verteilung ein χ n2 Wert gezogen. Der folgende Quotient definiert einen tn -Wert: tn = z χ n2 / n Ein Bild einer t-Verteilung im Bortz auf S. 81. t-Verteilungen: • unterscheiden sich durch Anzahl der Freiheitsgrade (= Freiheitsgrade der χ2 -Verteilung; die steckt ja in den Werten drinnen – siehe Formel). • nähert sich mit wachsenden Freiheitsgraden (n) der Normalverteilung an. 24 Methodenlehre B2, B3 & B4 • haben einen Erwartungswert µ = 0 • sind symmetrisch • gehen bei df → ∞ in eine NV über (Grenzpunkt Definitionssache) F-Verteilung: Gegeben sei eine χ 2 -Verteilung mit df1 = n1 und eine weitere, unabhängige χ2 -Verteilung mit df2 = n2 . Der Quotient von 2 zufällig aus diesen beiden Verteilungen entnommenen χ 2 -(Einzel-) Werten, multipliziert mit dem Kehrwert des Quotienten ihrer Freiheitsgerade (d.h. die df sind Zähler/Nenner- mäßig vertauscht), wird als F-Wert bezeichnet: F(n1 ,n2 ) = χ n21 χ 2 n2 * n2 n1 F-Verteilungen: • sind asymmetrische, stetige Verteilungen mit einer Variationsbreite von 0 bis +∞. • unterscheiden sich durch Zähler- (n1 ) und Nenner- (n2) Freiheitsgrade Ein Bild von F-Verteilungen ist im Bortz auf S.82. Noch ein paar Zusammenhänge: • Ein F-Wert in der Tabelle bei df1 = 1 und df2 = ∞ entspricht einem z-Wert der STNV bei halbiertem Alphaniveau (da die STNV zweiseitig ist muss man beide Grenzwerte • aufaddieren.). Eine quadrierte t-Verteilung mit df = n ist mit der F-Verteilung für einen Zähler- und n Nennerfreiheitsgerade identisch. Als Formel: χ 12 n t = 2 ⋅ = F(1, n ) χ2 1 2 n • Zwischen einer χ 2 –Verteilung und einer F-Verteilung besteht der folgende Zusammenhang: F(n ,∞ ) = χ n2 / n 25 Methodenlehre B2, B3 & B4 Zusammenhänge von NV, STNV, Chi2 -, t- und F-Verteilung: Normal −∞ < x < ∞ µ, σ X−µ s X1 + ... + Xn σ⋅X + µ Standardnormal (z) −∞ < x < ∞ X12 +K + X 2df df → ∞ z ? 2 df df t −∞ < x < ∞ df χ2 x>0 df X2 X 2df1 df 1 X 2df2 df 2 F x>0 df1 , df2 26 X1 + ... + Xn Methodenlehre B2, B3 & B4 Stichprobe und Grundgesamtheit: Die meisten Untersuchengen in u.a. der Psychologie sind dahin ausgerichtet, aufgrund einer kle inen (in einem Experiment) untersuchten Stichprobe Schlüsse auf die Allgemeinheit zu ziehen. Der sich hiermit befassende Teilbereich der Statistik wird als Inferenz- oder schließende Statistik bezeichnet. Inferenzstatistik hat das Ziel, auf Basis von Stichprobenergebnissen Aussagen über die zugrundeliegende Population zu treffen. Zur Inferenzstatistik zählen • die Schätzung von Populationsparametern und • das Testen (Überprüfen) von Hypothesen. Begriffe der Inferenzstatistik: • • • • • Grundgesamtheit oder Population bezeichnet alle potenziell untersuchbaren Elemente (Personen, Objekte), die ein gemeinsames Merkmal oder eine gemeinsame Merkmalskombination aufweisen (z.B. Männer, Studenten, Deutsche, VW Golf, Gartenzwerge, etc.). Stichprobe bezeichnet eine nach einer bestimmten Auswahlmethode gewonnene Teilmenge von Elementen aus der Population. Inferenzstatistische Verfahren erfordern, dass die Stichprobe mittels einer Zufallsprozedur gewonnen wird. Statistische Kennwerte , wie die Maße der zentralen Tendenz oder die Maße der Dispersion können für Stichproben wie für Populationen (Grundgesamtheiten) ermittelt werden. Die Kennwerte einer Population bezeichnen wir als Parameter, bzw. Populationsparameter. Ein Stichprobenkennwert wird als Punktschätzer bezeichnet. Unbekannte Parameter (sind in der Regel unbekannt) werden mit den Stichprobenkennwerten geschätzt. Zur Unterscheidung von Stichprobenkennwerten und Populationsparametern werden Kennwerte mit lateinischen und Parameter mit griechischen Buchstaben notiert. (manchmal werden für Parameter einfach die großen Buchstaben der Kennwerte genutzt; also N statt n. Die Bezeichnung der Kennwerte variiert nicht.) Stichprobenkennwert: Mittelwert: Varianz: Streuung: Korrelation: x 2 s s r 27 Populationsparameter: µ σ2 σ ρ Methodenlehre B2, B3 & B4 Mit endlichen Populationen – z.B. die Psychologie studenten im 3. Semester der Uni Bonn – zu arbeiten ist ausgesprochen schwierig (letztlich ist jede Population endlich, aber ab gewissen Größen – z.B. alle Studenten Deutschlands – gilt sie statistisch als unendlich), dementsprechend versucht man mit unend lichen Populationen zu arbeiten. • Damit eine Population als unendlich gilt, sollte sie mindestens 100x so groß sein wie die Stichprobe. Stichprobenarten: Wie genau kann gewährleistet werden, dass eine Stichprobe eine Grundgesamtheit möglich genau repräsentiert? Eine Stichprobe kann in bezug auf die Grundgesamtheit entweder in bezug auf a.) alle Merkmale (globale Repräsentativität) oder b.) bestimmte Merkmale (spezifische Repräsentativität) repräsentativ sein. • • • Zufallsstichprobe: Jedes Element der Grundgesamtheit kann mit gleicher Wahrscheinlic hkeit ausgewählt werden (Ziehen mit Zurücklegen). Eine absolut fehlerfreie Zufallsstrichprobe ist fast unmöglich; meist aufgrund zu kleiner Stichrobengrößen, mangelnder Repräsentativität und mangelnder Bereitschaft der Menschen, an einem Experiment teilzunehmen. Klumpenstichprobe: Elemente werden nicht einzeln, sondern in natürlichen Gruppen (Klumpen) ausgewählt [ z.B. alle Alkoholiker in Kliniken]. Hierbei ist zu beachten, dass die Klumpen zufällig ausgewählt werden (vgl. mit dem Bsp.: die Auswahl der Kliniken müsste zufällig sein.), ein einzelner Klumpen reicht nicht aus. Geschichtete Stichprobe: Elemente werden nach relevanten Merkmalen in Schichten (Strata) vorgruppiert. Man überlegt, welche Merkmale relevant für die Untersuchung sind (z.B. Geschlecht, etc.), und wählt innerhalb dieser Merkmale zufällig die Leute aus (mit dem Klumpen-Verfahren geht es auch, ist aber statistisch unsauberer.). Proportional geschichtete Stichprobe: entsprechend der Merkmalsverteilung in Population zusammengestellt, z.B. 40% Singles, 60% Ehepaare. Generell führt eine nach relevanten Merkmalen geschichtete Stichprobe zu besseren Schätzwerten der Populationsparameter als eine einfache Zufallsstichprobe. Verteilung von Stichprobenkennwerten: Wir berechnen bei einer Stichprobe der Größe n den Mittelwert x . Wie genau können wir nun daraus den Mittelwert der Population erkennen? • bei zwei Stichproben aus einer Population: je weiter die Mittelwerte der Stichprobe voneinander entfernt sind, desto geringer die vermutlich richtige Schätzung des Populationsmittelwe rtes. • wenn wir unendlich viele Stichproben haben, dann entsteht eine Stichprobenkennwerteverteilung, je geringer die Streuung (= Standardfehler σ x ) ist, desto genauer ist die Schätzung. 28 Methodenlehre B2, B3 & B4 Die Stichprobenkennwerteverteilung (SKV): Gedankenexperiment: Eine Population mit µ und σ sei gegeben. Aus dieser Population werden wiederholt (theoretisch unendlich oft) Stichproben derselben Größe n mit Zurücklegen gezogen und innerhalb jeder Stichprobe wird z.B. der Stichprobenkennwert x berechnet. Die Verteilung der so gewonnenen Kennwerte ist die Stichproben(kennwerte)verteilung von x . Wenn man genug Stichprobenkennwerte hat, ist deren Mittelwert mit dem der Population ide ntisch. Der Mittelwert einer Stichprobenverteilung (SKV) eines Kennwertes T heißt Erwartung swert E(T). Entspricht der Erwartungswert eines Kennwertes dem Wert des zugehörigen Populationsparameters, E(T) = θ, so wird dieser Kennwert als erwartungstreuer Schätzer bezeichnet. Mittelwert: Der Mittelwert ist ein erwartungstreuer Schätzer für µ, da gilt: E (x ) = µ. Varianz: Die Stichprobenvarianz s2 ist kein erwartungstreuer Schätzer: E(s2 ) ≠ σ 2. s2 unterschätzt σ 2 systematisch um den Faktor: n −1 n Daher muss s2 wie folgt korrigiert werden (doch, der Bruch ist richtig herum*): σˆ 2 = s 2 ⋅ n n −1 Das Dach über dem Sigma zeigt an, dass es sich um den Schätzer eines Parameters handelt. σ̂ 2 ist erwartungstreu: E (σˆ 2 ) = σ 2 . Die Populationsvarianz schätzt man also durch die Summe der quadrierten Abweichungen aller Messwerte vom Mittelwert (Quadratsumme) geteilt durch n-1 (Freiheitsgrade der Varianz): n σˆ 2 = ∑ (x i =1 i − x )2 n −1 Jetzt ist eine Berechnung des geschätzten Standardfehlers möglich (siehe nächste Seite) * Einfach: Weil s 2 unser Sigma systematisch unterschätzt, müssen wir s2 vergrößern. Mathematisch korrekt: s2 unterschätzt systematisch das Sigma: n −1 2 σˆ 2 ⋅ =s n Und nun stellt die Formel mal um. 29 Methodenlehre B2, B3 & B4 Der Standardfehler: Ist die Streuung einer x - Werteverteilung ziemlich klein, ist die Chance, mithilfe eines Stichprobenkennwertes x den Mittelwert der Population µ zu treffen, relativ groß. Ist jedoch die Streuung groß, ist die Chance auf einen Treffer gering. Deswegen benötigt man den Wert der Streuung der Stichprobenkennwerteverteilung, und das ist der Stand ardfehler. Die Streuung einer Stichprobenkennwerteverteilung wird als Standardfehler des Mittelwertes (also des Kennwertes) bezeichnet. Der Standardfehler des Mittelwertes hängt von der Populationsvarianz σ 2 und der Stichprobengröße n ab: 2 σ . σx = n • Standardfehler verändert sich proportional zur Streuung in Population. • Standardfehler verringert sich mit zunehmendem Stichprobenumfang. Schätzung des Standardfehlers des Mittelwertes: In der Regel ist die Varianz einer Population σ2 nicht bekannt. Daher wird der Standardfehler aus den Stichprobendaten geschätzt: (eine Schätzung über den Durchschnitt der Stichprobenvaria nzen wäre ja nicht erwartungstreu.) σˆ 2 = σˆ x = n s2 n −1 Zentrales Grenzwerttheorem: Der zentrale Grenzwertsatz sagt nun etwas über die Form aus: Verteilungen von Mittelwerten aus Stichproben des Umfangs n, die sämtlich derselben Grundgesamtheit entnommen werden, gehen mit wachsendem Stichprobenumfang in eine Normalve rteilung über. Vereinbarungsgemäß hält man ein n ≥ 30 für hinreichend, um die Stichprobenverteilung des Mittelwertes als Normalverteilung zu behandeln, ungeachtet der Verteilungsform der zugrundeliegenden Population. Ein Beispiel: man werfe zwei sechsseitige Würfel, und lese deren Ergebnis ab. Die 7 kommt z.B. häufiger vor als die 2, da es bei der 7 mehrere Kombinationsmöglichkeiten gibt (Bortz S. 93). Es ergibt sich eine in Richtung NV bewegende Verteilung: Ergebnis: 2 p(x): 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36 Entsprechendes gilt für JEDE beliebige Verteilungsform (bei Mittelwerten). Stichprobenkennwerte müssen nicht nur Mittelwerte sein, sondern es sind auch Mediane und Varianzen möglich. Bei Varianzen s2 ist die Stichprobenverteilung chi 2 -verteilt. 30 Methodenlehre B2, B3 & B4 Mittelwert ( x ) der Stichprobenkennwerteverteilung der Mittelwerte: • entspricht µ der Population bei hinreicheichend großen Stichprobenumfängen. • Hat ebenfalls bei µ ±σ x 68,26% und bei µ ± 2σ x 95,44% aller Messwerte liegen. [wobei σ x = Streuung der Mittelwerte der Stichproben (= Standardfehler)] Das bedeutet man kann: „Bei formulieren, und zwar: µ ± 2σ x liegen 95,44% aller Messwerte“, auch mathe matisch µ − 2 ⋅ σ x ≤ x ≤ µ + 2 ⋅σ x Und schon sind wir bei einem Wertebereich (mehr dazu später). Kriterien der Parameterschätzung: Erwartungstreue, Konsistenz, Effizienz, Suffizienz: Nach welchen Kriterien können wir entscheiden, ob ein statistischer Kennwert einen brauchbaren Schätzer für einen Parameter darstellt? Was sind die Eigenschaften, die eine gute Schätzung auszeichnen? Erwartungstreue: Ein statistischer Kennwert schätzt einen Populationsparameter erwartungstreu, wenn der Mittelwert der Kennwerteverteilung (Kennwerte sind nicht nur Mittelwerte!) bzw. deren Erwartungswert dem Populationsparameter entspricht (siehe auch „Stichprobenkennwerteverteilung“). Konsistenz: Von einem konsistenten Schätzwert sprechen wir, wenn sich ein statistischer Kennwert mit wachsendem Stichprobenumfang dem Parameter, den er schätzen soll, nähert. [Demzufolge ist z.B. die Standardabweichung konsistent, aber nicht erwartungstreu; der Mittelwert hingegen konsistent und erwartungstreu.] Effizienz: Je größer die Varianz der SKV, desto geringer ist die Effizienz des entsprechenden Schätzwertes. [konkret: es geht hier also um die Präzision einer Schätzung.] [z.B. schätzt eine Mittelwertsverteilung effizienter µ als eine Medianverteilung. (= eine Verteilung aus den Medianen der Stichproben).] Suffizienz: Ein Schätzwert ist suffizient oder erschöpfend, wenn er alle in den Daten einer Stichprobe entha ltenden Informationen berücksichtigt, so dass durch Berechnung eines weiteren statistischen Kennwertes keine zusätzlichen Informationen über den zu schätzenden Parameter gewonnen werden kann. [Da der Median nur ordinale Dateninformationen berücksichtigt, der Mittelwert aber intervallskalierte Dateninformationen berücksichtigt, ist der Mittelwert der erschöpfendere Schätzer.] Betrachtet man alle vier Kriterien, sieht man, dass σˆ 2 und x die besten Schätzer für σ 2 und µ sind. Sie sind erwartungstreu, konsistent und erschöpfend. Bei NVen sind sie auch am Effizientesten. 31 Methodenlehre B2, B3 & B4 Methoden der Parameterschätzung: Meth. d. kleinsten Quadrate, Maximum- likelihood-Methode: Wie finde ich den besten Schätzer für eine Population? Methode der kleinsten Quadrate: Die Methode der kleinsten Quadrate wird noch im Punkt „Verfahren zur Überprüfung von Zusammenhangshypothesen“ thematisiert, trotzdem eine kurze Beschreibung: Nehmen wir an, wir suchten den besten Schätzer für µ . (Wir wissen natürlich, dass das x ist.) Den gesuchten Wert nennen wir a. n f (a ) = ∑ ( x i − a ) 2 = min . i =1 Wir lösen das Ganze auf (Rechnung im Bortz S.97 & 98), und erhalten: n a= ∑x i =1 n i =x Demnach ist x der beste Schätzer für µ . Maximum-likelihood-Methode: Mit der Maximum- likelihood-Methode finden wir für die Schätzung unbekannter Parameter Stichprobenkennwerte, die so geartet sind, dass sie die Wahrscheinlichkeit (engl.: likelihood) des Auftretens in der Population maximieren. Messen wir 5x, und zwar x1 = 11, x2 = 8, x3 = 12, x4 = 9 und x5 = 10 Wenn wir jetzt eine NV haben, ist es unwahrscheinlich, dass die Population einen Mittelwert von µ = 20 hat. Nach der Maximum- likelihood-Methode würde sich herausstellen, dass x = 10 der beste Schätzer für µ ist. [Eingehendere Beschreibung im Bortz auf den S. 98 & 99] 32 Methodenlehre B2, B3 & B4 Intervallschätzung: Wertebereich, Konfidenzintervalle: Bei einem x -Wertebereich versucht man herauszufinden, ob eine Stichprobe (d.h. eigentlich der Mittelwert x einer Stichprobe) zu einer Population gehört. D.h. bei einer NV, also n ≥ 30 , liegen Werte zu bestimmten Bedingungen um den Mittelwert µ herum. µ ± σ x liegen 68,26% und bei µ ± 2σ x 95,44% aller zufällig gezogenen Stichprobenmittelwerte in dem Bereich Bei ± 2 Streuungen um den Mittelwert µ . D.h. bei µ = 100 und σ x = 5 , läge bei ± 2 Streuungen zu 95,44 % die gezogene Stichprobe zwischen 90 und 110. [eigentlich ist das falsch, ein Wert kann nur drin oder draußen liege n, also ist die Wahrscheinlichkeit entweder 1 oder 0 – ist aber nicht so wichtig (= MathematikerPedanterie)]. Diesen Bereich – hier 90 bis 110 – nennt man x -Wertebereich. µ und σ x sind hierbe i festgelegte Werte. Das Einzige, was variieren kann, ist x . (Weswegen man es ja auch x -Wertebereich nennt.) Da man aber lieber mit standardisierten NVen rechnet, arbeitet man meist mit z-Werten. Die Gleichung sieht folgendermaßen aus: µ + z (α / 2 ) ⋅ σ x ≤ x ≤ µ + z (1−α / 2 ) ⋅ σ x • (α/2) haben wir hier, da ein zweiseitiges Intervall gesucht wird, also z.B. auf jeder Seite 2,5% abgeschnitten wird. In der Standardnormalverteilung liegen 95% der Fläche zwischen z = ± 1,96. 33 Methodenlehre B2, B3 & B4 Konfidenzintervalle: Konfidenzintervalle verhalten sich genau umgekehrt zum x -Wertebereich: Bei einem Konfidenzintervall versucht man herauszufinden, ob eine Population zu einer Stichprobe gehört (die möglichen µ -Werte werden gesucht); und nicht wie beim Wertebereich, ob eine Stichprobe zu einer Population gehört (die möglichen x -Werte werden gesucht). • Konfidenzintervalle sind demnach Bereiche, in denen sich Populationsparameter befinden, die als Erzeuger einer Stichprobe (mit xx% Wahrscheinlichkeit) in Frage kommen. • Man nimmt hier 95%ige oder 99%ige Wahrscheinlichkeiten (= Konfidenzkoeff izienten). Das Konfidenzintervall kennzeichnet denjenigen Bereich eines Merkmals, in dem sich 95% oder 99% (legt man vorher fest) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert x erzeugt haben können. x + z (α / 2) ⋅ σ x ≤ µ ≤ x + z (1−α / 2 ) ⋅ σ x Gesucht sind nun hierbei die Grenzen des Konfidenzintervalls. • Ein Konfidenzintervall ∆crit wird bestimmt nach ∆crit = µ + z (α / 2) ⋅ σ x Ein Delta steht immer für eine Differenz, d.h. die (Unter-) Grenze des Konfidenzintervalls hat den Abstand Delta entweder zum Mit telwert oder zur anderen (Ober-)Grenze. • bei kleinen Stichproben (unter 30) sind die „z-Werte“ nicht standardnormalverteilt, so ndern tverteilt (wenn die Population normalverteilt ist), also muss man t-Werte aus der Tabelle einsetzen; Freiheitsgrade = n-1 (siehe „t-Test“) Bedeutung des Stichprobenumfangs: Eine (weitere) Bestimmungsgröße für die Breite eines Konfidenzintervalls ist der Stichprobenumfang: Je größer die untersuchte Stichprobe, desto kleiner das Konfidenzintervall. • Die Halbierung eines Konfidenzintervalls macht einen vierfachen Stichprobenumfang erforderlich. • Die benötigten Stichprobenumfänge können erheblich gesenkt werden, wenn statt einer reinen Zufallsstichprobe eine sinnvoll geschichtete Stichprobe gezogen wird (=> Standardfehler wird kleiner => kleinere Stichprobenumfänge möglich.) 34 Methodenlehre B2, B3 & B4 Formulierung und Überprüfung von Hypothesen: Bei der Formulierung und Überprüfung von Hypothesen entsteht ein zentrales Problem: Inwieweit können postulierte Eigenschaften (= Hypothesen) der Population (Theorie) durch Stichproben (Empirie) bestätigt werden? Welche Kriterien gibt es dort? Bis wann ist ein Stichprobenwert (z.B. x , s2 , etc.) „gerade noch mit der Theorie übereinstimmend“? Um diese u.ähnl. Fragen geht es in diesem Kapitel. Alternativhypothesen: Die Brauchbarkeit von Theorien ist davon abhängig, inwieweit sie sich in Untersuchen von Teilaussagen, die aus ihr abgeleitet wurden, bewährt. Ist eine Theorie (noch) nicht empirisch bewiesen worden, stellt man Hypothesen auf, um präzisere Vorhersagen machen zu können. Eine Hypothese ist also eine Deduktion der Theorie (Deduktion = Ableitung des Einzelfalls aus dem Allgemeinen). [Deswegen soll man Hypothesen ja auch vorher aufstellen, sonst leitet man nämlich aus dem Einzelfall bzw. den Einzelfällen das Allgemeine ab.] Hypothesen beinhalten Aussagen, die mit anderen Theorien in Widerspruch stehen können oder den Wissensstand erweitern. Hypothesen, die in diesem Sinne „innovative“ Aussagen beinhalten, werden als Gegen- oder Alternativhypothesen bezeichnet. Diese Hypothesen müssen dann (nur noch) überprüft werden. Varianten von Alternativhypothesen: Je nach Art der Hypothesenformulierung unterscheidet man zwischen • Unterschiedshypothesen und • Zusammenhangshypothesen. Unterschiedshypothesen prüft man bei Häufigkeitsvergleichen und Mittelwertsvergleichen (siehe „Verfahren zur Überprüfung von Unterschiedshypothesen“ ) und Zusammenhangshypothesen bei Korrelationsrechnung (siehe „Verfahren zur Überprüfung von Zusammenhangshypothesen“) Gerichtete und ungerichtete Hypothesen: Gerichtete Hypothesen habe irgendeine Richtungsvorgabe, d.h. es sind Formulierungen z.B. „größer, besser, schneller, schlechter, wandelbarer, etc. als“ vorhanden. Ungerichtete Hypothesen habe keine Richtungsvorgabe, sie postulieren nur irgend einen Unterschied. Typische Formulierungen wären: „ist ungleich, verschieden, anders, etc. zu“ 35 Methodenlehre B2, B3 & B4 Spezifische und unspezifische Hypothesen: Wenn wir eine bestimmte Größe bei einer Hypothese angeben, haben wir eine spezifische Hypothese. Z.B. „Es ist (mindestens) um den Betrag x besser als vorher.“ (= Unterschiedshypothese) oder „Der Zusammenhang (=Korrelation) beträgt (mindestens) x.“ (=Zusammenhangshypothese). Unspezifische Hypothesen haben demnach keine expliziten Angaben. • Spezifische Hypothesen kommen in der psychologische Forschung meistens nur in Verbindung mit gerichteten Hypothesen vor. Die Alternativhypothese sollte – soweit sich das inhaltlich rechtfertigen lässt – so präzise wie möglich formuliert sein. Die wenigsten Vorkenntnisse verlangt eine unspezifische ungerichtete Hypothese gefolgt von einer unspezifischen gerichteten Hypothese gefolgt von einer spezifischen gerichteten Hypothese Wie das bei einer spezifischen ungerichteten Hypothese (Es unterscheidet sich mindestens um x.) aussieht, war nicht erwähnt (ist wohl auch eher selten.). Statistische Hypothesen: • Zur Überprüfung müssen wissenschaftliche Hypothesen vor einer Untersuchung aufgestellt und in eine statistische Hypothese überführt werden. • Hypothesen werden für Populationen, also mit Parametern formuliert. • Diese beiden Punkte gelten auch für die Nullhypothese. Alternativhypothesen heißen üblicherweise H1 . Bei einer Unterschiedshypothese ( hier Mittelwert) hieße sie z.B. „Psychologiestudenten sind mit diesem neuen Skript ( µ1 ) besser in der Methodenlehreprüfung als vorher ( µ 0 ).“ Mathematisch formuliert: H1 : µ0 < µ1 Bei einer Zusammenhangshypothese hieße sie z.B. „Psychologiestudenten werden eher wahnsinnig ( ρ 1 ) (korrelieren mehr mit Irrenhausbesuchen) als andere Studenten ( ρ 0 ).“Mathematisch formuliert: H 1 : ρ 0 < ρ1 Die Nullhypothese: In Abhängigkeit zur Alternativhypothese wird eine konkurrierende Hypothese gebildet, die sogenannte Nullhypothese (H0). Die Nullhypothese ist eine Negativhypothese, die behauptet, dass die zur H1 komplementäre Aussage richtig sei. Die Nullhypothese ist die Basis der klassischen Prüfstatistik, da von dort aus entschieden wird, ob die H1 stimmt oder nicht. (Mehr dazu im Bortz S. 109 & 110) 36 Methodenlehre B2, B3 & B4 Fehlerarten bei statistischen Entscheidungen: Alpha- & Beta-Fehler: Stehen Null- und Alternativhypothese fest, kann die Untersuchung beginnen. Aber welche der Hypothesen gilt nun? Die Entscheidung hierüber wird noch erschwert, da sich das Ergebnis der Untersuchung auf eine Stichprobe bezieht, während wir eigentlich Aussagen über eine Population treffen wollen. Damit ist nicht auszuschließen, dass wir aufgrund der Stichprobenauswahl Fehler machen: Insgesamt gibt es 4 Möglichkeiten: Entscheidung für ... H0 H1 In der Population („in Wahrheit“) gilt ... H0 H1 Richtige β-Fehler Entscheidung Richtige α-Fehler Entscheidung α -Fehler oder Fehler erster Art: Die H1 wird angenommen, obwohl eigentlich die H0 gilt. β -Fehler oder Fehler zweiter Art : Die H0 wird beibehalten, obwohl eigentlich die H1 gilt. α- und β-Fehlerwahrscheinlichkeit bei einer (rechts-) gerichteten Hypothese. 37 Methodenlehre B2, B3 & B4 Signifikanzaussagen: Signifikanzaussagen sind Aussagen, ob eine Hypothese – meist die H1 – auf der Basis festgelegter Grenzen (meist bei 5% oder 1% Irrtumswahrscheinlichkeit) gilt oder nicht. Da Stichprobenergebnisse (zufällig) stark von der Population abweichen können, setzt man Signifikanzen fest, um zu einer bestimmten Wahrscheinlichkeit eine Hypothese (Aussage) beweisen zu können. Man bezeichnet ein Signifikanzniveau von α = 5% als signifikant, ein Signifikanzniveau von α = 1% als sehr signifikant. (Das ist so festgelegt worden.) Inwieweit man α festlegt, ist eine methodische Sache (Brisanz der Untersuchung => kleines α , junge Wissenschaft mit innovativen Ideen => großes α ) Da die H0 die Basis der klassischen Prüfstatistik ist und wir die H1 beweisen wollen, ist für uns (erst einmal) der α -Fehler von Bedeutung. Deswegen wird erst einmal die Wahrscheinlichkeit des α -Fehlers – die sogenannte Irrtumswahrscheinlichkeit – bestimmt. Bestimmung der Irrtumswahrscheinlichkeit: Irrtumswahrscheinlichkeiten sind bedingte Wahrscheinlichkeiten, d.h Wahrscheinlichkeiten für das Auftreten eines Ereignisses (hier das Ergebnis unserer Stichprobenuntersuchung) unter der Bedingung, dass die Nullhypothese zutrifft. Aus der Population ziehen wir (theoretisch) unendlich viele Stichproben – es ergibt sich eine SKV mit dem Mit telwert µ0 , der dem der Population entspricht. Bei dieser SKV trennen wir (bei rechtsseitiger H1 & α = 0,05) rechts 5% ab. Diese Teilfläche stellt den Bereich dar, bei der wir uns zu α % (hier 5%) irrtümlicherweise zugunsten der H1 entscheiden würden. Die Größe der Irrtumswahrscheinlichkeit wird mit P gekennzeichnet. Mittels einer z- Transformation lässt sich dann der genaue (Grenz-) Wert errechnen. Nun ändern wir bei einer Stichprobe die Bedingungen, damit unsere H1 wirkt (z.B. H1 : neue Lehrmethode => die wird nun angewandt). Landet der Mittelwert der Stichprobe im Bereich P, nehmen wir die H1 an. Das Ganze war die Theorie. Da aber die Kosten ins Astronomische steigen würden (unendlich viele Stichproben), gehen wir von einer NV der Mittelwerte aus (die SKV soll also eine NV sein). Dann berechnen wir eine z-Transformation mit dem Wert unserer – unter H1-Bedingungen getesteten – Stichprobe. Diesen z-Wert schlagen wir in der Tabelle nach und sehen, wie signifikant er ist. Ist er geringer als unsere Signifikanzniveau α , können wir die H1 annehmen. 38 Methodenlehre B2, B3 & B4 Beispiel: Nach der z-Transformation unser Experimentalergebnisse z= x − µ0 σx [ σ x kann auch geschätzt sein.] erhalten wir den z-Wert 2,29. Dieser Wert schneidet links von sich 98,90% aller z-Werte ab. D.h. bei unserem rechtsseitigem Test und einem Signifikanzniveau von α = 5% könnten wir die H1 annehmen, bei einem Signifikanzniveau von α = 1% müsste die H0 beibehalten werden (obwohl sie nur zu 1,1% stimmen würde. • Ein nicht-signifikantes Ergebnis heißt nicht, dass die H0 richtig ist; z.B. bei einer Verfe hlung des 5%-Niveaus um 1% ist die H0 nur mit einer Wahrscheinlichkeit von 6% richtig !! Deswegen sagt man auch „Beibehaltung“ statt „Annahme“ der H0 . Die Irrtumswahrscheinlichkeit α ist immer vorhanden, sie verringert sich bei 1.) größer werdender Diskrepanz von x − µ0 (je ausgefallener die Stichprobe) 2.) Vergrößerung des Stichprobenumfangs: nur wenn n so groß wie die Population ist, ist die Entscheidung für H1 oder H0 sicher (aber da alles bekannt ist fällt sie soundso weg). 3.) kleiner werdender Populationsstreuung σ bzw. σ̂ (je weniger sich die Leute unterscheiden.) Die statistische Hypothesentestung führt zu keinen Wahrheiten, nur zu Wahrscheinlichkeiten. Unspezifische Nullhypothesen: Meist haben wir eine spezifische H0 , also µ1 = µ 0 . Es kann aber auch unspezifische Nullhypothesen geben, also bei einem rechtsseitigem Test H0: µ1 > µ 0 . Hat man jedoch festgestellt, dass µ1 = µ 0 verworfen werden kann, so gilt das auch für µ1 > µ 0 . Es genügt also, wenn eine unspezifische H1 an einer spezifischen H0 getestet wird. Einseitige und zweiseitige Tests: Zweiseitige Tests sind genauer als Einseitige, da das α -Niveau konstant bei z.B. 1% liegt (es wird also 1% der Verteilung abgeschnitten), und eine zweiseitige Testung durchgeführt wird (es werden also auf beiden Seiten α /2 % abgeschnitten. Zweiseitige Tests haben den Nachteil, dass sie keine Richtungen, sondern nur Ungleichheiten formulieren. Einseitige Test werden eher signifikant als Zweiseitige – was in der psychologischen Forschung ja auch gerne gesehen wird. 39 Methodenlehre B2, B3 & B4 Kann nicht klar entschieden werden, ob ein Sachverhalt besser durch eine gerichtete (einseitig) oder ungerichtete (zweiseitig) Hypothese erfasst wird, muss in jeden Fall zweiseitig getestet we rden. Statistische Signifikanz und praktische Bedeutsamkeit: Ist n hinreichend groß und also σ̂ x entsprechend klein, wird jeder noch so kleine hypothesenkonforme Unterschied signifikant. Ein Beispiel: eine neue Lehrmethode führte bei 100 Schüle rn zu durchschnittlich 42 Punkten im Abschlusstest. Der Mittelwert aller Tests vor der neuen Lehrmethode betrug 40 Punkte, die Streuung 0,8 Punkte. Die H1 (die neue Lehrmethode ist besser) wäre hierbei auf einem 1%tigen Alphaniveau signifikant. Wenn wir jetzt statt 100 Schülern 10.000 untersuchen würden, wäre selbst ein Unterschied von 0,19 Punkten bei einem 1%tigen Alphaniveau signifikant Aber hat das noch irgendeine Bedeutung? Umgekehrt gilt auch, dass große (und bedeutsame) Unterschiede bei zu kleinen Stichproben nicht signifikant werden, also „unentdeckt“ bleiben. Deswegen benötigt man Verfahren, die praktische Bedeutsamkeit von Untersuchungen erkennen zu können. Das geht über die Feststellung der: • Effektgrößen und • Teststärke Die korrekte Anwendung eines Signifikanztests und die Interpretation der Ergebnisse unter dem Blickwinkel der praktischen Bedeutsamkeit sind essentielle und gleichwertige Bestandteile der empirischen Hypothesenprüfung. Effektgröße: Der in der H1 behauptete Unterschied wird als Effekt bezeichnet. Um Effekte verschiedener Untersuchungen vergleichbar zu machen, werden Effekte zu Effektgrößen standardisiert: ε= µ1 − µ 0 . σˆ Das Epsilon ( ε ) steht für Effektgröße. Die Effektgröße gibt also an, inwieweit – in einem speziellen Test – µ1 von µ 0 entfernt sein sollte, um von einem praktisch bedeutsamen Effekt sprechen zu können. Wenn man vor einer Untersuchung eine Effektgröße festlegt, hat dies den Vorteil (neben dem größeren Aufwand), dass der Stichprobenumfang kalkulierbar ist: 40 Methodenlehre B2, B3 & B4 n= (z(1−α ) − zβ )2 . ε2 Um eine geeignete Teststärke zu erzielen, sollte vor einer Untersuchung eine Effektgröße festgelegt und n darauf abg estimmt werden. Der Beta-Fehler: Die Festlegung des β -Fehlers erfolgt wie die Festlegung des α -Fehlers (zu finden unter dem Punkt „Bestimmung der Irrtumswahrscheinlichkeit“), nur dass das Ganze mit vertauschten Hypothesen stattfindet. D.h. eigentlich sollte man unendlich viele H1 -Stichproben (= unter der Bedingung H1 ) durchführen, man geht aber von einer NV aus und macht einen z- Test. (z.B. bei H1 : µ1 ≥ 110 wäre µ1 = 110) Der Beta-Fehler stellt den Bereich dar, bei der wir uns zu β % irrtümlicherweise zugunsten der H0 entscheiden würden. Unspezifische Alternativhypothesen: Die Festlegung des β -Fehlers, die mit einer Entscheidung zugunsten der H0 verbunden ist, kann bei unspezifischen H1 nicht bestimmt werden. Hier das Bild einer spezifischen H1 samt Alpha- & Beta-Fehler-Bereich: Teils ist der Beta-Fehler durch die Wahl des Alpha -Fehlers festgelegt, d.h. er fängt an der kritischen Grenze (hier links davon) an, die durch die Wahl des Alpha-Niveaus entstanden ist. Der β -Fehler kann aber auch festgelegt sein. So können Indifferenzbereiche entstehen. 41 Methodenlehre B2, B3 & B4 Indifferenzbereiche: Wenn Alpha- und Beta-Niveau festgelegt sind, kann es bei sehr kleinen bzw. sehr großen Effektgrößen (entweder große bzw. kleine Streuung und/oder nahe beieinander bzw. weit entfernt liegenden Mittelwerte von H1 und H 0 ) zu Indifferenzbereichen kommen. Das Stichprobenergebnis befindet sich dann in einem Bereich, für den • weder die H0 noch die H1 abgelehnt werden können (Überschneidung der Kurven) oder • sowohl die H0 als auch die H1 abgelehnt werden müssen (kaum Kurvenüberschneidung, d.h. nur noch die ganz ganz flachen Bereiche der Kurven von H1 und H0 überschneiden sich ). Teststärke („power“) : Die Teststärke ist die der korrekten Entscheidung für die H1 zugeordnete Wahrscheinlichkeit, d.h. die Teststärke gibt an, mit welcher Wahrscheinlichkeit ein Signifikanztest zugunsten einer spezifischen H1 entscheidet. Die Teststärke hat den Wert 1−β Da sich α und β gegenseitig beeinflussen, ist die Teststärke für α = 0,05 größer als für α = 0,01. Eigenschaften der Teststärke: Sie vergrößert sich: • mit wachsender Differenz von µ0 und µ1 (also auch mit wachsender Effektgröße) • bei kleiner werdender Merkmals (=Populations-) streuung. • mit größer werdendem α (sofern β nicht festgelegt ist). 2 • mit wachsendem Stichprobenumfang (da der Standardfehler kleiner ist) σx = σ n • Bei gerichteter Hypothese hat ein einseitiger Test größere Power als zweiseitiger Test. Bedeutung der Stichprobengröße: Im Allgemeinen kann man sagen, dass große Stichproben immer günstiger sind als kleine, da sie zu genaueren Ergebnissen führen. Da große Stichproben auch mehr kosten, reicht ein „optimaler“ Stichprobenumfang. Stichprobenumfänge sind dann optimal, wenn sie bei gegebenem α , β und ε eine einde utige Entscheidung über die Gültigkeit von H0 oder H1 sicherstellen. Für Stichprobenumfänge, die kleiner sind als der „optimale“, existiert ein x -Wertebereich, der sowohl mit H0 als auch mit H1 vereinbar ist. Für größere Stichproben gibt es Werte, die weder mit H0 noch mit H1 vereinbar sind. 42 Methodenlehre B2, B3 & B4 Monte-Carlo-Studien, Bootstrap-Technik: Es gibt statistische Kennwerte, deren mathematischer Aufbau so kompliziert ist, dass es bis heute nicht gelungen ist, deren Standardfehler auf analytischem Wege zu entwickeln. In diesen Fällen können sogenannte Monte-Carlo-Studien oder die Bootstrap-Technik eingesetzt werden, mit denen die unbekannte H0 -Verteilung des jeweiligen Kennwertes auf einem PC simuliert wird. Die Monte-Carlo-Methode hat zwei (für uns) vorrangige Anwendungsvarianten: • die Erzeugung der H0 -Verteilung eines statistischen Kennwertes (man simuliert per PC eine Population, und der PC zieht immer weiter Stichproben, er simuliert eine SKV. Mit dieser künstlichen SKV kann man überprüfen, ob der reale untersuchte Kennwert signifikant ist oder nicht.) • die Überprüfung der Folgen, die mit der Verletzung von Voraussetzungen eines statistischen Tests verbunden sind. (da in der empirischen Forschung oftmals Testvoraussetzungen verletzt werden, kann man einen Test auf seine „Robustheit“ testen, d.h. beeinflusst die Verletzung der Testvoraussetzungen das Ergebnis des Tests oder nicht.) Monte-Carlo-Studien sind für die empirische Forschung äußerst wichtig, da sie –teils – die Entscheidung darüber erleichtern, wann ein bestimmter Test eingesetzt werden kann oder nicht. Die Bootstrap-Technik: Die Bootstrap-Technik ist den Monte-Carlo-Studien sehr ähnlich; sie unterscheidet sich von der Monte-Carlo-Studie in einem wesentlichen Punkt: Die Monte-Carlo-Studien kommen zu generalisierbaren Ergebnissen, die Ergebnisse der Bootstrap-Techniken beziehen sich immer nur auf eine bestimmte Untersuchung. Die Bootstrap-Technik simuliert keine Population, sie verwend et ausschließlich Informationen einer empirisch untersuchten Stichprobe mit dem Ziel, eine Vorstellung über die Variabilität des zu prüfe nden Stichprobenkennwertes zu gewinnen. Die Bootstrap-Technik zieht aus den einzelnen Werten der empirischen Stichprobe immer neue Stichproben, bildet davon Mittelwert und Varianz und berechnet schließlich ein Konfidenzintervall für diese Stichproben. Daran wird dann die H0 überprüft. 43 Methodenlehre B2, B3 & B4 Verfahren zur Überprüfung von Unterschiedshypothesen: Bei den Verfahren zur Überprüfung von Unterschiedshypothesen werden normalerweise zwei Stichprobenergebnisse miteinander verglichen; Vergleiche eines Stichprobenmittelwertes mit einem Populationsmittelwert gibt es aber auch (meist ob ein Stichprobenkennwert zu einer Population gehört oder nicht). Dabei gibt es eine Menge von Testverfahren. Bevor man eines auswählt, muss noch das Skalenniveau festgelegt werden; kann man sich nicht zwischen zweien entscheiden, sollten Tests (also unterschiedliche Tests, die dasselbe messen) für beiden Skalenniveaus durchgeführt werden. Sind die Ergebnisse gleich, kann das höhere Skalenniveau nicht angezweifelt werden. Unterscheiden sich die Ergebnisse, muss das anforderungslosere Skalenniveau gewählt werden. Verfahren für Intervalldaten: Die folgenden Verfahren wie z-Test, t-Test, F-Test und χ 2 -Test für eine Varianz, vorgestellt in den Punkten: „Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter“ „Vergleich zweier Stichprobenmittelwerte aus unabhängigen Stichproben“ „Vergleich zweier Stichprobenmittelwerte aus abhängigen Stichproben“ „Vergleich einer Stichprobenvarianz mit einer Populationsvarianz“ „Vergleich zweier Stichprobenvarianzen“ sind Verfahren für Intervalldaten. Vergleich eines Stichprobenmittelwertes mit einem Populationsparameter (z-Test, t-Test): Eine Zufallsstichprobe des Umfangs n mit einem Mittelwert x wird berechnet. Nun soll die Hypothese geprüft werden, ob die Stichprobe zu einer Grundgesamtheit mit bekanntem Populationsparameter µ 0 gehört. H0 : µ 0 = µ1 Aufstellen der Hypothesen: H1 : µ 0 ≠ µ1 Bei n ≥ 30 und bekannter Populationsvarianz σ 2 (und somit bekanntem Standardfehler) sowie bei n ≥ 50 und geschätzter Populationsvarianz σˆ 2 (und somit geschätztem Standardfehler) kann man einen z-Test durchführen: Also entweder z emp = x −µ σx oder 44 z emp = x−µ σˆ x . Methodenlehre B2, B3 & B4 Man berechnet zemp und zkrit . Wenn zemp > zkrit , nehmen wir (bei rechts- und ungerichteter H1, also auch hier) die H1 an. Zu beachten ist, dass sich das α bei zkrit bei zweiseitigen Tests halbiert. Kleine Stichproben: Erfüllen unsere Stichprobe und die Population die oben genannten Kriterien für den z-Test nicht, kann man auf einen t-Test ausweichen. Die Hypothesenaufstellung und das Verfahren erfolgen wie beim z- Test, nur halt jetzt mit t-Werten statt z-Werten. Nicht zu vergessen: Werden Stichproben des Umfangs n aus einer normalverteilten Population (Grundgesamtheit) gezogen, verteilen sie sich entsprechend einer t-Verteilung mit n-1 Freiheitsgraden (df = degrees of freedom). t= x −µ , mit df = n−1. ˆσ x Jetzt werden temp und tkrit berechnet, nur abreitet man mit der t-Tabelle statt der z- Tabelle, der Rest läuft wie beim z-Test. Zur Erinnerung: je nach t-Test (links- / rechtsseitig / ungerichtet) ist: t krit = t ( df ;α ) oder t krit = t ( df ;1−α ) oder t krit = t ( df ;α / 2 ) Anzahl der Freiheitsgerade: Freiheitsgrad = Die Anzahl der bei der Berechnung des Kennwertes frei variierbaren We rte. Die Anzahl der Freiheitsgrade hängt davon ab, wie viel Werte noch frei variieren können. D.h., wenn 4 von 5 Werten bei einer Additionsaufgabe und das Ergebnis feststehen, dann ist der Wert des 5. Wertes festgelegt, ergo unfrei. Beispiel: die 4 Werte ergeben aufaddiert 9. Das Endergebnis ist 10. Welche Zahl hat wohl der 5. Wert? 45 Methodenlehre B2, B3 & B4 Vergleich zweier Stichprobenmittelwerte aus unabhängigen Stichproben (t-Test): Sind bei Gruppenvergleichen die Daten beider Populationen unbekannt, vergleicht man anhand von Stichproben. Der t-Test für unabhängige Stichproben prüft zwei voneinander unabhängige Stichproben des Umfangs n1 und n2 , die aus zwei verschiedenen Grundgesamtheiten gezogen wurden. Die Hypothesen lauten: H0 : µ1 − µ 2 = 0 H1 : µ1 − µ 2 ≠ 0 (ungerichtet) [Nullhypothese ausformuliert: Wenn sich beide Populationen nicht unterscheiden, müsste bei (unendlich) vielen Stichproben aus beiden Populationen auch kein Unterschied zwischen den Mittelwerten der beiden SKVen bestehen.] Die eigentliche Formel lautet (ist eine Art z-Transformation für zwei Stichproben): temp = x1 − x2 σˆ ( x1 − x2 ) df = n1 + n2 − 2 Denn im Nenner steht erneut nur der Standardfehler, nur diesmal für die Differenz aus beiden Stichproben. Und dieser Standardfehler berechnet sich aus dieser einfachen formschönen Formel: ˆ 12 + (n2 − 1) ⋅ σˆ 22 ( n − 1 ) ⋅ σ 1 σˆ ( x1 − x 2 ) = ⋅ 1 + 1 (n1 − 1) + (n2 − 1) n1 n2 ∑ ( xi1 − x1 ) + ∑ ( xi2 − x2 ) = ⋅ 1 + 1 (n1 − 1) + (n2 − 1) n1 n2 2 2 (Beide Versionen – also die obere und untere – sind mögliche Abwandlungen. Die obere Version kann man anwenden, wenn beide Populationsvarianzen schon geschätzt wurden.) Voraussetzungen (für einen t-Test für unabhängige Stichproben): • Die Verteilungen der Stichprobenmittelwerte sind NV, bei kleineren Stichproben müssen die Populationen (goodness-of- fit-Test) normalverteilt sein. • homogene Varianzen • Unabhängigkeit der Stichproben • Gleiche Stichprobengrößen (im Allgemeinen) Noch etwas: ab n1 + n 2 ≥ 50 kann man auch in der z-Tabelle statt in der t- Tabelle nachsehen. 46 Methodenlehre B2, B3 & B4 Vergleich zweier Stichprobenmittelwerte aus abhängigen Stichproben (t-Test): Abhängig sind Stichproben, deren Elemente paarweise einander zugeordnet sind. Dies geschieht durch Messwiederholung oder Zuordnung (Parallelisierung) nach sinnvollen Kriterien: Beispiele für „paarweise“ wären: • Intelligenz wird bei denselben Probanden zweimal erhoben und es soll untersucht werden, ob sich der Intelligenztestwert von Messung zu Messung verändert hat (Messwiederholung). • Intelligenz wird bei Zwillingen gemessen. • Stichprobengruppen werden parallelisiert (matched samples) Beim t-Test für abhängige Stichproben wird berücksichtigt, dass die Varianz des ersten Messzeitpunktes die des zweiten beeinflusst (oder umgekehrt oder beides). Dadurch können Mehrfachmessungen (z.B. durch Vorwissen bei einem Wissenstest) vermieden werden. Voraussetzungen (für einen t-Test für abhängige Stichproben) • Die Stichprobenverteilung der mittleren Differenzen ist eine NV (uns interessiert also nicht die Verteilung von Mittelwerten im möglichst vielen Stichproben, sondern die Verteilung der Differenzen der Mittelwerte.). • Bei kleineren Stichproben müssen die Populationen normalverteilt sein. Die Hypothesen lauten: ungerichtet H0: µ d = 0 H1: µ d ≠ 0 rechtsseitig H0 : µ d ≤ 0 H1 : µ d > 0 linksseitig H0 : µ d ≥ 0 H1 : µ d < 0 Vorgehen: Zunächst werden die Differenzen zwischen den Messwerten der ersten und der zweiten Erhebung berechnet: di = xi1−xi2. Dann wird der Mittelwert der Differenzen berechnet: n ∑ di i =1 , mit n: Anzahl der Messwertpaare. xd = n 47 Methodenlehre B2, B3 & B4 Dann der geschätzte Standardfehler ermittelt: σˆ x d 2 σˆ 2d ∑ni=1 ( di − xd ) 2 1 ∑ni=1 (d i − xd ) = = ⋅ = n n −1 n n ⋅ (n − 1) Die eigentliche Formel lautet (ist eine Art z- Transformation ohne My, da µ d = 0 ): temp xd = , mit df = n−1 und dem Standardfehler σˆ xd Statistische Entscheidung (für alle t-Tests): Annahme der H1, falls ... ungerichtet rechtsseitig linksseitig |temp |>|t(df; α/2) | temp > t(df; 1−α ) temp < t(df; α) Bei einem gerichteten t-Test für abhängige Stichproben ist darauf zu achten, dass die inhaltliche und die statistische Alternativhypothese dieselbe Richtung behaupten; das hängt davon ab, wie man die Differenzen bildet (der Fehler passiert bei Aufgabenblatt 10 in B2). Deswegen bei di = x i1 −xi2 immer die H1 -Werte bei x1 einsetzten (dann behaupten die inhaltliche und die statistische Alternativhypothese immer dieselbe Richtung.). Aus Monte-Carlo-Studien geht hervor, dass der t-Test für abhängige Stichproben wie auch der tTest für unabhängige Stichproben äußerst robust auf Verletzungen seiner Voraussetzungen reagiert. Bei einem t-Test für unabhängige Stichproben geht das bei • ähnlichen Grundgesamtheiten, möglichst eingipflig und symmetrisch • großen Stic hprobenunterschieden, solange die Varianzen gleich sind. Bei einem t-Test für abhängige Stichproben sollte • die Korrelation positiv sein. 48 Methodenlehre B2, B3 & B4 Vergleich einer Stichprobenvarianz mit einer Populationsvarianz (chi2 -Test für eine Varianz): Manchmal kann die Varianz einer Stichprobe stark von der der Population abweichen, der Mittelwert z.B. aber identisch sein. U.a. aufgrund dessen kann es interessant sein, Varianzvergleiche durchzuführen. Der folgende Test – ein χ 2 -Test für eine Varianz – überprüft, ob eine Stichprobe aus einer Population mit der Varianz σ 2 = a stammt. Voraussetzung: • Sofern die Messwerte (der Population & der Stichprobe) normalverteilt sind, verteilt sich die Prüfgröße (=die eigentliche Formel) gemäß einer χ 2 -Verteilung mit n−1 Freiheitsgraden. Die Nullhypothese (ist immer so): H0 : σ 2 =a Die Alternativhypothesen lauten: ungerichtet χ 2emp falls ... < χ 2df , α 2 oder rechtsseitig linksseitig χ 2emp > χ 2df ,1−α χ 2emp < χ 2df , α χ 2emp > χ2df , 1− α 2 Vorgehen: Standardfehler ausrechen, Werte einsetzten nach folgender Formel. Die eigentliche Formel lautet: 2 χemp ( n − 1) ⋅ σˆ 2 , mit df = n−1. = a Statistische Entscheidung: ungerichtet Annahme der H1 , falls ... rechtsseitig H1: σ ≠ a H1: σ > a 2 2 49 linksseitig H 1: σ2 < a Methodenlehre B2, B3 & B4 Vergleich zweier Stichprobenvarianzen (F-Test): Der Vergleich von Stichprobenvarianzen mit der Populationsvarianz kommt in der Praxis nicht so häufig vor. Es werden eher zwei Stichprobenvarianzen miteinander verglichen. Dies geschieht über einen F-Test. Voraussetzungen • Normalverteilung der Grundgesamtheiten, • Unabhängigkeit der Stichproben. Die Hypothesen lauten: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 (ungerichtet) H1 : σ 12 > σ 22 (gerichtet) [Die H0 ausformuliert: es gibt keinen Unterschied in den Populationsvarianzen.] [Diese Hypothese wird nun anhand von Stichprobenvarianzen überprüft.] Bei einem einseitigen Test (es kommen fast nur einseitige F-Tests vor) kommt die als größer erwartete Varianz in den Zähler, bei einem zweiseitigen Test (selten) kommt die empirisch größere Varianz in den Zähler. Die eigentliche Formel lautet: Femp σˆ 12 = 2 mit dfZähler = n1 − 1 und dfNenner = n2 − 1 σˆ 2 (Da die Populationsvarianzen nicht bekannt sind, schätzen wir diese.) Statistische Entscheidung: falls ... Anna hme der ... ungerichtet Femp > Fn1−1, n 2−1, 1−α/2 H1: σ12 ≠ σ 22 * es gibt nur rechtsseitige gerichtete Hypothesen. 50 gerichtet* Femp > Fn1−1, n 2−1, 1−α H1: σ12 > σ 22 Methodenlehre B2, B3 & B4 Verfahren für Ordinaldaten: Werden in bei den Verfa hren für Intervalldaten einige Voraussetzungen nicht erfüllt, oder hat man in der Untersuchung nur Rangreihen erhoben, muss man auf Verfahren für Ordinaldaten zurückgreifen. Verfahren für Ordinaldaten sind „verteilungsfrei“, sie vergleichen nur Relationen (= Ordinaldaten) = Rangdaten. Die folgenden Verfahren U-Test und Wilcoxon-Test, vorgestellt in den Punkten: „Vergleich von zwei unabhängigen Stichproben hinsichtlich ihrer zentralen Te ndenz“ und „Vergleich von zwei abhängigen Stichproben hinsichtlich ihrer zentralen Te ndenz“ sind Verfahren für Ordinaldaten. Randomisationstest nach Fisher: Da die hier vorgestellten Verfahren (U-Test & Wilcoxon-Test) auf der Randomisationsidee von Fisher basieren, wird diese kurz erklärt (am Beispiel unabhängiger Gruppen). Das ganze Verfahren steht nicht im Bortz (in B3-Folien) und ist auch nur als Einleitung gedacht. In einem Experiment wurden die Vbn zufällig auf zwei Gruppen (EG und KG) aufgeteilt. Die H0 wäre: Die Daten stammen aus derselben Population. Fishers erstellet eine diskrete Verteilung einer interessierenden Prüfgröße (z.B. D = x1 − x2 ), die auf allen möglichen Aufteilungen aller Messwerte auf die Gruppen basieren. Im Gegensatz zur normalen Stichprobenverteilung, konstruiert Fisher eine Verteilung von Prüfgrößen, die auf Ziehungen ohne Zurücklegen basiert. Konkret geht Fisher alle möglichen Kombinationen durch und bildet pro Gruppe jeweils den Mittelwert. Dann subtrahiert er den einen Mittelwert vom anderen, und erhält eine Verteilung. f(D) 3 2 1 0 -3,2 -2,3 -1,5 -0,7 0,2 1 1,8 3,5 Differenz der Mittelwerte Diese Verfahren für Ordinaldaten erstellt also eine Häufigkeitstabelle, an der man mit simpler Wahrscheinlichkeitsrechnung feststellen kann, wie groß die Irrtumswahrscheinlichkeit eines gemessenen Wertes ist. 51 Methodenlehre B2, B3 & B4 Vergleich von zwei unabhängigen Stichproben hinsichtlich ihrer zentralen Tendenz (U-Test): Wenn wir die Beeinträchtigung der Reaktionszeit unter Alkohol mit der Beeinträchtigung der Reaktionszeit unter Alkohol unter Einnahme des Präparates A (soll den negativen Effekt des Alkohols neutralisieren) vergleichen wollen, können wir nicht davon ausgehen, dass die Reaktionszeiten normalverteilt sind. Dementsprechend können wir nur ein Verfahren für Ordinaldaten anwenden, den sogenannten U-Test (der funktioniert auch für ungleich große Stichproben). Der U-Test ist so etwas ähnliches wie der t-Test für unabhängige Stichproben Als Beispiel: Wir messen bei insgesamt 27 Personen die Reaktionszeiten, bei 12 unter Alkohol und bei 15 unter Alkohol unter Einnahme des Präparates A. Mit Alkohol Reaktionszeit (ms) 85 106 118 81 138 90 112 119 107 95 88 103 Mit Alkohol und Präparat A Rangplatz 4 17 22 2 27 8 21 23 18 9 7 14 Reaktionszeit (ms) 96 105 104 108 86 84 99 101 78 124 121 97 129 87 109 T1 = 172 Tx = Summe der Rangplätze der Bedingung x R = Durchschnitt (Mittelwert) der Rangplätze Rangplatz 10 16 15 19 5 3 12 13 1 25 24 11 26 6 20 T2 = 206 R1 = 14,33 R2 = 13,73 Bestimmung des U-Wertes: Am Beispiel: Die erste Person in Gruppe 1 hat den Rangplatz 4. In Gruppe zwei gibt es 13 Personen mit einem höheren Platz. Die zweite Person in Gruppe 1 hat den Rangplatz 17, der von 5 aus Gruppe 2 übertroffen wird. Die Summe der Rangplatzüberschreitungen ist der U-Wert (also hier: 13+5+..... etc.). Die Summe der Rangplatzunterschreitungen wird mit U’ bezeichnet: U = n1 ⋅ n 2 − U ′ 52 Methodenlehre B2, B3 & B4 Da das zählen sehr langwierig ist, geht das auch mit dieser Formel: U = n1 ⋅ n2 + n1 ⋅ (n1 + 1) − T1 2 Eingesetzt erhalten wir auf das Beispiel bezogen U = 86 und U’ = 94. [U’ erhält man, wenn man in der Formel im Zähler n2 statt n1 und am Ende T2 statt T1 benutzt.] [Zur Kontrolle kann man U = n1 ⋅ n 2 − U ′ anwenden.] Wenn n1 oder n2 größer als 10 sind, sind die Werte annährend normal: Dann erfolgt die Ermittlung des Populationsmittelwertes und des Standardfehlers: µU = n1 ⋅ n2 2 σU = n1 ⋅ n 2 ⋅ (n1 + n2 + 1) 12 Die eigentliche Formel lautet dann: z= U − µU σU Bei unserem Beispiel erhalten wir z = – 0,20 Dann entnehmen wir der z-Tabelle, dass auf einem Alphaniveau von 5% dieser (negative) Wert kleiner ist als unser empirischer z-Wert => Beibehaltung der H0 . Kleinere Stichproben: Bei kleineren Stichproben bestimmt man nur U und schaut dann in der U-Tabelle nach. Wichtig: • Bei verbundenen Rangplätzen (mehrere Personen auf einem Rangplatz) muss die Streuung korrigiert werden (siehe Bortz S. 148) • Beim U-Test muss bei ungerichteter Hypothese das Alphaniveau verdoppelt werden. Vergleich von zwei abhängigen Stichproben hinsichtl. ihrer zentralen Tendenz (Wilcoxon-Test): Der Wilcoxon-Test ist so etwas ähnliches wie der t -Test für abhängige Stichproben. Zuerst wird die Differenz zwischen den zwei Messungen di (z.B. „vorher“ & „nachher“) ermittelt. Danach werden die Rangplätze vom Betrag von di aufgestellt. Dann werden die Rangplätze speziell gekennzeichnet, deren Vorzeichen (das Vorzeichen bei di) weniger vorkommt. Dann werden die Summen der speziell gekennzeichneten und der restlichen Rangplätze aufgestellt. T = Summe der speziell gekennzeichneten Rangplätze T’ = Summe der restlichen Rangplätze (Paare mit di = 0 bleiben unberücksichtigt!) 53 Methodenlehre B2, B3 & B4 Verbundenen Rängen (z.B. drei Personen auf Platz 2) werden gemittelte Rangplätze vergeben. Wenn es keinen Unterschied gibt, erwarten wir als T-Wert (nicht t-Wert, sondern „T“): µT = n ⋅ ( n + 1) 4 n = Anzahl der Messwertpaare, wobei di = 0 unberücksichtigt bleibt. Je deutlicher der empirische T-Wert (das ist „T“) von µT abweicht, desto geringer ist die Chance, dass der gefundene Unterschied zufällig zustande kam. Wenn wir die Summe der speziell gekennzeichneten Rangplätze (T) ermittelt haben, schauen wir in der T-Tabelle (NEIN, NICHT t-Tabelle) beim kritischen Alphaniveau nach. Ist der T-Wert größer, müssen wir die H0 beibehalten. Größere Stichproben: Bei Stichprobengrößen n > 25 geht die T-Verteilung (auch jetzt NICHT t-Verteilung) in eine NV über, so dass man mit der z-Tabelle arbeiten kann. Dazu muss nur noch die Streuung errechnet werden: t i3 − ti n ⋅ (n + 1) ⋅ (2 ⋅ n + 1) − ∑ 2 i =1 24 k σT = k = Anzahl der Rangbindungen und ti = Länge der Rangbindung i Und schon kann man die Formel z= T − µT σT angewendet werden. (Diesen Formelwald muss man aber nicht können.) Der Wilcoxon-Test setzt im Gegensatz zum U-Test Intervallskalenniveau voraus. Trotzdem ist er ein Verfahren für Ordinaldaten. Wieso? Der Wilcoxon-Test vergleicht Ränge, er kommt im Prinzip mit Ordinaldaten aus. Das Problem ist nur, dass er Rangplatzdifferenzen bildet, und so Ordinaldatenniveau dafür nicht mehr ausreicht. Trotzdem ist er jedoch ein nichtparametrisches Verfahren und wird somit unter Verfahren für Ordinaldaten gehandelt. 54 Methodenlehre B2, B3 & B4 Verfahren für Nominaldaten: Nominaldaten sind dann nötig, wenn Häufigkeitsunterschiede im Auftreten bestimmter Merkmale bzw. Merkmalskombinationen analysiert werden sollen Da in fast allen im Bortz in Kapitel 5.3 behandelten Verfahren Prüfstatistiken vermittelt werden, die (annährend) χ 2 -verteilt sind, werden die Verfahren zur Analyse von Häufigkeiten gelegentlich vereinfachend als χ 2 -Methoden bezeichnet. χ 2 -Verfahren dienen also der Analyse von Häufigkeiten. χ 2 -Verfahren können natürlich auch für ordinal- und intervallskalierte Variablen eingesetzt werden, wenn die Häufigkeit bestimmter Merkmale untersucht werden soll. Die Merkmale werden dann wie nominalskalierte Merkmale behandelt, und somit ist auch das Ordinal- oder Intervallskalenniveau im Eimer. • Die erwarteten Häufigkeiten repräsentieren immer die jeweilige Nullhypothese. Übersicht über die χ 2 -Verfahren 2fach gestuft 1 Merkmal a) einmalige Untersuchung: eindimensionaler χ 2 -Test b) zweimalige Untersuchung: McNemar χ 2 -Test c) mehrmalige Untersuchung: Cochran-Q-Test 2 Merkmale 4-Felder χ 2 Test mehrfach gestuft eindimensionaler χ 2 -Test: Vgl. k × l-χ2-Test einer empirischen mit einer theoretischen Verteilung 55 M Merkmale Konfigurationsanalyse für alternative Merkmale Konfigurationsanalyse für mehrfach gestufte Merkmale Methodenlehre B2, B3 & B4 Vergleich der Häufigkeit eines zweifach gestuften Merkmals (eindimensionaler chi2 -Test): Einmalige Untersuchung: An einer Uni sind im Fach Psychologie 869 männliche (Wer’s glaubt, wird selig.) und 576 weibliche Studenten immatrikuliert. Kann man davon ausgehen, dass dieser Unterschied zufällig zustande kam? Die Antwort auf diese Frage (und somit der ganze Rechenweg) ist davon abhängig, wie die Nullhypothese formuliert ist. Fragen wir danach, ob das Verhältnis männlich/weiblich an der ganzen Uni so ist, oder, ob das Geschlechterverhältnis im allgemeinen im Bereich Psychologie 50 : 50 ist. Um es (mir) einfacher zu machen, nehme ich die zweite Hypothese (50 : 50) an. Aufstellen der Hypothesen: H0 : Die empirische Verteilung entspricht der erwarteten Verteilung. H1 : Die empirische Verteilung weicht von der erwarteten Verteilung ab. Zeichenerklärung: f = Häufigkeit = beobachtete Häufigkeit in Kategorie j und f bj fej = erwartete Häufigkeit in Kategorie j, k pej = Anzahl der Kategorien des Merkmals. = erwartete Wahrscheinlichkeit des Merkmals j. Dann Abstimmung der erwarteten Häufigkeiten: fej = pej ⋅ n. D.h. bei unserem Beispiel wäre die Wahrscheinlichkeit für (z.B.) Männer 50%, es gibt insgesamt 1445 Psychologiestudenten, also f ej = 0,5 ⋅ 1445 = 722,5 Eigentliche Formel: χ 2 emp k ( f bj − f ej ) 2 j =1 f ej =∑ mit df = k − 1 An dieser Formel erkennt man die Grundstruktur aller χ 2 -Verfahre n: Alle χ 2 -Verfahren laufen auf einen Vergleich von beobachteten und erwarteten Häufigkeiten hinaus, wobei die erwarteten Häufigkeiten jeweils die geprüfte Nullhypothese repräsentieren. 56 Methodenlehre B2, B3 & B4 Unsere Werte eingesetzt: χ2 = (869 − 722,5) 2 ( 576 − 722,5) 2 + = 59,41 722,5 722 ,5 Feststellen der Freiheitsgrade: df = k – 1 es gibt 2 Kategorien (Männer/Frauen), also df = 1 Die Freiheitsgrade eines χ 2 -Wertes entsprechen der Anzahl der Summanden (wie viele Werte gibt es für fb? Hier zwei, nämlich Männer und Frauen) abzüglich der Bestimmungsstücke der erwarteten Häufigkeiten, die aus den beobachteten Häufigkeiten abgeleitet wurden (es gibt hier nur ein gemeinsames Bestimmungsstück: der Stichprobenumfang n: Die Summe der beobachteten und erwarteten Häufigkeiten ergibt jeweils n.). Feststellen von χ 2 krit : 2 χ krit = χ (2df ;α ) Bei einer gerichteten Hypothese in einem χ 2 -Verfahren wird das Alphaniveau beim Nachschlagen in der Tabelle verdoppelt; soll heißen: bei α = 0,05 schlage ich in der Tabelle bei 10% nach. Das liegt daran, dass alle χ 2 -Verfahren einseitig getestet werden, denn man betrachtet nur die rechte Seite der Verteilungen. Die Überprüfung einer gerichteten Hypothe se ist bei χ 2 -Verfahren nur möglich, wenn der resultierende χ 2 -Wert einen Freiheitsgrad hat. Deswegen kann man bei einer gerichteten Hypothese auch mit der STNV testen, sofern man aus dem empirischen und kritischen χ 2 -Wert die Wurzel zieht. Das Ergebnis eines χ 2 -Tests erhalten wir auch, wenn die Häufigkeit der Alternative 1 (z.B. hier weiblich) über die Binomialverteilung geprüft wird. Ab n < 10 ist das nötig (bei zwei Merkmalen). Entscheidung: Falls χ 2 < χ2 emp k −1, 1− α , Beibehaltung der H0 : Es ist davon auszugehen, dass die Verteilung des untersuchten Merkmals nicht von der unter der H0 erwarteten Verteilung abweicht. Entscheidung bei unserem Beispiel: 2 χ krit ist bei uns 3,84; 2 χ emp ist bei uns 59,41 => Annahme der H1 57 Methodenlehre B2, B3 & B4 Voraussetzungen: • Jede untersuchte Einheit kann eindeutig einer Kategorie zugeordnet werden. • Die erwarteten Häufigkeiten sind in jeder Kategorie größer als 5. Im Falle von k = 2 sollten in jeder Kategorie 10 Elemente erwartet werden. Weitere tolle Modifikationen und Verfahren: Kontinuitätskorrektur: Die Kontinuitätskorrektur, auch Yates-Korrektur genannt, schätzt χ 2 besser, da Häufigkeiten diskret, χ 2 -Werte aber stetig verteilt sind. D.h. jedes f b − f e wird um – 0,5 vermindert. Die Kontinuitätskorrektur wirkt der Tendenz nach konservativ (schützt H 0 ). Der McNemar-Test: Dieser Test wird bei zweimaliger Untersuchung und Prozentunterschieden benutzt, er berück sichtigt nur diejenigen Fälle, bei denen eine Veränderung eingetreten ist. Der Cochran-Q-Test: ist eine Erweiterung des McNemar-Tests, gilt auch für mehrmalige Untersuchungen. Nur anzuwenden bei n ⋅ m > 30 (Wer sich das alles – Kontinuitätskorrektur, McNemar-Test & Cochran-Q-Test – antun möchte: steht alles im Bortz auf S. 155-158) 58 Methodenlehre B2, B3 & B4 Vergleich der Häufigkeit eines k- fach gestuften Merkmals (eindimensionaler chi2 -Test): Diese Variation des eindimensionalen χ 2 -Tests ist mit dem eindimensionalen χ 2 -Test für zweifachgestufte Merkmale ziemlich identisch. Es gibt zwei Möglichkeiten: 1.) Test auf Gleichverteilung (z.B. je 50% Männer/Frauen) und 2.) Test auf andere Verteilungsformen. Für beide Möglichkeiten gilt: Die Formel ist mit dem des eindimensionalen χ 2 -Test für zweifachgestufte Merkmale identisch, es gibt halt nur mehr Bedingungen j, ergo wird die Berechnung langwieriger. χ 2emp ( fbj − f ej ) 2 , mit df = k−1 =∑ f ej j =1 k Bei der Frage, ob sich Variable 1 von den anderen unterscheidet, wird von den Variablen 2 bis k der Durchschnitt gebildet (fungiert als fe) & mit Variable 1 (als fb) über den χ2 - Test verglichen. Die Voraussetzungen sind ebenso identisch, nur dass man bei weniger als fünf erwarteten Hä ufigkeiten pro Kategorie (wie beim eindimensionalen χ 2 -Test für zweifachgestufte Merkmale) anstelle der Binomialverteilung nun eine Multinominalverteilung rechen sollte. All das oben genannt galt noch für beide Möglichkeiten. Die erste Möglichkeit ist hiermit abgeschlossen. Das Folgende bezieht sich auf: Tests auf andere Verteilungsformen. Sofern die H0 nicht behauptet, dass eine Gleichverteilung vorherrscht (z.B. je 50% Männer/Frauen ), haben wir es mit Test für andere Verteilungsformen zu tun, denn es ergibt sich bei steigender Variablenanzahl eine theoretische Verteilung, die mit einer empirischen (beobachteten) Verteilung verglichen wird. Der Vergleich einer empirischen mit einer theoretischen Verteilung heißt Goodness-of-fit-test! Beim Goodness-of- fit-Test werden die erwarteten Häufigkeiten aus einer theoretischen Verte ilung abgeleitet: 59 Methodenlehre B2, B3 & B4 Man kann so z.B. prüfen, ob sich eine empirische Verteilung normalverteilt oder z.B. nach der Poisson-Verteilung verteilt. • Der Goodness-of-fit-Test dient also z.B. der Überprüfung der Voraussetzung, dass Grundgesamtheit normalverteilt (H0 : normalverteilt, H1 : nicht normalverteilt) Problem: die H0 als „Wunschhypothese“ • wenn der χ 2 -Wert auf 5%-Niveau signifikant ist, heißt das, dass die Wahrscheinlichkeit für eine Normalverteilung der Werte kleiner als 5% ist, wenn es nicht signifikant ist, bedeutet es lediglich, dass es mit mehr als 5% Wahrscheinlichkeit normalverteilt ist - mehr nicht. Wir wollen aber die H0 „beweisen“ (sonst will man normalerweise ja die H1 „beweisen“), deshalb versucht man den Beta-Fehler möglichst klein zu halten, nicht Alpha (ist wurscht). Da aber die Hypothese in diesem Fall nicht spezifisch ist, kann der Beta-Fehler nicht bestimmt werden, deswegen wird einfach der Alpha-Fehler enorm vergrößert, z.B. auf 25% Wenn wir auf 25%tigem Alphaniveau testen und die H1 dann immer noch nicht signifikant ist, haben wir H0 gesichert. • Beachtet: die H0 als Wunschhypothese beizubehalten, wird mit wachsendem Stichprobenumfang unwahrscheinlicher! Der Goodness-of-fit-Test: Zuerst werden die Daten in Kategorien eingeteilt, d.h. wenn wir einen Wert haben, können wir ihn in eine Kategorie packen. Ein gutes Beispiel wären die gemessenen km/h der Wagen, eingeteilt in 10er-Kategorien, beginnend von 60km/h bis (sagen wir mal) 220 km/h. (Das Ganze läuft unter der H 0 , das unsere Kategorien normalverteilt sind.) Also eine Tabelle: Intervall Beobachtete Häufigkeiten Erwartete Häufigkeiten 60,0-69,9 km/h 70.0-79,9 km/h etc. 4 10 etc. 3 6 etc. Der kritische χ 2 -Wert lautet ausgeschrieben ( fb − f e )2 fe 0,33 2,67 etc. Die Summe davon ergibt den empirischen χ 2 -Wert χ2(k−3, 1−α), somit sind die Freiheitsgrade df = k – 3, wobei k die Anzahl der Kategorien angibt. Poisson-Verteilung: Bei einer Frage nach einer Poisson-Verteilung sind die Freiheitsgrade df = k – 2. Vom Prinzip läuft es wie oben, nur werden die erwarteten Häufigkeiten nach der PoissonVerteilung ermittelt (Formel im Bortz S. 71; der Rest S. 161 & 162) 60 Methodenlehre B2, B3 & B4 Vergleich der Häufigkeiten von zwei alternativen Merkmalen (4-Felder-chi2 -Test): Werden n voneinander unabhängigen Beobachtungen nicht nur einer, sondern zwei Merkmalsalternativen zugeordnet, erhalten wir eine 4-Felder-Kontingenztafel bzw. eine bivariate Häufigkeitsverteilung. Und schon sind wir bei einem 4 -Felder- χ 2 -Test. (den kann man auch schon k × l-χ2 -Test nennen) Ein Beispiel: 100 Personen sollen auf die Merkmalsalternativen männlich/weib lich und Brillenträger/Nicht-Brillenträger untersucht werden. mit Brille ohne Brille männlich 25 25 50 weiblich 10 40 50 35 35 100 Jetzt gibt es zwei Möglichkeiten: 1.) Vorgegebene erwartete Häufigkeiten und 2.) Geschätzte erwartete Häufigkeiten Vorgege bene erwartete Häufigkeiten: Dann könnte unsere vorgegebene H0 lauten: Brillenträger = 30% in der Bevölkerung Männer/Frauen ja 50% in der Bevölkerung Dementsprechend währen unsere Wahrscheinlichkeiten p(Brille, Mann) =0,15 p(Brille, Frau) =0,15 p(ohne Brille, Mann) =0,35 p(ohne Brille, Frau) =0,35 Dann setzten wir das ein in folgende Formel: 2 2 χ2 = ∑∑ ( f b (i , j ) − f e (i , j ) ) 2 f e (i , j ) i =1 j =1 und bekommen ein χ 2 = 11,90 Die Freiheitsgrade df = 2 x 2 – 1 = 3 df Dementsprechend ist unser kritisches χ 2 = 11,34 Brillen, Männer mehr Brillen als erwartet. 61 => Annahme der H1, Frauen tragen weniger Methodenlehre B2, B3 & B4 Geschätzte erwartete Häufigkeiten: Beim 4-Felder-χ2 -Test entsprechen die erwarteten Zellenhäufigkeiten den bei stochastischer Unabhängigkeit zu erwartenden: f eij = p i ⋅ p j ⋅ n = (Summe Zeile i ) ⋅ (Summe Spalte j) . n Der Rest läuft wie bei vorgegebenen Nullhypothesen, nur sind die Freiheitsgrade df = 1 df. Dementsprechend ist auch das kritische χ 2 anders. Auch hier wird übrigens die H1 angenommen (Bortz S. 164) Kontinuitätskorrektur: • Auch hier ist eine Kontinuitätskorrektur nach Yates möglich Prozentunterschiede: • laufen genauso wie beim eindimensionalen χ 2 -Test Vergleich der Häufigkeiten von zwei mehrfach gestuften Merkmalen (k x l-chi2 -Test): Im vorherigen Punkt waren beide Merkmale jeweils zweifach gestuft. Beim k × l-χ 2 -Test ist die Anzahl der Stufen unwichtig Das Merkmal A ist k-fach gestuft und das Merkmal B l-fach. Der k×l-χ 2-Test überprüft die Alternativhypothese: • H1 , dass zwischen zwei Merkmalen ein irgendwie gearteter Zusammenhang besteht, gegen die Nullhypothese • H0 , dass es zwischen den beiden Merkmalen keinen Zusammenhang gibt bzw. die Merkmale stochastisch unabhängig sind. Das Verfahren läuft wie beim 4-Felder- χ 2 -Test: χ k 2 emp l = ∑∑ ( f bij − f eij ) 2 i =1 j =1 f eij Beim k×l-χ2-Test entsprechen die erwarteten Zellenhäufigkeiten den bei stochastischer Unabhä ngigkeit zu erwartenden: f eij = p i ⋅ p j ⋅ n = (Summe Zeile i ) ⋅ (Summe Spalte j) . n 62 Methodenlehre B2, B3 & B4 Freiheitsgrade: Bei geschätzten erwarteten Häufigkeiten: df = (k − 1)⋅ (l − 1) Bei vorgegebenen erwarteten Häufigkeiten: df = (k − 1)⋅ (l − 1) – 1 Entscheidung Falls χ 2 > χ2 emp ( k −1)( l −1), 1− α , Entscheidung für die H1 : Es ist davon auszugehen, dass die Vari- ablen voneinander stochastisch (irgendwie) abhä ngig sind. Voraussetzungen • Jede untersuchte Einheit kann eindeutig den Kategorien (Zellen) zugeordnet werden. • Die erwarteten Häufigkeiten sind alle größer als 5. Der k×l-χ 2 -Test und der 4-Felder- χ 2 -Test lassen sich auch mit Prozentwerten durchführen. Vgl. d. Häufigkeiten von m alternativ oder mehrf. gestuften Merkmalen (Konfigurationsanalyse): Verallgemeinern wir das 4-Felder χ 2 auf m alternative Merkmale, erhalten wir eine mehrdimensionale Kontingenztafel, die mit der Konfigurationsanalyse analysiert werden kann. Ein Beispiel: Wir überprüfen, ob Frauen, die in der Stadt leben, überzufällig berufstätig sind ( α = 0.01). Also haben wir drei alternative Merkmale (m = 3): A= Stadt (+) vs. Land ( – ) B = männlich (+) vs. weiblich ( – ) C = berufstätig (+) vs. nicht berufstätig ( – ) Merkmal Häufigkeiten A B C fb fe ( fb − f e )2 fe + + + + - + + + + - + + + + - 120 15 70 110 160 10 20 135 nb = 640 86,79 63,33 95,32 69,56 89,54 65,34 98,35 71,77 ne = 640 12,71 36,88 6,73 23,51 55,45 46,87 62,42 55,71 2 χ = 300,28 63 Methodenlehre B2, B3 & B4 Die erwarteten Häufigkeiten werden geschätzt mit: f e (i , j ,k ) = ( Summe Ai ) ⋅ (Summe B j ) ⋅ ( Summe C k ) n2 In unserem Beispiel lauten die Summen A(+) = 315 A(–) = 325 B(+) = 305 B(–) = 335 C(+) = 370 C(–) = 270 (z.B. fe(+++) = 315 x 305 x 370 / 6402 = 86,79) Freiheitsgrade: df = 1 df Der kritische Wert (5,43) ist kleiner als der Empirische (6,73) für unsere These, dass in der Stadt mehr Frauen berufstätig sind. Da das aber unsere H0 war, müssen wir nun die H0 annehmen bzw. beibehalten (nicht davon verwirren lassen, ist ein Fehler bei der Hypothesenaufstellung). Allgemeine Bemerkungen zu den chi2 -Techniken: χ 2 -Techniken gehören – von der Durchführung her – zu den einfachsten Verfahren der Eleme ntarstatistik, wenngleich der mathematische Hintergrund dieser Verfahren komplex ist. Mit Hilfe der χ 2 -Verfahren werden die Wahrscheinlichkeiten multinominalverteilter Ereignisse geschätzt (wobei die Schätzung erst bei n → ∞ exakt übereinstimmen). Deshalb sollte beachtet werden: • Die einzelnen Beobachtungen müssen voneinander unabhängig sein (Ausnahme: McNemar& Cochran-Test) • Jede untersuchte Einheit muss eindeutig einer Kategorie zugeordnet werden können. • Nicht mehr als 20% der erwarteten Häufigkeiten in den Kategorien sollten kleiner als 5 sein. 64 Methodenlehre B2, B3 & B4 Verfahren zur Überprüfung von Zusammenhangshypothesen: Die Verfahren zur Überprüfung von Zusammenhangshypothesen haben der u.a. psychologischen Forschung so viel Impulse wie kein anderes statistisches Verfahren verliehen. Zusammenhänge sind in der Mathematik und in den Naturwissenschaften bekannt, z.B. verändert sich der Umfang eines Kreises proportional zu seinem Umfang. Solche exakten, funktionalen Zusammenhänge haben wir in der Psychologie nicht. Deswegen sprechen wir von stochastischen (zufallsabhängigen) Zusammenhängen, die nach Höhe des Zusammenhangs unterschiedlich präzise Vorhersagen zulassen. (Bei einer Korrelation von +1 oder –1 geht unser stochastischer Zusammenhang über in einen funktionalen, deterministischen Zusammenhang.) Im Kapitel „Merkmalszusammenhänge & –vorhersagen“ habe ich einige Punkte aus dem 6. K apitel im Bortz vorgezogen – also bitte nicht wundern, wenn jetzt was „fehlt“. Die behandelten Punkte waren, bezogen auf die Bortz-Unterkapitel: • 6.1 Lineare Regression, dabei: Kovarianz und Regression • 6.2.1 Kovarianz und Korrelation, dabei: Produkt-Moment-Korrelation; Korrelation und Regression; Beobachtete, vorhe rgesagte und Residualwerte; Determinationskoeffizient • 6.4 Korrelation und Kausalität Die Statistische Absicherung von linearen Regressionen: Regressionsgleichungen werden auf der Grundlage einer repräsentativen Stichprobe bestimmt, um sie auch auf andere Untersuchungseinheiten, die zur selben Population gehören, anwenden zu können. Das bedeutet aber, dass eine (auf Basis einer Stichprobe gebildete) Regressionsgleichung generalisierbar sein muss. Aus dieser Population können wir eine durch (unendlich) viele Stichproben wieder eine SKV bilden. Je größer aber die Streuung (der Standardfehler) dieser SKV ist, desto weniger werden die Werte einer einzelnen Stichprobe (hier: einer einzelnen Regressionsgerade) die Regressionsgerade der Population vorhersagen können. Die nach der Methode der kleinsten Quadrate ermittelte Regressionsgleichung stellt nur eine Schätzung der folgenden, in der Population gültigen, Regressionsgerade dar: yˆ *j = β yx ⋅ x j + α yx yˆ *j kennzeichnet hierbei einen vorhergesagt wurde. ŷ -Wert, der aufgrund der Populations-Regressionsgleichung • Wichtig: nicht die Punktabstände zur Geraden minimieren, sondern die Abstände in yRichtung, damit für die Vorhersage x auf y optimiert, deswegen gibt es für eine Regression von y auf x auch andere Koeffizienten a & b. 65 Methodenlehre B2, B3 & B4 Voraussetzungen: • Unsere SKV verteilt sich (gemäß Abb. 6.7 im Bortz S. 183) als bivariate Häufigkeitsverteilung: a.) Die Verteilung der x-Werte muss für sich genommen normal sein. b.) Die Verteilung der y-Werte muss für sich genommen normal sein. c.) Die zu einem x-Wert gehörenden y-Werte (Arrayverteilungen)* müssen normalverteilt sein. d.) Die Mittelwerte der Arrayverteilungen müssen auf einer Gerade liegen. * Ein Arrayverteilung von y-Werten (zu natürlich jeweils zu einem x-Wert gehören) bedeutet, das bei nicht perfektem Zusammenhang gleiche Untersuchungen eines bestimmten x-Merkmals verschiedene y-Merkmale aufweisen. Die Genauigkeit der Regressionsvorhersagen: Die Genauigkeit der Regressionsvorhersagen wird durch den Standardschätzfehler (STSF) bestimmt. (Formel siehe Bortz S. 185) Der Standardschätzfehler kennzeichnet die Streuung der y-Werte um die Regressionsgerade und ist damit ein Gütemaßstab für die Genauigkeit der Regressionsvorhersagen. Die Genauigkeit einer Regressionsvorhersage wächst mit kleiner werdendem Standardschätzfehler. Determinanten der Vorhersagegenauigkeit (durch Konfidenzintervalle): Durch Konfidenzintervalle kann man die Vorhersagegenauigkeit einzelner Punkt um und auf einer Regressionsgeraden bestimmen. y Regressionsgerade Konfidenzintervalluntergrenze Konfidenzintervallobergrenze x Bestimmung der Größe des Konfidenzintervalls (KI): • Je kleiner der Konfidenzkoeffizient ( 1 − α ), desto kleiner KI • Je kleiner der Standardschätzfehler (STSF), desto kleiner KI. • Je kleiner n, desto größer KI. • Je kleiner die Varianz x (y ist im STSF), desto kleiner KI. 66 Methodenlehre B2, B3 & B4 Nonlineare Regression: Gelegentlich erwartet man, dass eine nicht- lineare Beziehung eine bessere Vorhersage macht als eine lineare Beziehung. Als Beispiel mit einer nicht- und einer linearen Regression: X Y 1 1 1 3 2 7 2 9 4 6 4 8 12 10 8 6 4 2 0 -2 -4 -6 -8 Y -10 1,00 2,00 4,00 X Hier dürfte die nicht- lineare Beziehung die Punkte besser vorhersagen (Grafik aus den B3-Folien, leicht abgewandelt) Varianten (einige ausgewählte): Umgekehrt U-förmige Beziehung (Bortz S. 189): Eine umgekehrt U- förmige bzw. parabolische Beziehung wird durch eine quadratische Regressionsgleichung oder ein Polynom 2. Ordnung modelliert. yˆ = a + b1 ⋅ x + b2 ⋅ x 2 Polynome höherer Ordnung: Ein (umgekehrt) S- förmiger Zusammenhang lässt sich durch eine kubische Regressionsgleichung bzw. ein Polynom 3. Ordnung anpassen: yˆ = a + b1 ⋅ x + b2 ⋅ x 2 + b3 ⋅ x 3 67 Methodenlehre B2, B3 & B4 Nonlineare Zusammenhänge, die über ein Polynom 3. Ordnung hinausgehen, können in der u.a. psychologischen Forschung nur sehr selten begründet werden. Die Aufstellung eines solchen Polynoms kann bestenfalls ex post (= ohne theoretische Vorannahmen) sinnvoll sein. [Die Regressionsgleichung wird einfach um weitere b und x erweitert, wobei der Exponent pro weiterem b um 1 erhöht wird.] Linearisierung: Über Logarithmierung kann man die Funktion von Gleichungen ermitteln. Geht man von einem exponentiellen Zusammenhang von zwei Variablen aus, erhält man die Gleichung: yˆ = a ⋅ x b Durch Logarithmierung (siehe Bortz S. 192) gelangt man schlussendlich zu folgender Gleichung: yˆ ′ = a′ + b′ ⋅ x Was verteufelt wie eine lineare Regression aussieht. [Ganz exakt sind die so ermittelten Regressionskoeffizienten leider nicht, sie unterscheiden sich von denen, die wir mit der Methode der kleinsten Quadrate ermitteln würden.] ------------------------------------------------------------------------------------------------------------- Interpretationshilfen für r: Angenommen ein Schulpsychologo ermittelt eine Korrelation von r = 0,60 zwischen Abiturschnitt (y) und Intelligenzquotienten (x). Was bedeutet diese Zahl? Um das zu veranschaulichen, dichotomisieren wir beide Variablen am Median und erhalten eine 4-Felder-Tafel. (dichotom = ein Merkmal mit nur zwei Ausprägungen, z.B. Geschlecht. Man kann aber auch intervallskalierte Daten dichotomisieren, d.h. zweiteilen. D.h. hier teilen wir am Median in zwei Hälften.) Wenn wir dem Schulpsychologen jetzt auftragen, mal zu schätzen, wie sich die Abiturschnitte und IQs bei 200 Schülern verteilen, wenn er am Median teilen soll, so werden bei keinem Zusammenhang (r = 0) je 50 Schüler pro Kategorie verteilt sein. Aber es verteilt sich so bei r = 0,60: IQs (x) < Mdx > Mdx Abischnitt (y) < Mdy > Mdy 80 20 20 80 100 100 68 100 100 200 Methodenlehre B2, B3 & B4 Wieso? Bei zwei symmetrischen, mediandichotomisierten Merkmalen gibt r an, um wie viel der Fehler minimiert wird. Im Beispiel betrug der Fehler bei Zufallsverteilung (je 50 n pro Kategorie) 50% Diese 50% reduziert um r = 0,60 bzw. 60% von 50 = 30. Diese 30 werden einer Korrelation von r = 0,60 nicht mehr falsch eingeordnet, sondern richtig, d.h. Die Fehler (50%), die wir bei der Vorhersage von x durch y machen (großes y = großes x), werden bei e iner Korrelation von 0,60 um 30 % vermindert. Mehr Infos Bortz S. 201/202. k-fach gestufte Merkmale: Diese Variante ist einfach eine Erweiterung der 4-Felder-Matrix um weitere Kategorien. Eine Besonderheit dabei ist, dass größere Abweichungen um mehrere Kategorien stärker „bestraft“ werden als andere. Vom Prinzip wie die 4-Felder-Matrix, jedoch aufwendiger zu rechnen. Wer mehr wissen will: Steht alles im Bortz auf S. 203/204. Korrelation für nonlineare Zusammenhänge: Der Zusammenhang zwischen nonlinearen Variablen lässt sich ermitteln, indem man die Varianz der vorhergesagten Werte durch die Varianz der tatsächlichen Werte teilt: r = 2 s 2yˆ s 2y Überprüfung von Korrelationshypothesen: Wird aus einer bivariaten, intervallskalierten Grundgesamtheit eine Stichprobe gezogen, kann ein Korrelationskoeffizienz r berechnet werden. Er zeigt den linearen Zusammenhang zwischen den zwei Merkmalen an, bzw., quadriert (r 2 ), den Anteil gemeinsamer Varianz. Voraussetzungen: • Grundgesamtheit bivariat normalverteilt • Kovarianz & Korrelation der Grundgesamtheit bekannt • Die einzelnen Merkmalsstufenkombinationen müssen voneinander unabhängig sein. Die ganzen Voraussetzungen sind aber ein bisschen schwierig zu erfüllen (siehe Bortz S.205), dementsprechend beschränkt man sich darauf, dass beide einzelnen Merkmale NV sind, die Arrayverteilungen Normalverteilt sind und die Varianzen der Arryverteilungen homogen ist. Wenn man diese Voraussetzungen missachtet, muss man mit größerem Alpha- und Beta-Fehler rechnen. Trotzdem ist der Test relativ robust. 69 Methodenlehre B2, B3 & B4 Signifikanztest: Ob eine empirisch ermittelte Korrelation r mit der Hypothese H0 : ρ = 0 zu vereinbaren ist, lässt sich mit folgender Prüfgröße testen: t emp = r ⋅ n −22 , mit df = n−2. 1− r Ab n > 3 kann man zeigen, dass der Ausdruck bei df = n – 2 t-verteilt ist. Entscheidung: ungerichtet falls ... Annahme ... rechtsseitig |temp |>|t(df; α /2)| linksseitig temp > t(df; 1−α ) H1: ρ ≠ 0 H1 : ρ > 0 temp < t(df; α) H1 : ρ < 0 Für den zweiseitigen Test einer Korrelation sind in der Tabelle D (Bortz 1999, S. 775) kritische Wert für α = 0,05 und α = 0,01 angegeben. Diese Werte erhält man, wenn man obige Prüfgröße nach r auflöst: rkrit = tkrit 2 n − 2 + t krit . Fischers Z-Transformation: Besteht in der Grundgesamtheit ein Zusammenhang ρ ≠ 0 , erhalten wir für (theoretisch unendlich) viele Stichproben eine rechts- ( ρ > 0) oder linkssteile ( ρ < 0) SKV der Korrelationen. Eine Nullhypothese mit einem ρ ≠ 0 kann somit nichts mehr messen (da asymmetrisch). Diese rechts- oder linkssteile Verteilung lässt sich durch Fishers Z-Transformation wieder in Normalverteilung transformieren: 1 1 + r Z = ⋅ ln 2 1 − r aufgelöst nach r e 2Z − 1 r = 2Z e +1 wobei ln = Logarithmus zur Basis e(≈ 2 ,718 ) . Je weiter ρ von +/-1 entfernt und je größer n ist, desto normalverteilter ist die Kurve nach Fischers Z-Transformation Weiterhin sind die trans formierten Werte Teil einer Verhältnisskala (fester Nullpunkt), man kann nämlich bei einer Korrelation nicht davon ausgehen, dass der Zusammenhang bei r = 0,4 halb so groß ist wie bei r = 0,8! 70 Methodenlehre B2, B3 & B4 Wenn es transformiert wird zeigt sich: die Zuwachsraten im obe ren Korrelations-Bereich sind bedeutsamer. Auch Mittelwerte & Varianzen von einer Korrelation sind nicht interpretierbar, sofern sie nicht transformiert wurden. Bei Mittelwertsbildung von (z.B. 3) Korrelationen also erst transformieren, dann Mittel der Fisher-Z-Werte bilden, dann dieses Mittel rücktransformieren: Dabei werden höhere Korrelationen stärker be rücksichtigt als niedrige. Es gibt mehrere Variationsmöglichkeiten von Fischers Z-Transformation, sie stehen im Bortz auf den Seiten 210 – 214. Wen es interessiert, der möge es nachschlagen. Ich glaube aber nicht, dass das für die Prüfung in irgendeiner Form relevant sein könnte. Spezielle Korrelationstechniken: Unter dem Punkt „Überprüfung von Korrelationshypothesen“ ging es um die Produkt-MomentKorrelation zweier intervallskalierter Merkmale. Das Ganze geht aber natürlich auch mit ordinal- und nominalskalierten sowie dichotomen Merkmalen. Übersicht der bivariaten Korrelationsarten: Merkmal x Merkmal y Intervallskala dichotomes Merkmal Ordinalskala Intervallskala Punkt-biseriale Korrelation Φ -Koeffizient Rangkorrelation dichotomes Merkmal Produkt-MomentKorrelation - Ordinalskala - - Biseriale Rangkorrelation Rangkorrelation Dazu gibt es noch den Kontingenzkoeffizienten, der den Zusammenhang zweier nominalskalierter Merkmale bestimmt. Da dieser Koeffizient aber kein Korrelationsmaß im engeren Sinn darstellt, ist er nicht in der Tabelle. I.) Korrelation zweier Intervallskalen: Berechnung der Produkt-Moment-Korrelation, siehe „Überprüfung von Korrelationshypothesen“ 71 Methodenlehre B2, B3 & B4 II.) Korrelation einer Intervallskala mit einem dichotomen Merkmal: A.) Punktbiseriale Korrelation: Ein Zusammenhang zwischen einem dichotomen Merkmale (z.B. männlich/weiblich) und einem intervallskalierten Merkmal (z.B. Körpergewicht) wird durch eine punktbiseriale Korrelation (auch Produkt-Moment-biseriale Korrelation genannt) erfasst. Eine punktbiseriale Gleichung erhält man, wenn die Werte 0 und 1 für die beiden dichotomen Variablen in die Produkt-Moment-Korrelations-Gleichung eingesetzt werden. Dadurch vereinfacht sich die Korrelationsformel: rpb = y1 − y0 n ⋅n ⋅ 0 2 1 sy n wobei n0, n1 = y0 , y1 = Anzahl der Untersuchungseinheiten in den Merkmalskategorien x0 und x1 . durchschnittliche Ausprägung des Merkmals y (Körpergewicht) bei den Untersuchungseinheiten x0 (Männer) und x1 (Frauen). n = n0 + n1 = Gesamtstichprobe sy = Streuung der kontinuierlichen y-Variablen Die Signifikanzüberprüfung ( H0 : ρ = 0) erfolgt wie bei der Produkt-Moment-Korrelation durch: t= r pb (1 − rpb2 ) /(n − 2) Der so ermittelte t-Wert ist mit n – 2 Freiheitsgraden versehen und in der t-Tabelle mit tkrit verglichen. Die punktbiseriale Korrelation entspricht ( als Verfahren zur Überprüfung von Zusammenhangshypothesen) dem t-Test für unabhängige Stichproben ( als Verfahren zur Überprüfung von Unterschiedshypothesen). B.) Biseriale Korrelation: Bei einem künstlich dichotomisierten Merkmal und einem intervallskalierten Merkmal wird eine biseriale Korrelation (rbis) durchgeführt. • Biseriale Korrelation (r bis) und Punktbiseriale Korrelation (r pb) hängen statistisch zusammen. • Es gibt auch noch triseriale und polyseriale Korrelation • Das steht alles im Bortz auf S. 216-218 III.) Korrelation einer Intervallskala mit einer Ordinalskala: • Richtige Verfahren hierfür gibt es (noch) nicht. Für die Praxis: Herabstufung der Intervallskala auf Ordinalskalenniveau, Anwendung der Korrelation zweier Ordinalskalen. 72 Methodenlehre B2, B3 & B4 IV.) Korrelation für zwei dichotome Variablen: Wenn die Merkmale x und y jeweils dichotom sind, kann ihr Zusammenhang durch den Phi-Koeffizienten ( Φ ) ermittelt werden Da es nur 4 Häufigkeiten gibt... Merkmal (y) Merkmal (x) 0 a c 0 1 1 b d ….ist die Berechnung von Φ einfach: Φ= a ⋅d −b⋅ c (a + c) ⋅ (b + d ) ⋅ (a + b) ⋅ ( c + d ) Es gibt einen engen Zusammenhang mit dem 4-Felder-χ 2, deshalb Signifikanzprüfung mittels χ 2 = n⋅Φ mit df = 1 Der Zusammenhang zwischen dem 4-Felder-χ 2 und Phi-Koeffizienten: χ2 n Φ= Achtung: Der Φ-Koeffizient liegt nur im üblichen Wertebereich von -1 bis +1, wenn die Aufteilung der Stichprobe in Alternativen von x der in die Alternativen von y entspricht, also bei identischen Randverteilungen. Ansonsten gibt es einen geringerer Φmaximal -Wert (ist mit Formel berechenbar) Bei der Bestimmung von Φmax ist darauf zu achten, dass • das Vorzeichen von Φ max mit dem Φ emp von übereinstimmt. • das Vorzeichen von Φ max beliebig ist. Gelegentlich versuchen Einige die Aufwertung eines empirischen Φ-Wertes am Φmax , um es vergleichbar mit der Produkt-Moment-Korrelation zu machen, das ist aber fragwürdig, da auch die Produkt-Moment-Korrelation nur bei identischen Randverteilungen einen Wertebereich von -1 bis +1 aufweist. Sind beide Variablen künstliche Dichotomien , arbeitet man mit einer Tetrachorischen Korrelation. (siehe Bortz S. 220/221) 73 Methodenlehre B2, B3 & B4 V.) Korrelation eines dichotomen Merkmals mit einer Ordinalskala: Die Korrelation eines dichotomen Merkmals mit einer Ordinalskala – auch biseriale Rangkorrelation (rbisR) genannt – wird berechnet, wenn ein Merkmal (x) in künstlicher oder natürlicher Dichotomie vorliegt und das andere Merkmal (y) rangskaliert. (ähnlich dem U-Test) rbisR = 2 ⋅ ( y1 − y 2 ) n wobei y1 = durchschnittlicher Rangplatz der zu x1 gehörenden Untersuchungseinheiten y2 = durchschnittlicher Rangplatz der zu x2 gehörenden Untersuchungseinheiten n= Umfang der Stichprobe Der kritische Wert wird – bei hinreichend großen Stichproben – mit dem U-Test berechnet: z= U − µU σU VI.) Korrelation zweier Ordinalskalen (Spearman’s Rho): Der Zusammenhang zweier ordinalskalierter Merkmale wird durch die Rangkorrelation nach Spearman (rs oder ρ )erfasst. Errechnung des kritischen Wertes ab n ≥ 30 Eigentliche Formel: n rs = 1 − 6 ⋅ ∑ d i2 i =1 2 t= n ⋅ ( n − 1) rs (1 − rs2 ) /(n − 2) df = n – 2 (Dieselbe Formel wie bei der punktbiserialen Korrelation) • bei verbundenen Rängen gibt es Modifikationen (Bortz S. 224) VII.) „Korrelation“ zweier Nominalskalen (Kontingenzkoeffizient): Das bekannteste Maß zur Berechnung des Zusammenhangs zweier Nominalskalen ist der Kontingenzkoeffizient C. Dieser Test hängt eng mit dem k × l-χ 2-Test zusammen, mit dem wir auch die H0 überprüfen, ob zwei nominalskalierte Merkmale stochastisch unabhängig sind. Eigentliche Formel: C= χ2 χ2 + n wobei χ2 = -χ2 Wert des k × l-χ2 -Tests. 74 1 2 1. WAS IST EIGENTLICH STATISTIK? ...................................................................5 1.1. Definitionsversuch für den Begriff Statistik .............................................................................................. 5 1.2. Das Problem der Verarbeitung von Massenereignissen durch subjektive Erfahrung .......................... 6 1.3. Statistik: Unsicherheit und Ängste............................................................................................................. 7 1.4. Probleme der Lernmotivation in bezug auf Statistik................................................................................ 8 2. DIE FRAGE DER MEßBARKEIT: MEßNIVEAUS...............................................10 2.1. Nominal-Niveau der Messung................................................................................................................... 10 2.1.1. Die Nominalskala...................................................................................................................................10 2.1.2. Die formalen Bedingungen der Klassifikation.......................................................................................11 2.2 Ordinal-Niveau der Messung..................................................................................................................... 12 2.3 Intervall-Niveau der Messung.................................................................................................................... 12 2.4. Ratio- oder Verhältnisniveau der Messung ............................................................................................. 13 2.4.1. Stetige Merkmale ...................................................................................................................................13 2.4.2. Diskrete Merkmale.................................................................................................................................14 2.5 Das Problem der Kombination unterschiedlicher Meßniveaus .............................................................. 15 2.6. Qualitative und quantitative Untersuchungen ........................................................................................ 15 3. EINFACHE BESCHREIBUNGEN VON MASSENEREIGNISSEN - UNIVARIATE VERTEILUNGEN ....................................................................................................16 3.1 Der Begriff "Verteilung"............................................................................................................................ 16 3.2 Ordnung und Klassifikation von Daten – graphische Darstellungen..................................................... 20 3.3. Zusammenfassung der Information aus Häufigkeitsverteilungen ........................................................ 24 3.3.1. Daten auf dem Intervall- und Ratio-Niveau der Messung - Lage- und Streuungsmaße ........................24 3.3.1.1 Maße der zentralen Tendenz und Lagemaße....................................................................................29 3.3.1.2 Arithmetisches , geometrisches Mittel und harmonisches Mittel.....................................................30 3.3.1.3. Der Median .....................................................................................................................................32 3.3.1.4 Arithmetisches Mittel und Median bei klassifizierten Werten.........................................................33 3.3.1.5. Weitere Lagemaße: N-tile und Prozentränge ..................................................................................34 3.3.1.6. Modi................................................................................................................................................35 3.3.1.7. Relative, prozentuale und kumulierte Häufigkeiten; Wahrscheinlichkeit.......................................36 3.3.1.8. Zur unterschiedlichen Leistung der verschiedenen Mittelwerte. ....................................................41 3.3.2. Streuungsmaße: Range, Quartilabstand, durchschnittliche, absolute und quadrierte Abweichungen vom Mittelwert, Varianz und Standardabweichung.................................................................................................42 3.3.2.1. Berechnungsweise für die Varianz und die Standardabweichung nach einer vereinfachenden Formel ..........................................................................................................................................................44 3.3.3. Daten auf dem Ordinal- und Nominal-Niveau. Lage- und Streuungsmaße ...........................................47 4. WAHRSCHEINLICHKEIT UND THEORETISCHE VERTEILUNGEN.................47 4.1. Begriff Wahrscheinlichkeit ....................................................................................................................... 47 4.2 Theoretische Verteilungen ......................................................................................................................... 49 4.2.1 Allgemeines ............................................................................................................................................49 3 4.2.2 Diskrete Ereignisse .................................................................................................................................49 4.2.3 Stetige Ereignisse....................................................................................................................................49 4.3.Beispiele für theoretische Verteilungen .................................................................................................... 49 4.3.1 Gleichverteilung - diskret........................................................................................................................49 4.3.2 Gleichverteilung - stetig..........................................................................................................................50 4.4. Kombinatorik als Voraussetzung zur Herleitung von theoretischen Verteilungen ............................. 51 4.4.1. Permutationen ........................................................................................................................................53 4.4.2 Kombinationen........................................................................................................................................54 4.4.2.1. Kombinationen ohne Zurücklegen mit Unterscheidung der Anordnung ........................................54 4.4.2.2. Kombinationen ohne Zurücklegen ohne Unterscheidung der Anordnung......................................54 4.4.2.3 Kombinationen mit Zurücklegen unter Berücksichtigung der Anordnung......................................54 4.4.2.4 Kombinationen mit Zurücklegen ohne Berücksichtigung der Anordnung ......................................55 4.4.2.5. Anwendung dieser Formeln auf ein Beispiel: Urne mit 6 Kugeln .................................................55 EXKURS ZUR BERECHNUNG DER SUMME VON ZAHLENFOLGEN UND DER HÄUFIGKEIT VON WÜRFELSUMMEN; WÜRFELBEISPIELE ZUR KOMBINATORIK ....................................................................................................61 4.5. Die Binomialverteilung .............................................................................................................................. 65 4.6. Die geometrische Verteilung ..................................................................................................................... 70 4.7. Die hypergeometrische Verteilung ........................................................................................................... 71 4.8 Die Poissonverteilung.................................................................................................................................. 73 4.9. Die Normalverteilung und die Prüfung einer Verteilung auf Normalität ............................................ 73 5. PRÜFVERTEILUNGEN.......................................................................................78 5.1. Die Chi-Quadrat-Verteilung .................................................................................................................... 78 5.2 Die t-Verteilung......................................................................................................................................... 81 5.3 Die F-Verteilung........................................................................................................................................ 83 6. DER STANDARDFEHLER VON STICHPROBENKENNWERTEN ....................85 6.1. Allgemeines................................................................................................................................................. 85 6.2. Der Standardfehler des arithmetischen Mittels ...................................................................................... 85 6.2.1 Demonstration des Standardfehlers des arithmetischen Mittels..............................................................85 6.2.2. Zur Bedeutung des Standardfehlers des arithmetischen Mittels ............................................................87 6. 3. Der Standardfehler von Prozentsätzen ................................................................................................... 90 7. STATISTISCHE TESTS ......................................................................................90 7.1. Zur Terminologie ....................................................................................................................................... 90 7.2. Zur Struktur der Statistischen Tests........................................................................................................ 91 7.3. Beispiele ...................................................................................................................................................... 91 7.3.1. Z-Test und t-Test auf Abweichung der Stichprobe von der Grundgesamtheit ......................................91 7.3.1.1. Z-Test..............................................................................................................................................91 4 7.3.1.2. t-Test ...............................................................................................................................................93 7.3.2. t-Test für die Differenz zweier Mittelwerte aus unabhängigen Stichproben aus 2 varianzhomogenen Grundgesamtheiten ..........................................................................................................................................93 7.3.3. Der F-Test ..............................................................................................................................................96 7.3.4. t-Test für die Differenz zweier Mittelwerte aus varianzheterogenen Grundgesamtheiten.....................96 7.3.5. t-Test für Mittelwertsdifferenzen aus abhängigen Stichproben.............................................................98 7.3.6. Der Binomialtest ..................................................................................................................................100 7.3.7. Chiquadrat-Test....................................................................................................................................103 7.3.7.1. Allgemeines ..................................................................................................................................103 7.3.7.2. Eindimensionales und zweidimensionales Chiquadrat-Design.....................................................104 7.3.7.3. Standardisierte, korrigierte Chiquadratresiduen............................................................................107 7.3.8. Mann-Whitney U-Test .........................................................................................................................109 7.4. Tabellarische Übersicht über kombinatorische Probleme und die Prüfverteilungen ....................... 111 8. BIVARIATE VERTEILUNGEN - ZUSAMMENHANGSDARSTELLUNGEN UND MAßE ....................................................................................................................114 9. KORRELATION UND REGRESSION...............................................................114 9.1 Zwei intervallskalierte Merkmale ........................................................................................................... 114 9.1.1. Die Regressionsgeraden und die Regressions-Koeffizienten...............................................................114 9.1.2. Der Produkt-Moment-Korrelationskoeffizient r .................................................................................117 9.1.3. Ein Rechenbeispiel...............................................................................................................................118 9.2. Zwei ordinal skalierte Merkmale ......................................................................................................... 119 9.2.1. Kruskals Gamma..................................................................................................................................119 9.2.2. Kendalls τb ("taub"). ...........................................................................................................................122 9.3 Zwei nominal skalierte Merkmale........................................................................................................... 123 9.3.1 Cramérs V .............................................................................................................................................123 9.3.2 Phi und korrigiertes χ²...........................................................................................................................124 10. SIGNIFIKANZTESTS FÜR KORRELATIONS- UND ASSOZIATIONSMAßE.125 10.1. t-Test für den Produktmomentkorrelationskoeffizienten .................................................................. 125 10.2. Z-Test für Kendalls "tau"..................................................................................................................... 126 10.3. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi..................................................... 126 10.4 Fisher's exakter Test............................................................................................................................... 126 11. EINFAKTORIELLE VARIANZANALYSE........................................................128 12. EINFÜHRUNG IN STATISTISCHES RECHNEN ............................................133 13. KURZE EINFÜHRUNG IN SPSS 6.0.1 UND IN DIE WICHTIGSTEN ROUTINEN. ..............................................................................................................................148 13.1. Die „Fenster“ von SPSS......................................................................................................................... 148 13.1.1. Das Datenfenster................................................................................................................................149 13.1.2. Häufigkeitsanalysen als Rechenbeispiel ............................................................................................149 13.1.3. Das Syntaxfenster. .............................................................................................................................150 13.1.4. Das Ausgabe-Fenster und das Graphik-Karussel...............................................................................151 5 13.1.4.1. Das Ausgabe Fenster..................................................................................................................151 13.1.4.2. Das Graphik-Karussel .................................................................................................................151 13.1.5. Übertragung von Ergebnissen aus SPSS nach WinWord ..................................................................152 13.2. Praktische Fälle...................................................................................................................................... 153 13.2.1. Untersuchung von Mittelwertsdifferenzen zweier unabhängiger Stichproben. .................................153 13.2.2. Untersuchung von Mittelwertsdifferenzen zweier abhängiger Stichproben. .....................................155 13.2.3. Einfache Varianzanalyse....................................................................................................................156 13.2.4. Zweidimensionaler CHI-Quadrat -Test mit einer Vierfelder-Tabelle................................................158 13.2.5. Zweidimensionaler CHI-Quadrat -Test mit Kontrollvariable. ...........................................................159 13.2.6. Korrelations- und Regressionsanalyse ...............................................................................................162 13.2.7. Binomialtest .......................................................................................................................................164 13.2.8. Kolmogorov-Smirnov-Test auf Verteilungsform bei einer Stichprobe..............................................165 4. TABELLEN .......................................................................................................166 4.1. Standardnormalverteilung...................................................................................................................... 166 4.2. χ2-Verteilung ............................................................................................................................................ 168 4.3. t-Verteilung............................................................................................................................................... 169 4.4. F-Verteilung für (1-α)=0,99 .................................................................................................................... 170 1. Was ist eigentlich Statistik? 1.1. Definitionsversuch für den Begriff Statistik Fragen wir zunächst nach dem alltagssprachlichen Gebrauch: Wenn wir - eine Tabelle in einem Zeitungsartikel oder einem Buch sehen, in der Zahlen aufgeführt sind, vielleicht sogar Prozentzahlen, und wenn die einzelnen Zahlenangaben dann sogar in eine graphische Darstellung übersetzt werden, sprechen wir von einer "Statistik". Neben diesem Sprachgebrauch gibt es aber im Wissenschaftsbereich noch weitere Bedeutungen von Statistik, die im Alltagssprachgebrauch ungewöhnlich sind: • Statistik wird als die Bezeichnung für eine Wissenschaft benutzt. Diese Wissenschaft ist relativ jung. Mitte des 18. Jahrhunderts hielt Gottfried Achenwall in Göttingen Vorlesungen über Staatenkunde, einen Gegenstand, den er auch als Statistik bezeichnete. Inhalt dieser Wissenschaft waren die "würklichen Merkwürdigkeiten einer bürgerlichen Gesellschaft" (zitiert nach Kern, Horst: Empirische Sozialforschung, Ursprünge, Ansätze, Entwicklungslinien, Beck, München 1982, S. 20). Erst später entwickelt sich die Statistik zu einer selbständigen Disziplin, die, in erster Linie auf wahrscheinlichkeitstheoretischen Grundlagen aufbauend, anstrebt, wissenschaftliche Hypothesen zu überprüfen (schließende oder induktive Statistik). Grundlagen hierfür liefern Beschreibungen von 6 Realität auf der Grundlage von Messungen und Zählungen (beschreibende oder deskriptive Statistik). Dabei sind die wesentlichen mathematischen Grundlagen schon Ende des 17. Jahrhunderts vorhanden. • Im englischsprachigen Bereich wird das Wort "statistic" als ein Ausdruck benutzt, der bestimmte Rechenergebnisse (z.B. Mittelwerte und Streuungsmaße etc.) bezeichnet. In diesem Kursus wollen wir unter Statistik die Wissenschaft verstehen, die sich mit der Organisation und Auswertung von Messungen und Zählungen beschäftigt, wenn Messungen an vielen einzelnen "Objekten" vorgenommen werden, die einander hinreichend ähnlich sind, und die meistens zufällig aus einer Gesamtheit einander ähnlicher Objekte ausgewählt wurden. Wenn ich z.B. mit einer Studentin über ihre finanzielle Situation spreche und dabei ihr Einkommen erfahre, dann kann man dieses zwar schon als Meßvorgang interpretieren (es wird eine Zahl, das Einkommen in DM, der Person der Studentin (Erhebungseinheit) zugeordnet; da aber nur eine Einzelmessung vorliegt, existiert noch keine Statistik. Erst wenn ich eine größere Menge von Messungen nebeneinanderstelle, treten Probleme der Statistik auf, d.h. Statistik hat es immer mit Mengen oder Massen zu tun. Einzelereignisse sind für sie nicht Gegenstand der Untersuchung oder Betrachtung, sondern nur Massenereignisse. 1.2. Das Problem der Verarbeitung von Massenereignissen durch subjektive Erfahrung Diese Unterscheidung zwischen dem einzelnen Ereignis und dem "Massenereignis" ist für den Alltagsgebrauch ungewöhnlich. Die persönliche Erfahrung ist in der Regel nie mit Massenereignissen konfrontiert, sondern immer nur mit einer Folge von Einzelereignissen, wobei diese Ereignisse nicht einmal ähnlich sein müssen. Wir fahren morgens in die Universität und benutzen dabei z.B. die U-Bahn und betrachten die Umgebung der Fahrstrecke. In den Institutsräumen der Universität lesen wir Akten und Bücher. In der Mensa begutachten wir das Essen etc.: Ein Einzelereignis reiht sich an das andere. Die Gesamtheit und die Verknüpfung dieser Einzelereignisse führt dann zu so etwas wie subjektiven Erfahrungen, ohne daß hieraus jemals Massenereignisse im Sinne der Statistik werden. Massenereignisse sind der subjektiven Erfahrung nur sehr selten zugänglich. Ein gut gefülltes Fußballstadion z.B. wäre so ein Massenereignis. Die hier dem Betrachter begegnende Masse ist nicht geordnet, hunderte oder tausende von Fußballfans sitzen oder stehen auf den Bänken in einem Fußballstadion und äußern ihre Begeisterung. Die Eindrücke, die wir aber von solchen Massenereignissen haben können, sind sehr ungenau. Wir können etwa sagen: "Schätzungsweise waren es (so und so viele)"; "etwa 1/3 hatte Fähnchen oder andere Zeichen der Vereinszugehörigkeit dabei"; "jeder Zehnte trug ein Transparent"; "die Mehrheit war besonders bunt angezogen"; "etwa jeder fünfte Fan war stark alkoholisiert". Alle diese Angaben beruhen auf groben Schätzungen; eine genaue Analyse des Massenereignisses "gefülltes Fußballstadion" ist aus der Perspektive des einzelnen Zuschauers in der Regel nicht möglich. Dennoch bilden sich aus der subjektiven Einschätzung individueller Erlebnisse und der ungenauen Speicherung von Eindrücken solcher Massenereignisse Urteile über das Leben, die Gesellschaft, die Menschen, über soziale Verhältnisse, soziale Normen etc., und diese subjektiven Eindrücke haben im Alltagsleben ein starke Wirkung auf Urteile. Besonders wenn wir als Mitglied einer bestimmten Fan-Gemeinde Beobachtungen anstellen, ist die Gefahr sehr groß, daß wir auf bestimmte Merkmale oder bestimmte Gruppen beispielsweise von Personen besonders achten und die dabei gewonnenen Eindrücke ohne wirkliche Kenntnis der Gesamtheit unzulässig verallgemeinern. Hier stoßen wir schon auf wichtige Unterschiede zwischen Alltagserfahrung und wissenschaftlichem Urteil. Will man so entstandenen (Vor)urteilen argumentativ begegnen, dann ist es wichtig, solche Massenereignisse genau zu beschreiben. Hierzu bedarf es allerdings eines methodisch geregelten, nachvollziehbaren Vorgehens, das in seinen einzelnen Schritten begründbar ist. Dieses Vorgehen macht „Massen-Ereignisse“ für unsere Vorstellungskraft verfügbar, die sich ihr sonst entziehen. 7 Wenn wir uns zum Beispiel vorstellen, eine Nation habe eine Gesamtbevölkerung von 70 Millionen Menschen, dann sehen wir nur noch eine unübersehbare Menschenmenge vor uns, und die individuelle Fassungskraft wird von solchen Angaben in jedem Falle überfordert. Dennoch ist die arbeitsmarktpolitische Tatsache, daß Ende 1997 mehr als 4 Millionen Arbeitslose von der Bundesanstalt für Arbeit registriert worden sind, von großer Bedeutung. Politische Bedeutsamkeit ist nicht an unser Vorstellungsvermögen gebunden. Sehr viele Verwaltungs- und politische Vorgänge verursachen solche politisch bedeutsamen Tatsachen, werden durch sie bedingt, und man kann sagen, daß bestimmte Zahlenwerke der amtlichen Statistik, insbesondere aber die Statistiken unserer Ministerien, Ergebnisse und zugleich Steuerinstrumente des politischen Lebens sind. 1.3. Statistik: Unsicherheit und Ängste Man kann nun feststellen, daß Zahlen, die sich der subjektiven Vorstellungskraft entziehen und gleichzeitig Steuerungsinstrument unseres politischen Lebens sind, im öffentlichen Bewußtsein große Unsicherheit und Ängste hervorrufen. Dies könnte u.a. folgende Ursachen haben: Zahlen wecken zwar den Anschein der exakten Messung, weil wir mit ihnen in erster Linie im Rahmen des Mathematik- und Physikunterrichts vertraut gemacht worden sind. Wir sind gewöhnt, auf Zahlen zu vertrauen. Es macht uns unsicher und erregt Angst, wenn wir Zahlen nicht vertrauen können. Was aber heißt das, daß wir einer Zahl vertrauen können ? Ein paar Beispiele hierfür: Ich werde gefragt, wie groß ich bin. Ich stelle zwei Messungen an, eine morgens, eine abends. Morgens messe ich 1,78 m, abends 1,76 m. Ich gebe vorsichtshalber meine Größe mit 1,77 m an... Ich frage im Supermarkt, was das Brot kostet. Ich bekomme die Auskunft, daß hier 20 Brotsorten vorrätig sind, und daß der Preis zwischen 3,50 DM und 4,50 DM pro Kilo schwankt. Bei der Konkurrenz stelle ich die gleiche Frage. Dort sagt man mir, der Preis schwanke - je nach Sorte - zwischen 3,30 DM und 4,60 DM. Was kostet das Brot nun ? Ich will in Inflationszeiten einen Brief frankieren. Der Postbeamte sagt mir, eine Briefbeförderung koste 1000 Reichsmark. Am nächsten Tag komme ich wieder. Da kostet eine Briefbeförderung bereits 20000 Reichsmark. Ich werde im Auto bei einer Geschwindigkeitsüberschreitung geblitzt. Mein Tacho zeigt 45 km/h. 6 Wochen später bekomme ich ein nettes Foto von mir zugeschickt, zugleich mit dem Hinweis, ich sei mit 40 km/h geblitzt worden, und davon würden noch 4 km/h (zum Ausgleich von Meßfehlern) abgezogen. Man werfe mir daher die Überschreitung der Höchstgeschwindigkeit von 30 km/h um 6 km/h vor. Alle diese Beispiele zeigen Situationen, in denen auf eine Zahl aus verschiedenen Gründen nicht ganz vertraut werden kann, sondern nur ein bißchen. Die Gründe können sehr verschieden sein. Es lohnt sich, sie zu analysieren: Hier waren die Gründe rhythmisches Schwanken, Vielfalt verschiedener Ereignisse in zwei Gruppen, schnelle Änderung eines Zustandes, Verwendung unterschiedlicher Meßinstrumente und Definitionen. Wir merken uns daher, daß wir auf Zahlen nur vertrauen dürfen, wenn wir sicher sein können, die gleichen Definitionen für die bezeichneten Tatbestände (Erhebungseinheit, Dimension) zu verwenden wie unsere Kommunikationspartner und auch mit den gleichen Meßinstrumenten arbeiten. Zudem müssen die Zustände, die wir mit Zahl beschreiben, zeitlich stabil sein, wenn wir künftig die gleichen Zahlen verwenden wollen, oder die Prozesse müssen wiederholbar sein, deren Ablauf wir beschrieben haben. Unter den oben genannten Bedingungen ist die Bedingung der gleichen Definition die wichtigste und in der sozialwissenschaftlichen Praxis zugleich die schwierigste. Wie jeder Messung liegt jeder empirisch bedeutsamen Zahl eine Reihe von Definitionen zugrunde, durch die sie zustandekommt. Bei sozialen Tatsachen sind diese Definitionen in der Regel kontrovers, da unterschiedliche Interessen am Ergebnis der Definition bestehen. Wird z. B. im Fernsehen um Zahlen gestritten, handelt es sich oft um einen Streit über die Wahl der politisch jeweils "nützlichen" Definition. Von solchen Feinheiten versteht natürlich der Fernsehzuschauer nichts, und er denkt, man stritte über Tatsachen, nicht aber über Begriffe. In seinem Gedächtnis bleibt der Streit über die Zahl erhalten, nicht aber der Definitionsstreit. 8 Gewöhnlich liegt jeder größeren statistischen Erhebung und natürlich auch jeder Stichprobe eine Reihe verschiedenartigster Fehler (z.B. Meß- und Übertragungsfehler, Fälschungen) zugrunde, deren Ausmaß nur selten genau bestimmt werden kann. Von daher sind die Verwaltungen und Regierungen nicht selten in der dummen Situation, sich auf Zahlenmaterial stützen zu müssen, das sehr wenig zuverlässig ist. Politische Fehlentscheidungen sind aus diesem Grunde gelegentlich statistisch bedingt, und man gibt leicht der Statistik die Schuld für politisches Versagen. Dennoch tun die Verwaltungen in der Regel so, als hätten sie verläßliche Daten. Das gehört zu ihrem Prestige. Bestimmte statistische Angaben bekommen gelegentlich hohen Symbolwert: Wenn z. B. die Zahl der Arbeitslosen über 4 Millionen ansteigt, der Benzinpreis höher als 1,00 EURO pro Liter liegt oder sogenannte Maastricht-Kriterien über drei Prozent wachsen. Dies wissen die Parteien natürlich, und sie tun alles, um die eigenen politischen Ergebnisse nach Möglichkeit zu beschönigen oder zu verstecken. Die Kunst der Fälschung statistischer Angaben durch ihre Frisierung vor der Veröffentlichung ist hoch entwickelt, mindestens genauso hoch wie die Abneigung des normalen Zeitungslesers gegenüber einer tabellarischen Darstellung technischer oder sozialer Sachverhalte. Das schöne Bild einer Grafik, das vermeintlich schnellen Überblick verschafft, wird der zahlenmäßigen Einzelangabe, die dann auch noch Absolut- und Prozentzahlen nebeneinanderstellt, in der Regel vorgezogen. Der schnelle Leser fragt nicht nach Definitionen, Bezugsgrößen für Prozentzahlen. Er will nicht mühsam rechnen, vergleichen, analysieren, sondern er will unterhalten sein und hält das auch noch für Information. Vor allem will er keine Angst haben müssen. Er will durch Zahlen "beruhigt" werden. Statt Information oder Entertainment nennt man diese beruhigende Unterhaltung neuerdings "Infotainment". Wenn sich angesichts dieser Probleme und Ängste die Statistik auf komplizierte Definitionen, wissenschaftliche und politische Erörterungen der Erhebungskonzepte und noch kompliziertere Rechnungen stützt, dann bekommt sie - vor allem auch an den Universitäten - in der Regel den Beigeschmack einer Geheimwissenschaft, die nichts mit dem Leben zu tun hat. Das Verdikt der Alltagssoziologie, Statistik sei falsch, mechanistisch, borniert, patriarchalisch, Produkt eines falschen Bewußtseins und was der Plattitüden mehr sind, ist mit rationalen Argumenten in der Regel nicht zu entkräften, weil – wie Fachleute gelegentlich erfahren müssen - die Kritiker oft gar nicht wissen, was sie selber mit der Kritik meinen und von Statistik zu wenig verstehen, um ihre eigene Meinung zu belegen. Die meisten Kritiker werden sich erst mit der Statistik anfreunden, wenn sie ihrer selbst bedürfen. 1.4. Probleme der Lernmotivation in bezug auf Statistik Die schnelle Ablehnung der Statistik und des Statistiklernens ist also verständlich wegen der zahlreichen Negativerlebnisse, die das Alltagsleben dem Benutzer und dem der Statistik Unterworfenen anbietet. Werde ich in der Volkszählung zahlenmäßig erfaßt, dann muß ich damit rechnen, daß die Informationen über mich nicht unbedingt in dem Sinne benutzt werden, wie ich mir das vorstelle. Der Verwendungszusammenhang meiner Daten ist - von bestimmten Verwendungsverboten abgesehen unklar; wer welche Daten wann verwendet, ist unbekannt, und wehren kann ich mich gegen einen abstrakten Gegner kaum noch. Andererseits möchte ich als politisch aktiver Bürger gern zuverlässige Informationen über Sozialstrukturdaten haben, mit denen ich meine oder meiner Gruppe Rechte öffentlich einfordern kann. Ich möchte beispielsweise nachweisen können, in welchem Maße Frauen in bestimmten Ämtern und Berufsbereichen überrepräsentiert oder unterrepräsentiert sind, ich möchte die Menge der Sozialhilfeempfänger und das Ansteigen dieser Menge wissen, um gegen unsoziale politische Praktiken argumentieren zu können. Weiterhin möchte ich wissen, in welchem Maße sich der Lebenshaltungsindex, die Luftbelastung, der Ölpreis etc., verändern. 9 Wir können also sehen, daß die Nachfrage nach Informationen nicht nur auf Seiten des Staates, sondern auch auf Seiten des informationsbedürftigen Staatsbürgers vorhanden ist, so daß eigentlich die Bereitschaft bestehen müßte, statistische Auskünfte zu geben, weil man sie ja auch selbst haben will. Andererseits steht im Zeitalter leistungsfähiger Datenverarbeitunganlagen die Ohnmacht des einzelnen der Statistik unterworfenen Menschen als immer gewichtigeres Argument im Raum, wenn über Statistik, das Lernen von Statistik und die Benutzung von Statistiken nachgedacht wird. Nur wird hierbei nicht berücksichtigt, daß es für relativ kleine Organisationen und Vereine immer leichter wird, einen eigenen statistischen Apparat aufzubauen, mit dessen Hilfe auch Argumente zur Kritik offizieller Statistiken produziert werden können, indem eigene Stichprobenuntersuchungen zur Kontrolle politisch gefärbter Aussagen angestellt werden. Mit allen diesen eher soziologischen und politologischen Fragen der Benutzung von Information in Wirtschaft, Bürokratie und Politik hat sich die theoretische Statistik nur am Rande beschäftigt. Mit dieser Enthaltsamkeit steht sie nicht allein, sondern sie teilt diese Enthaltsamkeit generell mit allen Naturwissenschaften und technischen Wissenschaften, deren Interesse in erster Linie die unmittelbare Sache ist, um deretwillen sie forschen. Die Folgen der Anwendung naturwissenschaftlicher und technischer Forschungsergebnisse sind in der Regel nicht Gegenstand der gleichen Naturwissenschaften, und sie entziehen sich auch in der Regel ihrem methodischem Instrumentarium. Wir können diese Tatsache zwar beklagen, aber nicht kurzfristig ändern. Anfänger der Statistik, besonders in pädagogischen und psychologischen Forschungseinrichtungen, erliegen oft der Versuchung, die einschlägige mißbräuchliche Benutzung der Statistik, für die der Nachweis aus so ziemlich jeder Tageszeitung zu erbringen ist, als Argument gegen das Erlernen von Statistik ins Feld zu führen. Es entstehen in Anfängerseminaren dann stundenlange und meist fruchtlose Diskussionen darüber, daß das eigentliche Lernen von Statistik darin bestehen müßte, zu wissen, wie der Mißbrauch funktioniert und wie man ihn verhindern könnte. Die Statistiker selbst geben hierauf nur teilweise befriedigende Antworten, im übrigen müßten sie darauf verweisen, daß diese Themen Gegenstand anderer Wissenschaftsdisziplinen sind, insbesondere der Juristerei (siehe Wirtschaftskriminalität), der Politologie, der Verwaltungswissenschaft, der Soziologie, der Zeitungswissenschaften etc. Alles dieses müßte man im Grunde mitstudieren, wenn man einen hinreichend vollständigen Eindruck von der Bedeutung konkreter statistischer Angaben haben wollte und vom konkreten Umgang mit ihnen. Da das Erlernen von Statistik leider all diese Aspekte traditionell nicht enthält und auch wegen der geringen Zeit, die meistens für diesen Stoff zur Verfügung steht, nicht enthalten kann, soll in diesem folgenden Kursus nur der Versuch gemacht werden, die offensichtlich naheliegenden Mißbrauchsmöglichkeiten zu benennen und einige Grundsätze ständig mitzubedenken, die einen seriösen Gebrauch von Statistik möglich machen. Der Zweck des Statistiklernens kann darin bestehen, daß wir in der Lage sind, aufgrund entsprechender Lernprozesse einerseits statistische Veröffentlichungen sehr kritisch zu lesen und sehr schnell jene Momente politisch beabsichtigter Ungenauigkeit identifizieren zu können, die uns dann gestatten, kritische Argumente zielbewußt aufzugreifen. Ein weiterer Zweck des Statistiklernens kann darin bestehen, die Studierenden auf eigene wissenschaftliche Arbeiten vorzubereiten, in denen ein wissenschaftlich kontrollierbarer Umgang mit Statistik gefordert wird. Statistische Methoden dringen in den Sozialwissenschaften parallel zu qualitativen Forschungsmethoden immer weiter vor. Ein Gegensatz zwischen qualitativen und quantitativen Forschungsmethoden wird in jüngerer Zeit immer mehr verneint. Die Forderung der Methodiker richtet sich zunehmend auf eine Vermittlung und Verbindung zwischen statistischen und qualitativen Ansätzen der Forschung. Einzelfallanalyse und die Analyse von Massenereignissen müssen immer theoretisch aufeinander bezogen werden. Das eine kann das andere nicht ersetzen, und der eine Ergebnistyp liefert nur unvollständige Aspekte der Wirklichkeit ohne Hinzuziehung des anderen. 10 Kritisches Lesen und selbständiges handwerkliches Beherrschen statistischer Methoden zum Zwecke eigener wissenschaftlicher Arbeit sind also die wesentlichen Zielsetzungen des Statistiklernens. Diesen Zielsetzungen muß im Bewußtsein von dem gesellschaftlichen Mißbrauch und von den gesellschaftlichen Gefahren der Statistik nachgegangen werden. Wir können nicht auf das Statistiklernen deshalb verzichten, weil es schwierig ist, und weil Statistik eine Wissenschaft ist, deren Ergebnisse im Zentrum politischer Kontroversen stehen. Im Gegenteil: Wenn wir an der politischen Gestaltung unserer Öffentlichkeit beteiligt sein wollen, ist es geradezu zwingend, daß wir in diesen Bereich systematisch eindringen. 2. Die Frage der Meßbarkeit: Meßniveaus In Alltagsgesprächen hört man öfters das Argument: „Das ist nicht vergleichbar“, das ist nicht „meßbar“. Sind solche Argumente triftig ? Wann - und wann nicht ? Grundsätzlich lassen sich nämlich alle Gegenstände unseres Bewußtseins miteinander vergleichen, es kommt hierbei nur darauf an, ob sie in bezug auf eine Theorie interpretiert werden können, für die sie relevant sind. So kann man in bezug auf eine Theorie der Beutemachens durchaus Hunde und Katzen vergleichen, in bezug auf eine Theorie des Fliegens durchaus eine Hummel, einen Seeadler und eine Boeing 707. Die subjektive Feststellung: „Das ist nicht vergleichbar“ könnte daher meinen: „Mir fällt keine Theorie ein, die für beide Gegenstände relevant ist, die ich vergleichen möchte. Daraus ist aber nicht zu schließen, daß es keine solche Theorie geben könnte.“ Wie ist das nun mit dem Messen ? In der Alltagssprache spreche ich dann von Meßvorgängen, wenn ich aus der Physik bekannte Maßstäbe einsetze, wie Meter (Distanz), Liter (Volumen), Grad (Temperatur), km/h (Geschwindigkeit). Man sagt: „Das Bild ist 30 cm breit und 45 cm lang“, wenn man das Format ausmißt. Sage ich aber: „Das Bild ist sehr schön!“, oder: „Das ist ja ein eigenartiges Grün auf diesem Bild!“, dann würde man alltagssprachlich - kaum noch von Meßvorgängen sprechen. Dennoch haben die beiden letztgenannten Feststellungen etwas in sich, das in den Sozialwissenschaften mit Messung bezeichnet wird. Bei dem „Grün“ wird dem Bild ein Element einer „Farbskala“ zugeordnet, bei dem „sehr schön“ ein Element aus einer Wertskala. Messung bedeutet in den Sozialwissenschaften, daß ich Zahlen oder Symbole, die ein Element einer Skala sind, nach Maßgabe einer Meßvorschrift, einem Objekt zuordne. Würde ich beispielsweise innerhalb eines Forschungsprojekts eine Farbtabelle in die Hand bekommen, und müßte ich entscheiden, welches Grün der Farbtabelle auf dem Bild ist, oder müßte ich mehrere Bilder, die mir im Rahmen eines Forschungsprojekts vorgelegt werden, nach meinem Schönheitsempfinden in eine Rangordnung bringen, dann kann es sein, daß aus Urteilen, die ich im Alltagsleben fälle, „Messungen“ werden, weil diese Urteile in einen sozialwissenschaftlichen Zusammenhang hineingenommen werden. Hierbei beziehen sich solche Urteile immer auf Positionen einer Skala. Wichtig ist für die sozialwissenschaftliche Messung nun, welche mathematischen Eigenschaften solche Skalen haben(„Meßniveau“). Mit welchen mathematischen Methoden man Daten weiterverarbeiten darf, die auf Skalen definiert sind, hängt nämlich vom „Meßniveau“ der entsprechenden Skala ab. Man unterscheidet hier „Nominalniveau“, „Ordinalniveau“, „Intervallniveau“ und „Ratio-Niveau“. 2.1. Nominal-Niveau der Messung 2.1.1. Die Nominalskala Wie wir schon aus der Alltagserfahrung wissen, können Unterschiede zwischen verschiedenen Menschen, Menschengruppen, Institutionen, sozialen Prozessen - was auch immer Gegenstand der sozialen Forschung sein mag - verschieden genau bestimmt werden. Die Genauigkeit der Bestimmung von Unterschieden zwischen Gegenständen der empirischen Sozialforschung wird mit Hilfe des Begriffs "Meßniveau" charakterisiert. Das Nominal-Niveau der Messung liegt dann vor, wenn nur gesagt werden kann, daß zwei Elemente einer Menge einander gleich oder ungleich sind. Die mathematischen Symbole hier für sind = (gleich) bzw. ╪ (ungleich). Frauen sind in bezug auf ihr Geschlecht Frauen gleich. Sie sind den Männern in bezug auf ihr Geschlecht ungleich. Deutsche sind Deutschen in bezug auf ihre Nationalität gleich. Sie sind Engländern in bezug auf ihre Nationalität ungleich. 11 Es ist auf der Nominalskala nicht möglich, Aussagen zu formulieren wie: Frauen haben mehr Geschlecht als Männer, sondern nur: Sie haben ein anderes Geschlecht. Es ist auch sinnlos zu sagen: Engländer haben doppelt soviel Nation wie Amerikaner. Man darf auf Nominalskalen nur sagen: Die X sind in bezug auf Z (Skalenname) den Y gleich oder ungleich. 2.1.2. Die formalen Bedingungen der Klassifikation Allen Klassifikationen können (neben anderen Skalen) Nominalskalen zugrundeliegen. Unabhängig von Meßniveau gelten bei allen Klassifikationen die „formalen Bedingungen“ der Klassifikation „Eindeutigkeit, Vollständigkeit“ und „Echtheit“. Die folgenden Ausführungen sollen diese Begriffe erläutern. Nehmen wir an, wir wollten die folgenden sechs schraffierten Flächen klassifizieren (einer Skala zuordnen), (Schraffur: von links rechts fallend) (Schraffur: von links nach rechts steigend) (Schraffur senkrecht) (Schraffur waagerecht) (hellgrau) (dunkelgrau) dann müßte unsere Skala alle diese Eigenschaften vorsehen („Prinzip der Vollständigkeit“), sie müßte es gestatten, diese Eigenschaften eindeutig zuzuordnen („Prinzip der Eindeutigkeit“), und sie müßte bei der Bildung von Unterklassen möglichst so vorgehen, daß mindestens zwei der gebildeten Unterklassen auch besetzt sind (Prinzip der Echtheit). Eine Klassifikation, die diese Eigenschaften erfüllen würde, wäre die folgende: Eindeutige und vollständige Klassifikation der oben aufgeführten Flächen: S c h ra ffu r G ra u to n sch räg h e ll n ic h t sc h rä g dunkel s te ig e n d fa lle n d s e n k re c h t w a a g e rech t Hätten wir in der Klassifikation nur Schraffuren vorgesehen und keine Grautöne, könnten wir diese nicht zuordnen (die Klassifikation wäre unvollständig). Würden wir bei den schräg schraffierten Flächen nicht sagen, daß steigend und fallend immer von links nach rechts „steigend“ oder „fallend“ bedeutet, wäre die Klassifikation uneindeutig. Hätten wir noch eine weitere gepunktete Fläche (die wir oben in der Graphik nicht haben), dann wäre die Klassifikation auf der 1. Ebene (Grauton, Schraffur, Punktierung) entsprechend zu ergänzen. Gäbe es dort keine Differenzierung zwischen verschiedenen Punktierungen, dann wäre die Klassifikation dann 12 unecht, wenn unter Punktierung z. B. noch die Klassen „große Punkte“ und „kleine Punkte“ gebildet worden wären. Mindestens eine dieser Unter-Klassen wäre dann leer. S ch raffu r G r a u to n sch räg h e ll n ic h t sc h rä g dunkel s te ig e n d f a l le n d s e n k r e c h t w a a g e rech t P u n k tie r u n g k le in e P u n k te g ro ß e P u n k te In der Praxis der Statistik sollten die Kriterien der Eindeutigkeit und der Vollständigkeit erfüllt sein, das Kriterium der Echtheit ist nur selten erfüllt, da in statistischen Tabellen oft leere Klassen vorkommen. Aber auch das Kriterium der Vollständigkeit wird oft verletzt, wenn bei Umfragen neben anderen Kategorien einer Frage noch eine Kategorie „sonstige“ vorgesehen ist. Dann werden die hierin auftauchenden Antworten nicht in den anderen, zuvor gebildeten Kategorien vollständig erfaßt. 2.2 Ordinal-Niveau der Messung Auf dem Ordinal-Niveau der Messung kommt zu der Gleichheits- oder Ungleichheitsrelation noch die GrößerKleiner-Relation hinzu. Die mathematischen Symbole hierfür sind: a> b (a ist größer als b), bzw. a < b (a ist kleiner als b). Relation wird hier als aus einem Vergleich gewonnene Beziehung zwischen zwei oder mehreren Elementen einer Menge definiert, die durch ein Zeichen, wie z.B. das Gleichheitszeichen (=), oder das "Größerals"-Zeichen (>) ausgedrückt werden kann. Vor allem im Bereich von nicht sehr genau angebbaren "Einschätzungen" taucht in der Sozialforschung das Ordinal-Niveau der Messung auf. "Ich ziehe das Musikhören dem Statistiklernen vor", wäre eine solche Relation. Um wieviel lieber mir das Musikhören als das Statistiklernen ist, werde ich kaum angeben können. Wenn ich im Sommer noch lieber Schwimmen gehe als Musik höre, und lieber Musik höre als Statistik lerne, dann hätte ich schon drei Elemente, die ich in eine Rangordnung bringen kann, ohne daß ich angeben kann, um wieviel mir das eine sympathischer ist als das andere. Zwischen den ranggleichen Elementen gilt die Relation gleich (=). Zwischen den rangverschiedenen Elementen gilt neben der Relation < oder > immer gleichzeitig die Relation ungleich (╪). Insofern kommen auf der Ordinalskala zu den Relationen = und ╪ noch die Relationen < und > hinzu, die auf der Nominalskala nicht definiert sind. 2.3 Intervall-Niveau der Messung In dem Moment, in dem ich Messungen anstelle, die es mir erlauben, Abstände (Intervalle) zwischen den verschiedenen Meßpunkten zu benennen, bewege ich mich auf dem Intervall-Niveau der Messung. Sehr viele Tätigkeiten unseres Alltagslebens enthalten Merkmale, die auf diesem Meßniveau definiert sind: Die Geburtstage, die in jedem Ausweis eingetragen sind, kann ich nebeneinander stellen und ihren Abstand in Tagen, Monaten und Jahren berechnen. 13 Das Wetter, das ich am Morgen beim Weg zur Arbeit erlebe, wird durch Temperatur und Luftfeuchtigkeit (neben anderen Daten) beschrieben. Diese Angaben sind auf dem Intervall-Niveau definiert, d.h. daß Abstände zwischen den verschiedenen Meßpunkten angegeben werden. Unsere Vorstellungskraft ist auch nicht überfordert, wenn wir die Information verarbeiten sollen, daß es morgen um 5 Grad Celsius kälter sein wird als heute. Haben wir aber heute bereits eine Temperatur von - sagen wir - minus 10 Grad Celsius, dann wäre die Angabe, daß es morgen halb so warm sein wird wie heute, allerdings für uns kaum noch interpretierbar, denn die Hälfte von minus 10 Grad wären minus 5 Grad, und das wäre nicht halb so warm, sondern wärmer. Auf der Temperaturskala, die eine Intervallskala ist, sind eben nur Abstände, aber keine Quotienten berechenbar. Habe ich Abstände, dann kann ich Additionen (+) und Subtraktionen (-) ausführen, das heißt, auf dem Zahlenstrahl, der von links nach rechts steigend definiert ist, um einen bestimmten Betrag nach rechts gehen (Addition) oder nach links gehen (Subtraktion). Quotienten, Ergebnisse von Divisionen, können nur dann berechnet werden, wenn ein absoluter Nullpunkt der Skala existiert, auf den man sich bei konkreten Rechnungen bezieht. Auf der Intervallskala kommen zu den Relationen =, ╪ , >, < jetzt die Möglichkeiten der Addition und der Subtraktion hinzu. Divisionen und Multiplikationen sind nicht sinnvoll ausführbar. 2.4. Ratio- oder Verhältnisniveau der Messung Angaben, mit denen physikalische Größen gemessen werden, sind in der Regel auf dem Ratio- oder Verhältnisniveau definiert. Für einen Physiker ist es nämlich durchaus möglich, wenn er bei der Temperatur vom absoluten Nullpunkt ausgeht (auf der Kelvin-Skala wird der Wert -273,16 ° Celsius als 0 definiert), solche Aussagen wie doppelt so warm, halb so warm etc. sinnvoll zu interpretieren. Das Ratio- oder Verhältnisniveau der Messung liegt also bei allen Längenmaßen und Gewichten vor, für die eine feststehende Vergleichsnorm definiert ist. In Statistik-Programmen, in denen man das Meßniveau einer Variable wählen kann, wird das Ratio-Niveau in der Regel als „metrisch“ bezeichnet. Zu den Relationen und Operationen, die auf dem Nominal-, dem Ordinal- und dem Intervallniveau der Messung definiert sind (=, ╪ , >, < , +, -) kommen jetzt noch die Operationen der Multiplikation und der Division hinzu ( mathematische Zeichen : * und ÷). In der Sprache mathematischer Formeln werden diese Symbole allerdings oft durch andere ersetzt. Statt „a * b“ wird „ab“ geschrieben, statt „1÷ 2“ wird auch „1:2“ oder „½“ geschrieben, d.h. die Nebeneinanderstellung oder der Bruchstrich ersetzen die Symbole * und ÷. Nominal-Niveau, Ordinal-Niveau, Intervall-Niveau und Ratio-Niveau der Messung stehen untereinander nach dem oben Gesagten in einer Beziehung aufsteigender Informationsgehalte; das Nominal-Niveau hat den geringsten Informationsgehalt, das Ratio- oder Verhältnisniveau den höchsten Informationsgehalt. Für das jeweils höhere Meßniveau gelten alle Eigenschaften des geringeren Meßniveaus ebenfalls. Die Bedeutung der Unterscheidung dieser Meßniveaus für die Statistik besteht darin, daß wir bestimmte Berechnungen z.B. in der Statistik nur anstellen dürfen, wenn das für solche Berechnungen geeignete Meßniveau gegeben ist. So sind die Ausdrücke: „2. Sinfonie von Beethoven und „1. Sinfonie von Schubert“ auf den Nominalniveau definiert. Wir würden daher nicht auf die Idee kommen, sie zu addieren und aus beiden vielleicht die 3. Sinfonie von Bruckner zu machen. 2.4.1. Stetige Merkmale Auf einem Intervall- und dem Ratio-Niveau der Messung werden stetige und diskrete Merkmale unterschieden. Stetige Merkmale sind solche, für die im Prinzip jeder beliebige Meßwert im gesamten Meßbereich auftreten kann. So können wir auf dem Thermometer, wenn es nur hinreichend genau geeicht ist, Werte wie 37,5; 38,9 ablesen. Moderne Stoppuhren erlauben die Messung der Zeit bis hin zur Tausendstel-Sekunde. Mit weiterer Steigerung der Genauigkeit werden sämtliche möglichen Zwischenwerte im Prinzip ablesbar, so daß mathematische Funktionen, die Beziehungen zwischen zwei solchen Messungen darstellen, als nicht unterbrochene, gerade oder kurvenförmige Linie dargestellt werden können, deren Wertepaare vollständig 14 definiert sind. Das hat zur Folge, daß man die Steigung solcher Kurven in jedem Punkt feststellen kann, das heißt, man kann sie „differenzieren“ (sie sind für die Differentialrechnung geeignet). 2.4.2. Diskrete Merkmale Haben wir es bei Temperaturmessungen nicht mit einem Fieberthermometer oder einem sehr genauen Fensterthermometer zu tun, sondern blicken wir auf ein normales Zimmerthermometer, dann sind in der Regel nur Angaben lesbar, die die vollen Grade in Celsius umfassen. Ähnlich ist es mit Zeitangaben: eine Bahnhofsuhr, die keinen Sekundenzeiger hat, springt von Minute zu Minute weiter, so daß nur volle Minutenangaben möglich sind, Zwischenwerte aber ausgeschlossen bleiben. Angaben im Ausweis über das Lebensalter beziehen sich auf den Tag der Geburt, lassen aber genauere Angaben fort. Fragen wir im Fragebogen nach dem Geburtsdatum, dann müssen wir uns in der Regel mit Angaben über das Geburtsjahr bescheiden. Alle Prozesse des Abzählens ganzer Einheiten können nur ganzzahlige Ergebnisse haben, gebrochene Zahlen kommen nicht vor. Solche Merkmale, die zwar auf dem Intervallniveau definiert sind, jedoch nur ganz bestimmte Werte annehmen können, heißen diskret, was nichts mit "Diskretion" zu tun hat, sondern als statistischer Fachterminus die Tatsache bezeichnet, daß innerhalb einer Meßstrecke nur ganz bestimmte Zwischenwerte (meistens ganze Zahlen) auftreten können. Die graphische Darstellung darf daher im Prinzip bei diskreten Merkmalen keine durchgezogenen Linien oder Kurven verwenden, sondern müßte sich mit der Angabe von Meßpunkten begnügen. Streng genommen lassen sich für diese Meßpunkte auch keine Steigungen angeben, d.h. die Differentialrechnung dürfte nicht angewendet werden. Die folgende Graphik zeigt zwei Variablen in Abhängigkeit vom Alter: Eine stetige Variable, die Sterbewahrscheinlichkeit, ausgedrückt in Promille/Jahr und eine diskrete Variable, das Einkommen, ausgedrückt in Tausend DM im Monat. Es handelt sich hierbei um ausgedachte Daten. Die Sterbewahrscheinlichkeit wachse hier stetig, das Einkommen wachse von Gehaltserhöhung zu Gehaltserhöhung in einer „Sprungfunktion“, die nicht alle möglichen Meßwerte annimmt: Alter, Sterbewahrscheinlichkeit und Einkommen in der Kleinstadt Durchschnittshausen. Sterbewahrsch/ Einkommen 14 12 10 8 6 4 2 Sterbewahrsch. 0 Einkomm. 1 7 4 13 19 25 31 37 43 49 55 10 16 22 28 34 40 46 52 58 Alter in Jahren 15 2.5 Das Problem der Kombination unterschiedlicher Meßniveaus In der Praxis treten nun leider die verschiedenen Meßniveaus kombiniert auf. Zum Beispiel die Aussage: „Frauen haben im Durchschnitt ein geringeres Einkommen als Männer" enthält zwei Meßniveaus: das NominalNiveau (bei dem Begriff Frauen) und das Ratio-Niveau (bei dem Begriff „Einkommen“). Die Aussage: "Wirtschaftsmanager denken pragmatischer als Universitätsprofessoren" enthält das Nominal-Niveau bei der Unterscheidung zwischen Managern und Professoren und das Ordinal-Niveau bei dem Ausdruck "pragmatischer". Die Berücksichtigung bei der jeweiligen Kombination von Meßniveaus in der Statistik führt zu einer Fülle verschiedener Berechnungsmethoden von "statistischen Zusammenhängen", die sich alle nur deshalb unterscheiden, weil die vorausgesetzte Kombination von Meßniveaus unterschiedlich ist. Die in der untenstehenden Tabelle aufgeführten Zusammenhangsmaße sind eine Auswahl der wichtigsten Zusammenhangs-Berechnungsmethoden, von denen die meisten in dieser Schrift dargestellt sind: Meßniveau/Rechenverfahr Nominal en für die Darstellung statistischer Zusammenhänge Nominal Chiquadrat-Test, Cramérs V, Phi, Fischers exakter Test Ordinal Ordinal Intervall/Ratio Kruskal-Wallis-Test t-Test Varianzanalyse Mann-Whitney –U-test, Kendalls tau, Kruskals gamma Intervall/Ratio Varianzanalyse, Regressions- und Korrelationskoeffizienten Eine ausführlichere Auflistung solcher Techniken findet man in Sidney Siegel: Nonparametric Statistics, McGraw-Hill, New York 1956. 2.6. Qualitative und quantitative Untersuchungen Im Alltagssprachgebrauch wird nicht zwischen verschiedenen Meßniveaus unterschieden, sondern das Begriffspaar qualitativ/quantitativ steht in der Regel an der Stelle einer solchen Unterscheidung. Die Begriffe Qualität und Quantität enthalten aber noch mehr an Bedeutung als die rein informationstheoretische Unterscheidung zwischen Meßniveaus. Wir wissen alle, daß mit "Qualität" auch ein Werturteil ausgesprochen wird: Im Alltagssprachgebrauch wird - besonders in einer der „Psychoscene“ nahestehenden Sprache - zwischen einer mehr "kopfbetonten" Analyse und einer mehr "bauchbetonten" unterschieden. Hiermit wird in der Regel nicht nur wertfrei unterschieden, ob mehr der Verstand oder das Gefühl bei bestimmten Urteilen maßgebend war, sondern die mehr "bauchbetonten" Urteile werden in bestimmten Kreisen auch gegenüber der rein durch Argument und Erfahrung angeleiteten Erkenntnis als "höherwertig" angesehen. Dieser Wertcharakter des Wortes "qualitativ" spielt auch im Sprachgebrauch von Marx eine Rolle, wenn dort vom "Umschlag der Quantität in die Qualität" gesprochen wird. Diese sehr bildliche („metaphorische“) Sprechweise darf auf keinen Fall verwechselt werden mit einer Sprechweise, die wir in den empirischen Sozialwissenschaften benutzen. Dies bedeutet nicht, daß wir uns nicht mit der Bedeutung von Metaphern beschäftigen und sie nicht zum Gegenstand qualitativer Analyse machen dürfen, um sie besser verstehen zu können. Es ist aber ein großer Unterschied zwischen der wissenschaftlichen Benutzung und der Analyse von Metaphern. In der Sprache der Statistiker wäre ein Ausdruck wie "Umschlag der Quantität in Qualität" sinnlos. Sinnvoll hingegen wäre z.B. die Beschreibung eines sozialen Prozesses, in dem Frauen sich zum gewaltlosen Widerstand gegen militärische Hochrüstung entschließen, nachdem die Rüstungsausgaben in einem Staat über eine bestimmte Marke geklettert sind. In diesem Fall würde ein Sozialwissenschaftler oder Statistiker zwei zeitlich verbundene Prozesse feststellen: Eine Veränderung der Rüstungsausgaben in der Zeit (Ratioskala) und eine Veränderung der Einstellungen gegenüber der Militärpolitik des Staates (zuerst: Nicht-Wahrnehmung; dann 16 kämpferisches Engagement) (Nominal-Skala). Wir hätten hier also zwei Bewegungen nebeneinander: Die eine auf der Intervall-Skala, die andere auf der "Nominal-Skala". Keine "Quantität" schlägt hier in eine "Qualität" um, sondern der eine soziale Prozeß bewirkt vielleicht den anderen oder löst ihn aus. Wir können also festhalten, daß bei der Verwendung von Begriffen aus der Alltagssprache im Bereich statistischer Argumentation größte Vorsicht geboten ist. Die alltagsssprachliche - manchmal metaphorische Begrifflichkeit hat den Nachteil, daß es schwierig ist, sich darauf zu einigen, was genau gemeint ist. Viele Auseinandersetzungen in der Studentenbewegung hatten eine begriffliche Unschärfe aus einem marxistischen Sprachgebrauch als Ursache, nicht immer waren es sachliche Gegensätze. Oft ist es in politischem Sprachgebrauch auch durchaus beabsichtigt, sich nicht auf Definitionen festzulegen, weil so durch Manipulation des Sprachgebrauchs leichter erreicht werden kann, was sonst nur über offene Konflikte durchgesetzt werden könnte. Die Novelle „Animal Farm“ von George Orwell bietet hier die besten Beispiele. Qualitative Analyse meint - im Gegensatz zu quantitativer Analyse - die komplexe Beschreibung von Einzelfällen, bei der weniger gezählt und gemessen wird, sondern mehr die Struktur einzelner Fälle sprachlich und vielleicht auch graphisch dargestellt wird. (Siehe hierzu u.a.: Flick, Uwe/Kardorff, Ernst von/Keupp, Heiner/Rosenstiel, Lutz von/Wolff, Stephan (Hrsg.): Handbuch Qualitative Sozialforschung. Grundlagen, Konzepte, Methoden und Anwendung. München (Psychologie Verlags Union) 21995. Qualitative Analyse liegt auch immer dann vor, wenn es um die Herstellung neuer Begriffe und Kategorien geht, während die quantitative Analyse in der Regel die vorherige Existenz und Operationalisierung von Begriffen voraussetzt (mit Operationalisierung ist die Angabe von Verfahren gemeint, mit deren Hilfe Messungen durchgeführt werden sollen). 3. Einfache Beschreibungen von Massenereignissen - univariate Verteilungen 3.1 Der Begriff "Verteilung" Massenereignisse setzen sich immer aus vielen Einzelereignissen zusammen. In unserem Empiriekurs sind beispielsweise 4 Männer und 16 Frauen, also 20 Personen („Ereignisse“, „Untersuchsungsobjekte“). Wollen wir das Merkmal oder die Variable „Geschlecht" an dieser „Grundgesamtheit" untersuchen, dann können wir aufgrund der äußeren Erscheinung oder sogar vom Vornamen ausgehend viermal feststellen, daß die „Merkmalsausprägung“ „männlich“ für unsere Untersuchungsobjekte zutrifft, sechzehnmal die Merkmalsausprägung „weiblich“. Solche Gegenüberstellungen von „Häufigkeiten“ nennen wir Verteilungen. Wenn nur eine Variable (Merkmal) betrachtet wird, nennt man die Verteilung „univariat“. Von empirischen Verteilungen sprechen wir, wenn wir sie aus wissenschaftlichen Messungen und Zählungen gewinnen. Empirische Verteilungen haben konkrete Merkmale bzw. Variablen zur Grundlage. Theoretische Verteilungen sind demgegenüber abstrakte mathematische Strukturen, deren Anwendbarkeit auf konkrete Fälle aufgrund bestimmter mathematischer Voraussetzungen experimenteller Anordnungen (wie z. B. beim Würfel-Experiment), erwartet wird. Kennen wir nämlich die mathematischen Voraussetzungen experimenteller Anordnungen, dann können wir ziemlich genau vorhersagen, wie sich die Ergebnisse des Experiments verteilen. So wissen wir zum Beispiel, daß beim Würfeln die gleichen Eintrittswahrscheinlichkeiten von jeweils p = 1/6 auf die Zahlen 1 bis 6 entfallen. Dies bedeutet nicht, daß wir einzelne Würfe vorhersagen könnten, aber die ungefähre empirische Verteilung nach einem Experiment: Wir erwarten aber eine Verteilung, die mit hoher Wahrscheinlichkeit von einer bestimmten Struktur umso weniger abweicht, je größer die Zahl der Versuche (hier: Würfe mit dem Würfel) ist: Was hiermit gemeint ist, zeigen die folgenden Graphiken. Sie demonstrieren, wie sich die prozentualen Häufigkeiten einzelner Augenzahlen bei immer längeren Würfel-Serien immer mehr der Marke 16,67 % annähern. Wir wissen, daß die Wahrscheinlichkeit beim Würfeln, daß eine der sechs Würfelflächen oben liegt, gleich 1/6 ist. Rechnet man 1/6 in Prozente um, erhält man 16,6666 ... %. Dieser Wert wird – nach dem Gesetz der großen Zahl - bei immer längeren Würfel-Versuchs-Serien immer besser angenähert: 17 Prozentuale Häufigkeit der Würfelaugen bei 100 Würfen 30 23 23 20 14 Prozent 10 15 14 11 0 1 2 3 4 5 6 AUGEN Prozentuale Häufigkeit der Würfelaugen bei 1000 Würfen 20 18 17 15 18 16 15 Prozent 10 0 1 AUGEN 2 3 4 5 6 18 Prozentuale Häufigkeit der Würfelaugen bei 10000 Würfen 20,00 16,03 16,76 17,05 16,91 16,68 16,57 2 3 4 5 6 Prozent 10,00 0,00 1 AUGEN Die Beispielgrafiken – hier für die sogenannte Gleichverteilung - zeigen bei wachsener Zahl der Versuche eine immer bessere Annäherung der prozentualen Häufigkeiten, mit denen die Würfelaugen auftreten, an die hier erwartete prozentuale Häufigkeit von 16,67%. Auch für ungleichverteilte Häufigkeiten läßt sich dieses Gesetz leicht demonstrieren. Gegeben sei eine Darstellung der Häufigkeiten des Pulsschlages pro Minute aus einer Kleinstadt mit 10000 Einwohnern: Pulsschläge pro Minute bei 10000 Erwachsenen in Prozent 30 23 23 20 16 16 Prozent 10 8 7 3 2 0 42,50 52,50 47,50 PULS/MIN 62,50 57,50 72,50 67,50 82,50 77,50 92,50 87,50 102,50 97,50 19 Ziehen wir aus dieser „Grundgesamtheit“ nun zwei Stichproben, eine im Umfang von 1000 Einwohnern, eine im Umfang von 100 Einwohnern und beobachten wir dann, wie sich die prozentualen Häufigkeiten verändern, die den verschiedenen „Klassen“ von Pulsschlaghäufigkeiten in der Grundgesamtheit zukamen: Pulsschläge pro Minute bei einer Stichprobe von 1000 aus obigen 10000 30 25 20 21 17 16 Prozent 10 7 7 3 2 0 42,50 52,50 47,50 62,50 57,50 72,50 67,50 82,50 77,50 92,50 87,50 PULS/MIN Hier haben sich die prozentualen Häufigkeiten der mittleren Klassen deutlich verändert, die der anderen Klassen weniger. Ziehen wir nun noch eine kleinere Stichprobe, die nur noch den Umfang 100 Erwachsene hat, dann verändern sich die prozentualen Häufigkeiten der angegebenen Klassen noch stärker. Die „normalverteilte Grundstruktur“ kann jedoch noch erahnt werden. Wir werden später sehen, daß der Bereich, in dem der „Mittelwert“ mit einer bestimmten Wahrscheinlichkeit auftauchen kann, sich in Abhängigkeit vom Stichprobenumfang gut bestimmen läßt. Pulsschläge pro Minute bei einer Stichprobe von 100 Erwachsenen aus obigen 10000 30 24 23 20 17 12 Prozent 10 11 5 5 2 0 52,50 57,50 PULS/MIN 62,50 67,50 72,50 77,50 82,50 87,50 92,50 20 Mit Hilfe der Kenntnis der zu einer empirischen Verteilung gehörenden theoretischen Verteilungsfunktionen kann relativ genau vorhergesagt werden, wieviele Einzelereignisse sich in bestimmten Intervallen empirischer Verteilungen befinden werden. 3.2 Ordnung und Klassifikation von Daten – graphische Darstellungen Im folgenden sollen Daten analysiert werden, die die Altersangaben von Passanten an der Eingangstür unseres Universitätsgebäudes am Tag der offenen Tür (1.6. 1985) wiedergeben. 60 Passanten wurden hier nach ihrem Alter befragt. Es antworteten 60 wie folgt: 26;14;3;8;21;39;4;15;1;24;5;0;33;30;12;40;25;39;12;26;21;25;4;25; 22;22;15;24;32;28;31;31;25;24;34;15;27;13;13;26;38;19;11;8;23;30; 15;19;3;26;17;32;22;20;8;8;13;23;13;12; Eine solche Datensammlung, die noch ungeordnet ist, nennt man auch Urliste. Wenn wir uns diese Daten flüchtig betrachten, dann sind sie eher verwirrend - etwa wie der Blick aufs Fußballstadion. Ordnen wir aber diese Daten der Größe – also dem Alter – nach, dann wird die Sache schon übersichtlicher: In der folgenden Tabelle sind alle Altersangaben der Größe nach aufgeführt. Personen am Tag der offenen Tür in der TUB am 1.6. 1985, nach Alter Anzahl ,00 1,00 3,00 4,00 5,00 8,00 11,00 12,00 13,00 14,00 15,00 17,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 30,00 31,00 32,00 33,00 34,00 38,00 39,00 40,00 % 1 1 2 2 1 4 1 3 4 1 4 1 2 1 2 3 2 3 4 4 1 1 2 2 2 1 1 1 2 1 1,7% 1,7% 3,3% 3,3% 1,7% 6,7% 1,7% 5,0% 6,7% 1,7% 6,7% 1,7% 3,3% 1,7% 3,3% 5,0% 3,3% 5,0% 6,7% 6,7% 1,7% 1,7% 3,3% 3,3% 3,3% 1,7% 1,7% 1,7% 3,3% 1,7% 21 Die Altersangaben der Personen sind jetzt der Größe nach aufsteigend geordnet. Jede Alters-Angabe kommt nur einmal vor. Unter den Personen ist ein Baby unter einem Jahr, das mit der Altersangabe 0 geführt wird. 0 bedeutet hier nicht 0, sondern "noch nicht 1 Jahr alt". Weiterhin sehen wir, daß identische Altersangaben mehrfach, mit einer bestimmten Anzahl oder "Häufigkeit" auftauchen. Solche Häufigkeiten nennen wir „absolute Häufigkeiten“. Den einzelnen Häufigkeiten ist eine Prozentangabe zugeordnet. Fassen wir die Daten noch weiter zusammen, um sie übersichtlicher darstellen zu können, dann liegt es nahe, die Daten zu diesem Zweck in Klassen einzuteilen. Klassen sind hierbei • Meßwertgruppen innerhalb jeweils eines Intervalls – • meistens in einer Menge benachbarter Intervalle (Abstände) auf einer Meßskala, die in der Regel gleich groß sind. Die Klassenbildung dient der übersichtlicheren Darstellung und der Verdeutlichung von Eigenschaften einer Verteilung. Wollen wir selber Klassen definieren, schauen wir zunächst nach, wie groß der kleinste Meßwert (Minimum) und der größte (Maximum) sind. Dies sind hier die Altersangaben 0 und 40. Den Abstand zwischen Minimum und Maximum (hier 40) nennt man Variationsbreite oder (aus dem englischen Sprachraum): RANGE. Alle Klassen müssen diesen Raum erfassen, so daß weder der kleinste noch der größte Meßwert unterschlagen werden. Wenn wir 7 Klassen bilden wollen, teilen wir den Range (40) durch 7 und erhalten 5,7. Wir können daher abschätzen, daß wir mit einer Klassenbreite von 6 (von 5,7 aufgerundet) arbeiten können, wenn wir ganzzahlige Klassenbreiten haben wollen, und daß wir mit 7 Klassen auskommen werden. Wo soll aber die Untergrenze der kleinsten Klasse liegen? Wenn der kleinste Meßwert exakt 0 wäre, müßte die Untergrenze so gewählt werden, daß der Meßwert 0 noch von der kleinsten Klasse erfaßt wird. Bedeutet aber 0 nicht exakt „Null“, sondern signalisiert 0 nur, daß ein Meßwert zwischen 0 und 1 vorliegt (was hier wohl der Fall sein dürfte), dann können wir die Untergrenze der kleinsten Klasse auch so legen, daß sie zwar oberhalb von 0, aber ganz dicht bei diesem Wert 0 beginnt. Wenn wir die Klassenbreite 6 einsetzen, erhalten wir folgende Klassen: Klassengrenzen über 0 bis einschließlich 6 über 6 bis einschließlich 12 über 12 bis einschließlich 18 über 18 bis einschließlich 24 über 24 bis einschließlich 30 über 30 bis einschließlich 36 über 36 bis einschließlich 42 Klassen mitten 3 9 15 21 27 33 39 Häufigkeiten f 1= 7 f 2= 5 f3= 13 f 4= 10 f5= 13 f 6= 8 f 7= 4 Diese klassifizierten Werte lassen sich nun in verschiedensten Formen auch graphisch darstellen. Die folgende Darstellung nennt man „Balkendiagramm“. In ihm ist jeder Klassenmitte ein Balken oder Streifen zugeordnet, dessen Länge die Häufigkeit symbolisiert, die der Klasse zukommt, auf deren „Mitte“ er errichtet ist. Die Breite des Balkens ist bedeutungslos; zwischen den Balken kann ein Zwischenraum existieren: 22 Alter der Besucher des Tages der offenen Tür 14 13 13 12 10 10 8 8 Absolute Werte 7 6 5 4 4 2 3,00 9,00 15,00 21,00 27,00 33,00 39,00 ALTER Das Balkendiagramm hat den Vorteil, daß es nicht nur auf Klassen mit definierter Breite angewendet werden kann, sondern auch auf Nominal- und Ordinaldaten. Dort wird der Balken den nominalen „Kategorien“ oder den Rängen zugeordnet. Für das folgende „Kreisdiagramm“ haben wir die Klasseneinteilung des zuvor gezeigten Stabdiagramms übernommen. Der Winkel einzelner Sektoren richtet sich nach dem Anteil der in ihm enthaltenen Häufigkeit. Ein Sektor ist „ausgerückt“ um ihn hervorzuheben. Besucher des Tages der offenen Tür in der TUB nach Alter 21,00 16,7% 15,00 27,00 21,7% 21,7% 8,3% 9,00 13,3% 11,7% 3,00 33,00 39,00 Je nach Klassenbreite erhalten wir unterschiedliche Formen der Verteilung, da sich bei veränderter Klassenbreite auch die Häufigkeiten pro Klasse ändern, wie weiter unten (siehe Ausführungen zum "Modus") gezeigt wird. Hierin liegt insbesondere für die politische Praxis im Umgang mit Statistiken ein wichtiges Gestaltungsmoment: Unerfreuliches wird graphisch unterdrückt, Erfreuliches graphisch aufgebläht. Das folgende Diagramm ist ein sogenanntes Histogramm, in dem einem ganzen Intervall (also nicht nur einem Meßpunkt) ein dieses Intervall voll ausfüllender Streifen zugeordnet wird, dessen Fläche der Häufigkeit entspricht, mit der Fälle im jeweiligen Intervall auftreten. Das unten dargestellte Histogramm hat die Klassenbreite 4 (und nicht 6, wie das obige Balkendiagramm). Daher sind auch andere Klassengrenzen und andere Häufigkeiten zustandegekommen, die man aus den unten angegebenen Klassenmitten rekonstruieren kann: 23 Histogramm Alter von Besuchern des Tages der offenen Tür an der TUB 1985 14 12 12 12 10 8 8 6 Häufigkeit 4 5 5 4 4 34,0 38,0 3 3 2 4 0 2,0 6,0 10,0 14,0 18,0 22,0 26,0 Klassenun Klassenobergrenze tergrenze Klassen mitte über 0 über 4 über 8 über 12 über 16 über 20 über 24 über 28 über 32 über 36 2 6 10 14 18 22 26 30 34 38 Summe bis einschließlich 4 bis einschließlich 8 bis einschließlich 12 bis einschließlich 16 bis einschließlich 20 bis einschließlich 24 bis einschließlich 28 bis einschließlich 32 bis einschließlich 36 bis einschließlich 40 30,0 Absolute Häufigkei t 4 3 5 12 3 8 12 5 4 4 60 Prozentuale Häufigkeit 6,7 5 8,3 20 5 13,3 20 8,3 6,7 6,7 100 Schließlich kann man die gleichen Daten noch mittels Häufigkeitspolygon darstellen: 24 Häufigkeitspolygon Alter von Besuchern des Tages der offenen Tür an der TUB 1985 14 12 10 8 6 Häufigkeit 4 2 0 2,00 6,00 10,00 14,00 18,00 22,00 26,00 30,00 34,00 38,00 42,00 Hier werden Punkte über den Klassenmitten in die Graphik im senkrechten Abstand der jeweiligen Häufigkeit eingetragen und mittels Linienzug verbunden. Zu beachten ist bei dem obigen Häufigkeitspolygon, daß eine andere Klassengrenzenwahl zugrundeliegt als beim Histogramm, nämlich von 0 bis unter 4, von 4 bis unter 8 etc., so daß der Wert 40 nicht mehr in die vorletzte Klasse (bis unter 40) fällt, sondern in die letzte Klasse (40 bis unter 44). 3.3. Zusammenfassung der Information aus Häufigkeitsverteilungen 3.3.1. Daten auf dem Intervall- und Ratio-Niveau der Messung - Lage- und Streuungsmaße Neben einer graphischen Darstellung von Häufigkeiten gibt es nun Möglichkeiten einer vergleichsbezogenen mathematischen Beschreibung von empirischen Verteilungen: Stichproben-Verteilungen werden hierbei durch Kennwerte beschrieben, die die Form und die Lage der Verteilung charakterisieren. Bei der Form der Verteilung kommt es oft darauf an, • ob die Verteilung einer sogenannten Normalverteilung ähnlich ist oder nicht. Die Normalverteilung wird weiter unten besprochen. Maße, die die Ähnlichkeit mit einer Normalverteilung messen, sind die „Schiefe“ und der „Exzess“. 25 • Weiterhin kommt es bei der Form darauf an, ob die Verteilung breit oder schmal ist. Maße, die die Breite betreffen, nennen wir „Streuungsmaße“. Die Streuung einer Verteilung wird u.a. auch durch die Differenz von kleinstem und größtem Meßwert charakterisiert. • Maße, die die Symmetrie oder Asymmetrie betreffen, lassen sich aus dem Vergleich verschiedener Mittelwerte entwickeln. Asymmetrie liegt dann vor, wenn wir es mit einer Häufung der Meßwerte an der rechten oder linken Seite der Verteilung .zu tun haben. • Weiterhin kann noch die Menge der Gipfelpunkte einer Verteilung von Bedeutung sein. Bei der Lage der Verteilung kommt es darauf an, • wo Meßwerte liegen, die die ganze Verteilung gut repräsentieren. Solche Werte, die die gesamte Verteilung gut repräsentieren, sind in der Regel „Mittelwerte“ oder auch „Maße der zentralen Tendenz“ (s.u.). , die dann brauchbar sind, wenn die Form der Verteilung nicht allzu asymmetrisch ist. Um zu zeigen, worum es hier geht, werden unten zunächst drei verschiedene Verteilungen mit dem gleichen Maßstab der Meßwertachse als Histogramme dargestellt, zusammen mit ausgewählten statistischen Maßen, die sie charakterisieren: Die drei Verteilungen unterscheiden sich. Während „Verteilung 1“ offensichtlich in ihrer Mitte über dem Meßwert 100 liegt, liegt die Mitte von „Verteilung 2“ über dem Meßwert 120 – d.h. im Durchschnitt sind die Meßwerte der „Verteilung 2“ um ca. 20 Meßwertpunkte größer als die von „Verteilung 1“. Diese „Mitten“ sind in den unten aufgeführten Graphiken durch einen senkrechten Strich oberhalb der Graphik markiert. Bei „Verteilung 3“ fällt auf, daß sie breiter ist (weiter streut) als die Verteilungen 1 und 2. Außerdem hat sie – im Gegensatz zu den anderen Verteilungen – zwei Gipfelpunkte – also zwei Häufigkeiten, deren Nachbarhäufigkeiten rechts und links niedriger sind als die Häufigkeit am „Gipfelpunkt“. 26 Drei ähnliche – und doch deutlich verschiedene – annähernd „normale“ Verteilungen: Verteilung 1 „100“ 80 70 60 50 40 30 Häufigkeit 20 Std.abw. = 10,00 10 Mittel = 100,0 N = 322,00 0 5 2, 13 5 2, 11 ,5 92 ,5 72 ,5 52 Verteilung 2 Meßwerte „120“ 80 70 60 50 40 30 Häufigkeit 20 Std.abw. = 10,00 10 Mittel = 120,0 N = 322,00 0 5 2, 13 „100“ 5 2, 11 ,5 92 ,5 72 ,5 52 Verteilung 3 Meßwerte 27 50 40 30 Häufigkeit 20 10 Std.abw. = 20,00 Mittel = 100,0 N = 322,00 0 5 2, 13 5 2, 11 ,5 92 ,5 72 ,5 52 Meßwerte Während die vorherigen Verteilungen noch einigermaßen „symmetrisch“ aussahen, folgen jetzt zwei stark asymmetrische Verteilungen – wiederum Histogramme: Verteilung 4 120 100 80 60 Häufigkeit 40 20 Std.abw. = 50,00 Mittel = 149,0 N = 322,00 0 0 0, 16 0 0, 12 ,0 80 ,0 40 0 0, Meßwerte Verteilung 5 120 100 80 60 Häufigkeit 40 20 Std.abw. = 50,00 Mittel = 41,0 N = 322,00 0 0 16 0 12 ,0 ,0 ,0 80 ,0 40 0 0, Meßwerte Die folgende Verteilung ist „u-förmig“, aber dennoch ziemlich symmetrisch: Verteilung 6: 28 60 50 40 30 Häufigkeit 20 10 Std.abw. = 72,11 Mittel = 98,5 N = 322,00 0 16 12 80 0 0, 0 0, ,0 ,0 0 40 0, Meßwerte In der „beschreibenden Statistik“ (auch „deskriptive“ Statistik genannt) wird nun der Versuch gemacht, über die graphischen Mittel des Vergleichs von Verteilungen hinaus noch mathematische Hilfsmittel zu konstruieren, die die Lage, die Streuung und die Form von Verteilungen auszudrücken gestatten. Dies hat Vorteile, wenn es darum geht, den Vergleich von Häufigkeitsverteilungen nicht nur durch „Augenschein“ vorzunehmen, sondern auf eine mathematische, besonders aber wahrscheinlichkeitstheoretische Grundlage zu stellen. Die Problematik, die hierbei auftritt, besteht darin, optische Vergleichsvorgänge auf mathematische Vergleichsverfahren zu reduzieren oder sie durch mathematische Verfahren zu präzisieren. Wenn z.B. die beiden folgenden Flächen bezüglich ihrer Größe verglichen werden, dann kann durch den Augenschein kaum entschieden werden, welche größer ist. Messe ich aber die Kanten und multipliziere sie miteinander, dann kann die Frage genau entschieden werden. Ähnlich ist es mit den Maßen der zentralen Tendenz: Nehmen wir an, die „Mitte“ einer Meßwerte-Schar sei ein adäquater Ausdruck ihrer zentralen Tendenz. Was ist aber die „Mitte“ ? Bei zwei Meßwerten ist das klar: Die Mitte wird durch die Hälfte der Strecke zwischen den Meßwerten bestimmt. Bei drei Meßwerten ist das schon nicht mehr klar: Ist der „mittlere“ Meßwert von dreien immer Repräsentant der Mitte aller drei Meßwerte, unabhängig davon, wie weit er von den beiden äußeren Meßwerten entfernt ist ? Und wie ist das, wenn ich mehr als drei Meßwerte habe? Wie ist das bei asymmetrischen Verteilungen, bei denen die größten Häufigkeiten nicht in einem mittleren Intervall liegen, sondern am Rande ? 29 3.3.1.1 Maße der zentralen Tendenz und Lagemaße Jedes Maß der zentralen Tendenz kann nur alle Werte einer Verteilung durch einen einzigen Wert „ersetzen“. Diehl (Diehl, Joerg M.; Kohr, Heinz U.: Deskriptive Statistik, 12. Auflage 1999, S. 76 f) führt hierzu aus, daß dieser Ersatz immer ein unvollkommener Ersatz ist, und er systematisiert die Fehler, die man bei den verschiedenen Maßen der zentralen Tendenz macht, wenn man sie auf empirische Verteilungen anwendet. Dieses Verfahren der Berechnung und Systematisierung der Fehler macht die Maße der zentralen Tendenz in gewisser Weise in ihrer Brauchbarkeit und Unbrauchbarkeit einschätzbar. Exkurs zum Summenzeichen Bevor wir auf die formelmäßige Darstellung der Maße der zentralen Tendenz und der Streuung eingehen, müssen wir ein mathematisches Symbol einführen, das Summenzeichen Σ (großer griechischer Buchstabe „Sigma“). Es steht für die Vorschrift, eine Folge von Meßwerten aufzuaddieren, wobei aus dieser Folge eine Reihe wird (vgl. unten, S. 102). Eine Folge ist eine Menge von Zahlen, die in einer bestimmten Reihenfolge stehen. Eine arithmetische Folge bzw. eine geometrische Folge sind besondere Folgen, die aus besonderen Regeln hervorgehen (s.u.). Beim Σ wird - wenn dies sich nicht aus dem Zusammenhang ergibt - angegeben, von welchem bis zu welchem Glied der Folge, auf die sich das Summierungszeichen bezieht, die Summierung durchgeführt werden soll. Die einzelnen Glieder einer Folge werden - ihrer Stellung in der Folge nach - durchnumeriert und diese Nummer wird auch als Index bezeichnet, der - in allgemeiner Form - oft durch die Buchstaben i oder j oder k ersetzt wird, wobei diese Buchstaben tiefgestellt gedruckt werden. i, j oder k sind das sogenannte „Laufindizes“. Beispiel: Die Folge von Zahlen 3 5 8 2 2 1 0 8 9 kann auch bezeichnet werden mit a1 a2 a3 a4 a5 a6 a7 a8 a9 Bildet man die Summe der vier letzten Zahlen in dieser Folge, so ließe sie sich mathematisch wie folgt ausdrücken: 9 ∑a i =6 i = a6 + a7 + a8+ a9 = 1 + 0 + 8 + 9 = 18 Wie man sieht, steht unter dem ∑ ein Laufindex i, dessen erster Wert für den Summierungsvorgang unter dem ∑ und dessen letzter Wert über dem ∑ angegeben sind. Weitere Informationen und Übungsbeispiele finden sich zu dieser Symbolik im Anhang. Das Summenzeichen ist ein in der Statistik sehr häufig benutztes Symbol. Es ist daher sehr wichtig, mit ihm sachgerecht umgehen zu können. Mit ihm werden in der Regel drei verschiedene - ebenfalls in der Statistik verwendete Symbole - verknüpft: 30 xi als Symbol für Meßwerte yj ebenfalls als Symbol für Meßwerte - aber Meßwerte einer anderen „Variablen“ „y“. fk als Symbol für Häufigkeiten in bestimmten Klassen von Meßwerten. 3.3.1.2 Arithmetisches , geometrisches Mittel und harmonisches Mittel Das arithmetische Mittel ergibt sich als Quotient aus der Summe der Meßwerte (Σxi), die man durch die Menge der Meßwerte (N), [oder bei Stichproben (n)], [oder bei klassifizierten Daten Σfk] teilt. Das heißt, wir können das arithmetische Mittel „x“ (sprich x-quer) in verschiedenen Schreibweisen ausdrücken: n x= ∑x i =1 i n bzw. x = n 1 * ∑ n i=1 x i n oder x= ∑x i =1 k ∑f j =1 i k Hierbei bedeuten: xi Meßwerte i, i = 1,2,3....n n Menge der Meßwerte fk Häufigkeit in der Klasse k. Das arithmetische Mittel ist im übrigen ein physikalisches Konzept, das auf die Hebelgesetze zurückgeführt werden kann. Es entspricht dem Konzept des Schwerpunktes eines Körpers. Man nennt das arithmetische Mittel deshalb "arithmetisch", weil es aus einer arithmetischen Folge immer genau die Mitte heraussucht! Arithmetische Folgen sind solche, die durch fortlaufende Addition einer Konstante zu einem Betrag entstehen. Die Folge 7,9,11,13,15,17,19,21,23,25,27. wäre eine arithmetische Folge, die ab der Startzahl 7 durch fortlaufende Addition der Konstante 2 zum Vorgängerwert entsteht. Ihr mittlerer Wert, der 6. von 11 geordneten Zahlen, ist 17. Er ist identisch mit dem arithmetischen Mittel. Das geometrische Mittel ist in Analogie zum arithmetischen Mittel konstruiert. Es sucht aus einer geometrischen Folge den mittleren Wert heraus. Hierbei gilt als geometrische Folge eine Folge, die durch fortlaufende Multiplikation einer Startzahl mit dem gleichen Faktor erreicht wird, wie 31 3,5 17,5 87,5 437,5 2187,5 Diese Folge entsteht aus 3,5 * 50; 3,5 * 51; 3,5 * 52; 3,5 * 53 3,5*54.... Das geometrische Mittel sucht nun aus dieser Folge das mittlere Element heraus, also den Wert 3,5 * 52 = 87,5. Die Formeln für das geometrische Mittel lauten: 1 n n xg = n ∏x i i =1 1 n log xi ∑ = ∏ xi =10 n i =1 i=1 n Hinter dem letzten Gleichheitszeichen steht die logarithmische Schreibweise des geometrischen Mittels. π ist (in Analogie zu Σ) die Vorschrift zu fortlaufender Multiplikation der Meßwerte (x1 * x2 * x3*...*xn). (π ist hier also nicht die Kreiskonstante 3,14... !) Die logarithmische Schreibweise (s.o.) empfiehlt sich, wenn die Produkte zu groß werden, um noch leicht mit ihnen rechnen zu können. Das ist immer der Fall, wenn n groß ist. Führt man für das o.a. Beispiel diese Rechnung aus, ergibt sich [ x g = (3,5 * 5 * 3,5 * 5 * 3,5 * 5 * 3,5 * 5 * 3,5 * 5 ( 5 0 10 = 3,5 * 5 ) 1 5 1 2 3 4 )] 1 5 = 3,51 * 52 = 3,5 * 25 = 87,5 Analog zur arithmetischen Folge ergibt sich auf diese Weise bei echten geometrischen Folgen eine Identität von Median und geometrischem Mittel. Zu beachten ist, daß beim geometrischen Mittel keine Meßwerte verarbeitet werden können, die gleich oder kleiner als Null sind. Tauchen solche Werte auf, dann sind alle Meßwerte vor Berechnung des geometrischen Mittels durch Addition einer Konstante so zu transformieren, daß sie größer als Null sind. Vom geometrischen Mittel dieser transformierten Werte wäre dann die Konstante wieder abzuziehen. Neben dem arithmetischen und geometrischen Mittel existieren noch weitere Mittelwerte, die auf einer harmonischen Folge aufbauen. Eine harmonische Folge liegt in folgender Zahlenreihe vor: 1 1 1 1 1 1 1, , , , , , .... 2 3 4 5 6 7 Allgemein ausgedrückt: 32 1 xi für xi = 1 bis n. Das harmonische Mittel hat die Formel: HM = n n 1 ∑x i =1 i Führt man mit dieser Formel die Berechnung durch, dann ergibt sich das Resultat von 0,25, also ¼. ¼ ist der 4. Wert der obigen Reihe aus 7 Elementen, d.h. ¼ ist der mittlere Wert. Praktisch wird das harmonische Mittel zum Beispiel auf Meßwerte angewendet, die sich auf Geschwindigkeiten beziehen. Wenn ein Fahrradfahrer die ersten 10 km eine Geschwindigkeit von 15 km/h fährt, die zweiten 10 km eine Geschwindigkeit von 18 km/h und die dritten 10 km eine Geschwindigkeit von 21 km/h, dann käme aus der Rechnung als Durchschnittsgeschwindigkeit heraus: 17,66 km/h. Diehl und Kohr (Deskriptive Statistik, a.a.O., S. 86) erwähnen noch das von Senders 1958 vorgestellte „Kontraharmonische Mittel“: n KHM = ∑x i =1 n 2 i ∑x i =1 i Es wird verwendet, wenn xi ein Wert ist, der seinerseits eine Häufigkeit bezeichnet wie die Anzahl der Kinder pro Familie. Beispiel: Kinder pro Familie xi 2 3 5 KHM = Anzahl der Familien fi 20 15 11 fixi 40 45 55 fixi² 80 135 275 490 = 3,5 140 Das durchschnittliche Kind kommt aus einer Familie mit 3,5, also 3 bis 4 Kindern (KHM). Die durchschnittliche Familie hat aber nur 3,04 Kinder, wie man mit dem arithmetischen Mittel zeigen kann. 3.3.1.3. Der Median Der Median (Md) bezeichnet in einer nach Größe geordneten, aber sonst beliebigen Meßwertfolge den mittleren Wert der geordneten Folge, unabhängig vom Charakter der Folge: Für die Folge 10,30,50,51,52,53,57 _ gilt: x=43,29; (7 Meßwerte, der Größe nach geordnet, ungleiche Abstände) Md = 51 33 Für obige Folge mit 7 Meßwerten ist der Median der 4. Meßwert. Er teilt die Meßwertfolge in zwei gleich große Mengen. _ In dieser Folge wäre x = 43,29, läge also zwischen dem 2. und 3. Meßwert. Die Ursache für die Abweichung von Median und x ist der für diese Folge extrem kleine Wert 10. Für arithmetische Folgen sind Median und arithmetisches Mittel identisch. Das gleiche gilt für alle symmetrischen Verteilungen. (Hieraus ist jedoch nicht im Umkehrschluß abzuleiten, daß alle Verteilungen symmetrisch sind, für die der Median und das arithmetische Mittel identisch sind. Wie man durch Ausprobieren feststellen kann, gibt es auch leicht asymmetrische Verteilungen mit Identität von arithmetischem Mittel und Median). Betrachten wir noch einmal unsere Besucher des Tages der offenen Tür. 60 Besucher kamen, der Median mußte also zwischen dem 30. und 31. Meßwert in der geordneten Reihe liegen. Dies sind die Meßwerte 21 und 22. Da in Folgen, die eine geradzahlige Menge von Elementen haben, keine einzelne „mittlere“ Zahl vorkommt, sondern immer zwei mittlere Zahlen, legt man in diesen Fällen den Median als das arithmetische Mittel der beiden mittleren Zahlen fest. Daher ist der Median = 21,5. Das arithmetische Mittel ist für die Rohwerte x = 19,87. Median und arithmetisches Mittel sind hier also nicht identisch, da die Meßwerte keine arithmetische Folge darstellen. Wie wirken sich nun Klassifikationsvorgänge auf arithmetisches Mittel und Median aus? 3.3.1.4 Arithmetisches Mittel und Median bei klassifizierten Werten Klassifizieren wir unsere Werte vom Tag der offenen Tür in Klassen mit der Breite 7, dann zeigt sich folgendes Bild, in dem auch die Summe der Meßwerte pro Klasse berechnet wurde: Klassengrenzen Klassenmitten Häufigkeiten fk 0 bis unter 7 x1 3,5 f1 7 Summe der Meßwerte pro Klasse 24,5 7 " " 14 12 126,0 " 21 x2 10,5 x3 17,5 f2 14 " f3 9 157,5 21 " " 28 x4 24,5 f4 19 465,5 28 " " 35 x5 31,5 f5 9 283,5 35 " " 40 x6 38,5 f6 4 Σfk = 60 154,0 Σfkxi=1211 Die 1. Klasse von 0 bis unter 7 hat hier die Klassengrenzen 0 und 6,999...also die Klassenmitte 3,5. Da die Statistiker hier die Konvention haben, wenn andere Informationen fehlen, anzunehmen, daß die Werte einer Klasse in ihrer Mitte konzentriert sind, haben wir bei klassifiziert vorliegenden Werten in diesem Fall davon auszugehen, daß 7 mal der Meßwert 3,5 vorliegt. Das arithmetische Mittel x errechnet sich demgemäß aus x= f (x ) + f (x ) + ... + f (x ) ∑f 1 1 2 2 6 6 k = 7 * (3,5) + 12 * (10,5) + 9 * (17,5) + 19 * (24,5) + 9 * (31,5) + 4 * (38,5) 60 = 1211/60= 20,18 Jahre 34 Dieses Rechenergebnis für x ist mit dem für die Rohwerte berechneten ( x = 19,87) nicht identisch! Die Nichtübereinstimmung resultiert aus der Ungenauigkeit der Klassenmitten als Repräsentanten aller Werte pro Klasse. Die maximale Abweichung des arithmetischen Mittels bei klassifizierten Werten vom "wahren Wert" beträgt eine halbe Klassenbreite; sie träte ein, wenn alle Rohwerte auf der Klassenuntergrenze oder der Obergrenze konzentriert wären, was praktisch aber nie der Fall ist. Wie berechnen wir nun den Median bei klassifizierten Werten? Hierzu stellen wir fest, in welche der Klassen er fällt. Er liegt im obigen Beispiel zwischen dem 30. und 31. Wert, da dort N = 60 ist. Diese beiden Werte liegen in der 4. Klasse. Also wäre der Median = 24,5, d.h. identisch mit der Mitte der Klasse, in die er fällt, wenn wir bei der Annahme bleiben, daß sich die Werte auf die Klassenmitte konzentrieren. 3.3.1.5. Weitere Lagemaße: N-tile und Prozentränge Während der Median genauso viele Meßwerte unter wie über sich hat, haben N-tile die Eigenschaft, die geordneten Meßwerte auch in einem anderen Verhältnis zu teilen, z.B. im Verhältnis 25:75; 10:90; 75:25 und so weiter. Bei 4 N-tilen spricht man von „Quartilen“, bei 10 N-tilen spricht man von „Dezilen“, man benutzt also die lateinischen Zahlen zur Bildung dieser Begriffe. Wie schon bei der Medianberechnung kommt es auch hier wieder darauf an, • • • ob ein konkreter Meßwert das N-til repräsentiert, ein Wert zwischen zwei benachbarten Meßwerten, oder eine Klassenmitte. Für unser Beispiel von den Besuchern des Tages der offenen Tür 1985 können wir folgendes feststellen: Ordnet man den Altersstufen nicht nur die absolute Häufigkeit zu, sondern auch die prozentuale Häufigkeit (100*fk/n), und zählt man jede weitere prozentuale Häufigkeit zu der Summe der Vorgänger hinzu, dann erhält man die in der letzten Spalte der unten stehenden Tabelle aufgeführten kumulierten prozentualen Häufigkeiten. Sie sind identisch mit den Prozenträngen. Von diesen unterscheiden sich die N-tile dadurch, daß sie durch die jeweiligen Klassengrenzen beeinflußt sind. Für die Demonstration des Unterschieds nehmen wir wieder unsere Daten vom Tag der offenen Tür als Beispiel, jetzt mit einer Klassifikation, bei der die Klassenbreiten gleich 6 sind und die Klassen von Null bis unter 6, von 6 bis unter 12 etc. definiert sind: Altersangaben zum Tag der offenen Tür in der TU-Berlin Gültig 3,00 9,00 15,00 21,00 27,00 33,00 39,00 Gesamt Häufigkeit 7 5 13 10 13 8 4 60 Prozent 11,7 8,3 21,7 16,7 21,7 13,3 6,7 100,0 Gültige Prozente 11,7 8,3 21,7 16,7 21,7 13,3 6,7 100,0 Kumulierte Prozente 11,7 20,0 41,7 58,3 80,0 93,3 100,0 35 Für diese Daten sind die rechts in der Tabelle eingetragenen Werte (die kumulierten Prozente), wie schon gesagt, gleich den Prozenträngen. Fragt man nach den N-tilen, dann gibt es für diese Frage 2 Antworten: Entweder, man tut so, als würden die Daten nur aus Angaben über die Klassenmitten bestehen. Aus dieser Annahme resultiert dann folgende Lösung für 6 N-tile (in der nachfolgenden Tabelle mit Percentile bezeichnet): OFFTU1 N Mittelwert Median Perzentile Gültig Fehlend 16,66666667 33,33333333 50 66,66666667 83,33333333 60 0 20,7000 21,0000 9,0000 15,0000 21,0000 27,0000 33,0000 Die 5 in der Tabelle aufgeführten N-tile von insgesamt 6 N-tilen(oben als „Percentile“ bezeichnet), entsprechen den Klassenmitten der Klassen, in die jeweils die N-tile (bzw. Percentile) fallen. Nimmt man an, daß die Daten sich gleichmäßig jeweils über die gesamte Klassenbreite verteilen, dann resultiert folgende Lösung des gleichen Problems aus obigen Daten: OFFTU1 N Mittelwert Median Perzentile Gültig Fehlend 16,66666667 33,33333333 50 66,66666667 83,33333333 60 0 20,7000 21,0000a 9,3333b 15,7826 21,0000 26,2174 31,8571 a. Aus gruppierten Daten berechnet b. Perzentile werden aus gruppierten Daten berechnet. Hier sind die N-tile (wiederum in der Tabelle als „Percentile“ bezeichnet) nicht mehr identisch mit den Klassenmitten, sondern nehmen Werte an, die innerhalb der Intervalle der jeweiligen Klassen liegen. Formeln für die Berechnung entsprechender N-tile finden sich bei Benninghaus (Hans Benninghaus, Einführung in die sozialwissenschaftliche Datenanalyse, München 1990, S. 130ff) und Diehl/Kohr (Diehl, Joerg M und Kohr, Heinz U.: Deskriptive Statistik, Verlag Dietmar Klotz, Frankfurt am Main, 12. Auflage, S. 57). Diese Formeln, deren Handhabung ziemlich umständlich ist, werden hier nicht referiert. Da wir in der Praxis sowieso meistens mit den Rohdaten und nicht mit den klassifizierten Daten rechnen, kommen diese Formeln selten zur Anwendung. Sie sind aber in SPSS.10 verfügbar, und zwar über die Option „Daten sind aus gruppierten Daten berechnet“ (s.o.). 3.3.1.6. Modi Der Modus ist neben den Mittelwerten, N-tilen und Prozenträngen ein weiteres Lagemaß, mit dem wir uns beschäftigen. Er ist die Bezeichnung für "Gipfelpunkte" (Modi) einer Verteilung. Gipfel sind solche Meßwerte oder Klassenmitten, deren Häufigkeit größer ist als die der jeweils rechts und links benachbarten 36 Meßwerte oder Klassenmitten. Menge und Lage der Gipfelpunkte hängen stark von der Definition der Klassengrenzen ab. So erzeugt eine Klassifikation unserer Daten vom Tag der offenen Tür 1985 bei einer Klassenbreite von 3 und 7 unterschiedlich viele Modi, wie die folgenden Graphiken zeigen: Altersverteilung am Tag der offenen Tür : 5 Gipfelpunkte 12 11 10 8 8 7 6 4 2 6 5 5 4 3 2 1 37,5 1 0 1,5 7,5 4,5 13,5 10,5 19,5 16,5 25,5 22,5 3 2 2 31,5 28,5 34,5 40,5 Klassenmitten bei Klassenbreite 3 Altersverteilung am Tag der offenen Tür: Zwei Gipfelpunkte 20 19 12 10 9 9 7 4 0 3,5 10,5 17,5 24,5 31,5 38,5 Klassenmitten bei Klassenbreite 7 Während bei der Klassenbreite 3 noch 5 Gipfel vorhanden sind, bleiben nur noch 2 Gipfel bei Klassenbreite 7 übrig. Wie sich hier zeigt, ist der Modus extrem anfällig für Klassifikationsunterschiede. Er scheidet daher für einen Vergleich dann aus, wenn verschiedene Klassenbreiten vorliegen. Weiterhin ist zu betonen, daß der Modus vor allem dann nützlich für einen Vergleich ist, wenn er nur einmal auftritt. Treten mehrere Modi auf, wählt beispielsweise SPSS.10 den kleinsten Meßwert aus, dem ein Modus entspricht. Das hieße für obige Graphik mit den zwei Modi, daß der Wert 10,5 als Modus angegeben werden würde, nicht aber der Wert 24,5, dem der Modus mit der absolut größten Häufigkeit entspricht. 3.3.1.7. Relative, prozentuale und kumulierte Häufigkeiten; Wahrscheinlichkeit Der Vergleich zwischen Verteilungen aufgrund "absoluter" Häufigkeiten (fk) ist schwierig, wenn man verschieden große Stichproben einander gegenüberstellt. Um Vergleiche auch zwischen Stichproben und Grundgesamtheiten verschiedenen Umfangs sinnvoll durchführen zu können, ist es nützlich, statt der absoluten Häufigkeiten "relative" Häufigkeiten anzugeben. Hierbei teilt man die absoluten Häufigkeiten einfach durch n (die Menge der Fälle) und schon ist ein Vergleich möglich, allerdings auch wiederum nur auf der Grundlage identischer Klassengrenzen. Die relativen Häufigkeiten sind definiert als Relative Häufigkeit = f n k = 1 * n f k 37 Hierbei gelten die Beziehungen: l l ∑ k =1 ∑f fk = n ; k =1 k n =1 Das heißt, die Summe aller relativen Häufigkeiten ist immer gleich 1. k ist hier der Laufindex für die Klassen, der zum Beispiel bei 6 Klassen die Werte 1 bis 6 durchläuft. Multiplizieren wir die relativen Häufigkeiten mit 100, dann machen wir aus ihnen "prozentuale" Häufigkeiten, also die "Prozente", die oben in der Tabelle schon berechnet wurden. Prozentuale Häufigkeit = 100 * f k n Relative Häufigkeiten kennen wir in der Alltagssprache meistens nur als "Wahrscheinlichkeiten": "Ich wette 10:1, daß Du nicht gern Statistik lernst, weil nur 1/10 (oder nur 10 %) der Studenten erfahrungsgemäß Spaß an diesem Fach haben". Die Wahrscheinlichkeit, einen Studenten zu treffen, der das Fach gern hat, müßte bei dieser Wette 1/10, also 0,1 sein oder 10 % sein. Wir sehen, daß die alltagssprachliche Definition der Wahrscheinlichkeit identisch ist mit der Definition der relativen Häufigkeit. Bei der Wahrscheinlichkeit werden die "zutreffenden" Fälle (also im Beispiel die Studenten, die gern Statistik lernen) durch die Menge aller Studenten geteilt, die das Fach lernen; die Formel lautet: Anzahl der für E zutreffenden Fälle p (E) = Anzahl der insgesamt möglichen Fälle Die Formel bedeutet: Die Wahrscheinlichkeit p für das Eintreten des Ereignisses E ist gleich dem Quotienten aus den Fällen, bei denen E eintritt, und allen möglichen Fällen des Experiments. Für die prozentualen Häufigkeiten gilt, daß ihre Summe gleich 100 ist: l ∑ f k =1 n k * 100 = l ∑f k ∑f k k =1 l k =1 * 100 = 100 Weil die Summe der relativen Häufigkeiten gleich 1 ist, leuchtet es ohne weiteres ein, daß die Summe der prozentualen Häufigkeiten immer gleich 100 ist. Allerdings erhalten wir wegen der Rundungsfehler „nach dem Komma" nur selten den exakten Wert von 100 %, wenn wir Prozente - wie bei den oben gezeigten kumulierten Prozenten - addieren. Die folgende Grafik zeigt die kumulierten Prozente der Altersangaben vom Tag der offenen Tür 1985. Eingezeichnet sind waagerecht die Teilungslinien, die wir bei Sextilen erhalten würden; man kann in der Graphik sehr deutlich den Unterschied zwischen Prozenträngen und N-tilen sehen: Die Prozentränge entsprechen den kumulierten Prozenten an der Obergrenze der jeweiligen Klasse, die N-tile – je nach 38 Konvention – der Klassenmitte jener Klasse, in die der N-til-Wert fällt, oder einem bestimmten Wert in dieser Klasse: Besucher des Tages der offenen Tür in der TU Berlin 1985 100 98 100 38 43 93 80 80 Kumulative Prozent 60 63 45 40 33 20 18 10 0 3 8 13 18 23 28 33 Um nun mit prozentualen Häufigkeiten vergleichend umzugehen, stellen wir unsere Daten vom Tag der offenen Tür aus Jahr 1985 anderen Daten aus dem Jahr 1986 gegenüber, die ebenfalls am Tag der offenen Tür erhoben wurden: Geordnete Angaben von Besuchern des Tages der offenen Tür über ihr Lebensalter vom 1.6.1986: 0,0,0,0,1,1,1,2,2,3,3,4,4,5,5,6,7,8,8,8,8,8,8,9,10,10,11,11,12,12,13,13,13,13,14,14,15,15,17,17,17,17,17,18,18,1 9,19,20,20,20,21,21,21,22,22,22,22,24,24,24,24,24,25,25,26,26,28,28,29,29,29,29,31,32,32,32,32,33,33,33,34,3 4,34,34,34,34,36,39,39,39,40,40,40,40,41,42,44,44,45,45,45,45,45,45,46,49,49,49,49,50,51,51,52,52,53,53,54 Zunächst erfolgt der Vergleich auf der Grundlage absoluter Zahlen: Vergleich der Altersverteilungen der Besucher am Tage der offenen Tür 1985 und 1986 in der Technischen Universität (aufgrund von klassifizierten Werten mit der Klassenbreite 5): 39 Besucher der Tage der offenen Tür in der TU-Berlin nach Alter in den Jahren 1985 und 1986 16 15 14 14 13 12 12 11 10 11 11 10 10 9 8 8 8 8 7 6 Absolute Werte 11 6 5 4 JAHR 4 3 2 1985 1 0 3 8 13 18 23 28 33 38 1986 43 48 53 Wie man sieht, ist der Vergleich der absoluten Häufigkeiten von beiden Aufstellungen der Jahre 1985 und 1986 nicht sehr fruchtbar, weil wir z.B. zwar feststellen können, daß in der 5. Klasse (der ca. 23 - jährigen) 1985 11 Personen kamen, 1986 waren es 15. Wir können aber aus dieser Feststellung noch nicht schließen, daß 1986 die Häufigkeit in der Altergruppe „23“ angestiegen ist, denn diese scheinbar geringe Zunahme wird durch die Information zweifelhaft, daß 1986 insgesamt fast doppelt soviel wie 1985 kamen, nämlich 117 Personen statt 60: Vergleicht man die Prozente, dann wird aus der scheinbaren Zunahme ein dramatischer Rückgang der Besucherzahl in dieser Altersgruppe. Vergleichen wir deshalb einmal die Prozentzahlen: Besucher der Tage der offenen Tür in der Tu-Berlin nach Alter in den Jahren 1985 und 1986 20 18 17 15 13 13 10 12 12 11 10 9 10 9 9 9 8 7 7 JAHR Prozent 5 3 1985 2 0 3 8 13 18 23 28 33 38 43 1986 48 53 Es zeigt sich, daß in der Gruppe der ca. 23-jährigen 1986 nur noch 13% der Besucher waren, 1985 waren es immerhin 18%. Zugleich zeigt der Vergleich auch, daß sich die Besucher 1986 auf eine größere Spannweite (Range) verteilen. Der älteste Besucher 1985 war 40, 1986 war er über 50. Die größere Streuung im Alter 1986 führt dazu, daß bei den älteren Gruppen eine gewaltige Zunahme zu verzeichnen ist, bei vielen jüngeren Gruppen eine Abnahme. 40 Eine weitere Möglichkeit, empirische Verteilungen zu vergleichen, ist der Vergleich der kumulierten prozentualen Häufigkeiten. Hierbei wird, wie oben schon ausgeführt, bei jeder der Verteilungen die prozentuale Häufigkeit der 2. Klasse zur prozentualen Häufigkeit der 1. Klasse hinzuaddiert, die der 3. Klasse zu dieser Summe und so fort. Dieses Verfahren nennt man "Aufwärtskumulation". Es endet beim Wert "100%". Das folgende graphische Beispiel ist durch Aufwärtskumulation der prozentuierten Häufigkeiten der Besucher in den Jahren 1985 und 1986 beim Tag der offenen Tür gewonnen, wobei wieder die Klassenbreite 5 zugrundeliegt. Besucher der Tage der offenen Tür in der Tu-Berlin nach Alter in den Jahren 1985 und 1986 100 100 98 80 93 84 80 74 60 63 100100 100 93 77 62 Kumulative Prozent 53 45 40 40 33 20 18 0 31 JAHR 21 1985 10 11 3 1986 8 13 18 23 28 33 38 43 48 53 Die Interpretation kumulierter Häufigkeiten ist folgende (die folgenden Beispiele sind der obigen Graphik entnommen): Wenn man davon ausgeht, daß die Klassengrenzen von über 0 bis 5, von über 5 bis 10 etc. verlaufen, und daß es sich in der obigen Graphik um aufgerundete Klassenmitten handelt, dann kann man aufgrund der Graphikwerte sagen: 1985 waren 80 % der Besucher bis zu 30 Jahre alt. 1986 waren es nur 62 %. 1985 waren 63 % der Besucher bis zu 25 Jahre alt, 1986 waren es nur 53 % 1985 waren 7 % älter als 35 Jahre, 1986 waren 26 % älter als 35 Jahre 1985 waren 2 % älter als 40 Jahre, 1986 waren 23 % älter als 40 Jahre. Für die Darstellung kumulierter Verteilungen benützt man in der Regel Summenpolygone, die bei Aufwärtskumulieren durch Streckenzüge von der Untergrenze der kleinsten Klasse zur Obergrenze der höchsten Klasse nach Maßgabe der addierten Werte gewonnen werden. Die addierten Prozente beginnen bei 0 und enden bei 100 %, wenn die Obergrenze der höchsten Klasse erreicht ist. Die beiden Altersverteilungen von den Tagen der offenen Tür in der TUB 1985 und 1986 werden in der folgenden Liniengrafik verglichen, die die gleiche Information enthält wie die oben wiedergegebene Balkengrafik mit dem Vergleich der kumulierten, prozentualen Häufigkeiten. Unten ist allerdings die Klassenbreite 1 gewählt worden: 41 100 Kumulierte Prozente 80 60 40 Jahr 20 1985 0 0 6 3 12 9 19 15 25 22 31 28 39 34 46 42 54 1986 51 Alter Die waagerechten Linien in der Grafik entsprechen den Quartilen. Die Grafik zeigt die Unterschiede der Verteilungen sehr deutlich: Besonders beim dritten Quartil ergeben sich große Differenzen des Alters. 3.3.1.8. Zur unterschiedlichen Leistung der verschiedenen Mittelwerte. Jedes Maß der zentralen Tendenz – so wurde oben ausgeführt – versucht, alle Werte einer Verteilung durch einen einzigen Wert „ersetzen“. Dieser Ersatz ist immer ein unvollkommener Ersatz. Daher ist es sinnvoll die Fehler zu systematisieren, die man bei den verschiedenen Maßen der zentralen Tendenz macht, wenn man sie auf empirische Verteilungen anwendet. Dadurch werden die Maße der zentralen Tendenz in gewisser Weise in ihrer Brauchbarkeit und Unbrauchbarkeit einschätzbar. Wie Diehl und Kohr in ihrem Lehrbuch zur deskriptiven Statistik (a.a.O. S. 76 ff) ausführen, wird für jede Art des Mittelwertes ein bestimmter Fehler, den man mit der Gleichsetzung aller Meßwerte mit einem beliebigen Wert „a“ macht, minimiert. Wenn man z. B. behauptet, in der Verteilung der Meßwerte 1,3,6,9,11 käme nur der Meßwert 6 (hier das arithmetische Mittel) vor, dann hätte man ein gutes Maß für die damit verursachten Fehler in der Summe der Abweichungsquadrate der Meßwerte vom arithmetischen Mittel. (Die Summe der Abweichungen zwischen arithmetischem Mittel und Meßwerten (unquadriert) allein wäre kein gutes Maß, weil sie für das arithmetische Mittel Null ergibt und für Werte, die größer als das arithmetische Mittel sind, negative Summen ergibt). Die Summe der Abweichungsquadrate (SAQ) ist: ∑ (x n SAQ = i =1 i −x ) 2 Wir berechnen : (1-6)² + (3-6)² + (6-6)² + (9-6)² + (11-6)² = 68. Diese Zahl ist kleiner als alle Summen, die wir erzielen, wenn wir in die Formel der Abweichungsquadrate einen größeren oder kleineren Wert anstelle von x eingesetzt hätten. Wir probieren das aus: (1-7)² + (3-7)² + (6-7)² + (9-7)² + (11-7)² = 73; (1-4)² + (3-4)² + (6-4)² + (9-4)² + (11-4)² = 88; 73 > 68 88 > 68 Daher gilt: Für das arithmetische Mittel ist der „minimierte Fehler" n ∑ (x i =1 i − a ) ; d.h. wenn a = x , ist der nebenstehende Ausdruck ein Minimum. 2 Für den Median ist der „minimierte Fehler“ 42 n ∑ x − a ; d.h. wenn a = Md ist, ist der nebenstehende Ausdruck ein Minimum. i =1 i Für den Modus ist der „minimierte Fehler“ n - fa ; d. h., wenn „a“ der Index der Modalklasse ist, ist der nebenstehende Ausdruck ein Minimum (vorausgesetzt, es gibt nur einen Modus). 3.3.2. Streuungsmaße: Range, Quartilabstand, durchschnittliche, absolute und quadrierte Abweichungen vom Mittelwert, Varianz und Standardabweichung Während die bisherigen Beobachtungen sich darauf bezogen, welche Meßwertpunkte zur Charakterisierung von empirischen Verteilungen herangezogen werden konnten, wird jetzt die Betrachtung auf die Heranziehung von Intervallen zur Charakterisierung von Verteilungen ausgeweitet. Wir gehen insofern von den Lagemaßen zu den Streuungsmerkmalen oder Streuungsmaßen über. (Man spricht in diesem Zusammenhang auch von Lokalisationsmaßen und Dispersionsmaßen, das klingt gelehrter, ist aber nur eine lateinische Bezeichnung für den gleichen Sachverhalt, nämlich für Lage- und Streuungsmaße). Der Range („Eingriffsspielraum; Spannweite“) stellt die Differenz zwischen dem größten und dem kleinsten Meßwert dar. Er gibt an, wie groß dieser Bereich ist. Er ist ein primitives Streuungsmaß, das nur bei sehr großen Stichproben herangezogen werden sollte, und dann nur in Verbindung mit anderen Streuungsmaßen. Ein weiteres einfaches Streuungsmaß ist der "Quartilabstand", also die Differenz vom 1. zum 3. Quartil. Er ist für die Daten vom Tag der offenen Tür von 1985 gleich 26 - 12,25 = 13,75; (Halber Quartil-Abstand = 6,875). (Berechnet mit SPSS.10). Da der Quartilabstand nur die Lage der mittleren 50% aller Meßwerte charakterisiert, die Verteilung der äußeren 50% aber ignoriert, suchte man in der Vergangenheit nach anderen Charakteristika für die Streuung, die alle Meßwerte einbeziehen. Hierbei fand man zwei Maße, von denen sich eines schließlich durchsetzte. Zunächst versuchte man, das arithmetische Mittel der Differenz aller Meßwerte vom arithmetischen Mittel als Streuungsmaß zu benutzen. Der Nachteil hierbei war, daß die Differenz aller Meßwerte vom arithmetischen Mittel gleich Null ist (siehe oben). Nimmt man aber von den einzelnen Differenzen nur den (immer positiven) „Betrag“, dann erhält man ein Streuungsmaß, daß als AD-Streuung in der Literatur auftaucht: n AD = ∑ i =1 xi − x n Die senkrechten Striche in der Formel sind die sogenannten „Betragsstriche“, die jede der hier ausgerechneten Differenzen in einen positiven Betrag verwandeln. Für unsere Daten vom Tag der offenen Tür betragen die so gebildeten durchschnittlichen Abweichungen von x: 43 n AD = ∑ xi − x i =1 = 8,5767 n (für 1985) Wir können nun in diese Formel statt des arithmetischen Mittels auch versuchsweise den Median anstelle von x einsetzen und berechnen, welches Ausmaß die dann resultierende Streuung hat. Das Ergebnis ist: n ADMd = ∑x i =1 i − Md n = 8,5 Es zeigt sich, daß dieses Ergebnis kleiner ist als das der mit dem arithmetischen Mittel erzielte. Hiernach wäre es zweckmäßig (wenn die Daten besser zur Verwendung des Medians statt des arithmetischen Mittels bei Berechnung eines Mittelwertes geeignet erscheinen) als Maß der Streuung die durchschnittliche absolute Abweichung vom Median zu wählen, was allerdings in der Praxis selten geschieht, da diese Berechnung in Computerprogrammen für Statistik nicht als Routine vorgesehen ist.. _ Sucht man nun nach einem Streuungsmaß, das für x eine analoge Minimierungsbedingung erfüllt, dann findet man es in der Varianz bzw. in der Standardabweichung (siehe hierzu unsere Ausführungen zum minimierten Fehler). Die Varianz von Grundgesamtheiten ist definiert als arithmetisches Mittel der quadrierten Abweichungen der Meßwerte xi vom arithmetischen Mittel der Grundgesamtheit µ. (N ist die Zahl der Elemente der Grundgesamtheit.) σ2 = 1 N (xi − µ )2 ∑ N i =1 Für Stichproben ist aus Gründen einer möglichst erwartungstreuen "Parameter"-Schätzung die Formel abzuwandeln in 1 n (xi − x )2 s = ∑ n − 1 i =1 2 Parameter sind - in der Terminologie bestimmter Lehrbücher der Statistik - Bezeichnungen für Lokalisationsund Streuungsmaße, wenn diese sich auf die Grundgesamtheit beziehen. Sie werden mit kleinen griechischen Buchstaben bezeichnet. Ist die Stichprobe gemeint, wird oft von "Kennwerten" gesprochen, die mit lateinischen Buchstaben belegt werden. In der Stichprobe ist n die Stichprobengröße. Im Nenner der Stichprobenvarianz steht n-1 statt n. Durch n-1 im Nenner wird die Stichprobenvarianz etwas größer. Die Gefahr der Unterschätzung der Grundgesamtsheitsvarianz soll sich hierdurch verringern. Da nun die Beträge der Varianz wegen der Quadrierung sehr groß sind s2 = 105,85 (für die Daten vom Tag der offenen Tür 1985) verwendet man als optisch anschauliches Streuungsmaß die Quadratwurzel der Varianz, die auch "Standardabweichung" genannt wird. Die Stichprobenstandardabweichung hat die Formel: s= n 2 1 * ∑ (x i − x ) n − 1 i =1 44 Diese Formel ist zwar einfach und noch relativ anschaulich, in der Praxis jedoch umständlich zu berechnen, wenn man sie mit Taschenrechner oder auf dem Papier berechnet (siehe unten), weil man vorher das arithmetische Mittel ausrechnen muß und dann erst die Standardabweichung ermitteln kann. Die Formel entspricht dem unten demonstrierten „Rechengang 1“. Es ergibt sich für unsere Daten vom Tage der offenen Tür 1985: s = 10,289 3.3.2.1. Berechnungsweise für die Varianz und die Standardabweichung nach einer vereinfachenden Formel Versuchen wir die Varianz für irgendeinen Datensatz "zu Fuß" (Rechengang 1) zu berechnen, dann bemerken wir, daß _ (1) zunächst x bestimmt werden muß _ (2) die quadrierten Differenzen von xi und x sehr große Werte erbringen, so daß sehr viel Mühe entsteht. Hieraus entwickelt sich das Bedürfnis nach vereinfachter Berechnungsweise (Rechengang 2). Man formte die Formel für s² (und s) so um, daß nur noch folgende Ausdrücke berechnet werden müssen, um s² (bzw. s) zu ermitteln: (1) n (2) Σ xi (3) Σ xi² Hat man diese Ausdrücke ermittelt, dann kann man sie leicht in die vereinfachte Formel (des Rechengangs 2) einsetzen: n s2 = ∑x i =1 2 i 1 n 2 ∑ n i =1 xi n −1 − 45 n 2 n 2 n * ∑ x i − ∑ x i i =1 i =1 = n(n − 1) Um beide Rechengänge zu demonstrieren, sollen im folgenden die Varianz und die Standardabweichung (für die ersten 10 Werte vom Tage der offenen Tür in der TU 1985) berechnet werden: Rechenbeispiel für die zwei Rechengänge der Ermittlung von Varianz und Standardabweichung Rechengang 1 x1 =26.00 x2 =39.00 x3 = 5.00 x4 =40.00 x5 =21.00 x6 =22.00 x7 =31.00 x8 =15.00 x9 =38.00 x10=30.00 Berechne x ∑Xi=267.00 n=10.00 x =∑Xi/n=26,70 Berechne xi- x 26.00-26.70= - 0,70 39.00-26.70= 12,30 5.00-26.70= - 21,70 40.00-26.70= 13,30 21.00-26.70= - 5,70 22.00-26.70= - 4,70 31.00-26.70= 4,30 15.00-26.70= - 11,70 38.00-26.70= 11,30 30.00-26.70= 3,30 (x1 - x )²= 0,49 (x2 - x )²=151,29 (x3 - x )²=470,89 (x4 - x )²=176,89 (x5 - x )²= 32,49 (x6 - x )²= 22,09 (x7 - x )²= 18,49 (x8 - x )²=136,89 (x9 - x )²=127,69 (x10 - x )²= 10,89 Rechengang 2 Es werden die folgenden Ausdrücke gebildet: ∑Xi=267.00 ∑Xi2=8277,00 n= 10.00 Aus diesen wird der Ausdruck s2 gebildet: s2 = = n 2 n 2 n∑ xi − ∑ xi i =1 i =1 n * (n − 1) 10 x 8277 − 71289 10 * ( 9) =127,57 Die Wurzel daraus ist s s = 127,57 = 11,3 46 ∑(Xi - x )²= 1148,10 VARIANZ = ∑ (x − x ) n s2 = i =1 2 i = 127,57 n −1 Standardabweichung=S=Wurzel aus Varianz= 11.3 Mit Hilfe von Taschenrechnern, die eine Summenfunktion haben, ist nun heutzutage die Standardabweichungsberechnung stark vereinfacht. Man gibt z.B. beim HP-Rechner fortlaufend die Werte für xi einfach mit dem Befehl Σ+ ein, und nach jeder dieser Eingaben bildet der Rechner automatisch auf den sogenannten "StatistikRegistern" die Ausdrücke: Σ fk (=n), Σ xi und Σ xi ², wie bei Rechengang 2. Dieser 2. Rechengang ist daher der wesentlich ökonomischere, wenngleich unanschaulichere. Bei klassifizierten Häufigkeitsverteilungen multipliziert man die jeweiligen Meßwerte (bzw. Meßwertquadrate) immer mit der Häufigkeit jener Klasse „k“, in der sie als Klassenmittelpunkte auftauchen: n s2 = ∑ fk x i =1 2 i 2 1 n f x ∑ n i =1 k i n −1 − Beispiel: Wir klassifizieren unsere Daten vom Tag der offenen Tür 1985 mit der Klassenbreite 10 und erhalten: OFFTUE10 Gültig 5,00 15,00 25,00 35,00 45,00 Gesamt Häufigkeit 11 16 21 11 1 60 Wir berechnen: n = 60 l ∑f x k =1 k i = 11*5+ 16*15 + 21*25 + 11*35 + 1*45 = 1250 47 l ∑f x k =1 2 k i = 11*5²+ 16*15² + 21*25² + 11*35² + 1*45² = 32500 und erhalten Statistiken OFFTUE10 N Gültig Fehlend Mittelwert Standardabweichung Varianz 60 0 20,8333 10,4625 109,4633 3.3.3. Daten auf dem Ordinal- und Nominal-Niveau. Lage- und Streuungsmaße Von den oben beschriebenen Lage- und Streuungsmaßen fallen beim Ordinalniveau alle die fort, die die Information über Abstände voraussetzen. Es können bei Ordinalskalen nicht mehr berechnet werden: _ x (arithmetisches Mittel) s2 (Varianz) S (Standardabweichung) Noch berechnet werden können: Absolute und relative sowie prozentuale Häufigkeiten, Prozentränge, der Median und N-tile. Allerdings wäre die Berechnung des mittleren Quartil-Abstands nicht sinnvoll, da hier ja keine Abstands-Informationen vorliegen. Der Modus ist ebenfalls berechenbar. Bei Nominalskalen bleiben absolute, relative und prozentuale Häufigkeiten sowie der Modus erhalten. Median, N-tile und Prozentränge fallen fort, da die Anordnung der Kategorien beliebig ist, auf die sich die Häufigkeiten beziehen. 4. Wahrscheinlichkeit und theoretische Verteilungen Unabhängig von inhaltlichen Fragen der Deutung liefert die theoretische "schließende" Statistik zahlreiche Probleme der formalen Deutung von empirischen Stichprobendaten, deren Lösung nur mit Hilfe von wahrscheinlichkeitstheoretischen Überlegungen auf der Grundlage von theoretischen Verteilungen gefunden werden kann. 4.1. Begriff Wahrscheinlichkeit Bei der Erörterung der relativen Häufigkeit hatten wir schon den Bruch kennengelernt, der die relative Häufigkeit definiert, nämlich Anzahl der Fälle einer bestimmten Art Anzahl aller möglichen Fälle Beispiel: In unseren Daten aus 1985 waren 7 Personen bis unter 6 Jahre alt. Insgesamt erhielten wir 1985 60 Personen-Altersangaben. Die relative Häufigkeit in der genannten Altersklasse beträgt damit 7 = 0,117 aufgerundet 60 Würde man nun aus der Menge der 60 Personen zufällig eine Person herausgreifen, dann wäre die Wahrscheinlichkeit, daß sie im Alter von 0 bis unter 6 Jahren ist, gleich sieben Sechzigstel. Da im gleichen 48 Datensatz 12 der Personen ein Alter bis unter 12 Jahre haben, wäre die Wahrscheinlichkeit, eine Person mit unter 12 Jahren zufällig auszuwählen, gleich 12/60= 0,20. Da die älteste Person 40 ist, wäre die Wahrscheinlichkeit, eine Person mit "bis unter 42 Jahren" Lebensalter zufällig auszuwählen, gleich 1. Wir können noch viele weitere solcher Betrachtungen anstellen, sollten diese aber erst vornehmen, wenn wir die grundsätzlichen Regeln des Rechnens mit Wahrscheinlichkeiten kennengelernt haben. Diese lauten: 1. Die Wahrscheinlichkeit eines Ereignisses A kann höchstens 1 sein. 2. Ist sie gleich 1, so ist das Ereignis "sicher". Ist sie gleich 0, ist das Ereignis unmöglich. 3. Einander ausschließende Ereignisse haben Wahrscheinlichkeiten, die "additiv" sind. 4. Einander überlappende Ereignisse haben Wahrscheinlichkeiten, die „additiv“ sind, minus der Wahrscheinlichkeit des Überlappungsbereichs. 5. Voneinander unabhängige Ereignisse haben eine Wahrscheinlichkeit, gleichzeitig aufzutreten, die ihrem Produkt entspricht. 6. Sind zwei Ereignisse A und B voneinander abhängig, dann ist die Wahrscheinlichkeit, daß B unter der Voraussetzung eintritt, daß A zuvor eingetreten ist, gleich dem Quotienten aus der Wahrscheinlichkeit, daß A und B eintritt, geteilt durch die Wahrscheinlichkeit, daß A eingetreten ist ! Mathematisch ausgedrückt, sehen die obigen Regeln wie folgt aus: 1. 0 ≤P(A) ≤ 1 2. Wenn P(A) = 1, ist das Ereignis „sicher“. Wenn P(A) = 0, ist das Ereignis „unmöglich“. So ist es sicher, daß beim Würfeln irgendeine der Zahlen oben liegt, unmöglich ist, daß keine der Zahlen oben liegt. 3. Sind A und B einander ausschließende Ereignisse, so ist die Wahrscheinlichkeit, daß das eine oder das andere Ereignis eintrifft gleich P(A+B) = P(A) + P(B). Zur dritten Regel ist am Beispiel unserer Daten aus 1985 festzustellen, daß die relative Häufigkeit im Alter bis zu 12 gleich 0,20 war. Die relative Häufigkeit im Alter von 36 bis unter 42 war 0,0667. Beide Altersklassen schließen sich gegenseitig aus, denn niemand kann gleichzeitig unter zwölf und älter als 36 sein. Infolgedessen ist die Wahrscheinlichkeit, eine Person, die entweder unter 12 oder 36 und älter ist, zufällig auszuwählen, gleich 0,20 + 0,0667 = 0,2667. 4. Sind A und B einander nicht ausschließende Ereignisse, dann ist die Wahrscheinlichkeit, daß A oder B eintrifft, gleich P(A+B) = P(A) + P(B) – P (A∩B). Zur der vierten Regel kann man anhand der Daten aus 1985 fragen, wie wahrscheinlich es ist, daß eine Person entweder unter 17 Jahre alt ist, oder zwischen 10 und (einschließlich) 25 Jahre alt. Die Wahrscheinlichkeit, daß eine Person unter 17 ist, beträgt für die Daten aus 1985 0,4 (oder 40 %). Die Wahrscheinlichkeit, daß eine Person zwischen 10 und 25 Jahre alt ist, beträgt 0,517 (oder 51,7%). Die beiden Bereiche überlappen sich im Intervall von 10 bis 16. Die Wahrscheinlichkeit daß eine Person in dieses Intervall fällt, beträgt 0,217. Wir können daher die Wahrscheinlichkeit, daß eine Person entweder unter 17 Jahre alt ist oder zwischen 10 und (einschließlich) 25 Jahre durch die Rechnung 0,4 + 0,517 - 0,217 = 0,7 beantworten. Die gesuchte Wahrscheinlichkeit beträgt 70 %. 5. Sind A und B zwei voneinander unabhängige Ereignisse, dann ist die Wahrscheinlichkeit, daß sie gemeinsam eintreffen, gleich P(AB) = P(A) * P(B). Zur fünften Regel könnte man fragen, wie wahrscheinlich es ist, daß beim Tag der offenen Tür zweimal hintereinander jemand kommt, der männlich ist. Wenn die Annahme zutrifft, daß in der Grundgesamtheit 50% 49 der Menschen männlich waren, und wäre das Geschlecht der jeweils nachfolgenden Person unabhängig vom Geschlecht der vorhergehenden Person, dann könnte man die gesuchte Wahrscheinlichkeit mit pm,m = 0,5² bestimmen, also dem Produkt aus 0,5*0,5. 6. Ist das Eintreten des Ereignisses B davon abhängig, daß das Ereignis A vorher eingetreten ist (bedingte Wahrscheinlichkeit), dann gilt: P(B│A) = P( A ∩ B) P( A) Ein Beispiel hierfür wäre das Ziehen von Kugeln aus einer Urne mit 6 durchnumerierten Kugeln mit den Zahlen 1 bis 6 ohne Zurücklegen. Wenn ich hier wissen will, wie wahrscheinlich es ist, zweimal eine 6 zu ziehen, dann ist die Lösung nicht mehr 6² sondern Null, da die Wahrscheinlichkeit, eine zweite 6 zu bekommen, gleich Null wird, wenn die 6 schon beim ersten Male gezogen wurde. Eine nochmalige Übersicht über die Formeln und grundlegenden Definitionen der Wahrscheinlichkeitsrechnung findet man in diesem Skript in einer weiteren Tabelle in Kapitel 4.4.2.5., wo auch noch weitere Beispiele geliefert werden. 4.2 Theoretische Verteilungen 4.2.1 Allgemeines Wie bei den empirischen Verteilungen müssen wir bei den theoretischen Verteilungen unterscheiden, welche Voraussetzungen gegeben sein müssen, um eine solche Verteilung zu definieren. Zu diesen Voraussetzungen zählen u.a. Eigenschaften von Variablen, die wir als „diskret“ oder „stetig“ bezeichnen. 4.2.2 Diskrete Ereignisse Wir hatten oben schon zwischen stetigen und diskreten Merkmalen unterschieden. Dabei waren die diskreten Merkmale solche, für die nur bestimmte, aber nicht alle Werte einer Skala auftreten können. Wären in einer Statistik zum Beispiel die Tage der offenen Tür in einer Woche als "Montag", "Dienstag" ... etc. definiert, würden die Besuchszeiten nur hiernach erfaßt, dann würde man die Besuchszeiten nicht mit einer stetigen Funktion abbilden können. 4.2.3 Stetige Ereignisse Das Lebensalter und das Einkommen, mit denen wir uns oben beschäftigt haben, sind im Prinzip als stetige Variablen definierbar, wenn auch in der Praxis nur bestimmte Meßpunkte genannt werden. Um zu stetigen Ereignissen zu kommen, ist mindestens Intervallniveau der Messung erforderlich. Für stetige Funktionen gilt zusätzlich, daß sie differenzierbar sein müssen (Steigung muß feststellbar sein). 4.3.Beispiele für theoretische Verteilungen 4.3.1 Gleichverteilung - diskret Wir greifen auf das eingangs referierte Würfelbeispiel zurück. Ein Würfel habe sechs Flächen und sei vom Gewicht her gleichmäßig. Jede der Flächen hat die "theoretische" Wahrscheinlichkeit von 1:6, nach einem Wurf 'oben zu liegen'. Wir können - wie oben schon getan - für diesen Fall die Wahrscheinlichkeiten graphisch darstellen: 50 20 17 17 17 17 17 17 1,00 2,00 3,00 4,00 5,00 6,00 Prozent (aufgerundet) 10 0 WÜRFEL Jedem einzelnen der möglichen Ereignisse wird eine Strecke mit der Länge "ein Sechstel" (≈ 17 %)zugeordnet. Die Summe dieser Strecken ist gleich 1. 4.3.2 Gleichverteilung - stetig Hätten wir nun anstelle des Würfels einen Zufallszahlengenerator, der uns im Bereich 0 bis einschließlich 6 Zahlen produziert, die beliebig fein differenziert werden können, also beliebig viele Stellen nach dem Komma haben können, dann müßten wir die o.a. Darstellung umwandeln in folgende Graphik: Gleichverteilung in sechs Intervallen auf einer Ratioskala: ,5 Warscheinlichkeitsdichte ,4 Das Besondere dieser Darstellung liegt darin, daß nicht die Strecken, sondern die Fläche unter der Kurve f (x) als Produkt von ,3 ,2 ,1 6* 0,0 0 1 2 3 4 5 6 1 =1 6 die Zahl 1 ergibt. Stufenlose Simulation von Zahlen zwischen 0 und 6 Die Kurve f (x) (hier die Parallele zur x-Achse) heißt deshalb auch nicht "Wahrscheinlichkeit", sondern Wahrscheinlichkeits-Dichte. Den einzelnen Zufallszahlen in dem Intervall von 0 bis 6 kann keine einzelne Wahrscheinlichkeit mehr zugeordnet werden, sondern nur noch Intervallen wie z.B. dem Intervall 4 bis 5,5 Da die Länge dieses Intervalls gleich 1,5 ist, ist die Wahrscheinlichkeit, einen Zufallswert in diesem Intervall zu bekommen, gleich 1,5 * 1 1,5 = = 0,25 6 6 51 Für den Fall, daß unser Intervall, für das die Gleichverteilung definiert ist, nicht von Null begrenzt wird, führen wir als Grenzen allgemein die Untergrenze a und die Obergrenze b ein. In der folgenden Graphik sind a = 1 und b = 8. Wahrscheinlichkeitsdichte 1,0 ,8 ,6 ,4 ,2 0,0 1 2 3 4 5 6 7 8 Zufallszahlen von 1 bis 8 Eine allgemeine Gleichung für die "Gleichverteilung" lautet dann: f ( x) = 1 für a<x<b b−a Der Mittelwert ist für diese Gleichverteilung mit µ= a+b 2 gegeben. Die Varianz kann nach der Formel 2 σ = (b − a) 2 12 berechnet werden. Entsprechend ist die Standardabweichung mit σ= (b − a) 2 12 gegeben. (Vgl. Bosch, Wahrscheinlichkeitsrechnung, S. 128 f) 4.4. Kombinatorik als Voraussetzung zur Herleitung von theoretischen Verteilungen Zunächst müssen wir den Begriff des Ereignisraums einführen. Ein Ereignisraum ist die Menge aller theoretisch möglichen Ergebnisse (Elementarereignisse) eines Zufallsexperiments, zum Beispiel die Menge aller Möglichkeiten, mit 2 Würfeln eine Zahlenkombination zu werfen. Solche Ereignisräume werden als Permutationen oder Kombinationen beschrieben. Es soll im folgenden zunächst eine zusammenfassende Darstellung der Definitionen und ein Überblick über die Formeln gegeben werden. Danach werden die einzelnen Fälle noch einmal anhand von Beispielen erläutert. 52 (1) PERMUTATIONEN (1.1) Ohne Wiederholung: Menge der möglichen Veränderungen der Reihenfolge aller Elemente einer Menge von verschiedenen Elementen. Formel: Permutionsmenge = n! (1.2) Mit Wiederholung: Menge aller möglichen Veränderungen der Reihenfolge aller Elemente einer Menge von teilweise identischen Elementen in den Teilmengen n1, n2, ... nk Formel: Permutationsmengeid = n! n1! n2 !Λ n! k (2) KOMBINATIONEN (2.1) Ohne Zurücklegen (2.1.1) ohne Berücksichtigung der Anordnung: Mengen von k verschiedenen Elementen aus der Menge n verschiedener Elemente ohne Unterscheidung der Anordnung (Kombinationen k-ter Ordnung) KomboWoA n n! = k !( n − k ) ! k = (Den letztgenannten Ausdruck liest man „n über k“. Hier fehlt kein Bruchstrich, die Zahlen stehen in den Klammern übereinander. Es handelt sich hier um den sog. Binomialkoeffizienten). (2.1.2) mit Berücksichtigung der Anordnung: Mengen von k verschiedenen Elementen aus der Menge n verschiedener Elemente mit Unterscheidung der Anordnung (wird auch VARIATION k-ter Ordnung ohne Wiederholung genannt) Formel KomboWmA = n! (n − k) ! (2.2) mit Zurücklegen (2.2.1) ohne Berücksichtigung der Anordnung: Mengen von k Elementen aus n verschiedenen Elementen, die unbeschränkt oft wiederholt auftauchen können, ohne Berücksichtigung der Anordnung Formel n + k − 1 = mWoA k Komb 53 (2.2.2) mit Berücksichtigung der Anordnung Mengen von k Elementen aus n verschiedenen Elementen, die unbeschränkt oft wiederholt - mit Berücksichtigung der Anordnung auftauchen können (=VARIATION MIT WIEDERHOLUNG). KombmWmA = nk Zur Systematik der verschiedenen Fälle der Kombinatorik können wir uns merken, daß wir zur Auffindung der relevanten Formel folgende Fragen stellen müssen: - Geht es um Teilmengen aus einer größeren Menge (Kombinationen) oder um die größere Menge allein sowie um die Reihenfolge ihrer Elemente (Permutationen) ? - Enthält die größere Menge n nur verschiedene Elemente ("ohne Wiederholung/ohne Zurücklegen") oder auch teilweise identische Elemente ("mit Wiederholung, mit Zurücklegen") ? - Kommt es bei den Teilmengen auch auf die Anordnung an ("mit Berücksichtigung der Reihenfolge") oder nicht ("ohne Berücksichtigung der Reihenfolge") ? Nun zu konkreten Beispielen: 4.4.1. Permutationen Permutationen: Veränderungen der Anordnung einer Menge von n verschiedenen Elementen einer Menge: Permutionsmenge = n! Beispiel: In einer Urne sind drei Kugeln, eine grüne, eine rote, eine blaue. In wieviel verschiedenen Reihenfolgen können sie gezogen werden, wenn man nach dem Ziehen keine zurücklegt ? Lösung: GRB, GBR, RGB, RBG, BGR, BRG Das sind 6 Möglichkeiten, die sich aus 3*2*1 errechnen lassen, also aus 3! = 6 Sind in der Urne nun 3 gelbe Kugeln, 3 rote Kugeln und zwei blaue Kugeln, dann wäre - ohne Zurücklegen - die Permutationsmengeid = n! n1! n2 !Λ n! k Die Menge der möglichen Reihenfolgen ließe sich berechnen aus 8!/(3!*3!*2!) = 560. 54 4.4.2 Kombinationen 4.4.2.1. Kombinationen ohne Zurücklegen mit Unterscheidung der Anordnung Greift man aus einer Menge verschiedener Elemente einen Teil der Elemente (ohne Zurücklegen) heraus und fragt, wieviele verschiedene KOMBINATIONEN (im Unterschied zu den Permutationen) dabei entstehen können, die sich auch durch die Anordnung unterscheiden, dann ergibt sich, daß die fragliche Menge der Kombinationen nach der Formel KomboWmA = n! (n − k) ! ermittelt werden kann. Beispiel: Ein Lotto-Unternehmer bringt ein neues Spiel auf den Markt, in dem aus 29 Zahlen 5 Zahlen auszuwählen sind, ohne Zurücklegen – und es soll bei der getippten Lösung auf die Reihenfolge (Anordnung) der Ziehung ankommen ! Wie groß ist die Chance, 5 richtige in der richtigen Reihenfolge zu bekommen ? Die Menge aller möglichen Reihenfolgen beträgt: 29!/ 24! = 14.250.600 Folglich ist die Chance, 5 richtige in der richtigen Reihenfolge zu bekommen, p (5) = 1/ 14.250.600. 4.4.2.2. Kombinationen ohne Zurücklegen ohne Unterscheidung der Anordnung Unterscheidet man im letztgenannten Fall die Ergebnisse nicht danach, in welcher Reihenfolge (Anordnung) die Zahlen gezogen werden, dann lautet die Formel: KomboWoA = n n! = k !( n − k ) ! k Für unseren o.a. Fall würden nur noch 29!/ (5!* 24!) = 118755 verschiedene Möglichkeiten existieren. Das heißt: die Menge der Möglichkeiten wird kleiner. Hinweis: n k Der Ausdruck entspricht den Binomial-Koeffizienten, auf die wir weiter unten noch zu sprechen kommen. 4.4.2.3 Kombinationen mit Zurücklegen unter Berücksichtigung der Anordnung 55 Wenn das Lottospiel nun so konstruiert ist, daß aus 29 numerierten Kugeln 5 ausgewählt werden, wobei die gezogene Kugel immer zurückgelegt wird, und unterscheidet man die sich ergebenden Kombinationen auch nach der Anordnung, dann errechnet man die Menge der sich ergebenden Kombinationen aus nk = 295 = 20.511.149 4.4.2.4 Kombinationen mit Zurücklegen ohne Berücksichtigung der Anordnung Berücksichtigen wir die Anordnung, also die Reihenfolge, in der die 5 aus den 29 Kugeln gezogen werden, nicht, dann reduziert sich die Menge der Kombinationen (bei Zurücklegen) erheblich: n + k − 1 (lies: n + k - 1 über k) k Die Formel lautet: Setzt man die Werte aus obigem Beispiel ein, dann ergibt sich n + k − 1 = KombmWoA k = (29 + 5 - 1)!/ (5 ! (29 +5-1 -5)!) = 33 ! / (5! 28!) = 273.336 4.4.2.5. Anwendung dieser Formeln auf ein Beispiel: Urne mit 6 Kugeln Das folgende soll eine Urne mit 6 numerierten Kugeln sein: 4 6 1 3 5 2 Anhand dieser Urne wollen wir uns die 6 Fälle der Kombinatorik erarbeiten. Wenn wir eine Kugel blind, d.h. zufällig, entnehmen, können wir vorher nicht wissen, welche Kugel das sein wird. Entnehmen wir alle 6, dann kennen wir die Reihenfolge nicht, in der wir sie ziehen werden. Fragen wir uns, wieviele mögliche Reihenfolgen, die alle verschieden sind, wir beim Ziehen aller sechs Kugeln bekommen können, dann lautet die Antwort: n ! = 6 ! = 6*5*4*3*2*1 = 720. Man nennt dieses Problem: Permutation ohne Wiederholung (alle Kugeln sind verschieden). Das folgende soll eine Urne mit 6 numerierten Kugeln sein, aber die Nummern sind nicht alle verschieden, die 3 und die vier tauchen zweimal auf: 4 4 1 3 3 2 Fragen wir uns, wieviele mögliche unterscheidbare Reihenfolgen wir beim Ziehen aller sechs Kugeln bekommen können, dann lautet die Antwort: 56 n! 720 = = 180 n1!*n2 ! 2!*2! Man nennt diese Problem: Permutation mit Wiederholung (alle Kugeln sind nicht alle verschieden, sondern die 3 kommt zweimal vor (n1 ist im Nenner deshalb gleich 2), und die 4 kommt auch zweimal vor (n2 ist im Nenner deshalb auch gleich 2). Stellen wir uns vor, wir ziehen aus einer Urne mit 6 von 1 bis 6 durch-numerierten Kugeln zweimal zufällig eine Kugel, die wir jeweils nach dem Ziehen zurücklegen, und werten wir die Ergebnisse auch unter Berücksichtigung der Reihenfolge der gezogenen Zahlen aus, dann können wir die in der folgenden Tabelle aufgeführten Ergebnisse bekommen. Die beiden Zahlen in den Zellen der Tabelle zeigen die gezogene Kombination nach der Durchführung der 1. und zweiten Ziehung. In der grau unterlegten Vorspalte stehen die möglichen Ergebnisse der ersten Ziehung, in der grau unterlegten Kopfzeile stehen die Ergebnisse der zweiten Ziehung, in den Zellen der Tabelle stehen die möglichen Kombinationen aus erster und zweiter Ziehung – wie gesagt: bei Zurücklegen der Kugel und Berücksichtigung der Reihenfolge der gezogenen Kugeln. Die Menge der Möglichkeiten beträgt: nk = 6² = 36 Erste Ziehung Zweite Ziehung 1 2 3 4 5 6 1 2 3 4 5 6 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66 Dieses Problem heißt: Menge der Kombinationen aus k Elementen, die aus einer Menge von n Elementen mit Zurücklegen gezogen werden, unter Berücksichtigung der Reihenfolge. Würden wir obige Ergebnisse nicht nach der Reihenfolge unterscheiden, die bei der Ziehung entsteht, dann wären z.B. die Kombinationen 21 und 12 identisch, so daß wir einige Zellen aus der Tabelle streichen könnten. Es bleiben nur 21 gefüllte Zellen übrig. Dieses Ergebnis, 21, errechnen wir mit der oben mitgeteilten Formel: 57 n + k − 1 = k 6 + 2 − 1 = 2 7 7! = = 2!(7 − 2)! 2 7*6 = 21 2 Zu beachten ist, daß die Zellen der Hauptdiagonale mit den Kombinationen 11, 22, 33 etc. nicht wegfallen, denn sie haben ja keine Doppelgänger, die gestrichen werden, wenn nicht mehr nach der Reihenfolge unterschieden wird. Hier das Ergebnis nach Streichung der „Doppelgänger“ Erste Ziehung Zweite Ziehung 1 1 2 3 4 5 6 2 3 4 5 6 11 21 22 31 32 33 41 42 43 44 51 52 53 54 55 61 62 63 64 65 66 Dieses Problem heißt: Menge der Kombinationen aus k Elementen, die aus einer Menge von n Elementen mit Zurücklegen gezogen werden, ohne Berücksichtigung der Reihenfolge. Bleibt man aber bei der Berücksichtigung der Reihenfolge, verzichtet aber beim Ziehen auf das Zurücklegen der Kugeln, fällt jetzt in der Tabelle die Hauptdiagonale weg, es bleiben aber alle übrigen Zelleninhalte erhalten. Der Wegfall der Hauptdiagonale geschieht deshalb, weil ja z.B. nach Ziehung der 1 die 1 nicht noch einmal vorkommen kann. Die Formel zur Berechnung der verbleibenden Kombinationen lautet (s.o.) n! = 6! / 4! = 6 * 5 = 30. (n − k )! Die Ergebnisse sind in der folgenden Tabelle festgehalten: 58 Erste Ziehung Zweite Ziehung 1 1 2 3 4 5 6 2 3 4 5 6 12 13 14 15 16 23 24 25 26 34 35 36 45 46 21 31 32 41 42 43 51 52 53 54 61 62 63 64 56 65 Dieses Problem heißt: Menge der Kombinationen aus k Elementen, die aus einer Menge von n Elementen ohne Zurücklegen gezogen werden, mit Berücksichtigung der Reihenfolge. Berücksichtigt man die Reihenfolge der gezogenen Kugeln nicht und verzichtet beim Ziehen auf das Zurücklegen, dann fällt in der folgenden Tabelle nicht nur die Hauptdiagonale weg, sondern auch alle „Doppelgängerfelder“(z. B. für die Kombination „43“ der Doppelgänger „34“). Es verbleiben dann nur noch die Zelleninhalte der Zellen unterhalb der Hauptdiagonale (sofern man bei Zweierkombinationen immer die größere Zahl voranstellt): Die Berechnung der Menge der verbleibenden Zellen (Menge der möglichen Kombinationen) geschieht nach der Formel für den Binomialkoeffizienten (siehe mathematischer Anhang im Dieckmann – Text): n 6 n! 6! = = = = 15 k!(n − k )! k 2!(6 − 2)! 2 Erste Ziehung Zweite Ziehung 1 1 2 3 4 5 6 2 3 4 5 21 31 32 41 42 43 51 52 53 54 61 62 63 64 65 6 59 Dieses Problem heißt: Menge der Kombinationen aus k Elementen, die aus einer Menge von n Elementen ohne Zurücklegen gezogen werden, ohne Berücksichtigung der Reihenfolge. Alle unsere Beispiele setzten k = 2 und n = 6 voraus. Natürlich kann n auch jede andere ganze positive Zahl annehmen und k kann alle Zahlen von 0 bis n annehmen. Allgemein gesprochen haben wir nun zwei Fälle der Permutation kennengelernt und vier Fälle der Kombination. Bei der Permutation wurden alle Kugeln entnommen und gefragt wurde nach der Menge der möglichen Reihenfolgen. Im ersten Fall waren alle Kugeln verschieden, im zweiten teilweise identisch. Die vier Fälle von Kombinationen unterschieden sich darin, daß die Kugeln zurückgelegt wurden, oder nicht, und daß es bei den entnommenen Kugeln auf die Reihenfolge ankam oder nicht. Wenden wir uns nun noch einmal der Terminologie der Wahrscheinlichkeitsrechnung zu. Dort spräche man, wenn man solche Dinge tut, wie Kugeln aus einer Urne zu ziehen, von einem Zufallsexperiment. Das Ziehen von k Kugeln aus n Kugeln hätte dann den Namen „Zusammengesetztes Ereignis“ und – weil zu diesem Ereignis meistens mehrere einzelne Kugeln gehören, bekommen diese den Namen „Elementar-Ereignis“. Die in der Wahrscheinlichkeitsrechnung interessierenden Ereignisse können zusammengesetzte oder Elementarereignisse sein. Die Kombinatorik gibt uns die Antwort auf die Frage, wie groß der Ereignisraum für ein spezifisches Zufallsexperiment ist, das entweder Elementarereignisse oder zusammengesetzte Ereignisse betrifft. Betrachten wir wiederum unsere Urne mit den 6 verschiedenen Kugeln: 4 6 1 3 5 2 Ziehen wir nur eine der Kugeln heraus, dann fragen wir uns, wie wahrscheinlich es ist, z. B. die 4 zu ziehen. Dabei benutzen wir den Begriff der Wahrscheinlichkeit. Dieser kann, als „klassischer“ Wahrscheinlichkeitsbegriff, wie folgt definiert werden: P (A) = Zahl der int erressierenden Fälle Zahl aller gleichmöglichen Fälle Diesem klassischen Begriff der Wahrscheinlichkeit steht ein statistischer Begriff der Wahrscheinlichkeit gegenüber, bei dem P(A) eine Zahl ist, die bei langen Versuchsreihen immer besser angenähert wird: Wenn ich aus unserer Urne erst 10, dann 100, dann 1000 mal eine Kugel ziehe und dann jedesmal die Menge der gezogenen Sechsen durch die Menge aller Experimente teile, dann nähert sich das Ergebnis immer mehr dem Wert 1/6 an. 1/6 wäre hier ein Grenzwert. Daher kann man schreiben: 60 P(A) = lim hn/N wobei hn die Menge der geworfenen Sechsen wäre, N die Menge der Experimente. In der axiomatischen Fassung des Wahrscheinlichkeitsbegriffs geht man nun von folgenden Festlegungen aus: Satz Formel Die Wahrscheinlichkeit des 0 ≤ P (A) ≤ 1 Ereignisses A kann durch eine Zahl P(A) ausgedrückt werden, die mindestens 0, maximal 1 beträgt. Ist das Ereignis „sicher“, dann P(A) = 1 = P (S). ist P(A) = 1. S ist das „sichere“ Ereignis. Additionsatz für einander ausschließende Ereignisse: P (A ∪ B) = P(A) + P(B) Additionssatz für einander nicht ausschließende, beliebige Ereignisse: P (A ∪ B) = P(A) + P(B) – P (A ∩ B) Die Wahrscheinlichkeit des P ( ) = 1 – P (S) = 0 unmöglichen Ereignisses U ist gleich Null Die Wahrscheinlichkeit, daß P (A) ∪ P(Nicht A)= 1 von zwei komplementären Ereignissen wenigstens eines eintritt, ist gleich 1 Die Wahrscheinlichkeit des gleichzeitigen Auftretens von zwei sich gegenseitig P (A ∩ B) = 0 Beispiel Die Wahrscheinlichkeit, aus einer Urne mit 6 verschieden numerierten Kugeln eine bestimmte Zahl zu ziehen, ist 1/6 liegt also zwischen 0 und 1 Die Wahrscheinlichkeit, eine beliebige von den vorhandenen Zahlen zu ziehen, ist gleich 1 Die Wahrscheinlichkeit, eine 3 oder eine 6 zu ziehen ist gleich 2 /6 Kommentar Die Wahrscheinlichkeit, daß die gezogene Zahl gleichzeitig dem Bereich 1 Einander ausschließende Ereignisse können Schließen sich zwei Ereignisse im Experiment gegenseitig aus, dann ist die Wahrscheinlichkeit, daß entweder das eine oder das andere auftritt, gleich der Summe ihrer einzelnen Wahrscheinlichkeiten . Man zieht aus 52 Karten eine Schließen sich zwei Karte und fragt, wie Ereignisse im wahrscheinlich es ist, daß Experiment nicht diese ein As oder Karo ist. gegenseitig aus, dann Die Wahrscheinlichkeit, ein ist die As zu ziehen, ist 4/52, die Wahrscheinlichkeit, Wahrscheinlichkeit, Karo zu daß entweder das ziehen, ist 13/52. Die eine oder das andere Wahrscheinlichkeit, das Karo auftritt, gleich der As zu ziehen ist 1 /52. Daher Summe ihrer ergibt sich: einzelnen Wahrscheinlichkeiten P (A ∪ B)= 4/52 + 13/52 – , minus des Inhalts 1/52. ihrer Schnittmenge Die Wahrscheinlichkeit, aus unserer Urne eine 7 zu ziehen, ist Null Die Wahrscheinlichkeit, Komplementäre entweder eine Zahl im Ereignisse können Bereich von 1 bis 3 oder eine nur zwei Ereignisse Zahl im Bereich von 4 bis 6 sein. zu ziehen, ist gleich 1. 61 ausschließenden Ereignissen ist gleich Null. bis 3 und dem Bereich 4 bis 6 mehr als 2 sein. angehört, ist gleich Null. Multiplikationsatz für voneinander unabhängige Ereignisse: P (A ∩ B) = P(A) * P(B) Wahrscheinlichkeit, zweimal die 1 mit Zurücklegen zu ziehen, ist 1/6 * 1/6 = 1 /36. Durch das Zurücklegen ist das zweite Ereignis vom ersten unabhängig Multiplikationssatz für voneinander abhängige Ereignisse P (A ∩ B) = P (A) * P(B│A) Die Wahrscheinlichkeit für das gleichzeitige Auftreten zweier Ereignisse A und B ist gleich dem Produkt der Wahrscheinlichkeit des ersten Ereignisses A mit der bedingten Wahrscheinlichkeit des Ereignisses B, die unter der Voraussetzung berechnet wurde, daß das Ereignis A schon eingetreten war. Beispiel: Die Wahrscheinlichkeit, zweimal die 1 ohne Zurücklegen zu ziehen ist gleich 1/6 * 0 = 0 Durch das „Entnehmen ohne Zurücklegen“ verändern sich die Wahrscheinlichkeiten für die zweite Ziehung Exkurs zur Berechnung der Summe von Zahlenfolgen und der Häufigkeit von Würfelsummen; Würfelbeispiele zur Kombinatorik Die Menge der Zellen unter- oder oberhalb der Hauptdiagonale ist auch durch die Formel (n* (n-1)) /2 = (6 * 5) /2 = 15 zu errechnen. Das Ergebnis ist gleichzeitig die Summe der Zahlen von 1 bis n-1, also für unser Beispiel : 1 +2+3+4+5= 15. Die Summe der Zahlen von 1 bis n errechnet sich aus einer ähnlich einfachen Formel, nämlich (n * (n+1)) /2 = 1+2+3+4+5+6 = 21. Diese Formeln sind von großem Nutzen, wenn wir die Summe großer Zahlenbereiche bilden wollen, wie z. B. die Summe aller Zahlen von 1 bis 10000: (10000 * (10000 + 1)) / 2= 50 000 5000. Wollen wir die Summe der Zahlen von 2001 bis 5000 bestimmen, dann rechnen wir nur die Summe der Zahlen von 1 bis 5000 aus und subtrahieren die Summe der Zahlen von 1 bis 2000: (5000 * (5001)/2) – (2000 *(2001)/2) = 10 501 500. 62 Das folgende ist ein Rechenverfahren zur Ermittlung der Häufigkeit von Würfelsummen mit Würfeln beliebiger Flächenzahl. Wir beginnen mit Würfeln, die nur zwei Flächen haben, auf denen die Zahlen 1 und 2 aufgetragen sind. Diese Würfel, Münzen vergleichbar, erzeugen binomial-verteilte Häufigkeiten ihrer Summe, wenn angenommen wird, daß zuerst mit einem Würfel, dann mit zwei Würfeln, dann mit drei Würfeln, dann mit vier Würfeln etc. geworfen wird. Das Rechenverfahren ist folgendes: Wir tragen die Häufigkeiten der möglichen Würfelsummen senkrecht in die folgende Tabelle ein. Wenn beim Werfen mit einem Würfel die Zahlen 1 und 2 jeweils nur einmal vorkommen können, sind das die Häufigkeiten 1 und 1. Diese sind links oben in der Tabelle senkrecht untereinander eingetragen. Nun tragen wir sie in die nächste Spalte noch einmal ein, aber um eine Zeile nach unten versetzt. Jetzt addieren wir zeilenweise diese versetzt eingetragenen Häufigkeiten und erhalten eine neue Spalte mit den Häufigkeiten für die Würfelsummen mit zwei Würfeln: 1 2 1. (Die Würfelsummen selber tauchen in der Tabelle nicht auf, es wären hier die Summen 2, 3 und 4). Die erhaltenen Häufigkeiten tragen wir wieder – um eine Zeile nach unten versetzt – in die nächste Spalte ein und addieren. Wir erhalten die Häufigkeiten für die Würfelsummen von drei Würfeln: 1 3 3 1 (für die Summen 3 4 5 6). Bei einem Würfel mit zwei Seiten erhalten wir mit diesem Verfahren die Binomialkoeffizienten, wie auch in der Kopfzeile der folgenden Tabelle angegeben wurde. 1 k 2 k 3 k 4 k 5 k 6 k 7 k 8 k 9 k 1 Wü rfel 1 1 1 1 2 Wü rfel 1 2 1 1 2 1 3 Wü rfel 1 3 1 3 3 1 3 1 4 Würf el 1 4 6 4 1 5 Wü rfel 1 5 10 10 5 1 6 Wü rfel 1 6 15 20 15 6 1 7 Wü rfel 1 7 21 35 35 21 7 1 8 Wü rfel 1 8 28 56 70 56 28 8 1 9 Wü rfel 1 9 36 84 126 126 84 36 9 1 10 k 10 Würf el 1 1 1 1 1 1 1 10 4 5 6 7 8 9 45 6 10 15 21 28 36 120 4 10 20 35 56 84 210 1 5 15 35 70 126 252 1 6 21 56 126 210 1 7 28 84 120 1 8 36 45 1 9 10 1 1 Was ist aber zu tun, wenn wir die Flächenzahl des Würfels variieren ? Die Anweisung lautet dann: Die Häufigkeiten werden nicht nur zweimal, um eine Zeile versetzt in die nächste Spalte geschrieben, sondern entsprechend der Flächenzahl dreimal: Beispiel für einen Würfel mit drei Flächen: 1 2 3 4 5 6 7 Wü Wü W Wü Wü Wü Würf rfel rfel ürf rfel rfel rfel el el 1 1 1 1 1 1 1 1 1 2 1 3 1 4 1 5 1 6 1 7 1 1 1 3 2 1 6 3 1 10 4 1 15 5 1 21 6 1 28 1 1 2 3 2 8 6 3 17 10 4 31 15 5 51 21 6 78 1 1 2 3 6 8 6 20 17 10 47 31 15 93 51 21 165 1 2 3 6 8 17 20 17 54 47 31 132 93 51 276 1 1 3 6 10 17 20 47 54 47 148 132 93 373 1 3 4 10 17 31 47 54 132 148 132 412 1 1 4 10 15 31 47 93 132 148 373 1 4 5 15 31 51 93 132 276 1 1 5 15 21 51 93 165 1 5 6 21 51 78 1 1 6 21 28 1 6 7 1 1 63 Beispiel für die Berechnung der Häufigkeit von Würfelsummen bei Würfeln mit 6 Flächen: 1 Wü rfel 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 W ürf el 1 2 3 4 5 6 5 4 3 2 1 3 Wü rfel 1 2 3 4 5 6 5 4 3 2 1 1 2 3 4 5 6 5 4 3 2 1 1 2 3 4 5 6 5 4 3 2 1 1 2 3 4 5 6 5 4 3 2 1 1 2 3 4 5 6 5 4 3 2 1 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 4 Würf el 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 1 3 6 10 15 21 25 27 27 25 21 15 10 6 3 1 1 4 10 20 35 56 80 104 125 140 146 140 125 104 80 56 35 20 10 4 1 64 Exkurs mit Würfelbeispielen zur Kombinatorik Man habe mit dem obigen Verfahren ausgerechnet, wie häufig mit 6 Würfeln folgende Würfelsummen geworfen werden können und noch einiges mehr, was im folgenden abgedruckt ist: Würfelsumme mit 6 Würfeln Würfelsumme Häufigkeit 6,00 7,00 8,00 9,00 10,00 11,00 12,00 13,00 14,00 15,00 16,00 17,00 18,00 19,00 20,00 21,00 22,00 23,00 24,00 25,00 26,00 27,00 28,00 29,00 30,00 31,00 32,00 33,00 34,00 35,00 36,00 Gesamt Gültige Kumulierte Prozente Prozente 1 ,0 ,0 6 ,0 ,0 21 ,0 ,1 56 ,1 ,2 126 ,3 ,5 252 ,5 1,0 456 1,0 2,0 756 1,6 3,6 1161 2,5 6,1 1666 3,6 9,6 2247 4,8 14,5 2856 6,1 20,6 3431 7,4 27,9 3906 8,4 36,3 4221 9,0 45,4 4332 9,3 54,6 4221 9,0 63,7 3906 8,4 72,1 3431 7,4 79,4 2856 6,1 85,5 2247 4,8 90,4 1666 3,6 93,9 1161 2,5 96,4 756 1,6 98,0 456 1,0 99,0 252 ,5 99,5 126 ,3 99,8 56 ,1 99,9 21 ,0 100,0 6 ,0 100,0 1 ,0 100,0 46656 100,0 Würfelsumme bei sechs Würfeln - Kennwerte N Gültig 46656 Mittelwert Standardfehler des Mittelwertes Median Modus Standardabwei chung Varianz Spannweite Summe Perzentile 21,0000 1,937E-02 21,0000 21,00 4,1833 17,5004 30,00 979776,00 25 18,0939 50 21,0000 75 23,9061 65 Der Spieler möchte vor dem Hintergrund dieser Daten folgendes wissen: Wie groß sind die Chancen für • • • 6 Einsen ? (1 /46656) 6 Sechsen ? (1 /46656) die Würfelsumme bis einschließlich 17 ? • • • die Würfelsumme größer als 17 ? (79,4%) zwei Dreien und vier Vieren ? Es könnten 6 Würfel 15 mal (n! / n1!*n2!) die Kombination von zwei Dreien und vier Vieren haben. Die Wahrscheinlichkeit ist demnach 15/46656. zweimal drei gleiche Zahlen ? Es gibt 15 Kombinationen zweier nicht identischer Zahlen aus 6 Zahlen. Diese können bei 6 Zahlen jeweils in 20 verschiedenen Reihenfolgen auftreten (n! / n1!*n2!). 15 mal 20 = 300. Lösung daher: 300/46656. einen Pasch ? (= 6 identische Zahlen) ? (6/46656) • eine Kombination aus den Zahlen 1 bis 6 (1, 2, 3, 4, 5, 6) ? • Wie müßte man ein Würfelspiel mit 6 Würfeln, die gleichzeitig geworfen werden, konstruieren, in dem ein Spieler und sein potentieller Gegner gleiche Chancen haben, wenn sie sich den Bereich der Würfelsummen in Bereiche aufteilen, in denen der eine gewinnt und der andere verliert bzw. keiner gewinnt ? Wieviele Lösungen gibt es für dieses Problem ? • (20,6 %) n!/nk = 6!/46656 = (720/46656) Wie man der obigen Tabelle entnehmen kann, wäre eine faire Lösung folgende: Ein Spieler gewinnt immer dann, wenn die Würfelsumme kleiner als 21 ist, der andere immer dann, wenn die Würfelsumme größer als 21 ist, und wenn die 21 kommt, gewinnt keiner. Man könnte aber auch noch weitere Lösungen anbieten: Zum Beispiel: Einer gewinnt immer, wenn die Würfelsumme kleiner als 18 ist, der andere, wenn die Würfelsumme größer als 24 ist und wenn die Würfelsumme im Restintervall liegt (18 bis 24) gewinnt keiner. Die Menge solcher Lösungen beträgt hier 15. Exkurs Ende. 4.5. Die Binomialverteilung Nehmen wir folgenden Fall an: Es gibt Neuwahlen in Berlin. Wir beobachten die Wahlbeteiligung von Männern und Frauen. Wir wollen wissen, wie wahrscheinlich es ist, daß unter 10 Wählern, die das Wahllokal betreten, 0 Frauen sind 1 Frau ist 2 Frauen sind 3 " " 4 " " 5 " " 6 " " 7 " " 8 " " 9 " " 10 " "..... Wir nehmen an, daß die Menge der Wahlberechtigten sehr groß ist, und daß sich die Geschlechter gleich verteilen. Wir bezeichnen die Wahrscheinlichkeit, daß eine Frau das Wahllokal betritt, mit p und nehmen an, diese sei konstant p = 0,5; wir bezeichnen die Wahrscheinlichkeit, daß ein Mann das Wahllokal betritt, mit q (= 1-p) und nehmen an, diese sei konstant 1-p= q= 0,5. Außerdem nehmen wir an, daß die Wahrscheinlichkeit, daß 66 das Geschlecht desjenigen, der jeweils als nächster kommt, unabhängig vom Geschlecht des Vorgängers ist (d.h. die Ehepaare kommen nicht zusammen). Unter diesen Bedingungen wäre z.B. die Wahrscheinlichkeit, zuerst 3 Frauen und danach 7 Männer bei 10 Leuten, die das Lokal betreten, zu bekommen, gleich pppqqqqqqq = p3q7 = 0,53 * 0,57 = 0,000976563 Da nun diese Wahrscheinlichkeit auch gegeben wäre, wenn eine andere Reihenfolge, zum Beispiel diese pqqqpqqqpq vorhanden wäre, müssen wir p3q7 noch mit der Anzahl multiplizieren, in der es Kombinationen gibt, die drei Frauen und 7 Männer enthalten. Hierzu stellen wir folgende Überlegung an: Wir numerieren die Fälle, in denen ein Mensch das Wahllokal betritt, durch (bei 10 Menschen von 1 bis 10). Dann hätten wir die Zahlen 1 bis 10. Aus diesen greifen wir 3 Zahlen heraus und sagen, daß diesen Zahlen der Fall entspricht, daß eine Frau das Wahllokal betreten hat. Um die Menge der Kombinationen von 3 aus 10 verschiedenen Zahlen (ohne daß es auf die Reihenfolge ankommt) zu ermitteln, benutzen wir den oben dargestellten Binomialkoeffizienten. Bei 10 Personen und 3 Frauen ergibt unser Binomialkoeffizient 10!/(3!7!) = 120. Multiplizieren wir diesen mit pkqn-k, dann ergibt sich n k n−k p q ; hierbei ist Pn,k die gesuchte Wahrscheinlichkeit, k Pn,k = daß unter n Menschen k Frauen sind. Es ist zu beachten, daß das große P und das kleine p unterschiedliche Bedeutung haben! Das kleine p hatten wir ja für die Wahrscheinlichkeit „reserviert“, daß eine Frau das Wahllokal betritt. Wir kommen zu folgendem Ergebnis, wenn wir das Beispiel für alle möglichen k (von 0 bis 10) durchrechnen: Die Wahrscheinlichkeit, daß bei 10 Wählern, die das Wahllokal betreten, 10 0 keine Frau ist, ist 1 Frau 10 1 ist, ist 0 10 pq 1 9 pq = 10 * 0,000976563 = 0,00976563 10 2 pq 10 3 10 4 pq 10 5 pq 2 Frauen sind, ist 3 Frauen sind, ist 4 Frauen sind, ist 5 Frauen sind, ist = 1 * 0,000976563 = 0,000976563 2 8 pq 3 7 4 6 5 5 = 45 * 0,000976563 = 0,043945313 =120 * 0,000976563 = 0,1171875 =210 * 0,000976563 = 0,205078125 =252 * 0,000976563 = 0,24609375 67 10 6 pq 10 7 pq 10 8 pq 10 9 pq 10 10 p q 6 Frauen sind, ist 7 Frauen sind, ist 8 Frauen sind, ist 9 Frauen sind, ist 10 Frauen sind, ist 6 4 7 3 8 2 9 1 10 =210 * 0,000976563 = 0,205078125 =120 * 0,000976563 = 0,1171875 = 45 * 0,000976563 = 0,043945313 = 10 * 0,000976563 = 0,00976563 0 = 1 * 0,000976563 = 0,000976563 Stellen wir diese Wahrscheinlichkeiten graphisch dar: Wir bemerken, daß sich eine symmetrische Verteilung ergibt, die ihr Maximum in der Mitte hat: Abbildung A (die in den Stäben in Prozent ausgedruckten Wahrscheinlichkeiten sind gerundet): Wahrscheinlichkeit in % Abb. A p = 0,5 30 25 25 20 21 21 15 12 10 5 0 12 4 0 1 2 4 3 4 5 6 Anzahl der Frauen 7 8 9 10 In den folgenden Abbildungen B, und C sind unterschiedliche Binomialverteilungen wiedergegeben, die sich nur durch Veränderung von p (und damit auch von q, da q = 1-p) ergeben. Sie werden berechnet, indem man für ein gegebenes p nacheinander - wie oben geschehen - den Wert k in der Formel von 0 bis N anwachsen läßt. In den Graphiken ist unten die dem jeweiligen k entsprechende Wahrscheinlichkeit p als gerundeter Prozentsatz ausgedruckt. Uns fällt auf, daß diese Verteilungen asymmetrisch sind. Diese Asymmetrie folgt aus der Tatsache, daß p und q bei diesen Verteilungen nicht gleich 0,5 sind, sondern gleich 0,1 bzw. 0,9. 68 Wahrscheinlichkeit in % Abb. B p = 0,1 40 30 35 39 20 19 10 6 0 0 1 2 3 4 5 6 7 8 9 10 Anzahl der Frauen Wahrscheinlichkeit in % Abb. C p = 0,9 40 39 30 20 35 19 10 0 6 0 1 2 3 4 5 6 7 8 9 10 Anzahl der Frauen Es fällt auf, daß für p = 0,1 und p = 0,9 die Binomialverteilungen ihr Maximum bei k = 1 bzw. bei k = 9 haben, d.h. diese Verteilungen sind spiegelbildliche Abbilder voneinander. Für die Abbildungen A bis C ist N = 10. Würde N = 30 sein, und wäre p = 0,5, dann sähe die entsprechende Binomialverteilung so aus (Abb. D): Abb. D. 69 Wahrscheinlichkeit in % Binomialverteilung 16 14 12 10 8 6 4 2 0 N = 30 p = 0,5 14 13 13 11 11 8 8 5 0 2 4 6 5 3 3 1 1 8 10 12 14 16 18 20 22 24 26 28 K Rechnen wir nun - versuchsweise - die Wahrscheinlichkeiten für die einzelnen k in Häufigkeiten um und tun wir so, als wäre k ein Meßwert in einer empirischen Verteilung, dann können wir für die Binomialverteilung einen Mittelwert berechnen und auch eine Standardabweichung. Hierzu multiplizieren wir die Wahrscheinlichkeiten mit einem beliebigen, aber hinreichend großen n und erhalten dann für die einzelnen Ausprägungen von k 'empirische' Häufigkeiten. Für diese werden dann x und s berechnet. Berechnen wir hierfür den Mittelwert x , dann erhalten wir x = 15, die Standardabweichung beträgt s= 2,7386. Für die Binomialverteilung können wir uns diese Berechnung insofern vereinfachen, als es für sie besondere, einfache Formeln zur Ermittlung von x und s gibt. Der Mittelwert von Binomialverteilungen errechnet sich aus µ = p * n. Die Standardabweichung errechnet sich aus S = p*n*q Für die oben aufgeführte Binomialverteilung errechnen wir: p = 0,5; n = 30; p * n = 15 s= p * q * n = 0,5 * 0,5 * 30 = 2,7386 Die Binomialverteilung ist allerdings nur auf unser oben genanntes Problem, "Menge der Frauen unter 10 Wählern" anwendbar, wenn sich die Wahrscheinlichkeiten, daß Männer oder Frauen das Wahllokal betreten, nicht im Verlaufe des Experiments dadurch verändern, daß schon eine bestimmte Anzahl von Personen gewählt hat. Beim Experiment mit einer Los-Trommel würde man also nach jedem Ziehen das gezogene Los zurücklegen müssen, wenn man die Binomialverteilung anwenden will. 70 4.6. Die geometrische Verteilung Fragen wir etwas einfacher in unserem Beispiel danach, wie groß die Wahrscheinlichkeit ist, daß der erste Wählende eine Frau ist; der erste und der zweite; der erste, der zweite und der dritte; etc., dann ist ein Anwendungsfall für die geometrische Verteilung gegeben. Wir setzen wieder voraus, daß 50% der Wahlberechtigten Frauen sind. Wir hatten oben schon die geometrische Reihe kennengelernt als Reihe von fortfolgenden Multiplikationen mit einem konstanten Faktor. So etwas geschieht auch hier. Die Wahrscheinlichkeit, daß der 1. Wählende eine Frau ist, der erste und der zweite Wählende, der erste, der zweite und der dritte Wählende etc. wird nach folgender Formel berechnet: P = p(1-p)k-1 (k = 1,2 ... n) Hierbei ist P die gesuchte Wahrscheinlichkeit, p die relative Häufigkeit von Frauen, k ist die laufende Nummer der Beobachtung. Prozent Wahrscheinlichkeit Wenn die relative Häufigkeit von Frauen unter den Wahlberechtigten gleich 0,5 ist, errechnen wir folgende Wahrscheinlichkeiten für unser Beispiel: ,6 ,5 .5 ,4 ,3 .3 ,2 .1 ,1 .1 0,0 1 2 3 4 .0 5 6 7 8 K Prozent Wahrscheinlichkeit Wäre die relative Häufigkeit der weiblichen Wahlberechtigten nur p = 0,4 dann ergäbe sich folgendes Bild: ,5 ,4 .4 ,3 ,2 .2 ,1 .1 0,0 1 K 2 3 .0 4 5 6 7 8 71 Man kann auch für die geometrische Verteilung einen Mittelwert und eine Standardabweichung angeben: µ= σ= 1 p q p 2 Für p = 0,4 wären µ σ =2,5 =1,936 4.7. Die hypergeometrische Verteilung Wir nehmen wiederum unser Beispiel zum Ausgangspunkt, das wir schon von der Binomialverteilung her kennen. Wählen insgesamt z.B. nur 100 Personen, also nicht viele, die natürlich nicht ins Wahllokal zurückkehren, und sind davon 50 Männer und 50 Frauen, dann muß auf die gleiche Problematik die hypergeometrische Verteilung angewendet werden: Werden die 100 Personen mit N bezeichnet, die 50 Frauen mit M, die Häufigkeit des Auftretens von Frauen in einer Gruppe von n Personen mit x und die Zahl dieser "Personen" mit n, dann ergibt sich nach der Formel M N − M x n − x P= N n P ist die Wahrscheinlichkeit, unter n = 10 Personen, die das Wahllokal verlassen x (x = 0;1;2;...10) Frauen zu beobachten. Für die o.a. hypergeometrische Verteilung müßten wir daher in die Formel einsetzen: N = 100 M = 50 x = 0,1,2 ... 10 n = 10 50 100 − 50 x 10 − x d.h. f (x) = 100 10 Es ergeben sich folgende Wahrscheinlichkeiten für x = 0, x = 1;...x = 10: 72 x = 0 Männer, Wahrscheinlichkeit: 0,000593420 1 Mann " 0,007236825 2 Männer " 0,037993333 3 Männer " 0,113096432 4 Männer " 0,211413217 5 Männer " 0,259333546 6 Männer " 0,211413217 7 Männer " 0,113096432 8 Männer " 0,037993333 9 Männer " 0,007236825 10 Männer " 0,000593420 Das Beispiel zeigt, daß Unterschiede zur Binomialverteilung in den Wahrscheinlichkeiten erst in der zweiten Stelle nach dem Komma auftreten. Die Binomialverteilung ist der hypergeometrischen Verteilung insofern oft nah verwandt, besonders, wenn N, M oder N-M groß sind und wenn n im Vergleich dazu klein ist. Neu bei der hypergeometrischen Verteilung ist - gegenüber der Binomialverteilung - die Einführung der Gesamtmenge von Ereignissen, auf die sich die Verteilung jeweils bezieht. Demzufolge berechnet sich bei der hypergeometrischen Verteilung der Mittelwert - anders als bei der Binomialverteilung - nach folgender Formel: µ=n* M __ N Die Standardabweichung ist auch anders als bei der Binomialverteilung zu berechnen, denn sie ist in der Regel kleiner: S= nM ( N − M )( N − n) N 2 ( N − 1) wobei sich M/N und p aus der Binomialverteilung entsprechen. (Weiteres und Formelherleitung: siehe Bosch, Karl: Einführung in die elementare Wahrscheinlichkeitsrechnung, Vieweg, Braunschweig 19844, S. 84 ff, sowie Kreyszig, Erwin: Statistische Methoden und ihre Anwendungen, Vandenhoeck 1973, 4. Aufl, S. 121) 73 4.8 Die Poissonverteilung Für einen Spezialfall der Binomialverteilung hat man noch eine weitere Verteilungsfunktion ermittelt: Ist die Zahl der "Personen" n in unserem Wahlbeispiel sehr groß und die Wahrscheinlichkeit des einzelnen Ereignisses p sehr klein, dann ist es angeraten, statt der Binomialverteilung die sogenannte Poissonverteilung zu wählen. Diese ist für große n eine gute Annäherung der Binomialverteilung, aber weniger umständlich zu berechnen. µ f ( x) = x −µ x! e Hierbei ist µ = np ein Ausdruck, den wir als Mittelwert der Binomialverteilung schon kennengelernt haben. Beispiel: Wir wissen aus früheren Untersuchungen, daß nur wenige Frauen rechtsradikal wählen. Wir sind daran interessiert zu erfahren, wie wahrscheinlich es ist, unter 100 Frauen 0, 1, 2, ... 100 Frauen zu treffen, die rechtsradikal wählen. Die Wahrscheinlichkeit, daß eine Frau rechtsradikal wählt, sei z.B. 1,8%. Dann wäre hiernach µ = 1,8. Rechnet man die o.a. Formel durch, dann ergibt sich, daß die Wahrscheinlichkeit, bei 100 Frauen 0 keine solche zu treffen 1 solche zu treffen 2 " " " 3 " " " 4 " " " 5 " " " 6 " " " .... 10 " " " 0,17 0,30 0,27 0,16 0,07 0,03 0,01 ist " " " " " " 0,000016264 ist. Die Poisson-Verteilung ist kein Ersatz für die Binomial-Verteilung in allen Fällen, in denen letztere schwer zu berechnen ist. Wenn nämlich große Werte für x! auftauchen, kann es technisch schwierig sein, x! zu berechnen. 4.9. Die Normalverteilung und die Prüfung einer Verteilung auf Normalität Waren die Binomialverteilung, die geometrische, die hypergeometrische und die Poisson-Verteilung auf diskrete Merkmale bezogen, so ist die Normalverteilung auf stetige Merkmale bezogen. Wir können die Normalverteilung als Spezialfall der Binomialverteilung betrachten, wenn dort N bzw. K gegen unendlich gehen und p = 1-q = 0,5 ist. Nach dem "lokalen Grenzwertsatz" von Moivre-Laplace gilt für jedes p, das zwischen 0 und 1 liegt, folgende Beziehung: n k k pq n−k = für k = 0,1,2 ... n 1 2πnpq − e ( k − np ) 2 2 npq [ R ( k )] * 1+ n 74 Hierbei ist Rn (k) ein sogenanntes "Restglied" in der Formel, das für wachsende k gegen 0 strebt, so daß für sehr große k das Restglied fortfällt. Ersetzen wir jetzt (Übergang zur stetigen Variable!) (k-np) durch x und setzen wir npq = 1, dann erhalten wir die Formel 2 − 2 x z( x ) = e 2π Dies ist die Formel der sogenannten "Standardnormalverteilung". z (x) hat die Standardabweichung 1 und den Mittelwert x = 0. Um Verwechslungen mit den Meßwerten xi auszuschließen, bezeichnen wir künftig in der StandardNormalverteilung die xi als z-Werte (zi). Da die Verteilung stetig ist, können wir die Ordinaten der Kurve der Standardnormalverteilung nicht als Wahrscheinlichkeiten p interpretieren, sondern nur als Wahrscheinlichkeitsdichte. Dementsprechend können konkrete Wahrscheinlichkeiten auch nur bestimmten Intervallen dieser Funktion zugeordnet werden, nicht aber einzelnen xi. Dies bedeutet, daß - im Unterschied zu allen diskreten Wahrscheinlichkeitsverteilungen - die Aufsummierung aller auf einzelne zi bezogenen Wahrscheinlichkeitsdichten nicht 1 ergibt (sondern unendlich), während die Addition der einzelnen Wahrscheinlichkeiten für die Binomialverteilung, die geometrische Verteilung, die hypergeometrische Verteilung ect. immer die Summe 1 ergab. Die Summe 1 als Summe aller Einzelwahrscheinlichkeiten resultiert in allen Fällen genannten Verteilungen daraus, daß das sichere Ereignis die Wahrscheinlichkeit 1 hat. Die Wahrscheinlichkeit, daß ein mögliches Ereignis (für das jeweilige Experiment) im Wertebereich der angegebenen Verteilung auftaucht, ist immer gleich 1, weil dieses Ereignis sicher ist; z.B. beim Münzwurf kommt immer Kopf oder Zahl. Wie ermitteln wir aber bei der Standard-Normalverteilung die Einzelwahrscheinlichkeiten, deren Summe 1 ergibt? Wir müssen dazu die Flächen (Integrale) berechnen, die bestimmten Intervallen auf der z-Achse entsprechen. Wer dies nicht mit dem (programmierbaren) Taschenrechner durchführen kann, ist praktisch darauf angewiesen, in Tabellen der Statistik-Lehrbücher diese Flächenanteile nachzuschlagen. Dabei ist zu beachten, daß solche Tabellen von Lehrbuch zu Lehrbuch anders aufgebaut sind, und man muß die Leseanweisung für solche Tabellen sorgfältig beachten. Untersuchen wir, welche Werte das Integral der Standard-Normalverteilung annimmt, wenn wir, bei minus unendlich beginnend, über null bis plus unendlich die Fläche zusammensetzen, die unter der Funktion der Wahrscheinlichkeitsdichte liegt: Wir wissen im voraus, daß die Summe der Flächenstücke gleich 1 ist, weil ja die Standardnormalverteilung nur ein Grenzfall der Binomialverteilung ist, bei der - wie bei allen untersuchten Wahrscheinlichkeitsverteilungen die Summe der Einzelwahrscheinlichkeiten immer gleich 1 war. Hiervon ausgehend können wir sagen, daß bei die Fläche links (oder rechts) vom Mittelwert (0) gleich 0,5 sein muß. Ermitteln wir die Fläche im Intervall von 1 bis 0, dann ergibt sich der Wert 0,341. Folglich beträgt die Fläche links von - 1 „0,5-0,341 = 0,159“. Da die Standardnormalverteilung symmetrisch zu 0 ist, kann man alle Überlegungen aus dem Bereich links von 0 analog in den Bereich rechts von 0 übertragen, durch Spiegelung an der 0-Achse. 75 Verlauf der Standardnormalverteilung: ,4 ,3 ,2 Wert f(z) ,1 0,0 -3, -2, -1, 0 1, 2, 3, Z Summiert man die Flächenstücke unter der Standardnormalverteilung von links nach rechts auf - wie bei der Kumulierung von Prozenten - dann ergibt sich das Integral (die Summenfunktion) der Verteilung als von 0 bis 1 ansteigende Kurve. Die oben gezeichnete Grafik enthält die Standardnormalverteilung, unten finden wir die dazugehörige Summenfunktion. Die Ordinate wird hier in Prozent dargestellt: 100 80 60 Kumulierte Fläche 40 20 0 -3 Z -2 -1 0 1 2 3 76 Zu berücksichtigen ist, daß die beiden Kurven sich auf unterschiedliche Maßstäbe in der Senkrechten beziehen: auf die Wahrscheinlichkeitsdichte in der Standardnormalverteilung oben, auf das Integral (als prozentualer Anteil der Gesamtfläche ausgedrückt), unten. Praktisch werden die Standardnormalverteilung und die ihr zugeordnete Integralfunktion zur Schätzung von Häufigkeiten in bestimmten Intervallen empirischer Verteilungen benutzt. Wenn ich zum Beispiel weiß, daß eine empirische Verteilung das arithmetische Mittel 20 hat und die Standardabweichung von 6, dann kann ich leicht die Wahrscheinlichkeit dafür errechnen, daß ein Meßwert im Bereich von 14 bis 20 auftritt. Wir ziehen hierzu von jedem empirischen Meßwert das empirische arithmetische Mittel ab und teilen die Differenz durch die empirische Standardabweichung. Dieses Verfahren nennt man „z-Standardisierung“. z = i x −x i s Für ein Intervall von 14 bis 20 heißt dies: z 1 z 2 = 14 − 20 − 6 = = −1 6 6 = 20 − 20 0 = =0 6 6 Für das Intervall z1 bis z2, also von minus 1 bis 0, errechnen wir jetzt die "Fläche unter der StandardNormalverteilung" und erhalten, wie oben schon ermittelt, den Wert 0,341. Damit kann vermutet werden, daß für die empirische Verteilung mit x = 20 und S = 6 im Intervall von 14 bis 20 34,1% der Meßwerte liegen. Die Berechnung von z-Werten aus empirischen Meßwerten ist jedoch nur sinnvoll, wenn die empirische Verteilung annähernd normal verteilt ist. Ist dies nicht der Fall, dann ergeben sich ganz andere Wahrscheinlichkeitsverteilungen. Wie kann man aber prüfen, ob eine Verteilung annähernd „normalverteilt“ ist ? Die Prüfung auf Normalität kann viele Wege gehen. Ein einfaches Verfahren ist die Berechnung von Maßen der "Schiefe" (englisch: Skewness) und des "Exzesses" (englisch: Kurtosis), worunter wir uns Abweichungen einer empirischen Verteilung von der Form der Normalverteilung vorzustellen haben. Solche Abweichungen können in der Richtung der Meßwertachse (Problem der Schiefe) vorliegen oder in Richtung der Häufigkeitsachse (Problem des Exzesses oder der Kurtosis, s.u.). Das Schiefemaß lautet: n Sch = ∑z i =1 3 i n Bei Vorliegen einer „Normalverteilung“ ist die Schiefe = 0. Ist die Verteilung „schief“, d.h. ist der Schwerpunkt nach links oder rechts verschoben, dann nimmt das Schiefemaß bei Schwerpunktverschiebung nach links größere, bei Schwerpunktverschiebung nach rechts kleinere Werte als 0 an. Das „Exzess“-Maß lautet: 77 n Ex = ∑z i =1 4 i n Bei Vorliegen einer Normalverteilung nimmt es den Wert 3 an. Deshalb wird der Exzess auch gelegentlich als n Ex = ∑z i =1 n 4 i −3 definiert. Dann ergibt sich bei Vorliegen einer Normalverteilung der Wert 0. Unter Exzess wird die Verschiebung der Verteilung in der Senkrechten verstanden (im Gegensatz zur Schiefe, bei der es um waagerechte Abweichungen von der Normalverteilung geht). Liegen in der Mitte der Verteilung die Häufigkeiten oberhalb der Normalverteilung, am Rande aber unterhalb, dann wächst das Exzessmaß auf Werte oberhalb von Null, ist es umgekehrt, fällt das Exzessmaß auf Werte unter Null. Es ist darauf hinzuweisen, daß SPSS10 bei Schiefe und Exzess mit anderen Formeln arbeitet. Die Schiefe und der Exzess sind in SPSS.10 wie folgt definiert: n Schiefe = ( n∑ xi − x i =1 ) 3 s (n − 1)(n − 2 ) 3 ( ) ( ) 2 n n(n + 1)∑ xi − x − 3(n − 1)∑ xi − x i =1 i =1 Exzess = (n − 1)(n − 2)(n − 3) s 4 n 4 2 Diese Formeln führen zu leichten Abweichungen der Ergebnisse gegenüber den oben genannten Formeln für Schiefe und Exzess. Im Übrigen wird der Exzess in SPSS.10 mit „Kurtosis“ bezeichnet. Ob eine konkrete Abweichung der Schiefe und des Exzesses von ihren „Normwerten“ erheblich (signifikant) ist, kann mit Hilfe des unten besprochenen Chiquadrat-Tests oder mit Hilfe des Kolmogoroff-Smirnov-Tests ermittelt werden. Eine weitere Möglichkeit, die Normalität einer Verteilung festzustellen, existiert mit Hilfe von Schiefe und Exzess wie folgt: 2 Chi = Sch 6 2 n Der Wert Chi 2 ist chiquadratverteilt (s.u.). (Ex −3) ; df = 2 + 2 24 n 78 5. Prüfverteilungen Verschiedene, mit der Normalverteilung verwandte, spezielle Verteilungen werden in der Statistik - neben der Binomial- und der Normalverteilung - dazu benutzt, statistische Hypothesen zu überprüfen. (Was statistische Hypothesen sind, wird weiter unten erörtert). Hierzu gehören die Chiquadrat-Verteilung, die t-Verteilung und die F-Verteilung. In diesem Kapitel wird zunächst nur die Form der Verteilung eingeführt und ihre Berechnungsweise. Wie man mit ihr praktisch umgeht, wird nur kurz angedeutet, später werden die Anwendungsfälle genauer ausgeführt. Tabellen dieser Verteilungen findet man im Anhang, wobei ausführlichere Fassungen solcher Tabellen in der Lehrbuchliteratur für Statistik aufzusuchen sind. 5.1. Die Chi-Quadrat-Verteilung Wenn wir mehrere voneinander unabhängige Zufallsgrößen (Variablen) haben, dann kann deren Summe innerhalb bestimmter Grenzen - jeden beliebigen Wert annehmen. Das gilt auch für die Summe der quadrierten Werte, nur daß diese Summe immer positiv ist, d.h. kein negatives Vorzeichen haben kann. Die Summe einer Menge von quadrierten Daten aus standardisierten Normalverteilungen z1² + z2² + z3² + z4² +...+ zn² kann wie folgt ausgedrückt werden: n CHI = Σ z 2 i =1 2 i Der Menge der Summanden, n, entspricht in diesem Fall die Menge der Freiheitsgrade. Kurzer Exkurs zum Begriff „Freiheitsgrad“, der uns noch oft begegnen wird: Die Schätzung von Parametern ist eng verbunden, mit der jeweils zur Verfügung stehenden Information. Die formale Anzahl von Informationen (z.B. die Meßwerte von N Befragten), die zur Schätzung eines Parameters herangezogen werden, ist der Ausgangspunkt für die Festlegung der zur Verfügung stehenden Freiheitsgraden. Im allgemeinen ist die Anzahl der Freiheitsgrade gleich der formalen Anzahl unabhängiger Einzelinformationen minus der Anzahl der in die Berechnung des jeweiligen Parameters eingehenden zusätzlichen Parameter. Wird z.B. die Varianz (σ2 ) einer Verteilung mit N Werten geschätzt, dann ist die Anzahl der Freiheitsgrade N-1, da die Formel zur Berechnung von Varianz den Mittelwert µ als weiteren Parameter enthält. Die folgende Tabelle enthält in den ersten 6 Spalten 6 quadrierte z-Verteilungen (Normalverteilungen mit dem arithmetischen Mittel 0 und der Standardabweichung 1), und zwar pro Verteilung 20 Werte. Diese unsortierten quadrierten Werte werden Zeile für Zeile addiert und ergeben in der letzten Spalte Ausprägungen der Variable Chi²df6: Z1² ,00 ,77 2,30 ,07 ,00 1,86 ,05 ,10 ,48 ,96 ,00 1,12 1,92 ,08 ,61 ,10 1,30 1,32 1,84 1,49 z2² ,00 ,16 ,00 ,17 ,02 ,10 ,68 ,00 ,00 ,09 1,42 7,51 ,63 1,97 1,14 ,17 ,94 ,20 5,74 ,45 z3² ,24 1,12 ,94 1,24 3,10 ,23 ,44 ,01 1,29 1,07 4,52 2,92 ,20 ,21 ,01 1,97 ,76 ,23 ,82 3,95 z4² ,58 ,17 ,69 ,75 4,18 ,23 3,85 2,96 ,14 ,50 ,32 ,15 2,84 ,01 ,55 1,78 1,07 1,07 ,05 ,07 z5² 1,60 3,75 1,93 ,49 1,64 ,19 ,06 1,02 1,12 ,03 ,31 2,11 ,47 ,00 ,71 2,32 ,06 2,67 ,34 ,62 z6² ,23 2,38 ,22 ,05 1,58 ,27 ,18 ,05 ,07 ,28 5,64 ,06 ,13 ,06 ,01 ,76 2,44 ,03 ,08 ,16 Chi²df6 2,65 8,36 6,08 2,77 10,52 2,87 5,26 4,15 3,12 2,95 12,21 13,86 6,18 2,33 3,03 7,09 6,57 5,51 8,86 6,76 79 Die Möglichkeiten des Verlaufs dieser Variable „Chi²df6“ sind theoretisch durch eine Verteilungsfunktion (Wahrscheinlichkeitsdichtefunktion) zu beschreiben, die folgende Formel hat f [Chi ] = e 2 x2 − 2 2 df −1 2 * x² df 2 * Γ df2 In der Formel für Chi-Quadrat bedeuten e = Eulersche Konstante = 2,71828 ... n Chi² = der konkrete Wert Chiquadrat = ∑z i =1 2 i df = Menge der sog. Freiheitsgrade der Funktion (df > 0). Γ= Im Nenner befindet sich das Zeichen „Γ“. Es bezeichnet die sogenannte Gammafunktion, die wir als stetige Erweiterung der (diskreten) Fakultät für nichtgradzahlige Werte auffassen können, wenn wir beachten: Γ (n)= (n-1)! für alle natürlichen Zahlen. Eine ausführliche Erläuterung der Gamma-Funktion und auch eine entsprechende Tabelle liefert Erwin Kreyszig, Statistische Methoden und ihre Anwendungen, Göttingen 1965, S. 158 u. S. 391. Wie man in der Formel erkennt, gibt es so viele Chiquadrat-Funktionen wie es Freiheitsgrade (df) gibt. Für alle diese Funktionen gilt: • Die Chi2-Verteilung hat ein arithmetisches Mittel von df und eine Varianz von 2df. • Alle Chiquadrat-Funktionen können als Wahrscheinlichkeitsdichtefunktionen mit dem Gesamt-Integral gleich 1 interpretiert werden. Chiquadrat-Dichtefunktion Die Funktion verläuft bei einem Freiheitsgrad monoton fallend, bei 2 Freiheitsgraden ebenfalls, bei 3 Freiheitsgraden steigt sie zunächst an und fällt dann stetig. Ab 10 Freiheitsgraden wird sie der Normalverteilung immer ähnlicher. ,4 Chiquadrat-Dichtefunktionen für unterschiedliche Freiheitsgrade ,3 df 10 ,2 df 5 ,1 df 3 df 1 0,0 0 2 4 6 Chiquadrat 8 10 80 „Empirische“ Chiquadratfunktionen lassen sich durch das oben erwähnte Additionsverfahren erzeugen und haben in ihrer äußeren Gestalt große Ähnlichkeit mit den in der Graphik der Dichtefunktionen dargestellten Funktionsverläufen, wie das folgende Beispiel einer empirischen Chiquadratverteilungen mit 5 Freiheitsgraden zeigt: Empirische Chiquadratverteilung mit df=5 20 Prozent 10 0 0 2 1 4 3 6 5 8 7 10 9 12 11 14 13 16 15 18 17 20 Chiquadrat Der Unterschied der empirischen Chiquadratverteilung zur theoretischen Chiquadratverteilung besteht hier in folgendem: Während die Ordinate der empirischen Verteilung mit Prozent (Werte von 1 bis 100) bezeichnet werden kann, wird die Ordinate der theoretischen Verteilung mit Wahrscheinlichkeitsdichte (Werte von 0 bis 1) bezeichnet. Die theoretische Verteilung, die nach der o.a. Formel berechnet wurde, ist glatt, die empirische Verteilung hat Unregelmäßigkeiten. Praktisch wird die Chiquadrat-Verteilung dazu benützt, abzuschätzen, wie wahrscheinlich es ist, daß bestimmte chiquadrat-verteilte Rechenergebnisse in bestimmten Intervallen der Chiquadratverteilung als Resultat empirischer Untersuchungen auftreten. Hierbei bedient man sich der Integrale (Flächen unter) der Chiquadratdichtefunktion. Diese Integrale der Chiquadrat-Dichtefunktionen liegen in Tabellenform vor, so daß aus ihnen entnommen werden kann, in welchen Intervallen der Chiquadratverteilung Chiquadratwerte mit welcher Wahrscheinlichkeit auftreten können. So zeigt die folgende Graphik der aufkumulierten Flächen einer Chiquadrat-Verteilung (df = 5), daß oberhalb des Chiquadratwertes 11 noch etwa 5 % der Werte von Chiquadrat auftreten können. 81 Aufkumulierte Chiquadratverteilung mit df=5 100 Kunulierte Prozente 80 60 40 20 0 0 2 1 4 3 6 5 8 7 10 9 12 11 14 13 16 15 18 17 20 Chiquadrat Die Wahrscheinlichkeit, aus Zufallsprozessen in chiquadratverteilten Variablen mit 5 Freiheitsgraden Werte von größer als 11 zu erhalten, wäre also gleich 0,05, wie nicht nur aus dieser empirischen Verteilung, sondern auch aus den Tabellen zu den Flächen unter der Chiquadrat-Verteilung abgelesen werden kann. 5.2 Die t-Verteilung Diese Verteilung ist ein „Zwitter“, da sie als Quotient aus einer Standard-Normalverteilung und einer Chi2Verteilung mit n Freiheitsgraden wie folgt konstruiert wird: T df = z χ df2 df Die Variable z ist dabei „standard-normalverteilt“ mit dem Mittel 0 und der Standardabweichung 1; die Variable χ df2 ist chiquadrat-verteilt, mit df Freiheitsgraden. Die Entstehung einer t-Verteilung kann an der folgenden Tabelle nachvollzogen werden: 82 z1 ² z2 ² z3 ² z4 ² z5 ² z6 chi²df5 tdf5 /5 ,83 ,00 ,08 ,13 3,44 3,12 ,10 2,67 ,03 ,10 ,12 1,35 2,04 ,76 ,20 3,19 2,32 1,03 ,54 ,34 ,00 ,77 2,30 ,07 ,00 1,86 ,05 ,10 ,48 ,96 ,00 1,12 1,92 ,08 ,61 ,10 1,30 1,32 1,84 1,49 ,00 ,16 ,00 ,17 ,02 ,10 ,68 ,00 ,00 ,09 1,42 7,51 ,63 1,97 1,14 ,17 ,94 ,20 5,74 ,45 ,24 1,12 ,94 1,24 3,10 ,23 ,44 ,01 1,29 1,07 4,52 2,92 ,20 ,21 ,01 1,97 ,76 ,23 ,82 3,95 ,58 ,17 ,69 ,75 4,18 ,23 3,85 2,96 ,14 ,50 ,32 ,15 2,84 ,01 ,55 1,78 1,07 1,07 ,05 ,07 -1,26 1,94 1,39 -,70 -1,28 ,43 ,24 -1,01 1,06 -,18 -,56 1,45 ,68 ,02 ,84 1,52 -,24 -1,63 -,58 ,79 ,33 ,45 ,80 ,47 2,15 1,11 1,02 1,15 ,39 ,55 1,28 2,61 1,52 ,61 ,50 1,44 1,28 ,77 1,80 1,26 -2,20 2,90 1,55 -1,02 -,87 ,41 ,24 -,94 1,70 -,24 -,50 ,90 ,55 ,03 1,19 1,27 -,21 -1,87 -,43 ,70 Durch Addition entsteht aus 5 quadrierten z-Verteilungen eine Chiqudratverteilung mit 5 Freiheitsgraden. Teilt man die Variable z6, die nicht quadriert wurde, durch die Chiquadratverteilung, deren einzelne Werte zuvor noch durch 5 (die Menge ihrer Freiheitsgrade) geteilt und aus denen noch die 2. Wurzel gezogen wurde, dann erhält man die gewünschte t-Verteilung mit 5 Freiheitsgraden. Die Dichtefunktion der t-Verteilung lautet df + 1 2 df +1 2 2 df t 1 + 2 df Γ h (t) = df dfΠ Γ mit df als Freiheitsgraden. Die t-Verteilung hat, wenn die Freiheitsgrade 3 und größer sind, einen Erwartungswert (Mittel) von 0 und eine Varianz von df s ² = ───────── df - 2 Deshalb wird mit wachsenden Freiheitsgraden wird die t-Verteilung der Normalverteilung ähnlich, weil die Varianz der Standardnormalverteilung 1 ist und bei wachsenden Freiheitsgraden der Ausdruck für die Varianz der t-Verteilung sich 1 annähert. 83 f(z) beziehungsweise f(t,df) Vergleich von Normalverteilung und t-Verteilungen ,5 mit df = 1 und df = 6 (Dichtefunktionen) ,4 ,3 ,2 t-Verteilung df=6 ,1 t-Verteilung df=1 0,0 -4 Normalverteilung -3 -2 -1 0 1 2 3 4 z beziehungsweise t Praktisch bedeutsam wird die t-Verteilung z.B. im Zusammenhang der Prüfung von Hypothesen über Mittelwertsunterschiede zweier Stichproben und der Prüfung der Signifikanz von Korrelationskoeffizienten. 5.3 Die F-Verteilung Die F-Verteilung entsteht aus dem Quotienten zweier chiquadrat-verteilter Zufallsvariablen, die verschieden viele Freiheitsgrade haben können (m und n), und die jeweils durch die Menge ihrer Freiheitsgrade geteilt werden: χ m2 F(m , n ) = m2 χn n Demonstration der Formel: Die folgende Tabelle enthält 4 quadrierte z-Verteilungen zm²1 bis zm²4, deren Summe, durch 4 geteilt, chiqm /m bildet; weiterhin enthält die Tabelle 6 quadrierte z-Verteilungen zn²1 bis zn²6, deren Summe, durch 6 geteilt, chiqn /n bildet. Der Quotient (chiqm /m) / (chiqn/n) wird gebildet und man erhält die F-verteilte Variable 84 f4; 6 mit 4 Freiheitsgraden im Zähler und 6 Freiheitsgraden im Nenner: zm²1 zm²2 zm²3 zm²4 zn²1 zn²2 zn²3 zn²4 zn²5 zn²6 ,83 ,00 ,08 ,13 3,44 3,12 ,10 2,67 ,03 ,10 ,12 1,35 2,04 ,76 ,20 3,19 2,32 1,03 ,54 ,34 ,00 ,77 2,30 ,07 ,00 1,86 ,05 ,10 ,48 ,96 ,00 1,12 1,92 ,08 ,61 ,10 1,30 1,32 1,84 1,49 ,00 ,16 ,00 ,17 ,02 ,10 ,68 ,00 ,00 ,09 1,42 7,51 ,63 1,97 1,14 ,17 ,94 ,20 5,74 ,45 ,24 1,12 ,94 1,24 3,10 ,23 ,44 ,01 1,29 1,07 4,52 2,92 ,20 ,21 ,01 1,97 ,76 ,23 ,82 3,95 ,58 ,17 ,69 ,75 4,18 ,23 3,85 2,96 ,14 ,50 ,32 ,15 2,84 ,01 ,55 1,78 1,07 1,07 ,05 ,07 chiqm m ,24 ,81 1,58 ,26 1,06 2,07 ,94 1,28 ,72 ,72 chiqn n 1,18 2,01 ,88 ,72 1,50 ,75 1,29 ,75 1,34 1,02 f4;6 ,20 ,40 1,79 ,36 ,71 2,77 ,73 1,71 ,54 ,71 Die Dichte-Funktion lautet (für x ≥ 0) m+n m Γ 2 m2 g (m, n ) = m n Γ Γ n 2 2 (χ ) m −1 2 ( 1+ mn *χ ) m+n 2 Eine Zufallsvariable, die F-verteilt ist, hat den Erwartungswert (arithmetisches Mittel) x= n n −1 für n > 3 und die Varianz 2 n ( n + m − 2) S²= m( n − 4) ( n − 2) 2 2 für m > 5 (Vgl. Bamberg, Bauer: Statistik, 3. Auflage, Oldenburg, S. 11). Die Integrale dieser Dichtefunktionen liegen tabelliert vor, wobei zu beachten ist, daß jede F-Verteilung zwei verschiedene Angaben über die Freiheitsgrade m und n im Zähler und im Nenner auf sich vereinigt. 85 F-Verteilung für unterschiedliche Freiheitsgrade 1,2 1,0 ,8 ,6 ,4 m=30, n=20 m=12, n=10 ,2 m=6, n=4 0,0 0,0 ,4 ,8 1,2 1,6 2,0 2,4 2,8 3,2 3,6 4,0 4,4 4,8 ,2 ,6 1,0 1,4 1,8 2,2 2,6 3,0 3,4 3,8 4,2 4,6 5,0 Praktisch bedeutsam wird die F-Verteilung z.B. bei der Untersuchung der Frage, ob mehrere Stichproben mit verschieden großen Varianzen aus der gleichen normalverteilten Grundgesamtheit gezogen worden sein können. Siehe hierzu das Kapitel über den F-Test unten. F-Werte 6. Der Standardfehler von Stichprobenkennwerten 6.1. Allgemeines. Terminologisch muß folgendes nochmals betont werden: Für Stichproben werden die Lage- und Streuungsmaße „Kennwerte“ genannt. Sie werden mit lateinischen Buchstaben ( x, s ) bezeichnet. Berechnet man Lage- und Streuungsmaße von Grundgesamtheiten, dann bezeichnen wir diese mit griechischen Buchstaben (arithmetisches Mittel = µ; Standardabweichung = σ ) und nennen sie „Parameter“. Stichprobenkennwerte streuen um die entsprechenden Parameter der Grundgesamtheit, wie leicht nachzuvollziehen ist, denn es wäre schon ein merkwürdiger Zufall, wenn man beim Stichprobenziehen immer Kennwerte bekäme, die genau den Parametern entsprächen. Interessant ist nun, ob die Streuung der Kennwerte bekannt ist und ob man hieraus statistisch Nutzen ziehen kann. 6.2. Der Standardfehler des arithmetischen Mittels 6.2.1 Demonstration des Standardfehlers des arithmetischen Mittels Wenn wir wissen wollen, in welchem Bereich wir den Mittelwert einer Stichprobe erwarten dürfen, wenn wir die Stichprobengröße und den wahren Mittelwert kennen, dann könnten wir hierzu ein Experiment durchführen. Wir ziehen aus einer großen Grundgesamtheit fortlaufend Stichproben eines bestimmten Umfangs und notieren jeweils den Mittelwert x . Die notierten Mittelwerte stellen wir wiederum in einer Häufigkeitsverteilung dar und berechnen für diese die Standardabweichung. 86 Beispiel: Aus einer Stichprobe mit 4000 Personen aus Aktienhausen werden 10 Stichproben (Einkommensangaben in DM) gezogen. Die wahren Werte (Parameter der Grundgesamtheit) sind: Arithmetisches Mittel Standardabweichung Minimum Maximum n µ = 3020,80 σ = 796,12 323,39 6323,96 = 4000 Graphik der Häufigkeitsverteilung in der Grundgesamtheit: Monatseinkommen in Aktienhausen 600 500 400 300 200 Std.abw. = 796,12 Mittel = 3020,8 N = 4000,00 100 0 ,0 50 62 0,0 5 5 7 0, 0 5 52 0, 0 5 47 0, 0 5 42 0, 0 5 37 0, 0 5 32 0, 0 5 27 0, 0 5 22 0, 0 5 17 0, 0 5 12 , 0 0 75 , 0 0 25 Monatseinkommen in DM 10 Stichprobenkennwertgruppen, die bei ca. 5-prozentiger Auswahl zustandekommen, sind: Variable STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE STICHPROBE NR. NR. NR. NR. NR. NR. NR. NR. NR. NR. 1 2 3 4 5 6 7 8 9 10 ar. Mittel Std-Abw. Minimum Maximum n 3050,37 3000,93 3068,58 2947,53 3056,28 3006,44 2994,61 2948,32 2970,61 3019,45 1099,84 558,16 1000,76 718,65 958,02 459,24 447,67 1345,91 323,39 1060,44 4691,61 4741,84 6323,96 5329,43 6323,96 5416,04 5298,42 5036,31 4821,20 5549,10 174 186 223 211 182 213 200 189 186 202 821,37 745,35 816,77 776,78 854,96 817,24 849,97 754,04 776,48 807,99 **** **** **** **** Berechnen wir aus den 10 Stichprobenmittelwerten eine Standardabweichung, dann erhalten wir folgendes Ergebnis: Standardabweichung der Stichprobenmittelwerte = 43,14 Diese Standardabweichung der Stichprobenmittelwerte wird nun Standardfehler genannt. Wir bemerken, daß die 10 Mittelwerte der Stichproben nicht identisch mit dem wahren Wert sind. Wir können aber feststellen, daß 6 von 10, also 60 % unserer Stichprobenmittel, im Intervall von µ ± ein Standardfehler liegen. Die Werte sind oben fett gedruckt. Alle Stichprobenmittelwerte liegen in einem Intervall von ± zwei Standardfehlern. Überprüfe dies an folgenden Angaben: 87 Wahrer Mittelwert + 1 empirischer Standardfehler: 3020,8 + 43,14 = 3063,94 Wahrer Mittelwert - 1 empirischer Standardfehler: 3020,8 - 43,14 = 2977,66 Wahrer Mittelwert + 2 empirische Standardfehler: 3020,8 + 86,28 =3107,08 Wahrer Mittelwert - 2 empirische Standardfehler: 3020,08 - 86,28 = 2934,52 Wenn man den Standardfehler nun mit wenig Aufwand schätzen könnte, dann hätte man eine gute Methode, um den Bereich abzuschätzen, in dem der wahre Wert µ mit beispielsweise 60 % Wahrscheinlichkeit liegt, wenn man eines der Stichprobenmittel kennt. Hierzu machen wir uns folgende Gesetzmäßigkeit zunutze: Der Standardfehler des Mittelwertes einer Verteilung beträgt σ x = σ 2 n und ist gleich der Standardabweichung der Mittelwerte von Stichproben im Umfange n aus einer Population. Dabei ist σ 2 die Populationsvarianz. Eine Häufigkeitsverteilung, die wir erhalten würden, wenn wir sehr viele Stichproben mit jeweils gleich großem Umfang aus einer bestimmten Grundgesamtheit ziehen und jeweils das arithmetische Mittel dieser Stichproben notieren würden, hätte eine Standardabweichung von σ x . Ist die Populationsvarianz unbekannt, wird sie geschätzt durch die Stichprobenvarianz, die mit dem Faktor n/(n1) multipliziert wird. σˆ x = σˆ Σ (x i − x ) 1 1 Σ (x i − x ) n * = * * = n n n n −1 n(n − 1) 2 2 2 Der Standardfehler des Mittelwerts kann somit, wie leicht zu erkennen ist, auch geschrieben werden als σ∃ = x σ∃ = 2 n s ; n Der „zentrale Grenzwertsatz“ besagt, daß die Mittelwerte von Stichproben des Umfangs n (für n>30), die ein und derselben Grundgesamtheit entnommen werden, normalverteilt sind, unabhängig davon, ob die Grundgesamtheit auch normalverteilt ist, und zwar mit dem Mittelwert µ und der Standardabweichung von σ x . 6.2.2. Zur Bedeutung des Standardfehlers des arithmetischen Mittels Der Standardfehler ist, wie wir wissen, die Standardabweichung des arithmetischen Mittels von Stichproben mit der Größe n. Er würde die Standardabweichung einer Verteilung darstellen, die bei zahlreichen Stichprobenziehungen aus einer gegebenen Grundgesamtheit für die Variable „Arithmetisches Mittel der Stichprobe im Umfange von n“ entstünde. Er ist definiert durch (s. o.) 88 σ∃ = x σ∃ = 2 n s ; n Wird nun n variiert, dann ergeben sich für die Verteilung des Stichprobenmittels unterschiedliche Gestalten. Die Kurve der Wahrscheinlichkeitsdichte wird um so steiler, je größer n ist. Die folgende Graphik demonstriert dies für Stichproben mit n = 4, n = 9, n = 25, n = 81, die aus einer standard-normalverteilten Grundgesamtheit gezogen wurden: 4 3 2 Wahrscheinlichkeitsdichte Standardnormal n=4 1 n=9 n = 25 0 n = 81 -2,98 -2,34 -1,70 -1,06 -,42 ,22 ,86 1,50 2,14 2,78 ZWERTE Der Bereich, in dem das arithmetische Mittel einer Stichprobe auftauchen kann, wird daher mit wachsendem n der Stichprobe immer schmaler. Für SPSS-Interessenten sei noch mitgeteilt, wie man mit Hilfe von SPSS eine solche Graphik herstellt: 1. Man definiert auf dem leeren Daten-Editor 301 Fälle mit dem Befehl: „Daten“ – „gehe zu Fall 301“ „Eingabe irgeneiner Zahl in ein Feld des Falles 301“. 2. Man weist diesen Fällen z-Werte mit folgendem Befehl zu: 89 COMPUTE zwerte = $casenum/50 - 3 . EXECUTE . 3. Man weist den Fällen standardnormalverteilte Ordinaten mit folgendem Befehl zu: COMPUTE normalv = (1/((1/1)*2.50663))*2.71828**(0-0.5*((zwerte-0)/(1/1))**2). EXECUTE . In diesem Befehl steckt die Wurzel aus n an den Stellen, die hier durch Pfeile bezeichnet sind. Bei der Standardnormalverteilung ist Wurzel aus n = 1. 4. Man erzeugt eine Graphik der Standardnormalverteilung mit folgendem Befehl: GRAPH /LINE(SIMPLE)=VALUE(normalv) BY zwerte . 4. Man erzeugt für die Verteilung der Standardfehler mit n = 4, n= 9, n = 25, n = 81 entsprechende Variablen durch folgende Befehlsketten, in die an den unterstrichenen Stellen jeweils die Wurzel aus n eingefügt ist: n=4 COMPUTE nor4 = (1/((1/2)*2.50663))*2.71828**(0-0.5*((zwerte-0)/(1/2))**2). EXECUTE . n=9 COMPUTE nor9 = (1/((1/3)*2.50663))*2.71828**(0-0.5*((zwerte-0)/(1/3))**2). EXECUTE . n = 25 COMPUTE nor25 = (1/((1/5)*2.50663))*2.71828**(0-0.5*((zwerte-0)/(1/5))**2). EXECUTE . n = 81 COMPUTE nor81 = (1/((1/9)*2.50663))*2.71828**(0-0.5*((zwerte-0)/(1/9))**2). EXECUTE . 5. Die Graphik erzeugt man durch den Befehl GRAPH /LINE(MULTIPLE)= VALUE(normalv nor4 nor9 nor25 nor81 ) BY zwerte . Diese Graphik kann dann weiterbearbeitet werden. Viel Vergnügen beim Nacharbeiten ! 90 6. 3. Der Standardfehler von Prozentsätzen Der Standardfehler von Wahrscheinlichkeiten läßt sich – in Anlehnung an die Binomialverteilung – ebenfalls bestimmen, sofern man die Frage auf Situationen begrenzt, wo in der Stichprobe zwei Eigenschaften vorliegen, die einander ausschließen (wie „krank“ und „gesund“). In diesem Fall kann der Standardfehler bestimmt werden aus der Gleichung: σ 2p = p*q n p und q sind hier die einander ausschließenden Wahrscheinlichkeiten, in deren Umfang in der Stichprobe jemand krank oder gesund ist. Es muß allerdings gelten: npq > 9. Wenn z. B. p = 0,3 und q = 0,7 sind, dann müßte n mindestens 43 betragen, weil dann npq = 9,03 wäre. Der Standardfehler für Wahrscheinlichkeiten wäre dann: σp = p*q n Beispiel: Wir ziehen eine Stichprobe von 200 Tomaten, von denen 20 % krank sind (p = 0,2) und 80 % gesund sind (q = 0,8). Der Standardfehler dieser Wahrscheinlichkeiten würde sich wie folgt errechnen: σp =( (0,2 *0,8)/200)0,5 = 0,0283 Will man hieraus einen Standardfehler für Prozentsätze machen, multipliziert man das Ergebnis mit 100. Es käme also ein Standardfehler für den Prozentsatz kranker Tomaten von 2,83 Prozent heraus. 7. Statistische Tests Im Unterschied zu den Intervall-Schätzverfahren, bei denen für einen Parameter (z. B. µ) ein Bereich angegeben wird, in dem dieser unter bestimmten Voraussetzungen (z.B. Normalverteilung und Kenntnis der Varianz der Grundgesamtheit bei gegebenen Stichprobendaten) mit einer bestimmten Wahrscheinlichkeit liegt, werden beim Testen statistischer Hypothesen Bereiche einer Prüfverteilung bestimmt, innerhalb deren eine sogenannte „Nullhypothese“ mit einer bestimmten „Irrtumswahrscheinlichkeit“ beibehalten bzw. abgelehnt wird. Die Werte der Prüfverteilung werden mit einem Kritischen Wert c verglichen, der seinerseits einer bestimmten IrrtumsWahrscheinlichkeit entspricht, deren Niveau vorab festgelegt wird. In der Regel ist dies die Wahrscheinlichkeit, eine Nullhypothese irrtümlich abzulehnen, obwohl sie richtig ist. Beim Aufstellen statistischer Hypothesen formuliert man in der Regel eine Alternative in der Form: "Wir nehmen an, es ist so und nicht so." Die Aussage bezieht sich auf Eigenschaften der Grundgesamtheit, die Basis der Aussage sind, u.a. Stichprobendaten. Die Stichprobendaten und Überlegungen darüber, welches Risiko man eingehen will, sich bei der Annahme oder Verwerfung einer Hypothese zu irren, führen zur Entscheidung für die eine der Alternativen und gegen die andere. 7.1. Zur Terminologie Die beiden Alternativen, um die es hierbei geht, werden in der Statistik als "Nullhypothese" und "AlternativHypothese" bezeichnet. Bamberg/Baur sprechen von der zu untersuchenden Hypothese immer als "Nullhypothese" (H0). Die Gegenhypothese nennen sie immer Alternativhypothese (H1). Noch eine weitere terminologische Festlegung spielt in diesem Zusammenhang eine Rolle: 91 Der Fehler 1. Art oder alpha-Fehler liegt vor, wenn ich die Alternativ-Hypothese H1 annehme, obwohl H0 richtig ist. Die Wahrscheinlichkeit für das Eintreten dieses Fehlers heißt α (alpha). Der Fehler 2. Art oder beta-Fehler liegt vor, wenn ich die Null-Hypothese annehme, obwohl H1 richtig ist. Die Wahrscheinlichkeit für das Eintreten dieses Fehlers heißt ß (beta). Die Größe α (alpha) wird als "Irrtumswahrscheinlichkeit" bezeichnet, die Größe 1 - α als Sicherheitswahrscheinlichkeit oder auch als „Signifikanzniveau“ (Bosch, K.: Elementare Einführung in die angewandte Statistik, a.a.O., S. 75). 7.2. Zur Struktur der Statistischen Tests (1) Für jede Fragestellung eines statistischen Tests gibt es eine Prüfverteilung (Testfunktion), deren Integral gleich 1 ist. Diese Prüfverteilung ist in Abhängigkeit davon zu wählen, wie das Verteilungsgesetz jener Kennwerte ist, mit deren Hilfe unsere Nullhypothese formuliert wird. (2) Für den Wertebereich der Prüfverteilung wird bestimmt, wie groß α oder (1 - α) sein sollen und wo daher der Annahmebereich und wo der Ablehnungsbereich für H0 liegen soll. Die Grenze zwischen beiden Bereichen soll c, der „Kritische Wert“, markieren. (3) E wird geprüft, welcher Wert der Testfunktion aus den empirischen Daten berechnet werden kann und ob dieser empirische Wert in den Annahme- oder Ablehnungsbereich für H0 fällt. 7.3. Beispiele 7.3.1. Z-Test und t-Test auf Abweichung der Stichprobe von der Grundgesamtheit 7.3.1.1. Z-Test Beispiel für eine große Stichprobe mit beliebig verteilter Grundgesamtheit: 49 Studierende (Stichprobe) erlangen in einer Klausur im Durchschnitt 75 Punkte und eine Standardabweichung von 9 Punkten, in der zuvor eine große Gruppe (Population) Studierender im Durchschnitt nur 72 Punkte erreichten. Wir wollen wissen, ob es sich um eine zufällige Abweichung handelt, bei einer Irrtumswahrscheinlichkeit von α = 1% Zunächst legen wir fest, daß unser Test „zweiseitig“ sein soll, das heißt, wir machen keine Vorannahme darüber, ob erwartet wird, daß unser empirisches arithmetisches Mittel der Stichprobe größer oder kleiner als das arithmetische Mittel der Grundgesamtheit ist. Die Nullhypothese hätte hiernach die Formulierung: H 0 : µ = x Die Alternativhypothese hätte hiernach die Formulierung: H1 : µ ≠ x Hätten wir uns für einen „einseitigen“ Test der Nullhypothese entschieden, dann könnte die Alternativhypothese zwei unterschiedliche Formulierungen haben: entweder H1 : µ < x oder H1 : µ > x . 92 Für einen zweiseitigen Test müßten wir nun einen kritischen Wert (c) ermitteln, der uns hilft, die Bedingung einzuhalten, daß die Irrtumswahrscheinlichkeit α = 1% sein soll. Wir wissen, daß die Mittelwerte aus hinreichend großen Zufallsstichproben normalverteilt sind, mit der Standardabweichung in der Größenordnung des Standardfehlers und dem arithmetischen Mittel µ. Hierzu stellen wir durch Analyse der Tabelle der Standardnormalverteilung fest, daß außerhalb des Intervalls - 2,58 bis + 2,58 etwa 1% der Fläche der Dichtefunktion der Standardnormalverteilung liegen, das heißt: oberhalb von z =+2,58 liegen 0,5 % der Fläche, unterhalb von z = - 2,58 liegen ebenfalls 0,5 % der Fläche, was zusammen 1 % der Fläche sind. Wie können wir diese Feststellung anhand der Tabelle der Standardnormalverteilung machen ? Dies hier zu erklären, würde voraussetzen, daß hier die entsprechende Tabelle hier abgedruckt wird, was aber nicht geschieht. Sie befindet sich, mit Gebrauchsanweisung im Anhang. Statt dessen wird versucht, das Prinzip graphisch zu erläutern: Demonstration des Annahmebereichs für eine zwei- oder einseitige Nullhypothese im Intervall von -2,58 bis +2,58 bzw. unterhalb von +2,32 100 80 Kumulative Prozent 60 40 20 0 -3,00 -2,36 -2,68 -1,72 -2,04 -1,08 -1,40 -,44 -,76 ,20 -,12 ,84 ,52 1,48 1,16 2,12 1,80 2,76 2,44 Z Dem Tabellenwert in der Standardnormalverteilung z = - 2,58 entspricht eine von links nach rechts aufkumulierte Wahrscheinlichkeit von 0,0049 ≈ 0,005. Das sind 0,5 % der Fläche der Standardnormalverteilung. Wegen der Symmetrie der Standardnormalverteilung ist das gleichzeitig die Fläche, die oberhalb des Tabellenwertes von + 2,58 noch bis 100 % fehlt. Wir können daher den kritischen Wert c als jenen z-Wert bestimmen, der gleich 2,58 ist. Wir errechnen nun unser empirisches z: z= x − µ 75 − 72 = = 3 / 1,28=2,3333 s 9 / 49 n Unser empirisches z ist kleiner als c. Daher behalten wir die Nullhypothese bei 1% Irrtumswahrscheinlichkeit und zweiseitigem Test bei. 93 Hätten wir aber erwartet, daß unser arithmetisches Mittel aus der Stichprobe auf jeden Fall größer ist als das Mittel der Grundgesamtheit (einseitiger Test), dann hätten wir einen kritischen Wert von c=2,326347 erhalten, da rechts von diesem Wert in der Dichtefunktion der Standardnormalverteilung ca. 1% ihrer Fläche liegt. Z=2,333 ist geringfügig größer als dieses neu bestimmte c für den einseitigen Test. Unter diesen Bedingungen hätten wir die Nullhypothese abgelehnt und die Alternativhypothese angenommen. 7.3.1.2. t-Test 20 Studierende erlangen in einer Klausur im Durchschnitt 75 Punkte, in der zuvor 1000 Studierende im Durchschnitt nur 72 Punkte erreichten, mit einer Standardabweichung von 9 Punkten. Wir wollen wissen, ob es sich um eine zufällige Abweichung handelt, bei einer Irrtumswahrscheinlichkeit von α =1%. Wir führen einen einseitigen Test durch. Die Nullhypothese lautet wieder: H0 : µ = x Die Alternativhypothese hätte die Formulierung: H1 : µ < x Da wir wissen, daß das arithmetische Mittel kleiner Stichproben aus einer Grundgesamtheit nicht normalverteilt ist, sondern t-verteilt, errechnen wir jetzt keinen empirischen z-Wert – wie oben – sondern einen empirischen tWert (nach der gleichen Formel wie vorher den empirischen z-Wert). t= 75 − 72 = 3 / 2,01=1,49 9 / 20 Woher bekommen wir nun einen „kritischen t-Wert“, den wir auch wieder c nennen können und mit dem wir unser empirisches t vergleichen können? Wir finden ihn in jener t-Verteilung, die n-1 Freiheitsgrade hat, also hier 20-1 = 19 Freiheitsgrade. Für die t-Verteilung mit 19 Freiheitsgraden gilt, daß rechts vom Wert t= 2,539 etwas weniger als 1% der Gesamtfläche der Verteilung liegt. Diese Feststellung wäre bei einem einseitigen Test mit 1% Irrtumswahrscheinlichkeit zu machen. Für diesen Test wäre also c=2,539. Wir müssen in diesem Fall die Nullhypothese beibehalten, daß unsere Stichprobe aus der Grundgesamtheit hätte gezogen werden können, denn t=1,49 ist kleiner als c=2,539. Die beiden Beispiele zeigen, daß bei fast identischen Bedingungen, nur durch Variation der Stichprobengröße, veränderte Ergebnisse unserer Hypothesenprüfung entstehen, weil wir bei kleinen Stichproben die t-Verteilung benutzen. 7.3.2. t-Test für die Differenz zweier Mittelwerte aus unabhängigen Stichproben aus 2 varianzhomogenen Grundgesamtheiten Es seien zwei unabhängige Stichproben gegeben, die aus normalverteilten Grundgesamtheiten stammen, deren Varianzen als annähernd gleich groß angenommen werden, die aber unbekannt sind. Für diese Stichproben kenne ich die arithmetischen Mittel x i die Standardabweichungen si und den Umfang ni. 94 Für diesen Fall können wiederum verschiedene Formulierungen einer Alternativhypothese H1 zu einer einheitlichen Nullhypothese Ho (Ho = die beiden Stichproben stammen aus einer gemeinsamen Grundgesamtheit) vorgenommen werden, wie folgt: H o: µ=µ 1 µ ≠µ (b) H = µ < µ (c) H = µ > µ (a) H1= 2 oder 1 1 oder 1 1 2 1 2 („zweiseitiger Test“) 2 („einseitiger Test“) („einseitiger Test“) Wir wissen, daß für kleinere Stichproben, deren Elemente zusammen weniger als 50 ausmachen, die Differenz der Mittelwerte t-verteilt ist, mit n1+n2 - 2 Freiheitsgraden. Um hiervon Gebrauch machen zu können, müssen wir den Standardfehler der Mittelwertedifferenz schätzen. Er errechnet sich nach folgender Schätzformel: σ∃x − 1 x2 Σ = ( x − x ) + Σ( x − x ) (n − 1) + ( n − 1) 2 i1 i2 1 1 2 2 2 1 1 * + n1 n2 Wenn die geschätzten Populationsvarianzen (die gleich den Stichprobenvarianzen sind) bekannt sind, gilt für den Standardfehler der Mittelwertsdifferenzen: σ∃x ( n − 1) *σ∃ + ( n − 1) *σ∃ 1 + 1 ( n − 1) + ( n − 1) n n 2 − 1 x2 1 = 2 2 1 1 2 1 2 2 Haben wir diesen ermittelt, dann können wir den zugehörigen t- bzw. z-Wert wie folgt ermitteln: t= x −x σ∃x x 1 − 1 2 2 d.h. wir setzen den Standardfehler in den Nenner des o.a. Bruchs. Die Anwendung dieser Formel ist nur gestattet, wenn die Grundgesamtheiten normalverteilt sind, aus denen die Stichproben entnommen wurden und wenn die Varianzen dieser Grundgesamtheiten „homogen“ sind. Für den Fall inhomogener Varianzen müssen Verfahren mit Korrekturformeln benutzt werden. Ob homogene Varianzen vorliegen, wird entweder mit dem F-Test oder mit dem Levene-Test geprüft (den wir hier nicht besprechen). Ein Beispiel für die Anwendung der o.a. Formeln sei folgendes: Eine Studentengruppe (I) erziele im Intelligenztest folgende Werte: 97 97 101 97 111 103 106 97 95 109 106 103 102 102 105 98 96 102 95 98 98 104 103 107 105 100 101 98 102 98 99 110 100 101 110 110 100 112 102 106 104 113 102 102 109 102 101 102 110 107 Eine andere Gruppe (II) erzielte folgende Werte: 106 106 114 103 99 109 101 99 105 110 98 101 110 105 105 Wir wollen wissen, ob beide Gruppen aus der gleichen Stichprobe entnommen worden sein können, d.h. die Nullhypothese würde lauten: 95 H o: µ=µ 1 2 Die Alternativhypothese würde- wenn wir einen zweiseitigen Test wählen – lauten: H 1= µ ≠µ 1 2 Wir wollen die Nullhypothese bei 1 % Irrtumswahrscheinlichkeit prüfen. Wir errechnen für die Gruppe 1 und 2 folgende Kennwerte: Gruppenstatistiken GRUPPE 1,00 2,00 N 34 31 Mittelwert 101,3529 105,2581 Standardab weichung 4,2489 4,4719 Standardfe hler des Mittelwertes ,7287 ,8032 Durch Quadrierung der Standardabweichungen gewinnen wir die Varianzen: Varianz in Gruppe 1 Varianz in Gruppe 2 18,053 19,998 Zur Schätzung des Standardfehlers der Mittelwertdifferenz setzen wir ein: σˆ x − 1 x2 = (34 − 1) *18.053 + (31 − 1) *19,99 * 1 + 1 = 1,0819 (34 − 1) + (31 − 1) 34 31 t läßt sich jetzt leicht ermitteln: t= 101,35 − 105,26 = −3,610 1,0819 Dieser t-Wert müßte jetzt mit einem Kriteriumswert c verglichen werden. Wir wissen, daß die Mittelwertsdifferenz zweier unabhängiger Stichproben t-verteilt ist, und zwar mit n1 –1 + n2 –1 Freiheitsgraden. Die Fläche außerhalb des Intervalls von - 2,660 bis + 2,660 beträgt etwa 1%. Unser gesuchtes c wäre daher 2,66. Daher kann man hier die Nullhypothese, daß kein Unterschied der Populationen bestünde, aus denen die Stichproben gezogen sein könnten, mit mindestens 1% Irrtumswahrscheinlichkeit verwerfen (zweiseitiger Test), denn c=2,66 < t=3,610. Bei einem einseitigen Test müßten wir hier die Alternativhypothese anders formulieren, und zwar wie folgt: H 1= µ <µ 1 2 96 Wir müßten – wie leicht festgestellt werden kann - mit einem c = 2,39 rechnen und kämen zum gleichen Ergebnis: Ablehnung der Nullhypothese. Dies alles gilt allerdings nur unter der Voraussetzung, daß die Varianzen der beiden Gruppen „homogen“ sind. Diese Homogenität kann mittels des F-Test überprüft werden. Heutzutage wird in SPSS die Varianzhomogenität mittels des Levene-Tests überprüft, der hier nicht besprochen wird. 7.3.3. Der F-Test Der F-Test – der neuerdings bei Durchführung des t-Test in SPSS durch den „Levene-Test“ ersetzt wurde – ist u. a. geeignet, die Homogenität zweier Varianzen zu prüfen. Das bedeutet, es wird die Nullhypothese geprüft H 0 ⇒ σ 12 = σ 22 , und zwar fast immer einseitig gegen die Alternativhypothese H 1 ⇒ σ 12 > σ 22 Daher setzt man für σ 12 immer die größere Varianz ein, für σ 22 die kleinere. Die Teststatistik, F wird wie folgt berechnet: F= sm2 sn2 Hierbei sind m und n die Freiheitsgrade (Stichprobengröße minus 1) der jeweiligen Varianzen, wobei m der größeren, n der kleineren Varianz zugerechnet wird. Ob die Nullhypothese (s.o.) beibehalten werden kann, richtet sich nach dem Vergleich eines empirischen F-Wertes mit einem kritischen F-Wert. Diesen gewinnen wir aus der Tabelle der F-Verteilung, in der wir in der Regel folgende Informationen vorfinden: Kopfzeile: Freiheitsgrade für die größere Varianz Vorspalte: Freiheitsgrade für die kleinere Varianz Zelle: Zwei Werte: a) kritischer F-Wert für eine Irrtumswahrscheinlichkeit von 5 %. b) kritischer Wert für eine Irrtumswahrscheinlichkeit von 1 %. Wird der kritische Wert von dem empirischen unterschritten, behalten wir die Nullhypothese bei, und – bei Homogenitätsprüfung – wäre unsere Varianzhomogenität gegeben. Wird der kritische Wert von dem empirischen überschritten, wird die Nullhypothese abgelehnt und die Varianzhomogenität wäre nicht gegeben. Im Falle des t-Tests müßten wir daher mit einem Verfahren vorlieb nehmen, das diese Inhomogenität der Varianzen berücksichtigt. 7.3.4. t-Test für die Differenz zweier Mittelwerte aus varianzheterogenen Grundgesamtheiten Muß man im konkreten Falle die Voraussetzung fallen zu lassen, daß die Varianzen gleich groß sind und bleibt die Voraussetzung erhalten, daß die Grundgesamtheiten normalverteilt sind, aus denen die Stichproben gezogen wurden, dann lautet für diesen Fall die Formel der Testfunktion (Korrekturformel nach Welch): t= x −x s +s n n 1 2 2 2 2 1 1 2 . 97 Dieses t bezieht sich auf eine t-Verteilung mit Freiheitsgraden (df), die nach folgendem Verfahren ermittelt werden: df = 1 2 g + (1 − g ) n −1 n −1 2 1 2 2 s n 1 für g = 1 2 s n 1 1 +s n 2 2 2 In diesen Formeln bedeuten x1 = arithmetisches Mittel der Stichprobe 1 x 2 = arithmetisches Mittel der Stichprobe 2 n1 = Umfang der Stichprobe 1 n2 = Umfang der Stichprobe 2 s1 = Standardabweichung der Stichprobe 1 s2 = Standardabweichung der Stichprobe 2 Für unseren oben durchgeführten Gruppenvergleich bedeutet die Benutzung der Formel nach dem Welch-Test, daß der t-Wert sich verändert und auch die Menge der Freiheitsgrade jener t-Verteilung, aus der man den kritischen Wert gewinnt. Eine vergleichende Rechnung zeigt die unterschiedlichen Ergebnisse: Test bei unabhängigen Stichproben Levene-Test der Varianzgleichheit T-Test für die Mittelwertgleichheit F Signifikanz T df Sig. (2-seitig) Mittlere Differenz Standardfehler der Differenz Varianzen sind gleich ,322 ,573 -3,610 63 ,001 Varianzen sind nicht gleich -3,601 61,706 ,001 -3,9051 -3,9051 1,0819 1,0845 Bei Annahme der Varianzenhomogenität ist t = -3,61, und es wird an einer t-Verteilung geprüft mit 63 Freiheitsgraden. Bei Annahme der Inhomogenität ist es absolut etwas kleiner: t = - 3,601, und es wird an einer Verteilung mit nur 61,7 Freiheitsgraden geprüft. Auffällig ist, daß hier „gebrochene“ Freiheitsgrade auftreten. In der Praxis muß man hier also runden. 98 7.3.5. t-Test für Mittelwertsdifferenzen aus abhängigen Stichproben. Die unter 7.3.2. abgehandelten t-Tests beziehen sich auf die Fälle „unabhängiger“ Stichproben. Untersucht man aber Fälle mit Meßwiederholung an den Fällen einer einzigen Stichprobe, dann gelten die Datensätze mit den Meßwerten der Meßwiederholung als Stichproben, die von der ersten Stichprobe mit den ersten Messungen abhängig sind. Eine andere Terminologie spricht auch von Meßwertpaaren. In diesem Fall interessieren wir uns nicht nur dafür, wie die Differenzen der Mittelwerte der ersten und der zweiten Stichprobe (vor und nach dem Ereignis, an dessen Auswirkungen wir interessiert sind), sondern wir wollen alle einzelnen Fälle in ihrer Veränderung erfassen. Daher bilden wir den Ausdruck der Meßwertedifferenz: d 23 = x 23;1 − x 23; 2 d ist die Differenz der ersten und der zweiten Messung a z.B. einer Versuchsperson mit der Nummer 23. Fassen wir alle Meßwertdifferenzen in ihrem arithmetischen Mittel zusammen, dann können wir schreiben: n x = d Σd i =1 i n Für den Fall, daß wir annehmen, in der Grundgesamtheit zeige sich überhaupt kein Effekt eines interessierenden Ereignisses, könnten wir die Nullhypothese als H 0 ⇒ xd = µ = 0 formulieren, die (ungerichtete) Alternativhypothese (für einen zweiseitigen Test) entsprechend: H 0 ⇒ xd ≠ µ = 0 In diesem Fall können wir unser empirisches t wie folgt bestimmen: t= x d σ̂ x σ∃x σ̂ x d ist hierbei der Standardfehler der Meßwertpaardifferenzen. Er wird errechnet aus: d = d sx d n Die Freiheitsgrade bestimmen sich hier durch df=n-1, wobei n gleich der Anzahl der Meßwertpaare it. Ist n < 31, dann müssen die Meßwertdifferenzen in der Grundgesamtheit normalverteilt sein, wenn man den t-Test benutzen will. Ist n > 50, dann können hier statt der t-Tabelle auch Werte aus der Tabelle der Standardnormalverteilung benutzt werden. Beispielrechnung: In einem Gymnasium werden die Schüler auf Musikalität hin getestet. Es gibt einen Vortest, ein Training und einen Nachtest. Gefragt ist, ob sich die Werte im Nachtest signifikant von den Werten des Vortests unterscheiden. In diesem Fall könnte angenommen werden, daß das Training sich positiv ausgewirkt hat. 99 Vortestwerte Nachtestwerte Nachtest minus Vortest 118,00 98,00 -20,00 102,00 133,00 31,00 101,00 127,00 26,00 111,00 104,00 -7,00 95,00 97,00 2,00 104,00 116,00 12,00 115,00 114,00 -1,00 91,00 100,00 9,00 102,00 123,00 21,00 97,00 110,00 13,00 101,00 105,00 4,00 93,00 127,00 34,00 116,00 119,00 3,00 118,00 112,00 -6,00 92,00 121,00 29,00 104,00 128,00 24,00 108,00 109,00 1,00 105,00 94,00 -11,00 109,00 105,00 -4,00 106,00 120,00 14,00 101,00 106,00 5,00 113,00 95,00 -18,00 105,00 106,00 1,00 105,00 114,00 9,00 108,00 98,00 -10,00 Summe: Summe: Summe: 2620,00 2781,00 161,00 Es ergeben sich: Das arithmetische Mittel der Meßwert-Paar-Differenzen: xd = 161 = 6,44 25 Die Standardabweichung der Meßwert-Paar-Differenzen: sd = 14,9835 Der Standardfehler ergibt sich aus der Division dieser Standardabweichung durch Wurzel aus n, also durch 5: sx d = 14,9835 = 2,9967 5 Der empirische t-Wert errechnet sich somit aus: 100 t= x σˆ x = d 6,44 = 2,149 2,9967 d Der kritische t-Wert kann einer t-Verteilung mit df = n-1 = 24 Freiheitsgraden entnommen werden. Er beträgt für eine Irrtumswahrscheinlichkeit α von 5 %: c= 2,06, wie wir der Tabelle der t-Verteilung entnehmen können (bei zweiseitigem Test). Da c < t ist, wird hier die Nullhypothese abgelehnt und die Alternativhypothese angenommen. 7.3.6. Der Binomialtest Der Test setzt voraus, daß eine Zufallsstichprobe gegeben ist, in der ein Merkmal in einer gegebenen Häufigkeit vorkommt, das nur zwei Ausprägungen hat. Die (kleinere) Häufigkeit des Auftretens einer der Ausprägungen kann dann daraufhin untersucht werden, ob die Stichprobe aus einer Grundgesamtheit gezogen wurde, in der eine bestimmte Wahrscheinlichkeit eben dieses Merkmals gegeben ist. Mit Hilfe des Binomialtests läßt sich daher die Nullhypothese prüfen, daß eine bestimmte Stichprobe, in der für zwei einander ausschließende Ereignisse zwei unterschiedliche Häufigkeiten vorliegen, aus einer bestimmten Grundgesamtheit stammt, in der diese Ereignisse mit gegebenen Wahrscheinlichkeiten p und q auftauchen. Die Nullhypothese würde dann folgende Form haben: H 0 ⇒ ps ≥ p g Die Alternativhypothese hätte die Form H 1 ⇒ ps < p g Hierbei bedeuten ps = Prozentsatz eines interessierenden Ereignisses in einer Stichprobe pg= Prozentsatz desselben interessierenden Ereignisses in einer Grundgesamtheit. Dem Binomialtest liegt die Binomialverteilung zugrunde, deren Formel wir oben schon kennengelernt haben: n Pn , p ,k = p k q n−k k Sie bestimmt die Wahrscheinlichkeit P, daß ein Ereignis, für dessen Eintretenswahrscheinlichkeit p steht, in einer Stichprobe vom Umfang n k-mal auftritt. Also zum Beispiel, daß beim Wurf von n=8 Münzen k=2mal der „Kopf“ oben liegt. Diese Wahrscheinlichkeit konnten wir mittels der Binomialverteilung darstellen, die Graphik zeigte eine ähnliche Gestalt wie die Normalverteilung, nur daß die Variable k nicht stetig war, sondern die diskreten Werte von k=0 bis k = n durchlief. Bilden wir nun für diese Variable die Summenfunktion, d.h. kumulieren wir von links nach rechts die Binomialverteilung auf, dann erhalten wir folgende Funktion: 101 u n P0−u = ∑ p k q n−k k =0 k Hierbei bedeuten n = Größe der Stichprobe u = Häufigkeit eines Merkmals, das nur zwei Ausprägungen haben darf, in der Stichprobe k = Laufvariable, die von 0 bis u läuft. p = Wahrscheinlichkeit des Eintretens dieses Merkmals in einer Grundgesamtheit q = 1-p Diese Funktion bestimmt die Summe der Wahrscheinlichkeiten P, daß ein Ereignis, für dessen Eintretenswahrscheinlichkeit p steht, in einer Stichprobe vom Umfang n nullmal oder einmal oder zweimal oder ...oder u-mal auftritt. Also zum Beispiel, daß beim Wurf von n=8 Münzen der Kopf nullmal oder 1mal oder 2mal oder...oder 4mal oben liegt. Diese Summe von Wahrscheinlichkeiten P0-u kann minimal 0 und maximal 1 (entsprechend 100 %) sein, da u maximal den Wert von n annehmen kann. Für die Prüfung unserer Nullhypothese benutzen wir nun diese Summenfunktion als Lieferanten unseres Kriteriums c, das den Annahme- und Ablehnungsbereich der Nullhypothese in unserer Testfunktion voneinander trennt. Wir legen c beispielsweise bei 0,05 bzw. 5 % fest und berechnen P0-u Ist P0-u kleiner als c, dann lehnen wir die Nullhypothese ab, ist P0-u größer als c, dann behalten wir die Nullhypothese bei. Rechenbeispiel: In einer Untersuchung über Drogengebrauch geben 15 Personen aus einer befragten einer Gruppe (n = 15) an, keine Drogen zu benutzen. Man vermutet aber, daß die Stichprobe einer Grundgesamtheit entnommen wurde, in der 50 % Drogen gebrauchen. Nun ist die Frage, ob es Zufall ist, wenn alle, alle bis auf einen, alle bis auf zwei, alle bis auf drei usw. den Drogengebrauch verneinen. Kodieren wir das Zugeben des Drogengebrauchs mit 1, das Verneinen mit 2, dann können wir mittels der Berechnung der kumulierten Wahrscheinlichkeiten ablesen, wann die Nullhypothese beibehalten werden kann, bei 5 % Irrtumswahrscheinlichkeit und einseitigem Test, daß eine Stichprobe aus einer Grundgesamtheit mit 50 % Drogenbenutzern gezogen wurde. In der folgenden Tabelle steht die Gruppe 1 für die den Drogengebrauch zugebenden Personen, die Gruppe 2 sind diejenigen, die den Drogengebrauch verneinen. Untereinander stehen in mehreren Zeilen zum Vergleich Stichproben, die kein Mitglied der Gruppe 1 enthalten, 1 Mitglied enthalten, 2 Mitglieder enthalten etc...: 102 Test auf Binomialverteilung N Gruppe 1 Gruppe 2 Gesamt Gruppe 1 Gruppe 2 Gesamt Gruppe 1 Gruppe 2 Gesamt Gruppe 1 Gruppe 2 Gesamt Gruppe 1 Gruppe 2 Gesamt 0 15 15 1 14 15 2 13 15 3 12 15 4 11 15 Beobachteter Anteil ,00 1,00 1,00 ,07 ,93 1,00 ,13 ,87 1,00 ,20 ,80 1,00 ,27 ,73 1,00 Testan teil ,50 Kumulierte Punktwahrs cheinlichkei t ,000 Punkt-Wahrs cheinlichkeit ,000 ,50 ,000 ,000 ,50 ,004 ,003 ,50 ,018 ,014 ,50 ,059 ,042 In der letzten Spalte ist die Wahrscheinlichkeit (Punktwahrscheinlichkeit) dafür berechnet worden, daß exakt kein Mitglied der Gruppe 1 enthalten, 1 Mitglied enthalten, 2 Mitglieder enthalten etc...: In der vorletzten Spalte ist diese Wahrscheinlichkeit aufkumuliert. Nimmt man diese aufkumulierte Wahrscheinlichkeit als Kriterium für die Entscheidung über die Nullhypothese, dann kann aus der Tabelle folgendes abgelesen werden: Sind 4 Mitglieder der Gruppe 1 in der Stichprobe vorhanden, dann kann die Nullhypothese bei einseitigem Test und bei 5 % Irrtumswahrscheinlichkeit schon beibehalten werden, da die kumulierte Punktwahrscheinlichkeit P0-U auf 0,059 angewachsen ist, also größer als 0,05 geworden ist (unser c wäre bei 5 % Irrtumswahrscheinlichkeit gleich 0,05). Sind nur 3 Mitglieder der Gruppe 1 vorhanden , müßte sie abgelehnt werden, da P0-U = 0,018 < 0,05 wäre. Das praktische Berechnen der kumulierten Punktwahrscheinlichkeit kann sehr mühsam sein, wenn die Stichproben groß werden. Daher behilft man sich bei großen Stichproben mit einer anderen Rechenstrategie. Wenn (nach einem Kriterium von Sidney Siegel) npq > 9, rechnet man den z-Test anstelle des Binomialtests. z wird hierbei wie folgt bestimmt: ( x 0,5) − np z= + − npq Hierbei ist z eine Entfernung vom Nullpunkt der standardisierten Normalverteilung, der ein bestimmtes Integral der standardisierten Normalverteilung entspricht. In der Formel steht das darin enthaltene x für die Anzahl, mit der das seltenere Ereignis von zwei möglichen Ereignissen in der Stichprobe aufgetreten ist. Die Subtraktion oder Addition des Wertes 0,5 von x erfolgt nach der Regel: wenn x < np wird 0,5 addiert wenn x > np wird 0,5 subtrahiert. Diese Operation dient der sogenannten "Kontinuitätskorrektur". Hierzu ein weiterer praktischer Fall: In einer Stichprobe vom Umfang 80 (N) aus Studierenden der Betriebswirtschaft wurden 26 Frauen gezählt. Man weiß aus anderen Quellen, daß in der Grundgesamtheit der Anteil der Frauen 27% beträgt. Die Frage lautet: Wie gut bildet die Stichprobe die Grundgesamtheit ab, ist sie in bezug auf das Geschlecht für die Grundgesamtheit „repräsentativ“? Durch Überprüfung der Repräsentativität will man ausschließen, daß aufgrund der Stichprobe unzulässige Aussagen über die Grundgesamtheit gemacht werden. Rechnen wir das o.a. Beispiel durch, dann ergibt sich: n*q*p= 80*0,27*0,73=15,77 > 9 (Siegel-Kriterium). 103 Wir dürfen hiernach den z-Test rechnen; da: x=26 > 80*0,27 = 21,60, ist in der Formel 0,5 von x zu subtrahieren: z= (26 ± 0,5) − 80 * 0,27 = 25,5 − 21,60 = 0,9821 3,971 80 * 0,27 * 0,73 Für dieses z können wir feststellen, daß zwischen -0,9821 und + 0,9821 67,4% der Fläche unter der Dichtefunktion der Standardnormalverteilung liegen. Außerhalb dieses Bereichs liegen also 32,6% der Fläche, was der Größe des Ablehnungsbereichs der Nullhypothese bei zweiseitigem Test entspräche. Soll dieser aber nur - beispielsweise - 5% betragen, dann müßten wir in diesem Fall die Nullhypothese beibehalten, daß unsere Stichprobe aus der fraglichen Grundgesamtheit entnommen worden sein kann. 7.3.7. Chiquadrat-Test 7.3.7.1. Allgemeines Ausgehend von der sogenannten "Pearsonschen Testfunktion", (y − np ) 2 Chi 2 r =∑ i =1 i np i i r ( fb − fe )² i =1 fe =∑ die für große n näherungsweise chiquadrat-verteilt ist, können verschiedene Anpassungstests formuliert werden, also Tests, die die Gestalt der Verteilungsfunktion einer Zufallsvariable betreffen und nicht den einen oder anderen Parameter der Zufallsvariable. In der o.a. Funktion bedeuten yi = Zufallsvariable, Anzahl von Versuchen (z.B. Würfeln), bei denen das Ereignis A eintritt (z.B. die Zahl 4). yi entspricht der beobachteten Häufigkeit eines Ereignisses f b. pi = ist die Eintrittswahrscheinlichkeit für das Ereignis Ai. n = Menge der Versuche in einem Experiment. r = Menge verschiedener möglicher Ereignisse Ai np = fe = erwartete Häufigkeit eines Ereignisses A Für konkrete Versuche berechnen wir zunächst für jedes Ereignis den Erwartungswert aus n * pi. Dies sind die "erwarteten Häufigkeiten". Diese subtrahieren wir von den beobachteten Häufigkeiten, die für konkrete Untersuchungen an die Stelle der yi in der o.a. Formel treten. Wir quadrieren die Differenz (yi - npi)2 und dividieren diese durch (n * pi), so daß wir schließlich aus den Chiquadratwerten der Einzelereignisse die Summe bilden können. Diese Summe ist der Wert der Testfunktion, den wir wiederum mit einem Kriteriumswert zu vergleichen haben, wenn wir über die Annahme oder Ablehnung einer Nullhypothese entscheiden. 104 7.3.7.2. Eindimensionales und zweidimensionales Chiquadrat-Design Wie können wir bei Chiquadratverfahren die Nullhypothese formulieren ? Hierzu gibt es zwei Möglichkeiten: Für eine monovariate (eindimensionale) Häufigkeitsverteilung: H 0 ⇒ die Variable y ist (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit H1 ⇒ die Variable y ist nicht (gleichverteilt, normalverteilt etc.) in der Grundgesamtheit Für eine kombinierte (zweidimensionale) Häufigkeitsverteilung der Variablen v und w: H 0 ⇒ die Variablen vw sind gleichverteilt in der Grundgesamtheit H1 ⇒ die Variablen vw sind nicht gleichverteilt in der Grundgesamtheit oder H 0 ⇒ die Variablen vw sind „randverteilt“ in der Grundgesamtheit H1 ⇒ die Variablen vw sind nicht „randverteilt“ in der Grundgesamtheit Bei Gleichverteilung sind die Erwartungswerte für jede Häufigkeit der Verteilung gleich groß. Bei „Randverteilung“ unterscheiden sich die Erwartungswerte der verschiedenen kombinierten Häufigkeiten. Sie werden aus den Randsummen einer n*m-Tabelle ermittelt, und zwar so, daß pro Häufigkeit der folgende Ausdruck berechnet wird: Erwartungswert pro Zelle = (Zeilensumme * Spaltensumme) /Tabellensumme Wie bestimmen wir jetzt die Freiheitsgrade jener Chiquadratfunktion, aus der wir unser Kriterium für die Entscheidung über die Nullhypothese gewinnen ? Hier sind die folgenden zwei Fälle zu unterscheiden: • Bei monovariaten Häufigkeitsverteilungen wird der Kriteriumswert für die Entscheidung über die Nullhypothese aus einer Chiquadratverteilung mit k-1 Freiheitsgraden gewonnen, wobei k die Menge der Kategorien ist, in die die Variable eingeteilt ist. • Bei bivariaten Häufigkeitsverteilungen, die auch in Tabellenform dargestellt werden können, wird der Kriteriumswert für die Entscheidung über die Nullhypothese aus einer Chiquadratverteilung mit (r-1)*(c-1) Freiheitsgraden gewonnen, wobei r die Menge der Zeilen einer solchen Tabelle ist, c die Menge der Spalten. Rechenbeispiele: „Eindimensionales Chiquadrat“ Es wird 1026 mal gewürfelt. Die Nullhypothese ist: Die Augenzahl ist gleichverteilt. Erwartet werden daher für die verschiedenen Augenzahlen jeweils n/k = 1026/6 = 171-maliges Auftreten. Die untenstehende Tabelle enthält neben den tatsächlich aufgetretenen Häufigkeiten der verschiedenen Augen noch die erwarteten Häufigkeiten und deren Differenz zu den erwarteten Häufigkeiten. Setzt man jetzt die Werte in die Testfunktionsformel ein, dann erhält man die unten abgedruckte Chiquadratsumme. Diese beträgt 10,76 und muß mit einem Kriteriumswert verglichen werden, der aus einer Chiquadratverteilung mit k-1 = 6-1= 5 Freiheitsgraden gewonnen wird. Führen wir eine einseitigen Chiquadrattest mit einer Irrtumswahrscheinlichkeit von 5 %, dann ist c, der Kriteriumswert, gleich 11,7. 105 AUGEN 1,00 2,00 3,00 4,00 5,00 6,00 Gesamt Beobachtetes N 192 178 142 158 189 167 1026 Erwartete Anzahl 171,0 171,0 171,0 171,0 171,0 171,0 Residuum 21,0 7,0 -29,0 -13,0 18,0 -4,0 Statistik für Test Chi-Quadrata df Exakte Signifikanz AUGEN 10,760 5 ,056 a. Bei 0 Zellen (,0%) werden weniger als 5 Häufigkeiten erwartet. Die kleinste erwartete Zellenhäufigkeit ist 171,0. Da das berechnete Chiquadrat kleiner ist als der Kriteriumswert für 5% Irrtumswahrscheinlichkeit bei fünf Freiheitsgraden, behalten wir die Nullhypothese bei. Die Angabe der „exakten Signifikanz“ in der o.a. Tabelle entspricht der Größe des Integrals in einer Chiquadratverteilung mit fünf Freiheitsgraden von 10,76 bis unendlich. „Zweidimensionales Chiquadrat“ In einer Untersuchung über die Einstellung von Menschen zu Hunden werden zwei Vorgaben gemacht: (a) Mein Hund soll schön und auffallend sein. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. (b) Wenn ein Hund seine Aufgaben nicht erfüllt, sollte man sich einen anderen Hund anschaffen. Item-Stufen: Keinesfalls, eher nicht, vielleicht doch, eher ja. Die wissenschaftliche Hypothese, die zu dieser kombinierten Auszählung (Bildung einer sogenannten Kreuztabelle) Anlaß gibt, lautet: Menschen, denen es vor allem auf das schöne Aussehen eines Hundes ankommt, sind eher bereit, den Hund abzuschaffen, wenn er seine Aufgaben nicht erfüllt, als Menschen, denen es nicht so sehr auf die Schönheit ankommt. Aus dieser wissenschaftlichen Hypothese wird die statistische Hypothese entwickelt: H 0 ⇒ die Variablen vw sind „randverteilt“ in der Grundgesamtheit H1 ⇒ die Variablen vw sind nicht „randverteilt“ in der Grundgesamtheit Was heißt nun „randverteilt“? Randverteilung liegt vor, wenn alle Zellen-Häufigkeiten (in allen Zeilen und allen Spalten) im gleichen Verhältnis stehen wie die Randsummen der Tabelle. Ist dies der Fall, dann unterscheiden sich beobachtete und erwartete Häufigkeiten nicht. Es gibt dann keine Häufigkeiten, die auf Unter- oder Überrepräsentation bestimmter Wertekombinationen hindeuten. Sind die Zellenhäufigkeiten aber anders verteilt (in bestimmten Zeilen oder Spalten) als die entsprechenden Randsummen, dann liegen in diesen Zellen Über- oder Unterrepräsentationen von Wertekombinationen vor, die auf einen statistischen Zusammenhang zweier Variablen hindeuten. Für das oben aufgeführte Beispiel müßten also Menschen, die auf einen schönen Hund Wert legen, signifikant häufiger als andere Menschen bereit sein, sich einen anderen Hund anzuschaffen, wenn ihr derzeitiger Hund seine Aufgaben nicht erfüllt. Hier nun die empirischen Daten aus einer Untersuchung des Autors: 106 Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderen anschaffen Schöner Hund keinesfalls eher nicht vielleicht doch eher ja Gesamt Anderen anschaffen vielleicht doch eher nicht 20 6 27,3 11,1 -7,3 -5,1 51 10 43,8 17,8 7,2 -7,8 33 18 30,8 12,5 keinesfalls 86 71,6 14,4 120 115,1 4,9 74 81,0 Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl eher ja 10 12,0 -2,0 15 19,3 -4,3 13 13,6 -7,0 2,2 5,5 -,6 30 42,3 -12,3 310 310,0 14 16,1 -2,1 118 118,0 14 6,5 7,5 48 48,0 14 7,1 6,9 52 52,0 Gesamt 122 122,0 196 196,0 138 138,0 72 72,0 528 528,0 Chi-Quadrat-Tests Wert Chi-Quadrat nach Pearson Anzahl der gültigen Fälle df a 35,491 9 528 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 6,55. Die obige Kreuztabelle enthält in ihren Zellen die beobachteten Häufigkeiten, die erwarteten Häufigkeiten und deren Differenz, die sog. Residuen. Würden alle beobachteten Häufigkeiten randverteilt sein, würden sie den erwarteten entsprechen und die Residuen wären gleich null. Weichen die beobachteten Häufigkeiten positiv von den erwarteten ab, dann liegt eine Überrepräsentation der entsprechenden Wertekombination vor, weichen die beobachteten Häufigkeiten negativ von den erwarteten ab, dann liegt eine Unterrepräsentation der entsprechenden Wertekombination vor. Wie eine Inspektion der Tabelle zeigt, sind vor allem die Zellen der sogenannten Hauptdiagonale (von oben links nach unten rechts) mit Häufigkeiten versehen, die auf Überrepräsentation hindeuten, Zellen die oben rechts und unten links von der Hauptdiagonale liegen, weisen eher Unterrepräsentationen auf. Dieses Phänomen kann zufällig auftreten oder auf einen statistischen Zusammenhang hindeuten. Ob ein solcher Zusammenhang angenommen werden kann, hängt davon ab, ob unsere Nullhypothese („Randverteilung“) beibehalten werden kann oder ob sie abgelehnt werden muß. Das Kriterium hierzu gewinnen wir aus einer Chiquadratverteilung mit (r-1)(c-1) Freiheitsgraden. Bei 4 Zeilen (r) und 4 Spalten (c) ist df (Menge der Freiheitsgrade) gleich 3*3= 9. Testen wir unsere Hypothese einseitig bei 1 % Irrtumswahrscheinlichkeit wäre unser Kriteriums-ChiquadratWert gleich 21,67. Aus der Tabelle berechnen wir nach der Formel Chi 2 r ( fb − f e )² i =1 fe =∑ eine Chiquadratsumme für die ganze Tabelle von 35,491. Da unser Kriteriums-Chiquadrat (21,67) kleiner als das berechnete ist, lehnen wir bei einseitigem Test mit 1 % Irrtumswahrscheinlichkeit die Nullhypothese ab. Dies heißt zunächst nur, daß unsere Stichprobe nicht zufällig einer Grundgesamtheit entnommen worden sein kann, in der die Zellenverteilungen sich nach den Randsummenverteilungen richten. Es müssen also Über- und Unterrepräsentationen in der Tabelle vorkommen. Welche sind das ? Dadurch, daß die positiven Residuen 107 (Überrepräsentationen) überwiegend auf der Hauptdiagonale liegen, kommen wir zu dem Schluß, daß die wachsende Priorität für die Schönheit des Hundes mit einer wachsenden Bereitschaft einhergeht, ihn gegebenenfalls zu ersetzen. Generell kann nun gesagt werden: Es läßt sich für alle Chi2-Verteilungen (entweder mit k-1 Freiheitsgraden oder mit (r-1)*(c-1) Freiheitsgraden) jener kritische Wert c bestimmen, der ein Integral der entsprechenden Chi2-Verteilung rechts begrenzt, welches einer bestimmten Irrtumswahrscheinlichkeit α entspricht. Liegt unser berechnetes Chi2 oberhalb dieses kritischen Wertes, dann müssen wir die Null-Hypothese ablehnen. Sonderfall: Für den eindimensionalen Test von Übereinstimmung einer Verteilung mit einer von unbekannten Parametern (z.B. von µ und σ) abhängigen Funktion (z.B. der Normalverteilung) verringert sich die Menge der Freiheitsgrade, die sonst df = r-1 ist, um die Menge der Parameter m, so daß für diesen Fall df = r - 1 - m beträgt. Testen wir also die Übereinstimmung mit einer Normalverteilung, dann müssen wir für die Berechnung der pi und der fi Meßwertklassen bilden; die Freiheitsgrade für den Test wären dann hiernach gleich "Menge der Meßwertklassen minus 3". (vgl. Bosch, a.a.O., S. 103 ff., hierzu siehe S. 108). 7.3.7.3. Standardisierte, korrigierte Chiquadratresiduen Will man bei einem zweidimensionalen Chiquadrat-Test den Beitrag einzelner Zellen zum Tabellen-Chiquadrat ermitteln, dann bieten sich hierzu mehrere Möglichkeiten an: Beispiel: Die Differenz von beobachteter Häufigkeit und erwarteter Häufigkeit ergibt die Residuen. Sind diese groß, dann ist der Beitrag der Zelle zum Tabellen-Chiquadrat groß. Diese Chiquadrat-Residuen kann man „standardisieren“, indem man sie durch die Wurzel aus den erwarteten Häufigkeiten teilt. Auch hier ist der Beitrag zum Tabellen-Chiquadrat erkennbar. Die standardisierten Residuen kann man durch eine weitere Operation in die sogenannten „korrigierten“ standardisierten Residuen verwandeln: Es bedeuten: Z = Zeilensumme für die jeweilige Zelle S = Spaltensumme für die jeweilige Zelle n = Stichprobengröße (Tabellensumme). Diese korrigierten, standardisierten Residuen sind z-verteilt, d.h. man kann aus ihnen ablesen, ob der Beitrag einer Zelle zum Tabellen-Chiquadrat „signifikant“ ist. Das Auftreten von z-Werten oberhalb bestimmter Schwellenwerte ist umso weniger wahrscheinlich, je größer diese Schwellenwerte sind. Sinkt diese Wahrscheinlichkeit unter bestimmte kritische Werte ab, z. B. auf 1 % oder 0,1%, dann kann man dem entsprechenden z bzw. dem standardisierten, korrigierten Chiquadrat-Residuum schon die Eigenschaft zusprechen, eine „signifikante“ Über- oder „Unterrepräsentation“ der jeweiligen Kombination von Werten für eine bestimmte Zelle in einer Kreuztabelle zu signalisieren. So kann man sowohl über die Signifikanz der 108 Beziehung zwischen den Variablen in der Tabelle als auch über die Bedeutung der einzelnen Zellen hierbei eine Aussage machen. Versuchen Sie, dies anhand der folgenden Daten nachzuvollziehen: Die Daten entstammen einer Befragung von Hundehaltern, die entscheiden sollten, ob ihr Hund eher Wach- und Schutzhund sein sollte oder nicht. Auffällig sind beispielsweise die standardisierten, korrigierten Chiquadratresiduen bei der Ausprägung „Auf jeden Fall“. Sie liegen bei – 4,3 (für die Frauen) und + 4,3 (für die Männer). Die Wahrscheinlichkeit, daß oberhalb von z-Werten von 4,3 noch weitere z-Werte auftreten, ist mit p = 0,0000008540 annähernd Null. Analog wäre das Auftreten von standardisierten, korrigierten Chiquadratresiduen oberhalb von 4,2 ähnlich wenig wahrscheinlich. Wir deuten daher solche Werte als Zeichen für signifikante Über- oder Unterrepräsentation der entsprechenden Kombination von Ausprägungen in der Tabelle: Kreuztabellen Verarbeitete Fälle N Geschl. d. Befragten * Mein H. soll Wachund Schutzhund sein Fälle Fehlend N Prozent Gültig Prozent 961 96,9% 31 3,1% N Gesamt Prozent 992 100,0% Geschlecht der Befragten * Mein H. soll Wach- und Schutzhund sein, Kreuztabelle Mein H. soll Wach- und Schutzhund sein Auf keinen Eher nicht Teils-teils eher ja Auf jeden Fall Gesamt Fall Geschl. d. weiblich Anzahl 72 212 143 114 40 581 Befragten Erwartete Anzahl 70,1 188,6 149,9 112,5 59,9 581,0 Standardisierte Residu ,2 1,7 -,6 ,1 -2,6 Korrigierte Residuen ,4 3,3 -1,0 ,3 -4,3 männlich Anzahl 44 100 105 72 59 380 Erwartete Anzahl 45,9 123,4 98,1 73,5 39,1 380,0 Standardisierte Residu -,3 -2,1 ,7 -,2 3,2 Korrigierte Residuen -,4 -3,3 1,0 -,3 4,3 Gesamt Anzahl 116 312 248 186 99 961 Erwartete Anzahl 116,0 312,0 248,0 186,0 99,0 961,0 Chi-Quadrat-Tests Wert Chi-Quadrat nach Pearson Anzahl der gültigen Fälle 24,968 Asymptotisch e Signifikanz (2-seitig) df a 4 ,000 1 ,000 961 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 39,15. 109 Symmetrische Maße Näherung sweise Signifikanz Wert ,161 ,000 961 Nominal-Maß Cramer-V Anzahl der gültigen Fälle a. Die Null-Hyphothese wird nicht angenommen. b. Unter Annahme der Null-Hyphothese wird der asymptotische Standardfehler verwendet. 7.3.8. Mann-Whitney U-Test Beispiel: Gegeben seien zwei unabhängige Stichproben A und B von ordinal skalierten Meßwerten. Meßwerte aus der Stichprobe A heißen ai, Meßwerte aus der Stichprobe B sind die bi. Die Nullhypothese ist, daß die beiden Stichproben aus identisch verteilten Grundgesamtheiten stammen (wobei die Form der Verteilung gleichgültig ist). Die Alternativhypothese ist, daß die Elemente der Stichprobe A größere Werte annehmen als die aus der Stichprobe B. H 0 ⇒ p(a > b) = 0,5 H1 ⇒ p (a > b) > 0,5 Gesucht ist nun ein empirischer Wert einer Funktion, die einen kritischen Wert für die Entscheidung der Nullhypothese enthält. Dieses ist die sog. U-Funktion. Der empirische U-Wert wird wie folgt berechnet: U = n1n2 + n1 (n1 + 1) − R1 2 Hierbei ist n1 der Umfang der 1. Stichprobe, n2 der Umfang der zweiten Stichprobe und R1 die Summe der Ränge in der 1. Stichprobe. Rechenbeispiel: Zwei Gymnasien (1 und 2) werden aufgrund kleiner Stichproben verglichen in bezug auf die Lösungsgeschwindigkeit bei einer Mathematikaufgabe in Minuten. Aus dem ersten Gymnasium kommen 5 Schüler, aus dem zweiten vier. Deren Lösungsdauer in Minuten werden in der folgenden Tabelle zusammengefügt und in eine Rangordnung gebracht. Die Ränge derjenigen Schüler, die im 1. Gymnasium sind, werden addiert. Das Ergebnis ist R1 = 26. Punktesumme im Abiturzeugnis Gymnasium Rang 45,00 51,00 53,00 64,00 70,00 75,00 78,00 82,00 110,00 1,00 2,00 2,00 1,00 2,00 1,00 1,00 1,00 2,00 1,000 2,000 3,000 4,000 5,000 6,000 7,000 8,000 9,000 Menge der Meßwerte aus Gymnasium 1, die besser sind als bestimmte Meßwerte aus Gymnasium2 1 1 2 5 Summe = 9 = U. 110 Nun setzen wir die Werte in die Formel ein, dann ergibt sich U = 5*4 + 5(5 + 1) − 26 = 9 2 Es gilt nun: U = n1n2 − U ' Eingesetzt ergibt sich: 9 = 5*4 –11 U‘= 11 ist daher größer als U=9. Den kleineren von beiden Werten U und U‘ nimmt man als empirischen Testwert. Dieser ist hier die Menge der Meßwerte aus Gymnasium 1, die jeweils besser sind als bestimmte Meßwerte aus Gymnasium 2. Diese empirisch ermittelte Zahl 9 wird nun mit der U-Tabelle verglichen. Wäre U‘ kleiner als U, würden wir U‘ wählen. Für die Prüfung der Nullhypothese suchen wir in der U-Tabelle die Teiltabelle für die größere Stichprobe (n=5). Wir suchen jene Wahrscheinlichkeit der U-Funktion, die unserem U = 9 und der Stichprobengröße der kleineren Stichprobe (n=4) entspricht. Dort finden wir (Siegel, S. 271) die Größe p = 0.452. Da diese Zahl größer ist als ein mögliches Niveau der Irrtumswahrscheinlichkeit von α = 0,05, entscheiden wir uns, die Nullhypothese beizubehalten. Wie Siegel ausführt, sind unterschiedliche Verfahren der Berechnung des kritischen Wertes von U maßgeblich, je nachdem, wie groß die größere der beiden Stichproben ists. Wächst deren Umfang über 20 an, kann man mittels eines z-Tests entscheiden, ob die Nullhypothese beibehalten werden kann. Hier gilt: z= n1n2 2 n1n2 (n1 + n2 + 1) 12 U− Dieses z ist – wie oben ausgeführt – standardnormalverteilt mit dem arithmetischen Mittel 0 und der Standardabweichung 1. Diese Verteilung wird dann benutzt wie beim z-Test. Tauchen ties auf (siehe hierzu Kendalls τb), dann wird den entsprechenden Rängen ihr durchschnittlicher Rang zugewiesen und z wird nach einer korrigierten Formel berechnet, die Siegel auf S. 125 referiert. 111 7.4. Tabellarische Übersicht über kombinatorische Probleme und die Prüfverteilungen Übersicht über Fragestellungen und Lösungen kombinatorischer Probleme: Permutationen: (Menge der möglichen Reihenfolgen aller Elementen einer Menge) Alle Einige Elemente Elemente sind identisch sind verschieden Kombinationen: Zusammensetzung einer Teilmenge, die aus einer Gesamtmenge von verschiedenen Elementen ausgewählt wurde Mit Berücksichtigung der Ohne Berücksichtigung der Reihenfolge der Reihenfolge der Elemente Elemente Mit Zurücklegen von Elementen bei der Auswahl Ohne Zurücklegen der Elemente bei der Auswahl Mit Zurücklegen von Elementen bei der Auswahl Ohne Zurücklegen der Elemente bei der Auswahl n! n! n1! n2 !...nu ! nk n! (n − k )! n + k − 1 k n n! = k!(n − k )! k Beispiel: Als Elemente existieren die Buchstaben: S A B I N E. Wieviele verschiedene Buchstabenfolgen kann man aus diesen Buchstaben herstellen ? Beispiel: Als Elemente existieren die Buchstaben: O T T O K A R. Wieviele verschiedene unterscheidbare Buchstabenfolgen kann man aus diesen Buchstaben herstellen ? (Merke: Vertauschungen identischer Buchstaben sind nicht unterscheidbar) Beispiel: Aus den Buchstaben: TUBCHAM P I O N werden 3 Buchstaben ausgewählt, aber nach der Auswahl zurückgelegt, bei der Menge der Kombinationen sei die Reihenfolge bedeutsam: Wieviele unterscheidbare Kombinationen gibt es ? Beispiel: Aus den Buchstaben: TUBCHAM P I O N werden 3 Buchstaben ausgewählt, aber nach der Auswahl zurückgelegt, bei der Menge der Kombinationen ist die Reihenfolge nicht bedeutsam: Wieviele unterscheidbare Kombinationen gibt es ? Beispiel: Aus den Buchstaben: T U B C H A M P I O N werden 3 Buchstaben ausgewählt und nach der Auswahl nicht zurückgelegt, bei der Menge der Kombinationen ist die Reihenfolge nicht bedeutsam: Wieviele unterscheidbare Kombinationen gibt es ? Lösung: 720 Lösung: 1260 Lösung: 1331 Beispiel: Aus den Buchstaben TUBCHA MPION werden 3 Buchstaben ausgewählt, und nach der Auswahl nicht zurückgelegt, bei der Menge der Kombinationen ist die Reihenfolge bedeutsam: Wieviele unterscheidbare Kombinationen gibt es ? Lösung: 990 Lösung: 286 Lösung: 165 112 Verteilungsfunktionen von Wahrscheinlichkeiten für das Eintreten bestimmter Ereignisse: Entweder für diskrete Variablen (z. B. k in der Binomialverteilung) oder für stetige Variablen (z.B. Wahrscheinlichkeitsdichte der Normalverteilung etc.) Name/ Erklärung der Formel für die Wahrscheinlichkeit/bzw. die arithmeSymbole Wahrscheinlichkeitsdichte/Anwendungsfälle: tisches Mittel f(x) = 1/(b-a) für das Intervall ׀a bis b׀ µ= Gleichverteilung (a + b)/2 x: stetige Variable, Meßwert. a: Untergrenze b:Obergrenze eines Intervalls µ=n*p Binomialverteilung u n k n−k n k n−k n: Umfang einer Menge P p q n , p ,k = k p q ; P0−u = k: Umfang einer k =0 k ausgewählten Anwendungsfall: Binomialtest: Stammt eine Stichprobe Teilmenge (n=30)mit bis zu 2 Kranken aus einer Grundgesamtheit u= maximales k mit 20% Kranken, bei einer Irrtumswahrscheinlichkeit von p: Wahrscheinlichkeit 2 %? eines Ereignisses von zwei möglichen Ereignissen (z.B. weiblich/männlich) q = 1-p: Wahrscheinlichkeit des komplementären Ereignisses k Poisson-Verteilung: µ= np ∑ Symbole wie bei Binomialverteilung, e: Eulersche Zahl 2,718281828... Normalverteilung – allgemeine Form und Standardform µ: arithmetisches Mittel der Grundgesamtheit f (k ) = f ( x) = e − ( x − µ )2 2σ ² σ 2π Wenn µ= 0 und σ = 1 sind, ergibt sich: f ( z) = e − x2 2 2π σ= (b − a )² 12 σ= npq ; Die Verteilung ist die Basis des Binomialtests σ= np ; Die Verteilung geht aus der Binomialverteilung hervor, wenn p gegen 0 geht und n gegen ∞, und wenn np eine endliche und konstante Größe bleibt. Anwendungsfall: Es geht um die Wahrscheinlichkeit seltener Ereignisse: Wenn z.B. .die Wahrscheinlichkeit, in einer Klausur zu versagen gleich p = 0,01 ist, ist die Wahrscheinlichkeit berechenbar, unter n=40 Klausurteilnehmern k= 0, 1, 2, 3, 4 „Ausfälle“ zu haben. Sie nimmt folgende Werte an: 0,67; 0,26; 0,053; 0,007. x :arithmetisches Mittel der Stichprobe σ : Standardabweichung der Grundgesamtheit s:Standardabweichung der Stichprobe π: Kreiskonstante: 3,141592654... z : Standardisierter Meßwert (np) −np e k! Standardabweichung bzw. Varianz/ Erläuterung µ ist definiert zwischen - ∞ und + ∞. Für die Standardnormalverteilung ist µ=0. σ definiert zwischen 0 und +∞. Die Verteilung geht aus der Binomialverteilung hervor, wenn n gegen ∞ geht, und npq > 9 ist. Sie ist die Basis des z-Tests. Jede beliebige Normalverteilung läßt sich durch Standardisierung der Meßwerte in z-Werte xi − x s Anwendungsfall: Stammt eine Stichprobe mit n = 49, s = z= 9,3 und x = 75 mit 1 % Irrtumswahrscheinlichkeit aus einer normalverteilten Grundgesamtheit mit µ= 72, umrechnen. Es entsteht dann die Standardnormalverteilung f(z). σ=9? Lösung: z= x−µ σ Bei ihr ist σ = 1. n = 2,333 p = α = 0,0098 < 0,01. Die Nullhypothese x = µ wird abgelehnt, die Alternativhypothese x > µ angenommen. 113 χ²-Verteilung df χ² = ∑z i =1 2 i k ( f b − f e )2 i =1 fe χ =∑ 2 f (χ ) = 2 χ²: stetige Variable auf der Abszisse der χ²Verteilung df: Freiheitsgrad. fb = beobachtete Häufigkeit fe = erwartete Häufigkeit Γ Zeichen für die Gammafunktion t-Verteilung χ df2 df t: stetige Variable auf der Abszisse der tVerteilung F-Verteilung F: stetige Variable auf der Abszisse der FVerteilung χ m2 Fm,n= m χ n2 n m = df1 n= df2 µ=df; ( ) * χ df 2 2 −1 df=(r-1)* (c-1) df 2 df 2 *Γ 2 Anwendungsfälle: Eindimensionales χ²: Die Echtheit eines Würfels wird überprüft. df = k-1. Zweidimensionales χ²: Der Zusammenhang zweier nominalskalierter Variablen, der in einer Kreuztabelle mit r Zeilen und c Spalten dargestellt ist, wird überprüft (df= (r-1)*(c-1). df − 1 Γ 2 z tdf = e −χ 2 2 f(tdf)= 2 * df ; Die Verteilung () ( ) Γ n = n − 1 ! für alle natürlichen Zahlen. Die Gammafunktion ist jedoch darüber hinaus die stetige Erweiterung der Fakultät für nichtganzzahlige Werte. µ=0 für df > 2 ist df df − 2 Die Verteilung geht aus der Division einer z-Verteilung durch die Wurzel aus einer χ ²Verteilung, deren Werte ihrerseits durch die Menge der Freiheitsgrade geteilt werden, hervor. Sie ist die Basis verschiedener t-Tests. σ= t2 df − 2 dfπ * Γ * 1 + 2 df df +1 2 Anwendungsfälle: a)Ist die Differenz der Mittelwertes einer kleinen Stichprobe (n<30) und einer normalverteilten Grundgesamtheit mit bekannter Varianz signifikant ? (df = n-1) b) Ist die Differenz der Mittelwerte zweier (b1) unabhängiger(df = n1 + n2 – 2) bzw. (b2) zweier abhängiger (df = n1 – 1)Stichproben mit homogenen Varianzen „signifikant“. c) Ist ein Korrelationskoeffizient r aus einer Stichprobe mit dem Umfang n signifikant ? (df = n – 2). m f (Fm,n ) = σ= geht aus der Addition von quadrierten z-Verteilungen hervor, wobei die Menge der Freiheitsgrade df der Menge der Summanden entspricht. Sie ist die Basis des χ ²-Tests. Die sog. Gamma-Funktion liefert für n >2 m −1 m + n m 2 Γ − 1 * F 2 2 n m n m Γ − 1Γ − 11 + (F ) n 2 2 µ= m+ n 2 Anwendungsfälle: a) Homogenitätsprüfung für die Varianzen zweier unabhängiger Stichproben beim t-Test. b) Verschiedene Formen der Varianzanalyse. Hier geht es z.B. um die Frage, ob die Mittelwerte mehrerer unabhängiger Stichproben, die verschiedenen Ausprägungen einer nominalskalierten Variable zugehören, in mindestens einem Fall signifikant verschieden sind (einfaktorielle Varianzanalyse). m n −2 für m >5 σ= 2m 2 (m + n − 2) n(m − 4)(m − 2)² Die Verteilung geht aus der Division zweier χ ²Verteilungen hervor, die ihrerseits durch die Menge ihrer Freiheitsgrade geteilt wurden. . 114 8. Bivariate Verteilungen - Zusammenhangsdarstellungen und -maße Erst wenn mindestens zwei Merkmale gleichzeitig an einer Erhebungseinheit festgestellt werden, können Zusammenhänge von Merkmalen beschrieben werden. Der Begriff "Zusammenhang" hat hierbei eine spezielle Bedeutung. Er besagt, daß die Kenntnis der Ausprägung eines Merkmals eine Prognose der Ausprägung eines anderen Merkmals zuläßt. Dabei ist diese Prognose mehr oder minder genau. Statistische Maßzahlen (Koeffizienten), die die Genauigkeit dieser Prognose beschreiben, sind in der Regel zwischen 0 und 1 definiert. Ist der Genauigkeitsgrad gering, geht der Koeffizient gegen 0, ist er groß, geht der Koeffizient gegen Eins. Eine spezielle Problematik des Ansatzes für eine solche Prognose ist durch das Skalierungsniveau der Daten gegeben. Bei Daten auf dem Nominalniveau kann ich nur Häufigkeiten für verschiedene Kategorien vorhersagen, bei Daten auf dem Ordinal-Niveau nur Häufigkeiten für Ränge; erst bei Daten auf dem Intervallund Ratio-Niveau kann man Funktionswerte und Abweichungskorridore für solche Funktionen beschreiben. Dabei kann es sich um lineare und nicht-lineare Funktionen mit einer abhängigen und einer unabhängigen Variable handeln oder um Funktionen mit mehreren unabhängigen Variablen. Die folgenden Ausführungen geben eine Auswahl aus den Möglichkeiten der Darstellung statistischer Zusammenhänge wieder. 9. Korrelation und Regression 9.1 Zwei intervallskalierte Merkmale 9.1.1. Die Regressionsgeraden und die Regressions-Koeffizienten Wir gehen von folgendem praktischen Beispiel aus: In einer empirischen Untersuchung von Drogenabhängigen stellte sich folgender Konsum von Alkohol und Tabletten (Beruhigungsmittel) heraus: yi xi Alkohol in cl pro Tag Name Paul Peter Jutta Carla Annette Eduard Siegfried Urs 5 2 8 6 6 8 7 2 Beruhigungstabletten pro Tag 9 13 1 9 10 3 15 6 Stellen wir diese Verteilung in einem y/x-Achsenkreuz graphisch dar, dann ergibt sich das folgende Bild: 115 Tablettenkonsum und Alkoholkonsum bei 8 Drogenabhängigen 16 14 2. Regressionsgerade 12 10 y 8 TABLETTE 6 1. 4 Regressionsgerade 2 0 0 1 2 3 4 5 x 6 7 8 9 ALKOHOL Die Wertepaare sind in dieser Graphik, die auch „Scatterplot“ genannt wird, als kleine Quadrate eingezeichnet. Die senkrechte Linie liegt dort, wo bei dem Alkoholgebrauch pro Tag das arithmetische Mittel (5,5) liegt, die waagerechte Linie liegt dort, wo beim Tablettengebrauch das arithmetische Mittel (8,25) liegt. Durch den Kreuzungspunkt beider Linien verlaufen die sogenannten „Regressionsgeraden“, auf die wir unten noch eingehen. Wie wir später sehen werden, können wir aufgrund obiger Rechenergebnisse zwar sagen, daß ein Verdacht besteht, in der Stichprobe hingen Tablettenkonsum und Alkoholkonsum in dem Sinne zusammen, daß das eine das andere ersetzt. Wie wir aber weiterhin sehen werden, kann dieser Verdacht aufgrund der vorhandenen Daten statistisch nicht gesichert werden. Wie gehen wir zur Erlangung dieser Aussagen nun im einzelnen vor ? Nach den uns bekannten Methoden können wir nun für die Meßwerte xi und yi die arithmetischen Mittel und die Standardabweichungen berechnen. Hierdurch erfahren wir aber noch nichts über den Zusammenhang der Variablen. Was bedeutet nun "Zusammenhang" im Sinne der Statistik? Der Begriff "Zusammenhang" meint die Möglichkeit, in Kenntnis des Wertes der einen Variablen den Wert der anderen vorhersagen zu können. Eine solche Vorhersage ist bei intervallskalierten Daten gut formulierbar, wenn eine Funktion x=f(y) benannt werden kann, die dieser Vorhersage zugrunde liegt. Weiterhin kann die Vorhersage mehr oder minder genau sein, so daß der vorhergesagte Wert eintrifft oder knapp bzw. weit verfehlt wird. In der Statistik löst man dieses Problem so, daß eine Funktion gesucht wird, bei der die Summe der quadrierten Differenzen zwischen prognostizierten und eingetretenen Werten der Ordinate in unserer Graphik ein Minimum wird. Zunächst gilt es, den Funktionstyp festzulegen. Hierbei können wir uns fragen, ob die Funktion ein Polynom vom 1. Grade (eine lineare Funktion) oder ein Polynom höheren Grades sein soll (Parabel, kubische Funktion etc.). Die Entscheidung hierüber liegt in der Regel bei der Theorie über den Gegenstand. Haben wir den Funktionstyp festgelegt (wir wählen hier eine Gerade), dann wählen wir die Methode der Berechnung des Verlaufs der gesuchten Funktion. Diese Methode soll, wie oben gesagt, gewährleisten, daß die gesuchte Funktion die Bedingung minimaler Abweichungsquadrate erfüllt. Der Fall, den wir hier behandeln, geht von dem Funktionstyp "Gerade" aus. Da eine Gerade durch zwei Konstanten, den Abschnitt auf der y-Achse a und die Steigung b, festgelegt wird, müssen wir a und b berechnen. Die Koeffizienten a und b nennen wir die Regressionskoeffizienten. Wenn wir von x ausgehend y vorhersagen wollen, ergibt sich allerdings eine andere Gerade als wenn wir von y ausgehend x vorhersagen wollen. Deshalb suchen wir zwei Geraden, die sogenannten Regressionsgeraden: 116 (1) y = a1 +b1x (2) x = a2 +b2y Zu beachten ist, daß wir in der ersten Gleichung y, in der anderen x vor dem Gleichheitszeichen haben. Dies ist wichtig, wenn wir die Geraden zeichnen wollen, weil a1 ein Abschnitt auf der y-Achse, a2 ein Abschnitt auf der x-Achse ist. Die Berechnung von b1, b2, a1 und a2 kann nun nach folgendem Verfahren erfolgen, das allerdings umständlich ist, und das wir in der Praxis nicht anwenden: Σ (x − x ) * ( y n b1 = i i =1 1 2 2 (Kovarianz) 2 (Summe der quadrierten Abweichungen) = y − b1 x Σ (x − x ) * ( y = i Σ (y i =1 n i =1 a ) i n b −y Σ (x − x ) n i =1 a j j −y j ) −y ) (Kovarianz) 2 (Summe der quadrierten Abweichungen) = x − b2 y Vereinfachte Berechnungsweisen sind die folgenden (weniger Rechenaufwand, obwohl die Formeln komplizierter aussehen): Wir bestimmen zunächst folgende Ausdrücke: n Menge der Meßwertpaare n Σx i Σx i i =1 n i =1 n 2 Σy i =1 n Σy i =1 n Summe der Meßwerte der Variablen x Summe der quadrierten Meßwerte der Variablen x Summe der Meßwerte der Variablen y j 2 Summe der quadrierten Meßwerte der Variablen y j Σxy i =1= j i n Σ xi i =1 j Summe der Produkte der Meßwertpaare 2 n Σ y j i =1 Quadrierte Summen der Meßwerte der Variablen x bzw. y: 2 Diese setzen wir in die unten aufgeführten Formeln ein: 117 n n n n * Σ xi y − Σ xi * Σ y j j k =1 k =1 k =1 2 b1 = n n 2 n * Σ xi − Σ xi k =1 k =1 n n 2 n n * − * y Σ j Σ xi Σ xi Σ xi y j k =1 k =1 k =1 k =1 2 a1 = n 2 n n * Σ xi − Σ xi k =1 k =1 bzw. vereinfacht: (s.o.) a 1 = y − b1 x 9.1.2. Der Produkt-Moment-Korrelationskoeffizient r Während die Regressionskoeffizienten für gegebene Meßwertpaare nur die Geraden angeben, an die die Meßwerte in Richtung x- oder y-Achse nach dem Kriterium minimaler Abstandsquadrate optimal angepaßt sind, soll der Produktmoment-Korrelationskoeffizient den Anpassungsgrad selber signalisieren. Dabei sind folgende Fälle zu unterscheiden: - Totale Anpassung : - keine Anpassung : - "mittlere" Anpassung: r = ±1 r=0 0 < |r| <1 Das Vorzeichen von r ist das gleiche wie das der Steigung von b1. r wird aus folgender "Urform" gewonnen und dann zu einer rechentechnisch optimierten Form umgeformt: Σ (x − x ) * ( y n i i = j =1 r= Σ (x − x ) n n* i =1 n = Σ (x − x ) * ( y i j Σ (x − x ) * Σ ( y n i =1 2 i Σ (y j =1 * n i = j =1 −y n j =1 −y ) n 2 i j j −y ) 2 n ) −y j (Kovarianz) ) 2 Die rechentechnisch optimierte Formel lautet: Produkt der Standardabweichungen, multipliziert mit n). 118 n* r= n Σxy i = j =1 i n n i =1 j =1 − Σ xi * Σ y j j 2 2 n n 2 n 2 n n * Σ xi − Σ xi * n * Σ y j − Σ y j i =1 j =1 j =1 i =1 In der "Urform" enthält r im Zähler deutlich sichtbar die "Kovarianz", im Nenner das geometrische Mittel der Summen der quadrierten Abweichungen von x bzw. y. Die Kovarianz ist ein Ausdruck für die gemeinsame Veränderung der Variablen x und x. Ist sie gleich 0, besteht kein Zusammenhang. Sie wird gleich 0, wenn die Regressionsgeraden entweder zur X-Achse oder zur Y-Achse parallel verlaufen. Sie ist positiv, wenn die Gerade nach rechts ansteigt, negativ, wenn sie nach rechts fällt. Das Produkt der Abweichungs-Quadratsummen im Nenner ist gleich 0, wenn auf einer Variablen keine Variation vorliegt. Dann ist der Koeffizient nicht berechenbar (wegen des Verbots, durch 0 zu teilen). Bei Linearität des Zusammenhangs erreicht die Kovarianz genau das geometrische Mittel der summierten Abweichungsquadrate, so daß r = 1; bei Abweichungen von der Linearität der Wertepaare ist die Kovarianz kleiner als das geometrische Mittel der summierten Abweichungsquadrate. Daher ist in solchen Fällen 0 < |r| <1. 9.1.3. Ein Rechenbeispiel Wir gehen von den oben aufgeführten Daten zum Zusammenhang von Alkoholkonsum und Tablettenkonsum aus, für den oben schon eine Graphik erstellt wurde. Wertepaare und Arbeitstabelle für Rechengang Nr. 2: fk 1 1 1 1 1 1 1 1 n= 8 Alkohol in cl xi xi² yj 5 2 8 6 6 8 7 2 25 4 64 36 36 64 49 4 9 13 1 9 10 3 15 6 n n n ∑ xi = 44 i =1 ∑ xi ² = 282 i =1 (Σ x ) = 1936 2 i Wir berechnen zunächst b1: b1 = 8 * 334 − 44 * 66 − 232 = = −0,725 8 * 282 − 1936 320 Sodann ermitteln wir a1: Tabletten pro Tag yj2 81 169 1 81 100 9 225 36 ∑ y j = 66 j =1 (Σ y ) 2 j = 4356 n ∑ y 2j = 702 j =1 xi *yj 45 26 8 54 60 24 105 12 n ∑x y i = j =1 i j =334 119 a1 = 8,25 − (−0,725 * 5,5) = 12,238 Danach ermitteln wir b2: b2 = 8 * 334 − 44 * 66 − 232 = = − 0 ,184 8 * 702 − 4356 1260 sodann a2: a 2 = 5,5 − (−0,184 * 8,25) = 7,018 Schließlich setzen wir die errechneten Werte für r ein: r= 8 * 334 − 44 * 66 = −0,365 (8 * 282 − 1936)(8 * 702 − 4356) Die Regressionsgeraden sind somit bestimmt als 1. Regressionsgerade: y = a1 + b1x = 12,238 – 0.725 x 2. Regressionsgerade: x = a2 + b2y = 7,018 –0,184y Merke :hier ist x = f(y) Beide Regressionsgeraden sind in die o.a. Graphik eingezeichnet. Ihr Winkel korrespondiert mit dem Korrelationskoeffizienten r insofern, als ein Korrelationskoeffizient von 1 dem Winkel von 0° entspräche, ein Korrelationskoeffizient von 0 einem Winkel von 90°. Die Voraussetzung für die Berechnung des Korrelationskoeffizienten ist, daß beide Variablen x und y normalverteilt sind und daß es sinnvoll ist, eine Gerade als Repräsentantin entsprechender „Punktwolken“ aus Wertepaaren anzusehen. Hier muß nur noch darauf hingewiesen werden, daß das Quadrat des Korrelationskoeffizienten r² auch als Determinationskoeffizient bezeichnet wird und angibt, in welchem Maße die Varianz der Variable y durch die Varianz der Variable x erklärt wird (siehe hierzu auch eta² in der Varianzanalyse unten). 9.2. Zwei ordinal skalierte Merkmale 9.2.1. Kruskals Gamma Auch für den Fall ordinal skalierter Merkmale ist man an der statistischen Beschreibung von Zusammenhängen interessiert. Das heißt, man will in Kenntnis des Wertes - der Ausprägung - einer Variablen den Wert der anderen vorhersagen. Während nun bei intervallskalierten Merkmalen oder Variablen mit Abständen und Abstandsquadraten argumentiert werden kann, ist dies bei Rangskalen verboten; daher ergibt sich die Notwendigkeit, neue Konzepte für Rangkorrelationen zu entwickeln. Hierbei geht eine Gruppe von Statistikern vom Konzept der konkordanten und diskordanten Paare aus. 120 Beispiel: 13 Schüler geben ein Urteil ab über 3 Lehrer, die sie in einem System von je drei Rängen plazieren, einmal auf der Dimension "Sachbezogenheit", zum anderen auf der Dimension "positiver Beitrag zum Gruppenklima". Das Ergebnis sei die folgende Tabelle mit 39 Urteilen, die für beide Dimensionen vorliegen; für jeden Lehrer gibt es die Angabe der Position auf beiden Rangskalen, die jeweils 3 Ränge umfassen: 39 Urteile über 3 Lehrer durch 13 Schüler, betreffend deren Sachbezogenheit und ihren Beitrag zum Gruppenklima. Rang Sach- 1 Rang: "Gruppenklima" 2 3 5 7 2 11 12 13 1 bezogen 1 9 0 21 1 22 3 23 11 31 32 33 2 heit Die Zahlen in den einzelnen Zellen bedeuten: obere Zahl: Häufigkeit untere Zahl: Kombination der zellenspezifischen Ränge. 3 Die Zelle mit der Zugehörigkeit zu den Rängen 1 auf beiden Skalen hat insofern die Kennzeichnung 11. Die Ränge werden hier so interpretiert, daß kleine Rangzahlen höhere Ränge anzeigen als große Rangzahlen. Ein Lehrer mit den Rängen x=1/y=1 und ein Lehrer mit den Rängen x=2/y=2 bilden nun ein sogenanntes konkordantes Paar, da beide Rangunterschiede auf beiden Variablen "gleichsinnig" sind. ( x: 1 > 2; y: 1 > 2 ) Ein Lehrer, der die Ränge x=1/y=3 zugesprochen bekommt, und einer, der die Ränge x=3/y=1 zugesprochen bekommt, bilden ein sogenanntes "diskordantes Paar", da die Rangunterschiede "ungleichsinnig sind" (x:1>3;y: 3<1). Die Menge aller konkordanten Paare wird nun mit Nc bezeichnet, die Menge der diskordanten Paare mit Nd Kruskals γ („gamma“), ein einfaches Maß für die Rangkorrelation, wird aus γ = N −N N +N c d c d bestimmt. 121 Die Berechnung der Menge konkordanten Paare (Nc) erfolgt durch Aufsummieren der aller Produkte von Häufigkeiten in Zellen, die konkordante Paare enthalten, wie Zelle Zelle Häufigkeit 11 11 11 11 12 12 21 21 22 5 5 5 5 7 7 1 1 9 Produkt Häufigkeit 22 23 32 33 23 33 32 33 33 9 0 3 11 0 11 3 11 11 5 * 9 = 45 5* 0= 0 5 * 3 = 15 5* 11 = 55 7* 0= 0 7 * 11 = 77 1* 3= 3 1 * 11 = 11 9 * 11 = 99 Nc = 305 Die Berechnung der Menge diskordanter Paare erfolgt analog: Zelle Zelle Häufigkeit 13 13 13 13 12 12 23 23 22 γ = 2 2 2 2 7 7 0 0 9 Produkt Häufigkeit 22 21 32 31 21 31 32 31 31 9 1 3 1 1 1 3 1 1 2 * 9 = 18 2*1= 2 2*3= 6 2*1= 2 7*1= 7 7*1= 7 0*3= 0 0*1= 0 9*1= 9 Nd = 51 305 − 51 = 0,713 305 + 51 In diese Rechnung sind allerdings noch keine Paare einbezogen, bei denen zeilen- oder spaltengleiche Ränge existieren, wie z.B. bei den Zellen 11 und 12, bei denen der Rang in der Variable Gruppenklima ungleich ist, der bei Sachbezogenheit aber gleich, oder 11 und 21, bei denen der Rang in der Variable Gruppenklima gleich ist, der bei Sachbezogenheit aber ungleich. Paare, die in sich solchen Zellen befinden, bilden die sogenannten ties, also (teilweise) ranggleiche Elemente in der Menge der Paare. Die Berechnung von Gamma berücksichtigt nur die anderen (konkordanten, diskordanten) Paare. Gamma ist wie r zwischen -1 und +1 definiert. Da es "ties" (Übereinstimmungen von Rängen in einer der Variablen) nicht berücksichtigt, zeigt es jedoch oft zu "günstige" Werte an und täuscht Zusammenhänge vor. 122 9.2.2. Kendalls τb ("taub"). Ein Maß, das die ties berücksichtigt, ist das Maß τb (taub) von Kendall, das eine erweiterte Form von Kendalls τa („taua“) ist. τa ist Kruskals γ vergleichbar: τa = − N c − Nd n(n − 1) 2 Hier steht im Nenner eine Konstante, die Menge der Zellen einer quadratischen Matrix oberhalb der Hauptdiagonale. Sie betrüge für eine 3*3-Matrix genau 3. τb hat einen anders definierten Nenner als Kruskals γ: τb = N −N (N + N + T )(N + N + T c c d x d c d y ) In diesem Nenner bedeutet Tx die Menge der "ties" auf der Variablen x (hier „Sachbezogenheit“) , Ty die Menge der „ties“ auf der Variablen y (hier „Beitrag zum Gruppenklima“). Die Tx errechnen sich wie folgt: Zelle Häufigkeit Zelle 11 5 21 11 5 31 21 1 31 12 7 22 12 7 32 22 9 32 13 2 23 13 2 33 23 0 33 Häufigkeit 1 1 1 9 3 3 0 11 11 Die Ty errechnen sich wie folgt: Zelle Zelle Häufigkeit 11 11 12 21 21 31 31 32 5 5 7 1 1 1 1 3 Produkt Häufigkeit 12 13 13 22 23 32 33 33 Tx = 144 Ty = 115 Produkt 5* 1= 5 5* 1= 5 1* 1= 1 7 * 9 = 63 7 * 3 = 21 9 * 3 = 27 2* 0= 0 2 * 11 = 22 0 * 11 = 0 Tx = 144 7 2 2 9 0 3 11 11 5 * 7 = 35 5 * 2 = 10 7 * 2 = 14 1* 9= 9 1* 0= 0 1* 3= 3 1 * 11 = 11 3 * 11 = 33 Ty = 115 123 Setzt man diese Werte in die Formel ein, dann ergibt sich τb = 305 − 51 = 0,523 (305 + 51 + 144)(305 + 51 + 115) Da γ, in dem die "ties" nicht berücksichtigt wurden, den (größeren) Wert 0,713 hatte, ist der "dämpfende" Einfluß der Einbeziehung der ties in die Formel von τb hier gut sichtbar. Welche ties diesen Einfluß haben, kann man am Nenner ablesen: Der Einfluß der Tx=144 ist stärker als der Einfluß der Ty=115. 9.3 Zwei nominal skalierte Merkmale 9.3.1 Cramérs V Für den Fall nominal skalierter Merkmale ist die Möglichkeit nicht mehr gegeben, zwischen einer gleichsinnigen oder ungleichsinnigen Veränderung der Variablen y bei Veränderung der Variablen x zu unterscheiden, sondern nur noch die Möglichkeit, zu messen, wie stark die beobachteten Werte von erwarteten Werten abweichen. Genau dies haben wir beim zweidimensionalen Chiquadrat-Test getan. Ist diese Abweichung groß, dann wird das Bestehen eines Zusammenhangs vermutet. Was dies bedeutet, kann an folgendem Beispiel demonstriert werden: Wir benutzen wiederum das oben zum Chiquadrat-Test angeführte Beispiel: Mein Hund soll schön und auffallend sein / Wenn der Hund seine Aufgaben nicht erfüllt: Anderen anschaffen Schöner Hund keinesfalls eher nicht vielleicht doch eher ja Gesamt Anderen anschaffen vielleicht doch eher nicht 20 6 27,3 11,1 -7,3 -5,1 51 10 43,8 17,8 7,2 -7,8 33 18 30,8 12,5 keinesfalls 86 71,6 14,4 120 115,1 4,9 74 81,0 Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl Residuen Anzahl Erwartete Anzahl eher ja 10 12,0 -2,0 15 19,3 -4,3 13 13,6 -7,0 2,2 5,5 -,6 30 42,3 -12,3 310 310,0 14 16,1 -2,1 118 118,0 14 6,5 7,5 48 48,0 14 7,1 6,9 52 52,0 Gesamt 122 122,0 196 196,0 138 138,0 72 72,0 528 528,0 Chi-Quadrat-Tests Wert Chi-Quadrat nach Pearson Anzahl der gültigen Fälle df a 35,491 9 528 a. 0 Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit ist 6,55. Hier gilt es nur noch, ein Maß der Stärke des Zusammenhangs nachzureichen. Die Stärke des Zusammenhangs wird durch folgenden Koeffizienten gemessen, der zwischen 0 und 1 definiert ist: 124 V= χ 2 n(Min(r − 1); (c − 1)) Dieser Koeffizient, Cramérs V, hat im Zähler das oben berechnete χ2, im Nenner das Produkt aus n (der Tabellensumme) und dem kleineren von zwei Werten (das bedeutet "Min"): der Menge der Zeilen minus 1 (=r-1); unsere obige Tabelle hat 4 Zeilen; oder der Menge der Spalten minus 1 (=c-1); unsere obige Tabelle hat 4 Spalten. Für unser konkretes Beispiel errechnen wir V= 35,419 = 0,149 528 * (4 − 1) Da Zeilenmenge und Spaltenmenge identisch sind, ist es hier egal, ob wir r-1 oder c-1 in den Nenner einbeziehen. Die Definition des Nenners stellt sicher, daß V den Wert 1 auch dann erreichen kann, wenn keine quadratische Matrix vorliegt. Im vorliegenden Fall haben wir es mit einem schwachen Zusammenhang zu tun, der aber – weil die Nullhypothese im Chiquadrat-Test abgelehnt wurde, als statistisch auf dem 1%-Niveau der Irrtumswahrscheinlichkeit gesichert gilt. 9.3.2 Phi und korrigiertes χ² Die Messung von Zusammenhängen zwischen nominal skalierten Merkmalen durch Cramers V bezog sich auf den Fall von Tabellen beliebig großen Formats. Sinkt das Tabellenformat auf 2 x 2 ab, dann sinkt der Freiheitsgrad von χ2 auf 1. In diesem Fall wirkt sich die Tatsache, daß bei der oben gezeigten Berechnungsmethode für Erwartungswerte auch Brüche vorkommen können, in der Realität aber nur ganze Zahlen als absolute Häufigkeiten denkbar sind, verfälschend auf den Wert von χ2 aus. Weiterhin gibt es für Vierfeldertabellen ein vereinfachtes Verfahren der Berechnung des statistischen Zusammenhangs, d.h. es brauchen nicht mehr einzelne Erwartungswerte etc. ermittelt zu werden, sondern nur noch der folgende Ausdruck (Phi): Φ= ad − bc (a + b )(c + d )(a + c )(b + d ) Das zur Kontinuitätskorrektur nach Yates modifizierte Chiquadrat errechnet man für Vierfeldertafeln nach χ = 2 y [ ad − bc − ] n n 2 2 (a + b )(c + d )(a + c )(b + d ) Die Buchstaben a, b, c und d in diesen Formeln bedeuten absolute Häufigkeiten in den Zellen einer quadratischen Tabelle mit 4 Feldern: a c b d "a" ist also immer die Häufigkeit "links oben", "d" die Häufigkeit "rechts unten" etc. 125 Rechenbeispiel: In einer Untersuchung über die geschlechtsspezifischen Einstellungen zur Nutzung der Atomkraft verteilten sich die Aussagen für bzw. gegen ein sofortiges Abschalten aller Atomkraftwerke wie folgt: für sofortiges Abschalten der AKW gegen sofortiges Abschalten der AKW Summe Frauen 7 5 12 Männer 4 9 13 Summe 11 14 25 Setzt man die Werte in die Formel für Φ ein, ergibt sich: Φ= 7 *9 − 4*5 = 0,28 (7 + 4)(5 + 9)(7 + 5)(4 + 9) χ 2 y [7 * 9 − 4 * 5 − ] * 25 = 0,968 = 25 2 2 (11)(14)(12)(13) Prüft man die Nullhypothese, daß die Häufigkeiten „randverteilt“ sind bei 1 % Irrtumswahrscheinlichkeit einseitig, dann müßte man dies an einer Chiquadratverteilung mit einem Freiheitsgrad tun. Der Kriteriumswert betrüge dann 6,63. Da das berechnete Chiquadrat nur 0,968 beträgt, behalten wir die Nullhypothese bei, d.h. wir rechnen nicht mit einem Zusammenhang von Geschlecht und Einstellung zur Nutzung der Atomkraft. Der Statistiker Cole schlägt noch eine Korrektur von Phi vor, weil Phi den Maximalwert 1 nur annehmen kann, wenn die Felder einer Diagonale leer sind. Um eine Unterschätzung des Zusammenhangs zu vermeiden, schlägt er vor, Phi nach verschiedenen Formeln zu berechnen, je nachdem, ob der Zähler ein positives oder negatives Vorzeichen hat. Einzelheiten referieren Clauß und Ebner (Grundlagen der Statistik für Psychologen, Pädagogen und Soziologen, 2. Auflage 1975, S. 285). 10. Signifikanztests für Korrelations- und Assoziationsmaße 10.1. t-Test für den Produktmomentkorrelationskoeffizienten Die Nullhypothese lautet in diesem Fall: "In der Grundgesamtheit ist die Korrelation gleich Null". Der Test dieser Hypothese ist möglich mit Hilfe eines kritischen Wertes "t", der wie folgt berechnet wird. t=r n−2 1− r 2 df= n-2 Wenden wir diese Formel auf unser Rechenbeispiel vom Zusammenhang des Alkohol- und Tablettenkonsums an, dann können wir einsetzen: t = 0,365 8−2 = 0,96 1 − 0,133 126 für 8-2 = 6 Freiheitsgrade wäre der Kriteriumswert der t-Verteilung bei einseitigem Test und 1 % Irrtumswahrscheinlichkeit t = 3,14. Da unser empirischer t-Wert mit t = 0,96 kleiner ist, behalten wir die Nullhypothese bei und Verneinen die Vermutung eines Zusammenhangs von Alkohol- und Tablettenkonsum. Einfacher ist es noch, eine Tabelle von Zufallshöchstwerten von r zu Rate zu ziehen (vgl. Erna Weber, Jena 1972, S. 652). 10.2. Z-Test für Kendalls "tau" Für Kendalls tau existiert ein Signifikanztest auf der Basis der standardisierten Normalverteilung. Der kritische z-Wert Z = (N − N ) ± 1 c d n( n − 1)( 2 n + 5) 18 wird unter folgender Nebenbedingung berechnet; für Nc < Nd ist die Zahl 1 dem Zähler hinzuzuaddieren; ist Nc > Nd, ist 1 zu subtrahieren. Bedenken gegen diesen Koeffizienten sind insofern legitim, als die zVerteilung und die t-Verteilung Abstände voraussetzen, die bei Rangkorrelationen nicht gegeben sind. Weiterhin wird die Menge der ties nicht in die Kriteriumsberechnung einbezogen. 10.3. Einschränkungen der Chiquadrat-Tests für Cramers V und Phi Es sei hier noch nachgetragen, daß bei Tabellen mit im Durchschnitt weniger als 5 Elementen pro Zelle der Chiquadrattest problematisch wird, weil die Chiquadratverteilung große n voraussetzt. In der Praxis wird man daher durch Modifikation von Tabellen (mittels Zusammenfassung von Kategorien oder Weglassen schlecht besetzter Kategorien) dafür Sorge tragen, daß nicht mehr als 20 % der Zellen Erwartungswerte von weniger als 5 haben. Allerdings ist in der Berichterstattung auf eine solche Prozedur hinzuweisen. Für kleine n wird statt der Chiquadrat-Methoden "Fishers exakter Test" empfohlen, der allerdings nur den Vierfelder-Fall betrifft. 10.4 Fisher's exakter Test Eine Methode zur Analyse von Vierfeldertafeln in bezug auf die Frage, ob bestehende Zusammenhänge auch in der Grundgesamtheit vorhanden sind, bietet Fisher's "exakter" Test. Er gestattet es, die Wahrscheinlichkeiten für das Auftreten bestimmter Zellenbesetzungen zu berechnen, wenn die Randverteilungen gegeben sind. Für folgenden Fall 10 10 10 sind folgende Zellenbesetzungen denkbar: 10 127 0 10 10 0 1 9 9 1 2 8 8 2 3 7 7 3 4 6 6 4 5 5 5 5 6 4 4 6 7 83 3 7 8 2 2 8 9 1 1 9 10 0 0 10 Der Test berechnet für eine konkrete Verteilung, z.B. für die Verteilung 3 7 7 3 die Wahrscheinlichkeit ihres Eintretens nach Maßgabe der hypergeometrischen Verteilung mit der Formel Formel: p(a) x = ( a + b) !( c + d ) !( a + c) !( b + d ) ! a !b !c ! d ! n ! Hierbei sind a, b, c und d die Häufigkeiten einer Vierfeldertabelle a b c d p (a) x ist die Wahrscheinlichkeit, daß - bei gegebenen Randsummen - a den Wert x annimmt. Für unser o.a. Beispiel können wir ermitteln: Punktwahrscheinlichkeiten aufsummierte Werte: 0,000005413 p(a)0= 0,000005413 0,001087921 p(a)1= 0,000541254 0,011507069 p(a)2= 0,010960402 0,089447703 p(a)3= 0,077940635 0,328140896 p(a)4= 0,238693193 0,6718591 p(a)5= 0,343718198 0,410552287 p(a)6= 0,238693193 0,988492922 p(a)7= 0,077940635 0,99453324 p(a)8= 0,010960402 0,999994578 p(a)9= 0,000541254 1,0000 p(a)10= 0,000005413 Der Fisher Test summiert nun die Wahrscheinlichkeiten auf, die für ein konkretes a = x und alle möglichen kleineren a < x gelten. Diese Summe x Σ p( a = i ) i=0 wird nun wie folgt interpretiert: Ist ihr Wert größer als ein Kriteriumswert (die zugelassene Wahrscheinlichkeit für die irrtümliche Ablehnung der Nullhypothese, daß in der Grundgesamtheit kein Zusammenhang besteht), wird die Nullhypothese angenommen. Der Fisher-Test wird als "einseitiger" Test interpretiert: er ist nur anwendbar auf die schwächstbesetzte Zelle einer Tabelle! Diese muß beim Test immer in der Position von a sein: 128 a Modifikationen referiert Sidney Sigel, a.a.O., S. 101 ff. Die o.a. Berechnungen zeigen, daß der Fall 2 8 8 2 noch zur Ablehnung der Nullhypothese führt, 3 7 7 3 schon zur Annahme der Nullhypothese führt. daß aber der Fall Das gleiche Ergebnis ist aber auch näherungsweise mit Hilfe der Chiquadrattechnik zu erzielen, wenn man die Yates-Korrektur benutzt. 11. Einfaktorielle Varianzanalyse Während beim t-Test aufgrund der Mittelwertsdifferenzen geprüft werden kann, ob zwei Stichproben aus einer gemeinsamen Grundgesamtheit gezogen worden sein können, bietet die einfaktorielle Varianzanalyse die Möglichkeit, mehrere gleichgroße Stichproben in bezug auf die Frage zu untersuchen, ob sie alle aus einer gemeinsamen Grundgesamtheit stammen können oder nicht. Die Nullhypothese würde sein: H0= µ1=µ2=µ3=µ4. Die einfaktorielle Varianzanalyse erlaubt es, zu überprüfen, ob sich verschiedene Stichproben, deren Mitglieder aus unterschiedlichen "Bereichen" kommen, so unterscheiden, daß man die Unterschiede durch die Herkunft aus unterschiedlichen Bereichen "erklären" kann. Bereiche können dabei z.B. regional, temporal, institutionell oder auch experimentell definiert sein. An einer Volkshochschule werden Spanier in Deutsch unterrichtet. Alle Dozenten benutzen das gleiche Lehrmaterial, aber die Personen, die unterrichten, praktizieren informell sehr verschiedene persönliche Lehrstile. Diese wirken sich auf die Motivation der Beteiligten fördernd oder hinderlich aus. Die Menge der Fehltage in einem Jahr schwankt deshalb beträchtlich. Die Frage ist nun, liegt das am Lehrstil? Jeweils 5 Teilnehmer bei den 4 verschiedenen Dozenten werden nun befragt, wie oft sie bei dem Dozenten im letzten Semester gefehlt haben. Die Antworten lauten: Dozent Nr. 1. Person Fehltage 1 1 2 2 3 3 4 4 2. Person Fehltage 1 2 5 3 3. Person Fehltage 3 5 7 2 129 4. Person Fehltage 1 6 5 1 5. Person Fehltage 0 3 6 0 Zunächst können wir die durchschnittliche Fehldauer pro Dozent feststellen: Sie beträgt bei Dozent Nr. 1 2 3 4 x 1,2 3,6 5,2 2,0 k Hiernach scheint es so zu sein, als ob es aufgrund der Mittelwertdifferenzen deutliche Unterschiede zwischen den einzelnen Teilstichproben gibt. Um dies genauer zu klären, stellen wir den Mittelwert aller Meßwerte fest. Er beträgt für unsere Daten x tot =3 „tot" ist ein Kürzel für "total - alle". Die weitere Analyse der Streuungen geht nun folgenden Gang: Von der Varianz, die - wenn die Grundgesamtheitsvarianz geschätzt werden soll - als σ 2 = Σ (x − x) 2 i n −1 definiert ist, wird zunächst nur der Zähler, also die Summe der Abweichungsquadrate, auch "Quadratsumme" genannt, abgekürzt QS, betrachtet. Beziehen wir in die Berechnung von QS alle Meßwerte aus allen Stichproben ein, und wählen wir x als Bezugsgröße, tot dann erhalten wir QS tot =Σ (x − x ) i 2 tot Dies ist die Quadratsumme, über alle Meßwerte gerechnet. Dieser Ausdruck wird als Resultat einer Addition aufgefaßt: QStot = QStreat + QSfehler "Treat" ist hier eine Abkürzung für "Treatment" (Behandlung). QStreat ist die Quadratsumme, deren Zustandekommen durch 130 unterschiedliche "Treatments" entstanden ist. ist eine durch zufällige Variation entstandene Quadratsumme. QSFehler Diese Gleichung spiegelt wieder, daß die Unterschiede zwischen den Meßwerten einen systematisch verursachten Anteil, QStreat in unserem Falle durch die spezifische Lehrmethode des Dozenten verursachten Anteil - , und einen zufälligen Anteil QSFehler haben. Diese Quadratsummen sind ihrerseits chiquadratverteilt, mit Freiheitsgraden, für die folgendes gilt: = dftreat dftot Teilt man QStreat + durch QStot dffehler , dann erhält man, wenn der Quotient mit 100 multipliziert wird, den „Prozentsatz der Varianzaufklärung“: QStreat * 100 Varianzaufklärung = ------------- = eta² + 100 QStot wird wie folgt berechnet: Die QStreat QS = nΣ treat (x − x ) k 2 tot Hier werden die Differenzen der "dozentenspezifischen" Mittelwerte und des Gesamtmittelwerts quadriert, aufsummiert und mit n multipliziert. Die QSfehler wird wie folgt berechnet: Für jeden Bereich k - also für jeden Dozenten wird die dozenten-spezifische Quadratsumme ermittelt. Alle diese Summen werden aufaddiert. Daher die Doppelsumme. QS treat = ΣΣ (x − x ) i 2 k Jeder Quadratsumme entspricht nun eine Schätzung der entsprechenden Varianz der Grundgesamtheit, also der totalen Varianz, der durch das "Treatment verursachten" Varianz und der durch "Fehler" verursachten Varianz. Diese Schätzungen erhält man, wenn man jeweils eine dieser Quadratsummen durch die ihr entsprechende Menge an Freiheitsgraden teilt: 131 σ∃ 2 tot = QS df tot tot σ∃ 2 treat QS df = treat treat σ∃ 2 fehler QS = df fehler fehler Die Freiheitsgrade, df, werden hier wie folgt bestimmt: dftot = n*p-1, wobei in unserem Beispiel n die Menge der Schüler pro Dozent ist, p die Menge der Dozenten. dftreat = p-1 dffehler = p*(n-1) Die Frage, ob der Grad der Varianzaufklärung Varianzaufklärung = QS *100 = eta QS treat 2 * 100 tot zufällig zustandekommt oder statistisch gesichert ist, wird nun mit Hilfe des F-Tests geprüft. Hierbei gilt die Beziehung: σ∃ F= σ∃ 2 treat 2 fehler wobei die Menge der Freiheitsgrade jene ist, die im Nenner der in diesen Bruch einbezogenen Ausdrücke steht. Wie oben schon erläutert, entsteht die F-Verteilung aus zwei Chi-Quadrat-Verteilungen, mit jeweils einer spezifischen Menge an Freiheitsgraden. Die Entscheidung, ob ein konkreter Bruch F zufällig zustande kommt oder nicht, wird wieder - wie schon bei den anderen oben gezeigten Verteilungen - an einem kritischen Wert c orientiert. c entspricht einem vorher festgelegten Niveau der Irrtumswahrscheinlichkeit für eine bestimmte FVerteilung. Dieses c wird mit dem konkreten berechneten F, für die jeweils relevante Kombination von Freiheitsgraden, verglichen. Ist das empirisch ermittelte F > c, wird die o.a. Nullhypothese abgelehnt. Für unser Beispiel errechnen wir: QS treat = 47,2 df = 3σ∃treat = 15,733 2 treat 132 F= QS fehler = 36,8 df = 16 σ∃fehler = 2,300 2 fehler c QS tot = 84,0 df 15,733 = 6,841 2,3 3;16;1% = 5,29 = 19 σ∃tot = 4,442 2 tot Da F > c ist, können wir die Nullhypothese auf dem 1% Niveau ablehnen. Es zeigt sich eine Varianzaufklärung = QS *100 = 56,19% QS treat tot Damit wird in diesem Beispiel das Problem der Fehlzeiten zur über 50 % durch die dozentenspezifische Art des Lehrens erklärt. Der entsprechende SPSS-Ausdruck sah für frühere SPSS-Versionen (SPSS6 oder 7) folgendermaßen aus: ANOVA /VARIABLES haeuf BY dozent (1,4) /STATISTICS ALL. HAEUF BY DOZENT TOTAL POPULATION 3.00 ( 20) DOZENT 1 2 1.20 3.60 ( 5) ( 5) ( * * * 3 5.20 5) C E L L ( M E A N S * * * 4 2.00 5) * * * A N A L Y S I S HAEUF BY DOZENT Sum of Source of Variation Squares DF Main Effects 47.200 3 DOZENT 47.200 3 O F Explained 47.200 3 Residual 36.800 16 Total 84.000 19 20 Cases were processed. 0 Cases ( .0 PCT) were missing. V A R I A N C E Mean Square 15.733 15.733 15.733 2.300 4.421 * * * F 6.841 6.841 Signif of F .004 .004 6.841 .004 133 Rechenschritte einer einfachen Varianzanalyse: Gegeben sind m Teilstichproben vom Umfange ni • • • • • • • • • Man berechnet die arithmetischen Mittel und die Varianzen für alle Teilstichproben und für den gesamten Datensatz. Die Varianzen der Teilstichproben werden mit (n-1) multipliziert. Es resultieren die Quadratsummen (QS) der Teilstichproben. Man addiert diese und erhält die Fehlerquadratsumme (QSFehler) Man ermittelt die Freiheitsgrade für QSFehler, indem man die Menge der Teilstichproben m mit (n-1) multipliziert. Es resultiert dfFehler. Dann teilt man QSFehler durch dfFehler. Es resultiert die Fehlervarianz, die auch Binnenvarianz pro Freiheitsgrad genannt wird und durch σ²Fehler bezeichnet wird. Man ermittelt die Treatmentquadratsumme QSTreatment, in dem man die Differenzen zwischen den Mittelwerten der Teilstichproben und dem Mittelwert der Gesamtstichprobe bildet, diese Differenzen quadriert und aufsummiert. Die Summe multipliziert man mit n. Man ermittelt die Freiheitsgrade dfTreatment von QSTreatment, indem man von der Menge der Teilstichproben m die Zahl 1 subtrahiert (m-1). Man teilt QSTreatment durch dfTreatment und erhält die Zwischenvarianz pro Freiheitsgrad σ²Treatment. Man addiert QSFehler und QSTreatment und erhält QStot. Man ermittelt den F-Wert, indem man σ²Treatment durch σ²Fehler teilt. Dem Zähler werden die Freiheitsgrade des Treatment dfTreatment zugeschrieben, dem Nenner die Freiheitsgrade für die Fehler dfFehler. Es wird – beispielsweise bei einer Irrtumswahrscheinlichkeit von 1 % der kritische Wert in der F-Verteilung gesucht, der Fdftreatment,dffehler,1% entspricht. Ist der empirische F-Wert größer als der kritische F-Wert, wird die Nullhypothese verworfen, daß alle Teilstichproben aus der gleichen Grundgesamtheit gezogen worden sein können. Ist der empirische F-Wert größer als der kritische F-Wert, behält man die Nullhypothese bei. Man ermittelt den Grad der Varianzaufklärung aus dem Quotienten QSTreatment* 100/ QStot= eta²*100 Man interpretiert das Ergebnis etwa folgendermaßen: Die Nullhypothese..............wird beibehalten/abgelehnt bei .......% Irrtumswahrscheinlichkeit. Der Grad der Varianzaufklärung ist....%. 12. Einführung in statistisches Rechnen 134 Es gibt in der Statistik viele Symbole, deren Bedeutung bekannt sein müssen, wenn entsprechende Formeln verstanden und sinngemäß angewendet werden sollen. Leider ist die Schreibweise und Definition einiger Symbole nicht bei allen Autoren einheitlich, so daß nicht selten aus dem Kontext erschlossen werden muß, was gemeint ist. Eine grundlegende Einführung auch in die mathematische Symbolsprache ist erfahrungsgemäß deshalb vonnöten, weil viele Studierende sehr schlechte Erfahrungen mit dem Mathematikunterricht gemacht und das meiste aus der Schule wieder vergessen haben. Da eine kurze Wiederholung eine gründlichere Beschäftigung mit diesen Symbolen nicht ersetzen kann, seien hier noch einschlägige Titel angegeben: GELLERT, W. u.a. /Hrsg): Kleine Enzyklopädie Mathematik, Frankfurt/M. 1972 WALKER, Helen M.: Mathematik für den statistischen Grundkurs, Weinheim 1971 BORTZ, Jürgen: Lehrbuch der Statistik, 2. Auflage, Anhang A, B und C, Heidelberg 1985. CLAUß, G., EBNER, H.: Grundlagen der Statistik, Kap. 6, Frankfurt Main 1975 ZÖFEL, Peter: Statistik in der Praxis. Kap (1.2), Stuttgart 1985 Statistik hat es mit Zahlen zu tun. Deshalb zunächst einiges über Zahlen: (1) Natürliche Zahlen: Kardinalzahlen: 1, 2, 3, ... Kardinalzahlen entstehen durch Abzählen der Elemente einer Menge Ordinalzahlen: 1., 2., 3., 4., ... (der erste, zweite, dritte, vierte ....) entstehen durch Zuweisung von Plätzen oder Rängen. Die Null gilt auch hier als natürliche Zahl. (2) Die Grundrechenarten und ihre Schreibweisen: Addition ( a +b) Subtraktion (a-b) (Multiplikation) (a*b); (ab) Diese drei Grundrechenarten sind im Bereich der natürlichen Zahlen unbeschränkt ausführbar. Die Division ((a÷b), (a:b),(a/b) und der waagerechte Bruchstrich) ist nur beschränkt ausführbar, da einige Zahlen sich nicht ohne Rest durch andere natürliche Zahlen teilen lassen. (3) Ganze Zahlen Sind mit Vorzeichen versehene natürliche Zahlen also -5 -4 -3 -2 -1 0 +1 +2 +3 +4 Sie sind erforderlich, um alle Subtraktionsaufgaben lösen zu können. (4) Absolutzahlen sind Zahlen ohne Vorzeichen: für die ganzen Zahlen -3 +5 -7 bzw. sind die AbsolutBETRÄGE 3 5 7 (5) Für das Rechnen mit ganzen Zahlen gilt a + b = b + a (Kommutativgesetz) (a+b) + c = a + (b+c) (Assoziativgesetz) Aus a < b folgt a + c < b + c (Monotoniegesetz) (6) Subtraktionen können auch durch Addition negativer Zahlen ausgeführt werden 6 - 2 = 6 + (-2) (7) Addition und Subtraktion sind Rechenoperationen erster Stufe Multiplikationen und Divisionen sind Rechenoperationen zweiter Stufe Letztere haben bei Rechnungen Vorrang (Punkt- geht vor Strichrechnung). 135 (8) Multiplizieren kann als fortlaufende Addition des gleichen Betrages aufgefaßt werden. Für Multiplikationen gilt: a * b = b * a (Assoziativgesetz) bei Zahlen > 0 (nicht für negatives c gültig): aus a < b folgt a*c < b*c (Monotoniegesetz) Vorzeichenregel: (+u) * (+v) = (-u) * (-v) = u*v (+u) * (-v) = (-u) * (+v) = -u*v (9) Division ist die Umkehrung der Multiplikation. Es gelten die gleichen Vorzeichenregeln (+u) : (+v) = (-u) : (-v) = u v ; (-u) : (+v) = (+u) : (-v) = - u v ; (10) Brüche Bei allen Divisionen entstehen Brüche z.B. der Form p q p heißt Zähler, q Nenner. Brüche mit dem Nenner 0 sind ausgeschlossen. (11) Erweitern z.B. 1 2 4 20 = = = 3 6 12 60 Zähler und Nenner werden mit gleicher Zahl multipliziert 20 10 5 1 = = = 80 40 20 4 Zähler und Nenner werden durch gleiche Zahl dividiert Kürzen z.B. (12) Bruchrechnen Brüche werden addiert, indem man sie gleichnamig macht. Der Hauptnenner ist das kleinste gemeinsame Vielfache der Nenner: z.B. 1 3 11 5 + 9 − 22 − 8 4 + − = = =− 6 10 15 30 30 15 (13) Produkt von Brüchen a c a *c * = b d b*d (14) Quotient von Brüchen a c a d : = * b d b c 136 (15) Distributivgesetz: (Vgl. oben (8)). a * (b+c) = a*b + a*c (16) Dezimalbrüche Jeder gemeine Bruch läßt sich als endlicher oder periodischer Dezimalbruch schreiben: z.B. 1 5 = = 0,5: 2 10 34 = 0, 34 = 0, 3434343434.... 99 (17) Rechnen mit Dezimalbrüchen Addition: Komma unter Komma: 0, 45 +23, 43 =23, 88 Multiplikation: Wie bei natürlichen Zahlen, Menge der Kommastellen richtet sich nach der Summe der Kommastellen der Faktoren: 50*0,00004= 0,002 50 hat zwei Vorkommastellen 0,00004 hat fünf Nachkommastellen. 2-5 = -3, also muß das Ergebnis drei Nachkommastellen haben. Division: Der Divisor wird zu einer ganzen Zahl gemacht. Entsprechend wird beim Dividieren das Komma verschoben: 0,88 : 0,0022 = 8800 : 22 = 400 (18) Potenzen und Wurzeln Potenzen sind Vorschriften für mehrfache Multiplikation: Wurzeln sind Potenzen mit gebrochenem Exponenten. a*a*a =a 3 a ist hier die Basis, 3 der Exponent. Der Exponent kann im Prinzip jeden Zahlenwert annehmen, also positiv und negativ sein, ganzzahlig oder gebrochen. Auch die Basis darf positiv und negativ sein. Ausnahmen siehe unten. Beispiele: 0° = verbotene Operation 137 10 0 10 1 = 10 10 2 = 100 10 8 = 100 000 000 10 = 1 −1 (±10) (-10) 1 100 2 = 2 −4 −5 = +0,0001 = - 0,00001 100 = 10 − 12 100 = 1/10 8 = 0.00000001 (-100) 2 = verbotene Operation (wenn Basis a<0, darf Exponent nur ganze Zahl (-10) 2 = +100 sein) (-10) 3 = -1000 10 −8 = 0,1 = 1 100 = 1/10 = 0,1 2 −1 (19) Regeln zur Potenzrechnung n (a*b) n a *a ( ab ) n = a *b m =a n Multiplikation n+ m n = an n Division b m a n = a m− n a a° = 1 ; (für a ≠ 0) a −n n (a ) n 1 = am = a m m Erweiterung des Potenzbegriffs auf Potenzen von 0 und den Bereich kleiner 0 n =a a nm n Wurzeln als Bruch im Exponenten (20) Logarithmen Beispiele: 2 für die Beziehung 10 = 100 kann gesagt werden, daß der Exponent 2 der Logarithmus von 100 auf der Basis 10 ist. für die Beziehung 2 ist. 3 = 8 kann gesagt werden, daß der Exponent 3 der Logarithmus von 8 auf der Basis 2 Logarithmengesetze (bezogen auf die Basis b): log b (n 1 *n 2 ) = log b n 1 + log b n 2 Der Logarithmus eines Produkts ist gleich der Summe der Logarithmen der Faktoren log b n1 = log n - log n b 1 b 2 n2 log b Differenz der Logarithmen des Dividenden und des Divisors heißt „Logarithmus auf der Basis b“. Die Basis muß größer als eins sein. r Logarithmus einer Potenz w = 1r log b w Logarithmus einer Wurzel log b (p ) = r*log b p log b r Der Logarithmus eines Quotienten ist gleich der 138 Bei den Logarithmen auf der Basis 10 verweist eine positive Zahl vor dem Komma auf die Menge der Stellen der Zahl, ist sie negativ, verweist sie auf die Menge der Nullen nach dem Komma. Die Zahlen der Logarithmen nach dem Komma nennt man auch Mantisse. Beispiele: log 10 2000 = 3,301029996 log 10 200 = 2,301029996 log 10 = 1,301029996 log 10 20 0,02 = - 1,698970004 (2000 hat 4 Stellen; 3+1 = 4) (0,02 hat zwei Stellen nach dem Komma. - (1+1) = - 2 (21) Logarithmen auf der Basis 2, e und 10 Da Logarithmen auf der Basis aller Zahlen, die größer als 1 sind, definiert sein können, ist zu fragen, was „üblich“ ist. Üblich sind die Basis 2, die Basis e und die Basis 10. Die Logarithmen auf der Basis 10 heißen „dekadische“, die auf der Basis e „natürliche“ und die auf der Basis 2 „logarithmus dualis“. Die dekadischen Logarithmen schreibt man lg, die natürlichen ln. Die Basis „e“ ist eine Zahl, die sich ergibt, wenn man die Reihe e= 1im n→∞ n (1+ 1n ) , bzw. deren „Grenzwert“ berechnet. Ihr Betrag ist 2,718281828...... (e ist eine „transzendente Zahl“, gehört also zu einer Teilmenge der „reellen Zahlen“, Definition siehe unten (23)). x Der Vorteil der Zahl e ist, daß die Funktion e einen Differentialquotienten hat, der ihrem Betrag proportional ist, das heißt, er läßt sich leicht berechnen. Der Differentialquotient ist ein Ausdruck für die Steigung. Die Umrechnung von Logarithmen der einen in die der anderen Basis ist leicht: lg n = 1/(ln 10) * (ln n) = 0,4342945* (ln n) (22) Vorteil des Rechnens mit Logarithmen: Jede Rechnung wird auf der nächst-niedrigeren Stufe durchgeführt, Multiplikationen werden zu Additionen, die Potenz wird zur Multiplikation. Dadurch lassen sich in Brüchen Probleme lösen, die sonst nicht lösbar wären. Außerdem lassen sich nichtlineare Funktionen teilweise in lineare Funktionen überführen (Linearisierung). (23) Viele Logarithmen, Wurzeln und die Zahlen e (s.o.) und π gehören zu den „reellen“ Zahlen“. Diese sind unendliche - positive und negative - Dezimalbrüche. Die oben erwähnten „transzendenten“ Zahlen genügen keiner algebraischen Gleichung mit ganzzahligen Koeffizienten. (24) Algebraische Gleichungen sind solche, in denen mit den Unbekannten nur algebraische Rechenoperationen vorgenommen werden, d.h., + - * ÷, Wurzel, Potenz. Transzendente Zahlen können in algebraischen Gleichungen vorkommen. Grundformen algebraischer Gleichungen sind die lineare Gleichung, die quadratische Gleichung und schließlich die allgemeine algebraische Gleichung; sie werden hier in der 139 Form der Bestimmungsgleichung aufgeschrieben, d.h. die Bestimmung der Koeffizienten a i wird versucht: a 1 x1 + a 0 xo = 0 a2x 2 a3 x 3 an x n 1 lineare Gleichung (Gerade) o + a1 x + a 0 x = 0 +a2x 2 + a n −1 x quadratische Gleichung (Parabel) 1 o + a1 x + a 0 x = 0 n −1 1 kubische Gleichung (kubische Funktion) o + ...+ a 1 x + a o x = 0 allgemeine Form der algebraischen Bestimmungsgleichung (Polynom) (25) Von den algebraischen Gleichungen werden Exponential- und logarithmische Gleichungen unterschieden: z.B. e −x -x=0 oder ln x + x = 0 (26) Von der Form der Bestimmungsgleichung unterscheidet sich die Form der Funktionsgleichung: z.B. Gerade: y = a1x1 + aoxo = a 1 x + a 0 (27) Mehrere Gleichungen mit mehreren Unbekannten lineare Gleichungen a1 x + b1 y = c1 zwei Gleichungen, zwei Unbekannte a2x+b2y=c2 a 11 x 1 + a 12 x 2 + a 13 x 3 = b1 drei lineare Gleichungen a 21 x 1 + a 22 x 2 + a 23 x 3 =b2 drei Unbekannte a 31 x 1 + a 32 x 2 + a 33 x 3 =b3 Die Koeffizienten werden mit verschiedenen Lösungsverfahren ermittelt. Lösbarkeit ist nicht in allen Fällen gegeben. Ist die Zahl der Gleichungen größer als die der Unbekannten, ist das System überbestimmt und hat keine Lösung. Lösungsmodelle werden heute der Matrix-Algebra entnommen (s.u.) (28) Folgen und Reihen Folgen sind gegeben, wenn jeder natürlichen Zahl n genau eine Zahl a n zugeordnet wird, die das n-te Glied der Folge ist. arithmetische Folge: a 1 ; a 2 = a 1 + d; a 3 = a 1 +2d; ... a n = a 1 + (n-1)d 1 2 geometrische Folge: a 1 ; a 2 = a 1 * q ; a 2 = a 1 * q ; ... a n = a 1 q n −1 140 Die Folge muß keine der Größe nach geordneten Zahlen enthalten, dies gilt nur für bestimmte (z.B.: arithmetische, geometrische) Folgen. Reihen sind aufsummierte Folgen, z.B. n a 1 + a 2 + a 3 + a 4 + a 5 + ... + a n = ∑a i =1 Σ heißt „Summe“ i (lies: Summe über a i für i=1 bis n) Wenn keine Mißverständnisse befürchtet werden müssen, können die Summationsgrenzen (hier 1 und n) weggelassen werden. Beispiele: 12 A 7 + A 8 + A 9 + A 10 + A 11 + A 12 = a τ +a τ a τ +a τ +a τ 5 6 5 (x1 − a ) χ 6+ 7 8 7 9 8 ∑A i i =7 9 = ∑ ai τ i 9 i =5 4 + ( x 2 − a ) + ( x3 − a ) + ( x 4 − a ) = ∑ ( xi − a ) 2 2 2 2 2 i =1 16 + χ 13 + χ 14 + χ 15 + χ 16 = ∑ χ i 12 2 2 2 2 2 2 i =12 ∑ (χ 5 i =1 i ) ( χ − 2) + ( χ − 2) + ( χ − 2) + ( χ − 2) + ( χ − 2) = ( χ + χ + χ + χ + χ ) − 10 −2 = 2 1 1 2 5 = ∑χ i =1 i 3 3 4 4 5 5 − 10 4 ∑ aχ = aχ + aχ + aχ + aχ 1 i i =1 2 3 4 ( χ + χ + χ + χ ) = a∑ χ 4 = a 1 2 χ +χ +χ +χ 3 4 7 12 3 4 i =1 i kann nicht mit Hilfe des Summationszeichens geschrieben werden. Doppelte Indizes Wenn Daten nach mehr als einem Gesichtspunkt eingeteilt werden, ist der Gebrauch von doppelten oder sogar dreifachen Indizes sehr nützlich. Als einfaches Beispiel sei angenommen, daß von N Schülern c verschiedene Tests durchgeführt worden sind, also N*c Messungen. Es sei X 12 (lies „X eins zwei“) der Testwert von Schüler 1 beim Test 2, X 71 der Wert von Schüler 7 beim Test 1 und allgemein X ij der Wert von Schüler i beim Test j. Die Nc Testwerte können in einer rechteckigen Formation, genannt Matrix, angeordnet werden: 141 In dieser Matrix liegen die Werte jedes einzelnen Schülers in einer Reihe; die Werte aller Schüler in einem einzigen Test sind in einer Spalte. Die Reihe der Werte X i1 , X i 2 , ..., X ic repräsentiert die Werte von irgendeinem nicht spezifizierten Schüler. Die Spalte X 1 j , X 2 j , ..., X Nj repräsentiert die Werte aller Schüler bei irgendeinem nicht spezifizierten Test. Algebraische Symbole X 11 X 12 . X1j . X 1C X 21 X 22 . X2j . X 2C X 31 X 32 . X3j . X 3C . . . X i1 . . . X i2 . . . . . . . X ij . . . . . . . . . X N1 . . . . . . X N2 . . X iC . . . . . . X Nj . . . . X NC Man möchte eventuell die Summe der Werte eines einzelnen Schülers bei allen Tests oder die Summe der Werte aller Schüler bei einem einzigen Test angeben oder die Summe der Werte aller Schüler bei allen Tests. Studiere dazu die folgenden Gleichungen und drücke sie dabei in Worten aus. Für die Werte von Schüler 6 gilt: C X 61 + X 62 + ... + X 6 j + ... + X 6 j = ∑X i =1 6j (Die Summe der X 6 j , wobei j von 1 bis c läuft) Für die Werte in Test 4 gilt: N X 14 + X 24 + ... + X i 4 + ... + X N 4 = ∑X i =1 i4 (Die Summe der X i 4 , wobei i von 1 bis N läuft) Für die Werte irgendeines nicht spezifizierten Schülers gilt: N X 1 j + X 2 j + ... + X ij + ... + X Nj = ∑X i =1 ij Für die Werte irgendeines nicht spezifizierten Tests gilt: C X i1 + X i 2 + ... + X ij + ... + X iC = ∑X j =1 ij Übung Für alle Werte gilt, wenn man sie erst spalten- und dann reihenweise addiert: (X 12 + X 21 + ... + X N 1 ) + (X 12 + X 22 + ... + X N 2 ) + ... + (X 1C + X 2 C + ... + X NC ) 142 N = ∑ i =1 C = N X i1 + ∑ i =1 N X i 2+...+∑ i =1 X iC N ∑∑ X j =1 i =1 ij Für alle Werte gilt, wenn man sie erst reihen- und dann spaltenweise addiert: (X 11 + X 12 + ... + X 1C ) + (X 21 + X 22 + ... + X 2 C )+ ... + (X N 1 + X N 2 + ... + X NC ) C = ∑X j =1 N = 1i C C j =1 j =1 + ∑ X 2i + ... + ∑ X Ni C ∑∑ X i =1 j =1 ij Offenbar ist das Endergebnis stets gleich, egal ob man zuerst die Reihen oder die Spalten addiert. (29) Fortlaufendes Produkt. In Analogie zur Reihe kann eine Folge auch fortlaufend multipliziert werden. Die Schreibweise ist dann n a 1 * a 2 * a 3 ... * a n = Π i =1 a Π heißt „Produkt“ i (lies: Produkt über a i für i= 1 bis n) (30) Fakultät, Permutationen Das Produkt 1*2*3*4 wird auch als 4! geschrieben (allgemein: n!) (lies: vier Fakultät). n- Fakultät bedeutet: n! = 1*2*3*...*(n-1)*n Es gilt: 0! = 1; 1! = 1. (n- Fakultät entspricht der Zahl der möglichen Vertauschungen der Reihenfolge der Elemente einer Menge mit n verschiedenen Elementen: Beispiel: Die Buchstaben abc können in 3!=6 verschiedenen Reihenfolgen geschrieben werden: abc, acb, bac, bca, cab, cba. Solche Vertauschungen heißen auch Permutationen). (31) Kombinationen und „n über k“ n k der Ausdruck (lies: n über k) ist eine abgekürzte Schreibweise von n r n! . k !( n − k )! als C n ,r oder als C Der gleiche Ausdruck wird auch als oder n r oder als r Cn geschrieben. Er ist ein Symbol für die Menge verschiedener Kombinationen von k Elementen einer Menge mit dem Umfang n, aus der k (bzw. r) Dinge ausgewählt werden, ohne daß es auf die Reihenfolge ankäme. 49 49 ! = 13983816 = 6 6 !( 49 − 6)! Beispiel: Beim Spiel 6 aus 49 errechnen sich verschiedene Kombinationen von 6 Lottozahlen. 143 (32) Multiplikation algebraischer Summen (a+b) (c+d) = a(c+d) + b(c+d) =ac + ad + bc + bd (33) Binomische Formeln als Sonderfall der Multiplikation algebraischer Summen (a±b) 2 =a 2 2 ± 2ab + b (a+b) (a-b) = a 2 -b 2 n k Bei höheren Potenzen ergibt sich durch die Einführung des Summenzeichens und des Ausdrucks eine vereinfachte Schreibweise: (a+b) n n 0 n = a b n 1 + a n −1 b n 2 1 + a n−2 b 2 n n + ... + a 0 b n n n − k k a b k n = 0 ∑ k =0 n k Die Ausdrücke heißen auch Binomialkoeffizienten, weil sie in der o.a. Gleichung die Berechnung des Koeffizienten vor den Produkten von a und b gestatten. Beispiel (die Binomialkoeffizienten werden fett gedruckt) (a+b) 7 b 0 + 7a + 21 a 2 b = 1a 7 5 6 b 1 + 21a +7a 1 b 6 5 b + 1a 0 2 + 35a b 4 b 3 + 35 a 3 b 4 7 Die Entwicklung der Folge der Binomialkoeffizienten ist symmetrisch. (34) Matrizenrechnung: Definition einer Matrix Matrix = rechteckige Anordnung von Zahlen in Zeilen und Spalten (n = Menge der Zeilen, m = Menge der Spalten in einer n*m Matrix) Die Matrix wird mit fettgedruckten Großbuchstaben bezeichnet, die Elemente haben Indizes, deren erster die zugehörige Zeile, deren zweiter die zugehörige Spalte bezeichnet: a11 A = a 21 a31 a a a 12 22 32 24 34 a a a a a a 13 23 33 14 A = a ij (i=1,2,3;j=1,2,3,4) (35) Transponierte Zeilen und Spalten der ursprünglichen Matrix werden vertauscht: Wenn A z.B. 2 3 6 A = 5 0 4 1 2 1 2 5 1 wäre die Transponierte A’ = 3 0 2 6 4 1 144 (36) Matrizen, die nur eine Zeile oder Spalte haben, werden Vektoren genannt, Spaltenvektoren werden mit fettgedruckten Kleinbuchstaben bezeichnet, Zeilenvektoren mit fettgedruckten Kleinbuchstaben mit Strich u’ = (u 1 , u 2 , u 3 ), wenn sie als transponierte Spaltenvektoren angesehen werden. V 1 V 2 v= V 3 V 4 (37) Matrizen, die nur einen Wert haben, heißen Skalar. In einer Diagonalmatrix sind nur die Werte in der Diagonale von links oben nach rechts unten besetzt. In der Identitätsmatrix ist diese Diagonale mit Einsen besetzt. Die Diagonalmatrix wird mit D, die Identitätsmatrix mit I bezeichnet. I wird oft auch als Einheitsmatrix bezeichnet. (38) Addition von Matrizen Jedes Element der Summenmatrix ist gleich der Summe der korrespondierenden Matrizenelemente 3 1 5 2 2 4 A 5 4 1 2 1 3 + 8 5 6 4 3 7 B = C (39) Multiplikation mit einem Skalar oder mit einer Matrix: Multiplikation mit einem Skalar: Jedes Matrixelement wird mit dem Skalar multipliziert. Multiplikation mit einer Matrix folgt der Regel s C=A*B c ij = ∑a *b k =1 ik kj für i=1,2...n; j=1,2...m und k=1,2...s. A ist hierbei eine n*s Matrix, B ist eine s*m Matrix und C eine n*m Matrix. Beispiel: A 5 3 0 6 9 7 * B = 0,5 0,2 8 4 6 1 C 14,5 25 46 115,2 Die einzelnen Elemente der Ergebnismatrix C werden wie folgt errechnet: c 11 = 5*0,5+3*4+0*1 = 14,5 145 c 12 = 5*0,2+3*8+0*6 = 25 c 13 = 6*0,5+9*4+7+1 = 46 c 14 = 6*0,2+9*8+7*6 = 115,2 Würde man die Reihenfolge von A und B in dieser Multiplikation vertauschen, dann hätte C nicht wie oben die Dimension 2*2 sondern 3*3: A * B 0,5 0,2 8 4 6 1 = 5 3 0 6 9 7 C 3,7 3,3 1,4 68 84 56 41 57 42 c 11 = 0,5*5+0,2*6 = 3,7 c 12 = 0,5+3+0,2+9 = 3,3 c 13 = 0,5+0+0,2*7 = 1,4 c 21 = 4*5+8*6 = 68 c 22 = 4*3+8*9 = 84 c 23 = 4*0+8*7 = 56 c 31 = 1*5+6*6 = 41 c 32 = 1*3+6*9 = 57 c 33 = 1*0+6*7 = 42 Es kommt bei der Matrizenmultiplikation daher auf die Reihenfolge an. Bedingung für die Matrizenmultiplikation ist, daß die Menge der Spalten der links stehenden Matrix gleich der Menge der Zeilen der rechts stehenden Matrix ist. (40) Die Matrizenmultiplikation ist distributiv und assoziativ, aber nicht kommutativ: (A+B)*C = A*C + B*C A* (B+C) = A*B+A*C (A*B)*C = A*(B*C) = A*B*C (41) Die Multiplikation mit einer Diagonalmatrix verändert im Fall der Einheitsmatrix die Ursprungsmatrix nicht, gleichgültig, ob von links oder von rechts multipliziert wird. AI = IA = A (42) In eine Determinante gehen sämtliche Elemente der Matrix ein. Sie ist eine Zahl, die als gewichtete Summe der Elemente einer beliebigen Zeile oder Spalte berechnet wird. (Zum Berechnungsverfahren siehe Bortz (1989, S. 816f). Die Determinante wird für die Matrix A A geschrieben. Die Determinante ist für Ursprungsmatrix und Transponierte identisch: A = A' . Die Determinante eines Matrixprodukts ist gleich dem Produkt der entsprechenden Determinanten: AB = A * B (43) Die Inverse einer Matrix ist diejenige Matrix, die mit der ursprünglichen Matrix 146 multipliziert, die Einheitsmatrix ergibt. Die Inverse von A wird A Es gilt die Beziehung −1 geschrieben. A*A −1 =I −1 A *A=I Zum Berechnungsverfahren siehe BORTZ (1989, S. 820f) Sowohl die Berechnung von Inverse als auch Determinante sind bei größeren Matrizen so rechenaufwendig, daß ausschließlich von Rechenprogrammen Gebrauch gemacht wird, um sie zu bestimmen. (44) Die Inverse existiert nur für quadratische Matrizen und nur für solche, deren Determinante von 0 verschieden ist. Für symmetrische Matrizen ist die Inverse ebenfalls symmetrisch. Die Inverse einer Transponierten ist gleich der Transponierten der Inversen: (A’) −1 = (A −1 )’ (45) Lineare Gleichungssysteme vgl. oben 24) lassen sich mit Hilfe der Matrizenrechnung wie folgt lösen: Gegeben sei ein Gleichungssystem mit folgenden Gleichungen: 9x 1 + 5x 2 + 3x 3 = 0 5x 1 + 4x 2 + 5x 3 = 0 0x 1 + 4x 2 + 4x 3 = 3 Wir definieren aus diesen Gleichungen die Matrix 9 5 3 A = 5 4 5 0 4 4 den Spaltenvektor x1 x = x 2 x 3 den Spaltenvektor 0 c= 0 3 Gesucht sind die Elemente des Spaltenvektors x. Sie können aus folgender Gleichung errechnet werden: X=A −1 * c; also: A −1 * c = x 147 0 0 3 0,05 0,11 − 0,17 0,26 − 0,47 0,39 − 0,26 0,47 − 0,14 − 0,51 , 118 − 0,43 Es ergeben sich: x 1 = -0,51; x 2 = 1,18; x 3 = -0,43 (es zeigen sich bei der Probe kleine Rundungsfehler, weil nur zwei Nachkommastellen angezeigt wurden). (46) Bestimmtes Integral Für viele Probleme der Statistik ist es erforderlich, Integrale zu berechnen. In der Regel handelt es sich hierbei um Integrale von Verteilungsfunktionen. Deshalb soll hier kurz angedeutet werden, wie die mathematische Schreibweise ist, ohne tiefer auf Probleme der Integralrechnung einzugehen: Man kann das Integral als Fläche zwischen einer stetigen Funktion und der x-Achse beschreiben. Integrale werden für bestimmte Intervalle berechnet. Die Intervallgrenzen werden unterhalb und oberhalb des Integralzeichens angegeben. Für die stetige Funktion y = f(x) (lies: y ist eine Funktion von x) schreibt man das bestimmte Integral zwischen den Grenzen x = a und x = b wie folgt: b ∫ f ( x )dx (lies: Integral von a bis b über f(x) dx). a Diese Schreibweise ist entstanden aus folgender Vorstellung: Man schneide die Fläche unter der Funktion in lauter kleine Streifen, deren Breite mit ∆x bezeichnet wird und deren Höhe entweder mit m i oder M i bezeichnet wird, je nachdem, ob die oberen Kanten der (rechteckigen) Streifen die Funktion von unten (Untersumme) oder von oben (Obersumme) berühren. Werden die Streifen unendlich schmal, dann gleichen sich Ober- und Untersumme an. Das Integral ergibt sich dann als Grenzwert folgender Summen: lim lim n n→∞ n ∑m ∆ x = n → ∞∑ M ∆ x = F i =1 i i =1 i a b b = ∫ f ( x ) dx a (47) Differentialrechnung Der Ausgangspunkt der Fragestellung ist: Welche Steigerung (Gefälle) hat eine stetige Funktion. Stellt man die Steigerung als Verhältnis von zwei Strecken dar, dann kann sie näherungsweise durch den sog. Differenzenquotienten bestimmt werden. Dieser lautet: ∆y = ∆x y−y x −x 1 0 1 0 = tan α Geht ∆x gegen 0, dann geht α ∆y ∆x in dy dx ist näherungsweise der Steigungswinkel über. 148 Dieses ist der genannte Differentialquotient. In diesem Quotienten heißt dy Differential der Funktion an der Stelle x 0 . dy = f’ (x 0 ) dx; dy = f’(x 0 ) dx dx ist das Differential der abhängigen Variablen.. f’ (x) wird als 1. Ableitung der Funktion f(x) bezeichnet. Viele Funktionen haben mehr als eine Ableitung, d.h. man kann von der Ableitung wieder eine Ableitung bilden (1., 2., n-te Ableitung). In Formeln drückt man das wie folgt aus: n d y = d(d n −1 y) = f (n) (x) (dx) n (Differential n-ter Ordnung) Ein Differential 3. Ordnung schriebe man: 3 2 n y = d(d y) = f’’’ (x) (dx) 3 Von den zahlreichen Differenzierungsregeln (Faktor-, Summen-, Produkt- und Quotientenregel) soll hier nur die Potenzregel mitgeteilt werden: dx n n −1 =nx dx n reell) de x x Spezialfall: =e dx Von Funktionen mit mehreren unabhängigen Variablen können partielle oder totale Ableitungen gebildet werden. 13. Kurze Einführung in SPSS 6.0.1 und in die wichtigsten Routinen. 13.1. Die „Fenster“ von SPSS Diese Einführung setzt die Vertrautheit mit der Fenstertechnik in Windows 3.1. voraus. Der Einführung liegt die Version SPSS 6.0.1 zugrunde. Wenn man in Windows 3.1. das Programm SPSS 6.0.1 lädt, dann zeigen sich drei Fenster, zwischen denen man durch den Befehl STRG+F6 hin- und her-wechseln kann. 149 13.1.1. Das Datenfenster Die unten stehende Tabelle ist dem Datenfenster nachgebildet: • In der obersten Zeile steht eine Datensatzbezeichnung mit Angabe des Pfades. • In der zweiten Zeile steht die Fallnummer und die Bezeichnung der Variable, in der sich der Kursor befindet. Davon getrennt befindet sich rechts das Eingabefenster für weitere Daten. • In der dritten Zeile stehen die bereits vergebenen Variablen-Namen. Kästchen, in denen noch kein Variablenname steht, sind nur mit „var“ bezeichnet. • In der 4. Zeile steht der 1. Fall, der mit der laufenden Nr. 1 bezeichnet ist. Ihm sind alle Ausprägungen aller Variablen (Merkmale) in der 1. Zeile zuzuordnen, die auf ihn zutreffen. Klickt man die Schaltfläche zweimal an, auf der VAR steht, dann öffnet sich ein weiteres Fenster, in dem die Möglichkeit besteht, zahlreiche Eingaben zur Definition der Variablen zu machen. • Variablenname: Hier kann ein bis zu 8 Zeichen langer Variablenname eingegeben werden. • Variablenbeschreibung: (Alle folgenden „Einstellungen“ sind jederzeit änderbar): • Typ: Varianten sind: Numerisch und andere (Tip: immer numerisch nehmen) • Breite (Tip: immer 8 nehmen) • Dezimalstellen (Tip: nur bei ganzzahligen Werten 0 nehmen, sonst die notwendige Zahl) • Label: Hier kann eine ausführliche Variablenbezeichnung eingegeben werden, ohne Beschränkung. Weiterhin können hier für bestimmte Ausprägungen Namen vergeben werden (Wertelabels). Missing Werte: Hier können Zahlen angegeben werden, bei deren Verarbeitung der Rechner intern den jeweiligen Fall als „fehlende Angabe“ bewertet. (Tip: Möglichst den Missing Wert 0 nehmen, wenn die Zahl 0 sonst nicht gebraucht wird). • Spaltenformat: Hier können Breite des Drucks und Ausrichtung der Zahlenangaben beim Druck (links, rechts, zentriert) gewählt werden.(Tip: Spaltenformat immer größer als das Zahlenformat wählen. Es empfiehlt sich, vor Eingabe der Daten alle Variablen vollständig zu definieren. Ist dies geschehen, kann die Dateneingabe beginnen. Dies geht wie folgt: Eingabe der Zahl ins Dateneingabefenster, dann die Enter-Taste drücken. Der Kursor springt dann automatisch zum nächsten Fall bei der gleichen Variable: In der nebenstehenden Tabelle sind die ersten 10 Zahlen für unser Beispiel vom Tag der offenen Tür 1985 eingegeben. Der Kursor steht im Feld 10/1. In der zweiten Zeile ist angegeben, daß der Kursor auf dem 10 Fall der Variable „Besucher“ steht, und - im Eingabefeldkann abgelesen werden, daß der Wert dieses Falles „24“ ist. c:\(Pfad)Besuch85.sav 10:Besucher 24 (Eingabefeld) (lfd.Nr.) Besucher var 1 26 2 14 3 3 4 8 5 21 6 39 7 4 8 15 9 1 10 24 ... 13.1.2. Häufigkeitsanalysen als Rechenbeispiel Für alle Häufigkeitsanalysen kann man nun folgende Befehle im Menue von SPSS anklicken (die entsprechenden Fenster öffnen sich nacheinander: „Statistik“, „Deskriptive Statistik“, „Häufigkeiten“. Es öffnet sich bei „Häufigkeiten“ ein Fenster, in dem links die definierten Variablen stehen. Die blaue Markierung ist mit Hilfe der Maustaste bewegbar. Man kann hiermit die Namen jener Variablen auswählen, die 150 man in SPSS untersuchen will. Nach der Auswahl werden sie durch Anklicken des nach rechts gerichteten Pfeils in die Variablenliste für den jeweiligen Vorgang kopiert. Weiterhin kann man in diesem Fenster bestimmen, ob man die Häufigkeitstabelle (nicht) anzeigen will und welche von den Kennwerten (hier „Statistiken genannt“) man berechnet haben möchte. 13.1.3. Das Syntaxfenster. Wenn man dann alles ausgewählt hat, könnte man den „Befehl“, der von SPSS inzwischen intern aufgebaut worden ist, im „Syntax-Fenster“ anzeigen lassen. Hierzu klickt man auf die Schaltfläche „Befehl“. Es öffnet sich das Syntax-Fenster, und in diesem könnte beispielsweise folgender „Befehl“ stehen: FREQUENCIES VARIABLES=besuch85 /PERCENTILES= 5 /STATISTICS=STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SKEWNESS KURTOSIS /HISTOGRAM NORMAL (Beachten, daß hier ein Punkt steht)!! . Solche „Befehle“ kann man im Syntax-Fenster auch manuell vom Tastenfeld aus eingeben oder ändern, und man sollte sie in Forschungsprojekten zur eigenen Orientierung als File abspeichern (Speichertechnik wie in Windows generell üblich), damit man später noch sehen kann, was man mit welchen Daten wann gerechnet hat. Die Sprache dieser Befehle („Befehls-Syntax“) ist weitgehend (aber nicht vollständig) noch mit der alten unter DOS gültigen Sprache identisch. Die englische Terminologie, die nicht in allen SPSS-Versionen vollständig ins Deutsche übertragen wurde, bedeutet für dieses Beispiel im Deutschen: SPSS-Ausdruck FREQUENCIES : VARIABLES=besuch85 /PERCENTILES= 5 /STATISTICS= STDDEV VARIANCE RANGE MINIMUM MAXIMUM SEMEAN MEAN MEDIAN MODE SKEWNESS KURTOSIS /HISTOGRAM NORMAL Bedeutung im Deutschen Führe eine Häufigkeitsanalyse durch für die Variable mit dem Label „besuch85“ Berechne den Prozentrang 5. Berechne folgende Kennwerte Standardabweichung Varianz Eingriffsspielraum kleinsten Meßwert größten Meßwert Standardfehler des arithmetischen Mittels arithmetisches Mittel Median den kleinsten Modus die Schiefe den Exzess Zeichne ein Histogramm und lege hierhinein den Verlauf einer Normalverteilungs-Kurve mit den entsprechenden Kennwerten für die 151 Standardabweichung und das arithmetische Mittel. Jeder SPSS-Befehl wird immer mit einem PUNKT enden (Siehe den Befehlstext oben). Ohne Punkt ist er nicht ausführbar. Um ihn auszuführen, markiere ich mit der Maus den gesamten Befehlstext. Dann klicke ich auf die Schaltfläche „Ausführen“. 13.1.4. Das Ausgabe-Fenster und das Graphik-Karussel 13.1.4.1. Das Ausgabe Fenster Es öffnen sich jetzt das „Ausgabe-Fenster“ und, wenn eine Graphik angefordert wird, zeigt sich das Symbol für das Graphik - Karussell. Im Ausgabefenster könnte folgendes stehen: BESUCH85 Besucheralter beim Tag der offenen Tür 1 Value Label Value Frequency Percent Valid Percent Cum Percent 1 3 4 8 14 15 21 24 26 39 1 1 1 1 1 1 1 1 1 1 ------10 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 ------100,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 10,0 ------100,0 10,0 20,0 30,0 40,0 50,0 60,0 70,0 80,0 90,0 100,0 Total Hi-Res Chart Mean Mode Kurtosis Minimum 2:Histogramm vom Besucheralter beim Tag der Offenen Tür 1985 15,500 1,000 -,169 1,000 Std err Std dev Skewness Maximum 3,833 12,122 ,621 39,000 Median Variance Range * Multiple modes exist. The smallest value is shown. Percentile 5,00 Valid cases Missing cases Value 1,000 10 Hierin bedeuten: Value-Label: Value: Frequency Percent Valid-Percent Cum Percent 14,500 146,944 38,000 0 Werte-Etikett (Labels wurden hier nicht vergeben) Wert aus der Datenmatrix Beobachtete Häufigkeit Rohprozente (wenn fehlende Fälle auftreten, werden sie mit-prozentuiert. Gültige Prozente (wenn fehlende Fälle auftreten, werden sie nicht mitprozentuiert. Von unten nach oben aufkumulierte gültige Prozente. Es empfiehlt sich, auch die Inhalte des Ausgabefensters innerhalb von Projekten abzuspeichern und sich eine systematische Liste der gespeicherten Ausgaben mit den Filenamen und anderen Angaben anzulegen. 13.1.4.2. Das Graphik-Karussel Klickt man nun das Graphik-Karussel-Symbol an, dann könnte im Graphikfenster folgende Graphik erscheinen. 152 2,5 Histogramm 2,0 Häufigkeit 1,5 1,0 Std.abw. = 12,12 Mittel = 15,5 N = 10,00 ,5 0,0 0,0 10,0 5,0 20,0 15,0 30,0 25,0 40,0 35,0 Besucheralter beim Tag der offenen Tür 1985 Die obige Graphik kann im Graphik-Fenster noch in verschiedenster Weise bearbeitet werden. Da man innerhalb einer SPSS-Sitzung mehrere Graphiken (auf einmal oder nacheinander) erzeugen kann, die man nacheinander „durchblättern“ kann, wird der Graphik - Editor auch „Graphik-Karussel“ genannt. Wie wir sehen, werden hier mit wenigen Handgriffen alle die komplizierten Rechnungen ausgeführt, die oben im Skriptum theoretisch beschrieben wurden. 13.1.5. Übertragung von Ergebnissen aus SPSS nach WinWord Die Übertragung von Ergebnissen von SPSS nach Word ist eine der wichtigsten Arbeiten, mit denen Studierende vertraut sein sollten. Im Prinzip wird wie folgt verfahren: SPSS und WINWORD werden nacheinander geöffnet. Über den Befehl STRG+ESC öffnet sich ein Fenster, in dem alle geöffneten Programme angezeigt werden. Man stellt mit dem Kursor die blaue Leiste auf jenes Programm, zu dem man wechseln will und wählt die Schaltfläche „wechseln zu“. Der Rechner wechselt in das gewünschte Programm. Nach dieser Prozedur ist es in der Regel möglich, zwischen den zwei Programmen, SPSS und WinWord durch ALT+TAB zu wechseln. In den Fenstern von SPSS markiert man für die Übertragung nach Word den gewünschten Text bzw. die gewünschte Graphik durch anklicken und ev. Festhalten der linken Maustaste. Dann gibt man den Befehl: „Bearbeiten“ - „Kopieren“ (durch Anklicken der Optionen im Menue Bearbeiten). Dann wechselt man nach Word. Dort stellt man vor dem Einfügen von Texten, besonders von Tabellen, die Schriftart auf Courier New. Danach wählt man die Befehle Bearbeiten - Einfügen. Bei Graphiken verfährt man ähnlich: Man wählt in SPSS „Bearbeiten“ „Graphik kopieren“ geht dann nach Word und wählt „Bearbeiten“ - „Inhalte einfügen“ - „Graphik“ - „OK“ Wenn man hierbei Probleme bekommt (die Graphik wird in Word nicht angezeigt), sollte man andere Wege durch Ausprobieren suchen. Wichtig ist, daß Graphiken vor der Übertragung nach Word so vollständig bearbeitet sind, daß eine Nachbearbeitung in Word unnötig ist. Hierbei ist beispielsweise sinnvoll, keine Graphik-Titel oder -Nummern in SPSS für Graphiken zu vergeben, da man diese in Word leicht hinzusetzen kann, ohne die Graphik nachbearbeiten zu müssen. Eine Möglichkeit, die Graphik nachzubearbeiten, die für den Umbruch von Texten sehr praktisch ist, besteht allerdings auch noch nach der Übertragung nach Word: Man kann durch Ziehen der Kanten eine Graphik senkrecht, schräg und waagerecht verkleinern oder vergrößern und so dem Seitenformat gut anpassen. 153 13.2. Praktische Fälle 13.2.1. Untersuchung von Mittelwertsdifferenzen zweier unabhängiger Stichproben. Gegeben sei das Ergebnis eines sportlichen Tests, anläßlich dessen je eine Stichprobe männlicher und weiblicher Mitglieder einer Sportschule um die Wette laufen. Die Datenmatrix hat folgende Gestalt: Laufende Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Zeit in Sekunden 13,1 12,0 14,1 12,6 15,5 11,5 14,4 13,2 13,1 12,0 12,7 12,9 13,5 12,4 12,6 13,0 15,6 14,0 15,6 14,7 14,3 13,4 14,4 15,5 13,9 15,2 15,2 14,7 12,7 12,0 14,0 15,5 11,8 13,6 12,2 13,8 13,0 13,8 14,4 14,3 Geschlecht (1=m, 2=w) 1 1 2 1 2 2 2 1 1 1 1 2 1 2 1 2 2 1 2 2 2 1 1 2 2 2 2 1 1 1 2 2 2 2 1 2 1 1 1 1 Wir wählen in SPSS aus dem Menue die Befehle: „Statistik“, „Mittelwertvergleiche“, „t-Test bei unabhängigen Stichproben“. Wir wählen die Variable „Sekunden“ als „Testvariable“, indem wir sie in das entsprechende Kästchen kopieren (blau hinterlegen, Pfeil anklicken), und wir wählen das Geschlecht als „Gruppierungsvariable“, in dem wir den Variablennamen blau hinterlegen und dann den „Pfeil“ anklicken. Es öffnet sich ein neues Fenster, in dem der Variablenname und ein Klammerausdruck mit 2 Fragezeichen steht. Wir drücken die Schaltfläche „Gruppen definieren“ und schreiben bei „Gruppe 1“ in den vorgesehenen Kasten eine „1“, bei Gruppe 2 eine „2“ hinein. Dann klicken wir die Schaltfläche „Weiter“ an und drücken die Schaltfläche „Befehl“. Im Syntax-Fenster erscheint folgender Befehl: T-TEST GROUPS=geschlt(1 2) /MISSING=ANALYSIS /VARIABLES=sekunden /CRITERIA=CIN(.95) . Wir markieren diesen Befehlstext und klicken auf die Schaltfläche „Ausführen“. Im Ausgabefenster erscheint: t-tests for independent samples of GESCHLT Geschlecht der Schüler Number Variable of Cases Mean SD SE of Mean --------------------------------------------------------------SEKUNDEN männlich 20 13,1788 ,860 ,192 154 weiblich 20 14,1288 1,277 ,286 --------------------------------------------------------------Mean Difference = -,9500 Levene's Test for Equality of Variances: F= 2,483 t-test for Equality of Means P= ,123 95% Variances t-value df 2-Tail Sig SE of Diff CI for Diff ----------------------------------------------------------------------Equal -2,76 38 ,009 ,344 (-1,647; -,253) Unequal -2,76 33,30 ,009 ,344 (-1,651; -,249) ----------------------------------------------------------------------Diesem „Output“ können wir entnehmen, daß zwischen den Jungen und den Mädchen ein auf dem 5 % Niveau im zweiseitigen Test signifikanter Schnelligkeits-Unterschied besteht, der im Durchschnitt bei 0,95 Sekunden liegt (Mean Difference). Daß der Unterschied signifikant ist, erkennen wir daran, daß für „2-Tail Sig“ ein Wert von 0,009 < 0,05 (Signifikanzniveau) angegeben ist (siehe folgende Tabelle). Im einzelnen bedeuten: SPSS-Ausdruck SD SE of Mean Mean Difference Levenes Test for Equality of Variances 2-Tail sig SE of Diff CI for Diff Equal - Unequal Bedeutung im Deutschen Standardabweichung Standardfehler Durchschnittliche Differenz der Gruppen Levenes Test der Varianzhomogenität (ist hier p < 0,05, wird Varianzinhomogenität angenommen Niveau der Irrtumswahrscheinlichkeit bei zweiseitigem Test, bei der die Grenze zur Ablehnung der Nullhypothese liegt. Oben ist der Wert 0,009. Da 0,009 < 0,05 ist, wird die Nullhypothese auf dem 5 % Niveau abgelehnt, daß in der Grundgesamtheit keine Differenz besteht Standardfehler der Gruppendifferenz sog. Konfidenzintervall für die Gruppendifferenz (hier: bei α = 5%) Ergebnisse für den Fall homogener bzw. inhomogener Varianzen 155 13.2.2. Untersuchung von Mittelwertsdifferenzen zweier abhängiger Stichproben. Wir gehen von folgender Datenmatrix aus, in der die Daten von Sportlern vor und nach einem Training im 100m Lauf enthalten sind: Laufende Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Sekunden vor dem Training 13,406 14,399 11,844 13,561 13,226 13,040 14,520 12,861 12,531 11,501 13,335 10,690 11,412 13,408 13,487 13,568 12,235 12,780 11,834 11,727 Sekunden nach dem Training 13,424 14,144 11,410 12,658 12,621 12,683 14,626 12,365 12,675 11,169 13,154 10,391 11,449 12,740 12,960 13,795 11,774 12,398 12,027 11,756 Wir wählen im SPSS-Menue den Befehl „Statistik“, “Mittelwertvergleiche“, „T-Test bei gepaarten Stichproben“ und kopieren mit dem Pfeil die beiden Variablen „Vortrai“ und „Nachtrai“ in das Fenster für die gepaarten Variablen. Wir klicken die Schaltfläche „Befehl“ und erhalten im Syntaxfenster folgendes: T-TEST PAIRS= vortrai WITH nachtrai (PAIRED) /CRITERIA=CIN(.95) /FORMAT=LABELS /MISSING=ANALYSIS. Diesen Befehl markieren wir und klicken auf die Schaltfläche „Ausführen“. Im Ausgabefenster erscheint: - - - t-tests for paired samples - - Number of 2-tail Variable pairs Corr Sig Mean SD SE of Mean -------------------------------------------------------------------------VORTRAI 12,7681 1,022 ,229 20 ,952 ,000 NACHTRAI 12,5109 1,036 ,232 -------------------------------------------------------------------------Paired Differences | Mean SD SE of Mean | t-value df 2-tail Sig ----------------------------------|------------------------------------,2573 ,318 ,071 | 3,62 19 ,002 95% CI (,108; ,406) | Der Output zeigt, daß das Training im Durchschnitt eine Leistungsverbesserung von ¼ Sekunde gebracht hat, und daß dieses Ergebnis auf dem 1% Niveau von α signifikant ist (untere Zeile: 2-tail Sig = 0,002< 0,01. Die 156 Angabe zur „2-tail Sig.“ in der oberen Zeile bezieht sich auf den dort angegeben Korrelationskoeffizienten, der aber in diesem Zusammenhang immer sehr hoch sein wird, insofern ist diese Angabe banal. 13.2.3. Einfache Varianzanalyse Nehmen wir an, wir hätten Daten von 5 Gruppen, die miteinander um die Wette laufen, und bei denen sich nur die Trainingsbedingungen unterscheiden, in der unten stehenden Word-Tabelle: Also 5 voneinander unabhängige Stichproben. Die Gruppennummer muß als selbständige Variable aufgefaßt werden: Laufleistung in Sekunden pro 100m in 5 Gruppen Gruppe 1 13,406 14,399 11,844 13,561 13,226 13,040 14,520 12,861 12,531 11,501 13,335 10,690 11,412 13,408 13,487 13,568 12,235 12,780 11,834 11,727 Gruppe 2 13,424 14,144 11,410 12,658 12,621 12,683 14,626 12,365 12,675 11,169 13,154 10,391 11,449 12,740 12,960 13,795 11,774 12,398 12,027 11,756 Gruppe 3 13,325 12,451 10,392 12,919 12,173 12,376 12,679 12,314 14,152 12,535 12,499 10,066 10,286 13,015 14,303 13,344 10,864 12,668 11,222 12,118 Gruppe 4 13,437 13,189 12,563 13,979 12,369 12,587 12,886 12,777 12,477 13,066 12,768 10,053 12,294 13,810 15,124 11,117 11,827 13,791 12,274 11,583 Gruppe 5 13,063 13,527 10,140 13,390 12,232 13,633 13,813 12,027 12,305 14,511 12,378 13,511 11,993 12,950 14,871 11,954 13,716 14,372 12,738 10,996 Zunächst einmal müssen wir die oben in der Word-Tabelle nebeneinander ausgedruckten Daten im Eingabefenster von SPSS in einer Spalte anordnen, denn es handelt sich ja um Daten einer Variable, der Laufleistung. Dazu kopieren wir die Daten aus den verschiedenen Spalten der obigen Word-Tabelle in eine einzige Spalte des Eingabefensters von SPSS, der wir zuvor den Variablennamen Laufleistung („Laufleis“)zuweisen, sowie 6 Stellen für die Zahlenangabe, mit 3 Nachkommastellen. Der Kopiervorgang funktioniert wie folgt: Nehmen wir an, die Fälle oben liegen in einer Word-Tabelle (wie oben) vor. Wir markieren mit dem Kursor alle Fälle in der jeweiligen Spalte (=Variable), die wir kopieren wollen. Dann geben wir den Befehl „STRG+C“. Dann gehen wir mit dem Kursor in das erste freie Feld der Variable „Laufleis“ des SPSS-Eingabefensters. Dort geben wir den Befehl „STRG+V“. Der Rechner kopiert die Daten in die entsprechende Spalte. Sodann müssen wir die jetzt untereinander stehenden Fälle mit der Nummer der Gruppe bezeichnen, aus der sie stammen. Hierzu bilden wir die Variable: „Gruppnr“. Das Eingabefenster in SPSS sieht dann wie folgt aus (gezeigt werden nur die oben fettgedruckten Fälle 15 bis 25, denn bei den Fällen 15-20 ist die Gruppennummer noch 1, ab Fall 21 wächst sie an auf 2: 157 Lauf. Nr. 15 16 17 18 19 20 21 22 23 24 25 . . Grupp nr 1 1 1 1 1 1 2 2 2 2 2 . . Laufleis 13,487 13,568 12,235 12,780 11,834 11,727 13,424 14,144 11,410 12,658 12,621 . . Haben wir alle Fälle in der neuen Variable „Laufleistung“ angeordnet, dann geben wir folgende Befehle: „Statistik“, „Mittelwertvergleiche“, „einfaktorielle ANOVA“. Dort weisen wir „Laufleis“ der Gruppe der abhängigen Variablen zu, dem „Faktor“ weisen wir „Gruppnr“ zu. Wir klicken auf die Schaltfläche „Bereich definieren“ und weisen dem „Minimum“ die Gruppennummer 1, dem „Maximum“ die Gruppennummer 5 zu. Im „Optionsfenster“ wählen wir noch „Deskriptive Statistiken“ und „Varianzhomogenität“. Dann klicken wir auf die Schaltflächen: „Weiter“ und „Befehl“. Im Syntax-Fenster erscheint das Folgende: ONEWAY laufleis BY gruppnr(1 5) /HARMONIC NONE /STATISTICS DESCRIPTIVES HOMOGENEITY /FORMAT NOLABELS /MISSING ANALYSIS. Diese Befehle führen wir aus. Im Ausgabefenster erscheint jetzt das Folgende: - - - - - O N E W A Y - - - - Variable LAUFLEIS By Variable GRUPPNR Gruppennummer Source Between Groups Within Groups Total D.F. 4 95 99 Analysis of Variance Sum of Mean Squares Squares 4,6608 116,5749 121,2357 1,1652 1,2271 F Prob. ,9495 ,4390 Count Mean Standard Deviation 1 2 3 4 5 20 20 20 20 20 12,7681 12,5109 12,2851 12,6986 12,9060 1,0223 1,0360 1,1884 1,0991 1,1818 ,2286 ,2317 ,2657 ,2458 ,2643 12,2897 12,0260 11,7289 12,1842 12,3529 TO TO TO TO TO 13,2466 12,9957 12,8413 13,2130 13,4591 Total 100 12,6337 1,1066 ,1107 12,4142 TO 12,8533 Group Grp Grp Grp Grp Grp GROUP MINIMUM MAXIMUM Grp Grp Grp Grp Grp 1 2 3 4 5 10,6897 10,3914 10,0659 10,0532 10,1399 14,5199 14,6256 14,3026 15,1242 14,8706 TOTAL 10,0532 15,1242 - - - - - Standard Error F Ratio O N E W A Y Levene Test for Homogeneity of Variances Statistic ,1908 df1 4 df2 95 2-tail Sig. ,943 95 Pct Conf Int for Mean - - - - - 158 Der Output zeigt, daß zwischen den 5 Gruppen kein signifikanter Unterschied besteht. Die Varianzen sind homogen (2-tail Sig =0,943> 0,05), der F-Wert ist nicht auf dem 5 % Niveau signifikant („F-Prob. = 0,4390 > 0,05). Die Nullhypothese, daß alle Gruppen aus der gleichen Grundgesamtheit entnommen sein können, wird angenommen. Wäre das Ergebnis signifikant, könnten wir aus den Angaben über die Gruppenmittelwerte entnehmen, welche Gruppen die größten Abstände untereinander aufweisen und dann - durch Ausschluß von extremen Gruppen - prüfen, ob auch für Teilmengen der Gruppen noch signifikante Unterschiede der Mittelwerte bestehen. 13.2.4. Zweidimensionaler CHI-Quadrat -Test mit einer Vierfelder-Tabelle. Gegeben seien 46 Befragte, Frauen und Männer, die eine Angabe darüber machen, ob sie sehr selten (value=1) oder gelegentlich (value =2) Horoskope lesen. Die Frage ist, ob es eine größere Bereitschaft bei Frauen als bei Männern gibt, Horoskope zu lesen. Das Eingabefenster ( die ersten 10 Fälle) sieht hierbei wie folgt aus: Geschlecht 1 2 1 1 2 2 1 1 1 2 . . . Horoskop 1 2 1 2 2 2 1 2 2 2 . . . Wir wählen über das Menue die Befehle „Statistik“, „Deskriptive Statistik“, „Kreuztabellen“, und weisen mit dem „schwarzen Pfeil“ den Zeilen die Variable „Geschlecht“ und den Spalten die Variable „Horoskop“ zu. Über die Schaltfläche „Statistiken“ öffnen wir ein neues Fenster in dem wir „Chiquadrat“ und „Phi und Cramers V“ durch Anklicken der entsprechenden Kästchen auswählen. Dann klicken wir die Schaltfläche „Weiter“ an und wählen über die Schaltfläche „Zellen“ nach dem gleichen Verfahren „Beobachtete“ und „Erwartete“ Werte, sowie „korrigierte standardisierte“ Residuen. Danach klicken wir auf „Weiter“ und „Befehl“. Im Syntaxfenster zeigt sich folgender Text: CROSSTABS /TABLES=geschl BY horoskop /FORMAT= AVALUE NOINDEX BOX LABELS TABLES /STATISTIC=CHISQ PHI /CELLS= COUNT EXPECTED ASRESID . Diese Befehle führen wir aus. Im Ausgabefenster erscheint u.a. folgendes (weitere, hier unwesentliche Angaben wurden nicht abgedruckt: GESCHL Geschlecht by HOROSKOP Lesen von Horoskopen HOROSKOP Count | Exp Val |sehr gelegent Adj Res |selten lich Row | 1 | 2 | Total GESCHL --------+--------+--------+ 1 | 12 | 16 | 28 männlich | 8,5 | 19,5 | 60,9% | 2,3 | -2,3 | +--------+--------+ 2 | 2 | 16 | 18 weiblich | 5,5 | 12,5 | 39,1% | -2,3 | 2,3 | +--------+--------+ Column 14 32 46 Total 30,4% 69,6% 100,0% Chi-Square Value DF --------------------------------Pearson 5,21542 1 Continuity Correction 3,82376 1 Minimum Expected Frequency 5,478 Statistic Value Significance -------------------------Phi ,33672 ,02239 *1 Significance -----------,02239 ,05053 159 *1 Pearson chi-square probability Number of Missing Observations: 0 Der Output zeigt, daß es einen auf dem 5% Niveau signifikanten Zusammenhang zwischen Geschlecht und der Bereitschaft gibt, Horoskope zu lesen. Die Nullhypothese könnte mit 5 % Irrtumswahrscheinlichkeit abgelehnt werden. Wie der Zusammenhang inhaltlich gestaltet ist, kann an der Differenz von beobachteten und erwarteten Häufigkeiten bzw. an den aus diesem Verhältnis pro Zelle errechneten angepaßten, standardisierten ChiquadratResiduen abgelesen werden. Die Tabelle zeigt positive Werte hierfür bei den Kombinationen von männlich+sehrselten bzw. weiblich+gelegentlich. Frauen haben hiernach eine größere Affinität zur Lektüre von Horoskopen. Wir können die Beträge der angepaßten, standardisierten Chiquadratresiduen wie z-Werte interpretieren: Sofern z.B. ein z-Wert den Betrag von +2,58 annimmt, können wir feststellen, daß die Wahrscheinlichkeit größerer Z-Werte gleich 0,005 ist. Eine Nullhypothese würde daher bei zweiseitigem Test auf dem 1%Niveau abgelehnt werden müssen, wenn z > 2,58. Ist ein angepaßtes, standardisiertes Chiquadratresiduum größer (bzw. kleiner) als ± 2,58, dann kann angenommen werden, daß eine Über (bzw. Unter-) Repräsentation in der entsprechenden Zelle vorliegt, mit einer Irrtumswahrscheinlichkeit von 1% (zweiseitig). In der obigen Tabelle können wir feststellen, daß die Männer bei „gelegentlich“ unterrepräsentiert sind, die Frauen aber überrepräsentiert sind, mit einer Irrtumswahrscheinlichkeit pro Zelle von 2,2 % (bei z= 2,3 ist α = 0,022 bei beidseitigem Test). Das Signifikanzniveau für Phi entspricht in der Vierfeldertabelle genau dieser Größe mit p = 0,022. Hätte die Tabelle mehr als 4 Zellen, würde statt Phi Cramers V zu interpretieren sein. SPSS druckt immer beides gleichzeitig ab. Im einzelnen bedeuten: In der Tabelle: Count Expected Adj. Res Row Column Total Pearson Continuity Correction Minimum expected Frequency sind die Zelleninhalte frei wählbar. Welche ausgewählt sind, wird links oben, vor der Kopfzeile, angegeben: Absolute Häufigkeit (hier: Oberste Zahl in jeder Zelle) erwartete Häufigkeit (hier: zweite Zahl in jeder Zelle Angepaßte, standardisierte Chiquadrat-Residuen (hier:dritte Zahl in jeder Zelle) Zeile Spalte Summe Chiquadrat-Wert nach Pearson Chiquadrat-Wert nach Yates korrigiert kleinster Erwartungswert in der Tabelle Besonderheiten anderer Fälle: Haben wir mehr als 4 Felder in der Tabelle, dann ist - wie gesagt - Cramers V und nicht mehr PHI zu interpretieren. Es ist bei allen solchen Tabellen darauf zu achten, ob in mehr als 20% der Zellen der Erwartungswert kleiner als 5 ist. Sollte dies der Fall sein, ist durch Verzicht auf Kategorien die Tabelle bei gleichem n so zu verkleinern, daß doch noch V berechnet und interpretiert werden kann. Ist bei Vierfelder-Tabellen die Fallzahl gering, so daß in mehr als 20 % der Zellen der Erwartungswert kleiner als 5 ist, dann druckt SPSS noch die Ergebnisse für Fisher’s exakten Test ab. Dieser ist auch bei kleinen Fallzahlen zuverlässig. 13.2.5. Zweidimensionaler CHI-Quadrat -Test mit Kontrollvariable. Der Fall: In einer empirischen Untersuchung von VolkshochschulteilnehmerInnen wird gefragt, wie wichtig den Teilnehmern das Weiterlernen im Beruf ist. Sie können hierauf mit „selten...“, „gelegentlich...“, „öfters...“ und „sehr wichtig“ antworten (vierstufige Ordinalskala). Weiterhin werden sie nach Alter und Geschlecht gefragt. Es soll nun untersucht werden, ob bei den Volkshochschulteilnehmern Unterschiede zwischen den Geschlechtern bestehen, was die Attraktivität beruflichen Weiterlernens in verschiedenen (5) Altersgruppen betrifft. Im Datensatz enthalten sind die Variablen: „Alter“, „V33berw“ (= Bedeutung des beruflichen Weiterlernens) und 160 als Kontrollvariable das Geschlecht „gender“. Da der Datensatz sehr groß ist, wird er hier nicht noch einmal dargestellt. Wenn der Datensatz ins Datenfenster geladen wurde, holen wir uns über das Menue folgende Befehle: „Statistik“, „deskriptive Statistik“, „Kreuztabellen“ und erhalten ein Fenster, in dem wir den Zeilen „V33berw“, den Spalten das Alter zuweisen können und als Kontrollvariable das Geschlecht („gender“) wählen können. Unter der Schaltfläche „Statistiken“ wählen wir „Chiquadrat“, Cramers V, Kendalls taub , und unter der Schaltfläche „Zellen“ wählen wir „beobachtete Werte“, „zeilenweise“ und „spaltenweise“ Prozente sowie die oben schon besprochenen „angepaßten standardisierten Chiquadratresiduen“ aus. Wir klicken auf die Schaltflächen „weiter“ und „Befehl“ und erhalten im Syntaxfenster folgendes: CROSSTABS /TABLES=v33berw BY alter BY v61gend /FORMAT= AVALUE NOINDEX BOX LABELS TABLES /STATISTIC=CHISQ PHI BTAU /CELLS= COUNT ROW COLUMN ASRESID . Wir führen diesen Befehl aus und erhalten im Ausgabefenster folgenden Output, in dem zur weiteren Interpretation alle interessanten „angepaßten, standardisierten Chiquadratresiduen fett gedruckt sind: V33BERW Weiterlernen im Beruf by ALTER Controlling for.V61GEND Geschlecht Value = 1 maennlich ALTER Count | Row Pct | Col Pct | Row Adj Res | 1| 2| 3| 4| 5| Total V33BERW --------+------+------+------+------+------+ 1 | 45| 65| 48| 57| 69| 284 unwichtig | 15,8%| 22,9%| 16,9%| 20,1%| 24,3%| 39,7% | 36,3%| 37,1%| 32,2%| 36,8%| 61,1%| | -,8| -,8| -2,1| -,8| 5,1| +------+------+------+------+------+ 2 | 10| 18| 14| 15| 12| 69 selten wichtig | 14,5%| 26,1%| 20,3%| 21,7%| 17,4%| 9,6% | 8,1%| 10,3%| 9,4%| 9,7%| 10,6%| | -,7| ,3| -,1| ,0| ,4| +------+------+------+------+------+ 3 | 19| 21| 22| 17| 14| 93 gelegentlich wic | 20,4%| 22,6%| 23,7%| 18,3%| 15,1%| 13,0% | 15,3%| 12,0%| 14,8%| 11,0%| 12,4%| | ,9| -,4| ,7| -,8| -,2| +------+------+------+------+------+ 4 | 13| 21| 26| 20| 4| 84 oefters wichtig | 15,5%| 25,0%| 31,0%| 23,8%| 4,8%| 11,7% | 10,5%| 12,0%| 17,4%| 12,9%| 3,5%| | -,5| ,1| 2,4| ,5| -2,9| +------+------+------+------+------+ 5 | 37| 50| 39| 46| 14| 186 sehr wichtig | 19,9%| 26,9%| 21,0%| 24,7%| 7,5%| 26,0% | 29,8%| 28,6%| 26,2%| 29,7%| 12,4%| | 1,1| ,9| ,1| 1,2| -3,6| +------+------+------+------+------+ Column 124 175 149 155 113 716 Total 17,3% 24,4% 20,8% 21,6% 15,8% 100,0% Chi-Square Value -----------------------------Pearson 39,12885 Minimum Expected Frequency 10,890 DF ---16 Approximate Significance -----------,00104 161 Statistic -----------------Cramer's V Kendall's Tau-b Value Significance ----------------------,11689 ,00104 *1 -,10386 V33BERW Weiterlernen im Beruf by ALTER Controlling for V61GEND Geschlecht Value = 2 weiblich ALTER Count | Row Pct | Col Pct | Row Adj Res | 1| 2| 3| 4| 5| Total V33BERW --------+------+------+------+------+------+ 1 | 151| 157| 128| 155| 242| 833 unwichtig | 18,1%| 18,8%| 15,4%| 18,6%| 29,1%| 46,6% | 44,2%| 36,8%| 39,5%| 44,5%| 69,7%| | -1,0| -4,7| -2,8| -,9| 9,6| +------+------+------+------+------+ 2 | 31| 35| 35| 35| 15| 151 selten wichtig | 20,5%| 23,2%| 23,2%| 23,2%| 9,9%| 8,4% | 9,1%| 8,2%| 10,8%| 10,1%| 4,3%| | ,5| -,2| 1,7| 1,2| -3,1| +------+------+------+------+------+ 3 | 31| 59| 38| 33| 33| 194 gelegentlich wic | 16,0%| 30,4%| 19,6%| 17,0%| 17,0%| 10,9% | 9,1%| 13,8%| 11,7%| 9,5%| 9,5%| | -1,2| 2,3| ,6| -,9| -,9| +------+------+------+------+------+ 4 | 51| 59| 36| 29| 17| 192 oefters wichtig | 26,6%| 30,7%| 18,8%| 15,1%| 8,9%| 10,7% | 14,9%| 13,8%| 11,1%| 8,3%| 4,9%| | 2,8| 2,4| ,2| -1,6| -3,9| +------+------+------+------+------+ 5 | 78| 117| 87| 96| 40| 418 sehr wichtig | 18,7%| 28,0%| 20,8%| 23,0%| 9,6%| 23,4% | 22,8%| 27,4%| 26,9%| 27,6%| 11,5%| | -,3| 2,3| 1,6| 2,1| -5,8| +------+------+------+------+------+ Column 342 427 324 348 347 1788 Total 19,1% 23,9% 18,1% 19,5% 19,4% 100,0% Chi-Square Value -----------------------Pearson 119,65653 Minimum Expected Frequency 27,362 Statistic -----------------Cramer's V Kendall's Tau-b Value --------,12935 -,12761 DF ---16 ASE1 -------- Val/ASE0 -------- ,01917 -6,66177 Significance -----------,00000 Approximate Significance -----------,00000 *1 162 Number of Missing Observations: 380 Der Output zeigt, daß bei den Männern (erste Tabelle) nur zwei Zellen der Tabelle auffällig sind: • Die letzte Zelle in der ersten Zeile, aus der hervorgeht, daß ältere Männer stark überrepräsentiert sind bei der Aussage, daß berufliche Weiterbildung für sie unwichtig ist. • Die letzte Zelle in der letzten Zeile, aus der hervorgeht, daß ältere Männer stark unterrepräsentiert sind bei der Aussage, daß berufliche Weiterbildung für sie sehr wichtig ist, • Die dritte Zelle in der vierten Zeile, aus der hervorgeht, daß Männer im mittleren Alter leicht überrepräsentiert sind bei der Aussage, daß berufliche Bildung für sie öfters wichtig ist. Insgesamt gibt es nur eine zwar signifikante, aber schwache negative Korrelation zwischen Alter und Bedürfnis nach beruflicher Weiterbildung in der Volkshochschule bei Männern. Bei Frauen (zweite Tabelle) ist das Ergebnis ähnlich: Der Output zeigt, daß bei den Frauen (zweite Tabelle) 5 Zellen der Tabelle auffällig sind: • Die letzte Zelle in der ersten Zeile, aus der hervorgeht, daß ältere Frauen stark überrepräsentiert sind bei der Aussage, daß berufliche Weiterbildung für sie unwichtig ist. • Die letzte Zelle in der letzten Zeile, aus der hervorgeht, daß ältere Frauen stark unterrepräsentiert sind bei der Aussage, daß berufliche Weiterbildung für sie sehr wichtig ist, • Aus der ersten und zweite Zelle in der vierten Zeile geht hervor, daß jüngere Frauen überrepräsentiert sind bei der Aussage, daß für sie berufliche Bildung „öfters wichtig ist“. • Aus der zweiten Zelle der letzten Zeile geht hervor, daß für jüngere Frauen bei der Aussage überrepräsentiert sind, daß für sie berufliche Weiterbildung „sehr wichtig“ ist. Insgesamt gibt es nur eine zwar signifikante, aber schwache negative Korrelation zwischen Alter und Bedürfnis nach beruflicher Weiterbildung in der Volkshochschule bei den Frauen, die aber etwas stärker ausgeprägt ist als bei den Männern. Tendenziell gilt bei beiden Geschlechtern: Die Nachfrage nach beruflicher Weiterbildung sinkt mit dem Alter. 13.2.6. Korrelations- und Regressionsanalyse Wir haben den Fall zweier miteinander zusammenhängender Variablen, die beide intervallskaliert sind: Die Menge der km, die ein Autofahrer zum Dienstort benötigt, und die Menge der Punkte in Flensburg wegen irgendwelcher Verkehrsdelikte. Dies alles geschieht in einer Stadt mit extrem schlechter Verkehrsbeschilderung und hoher Kontrolldichte der Polizei. Es soll der Nachweis geführt werden, daß die Menge der Punkte in Flensburg vor allem von der Entfernung zum Dienstort abhängt. Das Eingabefenster sähe wie folgt aus (die ersten 4 Fälle): KmzumD 19,0 25,0 13,0 18,0 ... Punkte 7 7 4 4 ... Wir wählen aus dem Menue folgende Befehle aus: „Statistik“, „Regression“, „linear“; wir weisen in dem dann offenen Fenster „Punkte“ der „abhängigen Variable“ zu, „KmzumD“ der „unabhängigen Variable“. In der Schaltfläche „Statistiken“ fordern wir noch „univariate Statistiken“ an. Das klicken wir die Schaltfläche „Befehl“ an. Im Syntax-Fenster erscheint dann folgendes: REGRESSION /DESCRIPTIVES MEAN STDDEV CORR SIG N /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 163 /DEPENDENT punkte /METHOD=ENTER kmzumd. Wir führen diesen Befehl aus und erhalten folgenden Output im Ausgabefenster (alles hier nicht Relevante ist weggelassen): * * * * M U L T I P L E R E G R E S S I O N * * * * Listwise Deletion of Missing Data Mean Std Dev Label PUNKTE 6,174 1,568 Punkte in Flensburg KMZUMD 19,783 5,257 Entfernung zum Dienstort in km N of Cases = 46 Correlation, 1-tailed Sig: PUNKTE KMZUMD PUNKTE 1,000 ,706 , ,000 KMZUMD ,706 1,000 ,000 , Variable KMZUMD (Constant) B SE B Beta T Sig T ,210431 2,011046 ,031854 ,651556 ,705658 6,606 3,087 ,0000 ,0035 Wir können dem Output entnehmen, daß es eine deutliche Korrelation zwischen den beiden Variablen gibt, wobei 49,7 % der Varianz der abhängigen Variable durch die unabhängige Variable erklärt werden. Der Korrelationskoeffizient r = 0,7056 kann dem Output an zwei Stellen entnommen werden: bei „Correlation, 1-tailed Sig“ und bei „Beta“. Die Regressionskoeffizienten entnehmen wir bei B = 0,210 (und erhalten die Steigung in der 1. Regressionsgerade). Der Abschnitt auf der y-Achse ist gleich a = 2,011. Wir finden die Angabe hinter „Constant“. Nach diesen Angaben könnten wir die Regressionsgerade zeichnen (siehe unten die entprechende Graphik). Weiterhin stellen wir fest, daß der Korrelationskoeffizient signifikant ist (T = 6,606), p = 0,000. Überdies erhalten wir anfangs im Output noch Angaben über arithmetische Mittel und Standardabweichungen der untersuchten Variablen. Würden wir eine Graphik der Beziehung haben wollen, wäre ein „Scatterplot“ geeignet. Wir erhalten diese Graphik über die Befehlsfolge: „Graphik“, „Scatterplot“, „Einfach“, „Definieren“ und weisen dort der x-Achse die Variable „KmzumD“ zu und der y-Achse die Variable „Punkte“. Dann klicken wir auf die Schaltfläche „Befehl“ und erhalten im Syntaxfenster: GRAPH /SCATTERPLOT(BIVAR)=kmzumd WITH punkte /MISSING=LISTWISE . Nachdem wir diesen Befehl ausgeführt haben, können wir durch Anklicken des Symbols „Graphikkarussel“ folgende Graphik im Graphikeditor herstellen: Zunächst erscheint die Graphik ohne die Regressionsgerade und ohne die senkrechten Linien, die die Position der arithmetischen Mittel von x und y markieren. Aber mit Hilfe des Menues „Bearbeiten“ „Graphik“ etc. lassen sich diese Zusätze zur Erstfassung der Graphik herstellen. 164 Wichtig für die Praxis ist noch, daß man Farben durch Schraffuren ersetzen kann, daß man den Darstellungsspielraum der Achsen wählen kann (um zum Beispiel den Nullpunkt mit darzustellen), und daß man auch Überschriften hinzufügen kann etc.: Punkte in Flensburg Zusammenhang zwischen der Entfernung zum Arbeitsort und den „Punkten in Flensburg“ bei zufällig ausgewählten Autofahrern in einer Stadt mit problematischer Verkehrsbeschilderung und hoher polizeilicher Kontrolldichte: 10 9 8 7 6 5 4 3 2 1 0 0 10 20 30 40 R-Qu. = 0,4980 Entfernung zum Dienstort in km 13.2.7. Binomialtest Der Fall: „Unter 1000 britischen Ärzten geben 600 an, emotional nicht stabile Patienten im Zweifel lieber zur Ärztin als zum Arzt zu überweisen, da Frauen unter den Ärzten mehr Einfühlungsvermögen zugetraut wird.“ (Ärzte Zeitung vom 17.9 97). Wenn wir so eine Meldung lesen und mittels SPSS den Binomialtest auf die Daten anwenden wollen, aber nur die Häufigkeiten (und nicht den Datensatz) haben, können wir mittels des Befehls „weight“ dennoch Test durchführen. Wir bauen folgenden Datensatz auf: ueberw 1 2 haeufig 600 400 Dann wählen wir über das Menue folgende Befehle: Statistik, nichtparametrische Tests, Binomial. Dort wählen wir als Testvariable „ueberw“. Den Test-Anteil lassen wir bei ,50. Wir klicken auf die Schaltfläche: Befehl und erhalten im Syntaxfenster den folgenden Text (ohne die erste Zeile, die wir hinzuschreiben und mit einem Punkt abschließen). weight by haeufigk. NPAR TEST /BINOMIAL (.50)= ueberw /MISSING ANALYSIS. Wir führen den Befehl aus und erhalten im Ausgabefenster: - - - - - Binomial Test UEBERW Geschlecht des bevorzugten Arztes Cases 400 600 ---- = 1 = 2 Test Prop. = Obs. Prop. = ,5000 ,4000 Z Approximation 165 1000 Total 2-Tailed P = ,0000 Hierbei bedeutet 2-Tailed P = ,000, daß die Wahrscheinlichkeit, aus einer gleichverteilten Grundgesamtheit das vorliegende Ergebnis zufällig zu erhalten, gleich Null ist. Die Nullhypothese wird daher abgelehnt. Die britischen Ärzte haben hiernach ein bestimmtes „Vor“-Urteil über ihre Kolleginnen. 13.2.8. Kolmogorov-Smirnov-Test auf Verteilungsform bei einer Stichprobe Gegeben sei eine Stichprobe von 200 Zahlen aus Intelligenztests. Gefragt ist, ob diese Stichprobe „normalverteilt“ ist: 95;99;98;98;90;91;98;108;99;98;98;94;107;95;97;91;92;105;103;102;100;95;107;98;99;106;98;98;103;95;99;10 5;93;98;96;98;94;105;106;93;99;101;100;102;100;98;104;100;100;101;94;86;103;107;105;102;95;97;111;96;97 ;105;104;94;108;102;96;99;105;105;89;108;97;102;99;92;104;97;95;90;103;97;95;95;89;97;90;91;101;103;97;1 01;108;100;103;93;94;94;98;101;93;109;106;96;93;102;101;94;105;99;97;107;103;100;104;107;98;91;97;103;9 7;92;97;101;93;97;102;98;101;102;88;98;98;101;100;104;92;99;101;102;106;94;102;101;100;107;99;97;92;101 ;88;92;102;102;102;96;98;94;93;91;96;97;100;103;105;97;94;103;104;92;103;99;98;101;107;92;107;105;110;1 02;97;104;111;90;103;94;96;99;100;98;93;97;106;100;110;97;94;96;104;107. Hierzu lesen wir unsere Daten im Datenfenster unter der Variablenbezeichnung: Inteli ein und geben folgende Befehle: „Statistik“, „nichtparametrische Tests“, „1-Stichproben-KS“. Wir wählen die Variable „Inteli“ als Testvariable und wählen bei den Optionen noch „Deskriptive Statistiken“ und „Quartile“. Wir wählen die Prüfung auf „Normalverteilung“. Dann klicken wir die Schaltfläche „Befehl“ an und erhalten im Syntaxfenster: NPAR TESTS /K-S(NORMAL)= INTELI /STATISTICS DESCRIPTIVES QUARTILES /MISSING ANALYSIS. Diesen Befehl führen wir aus und erhalten im Ausgabefenster: INTELI N 200 INTELI N 200 Mean 99,095 25th Percentile 95,25 Std Dev Minimum Maximum 5,134 86 111 (Median) 50th 75th Percentile Percentile 99,00 103,00 - - - - - Kolmogorov - Smirnov Goodness of Fit Test INTELI Test distribution Cases: - Normal Mean: Standard Deviation: 99,10 5,13 200 Most extreme differences Absolute Positive Negative ,06445 ,06445 -,05161 K-S Z ,9114 2-Tailed P ,3771 SPSS berechnet eine Irrtums-Wahrscheinlichkeit im zweiseitigen Test von p = 0,3771, daß die Daten nicht zufällig einer Normalverteilung entnommen worden sind. Bei dieser hohen Irrtumswahrscheinlichkeit behalten wir die Nullhypothese bei, daß die Daten aus einer Normalverteilung entnommen wurden. 166 4. Tabellen 4.1. Standardnormalverteilung Die folgende Tabelle zeigt die Verteilungsfunktion der Standardnormalverteilung. Für ausgewählte z-Werte ist die Wahrscheinlichkeit W(Z≤z)=(1-α) angegeben, daß dieser oder ein kleinerer z-Wert auftritt. Lesebeispiel: Die Tabelle enthält z-Werte, die auf zwei Stellen hinter dem Komma gerundet sind: z.B. -2,03, 1,07 oder 1,96. Damit die Tabelle nicht zu viel Platz einnimmt, ist jeder z-Wert in zwei Teile aufgespaltet: Teil 1 mit der ersten Nachkommastelle (Spalte 1) und Teil 2 mit der zweiten Nachkommastelle (alle folgenden Spalten). Gesucht sei die Wahrscheinlichkeit, daß maximal ein z-Wert von -2,03 auftritt (Teil 1: -2,0; Teil 2: 0,03). In der Zeile mit z=-2,0 (erste Spalte) finden Sie in der mit 0,03 überschriebenen Spalte die gesuchte Wahrscheinlichkeit (1-α)=0,0212. Teil 2 des z-Wertes (2. Nachkommastelle) z-Werte (Teil 1) 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 -2,9 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 -2,8 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 -2,7 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 -2,6 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 -2,5 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 -2,4 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 -2,3 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 -2,2 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 -2,1 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 -2,0 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 -1,9 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 -1,8 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 -1,7 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 -1,6 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 -1,5 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 -1,4 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 -1,3 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985 -1,2 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 -1,1 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 -1,0 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 -0,9 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 -0,8 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148 -0,7 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 -0,6 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 -0,5 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 -0,4 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 -0,3 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 -0,2 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 -0,1 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 -0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,0 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,1 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,2 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,3 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,4 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,5 167 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 0,7257 0,7580 0,7881 0,8159 0,8413 0,8643 0,8849 0,9032 0,9192 0,9332 0,9452 0,9554 0,9641 0,9713 0,9772 0,9821 0,9861 0,9893 0,9918 0,9938 0,9953 0,9965 0,9974 0,9981 0,7291 0,7611 0,7910 0,8186 0,8438 0,8665 0,8869 0,9049 0,9207 0,9345 0,9463 0,9564 0,9649 0,9719 0,9778 0,9826 0,9864 0,9896 0,9920 0,9940 0,9955 0,9966 0,9975 0,9982 0,7324 0,7642 0,7939 0,8212 0,8461 0,8686 0,8888 0,9066 0,9222 0,9357 0,9474 0,9573 0,9656 0,9726 0,9783 0,9830 0,9868 0,9898 0,9922 0,9941 0,9956 0,9967 0,9976 0,9982 0,7357 0,7673 0,7967 0,8238 0,8485 0,8708 0,8907 0,9082 0,9236 0,9370 0,9484 0,9582 0,9664 0,9732 0,9788 0,9834 0,9871 0,9901 0,9925 0,9943 0,9957 0,9968 0,9977 0,9983 0,7389 0,7703 0,7995 0,8264 0,8508 0,8729 0,8925 0,9099 0,9251 0,9382 0,9495 0,9591 0,9671 0,9738 0,9793 0,9838 0,9875 0,9904 0,9927 0,9945 0,9959 0,9969 0,9977 0,9984 0,7422 0,7734 0,8023 0,8289 0,8531 0,8749 0,8944 0,9115 0,9265 0,9394 0,9505 0,9599 0,9678 0,9744 0,9798 0,9842 0,9878 0,9906 0,9929 0,9946 0,9960 0,9970 0,9978 0,9984 0,7454 0,7764 0,8051 0,8315 0,8554 0,8770 0,8962 0,9131 0,9279 0,9406 0,9515 0,9608 0,9686 0,9750 0,9803 0,9846 0,9881 0,9909 0,9931 0,9948 0,9961 0,9971 0,9979 0,9985 0,7486 0,7794 0,8078 0,8340 0,8577 0,8790 0,8980 0,9147 0,9292 0,9418 0,9525 0,9616 0,9693 0,9756 0,9808 0,9850 0,9884 0,9911 0,9932 0,9949 0,9962 0,9972 0,9979 0,9985 0,7517 0,7823 0,8106 0,8365 0,8599 0,8810 0,8997 0,9162 0,9306 0,9429 0,9535 0,9625 0,9699 0,9761 0,9812 0,9854 0,9887 0,9913 0,9934 0,9951 0,9963 0,9973 0,9980 0,9986 0,7549 0,7852 0,8133 0,8389 0,8621 0,8830 0,9015 0,9177 0,9319 0,9441 0,9545 0,9633 0,9706 0,9767 0,9817 0,9857 0,9890 0,9916 0,9936 0,9952 0,9964 0,9974 0,9981 0,9986 168 4.2. χ2-Verteilung Die folgende Tabelle zeigt die inverse Verteilungsfunktion der χ2-Verteilung: χ2(1-α|df). Für ausgewählte Freiheitsgrade (df) und Wahrscheinlichkeiten (1-α) werden die entsprechenden χ2-Werte (χ2-Quantile) dargestellt. Lesebeispiel: Gesucht sei der χ2-Wert, unter dem bei df=17 Freiheitsgraden 95% aller möglichen Werte einer χ2-verteilten Zufallsvariablen X2 liegen. In der Zeile für df=17 finden Sie in der Spalte (1-α)=0,95 den gesuchten Wert χ2=27,59. (rote/dunkle) Fläche (1-α) df 0,7 0,75 0,8 0,85 0,9 0,95 0,975 0,99 0,995 1,32 1,64 2,07 2,71 3,84 5,02 6,63 7,88 1 1,07 2,77 3,22 3,79 4,61 5,99 7,38 9,21 10,60 2 2,41 4,11 4,64 5,32 6,25 7,81 9,35 11,34 12,84 3 3,66 5,39 5,99 6,74 7,78 9,49 11,14 13,28 14,86 4 4,88 6,63 7,29 8,12 9,24 11,07 12,83 15,09 16,75 5 6,06 7,84 8,56 9,45 10,64 12,59 14,45 16,81 18,55 6 7,23 9,04 9,80 10,75 12,02 14,07 16,01 18,48 20,28 7 8,38 10,22 11,03 12,03 13,36 15,51 17,53 20,09 21,95 8 9,52 10,66 11,39 12,24 13,29 14,68 16,92 19,02 21,67 23,59 9 12,55 13,44 14,53 15,99 18,31 20,48 23,21 25,19 10 11,78 13,70 14,63 15,77 17,28 19,68 21,92 24,73 26,76 11 12,90 14,85 15,81 16,99 18,55 21,03 23,34 26,22 28,30 12 14,01 15,98 16,98 18,20 19,81 22,36 24,74 27,69 29,82 13 15,12 17,12 18,15 19,41 21,06 23,68 26,12 29,14 31,32 14 16,22 18,25 19,31 20,60 22,31 25,00 27,49 30,58 32,80 15 17,32 19,37 20,47 21,79 23,54 26,30 28,85 32,00 34,27 16 18,42 20,49 21,61 22,98 24,77 27,59 30,19 33,41 35,72 17 19,51 21,60 22,76 24,16 25,99 28,87 31,53 34,81 37,16 18 20,60 22,72 23,90 25,33 27,20 30,14 32,85 36,19 38,58 19 21,69 23,83 25,04 26,50 28,41 31,41 34,17 37,57 40,00 20 22,77 24,93 26,17 27,66 29,62 32,67 35,48 38,93 41,40 21 23,86 24,94 26,04 27,30 28,82 30,81 33,92 36,78 40,29 42,80 22 27,14 28,43 29,98 32,01 35,17 38,08 41,64 44,18 23 26,02 28,24 29,55 31,13 33,20 36,42 39,36 42,98 45,56 24 27,10 29,34 30,68 32,28 34,38 37,65 40,65 44,31 46,93 25 28,17 34,80 36,25 37,99 40,26 43,77 46,98 50,89 53,67 30 33,53 45,62 47,27 49,24 51,81 55,76 59,34 63,69 66,77 40 44,16 56,33 58,16 60,35 63,17 67,50 71,42 76,15 79,49 50 54,72 66,98 68,97 71,34 74,40 79,08 83,30 88,38 91,95 60 65,23 77,58 79,71 82,26 85,53 90,53 95,02 100,43 104,21 70 75,69 88,13 90,41 93,11 96,58 101,88 106,63 112,33 116,32 80 86,12 98,65 101,05 103,90 107,57 113,15 118,14 124,12 128,30 90 96,52 109,14 111,67 114,66 118,50 124,34 129,56 135,81 140,17 100 106,91 161,29 164,35 167,96 172,58 179,58 185,80 193,21 198,36 150 158,58 209,99 213,10 216,61 220,74 226,02 233,99 241,06 249,45 255,26 200 520,95 526,40 532,80 540,93 553,13 563,85 576,49 585,21 500 516,09 169 4.3. t-Verteilung Die folgende Tabelle zeigt die inverse Verteilungsfunktion der T-Verteilung: T(1-α|df). Für ausgewählte Freiheitsgrade (df) und Wahrscheinlichkeiten (1-α) werden die entsprechenden t-Werte (t-Quantile) dargestellt, für die gilt: W(T≤t|df) = (1-α). Lesebeispiel: Gesucht sei der t-Wert, unter dem bei df=17 Freiheitsgraden 95% aller möglichen Werte einer Tverteilten Zufallsvariablen T liegen. In der Zeile für df=17 finden Sie in der Spalte (1-α)=0,95 den gesuchten Wert t=1,740. Fläche (1-α) df 0,65 0,7 0,75 0,8 0,85 0,9 0,95 0,975 0,99 0,995 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,656 1 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925 2 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841 3 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604 4 0,408 0,559 0,727 0,920 1,156 1,476 2,015 2,571 3,365 4,032 5 0,404 0,553 0,718 0,906 1,134 1,440 1,943 2,447 3,143 3,707 6 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,365 2,998 3,499 7 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,306 2,896 3,355 8 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821 3,250 9 0,542 0,700 0,879 1,093 1,372 1,812 2,228 2,764 3,169 10 0,397 0,540 0,697 0,876 1,088 1,363 1,796 2,201 2,718 3,106 11 0,396 0,539 0,695 0,873 1,083 1,356 1,782 2,179 2,681 3,055 12 0,395 0,538 0,694 0,870 1,079 1,350 1,771 2,160 2,650 3,012 13 0,394 0,537 0,692 0,868 1,076 1,345 1,761 2,145 2,624 2,977 14 0,393 0,536 0,691 0,866 1,074 1,341 1,753 2,131 2,602 2,947 15 0,393 0,535 0,690 0,865 1,071 1,337 1,746 2,120 2,583 2,921 16 0,392 0,534 0,689 0,863 1,069 1,333 1,740 2,110 2,567 2,898 17 0,392 0,534 0,688 0,862 1,067 1,330 1,734 2,101 2,552 2,878 18 0,392 0,533 0,688 0,861 1,066 1,328 1,729 2,093 2,539 2,861 19 0,391 0,533 0,687 0,860 1,064 1,325 1,725 2,086 2,528 2,845 20 0,391 0,532 0,686 0,859 1,063 1,323 1,721 2,080 2,518 2,831 21 0,391 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819 22 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807 23 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797 24 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787 25 0,390 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 30 0,389 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 40 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 50 0,388 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 60 0,387 0,527 0,678 0,847 1,044 1,294 1,667 1,994 2,381 2,648 70 0,387 0,526 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 80 0,387 0,387 0,526 0,677 0,846 1,042 1,291 1,662 1,987 2,368 2,632 90 0,526 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 100 0,386 0,526 0,676 0,844 1,040 1,287 1,655 1,976 2,351 2,609 150 0,386 0,525 0,676 0,843 1,039 1,286 1,653 1,972 2,345 2,601 200 0,386 0,525 0,675 0,842 1,038 1,283 1,648 1,965 2,334 2,586 500 0,386 0,525 0,675 0,842 1,037 1,282 1,646 1,962 2,330 2,581 1000 0,385 170 4.4. F-Verteilung für (1-α)=0,99 Die folgende Tabelle zeigt die inverse Verteilungsfunktion der F-Verteilung für (1-α)=0,99. Für ausgewählte Zähler- und Nenner-Freiheitsgrade (df1, df2) werden die entsprechenden f-Werte (f-Quantile) dargestellt, für die gilt: W(F≤f|df1, df2) = 0,99. Lesebeispiel: Gesucht sei der f-Wert, unter dem bei df1=2 Zähler-Freiheitsgraden und df2=4 Nenner-Freiheitsgraden 99% aller möglichen Werte einer F-verteilten Zufallsvariablen F liegen. In der Zeile für df2=4 finden Sie in der Spalte für df1=2 den gesuchten Wert F=18,00. df2 (Nenne r) df1 (Zähler) 1 2 3 4 5 6 7 8 9 10 11 12 14 16 18 20 22 24 26 1 4052 4999 5403 5624 5763 5858 5928 5980 6022 6055 6083 6106 6143 6170 6191 6208 6223 6234 6244 ,18 ,34 ,53 ,26 ,96 ,95 ,33 ,95 ,40 ,93 ,40 ,68 ,00 ,01 ,43 ,66 ,10 ,27 ,52 2 98,5 99,0 99,1 99,2 99,3 99,3 99,3 99,3 99,3 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 0 0 6 5 0 3 6 8 9 0 1 2 3 4 4 5 6 6 6 3 34,1 30,8 29,4 28,7 28,2 27,9 27,6 27,4 27,3 27,2 27,1 27,0 26,9 26,8 26,7 26,6 26,6 26,6 26,5 2 2 6 1 4 1 7 9 4 3 3 5 2 3 5 9 4 0 6 4 21,2 18,0 16,6 15,9 15,5 15,2 14,9 14,8 14,6 14,5 14,4 14,3 14,2 14,1 14,0 14,0 13,9 13,9 13,8 0 0 9 8 2 1 8 0 6 5 5 7 5 5 8 2 7 3 9 5 16,2 13,2 12,0 11,3 10,9 10,6 10,4 10,2 10,1 10,0 9,96 9,89 9,77 9,68 9,61 9,55 9,51 9,47 9,43 6 7 6 9 7 7 6 9 6 5 6 13,7 10,9 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,60 7,52 7,45 7,40 7,35 7,31 7,28 5 2 7 12,2 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,36 6,28 6,21 6,16 6,11 6,07 6,04 5 8 11,2 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,56 5,48 5,41 5,36 5,32 5,28 5,25 6 9 10,5 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 5,01 4,92 4,86 4,81 4,77 4,73 4,70 6 10 10,0 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,60 4,52 4,46 4,41 4,36 4,33 4,30 4 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,29 4,21 4,15 4,10 4,06 4,02 3,99 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,05 3,97 3,91 3,86 3,82 3,78 3,75 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,86 3,78 3,72 3,66 3,62 3,59 3,56 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,70 3,62 3,56 3,51 3,46 3,43 3,40 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,56 3,49 3,42 3,37 3,33 3,29 3,26 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,45 3,37 3,31 3,26 3,22 3,18 3,15 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,35 3,27 3,21 3,16 3,12 3,08 3,05 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,27 3,19 3,13 3,08 3,03 3,00 2,97 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,19 3,12 3,05 3,00 2,96 2,92 2,89 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,13 3,05 2,99 2,94 2,90 2,86 2,83 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,07 2,99 2,93 2,88 2,84 2,80 2,77 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 3,02 2,94 2,88 2,83 2,78 2,75 2,72 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,97 2,89 2,83 2,78 2,74 2,70 2,67 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,93 2,85 2,79 2,74 2,70 2,66 2,63 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,89 2,81 2,75 2,70 2,66 2,62 2,59 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,86 2,78 2,72 2,66 2,62 2,58 2,55 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,99 2,93 2,82 2,75 2,68 2,63 2,59 2,55 2,52 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,96 2,90 2,79 2,72 2,65 2,60 2,56 2,52 2,49 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,93 2,87 2,77 2,69 2,63 2,57 2,53 2,49 2,46 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,74 2,66 2,60 2,55 2,51 2,47 2,44 171 31 32 33 34 35 36 37 38 39 40 50 60 70 80 90 100 125 150 175 200 250 300 400 500 1000 100000 0 7,53 5,36 4,48 3,99 3,67 3,45 3,28 3,15 3,04 2,96 2,88 2,82 2,72 2,64 2,58 2,52 2,48 2,45 2,41 7,50 5,34 4,46 3,97 3,65 3,43 3,26 3,13 3,02 2,93 2,86 2,80 2,70 2,62 2,55 2,50 2,46 2,42 2,39 7,47 5,31 4,44 3,95 3,63 3,41 3,24 3,11 3,00 2,91 2,84 2,78 2,68 2,60 2,53 2,48 2,44 2,40 2,37 7,44 5,29 4,42 3,93 3,61 3,39 3,22 3,09 2,98 2,89 2,82 2,76 2,66 2,58 2,51 2,46 2,42 2,38 2,35 7,42 5,27 4,40 3,91 3,59 3,37 3,20 3,07 2,96 2,88 2,80 2,74 2,64 2,56 2,50 2,44 2,40 2,36 2,33 7,40 5,25 4,38 3,89 3,57 3,35 3,18 3,05 2,95 2,86 2,79 2,72 2,62 2,54 2,48 2,43 2,38 2,35 2,32 7,37 5,23 4,36 3,87 3,56 3,33 3,17 3,04 2,93 2,84 2,77 2,71 2,61 2,53 2,46 2,41 2,37 2,33 2,30 7,35 5,21 4,34 3,86 3,54 3,32 3,15 3,02 2,92 2,83 2,75 2,69 2,59 2,51 2,45 2,40 2,35 2,32 2,28 7,33 5,19 4,33 3,84 3,53 3,30 3,14 3,01 2,90 2,81 2,74 2,68 2,58 2,50 2,43 2,38 2,34 2,30 2,27 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,56 2,48 2,42 2,37 2,33 2,29 2,26 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,46 2,38 2,32 2,27 2,22 2,18 2,15 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,39 2,31 2,25 2,20 2,15 2,12 2,08 7,01 4,92 4,07 3,60 3,29 3,07 2,91 2,78 2,67 2,59 2,51 2,45 2,35 2,27 2,20 2,15 2,11 2,07 2,03 6,96 4,88 4,04 3,56 3,26 3,04 2,87 2,74 2,64 2,55 2,48 2,42 2,31 2,23 2,17 2,12 2,07 2,03 2,00 6,93 4,85 4,01 3,53 3,23 3,01 2,84 2,72 2,61 2,52 2,45 2,39 2,29 2,21 2,14 2,09 2,04 2,00 1,97 6,90 4,82 3,98 3,51 3,21 2,99 2,82 2,69 2,59 2,50 2,43 2,37 2,27 2,19 2,12 2,07 2,02 1,98 1,95 6,84 4,78 3,94 3,47 3,17 2,95 2,79 2,66 2,55 2,47 2,39 2,33 2,23 2,15 2,08 2,03 1,98 1,94 1,91 6,81 4,75 3,91 3,45 3,14 2,92 2,76 2,63 2,53 2,44 2,37 2,31 2,20 2,12 2,06 2,00 1,96 1,92 1,88 6,78 4,73 3,90 3,43 3,12 2,91 2,74 2,61 2,51 2,42 2,35 2,29 2,19 2,10 2,04 1,98 1,94 1,90 1,87 6,76 4,71 3,88 3,41 3,11 2,89 2,73 2,60 2,50 2,41 2,34 2,27 2,17 2,09 2,03 1,97 1,93 1,89 1,85 6,74 4,69 3,86 3,40 3,09 2,87 2,71 2,58 2,48 2,39 2,32 2,26 2,15 2,07 2,01 1,95 1,91 1,87 1,83 6,72 4,68 3,85 3,38 3,08 2,86 2,70 2,57 2,47 2,38 2,31 2,24 2,14 2,06 1,99 1,94 1,89 1,85 1,82 6,70 4,66 3,83 3,37 3,06 2,85 2,68 2,56 2,45 2,37 2,29 2,23 2,13 2,05 1,98 1,92 1,88 1,84 1,80 6,69 4,65 3,82 3,36 3,05 2,84 2,68 2,55 2,44 2,36 2,28 2,22 2,12 2,04 1,97 1,92 1,87 1,83 1,79 6,66 4,63 3,80 3,34 3,04 2,82 2,66 2,53 2,43 2,34 2,27 2,20 2,10 2,02 1,95 1,90 1,85 1,81 1,77 6,63 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,18 2,08 2,00 1,93 1,88 1,83 1,79 1,76 172 Fortsetzung F-Verteilung für (1-α) = 0,99 df2 (Nenne 27 28 29 30 31 32 33 r) df1 (Zähler) 34 35 36 37 38 40 42 44 46 100 500 10000 00 1 6249 6252 6257 6260 651, 6266 6270 6272 6275 6278 6280 6282 6286 6290 6293 6296 6333 6359 6365,5 ,17 ,90 ,09 ,35 52 ,87 ,13 ,92 ,25 ,05 ,37 ,70 ,43 ,15 ,88 ,67 ,92 ,54 9 2 99,4 99,4 99,4 99,4 31,7 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,4 99,5 99,50 6 6 6 7 2 7 7 7 7 7 7 7 8 8 8 8 9 0 3 26,5 26,5 26,5 26,5 12,1 26,4 26,4 26,4 26,4 26,4 26,4 26,4 26,4 26,4 26,3 26,3 26,2 26,1 26,13 5 3 2 0 0 8 7 6 5 4 3 3 1 0 9 7 4 5 4 13,8 13,8 13,8 13,8 13,8 13,8 13,7 13,7 13,7 13,7 13,7 13,7 13,7 13,7 13,7 13,5 13,4 7,51 13,46 8 6 5 4 1 0 9 9 8 7 6 5 3 2 1 8 9 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 9,42 9,40 9,39 9,38 5,63 9,36 9,35 9,34 9,33 9,32 9,31 9,31 9,29 9,28 9,27 9,26 9,13 9,04 9,02 7,27 7,25 7,24 7,23 4,64 7,21 7,20 7,19 7,18 7,17 7,16 7,16 7,14 7,13 7,12 7,11 6,99 6,90 6,88 6,03 6,02 6,00 5,99 4,03 5,97 5,96 5,95 5,94 5,94 5,93 5,92 5,91 5,90 5,89 5,88 5,75 5,67 5,65 5,23 5,22 5,21 5,20 3,62 5,18 5,17 5,16 5,15 5,14 5,14 5,13 5,12 5,10 5,09 5,08 4,96 4,88 4,86 4,68 4,67 4,66 4,65 3,33 4,63 4,62 4,61 4,60 4,59 4,59 4,58 4,57 4,55 4,54 4,53 4,41 4,33 4,31 4,28 4,27 4,26 4,25 3,11 4,23 4,22 4,21 4,20 4,19 4,19 4,18 4,17 4,15 4,14 4,13 4,01 3,93 3,91 3,98 3,96 3,95 3,94 2,93 3,92 3,91 3,90 3,89 3,89 3,88 3,87 3,86 3,85 3,84 3,83 3,71 3,62 3,60 3,74 3,72 3,71 3,70 2,80 3,68 3,67 3,66 3,65 3,65 3,64 3,63 3,62 3,61 3,60 3,59 3,47 3,38 3,36 3,54 3,53 3,52 3,51 2,68 3,49 3,48 3,47 3,46 3,45 3,45 3,44 3,43 3,41 3,40 3,39 3,27 3,19 3,17 3,38 3,37 3,36 3,35 2,59 3,33 3,32 3,31 3,30 3,29 3,29 3,28 3,27 3,25 3,24 3,23 3,11 3,03 3,00 3,25 3,24 3,23 3,21 2,51 3,19 3,18 3,18 3,17 3,16 3,15 3,15 3,13 3,12 3,11 3,10 2,98 2,89 2,87 3,14 3,12 3,11 3,10 2,44 3,08 3,07 3,06 3,05 3,05 3,04 3,03 3,02 3,01 3,00 2,99 2,86 2,78 2,75 3,04 3,03 3,01 3,00 2,38 2,98 2,97 2,96 2,96 2,95 2,94 2,93 2,92 2,91 2,90 2,89 2,76 2,68 2,65 2,95 2,94 2,93 2,92 2,33 2,90 2,89 2,88 2,87 2,86 2,86 2,85 2,84 2,82 2,81 2,80 2,68 2,59 2,57 2,88 2,87 2,86 2,84 2,29 2,82 2,81 2,81 2,80 2,79 2,78 2,77 2,76 2,75 2,74 2,73 2,60 2,51 2,49 2,81 2,80 2,79 2,78 2,24 2,76 2,75 2,74 2,73 2,72 2,72 2,71 2,69 2,68 2,67 2,66 2,54 2,44 2,42 2,76 2,74 2,73 2,72 2,21 2,70 2,69 2,68 2,67 2,66 2,66 2,65 2,64 2,62 2,61 2,60 2,48 2,38 2,36 2,70 2,69 2,68 2,67 2,17 2,65 2,64 2,63 2,62 2,61 2,60 2,60 2,58 2,57 2,56 2,55 2,42 2,33 2,31 2,66 2,64 2,63 2,62 2,14 2,60 2,59 2,58 2,57 2,56 2,56 2,55 2,54 2,52 2,51 2,50 2,45 2,28 2,26 2,61 2,60 2,59 2,58 2,12 2,56 2,55 2,54 2,53 2,52 2,51 2,51 2,49 2,48 2,47 2,46 2,40 2,24 2,21 2,58 2,56 2,55 2,54 2,09 2,52 2,51 2,50 2,49 2,48 2,47 2,47 2,45 2,44 2,43 2,42 2,36 2,19 2,17 2,54 2,53 2,51 2,50 2,07 2,48 2,47 2,46 2,45 2,45 2,44 2,43 2,42 2,40 2,39 2,38 2,33 2,16 2,13 2,51 2,49 2,48 2,47 2,05 2,45 2,44 2,43 2,42 2,41 2,41 2,40 2,38 2,37 2,36 2,35 2,29 2,12 2,10 2,48 2,46 2,45 2,44 2,03 2,42 2,41 2,40 2,39 2,38 2,37 2,37 2,35 2,34 2,33 2,32 2,26 2,09 2,06 2,45 2,44 2,42 2,41 2,01 2,39 2,38 2,37 2,36 2,35 2,35 2,34 2,33 2,31 2,30 2,29 2,23 2,06 2,03 2,42 2,41 2,40 2,39 1,99 2,36 2,35 2,35 2,34 2,33 2,32 2,31 2,30 2,29 2,27 2,26 2,21 2,03 2,01 2,40 2,39 2,37 2,36 1,98 2,34 2,33 2,32 2,31 2,30 2,30 2,29 2,27 2,26 2,25 2,24 2,18 2,01 1,98 2,38 2,36 2,35 2,34 1,96 2,32 2,31 2,30 2,29 2,28 2,27 2,27 2,25 2,24 2,23 2,22 2,16 1,98 1,96 2,36 2,34 2,33 2,32 1,95 2,30 2,29 2,28 2,27 2,26 2,25 2,25 2,23 2,22 2,21 2,20 2,14 1,96 1,93 2,34 2,32 2,31 2,30 1,94 2,28 2,27 2,26 2,25 2,24 2,23 2,23 2,21 2,20 2,19 2,18 2,12 1,94 1,91 2,32 2,30 2,29 2,28 1,92 2,26 2,25 2,24 2,23 2,22 2,21 2,21 2,19 2,18 2,17 2,16 2,10 1,92 1,89 2,30 2,29 2,28 2,26 1,91 2,24 2,23 2,22 2,21 2,21 2,20 2,19 2,18 2,16 2,15 2,14 2,08 1,90 1,87 2,28 2,27 2,26 2,25 1,90 2,23 2,22 2,21 2,20 2,19 2,18 2,17 2,16 2,15 2,13 2,12 2,06 1,88 1,85 173 38 39 40 50 60 70 80 90 100 125 150 175 200 250 300 400 500 1000 100000 0 2,27 2,26 2,24 2,23 1,89 2,21 2,20 2,19 2,18 2,17 2,16 2,16 2,14 2,13 2,12 2,11 2,05 1,86 1,84 2,26 2,24 2,23 2,22 1,88 2,20 2,19 2,18 2,17 2,16 2,15 2,14 2,13 2,12 2,10 2,09 2,03 1,85 1,82 2,24 2,23 2,22 2,20 1,87 2,18 2,17 2,16 2,15 2,14 2,14 2,13 2,11 2,10 2,09 2,08 2,02 1,83 1,80 2,14 2,12 2,11 2,10 1,80 2,08 2,07 2,06 2,05 2,04 2,03 2,02 2,01 1,99 1,98 1,97 1,91 1,71 1,68 2,07 2,05 2,04 2,03 1,76 2,01 2,00 1,99 1,98 1,97 1,96 1,95 1,94 1,92 1,91 1,90 1,84 1,63 1,60 2,02 2,01 1,99 1,98 1,72 1,96 1,95 1,94 1,93 1,92 1,91 1,90 1,89 1,87 1,86 1,85 1,78 1,57 1,54 1,98 1,97 1,96 1,94 1,70 1,92 1,91 1,90 1,89 1,88 1,87 1,86 1,85 1,83 1,82 1,81 1,75 1,53 1,49 1,96 1,94 1,93 1,92 1,68 1,89 1,88 1,87 1,86 1,85 1,84 1,84 1,82 1,81 1,79 1,78 1,72 1,49 1,46 1,93 1,92 1,91 1,89 1,66 1,87 1,86 1,85 1,84 1,83 1,82 1,81 1,80 1,78 1,77 1,76 1,69 1,47 1,43 1,89 1,88 1,87 1,85 1,64 1,83 1,82 1,81 1,80 1,79 1,78 1,77 1,76 1,74 1,73 1,72 1,65 1,41 1,37 1,78 1,85 1,84 1,83 1,62 1,80 1,79 1,78 1,77 1,76 1,75 1,74 1,73 1,71 1,70 1,69 1,62 1,38 1,33 1,85 1,74 1,82 1,81 1,60 1,78 1,77 1,76 1,75 1,74 1,73 1,73 1,71 1,69 1,68 1,67 1,60 1,35 1,30 1,84 1,82 1,71 1,79 1,59 1,77 1,76 1,75 1,74 1,73 1,72 1,71 1,69 1,68 1,67 1,65 1,58 1,33 1,28 1,82 1,80 1,79 1,77 1,58 1,75 1,74 1,73 1,72 1,71 1,70 1,69 1,67 1,66 1,64 1,63 1,56 1,30 1,24 1,80 1,79 1,77 1,76 1,57 1,74 1,73 1,72 1,70 1,70 1,69 1,68 1,66 1,65 1,63 1,62 1,55 1,28 1,22 1,79 1,77 1,76 1,75 1,56 1,72 1,71 1,70 1,69 1,68 1,67 1,66 1,64 1,63 1,61 1,60 1,53 1,25 1,19 1,78 1,76 1,75 1,74 1,55 1,71 1,70 1,69 1,68 1,67 1,66 1,65 1,63 1,62 1,60 1,59 1,52 1,23 1,16 1,76 1,74 1,73 1,72 1,54 1,69 1,68 1,67 1,66 1,65 1,64 1,63 1,61 1,60 1,58 1,57 1,50 1,19 1,11 1,74 1,72 1,71 1,70 1,52 1,67 1,66 1,65 1,64 1,63 1,62 1,61 1,59 1,58 1,56 1,55 1,47 1,15 Statistische Formelsammlung Begleitende Materialien zur Statistik - Vorlesung des Grundstudiums im Fachbereich IK Erstellt im Rahmen des studierenden Projektes PROST Studienjahr 2001/2002 unter Anleitung von Frau Prof. Dr. rer. nat. Kira Klenke von J.Gelwert, C.Seeger, E.Zotou 1 Statistik 4 Deskriptive Statistik Analytische Statistik Grundbegriffe der Statistik Urliste Grundgesamtheit Stichprobe Vollerhebung Merkmalsträger Merkmal Merkmalsausprägungen Quantitative und qualitative Merkmale quantitativ stetige / metrische Variablen diskrete Variablen qualitativ nominale Variablen ordinale Variablen 4 4 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 Deskriptive Statistik Mittelwerte Arithmetisches Mittel Geometrisches Mittel Schätzung des arithmetischen Mittels für klassierte Daten Median Modus Streuungsmaße Spannweite Varianz und Standardabeichung in der Stichprobe in der Grundgesamtheit Quartile Quartilsabstand Variationskoeffizient Welches Streuungsmaß bei welchem Mittelwert? Häufigkeiten Häufigkeitstabelle Kreuztabelle Klassenbildung 7 7 7 7 8 9 9 10 10 10 10 10 11 11 11 11 12 12 13 14 Grafiken der deskriptiven Statistik Kreisdiagramm Stabdiagramm Balkendiagramm Stem & Leaf Box-Plot Histogramm Verlaufskurve 15 15 15 15 15 16 16 16 Analytische Statistik Wahrscheinlichkeitsrechnung Ereignisraum Definitionen der Wahrscheinlichkeit Additionssatz 17 17 17 17 17 2 allgemeiner Additionssatz spezieller Additionssatz stochastische (Un-)Abhängigkeit von Ereignissen bedingte Wahrscheinlichkeit Multiplikationssatz allgemeiner Multiplikationssatz spezieller Multiplikationssatz Kombinatorik Fakultät Binomialkoeffizient Wahrscheinlichkeitsverteilungen Verteilungsfunktion Binomialverteilung Gauß- oder Normalverteilung standardisierte Normalverteilung beliebige Zufallsvariable Transformation der Standardnormalverteilung Parameter in der Grundgesamtheit Konfidenzintervalle für einen unbekannten Mittelwert für eine unbekannte Proportion Fallzahlbestimmung Bestimmung des erforderlichen (Mindest-) Stichprobenumfangs bei Schätzung eines (prozentualen) Anteils π Bestimmung der erforderlichen (Mindest-)Fallzahl n bei der Schätzung eines (unbekannten) Mittelwertes µ Stichwortliste 17 17 18 18 18 18 18 19 19 19 19 19 19 20 20 20 20 20 21 21 21 22 22 22 23 3 Statistik Statistik ist eine Wissenschaft, deren Zweck es ist, Informationen in Form von Zahlen oder anderen Daten zusammenzutragen, das gesammelte Material aufzubereiten und die Informationen schließlich so zu verdichten, dass sie aussagekräftig, verständlich und überschaubar werden. Sie ist eine gute Möglichkeit, Fakten exakt und überzeugend darzustellen. Sie findet Anwendung sowohl in naturwissenschaftlichen als auch wirtschaftlichen, soziologischen und politischen Bereichen. Sie unterteilt sich in zwei Disziplinen: Deskriptive Statistik Deskriptive Statistik bedeutet beschreibende Statistik und meint die reine Beschreibung des erhobenen Datenbestandes (in der Regel die Stichprobe). Entsprechend der Fragestellung werden Daten erhoben, ausgewertet und dargestellt. Deskriptive Statistik ist also eine Zusammenfassung von unüberschaubar vielen Einzeldaten bzw. ein überschaubares Komprimieren von vielen Einzelinformationen. Die zusammenfassende Darstellung erfolgt durch die Berechnung der Maßzahlen und die Erstellung von Häufigkeitstabellen und Grafiken. Analytische Statistik auch: Schließende Statistik, Interferenzstatistik, induktive Statistik. Die analytische Statistik (insbesondere mit Hilfe der Wahrscheinlichkeitsrechnung) befasst sich damit, wie aufgrund von Daten der Stichproben Rückschlüsse bzw. allgemeingültige Aussagen über die zugrunde liegende Grundgesamtheit hergeleitet werden können. 4 Grundbegriffe der Statistik Urliste Die Urliste ist die Liste der Einzeldaten, so wie erhoben, noch nicht sortiert oder gruppiert. x1, x2, x3, x4......xn sortierte Urliste Hier werden die Ausprägungen in eine aufsteigende Reihenfolge gebracht. x(1), x(2), x(3), x(4)......x(n) d.h. x(1) ≤ x(2) ≤ x(3) ≤ x(4) ≤.....x(n) Grundgesamtheit Die Grundgesamtheit ist die Menge aller interessierenden Untersuchungsobjekte. Stichprobe Unter Stichprobe versteht man eine Teilmenge der Grundgesamtheit, die ausgewählt wird. Sie muss repräsentativ sein. Eine Stichprobe ist dann repräsentativ, wenn jede Untersuchungseinheit aus der Grundgesamtheit dieselbe Chance hat, ausgewählt zu werden. Vollerhebung Bei einer Vollerhebung wird die ganze Grundgesamtheit erhoben. Merkmalsträger / Untersuchungsobjekte / statistische Einheit / Element Objekte, an denen die interessierenden Merkmale auftreten. Merkmal / Variable Interessierende Eigenschaften der Merkmalsträger. Hierbei ist eine exakte Definition wichtig. 5 Merkmalsausprägungen Es sind die möglichen Meßwerte eines Merkmals gemeint. Quantitative und qualitative Merkmale (Merkmalsausprägungen) quantitativ: Ausprägungen sind echte Meßwerte (von Natur aus Zahlen), d.h. addier-, subtrahier- und multiplizierbar. Man unterscheidet folgende Skalierungen: stetige / metrische Variablen - können fast jeden Wert und Zwischenwert annehmen, d.h. sie sind beliebig fein meßbar diskrete Variablen - es können nur endlich viele, ganz konkrete Werte angenommen werden (i.d.R. ganzzahlig, keine Brüche) qualitativ: Ein Merkmal bezeichnet eine Eigenschaft, „Qualität“, der untersuchten Objekte. Die Ausprägungen eines qualitativen Merkmales sind keine echten Zahlen. Man kann mit ihnen nicht rechnen! Hier unterscheidet man folgende Skalierungen: nominale Variablen - sind nur namentlich unterscheidbar (keine Zahlen, keine Ordnung, nur Namen) ordinale Variablen - sind sortierbar, es gibt eine „innere Ordnung“, es kann damit nicht gerechnet werden Diese 4 Skalierungstypen sind weisungsgebend für die Art der Datenauswertung!! 6 Deskriptive Statistik Mittelwerte Arithmetisches Mittel (engl. arithmetic mean) auch: Standard - Mittelwert Man addiert die Werte aller Elemente und dividiert den Gesamtwert durch die Anzahl der Elemente. Eindeutig zu bestimmen ist das arithmetische Mittel, wenn die Originalwerte in nicht klassifizierter Form vorliegen. 1 x = n n ∑ i=1 xi x : sprich x-quer n= Anzahl der Beobachtungen / Messungen x= Ausprägung (kann sehr leicht verzerrt / verfälscht werden durch Extremwerte) geeignet für stetige Merkmale. Wird in der Praxis auch benutzt bei ordinalen und diskreten Merkmalen. Gewogenes arithmetisches Mittel x = 1 • k ∑ fi k ∑ x i ⋅ fi i =1 i =1 k = Anzahl verschiedener Werte des Merkmals X fi = die zugehörigen Häufigkeiten Geometrisches Mittel (engl. geometric mean) Ist geeignet zur Berechnung von Wachstumsraten. durchschnittliches Wachstum w: Schreibweise in %: w = n (100% + w1 )• (100% + w2 )• (100% + w3 )• ... • (100% + wn ) − 100% wobei w1, w2, w3,...wn Wachstumsraten in n gleich langen Zeiträumen in %-Angaben. alternativ: Komma-Schreibweise: w = n (1 + w1 )• (1 + w2 )• (1 + w3 )• ... • (1 + wn ) − 1 7 Schätzung des arithmetischen Mittels für klassierte Daten (Klassenbildung S.14) x ≈ ist eine Näherung!! Klassen eines stetigen Merkmals Absolute Häufigkeiten fi Klassenmitte ai ... bis unter ... ... bis unter ... ... bis unter ... .. .. .. k x≈ ∑a i =1 i • fi = k ∑f i =1 k fi Min Klasse + Max Klasse 2 .. .. .. 1 k ∑ ai • f i n i =1 i Anzahl verschiedener Klassen die zugehörigen Häufigkeiten k ∑f i =1 i =n Anzahl von Beobachtungen 8 Median (engl. median) auch: Zentralwert Man sortiert die Urliste vom kleinsten zum größten Wert und der Median ist der Wert, der „in der Mitte“ liegt. Er ist unempfindlich gegen Extremwerte. Er ist insbesondere für ordinalskalierte Merkmale geeignet und wenn diskrete und stetige Merkmale schief verteilt sind. 50 % der Werte größer oder gleich 50 % der Werte kleiner oder gleich bei gerader Anzahl der Werte Median = 1 x n + x n +1 2 2 2 Der Median ist bei einer geraden Anzahl von Werten der Mittelwert, der beiden Werte in der Mitte der sortierten Urliste. bei ungerader Anzahl der Werte: Median = x n+1 2 Bei ungerader Anzahl der Werte ist der Median der Wert, der in der sortierten Urliste in der Mitte liegt. Modus auch: Modalwert → besonders für nominalskalierte Variablentypen geeignet Der Modus ist derjenige Merkmalswert, der die größte Häufigkeit aufweist, vorrausgesetzt es existiert genau 1 Häufigster. 9 Streuungsmaße (⇒ was befindet sich rechts und links vom Mittelwert?) Zu jedem Mittelwert sollte immer mind. ein Streuungsmaß angegeben werden. Spannweite R (engl. range) Die Spannweite ist die Differenz aus dem maximalen und dem minimalen Wert der sortierten Urliste, der aber sehr leicht durch Extremwerte verzerrt werden kann. x(1) ≤ x(2) ≤...≤ x(n) R = x(n) – x(1) Varianz (engl. variance) und Standardabweichung (engl. standard deviation) Man unterscheidet zwischen Stichprobe und Grundgesamtheit. Varianz und Standardabweichung in der Stichprobe werden mit s2 bzw. s bezeichnet. Varianz s2 in der Stichprobe Die Varianz ist die Summe der Quadrate der Abweichungen aller Werte vom arithmetischen Mittel, geteilt durch die Anzahl der Werte. 1 s = n 2 n ∑ (xi - x )2 i =1 Standardabweichung s in der Stichprobe (mittlere quadratische Abweichung) Standardabweichung ist die Wurzel aus der Varianz. s= Für die Berechnung mit Taschenrechner ist die Taste σn zu benutzen. s2 Da in der Regel nicht die komplette Grundgesamtheit erfasst wird, werden die Varianz und Standardabweichung der Grundgesamtheit in der analytischen Statistik geschätzt. Diese wird, im Gegensatz zu deskriptiver Statistik, mit n-1 statt mit n berechnet. Deswegen existieren zwei Tasten auf den Taschenrechner, eine für analytische und eine für deskriptive Statistik. Schätzung der Varianz in der Grundgesamtheit (analytische Statistik) σ̂ 2= 1 n −1 n ∑ (xi - x )2 i =1 Schätzung der Standardabweichung in der Grundgesamtheit (analytische Statistik) σ̂ = σ̂ 2 Für die Berechnung mit Taschenrechner ist die Taste σn-1 zu benutzen. 10 Quartile Sie sind insbesondere für ordinalskalierte Merkmale geeignet und wenn diskrete und stetige Merkmale schief verteilt sind. Die geordnete Reihe von Merkmalswerten wird in vier gleiche Teile geteilt (also 4 × 25%): Unteres Quartil (1.Quartil): 25% der Werte sind kleiner oder gleich 75% der Werte sind größer oder gleich Zweites Quartil → Median 50% der Werte sind kleiner oder gleich 50% der Werte sind größer oder gleich Oberstes Quartil (3.Quartil): 75% der Werte sind kleiner oder gleich 25% der Werte sind größer oder gleich Das vierte Quartil ist das Maximum: 100% der Werte sind kleiner oder gleich Quartilabstand QA (engl. Interquartilerange IQR) Quartilabstand ist die Differenz zwischen dem oberen und dem unteren Quartil (Spannweite der mittleren 50%) QA = Q3 – Q1 Variationskoeffizient (engl. coefficient of variation) Variationskoeffizient dient dazu, mehrere Standardabweichungen miteinander zu vergleichen. CV= s x bzw. CV= s x 100% (für Angaben in Prozent) CV= Verhältnis der Standardabweichung s zum Mittelwert x in %. „Wie viel % des arithmetischen Mittels ist s?“ Welches Streuungsmaß wird bei welchem Mittelwert angegeben? Mittelwert x Median Streuungsmaß s² und s Spannweite beim Vergleichen mehrerer Streuungsmaße CV IQR / QA Spannweite 11 Häufigkeiten Häufigkeitsverteilung (engl. frequency) Bei Häufigkeitsverteilungen wird ausgezählt, wie oft einzelne Merkmalsausprägungen in der Stichprobe aufgetreten sind. Besonders geeignet für nominale, ordinale und diskrete Ausprägungen. Für stetige Merkmale müssen Klassen gebildet werden (siehe unten). Die Ergebnisse der Auszählung werden in tabellarischer Form dargestellt. Beispiel: eine Häufigkeitstabelle in SPSS Fachrichtung Häufigkeit Gültig Allgemeine Dokumentation Wirtschaftsinformatik Bibliothekswesen Psychologie Mathematik E-Technik Jura Sozialwissenschaften Lehramt für berufsbild.Schulen Geschichte & Politikwissens. Germanistik & Politikwissens. Architektur Gesamt absolute Häufigkeiten (ausgezählt) Relative Häufigkeiten: Prozent Kumulierte Prozente 11 13,8 13,8 10 7 9 3 6 8 3 12,5 8,8 11,3 3,8 7,5 10,0 3,8 26,3 35,0 46,3 50,0 57,5 67,5 71,3 6 7,5 78,8 4 5,0 83,8 6 7,5 91,3 7 80 8,8 100,0 100,0 relative Häufigkeit (in Prozent) kumulierte Prozente Anzahl _ mit _ der _ spez. Ausprägung • 100 Gesamtzahl (n) Kumulierte Prozente: Aufaddierung der Prozente zeilenweise. 12 Kreuztabelle Mehrere Merkmale werden gegeneinander ausgezählt. (Normalfall:2 Merkmale, ab 4 Merkmalen ist die Tabelle schwer überschaubar). Softwarepakete geben die Zellinhalte der Kreuztabelle i.d.R. folgendermaßen aus: Häufigkeit absolut (frequency) Reihenprozente (Rowpercent) Spaltenprozente (Colpercent) Gesamtprozente (Percent) Beispiel erstellt mit SPSS Geschlecht d.Stud. * welche Hochschule? Kreuztabelle Geschlecht d.Stud. weiblich männlich Gesamt Anzahl % von Geschlecht d.Stud. % von welche Hochschule? % der Gesamtzahl Anzahl % von Geschlecht d.Stud. % von welche Hochschule? % der Gesamtzahl Anzahl % von Geschlecht d.Stud. % von welche Hochschule? % der Gesamtzahl welche Hochschule? Fachhoch Universität schule 4 8 33,3% 66,7% Gesamt 12 100,0% 36,4% 88,9% 60,0% 20,0% 7 87,5% 40,0% 1 12,5% 60,0% 8 100,0% 63,6% 11,1% 40,0% 35,0% 11 55,0% 5,0% 9 45,0% 40,0% 20 100,0% 100,0% 100,0% 100,0% 55,0% 45,0% 100,0% Inhaltliche Interpretation: 4 Personen sind weiblich und studieren an der Universität. 4/12 • 100 = 33,3% 33,3% der weiblichen Befragten studieren an der Universität. 4/11 • 100 = 36,4 36,4% der Studierenden an der Universität sind weiblich. 4/20 • 100 = 20% 20% der Befragten sind weiblich und studieren an der Universität. 13 Klassenbildung bei stetigen Merkmalen Da stetige Merkmale ganz unterschiedliche Merkmalswerte besitzen können, würde die direkte Auswertung der Daten durch Häufigkeitstabellen wenig Sinn machen. Deswegen werden die Daten nach unterschiedlichen Aspekten gruppiert, d.h. es werden Klassen gebildet, die in Häufigkeits- oder Kreuztabellen ausgewertet werden können. Festgelegt werden muss: • Wie viele Klassen lege ich fest? • Wo lege ich Klassengrenzen fest? Wie viele Klassen? Anzahl der Klassen wird bestimmt durch die Größe der Stichprobe. Faustregel: Anzahl der Klassen = n (bei Dezimalstellen sinnvoll runden) Klassengrenzen • Grenzen dürfen sich nicht überschneiden (klare Definition) • Klassengrenzen sollen aneinander grenzen • 1.Klasse fängt bei dem minimalen Wert an • letzte Klasse hört bei dem maximalen Wert auf • zur besseren Lesbarkeit sollten die Klassengrenzen „glatte Zahlen“ sein Gleich breite Klassen: Jede Klasse besteht aus gleich breiten Abschnitten. Klassenbreite = Spannweite Anzahl _ der _ Klassen Prozentual gleich starke Klassen Jede Klasse besitzt die gleiche Anzahl von n. Klassenhäufigkeit = n Anzahl _ der _ Klassen Inhaltliche Klassenbildung Sinnvolle Kombination der Auswertungsmöglichkeiten. Klassen sind inhaltlich vorgegeben, z.B. bei Blutwerten Grenzwerte für normal und pathologisch. 14 Grafiken der deskriptiven Statistik Merkmalstyp Skalierung: nominal, ordinal, diskret Grafiktyp Kreisdiagramm Fehlend 5-10x im Monat 5,0% 10,0% Anwendungstipp: max. 7 Ausprägungen nicht für feine Unterschiede geeignet täglich 1-4x in der Woche 45,0% 40,0% Wie oft nutzen Sie das Internet? Skalierung: ordinal, nominal, diskret Stabdiagramm 40 auch: Gruppen- & Komponentendiagramm 2. stetiges Merkmal auf der y-Achse 30 Absolute Werte 20 10 0 Fehlend weiblich männlich Geschlecht der Studierenden siehe Stabdiagramm! Balkendiagramm Besonders geeignet für nominale Skalierungen. Beschriftung ist sehr gut lesbar und wird manchmal nach Häufigkeiten sortiert. Auch als Gruppen- & Komponentendiagramm. Allgemeine Dokumenta Wirtschaftsinformati E-Technik Fachrichtung Jura Geschlecht d.Stud. Geschichte & Politik männlich weiblich 0 2 4 6 8 10 12 14 Absolute Werte Skalierung: stetig verwendet einen Teil der Datenwerte als Stem / Stamm, um Gruppen / Klassen zu bilden, und den anderen Teil als Leaf / Blatt, um die Anzahl der Häufigkeiten graphisch zu verdeutlichen. Vorteil: Man sieht die aktuellen Datenwerte, die gleichzeitig graphisch dargestellt sind. Stem & Leaf Für die erste Zeile ALTERSANGABE: 40, 41, 41, 42, 43, 44 4 4 5 5 6 6 011234 566677 1122233344 55566677899 00111222333455 5567788999999 15 Grafik, in der mehrere Maßzahlen dargestellt werden: unteres Quartil, Median, oberes Quartil, Maximum, Minimum. In manchen Versionen werden Extremwerte extra gekenzeichnet. Box-Plot 60000 50000 Umsatz des einzelnen Vertreters Skalierung: stetig 12 40000 30000 20000 10000 N= 8 7 7 7 Nord Süd Ost West Bezirk Anhand des Box-Plots lässt sich auf die Verteilungsart der Daten schließen. Symmetrische Verteilung Linksschiefe Verteilung Skalierung: stetig Grafische Darstellung einer Häufigkeitsverteilung eines stetigen klassierten Merkmals. Das Maß für die Häufigkeit ist in der Regel die Fläche. Anwendungstipp: Mehrere Klasseneinteilungen ausprobieren! Rechtsschiefe Verteilung Histogramm 40 30 20 10 Std.abw. = 3,68 Mittel = 24,0 N = 75,00 0 17,5 20,0 22,5 25,0 27,5 30,0 32,5 35,0 37,5 Alter d. Stud. x-Achse: i.d.R. findet sich hier der zeitliche Aspekt wieder. Verlaufskurve Umsatz im Jahr in Mio Skalierung: y-Achse: stetige oder diskrete mit vielen Ausprägungen. 14 12 10 8 6 4 2 0 1997 1998 1999 2000 2001 2002 Jahr 16 Analytische Statistik Wahrscheinlichkeitsrechnung Ereignisraum (⇒ ⇒ Menge aller möglichen Elementar - Ereignisse) A,B,C P(A) Ereignisse Wahrscheinlichkeit dafür, dass Ereignis A eintritt. A komplementäres Ereignis zu A (Gegenereignis) Wahrscheinlichkeit dafür, dass Ereignis A oder Ereignis B oder beide eintreten (Vereinigung → Additionssatz). Wahrscheinlichkeit dafür, dass Ereignis A und Ereignis B eintreten (Schnittmenge → Multiplikationssatz). P (A ∪ B ) P (A ∩ B ) Definitionen der Wahrscheinlichkeit Klassische Definitionen (Laplac'sche Definition): Wenn die Elementarereignisse endlich und gleichmöglich sind, gilt: P(A)= Anzahl _ aller _ günstigen _ Elementarereignisse Anzahl _ aller _ gleichmöglichen _ Elementarereignisse Statistische Definition: P(A) wird als diejenige Größe definiert, der sich die relative Häufigkeit eines Ereignisses A bei unbeschränkter Versuchsserie (n → ∞ ) nähert. Axiomatische Definition nach Kolmogoroff: Axiom 1: 0<=P(A)<=1 Axiom 2: P(S) = 1 sicheres Ereignis S Axiom 3: P(E) = 0 unmögliches Ereignis E Additionssatz Allgemeiner Additionssatz (für beliebige Ereignisse): P (A ∪ B )=P(A) + P(B) - P (A ∩ B ) P (A ∪ B ∪ C )=P(A) + P(B) + P(C) - P (A ∩ B ) - P (A ∩ C ) - P (B ∩ C ) + P (A ∩ B ∩ C ) Spezieller Additionssatz (für disjunkte Ereignisse): Disjunkte Ereignisse sind unvereinbare Ereignisse, die nicht gleichzeitig auftreten können. P (A ∪ B )=P(A) + P(B) P (A U B U C ) =P(A) + P(B) + P(C) ( ) P A U A =P(S)=1 P( A )=1-P(A) Das zu einem Ereignis A komplementäres Ereignis A ist das Ereignis, das eintritt, wenn A nicht eintritt. 17 Stochastische (Un-)Abhängigkeit von Ereignissen: Gegeben seien die Ereignisse A,B,C mit P(A)>0, P(B)>0 und P(C)>0. Ereignis B ist stochastisch (un-)abhängig von Ereignis A, wenn ( ) ( ) P B A =P B A =P(B) Die Ereignisse A, B, C sind voneinander stochastisch unabhängig, wenn ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) P A B = P A C = P A B ∩ C = P(A) P B A = P B C = P B A ∩ C =P(B) und P C A = P C B = P C A ∩ B =P(C) Bedingte Wahrscheinlichkeit Sie ist die Wahrscheinlichkeit dafür, dass B eintritt, unter der Bedingung dass A mit P(A) ≠ 0 bereits eingetreten ist. ( ) P(A ∩ B) mit P(A)>0 P BA = P(A) ( ) P(A ∩ B) mit P(B)>0 P AB = P(B) Multiplikationssatz Allgemeiner Multiplikationssatz: P (A ∩ B )=P(A) • P B A =P(B) • P A B ( ) ( ) ( ( ) P (A ∩ B ∩ C ) =P(A) • P B A •P C A ∩ B ) Spezieller Multiplikationssatz: Für stochastisch unabhängige Ereignisse A, B und C gilt: P (A ∩ B )=P(A) • P(B) P (A ∩ B ∩ C ) =P(A) • P(B) • P(C) für beliebig viele Ereignisse 18 Kombinatorik Fakultät n!=1 • 2 •...• (n-1) • n 0!=1 Binomialkoeffizient (sprich n über k) n n(n − 1)(n − 2)...(n − k + 1) n! = = k k! k!(n − k )! n = 1 0 Für Berechnung des Binomialkoeffizienten mit Taschenrechner ist die Taste nCr zu benutzen. Wahrscheinlichkeitsverteilungen Verteilungsfunktion ⇒ definiert für alle reellen Zahlen xi F(xi) = P(X <= xi ) F(xi) Verteilungsfunktion P Wahrscheinlichkeit X Zufallsvariable (z.B. Zuweisen der Augenzahl beim Würfeln) konkrete Ausprägungen xi ~ verteilt wie Binomialverteilung (anzuwenden für kleine Stichproben) Voraussetzungen für die Anwendungen der Binomialverteilung • Merkmal ist dichotom (besitzt genau 2 Ausprägungen: A und A ) • n unabhängige Wiederholungen des Zufallsexperiments werden durchgeführt (z.B. Ziehen von Kugeln mit Zurücklegen) • p = P(A) ist bekannt n P(X = k) = • pk • (1-p)n-k k wobei: X k p n P: Wahrscheinlichkeit, dass unter n (unabhängigen) Versuchen genau k mal Ereignis A auftritt Zufallsvariable Anzahl der Treffer Wahrscheinlichkeit einen Treffer zu ziehen Anzahl der Versuche Kurzbezeichnungsweise (sprich X verteilt wie/nach Binomialverteilung): X ~ B(n,p) 19 Gauß- oder Normalverteilung N(µ,σ σ2) Wird eindeutig festgelegt durch: µ σ2 Mittelwert in der GG Varianz in der GG - innerhalb der Entfernung von 1 Standardabweichung σ nach rechts und links vom Mittelwert µ befinden sich 68,26% der Messwerte - innerhalb der Entfernung von 2 Standardabweichungen σ nach rechts und links vom Mittelwert µ befinden sich 95,45% der Messwerte - innerhalb der Entfernung von 3 Standardabweichungen σ nach rechts und links vom Mittelwert µ befinden sich 99,73% der Messwerte Standardisierte Normalverteilung N(0,1) ist vertafelt µ=0 Standardisierung einer beliebigen Zufallsvariablen X ~ N(µ,σ σ2) X −µ =U σ wobei U ~ N(0,1) Transformation der Standardnormalverteilung in eine beliebige Normalverteilung U ~ N(0,1) U • σ + µ ~ N(µ,σσ ) 2 Parameter in der Grundgesamtheit Zur Unterscheidung von der Stichprobe werden die Parameter der Grundgesamtheit mit griechischen Buchstaben bezeichnet: µ σ π Mittelwert in der Grundgesamtheit Streuung in der Grundgesamtheit Prozentsatz in der Grundgesamtheit 20 Konfidenzintervalle 1-α α uα/2 Sicherheits- oder Vertrauenswahrscheinlichkeit üblich: 99%, 95%, 90% Irrtumswahrscheinlichkeit üblich: 1%, 5%, 10% Werte aus der N(0,1)-Tafel 1-α α/2 α/2 0 -uα/2 uα/2 Konfidenzintervall für einen unbekannten Mittelwert µ einer Grundgesamtheit P( x - uα/2 • s n ≤ µ ≤ x + uα/2 • s ) = 1-α n Beispiel für 95%-ige Sicherheitswahrscheinlichkeit: P( x - 1,96 • s n ≤ µ ≤ x + 1,96 • s ) = 95% n Sonderregel: Umfasst die Stichprobe mehr als 5% der Grundgesamtheit (große Stichprobe), benutze statt s besser s n n N −n N −1 Konfidenzintervall für eine unbekannte Proportion π einer Grundgesamtheit P(p - uα/2 • p(1 − p ) ≤ π ≤ p + uα/2 • n Voraussetzung: n• p≥5 n • (1-p) ≥ 5 p(1 − p ) ) = 1-α n wenn p ≤ 0,5 wenn p > 0,5 Beispiel für 95%-ige Sicherheitswahrscheinlichkeit: P(p – 1,96 • p(1 − p ) ≤ π ≤ p + 1,96 • n p(1 − p ) ) = 95% n Sonderregel: Umfasst die Stichprobe mehr als 5% der Grundgesamtheit ( große Stichprobe), benutze statt p(1 − p ) n besser p(1 − p ) • n N −n N −1 21 Fallzahlbestimmung Bestimmung des erforderlichen (Mindest-) Stichprobenumfangs bei Schätzung eines (prozentualen) Anteils π n≥ u 2α 2 • p • (1 - p) e2 n die erforderliche Mindestfallzahl 1-α bzw. α Sicherheits- bzw. Irrtumswahrscheinlichkeit uα/2 aus Tabelle von N(0,1) p „Erfahrungswert“ für ungefähre Größenordnung des %-Anteils existiert kein Wert, setze p=0,5 e Exaktheit Abstand zwischen Stichprobenschätzung p und wahrem π der Grundgesamtheit e= π − p Bestimmung der erforderlichen (Mindest-)Fallzahl n bei der Schätzung eines (unbekannten) Mittelwertes µ n≥ u2 a 2 • σˆ 2 e2 n erforderliche Mindestfallzahl 1-α bzw. α Sicherheits- bzw. Irrtumswahrscheinlichkeit e Exaktheit e= µ − x Unterschied zwischen Stichprobenmittelwert x und wahrem µ der Grundgesamtheit σ̂ 2 Schätzung der Varianz des betrachteten stetigen Merkmals falls keine Schätzung existiert, berechne s2 = ( n 1 • ∑ xi − x n − 1 i =1 )2 22 A Additionssatz Allgemeiner Additionssatz Allgemeiner Multiplikationssatz Analytische Statistik Definition Analytische Statistik Arithmetisches Mittel 17 17 18 4 17 7 B Balkendiagramm Bedingte Wahrscheinlichkeit Binomialkoeffizient Binomialverteilung Box-Plot 15 18 19 19 16 Modus Multiplikationssatz 9 18 N Nominale Variablen Normalverteilung 6 20 O Ordinale Variablen 6 P Parameter in der Grundgesamtheit 18 Q D Deskriptive Statistik Definition Deskriptive Statistik Diagramme Diskrete Variablen 4 7 15 6 E Ereignisraum 17 F Fakultät Fallzahlbestimmung 19 22 G Gaußverteilung Geometrisches Mittel Grafiken Grundbegriffe der Statistik Grundgesamtheit 18 7 15 5 5 Quantitative Merkmale Quantitative Merkmale Quartile Quartilsabstand 6 6 11 11 S Schätzung des arithmetischen Mittels für klassierte Merkmale Spannweite Spezieller Additionssatz Spezieller Multiplikationssatz Stabdiagramm Standardabeichung Standardisierte Normalverteilung Stem & Leaf Stetige / metrische Variablen Stichprobe Stichprobenumfangs Stochastische (Un-)Abhängigkeit Streuungsmaße 8 10 17 18 15 10 20 15 6 5 22 18 10 H Häufigkeiten Häufigkeitstabelle Histogramm 12 12 16 T Transformation der Standardnormalverteilung20 U I Inhaltsverzeichnis Urliste 5 2f V K Klassenbildung Kombinatorik Konfidenzintervalle Kreisdiagramm Kreuztabelle 14 19 21 15 13 M Median Merkmal Merkmalsausprägungen Merkmalsträger Mittelwerte 9 5 6 5 7 Varianz Variationskoeffizient Verlaufskurve Verteilungsfunktion Vollerhebung 10 11 16 19 5 W Wahrscheinlichkeit Wahrscheinlichkeitsrechnung Wahrscheinlichkeitsverteilungen 17 17 19 Z Zufallsvariable 20 23