Statistik 2. Beschreibende Statistik 2. BESCHREIBENDE STATISTIK 2.1. Eindimensionale Merkmale 2.1.1. Tabellarische und grafische Darstellung - Häufigkeit Im folgenden werden nur quantitative Merkmale betrachtet: Bei diskreten Merkmalen führt man folgende Bezeichnungen ein ( Bsp. 1 ): xi ; i 1, ... n : Urliste ... beobachtete Werte in der Reihenfolge ihrer Ermittlung a j ; j 1, ... k : verschiedene beobachtete Werte, der Größe nach geordnet n ist der Stichprobenumfang, k ist die Anzahl der verschiedenen Werte. Die verschiedenen Werte a j können in der Urliste mehrmals auftreten; es liegt nahe, die Daten in einer Häufigkeitstabelle ( Bsp. 2 ) weiter zu ordnen. Dazu berechnet man folgende Größen: n j ... absolute Häufigkeit des Wertes a j in der betrachteten Stichprobe j N j ni ... absolute Summenhäufigkeit i 1 (1) h j h(a j ) nj n ... relative Häufigkeit des Wertes a j (oft in Prozent) j H j h j ... relative Summenhäufigkeit (von links her aufaddiert) i 1 Für die absoluten Häufigkeiten gilt allgemein k (2) nj n Stichprobenumfang j 1 Aus Definition (1) ergeben sich folgende wichtige Eigenschaften der relativen Häufigkeiten (3a) 0 hj 1 k (3b) hj j 1 k nj j 1 n 1 7 Statistik 2. Beschreibende Statistik Kommt ein Wert a j in der Stichprobe nicht vor, so ist h(a j ) 0 ; sind alle n Beobachtungswerte gleich a j , so ist h( a j ) 1 . Beispiel 1 100-maliges Werfen eines Würfels x1 5 , x2 2 , x3 3, . . . x100 4 Urliste a1 1, a2 2 , a3 3, . . . a6 6 beobachtete Werte Beispiel 2 Bei 400 Würfen von 3 Münzen ergaben sich 52 ( 155, 146, 48 ) Würfe mit 0 ( 1, 2, 3 ) „Wappen“ Häufigkeitstabelle j aj nj Nj hj Hj 1 0 51 51 0,1275 0,1275 2 1 155 206 0,3875 0,5150 3 2 146 352 0,3650 0,8800 4 3 48 400 0,1200 1,0000 Übung: Wie groß ist in Beispiel 2 die Anzahl der Würfe mit a) höchstens 1 Wappen b) mindestens 2 Wappen Wie groß ist jeweils die relative Häufigkeit? 8 Statistik 2. Beschreibende Statistik Zur Wiedergabe statistischer Daten verwendet man neben Listen und Tabellen, die alle Einzeldaten genau vermitteln, auch grafische Darstellungen, die die wesentliche Struktur der untersuchten Erscheinung erkennen lassen. Trägt man über den Werten a j die zugehörigen relativen Häufigkeiten auf, so entsteht das ~ Stabdiagramm der empirischen Häufigkeitsfunktion f ( x) . h ~ f ( x) j 0 (4) für x a j sonst Statt des entsprechenden Stabdiagramms der Summenhäufigkeiten H j verwendet man besser die Darstellung in Form einer Treppenfunktion, die an den Stellen x a j Sprungstellen der ~ Höhe h j besitzt. Die zugehörige Funktion heißt empirische Verteilungsfunktion F ( x) . ~ F ( x) (5) a j x hj Anzahl der beobachtet en Werte kleiner gleich x Stichprobe numfang ~ An der Stelle x a j ist der Funktionswert F (a j ) gleich der relativen Summenhäufigkeit H j ; ~ zwischen zwei benachbarten möglichen Stichprobenwerten a j und a j 1 ist F konstant. Häufigkeits-Diagramme zu Beispiel 2: 1 1 ~ F ( x) ~ f ( x) 0,5 0,5 0 1 2 3 x 0 Häufigkeitsfunktion ( Stabdiagramm ) 1 2 3 x Verteilungsfunktion ( Treppenfunktion ) ~ Übung: Welchen Wert hat F (2,5) in Beispiel 2 ? Was bedeutet dies in Worten ? 9 Statistik 2. Beschreibende Statistik Neben Stabdiagrammen und Säulenhistogrammen kommen auch Kreissektordiagramme (auch Tortendiagramme genannt) zur Anwendung. Für die Winkel der einzelnen Sektoren gilt dabei: j h j 3600 Beispiel 3 Stimmen- und Sitzverteilung bei der Landtagswahl 1988 in Baden-Württemberg: Stimmanteil in % Anzahl der Mandate CDU 49,0 66 SPD 32,9 42 Grüne 7,9 10 FDP 5,9 7 Sonstige 4,3 0 Summe 100,0 125 Stimmanteil in % 60 50 CDU SPD Grüne FDP Sonstige 40 30 20 10 0 1 Stimmanteil in % CDU SPD Grüne 10 FDP Sonstige Statistik 2. Beschreibende Statistik 2.1.2. Maßzahlen einer eindimensionalen Stichprobe Bei vielen statistischen Erhebungen interessiert nicht die detaillierte Information der vollständigen Häufigkeitstabellen und Häufigkeitsfunktionen: sollen etwa verschiedene Verteilungen miteinander verglichen werden, dann reicht es oft aus, die empirischen Daten durch wenige, für die Problemstellung informative Größen zu beschreiben. Die wichtigsten derartigen Maßzahlen sind Lageparameter und Streuungsparameter. 2.1.2.1 Lageparameter – Mittelwerte Eine Stichprobe vom Umfang n mit der Urliste x1 , x2 , ... xn bestehe aus k verschiedenen Werten a j mit den absoluten Häufigkeiten n j und den relativen Häufigkeiten h j . Dann werden folgende Lageparameter definiert: arithmetischer Mittelwert x (6) x 1 n 1 k xi n j a j n i 1 n j 1 k hj a j j 1 Median (Zentralwert, 50%-Quantil) ~ x oberhalb und unterhalb von ~ x liegen gleich viele Stichprobenwerte (7) sind die n Werte der Größe nach geordnet, so gilt x der in der Mitte stehende Wert n ungerade: ~ n gerade: ~ x arithmetisches Mittel der beiden mittleren Werte Der arithmetische Mittelwert x ist der mit Abstand wichtigste Lageparameter für die uns interessierenden Fragestellungen: a) Auswertung „objektiv“ ermittelter Messreihen. b) Aus relativ kleinen Stichproben „hochrechnen“ auf die Grundgesamtheit. Der Median ~ x ist von Bedeutung bei kleinen Stichproben mit möglichen „Ausreißern“, und wenn die Abstände der Merkmalswerte nicht gleichwertig sind, sondern nur eine Rangfolge kennzeichnen (z.B. Klausurnoten). 11 Statistik 2. Beschreibende Statistik Beispiel 4 In zwei Stichproben wurde die Dichte von Gesteinsproben (in kg/dm2 ) gemessen. a) 1,8 2,0 1,9 1,8 2,2 1,8 1,9 b) 2,0 1,8 1,8 4,2 1,9 1,9 1,8 Für die beiden Stichproben erhält man die Lageparameter: xa 1,914 xb 2,2 ~ xa 1,9 ~ xb 1,9 Für die Stichprobe a) haben beide Maßzahlen etwa denselben Wert; für die Stichprobe b) liefert dagegen nur der Median ~ x einen „vernünftigen“ Mittelwert ( warum ? ). geometrisches Mittel x̂ Falls xi 0 für i 1,..., n heißt xˆ n x1 x2 ... xn n a1n1 a2n 2 ... akn k (8) geometrisches Mittel einer Stichprobe. Es findet Einsatz bei verhältnisskalierten Merkmalen z.B. Wachstumsraten,… Beispiel 5 (zum geometrischen Mittel) Durchschnittliche relative Umsätze (Zuwachsrate) pro Jahr eines Betriebs: i Jahr Umsatz ui ( in Millionen ) 0 1 2 3 4 1999 2000 2001 2002 2003 pi Im Beispiel: Zuwachsrate pi bez. WachstumsVorjahr (%) faktor qi 2,0 2,4 2,9 2,7 3,1 ui 1 ui 100 ; ui +20.000 +20.833 - 6.896 +14.816 qi ui 1 p 1 i ui 100 qˆ 4 1,2 1,208 0,931 1,148 1,115 p ( qˆ 1) 100 11,5 % 12 1.200 1.208 0.931 1.148 Statistik 2.1.2.2. 2. Beschreibende Statistik Streuungsparameter Die Mittelwerte geben zwar an, um welchen „mittleren“ Wert sich die Stichprobenwerte gruppieren, sie gestatten jedoch keine Aussage über deren Schwankungen um den Mittelwert. Beispiel 6 Gegeben sind zwei Stichproben a) 1 4 5 b) 2,7 xa 3 Mittelwert: Aber: 2 3,0 3,1 3,2 xb 3 Die Werte von b) liegen dichter beim Mittelwert als die Werte von a) Der einfachste Streuungsparameter ist die Variationsbreite oder Spannweite ( range ) R xmax xmin , die aber außer etwa für die Wahl des Maßstabes und die Bereichsauswahl für grafische Darstellungen kaum eine Rolle spielt. Aus der Definition des arithmetischen Mittelwerts x folgt, dass die Summe der Differenzen xi x als mögliches Streuungsmaß ausscheidet; es ist nämlich n i 1 ( xi x ) n xi n x n x n x 0 i 1 Dagegen ist das arithmetische Mittel der Abstände | xi x | ein sinnvolles Maß für die Streuung, die so genannte mittlere absolute Abweichung bezüglich x (9) d 1 n n i 1 | xi x | k j 1 h j |a j x | Die in (9) auftretenden Absolutbeträge führen zu unhandlichen Formeln und haben außerdem gewisse Schwierigkeiten bei theoretischen Betrachtungen zur Folge. Diese Schwierigkeiten sind geringer, wenn man zu den Quadraten der Abweichungen übergeht; große Abweichungen werden damit auch stärker gewichtet als kleine. Es liegt also nahe, das arithmetische Mittel dieser Abstandsquadrate (10) m2 1 n n ( xi x )2 i 1 13 Statistik 2. Beschreibende Statistik als Streuungsmaß zu verwenden. In der beurteilenden Statistik zeigt sich aber, dass es günstiger ist, die Summe der Abstandsquadrate nicht durch n , sondern durch n 1 zu dividieren. Man definiert deshalb folgende Größen Varianz der Stichprobe (empirische Varianz) (11) s2 1 n 1 n ( xi x )2 i 1 1 n 1 k n j ( a j x )2 j 1 Standardabweichung der Stichprobe (12) s s2 Bemerkungen: 1. Die Standardabweichung s hat die gleiche Dimension wie die Stichprobenwerte, ist also auch von daher ein geeignetes Maß für die Streuung der Stichprobenwerte. 2. Vereinfachte Berechnung der Varianz Formel (11) lässt sich umformen in die für die Berechnung eventuell einfachere Form (11*) s2 1 n 2 2 xi n x n 1 i 1 Übung: Leiten Sie (11*) aus der Definitionsgleichung (11) her ! 3. Zur praktischen Bedeutung der Standardabweichung Bei näherungsweise normalverteilten Merkmalen gilt als Faustregel (näheres zur Normalverteilung in Abschnitt 4.6.) (13) im Intervall x s x x s 14 liegen etwa zwei Drittel aller Werte Statistik 2. Beschreibende Statistik Fortsetzung Beispiel 6: Varianzen und Standardabweichungen sa 1 (1 3) 2 (2 3) 2 (4 3) 2 (5 3) 2 3,333 ; 3 sb 1 (2,7 3) 2 (3,0 3) 2 (3,1 3) 2 (3,2 3) 2 0,047 ; 3 2 2 sa 1,826 sb 0,216 Skizze: Stabdiagramme mit den Werten x s ! Übung: Berechnen Sie die Varianzen und Standardabweichungen zu Beispiel 6 mit Formel (11*) 15 Statistik 2. Beschreibende Statistik 2.1.3. Auswertung umfangreicher Stichproben Die Vorgehensweise in Beispiel 2 ist typisch für den Fall diskreter Merkmale mit wenigen unterschiedlichen Stichprobenwerten. Bei diskreten Merkmalen mit sehr vielen verschiedenen Werten und bei stetigen Merkmalen wird das Datenmaterial durch Klasseneinteilung „verkleinert“. Die wesentlichen Schritte werden in Beispiel 7 veranschaulicht. Bezeichnungen: ( vgl. Bezeichnungen und Definitionen in (1) ) aj (14) nj hj Hj ... Klassenmitte ... absolute Klassenhäufigkeit (aus Strichliste entnehmen) ... relative Klassenhäufigkeit ... relative Summenhäufigkeit Zur grafischen Darstellung könnte man ein Stabdiagramm h j über den Klassenmitten a j verwenden. Da die Beobachtungswerte aber innerhalb der Klasse verteilt liegen, ist es besser, die Stäbe durch Rechtecke zu ersetzen; dabei ist es sinnvoll (vor allem bei nicht-äquidistanter Klasseneinteilung) die relative Klassenhäufigkeit nicht durch die Höhe, sondern durch die Fläche des Rechtecks darzustellen. Die Darstellung von h j / x über den Klassenintervallen nennt man Histogramm ~ (Dichtehistogramm); die zugehörige Funktion f ( x) heißt empirische Dichtefunktion ~ Die Treppenfunktion F ( x) mit Sprunghöhen h j an den Klassenmitten a j heißt empirische Verteilungsfunktion. 16 Statistik 2. Beschreibende Statistik Beispiel 7 651 667 548 743 628 Lebensdauer von n = 50 Zellwollfasern ( in Stunden ) 278 717 434 1107 243 934 178 108 448 1352 111 448 351 689 891 xmax 1352 ; xmin 108 871 403 782 281 328 → 1087 466 311 512 576 208 366 217 384 369 542 238 281 638 419 289 831 499 305 483 327 200 588 544 397 z.B. k = 13 Klassen der Breite x 100 Datenauswertung in einer Tabelle n j h j H j h j / x ||| 3 0,06 0,06 0,0006 200 xi 300 ||||| |||| 9 0,18 0,24 0,0018 3 300 xi 400 ||||| |||| 9 0,18 0,42 0,0018 4 400 xi 500 ||||| ||| 8 0,16 0,58 0,0016 5 500 xi 600 ||||| | 6 0,12 0,70 0,0012 6 600 xi 700 ||||| 5 0,10 0,80 0,0010 7 700 xi 800 ||| 3 0,06 0,86 0,0006 8 800 xi 900 ||| 3 0,06 0,92 0,0006 9 900 xi 1000 | 1 0,02 0,94 0,0002 10 1000 xi 1100 | 1 0,02 0,96 0,0002 11 1100 xi 1200 | 1 0,02 0,98 0,0002 0 0,00 0,98 0,0000 1 0,02 1,00 0,0002 j Klasse Strichliste 1 100 xi 200 2 12 1200 xi 1300 13 1300 xi 1400 Grafische Darstellung h j / x | (Histogramm und Verteilungsfunktion) H j ~ f ( x) ~ F ( x) 1 0,0018 0,5 0,0006 x x 100 500 150 350 1000 17 1350 Statistik 2. Beschreibende Statistik Bemerkungen: 1. Bei äquidistanter Einteilung (konstante Klassenlänge x ) zeigen bereits die Strichlisten den Charakter der zugehörigen Dichtehistogramme. 2. H j entsteht jetzt nicht mehr durch Summierung entsprechender Höhen bzw. Längen in den Stabdiagrammen, sondern durch Summierung entsprechender Flächeninhalte ( Integration !) Die Gesamtfläche des Histogramms hat den Wert 1 . 3. Statt Dichtehistogramm und treppenförmiger Verteilungsfunktion verwendet man auch Häufigkeitspolygon und Summenhäufigkeitspolygon; dabei werden die einzelnen Rechtecke jeweils durch flächengleiche Trapeze ersetzt. 4. Ein Problem ist die Wahl günstiger Klassenbreiten x : ist x zu groß, können wesentliche Eigenschaften der Stichprobe verwischt werden; ist x zu klein, so bleibt die Darstellung zu unübersichtlich. Der Deutsche Normenausschuss (*) empfiehlt bei mehr als 50 Beobachtungswerten: a) bis mindestens n = 100 ( 1000, k = 10 ( 13, 10 000, 100 000 ) Werte 16, 20 ) b) möglichst äquidistante Einteilung mit x 0,6 s Klassen ( s ... Standardabweichung ) Ist von einer Stichprobe nur eine Klasseneinteilung bekannt, so lassen sich Mittelwert x und Varianz s 2 nicht mehr exakt berechnen. Man ersetzt dann alle in einer Klasse liegenden Werte durch den Wert der Klassenmitte a und bildet aus a und den Klassenhäufigkeiten n j j j bzw. h j Näherungswerte analog zu den Formeln (6) und (11): (15) x k j 1 (16) s 2 hj a j 1 k n j ( a j x ) 2 n 1 j 1 Die Näherungen x x und s 2 s2 sind umso besser, je feiner die Klasseneinteilung ist. (*) Eine ausführliche Darstellung der wichtigsten statistischen Auswertungsverfahren findet man in DIN 55 302 Blatt 1 Nov 1970 ; Blatt 2 Jan 1967 18 Statistik 2. Beschreibende Statistik Maßzahlen zu Beispiel 7: 1 (651 278 . . . 397) 505,36 50 (6) x (15) x 0,06 150 0,18 250 . . . 0,02 1350 506 (11) s 270,43 (16) s 266,62 Bei der graphischen Darstellung in einem Histogramm werden über den einzelnen Klassen Rechtecke gezeichnet. Für die Größe der Rechtecke ergeben sich zwei Möglichkeiten: a) Höhe des Rechtecks ist proportional zur relativen Häufigkeit b) Fläche des Rechtecks ist proportional zur relativen Häufigkeit Bei Verwendung unterschiedlicher Klassenbreiten sollte a) nicht verwendet werden; die Graphik könnte sonst falsche Schlüsse suggerieren (Klassen mit dargestellten größeren Klassenbreiten werden mit verhältnismäßig zu großen Flächen abgebildet). Ein flächenproportionales Histogramm erhält man durch die Vorschrift Rechteckhöhe = absolute Klassenhäufigkeit Klassenbre ite 19 Statistik 2. Beschreibende Statistik 2.1.4. Zusammenfassung von Teilstichproben Sind aus einer Grundgesamtheit mehrere Stichproben mit den Kenngrößen { Umfang, arithmetisches Mittel, Varianz } gegeben, so interessieren der arithmetische Mittelwert und die Varianz der durch Zusammenfassung dieser Teilstichproben erhaltenen Gesamtstichprobe. Sind zwei Stichproben aus derselben Grundgesamtheit gegeben mit den Parametern { n1, x1, s12 } bzw. { n2 , x2 , s22 } , so erhält man durch Zusammenfassung eine Gesamtstichprobe mit den Parametern (17) n n1 n2 (18) x (19) s2 ... Umfang n1 x1 n2 x2 n1 n2 ... Mittelwert 1 n n 2 2 {(n1 1) s1 (n2 1) s2 1 2 ( x1 x2 ) 2} ... Varianz n 1 n1 n2 Bemerkungen: 1. Im Unterschied zu den Formeln (17) und (18) lässt sich die letzte Formel nur schwer auf mehr als zwei Teilstichproben verallgemeinern; besser geeignet ist dafür die zu (19) äquivalente Formel (19*) s2 mit 1 2 2 2 2 {(n1 1) s1 (n2 1) s2 n1 d1 n2 d 2 } n 1 d1 x1 x ; d 2 x2 x 2. Die ersten beiden Terme in Gleichung (19) bzw. (19*) stellen den Mittelwert der beiden Varianzen s12 und s22 dar. Dieser Anteil wird als interne mittlere quadratische Abweichung bezeichnet; die restlichen Terme bilden die externe mittlere quadratische Abweichung . 3. Die durch (18) bzw. die entsprechende Verallgemeinerung für die Zusammenfassung von k Stichproben gebildete Größe bezeichnet man als gewogenes oder gewichtetes arithmetisches Mittel. 20 Statistik 2. Beschreibende Statistik Beispiel 8 Zusammenfassung von 3 Stichproben Aus einer Grundgesamtheit von Messobjekten sind drei Stichproben entnommen worden. Die Auswertung der einzelnen Stichproben brachte folgende Ergebnisse ( ni ... Stichprobenumfang; xi ... arithmetisches Mittel; si ... Standardabweichung ) 1. Stichprobe: n1 45 ; x1 29,30 ; s1 4,52 2. Stichprobe: n2 35 ; x2 29,05 ; s2 4,56 3. Stichprobe: n3 70 ; x3 29,24 ; s3 4,48 Bestimmen Sie Stichprobenumfang, arithmetisches Mittel und Standardabweichung der durch Zusammenfassung der drei Teilstichproben entstehenden Stichprobe. Lösung: Mit (17), (18), (19*) erhält man n n1 n2 n3 150 x 2 s n1 x1 n2 x2 n3 x3 45 29,30 35 29,05 70 29,24 29,214 n 150 1 2 2 2 (n1 1) s12 (n2 1) s22 (n3 1) s32 n1 ( x1 x ) n2 ( x2 x ) n3 ( x3 x ) n 1 1 149 44 4,52 2 2 2 2 35 (29,05 29,214) 70 (29,24 29,214) s2 2 34 4,56 69 4,48 45 (29,30 29,214) 2992,0991 20,081 s 4,481 149 21 2 Statistik 2.2 2. Beschreibende Statistik Zweidimensionale Merkmale 2.2.1 Vorbetrachtungen / Korrelation – Regression Im Abschnitt 2.1 wurden nur Messreihen bezüglich eines Merkmals untersucht: eine nStichprobe bestand aus n Realisierungen { x1, x2 , ... xn } einer eindimensionalen Zufallsvariablen X. Werden an jedem Untersuchungsobjekt gleichzeitig zwei Merkmale gemessen, so erhält man eine Messreihe aus n Wertepaaren {( x1; y1), ( x2 ; y2 ), ... ( xn ; yn )} , die als Realisierungen eines zweidimensionalen Zufallsvektors ( X ; Y ) aufgefasst werden können. Neben der reinen Beschreibung der gemeinsamen Verteilung von X und Y in Diagrammen und Tabellen interessiert man sich vor allem für die Frage, ob zwischen den beiden Merkmalen eine Abhängigkeit besteht. y y * * * * ** * * * y2 * * * y2 * * x x2 * * x x2 Zwei Fragen sind von Interesse : - Kann man den Grad der Abhängigkeit zwischen den Zufallsgrößen durch eine geeignete Kennzahl „quantifizieren“ Korrelationsrechnung - Kann man einen (näherungsweisen) funktionalen Zusammenhang zwischen X und Y mathematisch formulieren Regressionsrechnung Beispiele: a) b) c) d) Objekt Merkmal X Merkmal Y Schüler Stahl 2 Würfel Patient Mathematik-Note Siliziumgehalt Augenzahl 1. W. Alter Physik-Note Druckfestigkeit Augenzahl 2. W. Blutdruck 22 abhängig? ja ? nein ja Statistik 2. Beschreibende Statistik 2.2.2 Tabellarische und grafische Darstellung – Grundbegriffe Die Urliste einer zweidimensionalen Stichprobe vom Umfang n enthält die n Wertepaare ( xi ; yi ) in der Reihenfolge ihrer Messung. Einen Überblick über die Verteilung erhält man durch Eintragen der Messwertpaare als Punkte in ein rechtwinkliges x, y –Koordinatensystem: - bei einem streng funktionalen deterministischen Zusammenhang zwischen den beiden Merkmalen liegen die Punkte auf einer wohldefinierten Kurve - bei einem stochastischen Zusammenhang, bei dem die Messwerte einander nicht eindeutig zugeordnet werden können, sondern aufgrund von Zufallseinflüssen streuen, bilden die Punkte eine Punktwolke oder ein Streudiagramm. Diese Punktwolke vermittelt zwar nur einen ersten qualitativen Eindruck, lässt aber häufig bereits einen Trend erkennen (vgl. Bsp. 9: größere x –Werte lassen auch größere y –Werte erwarten). Beispiel 9 Siliziumgehalt X in % und Druckfestigkeit Y in 10 Mpa einer Stahlsorte Urliste: ( xi ; yi ) ( xi ; yi ) ( xi ; yi ) 0,34 66,0 0,32 68,0 0,24 64,0 0,27 59,2 0,21 55,3 0,24 60,4 0,26 59,2 0,30 67,0 0,23 58,9 0,30 63,4 0,32 62,9 0,27 62,5 Übung: Tragen Sie die Werte der Tabelle im Koordinatensystem als Streudiagramm (Punktwolke) ein. y x 23 Statistik 2. Beschreibende Statistik Die n Wertepaare ( xi ; yi ) der Urliste sind nicht notwendig voneinander verschieden; einzelne Messwertpaare können auch mehrmals auftreten. In Beispiel 10 wird gezeigt, wie man in solchen Fällen die Daten mit Hilfe der Häufigkeiten der verschiedenen beobachteten Messwerte weiter ordnen kann. Die voneinander verschiedenen beobachteten x –Werte und y –Werte ordnet man der Größe nach an und bezeichnet sie mit x j * und yk * : (20) x1* x2 * ... x p * y1* y2 * ... yq * x j*: yk * : ( p n) (q n) {( x j *; yk *); j 1, 2, ... p ; k 1, 2, ... q } sind dann p q voneinander verschiedene beobachtbare Messwertpaare, die sich durch Berechnung ihrer Häufigkeiten weiter ordnen lassen. Dazu werden folgende Bezeichnungen eingeführt: n jk ... absolute Häufigkeit des Wertepaares ( x j *; yk * ) = Anzahl des Auftretens von ( x j *; y k * ) in der Stichprobe vom Umfang n (21) h jk n jk n ... relative Häufigkeit des Wertepaares ( x j *; y k * ) ( j 1, 2, ... p ; k 1, 2, ... q ) mit den Eigenschaften 0 n jk n (22) 0 h jk 1 p q j 1 k 1 (23) p q n jk n h jk 1 j 1 k 1 Summe aller absoluten Häufigkeiten = Stichprobenumfang n Summe aller relativen Häufigkeiten =1 Die absoluten Häufigkeiten werden in der Korrelationstabelle (Mehrfeldertafel) zusammengefasst (s. Beispiel 10). 24 Statistik 2. Beschreibende Statistik Beispiel 10 i Mathematik- und Physik-Noten von 25 Schülern Math Phys i Math Phys i Math Phys 1 2 1 11 2 4 21 3 2 2 2 2 12 3 3 22 4 3 3 3 2 13 4 5 23 5 4 4 4 4 14 5 4 24 3 4 5 3 4 15 5 5 25 4 2 6 2 3 16 6 5 7 3 3 17 5 5 8 4 4 18 3 4 9 5 3 19 4 3 10 3 2 20 5 5 Darstellung der absoluten Häufigkeiten der verschiedenen Notenpaare in der Korrelationstabelle: x – Merkmal = Mathematiknote; y – Merkmal = Physiknote Physik-Note Mathematik - Note Letzte Spalte = Randverteilung der x – Werte = Verteilung der Mathematiknoten Letzte Zeile = Randverteilung der y - Werte = Verteilung der Physiknoten 25 Statistik 2. Beschreibende Statistik 2.2.3 Maßzahlen einer zweidimensionalen Stichprobe Gegeben sei eine zweidimensionale Stichprobe vom Umfang n bestehend aus den n Wertepaaren { ( x1 ; y1 ), ( x2 ; y2 ), ... ( xn ; yn ) } Betrachtet man x Werte und y Werte getrennt, so kann man wie in Abschnitt 2.1 die arithmetischen Mittelwerte x und y sowie die empirischen Varianzen s x 2 und s y 2 definieren: (24) (25) x sx 2 1 n n i 1 y xi ; 1 n n i 1 yi 1 n 1 n 2 2 ( xi x ) ; s y ( yi y ) 2 n 1 i 1 n 1 i 1 Interessiert man sich für den Zusammenhang zwischen X und Y , so benötigt man weitere Maßzahlen. Eine solche Maßzahl, die auftritt bei der Berechnung einer „besten Geraden durch eine Punktwolke { ( xi ; yi ) } “, also eine Aussage macht über den Grad der linearen Abhängigkeit zwischen X und Y , ist die Kovarianz s xy : (26) s xy 1 n ( xi x )( yi y ) n 1 i 1 Im Unterschied zu s x 2 und s y 2 die stets positiv sind, kann sxy positiv, negativ oder Null sein. An nebenstehender Skizze mit der geometrischen Deutung der Produkte ( xi x )( yi y ) als Rechteckflächen kann man sich einige qualitative Aussagen veranschaulichen: sxy 0 : zu großen x Werten gehören überwiegend große y Werte; die „beste Gerade“ steigt sxy 0 : zu großen x Werten gehören überwiegend kleine y Werte; die „beste Gerade“ fällt sxy 0 : keine Vorzugsrichtung, kein linearer Zusammenhang erkennbar; es gibt keine „beste Gerade“ 26 Statistik 2. Beschreibende Statistik Deutung des Vorzeichens der Kovarianz ( xi x ) ( yi y ) . . . . Rechteckfläche y I II ( xi / y i ) y S III IV x x Punkte überwiegend in I oder III sxy 0 Punkte überwiegend in II oder IV sxy 0 Für quantitative Aussagen und für Vergleiche zwischen verschiedenen zweidimensionalen Stichproben ist es notwendig, die dimensionsbehaftete Maßzahl s xy dimensionslos zu machen und zu normieren. Man dividiert die Kovarianz s xy durch das Produkt der Standardabweichungen s x und s y und erhält so eine skaleninvariante Maßzahl (27) rxy s xy sx s y rxy heißt (empirischer) Korrelationskoeffizient . 27 Statistik 2. Beschreibende Statistik Bemerkung: Praktische Berechnung der Maßzahlen In der „Vor-PC-Zeit“ lohnte es sich, die Definitionsgleichungen für Varianzen und Kovarianzen etwas umzuformen. Führt man die entsprechenden Umformungen durch, die in Abschnitt 2.1 zu einer vereinfachten Formel für die Varianz s 2 einer eindimensionalen Stichprobe { xi } führten, so ergeben sich folgende Formeln zur vereinfachten Berechnung von sx 2 , s y 2 und sxy : ( 28) sx 2 1 n 1 ( 29) sy2 1 n 1 1 n 1 (30) s xy 1 xi n x n 1 i 1 n 1 2 2 y n y i n 1 i 1 n 2 2 1 n xi n xi i 1 i 1 n 2 n yi 2 i 1 1 xi yi n x y n 1 i 1 n 2 2 1 n yi n i 1 n 1 n xi yi n xi yi i 1 i 1 i 1 n Trägt man bei der Berechnung der Maßzahlen und der Regressionsgeraden von y bezüglich x alle Zwischengrößen in einer Tabelle auf, so erhält man für die Daten in Beispiel 9 die gewünschten Größen nach dem Schema auf Seite 34. 2.2.4 Regression bei zweidimensionalen Stichproben 2.2.4.1. Lineare Regression / Ausgleichsgerade / Trendgerade Gegeben: Stichprobe { ( x ; y ) ; i 1, 2, ... n } Gesucht: „Beste Gerade“ durch die zugehörige ( x | y ) - Punktwolke a) i i i i Regressionsgerade von y bezüglich x Man betrachtet x als unabhängige Variable, d.h. man möchte die gesuchte Geradengleichung verwenden, um zu x - Werten y - Werte zu berechnen („Regression von y auf x “ = Zurückschreiten bzw. Rückführung von y auf x ). Im allgemeinen Ansatz für die Gerade (31) y ax b bestimmt man die Koeffizienten a , b so, dass die Summe der Quadrate der vertikalen Abstände zwischen den Punkten ( x | y ) und der Geraden möglichst klein wird (Bild a). i i 28 Statistik 2. Beschreibende Statistik Aus der Forderung n (32) Q1(a,b) [ yi (a xi b)]2 Minimum ! i 1 (Methode der kleinsten Fehlerquadrate) erhält man die notwendigen Bedingungen: n Q1 2 (axi b yi ) xi 0 a i 1 n Q1 2 (axi b yi ) 0 b i 1 Ausführlich ausgeschrieben ergeben die rechten Seiten dieser Bedingungen die so genannten „Normalgleichungen“: n n n ( xi2 ) a ( xi ) b xi yi i 1 i 1 i 1 n n ( xi ) a n b yi i 1 xi n x n und i 1 erhält man (II) i 1 n Mit (I) yi n y i 1 n n i 1 i 1 ( xi2 ) a n x b xi yi (Ia) n x a nb n y (IIa) Multipliziert man (IIa) mit x und subtrahiert dann von (Ia) n n n i 1 i 1 a [( xi2 ) n x 2 ] xi yi n x y a xi yi n xy i 1 n xi2 n x 2 i 1 Mit (28) und (30) erhält man dann für die Koeffizienten in der Geradengleichung (31) (33) a s xy sx 2 rxy sy sx ; b y a x Dabei bedeutet die 2. Gleichung von (33), die unmittelbar aus (II) folgt, dass die Gerade mit der Steigung m a durch den „Schwerpunkt“ S ( x | y ) geht. 1 29 Statistik 2. Beschreibende Statistik Bemerkung: Die Summen im linearen Gleichungssystem mit den Gleichungen (I) und (II) (Koeffizienten von a und b) lassen sich tabellarisch auswerten; somit können mit den ermittelten Zahlenwerten die Koeffizienten in der Geradengleichung (31) unmittelbar als Lösung des Gleichungssystems ermittelt werden. Beispiel 11 In der folgenden Tabelle sind n = 5 Wertepaare ( xi ; yi ) aufgelistet xi yi xi2 xi yi 0 -1 0 0 1 0 1 0 3 2 2 4 4 2 3 2 9 6 4 4 16 16 10 7 30 26 Mit (I) und (II) Bild a: 30a 10b 26 10a 5b 7 y 4 1 1 2 a = 1,2 3 , 4 x b = -1 Regressionsgerade von y bezüglich x y y ax b ( x1; y1 ) v1 v2 ( x2 ; y 2 ) x „vertikaler Abstand“ vi yi yi ( a xi b ) Bedingung: v12 v22 . . . vn 2 Min ! ( „Methode der kleinsten Fehler-Quadrate“ ) 30 Statistik 2. Beschreibende Statistik b) Regressionsgerade von x bezüglich y Man betrachtet y als unabhängige Variable, d.h. man möchte die gesuchte Geradengleichung verwenden, um zu y - Werten x - Werte zu berechnen („Regression von x auf y “ = Zurückschreiten bzw. Rückführung von x auf y ). Im allgemeinen Ansatz für die Gerade x cy d (34) bestimmt man die Koeffizienten c , d so, dass die Summe der Quadrate der horizontalen Abstände zwischen den Punkten ( x | y ) und der Geraden möglichst klein wird (Bild b). i i Aus der Forderung n (35) Q2 (c,d ) [ xi (c yi d )]2 Minimum ! i 1 erhält man für die Koeffizienten der Geradengleichung (34) (36) c sxy sy 2 rxy sx sy ; d x c y Setzt man diese Werte in den Ansatz (34) ein und löst nach y auf, so erhält man die Regressionsgerade von x bezüglich y in der üblichen Form (37) 1 d y x c c Die gesuchte zweite Regressionsgerade geht also mit der Steigung m 2 „Schwerpunkt“ S ( x | y ) . Bild b: 1 durch den c Regressionsgerade von x bezüglich y y x cyd ( x1; y1 ) h1 h2 ( x2 ; y 2 ) x 31 Statistik 2. Beschreibende Statistik „horizontaler Abstand“ hi xi xi ( c yi d ) Bedingung: h12 h2 2 . . . hn 2 Min ! Sonderfälle: 1. Wann fallen die beiden Geraden zusammen ? Beide Geraden gehen durch S ; sie sind identisch, wenn ihre Steigungen gleich sind. Aus 1 a folgt a c 1; mit (33) und (36) ergibt sich daraus c rxy sy sx rxy sx 2 rxy 1 sy In diesem Fall liegen alle Punkte exakt auf einer Geraden ! 2. Wie liegen die Geraden, falls die Kovarianz Null ist ? Mit s xy 0 folgt aus den entsprechenden Geradengleichungen: (31), (33): y y die Regressionsgerade von y auf x ist eine Parallele zur x -Achse (34), (36): x x die Regressionsgerade von x auf y ist eine Parallele zur y -Achse d.h. die beiden Regressionsgeraden stehen aufeinander senkrecht 2.2.4.2. Eigenschaften des Korrelationskoeffizienten Aus (26) folgt sxy s yx und damit nach (27) auch rxy ryx ; der Korrelationskoeffizient 1. ist symmetrisch, die Reihenfolge der Indizes spielt keine Rolle. Für das Minimum der „Gütefunktionen“ Q1 bzw. Q2 ergibt sich 2. Qmin (1 rxy 2 ) Da Q1, 2 nie negativ werden kann, folgt also (38) 3. 1 rxy 1 rxy 1 Punkte liegen auf einer steigenden Geraden. rxy 1 Punkte liegen auf einer fallenden Geraden. In beiden Fällen ist Qmin 0 . Je näher rxy beim Wert 1 liegt, desto enger liegen die Punkte um eine Gerade. 32 Statistik 2. Beschreibende Statistik rxy 0 : positive, gleichsinnige Korrelation; großen x Werten entsprechen überwiegend große y Werte rxy 0 : negative, gegensinnige Korrelation; großen x Werten entsprechen überwiegend kleine y Werte rxy 0 : unkorreliert Ergebnis: Der Korrelationskoeffizient rxy ist ein Maß für Richtung und Stärke des linearen Zusammenhangs zwischen den Merkmalen X und Y Veranschaulichung des Korrelationskoefizienten y y rxy 1 rxy 0,6 x y x y rxy 0 rxy 0,9 x x 33 Statistik 2. Beschreibende Statistik Maßzahlen und Regressionsgerade zu Beispiel 9 (Seite 23) i xi yi xi2 yi2 xiyi 1 0,34 66,0 0,1156 4356,00 22,440 2 0,27 59,2 0,0729 3504,64 15,984 3 0,26 59,2 0,0676 3504,64 15,392 4 0,30 63,4 0,0900 4019,56 19,020 5 0,32 68,0 0,1024 4624,00 21,760 6 0,21 55,3 0,0441 3058,09 11,613 7 0,30 67,0 0,0900 4489,00 21,100 8 0,32 62,9 0,1024 3956,41 20,128 9 0,24 64,0 0,0576 4096,00 15,360 10 0,24 60,4 0,0576 3648,16 14,496 11 0,23 58,9 0,0529 3469,21 13,547 12 0,27 62,5 0,0729 3906,25 16,875 Σ 3,30 746,8 0,9260 46631,96 206,715 Aus den Werten der letzten Zeile ergeben sich die Maßzahlen 3,30 746,8 0,275 y 62,233 12 12 1 1 2 ( 0,9260 3,30 ) 0,001682 s x 0,041 11 12 1 1 2 s y 3,77 ( 46631,96 746,8 ) 14,1915 11 12 x 2 sx 2 sy 1 1 ( 206,715 3,30 746,8 ) 0,122273 11 12 s xy rxy 0,791 sx s y s xy Die gesuchte Regressionsgerade von y bezüglich x hat nach (28), (33) die Gleichung s xy y y 2 ( x x ) . . . 72,70 x 42,25 s x Hinweis zum Diagramm Gerade durch die Punkte S ( x / y ) (0,275 / 62,23 ) und P( 0,2 / 56,79 ) 34 Statistik 2. Beschreibende Statistik 2.2.4.3. Nichtlineare Regression In 2.2.4.1. wurde die Vermutung eines linearen Zusammenhangs zwischen den x- und yWerten zu Grunde gelegt. In vielen Problemen in der Praxis liegt jedoch die Vermutung nahe, dass die Punkte ( xi ; yi ) , i 1,..., n nicht auf einer Regressionsgeraden sondern auf einer Kurve eines anderen Typs – z.B. Polynom, Potenzfunktion, Exponentialfunktion – liegen. Im Folgenden werden zwei Modelle betrachtet: a) Polynomiale Regression y f ( x ) pn ( x ) n ak x k (Polynom vom Grad n) k 0 n Die Methode der kleinsten Fehlerquadrate Q ( f ( xi ) yi ) 2 → Minimum i 1 führt auch hier zum Ziel. Die notwendigen Bedingungen Q 0 ergeben ein lineares a k Gleichungssystem für die Koeffizienten von a k von pn (x ) . Übung: Stellen Sie das Gleichungssystem für die Koeffizienten a, b und c von y f ( x) ax 2 bx c auf. b) Exponentielle Regression (exponentielle Glättung) y f ( x ) a e b x Bei der Anwendung der Methode der kleinsten Fehlerquadrate empfiehlt es sich, zu einem logarithmischen Maßstab überzugehen. (Andernfalls würde man ein nicht lineares Gleichungssystem für die Parameter a und b erhalten!) ln y ln a b x Aus der Forderung n n ~ Q(a, b) (ln( f ( xi )) ln yi )2 (ln a b xi ln yi )2 → Minimum i 1 i 1 35 Statistik folgt mit 2. Beschreibende Statistik ~ ~ Q Q 0 und 0 a b n n n ln a ( xi ) b ln yi i 1 n und i 1 n n ( xi ) ln a ( xi2 ) b xi ln yi i 1 i 1 (*) i 1 Lösung des Gleichungssystems (*) liefert die Parameter a und b. Die Koeffizienten des Gleichungssystems (*) erhält man durch Summenbildung in der nachstehenden Tabelle: xi yi xi2 ln yi 36 xi ln yi Statistik 2.3. 2. Beschreibende Statistik Aufgaben 1. Bei 20 Würfelversuchen ergaben sich der Reihe nach folgende Augenzahlen: 6 2 4 1 2 4 3 3 2 1 6 5 6 3 4 1 6 2 5 3 a) Erstellen Sie eine Häufigkeitstabelle und zeichnen Sie die zugehörigen Diagramme. b) Wie groß sind Mittelwert und Standardabweichung 2. Berechnen Sie arithmetisches Mittel, Median und Standardabweichung der Stichprobe 218 220 223 218 217 224 225 223 3. Versuche zur Zugfestigkeit von Blechen ergaben folgende Werte (in N/mm2; durch Runden liegt bereits eine Klasseneinteilung vor !) 440 430 410 440 440 430 440 420 450 430 430 440 450 460 410 420 450 410 440 440 430 440 460 410 430 450 450 420 440 440 a) Skizzieren Sie das Histogramm der Häufigkeitsdichte und die Verteilungsfunktion. b) Berechnen Sie Mittelwert, Varianz und Standardabweichung. 4. Für die Lebensdauer eines bestimmten Haushaltgerätes ermittelte ein Marktforschungsinstitut bei einer Stichprobe von n = 200 Geräten folgende Werte: zwischen 0.5 und 2.5 Anzahl 2.5 und 3.5 3.5 und 5.5 5.5 und 6.5 6.5 und 9.5 Jahre 30 110 35 15 Geräte 10 Zeichnen Sie ein aussagekräftiges Histogramm, und ermitteln Sie den empirischen Mittelwert x und die empirische Standardabweichung s . 5. Ein Bundesschatzbrief wird gemäß folgender Tabelle verzinst: Jahr 1 2 3 4 Zinssatz 3,5 4 4,25 4,5 5 6 7 5 5,5 5,5 Wie groß ist die durchschnittliche Verzinsung? 37 Statistik 6. 2. Beschreibende Statistik Die folgende Tabelle enthält den in den verschiedenen Stimmbezirken einer Stadt von den „Grünen“ erzielte Stimmanteil: Bezirk Anteil der „Grünen“ gültiger Stimmanteil I 3500 9,5 % II 4900 10,1 % III 4100 7,9 % IV 2500 6,0 % Welchen Stimmanteil (in Prozent) haben die „Grünen“ insgesamt in der Stadt errungen? 6. Von einer Stichprobe vom Umfang n = 30 wurden der arithmetische Mittelwert x( n 30) = 15,8 und die Standardabweichung s(n=30) = 3,5 berechnet. 30 a) Berechnen Sie aus diesen Daten xi und i 1 30 x i 1 i 2 . b) Nachträglich stellte sich heraus, dass die beiden Stichprobenwerte x31 16,5 und x32 18,3 bei der Berechnung der Maßzahlen vergessen wurden. Ermitteln Sie den arithmetischen Mittelwert x und die Standardabweichung s für die gesamte Stichprobe vom Umfang n = 32 . 7. Die folgende Tabelle enthält die Mathematiknoten {xi} und die Chemienoten {yi} von fünf Studierenden. Bestimmen Sie die beiden Regressionsgeraden und den Korrelationskoeffizienten. Zeichnen Sie die Regressionsgeraden. xi 1 2 3 4 5 yi 1 1 3 2 3 38 Statistik 2. Beschreibende Statistik 8. Ein Statistiker hat aus einer zweidimensionalen Stichprobe ( xi , yi ) ; i 1, ... n die beiden Regressionsgeraden berechnet: y 0,02 x 0,44 ; x 40,5 y 18,6 a) Ermitteln Sie den Schnittpunkt der beiden Geraden. Zeichnen Sie die beiden Geraden in einem geeigneten ( x, y ) – Bereich. b) Bestimmen Sie die arithmetischen Mittelwerte x und y sowie den Korrelationskoeffizienten r . 9. Die folgende Tabelle stellt den Zusammenhang zwischen Bremsweg y und Geschwindigkeit x bei einer Notbremsung eines Kraftfahrzeugs dar: Geschwindigkeit x Bremsweg y 55 46 95 119 85 95 70 70 100 120 131 175 35 22 125 195 65 62 105 141 a) Ermitteln Sie die Regressionsfunktionen y a x b und y ax 2 bx c zwischen den Messwerten und zeichnen Sie diese mit den Messpunkten in ein Koordinatensystem. b) Welche Regressionskurve ist die bessere, und welche Fahrschulregel zur Berechnung des Bremswegs lässt sich daraus ableiten? 10. Zwischen den Messwerten in der Tabelle wird ein exponentieller Zusammenhang vermutet: x y 0 2.25 1 0.9 2 0.5 3 0.35 4 0.1 a) Stellen Sie mit Hilfe der Methode der kleinsten Fehlerquadrate die Normalgleichungen für die Regressionsfunktion y f ( x) a e bx auf. c) Ermitteln Sie die Werte a und b , und zeichnen Sie die Funktionskurve und die Messpunkte in ein Koordinatensystem. 39