Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester ARBEITSBLATT 7-8 WAHRSCHEINLICHKEITSRECHNUNG UND STATISTIK STATISTISCHE GRUNDBEGRIFFE Statistik gliedert sich in zwei Teilbereiche • Die Beschreibende Statistik, die Daten erfasst und diese durch Tabellen, Graphiken und Kennzahlen möglichst übersichtlich beschreibt. • Die Beurteilende Statistik, die auf Basis der Beschreibenden Statistik prognostiziert und vergleicht, sich also z.B. mit der Qualitätskontrolle von Produkten beschäftigt. Wir werden uns vorwiegend mit der Beschreibenden Statistik beschäftigen und zunächst einmal die wichtigsten Kennzahlen der Statistik kennen lernen. 1) Absolute und Relative Häufigkeit Beispiel: Eine ungeordnete Zusammenstellung von Daten nennt man Urliste. Wir haben z.B. die Urliste zu 20 Familien, wie viele Kinder diese jeweils haben. Die Urliste sieht folgendermaßen aus: 1, 5, 4, 0, 1, 2, 1, 1, 1, 3, 1, 0, 1, 2, 1, 3, 1, 2, 1, 2 Wir sollen nun die absolute Häufigkeit des Merkmals „Anzahl der Kinder“ angeben. Lösung: Wir machen uns nun eine Tabelle, wo alle möglichen Kinderanzahlen eingetragen werden. Anzahl der Kinder 0 1 2 3 4 5 Nun zählen wir ab, wie viele Familien jeweils kein Kind, bzw. 1 Kind, 2 Kinder usw. haben. Dies bezeichnet man mathematisch als die absolute Häufigkeit dieser Merkmalsausprägung: Anzahl der Absolute Kinder Häufigkeit 0 2 1 10 2 4 3 2 1 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam 4 5 Summe: Arbeitsblatt 7-7 1 1 20 7. Semester Gesamtumfang der Stichprobe Definition: Die Anzahl der Stichprobenwerte von ein und derselben Merkmalsausprägung heißt absolute Häufigkeit dieser Merkmalsausprägung und wird mit H bezeichnet. Beispiel: Zu obiger Liste soll nun die relative Häufigkeit der „Anzahl der Kinder“ angegeben werden. Lösung: Unter der relativen Häufigkeit versteht man den Anteil den eine bestimmte Merkmalsausprägung an der Gesamtmenge hat. Definition: Das Verhältnis der absoluten Häufigkeit H einer Merkmalsausprägung zum Gesamtumfang n der Stichprobe heißt relative Häufigkeit und wird mit h bezeichnet. Es gilt: Absolute Häufigkeit H Re lative Häufigkeit = h= Stichprobenumfang n Anzahl der Kinder 0 Absolute Häufigkeit 2 1 10 2 4 3 2 4 1 5 1 Summe: 20 Relative Häufigkeit 2 = 10% 20 10 = 50% 20 4 = 20% 20 2 = 10% 20 1 = 5% 20 1 = 5% 20 20 = 100% 20 Satz: Die Summe aller relativen Häufigkeiten ist stets 1 =100% Übung: Übungsblatt 9; Aufgabe 66 2 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester 2)Mittelwerte Der Mittelwert oder Durchschnittswert ist für uns etwas ganz eindeutiges. Dem ist aber leider nicht so. Es gibt mehrere Möglichkeiten „Mittelwerte“ zu berechnen. Je nach Problemstellung ist zu untersuchen, welcher Mittelwert günstig, also aussagekräftig ist. a) Der arithmetische Mittelwert Dies ist der Mittelwert, den wir alle kennen. Beispiel: Die Angestellten A, B und C verdienen 12000.-, 18000.- und 9000.Schilling. Wie viel verdient jeder Angestellte im Durchschnitt? Lösung: x= 12000 + 18000 + 9000 = 13000 3 Definition: Das arithmetische Mittel x (sprich: x quer) der Zahlen x1 , x2 ,..., xn erhält man, indem man die Summen dieser Zahlen durch ihre Anzahl n dividiert. x1 + x2 + ... + xn 1 n x= = ⋅ ∑ xi n n i =1 b)Das gewogene arithmetische Mittel Dies ist eigentlich lediglich eine Erweiterung des arithmetischen Mittelwertes. Beispiel: Bei einer Schularbeit haben 3 Schüler ein Sehr gut, 4 Schüler ein Gut, 8 Schüler Befriedigend, 6 Schüler Genügend und 1 Schüler ein Nicht genügend. Wie lautet der Notendurchschnitt? Lösung: Es ist nur ganz logisch, dass wir jetzt nicht einfach die Noten addieren können und durch 5 dividieren, um den Mittelwert zu erhalten. Wir müssen natürlich gewichten, wie oft jede Note vorkommt. Das Ausmaß, wie oft jede Note vorkommt, nennt man den Umfang mi der Gruppe xi . Wir berechnen den Mittelwert: 3 ⋅1 + 4 ⋅ 2 + 8 ⋅ 3 + 6 ⋅ 4 + 1⋅ 5 x= = 2,91 22 3 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester Definition: Das gewogene arithmetische Mittel der Zahlen x1 , x2 ,..., xn mit ihren dazugehörenden Umfängen m1 , m2 ,..., mn erhält man, indem man die Summe der Produkte aus Zahl und dazugehörigen Umfang durch die Summe der Umfänge dividiert. n x ⋅ m + x2 ⋅ m2 + ... + x n ⋅ mn x= 1 1 = m1 + m2 + ... + mn ∑x i =1 i ⋅ mi n ∑m i =1 i c) Das geometrische Mittel Beispiel: Der Umsatz eines Betriebes stieg im ersten Jahr um den Faktor 1,3 und im zweiten um 1,8. Berechne die mittlere jährliche Steigerungsrate x g . Hier würde uns das arithmetische Mittel einen falschen Wert liefern, denn es würde unberücksichtigt bleiben, dass ja die Steigerung im zweiten Jahr die Steigerung des ersten Jahres beinhaltet. Mathematisch gesprochen würde also unberücksichtigt bleiben, dass es sich hier um einen exponentiellen Vorgang handelt. Bei diesen exponentiellen Vorgängen wird das geometrische Mittel berechnet: Definition: Das geometrische Mittel x g der Faktoren x1 , x2 ,..., xn errechnet sich folgendermaßen: x g = n x1 ⋅ x 2 ⋅ ... ⋅ x n = n n ∏x i =1 i Wenden wir nun die Formel auf unser Beispiel an: x g = 1,3 ⋅ 1,8 = 1,53 d) Der Zentralwert Nehmen wir wieder unser Schularbeitsbeispiel: Beispiel: In einer Schularbeit gab es folgende Noten: 1, 3, 2, 5, 4, 1, 5, 3, 3, 2, 4 Wie lautet der Notendurchschnitt? Lösung: Wir haben bisher immer als Notendurchschnitt das gewogene arithmetische Mittel gebildet. Man könnte sich bei dieser Berechnung aber zu Recht fragen, was es bedeuten soll, wenn wir zB. 3,2 als Ergebnis bekommen. Eine Note, die es ja gar nicht gibt. Eine Möglichkeit, die dies größtenteils umgeht, ist der Zentralwert. Die Idee ist folgende. Wir bringen unsere Urliste der Noten in eine geordnete 4 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester Liste und nummerieren die Noten durch (Wir stapeln also die Hefte nach den Noten): Laufende 1 2 3 4 5 6 7 8 9 10 11 Nummer Note 1 1 2 2 3 3 3 4 4 5 5 Da wir 11 Hefte haben, liegt das 6. Heft genau in der Mitte. Die Note die dieses Heft hat ist unser Zentralwert: z=3 Definition: Ordnet man eine Liste x1 , x2 ,..., xn der Größe nach, so heißt derjenige Wert, der die mittlere Lage aller Werte einnimmt, Zentralwert z. Eine besondere Problematik beim Zentralwert ergibt sich, wenn die Anzahl der Daten gerade ist. Stellen sie sich zum Beispiel vor, wir hatten bei obigen Beispiel noch eine 12. Note, nämlich einen 5er. Laufende 1 2 3 4 5 6 7 8 9 10 11 12 Nummer Note 1 1 2 2 3 3 3 4 4 5 5 5 Das Problem ist, dass es in diesen Fällen keinen mittleren Wert gibt. In diesem Fall muss man 2 mittlere Werte nehmen. Bei uns sind dies die Hefte 6 und 7. Der Zentralwert ist dann das arithmetische Mittel der Noten dieser beiden Hefte: 3+ 3 z= =3 2 e) Der Modalwert Beispiel: Bei einer Umfrage unter Jugendlichen, sollten die Jugendlichen auf einem Fragebogen zu verschiedenen Fragen Stellung nehmen, wobei die Auswertung schließlich folgendes ergab: Frage Stimmt Stimmt nicht Welche Partei an der 45% 55% Regierung ist, hat keinen Einfluss auf mein Leben Junge Menschen sollten 23% 77% heute die Finger von der Politik lassen. Ist mir egal, ob ich in ei- 9% 91% ner Demokratie lebe oder nicht Welche durchschnittliche Haltung nehmen die Jugendlichen zur Politik ein? 5 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester Lösung: Die bisherigen Mittelwerte sind hier natürlich vollkommen ungeeignet. Einzig der Modalwert – mit Vorbehalt – kann hier angewandt werden; der Modalwert ist die am häufigsten auftretende Merkmalsausprägung. Mit einer Quote von 91% ist es den Jugendlichen nicht egal, ob sie in einer Demokratie leben oder nicht. Dies ist der Modalwert m. Definition: Der Modalwert m ist die am häufigsten vorkommende Merkmalsausprägung. Übung: Übungsblatt 9; Aufgaben 67 - 73 3)STREUUNGSMAßE Stellen sie sich vor, wir bilden einerseits das arithmetische Mittel der Zahlen 1 und 999 und andererseits das arithmetische Mittel der Zahlen 499 und 501. In beiden fällen erhalten wir 500 als Mittelwert. Durch den Mittelwert allein geht aber die Information, dass im ersten Beispiel die zahlen viel weiter vom Mittelwert entfernt liegen als beim zweiten Beispiel verloren. Diese Information ist aber sehr oft äußerst interessant und wichtig. Folglich will man auch ein Maß angeben, wie weit die Daten um den Mittelwert gestreut sind, man will ein Streuungsmaß. a) Die mittlere lineare Abweichung Gehen wir wieder von einem Beispiel aus: Beispiel: Bei einer Schularbeit haben 3 Schüler ein Sehr gut, 4 Schüler ein Gut, 8 Schüler Befriedigend, 6 Schüler Genügend und 1 Schüler ein Nicht genügend. Wie lautet die mittlere lineare Abweichung? Lösung: Wir möchten also ausrechnen, wie stark die einzelnen Werte durchschnittlich vom Notendurchschnitt abweichen. Dazu lege ich mir zunächst einmal eine Notentabelle an: Note = xi Anzahl der Note = mi 1 3 2 4 3 8 4 6 5 1 Nun berechnen wir uns den Mittelwert: 6 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester 3 ⋅1 + 4 ⋅ 2 + 8 ⋅ 3 + 6 ⋅ 4 + 1⋅ 5 = 2,91 22 Jetzt müssen wir uns ermitteln, wie weit jede Note vom Notendurchschnitt entfernt ist. Wir ermitteln also die lineare Abweichung von jeder Note. Da es für die Größe der Abweichung egal ist, ob die Note größer oder kleiner als der Notendurchschnitt ist, bilden wir den Betrag der linearen Abweichung: Note = xi Anzahl der Note = mi Lineare Abweichung xi − x x= 1 3 1 − 2,91 = 1,91 2 4 2 − 2,91 = 0,91 3 8 3 − 2,91 = 0,09 4 6 4 − 2,91 = 1,09 5 1 5 − 2,91 = 2,09 Nun bilden wir den Durchschnitt dieser linearen Abweichungen. Beachten sie, dass wir dabei das gewogene arithmetische Mittel verwenden müssen, da ja jede Note unterschiedlich oft vorkommt. 1,91 ⋅ 3 + 0,91 ⋅ 4 + 0,09 ⋅ 8 + 1,09 ⋅ 6 + 2,09 ⋅ 1 e= = 0,85 22 Definition: Das arithmetische Mittel aus den Absolutbeträgen der Abweichungen aller Merkmalsausprägungen von deren arithmetischem Mittel bezeichnet man als mittlere lineare Abweichung e. n e= x1 − x ⋅ m1 + ... + xn − x ⋅ mn m1 + ... + mn = ∑x i =1 i − x ⋅ mi n ∑m i =1 i b) Die Varianz Die mittlere lineare Abweichung hat aber in der Praxis einen Nachteil. Es werden alle Abweichungen gleich stark gewichtet. Dies bedeutet, dass zum Beispiel bei einer Schularbeit von 30 Schülern, bei der es 29 Sehr gut und 1 Nicht genügend gab, dieses Nicht genügend bei der mittleren linearen Abweichung praktisch durch den Rost fällt, was aber nicht günstig ist. Man möchte deshalb also die größeren Abweichungen stärker betonen. Dies erreichen wir indem wir die einzelnen Abweichungen quadrieren und dann den Mittelwert dieser quadrierten Abweichungen bilden. Dieses Streuungsmaß nennt man die Varianz. Sehen wir uns dies wieder an unserem Notenbeispiel an: 7 Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester Beispiel: Bei einer Schularbeit haben 3 Schüler ein Sehr gut, 4 Schüler ein Gut, 8 Schüler Befriedigend, 6 Schüler Genügend und 1 Schüler ein Nicht genügend. Wie lautet die mittlere lineare Abweichung? Lösung: Wir bilden wieder den Notendurchschnitt: Note = xi Anzahl der Note = mi 1 3 2 4 3 8 4 6 5 1 Nun berechnen wir uns den Mittelwert: 3 ⋅1 + 4 ⋅ 2 + 8 ⋅ 3 + 6 ⋅ 4 + 1⋅ 5 x= = 2,91 22 Nun berechnen wir wieder die Abweichung jeder einzelnen Note vom Notendurchschnitt. Quadrieren aber jeden dieser Abweichungen. Beachten sie, dass wir uns dadurch den Betrag schenken können, da ja durch das Quadrieren jeder Wert positiv wird. Note = xi Anzahl der Note = mi Quadrierte Abweichung (x 1 3 2 4 3 8 4 6 5 1 i −x ) 2 (1 − 2,91)2 = 3,65 (2 − 2,91)2 = 0,83 (3 − 2,91)2 = 0,01 (4 − 2,91)2 = 1,19 (5 − 2,91)2 = 4,37 Nun berechnen wir wieder den Durchschnitt dieser quadrierten Abweichungen: 3,65 ⋅ 3 + 0,83 ⋅ 4 + 0,01 ⋅ 8 + 1,19 ⋅ 6 + 4,37 ⋅ 1 V = = 1,18 22 Definition: Das arithmetische Mittel aus den Quadraten der Abweichungen aller Merkmalsausprägungen von deren arithmetischem Mittel bezeichnet man als Varianz V. V = (x 1 ) 2 ( ) 2 − x ⋅ m1 + ... + xn − x ⋅ mn = m1 + ... + mn ∑ (x n i =1 ) 2 i − x ⋅ mi n ∑m i =1 8 i Mathematik: Mag. Schmid Wolfgang & LehrerInnenteam Arbeitsblatt 7-7 7. Semester c) Die Standardabweichung Auch die Varianz hat aber einen Nachteil. Stellen sie sich vor, sie berechnen die Varianz von Längen, welche in cm gegeben sind. Logischerweise sind auch die linearen Abweichungen folglich in cm. Durch das Quadrieren dieser Abweichungen erhält man aber nun cm2. Dies ist aber nun nicht gerade sehr logisch, dass man als durchschnittliche Streuung von Längen eine Fläche erhält. Man behebt diesen Fehler, indem man aus der Varianz die Wurzel zieht. Dieses Streuungsmaß nennt man nun die Standardabweichung σ (sprich: Sigma). Dies ist auch das bedeutendste Streuungsmaß. Definition: Die Standardabweichung σ ergibt sich aus der Wurzel der Varianz. σ = V Wenn wir bei unserem obigen Notenbeispiel auch noch die Standardabweichung ermitteln wollen, so ergibt dies: σ = 1,18 = 1,09 Übung: Übungsblatt 9; Aufgaben 74 - 75 9