Definition 1) Absolute und Relative Häufigkeiten Sei N die Anzahl der statistischen Elemente (Stichprobenwerte) einer Urliste (Stichprobe). Dann sind diese Elemente x i von 1 bis N durchnumeriert. Sei M die Anzahl der verschiedenen Ausprägungen eines Merkmals X einer konkreten statistischen Masse, wobei M < N ist. Dann ist a j : = j-te Ausprägung des Merkmals X , ( j= 1,. . .,M ) Die Häufigkeitsverteilungen eines Merkmals X werden wie folgt dargestellt. Absolute Häufigkeit: h j : = Anzahl der Elemente x i mit der Ausprägung des Merkmals X Relative Häufigkeit: fj = hj N M Es gelten weiter: M hj = N fj = 1 bzw . j =1 j =1 Folgende Liste zeigt die Monatslöhne in € von 8 Angestellten der Firma P&R. . . . . . . . . . ; xN } { x1 ; x2 ; { 2400 ; 3200 ; 4000 ; 2400 ; 2400 ; 3200 ; 3200 ; 3200 } Benennen Sie das Merkmal X: Geben Sie die Anzahl der statistischen Elemente N an. Geben Sie die Anzahl der verschiedenen Merkmalausprägungen M an. Erstellen Sie eine Häufigkeitstabelle und geben Sie die absoluten bzw. relativen Häufigkeiten an. X := Monatslohn j 1 2 3 a j [€] 2400 3200 4000 N = 8 Absolute Häufigkeit: h j 3 4 1 Relative Häufigkeit: f j 3 / 8 = 0,375 4 / 8 = 0, 5 1 / 8 = 0,125 M =3 M =3 M=3 M =3 fj = 1 hj = N = 8 j =1 j =1 1 Definition 2) Klassen Für ein stetiges Merkmal X mit Werten im Intervall [a ; b ) ∈ ℜ und eine Folge: a 1 , b1 , a 2 , b2 , . . . . , a M , bM heißt das Intervall [ a j , b j ) die j-te Klasse K j . Die Klassen bilden also eine lückenlose sich nicht überlappende Zerlegung des gesamten Wertebereichs von X . Die Differenz aus der unteren und oberen Grenze heißt die Klassenbreite: d j = b j – a j und die Klassenmitte ist: mj = (b j + a j) / 2 Die absoluten bzw. relativen Häufigkeiten der Klassen können auch als Rechteckflächen gedeutet werden, somit ergeben Rechteckhö he : = h *j : = absolute Häufigkeit bzw. Rechteckhö he : = Klassenbre ite hj d bzw. f j * j := f j d j relative Häufigkeit Klassenbre ite die Klassendichten an. Dabei ist die Summe der Rechteckflächen für die absoluten bzw. relativen Häufigkeiten der Klassen gleich N bzw. gleich 1. Folgende Liste zeigt die Wochenlöhne in $ von 8 Angestellten der Firma P&R. { 240,72 ; 255,6 ; 242,3 ; 240 ; 250,1 ; 249,9 ; 260 ; 262,07 } Erstellen Sie eine Häufigkeitstabelle mit identischen Klassenbreiten der Breite d = 10. j Lohn [$] Klasse: K j KlassenBreite: d j KlassenMitte: m j 1 [240 – 250) 2 3 [250 – 260) [260 – 270) 250 – 240 = 10 10 10 ½ (240 + 250) = 245 255 265 Abs. Häufig.: hj 4 Rel. Häufig.: f j Klassendichte der * Rel. Häufig.: f j 4 / 8 = 0,5 0,5 / 10 = 0,05 2 2 2 / 8 = 0,25 2 / 8 = 0,25 0,25 / 10 = 0,025 0,25 / 10 = 0,025 2 Definition 3) Kumulierte Häufigkeiten Seien h C bzw. f C die absoluten bzw. relativen Häufigkeiten der Markmalsausprägung a C bzw. der Klasse K C . Dann heißt: C HC = h1 + h 2 + + hC = hj j =1 die kumulierte absolute Häufigkeit der Ausprägung a C bzw. der Klasse K C und analog: C FC = f1 + f2 + + fC = f j j =1 ihre kumulierte relative Häufigkeit. Folgende Liste zeigt die Monatslöhne in € von 8 Angestellten der Firma P&R. { 2400 ; 3200 ; 4000 ; 2400 ; 2400 ; 3200 ; 3200 ; 3200 } Erstellen Sie eine Häufigkeitstabelle und geben Sie die kumulierten relativen Häufigkeiten an. j 1 2 3 a j [€] 2400 3200 4000 Absolute Häufigkeit: h j 3 4 1 Relative Häufigkeit: f j 3 / 8 = 0,375 4 / 8 = 0,5 1 / 8 = 0,125 Kumulierte Relative Häufigkeit F j 0,375 0,375 + 0,5 = 0,875 0,875 + 0,125 = 1 3 ! " % # " & $ $ Definition 4) Der Mittelwert (Das arithmetische Mittel) Das arithmetische Mittel x oder der Mittelwert entsteht, indem man alle statistische Elemente (Stichprobenwerte) x i einer Urliste (Stichprobe) aufaddiert und durch die Anzahl N der Elemente dividiert. x1 + x 2 + N x = + xN N xi i =1 N = 1 N = N xi i =1 Aus der Häufigkeitsverteilung erhält man das arithmetische Mittel durch: x = M 1 ⋅ N hj M aj ⋅ hj = aj ⋅ j = 1 N j = 1 M aj ⋅ f j = j = 1 Dabei bezeichnet M die Anzahl der verschiedenen Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der Ausprägung a j. Aus klassierten Häufigkeitsverteilungen kann das arithmetische Mittel wegen der Klassenbildung nur ungefähr durch folgende Formel angegeben werden. Dabei ersetzt man die Ausprägung a j durch die Klassenmitte m j. x ≈ 1 ⋅ N M M mj ⋅ hj = mj ⋅ j = 1 j = 1 hj N M mj ⋅f j = j = 1 ' Folgende Liste zeigt die Stundenlöhne in € von N = 8 Angestellten der Firma P&R. { 24 ; 32 ; 40 ; 24; 24; 32; 32; 32 } Berechnen Sie den Mittelwert (das arithmetische Mittel) x = N=8 1 xi = 8 i = 1 1 8 ( 24 + 32 + 40 + + 32 ) = 30 [€] Alternativer Lösungsweg mit Hilfe der Relativen oder Absoluten Häufigkeiten: j 1 2 3 x = aj 24 32 40 1 8 Abs. Häuf.: h j Rel. Häuf.: f j 3 3/8 4 4/8 1 1/8 M =3 hj ⋅a j = j = 1 1 8 [ 3 ⋅ 24 + 4 ⋅ 32 + 1 ⋅ 40 ] = 30 [€] 4 Definition 5) Der Median Der Median Z ist der mittlere Wert der nach der Größe geordneten Reihe der statistischen Elemente. Die Elemente x i einer Urliste werden zunächst der Größe nach geordnet. Ist die Anzahl N der Stichprobenwerte ungerade, so ergibt sich immer ein mittleres Element. Ist sie gerade wählt man für Z das arithmetische Mittel der beiden benachbarten Werte in der Mitte. Bei Häufigkeitstabellen wird erst der Wert N / 2 bestimmt und dann berechnet man die kumulierten Häufigkeiten H j bis der Wert N / 2 erreicht oder überschritten ist, so ist Z die ereichte Merkmalausprägung a j . Oder man berechnet die kumulierten relativen Häufigkeiten F j bis der Wert 0,5 erreicht ist. * Bei klassierten Häufigkeiten geht man analog wie bei unklassierten Häufigkeitstabellen vor, aber der Median wird dann durch lineare Interpolationen bestimmt. Geometrisch gesehen ist der Median derjenige Wert, der der senkrechten entspricht, die das Histogram in 2 Teile mit gleichen Flächeninhalten teilt. Z = LMedian + N − 2 ( K Median ) − 1 hj j = 1 hMedian ⋅ d Median Dabei ist: L Median der untere Klassenrand derjenigen Klasse, die den Median enthält. N die Anzahl der Werte in der Stichprobe K Median die Klassennummer (Klassenindex), die den Median enthält. d Median die Breite der Klasse, die den Median enthält. ( Die Stundenlöhne in € von 5 Angestellten einer Firma sind: { 12,6 ; 19,8 ; 16,4 ; 56,0 ; 18,75 } Bestimmen Sie den Median der Stundenlöhne sowie den mittleren Stundenlohn. Welches der beiden Angaben beschreibt den durchschnittlichen Stundenlohn besser? Z = 18,75 x = 24,71 Der Median beschreibt in diesem Beispiel den durchschnittlichen Stundenlohn besser als der Mittelwert. Definition 6) Der Modus Der Modus ist dasjenige statistische Element, das am häufigsten vorkommt, oder diejenige Merkmalausprägung mit der größten absoluten bzw. relativen Häufigkeit. Bei klassierten Daten spricht man von der Modalklasse. * Sind die Klassenbreiten einer Häufigkeitstabelle nicht alle gleich so ist die Modalklasse diejenige mit der größten Klassendichte. 5 # % Definition 7) ) * + Quantile einer Stichprobe q sei eine beliebige Zahl zwischen Null und Eins (0 < q < 1). Das q-Quantil bzw. q.100%Quantil ist der Stichprobenwert oder das arithmetische Mittel zweier benachbarten Werte einer nach der Größe geordneten Reihe der statistischen Elemente, wenn links von ihm höchstens q.100% bzw. rechts von ihm (1 – q ).100% aller Stichprobenelemnete liegen. , Die von Studenten ereichten Punktezahlen in einem Test in 4 unterschiedlichen Kursen waren wie folgt: { 3;4;5;6;6;6;9 }; { 3;4;5;6;6;6;7;9}; { 3;4;5;6;6;7;7;8;8} { 3;4;6;7;7;7;8;8;9;9} Geben Sie jeweils das 1. Quartil (das 25%-Quantil) für diese 4 Kurse an. N ⋅ 0,25 N ⋅ 0,25 N ⋅ 0,25 N ⋅ 0,25 = = = = 7 ⋅ 0,25 = 1,75 8 ⋅ 0,25 = 2 9 ⋅ 0,25 = 2,25 10 ⋅ 0,25 = 2,5 Q1 Q1 Q1 Q1 = = = = 4 ½( 4 + 5 ) = 4,5 5 6 Definition 8) Die Varianz und die Standardabweichung Die aus den Abweichungsquadraten ( xi − x ) 2 gebildete Größe: N s 2 ( = x1 − x ) 2 + ( x2 − x ) 2 + N − 1 + (xN − x ) 2 = (xi − x )2 i = 1 N − 1 heißt Varianz der Daten { x1 ; x2 ; . . . ; xN } Die Standardabweichung ist: s = s 2 6 Berechnung der Varianz s ² mit Hilfe von absoluten bzw. relativen Häufigkeiten Die Varianz kann wie der Mittelwert auch mit Hilfe von absoluten oder relativen Häufigkeiten berechnet werden. Absolute Relative Häufigkeit Häufigkeit N M (xi )2 − x h i = 1 s2 = (a ⋅ − x j )2 j = 1 = N − 1 j = N − 1 M N N− 1 f ⋅ j ⋅ (a j − x )2 j = 1 Ausprägung Bemerkung Die Varianz kann auch mit Hilfe folgender bequemeren Formeln berechnet werden. N M i = 1 s2 = x i2 − N⋅x 2 ⋅ a 2j j j = 1 = N − 1 − N⋅x 2 N − 1 M 1 = h N −1 N⋅ ⋅ f j = 1 j ⋅ a 2j − N⋅x 2 Aus klassierten Häufigkeiten kann wegen der Klassenbildung die Varianz nur ungefähr angegeben werden. In den folgenden Formeln wurden die Ausprägung a j durch die Klassenmitte m j ersetzt. Klassenmitte M h s 2 j ⋅ (m j − x j = 1 ≈ N − 1 )2 = M N N− 1 f ⋅ j ⋅ (m j − x )2 j = 1 Bemerkung Die Varianz von klassierten Häufigkeiten kann auch mit Hilfe folgender bequemeren Formeln berechnet werden. s2 ≈ 1 N −1 M ⋅ j = 1 h j ⋅ m 2j − N⋅x 2 = 1 N −1 M N⋅ i =1 f j ⋅ m 2j − N⋅x 2 7 Berechnen Sie die Standardabweichung für die Monatslöhne in € von 8 Angestellten der Firma P&R. { 2400 ; 3200 ; 4000 ; 2400 ; 2400 ; 3200 ; 3200 ; 3200 } M =3 x hj aj ⋅ = 8 j = 1 s 2 = = = 1 8 ( 3 ⋅ 2400 + 4 ⋅ 3200 + 1 ⋅ 4000 ) = 3000 [€] M =3 1 h j ⋅ a j − 3000 ⋅ 8− 1 j =1 ( 1 8− 1 [ 3 ⋅ (2400 − 3000 ) = 320000 2 ) 2 + 4 ⋅ (3200 − 3000 ) + 1 ⋅ (4000 − 3000 ) 2 2 ] s = 565,68 [€] . Berechnen Sie die Standardabweichung für die Wochenlöhne in $ von 8 Angestellten der Firma P&R. { 240,72 ; 255,6 ; 242,3 ; 240 ; 250,1 ; 249,9 ; 260 ; 262,07 } j Lohn [$] Klasse: K j KlassenBreite: d j KlassenMitte: m j 1 [240 – 250) 2 3 [250 – 260) [260 – 270) 250 – 240 = 10 10 10 ½ (240 + 250) = 245 255 265 x ≈ M =3 m j = 1 s 2 ≈ = j ⋅ hj 8 = 1 8 ( = 78,57 Rel. Häufig.: f j Klassendichte der * Rel. Häufig.: f j 4 / 8 = 0,5 0,5 / 10 = 0,05 2 2 2 / 8 = 0,25 2 / 8 = 0,25 0,25 / 10 = 0,025 0,25 / 10 = 0,025 ( 4 ⋅ 245 + 2 ⋅ 255 + 2 ⋅ 265 ) = 252 , 5 [$] M =3 1 h j ⋅ m j − 252 ,5 ⋅ 8− 1 j =1 1 8− 1 Abs. Häufg.: hj 4 [ 4 ⋅ (245 − 252 ,5 ) 2 ) 2 + 2 ⋅ (255 − 252 ,5 ) + 2 ⋅ (265 − 252 ,5 ) 2 2 ] s = 8,86 [$] 8