Die deskriptive (beschreibende) Statistik dient zur Zusammenfassung, Aufbereitung und Präsentation von meist riesiger und unüberschaubarer Datenmengen durch Tabellen, Diagrammen, Verlaufskurven sowie Kenngrößen. Zusätzlich dient die deskriptive Statistik auch zur Datenvalidierung. Mit Hilfe der Aufbereitung der Daten lassen sich Fehler im Datensatz leicht entdecken. Daten, die aus Beobachtungen eines einzelnen Merkmals bestehen, werden univariate oder eindimensionale Daten genannt. • Sammeln von Daten • Präsentation von Daten • Kenngrößen von Daten 1 Für eine Zusammenfassung und Darstellung von Daten eines Merkmals werden diese in Form Häufigkeitstabellen und Diagrammen angegeben. Eine Datenerhebung über die Lieferzeiten (in Tagen) von 40 Bestellungen eines Unternehmens ergab folgende Liste. 2 5 3 6 3 2 4 1 1 4 2 3 6 2 1 2 2 1 7 3 2 3 2 1 4 1 3 4 1 5 2 2 1 7 3 7 5 2 10 2 Benennen Sie das Merkmal und geben Sie den Merkmalstypen an. Merkmal : Liefertage Merkmalstyp : Quantitativ und Diskret , Skalen-Niveau : metrische Skala Fassen Sie für eine bessere Übersicht die obige Datenreihe in eine Häufigkeitstabelle zusammen und stellen sie graphisch dar. j 1 2 3 4 5 6 7 8 Anzahl verschiedener Liefertage: M = 8 h Liefertage: aj 1 2 3 4 5 6 7 10 Häufigkeit der Liefertage: h j 8 12 7 4 3 2 3 1 Gesamtzahl: N = 40 Prozentsatz der der Häufigkeiten: fj 8 / 40 = 0,2 = 20 % 12 / 40 = 0,3 = 30 % 7 / 40 = 0,175 = 17,5 % 4 / 40 = 0,1 = 10 % 3 / 40 = 0,075 = 7,5 % 2 / 40 = 0,05 = 5 % 3 / 40 = 0,075 = 7,5 % 1 / 40 = 0,025 = 2,5 % 40 / 40 = 1,0 = 100 % j 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 9 10 a j 2 Ausprägungen sowie Absolute und Relative Häufigkeiten N : Anzahl der statistischen Elementen (Merkmalsträgern, Stichprobenwerte) bei einer Datenerhebung X: Das Merkmal x1 ; x2 ; . . . Datenerhebung ; xN : Die N Beobachtungswerte der Urliste (Stichprobe) bei der x i : Das i-te Element der Datenreihe, wobei i = 1 ; . . . ; N ist. M: Anzahl der verschiedenen Ausprägungen des Merkmals in der Datenreihe a1 ; a2 ; . . . Datenreihe ; aM : verschiedene Ausprägungen des Merkmals in der a j : Die j-te Ausprägung des Merkmals X , wobei j = 1 , . . . , M ist. h j : Absolute Häufigkeit : Anzahl der Elemente der Datenreihe mit einer bestimmten Ausprägung a j hj fj = f j : Relative Häufigkeit: N Die Summe der absoluten bzw. relativen Häufigkeiten ergibt N bzw. 1 . M M hj = N fj = 1 bzw . j =1 j =1 Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb von 8 Tagen ist in der folgenden Datenliste dargestellt. i x i [Anzahl der Ausfälle] 1 5 2 5 3 3 4 3 5 1 6 3 7 1 8 3 Benennen Sie das Merkmal X und geben Sie den Merkmalstypen an. Geben Sie die Anzahl der statistischen Elemente N an. Geben Sie die Anzahl der verschiedenen Merkmalausprägungen M der Stichprobe an. Erstellen Sie eine Häufigkeitstabelle für die absoluten bzw. relativen Häufigkeiten. X : N = j 1 2 3 M = Ausprägung: a j Absolute Häufigkeit: h j Relative Häufigkeit: f j 3 ! Die Lebensdauern (in Jahren) von 40 baugleichen Autobatterien einer Serienproduktion wurden gemessen. Die Ergebnisse sind in der folgenden Tabelle dargestellt. 2,2 3,4 2,5 3,3 4,1 1,6 4,3 3,1 3,5 3,1 3,4 3,7 4,5 3,3 3,6 4,4 3,2 3,8 2,9 3,2 3,7 3,1 3,3 4,1 3,0 4,7 3,9 1,9 2,6 3,7 3,1 3,4 4,7 3,8 3,2 2,6 3,9 3,0 4,2 3,5 Benennen Sie das Merkmal und die Ausprägungen. Geben Sie ferner den Merkmalstyp an. Merkmal : Lebensdauer von Batterien in Jahren Ausprägungen : Sehr viele unterschiedliche Merkmalstyp : Quantitativ, Stetig ; Skalen-Niveau : metrische Skala Erstellen Sie eine klassierte Häufigkeitstabelle mit 7 Klasse der jeweiligen Breite 0,5. Bei einem stetigen Merkmal erhalten wir in der Regel sehr viele verschiedene Merkmalausprägungen. Daher ist es sinnvoll diese in Klassen aufzuteilen. Ebenfalls bei sehr großen Mengen an Ausgangsdaten ist es sinnvoll die Daten in Klassen aufzuteilen. Klassierten Häufigkeiten Spannweite = Neue Spannweite = Jeweilige Klassenbreite = Jeweilige Klassenmitte = ½ [ (Obere Klassengrenze) + (Untere Klassengrenze) ] Spannweite: 4,7 – 1,6 = 3,1 Anzahl der Klassen: 7 Neue Spannweite: 7 · 0,5 = 3,5 j 1 2 3 4 5 6 7 Klasse: K j Lebensdauer [ 1,5 ; 2,0 ) [ 2,0 ; 2,5 ) [ 2,5 ; 3,0 ) [ 3,0 ; 3,5 ) [ 3,5 ; 4,0 ) [ 4,0 ; 4,5 ) [ 4,5 ; 5,0 ) (größte Zahl der Urliste) – (kleinste Zahl der Urliste) (Anzahl der Klassen) · (Klassenbreite) (Obere Klassengrenze) – (Untere Klassengrenze) Jeweilige Klassenbreiten: 0,5 Neue Spannweite: 3,5 = 5,0 – 1,5 Klassenbreite: dj 2,0 – 1,5 = 0,5 2,5 – 2,0 = 0,5 3,0 – 2,5 = 0,5 3,5 – 3,0 = 0,5 4,0 – 3,5 = 0,5 4,5 – 4,0 = 0,5 5,0 – 4,5 = 0,5 Klassenmitte: m j hj fj ½ (1,5 + 2) = 1,75 ½ (2,0 + 2,5) = 2,25 ½ (2,5 + 3,0) = 2,75 ½ (3,0 + 3,5) = 3,25 ½ (3,5 + 4,0) = 3,75 ½ (4,0 + 4,5) = 4,25 ½ (4,5 + 5,0) = 4,75 2 1 4 15 10 5 3 0,05 0,025 0,1 0,375 0,25 0,125 0,075 4 h " j ## f 0,375 14 j " ## 12 10 0,250 8 6 0,125 4 2 0 1,5 0 3,2 3,7 4,2 4,7 5 Lebensdauer [Jahre] 1,7 2,2 2,7 1,7 2,2 2,7 3,2 3,7 4,2 4,7 1,5 5 Lebensdauer [Jahre] Klassen Das Intervall [ a j , b j ) heißt die j-te Klasse K j . Die Klassen bilden also eine lückenlose sich nicht überlappende Zerlegung des gesamten Wertebereichs von X . Die Differenz aus der unteren und oberen Grenze einer Klasse heißt die Klassenbreite: dj = bj – aj Die Klassenmitte einer Klasse ist: mj = ½ ( b j + a j ) Die absoluten bzw. relativen Häufigkeiten der Klassen können auch als Rechteckflächen gedeutet werden, somit ergeben Rechteckhö he : = h *j : = absolute Häufigkeit bzw. Klassenbre ite hj d j bzw. Rechteckhö he : = f * j := relative Häufigkeit Klassenbre ite f j d j die Klassendichten. Dabei ist die Summe der Rechteckflächen für die absoluten bzw. relativen Häufigkeiten der Klassen gleich N bzw. gleich 1. 5 !! Geben Sie für das Bsp. 2) die Dichte-Histogramme für die absoluten bzw. relativen Häufigkeiten an. Und überprüfen Sie, dass die Summe der Rechteckflächen der beiden Histogrammen gleich N = 40 bzw. gleich 1 ist. dj mj 0,5 0,5 0,5 0,5 0,5 0,5 0,5 1,75 2,25 2,75 3,25 3,75 4,25 4,75 h Klassendichte hj h *j : = dj hj j 2 1 4 15 10 5 3 40 $ 4 2 8 30 20 10 6 $ " Rechtecks- f j Fläche 2 1 4 15 10 5 3 40 RechtecksFläche 0,1 0,05 0,2 0,75 0,5 0,25 0,15 0,05 0,025 0,1 0,375 0,25 0,125 0,075 1 0,05 0,025 0,1 0,375 0,25 0,125 0,075 1 ## f 0,75 28 Klassendichte f j f *j : = d j j $ $ " ## 24 20 0,50 16 12 0,25 8 4 0 1,7 2,2 2,7 3,2 3,7 4,2 4,7 1,5 5 Lebensdauer [Jahre] 0 1,7 2,2 2,7 3,2 3,7 4,2 4,7 1,5 5 Lebensdauer [Jahre] Folgende Liste zeigt die Wochenlöhne in $ von 10 Angestellten der Firma P&R. { 241 ; 244 ; 244,1 ; 248 ; 248 ; 250,4 ; 251,9 ; 254 ; 255 ; 256,2 } Benennen Sie das Merkmal X und geben Sie den Merkmalstypen an. Erstellen Sie eine Häufigkeitstabelle mit identischen Klassenbreiten der Breite d = 4. X: R : Spannweite: M : Anzahl der Klassen: j 1 Wochenlohn [$] Klasse: K j Neue Spannweite: Jeweilige Klassenbreiten: Klassenmitte: mj Absolute Häufigkeit: hj Relative Häufigkeit: fj 2 3 4 5 6 % # &# ' $ " Häufig interessiert man sich dafür, wie viele Beobachtungswerte oder welcher Anteil der statistischen Elemente einer Datenreihe unterhalb oder oberhalb einer gewissen Grenze liegen. % # ( Wie viel Prozent der 40 Autobatterien im vorigen Beispiel Bsp. 2) haben eine Lebensdauer weniger als 3,5 Jahren? j 1 2 3 4 Klasse: K j Lebensdauer [Jahre] [ 1,5 ; 2,0 ) [ 2,0 ; 2,5 ) [ 2,5 ; 3,0 ) [ 3,0 ; 3,5 ) 5 6 7 [3,5 ; 4,0 ) [4,0 ; 4,5 ) [4,5 ; 5,0 ) hj fj 2 1 4 15 0,05 0,025 0,1 0,375 10 5 3 0,25 0,125 0,075 Prozentsatz aller Lebensdauer unterhalb von b j Jahren 0,05 + 0,025 + 0,1 + 0,375 = 0,55 55% aller Autobatterien hatten eine Lebensdauer unter 3,5 Jahre. Kumulierte Häufigkeiten Seien h C und f C die absoluten und relativen Häufigkeiten der Markmalsausprägung a C oder der Klasse K C . Dann heißt: C HC = h1 + h 2 + + hC = hj j =1 die kumulierte absolute Häufigkeit der Ausprägung a C bzw. der Klasse K C und analog: C FC = f1 + f2 + + fC = fj j =1 ihre kumulierte relative Häufigkeit. 7 ( Berechnen Sie alle kumulierte absolute bzw. kumulierte relative Häufigkeiten für die Lieferzeiten aus Bsp. 1. j aj 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 10 Absolute Häufigkeit: h j 8 12 7 4 3 2 3 1 Kumulierte absolute Häufigkeit: H j 8 20 27 31 34 36 39 40 ") " &# Relative Häufigkeit: fj 8 / 40 = 0,2 12 / 40 = 0,3 7 / 40 = 0,175 4 / 40 = 0,1 3 / 40 = 0,075 2 / 40 = 0,05 3 / 40 = 0,075 1 / 40 = 0,025 Kumulierte relative Häufigkeit: F j $ ' " Ein Häufgikeitspolygon ist ein Liniendiagram, bei dem die Klassenmitten auf den Spitzen der Rechtecke im Histogramm mit einander verbunden werden. Der Inhalt der Fläche unter dem Polygon ist gleich dem der Rechtecke des Histograms. Das Diagramm, das die relativen kumulierten Häufigkeiten darstellt, wird die Empirische Verteilungsfunktion genannt. Das Diagramm für relativen kumulierten Häufigkeiten von klassierten Häufigkeitsverteilungen wird auch kumulatives relatives Häufigkeitspolygon oder Summenkurve genannt. Für die relativen kumulierten Häufigkeiten von unklassierten Häufigkeiten erhält man als Empirische Verteilungsfunktion eine monoton wachsende Treppenfunktion. * Zeichnen Sie für die Daten der Lieferzeiten aus Bsp. 1) die empirische Verteilungsfunktion (Treppenfunktion). j aj hj fj Fj 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 10 8 12 7 4 3 2 3 1 0,2 0,3 0,175 0,1 0,075 0,05 0,075 0,025 0,2 0,5 0,675 0,775 0,85 0,9 0,975 1,0 8 F &# j $ ' " 1,0 0,8 0,6 0,4 0,2 0 1 2 3 4 5 6 7 8 9 10 a j + Aus den Daten für die Lebensdauer (in Jahren) der N = 40 Batterien der Serienproduktion aus Bsp. 2) ergab sich folgende Tabelle der klassierten Häufigkeitsverteilung für die Lebensdauer. j Kj 1 2 3 4 5 6 7 dj [ 1,5 [ 2,0 [ 2,5 [ 3,0 [ 3,5 [ 4,0 [ 4,5 ; ; ; ; ; ; ; 2,0 ) 2,5 ) 3,0 ) 3,5 ) 4,0 ) 4,5 ) 5,0 ) mj 0,5 0,5 0,5 0,5 0,5 0,5 0,5 1,75 2,25 2,75 3,25 3,75 4,25 4,75 hj fj 2 1 4 15 10 5 3 f 0,05 0,025 0,1 0,375 0,25 0,125 0,075 * j f := d Fj j j 0,1 0,05 0,2 0,75 0,5 0,25 0,15 0,05 0.075 0,175 0,55 0,8 0,925 1 Zeichnen Sie das Histogramm der relativen Häufigkeiten. das Dichte-Histogramm (ein Histogramm der Klassendichten der relativen Häufigkeiten) und ein Häufigkeitspolygon die Empirische Verteilungsfunktion (ein Kumulatives relatives Häufigkeitspolygon) Wie kann man anhand des Dichtehistogramms den Anteil von Batterien bestimmen, die eine Lebensdauer weniger als 3,5 Jahre haben? Relative Häufigkeiten f j " ## 0,375 0,250 0,125 0 1,75 2,25 2,75 3,25 3,75 4,25 4,75 1,5 5 Lebensdauer [Jahre] Klassendichte der relative Häufigkeiten Wie kann man anhand des Graphen der Verteilungsfunktion den Anteil von Batterien bestimmen, die eine Lebensdauer weniger als 3,5 Jahre haben? f *j 0,75 , ") " $ $ " ## 0,50 0,25 0 1,25 1,75 2,25 2,75 3,25 3,75 4,25 4,75 5,25 1,5 5 Lebensdauer [Jahre] 9 Häufigkeiten F j &# $ ' " Der Anteil von Batterien, die eine Lebensdauer weniger als 3,5 Jahre haben, ist der Flächeninhalt des 1. , 2. , 3. und 4. Rechteckes ( d.h. 0,5 · 0,1 + 0,5 · 0,05 + 0,5 · 0,2 + 0,5 · 0,75 = 0,55 ) oder der Flächeninhalt unterhalb des Häufigkeitspolygons Durch Ablesen des kumulierten Häufigkeit an der Stelle 3,5 aus dem Graphen. 1,0 0,75 0,50 0,25 0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 Lebensdauer [Jahre] * Aus der Liste der Aufgabe 2) für die Wochenlöhne in $ von 10 Angestellten der Firma P&R ergibt sich folgende klassierte Häufigkeitstabelle M = 5 ; N = 10 ; Spannweite: j Wochenlohn KlassenKlasse: Breite: Kj dj 1 2 3 4 5 [ 240 ; 244 ) [ 244 ; 248 ) [ 248 ; 252 ) [ 252 ; 256 ) [ 256 ; 260 ) 4 4 4 4 4 256,2 – 241 = 15,2 Neue Spannweite: 260 – 240 = 20 Klassen- Abs. Rel. Klassendichte Kumulierte. Mitte: Häufig Häufig.: Rel. f j f *j : = mj hj fj Häufig. d j Fj 242 1 0,1 0,025 246 2 0,2 0,05 250 4 0,4 0,1 254 2 0,2 0,05 258 1 0,1 0,025 $ " ## Häufigkeiten Häufig. Erstellen Sie ein Häufigkeitspolygon und die empirische Verteilungsfunktion 0,1 0,075 &# $ ' " Kumulatives Relatives Häufigkeitspolygon Fj 1 0,8 0,05 0,6 0,4 0,025 0,2 238 242 246 250 254 258 262 240 244 248 252 256 260 10 ( % - . / $ " ' Durch grafische Darstellungen lassen sich die Eigenschaften der Lage und Form von Häufigkeitsverteilungen erkennen. Mit Hilfe der Maßzahlen kann z.B. das Zentrum der Daten und die Stärke der Streuung der Daten um das Zentrum durch Werte (meist Zahlen) angegeben werden. ( # Lagemaße (Lageparameter) beschreiben das Zentrum einer Verteilung bzw. einer Datenliste durch einen einzigen Wert (meist eine Zahl). 0 Geben Sie die durchschnittliche Lieferzeit (in Tagen) für die Daten aus Bsp. 1) 2 5 3 6 3 2 4 1 - 1 4 2 3 6 2 1 2 2 1 7 3 x1 + x 2 + x 3 + N xi Liefertage: a j 1 2 3 4 5 6 7 10 Absolute Häufig: h j 8 12 7 4 3 2 3 1 N = 40 + 10 ⋅ 1 40 8 40 1 5 2 2 1 7 3 7 5 2 10 2 2 + 3 + 1+ + 2 40 1 40 40 xi ⋅ = i = 1 1 40 ⋅ 127 = 3 , 175 !! 1 ⋅ 8 + 2 ⋅ 12 + = 1⋅ = = N i = 1 - + xN N = x = 4 1 3 4 ! x = j 1 2 3 4 5 6 7 8 M=8 2 3 2 1 + 2⋅ 12 40 + + 10 ⋅ = 1 40 1⋅ 8 40 + Relative Häufig: f j 0,2 0,3 0,175 0,1 0,075 0,05 0,075 0,025 2 ⋅ 12 40 = 1⋅ 0,2 + + + 10 ⋅ 1 40 2 ⋅ 0,3 + + 10 ⋅ 0 , 025 = 3 , 175 11 h1 x = a1 ⋅ N 1 = h + N a 2 ⋅ 2 N M h + a + M a j ⋅hj ⋅ = j = 1 j = 1 aj ⋅ M ⋅ M a 1 ⋅f 1 + a = N 2 ⋅f 2 + + a ⋅f M M hj a j ⋅f = N j = 1 j Der Mittelwert (Das arithmetische Mittel) Das arithmetische Mittel x oder der Mittelwert entsteht, indem man alle statistische Elemente (Stichprobenwerte) x i einer Urliste (Stichprobe) aufaddiert und durch die Anzahl N der Elemente dividiert. x1 + x 2 + N x = + xN N xi i =1 N = = 1 N N xi i =1 Aus der Häufigkeitstabelle erhält man das arithmetische Mittel durch: x = 1 N M M ⋅ j = 1 a j ⋅hj bzw. x a j ⋅f = j = 1 j Dabei bezeichnet M die Anzahl der verschiedenen Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der Ausprägung a j. Aus klassierten Häufigkeitstabellen kann das arithmetische Mittel wegen der Klassenbildung nur ungefähr durch folgende Formel angegeben werden. Dabei wird die Ausprägung a j durch die Klassenmitte m j ersetzt. Und M gibt die Anzahl der verschiedenen Klassen K j an. x ≈ 1 N M M m ⋅ j = 1 j ⋅hj bzw. x ≈ m j = 1 j ⋅f j # Wegen der Klassenbildung liefern diese Formeln nur einen Näherungswert für den Mittelwert. 12 M 1 Geben Sie die durchschnittliche Lebensdauer der Autobatterien aus Bsp. 2) mit Hilfe der klassierten Häufigkeitsverteilungen. j 1 2 3 4 5 6 7 x ≈ 1 N Kj [ 1,5 [ 2,0 [ 2,5 [ 3,0 [3,5 [4,0 [4,5 M j = 1 2,0 ) 2,5 ) 3,0 ) 3,5 ) 4,0 ) 4,5 ) 5,0 ) M=7 m ⋅ ; ; ; ; ; ; ; mj 1,75 2,25 2,75 3,25 3,75 4,25 4,75 j ⋅hj = N = 40 1 40 hj fj 2 1 4 15 10 5 3 0,05 0,025 0,1 0,375 0,25 0,125 0,075 7 ⋅ j = 1 m j ⋅hj 1 [ 1, 75 ⋅ 2 + 2 , 25 ⋅ 1 + 2 , 75 ⋅ 4 + 3 , 25 ⋅ 15 + 3 , 75 ⋅ 10 + 4 , 25 ⋅ 5 + 4 , 75 ⋅ 3 40 = 3 , 4625 ≈ 3 , 5 Jahre = ] Der Median Der Median xMed ist der mittlere Wert der nach der Größe geordneten Reihe der statistischen Elemente. Die Elemente x i einer Urliste werden zunächst der Größe nach geordnet. Ist die Anzahl N der Stichprobenwerte ungerade, so ergibt sich immer ein mittleres Element. Ist sie gerade wählt man für xMed das arithmetische Mittel der beiden benachbarten Werte in der Mitte. # Der Median ist gegenüber Extremwerte (Ausreißer) einer Datenreihe resistent (unempfindlich). Dagegen ist der Mittelwert gegenüber Ausreißer empfindlich. Der Median kann im Gegensatz zum Mittelwert auch für rein ordinalen Merkmale bestimmt werden. Der Median aus Häufigkeitstabellen Bei Häufigkeitstabellen wird erst der Wert N /2 bestimmt und dann berechnet man die kumulierten Häufigkeiten H j bis der Wert N /2 erreicht oder überschritten ist. Wird er genau erreicht, so ist der Median das arithmetische Mittel der erreichte Ausprägung a j und der nächstfolgenden. Wird er aber überschritten, so ist xMed die ereichte Ausprägung. Anstatt den Wert N /2 kann man auch die kumulierten relativen Häufigkeiten F j berechnen bis der Wert 0,5 erreicht oder überschritten wird. 13 Der Median aus Histogrammen und Summenkurven In einem Histogramm ist der Median derjenige Wert, der der Senkrechte entspricht, die das Histogramm in 2 Teile mit gleichen Flächeninhalten teilt. In der empirischen Verteilungsfunktion (Summenkurve) ist der Median derjenige Wert, für den die Summenkurve die Höhe 0,5 besitzt. # Wegen der Klassenbildung liefern diese Methoden nur eine Schätzung des Medianen. 2! Das monatliche Einkommen (in €) von 5 Angestellten der Firma P&R ist in der folgenden Datenliste dargestellt. Bestimmen Sie den Median dieser Datenliste. i x i [€] 1 1880 2 1940 3 2000 4 2100 5 2120 x Med = 2000 [€] 2 !! Das monatliche Einkommen (in €) von 6 Angestellten der Firma P&R ist in der folgenden Datenliste dargestellt. Bestimmen Sie den Median dieser Datenliste. i x i [€] 1 1880 2 1940 3 2000 4 2100 5 2120 6 2150 x Med = ½ ·[ 2000 + 2100 ] = 2050 + Die Stundenlöhne in € von 5 Angestellten einer Firma sind: { 12,6 ; 19,8 ; 16,4 ; 76,0 ; 18,75 } Bestimmen Sie den Median der Stundenlöhne sowie den Mittelwert des Stundenlohns. Welches der beiden Angaben beschreibt den durchschnittlichen Stundenlohn in dieser Firma besser? x Med = x = 14 3 Geben Sie den Median für die Lieferzeiten (in Tagen) aus Bsp. 1) mit Hilfe der Häufigkeitstabelle an. 1 3 1 3 1 3 1 3 1 3 Bestimmung von N / 2: j aj 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 10 1 3 1 3 1 4 N/2 = Absolute Häufigkeit: h j 8 12 7 4 3 2 3 1 2 4 2 4 2 4 2 5 2 5 2 5 2 6 2 6 2 7 2 7 2 7 2 10 40 / 2 = 20 Kumulierte absolute Häufigkeit: H j 8 20 27 31 34 36 39 40 Relative Häufigkeit: fj 0,2 0,3 0,175 0,1 0,075 0,05 0,075 0,025 Kumulierte relative Häufigkeit: F j 0,2 0,5 0,675 0,775 0,85 0,9 0,975 1,0 Also ist der Median: x Med = ½ ( 2 + 3 ) = 2,5 0 Bestimmen Sie für die Lebensdauer der Autobatterien (aus Bsp. 2) den Schätzwert für den Median aus der Summenkurve. Häufigkeiten F &# j $ ' " 1,0 0,75 0,50 Median 0,25 0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 Lebensdauer [Jahre] 5,0 15 Der Modus Der Modus x Mod ist dasjenige statistische Element, das am häufigsten vorkommt, oder diejenige Merkmalausprägung mit der größten absoluten bzw. relativen Häufigkeit. Bei klassierten Daten spricht man von der Modalklasse. Sind die Klassenbreiten einer Häufigkeitstabelle nicht alle gleich so ist die Modalklasse diejenige mit der größten Klassendichte. 4 Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb einer Woche ist in der folgenden Datenliste dargestellt. Geben Sie den Modus für die Datenreihe an. 1 8 i x i [Anzahl der Ausfälle] 1 3 3 3 2 5 4 3 3 5 4 3 5 4 6 3 7 1 8 x Mod = 3 [Ausfälle] ( # Streuparameter sind Maßzahlen, die die Streuungen von Daten um ihr Zentrum beschreiben. ( ! ' 5 - $ ! Die Studenten Alice und Bob haben am Ende des Studienjahres in 8 Fächern folgende Leistungen erbracht. Alice : = { 2 ; 3 ; 3 ; 3 ; 3 ; 3 ; 3 ; 4 } Bob : = { 1 ; 1 ; 1 ; 2 ; 4 ; 5 ; 5 ; 5 } Die Durchschnittsnote (arithmetisches Mittel) der beiden Studenten lautet jeweils: xA= 3 xB = 3 Alice und Bob unterscheiden sich aber in der Verteilung ihrer Noten sehr stark. Um die Mittelwerte sinnvoll zu ergänzen benötigt man weitere Maßzahlen, die etwas über die Streuung der einzelnen Datenelemente x i um den Mittelwert x aussagen. 16 Die Varianz und die Standarabweichung Die aus den Abweichungsquadraten ( ) xi − x 2 gebildete Größe: N ( s2 = x1 − x ) 2 + ( x2 − x ) 2 + + (xN − x 2 ) i = 1 = N − 1 (xi − x )2 N − 1 heißt Varianz der Daten { x1 ; x2 ; . . . ; xN } . Dabei ist x der Mittelwert. Die Standardabweichung ist: s = 2 s !! Berechnen Sie die Standardabweichung für die beiden Daten von Alice und Bob vom Bsp. 11-I). Alice : = { 2 ; 3 ; 3 ; 3 ; 3 ; 3 ; 3 ; 4 } xA= 3 Bob : = { 1 ; 1 ; 1 ; 2 ; 4 ; 5 ; 5 ; 5 } xB = 3 N = 8 (2 2 s Alice = − 3 ) 2 2 (3 + − 3) + 8 − 1 + (4 − 3 ) 2 2 s Bob = 5 4 3 (1 − 3 ) 2 + (1 − 3 ) 2 + 8 − 1 + (5 − 3 ) 2 ≈ 0,28 8 − 1 ) 2 (x i − 3 i = 1 = 8 − 1 ) 2 ≈ 3,71 = 1,92 hj Stabdiagramm x − s = 3 − 0,53 = 2,47 x + s = 3 + 0,53 = 3,53 6 5 4 Alice 2 1 1 1 2 3 x =3 4 5 6 Note hj Stabdiagramm = x − s 3 − 1,92 = 1,08 = x + s + = 3 1,92 4,92 3 2 0 − 3 i = 1 = N = 8 6 i = 0,53 sAlice sBob (x 0 Bob 1 2 3 4 5 6 Note x =3 17 $ ' 5 6# " " 5- Die Varianz kann wie der Mittelwert auch mit Hilfe von absoluten oder relativen Häufigkeiten berechnet werden. N s2 = = i = 1 (xi ) − x M 2 h N − 1 N N− 1 h M j = 1 = ⋅ j ⋅ N j = 1 (a j Absolute Häufigkeit ⋅ a j − x ( ) N − 1 j )2 − x = M 2 h = Ausprägung N N− 1 j = 1 (a − x j )2 ⋅ N − 1 N N relative Häufigkeit M f ⋅ ⋅ j j = 1 j ⋅ (a j − x )2 Dabei bezeichnet N die Anzahl der Elemente in der Stichprobe (Urliste), M die Anzahl der verschiedenen Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der Ausprägung a j. Formeln für die Berechnung der Varianz ! Die Varianz s² lässt sich mit Hilfe der N Elemente x i der Stichprobe berechnen durch: s2 = !! N 1 N − 1 ⋅ i = 1 (xi )2 −x Dabei ist x der Mittelwert Aus der Häufigkeitstabelle erhält man die Varianz s² durch folgende Formeln: s2 = 1 N −1 M h ⋅ j = 1 j ⋅ (a j − x )2 bzw. s2 = M N N− 1 ( fj ⋅ aj −x ⋅ )2 j = 1 Dabei bezeichnet x den Mittelwert, M die Anzahl der verschiedenen Ausprägungen, h j die absoluten und f j die relativen Häufigkeiten der Ausprägung a j. !!! Aus klassierten Häufigkeitstabellen kann die Varianz s² wegen der Klassenbildung nur ungefähr durch folgende Formeln angegeben werden. Dabei wird die Ausprägung a j durch die Klassenmitte m j ersetzt. Und M gibt die Anzahl der verschiedenen Klassen K j an. s2 ≈ 1 N −1 M ⋅ ( hj ⋅ m j = 1 j − x )2 bzw. s2 ≈ N N −1 M ⋅ fj ⋅ j = 1 (mj −x )2 # Wegen der Klassenbildung liefern diese Formeln nur einen Näherungswert für die Varianz. 18 # Aus den obigen Formeln lassen sich leicht folgende Formeln zur bequemeren Berechnung der Varianz herleiten: ! s 2 = 1 N N −1 i = 1 x i2 − N⋅x 2 !! s 2 = M 1 N −1 ⋅ j = 1 h j ⋅ a 2j − N⋅x s2 = bzw. 2 M 1 ⋅ N −1 N⋅ f j = 1 j ⋅ a 2j − N⋅x 2 !!! s 2 ≈ M 1 N −1 ⋅ bzw. j = 1 h j ⋅ m 2j − N⋅x s2 ≈ 2 1 N −1 M N⋅ i =1 f j ⋅ m 2j − N⋅x 2 # Wenn man diese bequemeren Formeln benutzt, sollte der Mittelwert, falls er mehr als 3 Nachkommastellen enthält, nicht auf weniger als 4 Nachkommastellen gerundet werden. Berechnen Sie die Standardabweichung für die Daten der Lieferzeiten aus Bsp. 1). j 1 2 3 4 5 6 7 8 M=8 Liefertage: a j 1 2 3 4 5 6 7 10 Absolute Häufig: h j 8 12 7 4 3 2 3 1 N = 40 Relative Häufig: f j 0,2 0,3 0,175 0,1 0,075 0,05 0,075 0,025 Mittelwert: x = 3 , 175 (s . Bsp. 6 zur Berechnung des Mittelwerts) 19 s2 = = M=8 1 40 − 1 1 40 − 1 h ⋅ j = 1 ( ⋅ a j j [ 8 ⋅ ( 1 − 3 , 175 ) − 3 , 175 2 )2 + 12 ⋅ ( 2 − 3 , 175 ) 2 + . . . + 1 ⋅ ( 10 − 3 , 175 ) 2 ] = 4 , 4557 s = 2,1108 1 Berechnen Sie mit Hilfe von absoluten oder relativen Häufigkeiten die Standardabweichung für die folgenden Daten { 2400 ; 3200 ; 4000 ; 2400 ; 2400 ; 3200 ; 3200 ; 3200 } M =3 x = j = 1 s 2 = = aj ⋅ hj 8 = 1 8 ( 3 ⋅ 2400 + 4 ⋅ 3200 + 1 ⋅ 4000 ) = 3000 M =3 1 h j ⋅ a j − 3000 ⋅ 8− 1 j =1 ( 1 8− 1 [ 3 ⋅ (2400 − 3000 ) = 320000 2 ) 2 2 + 4 ⋅ (3200 − 3000 ) + 1 ⋅ (4000 − 3000 ) 2 ] s = 565,68 2 Berechnen Sie mit Hilfe von absoluten oder relativen Häufigkeiten die Standardabweichung für die Daten aus der Aufg.2. { 241 ; 242,5 ; 242 ; 244 ; 248 ; 249,1 ; 250 ; 250 ; 250 ; 255,9 ; 256 ; 256,2} M = 5 ; N = 12 j Wochenlohn [$] Klasse: K j 1 [ 240 ; 244 ) 2 [ 244 ; 248 ) 3 [248 ; 252 ) 4 [252 ; 256 ) 5 [256 ; 260 ) Klassenmitte: mj 242 246 250 254 258 Absolute Häufigkeit: hj 3 1 5 1 2 Relative Häufigkeit: fj 3 / 12 = 0,250 1 / 12 = 0,083 5 / 12 = 0,416 1 / 12 = 0,083 2 / 12 = 0,166 20 M =5 x m ≈ j = 1 s 2 ≈ = 1 12 − 1 1 12 − 1 ⋅ j hj 12 !! 12 M=5 h ⋅ j = 1 j ⋅ (m ( 3 ⋅ 242 + 1 ⋅ 246 + 5 ⋅ 250 + 1 ⋅ 254 + 2 ⋅ 258 ) = 249 , 3333 $ j − 249 , 3333 [ 3 ⋅ ( 242 − 249 , 3333 ) = 31,515 ( 1 = 2 + )2 + 2 ⋅ ( 258 − 249 , 3333 )2 ] s = 5,61 7 - Das q %-Quantil (die q-te Perzentile) trennt die Daten einer Verteilung in zwei Teile, so dass etwa q % der Elemente einer nach der Größe geordneten Datenreihe darunter und (100 – q )% der Elemente darüber liegen. Quantile / Perzentile Das q%-Quantil (die q-te Perzentile) trennt die Daten einer Verteilung in zwei Teile, so dass etwa q % der Elemente einer nach der Größe geordneten Datenreihe darunter und (100 – q )% der Elemente darüber liegen. Zur Bestimmung des q%-Quantils ordnet man die N Elemente der Urliste nach der Größe. Und berechnet den Index i = q% ⋅N ! !! Falls i eine ganze Zahl ist, dann ist das q%-Quantil der Mittelwert der beiden Elemente an der i-ten und (i + 1)-ten Position Falls i keine ganze Zahl ist, rundet man die Zahl auf. Das q%-Quantil ist dann das Element an der aufgerundeten Position. 21 Die Quartilen Für eine nach der Größe geordnete Reihe von statistischen Elementen einer Urliste sind die verschiedenen Quantilen wie folgt: Q1 : Das 25%-Quantil (Das erste Quartil) Das 25%-Quantil ist das Element (der Wert), unterhalb von ihm höchstens 25% der Elemente und oberhalb von ihm 75% der Elemente liegen. Q2 : Das 50%-Quantil (Das zweite Quartil = Der Median) Das 50%-Quantil (der Median) ist das Element (der Wert), unterhalb von ihm 50% der Elemente und oberhalb von ihm 50% der Elemente liegen. Q3 : Das 75%-Quantil (Das dritte Quartil) Das 75%-Quantil ist das Element (der Wert), unterhalb von ihm höchstens 75% der Elemente und oberhalb von ihm 25% der Elemente liegen. ( Eine Studentin hat am Ende des Studienjahres in 8 Fächern folgende Leistungen erbracht. Geben Sie das 80%-Quantil (die 80-te Perzentile) und das 50%-Quantil (die 50-te Perzentile , den Median) an. i x i [Note] i = 80 100 ⋅8 = 6,4 1 1,0 2 1,0 3 2,0 4 3,0 5 3,0 6 3,0 7 4,0 8 4,0 ist keine ganze Zahl. Aufrunden ergibt die Position : i = 7 Somit ist das 80%-Quantil das 7-te Element der geordneten Datenreihe: x 0,8 = 4,0 i = 50 100 ⋅8 = 4 ist eine ganze Zahl. Somit ist: i + 1 = 5 Somit ist das 50%-Quantil der Mittelwert aus dem 4-ten und 5-ten Element der geordneten Datenreihe: xMed = x 0,5 = ½ (3,0 + 3,0) = 3,0 22 3 Die Anzahl von täglichen Ausfällen eines Servers einer Firma innerhalb einer Woche ist in der folgenden Datenliste dargestellt. Geben Sie das 1. und das 3. Quartil für die Anzahl von Ausfällen an. 1 8 i x i [Anzahl der Ausfälle] 2 5 3 3 4 3 5 4 6 3 7 1 2 3 3 3 4 3 5 4 6 5 7 8 N=7 Der Größe nach geordneter Datenreihe 1 1 i x i [Anzahl der Ausfälle] Q1 = 3 Q2 = 3 Q3 = 5 Quantilen/Perzentilen aus klassierten Häufigkeiten Bei klassierten Häufigkeiten wird das q%-Quantil durch lineare Interpolationen bestimmt. Man bestimmt die relative kumulierte Häufigkeit F j bis der Wert q% · N erreicht oder überschritten wird. Dies liefert die Klasse [ a j , b j ) , in der das q%-Quantil liegen muss. Mit Hilfe der linearen Interpolation wird das q%-Quantil wie folgt dann bestimmt q xq% ≈ a j + 100 − F j −1 F j − F j −1 ( ⋅ bj −a j ) # Wegen der Klassenbildung liefern diese Formeln nur eine Schätzung des Medianen. Man könnte auch das q%-Quantil von klassierten Häufigkeiten aus dem Histogramm oder der Verteilungsfunktion ablesen. Quantilen/Perzentilen aus Histogrammen und Summenkurven In einem Histogramm ist das q%-Quantil derjenige Wert, der der Senkrechte entspricht, die das Histogramm in 2 Teile teilt, so dass der Flächeninhalt eines Teils q% und der des anderen Teils (100 – q )% beträgt. In der empirischen Verteilungsfunktion (Summenkurve) ist das q%-Quantil derjenige Wert , für den die Summenkurve die Höhe q% besitzt. # Wegen der Klassenbildung liefern diese Methoden nur eine Schätzung für die Quantilen/ Perzentilen. 23 Spannweite und Quartilsabstand Spannweite: R Die Spannweite R ist die Differenz zwischen dem größten und kleinsten Wert der Elemente einer Datenreihe. R = xMax – xMin Interquartilsabstand (Quartilsabstand) : Q Der Quartilsabstand Q ist die Differenz zwischen dem 3-ten Quartil und dem 1-ten Quartil. Q = Q3 – Q1 Box-Plot Anfang der Box (Schachtel) ist bei Q1 . Ende der Box ist bei Q3 . Die Länge Q der Box wird mit IQR (Inter Quartil Range) bezeichnet. Der Median Q2 wird durch eine Linie in der Box gezeichnet. Zwei Linien (Whiskers) außerhalb der Box gehen bis zu xMin und xMax . Whiskers Q (IQR) xMax xMin Q1 Q2 Q3 Median * Bestimmen Sie für die Lieferzeiten aus Bsp. 1). das 1. Quartil: 25%-Quantil das 2. Quartil: 50%-Quantil (Median) das 3. Quartil: 75%-Quantil den Quartilsabstand Q xMax und xMin !! Zeichnen Sie für die Lieferzeiten aus Bsp. 1) einen Boxplot. ! 2 5 3 6 3 2 4 1 1 4 2 3 6 2 1 2 2 1 7 3 2 3 2 1 4 1 3 4 1 5 2 2 1 7 3 7 5 2 10 2 24 ! N = 40 Der Größe nach geordneter Datenreihe 1 3 1 3 1 3 1 3 1 3 1 3 1 3 1 4 25%-Quantil: 2 4 2 4 2 4 2 5 2 5 2 5 2 6 2 6 2 7 i = N ·0,25 = 40 . 0,25 = 10 i + 1 = 11 i = N ·0,50 = 40 . 0,50 = 20 i + 1 = 21 i = N · 0,75 = 40 . 0,75 = 30 i + 1 = 31 2 7 2 7 2 10 Q 1 = ½ ( 2 + 2) = 2 50%-Quantil (Median): Q 2 = ½ ( 2 + 3) = 2,5 75%-Quantil : Q 3 = ½ ( 4 + 4) = 4 Q = Q3 – Q1 =2 xMin = 1 ; xMax = 10 !! Q (IQR) xMin 0 1 Q1 Q2 2 3 xMax Q3 10 4 Liefertage * ' " # Graphische Darstellungen von Verteilungen können auch im Bezug auf Symmetrie oder Schiefe unterscheiden werden. .224 Fraction Symmetrische Verteilung 0 -3.19068 3.16666 z .1995 Linksschiefe Verteilung Rechtsschiefe Verteilung Fraction .1955 0 0 -29.644 x -.540257 .397801 z 31.7841 25 *** Momentenkoeffizienten der Schiefe *** Der Momentenkoeffizient der Schiefe gm ist eine Maßzahl für die Schiefe einer Verteilung. Dieser Koeffizient lässt sich berechnen durch: gm = 1 ( N − 1) ⋅ ( N − 2 ) N xi − x i = 1 s ⋅ 3 Dabei ist N die Anzahl der Elemente, x der Mittelwert und s die Standardabweichung der Stichprobe. Für eine symmetrische Verteilung ist gm = 0 . Für eine linksschiefe Verteilung ist gm < 0 . Für eine rechtschiefe Verteilung ist gm > 0 . # Für eine symmetrische Verteilung ist der Mittelwert gleich dem Median. Für eine linksschiefe Verteilung ist der Mittelwert kleiner als der Median. Für eine rechtschiefe Verteilung ist der Mittelwert größer als der Median. 4 Durch welche Verteilungsform werden die Daten für die Lieferzeiten aus Bsp. 1) beschrieben? ***Berechnen Sie den Momentenkoeffizienten der Schiefe gm . Verifizieren Sie, dass für diese Verteilung x > xMed ist. h 12 10 8 6 4 2 ## j a 0 1 2 3 4 5 6 7 8 10 xMax xMin Q1 Q2 0 9 j 1 2 3 Q3 4 5 "8 6 " 7 8 9 10 Liefertage 26