Deskriptive Statistik

Werbung
Deskriptive Statistik
Vorlesung - Kurzfassung
Prof. Dr. rer. nat. B. Grabowski
© HTW des Saarlandes 2011
Literatur
Einleitung
Diese Kurseinheit dient der Vermittlung von Grundkenntnissen auf dem Gebiet der
beschreibenden bzw. deskriptiven Statistik als Teilgebiet der
Wahrscheinlichkeitsrechnung und mathematischen Statistik.
Mathematische Statistik und Wahrscheinlichkeitsrechnung sind zwei unterschiedliche
Teildisziplinen der Mathematik, die ohne einander nicht denkbar sind und unter dem
Sammelbegriff „Stochastik“ zusammengefasst werden. Aufgabe der
Wahrscheinlichkeitsrechnung ist es, Gesetzmäßigkeiten des Zufalls zu untersuchen,
bzw. mathematische Modelle dafür zu liefern. Die Wahrscheinlichkeitsrechnung ist
zugleich das theoretische Fundament der mathematischen Statistik. Diese wird in
der Regel in die Teildisziplinen „Beschreibende Statistik“ und „Schließende Statistik“
unterteilt. Während es in der Beschreibenden Statistik um Methoden der
Aufbereitung und Darstellung von Datenmaterial geht, stehen im Mittelpunkt der
Schließenden Statistik Verfahren, mit deren Hilfe von Beobachtungsdaten eines
Merkmals an n Objekten einer Grundgesamtheit, d.h. von der sogenannten
Stichprobe, auf die Verteilung der Merkmalswerte in der gesamten
Grundgesamtheit geschlossen wird. Dieser Schluss wird mit Hilfe von Methoden der
Wahrscheinlichkeitsrechnung durch Irrtums- bzw. Sicherheitswahrscheinlichkeiten
bewertet.
Die Stochastik hat längst in viele moderne wissenschaftliche Teildisziplinen Einzug
gehalten, auch die Informatik und die Kommunikationstechnik sind ohne
stochastische Methoden nicht mehr denkbar. Stochastische Methoden finden hier
zum Beispiel Anwendung
-
probabilistischen Analyse von Algorithmen
bei der Codierung bzw. in der Informationstheorie
in der Sprach- und Signalverarbeitung
bei der Mustererkennung bzw. Bildverarbeitung
bei der Modellierung von Rechner- bzw. Informationsnetzen
bei der Simulation komplexer Systeme, wie z.B. Fertigungs-, Informations-,
Verkehrssysteme
usw.
Darüber hinaus sind Methoden der beschreibenden Statistik fester Bestandteil von
Datenbanksystemen geworden und finden als Data-Mining-Verfahren Anwendung.
Wir geben in dieser Kurseinheit zunächst eine Einführung in die Methoden der
beschreibenden (deskriptiven) Statistik und in einem weiteren Skript ein Einführung
in die Wahrscheinlichkeitsrechnung und einige Methoden der Schließenden Statistik.
Für weiter Methoden der Stochastik, insbesondere der Schließenden Statistik
verweisen wir auf die im Literaturverzeichnis angegebene weiterführende Literatur.
Literatur
LITERATUR
1. Dieses (vorlesungsbegleitende) Skript in den Teilen
0. Algebraische Grundlagen (Logik, Mengenlehre)
I - Deskriptive Statistik,
II –Wahrscheinlichkeitsrechnung,
III - Ausgewählte Gebiete der Stochastik in der Informatik
IV - Anhang (A-Tabellen, B-Klausuren, C-Lösungen zu den Übungsaufgaben)
2. J.Schwarze: " Grundlagen der Statistik I - Beschreibende Verfahren",
" Grundlagen der Statistik II - Wahrscheinlichkeitsrechnung und
induktive Statistik"
" Aufgabensammlung zur Statistik"
alle 3 Bände erschienen bei
NWB-Studienbücher -Wirtschaftswissenschaften, Verlag Neue Wirtschaftsbriefe
- Herne/Berlin, 1990
3. L. Papula : "Mathematik für Ingenieure", Band 3 (Kapitel
Wahrscheinlichkeitsrechnung und Statistik)
4. e-Learning-System:
http://mathcoach.htw-saarland.de:8081/ActiveMath2
Inhalt
INHALTSVERZEICHNIS
Deskriptive (Beschreibende) Statistik
1
GRUNDBEGRIFFE...................................................................................................................................................... 2
1.1
GEGENSTAND DER STATISTIK - GRUNDGESAMTHEIT UND STICHPROBE......................................................... 2
1.2
MERKMALE, MERKMALSAUSPRÄGUNGEN, SKALEN ......................................................................................... 6
1.3
HÄUFIGKEITSVERTEILUNG DISKRETER ZUFALLSVARIABLEN ........................................................................ 10
1.4
HÄUFIGKEITSVERTEILUNG KLASSIFIZIERTER DATEN..................................................................................... 13
1.4.1 Vorschriften zur Klassenbildung .................................................................................................................... 16
1.4.2 Die Klassenhäufigkeitstabelle ......................................................................................................................... 17
1.4.3 Das Histogramm .............................................................................................................................................. 19
1.4.4 Auswertung von Klassenhäufigkeitstabellen, die Summenhäufigkeitsfunktion ....................................... 20
1.5
2
ÜBUNGSAUFGABEN
................................................................................................................................. 26
STICHPROBENKENNWERTE .............................................................................................................................. 28
2.1
LAGEPARAMETER (MITTELWERT, MEDIAN, QUANTILE, MODELWERT): .................................................... 28
2.1.1 Das arithmetische Mittel.................................................................................................................................. 28
2.1.2 Der Median....................................................................................................................................................... 29
2.1.3 Das α - Quantil einer Beobachtungsreihe .................................................................................................... 31
2.1.4 Der Modalwert ................................................................................................................................................. 31
2.1.5 Bemerkungen zu den Lagemaßzahlen........................................................................................................... 32
2.2
STREUUNGSMAßE ................................................................................................................................................. 33
2.2.1 Spannweite (Range)......................................................................................................................................... 33
2.2.2 Quartilabstand, Zentilabstand ...................................................................................................................... 34
2.2.3 Boxplots............................................................................................................................................................. 34
2.2.4 Streuung............................................................................................................................................................ 36
2.2.5 Standardabweichung ....................................................................................................................................... 36
2.2.6 Der Variationskoeffizient ................................................................................................................................ 37
2.2.7 Eigenschaften des arithmetischen Mittels und der Stichprobenstreuung - Hinweise zur praktischen
Berechnung ................................................................................................................................................................... 37
2.3
MAßZAHLEN FÜR KLASSIFIZIERTE DATEN........................................................................................................ 39
2.3.1 Das arithmetische Mittel.................................................................................................................................. 39
2.3.2 Die Streuung..................................................................................................................................................... 40
2.3.3 Die Quantile...................................................................................................................................................... 41
2.4
ANWENDBARKEIT DER MAßZAHLEN FÜR DIE VERSCHIEDENEN SKALENTYPEN........................................... 45
2.5
3
ÜBUNGSAUFGABEN
................................................................................................................................... 46
ZWEIDIMENSIONALE VERTEILUNGEN - ZUSAMMENHANGSMAßE................................................. 49
3.1
ZWEIDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN ....................................................................................... 50
3.2
KORRELATIONSMAßE .......................................................................................................................................... 53
3.2.1 Der Pearsonsche Korrelationskoeffizient ...................................................................................................... 53
3.2.2 Der Spearman’sche Korrelationskoeffizient für ordinal skalierte Daten ................................................... 57
3.3 ÜBUNGSAUFGABEN
.......................................................................................................................................... 61
©Prof. Dr. rer. nat. B. Grabowski
HTW des Saarlandes (12/2011)
I
Deskriptive Statistik-Grundbegriffe
Deskriptive (Beschreibende) Statistik
1 Grundbegriffe
1.1 Gegenstand der Statistik - Grundgesamtheit und Stichprobe
Stochastik = Wissenschaftliche Methoden zur Untersuchung und Beurteilung zufälliger
Merkmale an irgendwelchen Objekten. Das Interesse der Statistik richtet sich
dabei nie auf einzelne Objekte, sondern immer auf eine (i.A. große) Menge (bzgl.
des interessierenden Merkmals) „gleichartiger“ Objekte, die sogenannte
Grundgesamtheit.
Zufälliges Merkmal: Der Wert des Merkmals ist bei Auswahl eines Objektes nicht eindeutig
voraussagbar! Erst nach Messung, Befragung, Untersuchung usw. kennt man den
Merkmalswert für dieses Objekt genau.
Grundgesamtheit: = Gruppe von Objekten, die hinsichtlich eines Untersuchungsziels als
gleichartig angesehen werden
Beispiel 1:
Wir wollen wissen, wie sich die Saarländer bei der nächsten Landtagswahl
verhalten werden.
Merkmal:
Wahlverhalten
Objekt:
1 Saarländer
Grundgesamtheit: Menge aller wahlberechtigten Saarländer.
Weitere Beispiele:
Merkmal
Objekt
Grundgesamtheit
Lebensdauer
Akku
Akkus eines bestimmten Herstellers
Zuverlässigkeit
Festplatte
Festplatten eines bestimmten Typs
Anzahl eintreffender
Signale pro Sek.
Sekunde
alle Sekunden eines bestimmten
Zeitabschnittes
Anzahl des Buchstabens E deutscher Text
Alle deutschen Texte einer
bestimmten Länge
Leistung im Fach
Mathematik
alle Studenten einer
bestimmten Gruppe
Student
Tabelle 1.1
©Prof. Dr. rer. nat. B. Grabowski
2
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Ziel statistischer Untersuchungen: Aussagen über die Häufigkeit des Auftretens jedes
Merkmalswertes in der Grundgesamtheit treffen .
(z.B. wie viele wahlberechtigte Saarländer wählen CDU, SPD, ... oder wie häufig kommt
welche Lebensdauer vor usw.).
Zur Beurteilung des Merkmals Wahlverhalten (oder der Lebensdauer) kann man nicht alle
Saarländer befragen (Akkus untersuchen), sondern nur einen Teil!
⇒Man macht eine Stichprobe!
Stichprobe: = Teilmenge von Objekten der Grundgesamtheit. Die Auswahl erfolgt „zufällig“.
Von der Verteilung der Merkmalswerte in der Stichprobe wird dann auf die Verteilung der
Merkmalswerte in der Grundgesamtheit geschlossen.
Grundfragen der Stochastik:
•
•
•
•
Wie bestimmt man die Stichprobe? (Stichprobenumfang)
Wie analysiert man die Stichprobe? (Verfahren)
Wie schließt man von der Stichprobe auf die Grundgesamtheit?
Wie groß ist der Fehler (Irrtumswahrscheinlichkeit), den man bei diesem Schluß
macht?
Die 3 Teilgebiete der Stochastik:
• Beschreibende (Deskriptive) Statistik:= Empirische und grafische Methoden zur
Analyse von Stichproben
• Schließende (Induktive) Statistik: = Mathematische Methoden des Schließens von
der Stichprobe auf die Grundgesamtheit mit Angaben von Irrtumswahrscheinlichkeiten
• Wahrscheinlichkeitsrechnung:= Mathematische Methoden zur Beschreibung des
Zufalls. Mathematische Grundlage der Schließenden Statistik
DESKRIPTIVE STATISTIK
SCHLIEßENDE STATISTIK
WARSCHEINLICHKEITSRECHNUNG
©Prof. Dr. rer. nat. B. Grabowski
3
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Beispiel 1:
Untersuchung des Wahlverhaltens der Saarländer:
Was wäre, wenn nächsten Sonntag Landtagswahlen wären?
Werten Sie die Wahlergebnisse der Stichprobe anhand nachfolgender
Abbildung aus!
Schließen Sie auf die Grundgesamtheit aller wahlberechtigten Saarländer!
Anzahl Personen
Wieviele Personen muß man
befragen?
Wie sicher ist der Schluß von
den Stichprobeergebnissen auf
die Grundgesamtheit?
52
33
2
CDU
SPD
FDP
12
1
Grüne
Sonst.
Abb. 1.1: Verdichtung durch Häufigkeitstabellen
Die Schließende Statistik liefert Aussagen der Form:
'Mit 99% iger Sicherheit wählen zwischen 50% und 54% aller wahlberechtigten Saarländer
die CDU.'
Beispiel 2: Gleichmäßiger Würfel
Untersuchen Sie, ob Ihr Würfel gleichmäßig ist!
Wie gehen Sie vor? Machen Sie einen Vorschlag und führen Sie ihn aus!
Welche Grafiken würden Sie anfertigen?
Welche Fragen müssen Sie sich stellen und beantworten?
©Prof. Dr. rer. nat. B. Grabowski
4
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Beispiel 3: Untersuchung der Zwischenzeiten zwischen dem Eintreffen zweier Signale in
einer Empfängerstation.
40 Zeiten: 5.4, 3.2,
4.1,
1.9, ….., 9.3
Wie kann man die Zeiten grafisch darstellen?
Werten Sie die folgende Grafik aus!
Was ist der typische Verteilungsverlauf?
Schließen Sie auf die Verteilung in der Grundgesamtheit aller Zeiten!
Welches Verteilungsmodell trifft für
die Grundgesamtheit zu?
Wie viele Zeiten muss man
untersuchen?
Wie sicher sind diese Ergebnisse?
Beispiel 4: Untersuchung der Wirksamkeit zweier Medikamente M1, M2
Werten Sie die folgende Tabelle aus! Welches Medikament ist in den
gegebenen Stichproben besser?
Schließen Sie auf die Grundgesamtheit aller Patienten!
M1
M2
verbessert
nicht verbessert
98
55
22
11
Mit welchem Maß kann man die
Wirksamkeit der beiden Medikamente
vergleichen?
Wie viele Personen muss man
untersuchen?
Wie sicher sind diese Ergebnisse?
Tabelle 1.2
Die Schließende Statistik liefert Aussagen der Form:
'Mit 99%iger Sicherheit ist M2 wirksamer als M1.'
©Prof. Dr. rer. nat. B. Grabowski
5
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
1.2 Merkmale, Merkmalsausprägungen, Skalen
Bezeichnungen : Merkmale: X, Y, ...
Merkmalsausprägungen: x, y, ...
Merkmale werden am Objekt beobachtet:
X(Objekt) = x
Beispiel: X = Hersteller, Y = Qualität, Z = Lebensdauer, Objekt = Server
Hersteller (Server) = Dell,
Qualität(Server) = gut,
Lebensdauer(Server) = 6 Jahre
Wir wollen „rechnen“ ⇒ wir ordnen den Merkmalswerten Zahlen zu.
Skalierung:= Zuordnung von Merkmalsausprägungen zu Zahlenwerten
Welche Rechenoperationen mit den Zahlenwerten nach Skalierung durchgeführt werden
dürfen, richtet sich danach, welche Eigenschaften die Merkmalswerte haben. Beim Merkmal
‚Hersteller’ stehen z.B. die Merkmalswerte ‚Dell’ , ‚Siemens’ und ‚Toshiba’ gleichberechtigt
nebeneinander, d.h. sie lassen sich nicht anordnen und es gibt keinen Abstand zwischen
den Merkmalswerten. Deshalb dürfen die ihnen zugeordeten Zahlen auch nicht angeordnet,
subtrahiert, addiert usw. werden. Ein solches Merkmal nennen wir nominalskaliert.
Für das Merkmal ‚Temperatur’ kennen wir die Skalen: °C (Grad Celsius), K (Kelvin), F
(Fahrenheit). Die Umrechnung zwischen je zwei Skalen S1 und S2 erfolgt gemäß der
Formel S1 = a S2+b. Es gibt Temperaturunterschiede,Temperaturen können angeordnet
werden, und es gibt einen Abstand zwischen den Temperaturwerten, den wir in jeder Skala
messen können; die Abstände sind bis auf die verwendete Maßeinheit a eindeutig.
Probleme gibt es aber – wegen der Nullpunktverschiebung b- bei der Bildung von
Verhältnissen. Angenommen, wir würden zwei in °C gemessene Temperaturwerte x1=
20°C, x2=10°C, ins Verhältnis setzen, so erhalten wir das Ergebnis: x1/x2 = 2. Wir könnten
nun die gleichen Messwerte aber auch in K darstellen x1--> y1= 20 +273 K = 293 K; x2-->
y2=10+273=283 K. Setzen wir diese in Kelvin umgerechneten Werte ins Verhältnis, so
erhalten wir: y1/y2 = 293/283 ≠2. Die Rechenoperation’Brüche bilden’, liefert also völlig
unterschiedliche Ergebnisse in Abhängigkeit von der verwendeten Skala.
Um solche Probleme zu vermeiden, verlangen wir, dass bei statistischen Auswertungen der
Temperatur, die Bruchrechnung nicht erlaubt ist! Ein solches Merkmal nennen wir
intervallskaliert.
Für das Merkmal ‚Lebensdauer’ kennen wir die Skalen ‚Stunden’, ‚Minuten’, Sekunden’, ‚ms’
usw. Die Umrechnung zwischen je zwei Skalen S1 und S2 erfolgt gemäß der Formel
S1=aS2. Da hier keine Nullpunktverschiebung vorhanden ist, sind im Gegensatz zur
‚Temperatur’ beim Merkmal ‚Lebensdauer’ Brüche eindeutig, unabhängig von der
verwendeten Skala (die Maßeinheit a kürzt sich bei Brüchen weg). Ein solches Merkmal
nennen wir proportionalitätsskaliert.
Je nachdem, welche Eigenschaften die Merkmalsausprägungen eines Merkmals
haben, unterscheiden wir 4 Merkmals- bzw. Skalentypen:
©Prof. Dr. rer. nat. B. Grabowski
6
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Nominalskala (nominalskalierte Merkmale): Alle (Merkmals- bzw.) Skalenwerte stehen
gleichberechtigt nebeneinander. Es gibt keine Ordnung, nur Unterschiede. Die
Größe und die Ordnung der Zahlen spielen keine Rolle, d.h. sie dürfen nicht in
statistische Auswertungen einbezogen werden. In statistischen
Untersuchungen dürfen nur Häufigkeiten ermittelt werden. Alle Skalen, welche
die in den Merkmalswerten enthaltenen Unterschiede und Gleichheiten
abbilden, sind erlaubt; wir sagen sie sind zueinander äquivalent.
Bsp: Hersteller, Geschlecht, Farbe, Marke usw.
Ordinalskala (ordinalskaliertes Merkmal): Es gibt eine Ordnung und Unterschiede in den
(Merkmals- und damit) Zahlenwerten der Skala. Die Größe der Zahlen spielt
keine Rolle, d.h., die Zahlenwerte selbst dürfen nicht in die statistischen
Auswertungen einbezogen werden, sie dürfen nicht addiert, subtrahiert usw.
werden. In statistischen Untersuchungen dürfen nur Anordnungen und
Häufigkeiten ermittelt und ausgewertet werden. Alle Skalen, welche die in den
Merkmalswerten enthaltene Ordnungsrelation abbilden, sind erlaubt; wir
sagen, sie sind zueinander äquivalente Ordinalskalen.
Bsp: Qualitätsgruppe, Leistungen, usw.
Intervallskala (intervallskaliertes Merkmal): Unterschiede, Ordnungen, Größen und
Differenzen der (Merkmals- und damit) Zahlenwerte der Skala sind relevant
und dürfen in statistische Untersuchungen einbezogen werden. Differenzen
sind bis auf die Maßeinheit eindeutig. Der Nullpunkt ist nicht eindeutig.
Zahlenverhältnisse dürfen deshalb nicht in statistische Auswertungen
einbezogen werden. Alle Skalen S2, die sich aus der Transformation
S2 =aS1 + b aus einer gegebenen Intervallskala S1 ergeben, sind erlaubt; wir
sagen, sie sind zueinander äquivalente Intervallskalen.
Bsp: Temperatur
Proportionalitäts- (Verhältnis-) skala (proportionalitätsskaliertes Merkmal):
Unterschiede, Ordnungen, Größen, Differenzen und Verhältnisse sind relevant
und dürfen in statistische Untersuchungen einbezogen werden. Differenzen
sind bis auf die Maßeinheit eindeutig, Verhältnisse sind eindeutig. Alle Skalen
S2, die sich aus der Transformation S2 =aS1 aus einer gegebenen
Proportionalitätsskala S1 ergeben, sind erlaubt, wir sagen; sie sind zueinander
äquivalente Proportionalitätsskalen.
Bsp: Länge, Zeit, Gewicht, Druck, Sromstärke, Kapazität, usw.
Achtung: In statistischen Untersuchungen eines Merkmals dürfen nur solche statistischen
Maßzahlen verwendet werden, die unabhängig davon, welche der zueinander äquivalenten
(erlaubten) Skalen für dieses Merkmal zugrundegelegt wird, immer das gleiche Eergebnis
liefern.
Deshalb ist es wichtig, vor jeder statistischen Analyse zunächst den Skalentyp eines
Merkmals zu bestimmen.
©Prof. Dr. rer. nat. B. Grabowski
7
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Beispiele:
Merkmal
Hersteller
Qualität
Merkmalsausprägung
erlaubte
(äquivalente)
Skalen
Dell
Siemens
Toshiba
sehr gut
gut
befriedigend
ausreichend
mangelhaft
ungenügend
-1
1
0
1
2
3
4
5
6
o
C,
Temperatur
2
1
5
20
2000
17
100
15
10
11
9
8
7
6
3
K, F
1
1
2
erlaubte
RechenOperatione
n
=, ≠
2 =, ≠,
6 <, >
3
5
8
4
=, ≠, <, >,
Skalentyp
Nominal
Ordinal
Intervall
alle Skalen, die durch
+, Umrechnung
o
S = a C + b entstehen,
sind erlaubt
Lebensdauer
sek., min., Stunde, ... =, ≠, <, >,
Proportional
+, -, *, :,
alle Skalen, die durch
und alle
Umrechnung
anderen
S = a * sek entstehen,
Rechenopesind erlaubt
rationen
Tab. 1.3
Merkmale, deren Zahl möglicher Ausprägungen endlich oder abzählbar sind, werden in der
Regel durch eine Ordinal- oder Nominalskala abgebildet.
Merkmale mit unendlich vielen verschiedenen Ausprägungen werden durch eine Intervalloder Proportionalitätsskala abgebildet. Man nennt solche Merkmale auch metrisch skaliert.
Eine Ausnahme bilden das zufällige Merkmal: X = Anzahl von ....(irgendetwas) und das
zufällige Merkmal X = Plazierung. Diese werden als proportionalitätsskaliert betrachtet
(Spezialfälle).
©Prof. Dr. rer. nat. B. Grabowski
8
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Def.: Unter einer zufälligen Variable (Zufallsvariable, Zufallsgröße) X verstehen wir eine
Variable, die einem zufälligen Merkmal zugeordnet wird und deren Zahlenwerte den
Merkmalsausprägungen entsprechen.
Skalierung
Bezeichnungen
Merkmal
Zufallsvariable
X, Y, Z
Merkmalsausprägung
Zahlenwerte
x, y, z
Menge der Merkmalsausprägungen
Beispiele:
Wertebereich
X - Hersteller,
= {1,2,3}
Y - Leistung,
= {1,2,3,4,5}
Z - Lebensdauer,
,
,
= [ 0, ∞)
Def.: Eine zufällige Variable X, deren Wertebereich nur endlich oder abzählbar viele Werte
annehmen kann, heißt diskrete Zufallsvariable (X- Hersteller, Y-Qualität).
Eine zufällige Variable X, deren Wertebereich ein zusammenhängendes Intervall [a,b],
a<b enthält, heißt stetige Zufallsvariable (Bsp. Temperatur, Lebensdauer).
X
- diskret, falls
X
- stetig, falls
= {a 1 , a 2 , ..., a k , ...}
ein kontinuierliches Intervall [a,b] enthält.
Geben Sie jeweils das Merkmal und den Wertebereich des Merkmals, sowie
die Grundgesamtheit an. Welcher Skalentyp liegt hier vor?
Sind die Merkmale (bzw. Zufallsgrößen) diskret oder stetig?
a) Zeit zwischen dem Eintreffen zweier Nachrichten in einer
Vermittlungsstelle in ms.
b) Anzahl der pro Minute eintreffenden Nachrichten
c) Qualitätsgruppe von Geräten eines bestimmten Typs
(A (sehr gut),…,F(mangelhaft))
d) Typ des an einer Kreuzung eintreffenden Autos (PKW, LKW, Bus usw.)
©Prof. Dr. rer. nat. B. Grabowski
9
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
1.3 Häufigkeitsverteilung diskreter Zufallsvariablen
Wir verwenden folgende Bezeichnungen:
X – diskrete Zufallsvariable (Merkmal)
= {a 1 ,..., a k } – Wertebereich von X (ai - Merkmalsausprägung)
x1,...,xn – n Beobachtungen von X (Stichprobe vom Umfang n, wird auch als Urliste
bezeichnet)
elementare statistische Tätigkeit für diskrete Zufallsgrößen:
Auszählen, wie viele Beobachtungen auf einen bestimmten Merkmalswert fallen,d.h.
es wird die sogenannte Häufigkeitstabelle aufgestellt.
Beispiel:
Untersuchung des PC-Nutzungsverhaltens von Personen zwischen 15 - 21
Jahren (in der BRD)
X : Nutzungsverhalten, Gg: Alle Personen der BRD zwischen 15-21
Skalierung:
X
0 Verbringt 0 Stunden täglich am Rechner
1 Verbringt höchstens 1 Stunde pro Tag am Rechner

=
2 Verbringt mehr als 1 Stunde, aber höchstens 2 Stunden pro Tag am Rechner
3 mehr als 2 Stunden pro Tag
Stichprobe von n=100 Personen der Gg: 0,1,3,0,0,...,1 ( Urliste)
ai
Hn(ai)
absolute Anzahl
hn(ai)
relative Anzahl
H(i)
absol. Sum-menhäufigkeit
h(i)
relative
Summenhäufigkeit
0
1
2
3
40
15
40
5
0.4
0.15
0.4
0.05
40
55
95
100
0,.4
0.55
0.95
1.0
∑
100
1.00
Tab. 1.4: Statistische Häufigkeitstabelle
Tabelle 1.4. ist die typische Form einer Häufigkeitstabelle für diskrete Zufallsgrößen. Aus
dieser Tabelle kann man alle interessierenden Informationen entnehmen. Z.B. ist die Anzahl
der Personen, die am PC sitzen, aber höchstens 1 Stunde am Tag am Rechner verbringen
15%. Die Anzahl ist 15. Der Anteil der Personen, die nicht mehr als 2 Stunden pro Tag am
Rechner verbringen beträgt 95 %, die Anzahl ist 95.
a) Wie viele Personen verbringen zwischen 1 und 2 Stunden am
Rechner pro Tag?
b) Wie viel % aller Personen verbringen Zeit am Rechner?
©Prof. Dr. rer. nat. B. Grabowski
10
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Die allgemeine Form einer statistischen Häufigkeitstabelle für eine diskrete Zufallsgröße
X∈ = {a 1 ,..., a k } auf der Basis von Beobachtungen x1,...,xn hat folgende Gestalt:
ai
Hn(ai)
absolute Anzahl
hn(ai)
relative Anzahl
H(i)
absol. Sum-menhäufigkeit
h(i)
relative
Summenhäufigkeit
a1
Hn(a1)
hn(a1)
⋮
⋮
⋮
⋮
⋮
⋮
Hn(a1)
Hn(a1)+ Hn(a2)
hn(a1)
hn(a1)+ hn(a2)
⋮
⋮
ak
Hn(ak )
hn(ak )
n
1.0
∑
N
1.00
Tab. 1.5: Allgemeine Form der Häufigkeitstabelle
Def.: Die Aneinanderreihung x1,...,xn von beobachteten Merkmalen heißt Urliste.
Def.: Hn(ai) = absolute Häufigkeit von ai.
H n ( ai )
= relative Häufigkeit von ai.
n
hn(ai) =
Hn(ai) : Anzahl aller xj mit xj = ai
hn(ai): Anteil aller xj mit xj = ai
, j = 1,...,n
, j = 1,...,n ; (100⋅ hn(ai)=%ualer Anteil)
Die Gesamtheit aller Hn(ai), i=1,...,k (bzw. hn(ai), i=1,...,k) heißt absolute bzw. relative
Häufigkeitsverteilung von X bzgl. der Stichprobe x1,...,xn.
Es gilt:
0 ≤ Hn(ai) ≤ n,
k
k
∑ H n (ai ) = n und 0 ≤ hn(ai) ≤ 1,
∑ h (a ) = 1
i =1
i =1
n
i
i
Def.: H (i) =
∑H
n (a j )
i=1,...,k
- absolute Summenhäufigkeit
i=1,...,k
- relative Summenhäufigkeit
j=1
i
h( i ) =
∑h
n (a j )
j=1
H(i)
h(i)
– Anzahl der Objekte (Stichprobenwerte xi), die einen Merkmalswert ≤ ai
besitzen.
– Anteil der Objekte (Stichprobenwerte xi), die einen Merkmalswert ≤ ai
besitzen.
Aus der Summenhäufigkeit sind wieder die einzelnen Häufigkeiten berechenbar.
Es gilt:
Hn(ai) = H(i) - H(i-1)
hn(ai) = h(i) - h(i-1)
mit h(0) = H(0) = 0
©Prof. Dr. rer. nat. B. Grabowski
i=1,...,k
11
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Typische grafische Darstellungen der Häufigkeitsverteilungen:
Mit Hilfe der relativen Summenhäufigkeit läßt sich die sogenannte empirische
Verteilungsfunktion (Summenhäufigkeitsfunktion) definieren:
Def.: Empirische Verteilungsfunktion (Summenhäufigkeitsfunktion):
für x < a 1
0

Fn ( x) = h(i) für a i ≤ x < ai +1
1
für x ≥ a k

, i = 1,...,k - 1
Fn(x) – Anteil der Objekte in der Stichprobe mit einem Merkmalswert ≤ x
F n (x )
1
0 ,9 5
0 ,5
0 ,4
0 ,1 5
{
x
1
2
3
Abb.: 1.6: Empirische Verteilungsfunktion zum obigen Beispiel
Das Bild der empirischen Verteilungsfunktion ist eine Treppenfunktion. In jedem
Merkmalswert ai springt die Funktion um hn(ai).
Auch aus grafischen Darstellung kann man z.B. folgendes entnehmen: Der Anteil der
Personen, die nicht mehr als 2 Stunden pro Tag am Rechner sitzen, beträgt 95 %, die
Anzahl ist 95.
©Prof. Dr. rer. nat. B. Grabowski
12
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
1.4 Häufigkeitsverteilung klassifizierter Daten
Bisher sind wir davon ausgegangen, dass der Stichprobenumfang n der Beobachtungen der
Zufallsgröße X wesentlich größer ist, als die Anzahl | |=k der möglichen Werte, die X
annehmen kann.
Nun betrachten wir genau den umgekehrten Fall, dass n wesentlich geringer ist, als die Zahl
k der möglichen Werte für X.
Das ist vor allem der Fall, wenn X ein stetiges Merkmal ist. Hier umfasst der Wertebereich
, n ist viel kleiner als | |
(es ist | |=∞).
von X sogar (überabzählbar) unendlich viele Werte bzw. ∃ (a,b,) ⊆
I.a. werden in diesem Fall bei einer Stichprobe x1,..., xn vom Umfang n alle Werte
voneinander verschieden sein, bzw. nur wenige Beobachtungen auf ein und denselben
Merkmalswert fallen und man kann durch bloßes Auszählen, d.h. durch eine
Häufigkeitstabelle, wie sie in Abschnitt 1.3. beschrieben wurde, keinen Eindruck über die
Häufung von Merkmalswerten bekommen.
Beispiel: Es soll die untersucht werden, wie die Zeit, die zum Telefonieren benötigt wird
verteilt ist, d.h. in welchem Bereich die meisten Personen telefonieren und in welchen
Bereichen es wesentliche Abweichungen vom Normverhalten gibt.
Urliste: Dauer von 40 Telefonaten (in Sekunden)
138
146
168
146
161
164
158
126
173
145
150
140
138
142
135
©Prof. Dr. rer. nat. B. Grabowski
132
147
178
147
142
144
136
163
135
150
13
125
148
119
153
156
149
152
154
140
145
157
144
165
135
128
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Häufigkeitstabelle:
Dauer (Sek.)
Anzahl Hn(Ki)
119
1
125
126
128
132
135
136
138
140
142
144
145
146
147
148
149
150
152
153
154
156
157
158
161
163
164
165
168
173
176
1
1
1
1
3
1
2
2
2
2
2
2
2
1
1
2
1
1
1
1
1
1
1
1
1
1
1
1
1
Tabelle 1.7
Stellen Sie die absoluten Häufigkeiten in einem Stabdiagramm dar!
Wie beurteilen Sie die Aussagefähigkeit des Diagramms?
Um einen Eindruck von der Verteilung der Merkmalswerte zu bekommen, werden die
Merkmalsausprägungen klassifiziert und die Häufigkeit nicht mehr einzelnen
Merkmalsausprägungen sondern den Klassen zugeordnet.
Wir zerlegen dazu den Wertebereich X in k disjunkte Klassen (Intervalle):
X = K1 ∪ K2 ∪...∪ Kk,
Ki ∩ Kj = ∅
für
i ≠ j.
und zählen aus, wie viele Beobachtungen in welche Klasse fallen.
In folgenden Tabellen wird anhand unseres Beispiels die Abhängigkeit des
©Prof. Dr. rer. nat. B. Grabowski
14
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Informationsgewinns“ über die Verteilung der Dauern von 40 Telefonaten von der gewählten
Klassenbreite bzw. Klassenzahl demonstriert.
Häufigkeitsverteilungen der Dauern von 40 Telefonaten:
Klassenbreite: 5
Dauer
(Sek.)
Anzahl
Häufigkeit
8
6
4
2
175
165
155
145
0
135
1
2
2
4
6
8
5
4
2
3
1
2
Summe 40
125
1
2
2
4
6
8
5
4
2
3
1
2
115
118-122
123-127
128-132
133-137
138-142
143-147
148-152
153-157
158-162
163-167
168-172
173-177
Abb. 1.7
Tab. 1.8
Klassenbreite: 9
Dauer
(Sek.)
Anzahl
Häufigkeit
15
118-126
127-135
136-144
145-153
154-162
163-171
172-180
3
5
9
12
5
4
2
3
5
9
12
5
4
2
Summe 40
10
5
0
113 122 131 140 149 158 167 176 185
Abb. 1.8
Tabelle 1.9
Klassenbreite: 30
Dauer
118-147
148-177
Häufigkeit
23
17
20
Tab. 1.10
113
177
Abb. 1.9
©Prof. Dr. rer. nat. B. Grabowski
15
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
In den Tabellen 1.8 und 1.9 sind Klasseneinteilungen mit der Klassenbreite 5 bzw. 9 Sek.
gebildet worden. Die entsprechenden Histogramme zeigen eine symmetrische Verteilung
und eine Häufung im mittleren Bereich.
Tabelle 1.10 zeigt eine Klasseneinteilung der Klassenbreite 30 Sek. in nur 2 Klassen. Hier
erkennt man wiederum keine Häufungen. Es gehen zu viele Informationen verloren.
Wählen wir also zu kleine Klassenbreiten (zu viele Klassen) (Tabelle 1.7), so erkennt man
keine Häufungen. Dasselbe geschieht bei der Wahl zu großer Klassenbreiten (zu wenig
Klassen) (Tabelle 1.10).
1.4.1 Vorschriften zur Klassenbildung
Es gibt keine allgemeingültige Vorschrift zur Wahl der Klassen, die für jede Art einer
statistischen Analyse angewendet werden kann. Im Deutschen DIN-Institut (in Berlin) findet
man für unterschiedlichste statistische Problemstellungen unterschiedliche DIN-Vorschriften
zur Wahl der Klassenzahl und Klassenbreite. Wenn sich keine speziellen Angaben zur
Klassenbildung aus der Problemstellung ergeben (wie z.B. an der jetzigen Stelle unserer
Vorlesung), so verwenden wir folgende Faustregeln zur Klassenbildung:
Wahl der Klassenzahl k:
„Faustregel“:
k≈ n
5 ≤ k !!!
(optional: k ≤ 20)
⇒ n > 25 ! Mache keine statistische Analyse mit zu wenigen Daten!!
In jedem Fall wird k auf einen ganzzahligen Wert auf- oder abgerundet.
Wahl der Klassengrenzen/ Reduktionslage:
Die Klassengrenzen sollen so gewählt werden, dass kein Wert auf eine Klassengrenze fällt.
(z.B., indem man sie zwischen zwei Werte legt (½- Messgenauigkeit!)).
Das wird z.B. erreicht, indem man den unteren Wert a1u der ersten Klasse K1 gemäß
a1u =xmin - ε/2 festlegt, wobei ε die Messgenauigkeit ist und dann die Klassenbreite B auf die
Messgenauigkeit aufrundet.
a1u wird als Reduktionslage bezeichnet.
Wahl der Klassenbreite:
Man wählt in der Regel eine konstante Klassenbreite B = ∆Ki
für i=1,...,k.
Sei xmin – kleinster Wert und xmax – größter Wert der Stichprobe.
In Anbetracht, dass kein Wert auf eine Klassengrenze fallen sollen, zerlegen wir nicht den
Bereich xmin bis xmax , sondern den Bereich von xmin - ε/2 bis xmax + ε/2 in k Klassen, wobei ε
die Messgenauigkeit ist.
©Prof. Dr. rer. nat. B. Grabowski
16
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
(x max - x min + ε )
k
Klassenbreite = B =
Man rundet B dann auf die Messgenauigkeit auf!
Vorschrift :
Klassenzahl: k ≈ n , muss : 5 ≤ k ,
kann : k ≤ 20,
k wird auf einen ganzzahligen Wert
gerundet
Reduktionslage: a1u = xmin - ε/2, wobei ε die Messgenauigkeit ist
Klassenbreite: B =
(x max - x min + ε )
,
k
B wird auf die Messgenauigkeit aufgerundet.
1.4.2 Die Klassenhäufigkeitstabelle
Die allgemeine Form einer statistischen Häufigkeitstabelle für eine stetige Zufallsgröße
X auf der Basis von Beobachtungen x1,...,xn hat folgende Gestalt:
Ki
Hn(Ki)
absolute Anzahl
hn(Ki)
relative Anzahl
H(i)
absolute
Summenhäufigkeit
h(i)
relative
Summenhäufigkeit
K1
Hn(K1)
hn(K1)
⋮
⋮
⋮
⋮
⋮
⋮
Hn(K1)
Hn(K1)+ Hn(K2)
hn(K1)
hn(K1)+ hn(K2)
Kk
Hn(Kk )
hn(Kk )
∑
n
1.00
⋮
⋮
n
1.0
Tab. 1.11: Allgemeine Form der Klassenhäufigkeitstabelle
Die Begriffe der absoluten und relativen Häufigkeit bleiben erhalten, beziehen sich aber nun
auf die Klassen Ki und nicht mehr auf einen Merkmalswert ai.
Jede Klasse ist charakterisiert durch ihr Klassengrenzen:
a oi - obere Grenze der Klasse K i .
a iu - untere Grenze der Klasse K i .
(a oi = a iu+1 ) ,
ihre Klassenbreite:
i=1,...,k
∆K i = (a oi − a iu ) ,
©Prof. Dr. rer. nat. B. Grabowski
i=1,...,k.
17
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Def.: Hn(Ki)
– Anzahl aller xj mit xj ∈ Ki
, j=1,...,n
– Absolute Klassenhäufigkeit der Klasse Ki.
H n (K i )
– Anteil aller xj mit xj ∈ Ki, j=1,...,n
n
– Relative Klassenhäufigkeit der Klasse Ki.
h n (K i ) =
Es gilt:
0 ≤ Hn(Ki) ≤ n,
0 ≤ hn(Ki) ≤ 1
k
∑
k
∑h
H n (K i ) = n ,
i =1
n (K i )
=1
i =1
Die Gesamtheit der Hn(Ki), hn(Ki), i=1,...,k bezeichnet man als (Klassen-)Häufigkeitsverteilung
von X in der Stichprobe.
In der tabellarischen Darstellung werden wie bei diskreten Zufallsgrößen wieder die
Summenhäufigkeiten mit einbezogen.
i
Def.: H (i ) =
∑H
n
(K j )
- absolute Summenhäufigkeit
j =1
i
h(i ) = ∑ hn ( K j )
- relative Summenhäufigkeit
j =1
H(i)
– Anzahl der Objekte (Stichprobenwerte), deren Merkmalswert x j ≤ a oi ist.
h(i)
– Anteil der Objekte, die einen Merkmalswert
x j ≤ a oi besitzen.
Stellen Sie die Klassenhäufigleitstabelle für die 40 TelefonatGesprächsdauern auf!
Wie würden Sie die Häufigkeiten grafisch darstellen?
Lösung:
Klassenzahl:
40 = 6,32 ⇒ k = 6 (wir runden wie üblich).
Reduktionslage:
xmin = 119, xmax = 176, Messgenauigkeit ε=1
u
Wir wählen: a1 =xmin-1/2 und zerlegen den Bereich von 118,5 – 176,5
in 6 Klassen
 176 − 119 + 1 
 = 9,67
6


Klassenbreite: B = 
©Prof. Dr. rer. nat. B. Grabowski
18
⇒ B = 10 (aufrunden)
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Ki
äquivalente
Klassen
Ki
(118,5;128,5)
(128,5;138,5)
(138,5;148,5)
(148,5;158,5)
(158,5;168,5)
(168,5;178,5)
[119,129)
[129,139)
[139,149)
[149,159)
[159,169)
[169,179)
Hn(Ki)
absolute
Anzahl
hn(Ki)
relative
Anzahl
H(i)
absolute
Summenhäufigkeit
h(i)
relative
Summenhäufigkeit
[119,128]
(128,138]
(138,148]
(148,158]
(158,168]
(168,178]
4
7
13
9
5
2
4/40
7/40
13/40
9/40
5/40
2/40
4
11
24
33
38
40
4/40
11/40
24/40
33/40
38/40
1
∑
40
1.00
Tab. 1.12: Klassen-Häufigkeitstabelle für die 40 Gespräche
1.4.3 Das Histogramm
Die typische grafische Darstellungsform der Klassenhäufigkeitsverteilung ist das
Histogramm. Auf der x- Achse werden die Klassen (Intervalle) abgetragen. Auf der y-Achse
h (K )
werden über jeder Klasse als Höhe die sogenannte relative Häufigkeitsdichte n i
∆K i
h (K )
abgetragen. Es entstehen so über jeder Klasse Ki eine Säule, wobei n i die Höhe der
∆K i
Säule darstellt. Offensichtlich entspricht dann der Flächeninhalt jeder Säule ihrer
zugehörigen relativen Häufigkeit hn(Ki) (siehe Abbildung 1.10).
⇒ der Anteil hn(Ki) der Daten x1,...,xn, die in Ki hineinfallen, ist gleich der Fläche über Ki.
Def.: h *n ( K i ) =
h n (K i )
∆K i
- relative Häufigkeitsdichte.
h *n ( K i ) ist die auf die Klassenbreite bezogene Klassenhäufigkeit.
Es ist oft üblich, die Häufigkeiten an der Stelle der Klassenmitten im Histogramm miteinander
zu verbinden, wobei links und rechts eine zusätzliche Klasse mit der Klassenhäufigkeit 0
angenommen wird. Die Linie bildet das sogenannte Häufigkeitspolygon.
©Prof. Dr. rer. nat. B. Grabowski
19
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
h n* (K i )
hn(Ki) = h(i) - h(i-1)
Häufigkeitspolygon
Ki
Abbildung 1.10
Zeichnen Sie das Histogramm für die Klasseneinteilung Tabelle 1.12 der
40 Gesprächsdauern!
1.4.4 Auswertung von Klassenhäufigkeitstabellen, die Summenhäufigkeitsfunktion
Beantworten Sie unter Verwendung der Klasseneinteilung Tabelle 1.12
folgende Fragen zu den 40 Zeitdauern!
a) Wie viele Gespräche haben eine Dauer bis zu 148 Sek.?
b) Wie viele Gespräche haben eine Dauer von mehr als 139 und bis zu 168
Sek.?
Nicht sofort entnehmen kann man der Klassenhäufigkeitstabelle 1.12 Angaben über
„Zwischenwerte“, z.B.
− Wie viele Gesprächsdauern liegen zwischen 140 und ≤ 170 Sek.?
Wären alle Beobachtungsdaten xi, i=1,...,n, bekannt, so kann man die gesuchte Anzahl durch
die empirische Verteilungsfunktion Fn ( x ) (= Anteil aller Daten xi, i=1,...,n , für die gilt: xi ≤ x)
bestimmen: n⋅ ( Fn (170) − Fn (140))
Beantworten Sie mit Hilfe der empirische Verteilungsfunktion Fn ( x ) und
Tabelle 1.7 folgende Frage:
Wie viele Telefonate haben eine Dauer von mehr als 140 bis 170 Sek.?
In der Regel werden bei großen Stichprobenanzahlen n die einzelnen Daten xi, i=1,...,n, nicht
gespeichert, sondern nur die Klassenhäufigkeitstabelle 'aufgehoben'.
©Prof. Dr. rer. nat. B. Grabowski
20
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Dadurch gehen Informationen verloren. Es sind nicht mehr die genauen Werte der
Beobachtungsdaten xi bekannt, sondern nur noch, wie viele von ihnen in einer Klasse Ki
liegen. Damit ist auch nicht mehr bekannt, wie viele Beobachtungsdaten in einem
beliebigen Intervall (a,b] liegen.
Um diese Anzahl aus der Klassen-Häufigkeitstabelle abzuschätzen, wird eine
Modellannahme getroffen:
' Die Beobachtungen xi sind in jeder Klasse gleichmäßig verteilt'.
Unter dieser Annahme approximieren wir die empirische Verteilungsfunktion Fn ( x ) durch die
~
~
sogenannten Klassensummenhäufigkeitsfunktion Fn ( x) . Mit Hilfe dieser Funktion Fn ( x)
kann man die Anteile (und damit Anzahl) der ursprünglichen Stichprobendaten, die in einem
Intervall (a,b] liegen, oder ≤ a bzw. >b sind, abschätzen, siehe Abbildungen 1.11, 1.12.
Def.: Summenhäufigkeitsfunktion für klassifizierte Daten
(Klassensummenhäufigkeitsfunktion):
0
~

Fn ( x) = h(i − 1) + b

1
x < a 1u
x ∈ Ki
x > a ok
b = ( x − aiu )hn* ( K i )
=
(x - a iu )
h n (K i )
∆K i
Es gilt: x ∈ K i ⇔ h(i − 1) < x ≤ h(i)
Diese Funktion gibt eine Abschätzung für den Anteil der Beobachtungswerte xj an der
Stichprobe an, die den Wert x nicht überschreiten (xj ≤ x), siehe Abb. 1.11 .
hn* (K i )
~
Fn(x)
b
a1u
x
a ko
Abb. 1.11
©Prof. Dr. rer. nat. B. Grabowski
21
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
h n* (K i )
~
~
hn([a,b]) = Fn(b) - Fn(a)
= Anteil der Beobachtungen
x1,...,xn, die in das Intervall
(a,b] fallen
a
b
Abb 1.12
~
Beantworten Sie mit Hilfe der Klassensummenhäufigkeitsfunktion Fn ( x) und
Tabelle 1.12 folgende Frage:
Wieviele Gespräche haben eine Dauer von mehr als 140 bis zu 170 Sek.?
Lösung:
~
~
Die Anzahl ist: 40⋅ ( Fn (170) − Fn (140)) .
Dabei sind:
38 2  170 − 168,5 
11 13  140 − 138,5 
~
~
Fn (170) =
+
⋅
+ 
 = 0,9575 und Fn (140) =
 =0,32375
40 40 
10
40 40 
10


~
~
Wir erhalten als Ergebnis: 40⋅ ( Fn (170) − Fn (140)) = 40(0,9575-0,32375) = 25,35 ≈ 25
Gespräche.
Bemerkung:
Die Berechnung der Anzahl der Telefonate, deren Dauer >140 und ≤ 170 Sek., ist
keineswegs eindeutig. In Anbetracht der Tatsache, dass die Gesprächsdauern ganzzahlig
sind, könnten wir z.B. die Anzahl aller Gespräche, deren Dauer größer als 140 und kleiner
~
~
oder gleich 170 Sek. ist auch wie folgt berechnen: 40⋅ ( Fn (170,5) − Fn (140,5)) .
Wollen wir die Anzahl aller Gespräche berechnen, deren Dauer ≥140mm und ≤ 170 Sek.ist,
~
~
~
~
so könnten wir berechnen: 40⋅ ( Fn (170,5) − Fn (139,5)) oder 40⋅ ( Fn (170) − Fn (139,5)) .
Die unterschiedlichen Formeln führen zu unterschiedlichen Ergebnissen, aber der
Unterschied ist minimal.
~
D.h., die Verwendung der Klassensummenhäufigkeitsfunktion Fn ( x) führt zu einer
relativ groben Abschätzung er gesuchten Anteile und Anzahlen, die keineswegs eindeutig
sind. Man könnte z.B. genauso statt 140 jede andere Zahl aus [140,141) als untere Grenze
des in der obigen Bleistift-Aufgabe betrachteten Intervalls (140,170] Sek. wählen und statt
170 z.B. jede andere Zahl aus dem Intervall [170, 171). Weiterhin kann man statt der
Klasseneinteilung, die in Tabelle 1.12 in der linken Spalte steht, eine der beiden äquivalenten
©Prof. Dr. rer. nat. B. Grabowski
22
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Klasseneinteilungen für die Berechnung der Klassensummenhäufigkeitsfunktion zugrunde
legen. Die Unterschiede in den jeweiligen Ergebnissen werden um so geringer ausfallen, je
größer der Stichprobenumfang n ist.
Beantworten Sie unter Verwendung der Klasseneinteilung Tabelle 1.12
folgende Fragen zu den 40 Telefonaten!
- Wie viele Telefonate haben eine Dauer bis zu 150 Sek.?
− Wie viele Telefonate haben eine Länge > 130 bis zu 160 Sek.?
Verwenden Sie verschiedene Methoden und vergleichen Sie Ihre Ergebnisse
untereinander und mit den exakten Ergebnissen, die aus der Stichprobe
erhalten werden.
~
Die Klassensummenhäufigkeitsfunktion Fn ( x) lässt sich bequem grafisch darstellen. Dazu
werden die relativen Klassensummenhäufigkeiten h(i) an den oberen Klassengrenzen
abgetragen. Die untere Grenze der 1. Klasse bekommt den Wert 0. Anschließend werden
die Werte durch Geraden miteinander verbunden.
~
Abbildung 1.13 zeigt die Klassensummenhäufigkeitsfunktion Fn ( x) für das Beispiel der 40
Telefonate.
1,2
0,96
1
0,8
0,6
0,4
0,2
0
118,5
Abb. 1.13:
138,5
158,5
170 178,5
Klassensummenhäufigkeitsfunktion der Dauer der 40 Telefonate.
Interessiert etwa der Anteil der Gespräche, deren Dauer höchstens 170 Sek. beträgt, so
findet man mit Hilfe der Summenhäufigkeitsfunktionen diesen gesuchten Anteil zu 0,96.
©Prof. Dr. rer. nat. B. Grabowski
23
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Abschließendes Beispiel:
Es soll die Verteilung des Bruttomonatsverdienstes der Beschäftigten in einer Firma
untersucht werden. Dazu werden 250 Beschäftigte befragt.
In Tabelle 1.13 sind die zugehörige Klasseneinteilung der Bruttomonatsverdienste und die
Klassenhäufigkeit tabellarisch und grafisch dargestellt.
Klasse
Nr. i
Bruttomonatsverdienst in
EURO
1
2
3
4
5
6
7
8
9
10
∑
Beschäftigte
Anzahl
Hn(Ki)
6
13
22
32
40
42
39
31
20
5
250
500 bis 800
über 800 bis 1100
über 1100 bis 1400
über 1400 bis 1700
über 1700 bis 2000
über 2000 bis 2300
über 2300 bis 2600
über 2600 bis 2900
über 2900 bis 3200
über 3200 bis 3500
Anteil
hn(Ki)
0,024
0,052
0,088
0,128
0,160
0,168
0,156
0,124
0,080
0,020
1,000
Summenhäufigkeiten
Beschäftigte
Kumulierte
Kumulierter
Anzahl H(i)
Anteil h(i)
6
0,024
19
0,076
41
0,164
73
0,292
113
0,452
155
0,620
194
0,776
225
0,900
245
0,980
250
1,000
Tabelle 1.13 Klassenhäufigkeitstabelle
Hn(Ki)
Anzahl der
50
Beschäftigte
n
40
hn(Ki)
Anteil der
0,20
Beschäftigt
0,15
Abb. 1.14: Histogramm mit Klassen
konstanter Breite sowie das
entsprechende Häufigkeitspolygon
(gestrichelter Linienzug)
30
0,10
20
10
0,05
5 bis 8 bis
8
11
hn (K i )
= hn* (K i )
300
11
bis
14
14
bis
17
17
bis
20
20
bis
23
23
bis
26
26
bis
29
29
bis
32
32
bis
35
Bruttoverdienst in 100 EURO
0,0007
0,0005
Abb. 1.15: Histogramm der
relativen Häufigkeitsdichte
0,0003
0,0001
4
5 bis 8 bis
8
11
11
bis
14
14
bis
17
©Prof. Dr. rer. nat. B. Grabowski
17
bis
20
20
bis
23
23
bis
26
26
bis
29
29
bis
32
24
32
bis
35
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
1,2
1
0,8
0,6
0,4
0,2
0
5
11
17
19
23
29
35
Abb. 116 Bruttomonatsverdienst in 100 EURO
a) Wieviele Beschäftigte haben einen Bruttoverdienst von bis zu 2000
EURO? (113 bzw. 45,2%)
b) Wieviele Beschäftigte haben einen Bruttoverdienst von mehr als 2000 und
≤ 2600 EURO? (194 - 113 = 81 bzw. 77,6 - 45,2% = 32,4%)
c) Wieviele Beschäftigte haben einen Bruttolohn von höchstens 1900 EURO?
(siehe Abb. 116 oder:
~
 1900 − 1700 
Fn (1900) = 0,292 + 0,16 ⋅ 
 = 0,4 )
300


d) Wie groß ist der Anteil der Empfänger, die einen Bruttolohn von mehr als
1700 und ≤ 1900 EURO bekommen:
~
~
( Fn (1900) − Fn (1700) = 0,4 − 0,292 = 0,108 ⇒ 10,8% oder ca. 27 Beschäftigte)
e) Wieviel
% der Beschäftigten haben einen Bruttoverdienst bis 1100 DM?
~
Fn (1100) ⋅ 100% = 0,076 ⋅ 100% = 7,6%
©Prof. Dr. rer. nat. B. Grabowski
25
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
1.5 Übungsaufgaben 1. Sind folgende Merkmale diskret oder stetig?
a) Die durch eine wahlberechtigte Person der BRD gewählte Partei bei der
Bundestagswahl.
b) Kraftstoffverbrauch eines Personenkraftwagens auf 100 km.
c) Zahl der pro Stunde in einer Empfängerstation eintreffenden Signale.
e) Lebensdauer einer bestimmten Leuchtstoffröhrenart.
f) Plazierung beim 100-Meter-Lauf (von Studenten der HTW)
Geben Sie jeweils das Merkmal, die Objektmenge und den Wertebereich des Merkmals
an. Welche Art Skalierung liegt hier vor?
2. An einem Bankschalter werden die Kundenankünfte (Anzahl der pro 10-Minuten-
Zeitintervall ankommenden Kunden) beobachtet. Für 40 derartige Zeitintervalle erhält man
folgende Ergebnisse:
0,
1,
2,
1,
0,
2,
0,
4,
1,
3,
1,
2,
3,
0,
1,
3,
4,
2,
6,
2,
1,
0,
1,
0,
2,
1,
0,
3,
2,
3,
2,
0,
1,
1,
3,
1,
1,
2,
1,
2,
Ermitteln Sie absolute und relative Häufigkeiten der Kundenankünfte und stellen Sie
Häufigkeitsverteilung und Summenhäufigkeitsfunktion grafisch dar!
3. 1000 Festplatten eines bestimmten Typs weisen folgende Lebensdauerverteilung auf:
Lebensdauer in
Anzahl der
Jahren
Festplatten
bis 2
33
über 2 bis 4
276
über 4 bis 6
404
über 6 bis 8
237
über 8 bis 10
50
Tab.: Lebensdauerverteilung
Stellen Sie diese Häufigkeitsverteilung als Histogramm und die dazugehörende
Summenhäufigkeitsfunktion grafisch dar und bestimmen Sie den Anteil der Festplatten mit
einer Lebensdauer von mehr als 5 Jahren!
4. Werten Sie nachstehende Urliste aus!
Stellen Sie die absoluten, relativen Klassenhäufigkeiten, sowie die relativen (Klassen-)
Summenhäufigkeiten tabellarisch und grafisch (Histogramm, Summenhäufigkeitsfunktion)
dar!
©Prof. Dr. rer. nat. B. Grabowski
26
HTW des Saarlandes (10/2011)
Deskriptive Statistik-Grundbegriffe
Tab.: Zeit zwischen dem Eintreffen
zweier Signale in einer
Empfängerstation in Sekunden
i
xi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
375,3
392,5
467,9
503,1
591,2
657,8
738,5
749,6
752,0
765,8
772,5
799,4
799,6
803,9
808,7
810,5
812,1
848,6
867,0
904,3
918,3
935,4
951,1
964,9
968,8
1006,5
1014,7
1189,0
1215,6
1407,2
5. Bestimmen Sie zu Aufgabe 4 jeweils
A) unter Verwendung der 30 Stichprobendaten und
B) unter Verwendung der Klasseneinteilung
a)
b)
c)
d)
den Anteil der Zeiten, die mehr als 400 und ≤ 600 Sek. betragen!
Wie viele (Anzahl) Zeiten sind > 600 Sek.?
Wie hoch ist der Anteil der Zeiten, die 400 Sek. nicht überschreiten?
Welcher Wer wird von 20 % der beobachteten Zwischenzeiten überschritten?
©Prof. Dr. rer. nat. B. Grabowski
27
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2 Stichprobenkennwerte
Häufigkeitsverteilungen stellen eine Zusammenfassung („Verdichtung“) der Urdatenliste dar.
Häufig ist man jedoch noch daran interessiert, diese Häufigkeitsverteilungen in noch
knapperer Form zu charakterisieren.
Dies ist durch die Berechnung statistischer Maßzahlen möglich.
Diese Maßzahlen charakterisieren in knapper Form die Gestalt der Häufigkeitsverteilungen.
Wir unterscheiden zwischen Lagemaßen (Maßzahlen, welche die Lage auf der x-Achse
beschreiben) und Streuungsmaßen (Maßzahlen, welche die Variabilität der Daten
beschreiben).
~
x 0,5 sei der Wert, der die Stichprobe (Wertemenge) teilt: d.h. 50 % der Daten liegen links
und 50 % liegen rechts von ~
x . Dann ist ~
x ein Lageparameter.
0 ,5
0 ,5
x 0,5 − x min und x max − ~
x 0,5 sagen etwas über die Streuung um ~
x 0,5 aus.
Die Abstände: ~
Wir erkennen daran, daß z.B. die Verteilung rechtsschief sein muß, falls
~
x 0,5 − x min < x max − ~
x 0,5 gilt.
Diese Abstände sind Streuungsparameter!
hn (Ki )
∆Ki
0,5 – Flächeninhalt
X
~x
0 ,5
xmin
xmax
Abb. 2.1
2.1 Lageparameter (Mittelwert, Median, Quantile, Modelwert):
2.1.1 Das arithmetische Mittel
Sei X ein zufälliges Merkmal und sei x1,...,xn eine Stichprobe von X vom Umfang n.
Def.: Unter dem arithmetischen Mittelwert der Stichprobe verstehen wir den
1 n
durchschnittlichen Stichprobenwert x =
xi .
n i =1
∑
©Prof. Dr. rer. nat. B. Grabowski
28
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Beispiel: Legt ein Angestellter den Weg zwischen Wohnung und Arbeitsstätte an 5 Tagen in
12, 10, 16, 12 und 17 Minuten zurück, dann beträgt die durchschnittliche Zeit, die
er für den Weg benötigt:
x=
(12 + 10 + 16 + 12 + 17)
= 13,4 Minuten
5
Nachteile des arithmetischen Mittels:
Das arithmetische Mittel ist nicht immer das aussagekräftigste Mittel.
Betrachtet man zum Beispiel eine Gruppe von 10 Personen, von denen 9 ein
Jahreseinkommen von je 40000 Euro und eine ein Jahreseinkommen von 400000 Euro
bezieht, so ist das arithmetische Mittel
x = 9 ⋅ 40000 + 1 ⋅ 400000 = 76000 EURO
zur Charakterisierung dieser Personengruppe wenig sinnvoll.
Gibt es also sogenannte „Ausreißer“, d.h. Werte, die weit weg vom Zentrum der Verteilung
entfernt liegen oder hat die Verteilung kein eindeutiges Zentrum (z.B. ein Gipfel), so ist das
arithmetische Mittel wenig aussagekräftig.
Passender ist der im folgenden Abschnitt definierte Median.
2.1.2 Der Median
Der Median (Zentralwert) x0,5 ist grob gesagt der Wert einer Beobachtungsreihe, der in der
der Größe nach geordneten Beobachtungsreihe in der Mitte steht.
Damit man die Stichprobe ordnen kann, muss das Merkmal mindestens ordinal skaliert sein!
Sei x1,...,xn die Stichprobe und ihre der Größe nach geordnete Reihenfolge sei
x[1] < x[2] < ... < x[n].
Für den Median einer Stichprobe gibt es verschiedene exakte Definitionen. Wir geben hier 2
an:
Die erste Definition legt die empirische Verteilungsfunktion Fn(x), die den Anteil aller
Beobachtungsdaten angibt, die ≤ x sind.
Def.1: Der Median x einer Stichprobe ist der kleinste Wert der Stichprobe, für den gilt:
Fn(x) ≥ 0,5. Er wird als x0,5 bezeichnet.
In folgender Grafik ist das für die angegebene bereits geordnete Stichprobe veranschaulicht.
Die empirische Verteilungsfunktion ist eine Treppenfunktion, die Zahl auf der linken Seite der
Treppenstufe gehört zur Stufe dazu, die auf der rechten Seite einer Stufe gehört zur
nächsten Stufe.
Der Median ist der Wert, der zu der Sprungstelle gehört, durch den die Gerade y = 0,5 geht.
In unserem Beispiel ist das x0,5 = 2. Liegt diese Gerade auf einer Treppenstufe, so ist der
Median der x-Wert der zur linken Seite der Stufe gehört.
©Prof. Dr. rer. nat. B. Grabowski
29
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Median: x0,5 = 2
Die zweite Variante der Median-Definition ist die Folgende:
Def.2: Der Median der Stichprobe ist definiert durch:
x 0, 5
 x  n +1 
  2 

=  x n + x n+2
 


 2 
  2 



2

für n ungerade
für n gerade
Diese Variante werden wir im Folgenden für unsere Beispiele und Übungsaufgaben
verwenden.
Für das Beispiel in der obigen Grafik: 0,1,1,1,2,2,3,4,4,5 ergibt sich x0 ,5 =
x[5] + x[ 6 ]
2
= 2.
Für das oben angeführte Beispiel eines Angestellten, der an 5 Tagen die von seiner
Wohnung zur Arbeitbenötigte Zeit festhält, ergibt sich die geordnete Beobachtungsreihe 10
12 12 16 17 und folglich der Median
x0,5 = x[3] = 12 Minuten .
Vorteil des Medians: Er ist relativ unempfindlich gegenüber Ausreißern.
Berechnen Sie den Median des Einkommens einer Gruppe von 10 Personen,
von denen 9 ein Jahreseinkommen von je 40000 Euro und eine ein
Jahreseinkommen von 400000 Euro bezieht!
Was bedeutet der errechnete Wert?
©Prof. Dr. rer. nat. B. Grabowski
30
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.1.3 Das α - Quantil einer Beobachtungsreihe
Unter dem α-Quantil einer Beobachtungsreihe x1,...,xn versteht man grob gesagt den Wert
xα , (0 < α < 1) , den α ⋅100% der (bzw. n ⋅ α ) Beobachtungswerte nicht überschreiten.
Sei x[1] < x[2] < ... < x[n] die geordnete Stichprobe.
In Analogie zur Definition des Medians gibt es auch hier verschiedene Definitionen. Wir
geben 2 davon an: Die erste Variante verwendet wieder die empirische Verteilungsfunktion
Fn(x), die den Anteil aller Beobachtungsdaten angibt, die ≤ x sind:
Def.1: Das α-Quantil einer Stichprobe ist der kleinste Wert x der Stichprobe, für den gilt:
Fn(x) ≥ α. Er wird als xα bezeichnet.
Berechnen Sie das 0.75-Quantil der Stichprobe 0,1,1,1,2,2,3,4,4,5!
Skizzieren Sie das Quantil in der Grafik für die empirische Verteilungsfunktion auf
der vorigen Seite!
Die 2. Definition entspricht der 2. Definition für den Median. Diese Definition werden wir im
Folgenden für alle Beispiele und Übungsaufgaben zugrunde legen.
Def.2 : Der Wert
 ( x[ k ] + x[ k +1] )
falls k = n ⋅ α eine ganze Zahl ist

xα = 
2
x [k]
falls n ⋅ α keine ganze Zahl ist und k die auf n ⋅ α folgende Zahl ist

heißt α-Quantil der Beobachtungsreihe x1,...,xn.
Der Median ist damit ein spezielles, nämlich genau das 0,5-Quantil der Beobachtungsreihe.
Wir bezeichnen das
0,25-Quantil als unteres Quartil.
0,75- Quantil als oberes Quartil.
0,1- 0,2- 0,3- ....0,9-Quantil als Dezentile.
Berechnen Sie den Median des Einkommens einer Gruppe von 10 Personen,
von denen 9 ein Jahreseinkommen von je 40000 Euro und eine ein
Jahreseinkommen von 400000 Euro bezieht!
Was bedeutet der errechnete Wert?
2.1.4 Der Modalwert
Bei bestimmten Daten wie der Geschlechtszugehörigkeit, Beruf etc. kann man keinen
Mittelwert, Median usw. bilden, da die Daten nur nominal skaliert sind.
Ein Lagemaß, das auch für solche Merkmale definiert ist, ist der „Modus“ oder Modalwert.
©Prof. Dr. rer. nat. B. Grabowski
31
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Def.: Der Modalwert xmod ist der häufigste Wert einer Verteilung.
Ist X diskret mit X = {a 1 , a 2 ,...} so gilt
hn(xmod) ≥ hn(aj) für alle Merkmalsausprägungen a1,...,ak.
Bei gruppierten Daten ist der Modalwert die Klassenmitte der am dichtesten besetzen
Klasse; wir schreiben in diesem Fall auch xmod' statt xmod .
Bemerkung: In manchen Fällen erfüllen mehrere Ausprägungen diese
Bedingung, d.h. der Modalwert ist nicht eindeutig.
Geben Sie den Modalwert folgender Stichprobe an: 12, 10, 16, 12 und 17
2.1.5 Bemerkungen zu den Lagemaßzahlen
Bei mehrgipfligen und insbesondere u-förmigen Verteilungen sind im Gegensatz zu
eingipfligen Verteilungen die Lagemaße oft nicht charakteristisch für die
Häufigkeitsverteilung:
Beispiel: Die Lebensdauer der Menschen im Mittelalter entsprach einer u-förmigen
Häufigkeitsverteilung:
hn
B
t
25 Jahre
Abb. 2.2
Die Säuglingssterblichkeit war sehr hoch, aber danach hatte man gute Chancen, ein recht
hohes Alter zu erreichen. Die Aussage: „Im Mittelalter wurden die Menschen im Durchschnitt
25 Jahre alt“ impliziert eine falsche Vorstellung von der damaligen Lebenserwartung.
Die Lagemaße dienen insbesondere zur näheren Charakterisierung eingipfliger Verteilungen
Seien x - das arithmetische Mittel , x0,5 - der Median , x mod - der Modalwert .
Def.: Eine Häufigkeitsverteilung heißt
rechtsschief oder linksschief, falls
x > x0,5 > x mod
linksschief oder rechtssteil, falls
x < x0,5 < x mod
symmetrisch, falls
x = x0,5 = x mod
©Prof. Dr. rer. nat. B. Grabowski
32
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
rechtsschief
xmod ~
x
0 ,5
linksschief
x
~x
x
0 ,5
symmetrisch
xmod
x
Abb. 2.3
2.2 Streuungsmaße
Lagemaße geben i.a. wenig Auskunft über die Gesamtstruktur einer Häufigkeitsverteilung.
Sie beschreiben nur das „Zentrum“ einer Verteilung, geben aber keine Auskunft darüber,
wieweit ein konkreter Merkmalswert von einem solchen Zentrum abweichen kann.
starke Streuung
geringe Streuung
x
x
X
X
Abb. 2.4
Maße, die die Abweichung von einem Zentrum einer Häufigkeitsverteilung beschreiben,
heißen Streuungsmaße oder Dispersionsmaße.
Die gemeinsame Angabe von „Lage- und Streuungsmaßen“ ergeben eine recht präzise
Vorstellung von der gesamten Verteilung.
2.2.1 Spannweite (Range)
Seien x1,...,xn eine Stichprobe, xmin der kleinste und xmax der größte Wert der Stichprobe.
R := xmax - xmin
Es ist nur sinnvoll, die Spannweiten verschiedener Beobachtungsreihen zu vergleichen,
wenn sie gleichen Stichprobenumfang besitzen!
Die Spannweite ist kein sehr gutes Streuungsmaß, denn es gehen nur zwei Werte der
Verteilung ein.
⇒ Sie ist sehr empfindlich gegenüber Ausreißern!
©Prof. Dr. rer. nat. B. Grabowski
33
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.2.2 Quartilabstand, Zentilabstand
S Q = x0, 75 − x0, 25 heißt Quartilabstand der Stichprobe.
SQ ist nicht so empfindlich gegenüber Ausreißern.
SQ gibt den Bereich an, in dem etwa die Hälfte (50 %) aller Beobachtungen liegen.
S Q10 = x 20 − x10 , S Q10 = x30 − x 20 , S Q10 = x 40 − x30 ,.... heißen Zentilabstände.
Die Zentilabstände geben jeweils den Bereich der Stichprobe an, in denen jeweils 10% der
Stichprobendaten liegen.
2.2.3 Boxplots
Oft charakterisiert man eine Stichprobe bzw. eine Häufigkeitsverteilung vereinfacht durch
einen sogenannten Boxplot. Dazu werden der kleinste Wert xmin und der größte Wert xmax
der Stichprobe, sowie die Quartile und der Median auf der reellen Zahlengeraden
abgetragen, siehe Abb. 2.8.
Abb. 2.5
In jedem der entstehenden 4 Abschnitte liegen jeweils 25% der Daten. Die Abstände der 5
Werte ergeben einen Eindruck von Lage, Schiefe bzw. Symmetrie und Streuung der
Verteilung.
Folgende Abbildung zeigt die Gestalt eines Boxplots bei einer nahezu symmetrischen
Verteilung (Histogramm). In diesem Fall spiegeln sich die Abstände symmetrisch um den
Median x0.5.
©Prof. Dr. rer. nat. B. Grabowski
34
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
h *n ( K i )
Histogramm
X
zugehöriger Boxplot
x0,5
xmin
xmax
x0,25
x 0 , 75
(Die Breite des Kästchens hat keine Bedeutung!)
Abb. 2.6
Skizzieren Sie die Gestalt des Boxplots bei links- und rechtssteilen
Histogrammen!
Man verwendet Box-Plots auch zum 'schnellen' Vergleich mehrerer Häufigkeitsverteilungen,
siehe Abbildung 2.7.
Leben sdauer
x m ax
x m ax
~x
0 , 25
~x
05
~
x 0 , 25
~x
0 , 75
x m ax
x min
~x
05
~
x 05
~
x 0 , 75
x m in
x min
T yp 1
Typ 2
T yp 3
Abb. 2.7 Lebensdauerverteilungen verschiedener Festplattentypen im Vergleich
Interpretieren Sie die Abbildung 2.7, d.h. vergleichen Sie die 3
Festplattentypen miteinander!
©Prof. Dr. rer. nat. B. Grabowski
35
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.2.4 Streuung
Die Streuung ist eine Maßzahl für die Variabilität, die Daten auf metrischem Niveau
voraussetzt. Sie nimmt Bezug auf den Mittelwert.
Die Streuung ist der „mittlere“ quadratische Abstand der Daten von ihrem Mittelwert:
Def.: s2 =
1
n −1
n
∑
( x i − x) 2 =
i =1

1  n 2
 xi − n ⋅ x 2 
n − 1  i =1

∑
heißt Streuung (Stichprobenvarianz) der Stichprobe x1,...,xn.
Bemerkungen:
1. In s2 geht der quadratischen Abstand ein. Dadurch werden größere Abstände stärker
bewichtet, als kleinere.
2. Die Begründung dafür, dass in der Formel für s2 durch (n-1) und nicht durch n
dividiert wird, liefert die schließende Statistik (siehe Kapitel III). Man kann zeigen, dass der
Schluss von der Stichprobe auf die Grundgesamtheit bei obiger Formel ‚besser’ (im Sinne
eines wohldefinierten Gütekriteriums) ist, als wenn man 1/n statt 1/(n-1) verwendet.
2.2.5 Standardabweichung
Def.:
s = s2 – Standardabweichung.
Die Standardabweichung ist eines der gebräuchlichsten statistischen Streuungsmaße. Sie ist
die Wurzel aus der Streuung. Sie hat die gleiche Dimension wie der Mittelwert.
Bemerkung:
Mit Hilfe des arithmetischen Mittels x und der Standardabweichung s einer Stichprobe
lässt sich für Zufallsgrößen X, deren Verteilung der Beobachtungen (Realisierungen) von X
in der Grundgesamtheit eine bestimmte Form hat, der Bereich abschätzen, in dem
sämtliche Beobachtungen von X liegen.
Sind die Beobachtungen von X zum Beispiel alle gleichhäufig und begrenzt auf endliches
Intervall (wir sprechen von einer Gleichverteilung), so sind die Intervallgrenzen gerade durch
x ± s 3 abschätzbar.
Sind die Beobachtungen von X alle symmetrisch und nicht gleichmäßig um ein Mittelwert
verteilt (wir sprechen von einer Normal- bzw. Gaußverteilung), so ist der Wertebereich von X
durch x ± 3s abschätzbar.
Die Begründung für diese Sachverhalte liefert die Wahrscheinlichkeitsrechnung (siehe
Kapitel II).
©Prof. Dr. rer. nat. B. Grabowski
36
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.2.6 Der Variationskoeffizient
Die Streuung und Standardabweichung benutzen wir als Bezugspunkt des arithmetischen
Mittels und messen die mittlere Abweichung vom Mittelwert.
Für einen Mittelwert x = 10000 ist die Standardabweichung s = 10 eine geringe Abweichung,
für einen Mittelwert x = 1 stellt s = 10 eine große Abweichung dar.
Um die Größe der Standardabweichung relativ zum Mittelwert beurteilen zu können,
verwendet man den Variationskoeffizienten:
Def.: v =
s
x
– Variationskoeffizient
v ist ein vom Mittelwert bereinigtes Streuungsmaß. v eignet sich besonders zum Vergleich
der Streuungen verschiedener Meßreihen.
Für unsere beiden Beispiele oben erhalten wir:
10
10
v1 =
= 0,001 und v 2 =
= 10 .
10000
1
2.2.7 Eigenschaften des arithmetischen Mittels und der Stichprobenstreuung - Hinweise zur
praktischen Berechnung
Es gelten folgende Aussagen:
1. Die Summe der Abweichungen einer Menge von Zahlen von ihrem arithmetischen Mittel
ist gleich Null:
n
∑ (x
j
− x) = 0
j =1
2. Die Summe der quadratischen Abweichungen der Zahlen von ihrem arithmetischen Mittel
ist kleiner als die Summe der quadratischen Abweichungen von einer beliebigen anderen
Zahl:
n
∑(
xj − x
j =1
n
) ∑ (x
2
≤
j
−a
)
2
für alle a ∈ R
j=1
3. Werden die Einzelwerte einer lineare Transformation unterzogen:
x *j = a ⋅ x j + b ,
so unterliegt der Mittelwert der gleichen Transformation:
1 n *
es gilt:
x* =
xj = a⋅x + b.
n j=1
∑
Für die Streuung s*2 der transformierten Daten erhält man:
©Prof. Dr. rer. nat. B. Grabowski
37
s *2 = a 2 ⋅ s 2 .
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Beispiel:
Eine Autovermietung berechnet für ihre Wagen eine feste Tagesgebühr von
b = 40 EURO und einen Kilometersatz von a= 0,40EURO/km. Ferner sei
bekannt, dass die Wagen täglich im Durchschnitt x = 250 km zurücklegen bei
einer Standardabweichung von s = 5 km. Die durchschnittlichen täglichen
Einnahmen pro Wagen ergeben sich dann als
x * = a ⋅ x + b = 0,40 ⋅ 250 + 40 = 140 EURO
bei einer Standardabweichung von s*=a⋅s =0,40 ⋅5=2 EURO.
4. Standardisierung: Die lineareTransformation x *i =
xi − x
nennen wir Standardisierung.
s
2
Es gilt: x * = 0 und s* = 1 .
Zur Berechnung von x und s:
5. Es berechnet sich leichter
1  n 2
2
 xi − n ⋅ x 
n − 1  i =1

∑
s=
6. Hat man schon Werte x und s für x1,...,xn ermittelt und kommt noch ein Wert x n +1 hinzu,
so sind folgende Formeln nützlich:
x n +1 =
1
( x n+1 + n ⋅ x)
n +1
s n +1 =
( n + 1)( x n+1 − x)
(1)
2
+
n −1 2
⋅s
n
(2)
7. Hat man für zwei Stichproben vom Umfang n1 und n2 Mittelwerte x1 , x 2 und Streuungen
s12 , s 2 2 gegeben, so berechnen sich der Mittelwert und die Streuung der gemeinsamen
Stichprobe vom Umfang n = n 1 + n 2 gemäß:
x=
(n
1
⋅ x1 + n 2 ⋅ x 2 )
(n
1
(n1 − 1) ⋅ s1 + (n 2 − 1) ⋅ s 2
n (x − x ) + n2 (x2 − x )
+ 1 1
n1 + n 2 − 1
n1 + n 2 − 1
2
s2 =
(3)
+ n2 )
©Prof. Dr. rer. nat. B. Grabowski
2
2
38
2
(4)
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Beispiel.: Ein Unternehmen stellt in zwei Betriebsteilen Reifen gleicher Sorte her. Es ist die
durchschnittliche Lebensdauer von 100 Reifen zu bestimmen, wobei 20 im ersten und 80
im zweiten Betriebsteil untersucht werden. Für die beiden Betriebsteile ergab sich:
x1 = 4 Jahre bzw. x 2 = 5 Jahre und s12 = 0.01 und s22 = 0.04.
Die mittlere Lebensdauer der Gesamt-Stichprobe von 100 Reifen beträgt dann:
x=
(4 ⋅ 20 + 5 ⋅ 80) = 4,8 Jahre .
100
Berechnen Sie die Streuung für das Beispiel!
a) Beweisen Sie die Formeln (3) und (4) !
b) Zeigen Sie, dass (1) aus (3) und (2) aus (4) folgt!
2.3 Maßzahlen für klassifizierte Daten
Alle o.g. Maßzahlen kann man nur berechnen, wenn die Stichprobendaten x1,...,xn bekannt
sind. Bei stetigen Zufallsgrößen liegt häufig nur noch die Klassenhäufigkeitstabelle vor, aber
nicht aber die Stichprobe. In diesem Fall werden die o.g. statistischen Maßzahlen aus der
Klassenhäufigkeitstabelle geschätzt (= näherungsweise bestimmt). Wie das geschieht, wird
im folgenden beschrieben.
2.3.1 Das arithmetische Mittel
Besitzen Beobachtungswerte den gleichen numerischen Wert ai, so empfiehlt es sich, sie bei
der Mittelwertbildung zusammenzufassen. Ist X ein diskretes Merkmal und X = {a 1 ,..., a k } ,
so gilt offenbar:
x=
1
n
n
∑
i =1
xi =
1
n
k
∑
k
a i H n (a i ) =
i =1
∑a h
i
n (a i )
i =1
Ist X ein stetiges Merkmal und liegen die Daten in klassifizierter Form und als Urliste vor, so
gilt offenbar:
1 n
1 k
x=
xj =
xi H n (K i ) .
n j=1
n i =1
∑
∑
Dabei ist xi der Mittelwert der Klasse i:
xi =
1
xj .
H n ( K i ) x j ∈K i
∑
Liegt die Urliste nicht mehr vor, sondern nur noch die Klasseneinteilung, so verwendet man
©Prof. Dr. rer. nat. B. Grabowski
39
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
in der o.g. Formel anstelle der Klassenmittelwerte die Klassenmitten x ′i als Approximation
und erhält als Approximation für das arithmetische Mittel:
x′ =
1 k
∑ xi′ ⋅ H n ( K i )
n i =1
Approximation des arithmetischen Mittels aus der Klassenhäufigkeitstabelle.
Beispiel :
Wie groß ist die mittlere Lebensdauer von 1000 Mainboards, deren
Lebensdauerverteilung durch folgende Tabelle gegeben ist:
i
Ki
x ′i
1
2
3
4
5
bis 2 Jahre
1
(2-4] Jahre
3
(4-6] Jahre
5
(6-8] Jahre
7
(8-10] Jahre
9
Tab. 2.1
(33 + 276 ⋅ 3 + 404 ⋅ 5 + 237 ⋅ 7 + 50 ⋅ 9)
Lösung:
x′ =
= 4,99 Jahre
1000
Die mittlere Lebensdauer beträgt etwa 5 Jahre.
Hn(Ki)
33
276
404
237
50
2.3.2 Die Streuung
Ist X diskret mit X = {a 1 ,..., a k } so gilt:
s2 =
1 k
(ai − x ) 2 ⋅ H n (ai )
∑
n − 1 i =1
Betrachten wir nun klassifizierte Daten. Falls für jede Klasse Ki der Mittelwert xi aller
Daten, die in Klasse Kj fallen, bekannt wäre, so könnte man als Approximation von s2 die
Größe:
s 02 =
1 k
( xi − x ) 2 ⋅ H n ( K i )
∑
n − 1 i =1
verwenden.
Sind die Klassenmittelwerte nicht bekannt, so ersetzt man sie durch die
Klassenmitten a i ′ =
aiu + a i0
und x wird durch die Approximation x ′ für
2
Klassenhäufigkeitstabellen ersetzt. Man erhält dann die folgende Approximation für die
Streuung:
s*2 =
1 k '
(a i − x ′) 2 ⋅ H n ( K i )
∑
n − 1 i =1
©Prof. Dr. rer. nat. B. Grabowski
40
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Untersuchungen haben folgendes gezeigt: Ist die Klassenzahl k klein im Vergleich zum
Stichprobenumfang n, so wird die Streuung s2 durch s*2 überschätzt!
Es wird deshalb anstelle von s*2 häufig die sogenannte Sheppardsche Korrekturformel
verwendet:
Sheppardsche Korrekturformel:
Haben alle Klassen die gleiche Klassenbreite B, so lässt sich der Wert s*2 korrigieren:
2
s**
= s*2 −
1
B2
, wobei s*2 =
12
n −1
k
∑ (a
'
i
− x ′) 2 ⋅ H n ( K i )
i =1
Bemerkung:
Bei Verwendung klassifizierter Daten berechnet sich s*2 leichter wie folgt:
s*2 =
k
1
⋅ [∑ (a i' ) 2 H n ( K i ) − nx ' 2 ]
n − 1 i =1
Beispiel: Wie groß sind die mittlere Dauer (in sek) und die Streuung von 30 Telefonaten?
Klasse
Kj
[60, 70)
[70, 80)
[80, 90)
[90, 100)
[100, 110)
Hn(Kj)
a i'
6
7
6
6
5
500
750
850
950
1250
Tab. 2.2
Berechnen Sie x ' und s*2 und s*2* !
2.3.3 Die Quantile
Für klassifizierte Daten (d.h., wenn nur noch die Klassenhäufigkeitstabelle, nicht aber die
~
Urliste vorliegt) verwenden wir die Klassensummenhäufigkeitsfunktion Fn ( x) , um eine
~
Approximation ~
xα für das α - Quantil xα zu erhalten.. Da Fn ( x) näherungsweise gleich
dem Anteil aller Daten xi, i=1,...,n , für die gilt: xi ≤ x , ist, und xα der Wert ist, für den dieser
~
Anteil gleich α ist, können wir xα näherungsweise als Lösung der Gleichung: Fn ( x) = α
erhalten.
Das geschieht auf folgende Weise:
©Prof. Dr. rer. nat. B. Grabowski
41
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Man bestimme zunächst die Klasse i in der das α-Quantil liegt, d.h. für die gilt:
h(i − 1) < α ≤ h( i)
Das approximierte α - Quantil ~
x α ergibt sich dann durch die Umstellung der Formel:
x − aiu )
(~
Fn ( ~
xα ) = h(i − 1) + hn ( K i ) ⋅ αo
=α
(a i − aiu )
nach ~
x α . Wir erhalten:
(α − h(i − 1))
~
x α = a iu +
⋅ (a oi − a iu ) .
h n (Ki )
Die grafische Bestimmung von ~
x α aus der empirischen Verteilungsfunktion zeigt
nachstehende Skizze:
hn (Ki )
∆K i
Flächeninhalt α
~x
X
α
Abb. 2.8
~
Fn(x)
1
α
~x
X
α
Abb. 2.9
Beispiel: Wir betrachten die Klassenhäufigkeitstabelle des Bruttomonatsverdienstes von
250 Beschäftigten einer Firma (siehe Tabelle 1.13, Kapitel 1.4.4). Es soll der Median, d.h.
der Verdienst berechnet werden, den die Hälfte der 250 Beschäftigten unter- bzw.
überschreitet!
©Prof. Dr. rer. nat. B. Grabowski
42
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Klasse
Nr. i
1
2
3
4
5
6
7
8
9
10
∑
Bruttomonatsverdienst in
EURO
Beschäftigte
Anzahl
Hn(Ki)
6
13
22
32
40
42
39
31
20
5
250
500 bis 800
über 800 bis 1100
über 1100 bis 1400
über 1400 bis 1700
über 1700 bis 2000
über 2000 bis 2300
über 2300 bis 2600
über 2600 bis 2900
über 2900 bis 3200
über 3200 bis 3500
Anteil
hn(Ki)
0,024
0,052
0,088
0,128
0,160
0,168
0,156
0,124
0,080
0,020
1,000
Summenhäufigkeiten
Beschäftigte
Kumulierte
Kumulierter
Anzahl H(i)
Anteil h(i)
6
0,024
19
0,076
41
0,164
73
0,292
113
0,452
155
0,620
194
0,776
225
0,900
245
0,980
250
1,000
Lösung:
Der Median liegt in der Klasse i, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht:
D.h., für die Klasse i, die den Median enthält, muss gelten:
h i −1 < 0,5 ≤ h i . Der Tabelle entnehmen wir: i = 6.
h n ( Ki )
∆Ki
0,5
~x
0,5
Abb. 2.10
Mit i=6 ergibt sich für den Median:
(0,5 − 0,452)
~
x0,5 = 2000 +
⋅ 300
0,168
= 2085,71EURO
≈ 2100 EURO
D.h., 50% der Beschäftigten der Firma verdienen mehr und 50% nicht mehr als 2100 EURO.
Unter Benutzung der grafischen Darstellung der empirischen Verteilungsfunktion ergibt sich
eine grafische Näherungslösung für den Median, wie unten stehenden Skizze zeigt.
©Prof. Dr. rer. nat. B. Grabowski
43
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
~
Fn(x)
1,5
1
0,5
0
5
11
17
23
Me = 21
29
35
Bruttomonatsverdienst in 100 EURO (x)
Abb. 2.11: Grafische Bestimmung des Medians bei klassifizierten
Daten
Berechnen Sie den Boxplot der Lebensdauer von 1000 Mainboards, deren
Lebensdauerverteilung durch folgende Tabelle gegeben ist:
i
Ki
x ′i
Hn(Ki)
1
2
3
4
5
bis 2 Jahre
(2-4] Jahre
(4-6] Jahre
(6-8] Jahre
(8-10] Jahre
1
3
5
7
9
33
276
404
237
50
Interpretieren Sie den Boxplot!
Vergleichen Sie den Median mit dem approximativen Mittelwert x ' = 4,99 !
©Prof. Dr. rer. nat. B. Grabowski
44
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.4 Anwendbarkeit der Maßzahlen für die verschiedenen Skalentypen
Maße
Skala
Nominalskala Ordinalskala Intervallskala Verhältnisskala
Lagemaße
Modus
Median α-Quantile
Arithm. Mittel
X
X
X
(X)
X
X
X
X
X
X
X
X
X
X
X
X
Streuungsmaße
Spannweite
Quantilabstände
Mittlere absolute
Abweichung vom
Median
Streuung
Standardabweichung
Variationskoeffizient
X
X
Stab-,
Blakendiagramm
Klasseneinteilung
Histogramm
Tab. 2.3: Anwendbarkeit der statischen Maßzahlen für verschiedene
Skalentypen
a) Begründen Sie, warum der Variationskoeffizient
intervallskalierte Merkmale anwendbar ist!
nicht
für
b) Begründen Sie, was man bei der Mittelwertberechnung bei
ordinalskalierte Merkmale beachten muß! (Unter
Bedingungen können Mittelwerte verwendet werden?
©Prof. Dr. rer. nat. B. Grabowski
45
welchen
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
2.5 Übungsaufgaben
Arbeiten Sie das Kapitel 2.1 durch und lösen Sie dann folgende Aufgabe:
Aufgabe 1
An einem Bankschalter werden die Kundenankünfte (Anzahl der pro 10-Minuten-Zeitintervall
ankommenden Kunden) beobachtet. Für 40 derartige Zeitintervalle erhält man folgende Ergebnisse:
0,
1,
2,
1,
0,
2,
0,
4,
1,
3,
1,
2,
3,
0,
1,
3,
4,
2,
6,
2,
1,
0,
1,
0,
2,
1,
0,
3,
2,
3,
2,
0,
1,
1,
3,
1,
1,
2,
1,
2,
Berechnen Sie Mittelwert, Modus und Median der Kundenankünfte!
Arbeiten Sie das Kapitel 2.2 durch und lösen Sie dann folgende Aufgaben:
Aufgabe 2
a) Zeigen Sie, dass für die Streuung s 2 =
1 n
1 n
2
2
gilt:
(
x
−
x
)
s
=
( xi ) 2 − x 2
∑
∑
i
n i =1
n i =1
b) Berechnen Sie die Streuung folgender Daten: 2, 1, 0,3, -1, 2, 2, -2 ,-2, 5
Aufgabe 3
Zeigen Sie:
a) Für die Beobachtungen einer diskreten Variablen X mit den verschiedenen
Realisierungen a1, a2,...,ak gilt:
k
∑ (a
i
− x) ⋅ H n ( a i ) = 0 !
i =1
b) Bei der Transformation (Standardisierung) von Daten x1,...,xn gemäß x *i =
xi − x
gilt für
s
den Mittelwert und Streuung der transformierten Daten:
*
x = 0 und s*2 = 1
©Prof. Dr. rer. nat. B. Grabowski
46
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Aufgabe 4
Leben sdauer
x m ax
x m ax
~x
0 , 25
~x
05
~x
0 , 75
~
x 0 , 25
x m ax
x min
~x
05
~
x 05
~
x 0 , 75
x m in
x min
Typ 2
T yp 1
T yp 3
Das Bild zeigt die Boxplots der Lebensdauern von Festplatten dreier verschiedener Typen.
Interpretieren Sie dieses Bild!
Aufgabe 5
Bei Piloten kommt es darauf an, dass sie möglichst schnell auf optische Signale reagieren.Um die
Reaktionszeit zu verbessern, wurde eine Trainingsmethode entwickelt. Eine Untersuchung an 10
Personen ergab folgende Reaktionszeiten vor Anwendung und nach Anwendung der
Trainingsmethode (in Sekunden):
Person
1
2
3
4
5
6
7
8
9
10
Vorher
14
9
57
15
19
38
43
29
16
17
11
20
10
15
30
32
30
16
17
Nachher 10
Untersuchen Sie mit Hilfe von Boxplots, ob das Training eine Verbesserung der Reaktionszeit
(zumindest in der Stichprobe) bewirkt! Verwenden Sie dabei Definition 2 für die Quantile!
Fertigen Sie Zeichnungen an und begründen Sie Ihre Aussagen!
Aufgabe 6
Lesen Sie in Skript I den Abschnitt 2.2.7 durch. Lösen Sie dann folgende Aufgabe unter
Verwendung der Formeln (3) und (4) des Abschnitts 2.2.7.
In zwei Betriebsteilen eines Unternehmens werden Akkus gleicher Sorte hergestellt. Zur
Untersuchung der Qualität der Produktion wurden Lebensdaueranalysen mit je einer
Stichprobe vom Umfang m1 im 1. Und m2 im 2. Betriebsteil gemacht. Für die mittlere
Lebensdauer und die Streuung ergab sich:
x 1 = 30 J , s12 = 25 J 2 , m1 = 20 ;
x 2 = 25 J , s 22 = 16 J 2 , m 2 = 50 ;
Wie groß sind Mittelwert, Streuung und Variationskoeffizient der gemeinsamen Stichprobe
vom Umfang m1 + m2 ?
©Prof. Dr. rer. nat. B. Grabowski
47
HTW des Saarlandes (10/2011)
Stichprobenkennwerte
Arbeiten Sie im Skript I Kapitel 2.3. durch! Lösen Sie dann folgende Aufgaben:
Aufgabe 7
Folgende Tabelle enthält die Klassenhäufigkeitsverteilung der Verweildauer von 1000
Signalen in einem Übertragungssystem (in Sek.).
i
Ki
x ′i
Hn(Ki)
1
2
3
4
5
bis 2 Sek.
(2-4] Sek.
(4-6] Sek.
(6-8] Sek.
(8-10] Sek.
1
3
5
7
9
33
276
404
237
50
a) Berechnen Sie auf der Basis der Klasseneinteilung einen Näherungswert für den
Median der Stichprobe!
a) Berechnen Sie auf der Basis der Klasseneinteilung einen Näherungswert für das arithmetische
Mittel der Stichprobe!
c) Vergleichen Sie beide Werte (Median und arithmetisches Mittel). Was können Sie
schließen?
d) Wie groß ist der Modalwert der Verteilung?
e) Wie viel % aller Verweildauern sind > 7,5 Sek.?
Aufgabe 8
Gegeben seinen Klassenhäufigkeitstabellen der Lebensdauern zweier Sorten von Festplatten:
Typ 1
Jahre
0-2
2-4
4-6
6-8
8 - 10
10 - 12
>12
Typ 2
Hn(Ki)
0
10
80
200
100
10
0
Jahre
0-2
2-4
4-6
6-8
>8
Hn(Ki)
0
50
200
50
0
Vergleichen Sie die Lebensdauern beider Typen durch Boxplots!
Berechnen Sie dabei die Quantile näherungsweise unter Verwendung der Klasseneinteilung.
Verwenden Sie als Approximation für xmin und xmax (= kleinster und größter Wert der nicht mehr
vorhandenen Original-Stichprobe) die untere Klassengrenze der 1. Klasse und die obere
Klassengrenze der letzten Klasse!
©Prof. Dr. rer. nat. B. Grabowski
48
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
3 Zweidimensionale Verteilungen - Zusammenhangsmaße
Beispiel 1:
Frage: Ist die Reaktionszeit in einem bestimmten Experiment vom Geschlecht
unabhängig?
Gg der Objekte: Gesunde Personen zwischen 30 und 40 Jahren
Merkmale:
T = Reaktionszeit (ms),
S = Geschlecht (0 – männlich, 1– weiblich)
Z = (T, S) – 2-dimensionales Merkmal, T stetig, S-diskret, nominal
Stichprobe:
Testen 200 Probanden,
zi = (ti, si) – Merkmalsausprägung von Proband i
, i = 1,...,200
Erfassung der Ergebnisse in einer 2-dimensionalen Häufigkeitstabelle:
T stetig ⇒ Reaktionszeit wird in Klassen eingeteilt:
K1 = [100, 130) ms, K2 = [130, 160) ms, K3 = [160, 190) ms
S
T
[100, 130)
[130, 160)
[160, 190)
∑
0
M
20
50
10
80
1
w
40
60
20
120
∑
60
110
30
200
Absolute Zell-Häufigkeiten
S
T
[100, 130)
[130, 160)
[160, 190)
∑
0
m
0,1
0,25
0,05
0,4
1
w
0,2
0,3
0,1
0,6
∑
0,3
0,55
0,15
1
Relative Zell-Häufigkeiten
Tab.: 3.1: Zweidimensionale Häufigkeitstabellen von Reaktionszeit T und
Geschlecht S
Verteilungen der Reaktionszeiten in den Gruppen m und w bezogen auf die
(verschiedenen) Beobachtungszahlen aus den Gruppen:
T:
m:
w:
∑
K1
20/80
40/120
60/200
K2
50/80
60/120
110/200
K3
10/80
20/120
30/200
T:
m:
w:
∑
K1
0,25
0,33
0,3
K2
0,625
0,5
0,55
K3
0,125
0,17
0,15
Diese Verteilungen sind in etwa gleich.
Die Reaktionszeit kann man als unabhängig vom Geschlecht beobachten.
Ziel: Statistische Maßzahlen zur Messung der Abhängigkeit/Unabhängigkeit
zwischen 2 Merkmalen entwickeln.
©Prof. Dr. rer. nat. B. Grabowski
49
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
3.1 Zweidimensionale Häufigkeitsverteilungen
Sei Z = (X, Y),
X ∈ X und Y ∈ Y ein 2-dimensionales Merkmal
1.Fall: X, Y diskret:
X = {a1,...,ak},
Y = {b1,...,bj}
Wertebereich von Z: Z = X × Y = {cij = (ai. bj) / ai ∈ X, bj ∈ Y}
Wir beobachten Z an n Objekten:
zi= (xi, yi),
i = 1,...,n
– Stichprobe vom Umfang n
Wie im eindimensionalen Fall besteht zunächst die elementare statistische Tätigkeit
darin, die Häufigkeitsverteilung der Stichprobe von Z zu ermitteln, d.h. auszuzählen,
wieviele Beobachtungspaare (xv, yv), v = 1,...,n jeweils auf eine Merkmalsausprägung
cij = (ai, bj) von Z fallen.
Bezeichnungen:
(ai, bj) - Zelle
Hij
:= Anzahl aller Paare (xv, yv) mit xv = ai und yv = bj
– absolute „Zellhäufigkeit“
hij
:=
H ij
- Anteil aller Paare (xv, yv) mit xv = ai und yv = bj
n
– relative „Zellhäufigkeit“
2. Fall: X stetig oder Y stetig
Wir machen eine Klasseneinteilung von X bzw. Y
K ix
i = 1,...,k
– Klasseneinteilung von X
K yj
j = 1,...,l
– Klasseneinteilung von Y
(K
)
x
y
i ,Kj
– Zelle
Hij
– Anzahl aller (xv, yv) mit xv ∈ K ix
und
y ∈ K yj – absolute Zellhäufigkeit
hij
– Anteil aller (xv, yv) mit xv ∈ K ix
und
y ∈ K yj – relative Zellhäufigkeit
Def.: Die Gesamtheit aller absoluten bzw. relativen Häufigkeiten
(( H
ij
,i = 1,..., k; j = 1,...,l
))
bzw.
(( h
ij
,i = 1,..., k; j = 1,...,l
))
heißt zweidimensionale absolute bzw. relative Häufigkeitsverteilung von Z.
©Prof. Dr. rer. nat. B. Grabowski
50
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Kontingenztabelle (k x l –Tabelle):
Y
bj
H1j
Zeilensumme
∑
K 1X
K X2
a1
a2
H21
H22
H2j
H2l
H2•
K Yi
ai
Hi1
Hi2
Hij
Hil
Hi•
K Xk
ak
Hk1
Hk2
Hkj
Hkl
Hk•
H•1
H•2
H•j
H•l
n
X
∑
Spaltensumme
K Y2
b2
H12
K Yl
bl
H1l
K 1Y
b1
H11
K Yj
H1•
Tab. 3.2
Bezeichnungen:
l
H i• =
∑H
ij
– i-te Zeilensumme
ij
– j-te Spaltensumme
j=1
k
H•j =
∑H
i =1
– Randsummen
H • j , H i•
k
H •• =
l
∑∑H
ij
– Stichprobenumfang
=n
i =1 j=1
Def.: Die Gesamtheit der Randsummen bilden die Häufigkeitsverteilungen von X bzw. Y:
((H
(( H
)
i•
, i = 1,..., k )
•j
, j = 1,..., l
))
- Häufigkeitsverteilung von X 
 Randverteilung
- Häufigkeitsverteilung von Y

Bemerkung: Betrachten wir hij statt Hij, so erhalten wir die Randsummen hi•, h•j. Diese
bilden die relative Häufigkeitsverteilung von X bzw. Y.
Beispiel 2: Auf einer Hühnerfarm seien zufällig 1000 Eier ausgewählt, vermessen und
gewogen worden. Die Merkmale sind X = Länge (cm) und Y = Breite (cm)
Frage: Gibt es einen Zusammenhang zwischen Länge und Breite?
Objekte: Eier dieser Farm
Merkmal: Z = (X, Y) = 2-dimensionales Merkmal
©Prof. Dr. rer. nat. B. Grabowski
51
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
X, Y stetig ⇒ für beide Merkmale wird eine Klasseneinteilung gemacht.
Häufigkeitstabelle der 1000 Beobachtungen:
Y
X
4<X≤5
5<X≤6
6<X≤7
7<X≤8
Summe
Summe
2<Y≤3
3<Y≤4
4<Y≤5
5<Y≤6
10
5
0
0
66
250
47
0
0
157
380
15
0
0
29
41
76
412
456
56
15
363
552
70
1000
Zweidimensionale Häufigkeitsverteilung für (Xg, Yg)
Übliche grafische Darstellung zweidimensionaler Verteilungen:
Abb.: Zweidimensionaler Plot
©Prof. Dr. rer. nat. B. Grabowski
52
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
3.2 Korrelationsmaße
3.2.1 Der Pearsonsche Korrelationskoeffizient
Beispiel 2:
X – Länge von Eiern
Y – Breite von Eiern
Frage:
Hängen Länge und Breite zusammen?
Sind die Eier mehr so:
und
oder mehr so:
und
Wir werden ein Maß herleiten, um das zu beurteilen!
Eine Stichprobe von 1000 Eiern liefert folgende Beobachtungen (xi, yi), i =
1,...,1000:
©Prof. Dr. rer. nat. B. Grabowski
53
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
II
III
I
IV
Offensichtlich gilt:
⇒ (xi, yi) liegt im I. oder III. Quadranten
⇒ (xi, yi) liegt im II. oder IV. Quadranten
Statistische Maßzahl für diesen Sachverhalt:
( x i − x) ⋅ ( y i − y ) < 0
( x i − x) ⋅ ( y i − y ) > 0
Seien:
x=
1 n
∑x
n i =1 i
Def.: S xy
y=
1 n
∑y
n i =1 i
1 n
=
∑ ( x − x)( y i − y)
n − 1 i =1 i
– arithmetische Mittel der Stichprobe bzgl. xi
und yi
– heißt Stichprobenkovarianz von X und Y bzgl.
der Stichprobe (xi, yi), i = 1,...,n
Bemerkung:
Liegen die Daten hauptsächlich im I. und III. Quadranten ⇒ Sxy < 0
II. und IV. Quadranten
⇒ Sxy > 0
X, Y, unabhängig ⇒ gleich viele im I., II., III., IV. Quadranten ⇒ Sxy = 0
©Prof. Dr. rer. nat. B. Grabowski
54
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Problem:
Beurteilung der Größe von Sxy. In unserem Beispiel ergibt sich Sx y = 1,2.
Ist S = 1,2 groß oder klein?
⇒ Wir können S nicht verwenden, sondern müssen S erst normieren!!
Bemerkung:
2
s x := S xx
s y 2 := S yy
2
1 n
x i − x)
=
(
∑
n − 1 i =1
1 n
2
=
y i − y)
(
∑
n − 1 i =1
– Streuung (Stichprobenvarianz) von X
– Streuung (Stichprobenvarianz) von Y
Def.: Das Maß
r=
S xy
2
sx ⋅ sy
2
heißt Pearsonscher Korrelationskoeffizient von X und Y bzgl. der Stichprobe
( x , y ), i = 1,..., n .
i
i
Satz: Es gilt:
1. − 1 ≤ r ≤ 1
(r ist normiert)
falls y i = a ⋅ x i + b, a > 0
1
2. r = 
falls y i = a ⋅ x i + b, a < 0
- 1
Wir verwenden zur Beurteilung des Zusammenhangs zwischen X und Y das Maß r.
Auswertung von r:
Der Pearson’sche Korrelationskoeffizient r misst den Grad des linearen
Zusammenhangs zwischen 2 Merkmalen X und Y.
Standard: Bezeichnungen
r < −0,2
r > +0,2
⇒ Daten sind negativ korreliert (große x ⇔ kleine y-Werte)
(I., III. Quadrant)
⇒ Daten sind positiv korreliert (große x ⇔ große y-Werte)
(II., IV Quadrant)
„Feinabstufung“:
©Prof. Dr. rer. nat. B. Grabowski
55
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
1. 0 ≤ r ≤ 0,2
2. 0,2 < r ≤ 0,5
unkorreliert
schwach korreliert
3. 0,5 < r ≤ 0,8
korreliert
4. 0,8 < r ≤ 1
hoch korreliert
Für unser Beispiel gilt:
r = 0,83
⇒ Länge und Breite sind hoch positiv korreliert (siehe Scattergramm: Dicke Eier sind lang,
dünne Eier sind kurz
(die Eier sind
und
und nicht
und
Typische „Punktwolke“ für Korrelationskoeffizienten r:
X
X
X
XX
X
X
X X X
X
X
X
X
X
X
r ≈ - 0,6
X
XX
X
X
X X X
X
X
X
X
y
X
X
X
X
X
X
X
X
X
X
X X
X
X
X
X
X
r ≈ 0,6
x
r≈0
X
r ≈1
Abb. 3.3
Bemerkungen:
1.) Voraussetzung: X, Y stetig (mindestens intervallskaliert)
2.) Sei Y = X2
→ Für alle Beobachtungen (xi, yi),
i = 1,...,n gilt:
y i = x 2i
(Die Punkte (xi, yi) liegen auf einer Parabel.)
In diesem Fall ist r≈0 !!
©Prof. Dr. rer. nat. B. Grabowski
56
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
X
X
y
X
X
X
X
X
X
x
⇒ Sxy ≈ 0
⇒r≈0
⇒ r ≈ 0 bedeutet nicht „Unabhängigkeit“ sondern nur „Unkorreliertheit“ (d.h. X und Y weichen
„total“ vom linearen Zusammenhang ab, aber sie können daraus auf eine andere Weise
funktional zusammenhängen)
Der Pearson’sche Korrelationskoeffizient r misst nur den Grad des linearen
Zusammenhangs.
3.2.2 Der Spearman’sche Korrelationskoeffizient für ordinal skalierte Daten
Wenn mindestens ein Merkmal ordinal skaliert ist, ist r nicht anwendbar, da für
ordinalskalierte Merkmale das arithmetische Mittel und Streuungen nicht berechnet werden
dürfen. Fragestellungen mit ordinalskalierten Merkmalen treten allerdings oft auf. Wir
wenden in diesen Fällen den sogenannten Korrelationskoeffizienten ρ von Spearman an.
Beispiele: Gibt es einen Zusammenhang
a) zwischen Mathematik- und Englischleistungen?
b) zwischen A- und B- Note beim Eiskunstlauf ?
c) zwischen Körpergröße und Bildungsgrad?
d) Zwischen Qualitätsklasse und Preis?
Der Spearman’sche Korrelationskoeffizient ρ:
Seien X und Y zwei Zufallsgrößen, mindestens ordinal skaliert.
Der Spearman’sche Korrelationskoeffizient erfordert die Zuordnung von sogenannten
Rangplätzen R[xi] zu Stichprobenwerten xi, i = 1,...,n.
Rangplatzbestimmung:
Sei x1,...,xn eine Stichprobe vom Umfang n und x [ 1] ≤ x [ 2 ] ≤ ⋯ ≤ x [ n ] die geordnete
Stichprobe.
Unter dem Rangplatz R[xi] von xi versteht man den Platz von xi in der geordneten Stichprobe.
Die Ordnung der Stichprobendaten xi ergibt sich aus der Ordnung der
Merkmalsausprägungen, denen die xi zugeordnet sind. Dabei ordnet man die
Merkmalsausprägungen so, dass der in der Ordnung an erster Stelle stehende
Merkmalswert der "beste", der an zweiter Stelle stehende Merkmalswert der "zweitbeste"
usw. sind.
©Prof. Dr. rer. nat. B. Grabowski
57
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Haben mehrere Daten xi den gleichen Rangplatz (d.h. den gleichen Wert), so wird ihnen der
mittlere Rangplatz zugewiesen:
Beispiel 3: Merkmal: Qualität
Ausprägung
(Qualitätsklasse)
durch Skalierung
zugeordnete Daten: xi
A
B
C
D
E
F
G
2
3
4
5
6
7
100
xi
Platz in
geordneter
Stichprobe
R[xi]
R[3] =
2
1
3
2
7
6
3
3
5
5
3
4
100
7
1
3
6
3
5
3
7
2 + 3+ 4
=3– mittlerer Rangplatz des Werts 3 in der geordneten Stichprobe
3
Seien nun (xi, yi) , i = 1,...,n eine Stichprobe und seien R[xi], R[yi] die den Stichprobenwerten
xi und yi zugeordneten Rangplatzzahlen. Im folgenden Bild ist der Zusammenhang
dargestellt zwischen der Monotonie der Stichprobendaten und der Linearität der
Rangplatzdaten. Liegen (xi, yi) , i = 1,...,n, auf einer streng monoton wachsenden Funktion,
so gilt für die Rangplätze R[xi] = i und R[yi] = i, i=1,...,n und folglich liegen die
Rangplatzdaten (R[xi], R[yi]), i=1,...,n, auf einer Geraden mit positivem Anstieg.
Man überzeugt sich leicht selbst, dass analog gilt: wenn (xi, yi) , i = 1,...,n, auf einer streng
monoton fallenden Funktion liegen, so liegen die Rangplatzdaten (R[xi], R[yi]), i=1,...,n, auf
einer Geraden mit negativem Anstieg.
Abweichungen der Daten von der Monotonie würden Abweichungen der Rangplatzdaten von
der Linearität bewirken.
D.h., der Pearson’sche Korrelationskoeffizient rR[x],R[y] der Rangplatzdaten, der ja den Grad
der Linearität misst, misst damit auch folglich den Grad der Monotonie der Ausgangsdaten
(xi,yi), i=1,....,n. Ist rR[x],R[y] = 1, so liegen die Daten (xi,yi) auf einer monoton wachsenden
Funktion, ist rR[x],R[y] = -1 auf einer monoton fallenden Funktion, ist rR[x],R[y] = 0,9, soschwanken
die Daten (xi,yi) eng um eine monoton wachsende Funktion usw., usf.
Der Spearman’sche Korrelationskoeffizient ist als Pearson’scher Korrelationskoeffizient der
Rangplätze definiert und misst den Grad der Monotonie der Daten (xi,yi),i=1,...,n.
©Prof. Dr. rer. nat. B. Grabowski
58
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Def.: Der Koeffizient
ρ: = rR[ x ] ,R[ y ] =
S R [ x ] , R[ y ]
s 2R[ x ] ⋅ s 2R[ y ]
heißt Spearman’scher Korrelationskoeffizient (ρ := Pearson’scher Koeffizient für die
Rangplatzzahlen) ⇒ „Rangplatzkorrelationskoeffizient“
Zur Erleichterung der Berechnung des Spearman’sche Korrelationskoeffizienten kann man
folgenden Satz anwenden:
n
6⋅
Satz: Es gilt:
ρ =1−
∑d
2
i
i =1
(
, d i = R [ x i ] − R [ yi ]
)
n ⋅ n2 − 1
Berechnung des Spearman’schen Korellationskoeffizienten:
1.) Man ordnet jedem xi und yi einen Rangplatz R[xi], R[yi] zu.
2.) Man bildet die Rangplatzdifferenzen d i : = R[ x i ] − R[ y i ] , d 2i und
∑d
2
i
.
3.) Man berechnet den Spearman’schen Korrelationskoeffizienten ρ.
x
y
R[x]
R[y]
| di |
di2
x1
y1
R[x1]
R[y1]
| d1 |
d12
xi
yi
R[xi]
R[yi]
| di |
di2
xn
yn
R[xn]
R[yn]
| dn |
dn2
∑
∑ di2
Tab. 3.6
Auswertung von ρ:
(wie bei r !)
−1≤ ρ ≤ 1
ρ ≤ 0,2
⇒ unkorreliert
ρ ≤ 0,5
⇒ schwach korreliert
ρ ≤ 0,8
⇒ korreliert
1 ≥ ρ > 0,8
negative und
positive
Korrelation
⇒hoch korreliert
Beispiel 4 Noten: Gibt es einen Zusammenhang zwischen den Leistungen in Mathe und in
Englisch?
©Prof. Dr. rer. nat. B. Grabowski
59
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Person
Mathe
Englisch
1
2
3
4
5
1
5
4
6
2
6
3
1
4
3
4
2
3
Noten
6
5
1
3
4
2
10
14
19
16
14
19
Punkte
5,5
3
2,5
6,25
2
4,5
2,5
6,25
3,5
1,5
2
4
∑
46,5
R[Mathe]
1
5,5
3,5
R[Englisch]
6
4,5
1,5
| di |
5
1
2
di2
25
1
4
6 ⋅ 46,5
46,5
ρ =1−
=1−
= − 0,32
6 ⋅ 35
35
Mathe- und Englischleistungen sind schwach negativ korreliert!
D.h., es ist eine leichte Tendenz in folgender Richtung zu erkennen: Je besser
die Noten in Mathe, desto schlechter in Englisch und umgekehrt.
Beispiel 5: Eiskunstlauf: Gibt es einen Zusammenhang zwischen A und B-Note?
Läufer
A-Note
B-Note
Rangplatz
A
Rangplatz
B
| di |
2
di
⇒ ρ =1−
1
5,3
5,4
3
2
5,6
5,4
1
3
5,0
5,1
6,5
4
5,3
5,2
3
5
4,9
5,0
8
6
4,6
4,5
9
7
5,3
5,5
3
8
5,0
4,8
6,5
9
5,2
5,1
5
2,5
2,5
5,5
4
7
9
1
8
5,5
0,5
0,25
1,5
2,25
1
1
1
1
1
1
0
0
2
4
1,5
2,25
0,5
0,25
∑
12
6 ⋅ 12
6 ⋅ 12
=1−
= 0,9
9 ⋅ (81 − 1)
9 ⋅ 80
⇒ A und B sind hoch positiv korreliert! D.h., je besser die A Note, um so besser
auch die B-Note.
©Prof. Dr. rer. nat. B. Grabowski
60
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
3.3 Übungsaufgaben
Aufgabe 1
In einem psychologischen Experiment wurde die Reaktionszeit von Probanden vom Geben bis
zum Erkennen eines optischen Signals gemessen. Die Reaktionszeit wurde dabei in 3 Gruppen
eingeteilt:
1 – schnell, 2 - mittel, 3 – langsam.
Eine Untersuchung an 30 Personen ergab folgende Daten : (M-männlich, W-weiblich)
Person Geschl
echt
1
W
2
W
3
W
4
M
5
M
6
W
7
M
8
M
9
W
10
M
Reaktionszeit
1
2
2
3
1
3
2
1
3
1
Person
11
12
13
14
15
16
17
18
19
20
Geschle
cht
M
M
W
W
M
W
W
M
M
M
Reaktionszeit
2
1
1
1
3
2
1
3
3
1
Person
21
22
23
24
25
26
27
28
29
30
Geschle
cht
W
W
M
M
W
W
W
W
M
M
Reaktionszeit
2
3
2
2
1
2
2
3
1
1
Geben Sie an:
a) Die relative Häufigkeitsverteilung der Zufallsgröße X=Geschlecht!
b) Die relative Häufigkeitsverteilung der Zufallsgröße Y=Reaktionszeitgruppe!
c) Geben Sie eine Näherung für den Modalwert der Reaktionszeit an!
d) Geben Sie eine Näherung für die mittlere Reaktionszeit an!
e) Geben Sie eine Näherung für den Median der Reaktionszeit an!
f) Was ist der Modalwert des Merkmals Geschlecht?
Aufgabe 2
Geben Sie ein geeignetes Zusammenhangsmaß für die folgenden Merkmalspaare an:
a) Einstellungsalter und Anfangsgehalt in Euro bei Absolventen einer Hochschule.
b) Wartezeit und Verweilzeit von Nachrichten in einem Übertragungssystem
c) Preis und Qualitätsklasse von CD‘s
d) Leistung (Zensur) in "Statistik" und Leistung in Mathematik
Aufgabe 3
Zeigen Sie, dass für den Pearsonschen Korrleationskoeffizient r einer Stipchprobe
von Datenpaaren (xi,yi),i=1,....,n gilt:
y i = axi + b, i = 1,..., n
mit a > 0 
 1 falls
r=

y i = axi + b, i = 1,..., n
mit a < 0
− 1 falls
©Prof. Dr. rer. nat. B. Grabowski
61
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Aufgabe 4
Zeigen Sie, dass für die Stichprobenkovarianz
S xy =
1  n

 ∑ ( xi − x )( y i − y ) 
n − 1  i =1

einer Stipchprobe von Datenpaaren (xi,yi),i=1,....,n gilt:
S xy =
1  n

 ∑ xi y i − n ⋅ x ⋅ y 
n − 1  i =1

Aufgabe 5
Gegeben seien die folgenden Beobachtungswerte der gemeinsam auftretenden Merkmale X und Y.
X
Y
0
2
2
0
4
6
6
4
Berechnen Sie mit der in Aufgabe 4 hergeleiteten Formel die Stichprobenkovarianz, die Stichprobenvarianz
(= Streuung) für x und y und den Pearsonschen Korrelationskoeffizienten!
Aufgabe 6
Interpretieren Sie die Aussagen für die Pearson’sche Korrelation:
a) Die Korrleation zwischen X und Y ist r = - 0,85.
b) Die Korrleation zwischen X und Y ist r = 0,6
Die Korrleation zwischen X und Y ist r = - 0,1.
Aufgabe 7
Aus 80 Wertepaaren der Merkmale X (Zwischenankunftszeit zwischen 2 Signalen) und Y (Verweilzeit
eines Signals im System ) wurde ein Pearson’scher Korrelationskoeffizient von
r = - 0,95 berechnet. Welche der folgenden Aussagen sind richtig?
a) Die Beobachtungswerte streuen eng um eine fallende Gerade.
b) Ein Zusammenhang ist nicht erwiesen, da r < 0 gilt.
c) Die Werte von X und Y sind annähernd umgekehrt proportional zueinander.
Aufgabe 8
Für 10 verschiedene Netzbandbreiten (Megabit pro Sekunde) wurde die Anzahl der Transaktionen eines
Webservers gemessen (Antworten des Servers pro Sekunde):
Beobachtung
Netzbandbreite
(Mbit/sec)
Transaktionszahl
A
10
B
20
C
20
D
40
E
50
F
60
G
70
H
80
I
60
J
100
200
300
250
300
500
550
600
900
600
900
Untersuchen Sie den Grad des linearen Zusammenhanges zwischen Netzbandbreite und
Transaktionszahl!
Aufgabe 9
Warum kann zur Beurteilung des Zusammenhangs zwischen Note in einem Fach und der
Beliebtheit des Fach-Dozenten nicht der Korrelationskoeffizient von Pearson berechnet
werden?
©Prof. Dr. rer. nat. B. Grabowski
62
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Aufgabe 10
Berechnen Sie die Rangplatzdaten x[i] für folgende Stichprobe xi,i=1,..., 10 und tragen Sie
sie in die Tabelle ein!
xi
x[i]
2
1
2
2
1
4
1
4
2
3
Aufgabe 11
Folgende Grafiken zeigen die Lage von 6 Messdatenpaaren im Koordinatensystem an.
a) Berechnen Sie für beide Fälle die Rangplatzdaten R(xi) und R(yi) und stellen Sie die
Rangplatzdatenpaare (R(xi),R(yi)) im Koordinatensystem dar!
b) Stellen Sie eine Hypothese über den Zusammenhang zwischen der Monotonie
der Messdaten (xi,yi) und der Lage der Rangplatzdaten (R(xi),R(yi)) auf!
Fall 1: Messdaten liegen auf einer streng monoton wachsenden Funktion
Fall 2: Messdaten liegen auf einer streng monoton fallenden Funktion
©Prof. Dr. rer. nat. B. Grabowski
63
HTW des Saarlandes (10/2011)
Zusammenhangsmaße-Korrelationen
Aufgabe 12
Zwei Studenten haben für die in der Grafik gegebenen Daten den Pearson’schen und den
Spearman’schen Korrelationskoeffizienten r bzw. ρ berechnet. Leider haben sie den Zettel,
auf dem sie das Resultat ihrer Berechnung geschrieben haben, verloren. Sie wissen nur
noch, das beide Koeffizienten je einen der Werte aus der Menge {-1, -0,9, -0,1, 0,1, 0,9, 1}
besaßen. Nach einem Blick auf die Grafik der Daten, wussten sie aber sofort, welchen Wert r
und welchen Wert ρ hatte. Wie groß sind r und ρ ?
Aufgabe 13
CD-Typen werden hinsichtlich Ihrer Qualität von der Stiftung Warentest in 4 Klassen
eingeteilt (A: sehr gut, B: gut, C: befriedigend, D: ungenügend). Untersuchen Sie, ob mit
wachsendem Preis für ein Paket von 50 Stück auch die Qualität zunimmt!
Beoabachtung.
Qualität
Preis (euro)
1
B
9,10
©Prof. Dr. rer. nat. B. Grabowski
2
C
7,95
3
B
9,00
64
4
A
9,95
5
C
8,50
6
D
7,95
HTW des Saarlandes (10/2011)
Herunterladen