8. Statistik

Werbung
Informationsbestände analysieren
Statistik
8.
Statistik
Nebst der Darstellung von Datenreihen bildet die Statistik eine weitere Domäne für
die Auswertung von Datenbestände. Sie ist ein Fachgebiet der Mathematik und
nicht ganz einfach zu verstehen, weshalb hier nur auf ein paar wenige Punkte
eingegangen werden soll.
8.1.
Beispiel “Noten“
Das in Kapitel 7.3 eingeführte Beispiel der Fachnoten wird hier verwendet, um die
drei Begriffe
Mittelwert
Modalwert
Median
aufzuzeigen. Die Begriffe werden im einzelnen nachträglich noch besprochen.
Median
Mittelwert
Modalwert
Abbildung 119 : Statistische Werte einer Messreihe
Das Beispiel zeigt einen Mittelwert von 4.4. Aus Sicht der Lehrperson ein
genügender Schnitt, der keinen Anlass geben würde, Unterricht oder Prüfungen zu
überdenken.
Betrachtet man aber den Median, so beträgt dieser 3.5, d.h. dass die eine Hälfte
aller Noten 3.5 oder tiefer ist und die andere Hälft über 3.5 liegt. Aus dieser Sicht
kann festgestellt werden, dass die Klasse als ganzes den Stoff nicht verstanden hat
oder zumindest das Wissen in den Prüfungen nicht umsetzen konnte.
Betrachtet man den Modalwert – den Wert der am häufigsten vorkommt – so ist
dies die Note 6.0 mit 9 Nennungen. Dieser Sachverhalt erklärt auch, warum der
Durchschnitt relativ hoch ist im Verhältnis zum Median. Die Klasse ist zweigeteilt in
eine gute und eine schwache Hälfte.
© René Probst
Jan 2004
8-1
Modul-100
Theorie
8.2.
Mittelwerte
Der Mittelwert ist einer der häufigsten statistischen Werte, die verwendet werden. Er
sagt aus, welcher Wert – rein mathematisch – sich im Mittel aus allen Werten
ergeben würde.
Der Begriff Mittelwert ist dabei ungenau, da in der Mathematik verschiedene
Mittelwerte existieren, eigentlich müsste man vom arithmetischen Mittel sprechen.
Es werden alle Werte der Messreihe addiert und durch die Anzahl der Werte
dividiert.
(Bei Excel ist dies die Funktion MITTELWERT)
Dieses Mass wird bei technischen Messvorgängen erhoben. Zusätzlich ist es aber
auch wichtig zu wissen, wie präzise denn dieser Mittelwert ist. Man spricht in diesem
Fall von der Standardabweichung. Sie ist ein Mass, das aussagt, wie zuverlässig
der Mittelwert erreicht wird. Unter „Zuverlässig“ versteht man, dass 63% aller
Messungen innerhalb eines Bereichs um den Mittelwert sind, der durch die
Standardabweichung gegeben ist.
(Bei Excel ist dies die Funktion STABW)
Beispiel :
Mittelwert und Standardabweichung einer Messreihe mit 50 Messpunkten
Verteilung
9
Mittelwert = 13.3
8
7
Standardabweichung = 5.32
6
5
Reihe2
4
3
2
1
29
27
25
23
21
19
17
15
13
11
9
7
5
3
1
0
Abbildung 120 : Messreihe mit Mittelwert und Standardabweichung
Häufig genügt aber zur Charakterisierung einer statistischen Masse die Darstellung
der Häufigkeitsverteilung nicht. Man zieht oft zusätzliche Mittelwerte heran, die eine
Vorstellung über die mittleren Werte einer Verteilung geben sollen. Diese
Mittelwerte werden nach zwei verschiedenen Kriterien charakterisiert:
8-2
Modul 100 V1.2b.doc
Abteilung Informatik/Technik
Informationsbestände analysieren
Statistik
1.
Lagetypische Mittelwerte
2.
Rechentypische Mittelwerte
Die lagetypischen Mittelwerte werden von dem in der Mitte der Verteilung liegenden
Wert bestimmt. Es sind dies der häufigste Wert (Modus) und der zentrale Wert
(Median).
Bei der Berechnung der rechentypischen Mittelwerte wird jeder einzelne Wert der
Verteilung berücksichtigt. Rechentypische Mittelwerte sind:
1.
Arithmetisches Mittel
2.
Geometrisches Mittel
3.
Harmonisches Mittel (wird in diesem Zusammenhang nicht erklärt)
© René Probst
Jan 2004
8-3
Modul-100
Theorie
8.3.
Modus18
Der Modus XMo ist der, mit der grössten Häufigkeit auftretende Wert einer
statistischen Variablen.
Er wird auch "dichtester Wert" genannt (Wert mit der größten Dichte).
Definition des Modus:
XMo = xi mit fi = max
xi ist dabei der i-te Messwert, während fi die Funktion ist, die das Maximum aller i
Messwerte sucht.
Der Modus kann stets dem Säulendiagramm oder dem Histogramm entnommen
werden.
(Bei Excel ist dies die Funktion MODALWERT)
Verteilung
Modalwert = 12
9
8
7
6
5
Reihe2
4
3
2
1
0
1
3
5
7
9
11
13
15
17
19
21
23
25
27
29
Abbildung 121 : Modalwert aus Säulendiagramm
Das Beispiel zeigt, dass der häufigste Wert 12 in der Messreihe achtmal vorkommt
18
8-4
auch Modalwert genannt
Modul 100 V1.2b.doc
Abteilung Informatik/Technik
Informationsbestände analysieren
Statistik
8.4.
Median
Der Median oder Zentralwert ist jener Wert einer statistischen Variablen, welcher die
der Größe nach geordneten Werte in genau zwei Hälften teilt. Es liegen rechts und
links des Medians je 50% der Größe nach geordneten Werte.
Für die Ermittlung des Medians (xMe) sind die Zähl- oder Messergebnisse immer
zuerst in eine geordnete Reihe zu bringen.
Wenn z.B. 7 Daten vorliegen, sind sie zur Medianbestimmung in folgende
Reihenfolge zu bringen:
xl <= x2
x2 <= x3
x3 <= x4
x4 <= x5
x5 <= x6
x6 <= x7
d.h. die Werte sind aufsteigend zu ordnen, wobei so x4 zum Median oder
Zentralwert wird, da links und rechts von ihm 50% der Beobachtungen – in diesem
Fall sind es 3 Messwerte - liegen.
Der Median kann nie bei einem Extremwert einer Verteilung liegen und wird.
auch nicht durch die Größe von Extremwerten in seiner Lage beeinflusst.
Für die Bestimmung des Medians ist zu unterscheiden, ob die Zahl der vorliegenden
Daten, die wir allgemein mit n bezeichnen, gerade oder ungerade ist.
Medianbestimmung
Fall 1: ungerade:
Fall 2: gerade:
xMe = x(n+1)/2
xMe = (x(n/2 + x(n+2)/2)/2
Bei ungerader Anzahl an Beobachtungen ist also der Median jener Wert der
statistischen Variablen, für den der laufende Index i = (n+ 1) : 2 ist.
8.4.1. Optimale Entfernung
Durch den Median kann man jenen Wert bestimmen, von dem aus die Summe der
Entfernungen (absolut genommen) zu den anderen Werten der
Häufigkeitsverteilung ein Minimum ergibt:
P ¦ xi – xMe ¦ = Min.
Will eine Zulieferfirma ein Zentrallager errichten, von dem aus verschiedene, entlang
einer Straße liegende, Betriebe beliefert werden sollen, so gibt der Median jenen
© René Probst
Jan 2004
8-5
Modul-100
Theorie
Standort an, von dem aus die Summe der Distanzen zu den Betrieben den kleinsten
Wert annimmt.
Liegen die Betriebe z.B. bei Kilometer 210,230,260,340 und 360, so ist die kleinste
absolute Abstandssumme erreicht, wenn das Auslieferungslager bei km 260, also
dem Median, errichtet wird.
Im bisher gezeigten Beispiel liegen die Messwerte zwischen 1 und 26. In diesem
Fall liegt der Median zwischen 13 und 14.
(Bei Excel ist dies die Funktion MEDIAN)
Verteilung
9
8
Median = 14
7
6
5
Reihe2
4
3
2
1
29
27
25
23
21
19
17
15
13
11
9
7
5
3
1
0
Abbildung 122 : Median einer Messreihe
8-6
Modul 100 V1.2b.doc
Abteilung Informatik/Technik
Informationsbestände analysieren
Statistik
Kapitel 8 : Eigene Notizen
© René Probst
Jan 2004
8-7
Theorie
2
Modul 100 V1.2b.doc
Modul-100
Abteilung Informatik/Technik
Herunterladen