Beschreibende Statistik

Werbung
stoch_07.nb
1
Grundlagen der Stochastik
Das vorliegende Skript wurde im Original mit dem Programmsystem MATHEMATICA ® von WOLFRAM-Research [http://www.wolfram.com]
geschrieben und erstmals auf den Webseiten der Hochschule für Technik und Wirtschaft in Dresden (University of Applied Sciences)
[http://www.htw-dresden.de] veröffentlicht. Die Schrift trägt den Charakter eines Arbeitskonzepts, so dass ich für Hinweise und Anregungen
aller Art, einschließlich zu Rechtschreibung, Grammatik und Druckbild sehr dankbar bin.
Mit meinem Beitrag erhebe ich keinen Anspruch auf irgendeine Vollständigkeit bzw. Allgemeingültigkeit. Ich möchte einzig und allein an
exemplarischen Problemstellungen der Baumechanik logisch einfache mathematisch-physikalische Lösungsmethoden zur Diskussion stellen.
Mirko Slavik, Dresden
7 Beschreibende Statistik
7.1 Die beschreibende Statistik stellt primär die Hilfsmittel zur Verfügung mit denen aus den Werten
einer Stichprobe auf die statistischen Eigenschaften der entsprechenden Grundgesamtheit geschlossen
werden kann. Die Methoden der angewandten Wahrscheinlichkeitsrechnung (siehe Abschnitt 8) hingegen dienen dazu, mathematische Modelle zu finden, die die Prozesse beschreiben, die zur Herausbildung von Zufallsdaten führen.
7.2 Eine eindimensionale Stichprobe x1 , x2 , ... xi , ... xn-1 , xn , die aus einer Grundgesamtheit in einer
zufälligen Reihenfolge i = 1, 2, 3, ... , n gewonnen wird, wobei diese selbst keinen Einfluss auf die
Ergebnisse hat, bezeichnet man als probabilistische Stichprobe.
7.3 Der Mittelwert ewx einer solchen Stichprobe berechnet sich zu ewx = Å ⁄ i = 1 xi oder mit der
1
Konstanten c zu ewx = c + Å ⁄ i = 1 xi .
1
n
n
n
n
n = 106 ; stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D;
ewx == Mean@stichprobeD
ewx
14.9948
7.4 Im obigen Beispiel haben wir zur Erzeugung der Stichprobe den internen Zufallsgenerator von
MATHEMATICA ® genutzt. Der gemäß mathematischer Logik zu erwartende Mittelwert, den wir als
exakten Mittelwert (exakt) bezeichnen wollen, beträgt
27 - 3
2
+ 3 = 12 + 3 = 15. Wir interpretieren die
Abweichung des berechneten vom exakten Mittelwert als Fehler Dxk einer k-ten Stichprobe. Es gilt
ewx = exakt + Dxk .
7.5 Würde man die Erzeugung einer Stichprobe k-fach wiederholen, dann erhielte man den mittleren
Fehler
mfx =
1
maxk
⁄k = 1 Dxk
maxk
7.6 Für das Beispiel (7.3) wird jetzt neben der Wiederholung auch ein sukzessives Erhöhen des
Stichprobenumfanges vorgenommen. Die grafische Darstellung der Ergebnisse bestätigt die bekannte
Tatsache, dass der Mittelwert für wachsendes n und/oder k als Grenzwert den Mittelwert der Gesamtheit besitzt.
stoch_07.nb
2
maxk = 25; exakt = 15;
DoB:n = 2k , stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D,
1
ewx@kD = Mean@stichprobeD, ∆xk = ewx@kD − exakt, mfxk =
k
‚ ∆xi >, 8k, 1, maxk<F
k
i=1
Entwicklung des Mittelwertes
20
18
Zahlenwert
16
14
12
10
0
5
10
15
20
25
Stichprobenanzahl k
Bild 7.6: Darstellung der Verhältnisse zwischen exaktem Mittelwert (gelb) und den zugeordneten
Werten einschließlich der Abweichungen Dxk (rot) bzw. der mittleren Fehler mfx (blau)
7.7 Der Mittelwert einer Stichprobe repräsentiert den besten Schätzwert der gewonnen Zufallsgrößen
einer Gesamtheit. Dies kann mit dem fundamentalen Prinzip der Methode der kleinsten Quadrate (MkQ)
[6], das Carl Friedrich GAUSS (1777 - 1855) unabhängig von Adrien-Marie LEGENDRE (1752 - 1833)
ausgearbeitet hat, sehr anschaulich aufgezeigt werden. Die unten ausgewiesene Anwendung verifiziert
diese Methode am Beispiel (7.3). Einen Beweis zur MkQ findet man u. a. in [3].
n = 103 ; maxk = 10 000; ∆k = 0.001;
stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D;
ewx == Mean@stichprobeD
DoB:schätzwert@kD = 10 + ∆k ∗ k,
quadratabweichung@kD = ‚ Hstichprobe@@iDD − schätzwert@kDL2 >, 8k, 1, maxk<F
n
i=1
ewx
15.0795
stoch_07.nb
3
Minimum der Summe der Abweichungsquadrate HBild 7.7L: 48 776.3
bei
815.08<
Summe der Abweichungsquadrate
75 000
70 000
65 000
60 000
55 000
50 000
10
12
14
16
18
20
Schätzwerte
Bild 7.7: Beispiel zum Prinzip des Minimums der kleinsten Quadrate
7.8 Neben dem Mittelwert interessiert als ein wichtiges Fehler- bzw. Abweichungsmaß die Standardabweichung sx einer Stichprobe. Sie ist die Wurzel der Varianz sx2 (vgl. hierzu Absatz 7.7) :
sx2 =
1
n- 1
⁄in= 1 Hxi - ewxL2
Anmerkung: Vereinzelt findet man in der Literatur statt dem Nenner "n-1" auch "n" allein. Jedoch nur
mit "n-1" wird eine erwartungstreue Schätzung der Standardabweichung erreicht (vgl. hierzu u. v. a.
[7]).
7.9 Der Mittelwert und die Standardabweichung bzw. Varianz stellen die wichtigsten Merkmale einer
Stichprobe dar. Als Beispiel erzeugen wir uns wieder mithilfe des Zufallsgenerators eine Stichprobe, für
die wir die entsprechenden Kenngrößen berechnen:
n = 105 ;
stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D;
:ewx == Mean@stichprobeD, sx ==
Variance@stichprobeD ,
test_sx == StandardDeviation@stichprobeD>
8ewx
14.9823, sx
6.92619, test_sx
6.92619<
7.10 Um dem Mittelwert und der Standardabweichung einer Stichprobe einen Relativbezug zu verleihen, wird der Variationskoeffizient vx =
sx
ewx
eingeführt. Er spielt eine wichtige Rolle bei der Charakte-
ristik von Wahrscheinlichkeitsverteilungen (Abschnitt 8).
stoch_07.nb
4
vx ==
Variance@stichprobeD
Mean@stichprobeD
vx
0.469562
7.11 Eine weitere Möglichkeit eine Stichprobe zu beurteilen, basiert auf der Frage, wie häufig bleiben
die Stichprobenwerte xi einer Zufallsgröße X unter einem bestimmten Wert x , also X b x . Als
Ergebnis erhalten wir die absolute Häufigkeitssumme einer Stichprobe, die man auch als Verteilungsfunktion bezeichnet (vgl. Absatz 8. 4).
7.12 Bei kleinen Stichproben erfolgt die Analyse über eine Sortierung der Werte xi ihrer Größe nach.
Dieses Vorgehen wird im Falle großer Stichproben zweckmäßigerweise dahingehend approximiert,
dass man eine Klassierung des Wertebereiches vornimmt. Hierfür sind in [3], die in der beschreibenden
Statistik üblichen Hinweise zur Wahl der Mindestanzahl von Klassen in Abhängigkeit vom Stichprobenumfang zu finden.
7.13 Wir stellen beide Methoden anhand zweier Beispiele dar. Zuerst wird eine gleichverteilte Stichprobe erzeugt, im zweiten Fall bedienen wir uns normalverteilter Daten. Die in den anschließenden
Grafiken ausgewiesen roten Punkte stehen für die Ergebnisse, die über eine Klassierung bestimmt
worden, die blauen für die gemäß Sortierung ermittelten.
Anmerkung: Bezüglich der Charakteristik der beiden gewählten Verteilungstypen, sei auf die ergänzenden Aussagen im Abschnitt 8 hingewiesen.
êê N;
maxi
stichprobe = Table@Random@Real, 8minX, maxX<D, 8i, 1, n<D;
geordnet = Sort@stichprobeD; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D;
n = 103 ; minX = 3; maxX = 27; maxi = 20; ∆x =
maxX − minX
HÄUFIGKEITSSUMMENKURVE HgleichverteiltL
1000
Summenhäufigkeit
800
600
400
200
0
0
5
10
15
20
25
Klassenaufteilung
8ewx
14.8942, sx
6.77, vx
0.45454<
30
stoch_07.nb
5
RandomNormal@μ_, σ_D := Random@NormalDistribution@μ, σDD
ewxneu = 14.5; sxneu = 7.4; n = 103 ; maxi = 20;
êê N;
maxi
stichprobe = Table@RandomNormal@ewxneu, sxneuD, 8i, 1, n<D;
geordnet = Sort@stichprobeD; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D;
minX = ewxneu − 4 sxneu; maxX = ewxneu + 4 sxneu; ∆x =
maxX − minX
HÄUFIGKEITSSUMMENKURVE HnormalverteiltL
1000
Summenhäufigkeit
800
600
400
200
0
−20
−10
0
10
20
30
40
50
Klassenaufteilung
8ewx
14.5631, sx
7.50263, vx
0.51518<
7.14 Anbetracht der enormen Rechengeschwindigkeit heutiger Hardware, bereitet es keine Schwierigkeit hinreichend große Stichproben sowie ausreichend kleine Intervalle für die Analyse der gewonnenen
Daten zu erzeugen. Deshalb weiche ich in den weiteren Algorithmen etwas von der üblichen Vorgehensweise ab, indem keine Korrektur auf die Intervallmitten vorgenommen wird, sondern der Bezug auf den
rechten Intervallrand bestehen bleibt.
7.15 Basierend auf der oben vorgestellten Klassierungsmethode werden jetzt zusätzlich die Verteilungen der Häufigkeiten (blau) über die einzelnen Klassen ausgewiesen und diese mit den zugehörigen
Häufigkeitsummen (rot), den eigentlichen Verteilungsfunktionen verglichen. Es erfolgt zuerst die Darstellung der absoluten Zuordnungen und im Anschluss die der relativen Funktionen, bei denen die Absolutwerte auf den jeweiligen gesamten Stichprobenumfang bezogen worden sind.
stoch_07.nb
6
Beispiel einer gleichverteilten Stichprobe
êê N;
maxi
stichprobe = Table@Random@Real, 8minX, maxX<D, 8i, 1, n<D;
häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D;
n = 104 ; minX = −2; maxX = 4; maxi = 40; ∆x =
maxX − minX
ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HgleichverteiltL
10 000
Häufigkeiten
8000
6000
4000
2000
0
−2
0
2
4
Klassenaufteilung
RELATIVE HÄUFIGKEITEN + SUMMENKURVE HgleichverteiltL
1.0
Häufigkeiten
0.8
0.6
0.4
0.2
0.0
−2
0
2
4
Klassenaufteilung
8ewx
1.04932, sx
1.73363, vx
1.65214<
stoch_07.nb
7
Beispiel einer normalverteilten Stichprobe
RandomNormal@μ_, σ_D := Random@NormalDistribution@μ, σDD
ewxneu = 1; sxneu = 1.75; n = 105 ; maxi = 40;
minX = ewxneu − 3 sxneu; maxX = ewxneu + 3 sxneu; ∆x =
maxX − minX
maxi
stichprobe = Table@RandomNormal@ewxneu, sxneuD, 8i, 1, n<D;
häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D;
;
ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HnormalverteiltL
100 000
Häufigkeiten
80 000
60 000
40 000
20 000
0
−4
−2
0
2
4
6
Klassenaufteilung
RELATIVE HÄUFIGKEITEN + SUMMENKURVE HnormalverteiltL
1.0
Häufigkeiten
0.8
0.6
0.4
0.2
0.0
−4
−2
0
2
4
Klassenaufteilung
8ewx
0.993259, sx
1.75179, vx
1.76368<
6
stoch_07.nb
8
Beispiel einer logarithmisch normalverteilten Stichprobe
ewxneu = 3; sxneu = 1.5; n = 105 ; maxi = 40; minwert = 0;
:su =
LogB1 +
sx
2
ewx − minx
ewu = Log@ewx − minxD −
su2
2
F ê. 8ewx → ewxneu, minx → minwert, sx → sxneu< êê N,
ê. 8ewx → ewxneu, minx → minwert< êê N>
80.472381, 0.987041<
su = 0.472381; ewu = .987041;
RandomLogNormal@μ_, σ_D := Random@LogNormalDistribution@μ, σDD
maxX − minX
;
minX = minwert; maxX = ewxneu + 5 sxneu; ∆x =
maxi
stichprobe = Table@RandomLogNormal@ewu, suD, 8i, 1, n<D;
häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D;
ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HlognormalverteiltL
100 000
Häufigkeiten
80 000
60 000
40 000
20 000
0
0
2
4
6
Klassenaufteilung
8
10
stoch_07.nb
9
RELATIVE HÄUFIGKEITEN + SUMMENKURVE HlognormalverteiltL
1.0
Häufigkeiten
0.8
0.6
0.4
0.2
0.0
0
2
4
6
8
10
Klassenaufteilung
8ewx
3.00379, sx
1.4907, vx
0.496273<
7.16 Anhand der obigen log-normalen Verteilung soll auf ein weiteres statistisches Merkmal aufmerksam gemacht werden, die Schiefe einer Verteilung. Um diese beurteilen zu können, nutzt man neben
dem Mittelwert den Medianwert (Zentralwert) und/oder den Modalwert. Unter dem Medianwert verstehen wir genau den Stichprobenwert, bei dem 50% der Gesamtheit der Stichprobe kleiner und 50%
größer als dieser selbst sind. Bei einer linksschiefen eingipfligen Verteilung befindet sich der Median
links vom Mittelwert (siehe oben), bei einer rechtsschiefen Verteilung rechts davon.
7.17 Der Modalwert repräsentiert das Maximum einer Häufigkeitsverteilung. Liegt der Mittelwert links
vom Modalwert spricht man von einer rechtsschiefen Häufigkeitsverteilung, sofern diese eingipflig ist.
Befindet er sich rechts vom ihm, handelt es sich entsprechend um eine linksschiefe Verteilung (siehe
oben).
Herunterladen