stoch_07.nb 1 Grundlagen der Stochastik Das vorliegende Skript wurde im Original mit dem Programmsystem MATHEMATICA ® von WOLFRAM-Research [http://www.wolfram.com] geschrieben und erstmals auf den Webseiten der Hochschule für Technik und Wirtschaft in Dresden (University of Applied Sciences) [http://www.htw-dresden.de] veröffentlicht. Die Schrift trägt den Charakter eines Arbeitskonzepts, so dass ich für Hinweise und Anregungen aller Art, einschließlich zu Rechtschreibung, Grammatik und Druckbild sehr dankbar bin. Mit meinem Beitrag erhebe ich keinen Anspruch auf irgendeine Vollständigkeit bzw. Allgemeingültigkeit. Ich möchte einzig und allein an exemplarischen Problemstellungen der Baumechanik logisch einfache mathematisch-physikalische Lösungsmethoden zur Diskussion stellen. Mirko Slavik, Dresden 7 Beschreibende Statistik 7.1 Die beschreibende Statistik stellt primär die Hilfsmittel zur Verfügung mit denen aus den Werten einer Stichprobe auf die statistischen Eigenschaften der entsprechenden Grundgesamtheit geschlossen werden kann. Die Methoden der angewandten Wahrscheinlichkeitsrechnung (siehe Abschnitt 8) hingegen dienen dazu, mathematische Modelle zu finden, die die Prozesse beschreiben, die zur Herausbildung von Zufallsdaten führen. 7.2 Eine eindimensionale Stichprobe x1 , x2 , ... xi , ... xn-1 , xn , die aus einer Grundgesamtheit in einer zufälligen Reihenfolge i = 1, 2, 3, ... , n gewonnen wird, wobei diese selbst keinen Einfluss auf die Ergebnisse hat, bezeichnet man als probabilistische Stichprobe. 7.3 Der Mittelwert ewx einer solchen Stichprobe berechnet sich zu ewx = Å ⁄ i = 1 xi oder mit der 1 Konstanten c zu ewx = c + Å ⁄ i = 1 xi . 1 n n n n n = 106 ; stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D; ewx == Mean@stichprobeD ewx 14.9948 7.4 Im obigen Beispiel haben wir zur Erzeugung der Stichprobe den internen Zufallsgenerator von MATHEMATICA ® genutzt. Der gemäß mathematischer Logik zu erwartende Mittelwert, den wir als exakten Mittelwert (exakt) bezeichnen wollen, beträgt 27 - 3 2 + 3 = 12 + 3 = 15. Wir interpretieren die Abweichung des berechneten vom exakten Mittelwert als Fehler Dxk einer k-ten Stichprobe. Es gilt ewx = exakt + Dxk . 7.5 Würde man die Erzeugung einer Stichprobe k-fach wiederholen, dann erhielte man den mittleren Fehler mfx = 1 maxk ⁄k = 1 Dxk maxk 7.6 Für das Beispiel (7.3) wird jetzt neben der Wiederholung auch ein sukzessives Erhöhen des Stichprobenumfanges vorgenommen. Die grafische Darstellung der Ergebnisse bestätigt die bekannte Tatsache, dass der Mittelwert für wachsendes n und/oder k als Grenzwert den Mittelwert der Gesamtheit besitzt. stoch_07.nb 2 maxk = 25; exakt = 15; DoB:n = 2k , stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D, 1 ewx@kD = Mean@stichprobeD, ∆xk = ewx@kD − exakt, mfxk = k ‚ ∆xi >, 8k, 1, maxk<F k i=1 Entwicklung des Mittelwertes 20 18 Zahlenwert 16 14 12 10 0 5 10 15 20 25 Stichprobenanzahl k Bild 7.6: Darstellung der Verhältnisse zwischen exaktem Mittelwert (gelb) und den zugeordneten Werten einschließlich der Abweichungen Dxk (rot) bzw. der mittleren Fehler mfx (blau) 7.7 Der Mittelwert einer Stichprobe repräsentiert den besten Schätzwert der gewonnen Zufallsgrößen einer Gesamtheit. Dies kann mit dem fundamentalen Prinzip der Methode der kleinsten Quadrate (MkQ) [6], das Carl Friedrich GAUSS (1777 - 1855) unabhängig von Adrien-Marie LEGENDRE (1752 - 1833) ausgearbeitet hat, sehr anschaulich aufgezeigt werden. Die unten ausgewiesene Anwendung verifiziert diese Methode am Beispiel (7.3). Einen Beweis zur MkQ findet man u. a. in [3]. n = 103 ; maxk = 10 000; ∆k = 0.001; stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D; ewx == Mean@stichprobeD DoB:schätzwert@kD = 10 + ∆k ∗ k, quadratabweichung@kD = ‚ Hstichprobe@@iDD − schätzwert@kDL2 >, 8k, 1, maxk<F n i=1 ewx 15.0795 stoch_07.nb 3 Minimum der Summe der Abweichungsquadrate HBild 7.7L: 48 776.3 bei 815.08< Summe der Abweichungsquadrate 75 000 70 000 65 000 60 000 55 000 50 000 10 12 14 16 18 20 Schätzwerte Bild 7.7: Beispiel zum Prinzip des Minimums der kleinsten Quadrate 7.8 Neben dem Mittelwert interessiert als ein wichtiges Fehler- bzw. Abweichungsmaß die Standardabweichung sx einer Stichprobe. Sie ist die Wurzel der Varianz sx2 (vgl. hierzu Absatz 7.7) : sx2 = 1 n- 1 ⁄in= 1 Hxi - ewxL2 Anmerkung: Vereinzelt findet man in der Literatur statt dem Nenner "n-1" auch "n" allein. Jedoch nur mit "n-1" wird eine erwartungstreue Schätzung der Standardabweichung erreicht (vgl. hierzu u. v. a. [7]). 7.9 Der Mittelwert und die Standardabweichung bzw. Varianz stellen die wichtigsten Merkmale einer Stichprobe dar. Als Beispiel erzeugen wir uns wieder mithilfe des Zufallsgenerators eine Stichprobe, für die wir die entsprechenden Kenngrößen berechnen: n = 105 ; stichprobe = Table@Random@Real, 83, 27<D, 8i, 1, n<D; :ewx == Mean@stichprobeD, sx == Variance@stichprobeD , test_sx == StandardDeviation@stichprobeD> 8ewx 14.9823, sx 6.92619, test_sx 6.92619< 7.10 Um dem Mittelwert und der Standardabweichung einer Stichprobe einen Relativbezug zu verleihen, wird der Variationskoeffizient vx = sx ewx eingeführt. Er spielt eine wichtige Rolle bei der Charakte- ristik von Wahrscheinlichkeitsverteilungen (Abschnitt 8). stoch_07.nb 4 vx == Variance@stichprobeD Mean@stichprobeD vx 0.469562 7.11 Eine weitere Möglichkeit eine Stichprobe zu beurteilen, basiert auf der Frage, wie häufig bleiben die Stichprobenwerte xi einer Zufallsgröße X unter einem bestimmten Wert x , also X b x . Als Ergebnis erhalten wir die absolute Häufigkeitssumme einer Stichprobe, die man auch als Verteilungsfunktion bezeichnet (vgl. Absatz 8. 4). 7.12 Bei kleinen Stichproben erfolgt die Analyse über eine Sortierung der Werte xi ihrer Größe nach. Dieses Vorgehen wird im Falle großer Stichproben zweckmäßigerweise dahingehend approximiert, dass man eine Klassierung des Wertebereiches vornimmt. Hierfür sind in [3], die in der beschreibenden Statistik üblichen Hinweise zur Wahl der Mindestanzahl von Klassen in Abhängigkeit vom Stichprobenumfang zu finden. 7.13 Wir stellen beide Methoden anhand zweier Beispiele dar. Zuerst wird eine gleichverteilte Stichprobe erzeugt, im zweiten Fall bedienen wir uns normalverteilter Daten. Die in den anschließenden Grafiken ausgewiesen roten Punkte stehen für die Ergebnisse, die über eine Klassierung bestimmt worden, die blauen für die gemäß Sortierung ermittelten. Anmerkung: Bezüglich der Charakteristik der beiden gewählten Verteilungstypen, sei auf die ergänzenden Aussagen im Abschnitt 8 hingewiesen. êê N; maxi stichprobe = Table@Random@Real, 8minX, maxX<D, 8i, 1, n<D; geordnet = Sort@stichprobeD; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D; n = 103 ; minX = 3; maxX = 27; maxi = 20; ∆x = maxX − minX HÄUFIGKEITSSUMMENKURVE HgleichverteiltL 1000 Summenhäufigkeit 800 600 400 200 0 0 5 10 15 20 25 Klassenaufteilung 8ewx 14.8942, sx 6.77, vx 0.45454< 30 stoch_07.nb 5 RandomNormal@μ_, σ_D := Random@NormalDistribution@μ, σDD ewxneu = 14.5; sxneu = 7.4; n = 103 ; maxi = 20; êê N; maxi stichprobe = Table@RandomNormal@ewxneu, sxneuD, 8i, 1, n<D; geordnet = Sort@stichprobeD; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D; minX = ewxneu − 4 sxneu; maxX = ewxneu + 4 sxneu; ∆x = maxX − minX HÄUFIGKEITSSUMMENKURVE HnormalverteiltL 1000 Summenhäufigkeit 800 600 400 200 0 −20 −10 0 10 20 30 40 50 Klassenaufteilung 8ewx 14.5631, sx 7.50263, vx 0.51518< 7.14 Anbetracht der enormen Rechengeschwindigkeit heutiger Hardware, bereitet es keine Schwierigkeit hinreichend große Stichproben sowie ausreichend kleine Intervalle für die Analyse der gewonnenen Daten zu erzeugen. Deshalb weiche ich in den weiteren Algorithmen etwas von der üblichen Vorgehensweise ab, indem keine Korrektur auf die Intervallmitten vorgenommen wird, sondern der Bezug auf den rechten Intervallrand bestehen bleibt. 7.15 Basierend auf der oben vorgestellten Klassierungsmethode werden jetzt zusätzlich die Verteilungen der Häufigkeiten (blau) über die einzelnen Klassen ausgewiesen und diese mit den zugehörigen Häufigkeitsummen (rot), den eigentlichen Verteilungsfunktionen verglichen. Es erfolgt zuerst die Darstellung der absoluten Zuordnungen und im Anschluss die der relativen Funktionen, bei denen die Absolutwerte auf den jeweiligen gesamten Stichprobenumfang bezogen worden sind. stoch_07.nb 6 Beispiel einer gleichverteilten Stichprobe êê N; maxi stichprobe = Table@Random@Real, 8minX, maxX<D, 8i, 1, n<D; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D; n = 104 ; minX = −2; maxX = 4; maxi = 40; ∆x = maxX − minX ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HgleichverteiltL 10 000 Häufigkeiten 8000 6000 4000 2000 0 −2 0 2 4 Klassenaufteilung RELATIVE HÄUFIGKEITEN + SUMMENKURVE HgleichverteiltL 1.0 Häufigkeiten 0.8 0.6 0.4 0.2 0.0 −2 0 2 4 Klassenaufteilung 8ewx 1.04932, sx 1.73363, vx 1.65214< stoch_07.nb 7 Beispiel einer normalverteilten Stichprobe RandomNormal@μ_, σ_D := Random@NormalDistribution@μ, σDD ewxneu = 1; sxneu = 1.75; n = 105 ; maxi = 40; minX = ewxneu − 3 sxneu; maxX = ewxneu + 3 sxneu; ∆x = maxX − minX maxi stichprobe = Table@RandomNormal@ewxneu, sxneuD, 8i, 1, n<D; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D; ; ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HnormalverteiltL 100 000 Häufigkeiten 80 000 60 000 40 000 20 000 0 −4 −2 0 2 4 6 Klassenaufteilung RELATIVE HÄUFIGKEITEN + SUMMENKURVE HnormalverteiltL 1.0 Häufigkeiten 0.8 0.6 0.4 0.2 0.0 −4 −2 0 2 4 Klassenaufteilung 8ewx 0.993259, sx 1.75179, vx 1.76368< 6 stoch_07.nb 8 Beispiel einer logarithmisch normalverteilten Stichprobe ewxneu = 3; sxneu = 1.5; n = 105 ; maxi = 40; minwert = 0; :su = LogB1 + sx 2 ewx − minx ewu = Log@ewx − minxD − su2 2 F ê. 8ewx → ewxneu, minx → minwert, sx → sxneu< êê N, ê. 8ewx → ewxneu, minx → minwert< êê N> 80.472381, 0.987041< su = 0.472381; ewu = .987041; RandomLogNormal@μ_, σ_D := Random@LogNormalDistribution@μ, σDD maxX − minX ; minX = minwert; maxX = ewxneu + 5 sxneu; ∆x = maxi stichprobe = Table@RandomLogNormal@ewu, suD, 8i, 1, n<D; häufig = BinCounts@stichprobe, 8minX, maxX, ∆x<D; ABSOLUTE HÄUFIGKEITEN + SUMMENKURVE HlognormalverteiltL 100 000 Häufigkeiten 80 000 60 000 40 000 20 000 0 0 2 4 6 Klassenaufteilung 8 10 stoch_07.nb 9 RELATIVE HÄUFIGKEITEN + SUMMENKURVE HlognormalverteiltL 1.0 Häufigkeiten 0.8 0.6 0.4 0.2 0.0 0 2 4 6 8 10 Klassenaufteilung 8ewx 3.00379, sx 1.4907, vx 0.496273< 7.16 Anhand der obigen log-normalen Verteilung soll auf ein weiteres statistisches Merkmal aufmerksam gemacht werden, die Schiefe einer Verteilung. Um diese beurteilen zu können, nutzt man neben dem Mittelwert den Medianwert (Zentralwert) und/oder den Modalwert. Unter dem Medianwert verstehen wir genau den Stichprobenwert, bei dem 50% der Gesamtheit der Stichprobe kleiner und 50% größer als dieser selbst sind. Bei einer linksschiefen eingipfligen Verteilung befindet sich der Median links vom Mittelwert (siehe oben), bei einer rechtsschiefen Verteilung rechts davon. 7.17 Der Modalwert repräsentiert das Maximum einer Häufigkeitsverteilung. Liegt der Mittelwert links vom Modalwert spricht man von einer rechtsschiefen Häufigkeitsverteilung, sofern diese eingipflig ist. Befindet er sich rechts vom ihm, handelt es sich entsprechend um eine linksschiefe Verteilung (siehe oben).