Statistik Dr. rer. nat. Jürgen Vogel 13. Februar 2005 Diese Seite bleibt für gewöhnlich weiß Inhaltsverzeichnis I Deskriptive Statistik 7 1 Grundbegriffe 1.1 GrundgesamtheitGrundgesamtheit und Merkmale . . . . . . . . . 1.2 Ermittlung von Beobachtungswerten . . . . . . . . . . . . . . . . 1.3 Quellen wirtschaftsstatistischer Daten . . . . . . . . . . . . . . . 9 9 10 10 2 Häufigkeitsverteilungen 2.1 Prim. Häufigkeitstabelle . . . . . . . . . . . . . 2.2 Sekundäre Häufigkeitstabelle (Klassenbildung) 2.3 Grafische Darstellung von Häufigkeiten . . . . . 2.3.1 Für metrische Daten . . . . . . . . . . . 2.3.2 Für ordinale Daten . . . . . . . . . . . . 2.3.3 Für nominale Daten . . . . . . . . . . . . . . . . . 11 11 13 14 14 16 16 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Statistische Maßzahlen 3.1 Lageparameter . . . . . . . . . . . . . . . . . 3.1.1 Arithmetisches Mittel . . . . . . . . . 3.1.2 Der empirische Median (Zentralwert) . 3.1.3 Modalwert (Modus) . . . . . . . . . . 3.1.4 Gewogenes arithmetisches Mittel . . . 3.1.5 Geometrisches Mittel . . . . . . . . . . 3.2 Streuungsmaße . . . . . . . . . . . . . . . . . 3.2.1 Empirische Varianz . . . . . . . . . . . 3.2.2 Quartilsabstand . . . . . . . . . . . . 3.3 Box-Whisker-Plot . . . . . . . . . . . . . . . . 3.4 Empirische Momente . . . . . . . . . . . . . . 3.4.1 Interpretation von Exzess und Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 17 18 18 19 19 19 19 20 21 22 23 4 Indexzahlen 4.1 Empirische Indizes . . . . . . . . 4.2 Zusammengesetzte Indizes . . . . 4.2.1 Indexformeln . . . . . . . 4.3 Einige Indizes aus der Wirtschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 27 28 29 . . . . . . der . . . . . . . . . . . . BRD . . . . 5 Zusammenhänge zwischen Merkmalen 31 5.1 Der empirische Korrelationskoeffizient . . . . . . . . . . . . . . . 31 5.2 Der Rangkorrelationskoeffizient . . . . . . . . . . . . . . . . . . . 32 5.3 Kontingenzkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . 33 3 4 6 Lineare Regression 37 6.1 Einfache Lineare Regression . . . . . . . . . . . . . . . . . . . . . 37 6.2 Curvilineare Regression . . . . . . . . . . . . . . . . . . . . . . . 39 6.2.1 Weitere Beispiele für linear transformierbare Ansätze . . . 40 7 Wahrscheinlichkeitsrechnung 7.1 Zufällige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . 7.1.1 Beziehungen zwischen Ereignissen und Operationen Ereignissen . . . . . . . . . . . . . . . . . . . . . . . 7.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Eigenschaften von Wahrscheinlichkeiten . . . . . . . 7.3 Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . 7.4 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . 7.5 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . 7.6 Parameter von Verteilungen . . . . . . . . . . . . . . . . . . 7.6.1 Weitere Parameter . . . . . . . . . . . . . . . . . . . 7.7 Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . 7.7.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . 7.7.2 Hypergeometrische Verteilung . . . . . . . . . . . . . 7.7.3 Poissonverteilung . . . . . . . . . . . . . . . . . . . . 7.8 Spezielle stetige Verteilungen . . . . . . . . . . . . . . . . . 7.8.1 Rechteckverteilung . . . . . . . . . . . . . . . . . . . 7.8.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . 7.9 Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . . 7.9.1 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . II . . . mit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Schliessende Statistik 8 Grundbegriffe der schl. Stat. 41 41 42 44 45 45 46 47 49 49 50 50 50 51 51 51 52 53 53 55 57 9 Wichtige Stichprobenfunktionen 59 9.1 Das Stichprobenmittel . . . . . . . . . . . . . . . . . . . . . . . . 59 9.2 Die Stichprobenvarianz . . . . . . . . . . . . . . . . . . . . . . . . 59 9.3 Die Verteilungen von X̄ und S 2 für normalverteiltes Merkmal . . 60 10 Punktschätzungen 63 10.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . 63 10.2 Wünschenswerte Eigenschaften . . . . . . . . . . . . . . . . . . . 63 11 Bereichsschätzungen 11.1 Definitionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Quantile von Prüfverteilungen . . . . . . . . . . . . . . . . . . . . 11.2.1 Standardnormalverteilung . . . . . . . . . . . . . . . . . . 11.2.2 t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.3 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 11.3 Konfidenzintervalle für die Parameter eines normalverteilten Merkmals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Konfidenzintervall für µ . . . . . . . . . . . . . . . . . . . 11.3.2 Konfidenzintervall für σ 2 = D2 X . . . . . . . . . . . . . . TU-Ilmenau: Statistik 67 67 68 68 69 70 71 71 72 5 11.3.3 Konfidenzintervall für σ = DX . . . . . . . . . . . . . . . 11.4 Konfidenzintervall für eine Wahrscheinlichkeit p . . . . . . . . . . 72 72 12 Signifikanztests 12.1 Grundbegriffe der Testtheorie . . . . . . . . 12.2 Paramtertests für normalverteiltes Merkmal 12.2.1 Herleitung des einfachen t-Tests . . . 12.2.2 Der χ2 -Streuungstest . . . . . . . . . 12.3 Test auf Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 75 76 76 77 78 13 Statistische Qualitätskontrolle 13.1 Kontrollkarten . . . . . . . . . 13.1.1 Die x̄-Karte . . . . . . 13.1.2 Die x̄/s Karte . . . . . . 13.1.3 Die p-Karte . . . . . . . 13.2 Stichprobenpläne . . . . . . . . 13.3 Kennwerte für OC-Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 79 79 81 82 83 84 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Anpassungstests 87 14.1 Der χ2 -Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . 87 14.2 Test auf Normalverteilung mittels Schiefe und Exzess . . . . . . . 88 15 Unabhängigkeit von Merkmalen 15.1 Zweidimensionale Verteilungen . . . . . . 15.2 Unabhängigkeit von Zufallsgrößen . . . . 15.3 Unkorreliertheit von Zufallsgrößen . . . . 15.4 Test auf Unabhängigkeit/Unkorreliertheit 15.5 χ2 -Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Stichprobenvergleiche 16.1 Der doppelte t-Test (Mittelwerttest) 16.2 Die F-Verteilung (R.A. Fisher) . . . 16.3 Der F-Test . . . . . . . . . . . . . . 16.4 Varianzanalyse . . . . . . . . . . . . 16.5 Der Vorzeichen-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 . 97 . 98 . 99 . 100 . 102 A Klausuraufgaben A.1 Klausur Statistik 1 A.1.1 Aufgabe 1 . A.1.2 Aufgabe 2 . A.1.3 Aufgabe 3 . A.1.4 Aufgabe 4 . A.1.5 Aufgabe 5 . A.2 Klausur Statistik 2 A.2.1 Aufgabe 1 . A.2.2 Aufgabe 2 . A.2.3 Aufgabe 3 . A.2.4 Aufgabe 4 . A.2.5 Aufgabe 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . TU-Ilmenau: Statistik 91 91 92 93 93 94 105 105 105 106 107 107 108 109 109 109 110 111 111 Teil I Deskriptive Statistik 7 Kapitel 1 Grundbegriffe 1.1 GrundgesamtheitGrundgesamtheit und Merkmale Menge gleichartiger Objekte, an denen mindestens eine Eigenschaft untersucht werden soll. Merkmal: Diese Eigenschaft [Maßeinheit] Ausprägungen: Werte, die das Merkmal annehmen kann Die Elemente der Grundgesamtheit nennt man Untersuchungseinheiten oder statistisches Element. Sie tragen die Information. Grundgesamtheit muss klar definiert sein, also abgrenzen: sachlich, zeitlich, örtlich. Beispiele Studienwunsch von Abiturienten. Grundgesamtheit: Alle Schüler von 12. Klassen in Thüringen im April 2004. Untersuchungseinheit: Schüler. Merkmal: 1. Studienwunsch. Ausprägungen: WI, WIW, Medizin, Jura, . . . Altersstruktur der deutschen Bevölkerung. Grundgesamtheit: Deutsche Bevölkerung am 31.12.2003 . Untersuchungseinheit: Einwohner Deutschlands. Merkmal: Lebensalter [Jahre]. Ausprägungen: 0,1,2, . . . , 120 Volkswirtschaftliche Daten der Länder. Grundgesamtheit: Alle Staaten, die am 31.12.2003 der EU angehörten. Untersuchungseinheit: Staat. Merkmale: – BIP [Mrd. ¿ ]. Ausprägungen: 23,1 . . . 2129,2 – Arbeitslosenquote [%]. Ausprägungen: 3,7 . . . 11,3 – Inflationsrate [%]. Ausprägungen: 1,0 . . . 4,0 Statistische Untersuchungen verlangen viele Untersuchungseinheiten, weil statistische Gesätzmäßigkeiten erst bei Beteiligung vieler offenbar werden. Ursache: Gesetz der großen Zahlen. 9 10 Beispiel: Wurf einer Münze Grundgesamtheit: Alle Münzwürfe am 07.04.2004 in HS2. Untersuchungseinheit: Münzwurf. Merkmal: Oben liegende Seite. Ausprägungen: Zahl, Wappen. Anzahl der Würfe 3 300 1000 10000 24000 davon Wappen 2 148 478 4984 12012 rel. Häufigkeit 0,6667 0,4933 0,4780 0,4984 0,5005 Gesetzmäßigkeit: Die Wahrscheinlichkeit, dass beim Wurf mit einer Münze “Wappen” oben liegt beträgt 0,5. Die tatsächlich gemessenen oder beobachteten Merkmalswerte nennt man Beobachtungswerte. Die 1. Auflistung solcher Werte nennt man Urliste. 1.2 Ermittlung von Beobachtungswerten Befragung (mündlich, schriftlich) Beobachtung (z.B. Verkehrszählung) Experiment (z.B. Intelligenztest) Automatische Erfassung (z.B. Computer, Zählwerk) Sekundärerhebung (z.B. Veröffentlichung, statistisches Jahrbuch) Datenerfassung kann erfolgen als: Vollerhebung (Grundgesamtheit prüfen) (z.B. Volkszählung) Teilerhebung (z.B. Mikro-Zensus) Die Teilerhebung ist die Voraussetzung für die schließende Statistik. Hier: Beobachtungswerte = Stichprobe. 1.3 Quellen wirtschaftsstatistischer Daten Amtliche Statistiken – Statistische Jahrbücher (UN, EU, Bund, Länder, Städte) – Zeitschrift “Wirtschaft & Statistik” – Ressortstatistiken der Ministerien (z.B. Arbeitslosenstatistik von der Bundesagentur für Arbeit) Nicht amtliche Statistiken – Betriebsstatistiken – Statistiken von Wirtschaftsverbänden, Forschungsinstituten, Meinungsforschungsinstituten TU-Ilmenau: Statistik Kapitel 2 Häufigkeitsverteilungen Bezeichnungen : Merkmale: X, Y, Z Beobachtungswerte: x1 , x2 , x3 , . . . , xn y1 , y2 , y3 , . . . , ym Beobachtungsumfang = Stichprobenumfang: n Anliegen : Urliste meist unübersichtlich, Verteilung der Beobachtungswerte sichtbar machen. Vorbereitender Schritt : Eventuell: Ordnen der Beobachtungswerte der größe nach (ordinal Skala). Zurest hat man die Urliste, nach der Ordnung eine Variationsreihe: x(1) , x(2) , . . . , x(n) mit x(1) ≤ x(2) ≤ . . . ≤ x(n) 2.1 Prim. Häufigkeitstabelle Sinvoll, wenn die meisten Ausprägungen in der Urliste mehrfach vorkommen. Es seien: X ein Merkmal, a1 , a2 , . . . , ak die Ausprägungen von X, x1 .x2 , . . . , xn 11 12 die Beobachtungswerte zu X, wobei gilt, n>k Beispiel 1 : Abweichungen vom Sollmaß: (eine bestimmte Länge von Teilen aus der laufenden Produktion) [µm] Urliste: 3, 2, −1, −2, 0, 1, 2, −1, 1, 0, 0, 0, 0, −4, 3, 1, −2, −1, −3, 4 n=20 Ausprägungen: -4 -3 -2 -1 0 1 2 3 4 a1 a2 a3 a4 a5 a6 a7 a8 a9 Absolute Häufigkeit : der Ausprägung aj (j = 1, 2, . . . , k). hj = h(aj ) (2.1) “Anzahl des Auftretens von aj in der Urliste” Relative Häufigkeit : der Ausprägung aj (j = 1, 2, . . . , k) fj = f (aj ) = h(aj ) n (2.2) Es gilt: k X j=1 hj = n ; k X fj = 1 (2.3) j=1 Die Summe über alle Absoluten Häufigkeiten ist gleich dem Stichprobenumfang und die Summe über alle Relativen Häufigkeiten ist 1. Zum Beispiel 1 : Häufigkeitstabelle in Minimalform j aj hj Strichliste fj Summenhäufigkeit Hj 1 -4 1 1 0,05 1 2 -3 1 1 0,05 2 3 -2 2 2 0,10 4 4 -1 3 3 0,15 7 5 0 5 5 0,25 12 6 1 3 3 0,15 15 7 2 2 2 0,10 17 8 3 2 2 0,10 19 9 4 1 1 0,05 20 Kummulative Häufigkeit (Summenhäufigkeit) : Absolut: j X Hj = hi i=1 TU-Ilmenau: Statistik Summenhäufigkeit Fj 0,05 0,10 0,20 0,35 0,60 0,75 0,85 0,95 1,0 (2.4) 13 Relativ: Fj = j X fj (2.5) i=1 In einer primären Häufigkeitstabelle ist die gesamte Information der Urliste noch enthalten. 2.2 Sekundäre Häufigkeitstabelle (Klassenbildung) Ziel: Informationsgehalt verdichten, um Gesetzmäßigkeiten besser sichtbar zu machen. Methode: Benachbarte oder ähnliche Ausprägungen werden zu Klassen zusammengefasst. ae2 Mitte der 2.ten Klasse aej Mitte der j.ten Klasse hi absolute Häufigkeit der i.ten Klasse fi relative Häufigkeit der i.ten Klasse Sekundäre Häufigkeitstabelle : Klasse Mitte abs. Hfgk. rel. Hfgk. (-4,5;-2,5) -3,5 2 0,10 [-2,5;-0,5) -1,5 5 0,25 [-0,5;1,5) 0,5 8 0,40 [1,5;4,5) 3,0 5 0,25 P 20 1,00 Regeln für das erstellen von sekundären Häufigkeits-Tabellen: Eigentlich nie weniger als 5 Klassen bilden. Eindeutige Klassenbezeichnungen wählen (genau in die Mitte von 2 Werten gehen). Mitte in der Mitte lassen (Intervall). Möglichst äquidistante Klasseneinteilungen wählen, da die Anzeige sonst verfälscht wird (äquidistant bedeutet gleichbreite Klassen). In unserem Beispiel sind die Klassen 2 bzw. 3 µm breit. Offene Flügelklassen vermeiden. Die Anzahl der Klassen hängt vom Stichprobenumfang ab. Anzahl m der Klassen: n m 50 . . . 200 5 . . . 12 200 . . . 1000 12 1000 . . . 10 . . . 20 Faustformel: m = 1 + 1, 44 ∗ ln n aej -3,5 -1,5 0,5 3,0 hj 2 5 8 5 TU-Ilmenau: Statistik (2.6) 14 2.3 Grafische Darstellung von Häufigkeiten 2.3.1 Für metrische Daten 1. Histogramm Abweichungen vom Sollmaß Beachte: (a) Abzisse metrisch skalieren, nicht Klassen-Namen sondern die Abweichungen. (b) Ordinate: absolute oder relative Häufigkeiten, Fußpunkt der Säulen soll 0 sein, keine Lücken zwischen die Säulen, es sei denn, man möchte die Häufigkeit 0 darstellen. (c) Histogramm ermöglicht auch die Darstellung nicht äquidistanter Klassen. Dabei gilt: i. Flächeninhalt ∼ Häufigkeit. ii. Ordinate bedeutungslos. iii. Da am Flächeninhalt ausgerichtet, mußman breitere oder kürzere Klassen beachten und darf die Höhe nicht einfach blind eintragen (Klasse 4 hat nur eine Höhe von 3,33) TU-Ilmenau: Statistik 15 2. Häufigkeitspolygon nur für äquidistante Klassen oder primäre Häufigkeitstabellen. (a) Punkt ist über der Klassenmitte bzw. Ausprägung. (b) Ordinate: Nullpunkt = Fußpunkt. (c) Beide zusätzlichen Flügelklassen mit einzeichnen. TU-Ilmenau: Statistik 16 2.3.2 Für ordinale Daten 1. Balkendiagramm Die Balkenhöhe sollte der Häufigkeit entsprechen, Lücken müssen zwischen den Balken gezeichnet werden, sonst Verwechslung mit Histogramm möglich. Mitgliederzahlen in einem Verband: 2.3.3 Für nominale Daten 1. Balkendiagramm 2. Kreisdiagramm (a) Winkel ∼ Häufigkeit (b) ϕi = hi n = 360◦ TU-Ilmenau: Statistik Kapitel 3 Statistische Maßzahlen 3.1 3.1.1 Lageparameter Arithmetisches Mittel Für metrische Daten: n x̄ = 1X xi n i=1 (3.1) Für gehäufte Daten: k x̄ = 1X a j hj n j=1 (3.2) Für gruppierte Daten (sekundäres Häufigkeitsdiagramm): m x̄ = Beispiel 1 1X aej hj n j=1 (3.3) Abweichungen vom Sollmaß: x̄ = 1 1 (3 + 2 − 1 − 2 − 0 + . . . + 4) = ∗ 3 = 0, 15µm 20 20 Die Abweichungen vom Sollmaß betragen im Mittel 0, 15µm. Oder: Die Teile werden mit einem systematischen Fehler von 0, 15µm produziert. Zum Vergleich x̄ aus der Klasseneinteilung. x̄ = 1 1 (−3, 5 ∗ 2 − 1, 5 ∗ 5 + 0, 5 ∗ 3 + 3, 0 ∗ 5) = ∗ 4, 5 = 0, 225 20 20 Minimaleigenschaft des arithmetischen Mittels: Die mittlere quadratische Abweichung der Beobachtungswerte xi von einer reellen Zahl a: n X 1 = (x − i − a)2 n i=1 wird genau dann minimal, wenn a = x̄ 17 (3.4) 18 3.1.2 Der empirische Median (Zentralwert) x?1 , x?2 , . . . , x?n geordnete Stichprobe für ordinale Daten. ( M ed = x?n+1 2 falls n ungerade 1 ? 2 (x n 2 ? + x n +1 ) falls n gerade (3.5) 2 Vereinfacht: Die Hälfte aller Beobachtungswerte ist kleiner als der Median, die andere Hälfte ist größer. Beispiel 2 7 zufällig ausgewählte Schüler Merkmal X = Mathe-Note; Stichprobe: 2, 1, 2, 5, 3, 4, 3 Variationsreihe: 1 = x?1 , 2 = x?2 , 2 = x?3 , 3 = x?4 , 3 = x?5 , 4 = x?6 , 5 = x?7 ; n=7, also ungerade M ed = x?7+1 = x?4 2 Beispiel 1 Abweichungen vom Sollmaß n=20, also gerade. x? + x?11 0+0 M ed = 10 = 2 2 Minimaleigenschaft des Medians: Die mittlere absolute Abweichung der Beobachtungswerte von einer reellen Zahl a, n 1X | xi − a | n i=1 wird minimal, wenn a der Median ist. 3.1.3 Modalwert (Modus) Für nominale Daten. Der Modalwert befindet sich dort, wo das Histogramm seinen Höhepunkt hat. Definition: M od = aj mit hj ≥ hi für alle i = 1, 2, . . . , k Wenn es nur einen Modalwert gibt, dann nennt man das Unimodal. Modalwert ist die Ausprägung mit der größten Häufigkeit (entsprechend: modale Klasse). Beispiel 1 Abweichungen vom Sollmaß M od = 0 Beispiel 2 Mathe Noten M od = 2 ∧ M od = 3 Modalwerte: 2 und 3. TU-Ilmenau: Statistik 19 3.1.4 Gewogenes arithmetisches Mittel Für metrische Daten. Beobachtungswerte sollen mit unterschiedlichen Gewichten in die Mittelwertbildung eingehen: Pn xi gi x̄gew = Pi=1 (3.6) n i=1 gi Beispiel : 3 Arbeiter am Fließband schaffen 450, 430 bzw. 500 Stück pro Stunde. Letzterer arbeitet 4h täglich, die beiden anderen jeweils 8h. welche durchschnittliche Arbeitsleistung erbringen die 3 Arbeiter zusammen? 450 ∗ 8 + 430 ∗ 8 + 500 ∗ 4 = 452[Stueck/Stunde] 20 Wenn man nicht gewichtet hätte so ergäbe sich x̄ = 460. x̄gew = 3.1.5 Geometrisches Mittel Für metrische, positive Daten. Einleitendes Beispiel: Der Wert eines Warenkorbes wächst jährlich mit den Faktoren c1 , c2 , . . . , cn und erreicht nach n-Jahren den Wert r √ Wn Wn = W0 ∗c∗c∗c∗. . .∗c =⇒ cn = c1 ∗c2 ∗c3 ∗. . .∗cn =⇒ c = n c1 ∗ c2 ∗ . . . ∗ cn = n W0 √ x̄geo = n x1 ∗ x2 ∗ . . . ∗ xn (3.7) xn > 0 Wachstumsrate im i.ten Jahr ri := (ci − 1) ∗ 100% r̄ = (c̄geo − 1) ∗ 100% Es gilt: x̄geo ≤ x̄ Beispiel: Familie Müller verbraucht im 1. Jahr 6200 KWh Heizenergie, im 6. Jahr 5055 KWh. Wie groß ist die mittlere Jährliche Wachstumsrate bei dieser Heizenergie? r 5 5055 c̄geo = ≈ 0, 96 ⇒ r̄ = (0, 96 − 1) ∗ 100 = −4% 6200 3.2 3.2.1 Streuungsmaße Empirische Varianz Für metrische Daten. n 1 X 1 s = (xi − x̄)2 = n − 1 i=1 n−1 2 "à n X ! x2i # 2 − n ∗ x̄ (3.8) i=1 Für gruppierte metrische Daten: s2 ≈ ¢ 1 X¡ 2 xi ∗ hi − x̄ n TU-Ilmenau: Statistik (3.9) 20 Mittlere Quadratische Abweichung der Beobachtungswerte vom arithmetischen Mittel . Bei gruppierten Daten: m 1 X f2 s ≈ (aej ∗ hj ) − n ∗ x n − 1 j=1 2 (3.10) Wobei aej die klassenmitte bezeichnet, und x e die Näherung für x̄ aus der sekundären Häufigkeitstabelle. Empirische Standardabweichung: s= √ s2 Variationskoeffizient (normierte Standardabweichung, sie dient zum Vergleich von Streuungen auf verschiedenen Skalen): v= Beispiel 1 s ∗ 100% x̄ Abweichungen vom Sollmaß s2 = ¤ 1 £ (3 − 0, 15)2 + . . . + (4 − 0, 15)2 ≈ 4, 24[µm] 19 p s = 4, 24 ≈ 2, 06[µm] Die Abweichungen vom Sollmaß schwanken mit der empirischen Varianz 4, 24µm2 um den Mittelwert. Aus der Klasseneinteilung ergibt sich: s2 = 4, 30; s = 2, 07 3.2.2 Quartilsabstand Für ordinale Daten. Man braucht hierzu die Variationsreihe x?1 , x?2 , . . . , x?n mit x?1 ≤ x?2 ≤ . . . ≤ x?n . dxe bedeutet, x soll auf die nächste ganz Zahl aufgerundet werden. Unteres Quartil: ½1 x0,25 := ? 2 (x n 4 n xd 4 e + x?n +1 ) 1 ? 2 (x 3n 4 + x?3n +1 ) falls n durch 4 teilbar 4 sonst 4 falls n durch 4 teilbar sonst (3.11) Oberes Quartil: ( x0,75 := xd 34 ne (3.12) Quartilsabstand: = x0,75 − x0,25 d 75 25 TU-Ilmenau: Statistik (3.13) 21 Beispiel 1 Abweichungen vom Sollmaß Variationsreihe: (n = 20) −4, −3, −2, −2, −1, −1, −1, 0, 0, 0, 0, 0, 1, 1, 1, 2, 2, 3, 3, 4 x0,25 = 1 ? 1 (x + x?6 ); x0,75 = (x?15 + x?16 ) 2 5 2 x0,25 = −1; x0,75 = 1, 5 d = 1, 5 − (−1) = 2, 5 Beispiel 2 Mathe Noten Variationsreihe: (n = 7) 1, 2, 2, 3, 3, 4, 5 x0,25 = x?2 = 2 x0,75 = x?6 = 4 d 75 =2 25 3.3 Box-Whisker-Plot Für ordinale Daten. Grafische Darstellung von 5 Meßdaten: xmin , unteres Quartil, Median, oberes Quartil, xmax Beispiel 1 Abweichungen vom Sollmaß Bemerkungen: Zum Box-Plot gehört eine Skala Box-Plots sind besonders sinnvoll zum Vergleich mehrerer Häufigkeitsverteilungen TU-Ilmenau: Statistik 22 Die Spannweite R = xmax − xmin = D wurde früher als Streungsmaß benutzt 3.4 Empirische Momente Für metrische Daten. Anfangsmoment: n MA;k = Zentralmoment: 1X k x n i=1 i (3.14) n MZ;k = 1X (xi − x̄)k n i=1 (3.15) k-ter Ordnung (k = 1, 2, 3, . . .). Schon benutzt: MA;1 = x̄ ; MZ;1 = 0 ; MZ;2 = n−1 2 n s Noch interessant: MZ;3 ; MZ;4 Empirische Schiefe: Sch = MZ;3 3 (MZ;2 ) 2 (3.16) (−∞ < Sch < ∞) Exzess (Wölbung): Exz = MZ;4 −3 (MZ;2 )2 (−3 < Exz < ∞) TU-Ilmenau: Statistik (3.17) 23 3.4.1 Interpretation von Exzess und Schiefe Symmetrisch (Schiefe = 0): Rechtsschief (Schiefe > 0) (linkssteil): TU-Ilmenau: Statistik 24 Linksschief (Schiefe < 0) (rechtssteil): Normal gewölbt tisch): (Exzess = 0) (Wölbung der Gaußschen Glocke) (mesokur- TU-Ilmenau: Statistik 25 Spitz gewölbt (Exzess > 0) (leptokurtisch) Flach gewölbt (Exzess < 0) (platykurtisch) Schiefe und Exzess werden benötigt, um zu beurteilen, ob ein Merkmal normalverteilt sein kann. TU-Ilmenau: Statistik 26 Beispiel 1 Abweichungen vom Sollmaß 20 MZ;2 = 1 X (xi − x̄)2 = 4, 0275[µm]2 20 i=1 MZ;3 = 1 X (xi − x̄)3 = −0, 466[µm]4 20 i=1 MZ;4 = 1 X (xi − x̄)4 = 40, 985[µm]4 20 i=1 20 20 Sch = Exz = −0, 466 3 (4, 0275) 2 ≈ −0, 06 40, 985 − 3 ≈ −0, 47 4, 02752 Die Häufigkeitsverteilung ist symmetrisch und leicht flach gewölbt. TU-Ilmenau: Statistik Kapitel 4 Indexzahlen Index ist der Quotient zweier gleichartiger Maßzahlen, wobei der Nenner die Basis repräsentiert. 4.1 Empirische Indizes Gegeben sei eine Reihe von Beobachtungswerten xo , x1 , x2 , . . . Wahl eines Basiszeitpunktes z.B. t = 0 I0T := xk ∗ 100% x0 (4.1) Liefert für t = 0, 1, 2, . . . eine folge einfacher Indizes I00 , I01 , . . .. Beispiel Anzahl der Studierenden an deutschen Hochschulen im Wintersemester [Tsd.] t Jahr Anzahl Index I0t Index I5t 0 1960 247 100 % 13,7 % 1 1970 422 170,9 % 23,5 % 2 1980 1036 419,4 % 57,6 % 3 1990 1719 696,0 % 95,6 % 4 1995 1858 752,2 % 103,3 % 5 2000 1799 728,3 % 100 % Basis 1960 Basis 2000 Umbasieren von t = 0 auf t = k: Ikt = 4.2 I0t I0k (4.2) Zusammengesetzte Indizes Beobachtungswerte werden zunächst gewichtet, bevor man sie ins Verhältnis setzt. Wichtung kann fiktiv sein, z.B. Sterbeziffer der Stadt A, wenn sie die Altersstruktur der Stadt B hätte. Für die Wirtschaft: Preisindex 27 28 Mengenindex Umsatzindex Im Nenner: Basiszeitpunkt (-zeitraum): “BaZ” Im Zähler: Berichtszeitpunkt (-zeitraum): “BeZ” Beispiel Durchschnittlicher Verbrauch an Fleisch der privaten Haushalte und die Fleischpreise einer Gemeinde in einem Monat: Fleischsorte Preis BaZ Preis BeZ Menge BaZ Menge BeZ Rindfleisch (kochen) 3,8 3,5 1,45 1,41 Rindfleisch (braten) 6,0 6,2 1,31 1,04 Schweinefleisch 4,5 4,3 4,74 4,43 Preisindex: P3 M engeBaZ ∗ P reisBeZ I p = P3i=1 M engeBaZ ∗ P reisBaZ i=1 = 3, 5 ∗ 1, 45 + 6, 2 ∗ 1, 31 + 4, 3 ∗ 4, 74 ≈ 96, 77% 3, 8 ∗ 1, 45 + 6, 0 ∗ 1, 31 + 4, 5 ∗ 4, 74 Der Fleischpreis ist im Mittel um 3,2 % gefallen. Der Preisindex setzt die Preise von BeZ und BaZ ins Verhältnis. Die Verbrauchsmengen fungieren als Gewichte. Im Zähler und Nenner wird einheitlich gewichtet. Zum Baz: Laspeyres-Index, zum BeZ: Paasche-Index. Allgemein: Von k Gütern seien für BaZ und BeZ die Mengen und die Preise bekannt. Gut Preis BaZ Preis BeZ Menge BaZ Menge BeZ 1 p01 p11 q01 q11 2 p02 p12 q02 q12 .. .. .. .. .. . . . . . k p0k p1k q0k q1k 4.2.1 Indexformeln Umsatzindex: Laspeyres : Preisindex: Mengenindex: P p1i ∗ q1i I (u) = P p0i ∗ q0i (4.3) P p1i ∗ q0i (p) IL = P p0i ∗ q0i (4.4) P p0i ∗ q1i (q) IL = P p0i ∗ q0i (4.5) TU-Ilmenau: Statistik 29 Paasche : Preisindex: (p) IP P p1i ∗ q1i =P p0i ∗ q1i (4.6) (q) IP P p1i ∗ q1i =P p1i ∗ q0i (4.7) Mengenindex: Beispiel Fleischverbrauch (p) IL ≈ 96, 77% (q) IL ≈ 90, 87% (p) IP ≈ 96, 51% (q) IP ≈ 90, 63% I (u) ≈ 87, 70% 4.3 Einige Indizes aus der Wirtschaft der BRD Werden alle nach Laspeyres berechnet 1. Preisindex für die Lebenserhaltung. Es gibt 4 Stück: Alle Private Haushalte 4 Personen (Arbeitnehmer) mit mittlerem Einkommen 4 Personen (Beamte) mit höherem Einkommen 2 Personen (Rentner / Sozialhilfeempfänger) Warenkorb aus 750 Waren und Dienstleistungen, 400000 Preisreihen aus 100 Gemeinden, einfacher bis mittlerer Qualität. 2. Index der Einzelhandelspreise: Verkaufspreise inkl. MwSt. des Einzelhandels, 600 Waren, auch Maschinen, LKW, Büroeinrichtungen, keine Dienstleistungen. 3. Index der Großhandelsverkaufspreise Verkaufspreise exkl. MwSt., 800 Waren, 7000 Preisreihen. 4. Produktionsindex für das produzierende Gewerbe Index der kurzfristigen Wirtschaftsentwicklung, Mengenindex! Nettoproduktionsleistungen einzelner Wirtschaftszweige. → Gesamtindex mittels Wichtung nach Bruttowertschöpfung. 5. Lohnindizes Nominallohnindizes – Index der tariflichen Stundenlöhne – Index der Monatsgehälter (Preisindizes) TU-Ilmenau: Statistik 30 Reallohnindex= N ominallohnindex P reisindex 6. Der Deutsche Aktienindex Preisindex der 30 wichtigsten deutschen Aktien (blue-chips). Basis: 31.12.1987. Aktienkapital alle 15 s berechnet durch die Deutsche Börse AG. Basis = 1000. TU-Ilmenau: Statistik Kapitel 5 Zusammenhänge zwischen Merkmalen X, Y seien zwei untereinander verbundene Merkmale. An jeder Untersuchungseinheit werden beide Merkmale beobachtet. Stichprobe (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) (Beobachtungspaare) Beispiel Nettosozialprodukt und Staatsverschuldung Grundgesamtheit: Alle Staaten der Erde am 31.12.2003. X Nettosozialprodukt im zurückliegenden Jahr. Y Staatsverschuldung am 31.12.2003. Gesucht wird eine Maßzahl für den Zusammenhang zwischen X und Y . 5.1 Der empirische Korrelationskoeffizient X und Y sind metrisch skaliert. x̄, ȳ, sx , sy seien die empirischen Mittelwerte und Standardabweichungen der x- bzw. y-Werte. Empirischer Korrelationskoeffizient von X und Y (Bravais/Pearson): Pn 1 i=1 (xi − x̄) ∗ (yi − ȳ) rxy = n−1 (5.1) sx ∗ sy oder: rxy = 1 n−1 Pn ( i=1 (xi ∗ yi )) − n ∗ x̄ ∗ ȳ sx ∗ sy (5.2) Eigenschaften des Korrelationskoeffizienten : 1. Es gilt −1 ≤ rxy ≤ 1 2. rxy = ryx 3. rxy misst den linearen Zusammenhang zwischen X und Y . rxy = 0 → kein linearer Zusammenhang zwischen X und Y . rxy = ±1 → Alle Beobachtungspaare liegen auf einer Geraden. Somit bestünde direkter Zusammenhang. 31 32 2 4. rxy gibt an, zu wieviel Prozent sich die Beziehung durch lineare Abhängigkeit erklären lassen. Beispiel Niederschlag und Kornertrag Jahr xi yi x2i yi2 xi ∗ yi 1981 30 403,6 900 162892,96 12108,0 1982 51 339,5 2601 115260,25 17314,5 1983 112 395,5 12544 156420,25 44296 1984 61 435,1 3721 189312,01 26541,1 1985 23 428,8 529 183869,44 9862,4 1986 113 396,9 12769 157529,61 44849,7 1987 64 444,5 4096 197580,25 28448 1988 15 406,1 225 164917,21 6091,5 1989 16 346,0 256 119716 5536 1990 33 335,9 1089 112828,81 11084,7 Das ergibt: x̄ = 51, 8 ȳ = 393, 19 sx = 36, 35871 rxy = = sy = 39, 92080 Pn i=1 xi ∗ yi − n ∗ x̄ ∗ ȳ 1 n−1 sx ∗ sy 1 9 [206131, 9 − 10 ∗ 51, 8 ∗ 393, 19] ≈ 0, 188 36, 36 ∗ 39, 92 Es besteht kein linearer Zusammenhang zwischen Regenmenge und Hektarertrag (−1 und 1 würden Abhängigkeit bedeuten). 5.2 Der Rangkorrelationskoeffizient Von Spearman für Ordinal skalierte Daten. Stichprobe mit Wertepaaren Rangzahlen: Rg(xi ) Position von xi in der geordneten x-Reihe. Rg(yi ) Position von yi in der geordneten y-Reihe. Der kleinste xi -Wert hat den Rang Rg(xi ) = 1, der größte xi Wert den Rang n. Berechnet man den emp. Korrelationskoeffizienten mit den Rangzahlen statt der Originalwerte (Rg(xi ) statt xi ) erhält man den Spearmanschen Rangkorrelationskoeffizienten. Pn n∗(n+1)2 i=1 Rg(xi ) ∗ Rg(yi ) − 4 ϕ̂ = q P (5.3) Pn 2 n n(n+1)2 2 2 − n(n+1) ) ( i=1 Rg(xi ) − ) ∗ ( Rg(y ) i i=1 4 4 TU-Ilmenau: Statistik 33 Beispiel Abhängigkeit vom Sitzplatz im Hörsaal zu der Klausurnote X Entfernung zum Pult [m] Y Punkte in der Statistik Arbeit i xi yi Rg(xi ) Rg(yi ) 1 3,6 7,5 1,5 1 2 3,6 21 1,5 13 3 4,3 26 3,5 15 4 4,3 13 3,5 4 5 5,0 16,5 5,5 5,5 6 5,0 17,5 5,5 9,5 7 6,0 17 7 7,5 8 6,9 8 8 2 9 7,75 25,5 9,5 14 10 7,75 28 9,5 17 11 8,5 26,5 11 16 12 9,3 20 12,5 11,5 13 9,3 11 12,5 3 14 11,0 16,5 16,5 5,5 15 11,0 17 16,5 7,5 16 10,0 20 14,5 11,5 17 10,0 17,5 14,5 9,5 ϕ̂ = 0, 080(r = 0, 12) Es besteht kein Zusammenhang zwischen Sitzplatz und Note. Hinweise: 1. Kommen gleiche Ausprägungen mehrmals vor, so gibt man beiden den gleichen Rang, und zwar den Mittelwert aus den in der Reihenfolge zu vergebenden Rängen (Rang 12 und 13 haben die gleiche zugrunde liegende Ausprägung, so bekommen beide die 12,5; Rang 12, 13, 14 mit der gleichen zugrunde liegenden Ausprägung würde bedeuten, alle bekommen den Rang 13). 2. Sind keine mittleren Rangzahlen vergeben worden, vereinfacht sich die Formel zu: Pn 6 i=1 d2i ϕ̂ = 1 − n ∗ (n2 − 1) wobei di = Rg(xi ) − Rg(yi ). Im Beispiel: 1− 6 ∗ 746 ≈ 0, 086 ≈ ϕ̂ 17 ∗ (172 − 1) Ergebnis falsch, wir haben mittlere Rangzahlen. 5.3 Kontingenzkoeffizient Für nominale Daten oder Klasseneinteilung. TU-Ilmenau: Statistik 34 Beispiel Epidemie Untersuchung mit 120 Patienten X Heilungserfolg Y Behandlungsmethode Kontingenztafel (2-dimensionale Häufigkeitsverteilung), Frage: git es einen Zusammenhang? X\Y rein symptomatisch übliche Dosis doppelte Dosis schnell geheilt 14 22 32 langsam geheilt 14 10 4 gestorben 16 8 0 Allgemein: Merkmal X mit Ausprägungen: a1 , a2 , a3 , . . . , an Merkmal Y mit Ausprägungen: b1 , b2 , b3 , . . . , bn Stichprobe vom Umfang n (x1 , y1 ), (x2 , y2 ), . . . hij : absolute Häufigkeiten der Ausprägung (ai bj ) in der Stichprobe. Kontingenztafel: X\Y a1 a2 .. . b1 h11 h21 .. . b2 h12 h22 .. . ... ... ... .. . bl h1l h2l .. . ak hk1 h·1 hk2 h·2 . . . hkl . . . h·l h1· h2· .. . hk· h·· = n mit den Randhäufigkeiten: h·j = k X hij i=1 hi· = l X hij j=1 h ∗h Es bezeichnen eij := ·jn i· die Erwartungshäufigkeiten. Würde man alle hij durch eij ersetzen erhält man eine Kontingenztafel mit den selben Randsummen die den Fall “X und Y sind unabhängig” repräsentiert. Große Unterschiede zwischen hij und eij bedeuten Abhängigkeit zwischen X und Y . Um eine Kontingenztafel zu konstruieren, die völlige Unabhängigkeit der Merkmale zeigen soll, kann man folgenden Ansatz verwenden: hij = eij = hi· ∗ h·j n Die Stichproben Funktion : Pearsonsches Chi-Quadrat: k X l k X l 2 2 X X h (h − e ) ij ij ij = n − 1 χ2 = e h ∗ h ij i· ·j i=1 j=1 i=1 j=1 TU-Ilmenau: Statistik (5.4) 35 Kontingenzkoeffizient: s C= χ2 +n χ2 (5.5) Normierter Kontingenzkoeffizient: s CN orm = C ∗ min(k, l) min(k, l) − 1 Es gilt: 0 ≤ CN orm ≤ 1 CN orm ≈ 0 ⇒ X und Y unabhängig CN orm ≈ 1 ⇒ X und Y abhängig, stark TU-Ilmenau: Statistik (5.6) Kapitel 6 Lineare Regression Für metrische Daten. Begriff Regression von Galton. Universales Gesetz der Regression. 6.1 Einfache Lineare Regression X,Y : zwei verbundene Merkmale. Frage: Welche Gerade, y = a + bx ist am besten geeignet, den Zusammenhang zu beschreiben? Die Regressionsgerade mit y = â + b̂ ∗ x Beispiel 11 private Haushalte werden nach ihrem monatlichen Nettoeinkommen [¿ ] und ihren monatlichen Konsumausgaben [¿ ] befragt: Haushalt i Nettoeinkommen xi Konsum yi 1 1780 1600 2 1480 1480 3 1540 1500 4 2070 1750 5 3390 2300 6 1900 1750 7 4220 2750 8 2800 2050 9 2700 1850 10 3990 2500 11 4600 3000 Die Regressionskoeffizienten â undb̂ werden nach der Methode der kleinsten Quadrate (MKQ) bestimmt. a, b : n X (yi − a − b ∗ xi ) → M in i=1 Also muss hier nun die Ableitung gebildet werden. 1. Ableitung: X δ X (yi − a − bxi )2 = 2 (yi − a − bxi ) δa 37 38 X δ X (yi − a − bxi )2 = −2 (yi − a − bxi ) ∗ xi δb Null setzen: (1) (2) X X (yi − a − bxi ) = X (xi ∗ gi − a ∗ xi − b ∗ x2i ) = yi − n + a − b ∗ X xi ∗ yi − a X X xi = 0 xi − b X x2i = 0 Die Lösung der Gleichung liefert extremwertverdächtige Punkte. Mit n1 multiplizieren: 1X 1X (1) yi − a − b xi = ȳ − a − b ∗ x̄ n n 1X 1X 1X 2 1X 1X 2 (2) xi ∗ yi − a xi − b xi = xi ∗ yi − a ∗ x̄ − b ∗ xi = 0 n n n n n (1) in (2) nach a umgeformt einsetzen: 1X 1X 2 xi ∗ yi − (ȳ − b ∗ x̄ − b ∗ xi = 0 n n 1X 1X 2 xi yi − x̄ ∗ ȳ = b ∗ ( xi − x̄2 ) n n P P 1 xi ∗ yi − x̄ ∗ ȳ x ∗ y − n ∗ x̄ ∗ ȳ n P 2i P 2 b= = 1 2 xi − n ∗ x̄2 xi − x̄ n Optimale Regressionskoeffizienten: P 1 xi ∗ yi − n ∗ x̄ ∗ ȳ] n−1 [ P 2 = b̂ = 1 [ xi − n ∗ x̄2 ] n−1 b̂ = rxy ∗ 1 n−1 P (xi − x̄) ∗ (yi − ȳ) P 1 (xi − x̄)2 n−1 sy sx â = ȳ − b̂ ∗ x̄ TU-Ilmenau: Statistik (6.1) 39 In unserem Beispiel: x̄ = 2770, 00 ; sx = 1128, 450 ; r = 0, 988 ; ȳ = 2048, 18 ; sy = 520, 323 b̂ = 0.988 ∗ 520, 323 ≈ 0, 456 1128, 45 â = 2048, 18 − 0, 456 ∗ 2770 ≈ 786, 3 Als Regressionsgerade ergibt sich somit: y = 0, 456 ∗ x + 786, 3 Interpretation: Bei Erhöhung der Nettoeinkünfte um ¿ 100 werden im Mittel ¿ 45,60 mehr für Konsum ausgegeben. Vorsicht bei Interpretationen außerhalb des Wertebereichs: Bei ¿ 0 Einkunft sind im Mittel ¿ 786,3 für Konsum ausgegeben worden??? 6.2 Curvilineare Regression Wortbedeutung: Nichtlineare Regressionsansätze, die sich mittels Transformation auf lineare Ansätze zurückfhren lassen. Beispiel Ein Thüringer Getränkehändler verändert alle 3 Wochen systematisch den Preis von Köstritzer Schwarzbier, um die Auswirkungen auf den Absatz zu ergründen. xi Preis [¿ /Stück] yi Absatz [Stück] ln xi ln yi 0,57 2140 -0,562 7,669 0,54 2400 -0,616 7,783 0,47 4120 -0,755 8,324 0,59 1980 -0,528 7,591 0,49 3060 -0,713 8,026 Zur Anpassung soll eine Absatzfunktion mit konstanter Preiselastizität benutzt werden. x: Preis ; y: Absatz ε= dy y dx x = dy dx y x = const = b x y y y0 = b ∗ x b = y0 ∗ Diese Differenzialgleichung hat die Lösung: y = a ∗ xb . Welche Parameter a und b passen die Funktion optimal an und welcher 3 Wochen Absatz ist bei einem Preis von ¿ 0,52/Flasche zu erwarten ? TU-Ilmenau: Statistik 40 Der Ansatz y = a ∗ xb ist nicht linear in a und b. Durch Logarithmieren ergibt sich: ln y = ln a + b ∗ ln x. Die lineare Regression für die Punkte (ln xi ; ln yi ) liefert: b̂ = −2, 999;lnˆa = 5, 975 ⇒ â = e5,975 = 393, 4 Daraus folgt für die Regressionsfunktion: y = 393, 4 ∗ x2,999 Optimale Werte wären: b̂ = −3, 144; â = 3292, diese erreichen wir auf diese Weise nicht, da wir nur nähern. Das Verfahren ist damit nach MKQ nicht optimal. 2796 Flaschen Absatz sind zu erwarten. 6.2.1 Weitere Beispiele für linear transformierbare Ansätze Exponentialfunktion: y = a ∗ ebx → ln y = ln a + b ∗ x x Törnquist-Funktion (Sättigungsfunktion): y = a+b∗x → y1 = a ∗ x1 + b 1 1 −x Logistische Funktion: y = a+b∗e −x → y = a + b ∗ e Zur Beurteilung der Güte der Anpassung kann man die Stichprobenreststreuung benutzen. 1 X σ̂ 2 = (yi − ŷi )2 n−2 Dabei ist ŷi der Wert der Regressionsfunktion an der Stelle xi . Je kleiner σ̂ 2 desto besser die Anpassung. TU-Ilmenau: Statistik Kapitel 7 Wahrscheinlichkeitsrechnung 7.1 Zufällige Ereignisse Zufälliger Versuch: Versuch (in einem sehr weiten Sinne), der unter gleichen äußeren Bedingungen beliebig oft wiederholbar ist (zumindest gedanklich), und dessen Ausgang im Rahmen verschiedener Möglichkeiten ungewiss ist. Beispiele: 1. Werfen einer Münze 2. Messen einer Länge [cm] 3. Bestimmung der Anzahl der Patienten in einem Wartezimmer 4. Zufällige Auswahl einer Person und Befragung nach ihrem Alter [Jahre] Ergebnismenge: Menge aller möglichen, sich gegenseitig ausschließenden Ausgänge eines zufälligen Versuches. Bezeichnung: Ω. 1. Ω = { Zahl, Wappen} 2. Ω = (0, ∞) 3. Ω = { 0, 1, 2, . . . , 17} 4. Ω = { 2, 3, . . . , 111} Die Elemente von Ω heißen Ergebnisse. Die Teilmengen von Ω heißen zufällige Ereignisse. Die einelementige Teilmengen {ω} von Ω nennt man Elementarereignisse. 1. A={W appen} ist das Ereignis mit der Münze Wappen zu werfen. 2. B = [12, ∞) ist das zufällige Ereigniss, Längen von über 12 [Maßeinheit] zu messen. 3. C = {0, 1, 2, 3} ist das zufällige Ereignis, dass sich im Wartezimmer nicht mehr als 3 Patienten befinden. 4. D = {20} ist das Ereignis das die ausgewählte Person 20 Jahre alt ist. 41 42 Gegeben seien zufällige Ereignisse A, B, C ⊂ Ω. Die Darstellung erfolgt in Venn Diagrammen. Wenn das Elementarereignis ω1 realisiert wird, dann tritt A ein. Wennn das Elementarereignis ω2 realisietr wird, tritt A nicht ein. Einen zufälligen Versuch durchzuführen heißt ein Ergebnis ω ∈ Ω zufällig auszuwählen (zu realisieren). 7.1.1 Beziehungen zwischen Ereignissen und Operationen mit Ereignissen C := A ∪ B “oder” TU-Ilmenau: Statistik 43 C := A ∩ B “und” Ω heißt sicheres Ereignis, ∅ heißt unmögliches Ereignis. Ā = Ω\A “nicht A” TU-Ilmenau: Statistik 44 A ⊂ B “A zieht B nach sich” A ∩ B = ∅ “miteinander unvereinbar” 7.2 Wahrscheinlichkeit Definition (Kolmogorov, 1933): Eine Funktion P, die jedem Ereignis eine reelle Zahl zuordnet heißt Wahrscheinlichkeitsmaß, wenn sie folgenden Axiomen genügt: (A1 ): P (A) ≥ 0 für alle A ⊂ Ω (A2 ): P (Ω) = 1 P (A3 ): P (∪Ai ) = P (Ai ), wenn Ai ∩ Aj = ∅ für i 6= j (wenigstens eins der Ereignisse tritt ein. Sprechweise: P (A) nennt man Wahrscheinlichkeit von A. TU-Ilmenau: Statistik 45 7.2.1 Eigenschaften von Wahrscheinlichkeiten (1) A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) (2) P (Ā) = 1 − P (A) (3) P (∅) = 0 (4) A ⊂ B ⇒ P (A) ≤ P (B) (5) 0 ≤ P (A) ≤ 1∀A ⊂ Ω (6) P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (7) P (A ∪ B) ≤ P (A) + P (B) Spezialfall: klassische Wahrscheinlichkeit (LaPlace, 1812) Ω bestehe aus n Elementen die alle gleich wahrscheinlich sind. P ({ω}) = Anz.ElementeA alle ω ∈ Ω. Dann gilt: P (A) = n1 + n1 + . . . + n1 = m n = Anz.ElementeΩ . 1 n für Beispiel : Wie groß ist die Wahrscheinlichkeit bei 3 Würfeln mit einem Würfel mindestens Sechs zu würfeln (Start bei Mensch ärgere dich nicht). A . . . mindestens eine Sechs. Ā . . . keine Sechs. Ω = {(e1 , e2 , e3 )|ei ∈ {1, 2, 3, 4, 5, 6}}. ei . . . Ergebnis des i-ten Wurfes. Ω hat 63 Elemente. Ā hat 53 Elemente. 3 ⇒ P (A) = 1 − P (Ā) = 1 − 653 ≈ 0, 42 7.3 Wahrscheinlichkeitsverteilungen Zufallsgröße: Funktion Ω → R Modellvorstellung: Im Rahmen einens zufälligen Versuches wird “durch Zufall” ein sogenanntes Ergebnis aus Ω gewählt. Die Realisierung x = X(ω) von X ist als Versuchsergebnis beobachtbar. Beispiel : Ω sei zerlegbar in B und B̄. Ω = B ∪ B̄, B ∩ B̄ = ∅ ω ∈ B . . . “gut” ω ∈ B̄ . . . “schlecht” Zufallsgröße ½ 1 , wenn ω ∈ B X(ω) := 0 , wenn ω ∈ B̄ Zweipunkt-Verteilung: P (x = 1) := P (B), P (x = 0) := 1 − P (B) TU-Ilmenau: Statistik 46 diskrete Zufallsgröße : Der Werteberiech von X ist eine endliche oder abzählbar unendliche Menge (meist ganze Zahlen). Beispiele: Anzahl der Fadenbrüche in einer Webmaschiene, Anzahl der Kunden, Länge einer Warteschlange [in Personen]. Die Wahrscheinlichkeitsverteilung einer Zufallsgröße X ist bekannt wenn man: Zu jedem Wert, den X annehmen kann, die Wahrscheinlichkeit kennt, mit der er angenommen wird. pi = P (X = xi ). 7.4 stetige Zufallsgröße : Der Wertebereich von X ist die Menge der reellen Zahlen oder ein Intervall. Beispiele: Füllmenge einer Milchflasche, Wartezeit bei . . ., Länge eines Werkstücks. Die Wahrscheinlichkeitsverteilung einer Zufallsgröße X ist bekannt wenn man: Von jedem Intervall weiß, wie groß die Wahrscheinlichkeit ist, dass X Werte in diesem Intervall annnimmt. P (X ∈ I) Diskrete Verteilungen x1 , x2 , . . . Werte, die die Zufalssgröße X annehmen kann. p1 , p2 , . . . Wahrscheinlichkeit, P mit denen X den Wert xi annimmt. Es muß gelten: 0 ≤ pi ≤ 1; pi = 1 Beschreibungsmöglichkeiten : Tabelle, z.B.: xi pi 0 1 2 3 1 3 Formel, z.B.: P (X = k) = (1 − p) ∗ pk (k = 0, 1, 2) für ein p ∈ (0, 1) (“geometrische Verteilung”) Diagramm z.B.: TU-Ilmenau: Statistik 47 7.5 Stetige Verteilungen Für jeden Einzelwert x gilt P (X = x) = 0. Angabe der Verteilungen durch eine R∞ Verteilungsdichte f |R → R+ Es muss gelten: f (x) ≥ 0 und −∞ f (x)dx = 1 Bestimmung von Wahrscheinlichkeiten : x1 : Untergrenze des Intervalls dessen Wahrscheinlichkeit bestimmt werden soll. x2 : Obergrenze des Intervalls dessen Wahrscheinlichkeit bestimmt werden soll. Z x2 P (x1 ≤ X ≤ x2 ) = P (x1 < X < x2 ) = f (x)dx x1 Z x P (X < x) = f (s)ds = F (x) −∞ F (x): Verteilungsfunktion. Es gilt: f (x) = d dx F (x) TU-Ilmenau: Statistik 48 Beispiel : Exponentialverteilung mit Parameter λ > 0 ½ −λx für x > 0 f (x) = λe 0 für x < 0 TU-Ilmenau: Statistik 49 7.6 Parameter von Verteilungen X sei eine Zufallsgröße, die stetig verteilt ist. Mit der Dichte f . Der Erwartungswert ist: Z ∞ EX = x ∗ f (x)dx X sei eine Zufallsgröße, die diskret verteilt ist. Auf dem Punkte x1 , x2 , . . . mit den Einzelwerten P (X = xi ) = pi . Der Erwartungswert ist: X EX = xi ∗ pi −∞ Interpretation: Mittelpunkt, Schwerpunkt. Varianz=Streuung: X D2 X = ((xi − EX)2 ∗ pi ) Interpretation: Mittelpunkt, Schwerpunkt. Varainz=Streuung: Z ∞ 2 (x − EX)2 ∗ f (x)dx D X= Interpretation: Mittlere Quadratische Abweichung vom Erwartungswert. Standardabweichung: √ DX = D2 X Interpretation: Mittlere Quadratische Abweichung vom Erwartungswert. Standardabweichung: √ DX = D2 X Wurzel aus der Standardabweichung. Bemerkungen Wurzel aus der Standardabweichung. −∞ 1. EX und D2 X müssen nicht existieren. 2. Es sei g|R → R eine stetige Funktion. Dann ist g(x) eine Zufallsgröße, und es gilt: P diskret: Eg (x) = g(xi ) ∗ pi R∞ stetig: Eg (x) = −∞ g(x) ∗ f (x)dx R∞ 3. Es gilt: D2 X = E(x − EX)2 = E(X 2 ) − (EX)2 mit E = −∞ x2 ∗ f (x)dx 4. Es gilt: E(x1 + x2 + . . . + xn ) = Ex1 + Ex2 + . . . + Exn 5. Es gilt: D2 (x1 + x2 + . . . + xn ) = D2 x1 + D2 x2 + . . . + D2 xn Wenn die Zufallsgrößen x1 , x2 , . . . , xn voneinander unabhängig sind. 7.6.1 Weitere Parameter Schiefe: (wenn symmetrisch, dann S = 0) S= Exzess: W = E(x − EX)3 (DX)3 E(x − EX)4 −3 (DX)4 (−3 < W < ∞) TU-Ilmenau: Statistik 50 7.7 7.7.1 Spezielle diskrete Verteilungen Binomialverteilung Mit den Parametern n und p. (n ∈ N, 0 < p < 1) µ ¶ n P (X = k) = ∗ pk ∗ (1 − p)n−k k EX = n ∗ p; X (k = 0, 1, . . . , n) (7.1) D2 X = n ∗ p ∗ (1 − p) P (X = k) = 1 Entstehung: Bernoulli-Schema In einem Versuch kann ein Ereignis A mit der Wahrscheinlichkeit p = P (A) eintreten. Der Versuch wird insgesamt n-mal unabhängig voneinander durchgeführt. X bezeichne die Anzahl des Eintretens von A in den n Versuchen. Man kann zeigen, dass X binomialverteilt mit den Parametern n und p ist. Beispiel : 10 Hühnereier liegen im Brutkasten. Wie groß ist die Wahrscheinlichkeit dass mindestens 3 Hähnchen das Licht der Welt erblicken? X . . . Anzahl der Hähnchen unter den 10 Kücken. X . . . ist binomial verteilt mit n = 10 und p = 0, 5. Gesucht wird P (X ≥ 3) P (X ≥ 3) = P (X = 3) + P (X = 4) + . . . + P (X = 10) = 1 − P (X < 3) = 1 − P (X = 0) − P (X = 1) − P (X = 2) µ ¶ µ ¶ µ ¶ 10 10 10 0 10 1 9 =1− ∗ 0, 5 ∗ 0, 5 − ∗ 0, 5 ∗ 0, 5 − ∗ 0, 52 ∗ 0, 58 0 1 2 µµ ¶ µ ¶ µ ¶¶ 10 10 10 1 + 10 + 45 56 10 = 1 − 0, 5 + + =1− =1− ≈ 0, 945 0 1 2 1024 1024 7.7.2 Hypergeometrische Verteilung Mit den Parametern N ,M , und m.Entspricht dem Ziehen aus einer Urne ohne zurücklegen. (n, N, M ∈ N ; n ≤ N ; M ≤ N ) . ¡M ¢ ¡N −M ¢ ∗ P (X = k) = k ¡N ¢n−k (7.2) n (max(0, n + M − N ) ≤ k ≤ min(N, n)) EX = n ∗ M N ; D2 X = n ∗ M M N −n ∗ (1 − )∗( ) N N N −1 Entstehung: In einer Kiste sin N Teile, davon M defekte. Aus der Kiste werden n Teile zufällig entnommen (ohne zurücklegen). X bezeichne die zufällig Anzahl defekter Teile in der Stichprobe (unter n). Man kann zeigen, daß X hypergeometrisch verteilt ist. TU-Ilmenau: Statistik 51 Beispiel : Wie groß ist die Wahrscheinlichkeit, im Lotto “6 aus 49” mit einem Tipp mindestens einen Fünfer zu gewinnen? N = 49; n = 6 Gewinnzahlen durch ziehen; M = 6 angekreuzte Zahlen. X . . . Anzahl der angekreuzten Gewinnzahlen, hypergeometrisch verteilt. P (X ≥ 5) = P (X = 5) + P (X = 6) ¡6¢ ¡49−6¢ ¡6¢ ¡49−6¢ ∗ ∗ 6 ∗ 43 + 1 ∗ 1 ≈ 0, 00001852 = 5 ¡49¢6−5 + 6 ¡49¢6−6 = 13983816 6 6 7.7.3 Poissonverteilung Mit dem Parameter λ > 0 λk ; (k = 0, 1, 2, . . .) k! EX = λ ; D2 X = λ P (X = k) = e−λ ∗ (7.3) Die Poissonverteilung ist die “Verteilung der kleinen Zahlen”. Sie kommt im Grenzfalle des Bernoulli-Schemas vor: n → ∞ ; n ∗ p → λ. 7.8 7.8.1 Spezielle stetige Verteilungen Rechteckverteilung Gleichmäßige, stetige Verteilung auf dem Intervall [a, b] ½ 1 f (x) = b−a für a ≤ x ≤ b 0 sonst a+b (b − a)2 ; D2 X = 2 12 S = 0 ; W = −1, 2 EX = TU-Ilmenau: Statistik (7.4) 52 Beispiel : Nagelfabrik produziert 80er Nägel, abgeschnitten wird von einer ca. 400m langen Drahtrolle. 85mm lange Stücke. Wie groß ist die Wahrscheinlichkeit, dass ein Stück übrig bleibt, dass länger als 54mm ist? X . . . Länge des Restes, gleichmäßig verteilt auf dem Intervall [0, 85] Z Z 85 85 f (x)dx = P (X > 54) = 54 54 1 85 − 54 dx = ≈ 0, 365 85 85 Pseudo Zufallszahlen von Computerprogrammen sind meist stetig verteilt auf dem Intervall [0; 1) 7.8.2 Normalverteilung Mit den Parametern µ und σ 2 (−∞ < µ < ∞ f (x) = √ 1 2∗π∗ σ2 ∗e ; σ 2 > 0). −(x−µ) 2∗σ 2 Bezeichnung: X ∼ N (µ, σ 2 ) Es gilt: EX = µ ; D2 X = σ2 ; S=0 ; W =0 µ ist die x-Koordinate des Maximums, σ die Strecke ∆x vom Maximum bis zum Wendepunkt. Vertafelt ist die Verteilungsfunktion, Z x ϕ(t)dt Φ(x) = −∞ (F (x) = P (X ≤ x)) der standardisierten Normalverteilung (N (0; 1)) : ϕ(t) = √ t2 1 ∗ e− 2 2∗π da die Stammfunktion der Normalverteilung nicht eindeutig bestimmbar ist, daher muss man dei Spezialfälle auf den allgemeinen zurückführen. TU-Ilmenau: Statistik 53 7.9 Grenzwertsätze X1 , X2 , X3 . . . sei eine Folge unabhängiger Zufallsgrößen, die alle dieselbe Verteilung besitzen. µ = EXi ; σ 2 = D2 Xi Gesetz der großen Zahlen: Es gilt mit Wahrscheinlichkeit 1: lim n→∞ X1 + X2 + . . . + Xn =µ n Beispiel : Münzwurf ½ 1 , wenn im i-ten Wurf Zahl oben ist xi = 0 , wenn im i-ten Wurf Wappen oben ist 1 1 + 0 ∗ = 0, 5 2 2 X1 + X2 + . . . + Xn AnzahlW appen −→ h(A) = = 0, 5 n AnzahlW uerf e n → ∞ EXi = 1 ∗ 7.9.1 Zentraler Grenzwertsatz Die Verteilung von: X1 + X2 + . . . + Xn − n ∗ µ √ n konvergiert gegen die N (0, σ 2 )-Verteilung. Der ZGWS ist die theoretische Begründung für das häufige Auftreten von Normalverteilung. TU-Ilmenau: Statistik Teil II Schliessende Statistik 55 Kapitel 8 Grundbegriffe der schl. Stat. Schluß von der Stichprobe auf die Grundgesamtheit. Einbettung der Statistik in die Wahrscheinlichkeitsrechnung: Wahrscheinlichkeitstheoretoscher Begriff Statistischer Begriff Ergebnismenge Ω Grundgesamtheit Definition: Zufallsgröße X | Ω → < Merkmal X Zufallsgrößen X1 , X2 , . . . , Xn Stichprobe Unter einer mathematischen Stichprobe zu dem Merkmal X versteht man n unabhängige identisch wie X verteilte Zufallsgrößen X1 , X2 , . . . , Xn . Jede Realisierung x1 , x2 , . . . , xn der mathematischen Stichprobe ist eine konkrete Stichprobe ω∈Ω Xi (ω) = xi Mathematische Stichprobe X1 , X2 , . . . , Xn Theorie Konkrete Stichprobe x1 , x2 , . . . , xn praktische Durchführung Aufgabe der Statistik Die Verteilung P x des Merkmals X sei ganz oder teilweise unbekannt. Es gilt, aus der Stichprobe Kenntnisse über P x zu gewinnen. 2 Hauptmethoden Schätzen von unbekannten Parametern, Wahrscheinlichkeiten, Dichtefunktionen Testen von Hypothesen über die unbekannte Verteilung Beispiel In einem Wald wurde stichprobenartig ermittelt, das 39,4% aller Bäume geschädigt sind. Kann es sein, dass der Anteil geschädigter Bäume in Wirklichkeit bei 42% liegt? Drei Jahre vorher hatte eine Stichprobe einen Schädigungsgrad von 37,7% ergeben. Ist der jetzt erkennbare Zuwachs signifikant? 57 Kapitel 9 Wichtige Stichprobenfunktionen Es seien X ein Merkmal mit Erwartungswert µ und Varianz σ 2 und X1 , X2 , X3 , . . . , Xn ⇒ EX1 = EX2 = EX3 = . . . = EXn E(X1 + . . . + Xn ) = EX1 + . . . EXn = n ∗ µ D 2 X1 = D 2 X2 = . . . = D 2 Xn = n ∗ σ 2 9.1 Das Stichprobenmittel n X̄ = 1X Xi n i=1 (9.1) X̄ ist eine Zufallsgröße. Es gilt: E X̄ = 1 1 E(X1 + . . . + Xn ) = ∗ n ∗ µ n n 1 2 1 σ 2 −−−−→ D (X1 + . . . + Xn ) = 2 ∗ n ∗ σ 2 = n → ∞0 2 n n n −−∞µ → Anwendung: Falls der Wegen dem Gesetz der großen Zahlen: X̄ − n−→ Pn Mittelwert des Merkmals X nicht bekannt ist, kann er durch x̄ = n1 i=1 xi geschätzt werden. Diese Schätzung ist umso besser, je größer der Stichprobenumfang ist. D2 X̄ = 9.2 Die Stichprobenvarianz n S2 = 1 X (Xi − X̄)2 n − 1 i=1 S 2 ist zufällig. Es gilt: ES 2 = σ 2 , D2 (S 2 ) → 0, S 2 → σ 2 (n → ∞) 59 (9.2) 60 Anwendung: n 1 X S = (xi − x̄)2 n − 1 i=1 2 ist gut als Schätzung für σ 2 geeignet, wenn σ 2 und µ unbekannt sind. 9.3 Die Verteilungen von X̄ und S 2 für normalverteiltes Merkmal 2 neue Verteilungen die zu den sogenannten Prüfverteilungen gehören. Definition: 1. Eine stetige Verteilung mit der Dichte g(x) = c1 ∗ (1 + X 2 − t+1 ) 2 f (−∞ < X < ∞) nennt man t-Verteilung mit f Freiheitsgraden f = 1, 2, . . . 2. Eine stetige Verteilung mit der Dichte ½ f x 2 −1 ∗ e− 2 g(x) = c2 ∗ x 0 für x > 0 für x ≤ 0 heißt χ2 -Verteilung mit f Freiheitsgraden (f = 1, 2, . . .). Die Konstanten c1 und c2 hängen von f ab. Bemerkungen zur t-Verteilung: Die t-Verteilung ist symmetrisch bezüglich der Null. Mit f → ∞ nähert sich die t-Verteilung der N (0, 1) Verteilung. Es f gilt: ETf = 0 für f ≥ 2 und D2 Tf = f −2 für f ≥ 3 2 2 Bemerkungen zur χ -Verteilung: EXf = f ; D2 χ2f = 2 + f ; M ed(χf ) = f − 2 für f ≥ 3 n 1X X̄ = Xi n i=1 S2 = Satz 1 X n(Xi − X̄)2 n − 1 i=1 Es sei X ∼ N (µ; σ 2 ). Dann gilt: 1. Z = X̄−µ σ 2. T = X̄−µ √ n S 3. χ2 = ist N (0; 1) verteilt. ist t-verteilt mit n − 1 Freiheitsgraden. (n−1)∗S 2 σ2 ist χ2 -verteilt. TU-Ilmenau: Statistik 61 X i=1 2 n( Xi − µ 2 ) σ 2 ist χ -verteilt mit Xi ∼ N (µ; σ ) und n Freiheitsgraden. χ2 = n X X1 − X̄ 2 ( ) σ i=1 ist χ2 -verteil mit n − 1 Freiheitsgraden. TU-Ilmenau: Statistik Kapitel 10 Punktschätzungen Merkmal X. Verteilung P x von X hänge ab von einem Parameter ϑ ∈ Θ, dessen wahrer Wert unbekannt ist (Θ = nicht leere Parametermenge) 10.1 Definition und Beispiele cn = Tn (X1 , X2 , . . . , Xn ) Eine Punktschätzung für ϑ ist eine Stichprobenfunktion ϑ mit Werten in Θ Bemerkung Für die Parametermenge Θ gilt häufig: Θ ⊂ R → ein unbekannter Parameter ϑ ∈ R Θ ∈ Rk → k unbekannte Parameter. ϑ1 ϑ = ... ϑk Beispiele für Punktschätzungen µ̂ = X̄ ist eine Punktschätzung für µ = EX S 2 ist eine Punktschätzung für σ 2 = D2 X Θ=R Θ = [0, ∞) Das Merkmal X sei rechtecksverteilt im Intervall [0; b] wobei die obere Grenze b ∈ (0, ∞) unbekannt ist. Dann ist b̂ = max(X1 , X2 , . . . , Xn ) eine Punktschätzung für b. Pn Das empirische Zentralmoment l-ter Ordnung: MZen;l = n1 i=1 (Xi − X)l ist eine Punktschätzung für das l-te Zentralmoment von X. µZen,l = E(X − EX)l l = 2, 3, 4. 10.2 Wünschenswerte Eigenschaften cn = ϑ∀n (im Mittel schätzt ϑ cn richtig) Erwartungstreue: E ϑ 63 64 −−∞ϑ → (schätzt im Mittel asymcn − Asymptotische Erwartungstreue: E ϑ n−→ ptotisch richtig) −−∞ϑ → (ϑ cn − cn nähert sich mit wachsendem Stichproben Um Konsistenz: ϑ n−→ fang n dem wahren Wert) cn hat von allen Erwartungstreuen Punktschätzungen für ϑ die Effizienz: ϑ cn ist der beste Schätzer für ϑ kleinste Varianz. ϑ Bemerkung cn → 0 ist Dl ϑ Hinreichend für die Konsistenz einer erwartungstreuen Punktschätzung Beispiele E X̄ = µ ; b ist erwartungstreu und konsistent für µ X̄ → µ ⇒ µ b=X c2 = S 2 ist eine erwartungstreue und konsi ES 2 = σ 2 ; S 2 → σ 2 ⇒ σ √ 2 stente Punktschätzung für σ . Bemerkung: S 2 ist im allgemeinen nicht erwartungstreu für σ X sei gleichmäßig stetig verteilt auf [0; b]. Der Schätzer bb = max(X1 , X2 , . . . , Xn ) n hat den Erwartungswert Ebb = n+1 ∗ b. b ist nicht erwartungstreu. bb ist asymptotisch erwartungstreu und konsistent Pn Das empirische Zentralmoment n1 i=1 (Xi − X̄)l ist nur asymptotisch Erwartungstreu , Speziell l = 2 P für MZen,l 2 MZen,2 = n1 (X − X̄) ist nicht Erwartungstreu für MZen,2 = σ 2 i P 1 2 2 aber S = n−1 (Xi − X̄) ist Erwartungstreu für σ 2 Bemerkung Ob empirische Momente effektive Schätzer sind für die entsprechenden Momente hängt vom Verteilungstyp des Merkmals ab. So lässt sich zeigen, daß bei normalverteilten Merkmal X das empirische Mittel X̄ effizient für µ ist hn (A) sei die relative Häufigkeit eines Ereignisses A in n Versuchen. ½ 1, wenn A im i-ten Versuch eintritt Xi = 0, wenn A im i-ten Versuch nicht eintritt Die Versuche werden unabhängig voneinander unter gleichen äußeren Bedingungen wiederholt. hn (A) = Ehn (A) = D2 hn (A) = Anz. des Eintretens X1 + X2 + . . . + Xn = n Anz. aller V ersuche 1 1 E(X1 + X2 + . . . + Xn ) = ∗ n ∗ p = p = P (A) n n 1 2 1 p(1 − p) D (X1 +X2 +. . .+Xn ) = 2 ∗n∗p∗(1−p) = →0 p2 n n Wobei (X1 + X2 + . . . + Xn ) binomial verteilt mit p = P (A) und n. TU-Ilmenau: Statistik 65 Also: Die relative Häufigkeit von A ist eine Erwartungstreue und konsistente Punktschätzung für die Wahrscheinlichkeit von A. Man kann zeigen: hn (A) ist auch effizient für P (A). TU-Ilmenau: Statistik Kapitel 11 Bereichsschätzungen (Konfidenzintervall, Vertrauensbereich) 11.1 Definitionen Die Verteilung des Merkmals X hängt von einem Parameter ϑ ab, dessen wahrer Wert unbekannt ist. Beispiel: Abweichugen vom Sollmaß (in µm) bei Werkstücken. X ∼ N (µ, σ 2 ) wird vorausgesetzt. Stichprobe vom Umfang n = 20 aus der laufenden Produktion: 3 2 -1 -2 0 1 2 -1 0 0 0 0 -4 3 1 -2 -1 -3 4 Punktschätzungen: P20 1 für µ: x̄ = 20 x = 0, 15 q 1 Pi n 1 für σ: s = n−1 i=1 (xi − x̄)3 = 2, 06 Die Teile werden mit einem systematischen Fehler von 0, 15µm produziert und die Abweichungen vom Sollmaß streuen mit einer empirischen Standardabweichung von 2, 06µm um den Mittelwert 0, 15µm. Der tatsächliche Mittelwert µ = EX des Merkmals X bleibt unbekannt. Kann man Grenzen angeben, innerhalb derer der wahre Wert von µ liegt? Ja → Konfidenzintervall. Aber: Das Konfidenzintervall kann falsch sein. Die Wahrscheinlichkeit α für diesen Irrtum kann man (klein) vorgeben: 1 − α =Konfidenzeniveau=Statistische Sicherheit. Definition: Ein Intervall KIϑ = (Gu, Go), dessen Grenzen Gu(X1 , X2 , . . . , Xn ) und Go(X1 , X2 , . . . , Xn ) Stichprobenfunktionen sind, heißt Konfidenzintervall für ϑ zum Konfidenzniveau 1 − α, wenn P (Gu < ϑ < Go) = 1 − α für den wahren Wert von ϑ und P (Gu < ϑ0 < Go) ≤ 1 − α für jeden anderen Wert ϑ0 . Mit anderen Worten: Der wahre Wert wird mit einer Wahrscheinlichkeit von 1 − α überdeckt, ein falscher mit einer Wahrscheinlichkeit, die nicht größer ist als 1 − α α = 0, 05 normale Sicherheit hohe Sicherheit Für α benutzt man Standardwerte: α = 0, 01 α = 0, 001 sehr hohe Sicherheit 67 1 68 11.2 Quantile von Prüfverteilungen Prüfverteilungen: Wahrscheinlichkeitsverteilungen zur Durchführung von Hypothesenprüfungen oder zur Berechnung vom Konfidenzintervall. 11.2.1 Standardnormalverteilung Normalverteilung mit µ = EX = 0 und D2 X = σ 2 = 1. N (0, 1)-Dichte. x2 1 ϕ(x) = √ e− 2 2π (−∞ < x < ∞) Zα = P (Z ≤ Zα ) = α Z0,5 =Median Z0,25 , Z0,75 =Quartile α 0, 95 Die Quantile sind vertafelt: 0, 975 0, 99 0, 995 Zα 1, 645 1, 96 Es gilt: 2, 326 2, 576 Z1−α = −Zα TU-Ilmenau: Statistik 69 11.2.2 t-Verteilung Es gilt: tf ;1−α = −tf ;α tf ;α Quantile der t-Verteilung mit f Freiheitsgraden der Ordnung α. Die Quantile sind vertafelt, fehlende Freiheitsgrade sind linear zu interpolieren. Es gilt: lim tf = Zα f →∞ TU-Ilmenau: Statistik 70 11.2.3 χ2 -Verteilung Quantile der χ2 -Verteilung mit f Freiheitsgraden. Die Quantile sind bis f = 30 vertafelt. Für f > 30 gibt es eine gute Näherungsformel: µ χ2f ;α ≈ f 1− 2 + Zα 9f r 2 9f TU-Ilmenau: Statistik ¶3 (11.1) 71 11.3 Konfidenzintervalle für die Parameter eines normalverteilten Merkmals Es sei X ∼ N (µ; σ 2 ) wobei µ = EX und σ 2 = D2 X unbekannt sein sollen. 11.3.1 Konfidenzintervall für µ µ ¶ S S α α KIµ = X̄ − √ ∗ tn−1;1− 2 ; X̄ + √ ∗ tn−1;1− 2 n n Herleitung: T = X̄ − µ √ n S ist t-verteilt mit n − 1 Freiheitsgraden (vgl. Satz aus Kapitel 2.3) P µ ¶ X̄ − µ √ −tn−1; α2 < n < tn−1;1− α2 = 1 − α S ¶ µ S S α α P − √ tn−1;1− 2 < X̄ − µ < √ tn−1;1− 2 = n n ¶ µ S S P −X̄ − √ tn−1;1− α2 < −µ < −X̄ + √ tn−1;1− α2 = n n P µ ¶ S S X̄ − √ tn−1;1− α2 < µ < X̄ + √ tn−1;1− α2 = 1 − α n n TU-Ilmenau: Statistik (11.2) 72 Bemerkungen 1. Der Zufall steckt in den Grenzen des Konfidenzintervalles. Deswegen diese Formulierung: “Das Konfidenzintervall überdeckt den unbekannten Parameter mit der Wahrscheinlichkeit 1 − α ” 2. Je größer n, desto kleiner das Konfidenzintervall 3. Je größer 1 − α, desto größer wird das Konfidenzintervall 1 − α → 1 ⇒ K 0 µ → (−∞, ∞) Merkmal X ∼ N (µ; σ 2 ); Konfidenzniveau 1 − α. µ ¶ S S α α √ √ KIµ = X̄ − tn−1;1− 2 ; X̄ + tn−1;1− 2 n n Beispiel: Abweichungen vom Sollmaß 95% Konfidenzintervall für µ x̄ = 0, 15 s = 2, 06 n = 20 α = 0, 05 aus Tabelle: t19;0,975 = 2, 093 2,06 ⇒ √sn tn−1;1− α2 = √ ∗ 2, 093 ≈ 0, 964 (hier immer aufrunden) 20 ⇒ KIµ (0, 15 − 0, 964; 0, 15 + 0, 964) = (−0, 814; 1, 114) Mit 95% iger Wahrscheinlichkeit liegt die Mittlere Abweichung vom Sollmaß zwischen −0, 814 und 1, 114µm 11.3.2 Konfidenzintervall für σ 2 = D2 X à KIσ2 = (n − 1)S 2 (n − 1)S 2 ; χ2n−1;1− α χ2n−1; α 2 11.3.3 ! Konfidenzintervall für σ = DX Ãs KIσ = (n − 1)S 2 ; χ2n−1;1− α 2 (11.3) 2 s (n − 1)S 2 χ2n−1; α ! (11.4) 2 Beispiel: Abweichungen vom Sollmaß s2 = 2, 062 = 4, 24 α = 0, 10 n = 20 aus Tabelle: χ219;0,95 = 30, 1 χ219;0,05 = 10, 1 ³ ´ 19∗4,24 KIσ2 = 19∗4,24 ≈ (2, 676; 7, 976) 30,1 ; 10,1 ¡√ ¢ √ KIσ ≈ 2, 676; 7, 976 ≈ (1, 631; 2, 824) Die Standardabweichung des Merkmal liegt mit 90% iger Wahrscheinlichkeit zwischen 1, 631 und 2, 824µm. Für den Fall, dass der andere Parameter bekannt sein sollte, siehe Formelsammlung. 11.4 Konfidenzintervall für eine Wahrscheinlichkeit p Eine Punktschätzung für die Wahrscheinlichkeit p = P (A) eines zufälligen Ereignisses A ist die relative Häufigkeit p̂ = hn (A). Bereichsschätzung für p: TU-Ilmenau: Statistik 73 à KIp ≈ r p̂ − Z1− α2 ∗ p̂ ∗ (1 − p̂) ; p̂ + Z1− α2 ∗ n r p̂ ∗ (1 − p̂) n ! Die Schätzung gilt nur Näherungsweise, weil Approximationen benutzt werden. Nur benutzen, wenn gilt: n∗ p̂ > 5 und n∗(1− p̂) > 5. Damit das Konfidenzniveau sicher größer ist als 1 − α, fügt man die sogenannte Stetigkeitskorrektur in das obige Konfidenzintervall ein: à KIp ≈ r p̂ − Z1− α2 ∗ 1 p̂ ∗ (1 − p̂) − ; p̂ + Z1− α2 ∗ n 2n r 1 p̂ ∗ (1 − p̂) + n 2n ! Beispiel Es soll die Wahrscheinlichkeit geschätzt werden, dass ein bestimmtes Kopiergerät innerhalb von 24 Stunden nach der Wartung kaputt geht. Dazu werden 30 solcher Wartungsvorgänge beobachtet. In 12 Fällen ging der Kopierer innerhalb von 24 Stunden wieder kaputt. 12 Punktschätzung: p̂ = 30 = 0, 4 Bereichsschätzung mit 1 − α = 0, 95: n = 30 Z1− α2 = Z0,975 = 1, 96 n ∗ p̂ = 12 > 5 n ∗q(1 − p̂) = 18 > 5 q 1 1 − 60 ; 0, 4 + 1, 96 ∗ 0,4∗0,6 + 60 ) KIp = (0, 4 − 1, 96 ∗ 0,4∗0,6 30 30 = (0, 4 − 0, 192; 0, 4 + 0, 192) = (0, 208; 0, 592) Die Wahrscheinlichkeit p für den Ausfall des Kopierers innerhalb von 24 Stunden liegt mit 95% iger Wahrscheinlichkeit zwischen 0, 208 und 0, 592. Ist der Bereich zu grob? Dann ist die Erhöhung des Stichprobenumfangs das Mittel der Wahl, z.B. n = 300. Ergebnis bei n = 300 p̂ = 0, 4 ⇒ KIp = (0, 343; 0, 457) TU-Ilmenau: Statistik Kapitel 12 Signifikanztests Im Beispiel “Abweichungen vom Sollmaß ”aus n = 20 Beobachtungen Punktschätzung für µ = EX µ̂ = x̄ = 0, 15 [µm] Kann es sein, dass µ = 0 gilt? (also ohne systematischen Fehler produziert wird?) 12.1 Grundbegriffe der Testtheorie Anliegen eines Tests: Überprüfen eine Annahme (=Hypothese) über die unbekannte Verteilung des Merkmals X anhand einer Stichprobe zum Merkmal X. Die zu überprüfende Hypothese nennt man Nullhypothese H0 . Beispiele H0 : EX = µ0 (µ0 Vorgegebener hypothetischer Mittelwert) H0 : Px = P0 (P0 ist eine vorgegebene hypothetische Verteilung) H0 : X ist normalverteilt (zusammengesetzte Nullhypothese) Der statistische Test soll Entscheidungen fällen, ob die Stichprobe mit der Nullhypothese verträglich ist. 2 Entscheidungen möglich: H0 wird abgelehnt oder H0 wird “angenommen ”. Somit sind aber 2 Fehlentscheidungen denkbar: 1. H0 wird abgelehnt, obwohl H0 richtig ist → Fehler 1. Art 2. H0 wird angenommen, obwohl H0 falsch ist → Fehler 2. Art Die Wahrscheinlichkeit für die Fehler sollte möglichst klein sein. Aber man kann nicht beide Fehlerwahrscheinlichkeiten beliebig klein halten. Ausweg: Nur die Fehlerwahrscheinlichkeit 1. Art wird klein gehalten durch eine obere Schranke, das sogenannte Signifikanzniveau α. Fehlerwahrscheinlichkeit 2. Art wird nicht begrenzt. Keine Vorgaben. Ein solcher Test heißt Signifikanztest. Konsequenz: Nur die Ablehnung von H0 ist eine signifikante Entscheidung, weil die Irrtumswahrscheinlichkeit bekannt ist. Also: P (H0 ablehnen| H0 richtig) ≤ α. 0, 05 0, 01 0, 001 Standardwerte für α: hoch signifikant höchst signifikant α = 0: H0 wird niemals abgelehnt. 75 76 12.2 Paramtertests für normalverteiltes Merkmal Voraussetzung: Merkmal X ∼ N (µ, σ 2 ),µ und σ 2 unbekannt. Gegeben: Stichprobe X1 , X2 , . . . , Xn zu X, Signifikanzniveau α Der einfache t-Test (Mittelwerttest) Hypothese: H0 : µ = µ0 (µ0 vorgegebener Erwartungswert) (12.1) Testgröße: T = X̄ − µ0 √ n S (12.2) Ablehnungsbereich: K ? = (−∞; −tn−1;1− α2 ) ∪ (−tn−1;1− α2 , ∞) (12.3) Testentscheidung (gilt für alle Signifikanztests) wenn T ∈ K ? , dann H0 ablehnen. Z.B.: “Der Mittelwert von X ist signifikant von µ0 verschieden.” Wenn T ∈ / K ? , dann wird H0 nicht abgelehnt. Z.B.: “Es gibt keine Einwände gegen die Annahme, dass µ0 der Mittelwert ist.” Abweichungen vom Sollmaß n = 20 x̄ = 0, 15 s = 2, 06 Es soll überprüft werden mit α = 0, 05, ob es im Mittel keine Abweichungen gibt. H0 : µ = 0 t= t19;0,975 = 2, 093 x̄ − 0 √ 0, 15 √ n= 20 ≈ 0, 33 s 2, 06 K ? = (−∞; −2, 093) ∪ (2, 093; ∞) Keine Ablehnung von H0 . Antwort: Es kann sein, dass ohne systematischen Fehler produziert wird. 12.2.1 Herleitung des einfachen t-Tests 1. H0 wahr ist (µ = µ0 ); dann ist T = heitsgraden. X̄−µ0 √ n S t-verteilt mit n − 1 Frei- P (H0 ablehnen |H0 wahr) = P (T ∈ k ? |T ist vertafelt) = TU-Ilmenau: Statistik α α + =α 2 2 77 2. H0 ist falsch (also µ 6= µ0 ), dann ist T “Verschoben”t-verteilt. P (H0 ablehnen|H0 f alsch) = P (T ∈ K ? |T ist verschoben t-verteilt) > α Also: Die wahre Nullhypothese wird mit Wahrscheinlichkeit α (Fälschlicherweise) abgelehnt. Eine falsche Nullhypothese wird mit einer Wahrscheinlichkeit größer als α abgelehnt. 12.2.2 Der χ2 -Streuungstest H0 : σ 2 = σ02 (σ02 vorgegebene Varianz) (12.4) n (n − 1)S 2 1 X = 2 (Xi − X̄)2 2 σ0 σ0 i=1 ³ ´ ³ ´ K ? = 0; χ2n−1; α2 ∪ χ2n−1; α2 ; ∞ T = (12.5) (12.6) Abweichungen vom Sollmaß : s = 2, 06 n = 20 es soll mit α = 0, 05 überprüft werden, ob die Standardabweichungen der gemessenen Werte gleich 3, 0 [µm] sein kann H0 : σ = 3 19 ∗ 2, 062 t= ≈ 8, 96 32 £ ¢ ¡ ¢ K ? = 0; χ219;0,025 ∪ χ219;0,975 ; ∞ = [0 : 0, 891) ∪ (32, 8; ∞) Ja. Die meisten Parameter lassen auch sogenannte einseitige Fragestellungen zu: H0 : µ ≤ µ0 mit K ? = (tn−1;1−α ; ∞) (12.7) H0 : µ ≥ µ0 mit K ? = (−∞; −tn−1;1−α ) (12.8) 2 H0 : σ ≤ σ02 ? mit K = (χ2n−1;1−α ; ∞) H0 : σ 2 ≥ σ02 mit K ? = [0; χ2n−1;α ] (12.9) (12.10) Abweichungen vom Sollmaß Es soll nachgewiesen werden, dass die Standardabweichung signifikant kleiner als 3µm ist. (α = 0, 05) H0 : σ ≥ 3 s = 2, 06 gibt eine Chance H0 zu verwerfen. t= (n − 1)s2 ≈ 8, 96 σ02 K ? = [0; 10, 1) t ∈ K ? ⇒ ablehnung von H0 Die Standardabweichung ist signifikant (α = 0, 05) kleiner als 3µm. TU-Ilmenau: Statistik 78 12.3 Test auf Wahrscheinlichkeit (Test auf vorliegen eines Anteilswertes). A zufälliges Ereignis mit P (A) = p (unbekannt). p wird geschätzt durch p̂ = h(A) relative Häufigkeit von A in n Versuchen. H0 : p = p0 T = | h0 (A) − p0 | q (12.11) 1 − 2n (12.12) p0 (1−p0 ) n K ∗ ≈ (Z1− α2 , ∞) (12.13) Bemerkung: T ist unter H0 nur annähernd normalverteilt. Test ist also Näherungsverfahren. Empfehlung:n − p̂ ≥ 5 und 1 − p̂ ≥ 5 Beispiel : Münze wird 250 mal geworfen, Sie zeigt dabei 140 mal Kopf und 110 mal Zahl. Ist die Münze signifikant asymmetrisch? α = 0, 05 n = 250 p0 = 1 2 h0 (A) = t= | 14 25 140 250 Z0,975 = 1, 96 H0 : p = 0, 5 1 − 0, 5 | − 500 q ≈ 1, 834 0,5∗0,5 250 K ? = (1, 96, ∞) t∈ / K ? → keine Ablehnung von H0 . Nein, das lässt sich nicht nachweisen. Führt man den Test exakt durch, mit Quantilen der Binomialverteilung, ergibt sich auch keine Ablehnung von H0 . TU-Ilmenau: Statistik Kapitel 13 Statistische Qualitätskontrolle Statistische Qualitätskontrolle (Teilgebiet der Statistik mit solchen statistischen Verfahren die zur Qualitätsprüfung benutzt werden.) Statistische Prozesskontrolle: Laufende Überwachung des Fertigungsprozesses, sofortiges Eingreifen möglich. ⇒Kontrollkarten Annahmekontrolle: Eingangs- und Endkontrolle zur Feststellung der Qualität der Erzeugnisse.⇒Stichprobenplan 13.1 Kontrollkarten Laut DIN 55350 “Qualitätsregelkarte ”. Auch: ISO 7870. Diagramme der Qualitätslage und Kontrollgrenzen. USA, 1931, Stewart. Japan 18.10. Tag der Statistik. Kontrollkarten für: Messende Prüfung x̄-Karte, Median-Karte, s-Karte (Empirische Standardabweichung), RKarte (Spannweite) Zählende Prüfung p-Karte (Ausschussquote), x-Karte (Absolute Häufigkeit der schlechten Teile), u-Karte (mehrere Merkmale) 13.1.1 Die x̄-Karte X . . . ein bestimmtes Maß am Erzeugnis, das kontrolliert werden soll. Aus der laufenden Prouktion werden zu festgelegten Zeitpunkten t1 , t2 , . . . jeweils n Teile zufällig entnommen, gemessen und daraus das arithmetische Mittel berechnet. n 1X xij ti : x̄i = n j=1 (Messwerte der i-ten Stichprobe) 79 80 Beispiel : Wälzlager (Kugellager) vom Typ 0815 X . . . Aussendurchmesser, Sollmaß µ0 = 65, 000mm. Alle 2 Stunden werden n = 7 Wälzlager geprüft. Ergebnisse der letzten 15 Prüfungen: x̄1 = 65, 0010 x̄2 = 64, 9998 x̄3 = 64, 9993 x̄4 = 64, 9991 x̄5 = 64, 9987 x̄6 = 65, 0006 x̄7 = 65, 0001 x̄8 = 65, 0000 x̄9 = 64, 9998 x̄10 = 64, 9995 x̄11 = 64, 9993 x̄12 = 64, 9990 x̄13 = 64, 9991 x̄14 = 64, 9989 x̄15 = 64, 9984 Ko , Ku obere bzw. untere Kontrollgrenze = Eingreifgrenze. Sprechweise: Alle xi liegen innerhalb der Kontrollgrenzen: “Prozess ist unter Kontrolle ”. Ein xi verlässt die Kontrollgrenzen: “Prozess ist ausser Kontrolle ”→ Eingreifen in die Produktion. 100% Kontrolle aller Teile. Berechnung der Kontrollgrenzen: σ Ko/u = µ0 ± 3 ∗ √ n (13.1) µ0 . . . Sollwert σ . . . standardabweichung des Merkmals X n . . . Stichprobenumfang (üblich 3,5,7) Berechnung der Warngrenzen: σ Wo/u = µ0 ± 2 ∗ √ n TU-Ilmenau: Statistik (13.2) 81 Bei überschreiten der Warngrenzen: Kein Eingreifen, Mahnung zur besonderen Aufmerksamkeit. Zum Beispiel Wälzlager: Aus Erfahrung sei bekannt σ = 1µm. √ Kontrollgrenzen: Ku/o = 65 ± 3 0,0001 = 65 ± 0, 0013 Warngrenzen: Wu/o = 7 √ 65 ± 2 0,0001 = 65 ± 0, 0008 7 Bemerkungen: 1. Wenn X ∼ N (µ, σ 2 ) und alle Beobachtungswerte voneinander unabhängig sind, dann ist die Wahrscheinlichkeit α, die Grenzen zu überschreiten (Fehlalarm): Standard USA: Kontrollgrenzen: ±3 ∗ σ α = 0, 0027 Warngrenzen:±2 ∗ σ α = 0, 0455 Standard Europa: Kontrollgrenzen: ±2, 58 ∗ σ α = 0, 01 Warngrenzen: ±1, 96 ∗ σ α = 0, 05 2. Ist die technische Toleranz enger als das Intervall [µ0 − 3 ∗ σ, µ0 + 3 ∗ σ] Ist der Prozess “nicht fähig ” KO/U = µ0 ± 3 √σn Konfidenzintervall mit 1 − α = 0, 9973 Standardabweichung σ häufig unbekannt → Schätzen aus einem Vorlauf. Vor Anlegen der Kontrollkarte werden k (20 . . . 30) Stichproben jeweils vom Umfang n gezogen und daraus empirische Standardabweichungen Si (i = 1, 2, . . . , k) berechnet. Dann Schätzung für σ : k s̄ = 13.1.2 1X Si h i=1 Die x̄/s Karte Zweispurige Kontrollkarte. x̄-Karte und s-Karte TU-Ilmenau: Statistik 82 S-Karte überwacht die Standardabweichung, die vor allem nicht zu groß werden darf. Gezeichnet werden die empirischen Standardabweichungen S1 , S2 , S3 . . . v u u Si = t 13.1.3 n 1 X (xij x̄i )2 n − 1 j=1 (13.3) Die p-Karte zur Attributprüfung (gut-schlecht). Überwacht wird die Ausschussquote p. Schätzung für p: x n wobei x die Anzahl der schlechten in der Stichprobe und n der Stichprobenumfang ist. Täglich werden ni Teile kontrolliert (n ≥ 100). p̂ = pˆi = xi ni Ausschussquote am i-ten Tag. werden über der Zeitachse (i) graphisch dargestellt. Kontrollgrenzen: s p0 (1 − p0 ) (13.4) KO/U = p0 ± 3 ni Wenn KU < 0, dann dann KU = 0. p0 Ausschussquote des ungestörten Prozesses. Häufig unbekannt: Dann schätzen aus einem Vorlauf von K = 20 . . . 30 Tagen k 1X p̄ = pˆi k i=1 Beispiel: Rote Luftballons Täglich 20000 Stück. Aus einem Vorlauf ist bekannt: Ausschusssquote = 1, 4% Aus 10 Tagen werden Stichproben vom Umfang ni zufällig entnommen und die defekten Ballons gezählt. i ni xi pˆi Ku Ko 1 120 0 0,0000 0 0,0462 0 0,0462 2 120 1 0,0083 3 135 1 0,0074 0 0,0443 0 0,0462 4 120 2 0,0167 5 100 2 0,0200 0 0,0492 0 0,0464 6 118 3 0,0254 7 120 4 0,0333 0 0,0462 0 0,0462 8 120 3 0,0250 9 119 5 0,0420 0 0,0463 0 0,0462 10 120 6 0,0500 TU-Ilmenau: Statistik 83 In die Grafik dann schön p0 eintragen über die Tage, dann Ober- und Untergerenze, dann die tatsächlichen Werte und schon gehts ab. Beim Überschreiten von Ko : Eingreifen! Beim Unterschreiten von Ku : Unsachlichkeit? 13.2 Stichprobenpläne Wareneingangs- oder -ausgangskontrolle. Losen, Posten aus N Teilen. n Teile werden als Stichprobe zufällig entnommen und geprüft. Gut-Schlecht-Prüfung Prüfplan zur Attributsprüfung (DIN ISO 2859) messende Prüfung Prüfplan zur Variablenprüfung (DIN ISO 9951) Hier nur: Einfacher Prüfplan zur Attribtusprüfung : Prüfplan: (N (Losumfang),n(Stipro Umfang n ≤ N ),c (Annahme Zahl c = 0, 1, . . . , n)) Bezeichnungen : X . . . Anzahl der Fehrlerhaften in der Stichprobe (Zufallsgröße) M . . . Anzahl der Fehlerhaften im Los (unbekannt) p= M N . . . Ausschussquote des Loses (unbekannt) Prüfentscheidung : X ≤ c → Posten annehmen X ≥ c+1 → Posten zurückweisen (auf Kosten des Lieferanten) (Falls c +2 dann ist das ein mehrfacher Prüfplan) TU-Ilmenau: Statistik 84 Die Qualität eines Prüfplanes wird vollständig beschrieben durch die Operationscharakteristik (OC - Funktion): L(p) = P (X ≤ c | p) (0 ≤ p ≤ 1) (13.5) Wahrscheinlichkeit, den Posten anzunehmen, wenn p die Ausschussquote des Postens ist. X ist hypergeometrisch verteilt. Deshalb: L(p) = −M Pc (Mk )(Nn−k ) mit p = M N k=0 N (n) 13.3 Pc k=0 hy(k | N, M, n) = Kennwerte für OC-Funktionen Produzentenrisiko Zu vereinbaren zwischen Produzent und Konsument ist eine akzeptierbare Ausschussquote (AQL), die sogenannte Gutlage pP rod . Produzentenrisiko α = P (X > c | p = pP rod ) = 1 − L(pprod ) Wahrscheinlichkeit, den Posten zurückzuweisen, obwohl er in Ordnung ist. Konsumentenrisiko Der Abnehmer legt (für sich) eine Obergrenze für die Ausschussquote, die sog. Schlechtlage pKons (LQ) Konsumentenrisiko β = P (X ≤ c | p = pKons ) = L(pkons ) Wahrscheinlichkeit, die Posten anzunehmen, obwohl die Ausschussquote L im t ist (entspricht Irrtumswahrscheinlichkeit 2. Art). Es muss gelten pprod < pkons Indifferenzpunkt p0,5 = Prüfpunkt = Medianpunkt p0,5 : L(p0,5 ) = 0, 5 An der Stelle des Prüfpunktes ist das Gefälle des OC annähernd maximal. Der Prüfplan kann also Qualitätslagen rechts und links von p0,5 gut unterscheiden. p0,5 ≈ c+ n 2 3 Steilheit Beschreibt die Trennschärfe des Stichprobenplanes. Je steiler die OC im Prüfpunkt, desto besser werden gute und schlechte Qualitätslagen unterschieden. Steilheit hängt von n ab. n → ∞ ⇒ ideale OC Durchschlupf Ausschussquote der durch die Prüfung gekommenen Teile. Nach DIN sind zurückgewiesene Lose einer 100% Prüfung zu unterziehen und fehlerhafte Teile durch fehlerfreie zu ersetzen. Formel der totalen Wahrscheinlichkeit P (A) = P (A | B) ∗ P (B) + P (A | B̄) ∗ P (B̄) D(p) = p ∗ L(p) + 0 ∗ (1 − L(p)) = p ∗ L(p) p = Ausschussquote des angenommenen Loses, L(p) = Wahrscheinlichkeit, das Los anzunehmen, TU-Ilmenau: Statistik 85 0 = Ausschussquotes des zurückgewiesenen Loses, 1 − L(p) Wahrscheinlichkeit, das Los zurückzuweisen. D(p) = p ∗ L(p) . . . mittlerer Durchschlupf, wenn p die Ausschussquote der ursprünglich angelieferten Teile ist. D(p) < p Ein (von p) unabhängiger Konsumwert des Prüfplans ist Dmax = AOQL Da pAOQL ≈ 0, bringt der Wert AOQL keine neue Erkenntnis ≈ 0, 5∗p0,5 Weitere varianten von Prüfplänen nach DIN ISO 2859 Prüfstufen: – normal – reduziert: α größer, n kleiner – verschärft: α kleine, n größer In welcher Prüfstufe geprüft wird, hängt von der Prüfgeschichte ab. Begonnen wird stets mit normal. Prüfniveaus – S1 Sonderprüfniveau für teure Prüfung und somit kleine n – S2 Sonderprüfniveau für teure Prüfung und somit kleine n – S3 Sonderprüfniveau für teure Prüfung und somit kleine n – S4 Sonderprüfniveau für teure Prüfung und somit kleine n – I – II normales Prüfniveau – III – IV Prüfniveau ist zu vereinbaren zwischen Produzenten und Konsumenten. Mehrfache Prüfpläne Annahmezahl c und Rücknahmezahl d mit c + 1 ≤ d X ≤ c → Annahme des Postens X ≥ d → Rückweisung des Postens c < X < d → weitere Stichprobe ziehen TU-Ilmenau: Statistik Kapitel 14 Anpassungstests Stichprobe X1 , X2 , X3 , . . . , Xn zu Merkmal X. Verteilung Px von X sei unbekannt. Anpassungstest prüfen Hypothesen auf Vorliegen einer bestimmten Verteilung P0 also: H0 : Px = P0 . P0 sei eine hypothetische Verteilung. 14.1 Der χ2 -Anpassungstest Erfordert gruppierte Daten; z.B.: Klasseneinteilung m Klassen: K1 , K2 , . . . , Km abs. Pm Häufigkeit: h1 , h2 , . . . , hm i=1 hi = n pj := P0 (X ∈ Kj ) Wahrscheinlichkeit, dass das Merkmal X in der j-ten Klasse Werte annimmt, wenn H0 wahr ist. Klassen Abs. Hfgk. Klassen Wahrschkt. Erwartungs-Hfgk. K1 h1 p1 np1 K2 .. . h2 .. . p2 .. . np2 .. . Km P hm n pm 1 npm n (hj −npj )2 npj (h1 −np1 )2 np1 .. . (hm −npm )2 npm T Test H0 : P x = P 0 (14.1) m X (hj − npj )2 T = npj j=1 (14.2) K ? ≈ (χ2m−1;1−α , ∞) (14.3) 87 88 Ziffer 0 1 2 3 4 5 6 7 8 9 P hj 28 42 44 39 44 40 43 42 38 40 400 pj 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 0,1 1 npj 40 40 40 40 40 40 40 40 40 40 400 (hj − npj )2 144 4 16 1 16 0 9 4 4 0 198 Beispiel Bei der Untersuchung von 100 vierstelligen Pins werde die Häufigkeit der einzelnen Ziffern ausgezählt n = 400. Man prüfe mit α = 0, 05 ob jede Ziffer gleich wahrscheinlich ist. H0 : X ist gleichmäßig diskret verteilt auf {0, 1, . . . , 9} t= P10 j=1 (hj −npj )2 npj = 1 40 ∗ 198 = 4, 95 K ? = (χ29;0,95 , ∞) = (16, 9; ∞) t∈ / K ? ⇒ Es gibt keine Einwände gegen die Annahme, die zehn Ziffern seien alle gleich wahrscheinlich. Bemerkungen: 1. Der χ2 -Anpassungstest ist wenig wirksam, aber universell anwendbar. Für diskrete Verteilungen unentbehrlich. 2. K ? gilt nur Näherungsweise richtig. Empfehlung: Klasseneinteilung so wählen, dass npj ≥ 5∀j. 3. Wurden zur Präzisierung von P0 zunächst r Parameter aus der Stichprobe geschätzt, dann die Freiheitsgrade um r reduzieren. Beispiel Es soll getestet werden: H0 : X ist Poisson-verteilt. Es wird getestet: H0 : X ist Poisson-verteilt mit λ = 3, 17 wobei 3, 17 aus der Stichprobe mittels x̄ = 3, 17 geschätzt wird. → F G = m − 2 Im stetigen Fall: Kolmogorov-Smirnov-Test. 14.2 Test auf Normalverteilung mittels Schiefe und Exzess X normalverteilt ⇒ S = 0 und W = 0 3 S = E(X−EX) 2 σ 4 W = E(X−EX) −3 σ4 Ist die empirische Schiefe oder die emprisiche Wölbung weit von der null weg, so spricht das gegen die Normalverteilung. TU-Ilmenau: Statistik 89 → 2 Tests H0 : X normalverteilt Testgrößen: P (x1 − x̄)3 P =Schiefe 1 ( n (xi − x̄)2 )1,5 P 1 (x1 − x̄)4 n =Woelbung = 1P ( n (xi − x̄)2 )2 TS = TW 1 n (14.4) (14.5) (14.6) Ablehnungsbereiche: KS? = (−∞; −Sn;1− α2 ) ∪ (Sn;1− α2 ;∞ ) ? KW = (0; Wn; α2 ) ∪ (Wn;1− α2 ; ∞) (14.7) (14.8) Beispiel Abweichungen vom Sollmaß. Man prüfe mit α = 0, 05, ob die Abweichungen angenommen werden Pvom Sollmaß normalverteilt P P können. n = 20; n1 (xi − x̄)2 = 4, 0275; n1 (xi − x̄)3 = −0, 466; n1 (xi − x̄)4 = 40, 985 tS = √−0,466 ≈ −0, 06 4,02753 40,985 tW = 4,0275 2 ≈ 2, 53 ? KS = (−∞; −0, 951) ∪ (0, 951, ∞)Keine Ablehnung von H0 ? KW = (0; 1, 73) ∪ (4, 68, ∞)Keine Ablehnung von H0 Es gibt keine Einwände gegen die Annahme, die Abweichungen vom Sollmaß seien normalverteilt. TU-Ilmenau: Statistik Kapitel 15 Unabhängigkeit von Merkmalen Beispiel : Zuf. Auswahl einer Person aus einer Adressdatei. Merkmal: X: Nikotinverbrauch[1,2,3]; Y : Alkoholkonsum[1,2,3] 15.1 Zweidimensionale Verteilungen X und ¡ Y¢ seien zwei Zufallsgrößen (Merkmale) auf der selben2 Ergebnismenge Ω. X = X Y ist ein zweidimensionaler Zufallsvektor X | Ω → R Diskreter Fall X kann die Werte x1 , x2 , . . . , xk annehmen. Y kann die Werte y1 , y2 , . . . , yk annehmen. Die Einzelwahrscheinlichkeiten pij := P (X = xi ; Y = yj ) beschreiben die Verteilungen von X . Eventuell als Tabelle: X/Y y1 y2 . . . ym x1 p11 p12 . . . p1m x1 p21 p22 . . . p2m .. .. .. .. . . . . pk1 pk2 xk mit p − ij ≥ 0∀i, j ... pkm Beispiel: Personen, zufällig ausgewählt. X : Nikotinverbrauch (1=Nichtraucher, 2=Raucher, 3=starker Raucher) Y : Alkoholkonsum (1=Antialkoholiker, 2=Gelegenheitstrinker, 3=Alkoholiker) Verteilungstabelle 1 2 3 X/Y 1 0,4 0,15 0,05 0,6=P(X=1) 0,1 0,1 0,05 0,25=P(X=2) 2 3 0,05 0,05 0,05 0,15=P(X=3) 0,55 0,3 0,15 91 92 Stetiger Fall Wenn eine Dichtefunktion f | R2 → R+ existiert, so dass Z x Z y P (X ≤ x, Y ≤ y) = f (s, t)dtds ∀x, y ∈ R −∞ so heißt X = ¡X ¢ Y −∞ stetige verteilt. Es gilt also stets: Z ∞ Z ∞ f (x, y)dydx = 1 −∞ −∞ Randverteilungen: Dichte von X: Z ∞ fX (x) = f (x, y)dx −∞ Dichte von Y: Z ∞ fY (y) = f (x, y)dy −∞ Beispiel ( " #) 2 2 (y − µy ) 1 1 (x − µx ) + f (x, y) = exp − 2πσx σy 2 σx2 σj2 ist die Dichte einer zweidimensionalen Normalverteilung Randverteilung fX (x) = √ (x−µx ) 1 ∗ e 2σx2 2πσx also X ∼ N (µx , σx2 ) (y−µy ) 1 2 fX (x) = √ ∗ e 2σy 2πσy 2 2 also Y ∼ N (µy , σy2 ) 15.2 Unabhängigkeit von Zufallsgrößen Definition: X und Y heißen unabhängig voneinander, wenn: im diskreten Fall: P (X = xi , Y = yi ) = (P (X = xi ) ∗ (P (Y = yi ) im stetigen Fall: f (x, y) = fX (x) ∗ fY (y)∀x, y ∈ R Beispiel obige Normalverteilung: fX (x)fY (y) = f (x, y) X und Y ist hier unabhängig. Beispiel Nikotin-, Alkoholverbrauch p11 = 0, 4 6= 0, 6 ∗ 0, 55 (X und Y sind hier unabhängig voneinander. TU-Ilmenau: Statistik 93 15.3 Unkorreliertheit von Zufallsgrößen Definition Die Zahl Cov(X, Y ) := E [(X − EX) ∗ (Y − EY )] = E(X, Y ) − EX ∗ EY heißt Kovarianz von X und Y Speziell Y = X: h i 2 Cov(X, X) = E (XE X) = V ar(X) Bemerkung XX E(X ∗ Y ) = xi ∗ yj ∗ pij Z Z E(X ∗ Y ) = x ∗ y ∗ f (x, y)dydx Definition Es seien X und Y zwei Zufallsgrößen mit positiven Streuungen. Die Kenngröße: Cov(X, Y ) ρxy := √ D2 X ∗ D2 Y heißt Korrelationskoeffizient von X und Y . Ist ρxy = 0, so nennt man X und Y unkorreliert. Eigenschaften des Korrelationskoeffizienten 1. −1 ≤ ρxy ≤ 1 2. X,Y unabhängig ⇒ X,Y unkorreliert 3. | ρxy |= 1 ⇒ Alle realisierungen von X = Geraden ¡X ¢ Y liegen exakt auf einer Satz: Es seien X und Y unkorrelierte Zufallsgrößen dann gilt E(X, Y ) = EX ∗ EY ; D2 (X + Y ) = D2 X + D2 Y Die Dichte der zweidim. Normalverteilung mit Korrelationskoeff. ρ(| ρ |6= 1) lautet: ½ · ¸¾ 1 −1 x − µx 2 x − µx y − µy y − µy 2 p fXY (x, y) = exp ( ) − 2ρ +( ) 2 ∗ (1 − ρ2 ) σ−x σx σy σy 2πσx σy 1 − ρ2 Satz: der Zufallsvektor ¡X ¢ Y sei normalverteilt Dann gilt: X,Y und X + Y sind ebenfalls normalverteilt X, Y unkorrelliert ⇔ X, Y unabhängig. 15.4 Test auf Unabhängigkeit/Unkorreliertheit Zwei verbundene Stichproben x1 , x2 , . . . , xn zu Merkmal X und y1 , y2 , . . . , yn zu Merkmal Y . TU-Ilmenau: Statistik 94 Voraussetzung ¡X ¢ Y ist normalverteilt. Test x und y sind unabhängig. H0 : ρ = 0 (15.1) √ r n−2 T = √ 1 − r2 (15.2) K ? = (−∞; −tn−2;1− α2 ) ∪ (tn−2;1− α2 ; ∞) (15.3) Bemerkung r= 1 n−1 P (xi − x̄)(yi − ȳ) Sx ∗ Sy ist eine asymptotisch erwartungstreue und konsistente Punktschätzung für : ρ= E [(X − EX) (Y − EY )] √ √ D2 X ∗ D2 Y Beispiel X: Körpergröße, Y: Körpergewicht. Bei n = 62 zufällig ausgewählten Personen wurde Körpergröße und Körpergewicht ermittelt und daraus r = 0, 76 berechnet. Lässt sich ein signifikanter (α = 0, 001) Zusammenhang zwischen Größe und Gewicht nachweisen? (x, y sind normalverteilt). H0 : ρ =√0 t = √0,76 602 ≈ 9, 05 1−0,76 t60;0,9995 = 3, 46 K ? = (−∞; −3, 46) ∪ (3, 46; ∞) t ∈ K ? ⇒ Ablehnung von H0 Antwort: Ja, der Zusammenhang zwischen Größe und Gewicht ist höchst signifikant! 15.5 χ2 -Unabhängigkeitstest Beispiel Eine Epedemie; n = 120 Patienten; X: Heilungserfolg , Y : Behandlungsmethode Kontingenztafel : sympt. Schnell geheilt langsam geheilt gestorben Behandlung übliche Dosis erhöhte Dosis 14 22 32 68 14 10 4 28 16 8 0 24 44 40 36 120 q Pk Pl (hij −eij )2 χ2 2 Kontingenzkoeffizient: C = und i=1 j=1 n+χ2 mit χ = eij h ∗h eij = i? n ?j Die Beobachtungswerte liegen als 3x3 -Kontingenztafel vor. Daraus wurde berechnet: TU-Ilmenau: Statistik 95 χ2 = 28, 21; Kontingenzkoeffizient C = 0, 436 → Korrigierter Kontingenzkoeffiq 3 zient CKorr = C ∗ 2 = 0, 53 Interpretation damals (Vgl. Statistik 1 Kapitel 6.3): Es besteht eine Abhängigkeit zwischen Behandlungsmethode und Heilungserfolg. Wirklich? Ist sie Signifikant? Test χ2 = k X l X i=1 j=1 H0 :X und Y sind voneinander unabhängig (15.4) T = χ2 (aus der Kontingenztafel) (15.5) (hij − eij )2 k = Anzahl der Zeilen und j = Anzahl der Spalten eij K ? = (χ2(k−1)(l−1);1−α , ∞) (15.6) (15.7) Beispiel Epidemie Man prüfe mit α = 0, 01, ob Behandlungsmethode und Heilungserfolg voneinander abhängen. H0 : X und Y sind voneinander unabhängig t = 28, 21 χ2(3−1)(3−1);0,99 = χ24;0,99 = 13, 3 ? K = (13, 3; ∞) t ∈ k ? ⇒ Ablehnung von H0 . Antwort: Der Zusammenhang zwischen Behandlungsmethode und Heilungserfolg ist hochsignifikant. Bemerkung zum χ2 -Unabhängigkeitstest Die Testgröße (= personsches Chi-Quadrat) ist unter H0 nur Näherungsweise χ2 -verteilt. → Empfehlung: alle Erwartungshäufigkeiten eij ≥ 5. Wenn nicht dann eventuell in Klassen zusammenfassen. TU-Ilmenau: Statistik Kapitel 16 Stichprobenvergleiche 16.1 Der doppelte t-Test (Mittelwerttest) X, Y seien zwei voneinander unabhängige Merkmale. Zum Beispiel die Klausurergebnisse in Statistik 2 am 24.2.2004. X Punktzahl der Studenten, die über die volle Zeit schreiben nx . Y Punktzahl der Studenten, die vorzeitig abgeben ny . Voraussetzung: X ∼ N (µx ; σx2 ), Y ∼ N (µy , σy2 ), σx2 = σy2 Test H0 : µx = µy p (X̄ − Ȳ ) nx ∗ ny (nx + ny − 2) T =q £ ¤ (nx + ny ) ∗ (nx − 1) ∗ Sx2 + (ny − 1) ∗ Sy2 Pnx Pny mit X̄ = n1x i=1 xi Ȳ = n1y i=1 yi Pnx 1 2 2 2 S x= und S x = nx −1 i=1 (xi − x̄) 1 ny −1 Pny i=1 (yi (16.1) (16.2) − ȳ)2 ª © K ? = t :| t |> tnx +ny −2;1− α2 (16.3) Bemerkungen: Der t-Test ist robust gegen Verletzungen der Normalverteiltheit Die sogenannte Varianzhomogenität (σx2 = σy 2 ) wird mit dem F-Test überprüft. Beispiel Klausurergebnisse in Prozent nx = 115, volle Zeit geschrieben: x̄ = 61, 22% bei Sx = 20, 9% ny = 17, volle Zeit geschrieben: ȳ = 60, 34% bei Sy = 21, 8% Man prüfe, ob es einen Signifikanten Unterschied (α = 0, 05) zwischen den beiden Gruppen gibt (Normalverteilung unterstellt). 97 98 H0 : µx = µy √ 115∗17∗130 √ t = (61,22−60,34)∗ ≈ 2 2 132[114∗20,9 +16∗21,8 ] t130;0,975 = 1, 98 K? = 0,88∗504,1 2752,6 ≈ 0, 16 (−∞; 1, 98) ∪ (1, 98; ∞) t ∈ / K ? ⇒ Keine Ablehnung von H0 . Die beiden Studentengruppen unterscheiden sich bezüglich ihrer Klausurergebnisse nicht Signifikant voneinander. 16.2 Die F-Verteilung (R.A. Fisher) Definition Die stetige verteilung mit der Dichte: ½ fz −1 ∗ (1 + ffnz ∗ x) für x > 0 g(x) = c ∗ x 2 0 sonst heißt F-Verteilung mit (fz , fn ) Freiheitsgraden. Für fz ≥ 3 existiert der n Erwartungswert, er ist fnf−2 . Erwartungswert und Modalwert nahe Eins. Bemerkung zur Entstehung der F-Verteilung Der Quotient 2-er χ2 Verteilungen. X1 , X2 , . . . , Xn , Y1 , Y2 , . . . , Yn seien unabhängige, identisch normalverteilte Zufallsgrößen: Xi ∼ N (µx ; σ 2 ) Yi ∼ N (µy ; σ 2 ) Empirische Varianzen der jeweiligen Stichproben: n Sx2 = 1 X (Xi − X̄)2 n − 1 i=1 m Sy2 1 X = (Yi − Ȳ )2 m − 1 i=1 TU-Ilmenau: Statistik 99 S2 Satz Die zufallsgröße Sx2 ist F-verteilt mit n − 1 Zählerfreiheitsgraden und y m − 1 Nennerfreiheitsgraden Quantile der F-Verteilung Die Quantile der F-Verteilung sind vertafelt. Es gilt: 1 (fz ,fn ) F1−α = (f ,f ) Fα n z 16.3 Der F-Test Varianzvergleich X, Y seien zwei unabhängige, normalverteilte merkmale X ∼ N (µx ; σx2 ) Y ∼ N (µy ; σy2 ) Zwei Stichproben: X1 , X2 , . . . , Xnx , Y1 , Y2 , . . . , Yny H0 : σx2 = σy2 Pn−x 1 2 Sx2 i=1 (Xi − X̄) nx −1 T = 2 = 1 Pn−y 2 Sy i=1 (Yi − Ȳ ) ny −1 h ´ ³ ´ (n −1;ny −1) (n −1;ny −1) K ? = 0; F α x ∪ F1−xα ;∞ 2 2 (16.4) (16.5) (16.6) Beispiel Punktzahl in der Klausur in Prozent: Studenten auf voller Zeit: nx = 115 x̄ = 61, 22 Sx = 20, 9 Studenten die vorzeitig abgegeben haben: ny = 17 ȳ = 60, 34 Sy = 21, 8 Beim doppelten t-Test wurde Varianzhomogenität (σx2 = σy2 ) vorausgesetzt. Stimmt das? Teste mit α = 0, 10. H0 : σx2 = σy2 t= Sx2 20, 92 = ≈ 0, 92 2 Sy 21, 82 Kritische Schranken: 114;16 F0,05 = 1 16;114 F0,95 = 1 ≈ 0, 58 1, 733 114;16 F0,95 = 2, 06 K ? = [0; 0, 58) ∪ (2, 06; ∞) t∈ / K ? ⇒ keine Ablehnung von H0 . Wir können die Varianzen als gleich ansehen. TU-Ilmenau: Statistik 100 16.4 Varianzanalyse (multipler Mittelwertvergleich) genauer: ANOVA, Modell 1, einfache Klassifikation. Das ist eine Verallgemeinerung der doppelten t-Tests auf mehr als zwei Merkmale. Beispiel Neues Waschpulver, Werbekampagne beendet. 3 Städte, jeweils 8 Supermärkte, ein Tag. Anzahl verkaufter Packungen per 1000m2 Verkaufsfläche. Berlin 184 230 216 212 137 142 215 312 φ 206 Hamburg 231 224 223 182 311 196 218 151 φ217 München 204 331 317 311 281 237 356 267 φ288 Allgemein K Merkmale X1 , X2 , . . . , Xk unabhängig voneinander. Voraussetzung: Alle Xi normalverteilt mit derselben Streuung σ 2 . Xi ∼ N (µi ; σ 2 ) Stichproben Gruppenmittelwerte: Xi• = 1 X Xij ni TU-Ilmenau: Statistik (16.7) 101 1 x11 x12 .. . 2 x21 x22 .. . ... ... ... k xk1 xk2 .. . x1n1 X¯1• x2n2 X¯2• ... ... xknk X¯k• Gesamtmittel: X¯•• k 1 XX Xij X¯n = n i=1 j=1 (16.8) Sprechweise: Faktor wirkt in k Gruppen“. Geprüft wird die Hypothese, die ” Erwartungswerte µi aller Gruppen (=Merkmale) seien gleich groß. Kernpunkt der Analyse ist eine Streuungs“-zerlegung: ” ni ni k X k X k X X X (Xij − X̄•• )2 = (Xij − X̄i• ) + ni (X̄i• − x̄•• )2 i=1 j=1 i=1 j=1 SQT (16.9) i=1 SQZ SQI Eigentlich Quadratsummen“ Analyse. Empirische Varianz= Quadratsumme F reiheitsgrade = ” SQ? F G = M Q?. Freiheitsgrade sind hierbei: Anzahl der Summanden minus Anzahl der die Summanden verbindenden Punktschätzungen. Empirische Varianz zwischen den Gruppen: M QZ = SQZ k−1 D2 Xij = σ 2 Empirische Varianz innerhalb der Gruppen M QI = SQI n−k M QT = SQT n−1 Empirische Varianz total Test H0 = µ1 = . . . = µn T = M QZ M QI (k−1,n−k) K ? = (F1−α (16.10) (16.11) ; ∞) Zum Beispiel Waschpulver“: k = 3; n1 = n2 = n3 = 8; n = 24 ” TU-Ilmenau: Statistik (16.12) 102 Ursache der Varianz zwischen den Gruppen innerhalb der Gruppen total Quadratsumme 31696 54500 86196 FG 2 21 23 Varianz 15848,0 2595,2 T 6,1 Varianztabelle 2,21 K ? = (F0,95 ) = (3, 4668; ∞) t ∈ K ? ⇒ Ablehnung von H0 . Der Faktor Stadt hat einen signifikanten Einfluß auf das Käuferverhalten. Nun könnte man noch paarweise vergleichen, ob München nur aus der Reihe tanzt und Hamburg und Berlin ein gleiches Käuferverhalten haben (Diese Vermutung liegt bei Betrachtung der Boxplots nahe). 16.5 Der Vorzeichen-Test Auch: Median-Test. Zwei verbundene Merkmale, stetig verteilt: X, Y , ihre Verteilungen sollen heißen PX bzw. PY . Stichprobe: (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) Voraussetzung: X1 , . . . , Xn unabhängig voneinader. Y1 , . . . , Yn unabhängig voneinader. Aber: X − i darf von Yi abhängig sein. H0 : PX = PY (genauer Median(X − Y )=0) T = Zn? := Anzahl der i, für die Xi > Y − i © ª K ? = z : z ≤ n − bn;1− α2 oder z ≥ n − bn;1− α2 Quantile der Binomialverteilung mit p = 1 2 siehe Tafel IV.10 Bewertung Theoretisch ist P (Xi = Yi ) = 0. Falls in Einzelfällen doch Xi = Yi auftritt, geht jeder dieser Fälle in die Zählung der Pluszeichen mit 21 ein. Ist n > 20, kann Zn+ (binomial verteilt) als normalverteilt angesehen werden. Dann benutzt man Zn+ − n2 T = √ n 12 K ? = (−∞; −Z1− α2 ) ∪ (Z1− α2 ; ∞) Der Vorzeichentest kann auch auf 1-Stichproben-Probleme angewandt werden, z.B.: Test auf Median m0 : Zn+ = Anzahl der i mit Xi > m0 . Test auf Symmetrie m0 : Zn+ = Anzahl der i mit Xi > 0. Beispiel Neue Rasierklinge Mars“. Vergleich mit dem Konkurrenzprodukt ” Merkur“. n = 12 Männer, 5 Tage, eine gesichtshälfte mit Mars“, die ander ” ” mit Merkur“. Summe der Wertungspunkte kann zwischen 0 und 100(am besten) ” liegen. Mars“ wird nur auf den markt gebracht, wenn es signifikant besser ist ” als Merkur“ (α = 0, 05). ” X Punktzahl für Mars H0 : M ed(X − Y ) ≤ 0 Y Punktzahl für Merkur t = Zn+ = 8, 5 K ? = [b12,1−α ; n] = [10; 12] t ∈ / K ? ⇒ keine Ablehnung von H0 . TU-Ilmenau: Statistik 103 Nr. der Person 1 2 3 4 5 6 7 8 9 10 11 12 Punkte Mars 96 84 77 85 61 84 75 92 88 89 70 83 Punkte Merkur 90 80 78 77 64 88 71 87 88 85 68 82 Vorzeichen + + + + + tie + + + Also: Es kann nicht nachgewiesen werden, dass Mars“ signifikant besser ist als ” Merkur“. ” TU-Ilmenau: Statistik Anhang A Klausuraufgaben A.1 A.1.1 Klausur Statistik 1 Aufgabe 1 Bei LCD Bildschirmen kann es vorkommen, dass einzelne Pixel ausfallen. Aus der laufenden Produktion solcher Bildschirme werden 40 zufällig ausgewählt und die Anzahl der ausgefallenen Pixel ermittelt. Es ergaben sich folgende Anzahlen. 0 1 0 0 3 0 1 0 0 0 0 0 1 0 0 2 0 0 0 0 2 0 0 1 0 4 0 2 3 0 1 0 0 2 0 1 0 0 1 0 1. Erstellen sie eine primäre Häufigkeitstabelle mit absoluten und relativen Häufigkeiten. Lösung: xi Strichliste hi fi 0 26 26 0,65 1 7 7 0,175 2 4 4 0,1 3 2 2 0,05 4P 1 1 0,025 40 1 105 106 2. Stellen sie die Häufigkeitsverteilung als Histogramm grafisch dar. Lösung: 3. Ist anhand diess Diagramms die Häufigkeitsverteilung linksschief, rechtsschief oder eher symmetrisch? Lösung: Rechtsschief, da sie linkssteil ist. 4. Berechnen sie x̄ und s. Lösung: x̄ = 0, 625 s = 1, 030 5. Interpretieren Sie den Wert für x̄ in einem Satz. Lösung: Die Bildschirme werden mit einem, im mittel, Fehler von 0,625 ausgefallenen Pixeln produziert. A.1.2 Aufgabe 2 Für drei Produkte erzielte ein mittelständisches Unternehmen im Jahre 2000 (Basisjahr) die folgenden Umsätze: Produkt A ¿ 10000 Produkt B ¿ 12000 Produkt C ¿ 5000 Die Preise der Produkte haben sich vom Jahr 2000 auf das Jahr 2002 wie folgt verändert: Produkt A +25% Produkt B +10% Produkt C +15% TU-Ilmenau: Statistik 107 1. Berechnen sie hieraus den Preisindex nach Laspeyres. Lösung: 1, 1648 2. Interpretieren Sie den errechneten Wert. Lösung: Der Preis ist im mittel um 16,48% gestiegen. A.1.3 Aufgabe 3 Zur Analyse des Fertigungszeitaufwandes eines Teiles liegen folgende Ausgangsdaten vor: Jahr Zeitpunkt t Fertigungszeit in Minuten pro 100 Stück 1995 1 114 1996 2 112 1997 3 110 1998 4 108 1999 5 107 2000 6 105 2001 7 104 2002 8 100 1. Berechnen Sie den linearen Trend als Funktion von t nach der Methode der kleinsten Quadrate. Lösung: f (t) = −1, 833x + 115, 75 2. Welche durchschnittliche Fertigungszeit ist mittels dieser Trendegeraden für das Jahr 2003 zu erwarten? Lösung: f (9) = 99, 253 Im Jahr 2003 wird die Produktion von 100 Teilen vermutlich 99,253 Minuten dauern. A.1.4 Aufgabe 4 Zwei konkurrierende Kleinwagen wurden von einer Autozeitschrift ausführlich getestet und einem Vergleich unterzogen. Unter anderem wurde bei jeweils 25 Testfahrten der Benzinverbrauch ermittelt. Das ergebnis ist in folgendem Diagramm dargestellt: TU-Ilmenau: Statistik 108 Der Ursprung bezeichnet 3 Liter Spritverbrauch, jeder weitere Strich bezeichnet eine weiteren Liter. Der obere Box-Whisker-Plot bezeichnet Wagen 1, der untere Wagen 2. 1. Vergleichen Sie die beiden Wagen im Benzinverbrauch bezüglich Mittelwert und Varianz. Lösung: Im Mittel verbraucht der 1. Wagen 5,5 Liter, der 2. Wagen 5 Liter. Der Benzinverbrauch des 1. Wagen streut weniger. 2. Bei wie viel Prozent aller Fahrten lag der Benzinverbrauch unter 5 Liter / 100 km bei Wagen 1 bzw. Wagen 2? Lösung: Wagen 1: 25 % ; Wagen 2: 50%. A.1.5 Aufgabe 5 Auf der Autobahn A4 werden am Freitagnachmittag im Rahmen einer Verkehrskontrolle 20 LKW zufällig aus dem fließenden Verkehr gewunken und einer technischen Überprüfung unterzogen. Es sei bekannt, dass ein Fünftel aller LKW, die um diese Uhrzeit auf der A4 fahren, technische Mängel haben. 1. Die Anzahl X der bei der Verkehrskontrolle zu beanstandenden LKW ist binomialverteilt mit den Parametern n und p. Wie groß ist hier n und p? Lösung: n = 20 ; p = 0, 2 2. Wie groß ist die Wahrscheinlichkeit, dass die Polizeiinspekteure genau zwei mit Mängeln behaftete LKW finden? Lösung: µ ¶ 10 P (2) = ∗ 0, 22 ∗ (1 − 0, 2)18 = 45 ∗ 0, 04 ∗ 0, 018 = 0, 1369 2 TU-Ilmenau: Statistik 109 3. Wie groß ist die Wahrscheinlichkeit, dass mehr als zwei LKW zu beanstanden sein werden? Lösung: P (X > 2) = 1 − (P (0) + P (1) + P (2)) µ ¶ 10 P (0) = ∗ 0, 20 ∗ (1 − 0, 2)20 = 0, 012 0 µ ¶ 10 P (1) = ∗ 0, 21 ∗ (1 − 0, 2)19 = 0, 058 1 µ ¶ 10 P (2) = ∗ 0, 22 ∗ (1 − 0, 2)18 = 0, 1369 2 P (X > 2) = 0, 7931 4. Mit wie vielen mangelhaften LKW muss die Polizei bei der Kontrolle von 20 Fahrzeugen im Mittel rechnen? Lösung: EX = n ∗ p = 4 A.2 A.2.1 Klausur Statistik 2 Aufgabe 1 Ein Prüfer soll eine Lieferung von N = 40 elektronischen Bauteilen gleicher Bauart auf gut/schlecht testen. Aus Zeitgründen kann er nur n = 5 Teile untersuchen. Die Anzahl der defekten ist ihm unbekannt. Eine gute Lieferung würde vertragsgemäß nicht mehr als 10% schlechte enthalten. Wenn das vorliegend der Fall ist, so bestimme man exakt die Wahrscheinlichkeit für den Prüfer, maximal 1 defektes Teil in der Stichprobe zu finden. Lösung AQ = 1 X i=1 M M = →M =4 N 40 ¡4¢¡40−4¢ = hy(i|40; 4; 5) = i ¡405−i ¢ 5 = 0, 57292 + 0, 358081 A.2.2 Aufgabe 2 Die Prüfpläne P P (1) = (N∞ ; 100; 0) und P P (2) = (N∞ ; 500; 1) stehen für zwei Geschäftspartner einer Liefer-Abnehmer-Beziehung bei Attributsprüfung zur Diskussion. 1. Wie groß wäre der am jeweiligen Medianpunkt einer betreffenden OC (1) Funktion und OC (2) -Funktion der mittlere Durchschlupf, ausgedrückt in Prozent? TU-Ilmenau: Statistik 110 2. Welcher Plan prüft weniger “scharf”? 3. Erstellen Sie eine grafische Darstellung, in der beide OC-Funktionen enthalten sind. Lösung 1. Mittlerer Durchschlupf: D(p0,5 ) = p0,5 ∗ 0, 5 (1) 0 + 32 = 0, 006̄ 100 (2) 1 + 23 = 0, 003̄ 100 p0,5 = p0,5 = Dp(1) = 0, 006̄ ∗ 0, 5 = 0, 0033=0, b 33% 0,5 Dp(2) = 0, 003̄ ∗ 0, 5 = 0, 0016=0, b 16̄% 0,5 2. der Prüfplan P P (1) = (N∞ ; 100; 0) prüft weniger scharf als P P (2) , da (2) (1) p0,5 > p0,5 . 3. Zeichnung fehlt noch A.2.3 Aufgabe 3 Ein empfindliches Messgerät eines technischen Labors, von dem bekannt ist, dass sein Messfehler mit N (0; 0; 12) normalverteilt ist, ist versehentlich von einem ungeübten Mitarbeiter beschädigt worden. Es wird daraufhin repariert und neu geeicht, so dass µ weiterhin Null ist. Durch 30 Probemessungen soll geprüft werden, ob nach der Reparatur wieder die alte Messgenauigkeit vorliegt. Dabei ergibt sich s2 = 0, 15. Prüfen sie mit α = 0, 05, ob ein signifikanter Unterschied zur Genauigkeit vor der Reperatur vorliegt. Lösung H0 : σ 2 = σ02 T = 29 ∗ 0, 15 (n − 1)s2 = = 36, 25 2 σ0 0, 12 K ? = (0; χ2n−1;1− α2 ) ∪ (χ2n−1; α2 ; ∞) = (0; 16, 0) ∪ (45, 7; ∞) T ∈ / K ? ⇒ H0 nicht ablehnen Es gibt keinen signifikanten Unterschied zur Varianz vor der Reparatur. TU-Ilmenau: Statistik 111 A.2.4 Aufgabe 4 Eine Verbraucherzentrale hat für einen a,tlichen Warenkorb in der Europäischen Union (3-Personen Hauhalt) qEU nach den neuen EURO-Preisen monatliche KoP sten von peuro ∗ qEU = 900Euro vorausberechnet. Dieser Warenkorb soll zur Berechnung der mittleren Kaufkraftparität USA/Euroland P monatlich p$ ∗ qEU = 720$ kosten, wobei amerikanische Preise in Dollar verwendet wurden. P Ein amtlicher amerikanischer Warenkorb (3-Personen Haushalt) qU S kostet p$ qU S = 775 Euro. Man berechne die mittlere Kaufkraftparität KPU S/EU unter Verwendung der beiden Warenkörbe qEU und qU S sowie der angegebenen Kosten. Interpretieren sie das Ergebnis mit einem Satz. Lösung P p ∗q 775Euro Euro PEuro U S = = 1, 25 p$ ∗ qU S 620$ $ P p ∗ qEU 720$ $ = 0, 8 =P $ = pEuro ∗ qEU 900Euro Euro KKPU S = KKPEU r KKPU S/EU = KKPEU = KKPU S r 720 620 p $ ∗ = 0, 64 = 0, 8 900 775 Euro Das heißt, für einen Euro kann man in der EU (Bei den betrachteten Preisniveaus und Warenkörben) durschnittlich soviel kaufen, wie für 0, 8$ in den USA. (Kurz: 1 Euro entspricht 0,8 $) A.2.5 Aufgabe 5 Die durchschnittliche jährliche Anzahl X der Abwesenheitstage einer bestimmten Arbeitnehmergruppe werde mittels einer einfachen Stichprobe vom Umfang n erhoben. Welcher Stichprobenumfang N garantiert, dass die Länge des auf der Normalverteilungsannahme berechneten Konfidenzintervalls für E(X) zum Konfidenzniveau 0, 99 höchstens 3 ist, wenn aus früheren Untersuchungen σ = 15 bekannt ist? Lösung 2∗σ 2 2 ∗ 15 2 ) ⇒ n ≥ (2, 576 ∗ ) ∆ 3 ∆= b Länge des KI= 3 n ∼ 664 n ≥ (z α2 ∗ z α2 = z0,005 = 2, 576 Der erforderliche Mindeststichprobenumfang beträgt n = 664. Aufgabe 6 Eine Baumarktkette betreibt 47 Filialen. Mittles linearer Regression soll der Einfluss der Verkaufsfläche (Merkmal X in m2 ) auf den Jahresumsatz (Merkmal Y in Millionen Euro) der Filialen analysiert werden. Aus den 47 Beobachtungspaaren (xi , yi ) wurde der empirische Korrelationskoeffizient r = 0, 96 und nach der Methode der kleinsten Quadrate die Regressionsgerade y = 0, 03x + 10 berechnet. Außerdem ist bekannt, dass die Verkaufsflächen zwischen 280 und 3010m2 liegen, den Mittelwert x̄ = 2200m2 und die empirische Standardabweichung sx = 480m2 haben. TU-Ilmenau: Statistik 112 1. Wie groß ist das empirische Mittel und empirische Standarabweichung des Jahresumsatzes? 2. Wie groß ist das lineare Bestimmtheitsmaß, und wie ist dieser Wert zu interpretieren ? 3. Ist ein linearer Ansatz hier überhaupt sinnvoll? (Begründung!) 4. Eine 48. Filiale wird eine Verkaufsfläche von 3000 m2 haben. Mit welchem Jahresumsatz wäre zu rechnen? Lösung 1. ȳ = â + b̂ ∗ x̄ = 0, 03 ∗ 2200 + 10 = 76 Mill. ¿ sy = b̂ ∗ 2. sx 480 = 0, 03 ∗ = 15 Mill. ¿ r 0, 96 B = r2 = 0, 962 = 0, 9216 92 % der Varianz der y-Werte wird durch die Gerade verursacht. 3. Ja, weil | r | nahe bei Eins. 4. ŷ(3000) = 0, 03 ∗ 3000 + 10 = 100 Es sind 100 Mill. Euro Jahresumsatz zu erwarten. TU-Ilmenau: Statistik Index χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 χ2 -Unabhängigkeitstest . . . . . . . . . 94 χ2 -Verteilung . . . . . . . . . . . . . . . . . . . 70 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . 41 Erwartungstreue . . . . . . . . . . . . . . . . 63 Exponentialfunktion . . . . . . . . . . . . 40 Exzess . . . . . . . . . . . . . . . . . . . . . . . . . . 22 ” Interpretation, 24 Absolute Häufigkeit . . . . . . . . . . . . . 12 Abweichungen vom Sollmaß . . . . . 12 Anfangsmoment . . . . . . . . . . . . . . . . 22 Attributsprüfung . . . . . . . . . . . . . . . 83 Ausprägungen . . . . . . . . . . . . . . . . . . . 9 Ausschussquote . . . . . . . . . . . . . . . . . 82 F-Test . . . . . . . . . . . . . . . . . . . . . . . . . . 99 F-Verteilung . . . . . . . . . . . . . . . . . . . . 98 Fehler . . . . . . . . . . . . . . . . . . . . . . . . . . 75 geometrisches Mittel . . . . . . . . . . . . 19 gewogenes arithmetisches Mittel 19 Grenzwertsätze . . . . . . . . . . . . . . . . . 53 Gutlage . . . . . . . . . . . . . . . . . . . . . . . . . 84 Balkendiagramm . . . . . . . . . . . . . . . . 16 Beispiel 1 . . . . . . . . . . . . . . . . . . . . . . . 12 Beispiel 2 . . . . . . . . . . . . . . . . . . . . . . . 18 Beobachtungspaare . . . . . . . . . . . . . 31 Bereichsschätzungen . . . . . . . . . . . . 67 Binomialverteilung . . . . . . . . . . . . . . 50 Box-Whisker-Plot . . . . . . . . . . . . . . . 21 Bravais/Pearson . . . . . . . . . . . . . . . . 31 Häufigkeitspolygon. . . . . . . . . . . . . .15 Häufigkeitstabelle . . . . . . . . . . . . . . . 12 Histogramm . . . . . . . . . . . . . . . . . . . . 14 Hypergeometrische Verteilung . . . 50 Chi-Quadrat . . . . . . . . . . . . . . . . . . . . 34 Indexformeln . . . . . . . . . . . . . . . . . . . 28 Indexzahlen. . . . . . . . . . . . . . . . . . . . .27 ” empirische Indizes, 27 ” Indexformeln, 28 ” ” Mengenindex . . . . . 28, 29 ” ” Preisindex . . . . . . . . 28, 29 ” ” Umsatzindex . . . . . . . . . 28 ” Preisindex, 28 ” Zusammengesetzte Indizes, 27 Indifferenzpunkt . . . . . . . . . . . . . . . . 84 Diskrete Verteilungen . . . . . . . . . . . 46 Durchschlupf . . . . . . . . . . . . . . . . . . . 84 Effizienz . . . . . . . . . . . . . . . . . . . . . . . . 64 Eingreifgrenze . . . . . . . . . . . . . . . . . . 80 Empirische Momente. . . . . . . . . . . .22 ” Anfangsmoment, 22 ” Zentralmoment, 22 Empirische Schiefe . . . . . . . . . . . . . . 22 ” Interpretation, 23 empirische Varianz . . . . . . . . . . . . . . 19 empirischer Median . . . . . . . . . . . . . 18 Ergebnismenge. . . . . . . . . . . . . . . . . .41 Konfidenzintervall . . . . . . . . . . . . . . 67 Konsistenz . . . . . . . . . . . . . . . . . . . . . . 64 Konsumentenrisiko. . . . . . . . . . . . . .84 Kontingenzkoeffizient. . . . . . . .33, 35 113 114 ” normierter, 35 Kontingenztafel . . . . . . . . . . . . . . . . . 34 Kontrollgrenze . . . . . . . . . . . . . . . . . . 80 Kontrollkarte, zweispurige . . . . . . 81 Korrelationskoeffizient . . . . . . . . . . 31 ” Eigenschaften, 31 Kreisdiagramm . . . . . . . . . . . . . . . . . 16 Kummulative Häufigkeit . . . . . . . . 12 ” relativ, 13 Kummulative Häufigkeit ” absolut, 12 Laspeyres . . . . . . . . . . . . . . . . . . . . . . . 28 Lineare Regression . . . . . . . . . . . . . . 37 Logistische Funktion . . . . . . . . . . . . 40 Mathe Noten . . . . . . . . . . . . . . . . . . . 18 Median . . . . . . . . . . . . . . . . . . . . . . . . . 18 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . 9 Mittelwerte ” gewogenes arithmetisches Mittel, 19 ” empirischer Median, 18 ” geometrisches Mittel, 19 ” Modalwert, 18 Mittelwerttest . . . . . . . . . . . . . . . . . . 97 Modalwert . . . . . . . . . . . . . . . . . . . . . . 18 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Normalverteilung . . . . . . . . . . . . . . . 52 Operationscharakteristik . . . . . . . . 84 p-Karte . . . . . . . . . . . . . . . . . . . . . . . . . 82 Paasche. . . . . . . . . . . . . . . . . . . . . . . . .28 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . 34 Poissonverteilung . . . . . . . . . . . . . . . 51 Prüfniveaus . . . . . . . . . . . . . . . . . . . . . 85 Prüfplan . . . . . . . . . . . . . . . . . . . . . . . . 83 Prüfstufen . . . . . . . . . . . . . . . . . . . . . . 85 Prüfverteilung . . . . . . . . . . . . . . . . . . 60 Preisindex . . . . . . . . . . . . . . . . . . . . . . 28 Produzentenrisiko . . . . . . . . . . . . . . . 84 Prozesskontrolle . . . . . . . . . . . . . . . . 79 Punktschätzungen . . . . . . . . . . . . . . 63 Quartil . . . . . . . . . . . . . . . . . . . . . . . . . 20 ” oberes, 20 ” unteres, 20 Quartilsabstand. . . . . . . . . . . . . . . . .20 Rechteckverteilung . . . . . . . . . . . . . . 51 Regression . . . . . . . . . . . . . . . . . . . . . . 37 ” Curvilineare, 39 Regressionsgerade. . . . . . . . . . . . . . .37 Regressionskoeffizienten . . . . . . . . . 37 ” optimale, 38 Relative Häufigkeit . . . . . . . . . . . . . 12 S-Karte . . . . . . . . . . . . . . . . . . . . . . . . . 82 Schätzungen . . . . . . . . . . . . . . . . . . . . 64 Schiefe . . . . . . . . . . . . . . . . . . . . . . . . . . 22 ” Interpretation, 23 Sekundare Häufigkeitstabelle . . . . 13 Signifikanztests . . . . . . . . . . . . . . . . . 75 Standardabweichung . . . . . . . . . . . . 20 statistisches Element . . . . . . . . . . . . . 9 Steilheit . . . . . . . . . . . . . . . . . . . . . . . . 84 Stetige Verteilungen . . . . . . . . . . . . 47 Stichprobe . . . . . . . . . . . . . . . . . . 10, 57 Stichproben Funktion . . . . . . . . . . . 34 Stichprobenmittel . . . . . . . . . . . . . . . 59 Stichprobenpläne . . . . . . . . . . . . . . . 83 Stichprobenreststreuung . . . . . . . . 40 Stichprobenumfang . . . . . . . . . . . . . 11 Stichprobenvarianz. . . . . . . . . . . . . .59 Stichprobenvergleich . . . . . . . . . . . . 97 Streuungsmaße . . . . . . . . . . . . . . . . . 19 ” empirische Varianz, 19 ” Quartilsabstand, 20 t-Test. . . . . . . . . . . . . . . . . . . . . . . . . . .97 t-Verteilung. . . . . . . . . . . . . . . . . . . . .69 Törnquist-Funktion . . . . . . . . . . . . . 40 Teilerhebung . . . . . . . . . . . . . . . . . . . . 10 Umsatzindex. . . . . . . . . . . . . . . . . . . .28 Unimodal . . . . . . . . . . . . . . . . . . . . . . . 18 TU-Ilmenau: Statistik 115 Untersuchungseinheiten . . . . . . . . . . 9 Urliste . . . . . . . . . . . . . . . . . . . . . . 10, 11 Variablenprüfung . . . . . . . . . . . . . . . 83 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . 19 Varianzanalyse . . . . . . . . . . . . . . . . 100 Variationskoeffizient . . . . . . . . . . . . 20 Variationsreihe. . . . . . . . . . . . . . . . . .11 Vertrauensbereich . . . . . . . . . . . . . . . 67 Vollerhebung . . . . . . . . . . . . . . . . . . . 10 Vorzeichen-Test . . . . . . . . . . . . . . . . 102 Wölbung . . . . . . . . . . . . . . . . . . . . . . . 22 ” Interpretation, 24 Wachstumsrate . . . . . . . . . . . . . . . . . 19 Warngrenzen . . . . . . . . . . . . . . . . . . . 80 Zentraler Grenzwertsatz . . . . . . . . 53 Zentralmoment . . . . . . . . . . . . . . . . . 22 Zentralwert . . . . . . . . . . . . . . . . . . . . . 18 Zufälliger Versuch . . . . . . . . . . . . . . 41 TU-Ilmenau: Statistik