Statistik II für Betriebswirte Vorlesung 1 Dr. Andreas Wünsche TU Bergakademie Freiberg Institut für Stochastik 16. Oktober 2017 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 1 Organisatorisches I Vorlesung: Mo., 14:00-15:30, FOR-0270. I Übungen: I I I Di., 9:15-10:45, LAM-2090, Dipl.-Math. Dietz, Di., 14:00-15:30, WER-1045, Dr. Wünsche, Mi., 14:00-15:30, MET-2065, Dipl.-Math. Dietz. I Selbststudium (Laut Modulbeschreibung zusammen für beide Semester 120 h Präsenzzeit und 150 h Selbststudium.) I Information: http://www.mathe.tu-freiberg.de/wiwistat I Prüfung: Klausur 120 Minuten, zugelassen sind Taschenrechner, Bücher, Mitschriften; nicht zugelassen sind Laptops, Handys. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 2 Themenkomplexe und geplanter Ablauf in diesem Semester I Statistische Tests (ca. drei Vorlesungen) I Varianzanalyse (ca. zwei Vorlesungen) I Korrelationsanalyse (ca. zwei Vorlesungen) I Regressionsanalyse (ca. zwei Vorlesungen) I Weihnachtsvorlesung (18.12.17) I Regressionsanalyse (ca. drei Vorlesungen) I Statistische Qualitätskontrolle (ca. zwei Vorlesungen) Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 3 Klausurergebnisse Statistik 1 für Betriebswirte Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 4 4. Grundlagen des statistischen Schließens II (Tests) 4.1 Einführung in statistische Tests am Beispiel des t-Tests Beispiel 4.1: Intelligenzquotient I Fragestellung (1): Haben (14-jährige) Kinder aus Dresden einen höheren Intelligenzquotienten als 100? I Fragestellung (2): Haben (14-jährige) Kinder aus Dresden einen niedrigeren Intelligenzquotienten als 100? I Fragestellung (3): Ist der Intelligenzquotient von (14-jährigen) Kindern aus Dresden von 100 verschieden? Ist µ der (unbekannte) Erwartungswert des IQ der Gesamtpopulation der (14-jährigen) Kinder aus Dresden, dann lassen sich die Fragestellungen (1) bis (3) wie folgt als Forschungshypothesen formulieren: I I I (1): µ > 100 (2): µ < 100 (3): µ 6= 100 Dr. Andreas Wünsche (erwartete IQ ist höher 100) (erwartete IQ ist niedriger 100) (erwartete IQ ist ungleich 100) Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 5 Grundlegende Schwierigkeit I I I I I I Auf Basis einer repräsentativen Stichprobe soll auf die Grundgesamtheit geschlossen werden. −→ Fehler, Unsicherheiten sind möglich! Beispiel: Es werden zufällig“ 10 hochbegabte Kinder (IQ≥ 130) für ” die Stichprobe ausgewählt. Vermutlich wird dadurch µ überschätzt! Ziel der schließenden Statistik: Quantifizierung der Unsicherheit, z.B. mit welcher Wahrscheinlichkeit macht ein statistischer Test einen Fehler. Notwendig für die Quantifizierung: Mathematische Modellannahmen Im Beispiel 4.1 gehen wir von der Modellannahme aus, dass der IQ der (14-jährigen) Kinder in Dresden normalverteilt ist. Diese Modellannahme sollte man stets rechtfertigen (wie man das machen kann, sehen wir später). Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 6 Fortsetzung Beispiel 4.1: Intelligenztest I I I Der Intelligenzquotient X der 14-jährigen Kinder in Dresden wird als normalverteilt angenommen. (math.) Sichprobe: Xi iid. mit Xi ∼ N(µ, σ 2 ), i = 1, . . . , n . Aus allen (14-jährigen) Kindern in Dresden wurden zufällig und unabhängig voneinander 10 Kinder ausgewählt. Diese machten einen IQ-Test mit folgenden Ergebnis (Daten): i 1 2 3 4 5 xi 112 108 97 100 107 i 6 7 8 9 10 xi 110 99 106 98 104 Die Punktschätzung für den unbekannten Erwartungswert µ ist gleich: µ̂ = x = 104.1 und damit größer als 100. Das bedeutet aber nicht, dass der Erwartungswert µ mit Sicherheit größer als 100 ist. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 7 Nullhypothese I Die Nullhypothese im Beispiel 4.1 lautet: H0 : µ = 100(= µ0 ). µ0 = 100 ist also der hypothetische Wert. I Aus der Annahme, dass der IQ normalverteilt ist ergibt sich, dass die Teststatistik X − µ0 √ n T = S t-verteilt ist mit (n − 1)-Freiheitsgraden. I Damit lässt sich die Wahrscheinlichkeit dafür kontrollieren, die Nullhypothese fälschlicherweise abzulehnen. I Die Forschungshypothesen (1) bis (3) sind hier die möglichen Alternativhypothesen HA . Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 8 Aufstellen der Null- und der Alternativhypothese I Man formuliert 2 sich ausschließende (oft sogar komplementäre) Hypothesen, die Nullhypothese H0 und die Alternativhypothese HA (oft auch mit H1 bezeichnet) z.B. oder oder H0 : µ = µ 0 H0 : µ = µ 0 H0 : µ = µ 0 und und und HA : µ > µ0 HA : µ < µ0 HA : µ 6= µ0 . I Die Nullhypothese ist diejenige Hypothese, welche auf ihren Wahrheitsgehalt hin überprüft werden soll. Die Nullhypothese wird als Ausgangspunkt einer statistischen Untersuchung gesehen, den es zu widerlegen gilt. I Die Alternativhypothese ist die eigentliche Forschungshypothese und drückt aus, was mittels der statistischen Untersuchung gezeigt werden soll. Die Hypothese, die statistisch abgesichert werden soll, sollte also als Alternativhypothese formuliert werden! Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 9 Testentscheidung, Fehler erster und zweiter Art I 2 mögliche Entscheidungen beim Testen: 1. H0 wird verworfen, also abgelehnt und HA angenommen: Es gibt in der erhobenen Stichprobe starke Hinweise darauf, dass H0 nicht gelten kann, also HA gelten muss. Diese Hinweise sind so stark, dass man nicht von einem zufälligen Zustandekommen ausgehen kann. 2. H0 wird nicht verworfen, also angenommen: Man hat keine Hinweise gefunden, die gegen H0 sprechen. Alle aufgetretenen Effekte könnten genauso gut zufallsbedingt sein. I Entscheidung aufgrund der Stichprobe zugunsten von: Dr. Andreas Wünsche H0 HA in der Grundgesamtheit gilt H0 HA richtige Fehler 2. Art Entscheidung (β-Fehler) Fehler 1. Art richtige (α-Fehler) Entscheidung Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 10 Fehlerwahrscheinlichkeiten I Formal lässt sich die Wahrscheinlichkeit für den Fehler 1. Art (α-Fehler) als bedingte Wahrscheinlichkeit schreiben: P(Fehler 1. Art) = P(H0 ablehnen| H0 ist wahr) = α I Die Wahrscheinlichkeit für den Fehler 2. Art (β-Fehler) kann auch als bedingte Wahrscheinlichkeit geschrieben werden: P(Fehler 2. Art) = P(H0 nicht ablehnen| HA ist wahr) = β I Die Wahrscheinlichkeiten für die Fehler erster und zweiter Art verändern sich gegenläufig. I Bei festem Stichprobenumfang wird nur der Fehler erster Art kontrolliert. I Bei fester Wahrscheinlichkeit für den Fehler 1. Art kann die Wahrscheinlichkeit für den Fehler 2. Art durch Vergrößerung des Stichprobenumfanges verkleinert werden. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 11 Einfache und zusammengesetzte Hypothesen I Wählt man mit der Null- oder Alternativhypothese nur einen Wert aus allen möglichen Werten aus, dann nennt man eine solche Hypothese einfach. I Wird dagegen eine Menge von Werten zugelassen, spricht man von einer zusammengesetzten Hypothese. I So ist z.B. bei H0 : µ = µ 0 gegen HA : µ > µ0 H0 eine einfache und HA eine zusammengesetzte Hypothese. I Hingegen sind bei H0 : µ ≤ µ 0 gegen HA : µ > µ0 beide Hypothesen H0 und HA zusammengesetzte Hypothesen. I Für eine einfache Nullhypothese ist die Bestimmung für die Wahrscheinlichkeit für den Fehler 1. Art eindeutig. I Für zusammengesetzte Nullhypothesen hingegen hängt die Fehlerwahrscheinlichkeit noch vom konkreten Wert der Nullhypothese, welcher in der Grundgesamtheit angenommen wird, ab. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 12 Niveau α I Ein Test heißt Test zum Niveau α (Signifikanzniveau α), falls die Wahrscheinlichkeit für den Fehler 1. Art höchstens α ist. I Übliche Werte für das Signifikanzniveau α sind 0.05 oder 0.01. I Für einfache Hypohesen kann man Tests oft so bestimmen, dass die Wahrscheinlichkeit für den Fehler 1. Art genau α ist. I Bei zusammengesetzten Hypothesen sind Tests oft so konstruiert, dass die Wahrscheinlichkeit für den Fehler 1. Art genau α für den Wert der Nullhypothese ist, welcher am nächsten zu den Werten der Alternativhypothese liegt. Für alle anderen Werte der Nullhypothese ist dann die Wahrscheinlichkeit für den Fehler 1. Art kleiner als α. I Im letzten Kapitel von Statistik II betrachten wir die Wahrscheinlichkeiten für den Fehler 1. Art und 2. Art noch ausführlicher im Rahmen der statistischen Qualitätskontrolle. Die Gütefunktion des Testes wird dabei eine wichtige Rolle spielen. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 13 Kritischer Bereich Der kritische Bereich ist der Ablehnungbereich der Nullhypothese. Liegt die Realisierung t der Teststatistik T im kritischen Bereich, dann wird die Nullhypothese H0 zugunsten der Alternativhypothese HA abgelehnt. Einstichproben t-Test Voraussetzung: Xi iid. mit Xi ∼ N(µ, σ 2 ), i = 1, . . . , n. Ist H0 : µ = µ0 wahr, dann gilt für die Testgröße T : T = X − µ0 √ n ∼ tn−1 . S Kritische Bereiche (je nach Alternative) beim Signifikanzniveau α: I (1) HA : µ > µ0 K = t | t > tn−1,1−α I (2) HA : µ < µ0 K = t | t < −tn−1,1−α n o I (3) HA : µ 6= µ0 K = t | |t| > tn−1,1− α 2 Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 14 Einstichproben t-Test für rechtsseitige Hypothesen I H 0 : µ = µ0 H 0 : µ ≤ µ0 I Im Beispiel 4.1 ist n = 10, x = 104.1 und s 2 = 28.3222, damit ergibt sich 104.1 − 100 √ 10 = 2.44 t= √ 28.3222 I Das Signifikanzniveau wählen wir mit α = 0.05 und der Stichprobenumfang ist n = 10 und damit gilt tn−1,1−α = t9,0.95 = 1.83. K = t | t > tn−1,1−α = {t | t > 1.83} I Testentscheidung: t = 2.44 > 1.83 =⇒ t ∈ K =⇒ H0 wird abgelehnt (HA wird angenommen). I Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist signifikant größer als 100, beim Signifikanzniveau von 5%. Dr. Andreas Wünsche gegen gegen HA : µ > µ0 (oder oft auch so: HA : µ > µ0 ). Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 15 0.1 0.2 0.3 0.4 Dichtefunktion der t9−Verteilung 0.0 α=5% t9,0.95=1.83 t=2.44 −4 Dr. Andreas Wünsche −2 0 Statistik II für BetriebswirtexVorlesung 1 2 Version: 5. Oktober 2017 4 16 Einstichproben t-Test für linksseitige Hypothesen I H 0 : µ = µ0 H 0 : µ ≥ µ0 I Im Beispiel 4.1 ist t = 2.44. I Als Signifikanzniveau wählen wir wieder α = 0.05 und damit wird auch hier tn−1,1−α = t9,0.95 = 1.83 für den kritischen Bereich benötigt. K = t | t < −tn−1,1−α = {t | t < −1.83} I Testentscheidung: t = 2.44 6< −1.83 =⇒ t 6∈ K =⇒ H0 wird angenommen. I Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist nicht signifikant kleiner als 100. Dr. Andreas Wünsche gegen gegen HA : µ < µ0 (oder oft auch so: HA : µ < µ0 ). Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 17 0.1 0.2 0.3 0.4 Dichtefunktion der t9−Verteilung 0.0 α=5% − t9,0.95=−1.83 t=2.44 −4 Dr. Andreas Wünsche −2 0 Statistik II für BetriebswirtexVorlesung 1 2 Version: 5. Oktober 2017 4 18 Einstichproben t-Test für zweiseitige Hypothesen gegen HA : µ 6= µ0 I H 0 : µ = µ0 I Im Beispiel 4.1 ist t = 2.44. I Als Signifikanzniveau wählen wir wieder α = 0.05 =⇒ α2 = 0.025 =⇒ 1 − α2 = 0.975 und damit ist hier das für den kritischen Bereich benötigte t-Quantil tn−1,1− α = t9,0.975 = 2.26. 2 n o K = t | |t| > tn−1,1− α = {t | |t| > 2.26} 2 I Testentscheidung: |t| = 2.44 > 2.26 =⇒ t ∈ K =⇒ H0 wird abgelehnt (HA wird angenommen). I Testergebnis: Der erwartete IQ der 14-jährigen Kinder in Dresden ist signifikant von 100 verschieden. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 19 0.1 0.2 0.3 0.4 Dichtefunktion der t9−Verteilung 0.0 α 2.5%= 2 α =2.5% 2 − t9,0.975=−2.26 −4 −2 t9,0.975=2.26 0 t=2.44 2 4 x Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 20 Statistik Software, p-value (p-Wert), Statgraphics I I I Die Statistik-Software berechnet den p-Wert (p-value ). Testentscheidung mit dem p-Wert: p≤α =⇒ H0 wird abgelehnt. p>α =⇒ H0 wird angenommen. Im Beispiel 4.1: H0 : µ = µ0 gegen HA : µ > µ0 Statgraphics I p = 0.018798 < 0.05 = α Dr. Andreas Wünsche =⇒ H0 wird abgelehnt. Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 21 0.1 0.2 0.3 0.4 Dichtefunktion der t9−Verteilung p=0.019 0.0 α=0.05 t9,0.95=1.83 −4 −2 0 t=2.44 2 4 x Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 22 Statgraphics, Alternative: kleiner“ ” I Im Beispiel 4.1: H0 : µ = µ0 gegen HA : µ < µ0 Statgraphics I p = 0.981202 > 0.05 = α Dr. Andreas Wünsche =⇒ H0 wird angenommen. Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 23 0.3 0.4 Dichtefunktion der t9−Verteilung 0.1 0.2 p=0.981 0.0 α=0.05 − t9,0.95=−1.83 −4 −2 t=2.44 0 2 4 x Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 24 Statgraphics, Alternative: ungleich“ ” I Im Beispiel 4.1: H0 : µ = µ0 gegen HA : µ 6= µ0 Statgraphics I p = 0.0375961 < 0.05 = α Dr. Andreas Wünsche =⇒ H0 wird abgelehnt. Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 25 Zusammenfassung I Beim Testen wird (erst einmal) nur die Wahrscheinlichkeit für den Fehler 1. Art kontrolliert, d.h. P(H0 ablehnen | H0 wahr) ≤ α . I Wenn also H0 tatsächlich gilt, wird man sich nur (im Mittel) in α · 100% der Fälle für HA entscheiden. I Die Entscheidung für HA ist in diesem Sinn statistisch abgesichert. I Bei einer Entscheidung gegen H0 und damit für HA spricht man von einem signifikanten Ergebnis. I Die Wahrscheinlichkeit für den Fehler 2. Art wird erst einmal nicht kontrolliert. ⇒ Eine Entscheidung H0 beizubehalten ist nicht statistisch abgesichert. ⇒ Kann man H0 nicht verwerfen, bedeutet das daher nicht, dass man sich aktiv“ für H0 entscheidet; es spricht nur nichts gegen H0 . ” Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 26 4.2. Tests für eine Stichprobe Eine Stichprobe: X1 , . . . , Xn iid.. I Test für die Lage bzw. zentrale Tendenz I Stichprobe ist normalverteilt I I I I Bei der Stichprobe liegt eine stetige Verteilung vor: Vorzeichentest Test für die Streuung (Varianz) I I Varianz σ 2 ist bekannt: Einstichproben z-Test (Gauß-Test) Varianz σ 2 ist unbekannt: Einstichproben t-Test Stichprobe ist normalverteilt: χ2 -Test Test für eine (unbekannte) Wahrscheinlichkeit p I Binomialtest Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 27 Einstichproben z-Test (Gauß-Test) I Annahme: Xi ∼ N(µ, σ 2 ), iid., i = 1, . . . , n, I Zweiseitiger Test I I I I I σ 2 bekannt. Hypothesen: H0 : µ = µ0 , HA : µ 6= µ0 . 2 Unter H0 gilt: X ∼ N µ0 , σn . X − µ0 √ H0 n ∼ N(0, 1) . σ Kritischer Bereich: Kα = {t ∈ R : |t| > z1−α/2 } . Testgröße: T = Einseitige Tests I Im Fall von H0 : µ ≥ µ0 , HA : µ < µ0 gilt Kα = {t ∈ R : t < zα = −z1−α } . I Im Fall von H0 : µ ≤ µ0 , HA : µ > µ0 gilt Kα = {t ∈ R : t > z1−α } . I Die Tests sind für große Werte n (n ≥ 30) auch ohne Normalverteilungsvoraussetzung anwendbar. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 28 Einstichproben t−Test I Annahme: Xi ∼ N(µ, σ 2 ), iid., i = 1, . . . , n, I Zweiseitiger Test I I I I σ 2 unbekannt. Hypothesen: H0 : µ = µ0 , HA : µ 6= µ0 . X − µ0 √ H0 n ∼ tn−1 (t−Verteilung mit n − 1 Testgröße: T = S Freiheitsgraden). Kritischer Bereich: Kα = {t ∈ R : |t| > tn−1;1−α/2 } . Einseitige Tests I Im Fall von H0 : µ ≥ µ0 , HA : µ < µ0 gilt Kα = {t ∈ R : t < tn−1;α = −tn−1;1−α } . I Im Fall von H0 : µ ≤ µ0 , HA : µ > µ0 gilt Kα = {t ∈ R : t > tn−1;1−α } . I Die Tests sind für große Werte n (n ≥ 30) auch ohne Normalverteilungsvoraussetzung anwendbar. Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 29 χ2 -Test Streuungstest I Annahme: Xi ∼ N(µ, σ 2 ) ,iid., i = 1, . . . , n, I Zweiseitiger Test I I I I µ unbekannt. Hypothesen: H0 : σ = σ0 , HA : σ 6= σ0 . (n − 1)S 2 H0 2 ∼ χn−1 (χ2 -Verteilung mit n − 1 Testgröße: T = σ02 Freiheitsgraden). Kritischer Bereich: Kα = {t ∈ R : t < χ2n−1;α/2 } ∪ {t ∈ R : t > χ2n−1;1−α/2 } Einseitige Tests I Im Fall von H0 : σ ≥ σ0 , HA : σ < σ0 gilt Kα = {t ∈ R : t < χ2n−1;α } . I Im Fall von H0 : σ ≤ σ0 , HA : σ > σ0 gilt Kα = {t ∈ R : t > χ2n−1;1−α } . Dr. Andreas Wünsche Statistik II für Betriebswirte Vorlesung 1 Version: 5. Oktober 2017 30