Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.1 Überblick über die wichtigsten Begriffe der Vorlesung Wahrscheinlichkeit für Ereignisse Ws(a < X ≤ b) = F (b) − F (a), F (z) = Ws(X ≤ z) Verteilungsfunktion; Ws(X > c) = 1 − F (c), extreme Ereignisse: Ws(|X| > c) = 1 − Ws(−c ≤ X ≤ c) Erwartungswert EXj mittlerer oder durchschnittlicher Wert der X1, X2, . . . , XN X N ≈ EXj , wenn N groß. Investitionen oder Geschäftsstrategien: erwarteter Gewinn EXj möglichst groß. Produktion: Zielwert EXj = µ0 soll im Mittel eingehalten werden. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.2 Varianz var Xj oder Standardabweichung σ(Xj ) = q var Xj . Maß für Variabilität in den Daten X1, X2, . . . , XN für N groß. Investitionen: var Xj Maß für das Risiko einer Entscheidung. Produktion: var Xj klein als Qualitätsforderung Konfidenzintervall für EXj (Skript 3.3) Beispiel: Konfidenzintervall für λ, wenn X1, . . . , XN unabhängig identisch Exp(λ)-verteilt 1 = EX , [T , T ] Konfidenzintervall für EX 1 2 j j λ T1 ≤ 1 λ ≤ T2 mit Wahrscheinlichkeit 1 − α 1 ≤ λ ≤ 1 mit Wahrscheinlichkeit 1 − α T2 T1 " # 1 , 1 (1 − α)-Konfidenzintervall für λ T2 T1 Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.3 Konfidenzintervall für Varianz σ 2 (normalvert. Daten): Skript 3.3 Konfidenzintervall für Korrelation ρ: Skript 3.4 Abhängigkeiten zwischen zwei Datensätzen x1, . . . , xN und y1, . . . , yN Modell: XN X1 Y1 , . . . , YN unabhängig und identisch verteilt. Unabhängigkeit: Faktorisierung der Wahrscheinlichkeiten ↔ Faktorisierung der Wahrscheinlichkeitsgewichte bzw. -dichten X, Y diskret Ws(X = k, Y = `) = Ws(X = k) · Ws(Y = `) X, Y mit Dichten px, py p(x, y) = px(x) · py (y) Ws(a ≤ X ≤ b, c ≤ Y ≤ d) = Z bZ d a c px(x) · py (y)dydx Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.4 Beispiel: X Betriebsdauer Bauteil A, Y Betriebsdauer Bauteil B Betriebsdauer bei Hintereinanderschaltung: min(X, Y ) = T Unabhängigkeit Ws(T > a) = Ws(X > a, Y > a) = Ws(X > a) · Ws(Y > a) Unkorreliertheit: cov (X, Y ) = E{(X − EX) · (Y − EY )} = 0 Korrelation: ρ = √ cov (X,Y ) var (X)·var (Y ) Schätzer: 1 PN (X − X ) · (Y − Y ) Stichprobenkovarianz: ĉ = N j j N N j=1 Stichprobenkorrelation: ρ̂ = ŝ ĉ·ŝ schätzt ρ N,x N,y Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.5 Anpassen einer Regressionsgerade: Yj = b1 + b2Xj + ej e1, . . . , eN (Messfehler, Residuen) u.i.v. mit Eej = 0. Kleinste Quadrate-Schätzer b̂1, b̂2 für b1, b2 : ĉ b̂2 = N −1 , 2 N ŝN,x b̂1 = Y N − b̂2 X N Neuer Wert YN +1 soll bei vorher bekanntem XN +1 = x vorhergesagt werden: Vorhersage / Schätzer für zugehöriges YN +1: ŶN +1 = b̂1 + b̂2 x Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.6 Tests 2 Entscheidungsmöglichkeiten oder Aussagen: Was wird die Alternative H1? a) Was gezeigt werden soll! Wenn Entscheidung zugunsten H1 fällt, ist man ziemlich sicher, richtig entschieden zu haben. b) Was mehr Kosten verursacht, wenn man sich fälschlich dafür entscheidet! Denn: Ws(Fehler 1. Art) = Ws(entscheide für H1, obwohl falsch) ≤ α klein! Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.7 Entscheidungen über die Größe des Erwartungswerts 1) eine Stichprobe, Daten ungefähr normalverteilt a) bekannte Varianz : Gauss-Test b) unbekannte Varianz: Ein-Stichproben-t-Test Durchführung des Tests: Wie lautet die Alternative H1? µ > µ0 , µ < µ0 , µ 6= µ0? 2) zwei Stichproben, gepaarte evtl. abhängige Beobachtungen XN X1 Y1 , . . . , YN vorher-nachher am selben Objekt Alternativen: EXj > EYj , EXj < EYj , EXj 6= EYj . Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.8 Ein-Stichproben-t-Test anwenden auf Differenzen Dj = Xj − Yj , j = 1, . . . , N Alternativen: µ > 0, µ < 0, µ 6= 0. Daten nicht normalverteilt: Vorzeichentest 3) zwei unabhängige Stichproben X1, . . . , XN , Y1, . . . , YM : Zwei-Stichproben-t-Test Voraussetzung: var Xj = var Yj (evtl. überprüfen mit Test) Entscheidung über die Größe der Varianz 1) eine Stichprobe: Chi-Quadrat-Varianztest 2) zwei Stichproben: F-Test Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.9 Entscheidung über die Größe der Korrelation, oder - für normalverteilte Daten - speziell Tests auf Unabhängigkeit gepaarte Beobachtungen Speziell: H0 : ρ = 0 XN X1 Y1 , . . . , YN Korrelationstest Test auf Unabhängigkeit Entscheidung über Regressionsparameter Yj = b1 + b2Xj + ej , j = 1, . . . , N, e1, . . . , eN sind u.i.v. N (0, σe2) Test H0 : b2 = 0 testet in diesem Modell, ob Xj , Yj unabhängig: Test für lineare Regressionsmodelle (Skriptergänzung) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.10 Entscheidung über die Größe von Wahrscheinlichkeiten 1) eine Wahrscheinlichkeit p = Ws(Erfolg) = ?: Binomialtest (approximativ für N p0 ≥ 5 und N (1 − p0) ≥ 5) 1) Speziell: Vorzeichentest (p = 2 2) mehrere Wahrscheinlichkeiten Objekte in Klassen A1, . . . , Ad Daten: Zj = Anzahl Objekte in Klasse Nr. j pj = Ws (Objekt fällt in Klasse j) Z1 + . . . + Zd = N, p1 + . . . + pd = 1 0 Hypothese H0 : p1 = p0 1 , . . . , pd = pd : Chi-Quadrat-Anpassungstest Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.11 Beispielklausur: 1. Aufgabe Geben Sie für die folgenden Daten (jeweils unterstrichen) an, welche Verteilung (hypergeometrisch, binomial, Poisson, Laplace, exponentiell, uniform, normal, lognormal und Weibull mit β < 1 bzw. β > 1) sie als Modell wählen würden. Begründen Sie ihre Wahl! i) Ein Roulettespieler hat die Eingebung, die Zahl 7 bringe ihm heute Glück. Er nimmt sich vor, 200 mal je 100 Euro auf die 7 zu setzen. Er gewinnt mit einer Wahrscheinlichkeit von 1/37. Er ist zufrieden, wenn die Anzahl der Spiele, in denen er gewinnt, mindestens 6 beträgt, da er dann insgesamt einen Gewinn gemacht hat. Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.12 ii) Die Laufleistungen eines Motorenmodells (in 100.000 km) vor der ersten größeren Reparatur werden von den Vertragswerkstätten an den Hersteller gemeldet und ergeben folgendes Histogramm: Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.13 iii) Die Dividendenerträge (Dividende/Kurs) in Prozent der DAXAktiengesellschaften ergaben innerhalb eines Jahres folgenden Boxplot: 2.-5. Aufgabe: s. Musterklausur 4 (Oktober 2007) Prof. Dr. J. Franke Statistik II für Wirtschaftswissenschaftler 10.14 Lösungsstrategie: 1. Was sind die Daten? (meist nicht im einzelnen gegeben, um Rechenschritte zu sparen) 2. Welches statistische Modell für den datenerzeugenden Mechanismus 3. Was ist das Problem? (Angabe von Schätzern - Angabe von Bereich, wo die unbekannte Größe ziemlich sicher liegt (Konfidenzintervall) - Entscheidung treffen (Test) 4. Welches Verfahren? (Schätzer, Test, ...) 5. Einsetzen der Zahlenwerte und Ausrechnen 6. Formulierung des Ergebnisses; für Konfidenzintervalle und Tests außerdem: Diskussion des Resultats incl. Irrtumswahrscheinlichkeiten