Statistik Übungsklausur Übungsklausur-Musterlösung Erlaubte Hilfsmittel: Formelsammlung des Statistikskriptes, Microsoft Excel, pqrs und Windows Taschenrechner Die Lösungen zu Aufgaben 10-12 sind schriftlich anzufertigen. Eine Musterlösung wird am 10.06.2012 ab 20:00 Uhr online gestellt. Inhalt der Übungsklausur Aufgabe 1 (Häufigkeiten) 10 Punkte Aufgabe 2 (Regression) 8 Punkte Aufgabe 3 (Kombinatorik) 4 Punkte Aufgabe 4 (Wahrscheinlichkeiten) 4 Punkte Aufgabe 5 (Verteilungsmodelle) 8 Punkte Aufgabe 6 (Wahrscheinlichkeiten und Schwankungsintervalle) 6 Punkte Aufgabe 7 (Portfolio) 8 Punkte Aufgabe 8 (Konfidenzintervalle und Hypothesentests) 8 Punkte Aufgabe 9 (Konfidenzintervalle und Hypothesentests) 6 Punkte Aufgabe 10 (Beweis) 10 Punkte Aufgabe 11 (Regression) 8 Punkte Aufgabe 12 (Hypothesentest) 10 Punkte Summe 90 Punkte Statistik Übungsklausur Aufgabe 1(Häufigkeiten) – 1 Anlage 10 Punkte Betrachten Sie in der Abbildung in Anlage 1 zum Thema „Stiftungsprofessuren“ die Anzahlen und Anteile der Professuren. Anlage 1 enthält unter der Abbildung auch die für diese Aufgabe relevanten Merkmalsdefinitionen einschließlich der Merkmalsausprägungen. Um welche Art von Merkmal handelt es sich bei A? qualitativ /komparativ/quantitativ Berechnen Sie folgende Häufigkeiten aus den Daten der Abbildung in Anlage 1: a) n(a1b3 ) = 297 b) n(a2 b3 ) 27488 c) f (b3 ) =0,7183 Berechnen Sie die folgenden Häufigkeiten und geben Sie deren Interpretation durch Vervollständigen der folgenden Sätze an: a) f (a1 | b3 ) 0,0106 Dieser Anteil der ____________ sind __________ . In den übrigen Fachrichtungen In den Wirtschaftswissenschaften In den Ingenieurswissenschaften Stiftungsprofessuren Hauptamtliche Professuren Professuren in den übrigen Fachrichtungen Professuren in den Wirtschaftswissenschaften Professuren in den Ingenieurswissenschaften Stiftungsprofessuren Hauptamtlichen Professuren b) f (b3 | a1 ) 0,4499 Dieser Anteil der ____________sind__________. Professuren in den übrigen Fachrichtungen Professuren in den Wirtschaftswissenschaften Professuren in den Ingenieurswissenschaften Stiftungsprofessuren Hauptamtlichen Professuren In den übrigen Fachrichtungen In den Wirtschaftswissenschaften In den Ingenieurswissenschaften Stiftungsprofessuren Hauptamtliche Professuren Messen Sie die Streuung der Fachrichtungen bei den Stiftungsprofessuren mit dem Herfindahlstreumaß und dem normierten Herfindahlstreumaß. a) HFB|A1 = 0,6384 b) HFB*| A1 = 0,9577 Das normierte Herfindahlstreumaß für die Hauptamtlichen Professuren nimmt den Wert 0,737 an. Für welche Art der Professur ergibt sich eine höhere Streuung? Stiftungsprofessur Welche der folgenden Aussagen gilt/gelten bei statistischer Unabhängigkeit? Wählen Sie jeweils aus, ob die Aussage richtig oder falsch ist: 2,3,4 f (b j | a i ) f (a i ); f (b j | a i ) f (b j ); n(a i b j ) f (a i b j ) n; n(a i b j ) f (a i ) f (b j ) n 2 Statistik Übungsklausur Sind die Merkmale A und B statistisch unabhängig voneinander? Nein Aufgabe 1 (Häufigkeiten) – Anlage Stiftungsprofessuren Zahl der Professuren insgesamt: 660 Wirtschaftswissenschaften 4.41% 4.01% Ingenieurswissenschaften 10.62% 33.77% 11.32% 14.63% 21.24% Mathematik, Informatik und Naturwissenschaften Geistes, Kultur- und Sozialwissenschaften Medizin Jura Sonstige Hauptamtliche Professuren Zahl der Professuren insgesamt: 38.020 11.90% 1.30% 7.50% Wirtschaftswissenschaften 12.80% 15.80% 21.10% 29.60% Ingenieurswissenschaften Mathematik, Informatik und Naturwissenschaften Geistes, Kultur- und Sozialwissenschaften Medizin Jura Sonstige Merkmal A A1=1 „Stiftungsprofessur“ A2=2 „Hauptamtliche Professur“ Merkmal B B1=1 „Wirtschaftswissenschaften“ B2=2 „Ingenieurswissenschaften“ B3=3 „Übrige“ 3 Statistik Übungsklausur Aufgabe 2(Regression) – 1 Anlage 8 Punkte Betrachten Sie die Abbildung in Anlage 1. Benötigte Summen sind hier bereits angegeben. Berechnen Sie die Mittelwerte und Varianzen für die Merkmale X und Y. a) X 25,325 b) Y 34,3667 c) S X2 129,6169 d) SY2 155,5906 Berechnen Sie die Kovarianz und den Korrelationskoeffizienten zwischen X und Y: a) S XY 126,915 b) rXY 0,8967 Ist die folgende Aussage richtig oder falsch ? Wählen Sie aus. Während die Kovarianz nur die Höhe der Abhängigkeit angibt, misst der Korrelationskoeffizient die Richtung der Abhängigkeit. Richtig/falsch Passen Sie an die Daten für X und Y eine Regressionsgerade der Art Y=a0+a1X an. Welche Werte ergeben sich für a0 und a1? Antwort: Y=9,5696+0,9792X Zwei Möglichkeiten: o Daten in Excel abtippen, Punktdiagramm – wie bereits geübt o Sonst: Formel in der Formelsammlung benutzen mit den im ersten Aufgabenteil errechneten Werten (Daher sind die Summen auch bereits gegeben: a 0 y a1 x o a1 S XY S X2 Messen Sie die Anpassungsgüte der Regressionsgeraden anhand des einfachen Bestimmtheitsmaßes. Antwort: 0,7987 Zwei Möglichkeiten: o Existiert das Punktdiagramm bereits, Wert ablesen. Fertig o Sonst: Korrelationskoeffizient aus obiger Aufgabenstellung quadrieren Wie groß ist der geschätzte Anteil der im Bereich Naturwissenschaften bildungsarmen Schüler mit Migrationshintergrund, wenn X=26% beträgt? Antwort: 35,0288 Wert für X in die geschätzte Geradengleichung einsetzen, ausrechnen. Wie groß ist der geschätzte Anteil der im Bereich Lesen bildungsarmen Schüler mit Migrationshintergrund, wenn Y=26% beträgt? Antwort: 16,7794 4 Statistik Übungsklausur Wert für Y in die geschätzte Geradengleichung einsetzen, umformen. Bestimmen Sie das 80% Quantil des Merkmals X. Antwort: 35,7 bzw. 36,8 In Excel: „=Quantil(Matrix1;Alpha)”, für Matrix1 hier die X-Werte markieren, für Alpha 0,8 eingeben. Das Ergebnis einordnen in die Liste der Werte einordnen, die Merkmalsausprägung wählen, die direkt oberhalb des Wertes liegt. 5 Statistik Übungsklausur Aufgabe 2(Regression) - Anlage Schulbildung: Migrantenkinder hinken hinterher Lesen (Migranten) Naturwissenschaften(Migranten) 44.2 46.1 Deutschland 39.3 Österreich 36.5 Belgien 47.1 42.6 32.5 Dänemark 29.1 Schweiz 27.4 Frankreich 24.4 USA Niederlande 20.4 Neuseeland 18.7 20.8 36.8 40.1 39.1 37.8 15.5 Schweden 49.2 28.5 12.4 12.8 Australien 3.5 Kanada 11.5 Anmerkung zur Graphik: Die Prozentzahlen für Schulkinder ohne Migrationshintergrund wurden aus Übersichtlichkeitsgründen ausgelassen. Für die Merkmale X „Anteil der im Bereich Lesen bildungsarmen Schüler mit Migrationshintergrund“, gemessen in Prozent und Y „Anteil der im Bereich Naturwissenschaften bildungsarmen Schüler mit Migrationshintergrund“, gemessen in Prozent ergeben sich folgende Summen: 12 12 1 1 X 303,9; Y 412,4 12 X 2 1 12 12 1 1 9251,67; Y2 16039,9; X Y 11.967,01 6 Statistik Übungsklausur Aufgabe 3 (Kombinatorik) 4 Punkte Ein Blumenhändler verkauft Tulpenzwiebeln, die weiß-, gelb-, orange- oder rotblühende Tulpen hervorbringen. Vier Tulpenzwiebeln, jede mit einer anderen Blütenfarbe sollen in einer Reihe gepflanzt werden. Wie viele Anordnungen sind möglich? Antwort: Anzahl der Tulpenfarben: 4 (weiß, gelb, orange, rot), Anzahl der Zwiebeln: 4 -> N=4, n=4. Jede mit einer anderen Blütenfarbe: ohne Zurücklegen; in einer Reihe: mit Reihenfolge Formelsammlung Seite 8, Tabelle – Formel: Einsetzen liefert: Oder in Excel: „=Fakultät(4)/Fakultät(0)“ oder auch „=Fakultät(4)“ N! ( N n)! 4! 4! 4! 1 * 2 * 3 * 4 24 (4 4)! 0! Wie viele mögliche Farbreihenfolgen gibt es, wenn sechs Zwiebeln zufällig nebeneinander in einem Beet gepflanzt werden und keine rotblühende Tulpenzwiebel verwendet wird? Antwort: Anzahl der Tulpenfarben: 3 (4-1, denn rot ist nicht dabei) Anzahl der Zwiebeln: 6 -> N=3, n=6 (möglich, weil wir „mit Zurücklegen“ arbeiten, daher kann n>N sein) „zufällig“ -> mit Zurücklegen „Farbreihenfolgen“ -> mit Reihenfolge Formelsammlung Seite 8, Tabelle –Formel: N Einsetzen liefert: 3 729 Oder in Excel: „=3^6“ n 6 7 Statistik Übungsklausur Aufgabe 4 (Wahrscheinlichkeiten) 4 Punkte Für den Bau einer Brücke nimmt eine Baufirma Stahlträger auf Lager, die mit 60 t Gewicht belastbar sein sollen. Die Stahlträger stammen von zwei Zulieferfirmen, die die Wahrscheinlichkeiten, dass ihre gelieferten Stahlträger nicht im gewünschten Umfang belastbar sind, mit 0,008 und 0,011 angeben. Insgesamt hat die Baufirma 80 Stück mit 0,008 und 200 Stück mit 0,011 Fehlerwahrscheinlichkeit auf Lager genommen. Eingelagert sind die Stahlträger nicht mehr unterscheidbar. Eine Risikovorgabe schreibt vor, dass für den sich gerade in Bau befindenden empfindlichsten Teil der Brücke nur Stahlträger mit maximal 0,01 Fehlerwahrscheinlichkeit benutzt werden dürfen. Ein Stahlträger wird dem Lager zufällig entnommen. Geben Sie die Fehlerwahrscheinlichkeit an, die ein zufällig ausgewählter Stahlträger aus dem Lager aufweist. 0,0101 Antwort: Wahrscheinlichkeit auf einen Stahlträger von Firma A zu treffen: 80/(200+80)=80/280 Wahrscheinlichkeit auf einen Stahlträger von Firma B zu treffen: 200/(200+80)=200/280 Fehlerwahrscheinlichkeit eines „fehlerhaften“ Stahlträgers von Firma A: 0,008 Fehlerwahrscheinlichkeit eines „fehlerhaften“ Stahlträgers von Firma B: 0,011 Gesamte Fehlerwahrscheinlichkeit: 80 200 80 * 0,008 200 * 0,011 * 0,008 * 0,011 0,0101 280 280 280 Erfüllt dieser Stahlträger die Risikovorgabe? Ja/ Nein Antwort: 0,0101 <= 0,01? Nein – also, erfüllt die Vorgabe nicht 8 Statistik Übungsklausur Aufgabe 5 (Verteilungsmodelle) 8 Punkte Eine kleinere Fluggesellschaft verfügt über zehn Flugzeuge vom Hersteller Airbus und acht von Boeing, die alle die gleiche Kapazität aufweisen. Die Fluggesellschaft fliegt die Route Hamburg – München sechsmal am Tag. Wie groß ist die Wahrscheinlichkeit, dass sich unter den sechs Flugzeugen drei Boeing- Maschinen befinden, wenn jedes Flugzeug nur einmal für die Route eingesetzt werden darf? Wählen Sie das zugrunde liegende Verteilungsmodell aus und berechnen Sie die Wahrscheinlichkeit. Verteilung: Hypergeometrisch Wahrscheinlichkeit: 0,362 Antwort: Es wird mehrmals gezogen (6mal) -> Binomial oder Hypergeometrisch) „nur einmal für die Route“ -> ohne Zurücklegen -> Hypergeometrisch Acht Flugzeuge von Boeing, zehn von Airbus -> N=18 („alle“) Es ist nach Boeing Maschinen gefragt -> N1=8 („die guten“) Es wird 6mal gezogen -> n=6 Es ist gefragt nach der Wahrscheinlichkeit genau drei Maschinen von Boeing zu erhalten -> „3“ ins mittlere Feld bei pqrs eingeben, den Wert darunter ablesen. Wie groß ist die Wahrscheinlichkeit, wenn die sechs Flugzeuge zufällig ausgewählt werden und jedes mehrfach eingesetzt werden darf, dass sich unter ihnen mindestens fünf Airbus-Maschinen befinden? Wählen Sie das zugrunde liegende Verteilungsmodell aus und berechnen Sie die Wahrscheinlichkeit. Verteilung: Binomialverteilung Wahrscheinlichkeit: 0,1762 Antwort: Es wird mehrmals gezogen (6mal) -> Binomial oder Hypergeometrisch) „mehrfach eingesetzt werden darf“ -> mit Zurücklegen -> Binomial Acht Flugzeuge von Boeing, zehn von Airbus -> („alle“=18) Es ist nach Airbus Maschinen gefragt -> („die guten“=10)-> p=10/18 Es wird 6mal gezogen -> n=6 Es ist gefragt nach der Wahrscheinlichkeit mindestens 5 Maschinen von Airbus zu erhalten -> o „5“ ins mittlere Feld bei pqrs eingeben, den Wert darunter ablesen+den rechten Wert addieren o „5“ ins mittlere Feld eingeben, „1-linken Wert“ o „4“ ins mittlere Feld eingeben, rechten Wert ablesen o „4“ ins mittlere Feld, im Reiter „cdf“ und „1-den Wert an der linken Seite“ Ein Geldautomat einer kleinen Sparkassenfiliale auf dem Land wird im Schnitt zweimal in der Stunde genutzt. Dabei ist die Nutzung nicht tages- oder öffnungszeitenabhängig. Wie groß ist die Wahrscheinlichkeit, dass in einer Stunde mehr als zweimal der Geldautomat benutzt wird? Wählen Sie das zugrunde liegende Verteilungsmodell aus und berechnen Sie die Wahrscheinlichkeit. Verteilung: Poissonverteilung Wahrscheinlichkeit: 0,3233 9 Statistik Übungsklausur Antwort: Beobachter (Geldautomat), Beobachtungsobjekte (Benutzer) werden gezählt -> Poissonverteilung „im Schnitt zweimal in der Stunde benutzt“, -> Bezugszeitraum: 1 Stunde; Anzahl: „zwei“, also λ=2 Gefragt nach „mehr als zweimal in einer Stunde“ o „2“ eingeben -> rechten Wert ablesen o Alle anderen Möglichkeiten auch in Ordnung, aber diese def. am schnellsten. Wie groß ist die Wahrscheinlichkeit, dass der Geldautomat in zwei Stunden nicht einmal benutzt wird? Wählen Sie das zugrunde liegende Verteilungsmodell aus und berechnen Sie die Wahrscheinlichkeit. Verteilung: Poissonverteilung Wahrscheinlichkeit: 0,0183 Antwort: Verteilung bleibt „in zwei Stunden“ -> Parameter verändern auf λ=4 „nicht einmal“ -> „0“ eingeben, Wert darunter ablesen 10 Statistik Übungsklausur Aufgabe 6(Wahrscheinlichkeiten und Schwankungsintervalle) 6 Punkte Der Flächeninhalt eines DIN A4 – Blattes, bezeichnet als Zufallsvariable X, sei normalverteilt mit einem Erwartungswert in Höhe von 623,7 cm² und Standardabweichung von 3,5cm². Wie groß ist die Wahrscheinlichkeit, dass der Flächeninhalt eines Blattes mehr als 625,5 cm² beträgt? Antwort: 0,3035 Normalverteilung mit Parameter μ=623,7 und σ=3,5 „mehr als“ ->„625,5“ eingeben im oberen Feld, rechten Wert ablesen Welcher Flächeninhalt für X wird mit einer Wahrscheinlichkeit von 0,8 nicht unterschritten? Antwort: 620,75 Selbe Verteilung „nicht unterschritten“ -> 0,8 in das blaue Feld(denn damit 80 % größer als „die Linie“), weißen Wert ablegen Wie groß ist die Wahrscheinlichkeit, dass X in dem Intervall A=[618,8; 628,6] liegt? Antwort: 0,9192-0,0808= 0,8384 Selbe Verteilung „weniger als 628,6“ ausrechnen -> 628,6 ins weiße Feld, und roten Wert ablesen „weniger als 618,8“ ausrechnen -> 618,8 ins weiße Feld und roten Wert ablesen „ersten Wert – zweiten Wert“ = Ergebnis Das Intervall A ist ein zentrales Intervall der Form [μ-kσ; μ+kσ]. Bestimmen Sie k für die Werte aus der obigen Aufgabenstellung. Antwort: k=1,4 μ-kσ=618,8 nach k auflösen 623,7-k*3,5=618,8 -> 4,9=k*3,5 -> k=4,9/3,5=1,4 11 Statistik Übungsklausur Aufgabe 7(Portfolio) 8 Punkte Für die normalverteilten (prozentualen) Renditen zweier Wertpapiere R1 und R2 liegen folgende Momente vor: 1 2; 12 4; 2 3; 22 6; 1, 2 1 Ein Portfolio bestehe ausschließlich aus diesen beiden Wertpapieren. Wenn der Anteil des ersten Wertpapiers mit g bezeichnet wird, ergibt sich die Portfoliorendite Rp als R p g R1 (1 g ) R2 ;0 g 1 . Berechnen Sie für verschiedene Portfolioaufteilungen g jeweils die Momente der Portfoliorenditeverteilung. a) g=0,25: μp=2,75 σp=1,8028 b) g=0,5: μp=2,5 σp=1,4142 c) g=0,75: μp=2,25 σp=1,5 Antwort: Tabelle in Excel erstellen (4 Spalten; g, Erwartungswert, Varianz, Standardabweichung), dabei folgende Formeln verwenden und „runterziehen“: p g 1 (1 g ) 2 o Für den Erwartungswert: o Für die Varianz: o Für die Standardabweichung: „=Wurzel(Varianz)“ p2 g 2 12 (1 g ) 2 22 2g (1 g ) 1,2 Die vorgegebenen Werte für g in der Spalte für g eingeben. Ergebnisse ablesen und eingeben – Vorsicht hier ist nach der Standardabweichung gefragt. Das Risiko des Portfolios wird durch seine Varianz gemessen. Bestimmen Sie die risikominimale Portfolioaufteilung g*. Wie groß sind die erwartete Rendite und deren Standardabweichung des Portfolios mit der Aufteilung g*? d) g*=0,5833 : μp=2,4167 σp=1,3844 Antwort: Zwei Möglichkeiten: o Solver: Zelle mit Varianz anklicken, auf Daten -> Solver gehen, Zielzelle ist die Zelle der Varianz, Veränderbare Zelle ist die entsprechende Zelle für g, Nebenbedingungen nicht vergessen und Min eingeben! (größer 0, kleiner 1), Lösen o Ohne Solver: Für g in der Zelle Formel eingeben: 22 1, 2 12 22 2 1, 2 Für die Aufteilung g1=0,2 weist das Portfolio eine Standardabweichung von σ p=1,918 bzw. eine Portfoliovarianz in Höhe von 3,68 auf. Mit welcher anderen Portfolioaufteilung g 2 wird die gleiche Standardabweichung erzielt? Geben Sie die erwartete Rendite dieses Portfolios an. e) g2=:0,9667 μp=2,0333 Antwort: 12 Statistik Übungsklausur Zwei Möglichkeiten: o Solver: Vorgang identisch zu oben, aber anstelle von „Min“, „Wert“ auswählen und 3,68 eingeben (wenn das Varianzfeld die Zielzelle ist), Lösen und Runden o Ohne Solver: Unterschied zwischen g1 und g* beträgt 0,3833, also diese Differenz zu g* hinzuaddieren: 0,9667(Wenn man genau rechnet, denn eigentlich ist g*=0,5833333333, damit dann g2=0,9666666666 und das gibt gerundet 0,9667;0,9666 ist aber ebenso als Lösung anerkannt) o Mögliches Problem hier bei der Solverlösung: Es kann sein, dass der Solver die bereits bekannte Aufteilung g1 ausgibt. Dann muss die Variante ohne Solver genommen werden. Welches/welche der Portfolios mit den Aufteilungen g1 und g2 sind μ-σ – effizient? Antwort: Das mit der besseren Rendite , also g1, obwohl meistens die Antwort g2 lautet. 13 Statistik Übungsklausur Aufgabe 8(Konfidenzintervalle und Hypothesentests) 8 Punkte Die Länge eines Fadens in cm einer Nähgarnrolle kann als normalverteilt betrachtet werden. Bei einer Kontrolle ergibt sich folgende Stichprobe: Garnrolle Fadenlänge 1 202,5 2 199,2 3 16,9 4 205,1 5 204,2 6 201,4 12 12 i ! i ! 7 197,3 8 198,4 9 203,3 10 200,9 11 202,1 12 197,4 2 Daraus ergeben sich die Summen: X i 2408,7; X i 483574,83 sowie der Schätzer für die 2 Varianz: S X 8,0475 Schätzen Sie den Parameter μ der Grundgesamtheit. ˆ 200,725 Antwort: Stichprobenmittel guter Schätzer: also Mittelwert berechnen Summe ist schon gegeben, nur noch durch 12 teilen: 2408,7/12=200,725 Schätzen Sie das 0,95 Konfidenzintervall für den Parameter μ. Untergrenze: 198,9226 Obergrenze: 202,5274 Antwort: Konfidenzintervall: o Fadenlänge ist normalverteilt o „Schätzer für Varianz“ gegeben -> Stichprobenvarianz, also t-Verteilung Berechnung: Sn Sn 8,0475 8,0475 ;X t 200,75 2,201 ;200,75 2,201 X t1 ;n 1 1 ; n 1 n n 12 12 2 2 198,9226;202,5274 Der Hersteller des Garns möchte mit einer maximalen Fehlerwahrscheinlichkeit von 0,01 statistisch absichern, dass die Fadenlänge seiner Garnrollen mehr als 2 Meter beträgt. Verwenden Sie die Hypothesen H0: μ≤200; H1:μ>200. Geben Sie an, welche Werte sich für die Teststatistik und den kritischen Wert ergeben und welche Testentscheidung daraus resultiert. Teststatistik: 0,8853 Kritischer Wert: 2,718 Testentscheidung: H0 wird abgelehnt/ H0 kann nicht abgelehnt werden Antwort: Wiederum ist X normalverteilt, Quantile sind t-Verteilung wegen Stichprobenvarianz 14 Statistik Übungsklausur α=0,01; Variante 2 für die Hypothesen Entsprechende Formel für Teststatistik benutzen: Kritischer Wert: Die Bedingung ist nicht erfüllt, da die Teststatistik kleiner als der Kritische Wert ist. Daher kann die Nullhypothese nicht abgelehnt werden. n X 200,725 200 12 0,8853 Sn 8,0475 t1 ;n 1 2,718 15 Statistik Übungsklausur Aufgabe 9(Konfidenzintervalle und Hypothesentests) 6 Punkte Eine bestimmte Apfelsorte zeichnet sich dadurch aus, dass sie eine hohe Verkaufstauglichkeit besitzt. 250 Äpfel in dieser Sorte werden per Sichtkontrolle auf Verkaufstauglichkeit hin (d.h. die Äpfel dürfen keinen Schimmel, Wurmanfall oder ähnliches aufweisen) geprüft. Dabei werden 22 Äpfel als nicht verkaufstauglich eingestuft. Schätzen Sie den Anteil der Äpfel, der bei dieser Sorte nicht verkaufstauglich ist. pˆ 0,088 Antwort: Ja/Nein – Bernoulliverteilung Anteil= „guten“/“alle“, in diesem Fall sind die „nicht verkaufstauglichen“ die „guten“. Also 22/250=0,088 Der Obstbauer behauptet, dass der Anteil der Äpfel, die sich zum Verkauf eignen, größer als 0,9 ist. Überprüfen Sie seine Behauptung mittels eines Hypothesentests mit einer maximalen Fehlerwahrscheinlichkeit von 0,01. Verwenden Sie die Hypothesen H0: p≤0,9; H1:p>0,9. Geben Sie an, welche Werte sich für die Teststatistik und kritischen Wert ergeben und welche Testentscheidung daraus resultiert. Teststatistik: 0,6325 Kritischer Wert: 2,326 Testentscheidung: H0 wird abgelehnt/ H0 kann nicht abgelehnt werden Antwort: Bernoulliverteilung für die Zufallsvariable -> Normalverteilung für die Quantile Wichtig hier: es geht jetzt um verkaufsgeeignete Äpfel! Also 228/250 als Stichprobenmittel Hypothesen sind gegeben – Variante 2 α=0,01 Teststatistik nach Formel berechnen: Kritischen Wert ermitteln(Normalverteilung, 0 und1 als Parameter): 2,326 Bedingung für Variante 2 ist nicht erfüllt, daher kann H0 nicht abgelehnt werden n Xp p(1 p) 250 0,912 0,9 0,9 0,1 0,6325 Welche Teststatistik ergibt sich, wenn der Stichprobenumfang auf 1500 erhöht wird und der Anteil der nicht verkaufstauglichen Äpfel in der Stichprobe gleich bleibt? Teststatistik: 1,5492 Antwort: Alle Daten bleiben gleich, nur n ändert sich auf 1500 Vervollständigen Sie durch Auswahl folgender Aussagen über den Einfluss des Stichprobenumfangs (n>100) auf die Eigenschaften von Hypothesentests und Konfidenzintervallen. a) Je größer der Stichprobenumfang ist, desto größer ist der Betrag der realisierten Teststatistik. b) Je größer der Stichprobenumfang ist, desto kleiner ist das realisierte Konfidenzintervall. 16 Statistik Übungsklausur Aufgabe 10 (Beweis) 10 Punkte Weisen Sie die Kurzformel für die Varianz nach. Erläutern Sie weiterhin die Formel und gehen Sie dabei insbesondere auf die Bedeutung der Quadrierung ein. 1 n 2 X (e ) x x ² x 2 n 1 Antwort: Interpretation: Die Varianz ist die mittlere quadratische Abweichung vom Mittelwert . Hierbei soll die Streuung, d.h. die Abweichung der einzelnen Realisationen (Werte) vom Mittelwert gemessen werden. Dies geschieht zunächst durch Bildung der Differenz zwischen jeder einzelnen Realisation und dem Mittelwert, die anschließend quadriert wird. Die Quadrierung ist hier wichtig, damit sich positive und negative Differenzen nicht gegenseitig aufheben und so den Fehlerwert verkleinern könnten. Anschließend werden die quadrierten Differenzen aufsummiert und durch die Anzahl der Beobachtungen geteilt (dieser Vorgang heißt auch mitteln ). Beweis: 1 n X e x 2 n 1 1 n 2 X e 2 X (e ) x x 2 n 1 1 n 1 n 1 n 2 2 X ( e ) 2 x X ( e ) x n n 1 n 1 1 X (e ) 2 2 x x x 2 X (e ) 2 x 2 17 Statistik Übungsklausur Aufgabe 11 (Regression) 8 Punkte Betrachten Sie die Zufallsvariablen X „Preisänderung bei Produkt P“ und Y „Änderung des Absatzes von Produkt P“, beide gemessen in Prozent. Für X und Y wurde die Regressionsgerade Y=a 0+a1X geschätzt: Y=a0+a1X mit a0=2,12 und a1=-0,86 bei R²=0,872 Zeichnen Sie die geschätzte Regressionsgerade. Interpretieren Sie die geschätzten Koeffizienten der Regressionsgeraden und das R². Antwort: Für das Zeichnen der Gerade: o Koordinatensystem mit genügenden Beschriftungen nicht vergessen! (Einheiten, x,y, Pfeile im Quadranten oben rechts!) o Es werden zwei Punkte für das Zeichnen einer Gerade benötigt: Punkt 1: (0|a0) also in unserem Fall (0|2,12) Punkt 2: (1|a0+a1), also hier (1|1,26) o Verbinden der Punkte liefert Gerade – Beschriftung der Gerade nicht vergessen! Interpretation: o a0: a0 gibt den geschätzten Wert der Zufallsvariablen Y an, wenn X den Wert 0 annimmt . Auf die Definitionen der Zufallsvariablen angepasst: Ändert sich der Preis für Produkt P nicht, so steigt der Absatz von Produkt P um 2,12 %. o a1: a1 gibt den geschätzten Zuwachs (kann auch negativ sein) der Zufallsvariablen Y an, wenn X um eine Einheit steigt . Auf die Definitionen der Zufallsvariablen angepasst: o Steigt der Preis für Produkt P um 1 %, so steigt der Absatz von Produkt P nur noch um 0,86 Prozentpunkte weniger als zuvor. (Die Änderung des Absatzes „fällt“, denn a1 ist negativ) Bestimmtheitsmaß: 0,872 Prozent der Streuung der Wertepaare können durch die Regressionsgerade erklärt werden. Oder auch: Das Bestimmtheitsmaß gibt die Güte der Anpassung der Regressionsgeraden an die Wertepaare an , es liegt stets zwischen 0 und 1. Nimmt es Werte nah an 1 an, so ist die Anpassung sehr gut, liegt der Wert hingegen nahe 0, so ist die Anpassung weniger gut. Zeigen Sie auf, wie sich die Vorzeichen für Kovarianz und Korrelationskoeffizienten aus den Regressionsergebnissen ableiten lassen. Welche Vorzeichen nehmen Kovarianz und Korrelationskoeffizient an? Antwort: Die Vorzeichen für Kovarianz und Korrelationskoeffizient entsprechen dem Vorzeichen von a1 , damit sind beide Vorzeichen negativ. Welcher Zusammenhang besteht zwischen dem einfachen Bestimmtheitsmaß und dem Korrelationskoeffizienten? Antwort: Das einfache Bestimmtheitsmaß entspricht dem Quadrat des Korrelationskoeffizienten. 18 Statistik Übungsklausur Aufgabe 12 (Hypothesentest) 10 Punkte Der Druck, mit dem ein Fußball bei einem Bundesligaspiel aufgepumpt ist, kann als normalverteilt angesehen werden. Eine Stichprobe im Umfang von 12 Fußbällen weist ein Stichprobenmittel von 0,84 bar mit einer Stichprobenstandardabweichung von 0,2 bar auf. Ein Schiedsrichterassistent behauptet, dass mit einer maximalen Wahrscheinlichkeit für einen α-Fehler von 0,05 der Luftdruck der Bälle unter 1 bar liegt. Wie müssen die Hypothesen gewählt werden, wenn der Schiedsrichterassistent seine Behauptung mittels eines statistischen Hypothesentests absichern will? Antwort: Der Schiedsrichter möchte seine Behauptung stat. absichern - > Luftdruck der Bälle unter 1 bar muss in die Alternativhypothese Damit erhält man das Hypothesenpaar: H0: μ≥1 ; H1: μ<1 entsprechend Variante 1 aus dem Skript. Was bedeuten α-und β-Fehler im Allgemeinen und im Kontext der Aufgabenstellung? Antwort: Der Fehler 1. Art oder auch α-Fehler gibt die (max.) Wahrscheinlichkeit an, dass die Nullhypothese fälschlicherweise abgelehnt wird , die Alternativhypothese also angenommen wird, obwohl die Nullhypothese der Wahrheit entspricht. In diesem Fall wäre es die Wahrscheinlichkeit, dass die Behauptung angenommen wird, dass der Luftdruck der Fußbälle unter 1 bar liegt, obwohl dem nicht so ist. Der Fehler 2. Art oder auch β-Fehler beschreibt die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise beibehalten wird, die Alternativhypothese also verworfen wird, obwohl sie zutrifft. In diesem Fall wäre es die Wahrscheinlichkeit, dass die Behauptung des Schiedsrichterassistenten als falsch abgelehnt wird, obwohl sie zutreffend ist. Meist kann der Wert des Fehlers 2. Art nicht angegeben werden. Für die realisierte Teststatistik ergibt sich t12=-2,771. Welche Testentscheidung ergibt sich daraus? Skizzieren Sie die Verteilung der Teststatistik und kennzeichnen Sie dabei den kritischen Bereich. Antwort: Um die Testentscheidung treffen zu können, wird zunächst der kritische Wert benötigt: Dieser entspricht hier dem negativen Wert des 0,95 Quantils der t-Verteilung mit 11 Freiheitsgraden (Stichprobenstandardabweichung -> t-Verteilung; Stichprobenumfang =12 -> 11 Freiheitsgrade; negativ wegen Minuszeichen bei Variante 1). Laut pqrs entspricht dieser Wert also: -1,796 Damit ist die Bedingung erfüllt und die Nullhypothese kann abgelehnt werden. Skizze: o Irgendeine Art von Glockenkurve malen, möglichst eine, die der von pqrs für das Quantil halbwegs entspricht. Koordinatensystem und Bezeichnungen nicht vergessen. o Kritischen Wert eintragen und Teststatistik , Bereich „links“ des kritischen Wertes markieren (ob farbig oder schraffieren oder was auch immer). Wäre es Variante 2, dann 19 Statistik Übungsklausur müsste man „rechts“ des kritischen Wertes schraffieren, bei Variante 3 die beiden äußeren Gebiete. 20