Name : Vorname : Prüfungsnummer : Prüfungsordnung : NEUE PO Statistik Vorprüfung in Wirtschaftswissenschaft 24. September 1998 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : 2 Aufgabe 1 Richtig Falsch 1 2 3 4 5 6 7 8 9 Berechnet man aus zwei Teilstichproben eine Gesamtvarianz, so ist diese stets grösser als das arithmetische Mittel der beiden Teilstichprobenvarianzen. Entfällt ein Merkmalstotal auf 5 Merkmalsträger, so beträgt der Gini-Koeffizient maximal 0,8. Wird eine beliebige Gerade mit endlicher Steigung durch den Massenmittelpunkt ( X , Y ) einer Punktewolke gelegt, so ergibt die Summe der vertikalen Abstände zwischen den Beobachtungen und der Geraden immer 0. Es kann vorkommen, dass die absolute Konzentration steigt und gleichzeitig die relative Konzentration sinkt, nicht aber umgekehrt. Liegt eine Regressionsgerade parallel zur Abszisse (waagrecht) und liegen die Beobachtungen alle auf der Geraden, so beträgt der Korrelationskoeffizient 1. Zur Berechnung des prozentualen Alkoholgehalts eines Mix von verschiedenen Spirituosen verwendet man das geometrische Mittel. Dank dem Rangkorrelationskoeffizienten nach Spearman kann auch für nominal skalierte Merkmale ein Abhängigkeitsmass berechnet werden. Die Verkettung zweier Indizes ist nicht möglich, falls keine Periode existiert, in der beide Indizes berechnet wurden. Der Interquartilsabstand kann nicht mit der Spannweite zusammenfallen. Das harmonische Mittel wird dann verwendet, wenn ein Durchschnitt aus Beziehungszahlen gebildet werden soll und die Mengen der im Zähler der Beziehungszahl stehenden Grösse zum Zweck der Gewichtung vorgegeben sind. 11 Auf die fünf Firmen einer Branche ist der Gesamtumsatz gleichmässig verteilt. Verlieren nun vier Firmen je 10% Marktanteil an die fünfte, steigt der Herfindahlkoeffizient ceteris paribus. 12 Führt man bei einer Zeitreihe eine Saisonkorrektur durch, so erhält man immer die gleiche Gerade, die sich durch das Berechnen nach der KQ-Regressionsmethode ergeben hätte. 13 Nach der Standardisierung einer statistischen Variablen lässt sich ihr Variationskoeffizient nicht mehr berechnen. 10 14 Für alle symmetrischen Verteilungen gilt: Modus = Median = arithmetisches Mittel. Berechnet man aus einer Datenmenge das arithmetische Mittel der quadrierten Abstände vom Mittelwert, so nennt man das Resultat Standardabweichung. 16 Das geometrische Mittel aus den Zahlen +10%, -20% und –120% lässt sich nicht berechnen. 15 17 Die Kovarianz Cov(X,Y) ist abhängig von den Masseinheiten von X und Y. Der Fisherindex wird auch idealer Index genannt, da er alle folgenden Eigenschaften erfüllt: Faktorumkehreigenschaft, Zirkulareigenschaft und Zeitumkehreigenschaft. 19 Betrachtet man die Lorenzkurve als eine Funktion, so kann deren zweite Ableitung, falls existent, nie negativ sein. 20 Die Ogive eignet sich gut, um ordinal- und nominalskalierte Daten graphisch darzustellen. 18 3 Aufgabe 2 Ein aufstrebender Biogemüse-Produzent erzielte in den vergangenen vier Jahren folgende Quartalsumsätze (in 1’000 Fr.) Quartal I II III IV 1994 30 40 60 20 1995 40 70 85 35 1996 60 90 120 50 1997 80 110 160 70 Platz für Nebenberechnungen Jahr a) Zeichnen Sie den Verlauf dieser Zeitreihe (3 Punkte) 4 b1) Wieviel betrug die durchschnittliche jährliche Umsatzsteigerungsrate zwischen 1994 und 1997 (bezogen auf die Jahresumsätze) ? Die durchschnittliche jährliche Steigerungsrate von 1994 bis 1997 betrug: ..,.. % (2 Punkte) b2) Wie hoch lag die reale Umsatzsteigerung für das Jahr 1997 gegenüber 1994, wenn der Konsumentenpreisindex in derselben Zeit von 100,8 (Dezember 1994) auf 104,0 (Dezember 1997) angestiegen ist ? Die reale Umsatzsteigerung für 1997 gegenüber 1994 betrug in 1000 Fr (zu Preisen vom Dez. 1994): ...,.. (2 Punkte) Platz für Nebenberechnungen 5 c) Die Zeitreihe der Quartalsumsätze soll mit Hilfe eines geeigneten gleitenden Durchschnitts geglättet werden. c1) Einen wievielgliedrigen gleitenden Durchschnitt verwenden Sie dabei ? (1 Punkt) c2) Vervollständigen Sie die Reihe der gleitenden Durchschnitte der Quartalsumsätze (in 1000 Fr.) für die Jahre 1994 und 1997 (ohne Randwert-Extrapolation). Quartal Jahr I II III 1994 IV 43,750 1995 50,625 55,625 60,000 65,000 1996 71,875 78,125 82,500 87,500 1997 95,000 (4 Punkte) Platz für Nebenberechnungen 6 d) Den Quartals-Umsatzzahlen soll ein multiplikatives Zeitreihenmodell des Typs Y = T ⋅ S ⋅ I zugrunde gelegt werden, wobei der Trend nun durch eine Regressionsgerade mit Parametern a0=24,9 und b=5,3 dargestellt wird (Umsätze in 1’000 Fr.). (Hinweis: das erste Quartal 1994 entspricht x=1, das 2. Quartal 1994: x=2, usw.) d1) Zur Bestimmung dieser Regressionsgeraden verwenden wir die Methode: (1 Punkt) d2) Tragen Sie diesen Trend in die Graphik (unter Punkt a) ein. (1 Punkt) Die korrigierten Saisonfaktoren lauten: Sq1 = 0,86 Sq2 = 1,15 Sq3 = 1,45 Sq4 = 0,54 d3) Unter der obigen Modellannahme beträgt der saisonbereinigte Wert für das letzte Quartal des Jahres 1997 (in 1000 Fr.): Y *1997 IV = ...,.. (2 Punkte) d4) Machen Sie aufgrund des erwähnten Modells eine Umsatzprognose für die beiden ersten Quartale des Jahres 1998 (in 1000 Fr., ohne Berücksichtigung der irregulären Komponente): Ỹ1998 I = ...,.. Ỹ1998 II = ...,.. (4 Punkte) Platz für Nebenberechnungen 7 Aufgabe 3 Richtig Falsch 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Wenn vier Freundinnen sich alle gegenseitig Grüsse schreiben, so entspricht die Anzahl der Postkarten, die die Post befördern muss, einer Kombination ohne Wiederholung. 44 Beim Zahlenlotto 6 aus 45 gibt es genau Möglichkeiten, in denen die Zahl 5 22 enthalten ist. Bei einem Hypothesentest zum Niveau a ist die Wahrscheinlichkeit für eine Fehlentscheidung genau dann bekannt, wenn die Nullhypothese abgelehnt wird. Aus P(A) = 0,5 und P(B) = 0,3 folgt: P(A ∪ B) = P(A) + P(B). Bei allen stetigen Zufallsvariablen beträgt die Wahrscheinlichkeit rund 68%, dass ein Wert im Ein-Sigma-Bereich (m-s, m+s) realisiert wird. Laut Nullhypothese schiesst der Fussballspieler R.B. mindestens 60% seiner Elfmeter ins Tor. Wird H0 abgelehnt, falls von fünf Elfmetern des R.B. keiner im Tor landet, so beträgt der a-Fehler 1,02%. Bilden die Ereignisse A, B und C den Ereignisraum S, so gilt: P ( A ∪ B ∪ C) = 1. Ist X eine diskrete Rechteckverteilung mit den Werten {-1 , 0 , 1}. Dann gilt: X ist eine diskrete Dreieckverteilung mit den Werten für n=2 {-1 , -1/2 , 0 , 1/2 , 1}. Eine Binomialverteilung lässt sich durch eine entsprechende Normalverteilung annähern, wenn die Varianz der Binomialverteilung grösser als 9 ist. Der Modus der Chiquadratverteilung mit sieben Freiheitsgraden liegt bei 7. E(X) = 2 und E(Y) = 3 seien die Randerwartungswerte einer zweidimensionalen Normalverteilung. Daraus folgt bei stochastischer Unabhängigkeit von X und Y: E( X ⋅ Y ) = 5 . Mit steigender Zahl der Freiheitsgrade nimmt die Dichtefunktion der T-Verteilung an der Stelle 0 immer kleiner werdende Funktionswerte an, da sie sich der Standardnormalverteilung nähert. Werden bei einer linearen Einfachregression nach der KQ-Methode der Regressand und der Regressor miteinander vertauscht, so ändert sich stets das Vorzeichen des Parameters b . Der Chiquadratanpassungstest braucht mindestens 15 Beobachtungen, wenn als Nullhypothese eine diskrete Rechteckverteilung mit drei möglichen Werten geprüft wird. Wird die Normalverteilung X = N (1;4) mit Y = 2X linear transformiert, so bewirkt dies eine Verdoppelung des Interquartilabstandes. Sind die Ereignisse A und B stochastisch unabhängig, dann folgt: P( A /B) = P( A ) Effizienz bedeutet, dass ein erwartungstreuer Schätzer die kleinstmögliche Streuung besitzt. 18 Wird bei einem Hypothesentest zum Niveau a die Nullhypothese nicht verworfen, so fällt man mit der Wahrscheinlichkeit b einen richtigen Entscheid. 19 Wird bei einer hypergeometrischen Zufallsvariablen die Approximationsschwelle überschritten, so lässt sie sich linear in eine Chiquadratverteilung transformieren. 20 Der zentrale Grenzwertsatz erlaubt nur die Berechnung von Wahrscheinlichkeiten, mit denen ein arithmetisches Mittel ( X ) einer Stichprobe auftritt, falls X = N(m;s2). 17 8 Aufgabe 4 a) Rita Hurtig arbeitet als Kontrolleurin bei den Verkehrsbetrieben Zürich (VBZ). Die VBZ ermittelte aufgrund repräsentativer Umfragen, dass auf 800’000 tägliche Tramfahrten im Durchschnitt 40’000 Schwarzfahrer kommen. Als Schwarzfahrer gelte eine Person, die ohne gültiges Ticket eine Tramfahrt unternimmt. a1) Geben Sie die genaue Verteilung der Zufallsvariablen an, mit welcher Sie die Wahrscheinlichkeit berechnen können, in einer Stichprobe von 12 Fahrgästen eine bestimmte Anzahl Schwarzfahrer zu erhalten. X = (2 Punkte) a2) Berechnen Sie die Wahrscheinlichkeit, dass unter 12 von Rita zufällig kontrollierten Personen mindestens 3 Schwarzfahrer sind. Ergebnis: % ..,.. (2 Punkte) b) Herbert Pingel interessiert sich beim Kontrollieren besonders für das Alter der Schwarzfahrer. Er hat sich eine Tabelle mit drei Alterskategorien hergestellt, die er immer beim Kontrollieren dabei hat und ausfüllt. Die von ihm auf diese Weise erstellte Statistik ergibt für die letzten Jahre folgende Altersverteilung der erwischten Schwarzfahrer: Kategorie Altersgruppe Anteil unter den Schwarzfahrern I II III 7 - unter 33 Jahre 33 - unter 66 Jahre 66 - 99 Jahre 30 % 50 % 20 % b1) Es soll die Wahrscheinlichkeit festgestellt werden, dass von 21 schwarzfahrenden Fahrgästen, die Herbert erwischt, genau 7 Personen der Kategorie I, 7 Personen der Kategorie II und 7 Personen der Kategorie III angehören. Die Zufallsvariable X bezeichnet die Anzahl Personen der Kategorie I, die Zufallsvariable Y die Anzahl Personen der Kategorie II. Wie lautet die für die Bestimmung dieser Wahrscheinlichkeit erforderliche Zufallsvariable (X,Y)? Geben Sie das Verteilungssymbol und die konkreten Parameter an. (X,Y) = (2 Punkte) Die gesuchte Wahrscheinlichkeit beträgt: P (X=7, Y=7) = ..,.. % (3 Punkte) 9 b2) Gegeben von 100 erwischten Schwarzfahrern gehören 50 in die Kategorie III, wie lautet in diesem Fall die Verteilung der Kategorie I? Geben Sie das Verteilungssymbol und die konkreten Parameter an. (X | n - x - y=50) = (2 Punkte) b3) Wieviele Schwarzfahrer der Kategorie I werden in diesem Fall im Durchschnitt in der Stichprobe erwartet? Ergebnis: ...,.. Schwarzfahrer (2 Punkte) c) Der Ökonomiestudent Hugo Trittbrett hat von einem Kollegen gehört, dass die Wahrscheinlichkeit für einen Schwarzfahrer bei einer Fahrt erwischt zu werden, nur 3 % betrage. Hugo zweifelt diese Behauptung an. Er beschliesst, mit seinen Kollegen insgesamt 200 verschiedene Schwarzfahrten durchzuführen. c1) Die Zufallsvariable X sei die Anzahl der Schwarzfahrten, die bei diesem „Experiment“ entdeckt werden. Wie lautet die approximative Verteilung von X falls die Wahrscheinlichkeit erwischt zu werden tatsächlich 3% beträgt. Geben Sie das Verteilungssymbol und die konkreten Parameter an. X = app. (2 Punkte) c2) Wird ein Schwarzfahrer erwischt, kostet ihn dies jedes Mal 60.- Fr. Busse. Wie gross sind die erwarteten Ausgaben für Bussen beim obigen „Experiment“, wenn die Behauptung des Kollegen stimmt? Erwartete Ausgaben für Bussen = ...,.. Fr (1 Punkt) Platz für Nebenberechnungen 10 d) Hugo und seine Kollegen haben ingesamt 960.- Fr. an Bussen bezahlt. Schätzen Sie aufgrund dieses Ergebnisses, die unbekannte Wahrscheinlichkeit p für einen Schwarzfahrer bei einer Fahrt erwischt zu werden. d1) Geben Sie eine konkrete Punktschätzung für p an: π̂ = ..,.. % (1 Punkt) d2) Berechnen Sie das 90% - Vertrauensintervall für p: ..,.. % £ p £ ..,.. % (3 Punkte) Platz für Nebenberechnungen 11 Aufgabe 5 Der Verantwortliche für das Feuerwerk am „Züri-Fäscht“, Siegfried Feuerstein, muss während den Vorbereitungen für das Fest verschiedene statistische Probleme lösen. a) Die Flughöhe einer bestimmten Rakete sei normalverteilt. Zwei unterschiedliche Hersteller bieten Siegfried Feuerstein ihr Produkt an. Die konkrete Verteilung der Flughöhe (in Metern) dieser beiden Produkte sieht wie folgt aus: · Flughöhe der Rakete der Firma Knall & Co. · Flughöhe der Rakete der Firma Schall & Rauch AG. X=N (400; 25) Y=N (390; 100) a1) Bei welchem dieser beiden Produkte ist die Wahrscheinlichkeit grösser, dass eine zufällig ausgewählte Rakete eine Flughöhe von mehr als 410 m erreicht? Bitte zutreffende Antwort(en) ankreuzen. Knall & Co. Schall & Rauch AG Bei beiden gleich (2 Punkte) b) Siegfried Feuerstein kauft die Raketen bei der Firma Knall & Co. Bei einem Probefeuerwerk hat er die Vermutung, dass die Flughöhe der Raketen sehr stark schwankt und dass die Angabe der Varianz der Flughöhe, die der Hersteller gemacht hat, nicht zutrifft. Seine Vermutung möchte er anhand eines rechtseitigen statistischen Tests überprüfen. b1) Formulieren Sie die zu obigem Problem passende Null– und Alternativhypothese. H0 : HA : (2 Punkte) b2) Geben Sie einen erwartungstreuen und konsistenten Schätzer (Symbol) für die Varianz s2 an. Schätzer für s2 : (1 Punkt) 12 Siegfried Feuerstein zieht eine zufällige Stichprobe von 21 Raketen des genannten Typs und lässt diese bei gleichen Bedingungen steigen. Anhand der erreichten Flughöhen (in Metern) ermittelte er folgende Grössen: n = 21 x = 405 s2 = 1 n ⋅ ∑ ( x i − x )2 = 36 n i =1 b3) Wie lautet nun die konkrete erwartungstreue Schätzung (Realisation) für σ̂ 2 ? σ̂ 2 = ..,.. (2 Punkte) b4) Wie lautet für diese Stichprobenergebnisse konkret der Ablehnungsbereich des Testproblems zum Niveau a = 0,05 und welche Entscheidung wird getroffen ? (< ; ¹ ;>) (Wert) σ̂ 2 ..,.. zutreffendes Symbol einfügen H0 wird abgelehnt H0 wird nicht abgelehnt (4 Punkte) b5) Wie lautet die Verteilung für den obigen Schätzer der Varianz s2 ? Bitte zutreffende Antwort(en) ankreuzen. Die Verteilung des transformierten Schätzers ist eine Chiquadratvariable mit 20 Freiheitsgraden. Die Verteilung des transformierten Schätzers ist eine Chiquadratvariable mit 21 Freiheitsgraden. Die Verteilung des Schätzers ist eine modifizierte T-Verteilung mit 20 Freiheitsgraden. (1 Punkt) Platz für Nebenberechnungen 13 c) In einem Statistiklehrbuch hat Siegfried Feuerstein den Begriff des „b-Fehlers“ entdeckt. Nun möchte er dies auf sein Testproblem anwenden. Bei welcher Varianz der Flughöhe unter der Alternativhypothese ist der b-Fehler = 0,10 (bei a = 0,05) ? σ 2A = ...,.. (3 Punkte) d) Am Abend des Fests werden auch Knallfrösche gezündet. In einer Kiste befinden sich bunt gemischt 70 rote und 30 gelbe Knallfrösche. Da es dunkel ist, sieht Siegfried Feuerstein nicht, welche Sorte er zieht. Er weiss jedoch aus Erfahrung, dass diese beiden Knallfrosch-arten mit einer unterschiedlichen Wahrscheinlichkeit explodieren. Gegeben seien die folgenden Ereignisse: R : ein roter Knallfrosch wird gezündet. G : ein gelber Knallfrosch wird gezündet. K : der gezündete Knallfrosch explodiert. K : der gezündete Knallfrosch explodiert nicht. Es gelten die folgenden bedingten Wahrscheinlichkeiten: P ( K | R) = 0,9 P ( K | G ) = 0,7 d1) Berechnen Sie die Wahrscheinlichkeit, dass Siegfried Feuerstein einen gelben Knallfrosch gezogen hat, wenn Sie wissen, dass dieser Knallfrosch nicht explodiert ist. P ( G | K) = ..,.. % (3 Punkte) d2) Wie gross ist die Wahrscheinlichkeit, dass ein zufällig gezogener Knallkörper explodiert bzw. nicht explodiert? P (K) = ..,. % P ( K) = ..,. % (2 Punkte) Platz für Nebenberechnungen 14 Herbst 1998-Lösungen Aufgabe 1 1. 2. 3. 4. 5. falsch richtig richtig falsch falsch 6. 7. 8. 9. 10. falsch falsch richtig falsch richtig 11. 12. 13. 14. 15. richtig falsch richtig falsch falsch 16. 17. 18. 19. 20. c2) 1994 1994 1994 1997 1997 1997 d1) ... der kleinsten Quadrate. (KQ-Methode) 80 d2) Lsg. siehe a1). 60 d3) Y *1997 IV = 129.63 d4) Ỹ1998 I = 98.90 richtig richtig falsch richtig falsch Aufgabe 2 a1) Umsatz (in Tsd. Fr.) 160 140 120 100 I = kein Wert II = kein Wert III = 38.750 II = 102.500 III = kein Wert IV = kein Wert 40 20 Ỹ1998 II = 138.35 0 I b1) b2) c1) II III IV I II III IV I II IV III I II IV III Quartale/ Jahre 40.95 % 257.08 viergliedrigen GD Aufgabe 3 1. 2. 3. 4. 5. falsch richtig richtig falsch falsch 6. 7. 8. 9. 10. richtig richtig richtig richtig falsch 11. 12. 13. 14. 15. falsch falsch falsch richtig richtig 16. 17. 18. 19. 20. richtig richtig falsch falsch falsch b3) c1) 18.75 Schwarzfahrer X = P(6) c2) d1) d2) 360.00 Fr. π̂ = 8.00 % VI: 4.84 % £ p £ 11.16%. b5) c) d1) Die erste Antwort ist richtig. σ 2A = 63.31 P( G K ) = 56.25 % P( K ) = 84.0 % P( K ) = 16.0 % Aufgabe 4 40 a1) X = B (12; a2) b1) 1.95 % (bzw. 1.94 %) (X,Y) = M( 21; 0.3; 0.5) P(X=7, Y=7) = 0.87 % b2) (X | n - x -y=50) = B(50; 800 ) Aufgabe 5 a1) b1) Bei beiden gleich. H0: σ 2 ≤ σ 20 = 25 HA: σ 2 > σ 20 = 25 b2) Schätzer für s2: Ŝ2 b3) σ̂ 2 = 37.80 b4) σ̂ 2 > 39.25 H0 wird nicht abgelehnt. app. 3 8 ) Name : Vorname : Prüfungsnummer : Prüfungsordnung : NEUE PO Statistik Vorprüfung in Wirtschaftswissenschaft 16. März 1999 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : 1 Frühjahr 1999 – Aufgabe 1 Aufgabe 1 Richtig Falsch 1 Besitzen fünf Unternehmen je 20% Marktanteil, dann beträgt der Gini-Koeffizient GK=0 und der Herfindahl-Koeffizient HK=0,2. 2 Die Korrelation zweier Merkmale X und Y gibt an, ob ein direkter sachlicher Zusammenhang zwischen diesen beiden Merkmalen besteht. 3 4 Der Logarithmus des arithmetischen Mittels ist gleich dem geometrischen Mittel. Eine Erhöhung des Stichprobenumfangs bewirkt immer auch eine Erhöhung des Determinationskoeffizienten. Falls für zwei Merkmale X und Y die Beziehung Cov(X,Y) = sx ⋅ sy gilt, dann nimmt der Korrelationskoeffizient nach Bravais-Pearson dieser beiden Merkmale einen maximalen Wert an. Das Produkt eines elementaren Preisindexes mit einem elementaren Mengenindex 6 entspricht dem elementaren Wertindex. 5 7 8 Das Kreisdiagramm eignet sich zur Darstellung der Gliederung auch bei nominalskalierten Merkmalen. Ist die Arbeitslosenquote von Land X 20% und die Arbeitslosenquote von Land Y, das die doppelte Anzahl Erwerbspersonen aufweist, 25%, so beträgt die durchschnittliche Arbeitslosenquote beider Länder 22,5%. 9 Eine Nominallohnzunahme von 100% führt bei einer Preissteigerung von 200 % zu einer Reallohneinbusse von 33 1 3 %. 10 Die mittlere absolute Abweichung der Datenwerte von ihrem arithmetischen Mittel ist kleiner oder gleich der mittleren absoluten Abweichung von ihrem Median. 11 Der Variationskoeffizient kann nur dann zum Vergleich der relativen Streuungen zweier Verteilungen verwendet werden, falls deren arithmetische Mittel gleich sind. 12 Werden bei der linearen K-Q-Regression alle Werte des Regressors X verdoppelt, halbiert sich der Steigungsparameter b und der Achsenabschnitt a0 bleibt unverändert. 13 Ein Saisonfaktor eines multiplikativen Zeitreihenmodells kann nie den Wert Null annehmen. 14 Es liegt immer dann eine symmetrische Verteilung vor, wenn links und rechts vom Median 50% der Werte liegen. 15 Zur Charakterisierung der zentralen Tendenz einer nominalskalierten Variablen eignet sich nur der Modus . 16 Das harmonische Mittel eines Merkmals X ist immer kleiner als das arithmetische Mittel. 17 Die Spannweite ist immer grösser als das 9. Dezil. 18 Die saisonbereinigten Werte einer Zeitreihe sind identisch mit der glatten Komponente. 19 Durch Zusammenlegung zweier symmetrischen Häufigkeitsverteilungen gleichen Umfangs entsteht immer eine Verteilung, die ebenfalls symmetrisch ist. 20 Der Interquartilsabstand einer Häufigkeitsverteilung ist stets kleiner als der Abstand zwischen dem 1. und 9. Dezil. 2 Frühjahr 1999 – Aufgabe 2 Aufgabe 2 Die unterschiedlichen Kostenstrukturen der Zürcher Regionalspitäler sollen anhand der Beziehungszahl Kosten pro Bett verdeutlicht werden. a) Im folgenden Diagramm ist die Lorenzkurve der Kostenkonzentration von vier Regionalspitälern für das Jahr 1998 eingezeichnet. Q Anteil an Kosten 1 i 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 Spital 1 0,3 0,4 0,5 0,6 Spital 2 0,7 0,8 Spital 3 0,9 1 Fi Anteil an Betten Spital 4 a1) Ergänzen Sie die untenstehende Tabelle durch die Angaben, die Sie aus der Lorenzkurve entnehmen können. Spital i Anzahl Betten Gesamtkosten Kosten/Bett in 1'000 Fr. in 1'000 Fr. Platz für Nebenberechnungen Spital 1 Spital 2 Spital 3 Spital 4 ∑ 30 1000 (4 Punkte) 3 Frühjahr 1999 – Aufgabe 2 a2) Die Lage der Lorenzkurve verändert sich im obigen Diagramm, wenn... Bitte zutreffende Antwort(en) ankreuzen. ...sich die Kosten pro Bett in jedem Spital verdoppeln. ...die Kosten teuerungsbereinigt angegeben werden. (Die im Spitalbereich massgebliche Teuerungsrate beträgt im Betrachtungszeitraum 5%.) ...in jedem Spital für eine Antiraucherkampagne zusätzliche Kosten von Fr. 500'000.- entstehen. ...sich die Anzahl der Betten in jedem Spital bei gleichbleibenden Gesamtkosten um 10% verringern. (2 Punkte) b) Diese betrieblichen Kostenunterschiede werden in einer Studie der Gesundheitsdirektion eingehender untersucht. Man beschränkt sich vorerst auf die Lohnkosten und vermutet einen linearen Zusammenhang zwischen dem Alter der Spitalangestellten als unabhängige Variable X und der Höhe der Lohnkosten als abhängige Variable Y. Beschäftigte(r) i 1 2 3 4 5 Alter X 30 48 34 50 60 71 51 72 ... .... 798 799 800 60 32 54 58 90 57 100 80 in Jahren Lohnkosten Y in 1'000 Fr. 800 n = 800 ; X = 45 ; Y = 70 ; ∑ X ⋅ Y = 2'613'697,6 ; i i Cov(X, Y) = 117,122 i =1 Variationskoeffizienten: VKX = 22,0 %; VKY = 19,0 % b1) Berechnen Sie den Korrelationskoeffizienten nach Bravais-Pearson: r = .,.. (3 Punkte) b2) Geben Sie die Regressionsgerade nach der Methode der Kleinsten Quadrate an. Runden Sie dabei auf drei Stellen nach dem Komma. Ŷ = (3 Punkte) 4 Frühjahr 1999 – Aufgabe 2 b3) Angenommen alle Beschäftigen im Spitalbereich hätten zu Weihnachten 1998 einen Treuebonus von Fr. 2'000.- erhalten. Wie hätte sich dies auf die folgenden Grössen ausgewirkt? Bitte zutreffende Antwort(en) ankreuzen. Der Achsenabschnitt a0 der Regressionsgerade nimmt zu. Der Steigungsparameter b der Regressionsgerade nimmt zu. Der Variationskoeffient der Lohnkosten VKY nimmt zu. Die Kovarianz Cov(X, Y) nimmt zu. (2 Punkte) c) Im Kanton Zug wurde die gleiche Untersuchung wie unter b) in drei Regionalspitälern durchgeführt, wobei das Alter und die Lohndaten von 500 Beschäftigen erhoben wurden. Die berechnete K-QRegressionsgerade lautet in der vereinfachten Form: Ŷ = 80 + 1,8 x ( Ŷ in 1'000 Fr., x in Jahren ) c1) Bei einem Alter von 55 Jahren wird anhand der angegeben Regressionsgleichung auf Lohnkosten in der Höhe von Fr. 92'600.- ( Ŷi = 92,6 ) geschlossen. Berechnen Sie anhand dieser Angaben das Durchschnittsalter ( XZug ) der 500 erfassten Spitalangestellten. XZug = ..,. Jahre (3 Punkte) Platz für Nebenberechnungen 5 Frühjahr 1999 – Aufgabe 2 c2) Wie verhält sich der Korrelationskoeffizient rXY nach Bravais-Pearson zwischen den Merkmalen Y und X und der Korrelationskoeffizent rVY zwischen Y und den transformierten Werten V ? ( wobei V = a + b ⋅ X ) Bitte zutreffende Antwort(en) ankreuzen. | rXY | = | rVY | | rXY | > | rVY | | rXY | < | rVY | Keine Aussage möglich. (3 Punkte) Platz für Nebenberechnungen 6 Frühjahr 1999 – Aufgabe 3 Aufgabe 3 Richtig Falsch 6 von 40 Mitgliedern des Olympischen Komitees haben Bestechungsgelder angenommen. Die Wahrscheinlichkeit, dass bei einer stichprobenartigen Überprüfung von 12 Mitgliedern auch alle 6 Missetäter darunter sind, ist kleiner als 1:1000. 2 Will man die Chiquadratverteilung durch die Standardnormalverteilung approximieren, so muss die Stetigkeitskorrektur angewendet werden. Bei der stochastischen Einfachregression gilt: Je kleiner die Standardabweichung der Regressorwerte Xi ist, umso grösser ist ceteris paribus das Vertrauensintervall 3 für β. 1 4 5 6 7 8 9 10 11 12 13 14 15 16 17 Bei einem Hypothesentest ist die Wahrscheinlichkeit für eine Fehlentscheidung immer dann bekannt, wenn die Nullhypothese nicht abgelehnt wird. Folgt die Prüfgrösse eines Hypothesentests einer T-Verteilung wird der _-Fehler bei gleichbleibendem _-Fehler durch eine Vergrösserung der Stichprobe immer verringert. Ein zu einer dreidimensionalen Multinomialverteilung passendes Zufallsexperiment ist: „Ziehen mit Zurücklegen aus einer Urne mit vier Kugelkategorien“. Die Wahrscheinlichkeit einer Vereinigungsmenge aus n Elementarereignissen ist die Summe der Einzelwahrscheinlichkeiten dieser Elementarereignisse. Gleichgültig, welcher Zufallsverteilung zwei Zufallsvariablen folgen, wenn ihr Korrelationskoeffizient gleich Null ist, so sind sie unabhängig. Die Anteilsvariable entsteht durch eine Transformation aus der Binomialvariablen, wobei die Varianz der Anteilsvariable für n > 1 immer kleiner ist als die Varianz der zugehörigen Binomialvariablen. Mit der Vervierfachung des Stichprobenumfanges kann ceteris paribus das Vertrauensintervall für µ bei bekanntem σ halbiert werden. Die Buchstaben des Wortes „MILLENNIUM“ lassen sich auf 226'800 verschiedene Arten anordnen. Die Dichtefunktion einer T-Verteilung mit 10 Freiheitsgraden liegt im gesamten Wertebereich über der Dichtefunktion einer T-Verteilung mit 5 Freiheitsgraden. Die Kovarianz einer Multinomialvariablen kann nie gleich ihrem Korrelationskoeffizienten sein. Die Standardisierung einer Zufallsvariablen ist eine von vielen möglichen linearen Transformationen. Der Interquartilsabstand einer Normalverteilung ist stets grösser als deren doppelte Standardabweichung. Die Verteilungsfunktion F (x) einer diskreten Zufallsvariablen X kann nie stetig im Bereich ℜ der reellen Zahlen sein. Sind A und B stochastisch unabhängige Ereignisse mit P(A) > 0, dann gilt: P(B) = P(A∩B)/P(A). 18 Wenn X standardnormalverteilt ist, so gilt: (E(X))2 = E(X2) 19 Werden zwei unabhängige Standardnormalvariablen je für sich quadriert und anschliessend addiert, so entsteht eine Chiquadratvariable mit ν = 2. 20 Bei der geschichteten Zufallsstichprobe sollten die einzelnen Schichten so gewählt werden, dass sie ein verkleinertes Abbild der Grundgesamtheit darstellen. 7 Frühjahr 1999 – Aufgabe 4 Aufgabe 4 In den Medien wird behauptet, dass mindestens 90 Prozent der praktizierenden Chirurgen von Helvetistan ein Jahreseinkommen von Fr. 1'000'000 und mehr erzielten. a) In Sorge um ihren Ruf und um drohende Tarifsenkungen beauftragt die Vereinigung der Chirurgen – ihr gehören alle Chirurgen von Helvetistan an – Sie, diese Behauptung zu überprüfen. a1) Welche der folgenden Tests eignen sich, mit Hilfe einer Befragung von 20 Chirurgen die obige Behauptung zu überprüfen? Bitte zutreffende Antwort(en) ankreuzen. ein Chiquadrat-Anpassungstest ein Test bezüglich des Erwartungswerts der Einkommensverteilung ein Test bezüglich der Varianz der Einkommensverteilung ein Vorzeichentest (2 Punkte) a2) Welche Voraussetzungen müssen erfüllt sein, damit Sie den von Ihnen gewählten Test durchführen können? Bitte zutreffende Antwort(en) ankreuzen. Die Einkommensverteilung muss keinen besonderen Voraussetzungen genügen. Die Einkommen der Chirurgen müssen approximativ normalverteilt sein. Die Einkommen der Chirurgen müssen exakt normalverteilt sein. Die Einkommen der Chirurgen müssen binomialverteilt sein. (2 Punkte) 7 Frühjahr 1999 – Aufgabe 4 a3) Aufgrund der Abklärungen kommen Sie zum Schluss, dass Sie den Test durchführen können. Dazu wählen Sie aus der Datenbank der Vereinigung der Chirurgen zufällig 20 Mitglieder aus. Die Zufallsvariable Y bezeichnet die Anzahl der Einkommensmillionäre in der Stichprobe. Wie lauten die dazu passenden Null- und Alternativhypothesen Ihres einseitigen Tests? H0 : HA : (3 Punkte) a4) Welche Werte umfasst der Ablehnungsbereich Ihres Tests, falls ein _-Fehler von 5% vorgegeben wird? .. ≤ y ≤ .. (4 Punkte) Platz für Nebenberechnungen 8 Frühjahr 1999 – Aufgabe 4 b) Da für Ihren vorherigen Test nur 20 Personen befragt wurden, erscheinen die Ergebnisse als unglaubwürdig. Deshalb werden Sie beauftragt, 500 Chirurgen Helvetistans zu befragen, um obige Behauptung, dass 90% der Chirurgen Einkommensmillionäre sind, zu überprüfen. Welcher approximativen Verteilung folgt die Prüfgrösse X (Anzahl der Millionäre in der Stichprobe) dieses neuen Tests? Nehmen Sie dabei an, die Nullhypothese von Teilaufgabe a3) treffe zu. (Verteilungstyp und konkrete Parameter angeben) X app. = .... ( ; ) (3 Punkte) Platz für Nebenberechnungen 9 Frühjahr 1999 – Aufgabe 4 c) Sie bekommen von der Vereinigung der Chirurgen einen neuen Auftrag. Sie sollen zeigen, dass die Tatsache, dass in einer Stadt Helvetistans mit 500'001 Einwohnern ein einziger Einkommensmillionär wohnt, der zudem als Chirurge tätig ist, nicht automatisch für einen grossen Reichtum aller Chirurgen spricht. Dies obwohl allgemein gilt, dass die Wahrscheinlichkeit unter Einkommensbezüger, die ein Einkommen von weniger als eine Million Franken pro Jahr erzielen, einen Chirurgen zu finden, nur 1/106 beträgt. Daraus folgt: P (C|M) P (C| M ) =1 = 1 10 6 wobei M und C folgendermassen definiert sind: M: M: C: C: der Einwohner verdient eine Million oder mehr Franken pro Jahr der Einwohner verdient weniger als eine Million Franken pro Jahr der Einwohner ist Chirurg der Einwohner ist nicht Chirurg Mit welcher Wahrscheinlichkeit verdient ein zufällig ausgewählter Chirurge weniger als eine Million Franken pro Jahr? (Geben Sie die gesuchte Wahrscheinlichkeit mit den obigen Symbolen an und berechnen Sie den konkreten Wert.) P( ) = (6 Punkte) Platz für Nebenberechnungen 10 Frühjahr 1999 – Aufgabe 5 Aufgabe 5 a) Der Volkswirt Egon K., ein begeisterter Mantafahrer, ist stolzer Besitzer des neuesten GTI-Modells. Sein Kollege, der Betriebswirt Helge S. behauptet, dass sein kürzlich erworbener Manta GTX schneller ist als Egons GTI. Sie beschliessen, mit ihren Wagen je gleichviele Testfahrten auf einer Eichstrekke durchzuführen und die Ergebnisse zu vergleichen. Laut Werkangabe sind die auf Teststrecken erzielten Geschwindigkeiten der beiden Modelle GTI und GTX normalverteilt mit den respektiven Erwartungswerten µ1 und µ2 . Die unbekannten Varianzen σ 12 und σ 2 2 können als gleich angenommen werden ( σ 12 = σ 2 2 = σ g 2 ). a1) Geben Sie einen erwartungstreuen und konsistenten Schätzer für den Parameter µ D = µ1 − µ2 , die theoretische Differenz der Geschwindigkeiten der beiden Fahrzeuge, an. Schätzer für _ D: D = (2 Punkte) a2) Wie ist die Zufallsvariable D verteilt ? (Geben Sie den Verteilungstyp und die zugehörigen Parameter an) D = .... ( ; ) (3 Punkte) a3) Geben Sie einen erwartungstreuen und konsistenten Schätzer für den Parameter σ g 2 , die gemeinsame theoretische Varianz der Geschwindigkeit beider Fahrzeuge, an. σ̂ g 2 = (2 Punkte) 11 Frühjahr 1999 – Aufgabe 5 b) Egon und Helge führen je 10 Testfahrten durch und halten die dabei erzielten Geschwindigkeiten fest. Danach errechnen sie für jedes Modell die Durchschnittsgeschwindigkeit über alle zehn Fahrten, sowie die entsprechenden Standardabweichungen. Es ergeben sich folgende Werte: ŝ1 =3 Km/h ŝ2 =4 Km/h Modell GTI : x1 = 180 Km/h Modell GTX : x 2 = 185 Km/h n1 = 10 n2 = 10 b1) Wie lautet die konkrete Punktschätzung für die obige Differenz der Erwartungswerte ? d= .,. (2 Punkte) b2) Wie lautet die konkrete Punktschätzung für die Varianz von D ? ŝD 2 = .,. (2 Punkte) b3) In welchem Vertrauensbereich liegt – mit 90% Sicherheit – die Differenz µD der Erwartungswerte? ..,... ≤ µD ≤ ..,... (4 Punkte) Platz für Nebenberechnungen 12 Frühjahr 1999 – Aufgabe 5 d) Die Behauptung Helges, wonach das GTI-Modell tatsächlich weniger schnell ist als der GTX soll anhand der obigen Daten mit Hilfe eines statistischen Tests zum Signifikanzniveau α = 5% entschieden werden. Die Null- und die Alternativhypothesen lauten: H0 : µ D = 0 HA : µ D < 0 (bzw. µ D ≥ 0) c1) Bei diesem Test handelt es sich um einen (kreuzen Sie an) : linksseitigen Test rechtsseitigen Test zweiseitigen Test (1 Punkt) c2) Geben Sie den Ablehnungsbereich von H0 bezüglich der Differenz d der Stichprobenmittel-werte an, sowie die daraus folgende Entscheidung : Ablehnungsbereich : d .,... daraus folgt: H0 wird abgelehnt H0 wird nicht abgelehnt (4 Punkte) Platz für Nebenberechnungen 13 Frühjahr 1999 -Lösungen Frühjahr 1999-Lösungen Aufgabe 1 1. 2. 3. 4. 5. richtig falsch falsch falsch richtig 6. 7. 8. 9. 10. richtig richtig falsch richtig falsch 11. 12. 13. 14. 15. falsch richtig richtig falsch richtig Aufgabe 2 a1) Spital i Anzahl Betten Gesamtkosten in 1'000 Fr. Kosten/Bett in 1'000 Fr. Spital 1 400 1'000 2.5 Spital 2 200 1'500 7.5 Spital 3 300 4'500 15 Spital 4 100 3'000 30 ∑ 1000 10'000 16. 17. 18. 19. 20. a2) Die dritte Antwort ist richtig. b3) Die erste Antwort ist richtig. b1) b2) rxy = 0.89 Ŷ = 16.225 + 1.195X c1) 48.0 Jahre. c2) Die erste Antwort ist richtig. 11. 12. 13. 14. 15. richtig falsch falsch richtig falsch b) N( 450; 45) c) P( M / C ) = 1 3 b2) b3) ŝD2 = 2.5 falsch falsch falsch falsch falsch Aufgabe 3 1. 2. 3. 4. 5. richtig falsch richtig falsch falsch 6. 7. 8. 9. 10. richtig richtig falsch richtig richtig 16. 17. 18. 19. 20. Aufgabe 4 a1) a2) a3) a4) Vorzeichentest ... keine besonderen Voraussetzungen. π = π 0 = 0.9 (bzw. ≥ ) H 0: HA: π < π0 = 0.9 0 ≤ y ≤ 15 Aufgabe 5 a1) a2) D = X1 − X2 N( µ1 – µ2 ; σ σ + ) n1 n2 2 1 2 2 2 bzw. σ für V(D) n 2 g a3) b1) c1) c2) (n − 1) ⋅ Sˆ12 + (n2 − 1) ⋅ Sˆ22 Sˆg2 = 1 n1 + n2 − 2 2 2 ˆ ˆ S + S2 bzw. 1 2 d = -5.0 14 -7.742 ≤ µD ≤ -2.258 linksseitigen Test d < -2.742 H0 wird abgelehnt richtig richtig falsch richtig falsch Name, Vorname : Prüfungsnummer : _______________________________ _________________ Statistisches Seminar der Universität Zürich Prof. Dr. P. Bohley Prof. Dr. H.W. Brachinger Vorprüfung in Statistik 21. September 1999 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : Herbst 1999 – Aufgabe 1 Aufgabe 1 Richtig 1 Wird eine Varianz mit der Varianzzerlegungsformel berechnet, so ergibt sich der gleiche Wert wie bei der Berechnung dieser Varianz aus den Ursprungsdaten. 2 Ein Anstieg des Landesindex der Konsumentenpreise um 50% entspricht einer Abnahme der Kaufkraft um 25%. 3 Bei Verteilungen mit mehreren Modi treten auch mehrere Mediane auf. 4 Werden bei der Berechnung der Kovarianz von X und Y beide Variablen mit einem Faktor k mutipliziert, so erhöht sich die Kovarianz der transfomierten Werte um den Faktor k2. Ist die Standardabweichung der Marktanteile von N Unternehmungen sN = 0, so 1 ist der Herfindahlkoeffizient HK = . N 6 Wird bei einer linearen Einfachregression mit Parametern a0 , b ≠ 0 jede Beobachtung des Regressanden Y um 10% erhöht, so verändern sich die KQ-Parameter a0 und b um 10%. 5 7 Alle standardisierten Datenreihen haben denselben Wertebereich. 8 Für nominalskalierte Daten eignet sich einzig die Spannweite als Streuungsmass. 9 Aus dem Korrelationskoeffizienten nach Pearson lässt sich der Determinationskoeffizient der linearen Einfachregression bestimmen und umgekehrt. 10 Vergrössert sich eine monetäre Grösse innerhalb von 2 Jahren um 300%, so beträgt die durchschnittliche jährliche Wachstumsrate 100%. 11 Der Median lässt sich nicht bestimmen, wenn bei gruppierten Daten offene Randklassen auftreten. 12 Aus der Konzentrationsrate CR1=0,4 folgt, dass CR2 höchstens 0,8 betragen kann. 13 Die Summe der absoluten Häufigkeitsdichten einer in Klassen eingeteilten Datenreihe beträgt immer 1. 14 Ist die Kovarianz Cov(X,Y) zweier Datenreihen kleiner als 0, so ist ceteris paribus eine der beiden Standardabweichungen sx und sy negativ. 15 Bei einem multiplikativen Zeitreihenmodell bedeutet ein Saisonkoeffizient von 1,2 , dass der saisonbereinigte Wert gegenüber der Vorjahresperiode um 20% angestiegen ist. 16 Die ungewogene Indexformel U0t besitzt bei mehr als einem Gut die Faktorumkehreigenschaft. 17 Liegt für Januar eine Jahresteuerungsrate von 2% und für Februar eine von 1% vor, so sind die Preise im Februar gegenüber Januar im Durchschnitt stets gesunken. 18 Der Median lässt sich aus dem Interquartilsabstand bestimmen. 19 Der Rangkorrelationskoeffizient nach Spearman verändert sich nicht, wenn die beiden Variablen X und Y zweier Datenreihen vertauscht werden. 20 Liegt bei einer Lorenzkurve das erste Wertepaar nach dem Ursprung auf der Hauptdiagonalen, so gilt dies auch für alle weiteren Wertepaare. 1 Falsch Herbst 1999 – Aufgabe 2 Aufgabe 2 Die Leitung der neugegründeten Fachhochschule Zürich Mittelland möchte erfahren, ob sich bei den Leistungen in bestimmten Unterrichtsfächern Zusammenhänge feststellen lassen. Alle Leistungen werden dabei mit Noten bewertet, die (approximativ) als intervallskaliert betrachtet werden können. a) In einer Versuchsklasse A (bestehend aus 25 Studierenden) wurden in den Fächern Französisch und Mathematik die in der folgenden Tabelle dargestellten Leistungen erzielt: Tabelle: Anzahl fij der Studierenden mit Notenkombination (Xi,Yj) Mathematik-Note(Y) 1 2 3 4 5 6 1 0 0 0 0 0 0 0 2 0 0 0 1 2 0 3 3 0 0 1 8 1 0 10 4 0 0 5 1 0 1 7 5 0 2 1 1 0 0 4 6 0 1 0 0 0 0 1 0 3 7 11 3 1 25 Summe f i. Französisch-Note (X) Summe f.j Hinweis: Es gelten ∑X ⋅ f i i. = 90 ; ∑Y ⋅ f j .j = 92 und ∑XY ⋅ f i j ij = 315 a1) Wie gross sind die Mediane der Noten in beiden Fächern? xMe = .,. yMe = .,. (2 Punkte) a2) Bestimmen Sie den Interquartilsabstand IQ der Französischnoten X. IQx = .,. (2 Punkte) 2 Herbst 1999 – Aufgabe 2 a3) Berechnen Sie die Kovarianz der erreichten Noten in beiden Disziplinen. Cov (X,Y) = .,... (3 Punkte) b) In einer Versuchsklasse B wurde zwischen den Französisch- (X) und den Mathematikleistungen (Y) die Kovarianz Cov (X,Y) = – 0,82159 festgestellt. Die erzielten Noten wiesen zudem die arithmetischen Mittel x = 4, 05 und y = 3, 75 , sowie die Varianzen sx2 = 1, 21 und sy2 = 0, 9409 auf. b1) Bestimmen Sie die Parameter der Regressionsgeraden Ŷ = a0 + b ⋅ X nach der Methode der Kleinsten Quadrate. a0 = .,... b = .,... (3 Punkte) b2) Wie gross ist der Determinationskoeffizient dieser Regressiongeraden. r2 = .,... Interpretieren Sie das Ergebnis. (4 Punkte) Platz für Nebenberechnungen 3 Herbst 1999 – Aufgabe 2 c) Schliesslich soll der Zusammenhang zwischen den Leistungen in den Fächern Mathematik und Statistik untersucht werden. Im Fach Statistik werden nicht wie im Fach Mathematik Noten, sondern lediglich Leistungsbeurteilungen mit den Prädikaten „sehr schlecht“, „schlecht“, „genügend“„ gut“ und „sehr gut“ abgegeben. 6 zufällig ausgewählte Kandidaten wiesen folgende Leistungen auf: Arbeitstabelle Fachbereich Mathematik Statistik (X) (Y) Kandidat i 1 4 gut 2 6 sehr gut 3 3 genügend 4 5 sehr gut 5 2 sehr schlecht 6 2 schlecht c1) Welche der folgenden statistischen Masszahlen eignen sich grundsätzlich zur Charakterisierung der zentralen Tendenz ordinal gemessener Leistungen von Studierenden? Bitte zutreffende Antwort(en) ankreuzen. Der Modus Der Median Das arithmetische Mittel Das geometrische Mittel Das harmonische Mittel (2 Punkte) c2) Berechnen Sie für die vorliegenden Leistungen in den Fächern Mathematik und Statistik den Korrelationskoeffizienten nach Spearman. rs = .,... Interpretieren Sie das Ergebnis. (4 Punkte) 4 Herbst 1999 – Aufgabe 3 Aufgabe 3 Richtig Der Chiquadrat-Unabhängigkeitstest ist auch für die empirische Überprüfung der Unabhängigkeit zweier qualitativer Merkmale geeignet. 2 Der Median einer Poissonverteilung ist gleich dem Parameter λ dieser Verteilung. 1 Der Maximum-Likelihood-Schätzer für den Erwartungswert einer normalverteilten Zufallsvariablen ist effizient. Bei zweimaligem Werfen eines fairen Würfels beträgt die Wahrscheinlichkeit, 4 dass genau einmal eine sechs auftritt 11 . 3 36 5 6 7 8 9 10 11 12 Wenn man eine Nullhypothese verwirft und die Alternativhypothese tatsächlich richtig ist, hat man eine korrekte Entscheidung getroffen. Die Wahrscheinlichkeit, dass von 3 zufällig ausgewählten Personen mindestens zwei am selben Tag Geburtstag haben, ist kleiner als ein Promill. Wird beim Hypothesentest H0 : β 2 = 0 gegen HA : β 2 ≠ 0 im linearen Mehrfachregressionsmodell H0 zum Niveau α = 0,01 verworfen, so üben alle Regressoren einen hochsignifikanten Einfluss auf den Regressanden aus. Die Varianz σ 2 ist ein Lagemass einer Zufallsvariablen, das diese zusammen mit dem Erwartungswert im allgemeinen erschöpfend charakterisiert. Das Signifikanzniveau α muss bei jedem statistischen Test grundsächlich nach der Berechnung der Prüfgrösse bestimmt werden. Bei einem Test begeht man einen Fehler zweiter Art, wenn man die Nullhypothese nicht verwirft, obwohl die Alternativhypothese richtig ist. Die nichtdegenerierten bedingten Verteilungen der zweidimensionalen Multinomialverteilung sind stets Binomialverteilungen. Ist X normalverteilt, so ist auch X normalverteilt. Für die Verteilung der Anzahl Mädchen in Familien mit fünf Kindern wählt man als Verteilungsmodell am besten die hypergeometrische Verteilung. Im klassischen linearen Mehrfachregressionsmodell mit normalverteilten Störva14 13 riablen gilt: βˆ j − β j = T n − k −1 . σˆ ˆ βj 15 Wird eine Nullhypothese zum Niveau α = 0,05 abgelehnt, so folgt die Ablehnung derselben Hypothese zum Niveau α = 0,01. Die Wahrscheinlichkeit, dass weder Ereignis A noch Ereignis B auftritt, beträgt 1-[P(A) + P(B)]. 17 Die Intervallmitte des Vertrauensintervalls für den Erwartungswert µ einer Grundgesamtheit ist zugleich eine erwartungstreue Punktschätzung für diesen Erwartungswert. Wird im Rahmen eines Mehrfachregressionsmodells die Nullhypothese des F18 Tests zu einem Niveau α = 0,01 verworfen, so kann nicht ausgeschlossen werden, dass β1 = β 2 = … = β k = 0 ist. 16 Im schweizerischen Zahlenlotto 6 aus 45 gibt es bei einer Ziehung 234 Möglichkeiten, von den sechs gezogenen Zahlen fünf getippt zu haben. Wenn drei Personen zwei Runden eines Glücksspiels spielen, gewinnt eine Per20 son mit einer Wahrscheinlichkeit von 1 zweimal. 19 6 5 Falsch Herbst 1999 – Aufgabe 4 Aufgabe 4 a) Die begeisterte Schwimmerin Franziska B. hat beim Training irgendwo in einem Schwimmbecken einen Ohrring verloren. Die Wahrscheinlichkeitsverteilung der (zufälligen) Stelle, an der sich der Ohrring befindet, wird durch folgende graphisch dargestellte Dichtefunktion modelliert: y Breite des Beckens f(x,y) 10 6 40 0 50 8 x Länge des Beckens a1) Um welchen Verteilungstyp handelt es sich? Bitte zutreffende Antwort(en) ankreuzen. Eine Multinomialverteilung Eine zweidimensionale Normalverteilung Eine zweidimensionale stetige Rechteckverteilung Eine zweidimensionale diskrete Rechteckverteilung Eine eindimensionale stetige Verteilung (1 Punkt) 6 Herbst 1999 – Aufgabe 4 a2) Geben sie den Wert dieser Dichtefunktion für einen Punkt (X,Y) mit: 0 ≤ x ≤ 50 , 0 ≤ y ≤ 10 an. f (x,y) = .,... (2 Punkte) a3) Franziska sucht den Ohrring auf den letzten 10 Metern der 2 Meter breiten Bahn, in welcher sie zuletzt geschwommen ist (der Bereich, in dem sie sucht, ist in der Abbildung schraffiert dargestellt). Wie gross ist die Wahrscheinlichkeit, dass sie den Ring dort findet? P ( 40 ≤ x ≤ 50, 6 ≤ y ≤ 8) = .,... (3 Punkte) Platz für Nebenberechnungen 7 Herbst 1999 – Aufgabe 4 b) Franziska hat den Ring nicht mehr gefunden und will sich daher neue Ohrringe kaufen. Eine Verkäuferin bietet ihr die Modelle A und B an und weist sie auf folgende, aus Erfahrung bekannten Wahrscheinlichkeiten hin: • Die Wahrscheinlichkeit, dass eine Kundin das Modell A kauft, beträgt 50%. • Erwirbt eine Kundin das Modell A, so kauft sie mit einer Wahrscheinlichkeit von 80% auch noch das Modell B. • Mit einer Wahrscheinlichkeit von 30% kauft eine Kundin keines der beiden Modelle. Arbeitstabelle: A 0 B 1 0 1 Erklärung der Symbolik: Zufallsvariable A : A = 0 : Modell A wird nicht gekauft A = 1 : Modell A wird gekauft Zufallsvariable B : B = 0 : Modell B wird nicht gekauft B = 1 : Modell B wird gekauft b1) Wie gross ist die Wahrscheinlichkeit, dass Franziska das Modell B kauft? P (B=1) = .,... (3 Punkte) b2) Angenommen Franziska kauft das Modell B. Mit welcher Wahrscheinlichkeit wird sie dann auch das Modell A kaufen? P (A=1|B=1) = .,... (3 Punkte) 8 Herbst 1999 – Aufgabe 4 b3) Wie gross sind der Erwartungswert für den Kauf von A und die Varianz für den Kauf von B? E(A) = ..,.. V(B) = ..,.. (4 Punkte) b4) Was lässt sich über die Zufallsvariablen A und B bezüglich stochastischer Abhängigkeit bzw. Unabhängigkeit sagen? (Ergänzen Sie!) A und B sind voneinander (2 Punkte) b5) Überprüfen Sie die folgenden Aussagen auf ihre Richtigkeit. Bitte zutreffende Antwort(en) ankreuzen. Sind zwei Zufallsvariablen (ZV) stochastisch unabhängig, so ist ihre Kovarianz immer gleich Null. Ist die Kovarianz zweier ZV Null, dann sind diese immer stochastisch unabhängig. Ist die Kovarianz zweier ZV ungleich Null, so sind diese immer stochastisch abhängig. Sind zwei ZV zweidimensional normalverteilt, gelten folgende Aussagen: Ist ihre Kovarianz Null, so sind sie stochastisch unabhängig. Sind sie stochastisch unabhängig, so ist ihre Kovarianz Null. (2 Punkte) Platz für Nebenberechnungen 9 Aufgabe 5 a) Besorgt über die steigende Anzahl von angefahrenen Fussgängern auf Fussgängerstreifen, hat die Stadtpolizei Zürich eine Untersuchung beauftragt. Während 50 Wochen wurde die Häufigkeit von Unfällen auf Fussgängerstreifen erhoben. Es ergab sich folgende empirische Häufigkeitsverteilung. Die Zufallsvariable X sei die Anzahl der Unfälle pro Woche auf Fussgängerstreifen. Anzahl Wochen fi 19 20 18 16 14 13 12 10 9 8 6 6 4 2 2 1 0 0 0 1 2 3 4 >5 5 Anzahl Unfälle pro Woche xi a1) Wie viele Unfälle haben sich während des Betrachtungszeitraumes insgesamt ereignet? Anzahl der Unfälle: ... (1 Punkt) b) Man nimmt an, dass die Anzahl der Unfälle auf Fussgängerstreifen, die sich innerhalb einer Woche ereignen, einer Poissonverteilung mit λ = 1,6 folgt. Überprüfen Sie diese Annahme mit Hilfe des Chiquadrat-Anpassungstests. Die zu testenden Hypothesen lauten: H0 : die Beobachtungen entstammen einer P(1,6)-Verteilung HA : die Beobachtungen enstammen einer anderenVerteilung b1) Wie gross ist unter H0 die Wahrscheinlichkeit, dass in einer Woche mehr als zwei Unfälle an Fussgängerstreifen beobachtet werden. P(X > 2) = .,.... (3 Punkte) 10 Herbst 1999 – Aufgabe 5 b2) Wieviele Klassen legen Sie diesem Test zugrunde? Fassen Sie hierzu, falls nötig, Klassen zusammen. Anzahl Klassen: ... (2 Punkte) b3) Wie viele Freiheitsgrade besitzt die (approximative) Verteilung der Prüfgröße ? Anzahl der Freiheitsgrade: ... (2 Punkte) b4) Wie lautet der kritische Wert zum Niveau α = 0,1 ? Kritischer Wert: ..,.. (3 Punkte) b5) Berechnen Sie für diesen Test den Wert der Prüfgröße ohne Yates-Korrektur und geben Sie an, ob die Nullhypothese abzulehnen ist oder nicht. Prüfgröße = ..,... H0 wird abgelehnt H0 wird nicht abgelehnt (4 Punkte) Arbeitstabelle 11 Herbst 1999 – Aufgabe 5 c) Eine Versicherung geht bei der Berechnung der Versicherungsprämien davon aus, dass sich die Kosten eines Autounfalls (Y) durch eine Zufallsvariable mit Erwartungswert _ Y = 13'000.- Fr. und einer Standardabweichung _Y = 5'000.- Fr. beschreiben lassen und dass Autounfälle stochastisch unabhängig voneinander passieren. c1) Wie ist die Summe der Kosten von 100 Autounfällen approximativ verteilt? Geben Sie das Verteilungssymbol und die zahlenmässig konkretisierten Parameter in Fr. an. 100 Yi ∑ i =1 = app. (3 Punkte) c2) Bestimmen Sie unter Verwendung von c1) das 95%-Prognoseintervall für diese Summe. (Geben Sie die Werte in Mio. Fr. an) P ( . . , . . . Mio. Fr ≤ 100 Yi ∑ i =1 ≤ . . , . . . Mio. Fr) = 0,95 (2 Punkte) Platz für Nebenberechnungen 12 Herbst 1999 -Lösungen Herbst 1999-Lösungen Aufgabe 1 1. 2. 3. 4. 5. richtig falsch falsch richtig richtig 6. 7. 8. 9. 10. richtig falsch falsch falsch richtig 11. 12. 13. 14. 15. falsch richtig falsch falsch falsch 16. 17. 18. 19. 20. falsch falsch falsch richtig richtig Aufgabe 2 a2) xMe = 3.0 yMe = 4.0 IQx = 1.0 a3) Cov(X,Y) = -0.648 b1) a0 = 6.500 b = -0.679 r2 = 0.593 a1) b2) 59.3% der totalen Varianz des Regressanden wird durch die Regressionsgerade erklärt. c1) Modus; Median. c2) rs = 0.971 Es handelt sich um einen (sehr) starken positiven (monotonen) Zusammenhang zwischen X und Y. Aufgabe 3 1. 2. 3. 4. 5. richtig falsch richtig falsch richtig 6. 7. 8. 9. 10. falsch falsch falsch falsch richtig 11. 12. 13. 14. 15. richtig falsch falsch richtig falsch b3) E(A) = 0.50 V(B) = 0.24 A und B sind voneinander stochastisch abhängig. Die Antworten 1, 3 und 4 sind richtig. 16. 17. 18. 19. 20. falsch falsch richtig richtig falsch Aufgabe 4 a1) a2) a3) b1) b2) Eine zweidimensionale stetige Rechteckverteilung. f(x,y) = 0.002. = 0.040 P(B=1) = 0.600 P(A=1 | B=1) = 0.667 b4) b5) Aufgabe 5 a1) b1) b2) b3) Anzahl der Unfälle: 76 P(X >2) = 0.2166 4 Klassen 3 Freiheitsgrade b4) b5) c1) 100 c2) P(1.202 Mio. Fr. ≤ ∑ Y ≤ 1.398 Mio. Fr. ) = 0.95 i i =1 13 krit. Wert: 6.25 Prüfgrösse = 0.931 H0 wird nicht abgelehnt. N(1'300'000; 2'500'000'000) Name, Vorname : Prüfungsnummer : _______________________________ _________________ Statistisches Seminar der Universität Zürich Prof. Dr. H.W. Brachinger Vorprüfung in Statistik 14. März 2000 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : Frühjahr 2000 – Aufgabe 3 Aufgabe 1 Richtig 1 Sind die logarithmierten, unkorrigierten Saisonfaktoren eines multiplikativen Zeitreihenmodells alle gleich null, so liegt kein Saisoneffekt vor. 2 Die Kovarianz und der Korrelationskoeffizient nach Bravais-Pearson besitzen stets das gleiche Vorzeichen. 3 Der Korrelationskoeffizient nach Bravais-Pearson ist eine normierte Grösse. 4 Der Herfindahlkoeffizient berechnet sich aus dem Produkt aller quadrierten Merkmalsanteile. Ist von N Unternehmungen der Herfindahlkoeffizient HK = 1 N , so beträgt die Standardabweichung der Marktanteile 0. Fusionieren die beiden einzigen Anbieter einer Branche zu einem Monopolisten, so entsteht innerhalb dieser Branche eine maximale absolute Konzentration. Das geometrische Mittel der Preisindizes nach Paasche und Laspeyres multipliziert mit dem geometrischen Mittel der Mengenindizes nach Paasche und Laspeyres ergibt den Wertindex. Aus dem Median und der Spannweite lassen sich die Extremwerte (Maximum und Minimum) einer Häufigkeitsverteilung berechnen. Die Differenz zwischen dem 3. Quartil und dem 1. Quartil einer Häufigkeitsverteilung wird Interquartilsabstand genannt. Vergrössert sich das nominale Bruttosozialprodukt innerhalb von 2 Jahren mit dem Faktor 4, so beträgt die durchschnittliche jährliche Wachstumsrate +100%. 5 6 7 8 9 10 11 Median, 1. Quartil, Maximum und Minimum sind Quantile. 12 Aus der Konzentrationsrate CR3 = 0,9 folgt, dass die drei grössten Merkmalsträger einen Anteil an der Merkmalssumme von 90% haben und dass CR2 mindestens 0,6 beträgt. Ein exponentielles Wachstum y = f(t) = at zeigt sich bei einer logarithmisch skalierten Ordinate y als lineares Wachstum. 14 Der Steigungsparameter b nach der Methode der kleinsten Quadrate ergibt den gleichen Wert, wenn man Regressor und Regressand vertauscht. 15 Kommen bei einer Häufigkeitsverteilung zusätzliche Beobachtungen hinzu, vergrössert sich die Spannweite und die Varianz. 13 16 Aus nominal skalierten Werten kann keine Standardabweichung berechnet werden. 17 Aus einem Box-Plot lassen sich Aussagen über die Symmetrieeigenschaften einer Häufigkeitsverteilung ableiten. 18 Für k ∈ R gilt: Cov( k ⋅ X,Y) = k ⋅ Cov( X,Y) = k ⋅ Cov(Y, X ) . 19 Eine 800m-Läuferin hat die erste Runde in 65 Sekunden und die zweite in 60 Sekunden zurückgelegt. Ihre Durchschnittsgeschwindigkeit betrug demnach 6, 4 Meter Sekunde . 20 Das arithmetische Mittel von a, b ∈ R + ist kleiner oder gleich dem geometrischen Mittel. 2 Falsch Herbst 1999 – Aufgabe 2 Aufgabe 2 a) Ein Unternehmen der Textilbranche weist für die Jahre 1996 bis 1999 folgende Quartals-umsätze (in Mio. Fr.) auf: Jahr 1996 1997 1998 1999 I 7,5 15,8 20,4 24,5 II 14,2 24,3 31,9 30,9 III 18,6 28,9 34,1 36,9 IV 26,3 35,2 40,8 43,5 Quartal a1) Der Trend dieser Umsatzwerte soll mit Hilfe der Methode des gleitenden Durchschnitts ermittelt werden. Dieser ist für die gegebenenen Werte zweckmässigerweise -gliedrig. (1 Punkt) a2) Mit welcher anderen Methode könnte der Trend der Zeitreihe auch ermittelt werden? (1 Punkt) b) Für die obigen Umsatzzahlen werden die Trendwerte ermittelt. Jahr 1996 1997 1998 1999 I --- 22,5375 29,7500 32,9250 II --- 24,9375 31,1000 33,6125 III 17,6875 ..,.... 32,3125 --- IV 19,9875 28,1500 32,7000 --- Quartal b1) Ergänzen Sie den fehlenden Trendwert nach der Methode des gleitenden Durchschnitts. (3 Punkte) 3 Herbst 1999 – Aufgabe 2 b2) Geben Sie für das Quartal IV den unkorrigierten Saisonkoeffizienten an. Unterstellen Sie dabei ein additives Zeitreihenmodell der Form: Y = G + S + I . Sq4 = ..,... (3 Punkte) c) Ein anderes Unternehmen der gleichen Branche, welches Anzüge, Kostüme sowie Mäntel herstellt, weist folgende Zahlen für die beiden Jahre 1994 und 1999 aus: Jahr 1994 Preis pro Einheit Umsatz (in Mio. Fr.) Verkaufte Einheiten (in 1000) 1999 Preis pro Einheit Umsatz (in Mio. Fr.) Sparte Verkaufte Einheiten (in 1000) Anzüge 45 450 20,25 40 480 19,2 Kostüme 27 460 12,42 32 450 14,4 Mäntel 52 380 19,76 55 400 22,0 Gesamt 52,43 55,6 c1) Wie hoch ist die nominale Umsatzveränderung von 1994 bis 1999 in Fr. ? ..,.. in Mio Fr. (1 Punkt) c2) Wie hoch ist die reale Umsatzsteigerung von 1994 bis 1999 in % des Umsatzes von 1994, wenn der Konsumentenpreisindex 1994 bei 101,0 und 1999 bei 104,8 lag? ..,.. % (2 Punkte) Platz für Nebenberechnungen 4 Herbst 1999 – Aufgabe 2 c3) Berechnen Sie für die im Jahre 1999 verkauften Einheiten einen geeigneten Index zur Basis 1994. Verwenden Sie zur Gewichtung die Preise von 1999. Geben Sie Namen und Wert dieses Index an. -Index nach Indexstand1999= ...,.. % (4 Punkte) d) Der Landesindex der Konsumentenpreise (KPI) hat sich von 1992 bis 1997 folgendermassen entwikkelt: Jahr Dez. 1992 Dez. 1993 Dez. 1994 Indexstand in % 98,0 100,4 100,8 Dez. 1995 Dez. 1996 Dez. 1997 102,8 103,6 104,0 d1) Wie gross war die durchschnittliche jährliche Teuerung in % von Dez. 1992 bis Dez. 1997? % ..,.. (3 Punkte) d2) Der KPI-Anstieg vom Wert 98,0 (Dez. 1992) auf 104,0 (Dez. 1997) bedeutet eine Kaufkraftveränderung in % von: ..,.. % (2 Punkte) Platz für Nebenberechnungen 5 Frühjahr 2000 – Aufgabe 3 Aufgabe 3 Richtig 1 Strebt bei einem Hypothesentest bzgl. des Erwartungswertes einer Normalverteilung mit bekannter Varianz µA gegen µ0, so strebt der β-Fehler gegen 1- α. 2 Die Kovarianz der M(n; π1; π2) 3 Bei einem Hypothesentest bedeutet ein Signifikanzniveau von α = 0,1, dass mit einer Wahrscheinlichkeit von 10% eine falsche Entscheidung gefällt wird. 4 Die Varianz der Anteilsvariablen nimmt mit steigender Stichprobengrösse n ab. 5 Sei X stetig rechteckverteilt im Intervall [2; 4] dann gilt: P(X < 3,5) < P(X ≤ 3,5). 6 Aus P(A) = 0,7 und P(B) = 0,8 folgt, dass 0,5 ≤ P(A ∩ B) ≤ 0,7. 7 Mit zunehmendem Freiheitsgrad ν nähert sich die symmetrisch um den Wert 0 verteilte T-Variable einer Standardnormalverteilung an. Bei einer linearen Mehrfachregression nach der KQ-Methode entspricht der multiple Determinationskoeffizient dem Quadrat des multiplen Korrelationskoeffizienten. Bei einem Chiquadrat-Anpassungstest wird die Null-Hypothese ceteris paribus umso eher verworfen, je weniger Klassen dem Test zugrunde gelegt werden. Eine Klumpenstichprobe ist umso genauer, je unterschiedlicher die Klumpen in der Grundgesamtheit untereinander sind. Beim einmaligen Werfen eines fairen Würfels sind die Ereignisse „Die Augenzahl ist gerade“ und „Die Augenzahl ist ungerade“ stochastisch unabhängig. 8 9 10 11 12 mit 0 < π1 ≤ π2 < 1 ist stets kleiner als null. Ist X standardnormalverteilt, so gilt V(-X) = 1. 13 Zur Durchführung von Hypothesentest bei linearen Regressionsmodellen müssen immer mehr Beobachtungsdaten vorliegen als die Anzahl der zu schätzenden Parameter. 14 Sind X1 und X2 zwei unabhängige standardnormalverteilte Zufallsvariablen, so ist ihre Summe X1 + X2 ebenfalls eine standardnormalverteilte ZV. 15 Die erwartete Anzahl von Erfolgen ist beim Ziehen ohne Zurücklegen ceteris paribus kleiner als beim Ziehen mit Zurücklegen. 16 Die Trennschärfe eines Hypothesentests wird ceteris paribus durch die Verringerung des α-Fehlers gesteigert. 17 n In einem n-Eck gibt es − n verschiedene Diagonalen. 2 18 Das Vertrauensintervall für den Parameter σ2 liegt symmetrisch um den erwar- tungstreuen Punktschätzer ŝ 2 . 19 Im klassischen Modell der linearen Mehrfachregression sind die Kovarianzen Cov ε i , ε j zwischen den Störvariablen für i ≠ j stets null. ( 20 ) In einer Urne befinden sich 6 rote und 3 schwarze Kugeln. Die Wahrscheinlichkeit, dass beim zweimaligen Ziehen ohne Zurücklegen zwei schwarze Kugeln gezogen werden, beträgt 112 . 6 Falsch Frühjahr 2000 – Aufgabe 4 Aufgabe 4 a) Kreuzen Sie von den folgenden Funktionen diejenigen an, die Verteilungsfunktionen einer Zufallsvariablen sind. F( x ) = F( x ) = F( x ) = F(x)= F(x)= F(x)= +∞ ∫ 1 2π 2 −x 2 e dx −∞ x ∫ 1 2π 2 −t 2 e dt −∞ x ∫ 1 2 2π 2 −t 8 e dt −∞ für x < 0 0 1 für x > 2 0 für x < 0 1 für x > 1 0 für x < 0 1 4 1 4 1 4 1 4 x x x 2 2 2 für 0 ≤ x ≤ 2 für 0 ≤ x ≤ 1 für 0 ≤ x ≤ 1 für x > 1 (6 Punkte) 7 Frühjahr 2000 – Aufgabe 4 b) Der Oekonomiestudent H. aus B. nimmt am Zürcher Hauptbahnhof täglich die Stassenbahn zur Universität. Er überlässt es stets dem Zufall, wie lange er auf eine der im 7-Minuten Takt fahrenden Strassenbahn warten muss. Die Wartezeit T bis zur nächsten ankommenden Strassenbahn zur Universität ist, modeliert betrachtet, stetig rechteckverteilt auf dem Intervall [0; 7]. b1) Geben Sie die Verteilungsfunktion F(x) von T an. für x < 0 F(x)= für 0 ≤ x ≤ 7 für x > 7 (3 Punkte) b2) Geben Sie folgenden Grössen an: P (T ≤ 2 ) = ..,.. % E (T ) = ..,... 3. Quartil von T = ..,... (4 Punkte) b3) Berechnen Sie die Varianz von T: V (T ) = ..,... (3 Punkte) Platz für Nebenberechnungen 8 Frühjahr 2000 – Aufgabe 4 b4) Der Ökonomiestudent H. wartet bereits seit 2 Minuten auf die Strassenbahn zur Universität. Geben Sie die Wahrscheinlichkeit an, dass das Tram innerhalb der nächsten beiden Minuten ankommt: Ergebnis = ..,.. % (2 Punkte) Geben Sie die erwartete restliche Wartezeit bis zur Ankunft der nächsten Strassenbahn an: Ergebnis = .. Minuten .. Sekunden (2 Punkte) Platz für Nebenberechnungen 9 Frühjahr 2000 – Aufgabe 5 Aufgabe 5 a) Beim diesjährigen Silvesterlauf in Zürich wurde aus dem Feld der Volksläufer eine Stichprobe von 20 Personen zufällig gezogen. Anhand dieser Stichprobe wurde untersucht, wie sich die jährliche Trainingleistung der Läufer auf ihre Laufzeit am Silvesterlauf auswirkt. Die Variable Y bezeichne die Laufzeit pro Kilometer (in Sek.) eines Läufers am Silvesterlauf. Die Variable X bezeichnet die zurückgelegte Trainingsstrecke (in 100 km) eines Läufers innerhalb des letzten Jahres. Das Streuungsdiagramm der erhobenen Daten ist unten aufgeführt. Y Sek. 250 * * 240 * * * 230 * * 220 210 * * * * * * 200 * 190 * * * * 180 0 1 2 4 3 5 6 7 8 9 10 11 12 13 * 14 * 15 X 16 in 100 km Aus den Stichprobedaten lassen sich folgende Grössen ermitteln : 20 ∑ XiYi = 33' 715 ; i =1 20 Xi 2 = 1' 914, 63 ∑ i =1 ; X = 8, 349 ; Y = 213, 6 a1) Geben Sie nach der Methode der kleinsten Quadrate Punktschätzungen für die Parameter der Regressionsgeraden ∆ Y = α 0 + βX an. α̂ 0 = β̂ = ...,.. ..,.. (3 Punkte) a2) Tragen Sie die unter a1) berechnete Regressionsgerade in das Streuungsdiagramm ein. (1 Punkt) 10 Frühjahr 2000 – Aufgabe 5 b) Im Vorjahr wurde am Silversterlauf aus einer gleich grossen Stichprobe für die unter a1) genannte Regressionsgerade folgende Schätzung ermittelt: Yˆ = 236, 7 − 3,1X Zusätzlich sind noch folgende Angaben bekannt: ∑ (Y − Yˆ ) 20 ( Xi − X ) ∑ i =1 20 (Yi − Y ) ∑ i =1 20 2 2 = 524, 4 = 9' 050 ; X = 8, 625 ; ( ∑ i =1 20 Yi − Yˆi ) 2 = 4' 030 i ; σˆ ε2 = ; Yˆi − Y ) ( ∑ i =1 20 i =1 2 i n−2 2 = 223, 89 = 5' 020 b1) Welcher Anteil der Totalvarianz von Y wird durch die Regressionsgerade unter b) erklärt ? Anteil: ..,.. % (2 Punkte) b2) Geben Sie eine erwartungstreue Punktschätzung für die Varianz σ β̂2 des Schätzers β̂ an. σˆ β2ˆ = ..,... (2 Punkte) Platz für Nebenberechnungen 11 Frühjahr 2000 – Aufgabe 5 c) Überprüfen Sie für die Ergebnisse unter b), ob die jährliche Trainingsstrecke einen signifikanten (α = 0,01) Einfluss auf die durchschnittliche Kilometerzeit ausübt. Unterstellen sie das folgende linksseitige Testproblem: H0 : β = 0 gegen HA : β < 0 Die Störgrössen des Regressionsmodells erfüllen die klassischen Voraussetzungen. c1) Wie lautet für dieses Testproblem der kritische Wert der Test-Verteilung zum Niveau α = 0,01 ? Kritischer Wert: ..,... (2 Punkte) c2) Berechnen Sie für dieses Testproblem den Wert der Prüfgröße und geben Sie an, ob die Nullhypothese abzulehnen ist oder nicht. Prüfgröße = ..,... H0 wird abgelehnt H0 wird nicht abgelehnt (4 Punkte) Platz für Nebenberechnungen 12 Frühjahr 2000 – Aufgabe 5 d) Die unter b) geschätzte Regressionsgerade soll nun für Prognosezwecke verwendet werden. d1) Welche Kilometerzeit in Sekunden kann man von Volksläufern im Durchschnitt erwarten, wenn sie eine jährliche Trainingsstrecke von insgesamt 1'000 km absolviert haben? Ergebnis: ...,. Sek. (2 Punkte) d2) Das 95%-Vertrauensintervall für die erwartete durchschnittliche Kilometerzeit ∆ Y * , die man bei einer jährlichen Trainingsleistung von 1'000 km (X* = 10) erwarten kann, beträgt in diesem Fall (auf Sek. gerundet): [ 198 Sek. ; 213 Sek.] Im Vergleich zu diesem Intervall ist (kreuzen Sie zutreffendes an) ... länger kürzer ohne zusätzl. Angaben keine Aussage möglich ... das entsprechende 99%-Vertrauensintervall ... das entsprechende 95%-Prognoseintervall für den individuellen Wert ... das entsprechende 95%-Vertrauensintervall bei einer jährlichen Trainingsleistung von 900 km ... das entsprechende 95%-Vertrauensintervall einer anderen, aber grösseren Stichprobe (4 Punkte) Platz für Nebenberechnungen 13 Frühjahr 2000 -Lösungen Frühjahr 2000-Lösungen Aufgabe 1 1. 2. 3. 4. 5. richtig richtig richtig falsch richtig 6. 7. 8. 9. 10. richtig richtig falsch richtig richtig 11. 12. 13. 14. 15. richtig richtig richtig falsch falsch c3) Mengenindex nach Paasche 16. 17. 18. 19. 20. richtig richtig richtig richtig falsch Aufgabe 2 a1) a2) b1) b2) 4 -gliedrig K-Q-Methode 26,6250 sq4 = 7,154 c1) 3,17 Mio. Fr. c2) +2,20 % Indexstand1999 = 101,92% d1) +1,20 % d2) -5,77 % 11. 12. 13. 14. 15. falsch richtig richtig falsch falsch b2) P(T ≤ 3) = 42,86% E(T) = 3,500 3. Quartil von T = 5,250 V(T) = 4,083 Ergebnis = 40,00% Ergebnis = 2 Minuten 30 Sekunden Aufgabe 3 1. 2. 3. 4. 5. richtig richtig falsch richtig falsch 6. 7. 8. 9. 10. richtig richtig richtig falsch falsch 16. 17. 18. 19. 20. falsch richtig falsch richtig richtig Aufgabe 4 a) Die zweite, dritte und vierte Funktion sind Verteilungsfunktionen stetiger ZV. b1) F(x) = 0 1/7 x 1 für x < 0 für 0 ≤ x ≤ 7 für x > 7 b3) b4) Aufgabe 5 a1) α̂ 0 = 244,91 b1) b2) β̂ = -3,75 Anteil = 55,47 % σˆ β2ˆ = 0,427 c1) c2) d1) d2) ...das entsprechende 95%-PI für den ind. Wert ist länger ...das entsprechende 95%-VI bei einer jährl. Trainingsleistung von 900 km ist kürzer ...das entsprechende 95%-VI einer anderen, aber grösseren Stichprobe ... ohne zusätzl. Angaben keine Aussage möglich kritischer Wert: -2,552 Prüfgrösse = -4,744 H0 wird abgelehnt. Ergebnis = 205,7 Sek. ...das entsprechende 99%-VI ist länger 14 Name, Vorname : Prüfungsnummer : _______________________________ _________________ Statistisches Seminar der Universität Zürich Prof. Dr. H.W. Brachinger Vorprüfung in Statistik 27. September 2000 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : Herbst 2000 – Aufgabe 1 Aufgabe 1 Richtig Falsch 1 Der Modus einer unimodalen und nicht in Klassen vorliegenden Häufigkeitsverteilung fällt immer auf eine Ausprägung des Merkmals. 2 Das arithmetische Mittel logarithmierter Beobachtungen ist gleich dem geometrischen Mittel der Ausgangsgrössen. 3 Der Korrelationskoeffizient ryx von Y mit X ist identisch mit dem Korrelationskoeffizienten rxy von X mit Y. 4 Damit eine Häufigkeitsverteilung in Klassen unterteilt werden kann, müssen die Merkmalswerte metrisch skaliert sein. 5 Im einfachen linearen Regressionsmodell ist die Summe aller nach der KQ-Methode bestimmten Residuen stets gleich null. 6 Bei einer klassierten Häufigkeitsverteilung mit offener Flügelklasse ist die Berechnung des Medians nicht möglich. 7 Zur Charakterisierung der Lage der Beobachtungen eines nominalskalierten Merkmals ist weder Median noch Modus zulässig. 8 Werden die Beobachtungswerte einer Zeitreihe trendbereinigt, so können die bereinigten Werte noch Saisonschwankungen beinhalten. 9 Es ist möglich, dass durch die Übersiedlung eines Bürgers in eine Nachbargemeinde in beiden Gemeinden das Durchschnittsalter steigt. 10 Je grösser die Fläche zwischen Lorenzkurve und Hauptdiagonale, desto grösser ist die relative Konzentration. 11 Wenn der Mengenindex nach Fisher grösser ist als der Mengenindex nach Laspeyres, so ist der Mengenindex nach Paasche grösser als der von Fisher. 12 Bei einer egalitären Verteilung eines Merkmals ist der Herfindahlkoeffizient HK gleich null. 13 Die Spannweite eines Merkmals ist stets grösser oder gleich dem Interquartilsabstand. 14 Die Jahresteuerungsrate kann für einen bestimmten Monat negativ sein, obwohl der Indexstand gegenüber dem Vormonat gestiegen ist. 15 Ein Vertauschen von Regressor und Regressand verändert nicht das Vorzeichen der Steigung der Regressionsgeraden nach der KQ-Methode. 16 Besitzen zwei Datenreihen den gleichen Variationskoeffizienten, so bedeutet dies, dass ihre Standardabweichungen identisch sind. 17 Sind im multiplikativen Zeitreihenmodell die zyklische Komponente und die glatte Komponente identisch, so ist die irreguläre Komponente gleich eins. 18 Beim linearisierten Ansatz der Exponentialregression ergibt sich ein linearer Zusammenhang zwischen dem Logarithmus von X und dem Logarithmus von Y. 19 Der Korrelationskoeffizient rs nach Spearman ist ein Mass für den linearen Zusammenhang zwischen zwei ordinalskalierten Variablen. 20 Die Stamm- und Blatt-Darstellung ist ein Verfahren zur Visualisierung der Häufigkeitsverteilung von metrisch skalierten Daten. 1 Herbst 2000 – Aufgabe 2 Aufgabe 2 a) Die mittelgrosse Pharmazieunternehmung Xenica beschäftigt 250 Mitarbeiter. Die klassierte Häufigkeitsverteilung der Monatslöhne per 31. Juli 2000 ist in der untenstehenden Tabelle aufgeführt: Anzahl Beschäftige Arbeitstabelle fi Lohnklasse i Monatslohn in CHF pro Mitarbeiter xi 1 von 2‘500 bis unter 4‘500 30 2 von 4'500 bis unter 6‘500 100 3 von 6'500 bis unter 10‘000 50 4 von 10'000 bis unter 15‘000 45 5 von 15'000 bis unter 30‘000 25 ∑ 250 a1) Berechnen Sie den durchschnittlichen Monatslohn x und den monatlichen Medianlohn x Me per 31. Juli 2000. Unterstellen Sie dabei innerhalb jeder Lohnklasse Gleichverteilung der Löhne (Runden Sie auf ganze Franken). monatlicher Durchschnittslohn x = monatlicher Medianlohn x Me = ..... ..... CHF CHF (2 Punkte) Platz für Nebenberechnungen 2 Herbst 2000 – Aufgabe 2 a2) Die Geschäftsleitung von Xenica entschliesst sich auf Grund des guten Geschäftsverlaufs, allen Beschäftigten eine 5%-ige Lohnerhöhung sowie zusätzlich einen monatlichen Bonus von CHF 100.- auszuzahlen. Welche Auswirkung hat diese Lohnveränderung auf die folgenden statistischen Kennzahlen, die jeweils auf den 250 Einzellöhnen basieren? Vorher Nach der Lohnveränderung Monatliche Lohnsumme 2‘192‘500 CHF Variationskoeffizient der Monatslöhne 61,4 % Interquartilsabstand der Monatslöhne 7‘000 CHF .. . . . . . ..,. ..... CHF % CHF (6 Punkte) Platz für Nebenberechnungen 3 Herbst 2000 – Aufgabe 2 b) Die Pharmazieunternehmung Xenica testet ein neues Schmerzmittel. Im Rahmen einer Stichprobenuntersuchung an n=30 Probanden wird der Zusammenhang zwischen der verabreichten Menge des Schmerzmittels (in mg) und seiner Wirkungsdauer (in h) untersucht. Die untenstehende Tabelle stellt einen Auszug aus den Ergebnissen dar. 1 2 3 K 30 Verabreichte Menge in mg Xi 10,5 10,5 11,0 K 25,0 Wirkungsdauer in h Yi 3,0 3,5 3,2 K 6,5 Proband Nr. Aus dieser Tabelle wurden folgende Zwischenresultate ermittelt: 30 30 ∑ ( Xi − X ) = 561, 875 2 ; i =1 (Y − Y ) ∑ i =1 2 i = 34,100 30 ( X − X ) ⋅ (Y − Y ) = 131, 500 . ∑ i =1 i i b1) Berechnen Sie den Korrelationskoeffizienten nach Bravais-Pearson rxy. rxy = .,... (3 Punkte) b2) Der Laborant, der die Testserie durchgeführt hat, merkt, dass die Waage falsch geeicht war und daher das Gewicht aller verabreichten Mengen um 2 mg überschätzt wurde. Wie verändert sich der Korrelationskoeffizienten nach Bravais-Pearson r xy , wenn die Werte aller verabreichten Mengen um 2 mg reduziert werden? rxy bleibt unverändert rxy erhöht sich rxy nimmt ab (2 Punkte) Platz für Nebenberechnungen 4 Herbst 2000 – Aufgabe 2 c) Xenica erwirtschaftet im Medikamentenbereich einen Jahresumsatz von 50 Mio. CHF. Ihr Marktanteil im Medikamentenbereich beträgt damit auf dem Heimmarkt, auf dem insgesamt 4 Anbieter auftreten, 5%. Die einzelnen Anbieter weisen folgende Marktanteile auf: Untern. A: 50% Untern. B: 35% Untern. C: 10% Xenica: 5% c1) Berechnen Sie als Kennzahl für die absolute Konzentration auf diesem Markt den Herfindahl-Koeffizienten HK. HK = .,... (2 Punkte) c2) Die Unternehmensleitung von Xenica schätzt, dass das gesamte Marktvolumen innerhalb der nächsten 3 Jahre insgesamt um 15% zunehmen wird. Die Unternehmensleitung setzt sich zum Ziel, dass Xenica in dieser Zeit ihren Marktanteil auf 10% erhöht. Wie gross muss das durchschnittliche jährliche Umsatzwachstum von Xenica im Medikamentenbereich sein, damit dieses Absatzziel erreicht wird? durchschnittliches jährliches Umsatzwachstum = ..,.. % (3 Punkte) c3) Wie verändert sich sich die relative Konzentration auf diesem Markt, falls Xenica ihr Ziel erreicht und ihren Marktanteil auf 10% steigern kann und zwar zu Lasten der Unternehmung B? (Die Marktanteile von A und C bleiben unverändert.) die relative Konzentration nimmt zu die relative Konzentration nimmt ab die relative Konzentration bleibt unverändert ohne Zusatzinformationen kann keine Aussage über die Veränderung der relativen Konzentration gemacht werden (2 Punkte) Platz für Nebenberechnungen 5 Herbst 2000 – Aufgabe 3 Aufgabe 3 Richtig Falsch 1 Am Verlauf einer Verteilungsfunktion lässt sich die Art der zugehörigen Zufallsvariablen erkennen. 2 Aus P(B|A) = P(B) folgt stets P(A|B) = P(A), falls P(A) . P(B) ≠ 0 gilt. 3 Jede Schätzfunktion ist ein erwartungstreuer Schätzer für ihren eigenen Erwartungswert. Der Variationskoeffizient einer Chiquadratverteilung mit 200 Freiheitsgraden beträgt 10%. Beim Chiquadrat-Anpassungstest ist es immer notwendig, unterschiedlich breite Klassen zu wählen, damit die theoretische Mindestbesetzung pro Klasse gewährleistet werden kann. Beim Regressionsmodell Y = β 0 + β1 X1 + β2 X2 + β3 X3 + ε soll die Hypothese (H0: βj = 0) bei einem Signifikanzniveau von 10% anhand 15 Beobachtungen getestet werden. Die dabei zu verwendenen Quantile der T-Verteilung lauten -1,796 und +1,796. Beim Hypothesentest ist die Wahrscheinlichkeit für einen Fehler 1. Art genau dann bekannt, wenn die Nullhypothese zutrifft. Eine hypergeometrisch verteilte Zufallsvariable folgt approximativ einer Binomialverteilung, falls der Stichprobenumfang im Verhältnis zur Grundgesamtheit hinreichend klein ist. Die Wahrscheinlichkeit, aus einer Urne mit 40% schwarzen und 60% weissen Kugeln bei 40maligem Ziehen einer Kugel mit Zurücklegen mindestens 22 mal eine schwarze Kugel zu ziehen, beträgt 3,92%. 4 5 6 7 8 9 10 Aus P(A) = P(B) folgt stets P(A∪B) = P(A∩B). Ein adäquates Modell zur Beschreibung der Wahrscheinlichkeitsverteilung der Zahlen des Schweizer Zahlenlottos ist die diskrete Gleichverteilung. 12 Eine beliebige Normalverteilung lässt sich durch lineare Transformation in die N(5; 1) überführen. 11 13 14 Ist X' X nicht invertierbar, können die Regressionsparameter eines linearen Regressionsmodells nach der KQ-Methode nicht eindeutig bestimmt werden. Die mittlere quadratische Abweichung S2 = 1 n ∑(X n − X ) einer Zufallsstichprobe 2 i i =1 ist ein konsistenter, aber nicht erwartungstreuer Schätzer für die Varianz der Grundgesamtheit. 15 Bei einer systematischen Entnahme jedes fünften Elements einer durchnummerierten Grundgesamtheit wird das 5. Element mit einer grösseren Wahrscheinlichkeit ausgewählt als alle anderen Elemente. 16 Die Residuenquadratsumme ist ein erwartungstreuer Schätzer für die Varianz der Störvariablen im klassischen linearen Regressionsmodell. 17 Die Maximum-Likelihood-Methode und die Methode der kleinsten Quadrate sind zwei Verfahren zur Bestimmung von Schätzfunktionen. 18 Ist (X, Y) ~ M(n; π1; π2), gilt: E( X ⋅ Y ) = E( X ) ⋅ E(Y ). Die Poisson- und die geometrische Verteilung sind Beispiele für diskrete Verteilungen mit unendlichem Wertebereich. 20 2n unterscheidbare Objekte (n > 1) können auf doppelt so viele Arten permutiert werden wie n unterscheidbare Objekte. 19 6 Herbst 2000 – Aufgabe 4 Aufgabe 4 Die Redaktion des Massenblattes BLITZ-Zeitung ist besorgt über die in Leserbriefen geäusserte sinkende Beliebtheit ihrer berühmten „Letzten Seite“. Sie beschliesst, eine repräsentative Umfrage durchzuführen, um zu überprüfen, ob dieser Beliebtheitsschwund auch in der Gesamtleserschaft gilt. Von 500 ausgewählten Leserinnen und Lesern (Ziehen ohne Zurücklegen) haben n=400 geantwortet. Die Antworten verteilen sich gemäss nachfolgender Tabelle: Mit der „Letzten Seite“ unzufrieden: 200 Mit der „Letzten Seite“ zufrieden: 150 Gleichgültig (weder, noch): 50 Antwortende insgesamt: a) 400 a1) Geben Sie einen erwartungstreuen und konsistenten Schätzer π̂ für den Anteil derjenigen in der Grundgesamtheit an, die mit der „Letzten Seite“ unzufrieden sind. π̂ = (2 Punkte) a2) Wie lautet die exakte Verteilung des obigen Schätzers π̂ ? Geben Sie den Verteilungs-typ und die zugehörigen Parametersymbole an. Exakte Verteilung von π̂ : (2 Punkte) Platz für Nebenberechnungen 7 Herbst 2000 – Aufgabe 4 b) b1) Auf Grund der Stichprobengrösse kann für die Verteilung von π̂ die Normalverteilung als Grenzverteilung angenommen werden. Unter welchen Bedingungen ist die Normalapproximation zulässig? 1. Bedingung: 2. Bedingung: (2 Punkte) b2) Wie lautet diese approximative Verteilung des Schätzers π̂ im Rahmen der Normalapproximation? Geben Sie den Verteilungstyp und die zugehörigen Parametersymbole an. Approximative Verteilung von π̂ : (2 Punkte) b3) Berechnen Sie aufgrund der Stichprobenergebnisse ein 95%-Vertrauensintervall für π . (Setzen Sie dabei den Korrekturfaktor für endliche Grundgesamtheiten gleich eins). .,... ≤ π ≤ .,... (4 Punkte) c) Die Redaktion der BLITZ-Zeitung möchte eine noch genauere Schätzung für π , die eine maximale Abweichung von +/- 2 Prozentpunkten (bei gleichbleibendem α = 0,05) aufweist. Auf welche Grösse müsste die Stichprobe mindestens angehoben werden, um die erwünschte Genauigkeit zu erlangen? (Verwenden Sie auch hier die Normalapproximation). n ≥ .... (3 Punkte) Platz für Nebenberechnungen 8 Herbst 2000 – Aufgabe 4 d) Eine frühere repräsentative Umfrage zur „Letzten Seite“ hatte ergeben, dass damals „lediglich“ 45% der Leserschaft mit der Aufmachung dieser Seite unzufrieden war. Formulieren Sie einen rechtsseitigen Hypothesentest zum Niveau α = 0,05, um zu überprüfen, ob der Anteil der Unzufriedenen angestiegen ist. d1) Geben Sie Null- und Alternativhypothese dieses Testproblems an. H0 : HA : (2 Punkte) d2) Bestimmen Sie für die vorliegende Stichprobe (n=400) den Ablehnungsbereich des obigen Testproblems zum Niveau α = 0,05 (Verwenden Sie auch hier die Normalapproximation). .,... Ablehnungsbereich : Zu welchem Ergebnis führt der Test? H0 wird abgelehnt H0 wird nicht abgelehnt (3 Punkte) Platz für Nebenberechnungen 9 Herbst 2000 – Aufgabe 5 Aufgabe 5 a) Im Rahmen einer empirischen Untersuchung soll der Einfluss von Trainings- und Materialaufwand auf die Leistung von Bobteams untersucht werden. Dazu werden für n=25 Bobteams die durchschnittliche Laufzeit Y (in Sekunden), die durchschnittlichen wöchentlichen Trainingsstunden X1 und der jährliche Materialaufwand X2 (in 1‘000 CHF) ermittelt. Bobteam i durchschnittl. Laufzeit (in Sekunden) Yi wöchentliche Trainingsstunden Xi1 Materialaufwand (in 1'000 CHF) Xi2 1 64,86 16 110 ... ... ... ... 24 66,77 5 86 25 66,87 5 100 Zunächst soll ausschliesslich die Abhängigkeit der Laufzeit vom Trainingsaufwand analysiert werden. Dazu wird das einfache lineare Regressionsmodell herangezogen: Yi = β 0 + β1 Xi 1 + ε i Auf der Grundlage der Stichprobe ergaben sich folgende Zwischenresultate: X1 = 25 ∑(X i =1 1 25 ∑ X = 8,08 25 i =1 i1 i1 − X1 ) = 449,84 2 a1) Testen Sie die Nullhypothesen Y = 25 ∑(X i1 i =1 1 25 ∑ Y = 65,7272 25 i=1 i − X1 ) ⋅ (Yi − Y ) = − 60,2344 H01: β 0 = 0 H02: β 1 = 0 Ergänzen Sie dazu die vorliegende Tabelle (Punktschätzungen und t-Werte), und kreuzen Sie anschliessend die richtige(n) Anwort(en) an. j βˆ j σˆ βˆ j t-Wert 0 ..,... ..,... 0.1704 ...,. ...,. 1 0.0187 10 Herbst 2000 – Aufgabe 5 Welche Koeffizienten des Regressionsmodells sind auf einem Niveau α = 0.05 signifikant von null verschieden? der Koeffizient β 0 ist signifikant von null verschieden der Koeffizient β 1 ist signifikant von null verschieden (8 Punkte) b) Neben dem Trainingsaufwand wird zusätzlich noch der Materialaufwand in das obige Regressionsmodell aufgenommen. Yi = β 0 + β1 Xi 1 + β 2 Xi2 + εi Y = Xβ + ε Aus den Daten sind folgende Zwischenresultate berechnet worden: (X′X ) 25 −1 1,24177 −0,01790 = −0,01790 0,00222 −0,01133 −0,00000 ∑( 25 ∑ (Yi − Y ) = 11,6795 2 i =1 i =1 −0,01133 −0,00000 0,00012 Yi − Yˆi ) 2 25 = ∑ ei2 = 3,4577 i =1 b1) Berechnen Sie den multiplen Determinationskoeffizienten r2. r2 = .,... (2 Punkte) Platz für Nebenberechnungen 11 Herbst 2000 – Aufgabe 5 b2) Für dieses erweiterte Modell sollen die Koeffizienten des Regressionsmodells auf Signifikanz getestet werden. Die Nullhypothesen lauten H01: β 0 = 0 H02: β 1 = 0 H03: β 2 = 0 Ergänzen Sie dazu den vorliegenden Auszug aus einem typischen Output eines StatistikProgrammes! j βˆ j σˆ βˆ j p-Wert 0 67,2090 0,4418 0,0000 1 -0,1339 ..,.... 0,0000 2 -0,0043 0,0043 0,3281 (3 Punkte) b3) Welche Koeffizienten sind anhand des vorliegenden Auszugs auf einem Niveau α = 0,05 signifikant von null verschieden? (Kreuzen Sie die richtige(n) Antwort(en) an). der Koeffizient β 1 ist signifikant von null verschieden der Koeffizient β 2 ist signifikant von null verschieden (2 Punkte) Platz für Nebenberechnungen 12 Herbst 2000 – Aufgabe 5 b4) Zusätzlich soll die globale Nullhypothese H 0: β 1 = β 2 = 0 mit dem F-Test überprüft werden. Bestimmen Sie den Wert der Prüfgrösse und geben Sie an, ob die Nullhypothese zum Niveau α = 0,05 abzulehnen ist. Wert der Prüfgrösse = ..,.. Kritischer Wert = ..,.. H0 wird abgelehnt H0 wird nicht abgelehnt (5 Punkte) Platz für Nebenberechnungen 13 Herbst 2000 -Lösungen Herbst 2000-Lösungen Aufgabe 1 1. 2. 3. 4. 5. richtig falsch richtig falsch richtig 6. 7. 8. 9. 10. falsch falsch richtig richtig richtig 11. 12. 13. 14. 15. richtig falsch richtig richtig richtig 16. 17. 18. 19. 20. falsch falsch falsch falsch richtig c1) HK = 0,385 c2) durchschn. jährl. Umsatzwachstum = 32,00 % c3) Die relative Konzentration nimmt ab. 11. 12. 13. 14. 15. richtig richtig richtig richtig falsch b3) 0,451 ≤ π ≤ 0,549 c) n ≥ 2401 d1) H0 : π ≤ 0,45 (bzw. π = 0,45) HA: π > 0.45 x/n bzw. a > 0,491 H0 wird abgelehnt Aufgabe 2 a1) a2) x = 8'770 CHF x Me = 5'500 CHF Nach der Lohnveränderung: Monatl. Lohnsumme = 2'327'125 CHF VK der Monatslöhne = 60,7 % IQ der Monatslöhne = 7'350 CHF b1) r xy = 0,950 b2) r xy bleibt unverändert Aufgabe 3 1. 2. 3. 4. 5. richtig richtig richtig richtig falsch 6. 7. 8. 9. 10. richtig falsch richtig richtig falsch 16. 17. 18. 19. 20. falsch richtig falsch richtig falsch Aufgabe 4 a1) a2) b1) b2) X/n bzw. A πˆ =X/n X ~ H (N; n ; π) 1. Bedingung: n ≥ 9/(π (1-π)) 2. Bedingung: n/N < 0,1 N − n π (1− π ) πˆ app = N π ; ⋅ N −1 n d2) Aufgabe 5 a1) βˆ0 = 66,809 βˆ = -0,134 1 t-Wert = 392,1 β0 und β1 sind sign. von null verschieden b1) r 2 = 0,704 b2) σˆ βˆ1 = 0,0187 b3) β1 ist sign. von null verschieden b4) Wert der Prüfgrösse = 26,16 t-Wert = -7,2 Kritischer Wert = 3,44 H0 wird abgelehnt 14 Name, Vorname : Prüfungsnummer : _______________________________ _________________ Statistisches Seminar der Universität Zürich Prof. Dr. H.W. Brachinger Vorprüfung in Statistik 20. März 2001 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : Frühjahr 2001 – Aufgabe 1 Aufgabe 1 Richtig 1 Das arithmetische Mittel von PIP und PIL ist grösser als der entsprechende PIF. 2 Standardabweichung, Spannweite und Varianz besitzen jeweils die Dimension der zugrundeliegenden statistischen Variablen. 3 Wenn der Korrelationskoeffizient nach Bravais-Pearson null beträgt, ist die Kovarianz ebenfalls null. 4 Aus der Konzentrationsrate CR5 = 100% folgt für den Herfindahl-Koeffizienten HK ≥ 0.2 5 Der Gini-Koeffizient kann kleiner sein als der Herfindahl-Koeffizient. 6 Mittels der Methode der kleinsten Quadrate soll durch eine Punktewolke mit n Beobachtungen eine Regressionsgerade gelegt werden mit der Restriktion, dass der ^ 1 n Steigungsparameter b null beträgt. Dann gilt für die Regressionsgerade Y = ∑ Yi . n i= 1 7 Wächst die Bevölkerung eines Landes jährlich um 25%, hat sie sich in genau vier Jahren verdoppelt. 8 Aus einer symmetrischen Häufigkeitsverteilung lassen sich unter Angabe des arithmetischen Mittels und des Interquartilsabstandes der Median und die Spannweite bestimmen. 9 Bei standardisierten Merkmalen sind Varianz und Standardabweichung identisch. 10 11 12 13 14 15 16 17 18 19 20 Der Rangkorrelationskoeffizient nach Spearman beträgt eins, wenn sich die Rangdifferenzen zu Null addieren. Der Trend einer Zeitreihe sei eine Potenzfunktion (geometrische Funktion). Auf halblogarithmischem Papier ist der Graph des Zeittrends eine Gerade. Beim Zeichnen eines Häufigkeitspolygons werden Klassenober- und -untergrenzen verbunden. Nach der linearen Transformation Ui = 100 + 2·Yi ist der Interquartilsabstand der neuen Variablen U doppelt so gross wie der Interquartilsabstand der Variablen Y. Wenn zwischen 1995 und 2000 die vom Durchschnittshaushalt nachgefragte Benzinmenge um 50% sank, der Preis jedoch um 100% stieg, dann sind die Haushaltsausgaben für Benzin konstant geblieben. Jede linksschiefe Häufigkeitsverteilung lässt sich durch Lineartransformation in eine rechtsschiefe überführen. Eine Investorin legt ihr Vermögen je zur Hälfte in Aktie A und Aktie B an. Nach zwei Jahren haben die Aktien einen Wertzuwachs von 19% (A) bzw. 23% (B) erzielt. Die durchschnittliche jährliche Wachstumsrate des Vermögens beträgt 10%. Ein Anstieg des Landesindexes der Konsumentenpreise um 150% bedeutet ceteris paribus einen Kaufkraftschwund von genau 60%. Mit Hilfe der Methode der kleinsten Quadrate und der Methode der gleitenden Durchschnitte kann der Trend einer Zeitreihe bestimmt werden. Aus einer empirischen Verteilungsfunktion (Ogive) kann das arithmetische Mittel der entsprechenden Häufigkeitsverteilung abgelesen werden. Mittels der erklärten Varianz e sy2 und der unerklärten Varianz usy2 kann der Korrelationskoeffizient r berechnet werden. 1 Falsch Frühjahr 2001 – Aufgabe 2 Aufgabe 2 a) Angenommen die Zuschauerzahlen (Y) einer Big Brother Staffel haben sich im Laufe von 10 Wochen folgendermassen entwickelt: Woche (X) 1 2 3 ... 9 10 Zuschauerzahlen (Y) 128‘027 140‘084 479‘261 ... 1'289‘803 1'329‘083 a1) Wie gross ist die Wachstumsrate w der Zuschauerzahlen von der ersten zur zehnten Woche (in Prozenten)? w= ...,..% (2 Punkte) a2) Welches war die durchschnittliche wöchentliche Wachstumsrate i in diesem Zeitraum (in Prozenten)? i = ...,..% (2 Punkte) Platz für Nebenrechnungen: 2 Frühjahr 2001 – Aufgabe 2 b) Die gegebenen Daten legen es nahe, für Prognosezwecke das log-inverse Regressionsmodell b Y = exp a0 − zu verwenden. X b1) Schätzen Sie die Parameter des log-inversen Regressionsmodells. Verwenden Sie dabei die folgenden Zwischenresultate: 1 ∑ = 1.55 i= 1 X i 10 2 10 1 ∑ ln Y ⋅ X = 37.2 i =1 i i 10 ∑ (ln Y ) = 133.9 i i=1 10 1 ∑ X = 2.93 i =1 i a0 = ...,.. b = ...,.. (5 Punkte) Ein Nachbarland hat für die Entwicklung ihrer Zuschauerzahlen bei Big Brother folgendes 3 log- inverse Regressionsmodell benutzt: Y = exp 12 − X b2) Mit welchen Zuschauerzahlen darf die Fernsehstation im Nachbarland in der 11. Woche rechnen, wenn man davon ausgehen kann, dass die Begeisterung für Big Brother in selbem Masse zunimmt? Yˆ11 = ...... (2 Punkte) Platz für Nebenrechnungen: 3 Frühjahr 2001 – Aufgabe 2 c) Der Erfolg von Big Brother schlägt sich auch auf die Werbeeinnahmen des Senders durch. Eine Erhebung bei den ersten 50 Sendungen ergab folgende klassierte Häufigkeitsverteilung der Werbeeinnahmen. Werbeeinnahmen pro Anzahl Sendung Sendungen (in 1000 Fr.) fi 0 - unter 5 12 5 - unter 10 19 10 - unter 20 8 20 - unter 30 6 30 - unter 50 5 c1) Berechnen Sie auf der Grundlage dieser klassierten Häufigkeitsverteilung die gesamten Werbeeinnahmen für die ersten 50 Sendungen. ...... Fr. (2 Punkte) c2) Berechnen Sie ebenfalls die durchschnittlichen Werbeeinnahmen pro Sendung. ...... Fr. (2 Punkte) Platz für Nebenrechnungen 4 Frühjahr 2001 – Aufgabe 2 c3) Für die nächste Sendestaffel plant die Geschäftsleitung Fr. 10'000.- mehr Werbeeinnahmen pro Sendung. Welchen Einfluss hätte dies auf folgende Kennzahlen? Kreuzen Sie die richtigen Aussagen an. nimmt ab bleibt unverändert steigt Varianz Arithmetisches Mittel Variationskoeffizient Median Modus (5 Punkte) 5 Frühjahr 2001 – Aufgabe 3 Aufgabe 3 Richtig Falsch 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Die Wahrscheinlichkeit in drei Versuchen mit einem fairen Würfel keine einzige 3 Sechs zu werfen beträgt (5 6 ) . Gilt für zwei Zufallsvariablen X und Y , dass E(X ⋅ Y ) = 0 , so sind die Zufallsvariablen unkorreliert. Seien die Schiffsankünfte in einen Hafen als unabhängig angenommen und laufen im Schnitt 10 Schiffe pro Stunde ein, so sind die minütlichen Schiffsankünfte poissonverteilt mit λ = 0.1 . Es gelte: X ~ N (0;1) , Y ~ Q 75 . Die Wahrscheinlichkeit, dass die Zufallsvariable Y X negative Werte annimmt, beträgt dann 0.5. Im Regressionsmodell Yi = α 0 + Xi β + ε i wird der Achsenabschnitt auf null getestet. Beträgt der p-Wert mehr als 0.05, so ist α0 signifikant von null verschieden. Zwei Elementarereignisse sind disjunkt und daher stochastisch unabhängig. Die Zufallsvariable ( X,Y ) sei zweidimensional normalverteilt mit Cov( X,Y ) = 0 . Dann ist auch die Zufallsvariable (3 + X,4Y ) bivariat normalverteilt mit Cov( 3 + X,4Y ) = 0 . Die Summe der Augenzahlen von 100 unabhängigen Würfen eines fairen Würfels ist approximativ normalverteilt mit µ = 350 . X und Y seien unabhängige und log-normalverteilte Zufallsvariablen. Dann ist die Zufallsvariable ln ( X Y ) normalverteilt. Die fünf Buchstaben vom Wort XAMAX lassen sich auf 60 verschiedene Arten anordnen. Für die Ereignisse A, B und C gilt: P( A ∩ BC ) = P(A B ∩ C ) ⋅ P(BC ) Die stetige Rechteckverteilung hat im Gegensatz zur Normalverteilung einen abzählbaren Wertebereich. Liefert der Schätzer θˆ mit einer Wahrscheinlichkeit von 0.9 zu kleine Werte, d.h. P θˆ < θ = 0.9 , so kann die Schätzfunktion θˆ nicht erwartungstreu sein. ( ) Die Kovarianz von zwei standardisierten Zufallsvariablen X und Y kann nur Werte von –1 bis +1 annehmen. Der Chiquadrat-Homogenitätstest gehört zur Menge der nichtparametrischen Tests. Die Zufallsvariable X sei auf dem Intervall [0,9] rechteckverteilt. Das 9. Dezil ist somit doppelt so gross wie das 3. Dezil. Jede konsistente Schätzfunktion ist auch erwartungstreu. Für den Median m einer Zufallsvariablen X gilt: P( X ≥ m ) ≥ 0.5 und P( X ≤ m ) ≥ 0.5 . Eine differenzierbare Funktion f : R → [0, +∞) ist dann eine Dichtefunktion, falls +∞ ∫ f (t)dt =1 . −∞ 20 X ~ F 3,3 ⇒ P( X < 9.28) = 0.05 6 Frühjahr 2001 – Aufgabe 4 Aufgabe 4 a) Angenommen, die Stimmberechtigten einer Gemeinde hätten sich anlässlich einer Urnenabstimmung zur Frage eines EU-Beitritts der Schweiz wie folgt entschieden: 40% der Stimmenden befürworteten einen solchen Beitritt, 50% lehnten ihn ab, die übrigen legten einen leeren Stimmzettel ein. Man interessiert sich für Zufallsstichproben vom Umfang n = 2 aus der erwähnten Abstimmungsurne (Modell mit Zurücklegen). Die Zufallsvariable X bezeichne die Anzahl JaStimmen, die Zufallsvariable Y die Anzahl der Nein-Stimmen unter den zwei gezogenen Stimmzetteln. a1) Ergänzen Sie die folgende gemeinsame Wahrscheinlichkeitsfunktion von ( X , Y ) und berechnen Sie die fehlenden Randwahrscheinlichkeiten. X 0 Y 0 1 1 16 100 100 10 1 p(x,·) p(·,y) 0 100 25 2 2 0 100 36 16 100 100 (3 Punkte) Platz für Nebenrechnungen: 7 Frühjahr 2001 – Aufgabe 4 a2) Wie lautet die Verteilung von ( X , Y ) ? Geben Sie das Verteilungssymbol und die konkreten Parameter an. (X,Y) ~ (2 Punkte) a3) Welche Aussagen können über die obige Zufallsvariable X gemacht werden? Kreuzen Sie bei jeder Aussage an, ob sie jeweils richtig (R) oder falsch (F) ist. R F Die Zufallsvariable X folgt einer symmetrischen Verteilung. Die Zufallsvariable X folgt einer diskreten Verteilung. Die Zufallsvariable X folgt einer Binomialverteilung. Die Zufallsvariable X folgt einer multinomialen Verteilung. Die Zufallsvariable X folgt einer hypergeometrischen Verteilung. Die Zufallsvariable X folgt einer unimodalen Verteilung. (4 Punkte) a4) Die Kovarianz von ( X , Y ) beträgt (kreuzen Sie die zutreffende Antwort an): Cov (X,Y) = 0.00 Cov (X,Y) = + 0.40 Cov (X,Y) = + 0.02 Cov (X,Y) = - 0,02 Cov (X,Y) = - 0.40 andere Cov (X,Y) = ........... (2 Punkte) Platz für Nebenrechnungen 8 Frühjahr 2001 – Aufgabe 4 b) In einer anderen Situation seien die gemeinsamen Wahrscheinlichkeiten eines Zufallsvektors (U,V) folgendermassen gegeben. U V 0 1 2 0 1 2 1 2 2 20 2 20 1 20 6 20 1 20 4 20 1 20 20 20 b1) Berechnen Sie folgende Werte: F ( U , V )( 1 , 2 ) = .,... P ( U = 2 | V = 1) = .,... E ( U | V = 1) .,... = (6 Punkte) b2) Sind die Zufallsvariablen U und V stochastisch unabhängig? Begründen Sie kurz Ihre Antwort. Ja, unabhängig Nein, abhängig Begründung: (3 Punkte) Platz für Nebenrechnungen 9 Frühjahr 2001 – Aufgabe 5 Aufgabe 5 a) Gegeben seien zwei unabhängige, standardnormalverteilte Zufallsvariablen X1 und X2. a1) Bestimmen Sie für die Zufallsvariable Y = X1 + X 2 folgende Grössen: 2 E(Y) = .,. V(Y) = .,. P ( |Y| < 1) = .,.... (4 Punkte) a2) Bestimmen Sie für die Zufallsvariable Z = X12 + X 22 folgende Grössen: Modus von Z = .,.. Median von Z = .,.. P(Z > 7.38) = .,.. (5 Punkt) Platz für Nebenberechnungen 10 Frühjahr 2001 – Aufgabe 5 b) Es gibt die psychologische Hypothese, dass Menschen es merken, wenn sie angestarrt werden, selbst dann, wenn sie den Beobachter gar nicht sehen können. Diese Hypothese soll empirisch getestet werden. Dazu wurden 100 Probanden in einem Laborexperiment von einem Experten unbemerkt entweder angestarrt oder nicht. Die Versuchspersonen mussten am Ende des Experiments angeben, ob sie das Gefühl hatten, angestarrt worden zu sein oder nicht. Dabei ergab sich folgendes Resultat: Vom Experten tatsächlich: angestarrt nicht angestarrt angestarrt worden zu sein 70% 55% nicht angestarrt worden zu sein 30% 45% 100% (n=60) 100% (n=40) Arbeitstabelle Gefühl: Das oben genannte Testproblem soll anhand eines geeigneten statistischen Verfahrens zum Signifikanzniveau α = 0,05 überprüft werden. Die Nullhypothese lautet: H0 : Menschen merken es nicht, wenn sie angestarrt werden und den Beobachter nicht sehen können b1) Geben Sie den Namen eines geeigneten Tests an : - Test (1 Punkt) b2) Wie gross ist bei Gültigkeit der H0 der zu erwartende Anteil an Probanden, die nach dem Experiment ein zutreffendes Gefühl geäussert haben (in % aller 100 Probanden)? Erwarteter Anteil unter der H 0 = . . , . % (2 Punkte) 11 Frühjahr 2001 – Aufgabe 5 b3) Wie lautet der kritische Wert der Prüfgrösse? Kritischer Wert = . , . . . (2 Punkte) b4) Berechnen Sie den Wert der Prüfgrösse und berücksichtigen Sie dabei die YatesKorrektur. Geben Sie an, ob die Nullhypothese abzulehnen ist oder nicht. Wert der Prüfgrösse = . , . . . H0 wird abgelehnt H0 wird nicht abgelehnt (5 Punkte) b5) Ergänzen Sie: Bei der Yates-Korrektur handelt es sich um eine - Korrektur (1 Punkt) Platz für Nebenberechnungen 12 Name, Vorname : Prüfungsnummer : _______________________________ _________________ Statistisches Seminar der Universität Zürich Prof. Dr. H.W. Brachinger Vorprüfung in Statistik 17. September 2001 Die Prüfung besteht aus fünf Aufgaben. Die Aufgaben 1 und 2 entstammen der deskriptiven Statistik, die Aufgaben 3 , 4 und 5 der induktiven Statistik und Wahrscheinlichkeitstheorie. Alle Aufgaben sind obligatorisch! Für jede völlig richtig gelöste Aufgabe gibt es 20 Punkte, so daß insgesamt 100 Punkte erreichbar sind. Bei den Dual-Choice-Aufgaben 1 und 3 wird jeweils wie folgt gewertet : – Für jede richtig beantwortete Frage gibt es 0,5 Punkte. – Für die 11. und jede weitere richtige Antwort gibt es jeweils zusätzlich einen ganzen Bonuspunkt. – Zum Schluß werden halbe Punkte aufgerundet. (Beispiel : 13 richtige Antworten ergeben 10 Punkte) Die Antworten bzw. Lösungen müssen an den bezeichneten Stellen unmittelbar bei jeder Aufgabenstellung eingetragen bzw. angekreuzt werden, damit sie für die Bewertung berücksichtigt werden können. Wenn Lösungen in Dezimalschreibweise verlangt werden, dann ist die Anzahl der Dezimalstellen, auf die gerundet werden soll, durch Punkte in den Lösungskästchen angedeutet. Das Aufgabenblatt ist nach der Prüfung zusammen mit eventuellen separaten Blättern, auf denen Nebenrechnungen durchgeführt wurden, abzugeben. Erlaubte Hilfsmittel neben Schreibzeug sind: • Taschenrechner ohne Bedienungsanleitung • Formelsammlung und Wahrscheinlichkeitstabellen werden zur Verfügung gestellt. Bitte nicht ausfüllen. Deskriptive Statistik Aufgabe 1 2 Induktive Statistik u. W’keitstheorie 3 4 5 Korrektur : Punktzahl Nachkorrektur : Total Note : Herbst 2001 – Aufgabe 1 Aufgabe 1 Richtig 1 Die Ausprägungen ordinal und metrisch skalierter Merkmale sind immer reelle Zahlen. 2 Der Ginikoeffizient kann nicht kleiner sein als der Herfindalkoeffizient. 3 Die Kovarianz nimmt jeweils einen Wert zwischen null und + ∞ an. 4 Wird ein positiver linearer Zusammenhang zwischen zwei Merkmalen X und Y beobachtet, so gilt: Cov(X,Y) > 0, r > 0. 5 Die Variable Y, die aus der Transformation Y = 13+X hervorgegangen ist, weist ein grösseres arithmetisches Mittel und eine grössere Varianz auf als die ursprüngliche Variable X. 6 Der Determinationskoeffizient r2 und die Varianz sy2 einer deskriptiven Einfachregression reichen aus, um die Residualvarianz u s2y zu bestimmen. 7 Besteht eine Industriebranche aus 5 gleichgrossen Firmen und drängen 5 neue Firmen zusätzlich auf den Markt und erobern zusammen 10% Marktanteil, so steigt die absolute Konzentration und sinkt die relative Konzentration in der Branche. Ein Arbeitnehmer ist gleich gut gestellt, ob er bei 4% Teuerung eine Lohnerhöhung von 5% erhält, oder ob er bei einer Teuerung von 1% eine Lohnsteigerung von 2% erhält. Werden metrisch skalierte Daten um eine Konstantea ∈ℜ verschoben, so verändern sich bei der Häufigkeitsverteilung der Median und die Standardabweichung. Deflationiert man den Wertindex mit dem Laspeyres-Preisindex, so resultiert der Mengen-Index nach Paasche. Für eine Zeitreihe mit positivem Trend gilt Yt > Yt-1 für alle t. 8 9 10 11 12 13 14 15 16 17 18 19 20 Beim Einfachregressions-Modell nach der Methode der kleinsten Quadrate kann der Fall auftreten, dass eine ungerade Anzahl Residuen von null verschieden sind. Besitzt eine Firma in einem Wirtschaftszweig ein Monopol, so gilt: HK = 0 und GK = 1. Sind Interquartilsabstand und Spannweite eines beliebigen Datensatzes identisch, so ist die Standardabweichung gleich null. Steigt der Preis einer Aktie jedes Jahr um 8%, so hat er sich nach 9 Jahren in etwa verdoppelt. In einer Unternehmung, in der genau die Hälfte der Mitarbeiter den gleichen Lohn erhält, weist die Verteilung der Löhne einen Interquartilsabstand von null auf. Das Verfahren der Saisonbereinigung kann auch angewendet werden, wenn kein Trend vorliegt. Der Variationskoeffizient ist bei ordinal und bei metrisch skalierten Merkmalen ein sinnvolles Steruungsmass. Die graphische Darstellung der Funktion f (r) = 10exp(0.5⋅ r) stellt in einem halblogarithmischen Diagramm eine Gerade dar. Es gilt: Cov(X,Y) = Cov(Y,X) und somit: rxy = ryx, vorausgesetzt sx > 0 und s y > 0. 1 Falsch Herbst 2001 – Aufgabe 2 Aufgabe 2 a) Gegeben sei folgende klassierte Einkommensverteilung: Einkommensklasse (i) monatl. Einkommen (in 1'000 GE) 1 Einkommensbezieher Einkommen pro Klasse fi (in Mio.) fi / n mi fi (in Mio. GE) mifi/Σ mifi 0 bis unter 2 1 0.20 1'000 0.025 2 2 bis unter 4 1.6 0.32 4'800 0.120 3 4 bis unter 8 1.2 0.24 7'200 0.180 4 8 bis unter 12 0.8 0.16 8'000 0.200 5 12 und mehr 0.4 0.08 19'000 0.475 TOTAL – 5 1.00 40'000 1.000 a1) Kreuzen Sie an, in welchen Klassen sich der Median und der Modus der obigen Einkommensverteilung befinden. Klasse 1 2 3 4 5 Median Modus (2 Punkte) a2) Berechnen Sie die Standardabweichung der klassierten Monatseinkommen (in 1'000 Geldeinheiten: TGE). Das arithmetische Mittel der Einkommensverteilung beträgt xAM = 8 (TGE) s = ..,.. TGE (3 Punkte) Platz für Nebenberechnungen: 2 Herbst 2001 – Aufgabe 2 b) Wie verändert sich die Varianz der klassierten Monatseinkommen, wenn eine neue Geldeinheit: GE neu = 5⋅GEalt + 10 eingeführt wird? Kreuzen Sie die richtige Antwort an. s neu = 5⋅ salt + 10 2 2 2 2 sneu = salt 2 2 sneu = 25⋅ salt 2 2 sneu = 25⋅ salt +100 2 2 sneu = 25⋅ salt +10 (2 Punkte) c) Um eine Aussage über die Konzentrationsverhältnisse in einer Einkommensverteilung machen zu können, gibt es verschiedene statistische Methoden. c1) Berechnen Sie den Gini-Koeffizienten (GK) für die gegebene klassierte Einkommensverteilung. Arbeitstabelle: Einkommensklasse (i) Klasse 1 Klasse 2 Klasse 3 Klasse 4 Klasse 5 GK = .,.... (4 Punkte) Platz für Nebenrechnungen: 3 Herbst 2001 – Aufgabe 2 c2) Zeichnen Sie die Lorenzkurve der gegebenen klassierten Einkommensverteilung in folgendes Diagramm ein: Qi Einkommen 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 Fi EinkommensBezieher (2 Punkte) d) Was passiert mit dem Gini- und dem Herfindalkoeffizienten der Einkommensverteilung einer Volkswirtschaft, wenn sich die relative Konzentration der Einkommen erhöht? Kreuzen Sie die zutreffenden Antworten an: steigt sinkt keine allgemeine Aussage möglich Der Ginikoeffizient: Der Herfindalkoeffizient: (2 Punkte) 4 Herbst 2001 – Aufgabe 2 e) Frau Meier verdiente 1990 einen Lohn von 2'300 GE monatlich. Der Landesindex der Konsumentenpreise zur Basis 1980 stand 1990 auf 113.8 und 1991 auf 114.7. Im Jahr 1991 wurde dieser Index neu basiert. Heute (2001) verdient Frau Meier 2'700 GE. Der Landexindex zur Basis 1991 steht auf 118.1. e1) Durch welchen Indexwert kann die Preisentwicklung von 1980 bis 2001 charakterisiert werden? 2001 Landesindex1980 = ...,. (2 Punkte) e2) Wie hoch ist der monatliche Reallohn von Frau Meier heute (2001) zu Preisen von 1990? (Runden Sie das Ergebnis auf ganzzahlige GE) .... GE (3 Punkte) Platz für Nebenrechnungen: 5 Herbst 2001 – Aufgabe 3 Aufgabe 3 Richtig Beim einmaligen Würfeln mit zwei fairen Würfeln ist die Wahrscheinlichkeit, dass die Augenzahl des einen Würfels grösser oder gleich der Augenzahl des andern ist, grösser als 0.5. 2 Sind A und B zwei Ereignisse eines Wahrscheinlichkeitsraumes, dann gilt P(A ∩ B ) = 1 − P(A ∪ B) 3 Ein nicht erwartungstreuer Schätzer kann konsistent sein. 1 4 Der Variationskoeffizient der Poissonverteilung P(9) beträgt 1/3. Die Anzahl der Freiheitsgrade beim Chiquadrat-Anpassungstest hängt unter anderem von der Anzahl unbekannter Parameter der unter H0 angenommenen Verteilung ab. 6 Der zum Wert einer Prüfgrösse zugehörige p-Wert erlaubt bei gegebenem Signifikanzniveau eine Entscheidung über Annahme oder Ablehnung der Nullhypothese. 7 Die Covarianz zweier ZV X und Y ist invariant gegenüber linearen Transformationen, d.h. es gilt: COV((a+b. X),(c+d. Y))=COV(X,Y). 8 Der Modus der Chiquadratverteilung mit 3 Freiheitsgraden beträgt eins. 5 Sei f(x) die Dichtefunktion einer stetigen Zufallsvariablen X. Dann hat die linear transformierte ZV Y = a+b. X die Dichtefunktion f(y)=a+b. f(x). 10 A und B seien zwei Ereignisse aus demselben Wahrscheinlichkeitsraum. 9 11 12 13 14 Aus P(A) ≥ 0.9 und P(B) ≥ 0.8 folgt P(A∩B) ≥ 0.7. Eine auf {1, 2, ..., 10} gleichverteilte ZV besitzt einen grösseren Erwartungswert und eine grössere Varianz als eine auf {1, 2, ..., 6} gleichverteilte ZV. Die Varianz des arithmetischen Mittels ist bei einer Zufallsstichprobe mit Zurücklegen immer geringer als bei einer Zufallsstichprobe gleichen Umfangs ohne Zurücklegen. Wird eine Nullhypothese zum Niveau 0.05 abgelehnt, so wird sie auch zum Niveau 0.01 abgelehnt. Ist eine ZV stetig und unimodal symmetrisch verteilt, dann ist P(X=µ) = 0.5. Ist bei einem rechtsseitigen Hypothesentest bezüglich µ das arithmetische Mittel der Stichprobe grösser als der kritische Wert, so wird die Nullhypothese angenommen. 16 Um den Standardfehler des Stichprobenmittelwertes zu halbieren, muss ceteris paribus der Stichprobenumfang verdoppelt werden. 15 x 1 t2 F(x) = ∫ exp(− )dt ist die Verteilungsfunktion einer stetigen ZV. 2π 2 −∞ 18 Ist Z eine Standardnormalvariable, dann gilt E(Z2 )=1 17 Gegeben sei eine Grundgesamtheit mit Erwartungswert µ und Varianz σ2 . Seien X1 , ..., X n unabhängige Ziehungen aus dieser Grundgesamtheit. Dann ist X1 ein erwartungstreuer Schätzer für µ. 20 Jede zweidimensionale Verteilungsfunktion Fx,y erfüllt die Bedingung: Fx,y (1,1) ≤ Fx,y (1,2). 19 6 Falsch Herbst 2001 – Aufgabe 4 Aufgabe 4 a) Eine stetige Zufallsvariable X besitzt folgende Verteilungsfunktion F(x): 0 x x 2 F(x) = + c 8 1 für x < 0 für 0 ≤ x ≤ 2 für x > 2 a1) Bestimmen Sie den Wert der Konstanten c . c = (2 Punkte) a2) Welche Beziehung besteht zwischen dem Median und dem Erwartungswert der Zufallsvariablen X? Kreuzen Sie die zutreffende Antwort an. Hinweis: Überlegen Sie, welche Art von Schiefe vorliegt. 0,5 x = E(X) 0,5 x < E(X) 0,5 x > E(X) (2 Punkte) Platz für Nebenberechnungen: 7 Herbst 2001 – Aufgabe 4 b) Die Zufallsvariable Y besitzt folgende Verteilungsfunktion: 0 y y 2 F(y) = − 2 16 1 für y < 0 für 0 ≤ y ≤ 4 für y > 4 Berechnen Sie folgende Grössen: P(1 ≤ Y≤ 3) b1) = .,.. (2 Punkte) b2) Das 9. Dezil von Y = .,.. (3 Punkte) b3) Geben Sie die Dichtefunktion f(y) der ZV Y an. f (y) = (3 Punkte) b4) E(Y) = .,.. (3 Punkte) Platz für Nebenberechnungen: 8 Herbst 2001 – Aufgabe 4 c) Die Zufallsvariable U besitzt folgende Dichtefunktion: 0 1 f (u) = u 8 0 Für Erwartungswert und Varianz von U gelten: E(U ) = für u < 0 für 0 ≤ u ≤ 4 für u > 4 8 8 und V(U ) = . 3 9 Durch Transformation von U wird eine neue Zufallsvariable W = 2 U - 3 gebildet. Bestimmen Sie folgende Grössen von W: c1) P(W>4) = .,.. (3 Punke) c2) E(W) = (1 Punkt) c3) V(W) = (1 Punkt) Platz für Nebenberechnungen: 9 Herbst 2001 – Aufgabe 5 Aufgabe 5 Ein Industrieverband geht davon aus, dass in seiner Branche der über das Internet realisierte Umsatz (Y) sowohl von der Höhe der Ausgaben für Internetwerbung (X1) als auch von die Anzahl der Beschäftigten in den IT-Abteilung (X2) abhängt. Eine Stichprobe von n=30 zufällig ausgewählten Firmen ergab folgenden Datensatz: Firma i Über das Internet realisierter Umsatz (in Mio GE) Yi 1 ... 29 30 50 ... 180 181 Ausgaben für InternetWerbung (in Mio GE) Xi1 0.12 ... 0.33 0.34 Anzahl Beschäftigten in der IT-Abteilung Xi 2 43 ... 33 28 Es wird davon ausgegangen, dass für jede der ausgewählten Unternehmungen i (i=1, ... , 30) zwischen den genannten Variablen eine Beziehung besteht, die approximativ beschrieben wird durch das lineare Regressionsmodell: Yi = β 0 + β1 ⋅ Xi1 + β 2 ⋅ Xi 2 + ε i (i = 1, ... , 30) bzw. in Matrixform durch Y = Xβ + ε Aus der Stichprobe ergeben sich folgende Zwischenresultate: 30 ∑e i =1 ∑ (Y − Y ) = (Y - Y )' (Y - Y ) = 77’987 2 30 2 i = e'e = 31’838 , i =1 i 0.2729 −0.4503 −0.0056 (X'X)-1 = −0.4503 3.4558 −0.0030 , (X'X)-1(X'Y) = −0.0056 −0.0030 0.0002 23.99 399.25 −0.28 a) Wie gross ist der Anteil der Varianz der Y-Daten, der durch die Regression erklärt wird? Anteil in Prozent = . . , . % (2 Punkte) 10 Herbst 2001 – Aufgabe 5 b) Testen Sie die globale Nullhypothese H0 : β1 = β2 = 0 beim Signifikanzniveau α = 0.05. Benutzen Sie dazu das angegebene Schema. Verteilung der Prüfgrösse : F <....... ; ........> Kritischer Wert ( f0.05 ) = Wert der Prüfgrösse = . . , . . . . , . H0 wird abgelehnt H0 wird nicht abgelehnt (7 Punkte) * * c) Bei Ausgaben für Internetwerbung in Höhe von X1 = 0.15 und X 2 = 30 Beschäftigten liefert * das geschätzte Regressionsmodell den Prognosewert Yˆ = 76. Geben Sie das 90%-Prognose* intervall für den individuellen Wert Y an. Verwenden Sie dazu das Zwischenresultat: 1 X*'(X'X)-1X* = [1 0.15 30][X'X]-1 0.15 = 0.0335 30 [ . . , . . ; . . . , . . ] (4 Punkte) Platz für Nebenberechnungen: 11 Herbst 2001 – Aufgabe 5 d) Ein Unternehmungsberater vermutet, dass die Anzahl Beschäftigten in den IT-Abteilungen keinen signifikanten Einfluss auf den Umsatz, der über das Internet realisiert wird, ausübt. Die folgende Null-Hypothese soll beim Signifikanzniveau α = 0.05 getestet werden: H0 : β 2 = 0 HA : β2 ≠ 0 d1) Bestimmen Sie die Kleinste-Quadrate-Schätzung für β2 und schätzen Sie die Varianz dieses Schätzers. βˆ2 = .,.. σˆ 2 βˆ 2 = .,.. (4 Punkte) d2) Bestimmen Sie den Wert der Prüfgrösse und entscheiden Sie über Annahme bzw. Ablehnung der Nullhypothese. Wert der Prüfgrösse: . . , . . H0 wird abgelehnt H0 wird nicht abgelehnt (3 Punkte) Platz für Nebenberechnungen: 12 Herbst 2001 -Lösungen Herbst 2001-Lösungen Aufgabe 1 1. 2. 3. 4. 5. falsch falsch falsch richtig falsch 6. 7. 8. 9. 10. richtig falsch falsch falsch richtig 11. 12. 13. 14. 15. falsch richtig falsch falsch richtig 16. 17. 18. 19. 20. falsch richtig falsch richtig richtig c2) Fi |Q i = {(0, 0) (0.2, 0.025) (0.52, 0.145) (0.76, 0.325) (0.92, 0.525) (1.0, 1.0)} d) GK steigt HK: keine allg. Aussage möglich e1) LIK e2) 2268 GE 11. 12. 13. 14. 15. richtig falsch falsch falsch falsch c1) c2) c3) P (W > 4) = 0.23 E(W) = 7/3 V(W) = 32/9 d1) βˆ 2 = - 0.28 Aufgabe 2 a1) Medianklasse = 2 (2 bis < 4) Modusklasse = 2 (2 bis < 4) a2) s = 12.01 b) richtig ist: s2neu = 25 . s2alt c1) GK = 0.57 2001/1980 = 135.5 Aufgabe 3 1. 2. 3. 4. 5. richtig richtig richtig richtig richtig 6. 7. 8. 9. 10. richtig falsch richtig falsch richtig 16. 17. 18. 19. 20. Aufgabe 4 a1) a2) c=4 0.5 x > E(X) b1) b2) b3) P (1 ≤ Y ≤ 3) = 0.50 0.9 Y = 2.735 f (y ) = b4) 0 1 2 0 für y < 0 − y für 0 ≤ y ≤ 4 8 für y > 4 E(Y) = 1.33 Aufgabe 5 a) Anteil in Prozent: 59.2% b) Verteilung der Prüfgrösse: F[2;27] Kritischer Wert = 3.35 Wert der Prüfgrösse = 19.6 H0 wird abgelehnt c) 90%-Prognoseintervall: [16.55 ; 135,45] 2 σˆ βˆ = 0.24 2 d2) Wert der Prüfgrösse: - 0.57 H0 wird nicht abgelehnt. falsch richtig richtig richtig richtig Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 1. 1 Es liegt eine unimodale linkssteile Verteilung vor. Was können wir über die Beziehung der Lagemasse untereinander sagen? a) b) c) d) Der Median ist grösser als das arithmetische Mittel. Der Median ist kleiner als das arithmetische Mittel. Der Median ist gleich dem arithmetischen Mittel. Der Median ist immer negativ. 2. Der Umsatz eines Unternehmens weise in zwei aufeinanderfolgenden Jahren die Wachstumsraten von 8% und -4% auf. Das durchschnittliche Wachstum des Umsatzes beträgt: a) b) c) d) 1.6%. 1.8%. 2.0% 2.2% 3. Wir betrachten drei Kantone mit folgender Einkommensverteilung: Kanton A Kanton B Kanton C Einkommen pro Kopf in Sfr. 80‘000 40‘000 50‘000 Wohnbevölkerung in 1‘000 500 900 1100 Wie hoch ist das totale durchschnittliche Pro-Kopf-Einkommen dieser drei Kantone? a) b) c) d) 4. Bestimmen Sie die Varianz der folgenden Beobachtungen: 3, 3, 1, 5 a) b) c) d) 5. 52'400 Sfr. 55'333 Sfr. 56'667 Sfr. 57'000 Sfr. 1.6 1.8 2.0 2.2 Ein Vermögen von 100'000 Sfr. wird gleichmässig auf 10 Personen verteilt. Der GiniKoeffizient beträgt: a) b) c) d) 0.0 0.1 0.9. 1.0 Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 6. 2 Es wird eine Erhebung zum Thema Gründe für Arbeitslosigkeit durchgeführt: 200 Arbeitslose werden nach ihrer Ausbildung befragt. Welche Aussage können Sie anhand untenstehender Tabelle machen? Keine Ausbildung Lehre ∑ Kurzzeitarbeitslosigkeit 50 100 150 Langzeitarbeitslosigkeit 30 20 50 ∑ 80 120 200 Personen ohne Ausbildung werden im Vergleich zu Personen mit Lehrabschluss: a) b) c) d) weniger häufig längerfristig arbeitslos. genauso häufig längerfristig arbeitslos. häufiger längerfristig arbeitslos. Keine dieser Aussagen trifft zu. 7. Welches der folgenden Merkmale ist nominal skaliert? a) Alter b) Lebenszufriedenheit c) Haarfarbe d) Gewicht 8. Ein Reifenhersteller unterstellt für seinen Profit (in Sfr.) ein lineares Model mit zwei Variablen: „Verkauf“ steht für Anzahl verkaufter Reifen und „Defekt“ steht für Anzahl defekt produzierter Reifen. Die multiple Regressionsanlyse ergab das folgende Resultat: Profit = -1200 + 30×Verkauf –15×Defekt Angenommen, es gibt in einer Periode 10 Defekte. Wieviele Reifen müssen mindestens verkauft werden, damit der Hesteller keinen Verlust hinnehmen muss: a) b) c) d) 25 Reifen 35 Reifen 45 Reifen 55 Reifen 9. Sie möchten feststellen, ob zwischen einem nominal skalierten und einem ordinal skalierten Merkmal ein Zusammenhang besteht. Dazu benutzen Sie: a) b) c) d) einen Chiquadratkoeffizienten einen Korrelationskoeffizienten nach Bravais-Pearson einen Rangkorrelationskoeffizienten nach Spearman Alle Antworten sind falsch. Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 3 10. Zwei Fussballfans tippen auf die Ränge der drei Fussballmannschaften GC, FCZ und FCB: GC FCZ FCB Fan A 1 3 2 Fan B 3 2 1 Der Rangkorrelationskoeffizient beträgt a) b) c) d) -1 -1/2 0 1 11. Im Jahr 1990 besteht die Chemiebranche aus 5 Firmen, wobei die grösste Firma 60% Marktanteil und die andern vier Firmen je 10% Marktanteil besitzen. Zehn Jahre später hat die Chemiebranche nur noch 3 Firmen mit Marktanteil von je 33.3%. Somit gilt: a) b) c) d) Der Herfindalkoeffizient ist gestiegen, der Ginikoeffizient ist gesunken. Der Herfindalkoeffizient ist gesunken, der Ginikoeffizient ist gestiegen. Der Herfindalkoeffizient und der Ginikoeffizient sind beide gesunken. Der Herfindalkoeffizient und der Ginikoeffizient sind beide gestiegen. 12. Betrachten Sie folgende Kontingenztabelle: Einkommen weniger als 10000 Sfr mehr als 10000 Sfr ∑ Lehrer 1400 100 1500 Arzt 50 100 150 ∑ 1450 200 1650 Um wieviel Prozentpunkte liegt der Anteil der Ärzte mit Einkommen von mehr als 10'000 Sfr über dem entsprechenden Anteil der Lehrer? a) 30 b) 40 c) 50 d) 60 13. Welche Aussage trifft auf die Zahlenreihe 2, 3, 5, 7, 8, 8, 11 zu? a) b) c) d) Die mittlere quadrierte Abweichung von 7 ist minimal. Die mittlere quadrierte Abweichung von 6 ist minimal. Die mittlere absolute Abweichung von 7 ist minimal. Alle Antworten sind falsch. Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 4 14. Gegeben sei folgender Boxplot: kw 107 102 97 92 87 82 77 72 67 62 57 52 47 42 37 Das dritte Quartil beträgt: a) b) c) d) 44 63 77 105 15. Von einem bivariaten Datensatz sind die Regressionsgerade yˆ i = 4 + 2 xi sowie die Varianzen 2 s˜x =2.56 und s˜y2 = 16.0 bekannt. Der Korrelationskoeffizient beträgt: a) 0.2 b) 0.4 c) 0.6 d) 0.8 16. Gegeben sei P(A) = 0.5, P(B) = 0.3 und P(A∪B) = 0.6. Bestimmen Sie P(A∩B). a) 0.2 b) 0.3 c) 0.5 d) 0.8 17. Ein Spiel besteht darin, einen Würfel zweimal zu werfen und als Ergebnis die maximale Augenzahl zu bestimmen. X1 sei die Augenzahl nach dem ersten Wurf, X2 die Augenzahl nach dem 2. Wurf. Für Y gelte: Y= max(X1,X2). Die Wahrscheinlichkeit, dass Y≤3 ist, beträgt: a) b) c) d) 1/12 1/4 1/2 2/3 Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 5 18. Angenommen, die Wahrscheinlichkeit, dass sich im Korb eines Pilzsammlers giftige Pilze befinden, betrage 50%. Man weiss, dass der Verzehr solcher Pilze in 60% aller Fälle zu Beschwerden führt, d.h. im Durchschnitt treten nach 30% aller Pilz-Mahlzeiten Beschwerden auf. Was ist dann die Wahrscheinlichkeit, dass sich in der Mahlzeit des Sammlers giftige Pilze befanden, wenn er danach keine Beschwerden hatte? a) b) c) d) 28.6% 30.0% 37.5% 45.4% 19. Die Firma Slimfit versichert, dass mit ihrer Diät die tägliche Gewichtsabnahme X in Kg. der folgenden Verteilungsfunktion folgt: 0 2 3x x F(x) = − 4 8 1 für x < 0 für 0≤x≤2 für x > 2 Die Wahrscheinlichkeit, während der Diät an einem beliebigen Tag mindestens ein halbes Kilo abzunehmen, beträgt: a) b) c) d) 65.6% 57.2% 49.8% 42.6% 20. Eine lineare multiple Regressionsanalyse nach der Methode der kleinsten Quadrate (OLS) führte zu folgenden Resultaten Model: Yi = β 0 + β1 X i1 + β 2 X i2 + ε i Koeffizient Konstante X1 X2 R2 60 30 10 0.64 σˆ βˆ T-Wert P-Wert i 36.474 1.645 8.900 3.370 4.299 2.576 0.1 0.00 0.02 Der folgender Koeffizient ist sowohl auf dem 1%, wie auch auf dem 5% Niveau signifikant von Null verschieden: a) b) c) d) Der Koeffizient von X1 Der Koeffizient von X2 Der Achsenabschnitt. Keine der obigen Aussagen ist richtig Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 6 21. Der Multiple Determinationskoeffizent bei der obigen Regressionsanalyse (Frage 20) kann wie folgt interpretiert werden a) sein Wert ist 0.64 und er ist der Anteil der erklärten Varianz an der Gesamtvarianz. b) sein Wert ist 0.64 und er gibt die Wahrscheinlichkeit an, dass unser Model stimmt. c) sein Wert ist 0.80 und er misst die Korrelation zwischen Y und den Residuen. d) er gibt an, wieviel Prozent der Stichprobe genau auf der Ausgleichsgeraden liegen 22. Eine nach Städten getrennte Meinungsumfrage ergab folgende Resultate: Zustimmung Ja Nein keine Meinung Total Stadt Bern Zürich Genf Chur Total 10 8 8 5 31 16 8 12 10 12 11 38 26 10 26 130 Ergänzen Sie bitte die ausgelassenen Felder. Wieviele Genfer haben mit Nein geantwortet? a) b) c) d) 10 20 30 40 23. Angenommen, der Wohnsitz habe keinen Einfluss auf das Zustimmungsverhalten. Was wäre die theoretische Anzahl von Genfern, die mit „Nein“ antworten würden? Beziehen Sie sich auf die Kontingenztabelle in Aufgabe 22? a) 9.2 b) 4.9 c) 16.6 d) 20.0 24. Wie lautet der Ablehnungsbereich bei einem Chi-Quadrat-Unabhängigkeitstest der Nullhypothese: Die Zustimmung ist unabhängig von der Stadt in der gefragt wurde (Signifikanzniveau 5%; Beziehen Sie sich auf die Kontingenztabelle in Aufgabe 22) a) b) c) d) χ2 > 3.84 χ2 > 9.49 χ2 >12.6 χ2 > 21.0 Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 7 25. Gegeben sei eine binomialverteile Zufallsvariable X mit den Parametern n und π. Wieviele Elemente umfasst der Wertebereich? a) b) c) d) n+1 n π n⋅π 26. Die Zufallsvariable X sei normalverteilt mit Erwartungswert E(X)=76 und Varianz Var(X)=64. Die Wahrscheinlichkeit P(X > 60) beträgt: a) b) c) d) 0.023 0.233 0.767 0.977 27. Ein Atomkraftwerk verfügt über 20'000 Sicherheitskomponenten, von denen jede eine Ausfallwahrscheinlichkeit von 0,000'001 hat. Mit welcher Wahrscheinlichkeit kommt es zu einem alarmierenden Zwischenfall, wenn ein solcher durch das Ausfallen von mindestens einer Komponenten definiert ist? (Hinweis: Benutzen Sie die Poisson-Approximation) a) b) c) d) 0.002 0.009 0.020 0.088 28. Eine diskrete Zufallsvariable habe die Wahrscheinlichkeitsfunktion P(X=x) = c/x für x=2, 3, 6 und P(X=x) = 0 sonst. Bestimmen Sie den Wert der Konstanten c. a) b) c) d) 0.4 0.6 0.8 1.0 29. Das 3. Quartil einer standardnormalverteilten Zufallsvariablen Z ist 0.6745. Das 3. Quartil der normalverteilten Zufallsvariable Y mit E(Y) = 4 und V(Y) = 4 beträgt daher: a) b) c) d) 0.6745 4.6745 5.3490 6.6980 Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 8 30. Die Zufallsvariable V besitzt folgende Verteilungsfunktion: 1 0.9 F(v) 0.5 0.3 -2 -1 0 1 2 V Die Wahrscheinlichkeit P(|V|≥1) beträgt: a) b) c) d) 0.1 0.4 0.6 0.9 31. X und Y sind zwei Zufallsvariablen. Ihre Verteilungsfunktionen sehen folgendermassen aus: Welche Aussage über die Beziehung der beiden Erwartungswerte zueinander ist richtig? a) b) c) d) E(X) < E(Y) E(X) > E(Y) E(X) = E(Y) keine Aussage möglich Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 32. Welche Aussage über die Beziehung der beiden Varianzen zueinander ist richtig (Beziehen Sie sich auf die Abbildung in Aufgabe 31)? a) b) c) d) Var(X) > Var(Y) Var(X) < Var(Y) Var(X) = Var(Y) keine Aussage möglich 33. Der Mittelwert einer Zufallsstichprobe aus einer normalverteilten Grundgesamtheit ist a) b) c) d) normalverteilt t-verteilt F-verteilt binomialverteilt 34. Eine Schätzfunktion wird als erwartungstreu bezeichnet, wenn a) b) c) d) bei steigendem Stichprobenumfang die Varianz gegen Null geht der Erwartungswert des Parameters gleich der Schätzfunktion ist ihr Erwartungswert gleich der Varianz ist ihr Erwartungswert gleich dem zu schätzenden Parameter ist. 35. Der α-Fehler bei einem Hypothesentest ist die Wahrscheinlichkeit, dass a) b) c) d) die Nullhypothese verworfen wird, wenn sie richtig ist. die Nullhypothese verworfen wird, obwohl sie falsch ist. die Alternativhypothese verworfen wird, wenn sie falsch ist. die Alternativhypothese verworfen wird, obwohl sie richtig ist. 36. Von 280 zur Präferenz bezüglich des Uno-Beitritts befragten Schweizern äusserten 165 eine Präferenz für den Beitritt. Bestimmen Sie das approximative 0.95 Konfidenzintervall für den Anteilswert π. a) b) c) d) (0.532, 0.647) (0.541, 0.637) (0.520, 0.680) (0.581, 0.697) 37. Eine Zufallstichprobe der Grösse n wird aus einer Grundgesamtheit mit gegebener Varianz gezogen. Für den Mittelwert wird ein 95% Konfidenzintervall berechnet. Welche der folgenden Veränderungen würde zu einer Verkürzung des Intervalls führen? a) ein Anstieg der Varianz der Grundgesamtheit b) ein geringeres Konfidenzniveau c) eine Verkleinerung der Stichprobe d) eine Verschiebung des Mittelwertes um eine Konstante. 9 Vorprüfung Statistik, 18. März 2002 Prof. Dr. Rainer Winkelmann 10 38. Betrachtet sei die Zeitdauer (in Sekunden), die Ratten brauchen um durch ein Labyrinth zu finden. Für untrainierte Ratten sind die Zeiten verteilt gemäss einer Normalverteilung N (65, 15). Ein Forscher möchte zeigen, dass Training die Zeiten verkürzt. Dazu formuliert er die Alternativ-Hypothese a) H1: b) H1: c) H1: d) H1: µ > 65 µ < 65 x > 65 x < 65 39. Ein lineares Modell Yi = β 0 + β1 X i1 + β 2 X i2 + ε i wurde per OLS Regression mit 20 Beobachtungen geschätzt. Die Anzahl der Freiheitsgrade für den entsprechenden t-Test für H0 beträgt a) 20 b) 19 c) 18 d) 17 40. In einer Befragung von 16 Firmen bezüglich des erwarteten Anstiegs der Lohnkosten im folgenden Jahr ergibt sich ein Mittelwert von 5.2% und eine Standardabweichung von 1.6%. Geprüft werden soll die Nullhypothese H0: µ = 5%. Berechnen Sie die entsprechende tverteilte Prüfgrösse. Sie beträgt a) –0.5 b) –0.125 c) 0.125 d) 0.5 Ergebnisse der Statistik-Vorprüfung vom Frühjahr 2002 Die Buchstaben bezeichnen die richtigen Antworten zu den 40 Fragen Frage Frage Frage Frage Frage Frage Frage Frage Frage Frage Frage Frage Frage Frage 1. 4. 7. 10. 13. 16. 19. 22. 25. 28. 31. 34. 37. 40. b c c b c a a b a d a d b d Frage 2. Frage 5. Frage 8. Frage 11. Frage 14. Frage 17. Frage 20. Frage 23. Frage 26. Frage 29. Frage 32. Frage 35. Frage 38. b a c c c b a c d c b a b Frage 3. Frage 6. Frage 9. Frage 12. Frage 15. Frage 18. Frage 21. Frage 24. Frage 27. Frage 30. Frage 33. Frage 36. Frage 39. a c a d d a a c c b a a d