Zusammenfassung der Vorlesungen Statistik I und II von Konrad Urbanski TU Berlin, Wintersemester 2013/2014 Florian Wiesweg 16. Januar 2017 Dieses Werk ist lizenziert unter einer Creative Commons-Lizenz: Namensnennung-Nicht-kommerziell-Keine Bearbeitung-3.0-Deutschland (http://creativecommons.org/licenses/by-nc-nd/3.0/de/) Inhaltsverzeichnis 1 Wichtiger Hinweis 4 2 Deskriptive Statistik 2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . 2.2 Auswertung eindimensionalen Datenmaterials . 2.2.1 Datenformen . . . . . . . . . . . . . . . 2.3 Empirische Kennzahlen . . . . . . . . . . . . . . 2.3.1 Mittelwerte . . . . . . . . . . . . . . . . 2.3.2 Quantile . . . . . . . . . . . . . . . . . . 2.3.3 Steuungsmaße . . . . . . . . . . . . . . 2.4 Statistische Konzentrationsanalyse . . . . . . . . 2.4.1 Lorenz’sche Konzentrationsverteilung . 2.4.2 Gini-Koeffizient . . . . . . . . . . . . . . 2.4.3 Herfindahl-Index . . . . . . . . . . . . . 2.5 Auswertung zweidimensionalen Datenmaterials 2.5.1 Darstellung in einer Kontingenztafel . . 2.5.2 Abhängigkeitsmaße . . . . . . . . . . . 2.6 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 5 5 7 7 8 8 10 10 11 11 12 12 13 15 . . . . . . . . . . . . . . . . . . . . 17 17 17 17 18 18 18 18 18 18 19 4 Stochastik 4.1 Eigenschaften von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Bestimmung einer Wahrscheinlichkeitsfunktion . . . . . . . . . . . . . . . 4.3 Rechenregeln für Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . 4.3.1 Allgemeiner Additionssatz . . . . . . . . . . . . . . . . . . . . . . . 4.3.2 Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit . . . . . 20 20 21 22 22 22 3 Kombinatorik 3.1 Permutation . . . . . . . . . . . . . . 3.1.1 Ohne Wiederholung . . . . . 3.1.2 Mit Wiederholung . . . . . . 3.2 Variation . . . . . . . . . . . . . . . . 3.2.1 Ohne Wiederholung . . . . . 3.2.2 Mit Wiederholung . . . . . . 3.3 Kombination . . . . . . . . . . . . . . 3.3.1 Ohne Wiederholung . . . . . 3.3.2 Mit Wiederholung . . . . . . 3.4 Symmetrie des Binomialkoeffizienten 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 4.5 4.6 4.3.3 Satz von Bayes . . . . . . . . . . . . . Zufallsgrößen . . . . . . . . . . . . . . . . . . 4.4.1 Diskrete Zufallsvariablen . . . . . . . 4.4.2 Stetige Zufallsvariablen . . . . . . . . 4.4.3 Kennzahlen von Zufallsvariablen . . . Stochastische Modelle . . . . . . . . . . . . . . 4.5.1 Diskrete stochastische Modelle . . . . 4.5.2 Stetige stochstische Modelle . . . . . . Gesetze zu Beschränkung und Approximation 4.6.1 Tschebyscheffsche Ungleichung . . . . 4.6.2 Schwaches Gesetz der großen Zahlen . 4.6.3 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Induktive Statistik 5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Stichprobentheorie . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Nicht-Zufällige Auswahl . . . . . . . . . . . . . . . 5.2.2 Zufällige Auswahl . . . . . . . . . . . . . . . . . . 5.2.3 Gleichgewichtung . . . . . . . . . . . . . . . . . . 5.3 Stichprobenfunktionen als Anwendung der Stochastik . . 5.3.1 Ausgewählte Stichprobenfunktionen . . . . . . . . 5.3.2 Gütekriterien für Stichprobenfunktionen . . . . . . 5.3.3 Konstruktion von Stichprobenfunktionen . . . . . 5.4 Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Punktschätzung . . . . . . . . . . . . . . . . . . . . 5.4.2 Intervallschätzung . . . . . . . . . . . . . . . . . . 5.5 Testtheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.5.1 Parametrische Testtheorie . . . . . . . . . . . . . . 5.5.2 Nicht-parametrische Testtheorie . . . . . . . . . . 5.6 Median- und Quantilstest . . . . . . . . . . . . . . . . . . . 5.6.1 Erste Variante: Vorzeichentest . . . . . . . . . . . . 5.6.2 Zweite Variante: Vorzeichenrangtest von Wilcoxon 5.7 2x2-Feldertafelanalyse . . . . . . . . . . . . . . . . . . . . . 5.7.1 χ²-Test für zwei unabhängige Stichproben . . . . . 5.7.2 χ²-Test für zwei abhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 23 23 23 24 25 25 29 32 32 32 33 . . . . . . . . . . . . . . . . . . . . . 34 34 35 35 35 36 36 37 37 39 40 40 40 43 45 56 60 60 61 62 62 63 1 Wichtiger Hinweis „Welchen Fehler haben wir bei diesem Test gemacht? – Weiß man nicht, nur hoffentlich keinen!“ Dasselbe gilt natürlich auch für diese Zusammenfassung. Sie erhebt keinen Anspruch auf Vollständigkeit oder gar Korrektheit und ist dementsprechend auch KEIN Referenzdokument. Sie soll den Besuch der Vorlesung oder der Übungen nicht ersetzen, sondern allenfalls angenehmer gestalten. Wenn Ihr es trotzdem darauf anlegen möchtet, nun ja, niemand hindert Euch daran, aber beschwert Euch nachher bitte nicht bei mir, wenn Ihr eine falsche Formel aus diesem Dokument auswendig gelernt habt. Es gilt wie immer Kopf einschalten und mitdenken, gerade weil Konrad Urbanski eine Vorliebe für gemeine Aufgaben in Klausuren hat. Auf Anfrage rücke ich den TEX-Code unter einer permissiveren Lizenz als der oben angegebenen heraus, falls Ihr daran Bedarf und ausreichend gute TEX-Kenntnisse habt. Änderungen und Korrekturen werde ich an diesem Text in Zukunft nicht mehr vornehmen, da die Vorlesungen inzwischen zu lang zurückliegen. Ihr könnt mich wie folgt erreichen: • E-Mail: [email protected] • Facebook: https://www.facebook.com/flowiesweg • Google Plus: https://plus.google.com/102139286985442170452 4 2 Deskriptive Statistik 2.1 Grundlagen • Statistische Einheit (Merkmalsträger) • Realisationsmöglichkeiten x • Grundgesamtheit: Menge aller denkbaren statistischen Einheiten der Größe N • Stichprobe: Echte Teilmenge der Grundgesamtheit der Größe n • Statistische Masse: die betrachtete Grundgesamtheit oder die betrachtete Stichprobe • Statistische Größe: X : Statistische Masse → {Realisationsmöglichkeiten} • Skalierungsarten (nach Informationsgehalt sortiert; höherwertige Skalen können unter Informationsverlust in geringerwertige Skalen transformiert werden). Je nach Skalierungsart sind daher auch unterschiedliche Transformationen zugelassen, bei denen die enthaltenen Informationen nicht verfälscht werden. Nominalskala: Nur die Verwendung der Ungleich- und Gleich-Relation möglich Ordinalskala: Gleich-, Ungleich-, Größer- und Kleiner-Relation Kardinalskala: Sinnvolle Differenzenbildung möglich Diskrete Kardinalskala quasi-stetige Kardinalskala Stetige Kardinalskala 2.2 Auswertung eindimensionalen Datenmaterials 2.2.1 Datenformen Urliste Das n-Tupel der Beobachtungswerte x1 , ..., xn . x(i) bezeichnet dabei das i-te Element aus der geordneten Urliste mit x(i) ≺ x(i+1) . 5 2 Deskriptive Statistik Sortierte Daten Sortierung nach den realisierten Ausprägungen a1 , ..., ak . • Absolute Häufigkeitsverteilung: ∑ h : {Realisierte Ausprägungen} → N mit kj=1 h(aj ) = n • Relative Häufigkeitsverteilung: ∑ f : {Realisierte Ausprägungen} → {t ∈ R|0 ≤ t ≤ 1} mit kj=1 f (aj ) = 1 • Grafische Darstellung mit einem Stabdiagramm (absolut und relativ) oder einem Kreissektorendiagramm (relativ) • Kumulierte Häufigkeiten: Geben an wie viele (relativ) oder welcher Anteil (absolut) der statistischen Einheiten maximal die Ausprägung x haben. Es handelt sich um an den x = aj unstetige Treppenfunktionen. Absolute kumulierte Häufigkeitsverteilung: H : {Realisationsmöglichkeiten} →N ∑ mit H(x) = j h(aj ) wobei aj ≤ x, limx→−∞ H(x) = 0, limx→∞ H(x) = n Relative kumulierte Häufigkeitsverteilung: F : {Realisationsmöglichkeiten} →R ∑ mit F (x) = j f (aj ) wobei aj ≤ x limx→−∞ F (x) = 0, limx→∞ F (x) = 1 Grafische Darstellung der kumulierten Häufigkeit in einem X-Y-Diagramm. Gruppierte Daten Gruppierung nach den realisierten Ausprägungen in halboffenen Intervallen mit Gruppengrenzen gj : [g0 ; g1 [, [g1 , g2 [, ..., [gk−1 ; gk [). Die Wahl der Gruppengrenzen ist hierbei nicht trivial, im Allgemeinen muss sie an die Daten angepasst werden, d.h. Spitzen in den Daten sollten durch Bildung vieler Gruppen an diesen Stellen erhalten bleiben) • Zu jeder Gruppe werden Häufigkeitsverteilungen analog zu 2.2.1 definiert. Allerdings handelt es sich dann bei den kumulierten Häufigkeiten um stetige, an den x = aj undifferenzierbare Funktionen, da für die einzelnen Gruppen eine Gleichverteilung angenommen wird (und man so dann linear interpolieren kann). • Gruppenbreite: bj = gj − gj−1 • Gruppenmitte: mj = 1 2 · (gj + gj−1 ) • Grafische Darstellung mit einem Histogramm: Es wird nicht die Häufigkeit hj auf der h y-Achse abgetragen, sondern ein um die Gruppenbreite korrigierter Wert lj = bjj , damit die Balken flächentreu sind. 6 2 Deskriptive Statistik 2.3 Empirische Kennzahlen 2.3.1 Mittelwerte Arithmetisches Mittel ∑1 xi n i ∑1 ∑ := aj · h(aj ) = aj · f (aj ) n j j ∑ ∑1 mj · fj mj hj = := n j j Urliste x̄ := Sortierte Daten Gruppierte Daten1 Eigenschaften: • Erfordert kardinale Skalierung ∑ • i (xi − x̄) = 0 • sehr ausreißerempfindlich • bei linearer Transformation mit yi = a + bcdotxi folgt für den Mittelwert ȳ = a + b · x̄ Median x̃ := x( n+1 ) 2 1 := (x( n2 ) + x( n2 +1) ) 2 Erfordert ordinale Skalierung. bei ungerader Anzahl statistischer Einheiten bei gerader Anzahl statistischer Einheiten Modus x̊ := dasjenige x, für das h(x) maximal ist. Erfordert nominale Skalierung. Geometrisches Mittel √ n x1 · x2 · ... · xn v u n u∏ n =t xi x¯g := i=1 Sinnvoll v.a. bei exponentiellen Wachstumsprozessen (wie Verzinsung). 1 Durch ∑ j mj wird die Merkmalssumme hier geschätzt 7 2 Deskriptive Statistik Harmonisches Mittel x¯h = ∑ 1 1 i xi w i mit wi ≥ 0, ∑ wi = 1 i Braucht man manchmal bei gebrochenen Größen, wie z.B. Geschwindigkeit (ms−1 ), wenn die Nennergröße gegeben ist (wie schnell war XY während der ganzen Stunde durchschnittlich?). Lageregel • Es gilt bei linkssteilen Daten: x̊ < x̃ < x̄. • Es gilt bei symmetrischen Verteilungen: x̄ = x̃ • Es gilt bei eingipflig symmetrischen Verteilungen:x̄ = x̃ = x̊ • Es gilt bei rechtssteilen Daten: x̊ > x̃ > x̄. 2.3.2 Quantile xq := dasjenige kleinste xi , für das F (xi ) ≥ q Beispiele; • x0.1 ; x0.2 ; . . . ; x0.9 Dezile • x0.25 ; x0.5 ; x0.75 Quartile Die Quantile werden häufig in Box-Plots dargestellt. Es ist auch möglich, die Quantile zweier Datensätze gegeneinander zu plotten. Dies ist dann ein sogenannter Q-Q-Plot, aus dem sich Informationen über die Lage der beiden Datensätze zueinander entnehmen lassen. 2.3.3 Steuungsmaße Spannweite xmax − xmin Wahnsinnig ausreißerempfindlich. Quantilsabstand xp − x1−p Ausreißerempflindlichkeit hängt ab von der Quantilswahl. Für p = 0.75 wird dies zum Quartilsabstand. 8 2 Deskriptive Statistik Durchschnittliche Abweichung s̄ = 1∑ |xi − x̄| n i s2 = 1∑ (xi − c)2 n i Empirische Varianz Es wird hierbei x̄ als Referenzpunkt c genommen, da es sich bei Anwendung der Minimalmethode (Minimierung von s2 nach c) als optimaler Wert ergibt. Alternativ funktioniert das auch irgendwie mit x̃. ! ∂c s2 = 0 ⇔ n ∑ (xi − c) = 0 i=1 ⇔ c = x̄ Es ergibt sich dann für andere Datenformen: 1∑ (xi − x̄)2 n i ∑ 1∑ := (aj − x̄)2 · h(aj ) = (aj − x̄)2 · f (aj ) n j j ∑ 1∑ := (mj − x̄)2 · hj = (mj − x̄)2 · fj n j j für die Urliste s2 := für sortierte Daten für gruppierte Daten2 Für die Varianz gibt es einen praktischen Verschiebungssatz, der sich trivial über die binomischen Formeln und ein paar Summensätze herleiten lässt. n 1 ∑ 2 s = · xi − x̄2 n i=1 2 Außerdem gibt es einen weiteren, praktischen Satz mit dem man die Standardabweichung ∪ einer Beobachtungsgesamtheit M = i Mi mit r disjunkten Mi aus den Standardabweichungen der Mi berechnen kann. n := 2 Durch ∑ ∑ i ni s2M = 1∑ 2 1∑ ni si + ni (x̄i − x̄) n i n i j mj wird die Merkmalssumme hier geschätzt 9 2 Deskriptive Statistik Empirische Standardabweichung √ Die empirische Standardabweichung ist die Wurzel der empirischen Varianz: s = σX s2 Variationskoeffizient Der Variationskoeffizient ist eine maßstabsunabhänige Variante der Standardabweichung. V := s x̄ 2.4 Statistische Konzentrationsanalyse 2.4.1 Lorenz’sche Konzentrationsverteilung Gegeben sei eine kardinal skalierte statistische Größe mit den realisierten Ausprägungen aj . Man definiert V := ∑ aj · h(aj ) = ∑ j xi i uL (x) := F (x) Absoluter Merkmalsbeitrag := aj · h(aj ) aj · h(aj ) Relativer Merkmalsbeitrag := V vL : {Realisierte Ausprägungen} ∪ {0} → R ∑ mit vL (aj ) = aj · h(aj ) wobei aj ≤ x, j lim F (x) = 0, lim F (x) = 1 x→−∞ x→∞ Die Tupel (uL (aj ); vL (aj )) werden als Lorenzkurve bezeichnet. Wichtig ist hierbei, dass bei sortierten Daten keine Tupel zwischen den Tupeln für die aj liegen, da vL (aj ) nur für die realisierten Ausprägungen definiert sind. Es sind also keine sinnvollen Interpretationen von sich auf der Gerade zwischen den Tupeln befindenden Punkten möglich; in Diagrammen sind dementsprechend höchstens gestrichelte Verbindungslinien zu ziehen. uL (aj ) ist dann der Anteil der Marktteilnehmer, die ein Merkmalsausprägung von weniger als aj haben, an allen Marktteilnehmern, wobei natürlich uL (0) = 0 und UL (aj,max ) = 1. vL (x) ist der Anteil der Marktteilnehmer, die eine Merkmalsausprägung von weniger als x haben, am gesamten Marktvolumen V . Um hierbei auch gruppierte Daten verarbeiten zu können (für die obige Definitionen analog erstellt werden können), wird angenommen, dass innerhalb der Gruppen eine Einpunktverteilung vorliegt, d.h. jeder Martteilnehmer trägt den gleichen (höheren oder niedrigeren) Anteil zum Marktanteil der Gruppe bei. Daher können dann auch Punkte auf der Verbindungslinie zwischen den Punkten für die Grenzen gj analog zu oben interpretiert werden. Man darf sie hier dann durchziehen. 10 2 Deskriptive Statistik 2.4.2 Gini-Koeffizient Um die Aussagen der Lorenz-Kurve noch weiter zu komprimierne wird der Gini-Koeffiziet G eingeführt, der dem doppelten der zwischen der wirklich betrachteten Lorenzkurve und der Lorenzkurve bei perfekter Einpunktverteilung eingeschlossenen Fläche F entspricht. Über die Tatsache, dass die maximale Konzentration vorliegt, wenn ein Marktteilnehmer das gesamte Marktvolumen auf sich vereinigt, lässt mit einfachen Dreiecksberechnungen zeigen, dass Gmax = 2Fmax = n−1 < 1. Selbstverständlich gilt auch 0 ≤ G. n G Normierter Gini-Koeffizient: G∗ = Gmax Anmerkung: Natürlich macht es nicht immer Sinn, einfach nur den Gini-Koeffizienten zu vergleichen. Durch die Lorenzkurve können immer noch verschiedene Verteilungen beschrieben werden, sodass die Angabe der Lorenzkurve immer sinnvoll ist. Außerdem ist der Gini-Koeffizient sehr leicht durch Wahl größerer Gruppen (bei sortierten Daten) zu manipulieren. 2.4.3 Herfindahl-Index H= n ∑ p2i i=1 mit pi = pi V 1 ≤H≤1 n Auf den Herfindahl-Index wirken sich zwei Effekte aus: 1. Anzahlseffekt: Je mehr Teilnehmer sich auf einefzm Markt tummeln, desto weniger konzentriert ist er. 2. Merkmalseffekt (relative Konzentration): Je mehr Marktanteil ein Teilnehmer auf sich vereinigt, desto konzentrierter ist der Markt. Zur Verbesserung der Vergleichbarkeit wäre es natürlich hilfreich, die Effekte isoliert betrachten zu können. Gegeben seien also zwei Märkte A, B mit den Anbieterzahlen nA , nB und den Herfindahl-Indizes HA , HB . Ein um den Anzahlseffekt bereinigter Herfindahl-Index, A mit dem sich die beiden Märkte vergleichen lassen, ergibt sich dann mit HA′ = H bzw. mit nB HB ′ ′ ′ HB = nA . Wenn HA , HB dann als Maß für den Merkmalseffekt und nA , nB als Maß für den Anzahlseffekt verwendet werden, lassen sich einerseits die Wirkrichtungen der beiden Effekte feststellen, andererseits lässt sich mit HA , HB auch darauf schließen, ob bei gegenläufigen Effekten einer den anderen überkompensiert. 11 2 Deskriptive Statistik 2.5 Auswertung zweidimensionalen Datenmaterials Bei zweidimensionalem Datenmaterial handelt es sich um Urlisten, bei denen die Urlistenelemente 2-Tupel (xi , yi ) sind; dies gilt natürlich auch für die realisierten Ausprägungen (ai , bi ) bei sortierten Daten. Man definiert dann folgende Häufigkeiten: • hij := h(ai , bj ): Wie häufig ist genau die Kombination der Merkmalsausprägungen (ai , bj ) aufgetreten? Dies ist die simultane Häufigkeit ∑ • hi· := j h(ai , bj ): Wie häufig ist die Merkmalsausprägung ai aufgetreten? (Randhäufigkeit) ∑ • h·j := i h(ai , bj ): Wie häufig ist das Merkmalsausprägung bj aufgetreten? (Randhäufigkeit) • Natürlich gibt es dazu auch noch relative Varianten: fij := hij , fi· n := hi· , f·j n := h·j n • Weiterhin definiert man relative bedingte Häufigkeiten, zu denen es kein absolutes Pendant gibt. Diese geben an, wie häufig eine Merkmalsausprägung ai bei den Trägern einer bestimmten Merkmalsausprägung bj des anderen Merkmals auftritt. h f (ai |bj ) := hij·j : Wie häufig tritt die Merkmalsausprägung ai bei den Trägern der Merkmalsausprägung bj auf? h f (bj |ai ) := hiji · : Wie häufig tritt die Merkmalsausprägung bj bei den Trägern der Merkmalsausprägung ai auf? Man definiert nun die Unabhängigkeit zweier Merkmale über die bedingten Wahrscheinlichkeiten. Zwei Merkmale sind genau dann unabhängig, wenn ∀ai f (ai |b1 ) = f (ai |b2 ) = · · · = f (ai |bl ) ⇔ ∀bj f (bj |a1 ) = f (bj |a2 ) = · · · = f (bj |ak ). Folgerungen aus der Unabhängigkeit: • ∀(i, j) f (ai |bj ) = hi· n • ∀(j, i) f (bj |ai ) = h·j n • ∀(i, j) hij = hi ·hj n Die letzte Folgerung ist außerdem sehr praktisch, da mit ihr für jedes hij ein h̃ij bestimmt werden kann, das bei Unabhängigkeit erwartet würde. Wenn dann ∀(i, j) hij = h̃ij , folgt direkt die Unabhängigkeit der Merkmale. 2.5.1 Darstellung in einer Kontingenztafel Die Kontingenztafel dient der Darstellung von sortierten zweidimensionalen Daten. 12 2 Deskriptive Statistik b1 b2 . . . bl Randhäufigkeiten h11 . . . . . . h1l h1· .. .. .. .. . . . a2 . .. .. .. .. .. . . . . . ak hk1 . . . . . . hkl hk· n Randhäufigkeiten h·1 . . . . . . h·l Zusätzlich zu den hij kann in den einzelnen Zellen noch das zugehörige h̃ij eingetragen werden, um eine schnelle Antwort auf die Frage geben zu können, ob die Merkmale unabhängig sind. a1 2.5.2 Abhängigkeitsmaße Man sollte aus statistischer (Un-)Abhängigkeit nicht direkt auf kausale (Un-)Abhängigkeit schließen. Es können Einflüsse durch eine gemeinsame Ursache vorliegen. Kontingenzkoeffizient Aus den hij und den h̃ij kann man glücklicherweise nicht nur einfach die Unabhängigkeit feststellen, sondern auch im anderen Fall einen praktisches Maß für die Abhängigkeit konstruieren. Dieser Koeffizient kann für alle Skalierungen gebildet werden. ∑ (hij − h̃ij )2 χ := h̃ij i,j √ χ2 K := χ2 + n mit 0 ≤ χ2 2 K K1 := , Kmax = Kmax mit 0 ≤ K < 1 √ m−1 , m = min{k, l} m mit 0 ≤ K1 ≤ 1 Interpretation: Wenn K∗ = 0 sind die Merkmale unabhängig (folgt direkt aus der Definition der Unabhängigkeit). Wenn K∗ = 1 sind die Merkmale perfekt abhängig in dem Sinne, dass aus der einer Merkmalsausprägung ai sicher auf eine Merkmalsausprägung bj beim Merkmalsträger geschlossen werden kann. Rang-Korrelationskoeffizient nach Kendall Bei ordinal saklierten Merkmalen kann nicht nur die Stärke, sondern auch die Richtung dieses monotonen Zusammenhangs angegeben werden. Dabei wird mit der Variable P angegeben, wie oft bei pärchenweisen Vergleichen der Merkmalsträger die statistischen Größen X, Y diese Merkmalsträger gleich herum anordnen (d.h. gleichzeitig aufsteigend), und mit der Variablen Q, wie oft sie in unterschiedlicher Reihenfolge angeordnet werden(d.h. einmal aufsteigend und einmal absteigend). 13 2 Deskriptive Statistik τ := P −Q (n) 2 mit − 1 ≤ τ ≤ 1 Falls bei einer Ordinalskala zwei Merkmalsträger die gleiche Rangposition zugeschrieben wird (Bindungen), muss τ korrigiert werden. Bei P, Q ist zu beachten, dass bei pärchenweisen Vergleichen, bei denen zwei Merkmalsträger von mindestens einer statistischen Größe auf dem gleichen Rang angeordnet werden, weder als gleichzeitig aufsteigend noch als gleichzeitig absteigend sondern gar nicht gewertet werden. Weiterhin ist k die Anzahl der Bindungen und gi die Länge der i-ten Bindung in der Rangreihe von X bzw. Y . τ ∗ := √( ) n 2 τx,y = 1 2 k ∑ P −Q √( ) n − τx · − τy 2 gi · (gi − 1) i=1 Kovarianz Die Kovarianz gibt die gemeinsame mittlere Streuung zweier statistischer Größen an. Aus ihr lässt sich ablesen ob ein linearer Zusammenhang existiert (falls sx y ̸= 0 ) und in welche Richtung dieser geht, nicht jedoch, wie stark dieser ist. 1∑ (xi − x̄) · (yi − ȳ) n i=1 n sxy = = n ∑ xi · yi − n · x̄ȳ Verschiebungssatz für die Kovarianz i=1 y + ȳ + x̄ 14 x 2 Deskriptive Statistik Korrelationskoeffizient nach Bravais-Pearson Eine normierte Variante der Kovarianz mit schönen Beschränkungen stellt der Korrelationskoeffizient nach Bravais-Pearson dar. sxy sx · sy mit − 1 ≤ r ≤ 1 r := über Cauchy-Schwartz Mit dem Verschiebungssatz lässt sich außerdem eine Form bestimmen, die sehr viel einfacher für große Datenmengen zu berechnen ist als das Original. Partielle Korrelation Falls eine Drittvariable Z Einfluss auf die beiden statistischen Größen X, Y hat, kann der durch diese Drittvariable verursachte Einfluss aus der (Rang- oder Maß-) Korrelation zwischen X, Y eliminiert werden. Z Kausalwirkung X Kausalwirkung Hohe Korrelation Y τxy − τxz · τyz τxy·z = √ 2 ) · (1 − τ 2 ) (1 − τxz yz rxy·z = √ rxy − rxz · ryz 2 ) · (1 − r 2 ) (1 − rxz yz 2.6 Lineare Regression Wenn zwischen zwei kardinal skalierten statistischen Größen X, Y ein kausaler Zusammenhang angenommen wird, kann eine Regression durchgeführt werden, bei der X als erklärende und Y als zu erklärende Variable angesehen wird. Ziel ist es, eine Funktion f zu finden, die die einzelnen Datenpunkte (x, y) optimal (d.h. mit möglichst geringer Abweichung) beschreibt. ∑ Dazu lässt sich die gesamte quadratische Abweichung der yi von∑ ȳ, formal ni (yi − ȳ)2 (SQT), additiv aufspalten in einen von der Regression erklärten Teil ni (ŷi − ȳ)2 (SQE) und 15 2 Deskriptive Statistik ∑ einen von der Regression unerklärten Teil ni (ŷi − ŷi )2 (SQR). Ein f : R → R, das die (x, y) bei gegebenem Funktionstyp optimal beschreibt, ist also gefunden, wenn der unerklärte Teil der gesamten quadratischen Abweichung minimal wird. Mit der Differenzialrechnung lässt sich dieses Minimum für ein minimales f leicht bestimmen: â = ȳ − b̂ · x̄ sxy b̂ = 2 sx Aus SQR und SQT lässt sich auch gleich eine Maßzahl dafür generieren, wie gut die Regression gelungen ist (das sog. Bestimmtheitsmaß). SQE SQT mit 0 ≤ R2 ≤ 1 R2 = Zu beachten ist, dass das f immer nur für die x sinnvoll zu interpretieren ist, die in der Umgebung eines Datums xi liegen. Daher sagt das Bestimmtheitsmaß auch nichts darüber aus, ob die gewählte Regression immer sinnvoll ist. In einem anderen Intervall kann der Zusammenhang auch schon wieder ganz anders aussehen. 16 3 Kombinatorik Die grundsätzliche Frage der Kombinatorik ist: Wie kann eine gegebene Anzahl von Elementen angeordnet oder zusammengefasst werden? Dafür gibt es, je nach Problemstellung, eine Sammlung praktischer Formeln. Das Problem liegt nur darin, zu erkennen, wann welche anzuwenden ist. 3.1 Permutation Von lat. permutare - vertauschen: Wie viele Möglichkeiten gibt es, n Elemente anzuordnen? Es handelt sich also ein Problem unter Berücksichtigung der Reihenfolge der Elemente. Es ist dabei zu unterscheiden, ob es sich um ein Problem mit sich wiederholenden (d.h. gruppenweise nicht unterscheidbaren) Elementen, z.B. eine Sammlung von Büchern, von denen einige den gleichen Autor und Titel haben, oder eine ohne sich wiederholende (d.h. immer einzeln identifizierbaren) Elenente, z.B. eine Sammlung von Büchern mit jeweils verschiedenen Autoren und Titeln, handelt. 3.1.1 Ohne Wiederholung Es gibt n Möglichkeiten, die erste Position der Anordnung zu besetzen. Für jede dieser Möglichkeiten gibt es n − 1 Möglichkeiten, die zweite Position dieser Anordnung zu besetzen. Insgesamt also schon n · (n − 1) Möglichkeiten. Für die dritte Position sind es, wenn die ersten schon festgelegt sind, jeweils n − 2 Möglichkeiten, diese zu besetzen. Insgesamt also n · (n − 1) · (n − 2). Wenn dies nun fortgeführt wird bis zur n-ten Position bleibt am Ende nur noch eine einzige Möglichkeit, diese zu besetzen. Allgemein sind es also n! := 1 · 2 · ... · n Möglichkeiten, diese n Objekte anzuordnen. 3.1.2 Mit Wiederholung Wenn alle Objekte als individuell angesehen würden, gäbe es hier natürlich n! Möglichkeiten, diese anzuordnen. Da diese Objekte nun aber gruppenweise nicht mehr unterscheidbar sind, gibt es einige Möglichkeiten, die nun nicht mehr von anderen Möglichkeiten unterscheidbar sind und daher aussortiert werden müssen. Man endet dann bei p1 !·p2n!!·p3 !·... , wobei pi die Größe jeder Gruppe i nicht unterscheidbarer Elemente angeben. 17 3 Kombinatorik 3.2 Variation Von lat. variare - verändern: wie viele Möglichkeiten gibt es, aus einer Menge von n Elementen r Elemente zu ziehen? Zwei Möglichkeiten, die zwar die gleichen Elemente, aber in unterschiedlicher Reihenfolge enthalten, werden als unterschiedlich betrachtet (und somit jede für sich gezählt). Dabei ist zu beachten, ob ein Element mehrfach („mit Wiederholung“) oder nur einmal gezogen werden kann („ohne Wiederholung“). Man beachte, dass sich dieser Begriff leicht von dem der Permutation unterscheidet. 3.2.1 Ohne Wiederholung Beim ersten Zug gibt es noch n Möglichkeiten, ein Element zu ziehen, beim zweiten nur noch n − 1, da das erste ja schon gezogen worden ist. Dies geht weiter bis zum r-ten Zug, bei dem es dann nur noch n−r+1 Möglichkeiten gibt. Insgesamt gibt es also n·(n−1)·. . .·(n−k+1) n! Möglichkeiten, was sich auch schreiben lässt als (n−k)! . 3.2.2 Mit Wiederholung Beim ersten Zug gibt es n Möglichkeiten, ein Element zu ziehen. Beim zweiten Zug gibt es wieder genau diese Möglichkeiten und so weiter bis zum r-ten Zug, sodass es insgesamt nr Möglichkeiten gibt. 3.3 Kombination Von lat. combinare - arrangieren: wie viele Möglichkeiten gibt es, aus einer Menge von n Elementen r Elemente zu ziehen? Zwei Möglichkeiten, die die gleichen Elemente, aber in unterschiedlicher Reihenfolge enthalten, werden als gleich betrachtet (und somit nur einmal gezählt). Die Definition von mit bzw. ohne Wiederholung ist analog zu derjenigen bei der Variation. 3.3.1 Ohne Wiederholung n! Möglichkeiten, die Elemente Hierbei gibt es zuallererst, genau wie bei der Variation, (n−r)! anzuordnen. Allerdings sind hierbei noch die r! Möglichkeiten enthalten, die Elemente jeder untereinander zu vertauschen. Wenn man diese noch entfernt ergeben sich (n) Möglichkeit n! := (n−r)!r! Möglichkeiten. r 3.3.2 Mit Wiederholung Warum (n+k−1) das hier so ist habe ich zwar nicht mehr herausfinden können, aber es kommt raus . k 18 3 Kombinatorik 3.4 Symmetrie des Binomialkoeffizienten Ganz praktisch: (n) r = ( n n−r ) 19 4 Stochastik In der Stochastik geht es eigentlich einfach nur darum, die Wahrscheinlichkeit eines Ereignisses A aus verschiedenen anderen Wahrscheinlichkeiten zu berechnen. Dafür muss grundsätzlich erst einmal im Allgemeinen definiert werden, was ein Ereignis ist (da dies ja von Fall zu Fall sehr unterschiedlich sein kann). Es wird also zuallererst eine Menge Ω definiert, die alle nicht weiter aufspaltbaren Elementarereignisse ω enthält. Ein Ereignis ist nun einfach eine Teilmenge von Ω. Es kann nun ein Mengensystem A konstruiert werden, das alle interessanten Ereignisse (inklusive Ω), alle Schnitte und Vereinigungen dieser interessanten Ereignisse sowie ihre Komplemente enthält. Eine Funktion P : A → R, die dem Axiomensystem von Kolmogoroff (s.u.) gerecht wird, heißt nun Wahrscheinlichkeitsfunktion. Man bezeichnet das 3-Tupel (Ω, A, P ) auch als Wahrscheinlichkeitsraum. ω6 ω5 B ω3 ω2 ∅ ω1 ω4 A ∅ → Ω Ω → B P (∅) P (A∩B) P (A) P (A∪B) P (Ω) A A R Für die widerspruchsfreie Herumrechnerei mit Wahrscheinlichkeiten müssen für P nur drei Eigenschaften gefordert werden: • Positivität: P (A) ≥ 0 ∀A ∈ A • Normierung: P (Ω) = 1 • Additivität: oder abzählbar unendlich viele Ai mit Ai ∩ Aj = ∅ (i ̸= j) ∪ Für abzählbar ∑ gilt P ( i Ai ) = i P (Ai ). 4.1 Eigenschaften von Ereignissen • De Morgan’sche Gesetze: A ∪ B = Ā ∩ B̄ und A ∩ B = Ā ∪ B̄ • Vereinigung und Durchschnitt sind sowohl kommutativ als auch assoziativ, in Verbindung miteinander distributiv in alle Richtungen wie man es gerne mag. 20 4 Stochastik • A, B ⊂ Ω heißen disjunkt, falls A ∩ B = ∅. ∩ • Ai heißen vollständig disjunkt, falls i Ai = ∅. • Ai heißen paarweise disjunkt, falls ∀(i, j) miti ̸= j Ai ∩ Aj = ∅. • Aus Ai paarweise disjunkt folgt Ai vollständig disjunkt, aber nicht umgekehrt. Eine sehr praktische Anwendung dieser Gesetzmäßigkeiten ist die disjunkte Zerlegung: A = (A ∩ B̄) ∪ (A ∩ B). 4.2 Bestimmung einer Wahrscheinlichkeitsfunktion Darüber, wie man die Wahrscheinlichkeiten eines Ereignisses letztlich bestimmt, kann man trefflich streiten. Im Grunde genommen gibt es aber drei Positionen. Die erste unter ihnen, die klassische Herangehensweise nach Laplace, ist die Annahme der Gleichwahrscheinlichkeit aller aus einem Elementarereignis bestehenden Ereignisse Ai . Dies ist nur sinnvoll, wenn Ω i| endlich ist. Es folgt dann P (Ai ) = |A . |Ω| Falls aber ein guter Grund ersichtlich ist, warum ein Elementarereignis vor einem anderen bevorzugt sein könnte, ist es häufig sinnvoller, entweder eine objektivistisch oder subjektivistische Herangehensweise zu wählen. objektivistisch subjektivistisch Interpretation Wahrscheinlichkeit ist eine Wahrscheinlichkeit ist nicht quasi-physikalische Eigenschaft, die in den Dingen, sondern in mir. unabhängig vom Betrachter ist. Alles andere ist Aberglaube. Methoden Verwendung von Vergangenheitsdaten Sammlung von Wissen und (s. Kapitel 1) Argumenten Beispiel Wie wahrscheinlich ist der Zerfall eines Wie wahrscheinlich ist es, Uran-Atoms? dass ich morgen die Klausur Wie wahrscheinlich ist es, dass es bestehe? morgen regnet? Wie wahrscheinlich ist ein GAU? Stärken Anspruch wissenschaftlicher Findet Wahrscheinlichkeiten Vergleichbarkeit für nicht wiederholbarer Verfügt über alle Methoden der Experimente induktiven Statistik Einzelfallbeurteilung möglich Praktisch: P (A) = limn→∞ fn (A) Schwächen Nur Aussagen über (annähernd) Schwer vergleichbar unendliche Folgen möglich Als Ergebnis schwer zu Keine Aussagen über Individuen möglich verkaufen 21 4 Stochastik 4.3 Rechenregeln für Wahrscheinlichkeiten 4.3.1 Allgemeiner Additionssatz A, B ⊂ Ω P (A ∪ B) = P (A) + P (B) − P (A ∩ B) 4.3.2 Bedingte Wahrscheinlichkeiten und stochastische Unabhängigkeit Man definiert bedingte Wahrscheinlichkeiten wie folgt: A, B ⊂ Ω P (A ∩ B) P (A/B) := P (B) mit P (B) ̸= 0 Nun kann man auch die Unabhängigkeit von Ereignissen definieren: A, B sollen stochastisch unabhängig sein, wenn P (A/B) = P (A) und wenn P (B/A) = P (B), wobei sinnvollerweise P (A), P (B) ̸= 0 gelten muss. Dies ist äquivalent zu P (A ∩ B) = P (A) · P (B) (was auch als Multiplikationssatz bezeichnet wird). ∏ ∩ Mehrere Ai heißen vollständig stochastisch unabhängig, wenn P ( i Ai ) = i P (Ai ). Sie heißen paarweise stochastisch unabhängig, wenn ∀i, jmit i ̸= j P (Ai ∩ Aj ) = P (Ai ) · P (Aj ). Aus vollständiger stochastischer Unabhängigkeit folgt die paarweise stochastische Unabhängigkeit, nicht umgekehrt. 4.3.3 Satz von Bayes Vorlauf: P (D ∩ A) P (A) ⇔ P (A ∩ B) = P (A) · P (D/A) Einsetzen: P (A ∩ D) P (A/D) = P (D) P (D/A) · P (A) = P (D) P (D/A) = 22 4 Stochastik 4.4 Zufallsgrößen Um die Handhabung von Ereignissen zu vereinfachen, führt man Zufallsgrößen ein, die jedem Ergebnis ω ∈ Ω ein Element aus einem Wertebereich W zuordnen: X : Ω → W, X(ω) = x. Als Zufallsvariablen bezeichnet man solche Zufallsgrößen, für die W = R gilt. Nun wird für jede Zufallsvariable eine Wahrscheinlichkeitsfunktion P eingeführt, die jedem V ⊂ W eine Wahrscheinlichkeit nach obiger Definition zuordnet. Des weiteren wird eine theoretische Verteilungsfunktion F (x) = P (X ≤ x definiert. Diese haben dann einige praktische Eigenschaften: • 0 ≤ P (X = x) ≤ 1 • 0 ≤ F (x) ≤ 1 • limx→−∞ F (x) = 0, limx→∞ F (x) = 1 • x1 < x2 =⇒ F (x1 ) ≤ F (x2 )70 Mit dieser Wahrscheinlichkeitsfunktion lässt sich nun analog zur Wahrscheinlichkeitsfunktion für Ereignisse die Unabhängigkeit zweier Zufallsvariablen X1 , X2 definieren: P ((X1 ∈ V1 ) ∩ (X2 ∈ V2 )) = P (X1 ∈ V1 ) · P (X2 ∈ V2 ) Analog zu oben kann man natürlich auch über paarweise und vollständige Unabhängigkeit von Zufallsvariablen reden. 4.4.1 Diskrete Zufallsvariablen Eine Zufallsvariable heißt diskret, falls ihr Wertebereich nur abzählbar oder abzählbar unendlich viele Elemente beinhaltet. Daraus folgen Eigenschaften für die Wahrscheinlichkeitsund die Verteilungsfunktion: ∑ • x P (X = x) = 1 ∑ • F (x0 ) = x≤x0 P (X = x) Bei der grafischen Darstellung als Stabdiagrammm werden auf der Abszisse die x abgetragen, auf der Ordinate die dazugehörigen P (X = x). 4.4.2 Stetige Zufallsvariablen Eine Zufallsvariable X heißt stetig, wenn sein Wertebereich alle Werte oder die Werte eines , mit der Intervalls von R annehmen kann. Die Dichtefunktion f (x) = lim∆x→0 x≤X≤x+∆x δx die Verteilung von X beschrieben wird, hat dann folgende Eigenschaften: • 0 ≤ f (x) 23 4 Stochastik • F (x) = ´x • F (∞) = −∞ f (t)dt ´∞ −∞ f (x)dx = 1 • P (a ≤ X ≤ b) = P (a < X ≤ b) = P (a < X < b) = ´b a f (x)dx Aus diesen Eigenschaften ergibt sich sofort, dass ein punktförmiges Ereignis (z.B. {X = a} = {a ≤ X ≤ a} die Wahrscheinlichkeit 0 hat. Es können also immer nur sinnvolle Wahrscheinlichkeiten dafür angegeben werden, dass X in einem Intervall [a; b] liegt. Bei der grafischen Darstellung als Blockdiagramm wird auf der Abszisse R abgetragen, auf der Ordinate die dazugehörigen f (x). P (X ≤ x) und alle anderen Wahrscheinlichkeiten lassen sich dann wie oben angegeben als Fläche unter der Kurve ablesen. 4.4.3 Kennzahlen von Zufallsvariablen • Modus: Dasjenige µ̊ mit P (X = µ̊) > P (X = x) ∀ x ̸= µ̊. Für stetige X folgt für den Modus f (µ̊) > f (x) ∀ x ̸= µ̊ • Quantile: xq := dasjenige kleinste x, für das F (x) ≥ q • Median: µ̃ = x0.5 • Erwartungswert ∑ Für diskrete X: µ := E(X) := x x · P (X = x) ´∞ Für stetige X: µ := E(X) := −∞ x · f (x)dx • Varianz ∑ Für diskrete X: σ 2 = Var(X) = x (x − E(X))2 · P (X = x) ´∞ Für stetige X: σ 2 = Var(X) = −∞ (x − E(X))2 · f (x)dx √ • Standardabweichung: σ = σ 2 • Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) • Es gibt noch einen witzigen p-Quantilskoeffizienten der Schiefe, der in der Formelsammlung steht. Rechenregeln für den Erwartungswert: E(X + a) = E(X) + a E(a · X) = a · E(X) E(X + Y ) = E(X) + E(Y ) E(X · Y ) = E(X) · E(Y ) ⇐ X, Y unabhängig 24 4 Stochastik Rechenregeln für die Varianz: Var(X + a) = Var(X) Var(a · X) = a2 · Var(X) Var(X ± Y ) = Var(X) + Var(Y ) ± 2 · Cov(X, Y ) Var(X) = E( (X − E(X))2 ) = E(X 2 ) − (E(X))2 Verschiebungssatz 4.5 Stochastische Modelle 4.5.1 Diskrete stochastische Modelle Bernoulli-Experiment Bei einem Bernoulli-Experiment nimmt die einzige Zufallsvariable X ∈ {0, 1} mit einer Wahrscheinlichkeit von π 1 (Erfolg) und (logischerweise) mit einer Wahrscheinlichkeit von 1 − π (Misserfolg) an. E(X) = π Var(X) = π · (1 − π) X ist Bernoulli-verteilt mit π. Binomialverteilung Der Binomialverteilung liegen n unabhängige und identisch verteilte Bernoulli-Experimente mit den Zufallsvariablen Xi , 1 ≤ i ≤ n zugrunde. Die Zufallsvariable X ∈ {0, ..., n} bezeichnet die Anzahl der Erfolge, die dabei erzielt werden. Mit dem Multiplikationssatz folgt für ein beliebiges Tupel x1 , . . . , xn , bei dem genau x n−x Erfolge vorliegen, eine Wahrscheinlichkeit von P (X1 = x1 , ..., Xn = xn ) = π x · (1 (n)− π) . n! Mit der aus der Kombinatorik bekannten Tatsache, dass diese xi auf x!·(n−x)! = x Weisen angeordnet werden können (Permutation mit Wiederholung, zufälligerweise dem (n)die hier x Binomialkoeffizienten entspricht), folgt direkt P (X = x) = x · π · (1 − π)n−x . Weiterhin lassen sich folgende Dinge leicht nachweisen: E(X) = n · π Var(X) = n · π · (1 − π) X ∑ist B(n; π)-verteilt. Praktischerweise gilt für B(nj ; π)-verteilte Xj , dass Y = B( j nj ; π) ist. 25 ∑ j Xj 4 Stochastik Hypergeometrische Verteilung Der hypergeometrischen Verteilung liegen n abhängige (und demzufolge nicht identisch) verteilte Bernoulli-Experimente zugrunde. Dies kann anschaulich mit einer Urne verdeutlicht werden, in der N Objekte liegen, von denen M eine besondere Eigenschaft haben Aus dieser Urne wird n mal gezogen. Das Ziehen einer dieser besonderen Objekte wird als Erfolg gewertet, alles andere als Misserfolg. Die Zufallsvariable X ∈ {max(0, n − (N − M )), . . . , min(n, M ) bezeichnet auch hier die Anzahl der Erfolge. Die Anzahl der Möglichkeiten, n Elemente aus einer Menge von N Elementen zu ziehen, ohne dabei auf die Reihenfolge, in der die Elemente gezogen werden, Rücksicht zu nehmen ( ) (Kombination, natürlich ohne Wiederholung) beträgt Nn . Die Anzahl der günstigen (M )Möglichkeiten, genau x mal eines der besonderen Elemente zu ziehen beträgt zunächst x . Allerdings gibt es für jede dieser Möglichkeiten noch einmal (N −M ) weitere Möglichkeiten, die verbliebenen n−x Züge mit den N −M nicht-besonderen n−x ( ) (N −M ) Elementen zu füllen. Insgesamt gibt es also M · n−x günstige Möglichkeiten. x Nach Laplace ergibt sich dann folgende Wahrscheinlichkeitsfunktion mit passendem Erwartungswert und Varianz: (M ) (N −M ) · P (X = x) = x (N )n−x n M E(X) = n · N M M N −n Var(X) = n · · (1 − ) · N N N −1 X ist H(N ; M ; n) und lässt sich, falls n ≪ N gut mit der Binomialverteilung annähern. Geometrische Verteilung Eine geometrisch verteilte Zufallsvariable basiert auf der gleichen Modellvorstellung wie die Binomialverteilung, mit dem einzigen Unterschied, dass die Zufallsvariable X ∈ 1, . . . die Anzahl der (auch hier unabhängigen) Züge bis zum ersten Erfolg darstellt. Es ergeben sich folgende Gesetzmäßigkeiten: P (X = x) = (1 − π)x−1 · π 1 E(X) = π 1−π Var(X) = π X ist G(π)-verteilt. 26 4 Stochastik Negative Binomialverteilung Die negative Binomialverteilung ist eine Verallgemeinerung der geometrischen Verteilung: X gibt die Anzahl der Züge bis zum r-ten Erfolg an. Die Wahrscheinlichkeit, x Misserfolge und r Erfolge zu haben ist gegeben durch (1−π)x ·π r . Es gibt jedoch mehrere Möglichkeiten, wie diese Kombination zustande kommen kann, weil es möglich diese x + (r − 1) Elemente verschieden anzuordnen (es sind nicht x + r Elemente, da der letzte Erfolg zwangsläufig am Ende der Reihe von Zügen stehen muss). Da sich die x und r−1 Elemente nicht qualitativ unterscheiden, handelt es sich um Permutation mit Wiederholung, d.h. es bleiben im Endeffekt nur (x+(r−1))! Möglichkeiten. Daraus ergeben sich dann folgende Eigenschaften: x!(r−1)! P (X = x + r) = r π (1 − π) · r Var(X) = π2 (x + (r − 1))! · (1 − π)x · π r x!(r − 1)! E(X) = X ist dann N B(r, π)-verteilt (was man im Übrigen auch Pascal-verteilt nennt). Poissonverteilung Die Poissonverteilung ist die erste Verteilung, der ein sogenannter „stochastischer“ Prozess zugrunde liegt. Was das genau ist, weiß ich nicht genau, ist aber bestimmt in einem guten Buch definiert (und nicht so wichtig für die Klausur). Die Modellvorstellung ist dabei wieder die ähnich wie bei der Binomialverteilung, allerdings bezeichnet X die Anzahl der Erfolge in einem bestimmten, festen Intervall. Beispiele sind: • Die Anzahl der Personen, die in einem Geschäft in einem Zeitraum einkaufen. • Die Anzahl der Schlaglöcher, die auf einem Stück Autobahn auftauchen. Gegeben ist dabei immer die sogenannte „Intensität“ des Poisson-Prozesses, d.h. die Anzahl der Erfolge, die durchschnittlich in diesem Intervall auftreten; d.h. der Erwartungswert der gedachten Binomialverteilung λ := E(X) = n · π = const. Bei der Poisson-Verteilung wird nun angenommen, dass in dem festen Intervall sehr, sehr häufig gezogen wird, sodass sich im Grenzübergang von der Binomialverteilung folgende Wahrscheinlichkeitsfunktion ergibt (Erwartungswert und Varianz sind recht einfach herzuleiten): 27 4 Stochastik P (X = x) = lim PB (X) ( ) n = lim · pix · (1 − π)n−x n→∞,n·πconst x λx −λ = ... = ·e x! E(X) = λ = n · π Var(X) = λ n→∞,n·πconst (x ∈ {0, 1, . . .}) (logisch) Um mit dieser Verteilung zuverlässige Wahrscheinlichkeiten für die wirkliche Welt angeben zu können, muss der wirkliche Vorgang einige Eigenschaften haben (die Eigenschaften des Poisson-Prozesses): • Stationarität: Die Wahrscheinlichkeit von x Erfolgen in dem gegebenen Intervall hängt nur von der Länge des Intervalls ab, nicht aber von seiner Position. Für das Autobahnbeispiel hieße das, dass die gesamte Autobahnstrecke (nicht nur das eine Intervall) überall gleich schlecht ist. • Nachwirkungsfreiheit: Die Wahrscheinlichkeit von x Erfolgen in dem gegebenen Intervall hängt nicht davon ab, wie viele Erfolge schon vor diesem Intervall eingetreten sind (was natürlich zwingend notwendig ist, da es sonst Unfug wäre, von der Binomialverteilung auszugehen). Zurück zum Autobahnbeispiel: Die Anzahl der Schlaglöcher, die im kommenden Intervall auf mich warten, ist unabhängig davon, wie viele Schlaglöcher meine Aufhängung bereits in Mitleidenschaft gezogen haben. • Ordinarität: Das Eintreten von mehr als einem Erfolg in einem sehr, sehr kleinen Intervall ist praktisch unmöglich. Dies ist sinnvoll für die Vorstellung einer Binomialverteilung mit unendlich vielen Zügen, die ja wiederum aus Bernoulli-Experimenten besteht, die ja selbst nur entweder zu Erfolg oder zu Misserfolg (also Schlagloch oder = 0. Man kann also auf kein Schlagloch) auswerten. Mathematisch: lim∆t→0 P∆t (X>1) ∆t einem infinitesimal kleinen Stück Autobahn auf maximal ein Schlagloch treffen. Multinomialverteilung Die Multinomialverteilung ist eine Verallgemeinerung der Binomialverteilung, bei der nicht mehr unabhängige und identisch verteilte Bernoulli-Experimente, sondern unabhängige und identisch verteilte Experimente mit k verschiedenen Ergebnissen Ei , von denen jeweils eines eintritt. Die Zufallsvariable X ist dann ein Vektor mit den Elementen X1 , . . . , Xk , die jeweils angeben, wie oft das Ereignis Ei bei n Durchführungen dieses Experimentes eingetreten ist. Mit πi wird die Wahrscheinlichkeit des Eintretens des Ereignisses Ei bei einem Experiment bezeichnet. Mit analogen Überlegungen zur Binomialverteilung ergibt sich dann folgende Wahrscheinlichkeitsfunktion: 28 4 Stochastik ∏ n! P (X = (x1 , . . . , xk )) = ∏ · πixi x ! i i i E(Xi ) = n · πi Var(Xi ) = n · πi · (1 − πi ) Cov(Xi , Xj ) = −n · πi · pj (i ̸= j) X ist M (n, π1 , . . . , πk . Multivariate hypergeometrische Verteilung Es handelt sich hierbei um eine Multinomialverteilung mit abhängigen Zügen. Details finden sich in guten Büchern und die Formel in der Formelsammlung. Negative hypergeometrische Verteilung Es handelt sich hierbei um eine negative Binomialverteilung mit abhängigen Zügen. Details finden sich in guten Büchern und die Formel in der Formelsammlung. Pólya-Verteilung Bei der Pólya-Verteilung beschreibt X die Anzahl der Erfolge bei einer ganz bestimmten Art, aus einer Urne mit a besonderen und N − a nicht besonderen Kugeln zu ziehen: nach jedem Zug wird die Kugel wieder zurückgelegt und es werden zusätzlich c neue Kugeln der gleichen Art mit in die Urne gegeben. Dies ist offensichtlich besonders praktisch, Ansteckungseffekte (z.B. bei Krankheiten) zu simulieren: je mehr Personen erkranken (d.h. je mehr Erfolge sich ereignen), desto wahrscheinlicher wird es, dass noch mehr Personen erkranken (es werden ja mehr besondere Kugeln in die Urne gegeben). Die Wahrscheinlichkeitsfunktion ist, wie man sich bestimmt vorstellen kann, ein besonders hässliches Ungetüm, für das auf ein gutes Buch verwiesen wird. 4.5.2 Stetige stochstische Modelle Gleichverteilung Für eine gleichverteilte Variable X ∈ [a; b], bei der jedes gleich große Intervall in [a; b] die gleiche Wahrscheinlichkeit hat, gelten folgende Eigenschaften: { falls a ≤ x ≤ b 0 sonst b−a E(X) = a + 2 1 Var(X) = (b − a)2 12 f (x) = 1 b−a 29 4 Stochastik Exponentialverteilung Zu einer Poisson-verteilten Variablen Xt , die die Anzahl der Erfolge in einem Intervall der Länge t bei einer Intensität von λ angibt, gibt die Zufallsvariable T die Länge des Teils des Intervalls an, der vor dem ersten Erfolg liegt. Xt hat dann die Intensität λ · t und die x Wahrscheinlichkeitsfunktion P (Xt = x) = (λt) e−λt . Die Wahrscheinlichkeit P (T > t) x! (d.h. dass mehr als t vergeht, bevor ein Erfolg erzielt wird), ist logischerweise gleich der Wahrscheinlichkeit, dass von 0 bis t kein Erfolg erzielt wird, also gleich P (Xt = 0). Es lässt sich also folgern dass P (T > t) = P (Xt = 0) = e−λt . Für das Gegenereignis folgt P (T ≤ t) = F (t) = 1 − P (T > t) = 1 − e−λt . Die Angabe einer Dichtefunktion erledigt sich also in diesem Fall, da man gleich die Verteilungsfunktion angeben kann, was viel praktischer ist. Für die Formelsammlung kann man sie aber trotzdem hinschreiben (ist ja einfach nach dem Satz zum Zusammenhang zwischen Dichte- und Verteilungsfunktion mit ein wenig Analysis): f (t) = λ · e−λt 1 E(T ) = λ 1 Var(T ) = 2 λ P (T > s + t/T > s) = P (T > t) P (T ≤ s + t/T > s) = P (T ≤ t) Die letzte Eigenschaft ist schwer sinnvoll, da ja auch eine Poisson-Verteilung unabhängig von der Lage des Intervalls sein soll. T heißt dann übrigens E(λ)-verteilt. Sowohl diese als auch die vorletzte Eigenschaft lassen sich recht einfach über die Definition für bedingte Wahrscheinlichkeiten und die Potenzgesetze beweisen, was man deshalb (auch um zu schauen, ob die obigen Angaben korrekt sind) recht gut zu Hause einmal tun kann. Normal- und Standardnormalverteilung Die Normalverteilung ist ziemlich toll, aus Gründen, die man am Anfang der Statistik II hören wird. Sie ist für die induktive Statistik anscheinend von grundlegender Bedeutung. Außerdem hat sie noch einen Haufen anderer, sehr praktischer Eigenschaften, die nun im Detail weiter ausgelegt werden. Die hauptsächliche Idee hinter einer normalverteilten Zufallsvariablen X ist, dass sie symmetrisch um ihren Erwartungswert µ verteilt ist, wobei Werte, die näher am Erwartungswert liegen, wahrscheinlicher sind als Werte, die weiter entfernt von diesem sind. Je größer dabei die Varianz σ 2 ist, desto wahrscheinlicher wird es, dass Werte weiter entfernt vom Erwartungswert sind. Dadurch ergibt sich die dann die typische Glockenform der Wahrscheinlichkeitsfunktion. Die genaue Herleitung ist recht kompliziert, daher wird sie hier ausgelassen (Wirtschaftswissenschaftler brauchen sowas ja nicht, wisst ihr schon. Wie immer, auch wenns spannend wäre). 30 4 Stochastik f (x) = √ 1 2πσ 2 · e− (x−µ)2 2σ 2 E(X) = µ Var(X) = σ 2 X ist N (µ; σ 2 ). Die praktischen Eigenschaften der Normalverteilung sind folgende: • Lineare Transformation: X sei N (µ, σ 2 ) und Y = a + b · X. Daraus folgt, dass Y N (a + b · µ; b2 σ 2 ) ist. • Linearkombination: Xi seien N∑ (µi , σi2∑ ) (also unabhängig normalverteilt) und Y = ∑ 2 X . Daraus folgt, dass Y N ( µ , i i i i i σi ) ist. Durch eine sinnvoll gewählte lineare Transformation Y = − σµ + σ1 · X lässt sich jedes normalverteilte X durch ein Y mit N (0, 1) ausdrücken (ist einfach nachzurechnen). Y wird dann als standardnormalverteilt bezeichnet. Daher ist zur Tabellierung jeder Normalverteilung nur die Angabe der Tabelle der Standardnormalverteilung notwendig. Die Verteilungsfunktion FX (x) entspricht dann der Verteilungsfunktion FY ( x−µ ) = Φ(y). σ χ2 -Verteilung ∑ Seien U1 , . . . , Un unabhängig standard-normalverteilt. W = i Ui2 heißt dann χ2 -verteilt mit f = n Freiheitsgraden. Für f = 1 weist diese Verteilung eine pathologische, x1 ähnelnde Dichtefunktion auf. Für f → ∞ ist W annähernd normalverteilt (eine brauchbare Approximation ergibt sich ab ca. 30 Freiheitsgraden). Auf die Angabe der Dichtefunktion wird hier verzichtet, da diese nicht so simpel ist. E(W ) = f Var(W ) = 2f Diese Verteilung ist für uns interessant, weil W1 = σn2 Z ′2 mit f = n und W2 = n−1 S2 σ2 mit f = n − 1 χ2 -verteilt sind. Bei letzterer geht durch die Schätzung eines Parameters ein Freiheitsgrad verloren. t-Verteilung Sei U standardnormalverteilt und W χ2 -verteilt mit f = n. Seien beide unabhängig. T = √U ist dann t-verteilt mit f = n Freiheitsgraden und folgenden Eigenschaften: W f E(T ) = 0 (nur existent falls f ≥ 2) f Var(T ) = (nur existent falls f ≥ 3) f −2 31 4 Stochastik Für f → ∞ ist T normalverteilt, vorher allerdings mit einer größeren Streuung. Eine ausreichende Approximation ergibt sich leider erst ab f > 200, für die Zwecke dieser Veranstaltung sollen die üblichen 30 aber ausreichen. ∑ Seien X1 , . . . , Xn unabhängig normalverteilt mit µ, σ 2 . Sei X̄ = n1 i Xi . Nach den Re2 produktionseigenschaften der Normalverteilung ist X̄ dann auch normalverteilt mit µ, σn . Die standardisierte Variante V = X̄−µ ist dann T-verteilt mit f = n − 2. S √ n 4.6 Gesetze zu Beschränkung und Approximation 4.6.1 Tschebyscheffsche Ungleichung Falls eine Zufallsvariable X vorliegt, bei der die Berechnung genauer Wahrscheinlichkeiten mithilfe des zentralen Grenzwertsatzes nicht möglich ist, aber ihr Erwartungswert E(X) = µ und ihre Varianz Var(X) = σ 2 > 0 bekannt sind, so lässt sich eine untere Grenze für die Warscheinlichkeit dafür angeben, dass das Ergebnis des Zufallsversuchs in einem beliebigen, aber symmetrisch um µ gelegenen ε)-Intervall liegt (bzw. komplementär, dass es nicht darin liegt). Es gibt hierbei zwei Formulierungen, die sich recht simpel durch Bildung des Komplementärereignisses und Einsetzen ineinander umformen lassen. Sie werden nur ohne Beweis angegeben. Var(X) ε2 1 P (µ − cσ ≤ X ≤ µ + cσ) ≥ 1 − 2 mit ε = cσ c P (|X − E(X)| ≥ ε) ≤ 4.6.2 Schwaches Gesetz der großen Zahlen Das schwache Gesetz der großen Zahlen folgt direkt aus ∑ der tschebyscheffschen Unglei1 chung. Es zeigt für die Mittelwertszufallsvariable X̄n = n Xi mit unabhängigen Xi mit E(Xi ) = µ und Var(Xi ) = σ 2 , dass mit steigender Anzahö der Züge das Ergebnis des Zufallsversuch höchstwahrscheinlich in einem beliebig kleinen ε-Intervall um µ liegt. Hier wird die komplementäre Fassung gezeigt: Es ist dann wahnsinnig unwahrscheinlich, dass das Ergebnis außerhalb des Intervalls liegt. Var(X) n→∞ ε2 2 1 σ · 2 =0 ≤ lim n→∞ n ε lim P (|X̄ − E(X)| ≥ ε) ≤ lim n→∞ Mit P (X ≥ x) ≥ 0 folgt direkt, dass dieser Grenzwert 0 sein muss. Abgesehen von der Mittelwertsfunktion klappt dies auch mit allen Zufallsvariablen, bei denen das n im Nenner steht (wie z.B. der Erfolgsanteilsfunktion Yn ). 32 4 Stochastik 4.6.3 Zentraler Grenzwertsatz Die Angabe des zentralen Grenzwertsatzes erfolgt, wie so häufig, ohne Beweis. Seien X1 , . . . , Xn unabhängig verteilt mit E(Xi ) = µi , 0 < Var(Xi ) = σi2 < ∞. Die Beschränkung∑ der Varianz ist wichtig, da es anscheinend auch entartete Zufallsvariablen gibt. Falls Yn = i Xi , ist Yn bei ∑ ausreichend großem ∑ n 2(Faustregel: n > 30) ist Yn annähernd normalverteilt mit E(Yn ) = i µi , Var(Yn ) = i σi . Varianz und Erwartungswert folgen direkt aus den bereits bekannten Sätzen für den Erwartungswert und die Varianz von Summenvariablen. ∑ Yn − i µ i Formale Darstellung für die standardisierte Zufallsvariable Zn = √ ∑ 2 : i lim P (Zn ≤ z) = Φ(z) n→∞ 33 σi 5 Induktive Statistik 5.1 Einführung Ziel der induktiven Statistik ist es, Methoden bereitzustellen, durch die einigermaßen verlässlich (d.h. mit einer gewissen Wahrscheinlichkeit, dass das bei Ziehung der Stichprobe verwendete Verfahren Θ̂ einen korrekten Wert liefert) von den Eigenschaften einer Stichprobe (ϑ̂) auf die Eigenschaften der Grundgesamtheit (ϑ) zu schließen. ϑ ϑ̂ x̄ s2 µ σ2 π . . . Wirkliche, unbekannte Kennzahlen der Grundgesamtheit y n ... Realisierte, bekannte Kennzahlen der Stichprobe Θ̂ X̄ S 2 Y n ... Beschreibung der Ziehung einer Stichprobe durch Zufallsvariablen (Stichprobenfunktionen) 34 5 Induktive Statistik 5.2 Stichprobentheorie Die Stichprobentheorie behandelt die Auswahl einer Stichprobe aus einer Grundgesamtheit. Die hierbei verfügbaren Verfahren lassen sich wie folgt kategorisieren: Auswahlverfahren nicht zufällig nicht bewusst bewusst siehe 5.2.2 zufällig siehe 5.2.2 eingeschränkt uneingeschränkt Typische Fälle Quotenverfahren Konzentrationsverfahren Allgemeiner Fall Schichtungsverfahren Klumpenverfahren unabh. Xi einfache Stichprobe 5.2.1 Nicht-Zufällige Auswahl Bei der bewussten, nicht-zufälligen Auswahl werden weitere Typen unterschieden: • Typische Fälle: Es werden nur Merkmalsträger betrachtet, die von vornherein besonders relevant erscheinen. • Quotenverfahren: Auf der ersten Ebene werden anhand eines Merkmals Teilgesamtheiten gebildet und dann diejenigen ausgewählt, die relevant erscheinen. Innerhalb der Teilgesamtheiten erfolgt die Auswahl unbewusst und nicht-zufällig. • Konzentrationsverfahren: Bei einem wenigstens ordinal skalierten Merkmal werden nur diejenigen Merkmalsträger ausgewählt, bei denen die Merkmalsausprägung einen bestimmten Rang überschreitet. 5.2.2 Zufällige Auswahl Eine Auswahl heißt zufällig, falls jedes Element eine berechenbare Wahrscheinlichkeit p > 0 hat, in die Stichprobe aufgenommen zu werden. Uneingeschränkte Auswahl Eine zufällige Auswahl heißt uneingeschränkt, falls jede Stichprobe vom Umfang n die gleiche Chance hat, realisiert zu werden. 35 5 Induktive Statistik Eingeschränkte Auswahl Bei der eingeschränkt zufälligen Auswahl wird der Auswahlprozess zweistufig durchgeführt. Hierzu werden zuerst anhand eines Merkmals M Teilgesamtheiten gebildet (z.B. Gruppierung von Gebäuden nach Nutzungsart oder von Menschen nach Herkunft). In der ersten Stufe werden dann aus allen Teilgesamtheiten die zu untersuchenden ausgewählt (Auswahlm ). Auf der zweiten Stufe werden schließlich die zu untersuchenden Merkmalsträger satz M n vom Zufall bestimmt (Auswahlsatz Njj ). Je nach Gestaltung der Auswahlquoten lassen sich unterschiedliche Auswahltypen bei der eingeschränkten unterscheiden: Allgemeiner Fall m M < 1 und nj Nj < 1. Hier ist nichts besonderes zu beachten. n m Schichtungsverfahren M = 1 und Njj < 1. Hier lassen sich bei Homogenität in den Teilgesamtheiten und Heterogenität zwischen den Teilgesamtheiten genauere Ergebnisse generieren. Es lassen sich zwei weitere Verfahren bei der Schichtenbildung unterscheiden. • Proportionale Schichtung: n1 N1 = n2 N2 = ... = nm Nm • Optimale Schichtung: Je größer die Streuung in einer Schicht ist, desto mehr Elemente werden aus dieser gewählt. n m Klumpungsverfahren M < 1 und Njj = 1. Hier lässt sich bei Heterogenität in den Teilgesamtheiten und Homogenität zwischen den Teilgesamtheiten Erhebungsaufwand einsparen. 5.2.3 Gleichgewichtung Eine zufällige Auswahl heißt gleichgewichtet, falls jedes Element der Grundgesamtheit die gleiche Chance hat, Teil der Stichprobe zu werden. Gleichgewichtung folgt automatisch aus der Uneingeschränktheit, die Uneingeschränktheit aber nicht aus der Gleichgewichtung einer Auswahl. Ein Beispiel hierfür ist die periodische Auswahl. Bei der periodischen Auswahl von n aus N Elementen wird zuerst zufällig ein Startelement festgelegt. Dann wird dieses und jedes i-te Element mit i = Nn + 1 · j, j ∈ N, i ≤ N gewählt. Jedes Element hat dabei dieselbe Wahrscheinlichkeit, als Startelement gewählt zu werden, d.h. diese Auswahl ist im Allgemeinen gleichgewichtet. Allerdings wäre zum Beispiel bei N = 100, n = 5 die Wahl der Elemente 1, 2, 3, 4, 5 direkt hintereinander unmöglich. 5.3 Stichprobenfunktionen als Anwendung der Stochastik Zur Beschreibung eines Auswahlexperiments mit der Stichprobengröße n werden die Zufallsvariablen (X1 , . . . , Xn ) verwendet (die theoretische Stichprobe). Xi beschreibt dabei die 36 5 Induktive Statistik Merkmalsausprägung desjenigen Merkmalsträgers, der im i-ten Zug ausgewählt wird. Eine zusammengesetzte Zufallsvariable Θ(X1 , . . . , Xn ) wird Stichprobenfunktion genannt. 5.3.1 Ausgewählte Stichprobenfunktionen • Merkmalssumme: Y = • Anteilsfunktion: Y n ∑ ∑ = i Xi . Xi n i • Mittelwertsfunktion: X̄ = ∑ Xi n i • Varianz bei bekanntem µ: Z ′2 := • Varianz mit Verzerrung: Z 2 := 1 n • Varianz ohne Verzerrung: S 2 := = 1 n Y n ∑ ∑ i (Xi i (Xi 1 n−1 ∑ − µ)2 mit E(Z ′2 ) = σ 2 − X̄)2 mit E(Z 2 ) = i (Xi n−1 2 σ n − X̄)2 mit E(S 2 ) = σ 2 5.3.2 Gütekriterien für Stichprobenfunktionen Mean-Square-Error-Prinzip Aus dem Prinzip der Minimierung des erwarteten, quadrierten Fehlers einer Stichprobenfunktion lassen sich einige Gütekriterien herleiten. Seine Definition folgt unten; direkt danach wird eine über den Verschiebungssatz und die Binomialformeln hergeleitete Version genannt (ist recht einfach), in der deutlich wird, dass dieser Fehler additiv zusammengesetzt ist aus der Varianz der Stichprobenfunktion (siehe Wirksamkeit) und aus der systematischen Verzerrung, die diese Stichprobenfunktion mit sich bringt (siehe Erwartungstreue). MSE(Θ̂) = E((Θ̂ − ϑ)2 ) = E( (Θ̂ − E(Θ̂))2 ) + (E(Θ̂) − ϑ)2 | {z } | {z } Var(Θ̂) (Verzerrung(Θ))2 Hieraus folgen drei Gütekriterien für Stichprobenfunktionen: • Konsistenz: Stichprobenfunktion Θ̂ heißt konsistent, falls limn→∞ M SE(Θ̂) = 0. Dies ist eine Minimalanforderungen an Stichprobenfunktionen: Falls aus einer Grundgesamtheit ziemlich viele n gewählt werden, soll der Fehler natürlich klein werden. • Erwartungstreue: Eine Stichprobenfunktion Θ̂ heißt erwartungstreu, falls E(Θ̂) = ϑ. Dies ist gleichbedeutend damit, dass Verzerrung(Θ̂) = 0. Sie heißt asymptotisch erwartungstreu, falls limn→∞ E(Θ̂) = ϑ. • Wirksamkeit: Seien Θ̂1 , Θ̂2 erwartungstreue Stichprobenfunktionen mit E(Θ̂1 ) = E(Θ̂2 ) = ϑ. Θ1 heißt dann wirksamer als Θ̂2 , falls Var(Θ̂1 ) < Var(Θ̂2 ). Es lässt sich auch wirksamst definieren, doch angeblich überfordert das Wirtschaftswissenschaftler. 37 5 Induktive Statistik Suffizienz Eine Stichprobenfunktion heißt suffizient, falls sie alle für die Problemstellung relevanten Informationen ausschöpft und diese nicht durch ihre Anwendung verloren gehen. Welche Informationen dabei relevant sind, ist aus der Realwissenschaft heraus zu entscheiden. Da die formal-mathematische Beschreibung recht komplex ist, wird hier darauf zugunsten eines verständlichen Beispiels verzichtet. Ein Beispiel: Seien X1 , X2 bernoulli-verteilt mit P (X1 = 1) = P (X2 = 1) = ϑ. Seien X̄ = 12 · (X1 + X2 ) und M = max(X1 , X2 ) zwei Stichprobenfunktionen. Es würden sich folgende Beziehungen ergeben: Funktion Wertebereiche 1 2 0 X̄ (X1 , X2 ) (0, 0) (0, 1) (1, 0) 0 M 1 (1, 1) 1 Wenn sich die Fragestellung nun darauf bezieht, ob wenigstens ein Erfolg eintritt, sind M und X̄ gleich suffizient. Falls es jedoch von Bedeutung ist, ob ein oder zwei Erfolge eintreten (wie z.B. bei der Schätzung von ϑ, ist X̄ suffizienter als M . Robustheit Die Robustheit einer Stichprobenfunktion ist ein weiches Kriterium, das angibt, wie viele defekte Datensätze (z.B. durch Messfehler) eine Stichprobenfunktion verträgt, ohne stark verzerrte Werte zu liefern. Dies betrifft insbesondere stark abweichende Datensätze, also Ausreißer. Der sogenannte Bruchpunkt gibt dabei an, welcher Anteil der Daten defekt werden muss, um den Schätzwert beliebig zu verfälschen. • X̃: Bruchpunkt 50% (d.h. um den Wert des Medians beliebig zu verändern müssen wenigstens 50% der Datensätze defekt sein) • X̄: Bruchpunkt n1 (d.h. bereits ein verfälschter Datensatz reicht aus, um das arithmetische Mittel beliebig zu vergrößern oder zu verkleinern) • X̄α mit 0 ≤ α ≤ 11 : Bruchpunkt α Gerade bei X̄α wird sehr deutlich, dass es einen Zielkonflikt zwischen Suffizienz und Robustheit gibt. In manchen Bereichen sind gerade die Ausreißer von Interesse sodass man diese im Sinne der Fragestellung auf keinen Fall ignorieren darf ohne das Ergebnis maßgeblich zu verfälschen. In solchen Fällen muss eine vernünftige Abwägung zwischen beiden Zielen stattfinden oder eine ausreichend genaue (und somit teure) Erhebung stattfinden, sodass das Kriterium der Robustheit vernachlässigt werden kann. 1 Getrimmtes X̄, bei die α 2 größten und α 2 kleinsten Messwerte einfach ignoriert werden. 38 5 Induktive Statistik 5.3.3 Konstruktion von Stichprobenfunktionen In dieser LV werden zwei Konstruktionsmethoden erläutert. Welche davon die bessere ist, lässt sich im Allgemeinen nicht sagen. Es empfiehlt sich jedoch, die damit generierten Stichprobenfunktionen danach einer Prüfung durch die Gütekriterien zu unterziehen. Maximum-Likelihood-Methode Die Grundidee der Maximum-Likelihood-Methode ist es, ein ϑ̂ zu finden, für das bei gegebener Verteilung (Typ und Parameter) der Züge der Stichprobe X1 , . . . , Xn die Plausibilität für das Auftreten der schon genommenen Stichprobe x1 , . . . , xn maximiert wird. Diese Plausibilität ist definiert als die Da hierbei Produkte von Wahrscheinlichkeiten (oder sogar Dichten!) über Zufallsvariablen mit unterschiedlichen Verteilungsparametern ϑ̂ verglichen werden, sind dies bei diesem Vorgang im Grunde genommen keine Wahrscheinlichkeiten nach Kolmogoroff, sondern eher Plausibilitätskennzahlen. Unter der Voraussetzung, dass die Xi unabhängig und identisch verteilt sind, ergibt sich folgendes Optimierungsproblem: maxϑ̂ L(ϑ̂|(x1 , . . . , xn )) { ∏n P (Xi = xi |ϑ̂) Xi diskret = ∏i=1 n Xi stetig i=1 f (xi |ϑ̂) Bei der Lösung dieses Maximierungsproblems mithilfe der ersten Ableitung ist es häufig zweckmäßig bei der Umformung, nicht L zu optimieren, sondern ln L, was aufgrund der strengen Monotonie der Logarithmusfunktion die Position der Maxima nicht verändert. Durch die Logarithmengesetze lässt sich das hässliche Produkt in eine angenehme Summe umwandeln. Anbei einige Beispiele, welche Ergebnisse diese Methode bei unterschiedlichen Verteilungen der Xi liefert: Verteilung Parameter ML-Ergebnis Y Binomialverteilung π = X̄ n Poissonverteilung λ X̄ Geometrische Verteilung π X̄ −1 Stetige Gleichverteilung über [0; ϑ] ϑ max(Xi ) Exponentialverteilung λ X̄ −1 Normalverteilung µ X̄ 2 ′2 σ Z , Z2 Es lässt sich beweisen, dass die mit der ML-Methode generierten Stichprobenfunktionen immer die folgenden Eigenschaften haben: • Konsistenz • Suffizienz • Asymptotisch erwartungstreu 39 5 Induktive Statistik • Asymptotisch wirksamst (auch wenn wir das nicht definiert haben) • Asymptotisch normalverteilt Der Nachteil dieser Methode ist, wie oben schon genannt, dass Typ und Parameter der Verteilung der einzelnen Züge aus der Grundgesamtheit bekannt sein müssen, um die Wahrscheinlichkeiten (bzw. Dichten) unter verschiedenen ϑ zu berechnen. Methode der kleinsten Quadrate Die Grundidee der Methode der kleinsten Quadrate bei der Generierung von Stichprobenfunktionen ist es, die durchschnittliche quadrierte Abweichung der gezogenen Stichprobe vom Erwartungswert der Züge µ(ϑ) zu minimieren. Diese Abhängigkeit muss dabei natürlich explizit bekannt sein. Formal aufgeschrieben sieht dies so aus: min Q(ϑ|(x1 , . . . , xn )) = ∑ (xi − µ(ϑ))2 i Dies lässt sich wie gewohnt über die erste Ableitung erledigen.Vorteil dieser Methode ist es, dass kein Modell über die einzelnen Züge aus der Grundgesamtheit vorhanden sein muss, um eine Stichprobenfunktion zu generieren. Allerdings kommt es hier hin und wieder vor, dass das Optimierungsproblem keine Lösung hat (man also kein Θ̂ findet). 5.4 Schätztheorie 5.4.1 Punktschätzung An und für sich ist die Punktschätzung nicht weiter interessant. Es wird eine Stichprobenfunktion hergenommen und durch den Zug einer Zufallsstichprobe aus der Grundgesamtheit realisiert. Dieser so gewonne realisierte Wert ist dann das Ergebnis der Stichprobe. Dieses Verfahren hat allerdings den Nachteil, dass sich punktförmige Ereignisse ϑ nur mit einer Wahrscheinlichkeit von P (Θ = ϑ) = 0 realisieren. Allerdings wird die Punktschätzung im weiteren Verlauf zur Ausgestaltung von Intervallschätzung und Testtheorie verwendet. Ein kurzes Beispiel: Es wurden x1 = 2, x2 = 4, x3 = 1 gezogen. Die Mittelwertsfunktion X̄ hat sich also zu x̄ = 73 realisiert. Dies ist nun unser Schätzwert für den unbekannten Parameter µ. 5.4.2 Intervallschätzung Mithilfe der Punktschätzer lassen sich zufallsbehaftete Intervalle konstruieren, für die sich eine Wahrscheinlichkeit größer als null angeben lässt, dass ihre Realisation den gesuchten Parameter überdeckt. Ein Beispiel: Sei I = [X̄ − ε; X̄ + ε] ein solches Konfidenzintervall. Im Allgemeinen ist dann P (x̄ ∈ I) = 1 − α > 0, falls X̄ nicht eine seltsame Verteilung hat. Gängige Werte für α, von dem ausgehend die Intervalle konstruiert werden, sind 0.01, 0.05. 40 5 Induktive Statistik Das realisierte Konfidenzintervall i = [x̄ − ε; x̄ + ε] heißt dann übrigens Schätzintervall. Die Intervalllänge L kann dabei auch zufallsbehaftet sein, sodass sich mit l auch eine realisierte Intervalllänge ergibt. Dies muss nicht immer der Fall sein, sodass sich mitunter auch vor der Stichprobenrealisation eine feste Intervalllänge bestimmen lässt. Wie die Intervallgrenzen im Detail bestimmt werden, ist nicht immer trivial und wird im Folgenden für einige wenige Parameter dargestellt. Falls man sich noch für andere Parameter interessiert, müsste man dies in der entsprechenden Literatur nachschlagen. Symmetrische Schätzung von µ Im Folgenden wird immer eine Stichprobe X1 , ..., Xn betrachtet. X̄ ist dabei die Stichprobenfunktion, die zur Schätzung herangezogen wird. Die Stichprobe hat dabei unterschiedliche Eigenschaften, die auch im späteren Verlauf (bei der Testtheorie) wieder herangezogen werden: • Fall Ⅰ: Die Stichprobe ist einfach, die Xi sind normalverteilt mit bekanntem σ 2 und unbekanntem µ. • Fall Ⅱ: Die Stichprobe ist einfach, die Xi sind normalverteilt mit unbekanntem σ 2 und unbekanntem µ. • Fall Ⅲ: Die Stichprobe ist einfach, über die Verteilung der Xi ist nichts bekannt. Insbesondere sind µ, σ 2 unbekannt (aber existent). Fall Ⅰ: X̄ ist aufgrund der Reproduktionseigenschaften der Normalverteilung normalver2 teilt mit unbekanntem µ und bekanntem σn . Wäre diese Verteilung nun direkt tabelliert, könnte man die entsprechenden Intervallgrenzen recht einfach ablesen. Da sie das nicht ist (sondern nur die N (0, 1)-Verteilung) muss man nun standardisieren. Die Intervallgrenzen für die standardisierte Variable V lassen sich mit P (−c ≤ V ≤ c) = 1 − α aus der Tabelle ablesen, wobei jeweils α2 von +∞ bzw. −∞ an Wahrscheinlichkeitsmasse zusammenkommen müssen. Nach der Entstandardisierung ergäbe sich dann noch I = [X̄ − c √σn , X̄ + c √σn ] als Konfidenzintervall für X̄, was etwas anschaulicher ist als ein Konfidenzintervall für eine standardisierte Stichprobenfunktion. Als Intervalllänge erhält man L = 2c √σn . Da diese nicht zufallsbehaftet ist, lässt sich durch Erhöhung des Stichprobenumfangs bei festem α (oder umgekehrt) die Länge beliebig festlegen2 . Fall Ⅱ: X̄ ist aufgrund der Reproduktionseigenschaften der Normalverteilung normalverteilt mit unbekanntem µ und unbekanntem σ 2 . Hier funktioniert alles im Grunde genommen genau so wie im ersten Fall, nur dass bei der Standardisierung von X̄ σ 2 durch S 2 geschätzt werden muss, sodass man nicht bei einem normalverteilteten V landet, sondern bei einem t-verteilten mit f = n − 1 Freiheitsgraden. Das Konfidenzintervall ergibt sich so zu I = [X̄ − c √Sn , X̄ + c √Sn ], die Länge zu L = 2c √Sn – sie ist also zufallsbehaftet, weshalb die im ersten Fall noch mögliche, beliebige Festlegung der Länge nicht mehr möglich ist. 2 Das α steckt hierbei im c. 41 5 Induktive Statistik Fall Ⅲ: X̄ ist aufgrund des zentralen Grenzwertsatzes ab einem ausreichend großen n 2 approximativ normalverteilt mit unbekannten µ, σn . Siehe Fall Ⅰ: Aufgrund der Segnungen des ZGS ist hierbei (interessanterweise, genau erklärt hat Urbanski das nicht) auch die mit dem Schätzwert S 2 standardisierte Stichprobenfunktion V N (0, 1)-verteilt. Das Konfidenzintervall ergibt sich so zu I = [X̄ − c √Sn , X̄ + c √Sn ], die Länge zu L = 2c √Sn – sie ist also zufallsbehaftet, weshalb die im ersten Fall noch mögliche, beliebige Festlegung der Länge nicht mehr möglich ist. Symmetrische Schätzung von π Hier wird eine Strichprobe (X1 , ..., Xn ) betrachtet. Sie ist einfach und die Xi sind∑BernoulliX Y verteilt mit π. Die verwendete Stichprobenfunktion ist die Anteilsfunktion = in i . n ∑ Die exakte Berechnung der Intervallgrenzen ist für Y = i Xi interessanterweise recht kompliziert. Dafür wird auf sogenannte Nomogramme zurückgegriffen, die sich am Ende der Formelsammlung befinden. Deren Verwendung wurde in den Übungen erklärt3 . Glücklicherweise ist Y ab einem ausreichend großen n approximativ normalverteilt mit E(Y ) = nπ und Var(Y ) = nπ(1 − π), woraus sich ergibt, dass Yn approximativ N (π, π(1−π) )-verteilt ist. n Hierbei muss geprüft werden, ob die Approximationskriterien (nπ ≥ 5, n(1 − π) ≥ 5) erfüllt sind – was aber nicht möglich ist, da π ja unbekannt ist. Dafür gibt es zwei Lösungsansätze: • Erhöhung des n, bis man sich einigermaßen sicher sein kann, dass man die Kriterien locker schafft. • Prüfung ex post, d.h. nach einer Punktschätzung des π. Dies ist allerdings kaum als sinnvoll begründbar, da die Modellapproximation ein rein theoretischer Vorgang ist, der nicht vom zufälligen Stichprobenergebnis abhängt. Wenn man nun noch die Varianz π(1 − π) dieser normalverteilten Zufallsvariablen durch schätzt4 , lässt sich standardisieren und man kann wie in 5.4.2 die Intervallgrenzen ablesen. Nach der Entstandardisierung ergeben sich: Y (1 − Yn ) n √ − Y −c n n √ Y (1 − Yn ) L = 2c n n I=[ Y (1 n √ Y ) n , Y +c n Y (1 n − Yn ) ] n Aus 0 ≤ Yn und Yn +(1− Yn ) = 1 folgt Yn ·(1− Yn ) ≤ 14 . Mit ein paar cleveren Umformungen landet man dann bei L ≤ √cn , sodass man hier zwar keine beliebige feste Intervallänge, aber doch eine obere Grenze durch sinnvolle Wahl von α und n festlegen kann. Der Beweis ist 3 4 Die ich allesamt geschwänzt habe, weshalb ich das nicht näher erläutern kann. Diese Schätzung ist nicht allzu gut, da E( Yn (1 − Yn )) = n−1 n π(1 − π) ̸= π(1 − π). Sie ist also nur asymptotisch erwartungstreu. Da n für die Approximation ohnehin groß genug sein muss, kann dieser Fehler aber vernachlässigt werden. 42 5 Induktive Statistik ziemlich simpel (einfach das Maximum der Funktion über das Differential ausrechen) und wird daher ausgelassen. 5.5 Testtheorie Ein Test dient dazu, sich auf Grundlage einer Stichprobe dafür (oder dagegen) zu entscheiden, weiterhin an die Gültigkeit einer Hypothese zu glauben. Hierbei gibt es verschiedene, theoretische Ansätze, von denen wir nur den klassischen, frequentistischen unter Verwendung von zwei Hypothesen, einer Arbeits- und einer Gegenhypothese5 betrachten. Theoretisch gingen auch mehr, aber das wäre dann doch zu viel. Ein Beispiel für eine solche Entscheidungssituation ist im Folgenden gegeben: Testentscheidung „Ich glaube, dass die FDP in den Bundestag kommt.“ „Ich glaube nicht, dass die FDP in den Bundestag kommt.“ Wirklicher Zustand der Grundgesamtheit FDP hat mehr also 5% FDP hat weniger als 5% ok Fehler 1 Fehler 2 ok Je nachdem, welche Testentscheidung getroffen wird, kann man z.B. eine unterschiedliche Strategie fahren. Im zweiten Fall könnte eine Zweitstimmenkampagne helfen. Oder auch nicht. Was hier im spezifischen Fall Arbeits- bzw. Gegenhypothese ist, hängt im Normalfall von der Fragestellung (und somit von der Art des Tests) ab. Formal sieht diese Konstruktion aus wie im Folgenden dargestellt. Dabei ist zu beachten, dass die Eindeutigkeit (d.h. die Gleichheit, sei es ein wirklicher Test auf Gleichheit oder die schwache Größer/Kleiner-Relation) immer in der Arbeitshypothese zu stehen hat6 . 5 6 Bisweilen auch Null- bzw. Alternativhypothese genannt. Sonst funktioniert der Aufbau des Tests einfach nicht auf die Art und Weise, wie wir es gerne hätten. 43 5 Induktive Statistik Γ : Parameterraum H0 ⊂ Γ : Arbeitshypothese H1 ⊂ Γ : Gegenhypothese H0 ∩ H1 = ∅ und in der Regel H0 ∪ H1 = Γ „H0 “ : Annahmebereich „H1 “ = B : Ablehnbereich Θ : Stichprobenfunktion, verwendet als Prüfgröße V : Testfunktion, d.h. die tabelliert vorliegende Variante der Prüfgröße ϑ : Realisierte Prüfgröße Die Grenzen des Ablehnbereichs werden bisweilen mit µl,krit bzw. µr,krit bezeichnet. Diese beiden sind im Allgemeinen dadurch bestimmt, dass der Ablehnbereich noch genau diejenigen unwahrscheinlichsten Stichprobenergebnisse aus H0 enthält, deren kumulierte Wahrscheinlichkeit das Signifikanzniveau nicht überschreitet. Testentscheidung „H0 “ „H1 “ Wirklicher Zustand der Grundgesamtheit H0 H1 ok Fehler zweiter Art Fehler erster Art ok Falls ϑ in B fällt, wird die Entscheidung für „H1 “ getroffen, andernfalls die für „H0 “. Jedem der Felder aus der Tabelle wird nun eine Wahrscheinlichkeit zugeordnet, wobei die Wahrscheinlichkeiten der Fehler-Felder logischerweise die Komplementärwahrscheinlichkeiten der jeweiligen Nicht-Fehler-Felder sind: P („H0 “|H0 ) = 1 − α Berechtigte Annahme P („H1 “|H1 ) = 1 − β Berechtigte Ablehnung P („H1 “|H0 ) = α Unberechtigte Ablehnung P („H0 “|H1 ) = β Unberechtigte Annahme Zweck der im folgenden dargestellten, nicht immer ganz trivialen Testaufbauten ist es, jeweils einen dieser Fehler, den α-Fehler nach oben hin durch das Signifikanzniveau α (typische Werte sind wieder 0.01, 0.05 wie oben bei den Intervallschätzungen zu begrenzen. Das einzige Problem bei der ganzen Sache ist, dass 0 < β < 1 − α, d.h. die Wahrscheinlichkeit 44 5 Induktive Statistik einer unberechtigten Annahme der Arbeitshypothese kann sehr hoch werden. Dementsprechend werden „H1 “-Entscheidungen, bei denen die Fehlerwahrscheinlichkeit stark begrenzt ist, als statistisch signifikant bezeichnet, „H0 “-Entscheidungen hingegen nicht. Für jeden Test wird auch eine sogenannte Gütefunktion definiert, anhand derer sich feststellen lässt, wie trennscharf ein Test arbeitet. Dazu wird für alle denkbaren µ die Ablehnwahrscheinlichkeit abgetragen. Im Bereich der Arbeitshypothese soll diese natürlich möglichst klein sein (was sie durch die Beschränkung des α-Fehlers, d.h. der unberechtigten Ablehnung, auch ist), im Bereich der Gegenhypothese möglichst schnell möglichst groß. Je steiler sie an den Hypothesengrenzen also ansteigt, desto sensibler reagiert der Test auf Abweichungen vom getesteten µ0 . { g(µ) = α(µ) = P („H1 “|µ ∈ H0 ), 1 − β(µ) = P („H1 “|µ ∈ H1 ), falls µ ∈ H0 falls µ ∈ H1 Bei der Zusammenfassung einer Testentscheidung sind, neben der Tatsache, ob man eine signifikante „H1 “-Entscheidung getroffen hat, auch die Angabe von Stichprobentyp und größe sowie des Signifikanzniveaus erforderlich. Sehr wichtig bei der Interpretation eines Testergebnisses auch, dass man im Nachhinein natürlich nicht weiß ob, und wenn ja, welcher Fehler bei der Testentscheidung unterlaufen ist. Es könnte sowohl ein α-, als auch ein βFehler unterlaufen sein, wobei wir Ersteres durch die spezifische Ausgestaltung des Tests zu vermeiden versucht haben. Im folgenden Werden zuerst der ein- und zweiseitige symmetrische Gaußtest vorgestellt. Dies entspricht dem Fall Ⅰ aus 5.4.2. Nicht eingegangen wird auf den t-Test und den approximativen Gaußtest, was den Fällen Ⅱ bzw. Ⅲ entspricht. Das Vorgehen ist in diesem Fall exakt an dasjenige der Gaußtests anzulehen, außer, dass die Testgröße nicht mehr normal(wie bei bekanntem σ), sondern t- (bei unbekanntem σ) oder approximativ normalverteilt (bei insgesamt unbekannter Verteilung) ist. Die Varianz muss in den letzten beiden Fällen aus der Stichprobe mit S 2 geschätzt werden. Dies gilt nicht beim Zweistichproben-Gaußtest; dort wird dediziert auf die Fälle Ⅰ, Ⅱ und Ⅲ eingegangen. Weiterhin gilt dies auch nicht für den Differenzentest. 5.5.1 Parametrische Testtheorie Zweiseitiger Einstichproben-Gaußtest auf µ 1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit bekanntem σ 2 und unbekanntem µ normalverteilt. 2. Hypothesenformulierung: H0 : µ = µ0 H1 : µ ̸= µ0 3. Prüfgrößenbestimmung: X̄ 45 5 Induktive Statistik 4. Prüfgrößenverteilung: X̄ ist aufgrund der Reproduktionseigenschaften der Normal2 verteilung normalverteilt mit µ, σn ; unter H0 mit µ0 . 5. Testfunktion: V = X̄−µ0 √σ n 6. Testfunktionsverteilung: V ist N (0, 1)-verteilt. 7. Ablehn- und Annahmebereich für die Testfunktion: „H1 “ = B = {v ∈ R|v < −c ∨ c < v} mit Φ(c) = α 2 „H0 “ = B̄ = {v ∈ R| − c ≤ v ≤ c} 8. Ablehn- und Annahmebereich für die Prüfgröße (nach Entstandardisierung): σ σ „H1 “ = B = {x̄ ∈ R|x̄ < µ0 − c √ ∨ µ0 + c √ x̄} n n σ σ „H0 “ = B̄ = {v ∈ R|µ0 − c √ ≤ x̄ ≤ µ0 + c √ } n n 9. Grafische Darstellung der Dichtefunktionen und aller Bereiche: α 2 α 2 µ 0 µl,krit µ0 µr,krit H1 H0 H1 „H1 “ „H0 “ „H1 “ β µ 0 µ1 µl,krit µ0 µr,krit H1 H0 H1 „H1 “ „H0 “ „H1 “ 46 5 Induktive Statistik 10. Grafische Darstellung der Gütefunktion: 1 α 0 µ µ0 Einseitiger Einstichproben-Gaußtest auf µ 1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit bekanntem σ 2 und unbekanntem µ normalverteilt. 2. Hypothesenformulierung: H0 : µ ≥ µ0 H1 : µ < µ0 oder H0 : µ ≤ µ0 H1 : µ > µ0 3. Prüfgrößenbestimmung: X̄ 4. Prüfgrößenverteilung: X̄ ist aufgrund der Reproduktionseigenschaften der Normal2 verteilung normalverteilt mit µ, σn ; unter H0 könnte es mit jedem beliebigen µ ≥ µ0 (bzw. µ ≤ µ0 ) verteilt sein. Es ist aber sinnvoll, den schlimmsten Fall zu wählen, da, wie in der unteren Grafik deutlich wird, bei diesem das α-Risiko maximal ist. 5. Testfunktion: V = X̄−µ0 √σ n 6. Testfunktionsverteilung: V ist N (0, 1)-verteilt. 7. Ablehn- und Annahmebereich für die Testfunktion: „H1 “ = B = {v „H0 “ = B̄ = {v oder „H1 “ = B = {v „H0 “ = B̄ = {v ∈ R|v < c} mit Φ(c) = α ∈ R|c ≤ v} ∈ R|c < v} mit 1 − Φ(c) = α ∈ R|v ≤ c} 47 5 Induktive Statistik 8. Ablehn- und Annahmebereich für die Prüfgröße (nach Entstandardisierung): σ „H1 “ = B = {x̄ ∈ R|x̄ < µ0 − c √ } n σ „H0 “ = B̄ = {v ∈ R|µ0 − c √ ≤ x̄} n oder σ „H1 “ = B = {x̄ ∈ R|µ0 − c √ < x̄} n σ „H0 “ = B̄ = {v ∈ R|x̄ ≤ µ0 − c √ } n 9. Grafische Darstellung der Dichtefunktionen und aller Bereiche7 : 1 α µ 0 µl,krit µ0 H1 H0 „H0 “ „H1 “ 1 β µ 0 µl,krit µ0 H1 „H1 “ H0 „H0 “ 10. Grafische Darstellung der Gütefunktion8 : 7 Hier wird nur der Fall gezeigt, in dem der Ablehnbereich links liegt. Falls er rechts liegt, funktioniert das analog. 8 Hier wird nur der Fall gezeigt, in dem der Ablehnbereich links liegt. Falls er rechts liegt, funktioniert das analog. 48 5 Induktive Statistik 1 α 0 µ µ0 Einseitiger Test auf π 1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit unbekanntem π Bernoulli-vereilt. 2. Hypothesenformulierung: H0 : π ≥ π0 H1 : π < π0 oder H0 : π ≤ π0 H1 : π > π0 3. Prüfgrößenbestimmung: Y n ∑ = Xi n i 4. Prüfgrößenverteilung: Unbekannt, was aber, wie bei der Testfunktion ersichtlich, nicht weiter schlimm ist. ∑ 5. Testfunktion: Y = i Xi 6. Testfunktionsverteilung: Y ist binomialverteilt mit unbekanntem π und bekanntem n. Unter H0 könnte es, wie beim einseitigen Gaußtest, mit jedem beliebigen π ≥ π0 (bzw. π ≤ π0 ) verteilt sein. Mit demselben Argument, dass im Grenzfall das α-Risiko maximal ist, wird auch hier nur dieser betrachtet. 7. Ablehn- und Annahmebereich für die Testfunktion: „H1 “ = B = {v „H0 “ = B̄ = {v oder „H1 “ = B = {v „H0 “ = B̄ = {v ∈ R|y < c} mit dem größten Fbin (c) ≤ α ∈ R|c ≤ y} ∈ R|c < y} mit dem größten1 − Fbin (c) ≤ α ∈ R|y ≤ c} Hierbei ist zu beachten, dass das Signifikanzniveau α aufgrund der diskreten Testfunktionsverteilung so gut wie nie ausgeschöpft wird, sondern ein Wert darunter gewählt 49 5 Induktive Statistik wird. Dieses heißt dann exaktes Signifikanzniveau und ist bei der Testentscheidung mit anzugeben. 8. Grafische Darstellung der Wahrscheinlichkeitsfunktion und aller Bereiche: F (y) 1 α αex y 0 yl,krit y0 H1 H0 „H0 “ „H1 “ 1 − F (y) 1 β y 0 yl,krit y0 H1 „H1 “ H0 „H0 “ 9. Grafische Darstellung der Gütefunktion: 1 αex 0 π π0 50 5 Induktive Statistik Zweiseitiger Test auf π 1. Stichprobeneigenschaften: (X1 , ..., Xn ) ist einfach, die Xi sind mit unbekanntem π Bernoulli-vereilt. 2. Hypothesenformulierung: H0 : π = π0 H1 : π ̸= π0 3. Prüfgrößenbestimmung: Y n ∑ = Xi n i 4. Prüfgrößenverteilung: X̄ ist unbekannt, was aber, wie bei der Testfunktion ersichtlich, nicht weiter schlimm ist. ∑ 5. Testfunktion: Y = i Xi 6. Testfunktionsverteilung: Y ist binomialverteilt mit unbekanntem π und bekanntem n. Unter H0 ist es mit π0 verteilt. 7. Ablehn- und Annahmebereich für die Testfunktion: Die Bestimmung ist aufgrund der diskreten Natur der Verteilung in diesem Fall nicht so trivial und man muss auf die Urdefinition des Ablehnbereichs zurückgreifen: Er soll diejenigen unter H0 unwahrscheinlichsten Stichprobenergebnisse enthalten, deren kumulierte Wahrscheinlichkeit das Signifikanzniveau nicht überschreitet. Das heißt, dass man zu allererst die Wahrscheinlichkeitsfunktion P (Y = y) tabellieren, also die Verteilungsfunktion der Binomialverteilung entkumulieren muss. Danach sortiert man alle Realisationsmöglichkeiten von Y nach ihrer Wahrscheinlichkeit. Angefangen mit dem kleinstem P (Y = y) summiert man dann die Wahrscheinlichkeiten auf, bis man α gerade nicht überschreitet. Alle y, deren Wahrscheinlichkeiten man nun aufsummiert hat, bilden nun den Ablehnbereich. Bei symmetrischen Verteilungen kann es vorkommen, dass bei zwei gleich großen P (Y = y) nur noch eines in das Signifikanzniveau passt; in diesem Fall sind beide diesem nicht zuzuordnen, da es keine sinnvolle Auswahlregel geben kann9 . 8. Grafische Darstellung der Wahrscheinlichkeitsfunktion und aller Bereiche: 9 Insbesondere ist es Unfug, hier den Zufall entscheiden zu lassen. Der Test wird durch die korrekte Vorgehensweise auch eher schärfer, weshalb man ganz gut damit leben kann. 51 5 Induktive Statistik F (y) 1 − α21 α1 + α2 ≤ α α1 0 y yl,krit y0 yr,krit H1 H0 H1 „H1 “ „H0 “ „H1 “ F (y) 1 ≈β y 0 yl,krit y0 yr,krit H1 H0 H1 „H1 “ „H0 “ „H1 “ Wichtig bei β: Dies ist nur ungefähr das β-Risiko. Eigentlich müsste hier von noch die Wahrscheinlichkeit, links von yl,krit wieder in den Ablehnbereich zu fallen, abgezogen werden. Diese ist (hier glücklicherweise) aber fast null. 9. Grafische Darstellung der Gütefunktion: 1 α 0 π π0 52 5 Induktive Statistik Einseitiger und zweiseitiger Zweistichproben-Gaußtest auf µ Fall Ⅰ: Normalverteilte Stichprobenfunktionen Xi , Yi mit bekannten σx und σy . 1. Stichprobeneigenschaften: (X1 , ..., Xn ), (Y1 , ..., Yn ) sind einfach, die Xi und Yi sind mit bekanntem σx2 bzw. σy2 und unbekanntem µx bzw. µy normalverteilt. 2. Hypothesenformulierung: H0 : µx − µy ≥ δ0 H1 : µx − µy < δ0 oder H0 : µx − µy ≤ δ0 H1 : µx − µy > δ0 oder H0 : µx − µy = δ0 H1 : µx − µy ̸= δ0 3. Prüfgrößenbestimmung: X̄ − Ȳ 4. Prüfgrößenverteilung: X̄ − Ȳ ist aufgrund der Reproduktionseigenschaften der Nor2 σ2 malverteilung normalverteilt mit µx − µy , nσxx + nyy ; unter H0 (beim einseitigen Test schlimmstenfalls, Argument analog zum Einstichprobentest) mit δ0 . 5. Testfunktion: X̄ − Ȳ − δ0 σ2 X̄ − Ȳ − δ0 = √ 2 σ2 σx + nyy nx V = 6. Testfunktionsverteilung: V ist N (0, 1)-verteilt. 7. Ablehn- und Annahmebereich für die Testfunktion: Aufgrund der starken Analogie zu den Einstichproben-Gaußtests wird hierauf verzichtet. 8. Grafische Darstellung der Dichtefunktionen und aller Bereiche: Aus gleichen Gründen wird auch hierauf verzichtet. 9. Grafische Darstellung der Gütefunktion: Aus gleichen Gründen wird auch hierauf verzichtet. Fall Ⅱ: Normalverteilte Stichprobenfunktionen Xi , Yi mit unbekannten σx = σ und σy = σ (es wird Varianzhomogenität gefordert). 53 5 Induktive Statistik Der Test wird analog zu oben durchgeführt mit V = 2 = Spooled X̄ − Ȳ − δ0 √ y Spooled · nnxx+n ny (nx − 1)Sx2 + (ny )Sy2 (nx + ny − 2) V ist dann t-verteilt mit f = nx + ny − 2 Freiheitsgraden, da die Varianz geschätzt werden muss. Fall Ⅱ*: Normalverteilte Stichprobenfunktionen Xi , Yi mit unbekannten σx und σy (es wird keine Varianzhomogenität mehr gefordert). In diesem Fall tritt ein Problem auf: Die Größen X̄, Ȳ sind noch exakt normalverteilt. Nach der Standardisierung ist die Testgröße V allerdings nur noch approximativ standardnormal2 verteilt, da sich für Prüfgröße X̄ − Ȳ einfach keine gemeinsame Varianz angeben lässt. Spooled hier zu verwenden, wäre einfach Unfug, da es diese gemeinsame Varianz einfach aufgrund der Annahmen nicht gibt. Als Krücke verwendet man schon hier einen approximativen Gaußtest, wie es bei den anderen Tests erst im Fall Ⅲ nötig ist. X̄ − Ȳ − δ0 σ2 X̄ − Ȳ − δ0 = √ 2 2 Sx + Sny nx V = Das ist nicht wirklich schön, funktioniert aber, solange die Stichprobenumfänge nx , ny groß genug sind. Fall Ⅲ: Gänzlich unbekannte Verteilung der Stichprobenfunktionen Xi , Yi . Hier wird ganz analog zum Fall Ⅱ* gearbeitet, außer, dass bereits die Größen X̄, Ȳ nur noch approximativ normalverteilt ist. Differenzentest bei verbundenden Stichproben 1. Stichprobeneigenschaften: (X1 , . . . , Xn ) ist einfach und mit bekanntem σx2 und unbekanntem µx verteilt. (Y1 , . . . , Yn ) ist einfach und mit bekanntem σy2 und unbekanntem µy verteilt. Wichtig hier: Xi und Yi sind voneinander abhängig! Die Differenz 2 Di = Xi −Yu ist dementsprechend normalverteilt mit bekanntem σD = σx2 +σy2 −2σxy . 54 5 Induktive Statistik 2. Hypothesenformulierung: H0 : µx − µy ≥ µD H1 : µx − µy < µD oder H0 : µx − µy ≤ µD H1 : µx − µy > µD oder H0 : µx − µy = µD H1 : µx − µy ̸= µD 3. Prüfgrößenbestimmung: D̄ = 1∑ 1∑ Di = (Xi − Yi ) n i n i = 1 ∑ ∑ ( Xi Yi ) = X̄ − Ȳ n i i 2 . 4. Prüfgrößenverteilung: D̄ ist normalverteilt mit µD , σD 5. Testfunktion: V = V = 2 SD = D̄ − µD σD √ n D̄ − µD SD √ n (σD bekannt) (σD unbekannt) 1 ∑ 2 1 ∑ (Di − D̄)2 = ( Di − nD̄2 ) n−1 i n−1 i 6. Testfunktionsverteilung: Falls σD bekannt ist, ist V standardnormalverteilt, falls nicht, ist es t-verteilt mit f = n − 1. Im einseitigen Fall gilt dies ungünstigstenfalls. Dieser Test bei verbundenen Stichproben ist besonders scharf, falls Xi , Yi stark positiv korreliert sind, da sich die Varianz nach σD = σx2 + σy2 − σxy so verringert. Multivariate Verfahren Dieses Thema wurde wirklich nur ganz kurz angeschnitten und wir wohl nicht groß in der Klausur drankommen, da die Verfahren zu zeitaufwändig wären. Prinzipiell kann man anscheinend zwischen zwei Typen unterscheiden: Primär struktur-entdeckende Verfahren: • Faktorenanalyse • Clusteranalyse 55 5 Induktive Statistik • Multidimensionale Analyse Primär struktur-prüfende Verfahren: • Regressionsanalyse • Varianzanalyse • Diskriminanzanalyse • Conjoint-Analyse • Kausalanalyse Als Beispiel wurde kurz die Varianzanalyse als multipler Mittelwertsvergleich behandelt: H0 :µ1 = µ2 = . . . = µv H1 :Mindestens zwei µ unterscheiden sich v 1∑ 1∑ 2 SGes = nj s2j + = 1v (x̄j − x̄Ges )2 nj n j=1 n j | {z } | {z } 2 Sintern 2 Sextern S2 ist χ2 -verteilt mit f = n − v. n · n · intern σ2 v−1 Testfunktion V ist dann Fn−v -verteilt: V = 2 Sextern σ2 ist χ2 -verteilt mit f = v − 1. Die 1 S2 v−1 extern 1 S2 n−v intern 5.5.2 Nicht-parametrische Testtheorie χ2 -Anpassungstest Hierbei handelt es sich um einen Test darauf, ob die Unterschiede der beobachteten Verteilung der realisierten Stichprobe von der erwarteten Verteilung sich noch durch den Zufall erklären lassen oder ob sie signifikant abweichen. • Stichprobeneigenschaften: X1 , . . . , Xn einfach • Hypothesenformulierung: H0 : Die empirische Verteilung stimmt mit der theoretischen Verteilung überein. H1 : Die empirische Verteilung stimmt nicht mit der theoretischen Verteilung überein. 56 5 Induktive Statistik • Vorbereitung: Es werden Kategorien K1 , . . . , KI gebildet, die jeweils gewisse Realisationsmöglichkeiten enthalten. hi ist die absolute, empirische Häufigkeit dieser Kategorie nach der Realisation der Stichprobe, während πi die Wahrscheinlichkeit nach der theoretischen Verteilung ist, auf die getestetet wird, dass die Realisation eines Xi in diese Kategorie fällt. Die Parameter der theoretischen Verteilung werden hierbei im Normalfall aus der Stichprobe heraus geschätzt. Die dafür notwendigen Schätzfunktionen müssten eigentlich mit der χ2 -Minimum-Methode konstruiert werden; da diese aber glücklicherweise fast immer äquivalent zur Maximum-Likelihood-Methode ist und wir sie nicht behandelt haben, nehmen wir einfach die ML-Schätzer. Kategorie 1 .. . hi πi nπi n 1 n I • Testfunktion: Abstand V = I ∑ i=1 z }| { (hi − nπi )2 nπ |{z}i Normierung • Testfunktionsverteilung: V ist approximativ χ2 -verteilt (bleibt ohne Beweis) mit f = I −1−k, wobei k die Anzahl der aus der Stichprobe geschätzten Verteilungsparameter ist, die für die Berechnung der πi benötigt werden. Die Approximationskriterien sind wie folgt. Falls es vorkommt, dass diese Kriterien nicht erfüllt sind, kann dies durch die Zusammenfassung nebeneinander liegender Kategorien möglicherweise behoben werden. Genauer wird der Test dadurch jedoch natürlich nicht. nπi ≥ 1 ∀i nπi ≥ 5 für wenigstens 80% der i • Ablehn- und Annahmebereich: „H1 “ = B = {v|v > c} „H0 “ = B̄ = {v|v ≤ c} • Gütefunktion: Da hier nicht bekannt ist, welchen Verteilungstyp V unter H1 hat, lässt sich keine β-Risiko angeben, auch wenn es existiert. Dies gilt dementsprechend natürlich auch für die Gütefunktion. 57 5 Induktive Statistik χ2 -Homogenitätstest Der Homogenitätstest prüft, ob die Grundgesamtheiten mehrerer Stichproben der gleichen Wahrscheinlichekitsverteilung folgen. • Stichprobeneigenschaften: X1 = (X11 , X21 , . . . , Xn1 ), . . . , XJ = (X1J , X2J , . . . , XnJ ) seien einfach und paarweise unabhängig. • Hypothesenformulierung: H0 : X1 , . . . , XJ besitzen die gleiche Wahrscheinlichkeitsverteilung. (πi1 = . . . = πiJ = πi ∀i) H1 : X1 , . . . , XJ besitzen nicht die gleiche Wahrscheinlichkeitsverteilung. • Vorbereitung: Es werden Kategorien K1 , . . . , KI gebildet, die jeweils gewisse Realisationsmöglichkeiten enthalten. hij ist die absolute, empirische Häufigkeit dieser Kategorie nach der Realisation der Stichprobe, während πij die Wahrscheinlichkeit nach der theoretischen Verteilung ist, auf die getestetet wird, dass die Realisation eines Xij in diese Kategorie fällt. Kategorie 1 .. . Stichprobe 1 h11 .. . I hI1 h·1 = n1 … … … … … Stichprobe J h12 .. . h1· .. . hIJ h·J = nJ hI· n • Testfunktion: V1 = I ∑ (hi1 − n1 πi1 )2 i=1 n1 πi1 .. . I ∑ (hiJ − nJ πiJ )2 VJ = nJ πiJ i=1 J ∑ J ∑ I ∑ (hij − nj πij )2 V = Vj = nj πij j=1 j=1 i=1 • Testfunktionsverteilung: V1 , . . . , VJ sind approximativ χ2 -verteilt mit jeweils fj = I − 1 Freiheitsgraden (unter Auslassung der geschätzten Parameter). Unter H0 gilt πi1 = . . . = πiJ = πi ∀i, sodass nur die πi geschätzt werden müssen, d.h. k = I − 1 58 5 Induktive Statistik Parameter (der letzte ergibt sich glücklicherweise über das Komplement, sodass ein Freiheitsgrad weniger verloren geht). Zusammengefasst ist also V aufgrund der Reproduktionseigenschaften auch approximativ χ2 -verteilt mit f = J(I − 1) − k = J(I − 1) − (I − 1) = (I − 1)(J − 1). Die πi werden geschätzt durch π̂i = hni· , weshalb sich V auch analog zum Fall der mehrdimensionalen Daten aus der Empirie auch ausdrücken lässt mit nj πij = nj hni· = h·j hni· = h˜ij . Die Approximationskriterien lauten sind dann h̃ij ≥ 1 ∀(i, j) h̃ij ≥ 5 für wenigstens 80% der (i, j) • Ablehn- und Annahmebereich: „H1 “ = B = {v|v > c} „H0 “ = B̄ = {v|v ≤ c} χ2 -Unabhängigkeitstest • Stichprobeneigenschaften: Seien X = (X1 , . . . , Xn ) und Y = (Y1 , . . . , Yn ) einfach mit den Ausprägungen x1 , ..., xI und y1 , ..., yJ . • Hypothesenformulierung: H0 : Die Xi und die Yi sind unabhängig. H1 : Sie sind es nicht. • Darstellung: Die Ergebnisse der Stichproben werden sortiert und in einer Kontingenztabelle dargestellt: X\Y x1 ... y1 h11 …yJ … h1J xI hI1 h·1 … … … h1 · .. . hIJ h·J hI · n • Testfunktion: Bei Unabhängigkeit gilt der Multiplikationssatz, d.h. es lässt sich für jeh ·h des hij ganz einfach ein h̃ij = i·n ·j errechnen, das bei Unabhängigkeit zu erwarten wäre. Die summierten, quadrierten und normierten Abweichungen von diesen erwarteten Häufigkeiten bilden die Testfunktion: I ∑ J ∑ (hij − h̃ij ) V = h̃ij i=1 j=1 59 5 Induktive Statistik • Testfunktionsverteilung: V ist approximativ χ2 -verteilt mit f = (I − 1)(J − 1) Freiheitsgraden. Das Approximationskriterium ist: h̃ij ≥ 1 ∀(i, j) h̃ij ≥ 5 für wenigstens 80% der (i, j) • Ablehn- und Annahmebereich: „H1 “ = B = {v|v > c} „H0 “ = B̄ = {v|v ≤ c} 5.6 Median- und Quantilstest 5.6.1 Erste Variante: Vorzeichentest 1. Stichprobeneigenschaften: (X1 , . . . , Xn ) stetig und einfach 2. Hypothesenformulierung: H0 : µ̃ = µ̃0 H1 : µ̃ ̸= µ̃0 3. Testfunktion: Di = Xi − µ̃0 falls Di > 0 1, 0, falls Di < 0 Yi = undefiniert, falls Di = 0 ∑ Y = Yi (Anzahl der positiven Differenzen zu µ0 ) i Falls ein Di wirklich einmal null werden sollte (was aufgrund der angenommenen Stetigkeit eigentlich nicht vorkommen sollte, aufgrund von Messungenauigkeiten aber kann), wird das entsprechende Datum ignoriert. Der im folgenden verwendete Stichprobenumfang n muss dann auch für jedes ausgelassene Datum um 1 reduziert werden. 4. Testfunktionsverteilung: Y ist binomialverteilt mit mit n; unter H0 gilt außerdem π = 0.5. Falls die entsprechenden Approximationskriterien erfüllt sind (siehe Formelsammlung), ist Y approximativ normalverteilt, was praktisch ist, wenn die Tabelle nicht lang genug ist. 60 5 Induktive Statistik 5. Ablehn- und Annahmebereich: „H1 “ = B = {y ∈ N⊬ |v < yu ∨ yo < v} „H0 “ = B̄ = {v ∈ R| − yu ≤ v ≤ yo } Es handelt sich hier um einen konservativen Test, d.h. das Signifikanzniveau α wird praktisch nie ausgeschöpft. Bei der Interpretation des Ergebnisses ist also immer auch das exakte Signifikanzniveau αex anzugeben. 6. Anpassung bei Quantilstest: Bei einem Test auf xq (0 ≤ q ≤ 1) ist Y unter H0 binomialverteilt mit π = 1 − q. 5.6.2 Zweite Variante: Vorzeichenrangtest von Wilcoxon 1. Stichprobeneigenschaften: (X1 , . . . , Xn ) stetig, einfach und symmetrisch (in der Vorlesung ist nicht so deutlich geworden, warum die letzte Eigenschaft notwendig ist). 2. Hypothesenformulierung: H0 : µ̃ = µ̃0 H1 : µ̃ ̸= µ̃0 3. Testfunktion: Di = Xi − µ̃0 falls Di > 0 1, 0, falls Di < 0 Yi = undefiniert, falls Di = 0 ∑ W+ = Yi · rg|Di | (Summe der Rangplätze der positiven Differenzen zu µ0 ) i Die Rangfunktion rg vergibt für ihr Argument beginnend bei eins für jeden Wert einen ganzzahligen Rang, wobei der Rang umso größer wird, je größer das Argument ist. Falls zwei oder mehr Argumente gleich groß sein sollten, werden die eigentlich für sie vergebenen Ränge gemittelt und ihnen allen dann dieser mittlere Rang zugeordnet. Der nächste vergebene Rang beginnt über den eigentlich vergebenen Rängen. ∑ 4. Testfunktionsverteilung: Der Wertebereich von W + ist {w+ ∈ N0 |0 ≤ w+ ≤ i i = n·(n+1) }. Die Verteilung ist bis n = 20 vertafelt, die Tabelle allerdings etwas gewöh2 nungsbedürftig. Man sollte das vor der Klausur einmal üben. Für größere n > 20 ist und σ = Var(W + ) = W + approximativ normalverteilt mit µ = E(W + ) = n·(n+1) 4 n·(n+1)·(2n+1) . 24 5. Ablehn- und Annahmebereich: „H1 “ = B = {y ∈ N⊬ |v < wu ∨ c < wo } „H0 “ = B̄ = {v ∈ R|wu ≤ v ≤ wo } 61 5 Induktive Statistik 5.7 2x2-Feldertafelanalyse In diesem Kapitel werden ausschließlich Stichproben mit dichotomen Merkmalen behandelt, die sich wunderbar in Kreuztabellen darstellen lassen. Im Prinzip wird auch in beiden Fällen nur ein Homogenitätstest durchgeführt, d.h. die Methodik ist bereits aus 5.5.2 bekannt. 5.7.1 χ²-Test für zwei unabhängige Stichproben 1. Stichprobeneigenschaften: X : Stichprobenzugehörigkeit mit den Ausprägungen x1 , x2 Y : Erfolg oder Misserfolg Dies könnte zum Beispiel eine Medikamentenstudie sein, bei der aus 200 Probanden bei jedem durch Münzwurf ausgewählt wird, ob er Medikament A oder Medikament B erhält, die dann auf ihren Erfolg oder Misserfolg bei der Behandlung geprüft werden. 2. Hypothesenformulierung: H0 : π1 = π2 (= πE ) H1 : π1 ̸= π2 3. Darstellung Y y y2 1 X b x1 a n1 = a + b ã b̃ d x2 c n2 = c + d c̃ d˜ a+cb+d n 4. Testfunktion: (a − ã)2 (b − b̃))2 + ã b̃ 2 ˜2 (c − c̃) (d − d) V2 = + ˜ c̃ d) V1 = ˜2 (a − ã)2 (b − b̃))2 (c − c̃)2 (d − d) + + + ˜ ã c̃ b̃ d) 2 n(ad − bc) = (a + b)(c + d)(a + c)(b + d) V = V1 = V2 = Die Idee hinter dieser Testfunktion ist es, die quadrierte Abweichung der realisierten Besetzungszahlen von den erwarteten Besetzungszahlen aufzusummieren. Die erwarteten Besetzungszahlen sind ã = n1 π̂E , b̃ = n1 (1 − π̂E ), c̃ = n2 π̂E , d˜ = n2 (1 − π̂E ). geschätzt. πE wird durch π̂E = a+c n 62 5 Induktive Statistik 5. Testfunktionsverteilung: V1 , V2 sind approximativ χ2 -verteilt mit f1 = 2 − 1 = 1. V ist also χ2 -verteilt mit f = f1 + f2 = 2 − k und k = 1 aufgrund der Schätzung von πE . Das Approximationskriterium ist ã, b̃, c̃, d˜ ≥ 5. Falls diese Kriterien nicht erfüllt sind, gibt es übrigens einen Fisher-Test, den wir hier aber nicht behandeln, mit dem sich dennoch eine brauchbare Aussage generieren lässt. 6. Ablehn- und Annahmebereich: „H1 “ = B = {v ∈ R+ 0 |v > c} „H0 “ = B̄ = {v ∈ R+ 0 |v ≤ c} 5.7.2 χ²-Test für zwei abhängige Stichproben • Hier werden zwei Stichproben X und Y betrachtet mit den Ausprägungen: x1 , y1 : Erfolg x2 , y2 : Misserfolg X und Y sind voneinander abhängig. Sie könnten z.B. den Behandlungserfolg eines Medikaments A, das an einer Probandengruppe getestet wird, und den Behandlungserfolg eines Medikaments B, das an derselben Probandengruppe getestet wird, beschreiben. • Hypothesenformulierung: H0 : Beide Stichproben waren gleich erfolgreich. (πx = πy ) H1 : Beide Stichproben waren nicht gleich erfolgreich. (πx ̸= πy ) Y X x1 x2 • Darstellung y1 y2 a b a+b c d c+d a+cb+d n • Testfunktion: Die Hypothesen lassen sich umformen: πx = πy ⇔ πa + πb = πa + πc ⇔ πb = πd . Wirklich interessant für das Testergebnis sind also nur die Wechsler. Als Ansatz für eine Testfunktion bietet sich nun an: V = (b − b̃)2 (c − c̃)2 + c̃ b̃ 63 5 Induktive Statistik • Testfunktionsverteilung: V ist approximativ χ2 -verteilt. Zu beantworten ist allerdings noch, wie sich b̃ und c̃ ergeben. Unter H0 müssten beide genau gleich der Hälfte der Gesamtzahl der Wechsler sein, da ja πb = πc . Um b̃ und c̃ zu berechnen, muss zweimal auf die Zahl der Wechsler b+c aus der Stichprobe zurückgegriffen werden, weshalb sich ein k = 2 ergibt. Da man von vier möglichen Parametern (πa , πb , πc , πd ) ausgeht, von denen der letzte schon durch das Komplement festgelegt ist, ergibt sich f = 4−1−k = 1. Das Approximationskriterium ist dann b̃, c̃ ≥ 5 Für den Fall, dass dieses Kriterium nicht erfüllt ist, kann auf einen Binomialtest mit n = b + c und π = 21 zurückgegriffen werden. • Ablehn- und Annahmebereich: „H1 “ = B = {v ∈ R+ 0 |v > c} „H0 “ = B̄ = {v ∈ R+ 0 |v ≤ c} 64