Statistik & Methodenlehre Prof. Dr. G. Meinhardt 6. Stock, Wallstr. 3 (Raum 06-206) Sprechstunde jederzeit nach Vereinbarung und nach der Vorlesung. Mathematische und statistische Methoden II Dr. Malte Persike [email protected] http://psymet03.sowi.uni-mainz.de/ SoSe 2011 Fachbereich Sozialwissenschaften Psychologisches Institut Johannes Gutenberg Universität Mainz Folie 1 Statistik & Methodenlehre Diskrete Verteilungen Inferenzstatistik Inhalte dieser Sitzung Tabellarische Darstellung von Wahrscheinlichkeitsverteilungen Eine Zahl für Alles: Kennwerte Bilder sagen mehr als Worte: Grafische Darstellung Was ist eine große Zahl – Einführung in das statistische Testen Binomial- und Poisson-Test Folie 2 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Recap Kennwerte Grafiken Die Binomial- und Poissonverteilung beschreiben die Auftretenswahrscheinlichkeiten einer 0/1kodierten Zufallsvariablen bei n Trials Es wird immer angenommen, dass der Stichprobenraum eines Trials definiert ist als = {Misserfolg, Erfolg} X() = {0,1} Ein Elementarereignis des gesamten BernoulliExperimentes mit n Trials ist so immer eine Folge von n Nullen bzw. Einsen. Folie 3 Die Anzahl von Erfolgen ist einfach die Summe der Trialrealisationen. Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: univariate Kreuztabellen Kennwerte Grafiken Die vollständige numerische Darstellung der Wahrscheinlichkeitsverteilung oder Verteilungsfunktion wird über so genannte Kreuztabellen (oder Kontingenztabellen) vorgenommen. Wert von X x1 x2 … xi … xk Folie 4 f(X = xi) h(x1) h(x2) … h(xi) … h(xk) F(X = xi) f(x1) f(x2) … f(xi) … f(xk) Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: multivariate Kreuztabellen Kennwerte Grafiken Oft betrachtet man Wahrscheinlichkeiten für das gemeinsame Auftreten zweier Merkmale (bivariat) Beispiel: Frauen/Männer, die unter-/normal/übergewichtig sind In diesem Fall werden 2 Variablen betrachtet: X: Geschlecht (x1, x2) Y: Gewichtsstatus (y1, y2, y3) Die Wahrscheinlichkeiten sind Verbundwahrscheinlichkeiten, die das Vorkommen jeder möglichen Kombination aus x und y beschreiben Folie 5 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: multivariate Kreuztabellen Kennwerte Tabellarische Darstellung über bivariate Kreuztabellen Grafiken Geschlecht Männlich (x1) Weiblich (x2) Unter (y1) f(x1,y1) f(x2,y1) Gewicht Normal (y2) f(x1,y2) f(x2,y2) Über (y3) f(x1,y3) f(x2,y3) Σ f(x1,●) f(x2,●) Folie 6 Randhäufigkeiten Σ f(●,y1) f(●,y2) f(●,y3) f(●,●) Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: multivariate Kreuztabellen Kennwerte Tabellarische Darstellung über bivariate Kreuztabellen Grafiken Varianten: Kreuztabellen der unbedingten Verbundwahrscheinlichkeiten oder Kreuztabellen der bedingten Wahrscheinlichkeiten. Geschlecht Männlich (x1) Weiblich (x2) Unter (y1) f(x1 | y1) f(x2 | y1) Gewicht Normal (y2) f(x1 | y2) f(x2 | y2) Über (y3) f(x1 | y3) f(x2 | y3) Σ f(x1,●) f(x2,●) Folie 7 Σ f(●,y1) f(●,y2) f(●,y3) f(●,●) Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: multivariate Kreuztabellen Kennwerte Tabellarische Darstellung über bivariate Kreuztabellen Grafiken Varianten: Kreuztabellen der unbedingten Verbundwahrscheinlichkeiten oder Kreuztabellen der bedingten Wahrscheinlichkeiten. Geschlecht Männlich (x1) Weiblich (x2) Unter (y1) f(y1 | x1) f(y1 | x2) Gewicht Normal (y2) f(y2 | x1) f(y2 | x2) Über (y3) f(y3 | x1) f(y3 | x2) Σ f(x1,●) f(x2,●) Folie 8 Σ f(●,y1) f(●,y2) f(●,y3) f(●,●) Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Kennwerte Kennwerte Grafiken Als Kennwert bezeichnet man ein statistisches Maß, das eine Wahrscheinlichkeitsverteilung über zumeist nur eine Zahl beschreibt Kennwerte dienen der Informationsreduktion, um die Eigenschaften einer Verteilung möglichst sparsam zu beschreiben Kennwerte charakterisieren immer nur bestimmte Eigenschaften der gegebenen Verteilung, sie bedeuten also einen Informationsverlust Folie 9 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Erwartungswert Kennwerte Grafiken Die Lage der Wahrscheinlichkeitsverteilung einer Zufallsvariablen X wird durch den Erwartungswert von X, geschrieben als E(X), charakterisiert. Oft wird E(X) alternativ als („mü“) bezeichnet Der Erwartungswert kann als Maß verstanden werden, das den Schwerpunkt einer Verteilung kennzeichnet. Der Erwartungswert ist für die theoretische Wahrscheinlichkeitsverteilung das, was der Mittelwert für die empirische Häufigkeitsverteilung ist. Folie 10 Der Erwartungswert einer Zufallsvariablen erfordert keine Beobachtungen, sondern bezieht sich auf die theoretische Wahrscheinlichkeitsverteilung. Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Erwartungswert Kennwerte Grafiken Für eine diskrete Zufallsvariable X mit endlich vielen Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi) ergibt sich der Erwartungswert über k E ( X ) pi xi i 1 kann als gewichtetes Mittel der möglichen Realisationen einer Zufallsvariablen aufgefasst werden, wobei die Wahrscheinlichkeiten die Gewichte darstellen. Dabei gilt: Folie 11 E ( a X b) a E X b Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Varianz Kennwerte Grafiken Die Breite der Wahrscheinlichkeitsverteilung einer Zufallsvariablen X wird durch die Varianz von X, geschrieben ²(X), charakterisiert. Oft wird ²(X) abgekürzt zu ² („sigma Quadrat“). Die Varianz kann als Maß verstanden werden, die die Ausdehnung der Wahrscheinlichkeitsverteilung um den Erwartungswert herum beschreibt. Die Varianz einer Zufallsvariablen erfordert keine Beobachtungen, sondern bezieht sich auf die theoretische Wahrscheinlichkeitsverteilung. Folie 12 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Varianz Kennwerte Grafiken Für eine diskrete Zufallsvariable X mit endlich vielen Ausprägungen x1,…, xk und Wahrscheinlichkeiten pi = p(X=xi) ergibt sich die Varianz über E X E X 2 k 2 X pi xi 2 i 1 ²(X) kann als gewichtetes Mittel der quadrierten Abweichungen der möglichen Realisationen einer Zufallsvariablen zum Erwartungswert aufgefasst werden, wobei die Wahrscheinlichkeiten die Gewichte darstellen. Folie 13 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Numerische Beschreibung: Standardabweichung Kennwerte Grafiken Die Varianz erfüllt nicht die Forderung der Proportionalität bei der Multiplikation der Zufallsvariablen mit einem festen Wert a. ²(a X ) a 2 X Es gilt also nicht sondern statt dessen ²(a X ) a 2 2 X Dieses Problem wird durch Wurzelziehen beseitigt. Man erhält so die Standardabweichung (X), abgekürzt einfach („sigma“). X 2X Folie 14 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Einfache Rechenregeln für Kennwerte Kennwerte Grafiken Für eine binomialverteilte Zufallsvariable X mit der Wahrscheinlichkeitsverteilung f(m, n, p) gilt 1. = n · p Erwartungswert 2. ² = n · p · q Varianz 3. = Standardabweichung n·p·q Nur für X()={0,1} Folie 15 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Einfache Rechenregeln für Kennwerte Kennwerte Grafiken Für eine poisssonverteilte Zufallsvariable X mit der Wahrscheinlichkeitsverteilung f(, n) gilt 1. = Erwartungswert 2. ² = · (1-/n) Varianz 3. = Standardabw. für große n (siehe 2.) Nur für X()={0,1} Folie 16 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Folie 17 Frage: Wie berechnet sich der Erwartungswert für eine binomialverteilte, aber nicht 0/1-kodierte Zufallsvariable? Beispiel: Die Wahrscheinlichkeit, ohne Mammografie an Brustkrebs zu erkanken, betrage p=0.1. Eine Brustkrebspatientin verursacht Krankheitskosten von etwa 28.500€. Die regelmäßige Brustkrebsvorsorge durch Mammografie kostet 9.000€, senkt aber das Brustkrebsrisiko auf p=0.05. Eine Krankenversicherung beauftragt einen Gesundheitspsychologen zu berechnen, ob sie billiger wegkommt, wenn sie ihren weiblichen Mitglieder kostenlose Mammografien verordnet. Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Man hat hier zwei Zufallsvariablen mit eigentlich folgenden Eigenschaften: X = {0, 1} Y = {0, 1} p(X) = {0.9, 0.1} p(Y) = {0.95, 0.05} mit 0 = kein Brustkrebs, 1 = Brustkrebs. Man geht nun davon aus, dass die neue Zufallsvariable „Kosten“ nur eine mathematische Transformation der Zufallsvariable „Häufigkeit“ ist. Die neue Zufallsvariable erbt wieder die Wahrscheinlichkeitsverteilung der alten Zufallsvariablen. Folie 18 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Es gilt also für die neue Zufallsvariable „Kosten“: X‘ = {0, 28.500} Y‘ = {9.000, 28.500} p(X‘) = {0.9, 0.1} p(Y‘) = {0.95, 0.05} Daraus lässt sich nun wie üblich der Erwartungswert bestimmen als p‘ix‘i. Und die Varianz ist dementsprechend Man kann nun mathematische Beziehungen für die Veränderung von Erwartungswert und Varianz bei der Transformation von Zufallsvariablen herleiten Folie 19 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Voraussetzung: Die Wahrscheinlichkeitsverteilung einer Zufallsvariablen X mit beliebig vielen Ausprägungen sei bekannt. x1 x 2 X xk Folie 20 p1 p 2 p( X ) pk k X pi xi i 1 k pi xi X 2 X 2 i 1 Oder x und ² sind direkt berechenbar (z.B. bei der Binomialverteilung mit 0/1) Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Variante 1: Die neue Zufallsvariable X‘ ist eine einfache mathematische Transformation (Multiplikation und Addition) der alten Zufallsvariablen X. X ' a X b Dann gilt Folie 21 X ' a b X X2 ' a 2 X2 Der Erwartungswert verändert sich also genau so wie die Zufallsvariable, die Varianz wächst mit dem Quadrat des Multiplikators. Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Transformation der Zufallsvariablen Kennwerte Grafiken Variante 2: Die neue Zufallsvariable X‘ ist eine beliebige Transformation der alten Zufallsvariablen X. x '1 x ' 2 X ' x 'k p1 p 2 p ( X ') pk k Dann muss neu gerechnet werden: Folie 22 X ' pi x 'i i 1 k X2 ' pi x 'i X ' i 1 2 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Grafische Beschreibung: Kreisdiagramm Kennwerte Grafiken Das Kreis- oder Tortendiagramm stellt die Wahrscheinlichkeiten von Ausprägungen einer Zufallsvariablen als Kreissegmente eines Vollkreises („Tortenstücke“) dar. Der Öffnungswinkel α eines Segmentes ist dabei durch die Wahrscheinlichkeit der Ausprägung p(xi) definiert 360 p( xi ) Die Summe der Öffnungswinkel aller Kreissegmente sollte wieder 360° ergeben Folie 23 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Grafische Beschreibung: Kreisdiagramm Kennwerte Grafiken Folie 24 Beispiel: Die Wahrscheinlichkeit, in einem Experiment zur visuellen Wahrnehmung einen epileptischen Anfall zu bekommen, betrage p=0.0017. An einem konkreten Experiment sollen n=200 Personen teilnehmen. Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Grafische Beschreibung: Säulendiagramm Kennwerte Grafiken Das Säulen- oder Balkendiagramm stellt die Wahrscheinlichkeiten von Ausprägungen einer Zufallsvariablen als Balken (waagerecht) oder Säulen (senkrecht) dar. Der Länge der Säulen bzw. Balken ist dabei durch die Wahrscheinlichkeit p(xi) bestimmt. Die Breite der Säulen bzw. Balken variiert i.d.R. nicht innerhalb eines Diagramms Zur Darstellung den Wahrscheinlichkeitsverteilung bzw. Verteilungsfunktion wird zwischen den Säulen bzw. Balken zumeist kein Raum gelassen Folie 25 Statistik & Methodenlehre Kreuztabellen Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Grafische Beschreibung: Säulendiagramm Kennwerte Grafiken Beispiel: Das Neuroleptikum Tavor führt bei längerer Einnahme mit einer Wahrscheinlichkeit von p=0.73 zu Abhängigkeit. In einer Langzeittherapiestudie soll das Medikament an n=10 Personen eingesetzt werden. Verteilungsfunktion F(x, 10, 0.73) Punktwahrscheinlichkeit p(x) Intervallwahrscheinlichkeit P(x) Wahrscheinlichkeitsverteilung f(x, 10, 0.73) Anzahl Abhängigkeitsfälle x Folie 26 Anzahl Abhängigkeitsfälle x Statistik & Methodenlehre Diskrete Verteilungen Inferenzstatistik Diskrete Wk-Verteilungen Kreuztabellen Grafische Beschreibung: Säulendiagramm Kennwerte Wahrscheinlichkeitsverteilung f(x, 10, 0.73) Wahrscheinlichkeitsverteilung f(x, 10, 0.73) Punktwahrscheinlichkeit p(x) Punktwahrscheinlichkeit p(x) Grafiken Warum gleiche Säulenbreiten? Anzahl Abhängigkeitsfälle x Anzahl Abhängigkeitsfälle x Menschen neigen zur Größenbewertung anhand der Fläche. Folie 27 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Gustav Fechner, Urvater der Experimentellen Psychologie, entwickelte zentrale Methoden der modernen Psychophysik mit genau einem Ziel: den Beweis zu führen, dass Pflanzen eine Seele haben. Er perfektionierte eine Methode der Mikrostimulation, auf die hin er eine biologische Reaktion und bei Pflanzen nachweisen wollte. Eine solche Reaktion wäre der Beleg, dass Pflanzen fühlen können. Damit wäre es zum Denken und schließlich zur Seele nicht mehr weit. Fechner führte insgesamt n=24576 Messungen von ReizReaktionsmusters bei Pflanzen durch. Folie 28 Angenommen, Pflanzen zeigen die gewünschte Reaktion auch ohne Stimulation (d.h. zufällig) mit einer Wahrscheinlichkeit von p=.25. Fechner möge eine Reaktion in x=6306 Fällen finden. Haben Pflanzen eine Seele? Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Das Ziel Fechners war die Beantwortung der Frage, ob Pflanzen eine Seele haben Die Beantwortung sollte sich nach Möglichkeit auf die Population aller Pflanzen beziehen, nicht nur auf die Stichprobe der Pflanzen in Fechners Labor Es sind also Methoden erforderlich, welche die Verallgemeinerung von Beobachtungen in einer Stichprobe auf die zugrunde liegende Population erlauben Diese Methoden stellt die Inferenzstatistik („schließende Statistik“) zur Verfügung Folie 29 Population ? Daten (beobachtet) Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Es existieren eine Vielzahl inferenzstatistischer Tests für nahezu beliebige Arten von Hypothesen, z.B. Binomialtest Gehört ein Messwert (und damit sein Merkmalsträger) zu einer bestimmten Population? Poissontest Sind Häufigkeiten verschieden? Sind die Mittelwerte von Messwerten zwischen Gruppen unterschiedlich? Sind die Varianzen von Messwerten zwischen Gruppen unterschiedlich? Hängt die Ausprägung eines Merkmals mit einer bestimmten Intervention zusammen? Folie 30 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Wenn die Wahrscheinlichkeitsfunktion eines Zufallsexperimentes theoretisch bekannt ist, können die bei einer Durchführung erwarteten empirischen Häufigkeiten bestimmt werden. Poissontest Beobachtete absolute oder relative Häufigkeiten können dann mit den erwarteten Häufigkeiten verglichen werden. Wenn eine beobachtete Häufigkeit zu stark von der theoretischen Wahrscheinlichkeit abweicht, kann die Wahrscheinlichkeitsfunktion als nicht zutreffend betrachtet werden. Entweder sind dann ihre Parameter falsch definiert oder die Funktion selbst ist nicht zutreffend. Folie 31 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Grundgedanke: Eine beobachtete Häufigkeit x einer Zufallsvariablen X in einem Bernoulli Experiment sollte im Bereich „typischer“ erwarteter Häufigkeiten liegen. Binomialtest Diese erwarteten Häufigkeiten hängen von der Anzahl der Versuche n und der Erfolgswahrscheinlichkeit p ab, z.B. bei der Binomialverteilung Poissontest n x n x f ( x , n, p ) p q x Weicht eine beobachtete Häufigkeit stark von der erwarteten Häufigkeit ab, ist die Abweichung vermutlich nicht zufällig, sondern systematisch. Folie 32 Die Beobachtung ist dann statistisch signifikant. Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Problem I: Ist es sinnvoll, die Punktwahrscheinlichkeit f(X = x) zur Bewertung heranzuziehen? p(X=10) = 0.144 p(X≤10) ≈ 0.5 Poissontest p(X=100) = 0.046 p(X≤100) ≈ 0.5 Folie 33 Beim statistischen Testen ist also immer nach einer Intervallwahrscheinlichkeit gefragt. Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Statistische Hypothesen Hypothesen Binomialtest Poissontest Aus einer inhaltlichen Hypothese wie Wenn Pflanzen mikrostimuliert werden, zeigen sie eine bestimmte biologische Reaktion ist zunächst eine statistische Hypothese zu formulieren Jede statistische Hypothese ist im Grunde nicht mehr als die Annahme, dass eine bestimmte Wahrscheinlichkeitsverteilung auf eine gegebene Zufallsvariable zutrifft Im ersten Schritt der Hypothesenbildung muss also die Wahrscheinlichkeitsverteilung festgelegt werden, aus der die Beobachtungen vermutlich kommen Folie 34 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Statistische Hypothesen Hypothesen Die Festlegung der Wahrscheinlichkeitsverteilung der beobachteten Zufallsvariablen wird als Verteilungsannahme bezeichnet Binomialtest Die Verteilungsannahme umfasst die Festlegung der Form der Wahrscheinlichkeitsverteilung (z.B. Binomial, Poisson) sowie die Festlegung ihrer Parameter (z.B. n und p bei der Binomialverteilung) Poissontest Für eine gegebene Beobachtung x aus einer Zufallsvariablen X gibt es nun grundsätzlich zwei Hypothesen: Nullhypothese: x stammt aus der angenommenen H0 Wahrscheinlichkeitsverteilung Folie 35 Alternativhypothese: H1 x stammt nicht aus der angenommenen Verteilung Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Statistische Hypothesen Hypothesen Binomialtest Poissontest Am Fechner Beispiel: Im Experiment mit einer angenommenen Binomialverteilung f(x, n=24576, p=0.25) beobachte man ein x=6306. Frage: Ist dieses x vereinbar mit der angenommenen Wahrscheinlichkeitsverteilung (H0 = „ja“, H1 = „nein“)? Im Grunde handelt es sich bei der Antwort auf diese Frage um eine bedingte Wahrscheinlichkeit, nämlich p (Beobachtung x | Hypothese) also die Wahrscheinlichkeit, dass die Beobachtung x zustande kommt, gegeben, dass die H0 oder H1 gilt. Folie 36 p(Beobachtung | H0/1) wird auch als Likelihood bezeichnet Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Statistische Hypothesen und ihre Interpretation Hypothesen Die bedingte Wahrscheinlichkeit p(Beobachtung | H0/1) ist nicht Binomialtest die Wahrscheinlichkeit p(Ergebnis). Dies ist einfach die Grundwahrscheinlichkeit für die Beobachtung (bei stetigen ZV immer 0). Poissontest die Wahrscheinlichkeit p(H0) bzw. p(H1) = 1 – p(H0). Die „wahre“ H0 und H1 haben keine Wahrscheinlichkeit. Entweder trifft die eine oder die andere zu die Wahrscheinlichkeit p(H0/1 | Ergebnis). Dies ist eine so genannte a-Posteriori Wahrscheinlichkeit, die beschreibt, mit welcher Wahrscheinlichkeit die H0 anzunehmen ist, wenn das beobachtete Ergebnis gemessen wurde (siehe Satz von Bayes) Folie 37 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Beim statistischen Testen von Hypothesen fragen wir wie gesehen immer nach Intervallwahrscheinlichkeiten Man unterscheidet zwei verschiedene Varianten H 0 : p ( X xi ) Verwerfen der Verteilungsannahme H1 : p ( X xi ) bei einer zu großen Beobachtung H 0 : p ( X xi ) Verwerfen der Verteilungsannahme H1 : p ( X xi ) bei einer zu kleinen Beobachtung „Einseitige“ oder „gerichtete“ Hypothese Folie 38 H 0 : p ( xi X x j ) Verwerfen der Verteilungsannahme H1 : p ( xi X x j ) bei einer zu extremen Beobachtung „Zweiseitige“ oder „ungerichtete“ Hypothese Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Beim statistischen Testen von Hypothesen fragen wir wie gesehen immer nach Intervallwahrscheinlichkeiten Man unterscheidet zwei verschiedene Varianten H 0 : p ( X xi ) Verwerfen der Verteilungsannahme H1 : p( X xi ) bei einem noch größeren Wert H 0 : p ( X xi ) Verwerfen der Verteilungsannahme H1 : p( X xi ) bei einem noch kleineren Wert „Einseitige“ oder „gerichtete“ Hypothese Folie 39 HWird ( xi einigen X x jTests, ) vor Verwerfen derasymmetrischer Verteilungsannahme allem mit Wahr0 : pbei H einem noch extremeren Wert scheinlichkeitsverteilung (z.B. Binomial) kaum verwendet 1 : 1 p ( xi X x j ) bei „Zweiseitige“ oder „ungerichtete“ Hypothese Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Problem: Aufgrund der zufälligen Ziehung wird das beobachtete x schwanken (Stichprobenfehler) Frage: Wie extrem muss das beobachtete x sein, damit wir begründet annehmen können, dass diese Beobachtung nicht passt „Wie wahrscheinlich ist zu unwahrscheinlich?“ Hier haben sich in der Praxis zwei Cut-Off Werte eingebürgert, die als α–Niveaus oder Signifikanzniveaus bezeichnet werden. Es gilt: Folie 40 p 0.05 statistisch nicht signifikant p 0.05 p 0.01 statistisch signifikant statistisch hochsignifikant Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Problem: Aufgrund der zufälligen Ziehung wird das beobachtete x schwanken (Stichprobenfehler) Frage: Wie extrem muss das beobachtete x sein, damit wir begründet annehmen können, dass diese Beobachtung nicht passt Schreibe: „Wie wahrscheinlich ist zu auf „Es wird getestet unwahrscheinlich?“ einem Signifikanzniveau von …“ α = .05 oder Hier haben sich in der Praxis zwei Cut-Off Werte α = .01 eingebürgert, die als α–Niveaus oder Signifikanzniveaus bezeichnet werden. Es gilt: Folie 41 p 0.05 statistisch nicht signifikant p 0.05 p 0.01 statistisch signifikant statistisch hochsignifikant Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Die Aussage, ein x sei statistisch signifikant, ist eine Wahrscheinlichkeitsaussage bei der immer ein Restirrtum verbleibt, die Irrtumswahrscheinlichkeit. Diese Irrtumswahrscheinlichkeit hängt nicht von der konkret erhaltenen Wahrscheinlichkeit p ab, sondern vom gewählten Signifikanzniveau α. Bei α=0.05 beträgt die Irrtumswahrscheinlichkeit also 5%, bei α=0.01 ist sie 1%. In der Praxis wird das α-Niveau deshalb oft auch als Irrtumswahrscheinlichkeit oder α-Fehler bezeichnet. Folie 42 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Bei der Entscheidung für die H0 oder H1 können je zwei Arten richtiger/falscher Entscheidungen getroffen werden In der Population gilt Binomialtest Poissontest H0 H0 H1 Correct Rejection Miss Entscheidung für H1 Folie 43 False Alarm (-Fehler, Fehler 1. Art) (-Fehler, Fehler 2. Art) Hit Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Binomialtest Poissontest Die Hypothesenrichtung muss vor dem Experiment festgelegt werden Ebenso muss das Signifikanzniveau vor dem Experiment festgelegt werden Finden diese Festlegungen erst nach Ansehen der Daten statt, kann nicht mehr von der bedingten Wahrscheinlichkeit p(Daten|Hypothese) ausgegangen werden Das Forschungsergebnis wird dann an die Daten angepasst Data Snooping Folie 44 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens Hypothesen Beobachtung im Experiment: X=x Frage: Kann x aus einer bestimmten Verteilung stammen? Binomialtest Poissontest Geht die Höhe der Häufigkeit auf einen Stichprobenfehler zurück? (1) Bestimmung der Verteilung der Zufallsvariablen X (2) Festlegung eines Signifikanzniveaus α (3) Berechnung der Wahrscheinlichkeit für dieses x unter Annahme der H0, z. B. p(X≤x) (4) Vergleich von p mit α und Treffen der Signifikanzaussage Folie 45 Aber: Bei dieser Aussage irrt man sich mit einer Wahrscheinlichkeit von α·100% Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens – Binomialtest Hypothesen Am Fechner Beispiel: Im Experiment mit einer angenommenen Binomialverteilung f(x, n=24576, p=0.25) beobachte man ein x=6306. Binomialtest 1. Verteilungsannahme treffen: Binomial mit den gegebenen n und p Poissontest 2. Hypothesenrichtung festlegen und statistische Hypothesen formulieren 3. Signifikanzniveau festlegen 4. Wahrscheinlichkeit für die beobachtete Realisation bestimmen und mit dem Signifkanzniveau vergleichen Folie 46 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens – Binomialtest Hypothesen Binomialtest Poissontest Am Fechner Beispiel: Im Experiment mit einer angenommenen Binomialverteilung f(x, n=24576, p=0.25) beobachte man ein x=6306. Man berechnet die Auftretenswahrscheinlichkeit p(x|H0) unter der Annahme, dass die angenommene Häufigkeitsverteilung gilt. Man erhalte p(X ≤ x)=0.992 und damit p(X > x)=0.008. Per Konvention würden wir auf jedem α-Niveau sagen, dass x eine signifikant abweichende Beobachtung ist. Aber Achtung: Das x=6306 hat eine Auftretenswahrscheinlichkeit von p(X>x)=0.008. Mit diesem p kann es also auch dann vorkommen, wenn die angenommene Binomialverteilung zutrifft. Folie 47 Statistik & Methodenlehre Einführung Diskrete Verteilungen Inferenzstatistik Inferenzstatistik – Primer Das Prinzip des statistischen Testens – Poissontest Hypothesen Binomialtest Poissontest Dieselbe Testlogik wie beim Binomialtest kann auch für die Poissonverteilung angenommen werden. Beispiel: Die Wahrscheinlichkeit, als Patient während einer Höhenangstexposition einen Kreislaufkollaps zu erleiden, betrage deutschlandweit p=0.0003. Bei jährlich 1093 Patienten in der Mainzer Psychotherapieambulanz hat es keinen solchen Fall gegeben. 1. Verteilungsannahme treffen: Poisson mit gegebenem λ 2. Hypothesenrichtung festlegen und statistische Hypothesen formulieren 3. Signifikanzniveau festlegen Folie 48 4. Wahrscheinlichkeit für die beobachtete Realisation bestimmen und mit dem Signifkanzniveau vergleichen Statistik & Methodenlehre Relevante Excel Funktionen Diskrete Wahrscheinlichkeitsverteilungen • BINOM.VERT() • POISSON.VERT() oder EXP() und POTENZ() bzw. ^ („hoch“) • SUMME(), PRODUKT() Folie 49