1. Wahrscheinlichkeitsrechnung – siehe erste Veranstaltung 2. Kombinatorik Mit den Formeln der Kombinatorik lassen sich die Anzahlen möglicher Anordnungen von Ereignissen errechnen. Also eine Anordnung von n Elementen (in k Klassen) oder eine Auswahl von k aus n. Unter welchen Umständen welche Formel anzuwenden ist, ergibt sich aus folgendem Flußdiagramm: Frage 1 : Handelt es sich um die Anordnung aller Elemente in einer Gesamtmenge? Frage 1a : Mit Klassenbildung? ja ja nein Permutation ohne Klassen: n! Permutation mit Klassen: n! k1!*k 2 !... * k m ! Frage 2 : Mit Berücksichtigung der Anordnung innerhalb der Teilauswahl? nein nein Variation ja Frage 3 : Mit Wiederholung? (d.h.: Kann ein Element mehrmals ausgewählt werden?) Kombination Frage 3 : Mit Wiederholung? (d.h.: Kann ein Element mehrmals ausgewählt werden?) nein nein ja n + k − 1 (n + k −1)! = k (n − 1)!*k! n! (n − k )! ja nk n! n = k (n − k)!*k! Zur Erinnerung: x!, sprich x Fakultät, wird so berechnet: x! = x*(x-1)*(x-2)*...1 , also zum Beispiel: 6! = 6 * 5 * 4 * 3 * 2 * 1 = 720 3. Zusammenfassung der behandelten theoretischen Verteilungen 3.1 Binomialverteilungen (BV) a) Voraussetzungen: • dichotome Grundgesamtheit (zwei einander ausschließende Alternativen, bspw.: Ja/Nein) • Anteilswert p, bzw q = 1 - p ist bekannt • Auswahl vom Umfang n mit Wiederholung oder ohne Wiederholung wenn n/N < 0,05 . b) Anwendung: BV geben die Wahrscheinlichkeit an, daß bei einer Auswahl von n k Merkmalsträger vorhanden sind, formal: P(k=kj) .Diese Wahrscheinlichkeiten können in Tabelle 9.11 c) Approximation Wenn n*p*q>9 kann BV in eine Normalverteilung überführt werden. Die Stetigkeitskorrektur muß aber berücksichtigt werden. Wenn n 2 ( p ⋅(1 − p)) ≥ 2500 muß auch die Stetigkeitskorrektur nicht mehr angewandt werden. 3.2 Normalverteilungen (NV) a) Voraussetzungen, Kennzeichen • stetige Variable • unimodal und symmetrisch • Für ±∞ nähert sich die Funktion asymptotisch der x-Achse b) Anwendung, Eigenschaften Alle NV unterscheiden sich nur durch Lage und Streuung, also durch die Parameter _ und _. Die NV mit µ = 0 und σ = 1 wird als Standardnormalverteilung [SNV: f(z)] definiert. Alle NVen lassen sich über die Transformationsformel zi = σ zur SNV zurückrechnen. In Tabelle 9.32 sind die Flächenanteile P(z>zi) tabelliert. Da jedem z-Wert der SNV über die Transformationsformel der x-Wert einer beliebigen NV zugeordnet werden kann, erübrigen sich komplizierte Berechnungen der Verteilungsfunktion einer bestimmten NV: Es reicht die simple Umrechnung mit Hilfe der vorliegenden SNV-Tabelle. xi − µ 3.3 χ 2 - Verteilungen Im Tutorium werden Dichte- und Verteilungsfunktion von χ 2 gar nicht konkret dargestellt. Es wird nur χ 2 als neue Variable erläutert: χ = ∑z i D.h., die Variable χ 2 wird aus konkreten quadrierten zWerten der Standardnormalverteilung (SNV) gebildet. Für die χ 2 - Funktion mit einem Freiheitsgrad 1 2 Litz, H.-P.: Statistische Methoden in den Wirtschafts- und Sozialwissenschaften, München 1997, Seite 354ff. ebd. Seite 360. (df=1) geht nur eine SNV, also für jeden χ 2 -Wert nur ein zi2 - Wert in die Variable ein. Für die χ 2 Verteilung mit vier Freiheitsgraden (f=4) ist dann: χ 2 = ∑ z12 + z22 + z32 + z24 (siehe Tabelle). Die eigentliche χ 2 -Verteilung setzt sich erst aus den so zusammengefügten χ 2 -Werten zusammen. Die φ χ Dichtefunktion hat folgende Form: −1 − (nicht merken!) 1 2 2 f (χ) = 2φ φ −1 ! 2 χ e Es bleibt die Frage: Warum wird dieses χ 2 gebildet? Der Sinn ist, ein theoretisches Konstrukt zu erhalten, um zu sehen, wie sich eine Kombination von SNVen verteilt (beachte: jede dieser SNVen kann wiederum eine Umformung beliebiger Normalverteilungen darstellen!). In der umgekehrten Betrachtung (also: verhalten sich bestimmte Verteilungen so, als ob sie einer gemeinsamen Kombination/Konstruktion entstammen?) gewinnt die __-Verteilung ihre Wichtigkeit. Diese Sichtweise wird ein Schwerpunkt bei der Analyse von Stichprobenverteilungen und den darauf aufbauenden Hypothesentests und Konfidenzschätzungen sowie beim __-Unabhängigkeits- oder Anpassungstest sein. Das ist der Grund, warum wir uns mit __ beschäftigen müssen. Dabei ist es nicht notwendig, die Konstruktion dieser theoretischen Verteilung vollständig zu begreifen - ungleich wichtiger ist die Anwendung in den genannten Test- und Schätzverfahren. Die Aufgaben 3 22 und 23 sind in diesem Kontext mehr als Übungen im Umgang mit der χ 2 - Verteilungstabelle anzusehen. Zusammenfassend bedeutet das, daß eine tiefergehende Beschäftigung mit χ 2 gar nicht nötig ist - nur die richtige Handhabung der Tabelle und das Wissen, wann diese Verteilung anzuwenden ist, sind erforderlich. (Beachte: Approximation zur SNV bei φ ≥ 30 mit z = 2χ 2 − 2φ − 1 3.4 t-Verteilungen Die t-Verteilung ist die letzte grundlegende theoretische Verteilung, die in Statistik II betrachtet wird. Ähnlich wie χ 2 ist t auch eine Konstruktion aus anderen Variablen: t = Z U φ Dabei ist Z der Wert einer Standardnormalverteilung und U ein Wert einer beliebigen χ 2 -Verteilung (dann dividiert durch den dazugehörigen Freiheitsgrad) Die daraus resultierenden t-Werte bilden wiederum eine eine eigene Dichte- und Verteilungsfunktion4. Genau wie bei χ 2 ist auch hier eine tiefergehende Beschäftigung nicht von Nöten - es reicht die Anwendung! Wie χ 2 hängt auch t nur von den Freiheitsgraden ab. Welchen Sinn hat die t-Verteilung? Genau wie χ 2 findet t (in dieser Veranstaltung) erst später Anwendung im Rückschluß von Stichproben auf die Grundgesamtheit. Man kann auch sagen, daß t eine relativierte Standardnormalverteilung für kleine Stichproben darstellt. Dementsprechend ist die t-Verteilung ebenfalls ab φ ≥ 30 zur SNV approximierbar - in diesem Fall ganz einfach ohne großartige Formel, schlicht: t = z . t hat den Erwartungswert E(t) = 0 für φ ≥ 2 (vgl. SNV m= 0 !) φ und die Varianz VAR(t) = für φ ≥ 3 (dieser Wert ist immer ≥ 1⇒ vgl. SNV: σ = 1 φ−2 1) 3 4 ebd. Seite 280. Vgl. ebd. Seite 276 ff. Im Gegensatz zur χ 2 - Verteilung ist t wieder (wie NV und SNV) symmetrisch und unimodal. Nichtsdestotrotz ist die t- Verteilungstabelle ähnlich aufgebaut wie die χ 2 - Verteilungstabelle; nur sind hier auch negative t-Werte vorhanden (nur nicht tabelliert, da sie aufgrund der Symmetrieeigenschaft den positiven entsprechen). D.h. (wie bei NV und SNV), P(t>ti) = 1 - P(t<-ti). Ebenso wie bei χ 2 ist es auch für die t-Verteilung schwierig, sinnvolle Alltagsbeispiele zu finden (in den Aufgaben wird folglich auch darauf verzichtet). Die praktische Bedeutung der t-Verteilung wird erst beim nächsten Schritt, den Stichprobenverteilungen, deutlich. 4. Stichprobenverteilungen Die Verteilungen in Grundgesamtheiten (GG), die in dieser Veranstaltung untersucht werden, bzw. über die etwas in Erfahrung gebracht werden soll, haben als Parameter entweder einen Mittelwert µ (sowie Median, Modus) und eine Standardabweichung σ oder, soweit es sich um eine dichotome GG handelt, einen Anteilswert π . Unter Stichprobenverteilung versteht man die Verteilung, die sich aus den jeweiligen Parametern aller möglichen Stichproben eines Umfanges n aus einer bestimmten GG ergibt (Vgl. Aufgabe5 26). Um nun die Wahrscheinlichkeit auszurechnen, daß die Parameter einer zufällig ausgewählten Stichprobe bestimmte Größen annehmen oder in gewissen Intervallen liegen, bedient man sich der allgemeinen Stichprobenverteilungen, die jetzt mit den schon bekannten theoretischen Verteilungen verknüpft sind (darum haben wir sie ja kennengelernt). Der nächste entscheidende Schritt wird die umgekehrte Fragestellung bei Hypothesentests und Konfidenzschätzungen sein (Wie groß ist die WS, eine zutreffende Stichprobe gezogen zuhaben, etc?) Zunächst aber im Einzelnen: Die Stichprobenverteilungen unterteilt nach den einzelnen Parametern.. 4.1 Die Verteilung der Stichprobenmittelwerte X i Die Verteilung der Stichprobenmittelwerte ist abhängig von: • Standardabweichung der GG bekannt? • Verteilung der GG • Größe des Stichprobenumfanges Aus der Kombination der Voraussetzungen ergeben sich die Stichprobenmittelwertverteilung (später durch Endlichkeitsfaktor ergänzt): Fälle GG normalverteilt? n > 30 ? _ in GG bekannt? Fall 1 ja egal ja Fall 1 ja ja egal Fall 3 nein ja nein keine Aussage nein nein nein keine Aussage ja nein nein 5 ebd. Seite 299. drei Fälle der σ vor. D.h., die z-Transformation erfolgt n X −µ X −µ n > 0,05 : Z = mit der Formel: Z = , bzw. bei (mit EF) N σ/ n σ N −n n N −1 Im Fall 2 liegt nahezu die gleiche NV vor, nur muß diesmal das unbekannte σ durch s$ geschätzt und n s (gilt auch für Fall 3!). Die z-Transformation verändert sich nun: ersetzt werden. s$ = n −1 X −µ X −µ n Z= > 0,05 : Z = , bzw. bei (mit EF) N s$ / n N −n s$ N −1 n Im Fall 3 ist die Stpr. nicht mehr groß genug, es muß anstelle einer Normalverteilung eine t-Verteilung φ angenommen werden, mit φ = n − 1 , E(t) = 0 und VAR(t)= ; t selbst ergibt sich analog zur φ−2 Im Fall 1 liegt eine NV mit µ X = _ = E( X ) und σ X = z-Transformation: t = X −µ , bzw.: t = s$ / n X −µ (mit EF) s$ N −n n N −1 4.2 Die Verteilung der „Stichprobenvarianzen“ Achtung! Hier ist es wichtig, die einzelne Notation ganz besonders genau zu beachten! Es wird nämlich gerade nicht die Verteilung der Stichprobenvarianzen betrachtet (daher die „“), sondern eine doppelte Modifikation ihrer selbst... Die erste Modifikation ist, daß anstatt s s$ 2 verwendet wird. Dieser n −1 s$ ? folgt einer χ 2 -Verteilung mit φ = n-1 Parameter erfährt die zweite Modifikation, denn erst σ? Freiheitsgraden. Voraussetzung dafür ist immer, daß die GG normalverteilt ist. Es gibt hier nur zwei Fälle zu unterscheiden: n −1 Fall 1 : n ≤ 30 dann gilt: χ = sˆ und σ Fall 2 : n>30 dann gilt Z = 2χ 2 − 2φ − 1 (Approximation!) 4.3 Die Stichprobenverteilung der Anteilswerte p bzw. der Merkmalsträger k Grundvoraussetzung ist bei diesem Parameter natürlich, daß die GG dichotom ist. Im wesentlichen sind zwei Fälle zu unterscheiden: n n− k Fall 1 : n*p*(1-p)<9 : dann ist k binomialverteilt; P(k)= π k (1− π ) k 1 K ± − nπ 2 Fall 2 : n*p*(1-p) ≥9 : dann ist k normalverteilt mit Z= bzw. mit EF: nπ (1 −π ) 1 K ± 2 − nπ Z= . Rechnet man mit dem Anteilswert p, ergibt sich N −n nπ (1− π ) N −1 p−π p −π Fall 2a: Z = bzw. mit EF: Z = π (1 − π ) π (1 − π ) N − n n n N −1 5. Hypothesentests Grundsätzliches Es ist zuerst eine Vermutung über einen unbekannten Parameter der Grundgesamtheit zu stellen. Dann wird eine Stichprobe (Stpr.) aus dieser Grundgesamtheit (GG) gezogen. Dann wird festgelegt, wie hoch das Fehlerrisiko sein darf, erst dann wird getestet, ob der Parameter der Stp. die Eingangshypothese und mit welcher Sicherheit (bzw. Irrtumswahrscheinlichkeit) unterstützt, oder ob der ermittelte Wert sich so sehr vom vermuteten unterscheidet, daß die Stp. schon ein grober Ausreißer sein müßte, um weiter anzunehmen, daß der tatsächliche Parameter der GG doch dem vermuteten entspricht, d.h. also die Hypothese abzulehnen ist. Entscheidend ist das korrekte Aufstellen der Hypothese, da zwei unterschiedliche Fehlerarten denkbar sind: 1. der α - Fehler: Eine richtige Hypothese wird abgelehnt 2. der β - Fehler: Eine falsche Hypothese wird angenommen Es lassen sich nicht beide Fehler gleichzeitig minimieren! Die hier vorgestellten Testverfahren laufen auf eine Minimierung des α - Fehlers hinaus. Für die Testpraxis bedeutet dies, daß die Nullhypothese immer so gestellt werden muß, daß der α -Fehler die schlimmeren Konsequenzen nach sich zieht als der α -Fehler. In der Regel muß demzufolge die Hypothese im Sinne des Fragestellers negativ formuliert sein. Dies ist bei der Punkthypothese so ohne weiteres nicht möglich - beim beidseitigen Hypothesentest kann also von der negativen Formulierung abgesehen werden. Zur Durchführung eines Hypothesentests ist es zunächst wichtig, sich klar zu machen, welcher Parameter überhaupt getestet werden soll. Das klingt trivialer als es ist, denn aus manchen Aufgabenstellungen ist dies nicht sofort ersichtlich. Dann lassen sich folgende schrittweisen Testprozeduren anwenden: 5.1 Der Hypothesentest für den Mittelwert µ 1. Feststellung: Handelt es sich um einen links-, rechts- oder beidseitigen Test? also, lautet die Frage i) µ ≥ µ0 linksseitiger Test ii) µ ≤ µ 0 rechtsseitiger Test iii) µ = µ 0 beidseitiger Test 2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft) 3. Ist σ bekannt? Wenn ja, Test 1 Wenn nein, weiter mit 4.) 4. Die Stichprobengröße a) n>30 also Standardnormalverteilung anwenden (weiter zu Test 2) b) n ≤ 30 also t-Verteilung anwenden (weiter zu Test 3) Test 1 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N−n , nur dann! N −1 σ N −n n N −1 σ N −n ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + Zα 0 n N −1 σ N −n iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± Z α 0 n N −1 2 i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − Zα 0 Test 2 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N−n , nur dann! N −1 sˆ N −n n N −1 sˆ N − n ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + Zα 0 n N −1 sˆ N − n iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± Z α 0 n N −1 2 i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − Zα 0 Test 3 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N−n , nur dann N −1 sˆ N − n n N −1 sˆ N − n ii) H 0 : µ ≤ µ 0 ⇒ X R = µ0 + tα 0 n N −1 sˆ N − n iii) H 0 : µ = µ0 ⇒ X R 1, 2 = µ0 ± t α 0 n N −1 2 i) H 0 : µ ≥ µ 0 ⇒ X R = µ0 − tα 0 Entscheidungsregel Liegt das in der Stichprobe ermittelte X innerhalb der durch den Test ermittelten Toleranzgrenzen, kann die Nullhypothese mit auf dem vorher festgelegten Signifikanzniveau angenommen werden. Liegt der Wert außerhalb, muß die Hypothese auf diesem Signifikanzniveau abgelehnt werden. 5.2 Test des Parameters σ 1. Festlegung der Fragestellung: i) σ ≥ σ 0 linksseitiger Test ii) σ ≤ σ 0 rechtsseitiger Test iii) σ = σ 0 beidseitiger Test 2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft) 3. Unterscheidung: a) n ≤ 30 also Test 1 b) n>30 also Test 2 Test 1 i) sˆR = σ0 χ n −1 (1 −α0 ),φ ii) sˆR = σ0 χ n −1 α 0 ,φ iii) sˆR1 = σ 0 χ n−1 (1 −α 0 ) , φ und sˆR 2 = 2 σ0 χα n − 1 20 ,φ Entscheidung wie beim Test über µ Test 2 i) s$R = ii) s$R = 2φ − 1 − Zα 0 σ0 2φ 2φ − 1 + Zα 0 2φ σ0 2φ − 1 − Z α 0 iii) s$R1 = 2 2φ 2φ − 1 + Z α 0 σ 0 und s$R2 = 2 2φ σ0 5.3 Hypothesentest des Anteilswertes π 1. Feststellung: Handelt es sich um einen links-, rechts- oder beidseitigen Test? also, lautet die Frage i) π ≥ π 0 linksseitiger Test ii) π ≤ π 0 rechtsseitiger Test iii) π = π 0 beidseitiger Test 2. Signifikanzniveau α festlegen (individuelle Risikobereitschaft) 3. nπ 0 (1 − π 0 ) < 9 ⇒ Test 1 nπ 0 (1 − π 0 ) ? 9 ⇒ Test 2 Test 1 Achtung! Anstelle des p-Wertes wird in diesem Fall mit dem in der Binomialverteilung tabellierten kWert operiert. (p=k/n) Es läßt sich nunmehr kein exakter Wert als Grenze des Annahmeintervalls berechnen. Statt dessen werden aus der entsprechenden Binomialverteilung die Randwahrscheinlichkeiten [P(k)]solange aufaddiert, bis der Wert von α (bzw. jeweils α /2 beim beidseitigen Test) erreicht worden ist. Der letzte einbezogenen k-Wert ist dann die Grenze des Ablehnungsbereiches. Also gilt jeweils: i) P(K ≤ k R ) = α ; ii) P(K ? k R ) = α ; iii) P(K ≤ k R1 ) = α0 α und P(K ? k R 2 ) = 0 2 2 Test 2 Nun ist wieder die Approximation zur Normalverteilung annehmbar und π 0 läßt sich mithilfe der zTransformation anhand der Standardnormalverteilung testen. Ist der Auswahlsatz n/N > 0,05 , ist N−n wieder der Endlichkeitsfaktor mit einzubeziehen; in den Formeln ist er bereits mit dargestellt. N −1 i) p R = π 0 − Zαo ii) p R = π 0 + Zαo π 0 (1 − π 0 ) N − n n N −1 π 0 (1 − π 0 ) N − n n N −1 iii) p R1, 2 = π 0 ± Z α o 2 π 0 (1 − π 0 ) n N−n N −1 Weitere besondere Hypothesentests 5.4. Der χ ?-Anpassungstest 1. Die Hypothese beim Anpassungstest lautet immer: „Eine bestimmte vorgefundene empirische Verteilung läßt sich annährend als eine theoretische darstellen“ (positiv formuliert...) 2. Signifikanzniveau wie üblich wählen (Vorgabe) 3. Betrachtet man die Werte der empirischen Verteilung als beobachtete Werte fb und diejenigen der theoretischen Verteilung als erwartete Werte fe , so ist die die Summe ihrer quadrierten Abweichungen im Verhältnis zu fe wiederum als χ 2 -verteilt anzusehen: χ = ∑ ( f − f ) Anhand dieser Formel erhält 2 b e fe man also einen bestimmten χ 2 -Wert aus dem Verhältnis von empirischer und theoretischer Verteilung. Wäre er =0 , wären die beiden Verteilungen identisch. Die Hypothese lautet jedoch nur auf annähernde Ähnlichkeit, sie kann also durch kleine Abweichungen immer noch als bestätigt angesehen werden. Wie groß diese Abweichungen sein dürfen, hängt entscheidend vom gewählten Signifikanzniveau ab. Der ermittelte χ 2 -Wert darf denjenigen der χ 2 -Verteilung mit φ (=Anzahl der Verteilungsklassen minus 1) Freiheitgraden, der den Ablehnungsbereich α abgrenzt, nicht überschreiten. D.h., bei 2 χ 2 ≤ χ α ,φ kann die Hypothese angenommen werden. 5.5. Der χ 2 - Unabhängigkeitstest 1. Die Hypothese lautet beim Unabhängigkeitstest immer: „Die Ereignisse sind voneinander unabhängig“, d.h., es besteht kein Zusammenhang zwischen den Ereignissen (negative Formulierung...) 2. Signifikanzniveau α wie immer 3. Auch bei diesem Test werden wieder die Abweichungen zwischen einer empirischen und einer theoretischen Verteilung überprüft. Die empirische Verteilung ist in diesem Fall die Kreuztabelle der beiden empirisch vorgefundenen Ereignisse, die die fb darstellt (Kontingenztabelle). Die theoretische Verteilung stellt dieselbe Kreuztabelle unter der Annahme der Unabhängigkeit dar, d.h., es wird berechnet, wie die Verteilung aussehen müßte (also die fe), wenn es keinen Zusammenhang zwischen den Ereignissen gäbe (Indifferenztabelle). Die Abweichungen zwischen diesen beiden Verteilungen ( f − fe) sind dann wieder - analog wie beim Anpassungstest - als χ 2 -verteilt anzusehen: χ = ∑ b fe 2 Dieser χ ?-Wert ist nun wieder mit demjenigen der χ Verteilung mit φ (=[Zeilenanzahl 1]*[Spaltenzahl - 1] )zu vergleichen. D.h. also wieder, daß bei χ 2 ≤ χ α2 ,φ die Hypothese angenommen werden kann. 6. Konfidenzschätzungen Generell können Konfidenzschätzungen als eine Art Umkehrung der Hypothesentests beschrieben werden. Die Vorgehensweise ist von der Fragestellung her genau andersherum. Es wird zuerst eine Stichprobe gezogen. Anhand dieser Stichprobe wird - wieder mit Hilfe der Stichprobenverteilungen als theoretisches Gerüst - eine Aussage über einen Parameter der Grundgesamtheit (GG) formuliert. Dies ist dann die Schätzung. In Abhängigkeit der Wahl der Irrtumswahrscheinlichkeit α erfolgt diese Schätzung unter der Angabe des Konfidenzniveaus (1- α ). Die Präzision der Aussage wächst mit dem Umfang der Stichprobe. Es sind zwei Arten von Schätzungen zu unterscheiden: I. Punktschätzung Aus den Stichprobenverteilungen ist bekannt, daß die Erwartungswerte von X i , s$i , pi gleich den tatsächlichen Parametern µ,σ ,π aus der GG sind. Ebenso ist bekannt, daß in den meisten einzelnen Stichproben demzufolge Parameter zu finden sind, die ungefähr denen der Grundgesamtheit entsprechen. Was liegt also näher, als den in der Stichprobe ermittelten Parameter als den besten Schätzwert anzusehen? Bspw.: µ& = X i . Die Aussage, die zu machen ist, lautet in diesem Fall: „Mit ziemlicher Wahrscheinlichkeit ist der Mittelwert der GG in etwa so groß wie der in der Stichprobe“. Diese Schätzung ist aber eher qualitativer Natur, es können keine quantitativen Vertrauensangaben gemacht werden, weder über die Präzision noch über die Wahrscheinlichkeit. Rückt man jedoch von dem Vorhaben, den Parameter genau zu schätzen ab und begnügt sich mit einem Vertrauensintervall, in dem der tatsächliche Parameter liegen müßte, lassen sich quantitative Aussagen treffen. Dies geschieht mit: II. Intervallschätzung Diese Schätzmethode beruht auf einer Umformung beidseitiger Hypothesentests, daher ist die Anzahl der möglichen Verfahren geringer. 6.1. Intervallschätzung für σ 1. Konfidenzniveau (1- σ ) festlegen 2. Ist σ aus GG bekannt? Ja = Verfahren 1 , Nein = weiter mit 3. 3. Die Stichprobengröße a) n>30 also Standardnormalverteilung anwenden (weiter zu Verfahren 2) b) n ≤ 30 also t-Verteilung anwenden (weiter zu Verfahren 3) Verfahren 1 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N −n N −1 , nur dann, hier aber angegeben σ ~=X ±Z µ α0 n 2 N−n es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α N −1 Verfahren 2 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N −n N −1 , nur dann! hier aber angegeben s$ ~=X ±Z µ α0 n 2 N−n es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α N −1 Verfahren 3 Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N −n N −1 , nur dann! hier aber angegeben s$ ~=X ±t µ α0 n 2 N−n es ergibt sich ein Vertrauensintervall von K [µ 1 ≤ µ ≤ µ 2 ] = 1 − α N −1 6.2 Intervallschätzung für σ 1. Konfidenzniveau (1- α ) festlegen 2. Die Stichprobengröße a) n ≤ 30 χ 2 -Verteilung anwenden (weiter zu Verfahren 1) b) n>30 Approximation zur Standardnormalverteilung anwenden (weiter zu Verfahren 2) Verfahren 1 kein Endlichkeitsfaktor n−1 n−1 σ 12 = 2 s$? und σ 22 = 2 s$? es gilt also K σ 12 ≤ σ ? ≤ σ 22 = 1 − α χ α0 χ α0 [ 1− 2 ] √ 2 ↵ Verfahren 2 kein Endlichkeitsfaktor Achtung, hier σ anstelle σ 2 ! s$ 2φ σ~ es gilt also K σ 1 ≤ σ ≤ σ 2 = 1 − α 2φ − 1 ± Z α 0 [ ] 2 6.3 Intervallschätzung für π 1. Konfidenzniveau (1- α ) festlegen 2. Die Stichprobengröße a) bei np(1-p)<9 ist die Stichprobe zu klein, um eine sinvolle Aussage treffen zu können, nur bei b) np(1-p) ≥9 kann das Konfidenzintervall abgeschätzt werden. Verfahren Bei n/N > 0,05. ist der EF zu berücksichtigen. EF= N − n , nur dann, hier aber N −1 angegeben π~ = p ± Z α 0 2 p(1 − p) n N−n es gilt K [π 1 ≤ π ≤ π 2 ] = 1 − α N −1 7. Maximaler Schätzfehler und Stichprobengröße Der maximale Schätzfehler e ist die Differenz zwischen den Parametern der Stichprobe und der Grundgesamtheit, also e = X − µ oder e = p − π (nicht anwendbar für s, _). Über die soeben dargestellten Schätzformeln läßt die nötige Stichprobengröße n feststellen, wenn man diesem Schätzfehler eine gerade noch akzeptierte Obergrenze zuordnet. Durch Umformen ergibt sich: Z α2 σ ? 7.1. Für Intervallschätzungen und beidseitige Hypothesentests von π : n= . Ist σ unbekannt 2 e? (und so wird es normalerweise sein) , ist stattdessen s$ zu verwenden. Z α2 π (1 − π ) 7.2. Für Intervallschätzungen und beidseitige Hypothesentests von π : n = 2 . Beim e? Hypothesentest kann für π _eine halbwegs abgesicherte Hypothese eingesetzt werden. Bei der Intervallschätzung kann auch p genommen werden, am sichersten ist es dabei aber, den Wert für p zu wählen, der eine hohe Stichprobengröße n garantiert: p= 1 . 2 Beide Formeln können bei n/N>0,05 durch den Endlichkeitsfaktor erweitert werden.