Statistik mögliche Aufgaben Praxis Unterschreitungswahrscheinlichkeit berechnen möglich: integrieren, weil Fläche unter Wahrscheinlichkeitsfunktion die W. bis zu bestimmtem xWert angibt einfach: z- Transformation, um zur Standardnormalverteilung zu kommen 𝑥−𝑥𝑞𝑢𝑒𝑟 dann durch z = den z- Wert für die bearbeitete Wahrscheinlichkeitsfunktion 𝑠 berechnen gesuchte Unterschreitungswahrscheinlichkeit mit Hilfe des z- Wertes in Tabelle nachschauen Antwortsatz aufschreiben Überschreitungswahrscheinlichkeit berechnen das gleiche wie bei Suche nach Unterschreitungswahrscheinlichkeit machen 1- Unterschreitungswahrscheinlichkeit berechnen Antwortsatz schreiben Wahrscheinlichkeit für ein Werteintervall berechnen Die Unterschreitungswahrscheinlichkeiten für beide Grenzwerte berechnen, die Differenz der Wahrscheinlichkeiten ergibt die Wahrscheinlichkeit für das gesuchte Werteintervall Quantil 95 gesucht, also der Wert, der größer als 95% der Werte ist 0,95 als Unterschreitungswahrscheinlichkeit in der Tabelle suchen passenden z- Wert mit Hilfe der Formel x = z *s + xquer rücktransformieren gefundenen x- Wert im Antwortsatz nennen Vorgang in der Schätzstatistik: gesucht wird das Intervall, in dem 95 % aller Werte liegen Stichprobenumfang n, arithmetisches Mittel xquer und Standardabweichung s gegeben 𝑠 Standardfehler berechnen: 𝑛 √ Sicherheitsgrad der Schätzung durch 1- ( = Flächen links und rechts von Intervall) Freiheitsgrad berechnen: n-1 t- Wert aus Tabelle entnehmen, Irrtumswahrscheinlichkeit ist , also die Flächen links und rechts obere und untere Grenze durch die Formel berechnen: Intervall liegt dazwischen Antwortsatz aufschreiben Hypothesentest/ Einseitiger Test: (zu erkennen wegen Formulierung „es wird behauptet“; Fragestellung beachten, was soll überprüft werden?) mit Hilfe der Prüfgröße wird getestet, ob Stichprobe gegen die Nullhypothese spricht oder dafür → zeigt ähnlich wie z- Transformation, wie viele Standardabweichungen oder Standardfehler vom Mittelwert entfernt die Prüfgröße liegt → bei kleinem Standardfehler (= wenig Leute befragt) genau geschätzter Mittelwert, durch Multiplikation wird Bedeutsamkeit des Unterschieds angegeben → kleine Differenz zeigt typisches Verhalten Fehler 1. Art → Hypothese abgelehnt, obwohl wahr (von vornherein klein zu halten) Fehler 2. Art → Hypothese angenommen, obwohl falsch (möglichst klein machen) Berechnung Hypothesen formulieren, z.B. H0: μ<=μ0 HA: μ>μ0 vor der Rechnung! (Beide Hypothesen müssen alle Möglichkeiten abdecken) n xquer als Arithmetisches Mittel 1 s aus s2 = *∑𝑛𝑖=1(xi - xquer)2 𝑛−1 √𝑛 Differenz zwischen xquer und 0 multipliziert mit Standardfehler (xquer - 0 ) 𝑠 t aus Tabelle t (Freiheitsgrade: n-1) (Normalverteilung, bei großem n sonst zTabelle) Vergleich beider Werte/ Entscheidungsregel konstruieren - Nullhypothese zu vorgegebener Wahrscheinlichkeit angenommen, wenn √𝑛 𝑠 (xquer - 0 ) > t - Nullhypothese kann nicht abgelehnt werden, wenn √𝑛 𝑠 (xquer - 0 ) < t allgemeines Vorgehen: Testgröße und -verteilung wählen (aus der Literatur, Klausur: steht daneben) Signifikanzniveau wählen (z.B. soll es zum Niveau 5% getestet werden?) Prüfgröße berechnen nach misslungenem Test nicht alte Hypothesen umformulieren, sondern neue Hypothesen festlegen Zweiseitiger Test Zeichen: Hypothesen bestimmen nicht, dass ein bestimmter Wert größer/ Kleiner sein soll, sondern dass die Variable einen exakten Wert hat (= oder ≠ ) √𝑛 √2 𝑠 Testen, ob zwischen der positiven und der negativen Prüfgröße Freiheitsgrad: 2*n -2 ???? (𝑥𝑞𝑢𝑒𝑟 − 𝑦𝑞𝑢𝑒𝑟) im Prügrößenintervall liegt; Intervall angegeben Intervallschätzung: Konfidenzintervall berechnen falls Normalverteilung vorliegt möglich 1 wenn unbekannt ist, muss es durch s geschätzt werden ( s2 = 𝑛−1 * ∑𝑛𝑖=1(𝑥 𝑖 − 𝑥 𝑞𝑢𝑒𝑟)2 in diese Standardform des Intervalls: müssen dann alle Werte eingesetzt werden für muss man in der t- Tabelle nachschauen ( bei einer gefragten Sicherheit von 90% ist = 1-0,9 also 0,1; der Index 9 gibt den Freiheitsgrad n-1 an; unbedingt in der Tabelle für "einseitige Tests" nachschauen, Spaltenbeschriftungen unten!) Chi2- Anpassungstest Vergleich von beobachteten und erwarteten Werte --> es geht darum, zu testen zu welcher Wahrscheinlichkeit eine gegebene Verteilung wie eine Normal- / Poisson-/ Gleichverteilung behandelt werden darf, also ob die bestehenden Unterschied mit dem Zufall zu erklären sind. Dazu werden ähnlich dem Hypothesentest Thesen überprüft, ob die Verteilung fungiert wie eine z.B. Normalverteilung wichtig: nur absolute Häufigkeiten verwenden! Voraussetzung: Klassengrößen > 5 Hypothesen aufstellen: H1 : Verteilung ist gleichverteilt/poissonverteilt/normalverteilt kritische Prüfgröße aus Tabelle raussuchen, dazu Berechnung Anzahl der Freiheitsgrade: k - m - 1 (k= Klassenanzahl, m = Anzahl der Parameteranzahl für eindeutige Angabe der vorliegenden Verteilung: Gleichverteilung 0, Poisson 1, Binomial 0, Normal 2) Irrtumswahrscheinlichkeit aus Aufgabenstellung "kritische Prüfgröße" bestimmen als Untergrenze des Ablehnungsbereiches Zusammenstellung einer Häufigkeitstabelle, in der für jede Kategorie die beobachteten Häufigkeiten fi und die (laut Nullhypothese) erwarteten absoluten Häufigkeiten ei enthalten sind. 𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑎𝑛𝑧𝑎ℎ𝑙 Gleichverteilung: 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒 als erwartete Ausprägung für einzelne Ergebnisse Poissonverteilung: jedes einzelne Ergebnis hat eigene Wahrscheinlichkeit 𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 𝑥1 --> in Tabelle eintragen 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒 Normalverteilung: mit Hilfe der z- Transformation Ober- und Untergrenze berechnen, Standardnormalverteilungen aus der Tabelle ablesen für die Überund Unterschreitungswahrscheinlichkeiten; Differenz aus den beiden Wahrscheinlichkeiten errechnen; diese Wahrscheinlichkeit für jeden x- Wert mit n multiplizieren für die erwartete Häufigkeit; 𝑒𝑟𝑤𝑎𝑟𝑡𝑒𝑡𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 = (Ü𝑏𝑒𝑟𝑠𝑐ℎ𝑟𝑒𝑖𝑡𝑢𝑛𝑔𝑠𝑤.𝑥1 − 𝑈𝑛𝑡𝑒𝑟𝑠𝑐ℎ𝑟𝑒𝑖𝑡𝑢𝑛𝑔𝑠𝑤.𝑥1 ) 𝑛 dann können fi (beobachtete)und ei (erwartete) in die Formel eingesetzt werden die Ergebnisse für alle x- Werte addieren = empirische Prüfgröße Berechnung der Wahrscheinlichkeit f(k) für einzelne Ergebnisse nach Erwartung, anschließend mit n*p die erwartete Häufigkeit berechnen und in zweite Tabelle eintragen Prüfgröße 2 ist die Summe der quadrierten relativen Differenzen: 2 = ∑𝑘𝑖=1 also alle erwartete Häufigkeiten hier (𝑓𝑖 − 𝑒𝑖 ) 2 𝑒𝑖 ( 𝑓𝑖 − 𝑒𝑖 𝑒𝑖 )2 ( 𝑓𝑖 − 𝑒𝑖 )2 𝑒𝑖 , einsetzen und danach addieren Vergleich der beiden Prüfgrößen; liegt 2 im Ablehnungsbereich? wenn die kritische Prüfgröße (Wert aus Tabelle) größer ist, als die empirische Prüfgröße, kann die Hypothese angenommen werden; die Verteilung also als normal-/gleich-/poissonverteilt behandelt werden 2 - Unabhängigkeitstest Vergleich von beobachteten vs. (unter der Nullhypothese) erwarteten Häufigkeiten zweier klassifizierter Variablen. Die Nullhypothese bezieht sich auf statistische Unabhängigkeit der beiden Variablen. Der Test überprüft also, ob es einen statistischen Zusammenhang zwischen den beiden Variablen gibt. keine Bindung an bestimmtes Skalenniveau, aber Klassen mit fi >5 Besetzungszahl Vorbereitung: Zusammenstellung zweier Kontingenztafeln. In der ersten stehen beobachtete absolute Häufigkeiten für alle Kombinationen der beiden Variablen, in der zweiten die erwarteten absoluten Häufigkeiten. 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 1 kombinierte erwartete Wahrscheinlichkeit ist also * 𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 2 𝐺𝑒𝑠𝑎𝑚𝑡𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒 *Gesamtanzahl Werte 2 Die empirische Prüfgröße berechnen: = 2 ∑𝑘𝑖=1 ∑𝑙𝑗=1 ( 𝑓𝑥𝑖𝑦 − 𝑒 𝑥𝑖𝑦𝑗 ) 𝑗 𝑒_𝑦𝑗 𝑥𝑖 (das ist die Summe über die quadrierten relativen Differenzen für jede Kombination der beiden Variablen aus den Kontingenztafeln) Die kritische Prüfgröße aus der Tabelle suchen: ²-verteilt mit (k-1)*(l-1) Freiheitsgraden (k,l=Klassenanzahl der ersten bzw. zweiten Variablen) und der Irrtumswahrscheinlichkeit aus der Aufgabenstellung Vergleich der beiden Prüfgrößen empirisch und kritisch, wenn empirisch größer ist als kritisch gilt: Abhängigkeit der beiden Merkmale, also: P (A B) = P(A) * P (B) Unterschied zu Anpassungstest andere Berechnung der Grenzwerte eine Tabelle mehr ist nötig --> Werte für kombinierte Wahrscheinlichkeiten Theorie Was ist das Gauß'sche Grenzwerttheorem? es sagt aus, dass beim Ziehen von Stichproben aus einer Grundgesamtheit der Mittelwert möglichst vieler Stichproben der einer normalverteilten Wahrscheinlichkeitsfunktion entsprechen kann, auch wenn die Grundgesamtheit nicht normalverteilt ist. außerdem: der Mittelwert entspricht dem Stichprobe- Mittelwert Bei kleinem Stichprobenumfang n ist es notwendig, dass die x1; ... ; xn Daten einer Normalverteilung sind. Ist n hingegen groß, so kann man auf die Annahme der Normalverteilung verzichten, da die Testgröße dann eh nahezu normalverteilt ist. Was gibt das Konfidenzniveau an? Der Vertrauensberiech gibt an, für welches Werteintervall für eine Stichprobe gilt, dass ihr Ergebnis für Mittelwert usw. dem der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit entspricht. Für dieses Wertebereich kann man davon ausgehen, dass Ergebnisse, die außerhalb liegen mit dem Zufall erklärbar sind. Was gibt der z- Wert an? Der z- Wert gibt, wie viele Standardabweichungen die Zufallsvariable vom Mittelwert entfernt liegt. Ein hoher Wert, der stark von 0 abweicht ist darum unwahrscheinlich und wird je größer er ist, umso unwahrscheinlicher. Was geschieht bei der z- Transformation? eine beliebige Wahrscheinlichkeitsfunktion wird zu einer Standardnormalverteilung transformiert, sodass ein z- Wert als Umrechnungsfaktor bleibt. Diesen kann man in einer Tabelle nachschauen und damit die Unterschreitungswahrscheinlichkeit für einen bestimmten xWert angeben. Schätzstatistik = Als statistische Schatzverfahren werden alle Methoden bezeichnet, die geeignet sind, von (bekannten) Stichprobeninformationen Rückschlüsse auf die (unbekannten) Eigenschaften der Grundgesamtheit zu ziehen. Man unterscheidet zwischen Punkt- und Intervallschätzungen: Punktschätzung: Näherungsberechnung für einen statistischen Parameter (z.B. den Mittelwert) der Grundgesamtheit auf der Basis von Stichprobeninformationen. Bei der Intervallschätzung wird auf der Basis der Stichprobeninformationen und Punktschätzungen ein Konfidenzintervall (Vertrauensintervall) ermittelt, in dem ein statistischer Parameter der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit liegt. Die Größe dieses Konfidenzintervalls hängt von der gewünschten statistischen Sicherheit und vom Standardfehler (d.h. der Streuung) des Stichprobenparameters ab. Wie muss die Grundgesamtheit definiert sein? sachlich: Wer oder was räumlich: wo genau? zeitlich: wann und in welchem Zeitraum als Menge aller Untersuchungselemente, für die in einer Untersuchung eine Aussage gemacht werden soll bei abzählbarem N --> Vollerhebung = Zensus bei unendlichem N --> Ziehung eines Stichprobe als Teilmenge der Grundgesamtheit Was ist die deskriptive Statistik? Klassifizierungg Erstellung von Diagrammen Ermittlung von statistischen Parametern wie z.B. Mittelwert, Streuung usw. Was ist die induktive/ schließende Statistik/ Teststatistik? Schätzung z.B. von Mittelwert, Streuung, Prozentualem Anteil Welche Skalenniveaus gibt es? nominal ordinal metrisch- intervallskaliert metrisch- rationalskaliert Was ist der Unterschied zwischen diskreten und stetigen Merkmalen Diskrete Daten sind Daten aus einer endlichen, zählbaren Grundgesamtheit. Stetige Daten sind solche, die man beliebig genau messen kann und die darum unendlich sind, z.B. Temperatur. Man kann aber bei diskreten Daten, die in der Praxis doch nicht abzuzählen sind von stetigen Daten ausgehen, da es das Rechnen erleichtert. Was zeichnet eine Poisson- Verteilung aus? eine Poisson- Verteilung ergibt sich, wenn man die Ergebnisse aus vielen BernoulliExperimenten aneinanderreiht (Zufallsexperimente mit nur zwei verschienden Ausgangsmöglichkeiten)