Statistik mögliche Aufgaben

Werbung
Statistik mögliche Aufgaben
Praxis
 Unterschreitungswahrscheinlichkeit berechnen
möglich: integrieren, weil Fläche unter Wahrscheinlichkeitsfunktion die W. bis zu bestimmtem xWert angibt
einfach:
 z- Transformation, um zur Standardnormalverteilung zu kommen
𝑥−𝑥𝑞𝑢𝑒𝑟
 dann durch z =
den z- Wert für die bearbeitete Wahrscheinlichkeitsfunktion
𝑠
berechnen
 gesuchte Unterschreitungswahrscheinlichkeit mit Hilfe des z- Wertes in Tabelle nachschauen
 Antwortsatz aufschreiben




Überschreitungswahrscheinlichkeit berechnen
 das gleiche wie bei Suche nach Unterschreitungswahrscheinlichkeit machen
 1- Unterschreitungswahrscheinlichkeit berechnen
 Antwortsatz schreiben
Wahrscheinlichkeit für ein Werteintervall berechnen
 Die Unterschreitungswahrscheinlichkeiten für beide Grenzwerte berechnen, die
Differenz der Wahrscheinlichkeiten ergibt die Wahrscheinlichkeit für das gesuchte
Werteintervall
Quantil 95 gesucht, also der Wert, der größer als 95% der Werte ist
 0,95 als Unterschreitungswahrscheinlichkeit in der Tabelle suchen
 passenden z- Wert mit Hilfe der Formel x = z *s + xquer rücktransformieren
 gefundenen x- Wert im Antwortsatz nennen
Vorgang in der Schätzstatistik: gesucht wird das Intervall, in dem 95 % aller Werte liegen
 Stichprobenumfang n, arithmetisches Mittel xquer und Standardabweichung s gegeben
𝑠
 Standardfehler berechnen: 𝑛





√
Sicherheitsgrad der Schätzung durch 1- ( = Flächen links und rechts von Intervall)
Freiheitsgrad berechnen: n-1
t- Wert aus Tabelle entnehmen, Irrtumswahrscheinlichkeit ist , also die Flächen links
und rechts
obere und untere Grenze durch die Formel berechnen:
 Intervall liegt dazwischen
 Antwortsatz aufschreiben
Hypothesentest/ Einseitiger Test: (zu erkennen wegen Formulierung „es wird behauptet“;
Fragestellung beachten, was soll überprüft werden?)
 mit Hilfe der Prüfgröße wird getestet, ob Stichprobe gegen die Nullhypothese spricht
oder dafür
 → zeigt ähnlich wie z- Transformation, wie viele Standardabweichungen oder
Standardfehler vom Mittelwert entfernt die Prüfgröße liegt
 → bei kleinem Standardfehler (= wenig Leute befragt) genau geschätzter Mittelwert,
durch Multiplikation wird Bedeutsamkeit des Unterschieds angegeben
 → kleine Differenz zeigt typisches Verhalten
 Fehler 1. Art → Hypothese abgelehnt, obwohl wahr (von vornherein klein zu halten)
Fehler 2. Art → Hypothese angenommen, obwohl falsch (möglichst klein machen)
 Berechnung







Hypothesen formulieren, z.B. H0: μ<=μ0 HA: μ>μ0 vor der Rechnung! (Beide
Hypothesen müssen alle Möglichkeiten abdecken)
n
xquer als Arithmetisches Mittel
1
s aus s2 =
*∑𝑛𝑖=1(xi - xquer)2
𝑛−1
√𝑛
Differenz zwischen xquer und 0 multipliziert mit Standardfehler
(xquer - 0 )
𝑠
t aus Tabelle t (Freiheitsgrade: n-1) (Normalverteilung, bei großem n sonst zTabelle)
Vergleich beider Werte/ Entscheidungsregel konstruieren
- Nullhypothese zu vorgegebener Wahrscheinlichkeit angenommen, wenn
√𝑛
𝑠
(xquer - 0 ) > t
- Nullhypothese kann nicht abgelehnt werden, wenn
√𝑛
𝑠
(xquer - 0 ) < t




allgemeines Vorgehen:
 Testgröße und -verteilung wählen (aus der Literatur, Klausur: steht daneben)
 Signifikanzniveau wählen (z.B. soll es zum Niveau 5% getestet werden?)
 Prüfgröße berechnen
 nach misslungenem Test nicht alte Hypothesen umformulieren, sondern neue
Hypothesen festlegen
Zweiseitiger Test
 Zeichen: Hypothesen bestimmen nicht, dass ein bestimmter Wert größer/ Kleiner sein
soll, sondern dass die Variable einen exakten Wert hat (= oder ≠ )
√𝑛
√2 𝑠

Testen, ob

zwischen der positiven und der negativen Prüfgröße
Freiheitsgrad: 2*n -2 ????
(𝑥𝑞𝑢𝑒𝑟 − 𝑦𝑞𝑢𝑒𝑟) im Prügrößenintervall liegt; Intervall angegeben
Intervallschätzung: Konfidenzintervall berechnen
 falls Normalverteilung vorliegt möglich
1
 wenn  unbekannt ist, muss es durch s geschätzt werden ( s2 = 𝑛−1 * ∑𝑛𝑖=1(𝑥 𝑖 −
𝑥 𝑞𝑢𝑒𝑟)2
 in diese Standardform des Intervalls:
müssen dann alle Werte
eingesetzt werden


für
muss man in der t- Tabelle nachschauen ( bei einer gefragten
Sicherheit von 90% ist  = 1-0,9 also 0,1; der Index 9 gibt den Freiheitsgrad n-1 an;
unbedingt in der Tabelle für "einseitige Tests" nachschauen, Spaltenbeschriftungen
unten!)
Chi2- Anpassungstest
 Vergleich von beobachteten und erwarteten Werte --> es geht darum, zu testen zu
welcher Wahrscheinlichkeit eine gegebene Verteilung wie eine Normal- / Poisson-/
Gleichverteilung behandelt werden darf, also ob die bestehenden Unterschied mit dem
Zufall zu erklären sind. Dazu werden ähnlich dem Hypothesentest Thesen überprüft, ob
die Verteilung fungiert wie eine z.B. Normalverteilung





wichtig: nur absolute Häufigkeiten verwenden!
Voraussetzung: Klassengrößen > 5
Hypothesen aufstellen: H1 : Verteilung ist gleichverteilt/poissonverteilt/normalverteilt
kritische Prüfgröße aus Tabelle raussuchen, dazu
 Berechnung Anzahl der Freiheitsgrade: k - m - 1 (k= Klassenanzahl, m =
Anzahl der Parameteranzahl für eindeutige Angabe der vorliegenden
Verteilung: Gleichverteilung 0, Poisson 1, Binomial 0, Normal 2)
 Irrtumswahrscheinlichkeit aus Aufgabenstellung
 "kritische Prüfgröße" bestimmen als Untergrenze des
Ablehnungsbereiches
Zusammenstellung einer Häufigkeitstabelle, in der für jede Kategorie die beobachteten
Häufigkeiten fi und die (laut Nullhypothese) erwarteten absoluten Häufigkeiten ei
enthalten sind.
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑎𝑛𝑧𝑎ℎ𝑙
 Gleichverteilung: 𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒 als erwartete Ausprägung für einzelne
Ergebnisse
 Poissonverteilung: jedes einzelne Ergebnis hat eigene Wahrscheinlichkeit
𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 𝑥1
--> in Tabelle eintragen
𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒
 Normalverteilung: mit Hilfe der z- Transformation Ober- und Untergrenze
berechnen, Standardnormalverteilungen aus der Tabelle ablesen für die Überund Unterschreitungswahrscheinlichkeiten; Differenz aus den beiden
Wahrscheinlichkeiten errechnen; diese Wahrscheinlichkeit für jeden x- Wert mit
n multiplizieren für die erwartete Häufigkeit;
𝑒𝑟𝑤𝑎𝑟𝑡𝑒𝑡𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 =
(Ü𝑏𝑒𝑟𝑠𝑐ℎ𝑟𝑒𝑖𝑡𝑢𝑛𝑔𝑠𝑤.𝑥1 − 𝑈𝑛𝑡𝑒𝑟𝑠𝑐ℎ𝑟𝑒𝑖𝑡𝑢𝑛𝑔𝑠𝑤.𝑥1 )
𝑛
dann können fi (beobachtete)und ei (erwartete) in die Formel

eingesetzt werden
die Ergebnisse für alle x- Werte addieren = empirische Prüfgröße
Berechnung der Wahrscheinlichkeit f(k) für einzelne Ergebnisse nach Erwartung,
anschließend mit n*p die erwartete Häufigkeit berechnen und in zweite Tabelle
eintragen

Prüfgröße 2 ist die Summe der quadrierten relativen Differenzen: 2 = ∑𝑘𝑖=1
also alle erwartete Häufigkeiten hier


(𝑓𝑖 − 𝑒𝑖 ) 2
𝑒𝑖
( 𝑓𝑖 − 𝑒𝑖
𝑒𝑖
)2
( 𝑓𝑖 − 𝑒𝑖 )2
𝑒𝑖
,
einsetzen und danach addieren
Vergleich der beiden Prüfgrößen; liegt 2 im Ablehnungsbereich? wenn die kritische
Prüfgröße (Wert aus Tabelle) größer ist, als die empirische Prüfgröße, kann die
Hypothese angenommen werden; die Verteilung also als normal-/gleich-/poissonverteilt
behandelt werden
2
 - Unabhängigkeitstest
 Vergleich von beobachteten vs. (unter der Nullhypothese) erwarteten Häufigkeiten
zweier klassifizierter Variablen. Die Nullhypothese bezieht sich auf statistische
Unabhängigkeit der beiden Variablen. Der Test überprüft also, ob es einen statistischen
Zusammenhang zwischen den beiden Variablen gibt.
 keine Bindung an bestimmtes Skalenniveau, aber Klassen mit fi >5 Besetzungszahl
 Vorbereitung: Zusammenstellung zweier Kontingenztafeln. In der ersten stehen
beobachtete absolute Häufigkeiten für alle Kombinationen der beiden Variablen, in der
zweiten die erwarteten absoluten Häufigkeiten.
𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 1
 kombinierte erwartete Wahrscheinlichkeit ist also
*
𝑊𝑎ℎ𝑟𝑠𝑐ℎ𝑒𝑖𝑛𝑙𝑖𝑐ℎ𝑘𝑒𝑖𝑡 𝑉𝑎𝑟𝑖𝑎𝑏𝑙𝑒 2
𝐺𝑒𝑠𝑎𝑚𝑡𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒
𝐺𝑒𝑠𝑎𝑚𝑡𝑎𝑛𝑧𝑎ℎ𝑙 𝑊𝑒𝑟𝑡𝑒
*Gesamtanzahl Werte
2




Die empirische Prüfgröße berechnen:  =
2
∑𝑘𝑖=1
∑𝑙𝑗=1
( 𝑓𝑥𝑖𝑦 − 𝑒 𝑥𝑖𝑦𝑗 )
𝑗
𝑒_𝑦𝑗 𝑥𝑖
(das ist die Summe
über die quadrierten relativen Differenzen für jede Kombination der beiden Variablen
aus den Kontingenztafeln)
Die kritische Prüfgröße aus der Tabelle suchen: ²-verteilt mit (k-1)*(l-1) Freiheitsgraden
(k,l=Klassenanzahl der ersten bzw. zweiten Variablen) und der Irrtumswahrscheinlichkeit
aus der Aufgabenstellung
Vergleich der beiden Prüfgrößen empirisch und kritisch, wenn empirisch größer ist als
kritisch gilt: Abhängigkeit der beiden Merkmale, also: P (A  B) = P(A) * P (B)
Unterschied zu Anpassungstest
 andere Berechnung der Grenzwerte
 eine Tabelle mehr ist nötig --> Werte für kombinierte Wahrscheinlichkeiten
Theorie
 Was ist das Gauß'sche Grenzwerttheorem?
 es sagt aus, dass beim Ziehen von Stichproben aus einer Grundgesamtheit der
Mittelwert möglichst vieler Stichproben der einer normalverteilten
Wahrscheinlichkeitsfunktion entsprechen kann, auch wenn die Grundgesamtheit nicht
normalverteilt ist.
 außerdem: der Mittelwert entspricht dem Stichprobe- Mittelwert
 Bei kleinem Stichprobenumfang n ist es notwendig, dass die x1; ... ; xn Daten einer
Normalverteilung sind. Ist n hingegen groß, so kann man auf die Annahme der
Normalverteilung verzichten, da die Testgröße dann eh nahezu normalverteilt ist.
 Was gibt das Konfidenzniveau an?
 Der Vertrauensberiech gibt an, für welches Werteintervall für eine Stichprobe gilt, dass
ihr Ergebnis für Mittelwert usw. dem der Grundgesamtheit mit einer bestimmten
Wahrscheinlichkeit entspricht. Für dieses Wertebereich kann man davon ausgehen, dass
Ergebnisse, die außerhalb liegen mit dem Zufall erklärbar sind.
 Was gibt der z- Wert an?
Der z- Wert gibt, wie viele Standardabweichungen die Zufallsvariable vom Mittelwert entfernt
liegt. Ein hoher Wert, der stark von 0 abweicht ist darum unwahrscheinlich und wird je größer er
ist, umso unwahrscheinlicher.
 Was geschieht bei der z- Transformation?
eine beliebige Wahrscheinlichkeitsfunktion wird zu einer Standardnormalverteilung
transformiert, sodass ein z- Wert als Umrechnungsfaktor bleibt. Diesen kann man in einer
Tabelle nachschauen und damit die Unterschreitungswahrscheinlichkeit für einen bestimmten xWert angeben.
 Schätzstatistik
= Als statistische Schatzverfahren werden alle Methoden bezeichnet, die geeignet sind, von
(bekannten) Stichprobeninformationen Rückschlüsse auf die (unbekannten) Eigenschaften der
Grundgesamtheit zu ziehen.
 Man unterscheidet zwischen Punkt- und Intervallschätzungen:
 Punktschätzung: Näherungsberechnung für einen statistischen Parameter (z.B. den
Mittelwert) der Grundgesamtheit auf der Basis von Stichprobeninformationen.
 Bei der Intervallschätzung wird auf der Basis der Stichprobeninformationen und
Punktschätzungen ein Konfidenzintervall (Vertrauensintervall) ermittelt, in dem ein
statistischer Parameter der Grundgesamtheit mit einer bestimmten Wahrscheinlichkeit
liegt. Die Größe dieses Konfidenzintervalls hängt von der gewünschten statistischen
Sicherheit und vom Standardfehler (d.h. der Streuung) des Stichprobenparameters ab.
 Wie muss die Grundgesamtheit definiert sein?
 sachlich: Wer oder was








räumlich: wo genau?
zeitlich: wann und in welchem Zeitraum
als Menge aller Untersuchungselemente, für die in einer Untersuchung eine Aussage
gemacht werden soll
 bei abzählbarem N --> Vollerhebung = Zensus
 bei unendlichem N --> Ziehung eines Stichprobe als Teilmenge der Grundgesamtheit
Was ist die deskriptive Statistik?
 Klassifizierungg
 Erstellung von Diagrammen
 Ermittlung von statistischen Parametern wie z.B. Mittelwert, Streuung usw.
Was ist die induktive/ schließende Statistik/ Teststatistik?
 Schätzung z.B. von Mittelwert, Streuung, Prozentualem Anteil
Welche Skalenniveaus gibt es?
 nominal
 ordinal
 metrisch- intervallskaliert
 metrisch- rationalskaliert
Was ist der Unterschied zwischen diskreten und stetigen Merkmalen
Diskrete Daten sind Daten aus einer endlichen, zählbaren Grundgesamtheit. Stetige Daten sind
solche, die man beliebig genau messen kann und die darum unendlich sind, z.B. Temperatur.
Man kann aber bei diskreten Daten, die in der Praxis doch nicht abzuzählen sind von stetigen
Daten ausgehen, da es das Rechnen erleichtert.
Was zeichnet eine Poisson- Verteilung aus?
 eine Poisson- Verteilung ergibt sich, wenn man die Ergebnisse aus vielen BernoulliExperimenten aneinanderreiht (Zufallsexperimente mit nur zwei verschienden
Ausgangsmöglichkeiten)
Herunterladen