Statistik_Zusammenfassung_S._Storch - FOM-Wiki

Werbung
Deskriptive Statistik
Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!)
-
Arithmetisches Mittel
o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient aus
der Summe aller beobachteten Werte und der Anzahl der Werte definiert ist:
Alternativ:
π‘₯ = ∑ 𝑗 ∗ 𝑓𝑗
𝑗
-
Geometrisches Mittel
o Das geometrische Mittel ist ein Mittelwert; es ist in der Statistik ein geeignetes
Mittelmaß für Größen, von denen das Produkt anstelle der Summe interpretierbar
ist, z. B. von Verhältnissen oder Wachstumsraten.
o Durchschnittliche Änderung in %
-
Median
Ein Wert m ist Median einer Stichprobe, wenn höchstens die Hälfte der Beobachtungen in
der Stichprobe einen Wert < m und höchstens die Hälfte einen Wert > m hat. Sortiert man
die Beobachtungswerte der Größe nach, geordnete Stichprobe oder Rang, so ist der Median
bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge
liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges
mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen
sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung
aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung
zutrifft. Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz
von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl
Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte.
Der Median
also:
einer geordneten Stichprobe
von n Messwerten ist dann
-
Varianz
Wenn Beobachtungen gegeben sind:
𝑛
1
𝑠 = ∑( π‘₯𝑖 − π‘₯ )2
𝑛
2
𝑖=1
Wenn Verteilung f1,…, fk gegeben ist:
π‘˜
2
𝑠 = ∑( π‘Žπ‘— − π‘₯ )2 ∗ 𝑓𝑗
𝑗=1
-
Standardabweichung
Wenn Beobachtungen gegeben sind:
𝑛
1
𝑠 = √ ∑( π‘₯𝑖 − π‘₯ )2
𝑛
𝑖=1
Wenn Verteilung f1,…, fk gegeben ist:
π‘˜
𝑠 = √∑( π‘Žπ‘— − π‘₯ )2 ∗ 𝑓𝑗
𝑗=1
-
Darstellung Häufigkeitsverteilung
o Histogramm
 Wie konstruiert man ein Histogramm?
ο‚· Klasse der Intervalle bestimmen
ο‚· Klasse Häufigkeit hj
ο‚· Intervallbreite dj
ο‚· Absolute Häufigkeitsdichte hj/dj
ο‚· Relative Häufigkeitsdichte fj/dj
ο‚· Die Rechtecksfläche zeigt die Häufigkeit = Zeigt wie dicht die Werte
im Intervall (sind) liegen
o Boxplot
o
Die Box beinhaltet die zentralen 50%, der untere und obere Whisker jeweils 25%,
diese dürfen maximal 1,5 Boxlängen lang sein. Ausreißer werden mit Punkten
markiert.
Falls die Daten näherungsweise normalverteilt sind, ist der 3 Sigma Bereich analog zu
den Whiskern und der Box
Baum-/Blattdiagramm
Hier bedeutet 2 | 5 = 25 Sek.
o
-
Balkendiagramm
 Relative Häufigkeit
 Für stetige Variablen ungeeignet
Sigma-Regeln
Sofern die Daten näherungsweise normalverteilt sind, gilt:
68,27 % aller Messwerte haben eine Abweichung von höchstens 1σ vom Mittelwert
95,45 % aller Messwerte haben eine Abweichung von höchstens 2σ vom Mittelwert
99,73 % aller Messwerte haben eine Abweichung von höchstens 3σ vom Mittelwert
-
Schiefe (nur am Bild beurteilen)
-
Kurtosis
Y2 = 0 => meso-kurtisch
Y2 > 0 => lepto-kurtisch
Y2 < 0 => platy-kurtisch
Induktive Statistik
Schließen von Daten (Beobachtungen) auf allgemeinere Prinzipien.
Baut auf der deskriptiven Statistik auf.
- Wahrscheinlichkeitsbaum
-
Konfidenzintervall für p
o Ein Intervall von plausiblen Zahlen für p
o Die Größe des Intervalls sollte indirekt proportional zur Anzahl der Befragten sein
o Das Intervall sollte so konstruiert sein, dass wir VERTRAUEN haben können, dass der
wahre Wert von p darin liegt
o Der Vertrauensgrad (= Konfidenzniveau) sollte hoch sein
o
Berechnung:
𝑛
∑ 𝑋𝑖 ~ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝)) π‘œπ‘‘π‘’π‘Ÿ 𝑝̂ ~ 𝑁 (𝑝,
𝑖=1
𝑝(1 − 𝑝)
)
𝑛
Standardisierung:
𝑃 −1.96 ≤
(
𝑝̂ − 𝑝
√𝑝(1 − 𝑝)
𝑛
≤ 1,96
= 0,95
)
P in die Mitte bringen:
𝑝̂ (1 − 𝑝̂ )
𝑝̂ (1 − 𝑝̂ )
𝑃 (𝑝̂ − 1.96√
≤ 𝑝 ≤ 𝑝̂ + 1.96√
) = 0,95
𝑛
𝑛
Approximatives 95% Konfidenzintervall für den unbekannten Anteil p ist:
𝑝̂ (1 − 𝑝̂ )
(𝑝̂ ± 1.96√
)
𝑛
Jeder Wert im Konfidenzintervall ist eine plausible Schätzung für den unbekannten
Parameter.
Wie groß sollte n sein, damit das KI durchschnittlich halb so groß ist, wie das gerade
beobachtete? => Stichprobenumfang 4x so groß wie vorher
-
-
Konfidenzniveau
Konfidenzniveau ist meist 95% oder größer
Es besagt, mit welcher Sicherheit man sagen kann, dass sich der Parameter in dem
Intervall befindet. (100% wären 0-1, also unsinnig)
Signifikanztest
Erklärung an einem Beispiel:
In der Vergangenheit hatte ein TV-Programm typische Einschaltquoten von
10%, für einen bestimmten Tag wird ermittelt, dass 350 von 4000 Personen
der Zufallsstichprobe das Programm gesehen haben.
- War das ein typischer Tag?
Falls es ein typischer Tag war:
4000
∑ 𝑋𝑖 ~ 𝐡(4000 , 0,1) ~ 𝑁(400,360)
𝑖=1
4000
1
0,1 ∗ 0,9
𝑝̂ =
∑ 𝑋𝑖 ~ 𝑁 (0,1,
)
4000
4000
𝑖=1
Falls es ein typischer Tag war, wie wahrscheinlich ist es dann, einen Anteil p
zu beobachten, der mindestens so weit von den erwarteten 10% entfernt ist
wie 8,75%? Diese Wahrscheinlichkeit nennt man den p-Wert der Hypothese
„Es war ein typischer Tag“
Dies kann man leicht berechnen, wenn man p standardisiert. Der p-Wert ist
in der Tat sehr klein – kleiner als 1%!
Die Frage ist nun: War es ein typischer Tag, obwohl es sehr unwahrscheinlich
ist, so einen extremen Anteil von p zu beobachten?
Schlussfolgerung: Entweder war es ein typischer Tag und etwas sehr Seltenes
hat sich ereignet oder es war kein typischer Tag!
Kritischer Bereich: Der Gemessene Wert von p liegt außerhalb des erwarteten 3Sigma-Bereichs
o
o
Diskussion zum Fehler 1. und 2. Art
Fehler erster Art: Man lehnt die Hypothese H0 ab, obwohl diese wahr ist
Fehler zweiter Art: Man lehnt die Hypothese H0 nicht ab, obwohl diese nicht
wahr ist
Signifikanztests sind so konstruiert, dass die Wahrscheinlichkeit für einen Fehler
erster Art klein und unter Kontrolle ist. Sie ist höchstens so groß wie Alpha. Allerdings
ist die Wahrscheinlichkeit für einen Fehler zweiter Art nicht unter Kontrolle. Sie kann
so groß sein wie 1-Alpha, also 95%.
Da ist eine grundsätzliche Asymmetrie in einem Signifikanztest. Das bedeutet: Wir
können nur dann darauf vertrauen, dass wir etwas entdeckt haben, wenn H0
abgelehnt wird! Aus einer nicht Ablehnung von H0 gewinnen wir keine neue
Information.
-
Worauf passen welche Verteilungen?
o
Binomialverteilung
Bei jedem Versuch ist die Erfolgswahrscheinlichkeit p gleich groß
Anzahl der Erfolge bei n unabhängigen Versuchen (i).
Eine Zufallsvariable X mit 𝑃(π‘₯ = 𝑖) = (𝑛𝑖) 𝑝𝑖 (1 − 𝑝)𝑛−𝑖 , 𝑖 = 0, … , 𝑛
heißt binomialverteilt zu den Parametern n und p.
Kurz: 𝑋 ~ 𝐡(𝑛, 𝑝)
Dann gilt
𝐸(π‘₯) = 𝑛 ∗ 𝑝
π‘‰π‘Žπ‘Ÿ(π‘₯) = 𝑛 ∗ 𝑝 ∗ (1 − 𝑝)
o
Poissonverteilung
Findet Verwendung bei Zufallsvariablen, die Ereignisse zählen, welche
jederzeit eintreten können, in einem kurzen Zeitintervall aber selten sind
Erfolg bei sehr vielen Versuchen mit jeweils sehr kleiner
Erfolgswahrscheinlichkeit
n = nicht spezifizierbar
p nahe 0
οƒ° Aber Erfolge passieren!
𝑋~ π‘ƒπ‘œ(𝛾)
𝛾 = πΈπ‘Ÿπ‘€π‘Žπ‘Ÿπ‘‘π‘’π‘›π‘”π‘ π‘€π‘’π‘Ÿπ‘‘
𝑛 𝑖
𝛾 𝑖 −𝛾
𝑛−𝑖
lim
(
)
𝑝
(1
−
𝑝)
=
𝑒
𝑛→ ∞
𝑖
𝑖!
𝑝→0
𝑛∗𝑝→ 𝛾
Dann gilt
𝐸(π‘₯) = 𝛾
π‘‰π‘Žπ‘Ÿ(π‘₯) = 𝛾
o
Normalverteilung
 Theoretisches Modell
Dichtefunktionen der
Normalverteilungen
(blau),
(grün) und
(rot)

𝑋 ~ 𝑁(πœ‡, 𝜎 2 )
o
 𝐸(𝑋) = πœ‡
 π‘‰π‘Žπ‘Ÿ(𝑋) = 𝜎 2
Standardnormalverteilung
 𝑋 ~ 𝑁(0,1)
 NUR für Standardnormalverteilung gibt es eine Tabelle
Standardisierung von 𝑋 ~ 𝑁(πœ‡, 𝜎 2 ):
𝑋− πœ‡
𝑍 = 𝜎 ~ 𝑁(0,1)
o
Sind X1 , … , X n ~ N(μ, σ2 ) und unabhängig, dann gilt:
n
1
σ2
𝑋̅ = ∑ X i ~ N(μ, )
n
n
i=1
-
Faustregel
o Spezialfall des zentralen Grenzwertsatzes
Ist X ~ B(n, p), dann gilt für großes n:
𝑋 ~ 𝑁(𝑛𝑝, 𝑛𝑝(1 − 𝑝))
𝑋
𝑝(1 − 𝑝)
~ 𝑁 (𝑝,
)
𝑛
𝑛
π‘­π’‚π’–π’”π’•π’“π’†π’ˆπ’†π’:
o
𝑛𝑝(1 − 𝑝) > 9
(Varianz der Zahl der Erfolge)
Verallgemeinerung:
Sind X1,…, Xn unabhängig und identisch verteilt (=selbes stochastisches Modell) mit
Erwartungswert πœ‡ und Varianz 𝜎 2 , dann gilt für großes n:
𝑛
∑ 𝑋𝑖 ~ 𝑁(π‘›πœ‡, π‘›πœŽ 2 )
𝑖=1
𝑋̅ =
𝑛
1
𝜎2
∑ 𝑋𝑖 ~ 𝑁(πœ‡, )
𝑛
𝑛
𝑖=1
Begrifflichkeiten
-
Daten sind das Ergebnis von Beobachtungen:
Zählvorgängen
Messvorgängen
Komplexeren Vorgängen
-
Population = Gesamtheit von Objekten, für die man sich interessiert
-
Variable = ein interessierendes Merkmal (oder ein Attribut) eines Objektes
o Eine Variable kann verschiedene Werte annehmen
o Skalierung
 Kategorial (Nominalskaliert), falls sich nur sagen lässt, ob jeweils zwei Werte
gleich sind oder nicht
 Rangvariable (Ordinalskaliert), falls ihre Werte angeordnet werden können
 Metrisch (Quantitativ), falls ihre Werte Ergebnisse eines Mess- oder
Zählvorgangs sind. Man unterscheidet:
ο‚· Verhältnisskaliert: Die Differenz und auch das Verhältnis zweier
Werte sind sinnvoll
ο‚· Intervallskaliert: Nur die Differenz ist sinnvoll
ο‚· Diskret = Kann nur isolierte Werte annehmen
ο‚· Stetig = Kann (theoretisch) jeden beliebigen Wert in einem Intervall
Annehmen
o Häufigkeitsverteilung
 n-Beobachtungen: x1, x2, …, xn
 k unterschiedliche Werte: a1,a2,…,an
 h(aj) = # Beobachtungen mit Wert aj = absolute Häufigkeit von aj
 f(aj) = h(aj) / n = relative Häufigkeit von aj
-
Semantisches Differential
Das semantische Differential, auch Eindrucksdifferential oder Polaritätenprofil genannt, ist
ein Verfahren, welches zum Zweck der Messung von Wortbedeutungen im Jahr 1952 von
Osgood entwickelt worden ist. Eine Person muss anhand einer Reihe von Items ein Objekt
beschreiben. Die Items sind siebenstellige bipolare Skalen, deren Extreme durch jeweils
gegensätzliche Eigenschaftswörter wie dynamisch/statisch, jung/alt, beschrieben werden.
Die numerische Unterteilung der Itemskala erlaubt es, eine Ausprägung intervallskaliert
anzugeben, wobei die Richtung der angegebenen Ausprägung vom Nullpunkt für die
Qualität, die Distanz zum Nullpunkt für die Intensität der assoziierten Eigenschaften stehen.
Objekte
Variable
Werte
Studierende
Geschlecht
M, W
Körpergröße in cm
…,167,168,…
Dienstage
Goldpreis (US$)
…,1004,0,1004,2,…
Rendite (%)
…,-2,5,-1,7,…
Kunden im Supermarkt
Gesamtausgabe (€)
…,10,33,…
Hat preisreduzierten Güter gekauft?
Ja, Nein
Beurteilung d. Angebotes
Unzufrieden,…,Sehr zufrieden
Zahl der Positionen
1,2,3,…
Erwachsene in den USA Wiederaufbau von NO
Ja, Nein
Wochentage
Zahl der zur Reparatur gebrachten Autos 0,1,2,3,…
-
Datensammlung
o Die erste Frage ist extrem wichtig, sog. Appetizer, wird oft nicht ausgewertet
o Totalerhebung oder Zensus = Die Sammlung von Daten aus der gesamten Population
o Teilerhebung oder Ziehung = Die Sammlung von Daten aus einer Teilpopulation
-
Length Sampling Bias => systematischer Fehler
Erwartungswert
o Selbes Prinzip, wie beim arithmetischem Mittel, mit Wahrscheinlichkeiten anstatt der
relativen Häufigkeiten
𝐸(π‘₯) = ∑ 𝑖 ∗ 𝑃(π‘₯ = 𝑖)
𝑖
-
Wahrscheinlichkeitsdichte
o Konzept der Wahrscheinlichkeitsfunktion ist für stetige Variablen unbrauchbar, man
braucht eine Dichte!
𝑏
𝑃 ( π‘Ž ≤ 𝑋 ≤ 𝑏) = ∫ 𝑓(π‘₯)𝑑π‘₯
π‘Ž
Erwartungswert:
∞
𝐸 (𝑋) = ∫ π‘₯ ∗ 𝑓(π‘₯)𝑑π‘₯
−∞
Herunterladen