3. Einführung in die Statistik - iks.hs

Werbung
3. Einführung in die Statistik
Grundlegendes Modell zu Daten:
unabhängige Zufallsgröß
en X1 ; : : : ; Xn
mit Verteilungsfunktion F bzw.
Einzelwahrscheinlichkeiten p1 ; : : : ; pr
in den Anwendungen:
konkrete reale Ausprägungen X1 ; : : : ; Xn
Zahlenwerte, Werte von Vektoren,
qualitative Größ
en
B verschiedene Datentypen:
diskret (kategorial)
Nominaldaten
Operationen =6=
rein qualitativ
stetig
Ordinaldaten
reelle
=6=<>
=6=<> +
quantitativ
quantitativ
=
ohne Ordnung der Werte Werte geordnet Werte geordnet
metrische Skala
Beispiele
Farbe,Geschlecht,
Noten,
Temperatur,
Namen
Fehleranzahl
Gewicht,Umsatz
B Ablauf einer statistischen Untersuchung:
1) Planung der Untersuchung
- Versuchsplanung
- Suche nach geeigneten Datenquellen
2) Erhebung (Sammeln) von Daten
- zufällige Auswahl der Stichprobe, Datenerfassung
- Abwägen zwischen Kosten für Daten und gewünschter Präzision
3) Aufbereitung der Daten (explorative Analyse) - deskriptive Statistik
- Erkennen von Strukturen in den Daten
- Maß
zahlen, Tabellen, Gra…ken
4) Inferenzstatistik
- Schätzung von Modellparametern/Modellfunktionen
- Kon…denzintervalle, Tests
5) Interpretation
- die Ergebnisse in 4) sind zu interpretieren,
Schlussfolgerungen zu ziehen
- gra…sche Darstellung der Ergebnisse in 4)
- Abschlussbericht
1
4. Deskriptive Statistik
Vorgegeben Daten X1 ; : : : ; Xn
Variationsreihe (Ordnungsstatistik) X(1) ; X(2) ; : : : ; X(n) mit
X(1)
X(2)
:::
X(n) :
Definition: Die relative Häu…gkeit des Ereignisses Xi
Verteilungsfunktion an der Stelle x:
Fn (x) =
1
Anzahl der Xi mit Xi
n
x ergibt die empirische
x
monoton wachsende Treppenfunktion mit Sprüngen in Xi
B Histogramm
Wir teilen den Grundbereich G des Merkmals in mehrere disjunkte Intervalle ein
S
(möglichst gleiche Breite): I1 ; I2 ; : : : ; Ik ; kj=1 Ij = G.
Hj Anzahl der Stichprobenelemente im Intervall Ij mit Breite
Über jedem Intervall I1 ; : : : ; Ik werden Balken der Breite in das Diagramm eingetragen.
Die Höhe dieser Balken beträgt:
a) die absolute Häu…gkeit Hj oder
H
b) die relative Häu…gkeit hj = nj oder
c)
relative Häu…gkeit
hj
Hj
=
=
Intervallbreite
n
Empirische Kenngröß
en
B Stichprobenmittel (Mittelwert)
Empirischer Median
m
^X =
(
1X
X=
Xi
n i=1
n
X(N ) mit N = n+1
, falls n ungerade,
2
1
X + 12 X(L+1) mit L = n2 , falls n gerade.
2 (L)
Geometrisches Mittel
~=
X
p
n
X1 X2 : : : Xn
2
Stichprobenvarianz
2
SX
=
1
n
1
n
X
Xi
X
2
=
i=1
n
X
1
n
1
Xi2
i=1
nX 2
!
Empirische Standardabweichung
v
u
u
SX = t
1
n
1
n
X
Xi
X
2
i=1
Variationskoe¢ zient
Empirische Schiefe:
dX =
SX
VX =
X
n
X
1
Xi
n
X
3
i=1
3
SX
empirisches -Quantil:
N ergibt sich durch Aufrunden von n auf die nächstgröß
ere ganze Zahl.
q^ =
(
X(N ) , wenn n keine ganze Zahl ist,
1
X
+ 21 X( n+1) , wenn n eine ganze Zahl ist.
2 ( n)
q^ ist Schätzer für das -Quantil der Verteilung.
Quartilsabstand: q^0:75 q^0:25 ,
Box-Whisker-Plot
Whisker links: X(1) , Whisker rechts: X(n)
linker Rand Box: q^0:25 , rechter Rand Box: q^0:75 ,
Strich in der Mitte: m
^ = q^0:5
Plus-Zeichen: X
Konzentrationskurve - Lorenzkurve
Werte: a1 ; : : : ; aN . Die Werte des Merkmalsträgers werden sortiert: a(1)
:::
A=
N
X
i=1
3
ai
a(2)
a(3)
sortierte Anteilswerte: v0 = 0;
1X
vi =
a(j)
A j=1
i
für i = 1; : : : ; N
kumulierte Gleichanteile: ui = Ni (i = 1 : : : N )
Lorenzkurve: Verbinden der Punkte (ui ; vi )
Konzentrationsmaßnach Gini/Lorenz-Münzner
2
N
X1
vi
i=1
=1
N
1
Lorenz‡äche: Fläche zwischen Diagonale und Lorenzkurve. Dieses Konzentrationsmaß
gibt das Verhältnis von der Lorenz‡äche und der größ
tmöglichen Lorenz‡äche N2N1 an.
0
1.
Einfache Analysen von Zeitreihen
Zeitreihe X1 ; X2 ; : : : ; Xn
B Durchschnittliche Steigerungsrate pro Zeitabschnitt:
Index
=
Xn
X1
1=(n 1)
, Rate r =
1
(
1) 100% ist die jährliche Steigerungsrate für Zeitraum vom Jahr 1 bis Jahr n, d.h.
in n 1 Jahren.
B Gleitende Mittel
Zahl k vorgegeben.
Gleitmittel zum Zeitpunkt t ist der Mittelwert der Werte
Xt k ; : : : ; Xt+k :
t+k
X
1
~
Xi
Xt =
2k + 1 i=t k
B Exponentielles Glätten
Zahl 2 (0; 1) vorgegeben.
~ t = (1
X
~t
)X
1
+ Xt
häu…g benutzte Werte: = 0:1 : : : 0:3
Prognose für das Jahr t + 1:
^ t+1 = (1
X
~ t + Xt
)X
4
5. Punktschätzungen
Stichprobe X1 ; : : : ; Xn unabhängiger Zufallsgröß
en
Xi hat Verteilungsfunktion F (x).
E(Xi ) = ; Var(Xi ) = 2
Satz: Bei Xi
N ( ; 2 ) besitzt Xn eine N ( ; 2 =n)-Verteilung. Ist Xi nicht normalverteilt, dann nähert sich asymptotisch (n ! 1) die Verteilung von Xn einer
N ( ; 2 =n)-Verteilung.
2
-Verteilung mit n Freiheitsgraden:
f (x) =
(
1
xn=2 1
2n=2 (n=2)
N( ;
2
) =)
n 1
2
x
)
2
für x
0
0 für x < 0:
Gammafunktion, (m) = (m
Satz: Xi
exp(
1)! für m 2 N, ansonsten Tabelle/Computer
2
besitzt eine
SX
2
n 1 -Verteilung.
Schätzer für spezielle Verteilungen
Normalverteilung N ( ;
2
)
1X
1 X
2
^=X=
Xi ; ^ 2 = SX
=
(Xi
n i=1
n 1 i=1
n
n
X)2
Exponentialverteilung mit Parameter
^= 1 = n
n
X
X
Xi
i=1
Poissonverteilung mit Parameter
X
^=X= 1
Xi
n i=1
n
Binomialverteilung mit Parameter p und vorgegebenem Parameter N
n
1 X
p^ =
Xi
nN i=1
5
6. Kon…denzbereiche
Gegeben Stichprobe X1 ; X2 ; : : : ; Xn unabhängiger Zufallsgröß
en,
2
Xn Mittelwert, SX Stichprobenvarianz
Kon…denzniveau " = 1
Z
2
n;
X
X
N (0; 1), X und Z unabhängig. Die Zufallsgröß
e Y = q besitzt dann
Z
n
eine t-Verteilung mit n Freiheitsgraden (n
1, Symbol: Y
X N ( ; 2)
Kon…denzintervall für den Erwartungswert
J = Xn
z(1
=2) p ; Xn + z(1
n
tn ).
bei bekannter Varianz
=2) p
2
n
P ( 2 J) = 1
Kon…denzintervall für den Erwartungswert bei unbekannter Varianz
SX
SX
=2) p ; Xn + tn 1 (1
J = Xn tn 1 (1
=2) p
n
n
2
P ( 2 J) = 1
Kon…denzintervalle für die Varianz 2
2
2
(n 1)SX
(n 1)SX
;
zweiseitig: J =
2
2
=2)
n 1 (1
n 1 ( =2)
P(
2
einseitig: J =
0;
(n
2
n
2
1)SX
1( )
2 J) = 1
Gegeben Ereignis A, P (A) = p,
Hn absolute Häu…gkeit des Auftretens von A in der Stichprobe der Länge n.
Asymptotisches Kon…denzintervall für p
q2
q2
1
1
J=
H
+
qW
;
H
+
+ qW
n
n
n + q2
2
n + q2
2
mit W :=
r
Hn (n Hn ) q 2
+ ; q = z(1
n
4
P (p 2 J)
6
1
=2);
Zugehörige Unterlagen
Herunterladen