Lehrmaterial Art des Unterrichtes Bewertung am Ende des

Werbung
Lehrmaterial
Statistik 2
1. Vorlesung, September 8, 2010
Art des Unterrichtes
Vorlesung (einbezüglich
Musteraufgaben und deren Lösung)
einmal 2 Stunden in jeder zweiten
Woche (Mi 8.00-9.30).
Praktikum: in 2 Gruppen je 2 Stunden
in jeder Woche
Bitte bringen Sie Taschenrechner mit!
Statistische Untersuchung:
Grundgesamtheit
Wir möchten genaue Ergebnisse bekommen durch eine
repräsentative Stichprobe.
Daten können je nach Erfassung
Bewegungsmassen (entsprechen einer Zeitintervall: z.B.: alle
Besucher unser Hotels in 2005)
oder
Bestandmassen (entsprechen einen Zeitpunkt: Besucher unser Hotels
am 31.12.2005) sein.
Das Grundgesamtheit besteht aus Merkmalsträgern, die mehrere
Merkmale aufweisen können (Alter, Einkommen, Geschlecht usw).
Die Merkmalswerte (Merkmalausprägungen) sind unsere
Beobachtungen.
Literatur:
Götze-Deutschmann-Link:
Statistik (Kap. 3 und Teile aus Kap.
1,2,5)
+Aufgaben+Mündliche/schriftliche
Ergänzungen
Thema: Schliessende Statistik
(Entscheidungen zu treffen aufgrund
der Stichprobe)
Bewertung am Ende des
Semesters
Während der Semester werden 2 Klausuren geschrieben (Maximales
Punktenzahl be beiden Klausuren:60). Man braucht mindestens 30
Punkte aus beiden Klausuren um Statistik 2 zu bestanden.
Auf jeden Vorlesung (von 2ten) werden Blitzfragen gestellt, womit Sie
können Punkte bekommen zur Prüfung.
Die Noten werden aufgrund der Klausuren und extra Punkten
(maximales Punktenzahl:ca. 130) vorausgesehen wie folgendes
ausgerechnet:
Punkten
0-59
60-71 72-83 84-95 96-130
Note
1
2
3
4
5
Falls jemand hat an die Praktiken teligenommen, aber hat die nötige
Punktenzahl nicht erreicht, darf während der Prüfungszeit höchstens
drei Mal (Nach)prüfung schreiben.
Der Material der Vorlesungen und die Praktiken wird an der üblichen
Web-Seite: www.cs.elte.hu/~zempleni/statistik.htm veröffentlicht.
Zufallsstichproben
Bei Zufallsstichproben nähert sich die Verteilung der
Variablen in der Stichprobe der Verteilung in der
Grundgesamtheit an
Je größer die Stichprobe und je homogener die
Grundgesamtheit, desto besser die Annäherung
Der Stichprobenfehler kann bei Zufallsstichproben
berechnet werden. Das heisst, es können Intervalle
angegeben werden, innerhalb derer der gesuchte
Wert der Grundgesamtheit mit einer gewissen
Wahrscheinlichkeit zu finden ist.
1
Zufallsstichprobe
Reine Zufallsstichprobe: alle Stichprobenelemente
werden in einem Schritt per Zufall ermittelt
Systematische Zufallsstichprobe:
Geschichtete Stichprobe-beispiel
nur das erste Stichprobenelement wird per Zufall ermittelt
alle übrigen Elemente werden - ausgehend von diesem systematisch ermittelt (z.B. „jeder zwanzigste Fall“)
zweistufiger Auswahlverfahren: Geschichtete
Stichprobe. Elemente der Auswahlgesamtheit werden
in Gruppen (Schichten) eingeteilt; aus allen Schichten
werden getrennt Zufallsstichproben gezogen werden.
Stichprobenausfälle
Unterscheidung
Item-Nonresponse (nur etliche Fragen sind nicht
beantwortet)
Unit-Nonresponse (überhaupt kein Information vom
Testperson)
Aufteilung (Unit-Nonresponse)
Nicht-Befragbare („unable-to-answers“)
Schwer-Erreichbare („not-at-homes“)
Verweigerer („refusals“)
Hängt Grund des Ausfalls mit untersuchten Variablen
zusammen?
Unsystematische (stichprobenneutrale) Ausfälle sind
weitgehend unproblematisch.
Systematische Ausfälle (Grund des Ausfalls hängt mit den
untersuchten Variablen zusammen) gefährden die
Repräsentativität.
Typisierung
Mit einer sinnvoll geschichteten Stichprobe lassen sich kleinere
Stichprobenfehler erzielen, wenn sich die Verteilung des
Merkmals in den einzelnen Schichten unterscheidet.
Hypothetisches Beispiel:
In einer Gesellschaft leben 50% Männer und 50% Frauen.
Alle Männer verfügen über ein Monatseinkommen von 2000
Eur, alle Frauen über ein Einkommen von 1000 Eur
(Streuung in den Schichten gleich null).
Bei einer einfachen Stichprobe, mit der das
Durchschnittseinkommen der Gesellschaft bestimmt werden
soll, kommt es zu Stichprobenfehlern (Anteil der
Männer/Frauen schwankt zufällig um den wahren Wert).
Wird eine geschichtete Stichprobe gezogen, ist der
Stichprobenfehler gleich null.
Wiederholung: Skalierung der
Merkmalen
•
Nominalskaliert (nur Gleichheit oder Ungleichheit
kann man untersuchen: Geschlecht, Farben usw)
•
Ordinalskaliert: es gibt eine natürliche Ordnung
(Qualität), aber differenzen zwischen die
Nachbarwerte sind nicht zu berechnen.
•
Intervallskaliert (Temperaturen: Differenz ist zu
rechnen, aber dividieren ist nicht zu empfehlen)
•
Kardinalskaliert/Verhältnisskaliert: man kann alle
mathematische Funktionen berechnen (gemessene
Daten, Anzahl usw…)
Mittelwerte/Lagemasse:
der Daten
Diskret (natürliche Zahlen sind die Werte:
Stückzahl)
Stetig: die Werte sind reelle Zahlen: z.
B.Temperatur
der Analyse
Querschnittanalyse: Vielzahl der Merkmalsträger
ist untersucht
Längschnittanalyse: wiederholte Beobachtungen
an dem selben Merkmalsträger (Zeitreihen)
Median
Modus
Arithmetisches Mittel (es gibt 0 für
zentrierte Daten).
Arithmetisches Mittel is empfindlich für
Extremwerte.
Beispiel (Reisezeiten in Minuten in einer
Studentengruppe):
(10x10+10x30+1700)/21=100,
(10x10+10x30)/20=20
2
Rechtsteile/linkssteile
Verteilungen
-6
-5
-4
-3
-2
-1
0
0
1
2
3
4
5
6
Der Wert xα, für den 100α% aller Beobachtungen ist kleiner ,
als xα und 100(1-α)% aller Beobachtungen ist grösser als xα
wo x(1) ≤ x(2) ≤...≤ x(n) ist
die grösse nach geordnete
Stichprobe. Graphisch: von der
Summenkurve ablesbar.
Jetzt y ist gegeben, und
x ist gesucht.
0.6
0.8
1.0
 x( nα  ) nα gebrochen
xα = 
( x( nα ) + x(nα +1) ) / 2 nα ganz
rel.kum.Hfg.
Für rechtssteile:
Arithmetisches
Mittel< Median
Für linkssteile:
Arithmetisches
Mittel> Median
Für symmetrische:
Arithmetisches
Mittel≈ Median
0.4
0.3
0.2
0.1
0.0
0.2
0.0
0.1
0.3
0.2
L in k s s te il
0.0
R e c h ts s te il
α-Quantile
50
100
150
200
Gehalt (TFt)
Beispiel
Streumasse (Streuungsmasse)
α=0,75 oder α=0,25 heisst Quartile (obere
und untere)
Quantile sind berechnbar auch für klassierte
(klassifizierte) Daten von Angestellten:
Gehaltklasse
(TFt/Monat)
40-80 80-120
Hfgkeit
26
Rel. Kum. Hfg. 0,26
34
0,6
120-160 160-240
32
0,92
8
1
Für den oberen Quartil, y=0,75:
(x-120)/(160-120)= (y-0,6)/(0,92-0,6)
Also: x=x0.75 =138,75 TFt. Der untere Quartil ist x0,25 =78,5 TFt
Konzentrationsmessung
Relativ: was für ein Anteil des Umsatzes
gehört zu einen gegebenen Teil aller
Unternehmen?
Die Lorenz-Kurve gibt die Antwort für
verschiedene Teile.
Spannweite: x(n) -x(1)
Quartilabstand: x0,75 -x0,25 (Ausbreitung
der mittleren 50% der Beobachtungen)
Varianz: s2
Standardabweichung: s
Variationskoeffizient (Relative Streuung)
s/ x
Absolute Konzentration
Nicht die Merkmalausprägungen, sondern die Anzahl
der Merkmalsträger und deren (Markt)anteil ist
untersucht.
Herfindahl-Index:
n
H = ∑ pi
2
i =1
wo pi ist die Marktanteil der einzelnen Unternehmen
Beispiel: 2 gleich grosse Unternehmen: H=1/2
n gleich grosse Unternehmen: H=1/n.
3
Stetige Verteilungen
Standard Normalverteilung
für die Standard
Normal Verteilung
0.4
0.3
Der Erwartungswert:
„mittlere Wert”
∞
E ( X ) = ∫ xf ( x) dx =0
f(x)
−∞
Die Varianz:
∞
0.1
0.2
Dichtefunktion:
f(x) (grösser gleich Null,
der Fläche unter f(x)=1)
0.1
f(x)
0.3
Dichtefunktion von Gamma-Verteilung
0.2
Dichtefunktion von Standard Normal Verteilung
zur Beschreibung stetige
Merkmale (Umsatz,
Wartezeit, Distanz usw)
Var ( X ) =
∫ (x − E ( X ) )
2
−∞
2
4
6
-4
8
-2
Normalverteilung
Parametern: (µ,σ)=
(Erwartungswert, Streuung)
0.8
0.6
f ( x )dx − (E ( X ) ) = 1
2
0
2
4
Wahrscheinlichkeitsrechnung
Dichtefunktion von verschiedene Normal Verteilungen
(0,2)
(1,2)
(0,0.5)
0.2
Diese sind alle
symmetrische Funktionen
Die Summe von
unabhängigen normalverteilten Zufallsvariablen
ist wieder normalverteilt.
Erwartungswert:
m=m1+...+mn.
Varianz: σ2=σ12+...+σn2.
Mit Tabelle (oder Computer): z.B. für die
Standard Normal Verteilung
P(X>2)=0.023, P(X>3)=0.0014
Ebenso für N(m, σ)
P(X-m>2σ)=0.023, P(X-m >3σ)=0.0014
Aus der symmetrie:
P(|X-m|>2σ)=0.046, P(|X-m|>3σ)=0.0028
(zentrale Schwankungsintervalle)
0.0
f(x)
2
x
x
0.4
∫x
−∞
für die Standard
Normal Verteilung
0.0
0.0
0
∞
f ( x)dx =
-5
0
5
Grenzwertsatz
Wenn Yn ist die Summe von unabhängigen, identisch
verteilten Zufallsvariablen: Yn=X1+...+Xn
Z n :=
Anwendungen
X 1 + ... + X n − nm
nσ
E(Xi)=m, D(Xi)=σ dann für die standardisierte
Variable Zn :

 X + ... + X n − nm
P 1
< z  → Φ( z )
nσ


also die Verteilung von Zn kann man mit der Standard
Normal Verteilung nähern, falls n ist gross genug.
Ebenso, die Verteilung von Yn kann man mit der
Normalverteilung nähern.
für Merkmale, die durch mehrere additive Faktoren
beeinflusst sind: Körpergrösse, Füllgewicht eines
Zuckertütes, Intelligenzquotient, Benzinverbrauch
usw.
Aber nicht alle Zufallsgrössen sind Normalverteilt:
Lebensdauer, Einkommen usw. sind linkssteil (nicht
symmetrisch) und so nicht Normalverteilt.
Aber wenn man Durchschnitt bildet von diese
Zufallsgrössen, dann wegen den Grenzwertsatz es
liegt nahe zur Normal Verteilung.
n>30 ist im allgemein gross genug zu einen guten
Approximation.
4
Herunterladen