Stat I -- WS 2014/15

Werbung
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Stat I -- WS 2014/15
1. Vorlesung
Begrüßung
Was heißt Universität? Was heißt studieren?
Organisation
Vorlesung
Tutorien
Teams in Tuts
Mitarbeitspunktesystem:
jedes Team 5 Chancen
10% des Stat I Anteils in der ersten BA-Klausur (neues Modell)
Warum Statistik?
Lehrplan
allgemein: z.B. Medizin ⇒ Diagnosen, Medikamente
Wirtschaft: z.B. Prognosen ⇒ Methoden, um bessere Entscheidungen fällen zu können.
Problem: Induktionsschlüsse
Was ist Statistik?
Ein Blick auf die wikipedia-Seite
anhand von Beispielen
Ist Rauchen schädlich: Doll+Hill 1952 → Wann ist was bewiesen?
LKW-Sperrung in der Stapenhorststraße
PCB in der Uni Bielefeld, siehe auch:
http://www.uni-bielefeld.de/Universitaet/Ueberblick/Organisation/Verwaltung/Arbeitssicherheit/PCB/Messergebnisse_V1.html
[http://www.uni-bielefeld.de/Universitaet/Ueberblick/Organisation/Verwaltung/Arbeitssicherheit/PCB/Messergebnisse_V1.html]
beim Messen, welche Grenzwerte
Luftverschmutzung → Stapenhorststr → LKW-Verbot, siehe auch:
http://www.lanuv.nrw.de/luft/immissionen/aktluftqual/eu_luft_akt.htm
→
Probleme
[http://www.lanuv.nrw.de/luft/immissionen/aktluftqual
/eu_luft_akt.htm] → Analyse dieser Zahlen
Fahrradhelme
Gliederung
1. Einleitung
2. 1-dim Datenanalyse
3. mehr-dim Datenanalyse
4. Modellierung empirischer Verteilungen
5. Wahrscheinlichkeiten
6. Stichprobenfunktionen
7. Punktschätzung
8. Intervallschätzung
9. Testen
10. Regression
Wie machen wir's?
Vorlesung + Tuts + Aufgabenblätter
Studs → Tuts-Zuordnungen
1 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Studs in 2er- / 3er-Teams einteilen
5 Chancen pro Team: handschriftlich (abgeben) + Vorstellung
0,1,2 Punkte nach Vorgabe für nichts – ok/2 – ok
später 10% der Anteils der Stat 1 in der ersten Klausur
Aufgabenblätter über Lernraum und wiwi-Server
Wie werden Untersuchungen durchgeführt?
Selbstversuch
Untersuchung für Modebranche, Untersuchung der ökonomische Verhältnisse bei Studs
Fragebogenaktion
PPDAC
Problem, Plan, Daten, Analyse, Folgerungen
Grundbegriffe
Grundgesamtheit: Abgrenzungs-, Definitionsprobleme
Stichprobe
Merkmal
Merkmalsträger
Merkmalsausprägungen
Messen → Messwert
Datenmatrix: MMTR pro Zeile, MM pro Spalte
R als Statistische Software
kostenlos
Start
Daten holen: Fußballer-Größen
einfachen Plot machen
source('http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/fussball_gr_gw.R')
plot(fussball_gr_gw[,5:6])
Zusammenfassung
Begrüßung
Was ist Statistik? → Beispiele
Organisation
PPDAC
2. Vorlesung
Organisation
MAP:
Aufgabenblattabwicklung
Aufgabenbereitstellung: dienstags oder mittwochs
Abgabe: direkt nach Vorlesung
Rückblick
Was ist Statistik?
Was ist eine statistische Untersuchung?
Raucherstudie / Schutz durch Fahrradhelme
PPDAC: Abgrenzungsprobleme, Merkmale, Ausprägungen, MM-Träger, Datenmatrix, Variablen
2 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Untersuchungen
Typen
Beobachtungsstudien → mehr explorativ
kontrollierte Studien → zur Hypothesenüberprüfung
Problem-Analyse-Phase
wichtige Fragen
Was willst Du wissen?
Wie genau willst Du das wissen?
Warum willst Du das wissen?
Planungsphase
Arten von Stichproben
StPr aufs aufs Geratewohl
einfache Zufallsstichproben
Klumpenstichproben
Schichtenstichproben
Stichprobenumfang
Bedeutung
Repräsentativität: Aussagen für Population gesucht
Merkmalsniveaus und Skalen
Metriken
Nominalskala
Ordinalskala
Kardinalskala
Intervallskala
Verhältniskala
diskret ↔ stetig
Bedeutung
Welche Operationen machen Sinn / sind erlaubt?
Mittelwertbildung bei Schulnoten
Skalenniveau wird durch den Messvorgang realisiert und begrenzt Möglichkeiten der Analyse- und Interpretationsphase
Data-Phase
Messen
nicht einfach
Begleitumstände immer mit notieren
Problem systematisch falscher Messungen
Interviewer-Bias
Analyse-Phase
Datenbereinigung
zulässige Operationen durch Metrik vorgegeben
nominale Metrik: Auszählen → Häufigkeiten → Häufigkeitstabellen
3 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
ordinale Metrik: auch Sortieren → Rangwertreihe
kardinale Metrik: Rechnen → Mittelwert
Conclusion
Interpretation der berechneten Ergebnisse
R
Darstellung erster Ergebnisse aus Umfrage
Unbereinigter Datensatz: frabo14_orig, bereinigt: frabo14a
source("http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/frabo14a.R")
Merkmale / Variablen / Spalten des Matrix:
[1,]
[2,]
[3,]
[4,]
[5,]
[6,]
[7,]
[8,]
[9,]
[10,]
[11,]
[12,]
[13,]
[14,]
[15,]
[16,]
[17,]
[18,]
[19,]
[20,]
[21,]
"MM-1: Geschlecht"
"MM-2: Alter"
"MM-3: Haarfarbe"
"MM-4: Schuhgroesse"
"MM-5: Gewicht"
"MM-6: Groesse"
"MM-7: GroesseMutter"
"MM-8: GroesseVater"
"MM-9: Fingerlaenge"
"MM-10: Haarlaenge"
"MM-11: Jeansweite"
"MM-12: Jeanslaenge"
"MM-13: Taillenweite"
"MM-14: Brustweite"
"MM-15: Kragenweite"
"MM-16: Brueder"
"MM-17: Schwestern"
"MM-18: Rauchen"
"MM-19: ZeitSport"
"MM-20: BekannteAnz"
"MM-21: FreundeAnz"
"MM-22:
"MM-23:
"MM-24:
"MM-25:
"MM-26:
"MM-27:
"MM-28:
"MM-29:
"MM-30:
"MM-31:
"MM-32:
"MM-33:
"MM-34:
"MM-35:
"MM-36:
"MM-37:
"MM-38:
"MM-39:
"MM-40:
"MM-41:
"MM-42:
Freundschaft"
BeziehungenAnz"
UniWeg"
HeimatOrtKm"
SchulNote"
NewsWoher"
CDs"
MP3"
SMSZahl"
WhatsApp"
Buecher"
Schuhpaare"
Auto"
PC"
APPs"
WohnungQM"
EurHandy"
EurPC"
EurMonat"
EurMiete"
EurStrom"
"MM-43:
"MM-44:
"MM-45:
"MM-46:
"MM-47:
"MM-48:
"MM-49:
"MM-50:
"MM-51:
"MM-52:
"MM-53:
"MM-54:
"MM-55:
"MM-56:
"MM-57:
"MM-58:
"MM-59:
"MM-60:
"MM-61:
EurWasser"
EurHandyKosten"
EurVerpflegung"
EurLuxus"
EurMaterial"
ElternWohnung"
Studierzeit"
Studiendauer"
BANote"
MAPlan"
Erwerbszeit"
PCSpielzeit"
HandyZeit"
Gehalt"
OPhase"
Fetenzeit"
Dekansalter"
Code"
zeit"
Größe der Datenmatrix
75 Zeilen, 61 Spalten
Beispiele für Zugriffe
> frabo14a[,"Geschlecht"]
[1] 2 2 2 1 1 2 2 1 2 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 2 2 1 1 2 1 2 2 2 2 1 1
[39] 1 2 1 1 1 1 2 2 2 2 1 2 1 2 2 1 1 2 2 1 1 2 1 1 1 2 1 2 2 1 1 2 1 2 2 1 1
> frabo14_orig[,"Geschlecht"]
[1] 2
2
2
[9] 2
2
2
[17] 1
1
2
[25] 1
1
2
[33] 2
2
2
[41] 1
1
1
[49] 1
2
1
[57] 2
1
1
[65] 1
2
2
[73] 2
1
1
Levels: 1 1
2 weiblich
1
1
2
2
2
1
2
2
1
1
1
2
1
1
2
2
1
weiblich
2
1
2
1
1
2
1
1
2
2
1
2
2
1
2
1
1
1
1
2
2
1
2
2
2
2
2
Häufigkeitstabellen
> table(frabo14a[,"Haarfarbe"])
1 2 3
5 26 38
5
4
Beispiele für Plots
> plot(frabo14a[,"Alter"])
> barplot(table(frabo14a[,"Haarfarbe"]))
Zusammenfassung
Organisation
Rückblick
PPDAC
Stichprobenziehungen
4 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Metriken
erste Analyseschritte
R
3. Vorlesung
Rückblick
Was sind Statistische Untersuchungen?
Was steckt hinter PPDAC?
Skalen: nominal, ordinal, kardinal
Messen
Datenbeschaffung
Datenbeschaffung:
> source("http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/frabo14b.R")
Datenbereinigung
Hinweis auf Datenprobleme durch Betrachtung von Darstellungen aufgrund der Originaldaten.
Für die Spalten j aus {1,3,16,17,18,22,23,26,27,34,48,50,51,52,57,58,60} lassen sich dann Stabdiagramme erstellen durch den R-Befehl:
> barplot(table(frabo14b_orig[,j]))
Dabei ist j durch eine der aufgelisteten Zahlen zu ersetzen. Mit
> plot(frabo14b_orig[,j])
lassen sich dagegen sogenannte Scatterplots erstellen.
Dabei erkennt man zum Teil unplausible Werte und Datenprobleme:
fehlende Einträge
unsinnige Einträge
reparierbare Werte
falsche Bereiche
völlig falsche Werte
möglicherweise falsche Werte
Bereinigungsoperationen
Wenn auf sich auf dem Objekt x in R die Daten befinden,
... werden Zeichenketten in Zahlen umgewandelt durch:
> x <- as.numeric(x)
... werden fehlende Werte von x entfernt durch:
> x <- x[!is.na(x)]
... werden nur Werte kleiner 5000 von x extrahiert durch:
> x <- x[ x < 5000 ]
Mit solchen Operationen lassen sich Datensätze bereinigen. Die bereinigten Daten lassen sich darstellen durch:
> barplot(table(frabo14b[,j]))
bzw. durch
> plot(frabo14b[,j])
Analyseschritte für Nominale Daten
Vergleichen
5 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Zählen → Häufigkeiten
absolute:
relative:
Darstellung durch Säulen-, Stab- und Balken-Diagramme.
Analyseschritte für Ordinale Daten
Sortieren
Analyseschritte für Kardinale Daten
Was will man wissen?
Antwort 1: Wo liegen die Daten? → Konzept Lage
Antwort 2: Wie unterschiedlich sind die Daten? → Konzept Variabilität
Konzept Lage
Mitte zwischen Extrema
Umsetzung: (Minimum + Maximum)/2
arithmetisches Mittel
bekannt
Hinweise Summenzeichen
Eigenschaften:
Schwerpunkt
Ausreißerempfindlichkeit
weitere Mittel
geometrisches Mittel
harmonisches Mittel
getrimmtes Mittel
Median
Wert in der Mitte der Rangwertreihe
n gerade ⇒ Mittel der beiden mittleren Werte
Eigenschaften
plausibel
nicht ausreißerempfindlich
Konzept Variabiliät
1. Vorschlag: Spannweite berechnen
2. Vorschlag: viertele Datensatz und berechne Spannweite der beiden mittleren Viertel
Umsetzung nach Tukey:
definiere Tiefe als kürzeste Entfernung vom Rand in Rangwertreihe
teile Datensatz in zwei Teile an Stelle mit Tiefe (n+1)/2 = tiefe(Median)
suche Mitten der Teile → Stellen mit ([tiefe(Median)]+1)/2 = tiefe(Angel)
Verwendung
5-Zahlen-Zusammenfassung: Minimum, untere Angel, Median, obere Angel, Maximum
Boxplot: Darstellung von Lage und Variabilität
Eigenschaften:
Variabilität wird sichtbar
Lage auch
Bemerkungen
6 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
oft „Quartile“ statt Angeln
Ausreißer beim Boxplot oft isoliert dargestellt
kurze Zusammenfassung
Datenprobleme
Konzepte Lage und Variabilität
5-Zahlenzusammenfassung und Boxplot
4. Vorlesung
Rückblick
Fragestellungen der Statistik an Datensätze:
Lage, Variabilität, Skalen
Oft:
Frage → Idee → Definition → Implementation (in Software)
wichtig:
Warum-Fragen
für Verständnis
in unklaren Situationen
Beispiel: Quartile / Angeln zur Viertelung eines Datensatzes
Was tun bei gleichen Werten? → ties
Hinweis darauf, dass solche Schwierigkeiten an vielen Stellen der Statistik entstehen.
Angeln: schreibe alle Werte sortiert hintereinander und zähle
allgemeine Frage: Definition von Quantilen
Das p-Quantil ist die Stelle , so dass links von (oder an der Stelle)
p*100 Prozent der Beobachtungen liegen.
semantischen Ungenauigkeiten ⇒ R-Funktion quantile() kennt viele verschiedene Typen der Quantilsberechnung. Zu
jedem gehört eine Definition.
viele Daten: Unterschied unbedeutend
wenige Daten: genau hinschauen, welche Interpretation zugrunde liegt / gelegt werden soll
Experimente: fivenum() und boxplot() setzt unsere Vorgehensweise mit Angeln um.
Variabilität
Wie vermessen?
verschiedene Vorschläge
Stichprobenstandardabweichung
mittlere quadratische Abweichung
Stichprobenvarianz
mittlere absolute Abweichung
Lp-Norm
allgemeine Erkenntnis
In
In
befinden sich sehr oft fast alle Werte (99%).
befinden sich sehr oft sehr viele Werte (95%).
Histogramm
Aspekte
bilde Klassen von x-Werten
relative Häufigkeiten durch Rechteckflächen repräsentieren
Konsequenz: Balkenhöhe = relative Häufigkeit / Balkenbreite
Prinzip der Flächenproportionalität
manuelle Erstellung: Arbeitstabelle
7 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Erstellung mit R für Datensatz x
> hist(x, prob = TRUE)
Vorteile:
Wir sehen die Verteilung besser als bei Darstellung einzelner Werte.
Wir sehen die Lage, Variabilität lässt sich grob abschätzen.
Symmetrische Strukturen und seltsame Verteilung sind erkennbar.
Wir sehen Häufigkeiten der vorliegenden Klassen.
Nachteile:
Häufigkeiten von beliebigen Intervalle nicht sichtbar → Integrationsproblem
R-Beispiel
Beute-Größen von Bankrauben
empirische Verteilungsfunktion
Festlegung
Eigenschaften:
Treppenfunktion
monoton steigend
rechtsseitig stetig
für
geht
für
geht
an Stellen mit Beobachtungen: Sprünge
Verwendungen:
Anteilsermittlungen
… links von Stelle
oder an Stelle
… rechts von
… zwischen
und
Quantilermittlungen
welche Stelle gehört zu vorgegebenen Anteil
kleinster -Wert, so dass p*100 Prozent der Beobachtungen kleiner gleich dieser Stelle sind.
größter -Wert, so dass p*100 Prozent der Beobachtungen größer dieser Stelle sind.
Klassierte Daten
wird als Polygonzug definiert. Die Knickstellen ergeben sich durch die Klassengrenzen.
5. Vorlesung
Rückblick
Bemerkung zu verschiedenen Instrumenten
Kurz-Bemerkung zu
klassierte Daten und Mittelwert / Varianz
Beispiel: Stauzeitvergrößerung durch Bahnstreik
Frage an Instrumente: Warum? Wie? Eigenschaften?
Kurz-Bemerkung zur empirischen Verteilungsfunktion
wichtige Fragen: Lage, Variabilität, Symmetrie
Erdbebenforscher in Italien freigesprochen
Schiefe und Wölbung
weitergehende Fragen gegenüber Lage und Variabilität
Schiefe
Idee, Ansätze
Schiefekoeffizienten, skewness
8 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Symmetrie ⇒ Koeffizient = 0
Wölbung
Idee: Fortsetzung der Formelstruktur: Varianz → Schiefe → Wölbung
Wölbung, kurtosis
Bauchigkeit einer Verteilung
schwer vorstellbar → per Versuch studieren
Konzentrationsmessung
Verteilungsgerechtigkeit
Maß für Ungleichheit
Idee: wie viel % des gesamten Kapitals besitzen die 20% ärmsten
Vorgehen: sortieren, summieren, normieren →
Lorenz-Kurve:
je näher an der Winkelhalbierenden, umso eher gleichverteilt
je weiter von dieser entfernt, umso höher die Konzentration
Gini-Koeffizient
(Fläche zwischen Diametralen und Lorenzkurve ) / 0.5
Koeffizient = 0 ⇔ Gleichverteilung
Koeffizient = 1 ⇔ maximale Konzentration
Beispiele:
y reichsten von Deutschland
x reichsten der Welt
Internet:
http://de.wikipedia.org/wiki/Gini-Koeffizient [http://de.wikipedia.org/wiki/Gini-Koeffizient]
6. Vorlesung
Rückblick
Das Lösen von Aufgaben
Mittelwert
Mittelwert war Gegenstand einer formalen Aufgabe. Hier Beispiel für einfache Beweisaufgabe.
Diskussion Problemlösungsstrategien
Diskussion Vorgehensweisen
Aufgabenstellung, Lösungsentwicklung, Umsetzung und Reflexion
Hinweis auf Polya
Schritte zum Ziel
Schritt 1: Was ist gesucht?
Schritt 2: Was ist gegeben?
Schritt 3: Was kennen wir für Zusammenhänge?
Schritt 4: Wie könnte es gehen?
Schritt 5: Umsetzung
9 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Schritt 6: Schönschrift
Schritt 7: Reflexion
Literaturhinweis
Polya, George: Schule des Denkens. Bern: Francke, Auflage: 4., Aufl. (1. Januar 1995).
Polya, George: How to Solve It. Penguin Books Ltd, London, 2. Au., 1990.
Polya, George: Schule des Denkens, 1949, Bern → UniBIB: 10 QC 273 P 781 (2)
Schritte nach Polya:
1. VERSTEHEN DER AUFGABE
2. AUSDENKEN EINES PLANES
3. AUSFÜHREN DES PLANES
4. RÜCKSCHAU
Ein Blick in die genannten Quellen ist empfehlenswert!
Gini-Koeffizient
Internet-Seiten-Hinweis: Vermögensverteilung Gini-Koeffizient 141023
http://www.zeit.de/wirtschaft/2014-10/vermoegen-sparquote-ungleichheit
[http://www.zeit.de/wirtschaft/2014-10/vermoegen-sparquote-
ungleichheit]
Wichtig
Frage → … → Instrumente → … → Antwort
Ende von Kapitel 2: Eindimensionale Datenanalyse
Analyse zweidimensionaler Daten
Wichtig: Was ist neu? → neue Fragen!
Das 2-Stichprobenproblem unverbundener Stichproben
Struktur zwei Datenvektoren
und
neue Frage: können die beiden Stichproben aus einer gemeinsamen Grundgesamtheit stammen?
Antwort: mache zwei eindimensionale Analysen und interpretiere gemeinsam
zwei Boxplots
zwei Histogramme → Bevölkerungspyramide
zwei emp. Verteilungsfunktionen
zwei Sätze an Maßzahlen
… auswerten
R-Beispiel:
Mieten bei Mieträumen getrennt nach Zimmeranzahlen
Statistik II: spezielle Tests
Das 2-Stichprobenproblem verbundener Stichproben
Bindung durch Merkmalsträger
Beobachtung eines Merkmals zu zwei verschiedenen Zeitpunkten
Beobachtung eines Merkmals vor / nach einer Maßnahme (z.B. Blutdruck)
Beobachtung zweier Merkmale an jedem MMTR
Struktur: Vektor von Paaren:
neue Frage: gibt es einen Zusammenhang
Antwort:
10 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Scatterplot
Formen
positiv zusammenhängend: wenn MM 1 größer, dann (tendenziell) auch MM 2
negativ zusammenhängend: wenn MM 1 größer, dann (tendenziell) MM 2 kleiner
kein Zusammenhang: wenn MM 1 größer, dann keine Aussage über MM 2 möglich → MM 2 unabhängig
Maße:
Stichproben-Kovarianz
Stichproben-Korrelationskoeffizient
Bestimmtheitsmaß
Eigenschaften
Stichproben-Kovarianz
,
→ negativer Zusammenhang
→ positiver Zusammenhang
Bestimmtheitsmaß ist in [0,1]
Maß für die Stärke des linearen Zusammenhangs
R-Beispiel
Größen und Kosten von Mietwohnungen
Problem: nur bei kardinaler Metrik sinnvoll!
nominale Metrik
Auszählen erlaubt
führt zu 2-dimensionalen Kontingenztabellen
Bezeichnungen
Zellen
Zelleninhalte bei absoluten Häufigkeiten:
Zelleninhalte bei relativen Häufigkeiten:
Ränder durch Summation
Randverteilungen
Spalten- und Zeilenverteilungen
7. Vorlesung
Kontingenztabellen (KT)
Frage: Wie können wir Abhängigkeiten in KT beschreiben?
Bsp.: Fußballinteresse / Daten fiktiv:
stark mittel schwach Summe
m
w
Summe
25 30
5 60
5 10
25
40
30 40
30
100
Idee
Wie müssten die Zellen bei Unabhängigkeit aussehen?
Antwort: Erwartung bei Unabhängigkeit für die relativen Häufigkeiten:
⇒
sowie Einträge bei Unabhängigkeit:
stark mittel schwach Summe
m
18 24
18
60
w
12 16
12
40
11 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
Summe
30 40
30
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
100
Idee
Abweichung zwischen Beobachtung und Erwartung bei Unabhängigkeit betrachten
Idee
Summierung der quadrierten Differenzen
Umsetzung 1
zusätzliche Normierung führt zum Chi-Quadrat-Koeffizienten:
Verbesserung
Kontingenzkoeffizient
korrigierter Kontingenzkoeffizient
Demo mit unserem Fragebogendaten
<<Ermittlung von Kontingenztabellen>>= (65)
tb <- table( frabo14b$Freundschaft, frabo14b$BeziehungenAnz)
tb <- table( frabo14b$Auto
, frabo14b$BeziehungenAnz)
print(tb)
@
<<Ergänzung von Rändern>>=
tb2 <- addmargins(tb)
@
<<Berechnung relativer Häufigkeiten>>= (66)
cat("relative Haeufigkeiten")
print(addmargins(prop.table(tb)))
@
<<Erstellung von Zeilen-Profilen>>= (67)
Profile <- function(tb){
plot(NULL, ylim = c(0,max(tb)), xlim = c(0,length(tb[1,])), main="Zeilenprofile")
x <- seq(along=tb[1,])
lines(tb[1,], col="red", lwd=4)
lines(tb[2,], col="blue", lwd=4)
}
Profile(tb)
@
<<Ermittlung erwarteter Häufigkeiten bei Unabhängigkeit>>= (68)
ni. <- margin.table(tb,1); n.j <- margin.table(tb,2); n <- sum(tb)
n.ij.theo <- outer(ni.,n.j)/n
n.ij.theo
@
<<Darstellung der theoretischen Häufigkeiten bei Unabhängigkeit>>=
Profile(n.ij.theo)
@
<<Kontingenz- und andere Koeffizienten>>= (70)
Chisq <- sum( (tb -n.ij.theo)^2/n.ij.theo )
cat("Chi-Quadrat:", Chisq)
cat("K:
", sqrt( Chisq / (Chisq+n) ))
m <- min(dim(tb))
cat("K^*:
", sqrt( Chisq*m / ((Chisq+n)*(m-1) )))
Rückblick
Korrelationskoeffizient
Kurzexkurs: Darstellung zweidimensionaler Daten per bagplot
12 von 13
25.11.2014 17:51
lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki]
http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do...
Frage des Gewinns und Verlusts durch Verdichtung / Datenreduktion / Konzentration auf Statistiken
Beispiel „durchschnittliche Gesichter“
Ende der Kapitel zur Datenanalyse
Beginn Kapitel Modellierung
lehre/stat-ga-2014-15/stat1-summary-1415.txt · Zuletzt geändert: 2014/11/25 20:43 von pwolf
Falls nicht anders bezeichnet, ist der Inhalt dieses Wikis unter der folgenden Lizenz veröffentlicht:CC Attribution-Noncommercial-Share
Alike 3.0 Unported [http://creativecommons.org/licenses/by-nc-sa/3.0/]
13 von 13
25.11.2014 17:51
Herunterladen