lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Stat I -- WS 2014/15 1. Vorlesung Begrüßung Was heißt Universität? Was heißt studieren? Organisation Vorlesung Tutorien Teams in Tuts Mitarbeitspunktesystem: jedes Team 5 Chancen 10% des Stat I Anteils in der ersten BA-Klausur (neues Modell) Warum Statistik? Lehrplan allgemein: z.B. Medizin ⇒ Diagnosen, Medikamente Wirtschaft: z.B. Prognosen ⇒ Methoden, um bessere Entscheidungen fällen zu können. Problem: Induktionsschlüsse Was ist Statistik? Ein Blick auf die wikipedia-Seite anhand von Beispielen Ist Rauchen schädlich: Doll+Hill 1952 → Wann ist was bewiesen? LKW-Sperrung in der Stapenhorststraße PCB in der Uni Bielefeld, siehe auch: http://www.uni-bielefeld.de/Universitaet/Ueberblick/Organisation/Verwaltung/Arbeitssicherheit/PCB/Messergebnisse_V1.html [http://www.uni-bielefeld.de/Universitaet/Ueberblick/Organisation/Verwaltung/Arbeitssicherheit/PCB/Messergebnisse_V1.html] beim Messen, welche Grenzwerte Luftverschmutzung → Stapenhorststr → LKW-Verbot, siehe auch: http://www.lanuv.nrw.de/luft/immissionen/aktluftqual/eu_luft_akt.htm → Probleme [http://www.lanuv.nrw.de/luft/immissionen/aktluftqual /eu_luft_akt.htm] → Analyse dieser Zahlen Fahrradhelme Gliederung 1. Einleitung 2. 1-dim Datenanalyse 3. mehr-dim Datenanalyse 4. Modellierung empirischer Verteilungen 5. Wahrscheinlichkeiten 6. Stichprobenfunktionen 7. Punktschätzung 8. Intervallschätzung 9. Testen 10. Regression Wie machen wir's? Vorlesung + Tuts + Aufgabenblätter Studs → Tuts-Zuordnungen 1 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Studs in 2er- / 3er-Teams einteilen 5 Chancen pro Team: handschriftlich (abgeben) + Vorstellung 0,1,2 Punkte nach Vorgabe für nichts – ok/2 – ok später 10% der Anteils der Stat 1 in der ersten Klausur Aufgabenblätter über Lernraum und wiwi-Server Wie werden Untersuchungen durchgeführt? Selbstversuch Untersuchung für Modebranche, Untersuchung der ökonomische Verhältnisse bei Studs Fragebogenaktion PPDAC Problem, Plan, Daten, Analyse, Folgerungen Grundbegriffe Grundgesamtheit: Abgrenzungs-, Definitionsprobleme Stichprobe Merkmal Merkmalsträger Merkmalsausprägungen Messen → Messwert Datenmatrix: MMTR pro Zeile, MM pro Spalte R als Statistische Software kostenlos Start Daten holen: Fußballer-Größen einfachen Plot machen source('http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/fussball_gr_gw.R') plot(fussball_gr_gw[,5:6]) Zusammenfassung Begrüßung Was ist Statistik? → Beispiele Organisation PPDAC 2. Vorlesung Organisation MAP: Aufgabenblattabwicklung Aufgabenbereitstellung: dienstags oder mittwochs Abgabe: direkt nach Vorlesung Rückblick Was ist Statistik? Was ist eine statistische Untersuchung? Raucherstudie / Schutz durch Fahrradhelme PPDAC: Abgrenzungsprobleme, Merkmale, Ausprägungen, MM-Träger, Datenmatrix, Variablen 2 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Untersuchungen Typen Beobachtungsstudien → mehr explorativ kontrollierte Studien → zur Hypothesenüberprüfung Problem-Analyse-Phase wichtige Fragen Was willst Du wissen? Wie genau willst Du das wissen? Warum willst Du das wissen? Planungsphase Arten von Stichproben StPr aufs aufs Geratewohl einfache Zufallsstichproben Klumpenstichproben Schichtenstichproben Stichprobenumfang Bedeutung Repräsentativität: Aussagen für Population gesucht Merkmalsniveaus und Skalen Metriken Nominalskala Ordinalskala Kardinalskala Intervallskala Verhältniskala diskret ↔ stetig Bedeutung Welche Operationen machen Sinn / sind erlaubt? Mittelwertbildung bei Schulnoten Skalenniveau wird durch den Messvorgang realisiert und begrenzt Möglichkeiten der Analyse- und Interpretationsphase Data-Phase Messen nicht einfach Begleitumstände immer mit notieren Problem systematisch falscher Messungen Interviewer-Bias Analyse-Phase Datenbereinigung zulässige Operationen durch Metrik vorgegeben nominale Metrik: Auszählen → Häufigkeiten → Häufigkeitstabellen 3 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... ordinale Metrik: auch Sortieren → Rangwertreihe kardinale Metrik: Rechnen → Mittelwert Conclusion Interpretation der berechneten Ergebnisse R Darstellung erster Ergebnisse aus Umfrage Unbereinigter Datensatz: frabo14_orig, bereinigt: frabo14a source("http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/frabo14a.R") Merkmale / Variablen / Spalten des Matrix: [1,] [2,] [3,] [4,] [5,] [6,] [7,] [8,] [9,] [10,] [11,] [12,] [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,] [21,] "MM-1: Geschlecht" "MM-2: Alter" "MM-3: Haarfarbe" "MM-4: Schuhgroesse" "MM-5: Gewicht" "MM-6: Groesse" "MM-7: GroesseMutter" "MM-8: GroesseVater" "MM-9: Fingerlaenge" "MM-10: Haarlaenge" "MM-11: Jeansweite" "MM-12: Jeanslaenge" "MM-13: Taillenweite" "MM-14: Brustweite" "MM-15: Kragenweite" "MM-16: Brueder" "MM-17: Schwestern" "MM-18: Rauchen" "MM-19: ZeitSport" "MM-20: BekannteAnz" "MM-21: FreundeAnz" "MM-22: "MM-23: "MM-24: "MM-25: "MM-26: "MM-27: "MM-28: "MM-29: "MM-30: "MM-31: "MM-32: "MM-33: "MM-34: "MM-35: "MM-36: "MM-37: "MM-38: "MM-39: "MM-40: "MM-41: "MM-42: Freundschaft" BeziehungenAnz" UniWeg" HeimatOrtKm" SchulNote" NewsWoher" CDs" MP3" SMSZahl" WhatsApp" Buecher" Schuhpaare" Auto" PC" APPs" WohnungQM" EurHandy" EurPC" EurMonat" EurMiete" EurStrom" "MM-43: "MM-44: "MM-45: "MM-46: "MM-47: "MM-48: "MM-49: "MM-50: "MM-51: "MM-52: "MM-53: "MM-54: "MM-55: "MM-56: "MM-57: "MM-58: "MM-59: "MM-60: "MM-61: EurWasser" EurHandyKosten" EurVerpflegung" EurLuxus" EurMaterial" ElternWohnung" Studierzeit" Studiendauer" BANote" MAPlan" Erwerbszeit" PCSpielzeit" HandyZeit" Gehalt" OPhase" Fetenzeit" Dekansalter" Code" zeit" Größe der Datenmatrix 75 Zeilen, 61 Spalten Beispiele für Zugriffe > frabo14a[,"Geschlecht"] [1] 2 2 2 1 1 2 2 1 2 2 2 1 1 1 1 2 1 1 2 2 2 2 2 2 1 1 2 2 1 1 2 1 2 2 2 2 1 1 [39] 1 2 1 1 1 1 2 2 2 2 1 2 1 2 2 1 1 2 2 1 1 2 1 1 1 2 1 2 2 1 1 2 1 2 2 1 1 > frabo14_orig[,"Geschlecht"] [1] 2 2 2 [9] 2 2 2 [17] 1 1 2 [25] 1 1 2 [33] 2 2 2 [41] 1 1 1 [49] 1 2 1 [57] 2 1 1 [65] 1 2 2 [73] 2 1 1 Levels: 1 1 2 weiblich 1 1 2 2 2 1 2 2 1 1 1 2 1 1 2 2 1 weiblich 2 1 2 1 1 2 1 1 2 2 1 2 2 1 2 1 1 1 1 2 2 1 2 2 2 2 2 Häufigkeitstabellen > table(frabo14a[,"Haarfarbe"]) 1 2 3 5 26 38 5 4 Beispiele für Plots > plot(frabo14a[,"Alter"]) > barplot(table(frabo14a[,"Haarfarbe"])) Zusammenfassung Organisation Rückblick PPDAC Stichprobenziehungen 4 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Metriken erste Analyseschritte R 3. Vorlesung Rückblick Was sind Statistische Untersuchungen? Was steckt hinter PPDAC? Skalen: nominal, ordinal, kardinal Messen Datenbeschaffung Datenbeschaffung: > source("http://www.wiwi.uni-bielefeld.de/lehrbereiche/statoekoinf/comet/wolf/pw_files/data/frabo14b.R") Datenbereinigung Hinweis auf Datenprobleme durch Betrachtung von Darstellungen aufgrund der Originaldaten. Für die Spalten j aus {1,3,16,17,18,22,23,26,27,34,48,50,51,52,57,58,60} lassen sich dann Stabdiagramme erstellen durch den R-Befehl: > barplot(table(frabo14b_orig[,j])) Dabei ist j durch eine der aufgelisteten Zahlen zu ersetzen. Mit > plot(frabo14b_orig[,j]) lassen sich dagegen sogenannte Scatterplots erstellen. Dabei erkennt man zum Teil unplausible Werte und Datenprobleme: fehlende Einträge unsinnige Einträge reparierbare Werte falsche Bereiche völlig falsche Werte möglicherweise falsche Werte Bereinigungsoperationen Wenn auf sich auf dem Objekt x in R die Daten befinden, ... werden Zeichenketten in Zahlen umgewandelt durch: > x <- as.numeric(x) ... werden fehlende Werte von x entfernt durch: > x <- x[!is.na(x)] ... werden nur Werte kleiner 5000 von x extrahiert durch: > x <- x[ x < 5000 ] Mit solchen Operationen lassen sich Datensätze bereinigen. Die bereinigten Daten lassen sich darstellen durch: > barplot(table(frabo14b[,j])) bzw. durch > plot(frabo14b[,j]) Analyseschritte für Nominale Daten Vergleichen 5 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Zählen → Häufigkeiten absolute: relative: Darstellung durch Säulen-, Stab- und Balken-Diagramme. Analyseschritte für Ordinale Daten Sortieren Analyseschritte für Kardinale Daten Was will man wissen? Antwort 1: Wo liegen die Daten? → Konzept Lage Antwort 2: Wie unterschiedlich sind die Daten? → Konzept Variabilität Konzept Lage Mitte zwischen Extrema Umsetzung: (Minimum + Maximum)/2 arithmetisches Mittel bekannt Hinweise Summenzeichen Eigenschaften: Schwerpunkt Ausreißerempfindlichkeit weitere Mittel geometrisches Mittel harmonisches Mittel getrimmtes Mittel Median Wert in der Mitte der Rangwertreihe n gerade ⇒ Mittel der beiden mittleren Werte Eigenschaften plausibel nicht ausreißerempfindlich Konzept Variabiliät 1. Vorschlag: Spannweite berechnen 2. Vorschlag: viertele Datensatz und berechne Spannweite der beiden mittleren Viertel Umsetzung nach Tukey: definiere Tiefe als kürzeste Entfernung vom Rand in Rangwertreihe teile Datensatz in zwei Teile an Stelle mit Tiefe (n+1)/2 = tiefe(Median) suche Mitten der Teile → Stellen mit ([tiefe(Median)]+1)/2 = tiefe(Angel) Verwendung 5-Zahlen-Zusammenfassung: Minimum, untere Angel, Median, obere Angel, Maximum Boxplot: Darstellung von Lage und Variabilität Eigenschaften: Variabilität wird sichtbar Lage auch Bemerkungen 6 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... oft „Quartile“ statt Angeln Ausreißer beim Boxplot oft isoliert dargestellt kurze Zusammenfassung Datenprobleme Konzepte Lage und Variabilität 5-Zahlenzusammenfassung und Boxplot 4. Vorlesung Rückblick Fragestellungen der Statistik an Datensätze: Lage, Variabilität, Skalen Oft: Frage → Idee → Definition → Implementation (in Software) wichtig: Warum-Fragen für Verständnis in unklaren Situationen Beispiel: Quartile / Angeln zur Viertelung eines Datensatzes Was tun bei gleichen Werten? → ties Hinweis darauf, dass solche Schwierigkeiten an vielen Stellen der Statistik entstehen. Angeln: schreibe alle Werte sortiert hintereinander und zähle allgemeine Frage: Definition von Quantilen Das p-Quantil ist die Stelle , so dass links von (oder an der Stelle) p*100 Prozent der Beobachtungen liegen. semantischen Ungenauigkeiten ⇒ R-Funktion quantile() kennt viele verschiedene Typen der Quantilsberechnung. Zu jedem gehört eine Definition. viele Daten: Unterschied unbedeutend wenige Daten: genau hinschauen, welche Interpretation zugrunde liegt / gelegt werden soll Experimente: fivenum() und boxplot() setzt unsere Vorgehensweise mit Angeln um. Variabilität Wie vermessen? verschiedene Vorschläge Stichprobenstandardabweichung mittlere quadratische Abweichung Stichprobenvarianz mittlere absolute Abweichung Lp-Norm allgemeine Erkenntnis In In befinden sich sehr oft fast alle Werte (99%). befinden sich sehr oft sehr viele Werte (95%). Histogramm Aspekte bilde Klassen von x-Werten relative Häufigkeiten durch Rechteckflächen repräsentieren Konsequenz: Balkenhöhe = relative Häufigkeit / Balkenbreite Prinzip der Flächenproportionalität manuelle Erstellung: Arbeitstabelle 7 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Erstellung mit R für Datensatz x > hist(x, prob = TRUE) Vorteile: Wir sehen die Verteilung besser als bei Darstellung einzelner Werte. Wir sehen die Lage, Variabilität lässt sich grob abschätzen. Symmetrische Strukturen und seltsame Verteilung sind erkennbar. Wir sehen Häufigkeiten der vorliegenden Klassen. Nachteile: Häufigkeiten von beliebigen Intervalle nicht sichtbar → Integrationsproblem R-Beispiel Beute-Größen von Bankrauben empirische Verteilungsfunktion Festlegung Eigenschaften: Treppenfunktion monoton steigend rechtsseitig stetig für geht für geht an Stellen mit Beobachtungen: Sprünge Verwendungen: Anteilsermittlungen … links von Stelle oder an Stelle … rechts von … zwischen und Quantilermittlungen welche Stelle gehört zu vorgegebenen Anteil kleinster -Wert, so dass p*100 Prozent der Beobachtungen kleiner gleich dieser Stelle sind. größter -Wert, so dass p*100 Prozent der Beobachtungen größer dieser Stelle sind. Klassierte Daten wird als Polygonzug definiert. Die Knickstellen ergeben sich durch die Klassengrenzen. 5. Vorlesung Rückblick Bemerkung zu verschiedenen Instrumenten Kurz-Bemerkung zu klassierte Daten und Mittelwert / Varianz Beispiel: Stauzeitvergrößerung durch Bahnstreik Frage an Instrumente: Warum? Wie? Eigenschaften? Kurz-Bemerkung zur empirischen Verteilungsfunktion wichtige Fragen: Lage, Variabilität, Symmetrie Erdbebenforscher in Italien freigesprochen Schiefe und Wölbung weitergehende Fragen gegenüber Lage und Variabilität Schiefe Idee, Ansätze Schiefekoeffizienten, skewness 8 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Symmetrie ⇒ Koeffizient = 0 Wölbung Idee: Fortsetzung der Formelstruktur: Varianz → Schiefe → Wölbung Wölbung, kurtosis Bauchigkeit einer Verteilung schwer vorstellbar → per Versuch studieren Konzentrationsmessung Verteilungsgerechtigkeit Maß für Ungleichheit Idee: wie viel % des gesamten Kapitals besitzen die 20% ärmsten Vorgehen: sortieren, summieren, normieren → Lorenz-Kurve: je näher an der Winkelhalbierenden, umso eher gleichverteilt je weiter von dieser entfernt, umso höher die Konzentration Gini-Koeffizient (Fläche zwischen Diametralen und Lorenzkurve ) / 0.5 Koeffizient = 0 ⇔ Gleichverteilung Koeffizient = 1 ⇔ maximale Konzentration Beispiele: y reichsten von Deutschland x reichsten der Welt Internet: http://de.wikipedia.org/wiki/Gini-Koeffizient [http://de.wikipedia.org/wiki/Gini-Koeffizient] 6. Vorlesung Rückblick Das Lösen von Aufgaben Mittelwert Mittelwert war Gegenstand einer formalen Aufgabe. Hier Beispiel für einfache Beweisaufgabe. Diskussion Problemlösungsstrategien Diskussion Vorgehensweisen Aufgabenstellung, Lösungsentwicklung, Umsetzung und Reflexion Hinweis auf Polya Schritte zum Ziel Schritt 1: Was ist gesucht? Schritt 2: Was ist gegeben? Schritt 3: Was kennen wir für Zusammenhänge? Schritt 4: Wie könnte es gehen? Schritt 5: Umsetzung 9 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Schritt 6: Schönschrift Schritt 7: Reflexion Literaturhinweis Polya, George: Schule des Denkens. Bern: Francke, Auflage: 4., Aufl. (1. Januar 1995). Polya, George: How to Solve It. Penguin Books Ltd, London, 2. Au., 1990. Polya, George: Schule des Denkens, 1949, Bern → UniBIB: 10 QC 273 P 781 (2) Schritte nach Polya: 1. VERSTEHEN DER AUFGABE 2. AUSDENKEN EINES PLANES 3. AUSFÜHREN DES PLANES 4. RÜCKSCHAU Ein Blick in die genannten Quellen ist empfehlenswert! Gini-Koeffizient Internet-Seiten-Hinweis: Vermögensverteilung Gini-Koeffizient 141023 http://www.zeit.de/wirtschaft/2014-10/vermoegen-sparquote-ungleichheit [http://www.zeit.de/wirtschaft/2014-10/vermoegen-sparquote- ungleichheit] Wichtig Frage → … → Instrumente → … → Antwort Ende von Kapitel 2: Eindimensionale Datenanalyse Analyse zweidimensionaler Daten Wichtig: Was ist neu? → neue Fragen! Das 2-Stichprobenproblem unverbundener Stichproben Struktur zwei Datenvektoren und neue Frage: können die beiden Stichproben aus einer gemeinsamen Grundgesamtheit stammen? Antwort: mache zwei eindimensionale Analysen und interpretiere gemeinsam zwei Boxplots zwei Histogramme → Bevölkerungspyramide zwei emp. Verteilungsfunktionen zwei Sätze an Maßzahlen … auswerten R-Beispiel: Mieten bei Mieträumen getrennt nach Zimmeranzahlen Statistik II: spezielle Tests Das 2-Stichprobenproblem verbundener Stichproben Bindung durch Merkmalsträger Beobachtung eines Merkmals zu zwei verschiedenen Zeitpunkten Beobachtung eines Merkmals vor / nach einer Maßnahme (z.B. Blutdruck) Beobachtung zweier Merkmale an jedem MMTR Struktur: Vektor von Paaren: neue Frage: gibt es einen Zusammenhang Antwort: 10 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Scatterplot Formen positiv zusammenhängend: wenn MM 1 größer, dann (tendenziell) auch MM 2 negativ zusammenhängend: wenn MM 1 größer, dann (tendenziell) MM 2 kleiner kein Zusammenhang: wenn MM 1 größer, dann keine Aussage über MM 2 möglich → MM 2 unabhängig Maße: Stichproben-Kovarianz Stichproben-Korrelationskoeffizient Bestimmtheitsmaß Eigenschaften Stichproben-Kovarianz , → negativer Zusammenhang → positiver Zusammenhang Bestimmtheitsmaß ist in [0,1] Maß für die Stärke des linearen Zusammenhangs R-Beispiel Größen und Kosten von Mietwohnungen Problem: nur bei kardinaler Metrik sinnvoll! nominale Metrik Auszählen erlaubt führt zu 2-dimensionalen Kontingenztabellen Bezeichnungen Zellen Zelleninhalte bei absoluten Häufigkeiten: Zelleninhalte bei relativen Häufigkeiten: Ränder durch Summation Randverteilungen Spalten- und Zeilenverteilungen 7. Vorlesung Kontingenztabellen (KT) Frage: Wie können wir Abhängigkeiten in KT beschreiben? Bsp.: Fußballinteresse / Daten fiktiv: stark mittel schwach Summe m w Summe 25 30 5 60 5 10 25 40 30 40 30 100 Idee Wie müssten die Zellen bei Unabhängigkeit aussehen? Antwort: Erwartung bei Unabhängigkeit für die relativen Häufigkeiten: ⇒ sowie Einträge bei Unabhängigkeit: stark mittel schwach Summe m 18 24 18 60 w 12 16 12 40 11 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] Summe 30 40 30 http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... 100 Idee Abweichung zwischen Beobachtung und Erwartung bei Unabhängigkeit betrachten Idee Summierung der quadrierten Differenzen Umsetzung 1 zusätzliche Normierung führt zum Chi-Quadrat-Koeffizienten: Verbesserung Kontingenzkoeffizient korrigierter Kontingenzkoeffizient Demo mit unserem Fragebogendaten <<Ermittlung von Kontingenztabellen>>= (65) tb <- table( frabo14b$Freundschaft, frabo14b$BeziehungenAnz) tb <- table( frabo14b$Auto , frabo14b$BeziehungenAnz) print(tb) @ <<Ergänzung von Rändern>>= tb2 <- addmargins(tb) @ <<Berechnung relativer Häufigkeiten>>= (66) cat("relative Haeufigkeiten") print(addmargins(prop.table(tb))) @ <<Erstellung von Zeilen-Profilen>>= (67) Profile <- function(tb){ plot(NULL, ylim = c(0,max(tb)), xlim = c(0,length(tb[1,])), main="Zeilenprofile") x <- seq(along=tb[1,]) lines(tb[1,], col="red", lwd=4) lines(tb[2,], col="blue", lwd=4) } Profile(tb) @ <<Ermittlung erwarteter Häufigkeiten bei Unabhängigkeit>>= (68) ni. <- margin.table(tb,1); n.j <- margin.table(tb,2); n <- sum(tb) n.ij.theo <- outer(ni.,n.j)/n n.ij.theo @ <<Darstellung der theoretischen Häufigkeiten bei Unabhängigkeit>>= Profile(n.ij.theo) @ <<Kontingenz- und andere Koeffizienten>>= (70) Chisq <- sum( (tb -n.ij.theo)^2/n.ij.theo ) cat("Chi-Quadrat:", Chisq) cat("K: ", sqrt( Chisq / (Chisq+n) )) m <- min(dim(tb)) cat("K^*: ", sqrt( Chisq*m / ((Chisq+n)*(m-1) ))) Rückblick Korrelationskoeffizient Kurzexkurs: Darstellung zweidimensionaler Daten per bagplot 12 von 13 25.11.2014 17:51 lehre:stat-ga-2014-15:stat1-summary-1415 [PWiki] http://barney.wiwi.uni-bielefeld.de/dokuwikipw/do... Frage des Gewinns und Verlusts durch Verdichtung / Datenreduktion / Konzentration auf Statistiken Beispiel „durchschnittliche Gesichter“ Ende der Kapitel zur Datenanalyse Beginn Kapitel Modellierung lehre/stat-ga-2014-15/stat1-summary-1415.txt · Zuletzt geändert: 2014/11/25 20:43 von pwolf Falls nicht anders bezeichnet, ist der Inhalt dieses Wikis unter der folgenden Lizenz veröffentlicht:CC Attribution-Noncommercial-Share Alike 3.0 Unported [http://creativecommons.org/licenses/by-nc-sa/3.0/] 13 von 13 25.11.2014 17:51