Statistik für Betriebswirtschaft und International Management Sommersemester 2014 Prof. Dr. Stefan Etschberger Statistik Etschberger - SS2014 Outline 1 Statistik: Einführung 4 Induktive Statistik Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio 2 Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3 Wahrscheinlichkeitstheorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 2 Statistik Etschberger - SS2014 Material zur Vorlesung Kursmaterial: 2 Aufgabensätze: Einer zu allgemeneiner Statistik als pdf, einer zu R in moodle 1. Einführung Handout der Folien und Aufgaben 2. Deskriptive Statistik Alle Folien inklusive Anmerkungen (nach der jeweiligen Vorlesung) 3. W-Theorie 4. Induktive Statistik Beispieldaten 5. Datenanalyse Alle Auswertungen als R-Datei 6. Repräsentation 7. Klassifikation Literatur: Bamberg, Günter, Franz Baur und Michael Krapp (2011). Statistik. 16. Aufl. München: Oldenbourg Verlag. ISBN: 3486702580. Dalgaard, Peter (2002). Introductory Statistics with R. New York: Springer. Fahrmeir, Ludwig, Rita Künstler, Iris Pigeot und Gerhard Tutz (2009). Statistik: Der Weg zur Datenanalyse. 7. Aufl. Berlin, Heidelberg: Springer. ISBN: 3642019382. Dalgaard (2002)Fahrmeir u. a. (2009) Bamberg u. a. (2011) 3 Studiengang Vorkenntnisse, zusätzliches Interesse, Tempo International Management normal Vorlesung (ab 18.3.2014) Statistik für IM Prüfung Klausur für IM Mi ab 14.00 (90 Min., 6 Credits) Betriebswirtschaft höher (WiMa mind. 2,3) normal Statistik Plus Statistik für BW Di ab 14.00 Zusatzklausur (30 Min., 2 Credits als Wahlfach) Mi ab 14.00 Klausur für BW (90 Min., 6 Credits) Prüfung Klausur: Klausur am Ende des Semesters Bearbeitungszeit: 90 Minuten Eine Aufgabe zu Anwendung von R Hilfsmittel: Schreibzeug, Taschenrechner, der nicht 70! berechnen kann, ein Blatt (DIN-A4, vorne und hinten beschrieben) mit handgeschriebenen Notizen (keine Kopien oder Ausdrucke), Danach (optional): Für Teilnehmer der Statistik-Plus Vorlesung noch eine 30-minütige Teilklausur über zusätzliche Inhalte (2 Wahlfachcredits zusätzlich möglich; Hilfsmittel TR und ein Blatt) Datenbasis Fragebogen Umfrage Statistik Sommersemester 2014 Bitte beantworten Sie folgende Fragen vollständig und füllen Sie jeweils nur eine beliebige Spalte leserlich aus. Ihr Alter (in Jahren) Ihre Größe (in cm) Ihr Geschlecht (m/w) Wie alt ist (bzw. wäre) Ihr Vater heute? Wie alt ist (bzw. wäre) Ihre Mutter heute? Größe Ihres Vaters (cm) Größe Ihrer Mutter (cm) Wie viele Geschwister haben Sie? Wunschfarbe für Ihr nächstes Smartphone; mögliche Auswahl: (si)lber, (sc)hwarz, (w)eiß, (g)elb, (b)lau, (r)ot Ausgaben für Ihre mobile Kommunikation (egal wer bezahlt hat) in den vergangenen 12 Monaten inkl. Hardware (Smartphone, Zubehör), Software (Apps), Vertrag Wie viele Paar Schuhe besitzen Sie? Ausgaben für Ihre Schuhe (egal wer bezahlt hat) in den letzten 12 Monaten Ihre Note in der Matheklausur Mathe zufrieden? Waren Sie mir Ihrer Leistung in Antworten: (s)ehr zufrieden, (z)ufrieden, (g)eht so, (n)icht zufrieden Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation 1 Statistik: Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio Statistik Etschberger - SS2014 Zitate Leonard Henry Courteney (1832-1918): „ There are three kinds of lies: lies, damned lies and statistics.“ 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Winston Curchill (1874-1965) angeblich: „ Ich glaube nur den Statistiken, die ich selbst gefälscht habe.“ Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Andrew Lang (1844-1912): „ Wir benutzen die Statistik wie ein Betrunkener einen Laternenpfahl: Vor allem zur Stütze unseres Standpunktes und weniger zum Beleuchten eines Sachverhalts.“ Quellen: Wikimedia Commons 8 Statistik Etschberger - SS2014 Bedeutungen des Begriffs Statistik 1. Einführung Berühmte Leute zur Statistik Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio Zusammenstellung von Zahlen Statistische Methodenlehre 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Wahrscheinlichkeitstheorie 6. Repräsentation Deskriptive Statistik 7. Klassifikation Induktive Statistik 23 Statistik Etschberger - SS2014 Einfaches Beispiel Beispiel 12 Beschäftigte werden nach der Entfernung zum Arbeitsplatz (in km) befragt. Antworten: 4, 11, 1, 3, 5, 4, 20, 4, 6, 16, 10, 6 deskriptiv: 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik Durchschnittliche Entfernung: 7,5 Klassenbildung: 3. W-Theorie 4. Induktive Statistik Klasse Häufigkeit [0; 5) [5; 15) [15; 30) 5 5 2 5. Datenanalyse 6. Repräsentation 7. Klassifikation induktiv: Schätze die mittlere Entfernung aller Beschäftigten. Prüfe, ob die mittlere Entfernung geringer als 10 km ist. 24 Statistik Etschberger - SS2014 Merkmale Merkmalsträger: Untersuchte statistische Einheit Merkmal: Interessierende Eigenschaft des Merkmalträgers 1. Einführung Berühmte Leute zur Statistik (Merkmals-)Ausprägung: Konkret beobachteter Wert des Merkmals Wie lügt man mit Statistik? Grundgesamtheit: Menge aller relevanten Merkmalsträger R und RStudio Begriff Statistik Grundbegriffe der Datenerhebung 2. Deskriptive Statistik Typen von Merkmalen: a) qualitativ – quantitativ · qualitativ: z.B. Geschlecht · quantitativ: z.B. Schuhgröße · Qualitative Merkmale sind quantifizierbar (z.B.: weiblich 1, männlich 0) 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation b) diskret – stetig · diskret: Abzählbar viele unterschiedliche Ausprägungen · stetig: Alle Zwischenwerte realisierbar 25 Skalenniveaus Statistik Etschberger - SS2014 Nominalskala: Zahlen haben nur Bezeichnungsfunktion z.B. Artikelnummern 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Ordinalskala: Grundbegriffe der Datenerhebung R und RStudio zusätzlich Rangbildung möglich z.B. Schulnoten Differenzen sind aber nicht interpretierbar! à Addition usw. ist unzulässig. 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Kardinalskala: zusätzlich Differenzbildung sinnvoll z.B. Gewinn Noch feinere Unterscheidung in: Absolutskala, Verhältnisskala, Intervallskala 26 Statistik Etschberger - SS2014 Skalendegression und Skalenprogression Ziel der Skalierung: Gegebene Information angemessen abbilden, möglichst ohne Über- bzw. Unterschätzungen 1. Einführung Es gilt: Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundsätzlich können alle Merkmale nominal skaliert werden. Grundbegriffe der Datenerhebung Grundsätzlich kann jedes metrische Merkmal ordinal skaliert werden. R und RStudio 2. Deskriptive Statistik Das nennt man Skalendegression. Dabei: Informationsverlust 3. W-Theorie 4. Induktive Statistik Aber: 5. Datenanalyse Nominale Merkmale dürfen nicht ordinal- oder metrisch skaliert werden. 6. Repräsentation 7. Klassifikation Ordinale Merkmale dürfen nicht metrisch skaliert werden. Das nennt nennt man Skalenprogression. Dabei: Interpretation von mehr Informationen in die Merkmale, als inhaltlich vertretbar. (Gefahr der Fehlinterpretation) 27 Statistik Etschberger - SS2014 Was ist R und warum soll man es benutzen? R ist freie Software 1. Einführung R ist sehr mächtig und weit verbreitet in Wissenschaft und Industrie (sogar von mehr Leuten benutzt als z.B. SPSS) Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung Ursprung von R: 1993 an der Universität Auckland von Ross Ihaka and Robert Gentleman entwickelt R und RStudio 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Seitdem: Viele Leute haben R verbessert mit tausenden von Paketen für viele Anwendungen Nachteil (auf den ersten Blick): Kein point und click tool 5. Datenanalyse 6. Repräsentation 7. Klassifikation source: http://goo.gl/axhGhh Großer Vorteil (auf den zweiten Blick): Kein point und click tool graphics source: http://goo.gl/W70kms 28 Whas ist RStudio? RStudio ist ein Integrated Development Environment (IDE) um R leichter benutzen zu können. Statistik Etschberger - SS2014 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik Gibt’s für OSX, Linux und Windows 4. Induktive Statistik Ist auch frei 5. Datenanalyse Trotzdem: Sie müssen Kommandos schreiben 6. Repräsentation 3. W-Theorie 7. Klassifikation Aber: RStudio unterstützt Sie dabei Hausaufgabe: Installieren Sie RStudio von RStudio.com 29 Erste Schritte RStudio Kennenlernen Statistik Etschberger - SS2014 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Code Console Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik Workspace 3. W-Theorie History 4. Induktive Statistik 5. Datenanalyse Files Plots 6. Repräsentation 7. Klassifikation Packages Help AutoCompletion Data Import 30 Daten einlesen und Struktur anschauen # Arbeitsverzeichnis setzen (alternativ über Menü) setwd("C:/ste/work/vorlesungen/2014SS_HSA_Statistik/Folien") # Daten einlesen aus einer csv-Datei (Excel) MyData = read.csv2(file="../Daten/Umfrage_HSA_2014_03.csv", header=TRUE) Statistik Etschberger - SS2014 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung # inspect structure of data str(MyData) ## 'data.frame': 205 obs. of 14 variables: ## $ Alter : int 21 20 19 20 20 24 20 27 23 21 ... ## $ Groesse : int 173 164 172 168 169 185 170 165 184 178 ... ## $ Geschlecht : Factor w/ 2 levels "Frau","Mann": 1 1 1 1 1 2 1 1 2 2 ... ## $ AlterV : int 54 57 49 45 43 54 49 53 52 55 ... ## $ AlterM : int 51 57 58 49 42 52 53 53 48 55 ... ## $ GroesseV : int 187 172 193 185 182 179 182 175 182 180 ... ## $ GroesseM : int 170 166 162 164 164 163 172 165 175 168 ... ## $ Geschwister: int 1 0 3 3 5 2 2 1 2 1 ... ## $ Farbe : Factor w/ 6 levels "blau","gelb",..: 6 6 4 4 6 4 3 6 4 6 ... ## $ AusgKomm : num 156 450 240 35.8 450 250 100 300 450 1300 ... ## $ AnzSchuhe : int 17 22 15 15 22 8 20 10 3 7 ... ## $ AusgSchuhe : int 50 500 400 100 450 90 250 200 300 200 ... ## $ NoteMathe : num 5 1.7 2.3 2 2 4 NA 4 2.7 2.7 ... ## $ MatheZufr : Ord.factor w/ 4 levels "nicht"<"geht so"<..: 1 4 4 4 4 2 1 1 3 3 ... R und RStudio 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 31 Erste Zeilen der Datentabelle Statistik Etschberger - SS2014 # show first few lines of data matrix head(MyData, 6) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 Alter Groesse Geschlecht AlterV AlterM GroesseV 21 173 Frau 54 51 187 20 164 Frau 57 57 172 19 172 Frau 49 58 193 20 168 Frau 45 49 185 20 169 Frau 43 42 182 24 185 Mann 54 52 179 GroesseM Geschwister Farbe AusgKomm AnzSchuhe 170 1 weiss 156.0 17 166 0 weiss 450.0 22 162 3 schwarz 240.0 15 164 3 schwarz 35.8 15 164 5 weiss 450.0 22 163 2 schwarz 250.0 8 AusgSchuhe NoteMathe MatheZufr 50 5.0 nicht 500 1.7 sehr 400 2.3 sehr 100 2.0 sehr 450 2.0 sehr 90 4.0 geht so 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation # lege MyData als den "Standard"-Datensatz fest attach(MyData) # Wie Viele Objekte gibt's im Datensatz? nrow(MyData) ## [1] 205 # Wie Viele Merkmale? ncol(MyData) ## [1] 14 32 data inspection Statistik Etschberger - SS2014 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? # Auswahl spezieller Objekte und Merkmale über [Zeile, Spalte] MyData[1:3, 2:5] ## Groesse Geschlecht AlterV AlterM ## 1 173 Frau 54 51 ## 2 164 Frau 57 57 ## 3 172 Frau 49 58 # Auswahl von Objekten über logische Ausdrücke head(Geschlecht=="Frau" & Alter<20, 30) ## Error: Objekt ’Geschlecht’ nicht gefunden # Einsetzen in Klammern und Ausgabe von Alter des Studenten, seines # Vaters und seiner Mutter MyData[Geschlecht=="Frau" & Alter<20, c("Alter", "AlterM", "AlterV")] Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation ## Error: Objekt ’Geschlecht’ nicht gefunden 33 data inspection Statistik Etschberger - SS2014 1. Einführung Berühmte Leute zur Statistik Wie lügt man mit Statistik? Begriff Statistik Grundbegriffe der Datenerhebung R und RStudio # Zeige die Männer, die mehr als 1000 Euro für Schuhe # und Mobilfunk zusammen ausgegeben haben MyData[Geschlecht=="Mann" & AusgSchuhe + AusgKomm > 1000, c("Alter", "Groesse", "AusgSchuhe", "AusgKomm")] ## Error: Objekt ’Geschlecht’ nicht gefunden 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 34 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation 2 Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression Statistik Etschberger - SS2014 Häufigkeitsverteilungen Auswertungsmethoden für eindimensionales Datenmaterial Merkmal X wird an n Merkmalsträgern beobachtet à Urliste (x1 , . . . , xn ) Im Beispiel: x1 = 4, x2 = 11, . . . , x12 = 6 Urlisten sind oft unübersichtlich, z.B.: 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration ## [1] 4 5 4 1 5 4 3 4 5 6 6 5 5 4 7 4 6 5 6 4 5 4 7 5 5 ## [26] 6 7 3 7 6 6 7 4 5 4 7 7 5 5 5 5 6 6 4 5 2 5 4 7 5 Zwei Merkmale Korrelation Preisindizes Lineare Regression Dann zweckmäßig: Häufigkeitsverteilungen 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Ausprägung (sortiert) aj P 1 2 3 4 5 6 7 h(aj ) = hj j P H(aj ) = h(ai ) i=1 1 1 2 12 17 9 8 50 1 2 4 16 33 42 50 − f(aj ) = h(aj )/n j P F(aj ) = f(ai ) i=1 1 50 1 50 2 50 12 50 17 50 9 50 8 50 1 1 50 2 50 4 50 16 50 33 50 42 50 1 − 6. Repräsentation 7. Klassifikation absolute Häufigkeit kumulierte abs. H. relative Häufigkeit kumulierte rel. H. 36 Statistik Etschberger - SS2014 Graphische Darstellungen Ê Balkendiagramm Ë Kreissektorendiagramm table(x) ## x ## 1 ## 1 2 1 3 4 5 2 12 17 6 9 wj = 360◦ · f(aj ) Winkel: 7 8 w1 = 360◦ · z.B. w7 = 360◦ · barplot(table(x), col="azure2") 1 50 8 50 1. Einführung 2. Deskriptive Statistik = 7,2◦ Häufigkeiten Lage und Streuung = 57,6◦ Konzentration Zwei Merkmale 15 Korrelation pie(table(x)) Preisindizes Lineare Regression 4 10 3. W-Theorie 4. Induktive Statistik 3 2 1 5. Datenanalyse 6. Repräsentation 5 5 7. Klassifikation 0 7 1 2 3 4 5 6 6 7 (Fläche proportional zu Häufigkeit) (Höhe proportional zu Häufigkeit) 38 Statistik Etschberger - SS2014 Graphische Darstellungen Ì Histogramm Fläche proportional zu Häufigkeit: Im Beispiel mit c = 1 : 12 Klasse [0; 5) [5; 15) [15; 30] h(aj ) Breitej Höhej 5 5 5 10 2 15 1 12 1 24 1 90 Lage und Streuung Konzentration Zwei Merkmale Preisindizes Lineare Regression 3. W-Theorie 0.04 h(aj ) Breitej Häufigkeiten 4. Induktive Statistik 0.02 Höhej = c · 2. Deskriptive Statistik 6. Repräsentation 5. Datenanalyse 7. Klassifikation 0.00 ⇒ 1. Einführung Korrelation 0.06 Höhej · Breitej = c · h(aj ) histData <- c(0,1,2,3,4, 5,6,7,10,14, 15,30) truehist(histData, breaks=c(0, 4.999, 14.999, 30), col="azure2", ylab='') 0.08 für klassierte Daten 0 5 10 15 20 25 30 histData 40 Statistik Etschberger - SS2014 Lageparameter Modus xMod : häufigster Wert Beispiel: aj h(aj ) 1 4 2 3 4 1 ⇒ xMod = 1 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Sinnvoll bei allen Skalenniveaus. Zwei Merkmale Korrelation Preisindizes Median xMed : ‚mittlerer Wert‘, d.h. Lineare Regression 1. Urliste aufsteigend sortieren: x1 5 x2 5 · · · 5 xn 2. Dann xMed 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation = x n+1 , 2 ∈ [x n2 ; x n2 +1 ], falls n ungerade falls n gerade (meist xMed = 7. Klassifikation 1 2 (x n2 + x n2 +1 )) Im Beispiel oben: 1, 1, 1, 1, 2, 2, 2, 4 ⇒ xMed ∈ [1; 2], z.B. xMed = 1,5 Sinnvoll ab ordinalem Skalenniveau. 43 Statistik Etschberger - SS2014 Lageparameter (2) Arithmetisches Mittel x̄: Durchschnitt, d.h. 1X 1X x̄ = xi = aj · h(aj ) n n n i=1 k j=1 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Im Beispiel: Konzentration Zwei Merkmale x̄ = 1 8 · (1| + 1 {z + 1 + 1} + 2| +{z 2 + 2} + |{z} 4 ) = 1,75 1·4 2·3 4·1 Korrelation Preisindizes Lineare Regression 3. W-Theorie Sinnvoll nur bei kardinalem Skalenniveau. Bei klassierten Daten: P 1 Klassenmitte · Klassenhäufigkeit x̄∗ = n 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Im Beispiel: x̄∗ = 1 12 · (2,5 · 5 + 10 · 5 + 22,5 · 2) = 8,96 6= 7,5 = x̄ 44 Statistik Etschberger - SS2014 Streuungsparameter Voraussetzung: kardinale Werte x1 , . . . , xn Beispiel: a) xi b) xi 1950 0 2000 2050 0 6000 1. Einführung je x̄ = 2000 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Spannweite: SP = max xi − min xi Zwei Merkmale Im Beispiel: Preisindizes i i Korrelation Lineare Regression a) SP = 2050 − 1950 = 100 b) SP = 6000 − 0 = 6000 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Mittlere quadratische Abweichung: 7. Klassifikation 1X 1X 2 s = (xi − x̄)2 = xi − x̄2 n n i=1 | i=1{z } n n 2 Verschiebungssatz 46 Statistik Etschberger - SS2014 Streuungsparameter (2) Mittlere quadratische Abweichung im Beispiel: a) s2 = 13 · (502 + 02 + 502 ) = 2 b) s = 1 3 1 3 1 3 · (19502 + 20002 + 20502 ) − 20002 = 1666,67 2 2 2 · (2000 + 2000 + 4000 ) · (02 + 02 + 60002 ) − 20002 = 8000000 √ Standardabweichung: s = s2 Im Beispiel: √ a) s = 1666,67 = 40,82 √ b) s = 8000000 = 2828,43 s Variationskoeffizient: V = (maßstabsunabhängig) x̄ Im Beispiel: a) V = 40,82 = 0,02 (= b 2 %) 2000 = b) V = 2828,43 2000 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation = 1,41 (= b 141 %) 47 Statistik Etschberger - SS2014 Graphing location and variation parameters Boxplot boxplot(AnzSchuhe ~ Geschlecht, col="lightblue", data=MyData, main="") Whiskers: max/min. values or √ ±1.58 · IQR/ n 1. Einführung 80 Box: Interquartile range 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale 60 Graphical representation of location and variance Korrelation Preisindizes Outliers: outside of whiskers boundaries Lineare Regression 40 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 0 20 7. Klassifikation Frau Mann „Wieviel Paar Schuhe besitzen Sie?“ 49 Statistik Etschberger - SS2014 Dateninspektion: Umfrage: Überblick über alle Variablen 1. Einführung summary(MyData[1:10]) ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## Alter Min. :18.0 1st Qu.:20.0 Median :21.0 Mean :22.2 3rd Qu.:23.0 Max. :36.0 AlterM Min. :37.0 1st Qu.:48.0 Median :51.0 Mean :51.5 3rd Qu.:54.0 Max. :68.0 Geschwister Min. :0.00 1st Qu.:1.00 Median :1.00 Mean :1.47 3rd Qu.:2.00 Max. :9.00 Groesse Min. :156 1st Qu.:166 Median :170 Mean :173 3rd Qu.:179 Max. :197 GroesseV Min. :160 1st Qu.:175 Median :180 Mean :180 3rd Qu.:183 Max. :202 Farbe blau :11 gelb : 4 rot :13 schwarz:97 silber :17 weiss :63 2. Deskriptive Statistik summary(MyData[11:14]) Geschlecht AlterV Frau:134 Min. :38 Mann: 71 1st Qu.:50 Median :54 Mean :54 3rd Qu.:57 Max. :77 GroesseM Min. :150 1st Qu.:163 Median :166 Mean :167 3rd Qu.:170 Max. :192 AusgKomm Min. : 30 1st Qu.: 250 Median : 360 Mean : 429 3rd Qu.: 570 Max. :1868 ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## ## AnzSchuhe Min. : 2.0 1st Qu.:10.0 Median :20.0 Mean :21.6 3rd Qu.:30.0 Max. :80.0 MatheZufr nicht :68 geht so :47 zufrieden:43 sehr :26 NA's :21 AusgSchuhe Min. : 0 1st Qu.: 150 Median : 250 Mean : 297 3rd Qu.: 400 Max. :2000 NoteMathe Min. :1.00 1st Qu.:2.50 Median :3.30 Mean :3.27 3rd Qu.:4.00 Max. :5.00 NA's :34 Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 50 Statistik Etschberger - SS2014 Dateninspektion Boxplots for(attribute in c("Alter", "AlterV", "AlterM", "Groesse", "AusgSchuhe", "AnzSchuhe")) { data=MyData[, attribute] boxplot(data, # all rows, column of attribute col="lightblue", # fill color lwd=3, # line width cex=2, # character size oma=c(1,1,2,1) ) text(0.7,max(data), attribute, srt=90, adj=1) } 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes AnzSchuhe 80 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 60 60 1500 AusgSchuhe 2000 Groesse 190 AlterM 65 AlterV 70 Alter 35 Lineare Regression 180 20 500 170 160 0 0 40 40 20 45 50 25 50 40 7. Klassifikation 1000 55 60 30 6. Repräsentation 51 Statistik Etschberger - SS2014 Konzentrationsmaße Gegeben: kardinale Werte 0 5 x1 5 x2 5 · · · 5 xn Achtung! Die Werte müssen aufsteigend sortiert werden! 1. Einführung Lorenzkurve: 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Wieviel Prozent der Merkmalssumme entfällt auf die x Prozent kleinsten Merkmalsträger? Konzentration Zwei Merkmale Korrelation Preisindizes Beispiel: Die 90 % ärmsten besitzen 20 % des Gesamtvermögens. Lineare Regression 3. W-Theorie Streckenzug: (0,0), (u1 , v1 ), . . . , (un , vn ) = (1,1) mit 4. Induktive Statistik 5. Datenanalyse k P vk = Anteil der k kleinsten MM-Träger an der MM-Summe = i=1 n P 6. Repräsentation xi 7. Klassifikation xi i=1 uk = Anteil der k kleinsten an der Gesamtzahl der MM-Träger = k n 52 Statistik Etschberger - SS2014 Lorenzkurve: Beispiel Markt mit fünf Unternehmen; Umsätze: 6, 3, 11, 2, 3 (Mio. €) 5 P ⇒ n = 5, xk = 25 k=1 1. Einführung 2. Deskriptive Statistik vk Häufigkeiten Lage und Streuung 1 Konzentration Zwei Merkmale Korrelation k 1 2 3 4 5 xk 2 3 3 6 11 pk 2 25 2 25 1 5 3 25 5 25 2 5 3 25 8 25 3 5 6 25 14 25 4 5 11 25 Preisindizes Lineare Regression 3. W-Theorie vk uk 1 1 14 25 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 8 25 5 25 2 25 7. Klassifikation uk 1 5 2 5 3 5 4 5 1 53 Statistik Etschberger - SS2014 Lorenzkurve Knickstellen: Bei i-tem Merkmalsträger ⇐⇒ xi+1 > xi Empirische Verteilungsfunktion liefert Knickstellen: 1. Einführung 2. Deskriptive Statistik aj 2 3 6 Häufigkeiten 11 Lage und Streuung Konzentration h(aj ) f(aj ) F(aj ) 1 2 1 1 Zwei Merkmale 1 5 1 5 2 5 3 5 1 5 4 5 1 5 Preisindizes Korrelation Lineare Regression 1 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Vergleich von Lorenzkurven: 6. Repräsentation 7. Klassifikation Gleichverteilung extreme Konzentration stärker konzentriert als schwer vergleichbar 54 Statistik Etschberger - SS2014 Lorenzkurve: Beispiel Bevölkerungsanteil gegen BSP Bangladesch Brasilien Deutschland Ungarn USA 1,0 1. Einführung 2. Deskriptive Statistik Anteil am BSP 0,8 (Stand 2000) Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation 0,6 Preisindizes Lineare Regression 3. W-Theorie 0,4 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 0,2 7. Klassifikation 0,2 0,4 0,6 0,8 Anteil der Bevölkerung 1,0 55 Statistik Etschberger - SS2014 Gini-Koeffizient Numerisches Maß der Konzentration: Gini-Koeffizient G Fläche zwischen 45◦ -Linie und L G= = Fläche unter 45◦ -Linie 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Aus den Daten: Konzentration Zwei Merkmale Korrelation 2 G= n P i xi − (n + 1) i=1 n P i=1 n n P xi 2 = xi n P Preisindizes i pi − (n + 1) i=1 n i=1 Lineare Regression wobei xi pi = n P xi i=1 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Problem: Gmax = 7. Klassifikation n−1 n à Normierter Gini-Koeffizient: G∗ = n · G ∈ [0; 1] n−1 56 Statistik Etschberger - SS2014 Gini-Koeffizient: Beispiel Beispiel: P i 1 2 3 4 xi 1 2 2 15 pi 1 20 2 20 2 20 15 20 1. Einführung 2. Deskriptive Statistik 20 Häufigkeiten Lage und Streuung 1 Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie G= 2· 1· 1 20 +2· 2 20 2 + 3 · 20 +4· 4 15 20 − (4 + 1) 4. Induktive Statistik = 0,525 5. Datenanalyse 6. Repräsentation 7. Klassifikation Mit Gmax = 4−1 4 = 0,75 folgt G∗ = 4 · 0,525 = 0,7 4−1 57 Statistik Etschberger - SS2014 Konzentrationsmaße: Beispiel Verteilung der Bruttoeinkommen in Preisen von 2000 aus unselbständiger Arbeit der Arbeitnehmer/-innen insgesamt Anteil am Einkommen Armutsbericht der Bundesregierung 2008 1,0 1. Einführung 0,8 2. Deskriptive Statistik Häufigkeiten Lage und Streuung 0,6 Konzentration Zwei Merkmale 0,4 Korrelation Preisindizes 0,2 Lineare Regression 3. W-Theorie 0,2 0,4 0,6 0,8 1,0 Anteil der Bevölkerung 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Arithmetisches Mittel Median Gini-Koeffizient 2002 2003 2004 2005 24.873 21.857 0,433 24.563 21.531 0,441 23.987 20.438 0,448 23.648 20.089 0,453 58 Statistik Etschberger - SS2014 Weitere Konzentrationsmaße Konzentrationskoeffizient: n X CRg = Anteil, der auf die g größten entfällt = pi = 1 − vn−g i=n−g+1 1. Einführung Herfindahl-Index: 2. Deskriptive Statistik H= n X Häufigkeiten Lage und Streuung p2i (∈ 1 [n ; 1]) Konzentration Zwei Merkmale i=1 1 Es gilt: H = n (V 2 + 1) Exponentialindex: E= n Y bzw. Korrelation V= √ Preisindizes n·H−1 Lineare Regression 3. W-Theorie 4. Induktive Statistik 1 ∈ [n ; 1] p pi i 00 = 1 wobei 5. Datenanalyse 6. Repräsentation i=1 7. Klassifikation Im Beispiel mit x = (1, 2, 2, 15): CR2 = 17 20 = 0,85 1 2 15 2 H= + ··· + = 0,59 20 20 1 15 1 15 20 20 ··· = 0,44 E= 20 20 59 Statistik Etschberger - SS2014 Auswertungsmethoden für zweidimensionale Daten Zweidimensionale Urliste Urliste vom Umfang n zu zwei Merkmalen X und Y: 1. Einführung (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Kontingenztabelle: Zwei Merkmale Sinnvoll bei wenigen Ausprägungen bzw. bei klassierten Daten. Preisindizes Korrelation Lineare Regression 3. W-Theorie Ausprägungen von Y Ausprägungen von X b1 b2 ... bl a1 a2 .. . ak h11 h21 .. . hk1 h12 h22 .. . hk2 ... ... h1l h2l .. . hkl ... 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 60 Statistik Etschberger - SS2014 Kontingenztabelle Unterscheide: Gemeinsame Häufigkeiten: 1. Einführung 2. Deskriptive Statistik hij = h(ai , bj ) Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Randhäufigkeiten: Korrelation Preisindizes hi· = l X hij und h·j = j=1 k X Lineare Regression 3. W-Theorie hij 4. Induktive Statistik i=1 5. Datenanalyse 6. Repräsentation Bedingte (relative) Häufigkeiten: 7. Klassifikation f1 (ai | bj ) = hij h·j und f2 (bj | ai ) = hij hi· 61 Statistik Etschberger - SS2014 Häufigkeiten Beispiel: 400 unfallbeteiligte Autoinsassen: 1. Einführung 2. Deskriptive Statistik leicht verletzt (= b1 ) schwer verletzt (= b2 ) tot (= b3 ) 264 (= h11 ) 2 (= h21 ) 90 (= h12 ) 34 (= h22 ) 6 (= h13 ) 4 (= h23 ) 360 (= h1· ) 40 (= h2· ) 266 (= h·1 ) 124 (= h·2 ) 10 (= h·3 ) 400 (= n) angegurtet (= a1 ) nicht angegurtet (= a2 ) Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation f2 (b3 | a2 ) = f1 (a2 | b3 ) = 4 40 4 10 7. Klassifikation = 0,1 (10 % der nicht angegurteten starben.) = 0,4 (40 % der Todesopfer waren nicht angegurtet.) 62 Statistik Etschberger - SS2014 Streuungsdiagramm Streuungsdiagramm sinnvoll bei vielen verschiedenen Ausprägungen (z.B. stetige Merkmale) à Alle (xi , yi ) sowie (x̄, ȳ) in Koordinatensystem eintragen. 1. Einführung 2. Deskriptive Statistik y Beispiel: i xi yi 1 2 3 4 5 2 4 9 7 7 8 4 3 ⇒ x̄ = ȳ = 3 6 25 5 28 5 P 25 28 =5 = 5,6 9 8 7 6 5 4 3 2 1 Häufigkeiten Lage und Streuung x Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie y 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation x 1 2 3 4 5 6 7 8 9 63 Beispiel Streuungsdiagramm Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation (Datenquelle: Fahrmeir u. a. (2009)) 64 Statistik Etschberger - SS2014 Beispiel Streuungsdiagramm mieten <- read.table('../../_data/MietenMuenchen.csv', header=TRUE, sep='\t', check.names=TRUE, fill=TRUE, na.strings=c('','')) x <- cbind(Nettomieten=mieten$nm, Wohnflaeche=mieten$wfl) 1. Einführung library("geneplotter") ## from BioConductor smoothScatter(x, nrpoints=Inf, colramp=colorRampPalette(brewer.pal(9,"YlOrRd")), bandwidth=c(30,3)) 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 150 3. W-Theorie 4. Induktive Statistik 100 6. Repräsentation 7. Klassifikation 50 Wohnflaeche 5. Datenanalyse 500 1000 1500 Nettomieten 65 Statistik Etschberger - SS2014 Korrelationsrechnung Frage: Wie stark ist der Zusammenhang zwischen X und Y? Dazu: Korrelationskoeffizienten Verschiedene Varianten: Wahl abhängig vom Skalenniveau von X und Y: 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Skalierung von Y Korrelation Preisindizes Skalierung von X kardinal kardinal Bravais-PearsonKorrelationskoeffizient ordinal nominal ordinal nominal Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Rangkorrelationskoeffizient von Spearman 7. Klassifikation Kontingenzkoeffizient 66 Statistik Etschberger - SS2014 Korrelationskoeffizient von Bravais und Pearson Bravais-Pearson-Korrelationskoeffizient Voraussetzung: X, Y kardinalskaliert n P n P (xi − x̄)(yi − ȳ) xi yi − nx̄ȳ s r= s = s ∈ [−1; +1] n n n n P P P P (xi − x̄)2 (yi − ȳ)2 x2i − nx̄2 y2i − nȳ2 i=1 i=1 i=1 i=1 i=1 i=1 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung 7 Zwei Merkmale 6 Korrelation 5 Preisindizes 1 4 2 5 3 6 4 Konzentration 3 3. W-Theorie 2 4. Induktive Statistik 1 −2 1 −1 2 0 3 4 Lineare Regression −1 0 1 2 3 4 −1 0 1 2 3 4 5 0 1 2 3 4 5. Datenanalyse 5 6. Repräsentation −1 −2 −2 −2 −1 −1 0 0 0 1 1 1 2 2 2 3 3 3 4 4 4 7. Klassifikation −2 −1 0 1 2 3 4 0 1 2 3 4 5 −3 −2 −1 0 1 2 3 67 Statistik Etschberger - SS2014 Bravais-Pearson-Korrelationskoeffizient Im Beispiel: i 1 2 3 4 5 P x2i y2i xi yi 4 16 9 81 49 16 9 36 49 64 8 12 18 63 56 25 28 159 174 157 xi yi 2 4 3 9 7 4 3 6 7 8 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung ⇒ x̄ = 25/5 = 5 Konzentration Zwei Merkmale Korrelation ȳ = 28/5 = 5,6 Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation r= √ 157 − 5 · 5 · 5,6 √ = 0,703 159 − 5 · 52 174 − 5 · 5,62 7. Klassifikation (deutliche positive Korrelation) 68 Statistik Etschberger - SS2014 Rangkorrelationskoeffizient von Spearman Voraussetzungen: X, Y (mindestens) ordinalskaliert, Ränge eindeutig (keine Doppelbelegung von Rängen) Vorgehensweise: À Rangnummern Ri (X) bzw. Wert usw. Á Berechne 6 rSP = 1 − n P Ri0 (Y) mit (0) Ri = 1 bei größtem 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie (Ri − Ri0 )2 i=1 (n − 1) n (n + 1) 4. Induktive Statistik ∈ [−1; +1] 5. Datenanalyse 6. Repräsentation Hinweise: 7. Klassifikation rSP = +1 wird erreicht bei Ri = Ri0 rSP = −1 wird erreicht bei Ri = n + 1 − Ri0 ∀ i = 1, . . . , n ∀ i = 1, . . . , n 69 Statistik Etschberger - SS2014 Rangkorrelationskoeffizient von Spearman Im Beispiel: 1. Einführung xi Ri yi Ri0 2 4 3 9 7 5 3 4 1 2 4 3 6 7 8 4 5 3 2 1 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation rSP 6 · [(5 − 4)2 + (3 − 5)2 + (4 − 3)2 + (1 − 2)2 + (2 − 1)2 ] = 1− = 0,6 (5 − 1) · 5 · (5 + 1) 70 Statistik Etschberger - SS2014 Kontingenzkoeffizient Gegeben: Kontingenztabelle mit k Zeilen und l Spalten (vgl. hier) Vorgehensweise: À Ergänze Randhäufigkeiten 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung hi· = l X und hij h·j = k X Konzentration hij i=1 j=1 Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie Á Berechne theoretische Häufigkeiten 4. Induktive Statistik h̃ij = hi· · h·j n 5. Datenanalyse 6. Repräsentation 7. Klassifikation  Berechne k X l X (hij − h̃ij )2 χ = h̃ij i=1 j=1 2 χ2 hängt von n ab! (hij 7→ 2 · hij ⇒ χ2 7→ 2 · χ2 ) 71 Statistik Etschberger - SS2014 Kontingenzkoeffizient à Kontingenzkoeffizient: s K= χ2 n + χ2 1. Einführung ∈ [0; Kmax ] 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration wobei Zwei Merkmale Korrelation Preisindizes r Kmax = M−1 M Lineare Regression mit M = min{k, l} 4. Induktive Statistik Ä Normierter Kontingenzkoeffizient: K K∗ = Kmax 3. W-Theorie 5. Datenanalyse 6. Repräsentation 7. Klassifikation ∈ [0; 1] K∗ = +1 ⇐⇒ bei Kenntnis von xi kann yi erschlossen werden u.u. 72 Statistik Etschberger - SS2014 Kontingenzkoeffizient Beispiel X : Staatsangehörigkeit Y : Geschlecht (d,a) (m,w) 1. Einführung 2. Deskriptive Statistik Häufigkeiten hij d a h·j wobei h̃11 = m 30 10 40 60·40 100 w 30 30 60 hi· 60 40 100 = 24 usw. m 24 16 h̃ij ⇒ d a w 36 24 Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse χ2 = K = K∗ = (30−24)2 24 q + 6,25 100+6,25 0,2425 0,7071 (30−36)2 36 + (10−16)2 16 = 0,2425; + (30−24)2 24 6. Repräsentation = 6,25 M = min{2,2} = 2; 7. Klassifikation Kmax = q 2−1 2 = 0,7071 = 0,3430 73 Statistik Etschberger - SS2014 Graphische Repräsentation von Kontingenztabellen Beispiel Autounfälle Verletzung leicht schwer tödlich 264 2 90 34 6 4 1. Einführung 2. Deskriptive Statistik angegurtet nicht angegurtet 360 40 Häufigkeiten Lage und Streuung Konzentration 266 124 10 400 Zwei Merkmale Korrelation Preisindizes schwer Lineare Regression tödlich <−4 −4:−2 −2:0 0:2 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Standardized Residuals: Gurt Kein Sicherheit 2:4 >4 leicht Verletzungen Mosaikplot Autounfälle 74 Statistik Etschberger - SS2014 Preisindizes Preismesszahl: Misst Preisveränderung eines einzelnen Gutes: 1. Einführung Preis zum Zeitpunkt j Preis zum Zeitpunkt i 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration dabei: j: Berichtsperiode, i: Basisperiode Zwei Merkmale Preisindex: Misst Preisveränderung mehrerer Güter (Aggregation von Preismesszahlen durch Gewichtung) Preisindizes Korrelation Notation: Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse p0 (i) : pt (i) : q0 (i) : qt (i) : Preis des i-ten Gutes in Basisperiode 0 Preis des i-ten Gutes in Berichtsperiode t Menge des i-ten Gutes in Basisperiode 0 Menge des i-ten Gutes in Berichtsperiode t 6. Repräsentation 7. Klassifikation 78 Statistik Etschberger - SS2014 Preisindizes Gleichgewichteter Preisindex: G P0t = n n X pt (i) 1 X pt (i) = · g(i) n i=1 p0 (i) p0 (i) i=1 mit g(i) = 1 n 1. Einführung 2. Deskriptive Statistik Nachteil: Auto und Streichhölzer haben gleiches Gewicht Lösung: Preise mit Mengen gewichten! Häufigkeiten Lage und Streuung Konzentration Preisindex von Laspeyres: Zwei Merkmale Korrelation n P L P0t = i=1 n P Preisindizes pt (i)q0 (i) p0 (i)q0 (i) Lineare Regression n X pt (i) = · g0 (i) p0 (i) i=1 mit g0 (i) = i=1 p0 (i) q0 (i) n P p0 (j) q0 (j) j=1 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Preisindex von Paasche: n P P P0t = i=1 n P i=1 pt (i)qt (i) = p0 (i)qt (i) n X pt (i) · gt (i) p0 (i) i=1 mit gt (i) = p0 (i) qt (i) n P p0 (j) qt (j) j=1 79 Statistik Etschberger - SS2014 Preisindizes: Beispiel Warenkorb: Kartoffeln und Kaffee 1. Einführung 1950 2013 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Preis (€) Menge pro Woche Preis (€) Menge pro Woche 0,04 3,00 3,58 0,25 1,10 0,70 1,25 1,31 Konzentration Zwei Merkmale Korrelation Preisindizes 1 kg Kartoffeln 100 g Kaffeebohnen Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse L P1950, 2013 = 1,10 · 3,58 + 0,70 · 0,25 ≈ 4,6048 0,04 · 3,58 + 3,00 · 0,25 P P1950, 2013 = 1,10 · 1,25 + 0,70 · 1,31 ≈ 0,5759 0,04 · 1,25 + 3,00 · 1,31 6. Repräsentation 7. Klassifikation 80 Statistik Etschberger - SS2014 Weitere Preisindizes Idealindex von Fisher: q F L PP P0t = P0t 0t 1. Einführung 2. Deskriptive Statistik Häufigkeiten Marshall-Edgeworth-Index: Lage und Streuung Konzentration n P ME P0t = i=1 n P Zwei Merkmale Korrelation pt (i)[q0 (i) + qt (i)] Preisindizes Lineare Regression 3. W-Theorie p0 (i)[q0 (i) + qt (i)] 4. Induktive Statistik i=1 5. Datenanalyse 6. Repräsentation Preisindex von Lowe: n P LO P0t = i=1 n P 7. Klassifikation Durchschn. Menge von pt (i)q(i) wobei p0 (i)q(i) q(i)= ˆ Gut i über alle (bekannten) Perioden i=1 81 Statistik Etschberger - SS2014 Weitere Preisindizes: Beispiel Warenkorb: Kartoffeln und Kaffee 1950 2013 1. Einführung 2. Deskriptive Statistik 1 kg Kartoffeln 100 g Kaffeebohnen Preis (€) Menge pro Woche Preis (€) Menge pro Woche 0,04 3,00 3,58 0,25 1,10 0,70 1,25 1,31 Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie F P1950,2013 ≈ √ 4,6048 · 0,5759 = 1,6284 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation ME P1950,2013 1,10 · (3,58 + 1,25) + 0,70 · (0,25 + 1,31) = 0,04 · (3,58 + 1,25) + 3,00 · (0,25 + 1,31) Lo P1950,2013 = = 1,3143 1,10 · 2,5 + 0,70 · 0,75 0,04 · 2,5 + 3,00 · 0,75 7. Klassifikation = 1,3936 Annahme bei P LO : Durchschn. Mengen bei Kartoffeln bzw. Kaffebohnen von 1950 bis 2013 sind 2,5 bzw. 0,75. 82 Statistik Etschberger - SS2014 Ausgangsdaten Bundesliga 2008/2009 Gegeben: Daten zu den 18 Vereinen der ersten Bundesliga in der Saison 2008/09 Merkmale: Vereinssetat für Saison (nur direkte Gehälter und Spielergehälter) und Ergebnispunkte in Tabelle am Ende der Saison FC Bayern VfL Wolfsburg SV Werder Bremen FC Schalke 04 VfB Stuttgart Hamburger SV Bayer 04 Leverkusen Bor. Dortmund Hertha BSC Berlin 1. FC Köln Bor. Mönchengladbach TSG Hoffenheim Eintracht Frankfurt Hannover 96 Energie Cottbus VfL Bochum Karlsruher SC Arminia Bielefeld Etat Punkte 80 60 48 48 38 35 35 32 31 28 27 26 25 24 23 17 17 15 67 69 45 50 64 61 49 59 63 39 31 55 33 40 30 32 29 28 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation (Quelle: Welt) 83 Statistik Etschberger - SS2014 Darstellung der Daten in Streuplot 70 Bundesliga 2008/09 VfL Wolfsburg FC Bayern 1. Einführung VfB Stuttgart Hertha BSC Berlin 2. Deskriptive Statistik 60 Hamburger SV Häufigkeiten Bor. Dortmund Lage und Streuung Konzentration TSG Hoffenheim Zwei Merkmale Korrelation 50 Punkte Preisindizes FC Schalke 04 Bayer 04 Leverkusen Lineare Regression 3. W-Theorie SV Werder Bremen 4. Induktive Statistik 40 5. Datenanalyse Hannover 96 1. FC Köln 6. Repräsentation 30 7. Klassifikation Eintracht Frankfurt VfL Bochum Bor. Mönchengladbach Energie Cottbus Karlsruher SC Arminia Bielefeld 20 40 60 80 Etat [Mio. Euro] 84 Statistik Etschberger - SS2014 Trend als lineares Modell Kann man die Tabellenpunkte näherungsweise über einfache Funktion in Abhängigkeit des Vereinsetats darstellen? Allgemein: Darstellung einer Variablen Y als Funktion von X: 1. Einführung 2. Deskriptive Statistik y = f(x) Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Dabei: Korrelation X heißt Regressor bzw. unabhängige Variable Y heißt Regressand bzw. abhängige Variable Wichtiger (und einfachster) Spezialfall: f beschreibt einen linearen Trend: y = a + bx Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Dabei anhand der Daten zu schätzen: a (Achsenabschnitt) und b (Steigung) Schätzung von a und b: Lineare Regression 85 Statistik Etschberger - SS2014 Fehlerquadratsumme Pro Datenpunkt gilt mit Regressionsmodell: yi = a + bxi + i 1. Einführung Dabei: i ist jeweils Fehler (der Grundgesamtheit), mit ei = yi − (â + b̂xi ): Abweichung (Residuen) zwischen gegebenen Daten der Stichprobe und durch Modell geschätzten Werten Modell gut wenn alle Residuen ei zusammen möglichst klein Einfache Summe aber nicht möglich, denn ei positiv oder negativ Deswegen: Summe der Quadrate von ei 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Prinzip der kleinsten Quadrate: Wähle a und b so, dass Q(a, b) = n X [yi − (a + bxi )]2 → min i=1 86 Statistik Etschberger - SS2014 Beste Lösung Beste und eindeutige Lösung: n X b̂ = (xi − x̄)(yi − ȳ) 2. Deskriptive Statistik i=1 n X (xi − x̄)2 i=1 n X = 1. Einführung Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes xi yi − nx̄ȳ i=1 n X Lineare Regression 3. W-Theorie 4. Induktive Statistik x2i − nx̄2 i=1 5. Datenanalyse 6. Repräsentation 7. Klassifikation â = ȳ − b̂ x̄ Regressionsgerade: ŷ = â + b̂ x 87 Statistik Etschberger - SS2014 Bundesligabeispiel Modell: ŷ = 25,443 + 0,634 · x 80 Berechnung eines linearen Modells der Bundesligadaten 70 dabei: Punkte = ˆy und Etat = ˆ x: 1. Einführung 60 2. Deskriptive Statistik Häufigkeiten P x2i 25209 xi yi 31474 Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 18 5. Datenanalyse 20 n 50 46,89 40 y P Konzentration 30 33,83 Punkte Lage und Streuung x 6. Repräsentation 31474 − 18 · 33,83 · 46,89 25209 − 18 · 33,832 ≈ 0,634 0 ⇒ b̂ = 20 40 60 80 7. Klassifikation Einkommen Prognosewert für Etat = 30: ⇒ â = 46,89 − b̂ · 33,83 ŷ(30) = 25,443 + 0,634 · 30 ≈ 25,443 ≈ 44,463 88 Statistik Etschberger - SS2014 Varianz und Information Varianz der Daten in abhängiger Variablen yi als Repräsentant des Informationsgehalts Ein Bruchteil davon kann in Modellwerten ŷi abgebildet werden 80 80 1. Einführung 2. Deskriptive Statistik 70 70 60 60 Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation 50 Preisindizes 50 Lineare Regression 3. W-Theorie 40 40 4. Induktive Statistik 30 5. Datenanalyse 30 6. Repräsentation 7. Klassifikation 80 60 40 20 0 model 20 points 20 Empirische Varianz (mittlere quadratische Abweichung) für „rot“ bzw. „grün“ ergibt jeweils 1 18 18 X i=1 (yi − y)2 ≈ 200,77 bzw. 1 18 18 X (ŷi − y)2 ≈ 102,78 i=1 89 Statistik Etschberger - SS2014 Determinationskoeffizient Gütemaß für die Regression: Determinationskoeffizient (Bestimmtheitskoeffizient): n P R2 = n P (ŷi − ȳ)2 i=1 n P = (yi − ȳ)2 i=1 i=1 n P 1. Einführung ŷ2i − nȳ2 = r2 ∈ [0; 1] y2i − nȳ2 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration i=1 Zwei Merkmale Korrelation Preisindizes Mögliche Interpretation von R2 : Durch die Regression erklärter Anteil der Varianz Lineare Regression 3. W-Theorie R2 = 0 wird erreicht wenn X, Y unkorreliert R2 = 1 wird erreicht wenn ŷi = yi ∀ i (alle Punkte auf Regressionsgerade) 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Im (Bundesliga-)Beispiel: 18 P R2 = i=1 18 P (ŷi − y)2 ≈ (yi − y)2 102,78 ≈ 51,19 % 200,77 i=1 90 Statistik Etschberger - SS2014 Regression: 4 eindimensionale Beispiele Berühmte Daten aus den 1970er Jahren: 1. Einführung i 1 2 3 4 5 6 7 8 9 10 11 x1i x2i x3i x4i y1i y2i y3i y4i 10 8 13 9 11 14 6 4 12 7 5 10 8 13 9 11 14 6 4 12 7 5 10 8 13 9 11 14 6 4 12 7 5 8 8 8 8 8 8 8 19 8 8 8 8,04 6,95 7,58 8,81 8,33 9,96 7,24 4,26 10,84 4,82 5,68 9,14 8,14 8,74 8,77 9,26 8,10 6,13 3,10 9,13 7,26 4,74 7,46 6,77 12,74 7,11 7,81 8,84 6,08 5,39 8,15 6,42 5,73 6,58 5,76 7,71 8,84 8,47 7,04 5,25 12,50 5,56 7,91 6,89 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation (Quelle: Anscombe (1973)) 91 Statistik Etschberger - SS2014 Beispieldaten 1. Einführung 2. Deskriptive Statistik meineRegression = lm(AlterM ~ AlterV) meineRegression plot(AlterV, AlterM, xlab="Alter des Vaters", ylab="Alter der Mutter") abline(meineRegression) ## Error: Objekt ’AlterM’ nicht gefunden ## Error: Objekt ’meineRegression’ nicht gefunden Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik ## Error: Objekt ’AlterV’ nicht gefunden ## Error: Objekt ’meineRegression’ nicht gefunden ## Error: plot.new wurde noch nicht aufgerufen 5. Datenanalyse 6. Repräsentation 7. Klassifikation 94 PLU S Statistik Etschberger - SS2014 Cook’s Distanz Oft Kritisch: Einzelne Punkte, die Modell stark beeinflussen Idee: Was würde sich ändern, wenn solche Punkte weggelassen würden? Cook-Distanz: Misst den Effekt eines gelöschten Objekts Formel für ein lineares Modell mit einem unabh. Merkmal: 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Konzentration Zwei Merkmale Korrelation n P Di = Preisindizes 2 (ŷj − ŷj(ohne i) ) j=1 MSE Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Dabei bedeutet: 6. Repräsentation 7. Klassifikation ŷj : Prognosewert des kompletten Modells für das j-te Objekt ŷj(ohne i) : Prognosewert des Modells ohne Objekt i für das j-te Objekt P MSE = n1 · (ŷi − yi )2 : Normierender Term (Schätzwert für Fehlerstreuung) 95 PLU S Statistik Etschberger - SS2014 Ausreißer? Anscombe-Daten: Regressionsmodell Nr. 3 Darstellung der Cook-Distanz neben Punkten Faustformel: Werte über 1 sollten genau untersucht werden 1. Einführung 2. Deskriptive Statistik 1.39 Häufigkeiten 12 Lage und Streuung Konzentration Zwei Merkmale Korrelation Preisindizes 10 Lineare Regression 3. W-Theorie y3 4. Induktive Statistik 5. Datenanalyse 0.3 6. Repräsentation 8 0.06 0.03 7. Klassifikation 0.01 0.01 0 0 6 0 0.01 0.03 4 6 8 10 12 14 x3 96 Statistik Etschberger - SS2014 Residualanalyse Oft aufschlussreich: Verteilung der Residuen ei Verbreitet: Graphische Darstellungen der Residuen Z.B.: ei über ŷi 1. Einführung 3 12 3 2. Deskriptive Statistik Häufigkeiten Konzentration 1 Zwei Merkmale Korrelation Preisindizes 0 8 y3 Residuals 10 2 Lage und Streuung −1 6 Lineare Regression 9 4 6 8 10 12 14 6 5 6 x3 7 8 9 10 Fitted values 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Residuals vs Fitted 2 6. Repräsentation 9 0 −1 6 y1 8 Residuals 1 10 7. Klassifikation 4 −2 10 4 6 8 10 x1 12 14 3 5 6 7 8 Fitted values 9 10 97 Residualanalyse Wichtige Eigenschaften der Residuenverteilung Möglichst keine systematischen Muster Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Keine Änderung der Varianz in Abhängigkeit von ŷi (Homoskedastizität) Nötig für inferentielle Analysen: Näherungsweise Normalverteilung der Residuen (q-q-plots) Konzentration Zwei Merkmale Korrelation Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik ## ## ## ## Error: Error: Error: Error: Objekt ’AlterV’ nicht gefunden Objekt ’meineRegression’ nicht gefunden plot.new wurde noch nicht aufgerufen Objekt ’meineRegression’ nicht gefunden 5. Datenanalyse 6. Repräsentation 7. Klassifikation 98 Kausalität versus Korrelation Statistik Etschberger - SS2014 1. Einführung Exkurs: Kausalität vs. Korrelation 2. Deskriptive Statistik Häufigkeiten Lage und Streuung Meist wichtig für sinnvolle Regressionsanalysen: Konzentration Zwei Merkmale Korrelation Kausale Verbindung zwischen unabhängigem und abhängigem Merkmal Sonst bei Änderung der unabhängigen Variablen keine sinnvollen Prognosen möglich Oft: Latente Variablen im Hintergrund Preisindizes Lineare Regression 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 99 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation 3 Wahrscheinlichkeitstheorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter Statistik Etschberger - SS2014 Kombinatorik: Anzahl von Kombinationen bei Auswahl 2-mal Würfeln, das heißt Auswahl von k = 2 aus n = 6 Zahlen. (1,1) (2,1) (3,1) (4,1) (5,1) (6,1) (1,2) (2,2) (3,2) (4,2) (5,2) (6,2) (1,3) (2,3) (3,3) (4,3) (5,3) (6,3) (1,4) (2,4) (3,4) (4,4) (5,4) (6,4) (1,5) (2,5) (3,5) (4,5) (5,5) (6,5) (1,6) (2,6) (3,6) (4,6) (5,6) (6,6) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit ohne WH, ohne RF: Hälfte des letzten Ergebnisses: 6 30 6! 2 = 15 = 4!2! = 2 mit WH, mit RF: alle Möglichkeiten, 62 = 36 ohne WH, mit RF: Diagonale entfällt, 6! 36 − 6 = 30 = 6 · 5 = (6 − 2)! mit WH, ohne RF: Letztes Ergebnis plus Diagonale, 15 + 6 = 21 = Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 7 2 6. Repräsentation 7. Klassifikation Auswahl von k aus n Dingen mit Wiederholung nk mit Reihenfolge ohne Reihenfolge n+k−1 k ohne Wiederholung n! (n − k)! n k 101 Zufallsvorgänge, Ereignisse und Wahrscheinlichkeiten Zufallsvorgang: Geschehen mit ungewissem Ausgang, z.B. Münzwurf Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik Elementarereignis ω: Ein möglicher Ausgang, z.B. „ Kopf “ Elementarereignisse schließen sich gegenseitig aus („ Kopf “ oder „ Zahl “)! Ergebnismenge Ω: Menge aller ω 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik Beispiel: Werfen zweier Würfel: (1,1) (1,2) (2,1) (2,2) Ω: .. .. . . (6,1) (6,2) 5. Datenanalyse ··· ··· .. . ··· (1,6) (2,6) .. . (6,6) 6. Repräsentation 7. Klassifikation ⇒ Ω = {(x1 , x2 ) : x1 , x2 ∈ {1, . . . ,6}} 102 Statistik Etschberger - SS2014 Ereignisse und Wahrscheinlichkeiten Ereignis A: Folgeerscheinung eines Elementarereignisses Formal: 1. Einführung A⊂Ω 2. Deskriptive Statistik Ereignisse schließen sich nicht gegenseitig aus! Beispiel: Werfen zweier Würfel: 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter Ereignis A B verbal Augensumme = 4 Erste Zahl = 2 formal {(1,3), (2,2), (3,1)} {(2,1), (2,2), . . . , (2,6)} 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Wahrscheinlichkeit P(A): Chance für das Eintreten von A Laplace-Wahrscheinlichkeit: P(A) = |A| Anzahl der für A günstigen Fälle = |Ω| Anzahl aller möglichen Fälle 103 Statistik Etschberger - SS2014 Laplace Wahrscheinlichkeit und Urnenmodell Beispiel: Werfen zweier Würfel: Augensumme = 4 : A = {(1,3), (2,2), (3,1)} |Ω| = 36, |A| = 3 ⇒ P(A) = 1. Einführung 2. Deskriptive Statistik 3 36 = 1 12 = 0,083 3. W-Theorie Kombinatorik Urnenmodell: Ziehe n Objekte aus einer Menge mit N Objekten Anzahl Möglichkeiten: Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse mit Zurücklegen: Nn ohne Zurücklegen: N · (N − 1) · · · (N − (n − 1)) = 6. Repräsentation N! (N−n)! 7. Klassifikation Beispiel: Wie groß ist die Wahrscheinlichkeit, aus einem gut gemischten 32-er Kartenblatt bei viermaligem Ziehen vier Asse zu bekommen? a) Ziehen mit Zurücklegen, b) Ziehen ohne Zurücklegen 104 Statistik Etschberger - SS2014 Rechenregeln für Wahrscheinlichkeiten Wichtige Rechenregeln: 1. Einführung 2. Deskriptive Statistik 1. P(A) 5 1 A B 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit 2. P(∅) = 0 Zufallsvariablen und Verteilungen 3. A ⊂ B ⇒ P(A) 5 P(B) Verteilungsparameter 4. Induktive Statistik B 4. P(Ā) = 1 − P(A) 5. P(A ∪ B) = P(A) + P(B) − P(A ∩ B) 5. Datenanalyse 6. Repräsentation 7. Klassifikation A C Beispiel: P(„Augenzahl 5 5“) = 1 − P(„Augenzahl = 6“) = 1 − 1 6 = 5 6 105 Statistik Etschberger - SS2014 Beispiel Gegenereignis Der Fall Sally Clark Sally Clarks Söhne Christopher und Harry sterben 1996 und 1997 beide kurz nach der Geburt an plötzlichem Kindstod. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kinderarzt: „Wahrscheinlich Mord, da 2 maliger plötzlicher Kindstod sehr unwahrscheinlich!“ (ohne konkrete Hinweise) Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik Gerichtliche Untersuchung 5. Datenanalyse Hauptargument der Anklage gestützt durch Gerichtsgutachter Sir Roy Meadow (renommierter Facharzt für Kinderheilkunde): Wahrscheinlichkeit für plötzlichen Kindstod ist 1:8500, d.h. Wahrscheinlichkeit für 2 maliges Auftreten in einer Familie 2 1 p= ≈ 1 : 72 000 000 8500 6. Repräsentation 7. Klassifikation Urteil: Doppelmord; Strafe: 2 mal lebenslang; Inhaftierung von Sally Clark 1999 106 Statistik Etschberger - SS2014 Bedingte Wahrscheinlichkeiten Wahrscheinlichkeit von A hängt von anderem Ereignis B ab. (B kann zeitlich vor A liegen, muss aber nicht!) Beispiel: Wahrscheinlichkeit für Statistiknote hängt von Mathenote ab. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Formal: Zufallsvariablen und Verteilungen P(A | B) = P(A ∩ B) P(B) Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse Im Venndiagramm: 6. Repräsentation 7. Klassifikation B A Ω 108 Statistik Etschberger - SS2014 Unabhängigkeit von Ereignissen A, B unabhängig: Eintreten von A liefert keine Information über P(B). Formal: 1. Einführung P(A | B) = P(A) 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Bei Unabhängigkeit ist äquivalent dazu: Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen P(A ∩ B) = P(A) · P(B) Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse Dann gilt: 6. Repräsentation 7. Klassifikation P(A ∪ B) = P(A) + P(B) − P(A) · P(B) Beispiel: Werfen zweier Würfel: P(A ∩ B) A : "‘erster Würfel gleich 6"’ ⇒ P(A | B) = B : "‘zweiter Würfel gleich 6"’ P(B) = 1 36 1 6 = 1 6 = P(A) 109 Statistik Etschberger - SS2014 Zufallsvariablen Zufallsvariablen und Verteilungen Beschreibung von Ereignissen durch reelle Zahlen Formal: Zufallsvariable ist Abbildung von Ereignisraum in reelle Zahlen: X: Ω→R Nach Durchführung des Zufallsvorgangs: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse Realisation: x = X(ω) 6. Repräsentation 7. Klassifikation Vor Durchführung des Zufallsvorgangs: Wertebereich: X(Ω) = {x : x = X(ω), ω ∈ Ω} Beispiel: Würfeln, X: Augenzahl, X(Ω) = {1,2, . . . ,6}, x = 4 (z.B.) P(X = 4) = 16 , P(X 5 3) = 36 = 12 110 Statistik Etschberger - SS2014 Verteilungsfunktion Zuweisung von Wahrscheinlichkeiten zu Realisationen Formal: F(x) = P(X 5 x) 1. Einführung Eigenschaften der Verteilungsfunktion: 2. Deskriptive Statistik 3. W-Theorie F(x) ∈ [0; 1] Definitionsbereich: R mit F(−∞) = 0, F(∞) = 1 monoton wachsend, d.h. x1 < x2 ⇒ F(x1 ) 5 F(x2 ) Es gilt: Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter P(a < X 5 b) = F(b) − F(a) 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation F(x) 1 7. Klassifikation 0,5 0 −4 −2 0 2 x 4 6 8 Beispiel einer Verteilungsfunktion 111 Statistik Etschberger - SS2014 Diskrete Zufallsvariablen X heißt diskret, wenn X(Ω) = {x1 , x2 , . . . } endlich ist. Wahrscheinlichkeitsfunktion dann: 1. Einführung f(x) = P(X = x) 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Beispiel: Münze 2 mal werfen; X: Anzahl "‘Kopf"’ xi f(xi ) (Z, Z) (Z, K), (K, Z) (K, K) 0 1 2 1 4 1 2 1 4 Zufallsvariablen und Verteilungen 0, 1, F(x) = 4 3 , 4 1, Verteilungsparameter falls x<0 4. Induktive Statistik falls 0 5 x < 1 5. Datenanalyse falls 1 5 x < 2 6. Repräsentation falls x=2 7. Klassifikation F(x) f(x) 1 0,5 0,75 0,5 0,25 0,25 0 0 0 1 2 0 1 2 112 Statistik Etschberger - SS2014 Binomialverteilung Wiederholter Zufallsvorgang 1. Einführung n Durchführungen (jeweils unabhängig) Pro Durchführung: A oder Ā mit P(A) = p (= b Ziehen mit Zurücklegen) Schreibe: 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Xi = Verteilungsparameter 1, 0, falls A bei i-ter Durchführung eintritt falls Ā bei i-ter Durchführung eintritt 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Dann gibt X= n X Xi i=1 an, wie oft A eintritt. Gesucht: Wahrscheinlichkeitsfunktion von X 113 Binomialverteilung Statistik Etschberger - SS2014 Herleitung: 1) P(Xi = 1) = P(A) = p, P(Xi = 0) = P(Ā) = 1 − p n P 2) xi = x entspricht "‘x mal Ereignis A und n − x mal Ā"’ i=1 Wahrscheinlichkeit (bei Unabhängigkeit): px · (1 − p)n−x n 3) Aber: Reihenfolge irrelevant! Anzahl Anordnungen: x à Wahrscheinlichkeitsfunktion der Binomialverteilung: n · px · (1 − p)n−x , falls x ∈ {0,1, . . . , n} x f(x) = 0, sonst 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Kurzschreibweise: X ∼ B(n; p) X ist binomialverteilt mit Parametern n und p Tabellen zeigen meist F(x) für f(x) gilt: f(x) = F(x) − F(x − 1) 114 X ∼ B(n, 0.25), Tabelle der Binomialverteilung F(x) = P(X ≤ x) x\n 0 1 2 3 4 5 6 7 8 9 10 11 1 2 3 0.7500 0.5625 0.4219 1.0000 0.9375 0.8438 1.0000 0.9844 1.0000 Statistik Etschberger - SS2014 4 5 6 7 8 9 10 11 12 13 14 15 0.3164 0.7383 0.9492 0.9961 1.0000 0.2373 0.6328 0.8965 0.9844 0.9990 1.0000 0.1780 0.5339 0.8306 0.9624 0.9954 0.9998 1.0000 0.1335 0.4450 0.7564 0.9295 0.9871 0.9987 0.9999 1.0000 0.1001 0.3671 0.6786 0.8862 0.9727 0.9958 0.9996 1.0000 1.0000 0.0751 0.3003 0.6007 0.8343 0.9511 0.9900 0.9987 0.9999 1.0000 1.0000 0.0563 0.2440 0.5256 0.7759 0.9219 0.9803 0.9965 0.9996 1.0000 1.0000 1.0000 0.0422 0.1971 0.4552 0.7133 0.8854 0.9657 0.9924 0.9988 0.9999 1.0000 1.0000 1.0000 0.0317 0.1584 0.3907 0.6488 0.8424 0.9456 0.9858 0.9972 0.9996 1.0000 1.0000 1.0000 0.0238 0.1267 0.3326 0.5843 0.7940 0.9198 0.9757 0.9944 0.9990 0.9999 1.0000 1.0000 0.0178 0.1010 0.2811 0.5213 0.7415 0.8883 0.9617 0.9897 0.9979 0.9997 1.0000 1.0000 0.0134 0.0802 0.2361 0.4613 0.6865 0.8516 0.9434 0.9827 0.9958 0.9992 0.9999 1.0000 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik x\n 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.0100 0.0635 0.1971 0.4050 0.6302 0.8104 0.9205 0.9729 0.9925 0.9984 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0075 0.0501 0.1637 0.3530 0.5739 0.7653 0.8929 0.9598 0.9876 0.9969 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0056 0.0395 0.1353 0.3057 0.5187 0.7175 0.8610 0.9431 0.9807 0.9946 0.9988 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0042 0.0310 0.1114 0.2631 0.4654 0.6678 0.8251 0.9226 0.9713 0.9911 0.9977 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0032 0.0243 0.0913 0.2252 0.4149 0.6172 0.7858 0.8982 0.9591 0.9861 0.9961 0.9991 0.9998 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.0024 0.0190 0.0745 0.1917 0.3674 0.5666 0.7436 0.8701 0.9439 0.9794 0.9936 0.9983 0.9996 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.0018 0.0149 0.0607 0.1624 0.3235 0.5168 0.6994 0.8385 0.9254 0.9705 0.9900 0.9971 0.9993 0.9999 1.0000 1.0000 1.0000 1.0000 1.0000 0.0013 0.0116 0.0492 0.1370 0.2832 0.4685 0.6537 0.8037 0.9037 0.9592 0.9852 0.9954 0.9988 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 0.0010 0.0090 0.0398 0.1150 0.2467 0.4222 0.6074 0.7662 0.8787 0.9453 0.9787 0.9928 0.9979 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 0.0008 0.0070 0.0321 0.0962 0.2138 0.3783 0.5611 0.7265 0.8506 0.9287 0.9703 0.9893 0.9966 0.9991 0.9998 1.0000 1.0000 1.0000 1.0000 0.0006 0.0055 0.0258 0.0802 0.1844 0.3372 0.5154 0.6852 0.8196 0.9092 0.9599 0.9845 0.9948 0.9985 0.9996 0.9999 1.0000 1.0000 1.0000 0.0004 0.0042 0.0208 0.0666 0.1583 0.2990 0.4708 0.6427 0.7860 0.8868 0.9472 0.9784 0.9922 0.9976 0.9993 0.9998 1.0000 1.0000 1.0000 0.0003 0.0033 0.0166 0.0551 0.1354 0.2638 0.4279 0.5998 0.7502 0.8616 0.9321 0.9706 0.9888 0.9962 0.9989 0.9997 0.9999 1.0000 1.0000 0.0002 0.0025 0.0133 0.0455 0.1153 0.2317 0.3869 0.5568 0.7126 0.8337 0.9145 0.9610 0.9842 0.9944 0.9982 0.9995 0.9999 1.0000 1.0000 0.0002 0.0020 0.0106 0.0375 0.0979 0.2026 0.3481 0.5143 0.6736 0.8034 0.8943 0.9494 0.9784 0.9918 0.9973 0.9992 0.9998 1.0000 1.0000 5. Datenanalyse 6. Repräsentation 7. Klassifikation 115 Binomialverteilung: Beispiel Statistik Etschberger - SS2014 Beispiel Aus einem 32-er Kartenblatt wird 3-mal eine Karte mit Zurücklegen gezogen. Wie wahrscheinlich ist es, 2-mal Herz zu ziehen? 1, falls i-te Karte Herz 8 Xi = ⇒ Xi ∼ B(1; 32 ) 0, sonst n P X = Xi = X1 + X2 + X3 ⇒ X ∼ B(3; 14 ) i=1 Mithilfe der Wahrscheinlichkeitsfunktion: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 3 P(X = 2) = f(2) = · 0,252 · 0,751 = 0,1406 2 Mithilfe der Tabelle (n = 3): P(X = 2) = F(2) − F(1) = 0,9844 − 0,8438 = 0,1406 116 ## Warning: package ’ggplot2’ was built under R version 2.15.3 Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 117 Statistik Etschberger - SS2014 Binomialverteilung: Wahrscheinlichkeitsfunktion X ∼ B(3, 14 ) 1. Einführung 2. Deskriptive Statistik Binomial−Vtlg. mit n=3 p=0.25 3. W-Theorie Kombinatorik 0.4 Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 0.3 4. Induktive Statistik p 5. Datenanalyse 6. Repräsentation 0.2 7. Klassifikation 0.1 0.0 0 1 2 3 x 117 Statistik Etschberger - SS2014 Binomialverteilung: Wahrscheinlichkeitsfunktion Binomial−Vtlg. mit n=10 p=0.25 Binomial−Vtlg. mit n=100 p=0.25 0.075 1. Einführung p p 0.2 2. Deskriptive Statistik 0.050 3. W-Theorie 0.1 Kombinatorik 0.025 Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen 0.0 0.000 0 1 2 3 4 5 6 7 8 9 10 Verteilungsparameter 10 14 18 22 26 x 30 34 38 42 x 4. Induktive Statistik 5. Datenanalyse Binomial−Vtlg. mit n=30 p=0.25 Binomial−Vtlg. mit n=500 p=0.25 6. Repräsentation 7. Klassifikation 0.04 0.15 0.03 p p 0.10 0.05 0.02 0.01 0.00 0.00 0 2 4 6 8 10 12 14 16 18 20 90 97 104 111 118 125 132 139 146 153 160 x x 118 Hypergeometrische Verteilung n-faches Ziehen ohne Zurücklegen aus N Objekten, davon M markiert. X = Anzahl gezogener Objekte mit Markierung Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik heißt hypergeometrisch verteilt mit den Parametern N, M, n. Kurzschreibweise: X ∼ Hyp(N; M; n) Wahrscheinlichkeitsfunktion: Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse M N − M n−x x , falls x möglich f(x) = N n 0, sonst Ist n 5 N 20 , 6. Repräsentation 7. Klassifikation so gilt: Hyp(N; M; n) ≈ B(n; M N) 119 Statistik Etschberger - SS2014 Beispiel: Hypergeometrische Verteilung Aus einem 32-Kartenblatt wird 3-mal eine Karte ohne Zurücklegen gezogen. 1. Einführung Wie wahrscheinlich ist es, 2-mal "‘Herz"’ zu ziehen? 2. Deskriptive Statistik D.h.: N = 32, M = 8, n = 3, x = 2. 8 32 − 8 8 24 8! · 24 2 3−2 2 1 2! · 6! P(X = 2) = f(2) = = = 32! 32 32 3 3 3! · 29! 29! · 8! · 3! · 24 8 · 7 · 3 · 24 4032 21 = = = = 32! · 6! · 2! 32 · 31 · 30 29760 155 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation = 0,1355 Dabei wurde verwendet: n! n = und k k!(n − k)! n = n. 1 120 Statistik Etschberger - SS2014 Hypergeometrische Verteilung Beispiel: x Treffer im Lotto 6 aus 49 X ∼ Hyp(49, 6, 6) 1. Einführung 0.4 2. Deskriptive Statistik 0.3 Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 0.2 5. Datenanalyse 6. Repräsentation 7. Klassifikation 0.1 43.596498 41.301945 13.237803 1.765040 0.096862 0.001845 0.000007 Zufall und Wahrscheinlichkeit 0.0 0 1 2 3 4 5 6 Kombinatorik P(X = x) (in %) Wahrscheinlichkeit x 3. W-Theorie 0 1 2 3 4 5 6 x 121 Statistik Etschberger - SS2014 Poisson-Verteilung Approximation für B(n; p) und Hyp(N; M; n) Geeignet, wenn p klein (5 0,1), n groß (= 50) und np 5 10. 1. Einführung 2. Deskriptive Statistik à „Verteilung der seltenen Ereignisse“ (z.B. Anzahl 6-er pro Lottoausspielung) 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen X ist poissonverteilt mit Parameter λ: X ∼ P(λ) Verteilungsparameter Wahrscheinlichkeitsfunktion: x λ · e−λ , falls x = 0,1,2, . . . f(x) = x! 0, sonst 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation F(x) in Tabelle Überblick: Approximation p= Hyp(N; M; n) M N λ = np = n M N B(n; p) P(λ) 122 Poissonverteilung: X ∼ P(λ), Tabelle der Verteilungsfunktionen x\λ 0 1 2 3 4 5 6 7 8 9 10 11 12 Statistik Etschberger - SS2014 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 0.2019 0.5249 0.7834 0.9212 0.9763 0.9940 0.9987 0.9997 1.0000 1.0000 1.0000 1.0000 1.0000 0.1827 0.4933 0.7572 0.9068 0.9704 0.9920 0.9981 0.9996 0.9999 1.0000 1.0000 1.0000 1.0000 0.1653 0.4628 0.7306 0.8913 0.9636 0.9896 0.9974 0.9994 0.9999 1.0000 1.0000 1.0000 1.0000 0.1496 0.4338 0.7037 0.8747 0.9559 0.9868 0.9966 0.9992 0.9998 1.0000 1.0000 1.0000 1.0000 0.1353 0.4060 0.6767 0.8571 0.9474 0.9834 0.9955 0.9989 0.9998 1.0000 1.0000 1.0000 1.0000 0.1225 0.3796 0.6496 0.8387 0.9379 0.9796 0.9941 0.9985 0.9997 0.9999 1.0000 1.0000 1.0000 0.1108 0.3546 0.6227 0.8194 0.9275 0.9751 0.9925 0.9980 0.9995 0.9999 1.0000 1.0000 1.0000 0.1003 0.3309 0.5960 0.7994 0.9163 0.9700 0.9906 0.9974 0.9994 0.9999 1.0000 1.0000 1.0000 0.0907 0.3085 0.5697 0.7787 0.9041 0.9643 0.9884 0.9967 0.9991 0.9998 1.0000 1.0000 1.0000 0.0821 0.2873 0.5438 0.7576 0.8912 0.9580 0.9858 0.9958 0.9989 0.9997 0.9999 1.0000 1.0000 0.0743 0.2674 0.5184 0.7360 0.8774 0.9510 0.9828 0.9947 0.9985 0.9996 0.9999 1.0000 1.0000 0.0672 0.2487 0.4936 0.7141 0.8629 0.9433 0.9794 0.9934 0.9981 0.9995 0.9999 1.0000 1.0000 0.0608 0.2311 0.4695 0.6919 0.8477 0.9349 0.9756 0.9919 0.9976 0.9993 0.9998 1.0000 1.0000 0.0550 0.2146 0.4460 0.6696 0.8318 0.9258 0.9713 0.9901 0.9970 0.9992 0.9998 1.0000 1.0000 0.0498 0.1992 0.4232 0.6472 0.8153 0.9161 0.9665 0.9881 0.9962 0.9989 0.9997 0.9999 1.0000 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse x\λ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4 4.1 4.2 4.3 4.4 4.5 0.0451 0.1847 0.4012 0.6248 0.7982 0.9057 0.9612 0.9858 0.9953 0.9986 0.9996 0.9999 1.0000 1.0000 1.0000 1.0000 0.0408 0.1712 0.3799 0.6025 0.7806 0.8946 0.9554 0.9832 0.9943 0.9982 0.9995 0.9999 1.0000 1.0000 1.0000 1.0000 0.0369 0.1586 0.3594 0.5803 0.7626 0.8829 0.9490 0.9802 0.9931 0.9978 0.9994 0.9998 1.0000 1.0000 1.0000 1.0000 0.0334 0.1469 0.3397 0.5584 0.7442 0.8706 0.9422 0.9769 0.9917 0.9973 0.9992 0.9998 1.0000 1.0000 1.0000 1.0000 0.0302 0.1359 0.3209 0.5366 0.7255 0.8576 0.9347 0.9733 0.9901 0.9967 0.9990 0.9997 0.9999 1.0000 1.0000 1.0000 0.0273 0.1257 0.3028 0.5152 0.7064 0.8441 0.9267 0.9692 0.9883 0.9960 0.9987 0.9996 0.9999 1.0000 1.0000 1.0000 0.0247 0.1162 0.2854 0.4942 0.6872 0.8301 0.9182 0.9648 0.9863 0.9952 0.9984 0.9995 0.9999 1.0000 1.0000 1.0000 0.0224 0.1074 0.2689 0.4735 0.6679 0.8156 0.9091 0.9599 0.9840 0.9942 0.9981 0.9994 0.9998 1.0000 1.0000 1.0000 0.0203 0.0992 0.2531 0.4533 0.6484 0.8006 0.8995 0.9546 0.9815 0.9931 0.9977 0.9993 0.9998 1.0000 1.0000 1.0000 0.0183 0.0916 0.2381 0.4335 0.6288 0.7851 0.8893 0.9489 0.9786 0.9919 0.9972 0.9991 0.9997 0.9999 1.0000 1.0000 0.0166 0.0845 0.2238 0.4142 0.6093 0.7693 0.8787 0.9427 0.9755 0.9905 0.9966 0.9989 0.9997 0.9999 1.0000 1.0000 0.0150 0.0780 0.2102 0.3954 0.5898 0.7532 0.8675 0.9361 0.9721 0.9889 0.9959 0.9986 0.9996 0.9999 1.0000 1.0000 0.0136 0.0719 0.1974 0.3772 0.5704 0.7367 0.8558 0.9290 0.9683 0.9871 0.9952 0.9983 0.9995 0.9999 1.0000 1.0000 0.0123 0.0663 0.1852 0.3595 0.5512 0.7199 0.8437 0.9214 0.9642 0.9851 0.9943 0.9980 0.9994 0.9998 1.0000 1.0000 0.0111 0.0611 0.1736 0.3423 0.5321 0.7029 0.8311 0.9134 0.9598 0.9829 0.9933 0.9976 0.9992 0.9998 0.9999 1.0000 6. Repräsentation 7. Klassifikation 123 Statistik Etschberger - SS2014 Poisson-Verteilung: Beispiel Beispiel X ∼ B(10 000; 0,0003); In Tabelle der Binomialverteilung nicht vertafelt! Approximation: p = 0,0003 < 0,1 n = 10 000 > 50 ⇒ B(10 000; 0,0003) ≈ P(3) np = 3 < 10 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik Mithilfe der Wahrscheinlichkeitsfunktion: 5. Datenanalyse 6. Repräsentation 5 P(X = 5) = 3 · e−3 = 0,1008188 5! 7. Klassifikation Mithilfe der Tabelle der Poissonverteilung: P(X = 5) = F(5) − F(4) = 0,9161 − 0,8153 = 0,1008 Exakter Wert: P(X = 5) = 0,1008239 124 Statistik Etschberger - SS2014 Poisson- versus Binomialverteilung: Vergleich n=5 p=0.8 n=10 p=0.4 0.25 0.4 0.20 0.3 1. Einführung Binomial 0.2 Verteilung 0.15 Binomial p p Verteilung Poisson Poisson 0.10 2. Deskriptive Statistik 3. W-Theorie Kombinatorik 0.1 Zufall und Wahrscheinlichkeit 0.05 0.0 Zufallsvariablen und Verteilungen 0.00 0 1 2 3 4 5 Verteilungsparameter 0 1 2 3 4 5 6 7 8 9 10 x 4. Induktive Statistik x 5. Datenanalyse n=100 p=0.04 0.20 0.20 0.15 0.15 7. Klassifikation Binomial Verteilung p p Verteilung 0.10 6. Repräsentation n=1000 p=0.004 Binomial 0.10 Poisson Poisson 0.05 0.05 0.00 0.00 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 x x 125 Statistik Etschberger - SS2014 Stetige Zufallsvariablen X heißt stetig, wenn F(x) stetig ist. Dann existiert ein f(t) mit: Zx F(x) = f(t) dt −∞ 3 2 f(t) x R F(x) = f(t)dt −∞ 1 1 1. Einführung 1 2 1 2 3. W-Theorie 2. Deskriptive Statistik Kombinatorik t f(x) heißt Dichtefunktion von X. 1x 2 1x 2 1 Dann: 3 2 Zufall und Wahrscheinlichkeit x Zufallsvariablen und Verteilungen 1 Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse f(x) 6. Repräsentation 7. Klassifikation P(a < X < b) = P(a 5 X < b) = P(a < X 5 b) 1 = P(a 5 X 5 b) Rb = a f(x) dx 1 2 = F(b) − F(a) x a 1 2 b 1 126 Statistik Etschberger - SS2014 Dichtefunktion Eigenschaften der Dichtefunktion f(x) = 0 für alle x ∈ R 1. Einführung Wegen F(∞) = 1 muss stets gelten: Z∞ f(x) dx = 1 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen −∞ Verteilungsparameter P(X = x) = 0 für alle x ∈ R 4. Induktive Statistik f(x) > 1 ist möglich 5. Datenanalyse für x ∈ R ist F(x) differenzierbar ⇒ F 0 (x) = f(x). 6. Repräsentation 7. Klassifikation Intervallgrenzen spielen keine Rolle: P(X ∈ [a; b]) = P(X ∈ (a; b]) = P(X ∈ [a; b)) = P(X ∈ (a; b)) = F(b) − F(a) 127 Statistik Etschberger - SS2014 Dichtefunktion: Beispiel Beispiel 1. Einführung 0, 1 f(x) = 10 , 0, 2. Deskriptive Statistik falls x<0 falls 0 5 x 5 10 falls x > 10 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsfunktion: x Zx Zx t x 1 f(t) dt = dt = = ⇒ 10 0 10 0 0 10 x<0 0, falls x F(x) = 10 , falls 0 5 x 5 10 1, falls x > 10 Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 128 Statistik Etschberger - SS2014 Gleichverteilung Eine Zufallsvariable X mit 1 , f(x) = b − a 0 , 1. Einführung falls a 5 x 5 b 2. Deskriptive Statistik 3. W-Theorie sonst Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter heißt gleichverteilt im Intervall [a; b]. 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation f(x) 7. Klassifikation 1 b−a x a b 129 Statistik Etschberger - SS2014 Gleichverteilung Verteilungsfunktion der Gleichverteilung: 1. Einführung 0 , falls x<a x − a , falls a 5 x 5 b F(x) = b−a 1 , falls x>b 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Beispiel: X gleichverteilt in [1; 20] 7. Klassifikation P(2 5 X 5 12) = F(12) − F(2) = 12 − 1 2−1 − 20 − 1 20 − 1 12 − 2 10 = 20 − 1 19 = 0,5263 = 130 Statistik Etschberger - SS2014 Normalverteilung Eine Zufallsvariable X mit einer Dichtefunktion f(x) = 1 √ σ 2π (x − µ)2 − 2σ2 ·e 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik und σ > 0 heißt normalverteilt. Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen f(x) Verteilungsparameter N(2; 13 ) 1 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation N(2; 1) 0,5 N(0; 1) N(2; 2) x −2 −1 1 Kurzschreibweise: X ∼ N(µ; σ) 2 3 4 5 131 Statistik Etschberger - SS2014 Normalverteilung: Gaußkurve Normalverteilung 1. Einführung C.F. Gauß 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 132 Statistik Etschberger - SS2014 Verteilungsfunktion Φ der Standardnormalverteilung Dabei bedeutet Φ(x) zum Beispiel: Φ(2,13) = Φ(2,1 + 0,03) = 0,9834. Diesen Wert findet man in der Zeile mit x1 = 2,1 und der Spalte mit x2 = 0,03. x1 \x2 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7258 0.7580 0.7882 0.8159 0.8414 0.8643 0.8849 0.9032 0.9193 0.9332 0.9452 0.9554 0.9641 0.9713 0.9773 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9975 0.9981 0.9987 0.9990 0.9993 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7612 0.7910 0.8186 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9649 0.9719 0.9778 0.9826 0.9865 0.9896 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9987 0.9991 0.9993 0.5080 0.5478 0.5871 0.6255 0.6628 0.6985 0.7324 0.7642 0.7939 0.8212 0.8461 0.8687 0.8888 0.9066 0.9222 0.9358 0.9474 0.9573 0.9656 0.9726 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9983 0.9987 0.9991 0.9994 0.5120 0.5517 0.5910 0.6293 0.6664 0.7020 0.7357 0.7673 0.7967 0.8238 0.8485 0.8708 0.8907 0.9083 0.9237 0.9370 0.9485 0.9582 0.9664 0.9732 0.9788 0.9834 0.9871 0.9901 0.9925 0.9943 0.9957 0.9968 0.9977 0.9983 0.9988 0.9991 0.9994 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7704 0.7996 0.8264 0.8508 0.8729 0.8925 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.9793 0.9838 0.9875 0.9904 0.9927 0.9945 0.9959 0.9969 0.9978 0.9984 0.9988 0.9992 0.9994 0.5199 0.5596 0.5987 0.6368 0.6737 0.7089 0.7422 0.7734 0.8023 0.8290 0.8532 0.8749 0.8944 0.9115 0.9265 0.9394 0.9505 0.9600 0.9679 0.9744 0.9798 0.9842 0.9878 0.9906 0.9929 0.9946 0.9960 0.9970 0.9978 0.9984 0.9989 0.9992 0.9994 0.5239 0.5636 0.6026 0.6406 0.6773 0.7123 0.7454 0.7764 0.8051 0.8315 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9516 0.9608 0.9686 0.9750 0.9803 0.9846 0.9881 0.9909 0.9931 0.9948 0.9961 0.9971 0.9979 0.9985 0.9989 0.9992 0.9995 0.5279 0.5675 0.6064 0.6443 0.6808 0.7157 0.7486 0.7794 0.8079 0.8340 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9526 0.9616 0.9693 0.9756 0.9808 0.9850 0.9884 0.9911 0.9933 0.9949 0.9962 0.9972 0.9980 0.9985 0.9989 0.9992 0.9995 0.5319 0.5714 0.6103 0.6480 0.6844 0.7191 0.7518 0.7823 0.8106 0.8365 0.8599 0.8810 0.8997 0.9162 0.9306 0.9430 0.9535 0.9625 0.9700 0.9762 0.9812 0.9854 0.9887 0.9914 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9990 0.9993 0.9995 0.5359 0.5754 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 0.8622 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.9990 0.9993 0.9995 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 133 Statistik Etschberger - SS2014 Eigenschaften der Normalverteilung Dichte ist symmetrisch zu µ: 1. Einführung f(µ − x) = f(µ + x) 2. Deskriptive Statistik 3. W-Theorie à µ ist Lage-, σ ist Streuungsparameter Kombinatorik Standardnormalverteilung: N(0; 1) mit Verteilungsfunktion Φ(x) (→ Tabelle 3) Kenntnis von Φ(x), µ und σ genügt, denn: X ∼ N(µ; σ) ⇐⇒ X−µ ⇒ σ ∼ N(0; 1) x−µ F(x) = Φ σ Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Tabelle enthält nur positive x: Deswegen Φ(−x) = 1 − Φ(x) 134 Statistik Etschberger - SS2014 Normalverteilung: Beispiel Beispiel: Projektdauer X ∼ N(39; 2). 1. Einführung Wahrscheinlichkeit für Projektdauer zwischen 37 und 41 Wochen? 3. W-Theorie 2. Deskriptive Statistik Kombinatorik Zufall und Wahrscheinlichkeit Lösung: Zufallsvariablen und Verteilungen Verteilungsparameter P(37 5 X 5 41) = F(41) − F(37) = Φ 41−39 −Φ 2 4. Induktive Statistik 37−39 2 = Φ(1) − Φ(−1) 5. Datenanalyse 6. Repräsentation 7. Klassifikation = Φ(1) − [1 − Φ(1)] = 2 · Φ(1) − 1 = 2 · 0,8413 − 1 = 0,6826 135 Statistik Etschberger - SS2014 Lageparameter a) Modus xMod : f(xMod ) = f(x) für alle x (i.A. nicht eindeutig, z.B. Gleichverteilung) 1. Einführung 2. Deskriptive Statistik Beispiele: 3. W-Theorie Kombinatorik Normalverteilung: xMod = µ Diskrete Verteilung mit: Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen x 0 1 2 f(x) 41 12 14 Verteilungsparameter 4. Induktive Statistik ⇒ xMod = 1 5. Datenanalyse 6. Repräsentation 7. Klassifikation b) Median xMed : F(xMed ) = 1 2 bzw. kleinstes x mit F(x) > 1 2 Beispiele: Normalverteilung: xMed = µ Diskrete Verteilung oben: F(0) = 14 < 21 , F(1) = 3 4 > 1 2 ⇒ xMed = 1 136 Statistik Etschberger - SS2014 Lageparameter: Fraktile c) α -Fraktil xα : F(xα ) = α (für stetige Verteilungen) Beispiel: X ∼ N(0; 1), Y ∼ N(3; 2) 1. Einführung 2. Deskriptive Statistik x0,975 = 1,96 x0,025 = −x0,975 = −1,96 y0,025 = 2 · x0,025 +3 = −0,92 (Tab. 3) 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter Hinweise: 4. Induktive Statistik 5. Datenanalyse xMed = x0,5 Wenn xα nicht vertafelt → Interpolation: xα ≈ xa + (xb − xa ) · mit 6. Repräsentation 7. Klassifikation α−a b−a a : größte vertafelte Zahl < α b : kleinste vertafelte Zahl > α Beispiel: X ∼ N(0; 1); x0,6 ≈ 0,25 + (0,26 − 0,25) · 0,2533 0,6−0,5987 0,6026−0,5987 = 137 Statistik Etschberger - SS2014 Lageparameter: Erwartungswert d) Erwartungswert E(X) bzw. µ: X xi f(xi ), i ∞ Z E(X) = xf(x) dx, 1. Einführung falls X diskret 2. Deskriptive Statistik 3. W-Theorie Kombinatorik falls X stetig Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen −∞ Verteilungsparameter 4. Induktive Statistik Beispiel: Diskrete Verteilung mit 5. Datenanalyse 6. Repräsentation x 0 1 2 f(x) 14 21 14 ⇒ E(X) = 0 · 1 4 +1· 1 2 +2· 1 4 =1 7. Klassifikation Beispiel: Für eine exponentialverteilte Zufallsvariable X mit der Dichte λ · e−λx für x ≥ 0 f(x) = folgt 0 sonst Z∞ Z∞ Z∞ 1 −λx 1 −λx −λx E(X) = x · f(x)dx = λ x·e dx = λ − xe − 1· − e dx λ λ −∞ 0 0 ∞ 1 1 1 −λx −λx = −xe − e = −0 − −0 − = λ λ λ 0 138 Statistik Etschberger - SS2014 Rechenregeln für den Erwartungswert Ist f symmetrisch bzgl. a, so gilt E(X) = a Beispiel: f der Gleichverteilung symmetrisch bzgl. a+b ⇒ E(X) = a+b 2 2 1. Einführung Lineare Transformation: 2. Deskriptive Statistik 3. W-Theorie E(a + bX) = a + b · E(X) Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Summenbildung: Verteilungsparameter 4. Induktive Statistik E n X i=1 ! Xi = n X 5. Datenanalyse E(Xi ) 6. Repräsentation i=1 7. Klassifikation Beispiel: X gleichverteilt in [0; 10], Y ∼ N(1; 1); Z = X + 5Y E(Z) = E(X+5Y) = E(X)+E(5Y) = E(X)+5·E(Y) = 10+0 2 +5·1 = 10 Unabhängigkeit: X, Y unabhängig ⇒ E(X · Y) = E(X) · E(Y) 139 Statistik Etschberger - SS2014 Streuungsparameter Varianz Var(X) bzw. σ2 : X [xi − E(X)]2 f(xi ), wenn X diskret i Var(X) = E([X − E(X)]2 ) = Z ∞ [x − E(X)]2 f(x) dx, 1. Einführung 2. Deskriptive Statistik wenn X stetig −∞ 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Standardabweichung Sta(X) bzw. σ: Sta(X) = Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse x 0 1 2 1 1 1 f(x) 4 2 4 Beispiel: Diskrete Verteilung p Var(X) : 6. Repräsentation 7. Klassifikation 2 Var(X) = (0 − 1) · 1 1 1 1 2 2 + (1 − 1) · + (2 − 1) · = 4 2 4 2 Beispiel: Für eine exponentialverteilte Zufallsvariable X (Dichte siehe Erwartungswert) folgt Z∞ Z∞ −λx 1 2 Var(X) = (x − E(X))f(x)dx = λ x− λ ·e dx −∞ = e −λx 0 − 1 2 λ 1 2 1 = 2 λ 2 2x λ −x + 2 = 0 − −0 − λ − 2 λ2 − 2x λ + 2 λ2 ∞ 0 140 Statistik Etschberger - SS2014 Rechenregeln für die Varianz Verschiebungssatz: Var(X) = E(X2 ) − [E(X)]2 1. Einführung 2. Deskriptive Statistik Beispiel: Diskrete Verteilung 2 E(X ) ⇒ E(X2 ) − [E(X)]2 2 x 0 1 2 1 1 f(x) 1 4 2 4 : 1 2 2 = 0 · = 3 2 3 2 = 1 4 2 +1 · 3. W-Theorie Kombinatorik +2 · 1 4 Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik − 12 = 1 2 = Var(X) Lineare Transformation: 5. Datenanalyse 6. Repräsentation 7. Klassifikation Var(a + bX) = b2 Var(X) Summenbildung gilt nur, wenn die Xi unabhängig! Dann: ! n n X X Var(Xi ) Var Xi = i=1 i=1 141 Erwartungswerte und Varianzen wichtiger Verteilungen Verteilung von X E(X) Var(X) Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Binomialverteilung B(n; p) np np(1 − p) Hypergeometrische Verteilung mit den Parametern N, M, n nM N N−M N−n nM N N N−1 Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Verteilungsparameter 4. Induktive Statistik 5. Datenanalyse Poisson-Verteilung P(λ) Gleichverteilung in [a; b] mit a < b Normalverteilung N(µ; σ) λ a+b 2 λ (b − a)2 12 µ σ2 6. Repräsentation 7. Klassifikation 142 Statistik Etschberger - SS2014 Kovarianz und Korrelation Kovarianz: Cov(X, Y) = E[(X − E(X))(Y − E(Y))] = E(X · Y) − E(X) · E(Y) (Verschiebungssatz) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Kombinatorik Zufall und Wahrscheinlichkeit Zufallsvariablen und Verteilungen Korrelationskoeffizient: Verteilungsparameter 4. Induktive Statistik ρ(X, Y) = p Cov(X, Y) Var(X) · Var(Y) 5. Datenanalyse 6. Repräsentation 7. Klassifikation Bemerkungen: ρ ist r nachgebildet ⇒ ρ ∈ [−1; 1] |ρ| = 1 ⇐⇒ Y = a + bX (mit b 6= 0) ρ = 0 ⇐⇒ X, Y unkorreliert Varianz einer Summe zweier ZV: Var(X + Y) = Var(X) + Var(Y) + 2 Cov(X, Y) 143 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation 4 Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Grundlagen der induktiven Statistik Vollerhebung of unmöglich, Deshalb: Beobachte Teilgesamtheit und schließe auf Grundgesamtheit Beispiel Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Warensendung von 1000 Stück; darunter M Stück Ausschuss. M ist unbekannt. → Zufällige Entnahme von n = 30 Stück („Stichprobe“). Darunter 2 Stück Ausschuss. Denkbare Zielsetzungen: Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 2 Schätze M durch eine Zahl (z.B. 30 · 1000 = 66,67) Schätze ein Intervall für M (z.B. M ∈ [58; 84]) Teste die Hypothese, dass M > 50 ist. 145 Statistik Etschberger - SS2014 Grundbegriffe Grundgesamtheit (G): Menge aller relevanten Merkmalsträger. Verteilung von G: F(x) = P(X 5 x) = Wahrscheinlichkeit, dass ein Merkmalsträger ausgewählt wird, der beim untersuchten Merkmal maximal die Ausprägung x aufweist. Uneingeschränkte (reine) Zufallsauswahl: Jedes Element von G hat die selbe Chance, ausgewählt zu werden. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse Stichprobenumfang (n): Anzahl der Merkmalsträger in der Stichprobe. 6. Repräsentation 7. Klassifikation Einfache Stichprobe: Uneingeschränkte Zufallsauswahl und unabhängige Ziehung. → Alle Stichprobenvariablen X1 , . . . , Xn sind iid. Stichprobenergebnis: n-Tupel der Realisationen der Stichprobenvariablen, (x1 , . . . , xn ). 146 Statistik Etschberger - SS2014 Wichtige Stichprobenfunktionen Gegeben: Einfache Stichprobe X1 , . . . , Xn , mit E(Xi ) = µ, Var(Xi ) = σ2 Stichprobenfunktion V n X Beliebige Verteilung, Bezeichnung E(V) Var(V) Merkmalssumme nµ nσ2 µ σ2 n 1. Einführung 2. Deskriptive Statistik Xi 3. W-Theorie i=1 n 1 X X̄ = Xi n i=1 Stichprobenmittel X̄ − µ √ n σ Gauß-Statistik n 1 X 2 (Xi − µ) n i=1 mittlere quadratische Abweichung bezüglich µ n 1 X 2 (Xi − X̄) n i=1 mittlere quadratische Abweichung 2 S = n X 1 2 (Xi − X̄) n − 1 i=1 √ S= S2 X̄ − µ √ n S 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Stichprobenvarianz 0 1 5. Datenanalyse 6. Repräsentation σ 2 7. Klassifikation n−1 2 σ n σ2 StichprobenStandardabweichung t-Statistik 147 Auswirkungen der Stichprobengröße Statistik Etschberger - SS2014 Ziehen von 10.000 Stichproben (jeweils vom Umfang n) und Berechnung der Stichprobenmittel (Verteilung: zwei überlagerte Gleichverteilungen): 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 148 Auswirkungen der Stichprobengröße Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 149 Statistik Etschberger - SS2014 Auswirkungen der Stichprobengröße 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 150 Statistik Etschberger - SS2014 Testverteilungen Chi-Quadrat-Verteilung Sind X1 , . . . , Xn iid N(0; 1)-verteilte Zufallsvariablen, so wird die Verteilung von n X Z= X2i i=1 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik als Chi-Quadrat-Verteilung mit n Freiheitsgraden bezeichnet. Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests f(x) 5. Datenanalyse 6. Repräsentation 0,1 7. Klassifikation 0,05 x 1 10 14 Kurzschreibweise: Z ∼ χ2 (n) Beispiel: χ2 (30): x0,975 = 46,98 151 Quantilstabelle der χ2 -Verteilung mit n Freiheitsgraden α\n 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.4 0.5 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 1 2 3 4 0.00 0.01 0.07 0.21 0.00 0.02 0.11 0.30 0.00 0.05 0.22 0.48 0.00 0.10 0.35 0.71 0.02 0.21 0.58 1.06 0.06 0.45 1.01 1.65 0.10 0.58 1.21 1.92 0.28 1.02 1.87 2.75 0.45 1.39 2.37 3.36 0.71 1.83 2.95 4.04 1.32 2.77 4.11 5.39 1.64 3.22 4.64 5.99 2.71 4.61 6.25 7.78 3.84 5.99 7.81 9.49 5.02 7.38 9.35 11.14 6.63 9.21 11.34 13.28 7.88 10.60 12.84 14.86 Statistik Etschberger - SS2014 5 6 7 8 9 10 11 12 13 14 15 0.41 0.55 0.83 1.15 1.61 2.34 2.67 3.66 4.35 5.13 6.63 7.29 9.24 11.07 12.83 15.09 16.75 0.68 0.87 1.24 1.64 2.20 3.07 3.45 4.57 5.35 6.21 7.84 8.56 10.64 12.59 14.45 16.81 18.55 0.99 1.24 1.69 2.17 2.83 3.82 4.25 5.49 6.35 7.28 9.04 9.80 12.02 14.07 16.01 18.48 20.28 1.34 1.65 2.18 2.73 3.49 4.59 5.07 6.42 7.34 8.35 10.22 11.03 13.36 15.51 17.53 20.09 21.95 1.73 2.09 2.70 3.33 4.17 5.38 5.90 7.36 8.34 9.41 11.39 12.24 14.68 16.92 19.02 21.67 23.59 2.16 2.56 3.25 3.94 4.87 6.18 6.74 8.30 9.34 10.47 12.55 13.44 15.99 18.31 20.48 23.21 25.19 2.60 3.05 3.82 4.57 5.58 6.99 7.58 9.24 10.34 11.53 13.70 14.63 17.27 19.68 21.92 24.73 26.76 3.07 3.57 4.40 5.23 6.30 7.81 8.44 10.18 11.34 12.58 14.85 15.81 18.55 21.03 23.34 26.22 28.30 3.56 4.11 5.01 5.89 7.04 8.63 9.30 11.13 12.34 13.64 15.98 16.98 19.81 22.36 24.74 27.69 29.82 4.07 4.66 5.63 6.57 7.79 9.47 10.17 12.08 13.34 14.69 17.12 18.15 21.06 23.68 26.12 29.14 31.32 4.60 5.23 6.26 7.26 8.55 10.31 11.04 13.03 14.34 15.73 18.25 19.31 22.31 25.00 27.49 30.58 32.80 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation α\n 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.4 0.5 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 5.14 5.81 6.91 7.96 9.31 11.15 11.91 13.98 15.34 16.78 19.37 20.47 23.54 26.30 28.85 32.00 34.27 5.70 6.41 7.56 8.67 10.09 12.00 12.79 14.94 16.34 17.82 20.49 21.61 24.77 27.59 30.19 33.41 35.72 6.26 7.01 8.23 9.39 10.86 12.86 13.68 15.89 17.34 18.87 21.60 22.76 25.99 28.87 31.53 34.81 37.16 6.84 7.63 8.91 10.12 11.65 13.72 14.56 16.85 18.34 19.91 22.72 23.90 27.20 30.14 32.85 36.19 38.58 7.43 8.26 9.59 10.85 12.44 14.58 15.45 17.81 19.34 20.95 23.83 25.04 28.41 31.41 34.17 37.57 40.00 8.03 8.90 10.28 11.59 13.24 15.44 16.34 18.77 20.34 21.99 24.93 26.17 29.62 32.67 35.48 38.93 41.40 8.64 9.54 10.98 12.34 14.04 16.31 17.24 19.73 21.34 23.03 26.04 27.30 30.81 33.92 36.78 40.29 42.80 9.26 10.20 11.69 13.09 14.85 17.19 18.14 20.69 22.34 24.07 27.14 28.43 32.01 35.17 38.08 41.64 44.18 9.89 10.86 12.40 13.85 15.66 18.06 19.04 21.65 23.34 25.11 28.24 29.55 33.20 36.41 39.36 42.98 45.56 10.52 11.52 13.12 14.61 16.47 18.94 19.94 22.62 24.34 26.14 29.34 30.68 34.38 37.65 40.65 44.31 46.93 11.16 12.20 13.84 15.38 17.29 19.82 20.84 23.58 25.34 27.18 30.43 31.79 35.56 38.89 41.92 45.64 48.29 11.81 12.88 14.57 16.15 18.11 20.70 21.75 24.54 26.34 28.21 31.53 32.91 36.74 40.11 43.19 46.96 49.64 12.46 13.56 15.31 16.93 18.94 21.59 22.66 25.51 27.34 29.25 32.62 34.03 37.92 41.34 44.46 48.28 50.99 13.12 14.26 16.05 17.71 19.77 22.48 23.57 26.48 28.34 30.28 33.71 35.14 39.09 42.56 45.72 49.59 52.34 13.79 14.95 16.79 18.49 20.60 23.36 24.48 27.44 29.34 31.32 34.80 36.25 40.26 43.77 46.98 50.89 53.67 7. Klassifikation 152 Statistik Etschberger - SS2014 Testverteilungen: t-Verteilung Ist X ∼ N(0; 1), Z ∼ χ2 (n), X, Z unabhängig, so wird die Verteilung von 1. Einführung X T= q 1 n 2. Deskriptive Statistik 3. W-Theorie Z 4. Induktive Statistik Grundlagen als t-Verteilung mit n Freiheitsgraden bezeichnet. Punkt-Schätzung Intervall-Schätzung Signifikanztests William Sealy Gosset 1876 – 1937 5. Datenanalyse 6. Repräsentation f(x) 7. Klassifikation 0,2 0,1 x −3 −2 −1 1 2 3 Kurzschreibweise: T ∼ t(n) Beispiel: t(10) x0,6 = 0,260, x0,5 = 0, x0,1 = −x0,9 = −1,372 153 Statistik Etschberger - SS2014 Quantilstabelle der t-Verteilung mit n Freiheitsgraden α\n 0.6 0.75 0.8 0.9 0.95 0.975 0.99 0.995 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 0.325 0.289 0.277 0.271 0.267 0.265 0.263 0.262 0.261 0.260 0.260 0.259 0.259 0.258 0.258 0.258 0.257 0.257 0.257 0.257 0.257 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 0.256 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.698 0.696 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 1.376 1.061 0.979 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.875 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.312 1.311 1.310 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 12.706 4.303 3.183 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.059 2.055 2.052 2.048 2.045 2.042 31.820 6.965 4.541 3.747 3.365 3.143 2.998 2.897 2.821 2.764 2.718 2.681 2.650 2.624 2.603 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 63.657 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.054 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 154 t-Verteilung vs. Normalverteilung Statistik Etschberger - SS2014 Dichtefunktion t-Verteilung mit 1 (blau), 3 (grün) und 10 (lila) Freiheitsgraden Standardnormalverteilung (rot) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 155 Statistik Etschberger - SS2014 Punkt-Schätzung Ein unbekannter Parameter ϑ der Verteilung von G soll auf Basis einer Stichprobe geschätzt werden. 1. Einführung 2. Deskriptive Statistik Zum Beispiel: σ von N(10; σ) 3. W-Theorie Schätzwert: ϑ̂ 4. Induktive Statistik Grundlagen Vorgehen: Verwendung einer Schätzfunktion Punkt-Schätzung Intervall-Schätzung Signifikanztests Θ̂ = g(X1 , . . . , Xn ) 5. Datenanalyse 6. Repräsentation Beachte: Der Schätzwert ϑ̂ ist die Realisierung der ZV (!) Θ̂. 7. Klassifikation Frage: Welche Stichprobenfunktion ist zur Schätzung geeignet? à Kriterien für die Beurteilung/Konstruktion von Schätzfunktionen! Im Folgenden: Vorliegen einer einfachen Stichprobe, d.h. X1 , . . . , Xn iid. 156 Statistik Etschberger - SS2014 Erwartungstreue und Wirksamkeit Eine Schätzfunktion Θ̂ = g(X1 , . . . , Xn ) heißt erwartungstreu oder unverzerrt für ϑ, wenn unabhängig vom numerischen Wert von ϑ gilt: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie E(Θ̂) = ϑ 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Beispiel Sind Θ̂ = X̄, Θ̂ 0 = X1 +Xn , 2 Θ̂ 00 = 1 n−1 n P 5. Datenanalyse Xi erwartungstreu für µ? i=1 6. Repräsentation 7. Klassifikation a) Θ̂: E(X̄) = µ ⇒ Θ̂ ist erwartungstreu. 1 n b) Θ̂ 0 : E X1 +X = 2 [E(X1 ) + E(Xn )] = 12 (µ + µ) = µ 2 ⇒ Θ̂ 0 ist erwartungstreu. n n n P P P 00 1 1 1 n c) Θ̂ : E n−1 Xi = n−1 E(Xi ) = n−1 µ = n−1 µ 6= µ i=1 ⇒ Θ̂ 00 i=1 i=1 ist nicht erwartungstreu 157 Statistik Etschberger - SS2014 Erwartungstreue und Wirksamkeit Welche der erwartungstreuen Schätzfunktionen Θ̂, Θ̂ 0 ist „besser“? 0 Von zwei erwartungstreuen Schätzfunktionen Θ̂, Θ̂ für ϑ heißt Θ̂ wirksamer als Θ̂ 0 , wenn unabhängig vom numerischen Wert von ϑ gilt: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Var(Θ̂) < Var(Θ̂ 0 ) 5. Datenanalyse 6. Repräsentation 0 Beispiel: (Θ̂ = X̄, Θ̂ = Wegen X1 +Xn ) 2 7. Klassifikation Var(Θ̂) = Var(X̄) Var(Θ̂ 0 ) = Var = X1 +Xn 2 = 14 (σ2 + σ2 ) = σ2 n 2 σ 2 ⇒ Var(Θ̂) < Var(Θ̂ 0 ) (falls n > 2) ist Θ̂ wirksamer als Θ̂ 0 . 158 Statistik Etschberger - SS2014 Intervall-Schätzung Für einen unbekannten Verteilungsparameter ϑ soll auf Basis einer Stichprobe ein Intervall geschätzt werden. Verwendung der Stichprobenfunktionen Vu , Vo , so dass Vu 5 Vo und P(Vu 5 ϑ 5 Vo ) = 1 − α 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung stets gelten. [Vu ; Vo ] heißt Konfidenzintervall (KI) für ϑ zum Konfidenzniveau 1 − α. Beachte: Das Schätzintervall [vu ; vo ] ist Realisierung der Zufallsvariablen (!) Vu , Vo . à Irrtumswahrscheinlichkeit α (klein, i.d.R. α 5 0,1) Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Frage: Welche Konfidenzintervalle sind zur Schätzung geeignet? à Hängt von Verteilung von G sowie vom unbekannten Parameter (µ, σ2 ) ab! Im Folgenden: Einfache Stichprobe X1 , . . . , Xn mit E(Xi ) = µ, Var(Xi ) = σ2 159 Statistik Etschberger - SS2014 Intervall-Schätzung Wichtiger Spezialfall: Symmetrische Konfidenzintervalle Symmetrisch heißt nicht, dass die Dichte symmetrisch ist, sondern übereinstimmende Wahrscheinlichkeiten für Über-/Unterschreiten des Konfidenzintervalls, d.h. P(Vu > ϑ) = P(Vo < ϑ) = 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik α 2 Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests f(x) 5. Datenanalyse 6. Repräsentation 0,1 7. Klassifikation 0,05 x 1 10 14 Wichtig: Eine Verkleinerung von α bewirkt eine Vergrößerung des Konfidenzintervalls. 160 Konfidenzintervall für µ bei Normalverteilung mit bekanntem σ2 Vorgehensweise: Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 1 2 3 4 5 Festlegen des Konfidenzniveaus 1 − α α -Fraktils c der N(0, 1)-Verteilung Bestimmung des 1 − 2 Berechnen des Stichprobenmittels x̄ σc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: σc x̄ − √ ; n σc x̄ + √ n 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation 161 Statistik Etschberger - SS2014 Intervallschätzung: Beispiel Beispiel Normalverteilung mit σ = 2,4 (x1 , . . . , x9 ) = (184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1, 184.4) Gesucht: Konfidenzintervall für µ zum Konfidenzniveau 1 − α = 0,99 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 1. 1 − α = 0,99 5. Datenanalyse 2. N(0; 1): c = x1− α2 = x1− 0,01 = x0,995 = 2,576 (Tab. 3; 2 Interpolation) 3. x̄ = 4. σc √ n 1 9 = 6. Repräsentation 7. Klassifikation (184,2 + · · · + 184,4) = 184,8 2,4·2,576 √ 9 = 2,06 5. KI = [184,8 − 2,06; 184,8 + 2,06] = [182,74; 186,86] Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [182,74; 186,86]. 162 Statistik Etschberger - SS2014 Wichtige Fraktilswerte 1. Einführung 2. Deskriptive Statistik Wichtige N(0; 1)-Fraktilswerte: 3. W-Theorie 4. Induktive Statistik α xα 0,9 1,281552 0,95 1,644854 0,975 1,959964 0,99 2,326348 0,995 2,575829 Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation (I.d.R. genügen drei Nachkommastellen.) 163 Statistik Etschberger - SS2014 Intervalllänge Bei bekannter Standardabweichung gilt offenkundig 2σc L = Vo − Vu = √ n 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Welcher Stichprobenumfang n sichert eine vorgegebene (Maximal-)Länge L? ⇒ Nach n auflösen! ⇒ 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung n= 2σc L 2 Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Eine Halbierung von L erfordert eine Vervierfachung von n! Angewendet auf letztes Beispiel: L = 4 ⇒n = L = 2 ⇒n = 2·2,4·2,576 2 4 2·2,4·2,576 2 2 = 9,556 ⇒ n = 10 = 38,222 ⇒ n = 39 164 Statistik Etschberger - SS2014 Konfidenzintervall Konfidenzintervall für µ bei Normalverteilung mit unbekanntem σ2 2. Deskriptive Statistik Vorgehensweise: 1 2 3 4 5 1. Einführung 3. W-Theorie Festlegen des Konfidenzniveaus 1−α α Bestimmung des 1 − -Fraktils c der t(n − 1)-Verteilung 2 Berechnen des Stichprobenmittels x̄ und der Stichproben-Standardabweichung s sc Berechnen des Wertes √ n Ergebnis der Intervall-Schätzung: sc x̄ − √ ; n sc x̄ + √ n 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Zu Schritt 2: Falls n − 1 > 30 wird die N(0; 1)-Verteilung verwendet. 165 Statistik Etschberger - SS2014 Konfidenzintervalllänge Beispiel: Wie das letzte Beispiel, jedoch σ unbekannt. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 1 1 − α = 0,99 2 t(8): c = x1− α2 = x1− 0,01 = x0,995 = 3,355 (Tab. 4) Grundlagen 2 3 x̄ = s= 1 9 (184,2 + · · · + 184,4) = 184,8 q 1 2 2 8 [(184,2 + · · · + 184,4 ) − 9 Intervall-Schätzung Signifikanztests 5. Datenanalyse · 184,82 ] = 1,31 4 sc √ n 5 KI = [184,8 − 1,47; 184,8 + 1,47] = [183,33; 186,27] = 1,31·3,355 √ 9 Punkt-Schätzung 6. Repräsentation 7. Klassifikation = 1,47 Interpretation: Mit 99 % Wahrscheinlichkeit ist µ ∈ [183,33; 186,27]. 166 R Beispiel x <- c(184.2, 182.6, 185.3, 184.5, 186.2, 183.9, 185.0, 187.1, 184.4) t.test(x,conf.level=.99) ## ## ## ## ## ## ## ## ## ## ## Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen One Sample t-test Punkt-Schätzung Intervall-Schätzung Signifikanztests data: x t = 422.1, df = 8, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 0 99 percent confidence interval: 183.3 186.3 sample estimates: mean of x 184.8 5. Datenanalyse 6. Repräsentation 7. Klassifikation 167 Statistik Etschberger - SS2014 Konfidenzintervall für µ bei beliebiger Verteilung n P Voraussetzung: n > 30, bzw. falls G dichotom: 5 5 xi 5 n − 5 i=1 Vorgehensweise: 1 2 3 4 5 1. Einführung Festlegen des Konfidenzniveaus 1−α α Bestimmung des 1 − 2 -Fraktils c der Standardnormalverteilung N(0; 1) Berechnung des Stichprobenmittels x̄ sowe eines Schätzwertes σ̂ für die Standardabweichung σ der GG mittels σ, falls σ bekannt p σ̂ = x̄(1 − x̄), falls GG dichotom s, sonst 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation σ̂c Berechnung von √ n Ergebnis der Intervallschätzung: σ̂c σ̂c x̄ − √ ; x̄ + √ n n Zu Schritt 3: Manchmal kann anderer Schätzwert σ̂ sinnvoller sein. Konfidenzintervall für µ bei beliebiger Verteilung Beispiel: Poisson-Verteilung mit λ (= µ = σ2 ) unbekannt. (x1 , . . . , x40 ) = (3; 8; . . . ; 6) Gesucht: KI für λ zum Konfidenzniveau 1 − α = 0,9 168 Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung 1 1 − α = 0,9 2 N(0; 1) : c = x1− α2 = x1− 0,1 = x0,95 = 1,645 Signifikanztests 2 3 4 5 1 (3 + 8 + · · · + 6) = 6,5 40 √ √ σ̂ = x̄ = 6,5 = 2,55 (da σ2 = λ) σ̂c 2,55 · 1,645 √ = √ = 0,66 n 40 KI = [6,5 − 0,66; 6,5 + 0,66] = [5,84; 7,16] x̄ = 5. Datenanalyse 6. Repräsentation 7. Klassifikation 169 Konfidenzintervall für σ2 bei Normalverteilung Statistik Etschberger - SS2014 Vorgehensweise 1. Einführung 1 2 3 α 2- bzw. (1 − Bestimmung der 2 χ (n − 1)-Verteilung 3. W-Theorie α 2 )-Fraktile (c1 bzw. c2 ) der n X 4. Induktive Statistik Grundlagen Punkt-Schätzung Aus der Stichprobe: Berechnung der Größe (n − 1)s2 = 2 (xi − x̄) = i=1 4 2. Deskriptive Statistik Festlegen eines Konfidenzniveaus 1 − a n X Intervall-Schätzung Signifikanztests 5. Datenanalyse x2i − nx̄2 v 6. Repräsentation 7. Klassifikation i=1 Berechnung des Konfidenzintervalls (n − 1)s2 (n − 1)s2 ; c2 c1 170 KI für σ2 bei Normalverteilung Statistik Etschberger - SS2014 Beispiel: G ∼ N(µ; σ); 1. Einführung (x1 , . . . , x5 ) = (1, 1.5, 2.5, 3, 2) Gesucht: KI für σ 2 2. Deskriptive Statistik 3. W-Theorie zum Konfidenzniveau 1 − α = 0,99 4. Induktive Statistik Grundlagen Punkt-Schätzung 1 1 − α = 0,99 2 χ2 (5 − 1) : c1 = x α2 c2 = x1− α2 3 4 Intervall-Schätzung Signifikanztests = x0,005 = 0,21 5. Datenanalyse 6. Repräsentation = x0,995 = 14,86 7. Klassifikation x̄ = 15 (1 + 1,5 + 2,5 + 3 + 2) = 2 5 P x2i − 5 · x̄2 = 12 + 1,52 + 2,52 + 32 + 22 − 5 · 22 = 2,5 i=1 2,5 2,5 = 0,17; 11,9 KI = ; 14,86 0,21 (Extrem groß, da n klein.) 171 Statistik Etschberger - SS2014 Signifikanztests Vorliegen einer Hypothese über die Verteilung(en) der Grundgesamtheit(en). 1. Einführung Beispiele: 2. Deskriptive Statistik „Der Würfel ist fair.“ „Die Brenndauern zweier unterschiedlicher Glühbirnensorten sind gleich.“ 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Hypothese soll anhand einer Stichprobe überprüft werden. Prinzip: Intervall-Schätzung Signifikanztests 5. Datenanalyse Hypothese verwerfen, wenn „signifikanter“ Widerspruch zur Stichprobe. Ansonsten: Hypothese nicht verwerfen. 6. Repräsentation 7. Klassifikation Eine verworfene Hypothese gilt als statistisch widerlegt. Nicht-Verwerfung ist dagegen ein „Freispruch aus Mangel an Beweisen“. Zu Beachten: Nicht-Verwerfung ist kein „statistischer Beweis“, dass Hypothese wahr ist! („Trick“: Hypothese falsch ⇐⇒ Gegenhypothese wahr!) 172 Statistik Etschberger - SS2014 Einstichproben-Gaußtest Zunächst: G ∼ N(µ; σ) mit σ bekannt Einfache Stichprobe X1 , . . . , Xn (Null-)Hypothese H0 : µ = µ0 Beispiel: X1 , . . . , X25 mit Xi = Füllmenge der i-ten Flasche ∼ N(µ; 1,5) Nullhypothese H0 : µ = 500, d.h. µ0 = 500 Je nach Interessenlage sind unterschiedliche Gegenhypothesen möglich: a) H1 : µ 6= µ0 b) H1 : µ < µ0 c) H1 : µ > µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Entscheidung: H0 a) H1 b) H1 c) H1 : : : : µ µ µ µ = 6 = < > µ0 µ0 , µ0 , µ0 , wird abgelehnt gegenüber wenn |x̄ − µ0 | „sehr groß“ ist wenn x̄ „weit kleiner“ als µ0 ist wenn x̄ „weit größer“ als µ0 ist 173 Statistik Etschberger - SS2014 Einstichproben-Gaußtest Mögliche Fehlentscheidungen Alternatives Kriterium: v= x̄ − µ0 √ n σ Ablehnung von H0 , obwohl H0 richtig ist: Fehler 1. Art Nicht-Ablehnung von H0 , obwohl H0 falsch ist: Fehler 2. Art Vorteil: Verteilung bekannt: N(0; 1) Dann: H0 : µ = µ0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen wird abgelehnt gegenüber Punkt-Schätzung Intervall-Schätzung a) H1 : µ 6= µ0 , wenn |v| „sehr groß“ ist b) H1 : µ < µ0 , wenn v „sehr negativ“ ist c) H1 : µ > µ0 , wenn v „sehr positiv“ ist Signifikanztests 5. Datenanalyse 6. Repräsentation alten H0 beibeh H0 r 7. Klassifikation ichtig H0 ablehn en alten H0 beibeh H0 f alsch H0 ablehn en Signifikanzniveau α: Maximal erlaubte Wahrscheinlichkeit für einen Fehler 1. Art. 174 Statistik Etschberger - SS2014 Einstichproben-Gaußtest Mithilfe von α und V kann geklärt werden, was „sehr groß“ usw. heißt: Wahrscheinlichkeit für Fehler 1. Art im Fall a): |v| > x, obwohl H0 richtig: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen P(|V| > x) = P(V > x) + P(V < −x) = 2 · P(V > x) Punkt-Schätzung (Symmetrie der Normalverteilung) ! = 2 · [1 − P(V 5 x)] = 2 · [1 − Φ(x)] = α ⇐⇒ Φ(x) = 1 − α 2 Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation ⇐⇒ x = x1− α2 H0 wird demnach verworfen, wenn |v| > x1− α2 bzw. v ∈ B ist. B = (−∞; −x1− α2 ) ∪ (x1− α2 ; ∞) heißt Verwerfungsbereich. Analoge Vorgehensweise für die Fälle b) und c) 175 Statistik Etschberger - SS2014 Einstichproben-Gaußtest Rezept 1. Einführung 2. Deskriptive Statistik 1 2 3 Ein Signifikanzniveau α wird festgelegt. x − µ0 √ Der Testfunktionswert v = n wird berechnet. σ Der Verwerfungsbereich 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse B = −∞; −x1−α/2 ∪ x1−α/2 ; ∞ im Fall a) B = (−∞; −x1−α ) im Fall b) B = (x1−α ; ∞) im Fall c) 6. Repräsentation 7. Klassifikation wird festgelegt, wobei x1−α/2 bzw. x1−α das (1 − α/2)- bzw. das (1 − α)-Fraktil der N(0,1)-Verteilung ist. 4 H0 wird genau dann verworfen, wenn v ∈ B gilt. 176 Statistik Etschberger - SS2014 Einstichproben-Gaußtest Beispiel: 1. Einführung X1 , . . . , X25 mit Xi ∼ N(µ; 1,5) und x̄ = 499,28 Prüfe H0 : µ = 500, H1 : µ 6= 500 zum Signifikanzniveau α = 0,01 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Lösung: Einstichproben-Gaußtest, Fall a) Signifikanztests 5. Datenanalyse 1 α = 0,01 499,28−500 1,5 · √ 6. Repräsentation 2 v= 3 N(0; 1) : x1− α2 = x1−0,005 = x0,995 = 2,576 ⇒ B = (−∞; −2,576) ∪ (2,576; ∞) 4 25 = −2,4 7. Klassifikation v∈ / B ⇒ H0 nicht verwerfen Interpretation: Zum Signifikanzniveau 1 % kann der Brauerei keine Abweichung vom Sollwert µ0 = 500 nachgewiesen werden. 177 Statistik Etschberger - SS2014 Aufbau und Klassifikation von Signifikanztests Der jeweils geeignete Test hängt ab von . . . dem zu testenden Hypothesenpaar H0 , H1 ; unterscheide: Parametrische Hypothesen: Beziehen sich auf unbekannte(n) Verteilungsparameter (µ, σ2 , . . . ) Nichtparametrische Hypothesen: Beinhalten sonstige Aussagen, z.B. „Alter und Einkommen sind unabh.“ den Voraussetzungen an die Verteilung/parameter (z.B. G ∼ N(µ; σ)) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation den Voraussetzungen an den Stichprobenumfang (z.B. n > 30) Art und Anzahl der Stichproben; unterscheide: Signifikanztests bei einer einfachen Stichprobe Signifikanztests bei mehreren unabhängigen Stichproben Signifikanztests bei zwei verbundenen Stichproben In dieser Vorlesung: Nur einfache Stichproben 178 Statistik Etschberger - SS2014 Klassifizierung von Signifikanztests Signifikanztests bei einer einfachen Stichprobe eka σb nnt Einstichproben Gaußtest 1. Einführung ilt e σu ist ert nbe G )-v kann σ t , µ ( N G ist P dichotom und 5 ≤ xi ≤ n − 5 2. Deskriptive Statistik Einstichproben t-Test 4. Induktive Statistik Grundlagen Approximativer Gaußtest p eine einfache Stichprobe pa ra nich m t et ris ch Signifikanztests G ist ver belie teil big t n > und 30 : 2 0 H0 σ = 2 σ am ar Punkt-Schätzung Intervall-Schätzung H =0 : µ 0 µ ch r is et 3. W-Theorie 5. Datenanalyse 6. Repräsentation Approximativer Gaußtest 7. Klassifikation χ2 -Test für die Varianz G ist N(µ, σ)-verteilt χ2 -Anpassungstest H0 : F genügt einem Verteilungstyp (z.B. einer Normalverteilung) (Umfangreichere Übersicht über alle möglichen Fälle siehe Bamberg u. a. (2011), Seite 171ff.) 179 Einstichproben-t-Test und approximativer Gaußtest Statistik Etschberger - SS2014 Gegeben: Einfache Stichprobe X1 , . . . , Xn mit 1. Einführung E(Xi ) = µ, Var(Xi ) = σ2 2. Deskriptive Statistik 3. W-Theorie Hypothesenpaare: 4. Induktive Statistik Grundlagen Punkt-Schätzung a) H0 : µ = µ0 b) H0 : µ = µ0 c) H0 : µ = µ0 H1 : µ 6= µ0 (oder µ = µ0 ), H1 : µ < µ0 (oder µ 5 µ0 ), H1 : µ > µ0 Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Voraussetzungen: 1 Normalverteilung mit σ unbekannt (Einstichproben-t-Test) oder 2 Beliebige Verteilung P mit n > 30 bzw. 5 5 xi 5 n − 5 (bei B(1; p)) (approximativer Gaußtest) 180 Einstichproben-t-Test, approximativer Gaußtest Statistik Etschberger - SS2014 Ablauf: 1 Festlegen des Signifikanzniveaus α 2 Berechnen des Testfunktionswertes: x̄ − µ0 √ n s x̄ − µ √ 0 v= n σ √ x̄ − µ0 n p µ0 (1 − µ0 ) 3 1. Einführung 2. Deskriptive Statistik 3. W-Theorie falls Grundgesamtheit N(µ; σ)-verteilt, σ unbekannt oder falls Verteilung der GG beliebig, n > 30, σ unbekannt falls Verteilung der GG beliebig, n > 30, σ bekannt 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse falls GG gemäß B(1; µ)-verteilt, n > 30 6. Repräsentation 7. Klassifikation Festlegen des Verwerfungsbereichs B: Falls H1 : µ 6= µ0 : Falls H1 : µ < µ0 : Falls H1 : µ > µ0 : B = (−∞; −x1−α/2 ) ∪ (x1−α/2 ; ∞) B = (−∞; −x1−α ) B = (x1−α ; ∞) Dabei steht x1−α/2 bzw. x1−α für das jeweilige Fraktil der t(n − 1)-Verteilung bei n ≤ 29 bzw. der N(0; 1)-Verteilung bei n ≥ 30. 181 Einstichproben-t-Test: Beispiel Statistik Etschberger - SS2014 Beispiel t-Test: Energieaufnahme von Frauen Empfohlene täglich Energieaufnahme für Frauen: 7724 kJ (1845 kcal) Nehme einfache Stichprobe von 11 Frauen und teste zum Signifkanzniveau α = 0,05 für H0 : „Der Erwartungswert der täglichen Energieaufnahme für Frauen ist 7724 kJ“ (µ0 ) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung gegen H1 : µ 6= µ0 Intervall-Schätzung Signifikanztests daily.intake <- c(5260, 5470, 5640, 6180, 6390, 6515, 6805, 7515, 7515, 8230, 8770) t.test(daily.intake, alternative="two.sided", mu=7724, conf.level=0.95) ## ## ## ## ## ## ## ## ## ## ## 5. Datenanalyse 6. Repräsentation 7. Klassifikation One Sample t-test data: daily.intake t = -2.818, df = 10, p-value = 0.01823 alternative hypothesis: true mean is not equal to 7724 95 percent confidence interval: 5986 7521 sample estimates: mean of x 6754 182 Einstichproben-t-Test, approx. Gaußtest Statistik Etschberger - SS2014 Beispiel: X1 , . . . , X2000 ∼ B(1; p) mit 1, falls i-te Person Wähler einer bestimmten Partei Xi = 0, sonst 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Ergebnis der Stichprobe: 2000 P xi = 108 i=1 Prüfe H0 : p 5 0,05 gegen H1 : p > 0,05 zum Signifikanzniveau 2 % 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 5. Datenanalyse Lösung: 6. Repräsentation approximativer Gaußtest bei dichotomer (zweiwertiger) Verteilung; Voraussetzung 2 erfüllt: 5 5 108 5 2000 − 5 7. Klassifikation 1 α = 0,02 108 2 v = √ 2000 −0,05 0,05·(1−0,05) √ 2000 = 0,82 3 N(0; 1) : x1−α = x0,98 = 2,05 (Tabelle) ⇒ B = (2,05; ∞) 4 v∈ / B ⇒ H0 nicht verwerfen Zusatzfrage: Entscheidung, falls α = 0,01? → Keine Änderung! 183 Statistik Etschberger - SS2014 Chi-Quadrat-Test für die Varianz Gegeben: Einfache Stichprobe X1 , . . . , Xn ∼ N(µ; σ) Hypothesenpaare: 1. Einführung a) 2 H0 : σ = σ20 b) H0 : σ2 = σ20 c) 2 H0 : σ = σ20 2 H1 : σ 6= (oder σ2 = σ20 ), 2 (oder σ 5 σ20 ), σ20 H1 : σ2 < σ20 2 H1 : σ > σ20 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests Vorgehensweise: 5. Datenanalyse 1 Festlegen des Signifikanzniveaus α. 6. Repräsentation 2 Berechnung des Testfunktionswertes: 7. Klassifikation n (n − 1)s2 1 X v= = 2 (xi − x̄2 ) σ20 σ0 i=1 3 Festlegen des Verwerfungsbereichs: B = 0; xα/2 ∪ x1−α/2 ; ∞ im Fall a) B = [0; xα ) im Fall b) B = (x1−α ; ∞) im Fall c) 184 Chi-Quadrat-Test für die Varianz Statistik Etschberger - SS2014 Beispiel: G ∼ N(µ; σ) (x1 , . . . , x10 ) = (2100; 2130; 2150; 2170; 2210; 2070; 2230; 2150; 2230; 2200) Prüfe H0 : σ = 40, H1 : σ 6= 40 zum Signifikanzniveau α = 0,1 1. Einführung 2. Deskriptive Statistik 3. W-Theorie Lösung: χ2 -Test für die Varianz, Hypothese Fall a); Voraussetzungen sind erfüllt 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Signifikanztests 1 α = 0,1 2 x̄ = 1 10 v= 1 402 3 5. Datenanalyse (2100 + 2130 + · · · + 2200) = 2164 6. Repräsentation 7. Klassifikation [(2100 − 2164)2 + · · · + (2200 − 2164)2 ] = 16,65 χ2 (9) : x α2 = x0,05 = 3,33; x1− α2 = x0,95 = 16,92 (Tabelle der χ2 -Verteilung) ⇒ B = [0; 3,33) ∪ (16,92; ∞) 4 v∈ / B ⇒ H0 nicht verwerfen 185 Zwei verbundene einfache Stichproben: Kontingenztest Statistik Etschberger - SS2014 Situation: In Grundgesamtheit G: Zwei verbundene einfache Stichproben, also Beobachtung zweier Merkmale X, Y Hypothese: 1. Einführung 2. Deskriptive Statistik H0 : Die beiden Merkmale X und Y sind in G unabhängig. H1 : X und Y sind in G abhängig. 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung Intervall-Schätzung Vorgehensweise Kontingenztest: Signifikanztests 5. Datenanalyse 1 Festlegen des Signifikanzniveaus α. 2 Unterteilung der x-Achse in k ≥ 2 und die y-Achse in l ≥ 2 disjunkte, aneinander angrenzende Intervalle A1 , . . . , Ak bzw. B1 , . . . , Bl 3 Erstellen einer Kontingenztabelle mit Randhäufigkeiten: 6. Repräsentation x↓ y→ B1 B2 ··· Bl A1 A2 . . . Ak h11 h21 . . . hk1 h12 h22 .. . hk2 ··· ··· . . . ··· h1l h2l . . . hkl hk• h•1 h•2 ··· h•l n 7. Klassifikation h1• h2• 186 Zwei verbundene einfache Stichproben: Kontingenztest Statistik Etschberger - SS2014 Vorgehensweise Kontingenztest (Fortsetzung): 4 Zu jeder Kombination aus i = 1, . . . , k und j = 1, . . . , l: Berechnung der Größe 1. Einführung 2. Deskriptive Statistik h̃ij = hi• · h•j n 3. W-Theorie 4. Induktive Statistik Grundlagen Punkt-Schätzung 5 Intervall-Schätzung Berechnung des Testfunktionswerts v: Signifikanztests 5. Datenanalyse v= k X l X i=1 j=1 6 h̃ij − hij h̃ij 2 = k X l X h2ij i=1 j=1 h̃ij 6. Repräsentation −n 7. Klassifikation Mit dem Fraktilswert x1−α der χ2 -Verteilung mit (k − 1) · (l − 1) Freiheitsgraden: Berechnung des Verwerfungsbereichs B = (x1−α ; ∞) 7 Ablehnung von H0 genau dann, wenn v ∈ B. 187 Statistik Etschberger - SS2014 Zwei verbundene einfache Stichproben: Kontingenztest Kontingenztest: Beispiel 400 Erstkandidaten einer praktischen Führerscheinprüfung schneiden abhängig von der besuchten Fahrschule folgendermaßen ab: 4 Berechnung der h̃ij : 1. Einführung best. durchg. Fahrschule A B C 130 70 88 38 62 12 A B C 140 60 88,2 37,8 51,8 22,2 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Grundlagen bestanden durchgefallen Zum Signifikanzniveau von 5 % soll getestet werden, ob das Bestehen der Prüfung unabhängig von der besuchten Fahrschule ist. Punkt-Schätzung 5 (130 − 140)2 + ... v= 140 (12 − 22,2)2 + 22,2 ≈ 9,077 Intervall-Schätzung Signifikanztests 5. Datenanalyse 6. Repräsentation 7. Klassifikation Testdurchführung 6 χ2 -Verteilung mit (3 − 1) · (2 − 1) = 2 Freiheitsgraden: x1−0,05 = x0,95 = 5,99: 1 Signifikanzniveau α = 5 % 2 entfällt, da Skalenniveau nominal 3 Kontingenztabelle: best. durchg. P B = (5,99; ∞) P A B C 130 70 88 38 62 12 280 120 200 126 74 400 7 v ∈ B: Also wird H0 abgelehnt, die Prüfungsergebnisse sind abhängig von der Fahrschule. 188 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation 5 Datenanalyse Einleitung Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess Statistik Etschberger - SS2014 Einleitung Problemstellung 1. Einführung 2. Deskriptive Statistik Synonym: Multivariate Datenanalyse, Numerische Taxonomie, Multivariatenanalyse 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Aufgaben: Analyse von Zusammenhängen und Ähnlichkeitsbeziehungen zwischen Elementen einer bestimmten Menge Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation Teilgebiet der Statistik 7. Klassifikation Einsatz sinnvoll bei großen Datenmengen mit mehr als einem Merkmal Ausgangspunkt: Datenmatrix oder Distanzmatrix. 190 Statistik Etschberger - SS2014 Datenmatrix Die Datenmatrix enthält zeilenweise Objekte (Merkmalsträger, cases) enthält spaltenweise Merkmale (variables, items) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Beispiel Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse type income education prestige prof bc prof prof bc 76 42 64 72 14 98 26 93 86 22 89 19 93 88 16 Datenanalyse: Prozess 6. Repräsentation lawyer streetcar.motorman professor engineer cook 7. Klassifikation (Auszug aus Daten von Duncan (1961)) 191 Statistik Etschberger - SS2014 Distanzen Die Distanzmatrix 1. Einführung enthält zeilen- und spaltenweise Objekte. 2. Deskriptive Statistik Die Einträge der Matrix sind Werte für die Verschiedenheit (Distanzen) zweier Objekte. 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Beispiel Dreiteilung der Datenanalyse Datenanalyse: Prozess lawyer streetcar.motorman professor engineer 0.000 0.851 0.078 0.059 0.987 0.851 0.000 0.799 0.792 0.136 0.078 0.799 0.000 0.072 0.935 0.059 0.792 0.072 0.000 0.928 6. Repräsentation cook 7. Klassifikation lawyer streetcar.motorman professor engineer cook 0.987 0.136 0.935 0.928 0.000 192 Statistik Etschberger - SS2014 Teilbereiche 3 Teilbereiche der Datenanalyse nach dem Zweck der Anwendung 1. Einführung Datenverdichtende Verfahren (deskriptiv) Strukturprüfende Verfahren (induktiv) Kennzahlen Varianzanalyse Indizes Regressionsanalyse 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Faktorenanalyse logistische Regression Dreiteilung der Datenanalyse Datenanalyse: Prozess Diskriminanzanalyse Strukturaufdeckende Verfahren (explorativ) Conjoint-Analyse 6. Repräsentation 7. Klassifikation Kreuztabellen Faktorenanalyse Clusteranalyse MDS Korrespondenzanalyse 193 Klassische Anwendungsbereiche der Datenanalyse Marketing/ Marktforschung Marktsegmentierung Kundentypisierung Statistik Etschberger - SS2014 Medizin Hilfe bei Diagnosen 1. Einführung Überprüfung von Therapieerfolgen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Aufdecken von Marktnischen Ermittlung von Marktreaktionen Sozialwissenschaften Einstellungsanalysen Volkswirtschaft 5. Datenanalyse Grundbegriffe Anwendungsbereiche Input-Output-Analysen zur Abgrenzung und Aggregation von Wirtschaftssektoren Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation 7. Klassifikation Qualifikationsprofile Bibliothekswesen Biologie Zuordnung von Pflanzen oder Tieren zu Gattungen Katalogisierung Auffinden von ähnlichen Werken 194 Dreiteilung Statistik Etschberger - SS2014 Die klassische Dreiteilung der Datenanalyse 1. Einführung Segmentierung (Clusteranalyse): Zusammenfassung von Objekten zu homogenen Klassen aufgrund von Ähnlichkeiten in wichtigen Merkmalsbereichen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Repräsentation: Darstellung von Objekten durch Punkte im 2- oder 3-dimensionalen Raum, wobei Ähnlichkeitsbeziehungen durch räumliche Nähe zum Ausdruck kommen sollen Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation 7. Klassifikation Identifikation: Reproduktion einer gegebenen Segmentierung oder Repräsentation mit Hilfe weniger aussagekräftiger Merkmale (Ziel: Prognose, Klassifikation) 195 Statistik Etschberger - SS2014 Dreiteilung: Methoden Hauptkomponentenanalyse Korrespondenzanalyse Repräsentation 1. Einführung 2. Deskriptive Statistik 3. W-Theorie MDS 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Hierarchie Datenanalyse Dreiteilung der Datenanalyse Segmentierung Clusteranalyse Datenanalyse: Prozess Partition einer Repräsentation Varianzanalyse 6. Repräsentation 7. Klassifikation Regression Conjointanalyse Identifikation einer Klassifikation Diskriminanzanalyse 196 Ablauf einer datenanalytischen Untersuchung Statistik Etschberger - SS2014 1. Präzisierung des Untersuchungsziels Formulierung der Zielsetzung Abgrenzung der Untersuchungsobjekte Ableitung der taxonomischen Aufgabenstellung Segmentierung Repräsentation Identifikation 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche 2. Diskussion der Datenbasis Dreiteilung der Datenanalyse Datenanalyse: Prozess Auswahl der Merkmale Festlegung des Skalenniveaus oder 6. Repräsentation 7. Klassifikation Charakterisierung der Objekte durch direkte Vergleiche 3. Datenerhebung und -erfassung Primär- oder Sekundärerhebung Vollerhebung oder Teilerhebung (Stichprobenauswahl!) Datencodierung und ggf. Dateneingabe in DV-Systeme 197 Ablauf einer datenanalytischen Untersuchung Statistik Etschberger - SS2014 4. Datenanalyse Univariate Datenanalyse (Screening, erster Einblick in die Merkmalsstruktur, Plausibilitätsprüfung) −→ Deskriptive Verfahren Multivariate Datenanalyse (nicht ’statistics all’, sondern Verfahrenseinsatz nach Aufgabenstellung und Zielsetzung) −→ Explorative und induktive Verfahren 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Grundbegriffe Anwendungsbereiche Dreiteilung der Datenanalyse Datenanalyse: Prozess 6. Repräsentation 7. Klassifikation 5. Interpretation der Ergebnisse Klassenstatistiken und Bezeichnungen bei Clusteranalysen Benennung der Achsen bei Repräsentationsverfahren Überprüfen der Modellqualität z.B. mittels Test- bzw. Validierungsdaten bei Identifikationsverfahren 198 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation Bildquelle: Newton (2007) 6 Repräsentation Einführung Hauptkomponentenanalyse Statistik Etschberger - SS2014 Repräsentation Ziele der Repräsentation Anordnung der Objekte in einem möglichst niedrig dimensionierten Raum, so dass die relative Lage der sich ergebenden Punkte (Objekte) die Ähnlichkeit der Objekte angemessen beschreibt. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Dimension 2 Aufdeckung von Gruppierungen leichter (Kontrolle einer Klassifikation) Einführung Hauptkomponentenanalyse 7. Klassifikation Durch Interpretation der Achsen evtl. Aufschluss über den Grund der Lage bestimmter Objekte Dimension 1 200 Statistik Etschberger - SS2014 Repräsentation Varianten der Repräsentation: Hauptkomponentenanalyse Berechnung der Repräsentation aus Varianz-Kovarianz-Strukturen der Datenmatrix 1. Einführung 2. Deskriptive Statistik A = (aik )n×m Hauptkomponentenanalyse −→ X = (xik )n×q 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Vorgehen: Datenmatrix wird direkt verarbeitet Problem: Lassen sich die m quantitativen Merkmale sinnvoll durch q (meist 2 oder 3) sogenannte Faktoren ersetzen? Voraussetzung: Datenmatrix darf nur metrische Merkmale enthalten 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Typische Fragestellungen der Hauptkomponentenanalyse in der Marktforschung Läßt sich die Vielzahl der Eigenschaften, die die Käufer einer Marke als wichtig empfinden, auf wenige komplexe Faktoren reduzieren? Wie lassen sich darauf aufbauend die verschiedenen Marken anhand dieser Faktoren beschreiben? 201 Statistik Etschberger - SS2014 Repräsentation Varianten der Repräsentation: Mehrdimensionale Skalierung Berechnung der Repräsentation aus der Distanzmatrix 1. Einführung Distanz MDS A = (aik )n×m −→ D = (dij )n×n −→ X = (xil )n×q 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Meistens: q ∈ {1,2,3} Datenmatrix wird nicht direkt verarbeitet; Umweg über Distanzmatrix Keine Anforderung an das Skalenniveau der Merkmale 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Typische Fragestellungen der MDS in der BWL: Welche Produkte einer Gruppe sind sich ähnlich/unähnlich? Inwieweit entspricht das eigene Produkt den Idealvorstellungen der Konsumenten? Welches Image besitzt eine bestimmte Marke? Hat sich die Einstellung der Konsumenten zu einer Marke in den letzten Jahren verändert 203 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Idee Faktorenanalyse: Grundlegende Idee 1. Einführung Welche Aussagen lassen sich über die Struktur des Zusammenhangs von Merkmalsvariablen treffen? Idee: Darstellung der Struktur in den Daten durch paarweise Korrelationen Bei m gemessenen Merkmalen gibt es m·(m−1) 2 Korrelationen 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation m groß: Analyse des gesamten Variablenkomplexes dann oft schwierig. Einschränkung: HKA ist bivariate Analyse; betrachtet also nur jeweils den Zusammenhang je zweier Variablen; Beziehungen zwischen mehr als zwei Merkmalen werden nicht berücksichtigt 204 Statistik Etschberger - SS2014 Hauptaufgaben Hauptaufgaben der Faktorenanalyse 1. Einführung Extraktion von hypothetischen Merkmalen, den sog. Faktoren, aus den Merkmalen und ihren Beziehungen Also: Korrelierende Merkmale werden zu Merkmalspaketen zusammengefasst (Faktorenextraktion) Damit Reduktion der Komplexität in den Ausgangsdaten: Anstelle von m Variablen wenige Faktoren 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Dabei: Möglichst wenig Informationsverlust Durch Datenkompression: Evtl. leichtere Interpretation und Übersicht Außerdem: Faktoren sind konstruktionsbedingt unkorreliert und damit qualifiziert als Ausgangsbasis für korrelationssensible Verfahren (z.B. Regression) 205 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Bevorzugte Variante der Faktorenanalyse bei metrischen Datenmatrizen: Hauptkomponentenanalyse. Dabei unterstellt: Lineare Beziehung zwischen den ursprünglich erhobenen und den neu zu bestimmenden hypothetischen Größen (Faktoren). k Damit: Merkmalsvektoren a (Spaltenvektor) lassen sich als Linearkombination von q Faktoren x1 , ..., xq (Spaltenvektoren) darstellen. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Im Falle q = m immer möglich: k a = m X fki xi (k = 1, . . . , m) i=1 206 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Faktoren und Ladung Faktoren und Ladungsvektoren Matriziell: A = X · FT bzw. mit Koeffizienten: 1. Einführung a ··· 11 . . . ai1 . . . an1 ··· ··· x 11 a1m . . . . . . aim = .. . . . . . . . anm xn1 ··· . . . xik . . . ··· 2. Deskriptive Statistik x1q . . . f11 . . . · . . . f1q . . . xnq 3. W-Theorie ··· .. . ··· fk1 . . . fkq ··· .. . ··· fm1 . . . fmq 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Mit: xip xp X als als als Faktorwert Faktor Faktorwertematrix fkp fk F als als als Faktorladung Ladungsvektoren Faktorladungsmatrix Damit: Ein Objekt i, dargestellt durch die Zeile i der Datenmatrix A wird nun mit Hilfe der Zeile i der Faktorwertematrix X repräsentiert 207 Hauptkomponentenanalyse: Informationsgehaltt Problem: Ist diese Darstellung ohne großen Informationsverlust möglich? Dazu nötig: Maß für den Informationsgehalt einer Daten- bzw. Faktorwertematrix Also: Kovarianzmatrizen S = Cov(A) und C = Cov(X) als Basis für Informationsmaß Übliche Annahme: Informationsgehalt von Merkmalen/Faktoren ist umso größer, je größer die Varianz dieser Merkmale/Faktoren ist. Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Damit: Maß für Gesamtvariabilität aller Merkmale/Faktoren über Summe der Varianzen aller betrachteten Merkmale/Faktoren Spur(S) bzw. Spur(C) ermöglicht so einen Vergleich des Informationsgehaltes der beiden Matrizen. (Summe der Varianzen entspricht Spur der Kovarianzmatrix) 208 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Informationsgehalt Berechnung des Informationsgehaltes Für Datenmatrix A: Kovarianzmatrix S = (skl )m×m : 1. Einführung skl 1 = n n X mit ā·k (aik − ā·k )(ail − ā·l ) i=1 1 = n n X 2. Deskriptive Statistik aik i=1 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Maß für die Gesamtinformation von A: 6. Repräsentation Einführung Spur S = m X skk k=1 1 = n n X m X Hauptkomponentenanalyse (aik − ā·k )2 7. Klassifikation i=1 k=1 Analog für Faktorwertematrix X: Kovarianzmatrix C = (ckl )q×q und Spur(C): Spur(C) = q X k=1 1 XX = (xik − x̄·k )2 n n ckk q i=1 k=1 209 Beispiel Informationsgehalt 22 5 25 10 21 4 Gegeben: Datenmatrix A = 28 13 24 8 A soll mit Hilfe zweier unterschiedlicher Faktorkombinationen repräsentiert werden Faktorkombination 1 bzw. 2 ist dabei gegeben durch die Faktorladungsmatrizen F 0 bzw. F 00 gemäß 0,6 0,8 0,9 0,2 F0 = bzw. F 00 = 0,8 −0,6 0,8 −0,5 Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Frage: Wie gut sind die beiden daraus resultierenden Repräsentationen? 210 Statistik Etschberger - SS2014 Beispiel Informationsgehalt Beispiel - Berechnung Kombination 1 Berechnet man für die Matrix A die Kovarianzmatrix S und die Spur S, so ergeben sich folgende Werte: 6 8 S= ⇒ Spur(S) = 6 + 10,8 = 16,8 8 10,8 Mit Hilfe der Faktorladungsmatrix F 0 und X = A · (F 0T )−1 ergibt sich für X 0 folgendes: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation 17,2 23 X0 = 15,8 27,2 20,8 14,6 14 14,4 14,6 14,4 sowie C = 16,752 −0,064 −0,064 0,048 ⇒ Spur(C) = 16,752 + 0,048 = 16,8 211 Repräsentation: Beispiel 1 Statistik Etschberger - SS2014 Beispiel - Interpretation Kombination 1 1. Einführung Mit Hilfe der neuen Repräsentation kann die Objektmenge ohne Informationsverlust dargestellt werden. (Spur S = Spur C = 16,8) Die neue Darstellung hat darüber hinaus den Vorteil, dass die entstandenen Faktoren (nahezu) unkorreliert sind, während die ursprünglichen Merkmale eine hohe Korrelation aufweisen. Es gilt nämlich: 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation → Korrelation (a1 , a2 ) = 0,9938 → Korrelation (x1 , x2 ) = −0,0714 Beschränkt man sich auf eine Darstellung der Objekte mit Hilfe des 11 ersten Faktors, so können immerhin noch c11c+c ≈ 99,71% der 22 Informationen dargestellt werden. 212 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 1 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Merkmal 2 1. Einführung 2. Deskriptive Statistik ) 0 2 1 3. W-Theorie ,f 0 1 10 4. Induktive Statistik f1 ·( 5. Datenanalyse 6. Repräsentation 10 Einführung Hauptkomponentenanalyse 7. Klassifikation 10 · 5 (f 0 21 , f20 2) 20 22 24 25 26 28 30 Merkmal 1 213 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 1 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Faktor 2 1. Einführung 2. Deskriptive Statistik 15 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung 10 Hauptkomponentenanalyse 7. Klassifikation 5 0 14 16 18 20 22 24 26 Faktor 1 214 Statistik Etschberger - SS2014 Repräsentation: Beispiel 2 Beispiel - Berechnung Kombination 2 Wie oben bereits erwähnt ergibt sich für die Matrix A die Kovarianzmatrix S und die Spur(S) wie folgt: 6 8 S= ⇒ Spur(S) = 6 + 10,8 = 16,8 8 10,8 Mit Hilfe der Faktorladungsmatrix F 00 und X = A · (FT )−1 ergibt sich für X 00 folgendes: 19,67 23,77 X 00 = 18,52 27,21 22,29 21,47 18,03 21,63 17,54 19,67 sowie C = 9,49 −5,01 −5,01 2,87 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation ⇒ Spur(C) = 9,49 + 2,87 = 12,36 215 Repräsentation: Beispiel 2 Statistik Etschberger - SS2014 Beispiel - Interpretation Kombination 2 1. Einführung Mit Hilfe dieser zweiten Repräsentation kann die Objektmenge nicht ohne Informationsverlust dargestellt werden. (Spur S = 16,8 und Spur(C) = 12,36) Die neue Darstellung hat darüber hinaus den Nachteil, dass die entstandenen Faktoren fast genauso hoch (absolut) korreliert sind wie die ursprünglichen Merkmale. Es gilt nämlich: 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Korrelation (a1 , a2 ) = −0,9938 Korrelation (x1 , x2 ) = −0,9597 Somit stellt sich also die Frage, wie die Repräsentation und damit die Faktorladungsmatrix F optimal gewählt werden soll. 216 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 2 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 0 Merkmal 2 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 10 10 · 00 ) 00 (f 11, f 12 Einführung Hauptkomponentenanalyse 7. Klassifikation 10 5 · (f 00 21 , f200 2) 20 22 24 25 26 28 30 Merkmal 1 217 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Beispiel 2 Beispiel: Graphik der Datenmatrix mit Faktorladungen von F 00 Faktor 2 1. Einführung 2. Deskriptive Statistik 24 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 22 6. Repräsentation Einführung Hauptkomponentenanalyse 20 7. Klassifikation 18 16 14 14 16 18 20 22 24 26 Faktor 1 218 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Satz 1 der Hauptkomponentenanalyse 1. Einführung Sei A = X · FT und F orthogonal (d.h. FT · F = F · FT = E), dann gilt: 2. Deskriptive Statistik 3. W-Theorie 1 2 Spur S = Spur C C = FT · S · F 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Bemerkungen: Spur S = Spur C ↔ Information bleibt erhalten F orthogonal ⇒ A = X · FT ⇔ A · F = X · FT · F = X T ckk = fk · S · fk , d.h. der durch den Faktor xk erklärte Anteil der Varianz hängt nur von fk ab. 219 Statistik Etschberger - SS2014 Faktorenwahl der HKA Hauptkomponentenanalyse: Problem der Faktorenwahl Ziel der HKA: Merkmalsreduktion, d.h., man möchte mit wenigen, unkorrelierten Faktoren auskommen und trotzdem einen Großteil der Information darstellen. Die durch die Faktoren erklärten Varianzanteile sollen mit wachsendem Index abnehmen, d.h., Faktor x1 soll den größtmöglichen Varianzanteil erklären, Faktor x2 den zweitgrößten Anteil ... 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Also: c11 ≥ c22 ≥ c33 ≥ . . . ≥ cqq für q ≤ m Hauptkomponentenanalyse 7. Klassifikation Optimierungsproblem: 1 max c11 = max f1 T 2T 2 max c22 = max f 3 ... · S · f1 · S · f2 mit f1 T 2T mit f · f1 = 1 · f2 = 1 und f2 T · f1 = 0 Oder Allgemein: Optimierungsproblem (∗): T T max ckk = max fk · S · fk mit fk · fk = 1 T und fk · fl = 0 für l = 1, ..., k − 1 220 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Satz 2 der Hauptkomponentenanalyse Die Lösung der Optimierungsprobleme (∗) impliziert folgendes Eigenwertproblem von S: (S − λ · E) · f = 0 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation mit Einführung c11 , c22 , c33 , . . . , cmm ≥ 0 sind Eigenwerte von S T Hauptkomponentenanalyse 7. Klassifikation T f1 , f2 , . . . , fq mit fk · fk = 1, fk · fl = 0(l 6= k) sind Eigenvektoren von S c11 0 .. Für die Matrix C gilt: C = . 0 cqq 221 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Konsequenzen aus Satz 2 der HKA A = X · FT ↔ X = A · F → Faktoren x1 = A · f1 , . . . , xm = A · fm 1. Einführung 2. Deskriptive Statistik 3. W-Theorie C ist Diagonalmatrix → Faktoren sind paarweise unkorreliert. Numerierung der Faktoren x1 , . . . , xm derart, dass λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0 P → x1 erklärt mit λ1 / P λk den größten Anteil der Varianz → x2 erklärt mit λ2 / λk den zweitgrößten Anteil ... 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Bewertung des Informationsverlustes einer Merkmalsreduktion auf q < m Faktoren h i λ1 +...+λq c11 +...+cqq b(q) = 1 − λ1 +...λm = 1 − c11 +...+cmm ∈ [0,1] und b(m) = 0 222 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Vorgehensweise der HKA 1. Einführung Datenmatrix A, maximaler Informationsverlust b0 2. Deskriptive Statistik 3. W-Theorie Berechne Kovarianzmatrix S 4. Induktive Statistik 5. Datenanalyse Löse Eigenwertproblem (S − λ · E) · f = 0 6. Repräsentation Einführung Hauptkomponentenanalyse λ1 = c11 ≥ λ2 = c22 ≥ . . . ≥ λm = cmm ≥ 0 7. Klassifikation (f1 , f2 , . . . , fm ) = F Bestimme q minimal, so dass b(q) = 1 − λ1 +...+λq λ1 +...+λm ≤ b0 Ladungsmatrix Fq = (f1 , f2 , . . . , fq ) Faktorwertematrix Xq = A · Fq = (x1 , x2 , . . . , xq ) 223 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Beispiel 1 - Hauptkomponentenanalyse Für die Produkte P1 , P2 , P3 und P4 konnten bezüglich der Merkmale M1 , M2 und M3 folgende Werte erhoben werden: 6 0 0 8 8 4 A= 0 4 0 2 8 8 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren Sie diese. 7. Klassifikation Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie die Ergebnisse. Bestimmen Sie die Faktorwertematrix und stellen Sie diese zweidimensional dar. Betten Sie die ursprünglichen Merkmalsvektoren in den Faktorwerteplot ein. 224 Statistik Etschberger - SS2014 Hauptkomponentenanalyse Beispiel 2 - Hauptkomponentenanalyse Gegeben ist die folgende Datenmatrix: −9 −9 3 1 16 A = 16 −12 −11 0 −2 1. Einführung 1 7 −2 20 −1 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Berechnen Sie die Kovarianzmatrix der Merkmale und interpretieren Sie diese. 7. Klassifikation Lösen Sie das zugehörige Eigenwertproblem und interpretieren Sie die Ergebnisse. Bestimmen Sie die Faktorwertematrix und stellen Sie diese zweidimensional dar. Betten Sie die ursprünglichen Merkmalsvektoren in den Faktorwerteplot ein. 226 Statistik Etschberger - SS2014 Hauptkomponentenanalyse: Interpretation Interpretationshilfen Aussage über den Zusammenhang rkp zwischen den ursprünglichen Merkmalen ak und den Hauptkomponenten (Faktoren) xp z.B. wie folgt: 1. Einführung 1 n rkp = n P 2. Deskriptive Statistik (aik − ā·k )(xip − x̄·p ) i=1 √ √ skk cpp , k = 1, . . . , m p = 1, . . . , q 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Korrelationskoeffizient rkp : Zusätzlicher Anhaltspunkt bei der Interpretation der Analyseergebnisse 6. Repräsentation Einführung Hauptkomponentenanalyse Kommunalitäten 7. Klassifikation Mit Korrelationskoeffizienten rkp : Anteil der auf die ersten q Faktoren (p = 1, ..., q) übertragene Information des k-ten Merkmals ak berechenbar Dazu: Kommunalität kk mit kk = q X r2kp ∈ [0,1] für k = 1, . . . , m p=1 kk gibt an, wieviel Prozent der Informationen des (standardisierten) Merkmals ak noch in den Faktoren x1 . . . xq enthalten sind. 230 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Wahl der Repräsentationsdimension Allgemeingültige Kriterien zur Bestimmung einer problem-adäquaten Repräsentationsdimension q sind nicht bekannt. Man kann sich aber an den folgenden Regeln orientieren: 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Man wählt ein q aus, bei dem man bei weiterer Reduktion der Faktorenzahl einen verhältnismäßig hohen zusätzlichen Informationsverlust hätte (Ellenbogenkriterium). Man wählt ein minimales q ≥ 1 mit b(q) < bmax , d.h. ein q mit maximal zu akzeptierendem Informationsverlust , (mit z.B.: b0 = 10% oder b0 = 25%). 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation Man wählt ein maximales q ≤ m mit λq ≥ (λ1 + . . . + λm )/m, d.h. man gibt vor, dass jeder Faktor mindestens die durchschnittliche Merkmalsvarianz erklären soll (Kaiser-Kriterium). 231 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Schlußbemerkungen zur Hauptkomponentenanalyse Die HKA hat einige Vorteile: Statt Untersuchungsobjekte durch kaum übersehbare und hochkorrelierte Merkmalsbatterien zu beschreiben, gelangt man zu wenigen und wichtigen und weitgehend orthogonalen Dimensionen des Merkmalsraumes, 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik in dem Untersuchungsobjekte anhand ihrer Faktorwerte positioniert sind 5. Datenanalyse 6. Repräsentation Einführung Fehlinterpretationsmöglichkeiten I Hauptkomponentenanalyse 7. Klassifikation Die HKA projiziert mit Hilfe einer linearer Abbildung die m-dimensionalen Untersuchungsobjekte (unter Verwendung der Matrix Xq ) und die m Merkmale ak (unter Verwendung der Matrix Fq ) in einen gemeinsamen q-dimensionalen Teilraum. Deswegen: Sowohl die Objekte als auch die Merkmalsvektoren dürfen nur relativ zueinander interpretiert werden. Absolute Aussagen über die Lage der Objekte hinsichtlich der einzelnen Merkmalsvektoren gelten nur approximativ. 232 Hauptkomponentenanalyse Statistik Etschberger - SS2014 Fehlinterpretationsmöglichkeiten II Wesentlich: Zahl und Art der Merkmale, die in die FA eingehen. Aus den entsprechenden Gleichungen wird deutlich, daß auf einem Faktor jene Merkmale hoch laden, die auch hoch korreliert sind. Wenn ein Faktor durch sehr viele gleichartige Merkmale vertreten ist, so laden diese auch hoch auf ihm. Die Extraktion des ersten Faktors nach dem Kriterium des höchsten Varianzbeitrages wird dann als bedeutendsten Faktor jenen präsentieren, der durch viele Merkmale vertreten ist. Damit zeigt sich aber, daß die FA für sich allein genommen nicht in der Lage ist, die Wichtigkeit von Merkmalsbereichen zu ermitteln (→ Conjointanalyse) Bei Wahl von Merkmalen aus unterschiedlichen Bereichen (z.B. soziodemographische und psychographische Merkmale), so kommt es vor, dass die unterschiedlichen Merkmale auf ein und denselben Faktor laden. Interpretation des Faktors dann wenig sinnvoll bzw. schwierig. Gängig: Faktoren nach dem am höchsten ladenden Merkmalen benennen (Leitvariablenkonzept). Führt unter Umständen zu einer Vernachlässigung relevanter Informationen für die Beschreibung der Untersuchungsobjekte. Hauptkomponentenanalyse 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse 7. Klassifikation 233 Statistik Etschberger - SS2014 Kovarianz- oder Korrelationsmatrix? Die Hauptkomponentenanalyse kann statt mittels der Kovarianzmatrix von A auch auf Basis der Korrelationsmatrix von A durchgeführt werden. 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Aber: die Eigenwerte und Eigenvektoren der Kovarianzmatrix können nicht in die der Korrelationsmatrix überführt werden und geben deshalb unterschiedliche Informationen. 5. Datenanalyse 6. Repräsentation Einführung Hauptkomponentenanalyse Vorteile der Korrelationsmatrix: 7. Klassifikation - Die Ergebnisse zweier Analysen können direkt miteinander verglichen werden - Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der Einheiten der Merkmale Vorteil der Kovarianzmatrix: - Hauptkomponentenanalyse basierend auf Kovarianzmatrizen ist sehr sensitiv bzgl. der Einheiten der Merkmale (Manchmal möchte man diesen Umstand benutzen) 234 Statistik: Table of Contents 1 Statistik: Einführung 2 Deskriptive Statistik 3 Wahrscheinlichkeitstheorie 4 Induktive Statistik 5 Datenanalyse Einleitung 6 Repräsentation 7 Klassifikation Bildquelle: Newton (2007) 7 Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Finanzkrise und Kreditausfälle Kreditausfälle Mai 2009: Kreditkartenkonzern American Express Co.: Kreditausfallraten im April 2009 erstmals auf mehr als 10 Prozent Herbst 2013: Commerzbank: Kreditausfallrate bei Mittelstandskrediten stark gestiegen Typisches Problem: Wie kann bekannte Information über Kreditantragsteller benutzt werden, um Bonität zu beurteilen? Statistik Etschberger - SS2014 Klassifikation Problemstellung in der Klassifikation Ausganssituation: Daten von Objekten, bei denen jeweils die Zugehörigkeit zu einer (von mehreren möglichen) Gruppen bekannt ist Problem: Bei einem neuen Objekt fehlt Information zur Gruppenzugehörigkeit Aufgabe: Mittels der bekannten Daten ein Modell bestimmen, dass die Gruppenzugehörigkeit des neuen Objektes aufgrund der vorhandenen Informationen ermöglicht 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Genauer: Klassifikationsbäume Abhängiges Merkmal Y (Gruppenzugehörigkeit) soll mit Hilfe der unabhängigen Merkmale X1 , X2 , . . . , Xm erklärt (= klassifiziert, identifiziert) werden. Support-Vector-Machines Dazu nötig: Bestimmung einer Funktion f(xi1 , ..xim ), die Objekte i ihrer „richtigen“ Klasse ki zuordnet. Unabhängige Merkmale können sowohl metrisch als auch nominal interpretierbar sein. 237 Statistik Etschberger - SS2014 Klassifikationsmodelle: Varianten Lineare Trennfunktion Manche Methoden erzeugen Trennmodelle aus linearen Funktionen: Dann Aufgabe: Ermittlung von „Gewichten“ α1 , α2 , . . . , αm und Merkmale X1 , X2 , . . . , Xm mit 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Y = α1 · X1 + α2 · X2 + . . . + αm · Xm 6. Repräsentation 8 7. Klassifikation Problemstellung Beispielproblem 6 Lineare Diskriminanzanalyse Klassifikationsbäume −2 0 2 4 Support-Vector-Machines −10 −5 0 Lineare Trennung möglich 5 238 Statistik Etschberger - SS2014 Klassifikationsmodelle Nichtlineare Modelle Für manche Situationen hilfreich: Nichtlineare Trennmodelle: Dann Modell allgemeiner: Eine Funktion f und Merkmale X1 , X2 , . . . , Xm mit 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Y = f(X1 , X2 , . . . , Xm ) 5. Datenanalyse 6. Repräsentation 7 7. Klassifikation Problemstellung Beispielproblem 6 Lineare Diskriminanzanalyse Klassifikationsbäume 1 2 3 4 5 Support-Vector-Machines 2 4 6 8 Bild: Lineare Trennung beschreibt Struktur nicht ideal 239 Statistik Etschberger - SS2014 Modelloptimierung und Überprüfung der Aussagekraft Qualität des Modells Sinnvoll deswegen: Dreiteilung der Daten nach Berry und Linoff (2004) in Trainingsdaten, Testdaten und Evaluierungsdaten Mehr 6 2. Deskriptive Statistik 3. W-Theorie 4 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 2 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines 0 Aber: Durch viele Modellvarianten und Parametrisierungen Gefahr der Anpassung des Modells an die Stichprobe und nicht an die Struktur in den Daten (Overfitting) 1. Einführung −2 Maßzahlen für die Güte eines Modells: Anteil der korrekt/falsch klassifizierten Objekte −5 0 5 240 Dreiteilung der Daten Statistik Etschberger - SS2014 Zurück 6 6 6 Beispieldaten in 2 Klassen, pro Klasse jeweils 60 Objekte und zwei metrische Merkmale 1. Einführung 2. Deskriptive Statistik 4 4 4 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 2 2 2 6. Repräsentation 7. Klassifikation Problemstellung Lineare Diskriminanzanalyse 0 0 0 Beispielproblem Klassifikationsbäume −5 0 5 −5 0 5 6 5 6 0 6 −5 −2 −2 −2 Support-Vector-Machines 4 4 4 241 Statistik Etschberger - SS2014 2 2 2 Beispiel: Kreditscoring Ziel: Abschätzen der Bonität von potentiellen Kreditnehmern 2. Deskriptive Statistik −2 −2 0 1. Einführung 0 Geschichtete Lernstichprobe mit jeweils 36 guten (“ok”) und 36 schlechten (“g”eplatzten) Krediten −2 3. W-Theorie Metrische Merkmale: Einkommen des Kreditnehmers, Dauer des Beschäftigungsverhältnisses bei Kreditantrag (in Monaten) 4. Induktive Statistik 5. Datenanalyse 0 5 −5 120 −5 0 5 120 0 Daten von 72 vergebenen Krediten, 2 metrische Merkmale, 1 nominales Merkmal 0 100 5 6. Repräsentation Dauer der aktuellen Anstellung 7. Klassifikation Problemstellung 100 Einkommen −5 Beispielproblem Lineare Diskriminanzanalyse 80 Klassifikationsbäume 20 0 20 40 40 60 60 80 Support-Vector-Machines g ok g ok 242 Statistik Etschberger - SS2014 Inspektion der Daten geplatzt OK geplatzt OK 0.025 1. Einführung 0.03 2. Deskriptive Statistik 0.020 3. W-Theorie 4. Induktive Statistik Dichte Dichte 0.015 5. Datenanalyse 0.02 6. Repräsentation 7. Klassifikation 0.010 Problemstellung 0.01 Beispielproblem Lineare Diskriminanzanalyse 0.005 Klassifikationsbäume Support-Vector-Machines 0.000 0.00 0 50 100 150 0 Einkommen 50 100 150 Dauer der aktuellen Anstellung Dichte-Plots nach Merkmal und Bonität Anscheinend: Trennung bezüglich eines Merkmals nicht sinnvoll 243 Statistik Etschberger - SS2014 120 Inspektion der Daten: Streuplot 100 1. Einführung 3. W-Theorie 80 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation 60 Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume 40 Support-Vector-Machines geplatzt getilgt 20 Aktuelles Jahreseinkommen 2. Deskriptive Statistik 0 20 40 60 80 100 120 Dauer der aktuellen Anstellung (in Monaten) 244 Statistik Etschberger - SS2014 Skalenniveaus und Verfahren Zuordnung von Skalenniveaus zu Verfahren unabhängige Variablen Xi quantitativ nominal abhängige Variable Y quantitativ 1. Einführung 2. Deskriptive Statistik multiple Regression 3. W-Theorie Varianzanalyse 4. Induktive Statistik 5. Datenanalyse quantitativ Kovarianzanalyse ordinal Conjointanalyse nominal Diskriminanzanalyse binär Logistische Regression 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Y heißt auch endogene Variable X1 , . . . , Xm : exogene Variablen Zu beachten: Kausale Abhängigkeit muss vorliegen 245 Statistik Etschberger - SS2014 Lineare Diskriminanzanalyse Lineare Diskriminanzanalyse: Klassisches lineares Verfahren nach Fisher (1936) 1. Einführung 2. Deskriptive Statistik Keine Verteilungsannahmen nötig, gleich mächtige Klassengrößen aber sinnvoll 3. W-Theorie 4. Induktive Statistik Idee: Lineare Reduktion aller Merkmale auf eine (oder mehrere) Response-Variablen Bestimmung linearer Gewichte und einer Diskriminanzfunktion 5. Datenanalyse 6. Repräsentation Ronald Aylmer Fisher (1890 – 1962) 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Y = g1 · X1 + g2 · X2 + . . . + gm · Xm Klassifikationsbäume Support-Vector-Machines Wähle gi so, dass Streuung zwischen Klassenmitten bzgl. Y groß und innerhalb der Klassen klein wird (Optimale Werte: Eigenwertproblem) Geometrisch: Projektion der Daten auf Ursprungsgerade in Richtung von α 246 Statistik Etschberger - SS2014 Lineare Diskriminanzanalye Eigenschaften Gegeben: m metrische Merkmale X1 , . . . , Xm sowie ein nominales Merkmal Y. Y entsteht häufig aufgrund einer Zerlegung der Objektmenge in disjunkte Klassen K1 , . . . , Ks . Gesucht: Lineare Funktion, d.h. eine Gewichtung der Merkmale X1 , . . . , Xm , so dass die Variable Y bestmöglich approximiert wird (1 < s < n) : y1 x11 ∼ . bzw. Y = .. = .. . yn xn1 ··· .. . ··· 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume ∼ g1 X1 + . . . + gm Xm Y= 1. Einführung Support-Vector-Machines x1m g1 .. · .. = X · g . . xnm gm 247 Statistik Etschberger - SS2014 Diskriminanzkriterium Wann ist Gewichtung gut gewählt? Gewichtung der unabhängigen Variablen so, 1. Einführung dass die Unterschiede zwischen den prognostizierten Werten einer Klasse möglichst klein, 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik die verschiedener Klassen aber möglichst groß sind, d.h. 5. Datenanalyse 6. Repräsentation i, j ∈ Kk i ∈ Kk und j ∈ Kl mit k 6= l → → 2 (ŷi − ŷj ) (ŷi − ŷj )2 −→ −→ min max 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Deswegen: Varianzen innerhalb der Klassen sollen möglichst klein und die Varianz zwischen den Klassen möglichst groß. Klassifikationsbäume Support-Vector-Machines Kriterium sichert, dass Gewichtung gefunden wird, bei der die Mittelwerte der einzelnen Klassen - und damit auch die Klassen selbst - sehr verschieden sind und gleichzeitig auch die Homogenität innerhalb der Klassen sehr groß ist. Überschneidungen bleiben trotzdem möglich. 248 Statistik Etschberger - SS2014 Inner- und Zwischengruppenvarianzen Definition Innergruppen- und Zwischengruppenvarianz 1. Einführung Innergruppenvarianz der Klasse K 1 X wK = (ŷi − ȳK )2 |K| i∈K 2. Deskriptive Statistik 1 X mit ȳK = ŷi |K| 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse i∈K Gesamt-Innergruppenvarianz (gewichtete Summe der wk ) 1X w= |K| · wK n 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume K Support-Vector-Machines Zwischengruppenvarianz 1X b= |K|(ȳK − ȳ)2 n K 1X mit ȳ = ŷi n i 249 Statistik Etschberger - SS2014 Diskriminanzanalyse: Kovarianzmatrizen Definition entsprechender Kovarianzmatrizen für unabhängige Variablen X1 , . . . , Xm gemäß X = (xik )nxm ) Innergruppenkovarianzmatrix V K = (vK kl )mxm 1. Einführung 2. Deskriptive Statistik vK kl 1 X 1 X = (xik − x̄Kk )(xil − x̄Kl ) mit x̄Kk = xik |K| |K| i∈K i∈K 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Gesamt-Innergruppenkovarianzmatrix Problemstellung Beispielproblem 1X V= |K| · V K n Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines K Zwischengruppenkovarianzmatrix Z = (zkl )mxm zkl 1X 1X = |K|(x̄Kk − x̄·k )(x̄Kl − x̄·l ) mit x̄·k = xik n n K i 250 Statistik Etschberger - SS2014 Hauptsatz der Diskriminanzanalyse (1) Definitionen Gegeben: Datenmatrix X = (xik )nxm der m unabhängigen Variablen, 1. Einführung und es gelte y = X · g· 3. W-Theorie Ferner gegeben: Kovarianzmatrizen VK (k = 1, . . . , s), V, Z und S = Cov(X) gegeben. b wK = = gT Zg und c T g VK g und w = = gT Sg gT Vg Zu beachten dabei: Gesamtvarianz c von Y ist gemäß c = w + b zu berechnen 2. Deskriptive Statistik 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Daraus: Diskriminanzkriterium (D): b gT Zg λ= = T → max g w g Vg 251 Hauptsatz der Diskriminanzanalyse (2) Statistik Etschberger - SS2014 Satz V sei regulär und positiv definit. Dann impliziert die Lösung von (D) ein Eigenwertproblem der Matrix V −1 Z gemäß (V −1 Z + λ · E)g = 0. Es existieren dann q Eigenwerte der Form 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem b gT Zg λ= = T >0 w g Vg Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines wobei q = RgZ ≤ min{m, s − 1} ist. Die zugehörigen Eigenvektoren g1 , . . . , gq sind linear unabhängig. 252 Folgerungen aus dem Hauptsatz (1) Mit den Eigenwerte λ1 , . . . , λq und den zugehörigen Eigenvektoren g1 , . . . , gq folgt: ŷk = Xgk Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse Gewichtungsvektor g1 trennt die Klassen bestmöglich, 6. Repräsentation Gewichtungsvektor g2 trennt die Klassen am zweitbesten, usw. 7. Klassifikation k wobei die ŷ paarweise unkorreliert sind. Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Terminologie ((k = 1, . . . , q)): ŷik = xTi gk ŷik gk k-te Diskriminanzfunktion Diskriminanzvariable k-ter Diskriminanzkoeffizientenvektor 253 Folgerungen aus dem Hauptsatz (2) Man erhält folgende Mittelwerte: Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik Klassenmittelwerte bzgl. der k-ten DA-Funktion 3. W-Theorie 4. Induktive Statistik ȳKk = x̄TK gk mit x̄K = (x̄Kl )mx1 5. Datenanalyse 6. Repräsentation Globalmittelwerte bzgl. der k-ten DA-Funktion 7. Klassifikation Problemstellung ȳ·k = x̄T gk mit x̄ = (x̄·l )mx1 Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Und: Trennebenen bzgl. der k-ten DA-Funktion: ȳ·k = x̄T gk = xT gk Support-Vector-Machines (mit x als Variablenvektor) 254 Folgerungen aus dem Hauptsatz (3) Statistik Etschberger - SS2014 1. Einführung Identifikation neuer Objekte 2. Deskriptive Statistik Durch Trennebenen: Neue, in der Analyse von X und Y noch nicht enthaltene Objekte xj können durch Vergleich mit Globalmittelwerten den verschiedenen Klassen zugeordnet werden. 5. Datenanalyse 6. Repräsentation 7. Klassifikation Beispielproblem xTj gk 4. Induktive Statistik Problemstellung Schema: Falls 3. W-Theorie Lineare Diskriminanzanalyse Klassifikationsbäume ≥ < ȳ·k ȳ·k Zuordnung zu K mit ȳKk ≥ ȳ·k Zuordnung zu K mit ȳKk < ȳ·k Support-Vector-Machines 255 Folgerungen aus dem Hauptsatz (4) Statistik Etschberger - SS2014 Trefferquote Oft: Mit Identifikationsregeln für neue Objekte wird eine Identifikation der Objekte erstellt, die zur Generierung des Modells verwendet wurden. Durch einen Vergleich der prognostizierten Klassenzugehörigkeit und der wahren Klassenzugehörigkeit kann dann der Anteil der richtig klassifizierten Objekte bestimmt werden. Also: Trefferquote TQ gemäß 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines TQ = 1 · Anzahl korrekt klassifizierter Objekte n Deskriptives Maß TQ kann als Maß für die Güte der Diskriminanzanalyse verwendet werden. 256 Statistik Etschberger - SS2014 Folgerungen aus dem Hauptsatz (5) Anzahl der Trennebenen Jede DA-Funktion trennt genau in zwei Gruppen. Konsequenz für den Mehrgruppen-Fall: Zur korrekten Trennung der s Klassen sind s − 1 DA-Funktionen notwendig. Maß für die relative Wichtigkeit der einzelnen Diskriminanz-Funktionen: Eigenwertanteil gemäß 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung λk EAk = λ1 + . . . + λq Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines EAk : Anteil der durch die k-te DA-Funktion erklärten Streuung an der durch alle DA-Funktionen erklärten Gesamtstreuung 257 Statistik Etschberger - SS2014 Diskriminanzanalyse: Ablauf Modellerstellung 1 Gegeben: Matrix X, Klassifikation K1 , . . . , Ks 2 Berechne V, V −1 , Z, RgZ, V −1 · Z 2. Deskriptive Statistik 3 Löse Eigenwertproblem (V −1 Z − λ · E)g = 0 3. W-Theorie 4 Bestimme λ1 ≥ . . . ≥ λq > 0 1 1. Einführung 4. Induktive Statistik 5. Datenanalyse q 5 Bestimme G = (g , . . . , g ) 6. Repräsentation 6 Berechne Ŷ = X · G (n × q)-Matrix der DA-Variablen 7. Klassifikation Klassenmittelwerte ȳTK T T x̄TK ·G 7 sowie 8 Globalmittelwerte ȳ = x̄ · G Trennebenen ȳT = xT · G mit variablem x 9 = Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Identifikation Falls xTj gk ≥ < ȳ·k ȳ·k Zuordnung zu K mit ȳKk ≥ ȳ·k Zuordnung zu K mit ȳKk < ȳ·k 258 Statistik Etschberger - SS2014 Klassifikation der Beispieldaten mit LDA 120 Beispieldaten Bank o 100 1. Einführung 2. Deskriptive Statistik o o 3. W-Theorie 60 6. Repräsentation o oo o o g g g o g o o o o g g g g g 0 g 40 Problemstellung Beispielproblem o o g g 7. Klassifikation o Lineare Diskriminanzanalyse g g 20 5. Datenanalyse o 40 Dauer Stelle 80 4. Induktive Statistik o o o g g g g g g gg g g g g g g g g g Klassifikationsbäume o o o Support-Vector-Machines o o o o o 60 g g g o 80 oo o o o o g o 100 Einkommen 260 Klassifikationsbäume Grundprinzip Klassifikationsbäume Merkmalsraum soll pro Merkmal so aufgeteilt werden, dass Untermengen in sich möglichst homogen, untereinander möglichst heterogen sind Grundlegende Arbeit: Von Breiman et al. (1984) Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Schrittweiser Aufbau eines Entscheidungsbaumes Problemstellung Beispielproblem 1 Suche Merkmal und Trennpunkt mit bester Unterscheidung zwischen Klassen 2 Teile Daten gemäß dieser Regel 3 Für jeden der beiden Bereiche wende 1. analog an, bis Stopkriterium erfüllt Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines 261 Statistik Etschberger - SS2014 Entscheidungsbäume Entscheidungsbaum der Beispieldaten 1 1. Einführung yes is DauerSte < 21? no 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 2 3 is Einkomme < 84? is Einkomme < 59? 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines 4 5 6 7 g 0.04 35% ok 0.71 10% g 0.29 19% ok 1.00 36% 262 Statistik Etschberger - SS2014 120 Entscheidungsbäume: Klassifikation der Beispieldaten 100 o o 1. Einführung o 3. W-Theorie o 4. Induktive Statistik o oo o 60 o o g g 6. Repräsentation g 20 o o g g o g g g g g g g 0 g 40 o o g g g g g g g o 7. Klassifikation o o g g o o g g 5. Datenanalyse o o g o g 40 Dauer Stelle 80 2. Deskriptive Statistik Problemstellung o o o g gg g g g g 60 80 g o o o o o o o o Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines o g o 100 Einkommen Entscheidungsbäume sind nichtlineare Klassifikationsverfahren: Damit Gefahr des Overfitting 263 Statistik Etschberger - SS2014 Zurückschneiden eines Baumes: Pruning Komplexität der Bäume a priori festlegen ist i.a. nicht optimal Idee: Bäume erst wachsen lassen, anschließend zurückstutzen (Pruning) 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik Entscheidungsbaum, unbeschnitten Entscheidungsbaum, beschnitten 1 yes 5. Datenanalyse 1 is laufkont < 2.5? no is laufkont < 2.5? yes 3 no is verw < 0.5? 6. Repräsentation 2 is laufzeit >= 11? 7. Klassifikation 2 4 6 is wohnzeit >= 1.5? is weitkred < 2.5? Problemstellung is laufzeit >= 11? Beispielproblem 8 is sparkont < 3.5? Lineare Diskriminanzanalyse 4 16 is famges < 2.5? Klassifikationsbäume is wohnzeit >= 1.5? 33 is rate >= 2.5? Support-Vector-Machines 67 is alter >= 34? 66 8 is alter < 26? 133 is sparkont < 3.5? is alter >= 41? 267 is laufzeit >= 27? 132 ja 0.00 2% 32 ja 0.20 10% 534 266 ja 0.17 4% ja 0.33 3% 134 535 nein 0.71 5% ja 0.44 3% 5 17 135 nein 0.80 5% nein 0.72 6% 9 nein 0.79 6% nein 0.80 8% 13 12 ja 0.29 2% nein 0.83 8% 7 nein 0.88 37% 16 17 9 5 3 ja 0.39 32% nein 0.72 6% nein 0.79 6% nein 0.80 8% nein 0.84 47% 264 Zurückschneiden eines Baumes: Pruning Zurück Statistik Etschberger - SS2014 Komplexität der Bäume a priori festlegen ist nicht optimal 1. Einführung Idee: Bäume erst wachsen lassen, anschließen zurückstutzen (Pruning) 2. Deskriptive Statistik Bewertung des zurückgeschnittenen Baumes z.B. mittels Kosten-Komplexitäts-Maß 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Rα (T ) = R(T ) + α|T̃ | Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Dabei bedeutet: Support-Vector-Machines R(T ): Fehlklassifikationsrate durch den Baum T |T̃ |: Anzahl der Knoten im Baum T α > 0: Faktor des Komplexitäts-Bestrafungs-Terms 265 Statistik Etschberger - SS2014 Pruning Vorgehen beim Beschneiden von Bäumen 1 2 1. Einführung Beschneide Baum um die Äste, die die Fehlklassifikationsrate nicht verbessern Bewerte bei allen Nicht-Endknoten At und den davon ausgehenden Ästen T (At ) mittels Kosten-Komplexitäts-Maß den Knoten, wenn er ein Endknoten wäre Rα (At ) und den kompletten Ast ab diesem Knoten Rα (T (At )) 3 Stutze Baum beim Knoten mit dem kleinsten Unterschied von 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Rα (At ) − Rα (T (At )) 4 Gehe zu Schritt 2. solange Rα (At ) − Rα (T (At )) > 0 266 Statistik Etschberger - SS2014 Beispiel ohne Pruning Entscheidungsbaum, unbeschnitten 1 yes is laufkont < 2.5? no 3 is verw < 0.5? 1. Einführung 2 is laufzeit >= 11? 2. Deskriptive Statistik 3. W-Theorie 4 6 is wohnzeit >= 1.5? is weitkred < 2.5? 4. Induktive Statistik 5. Datenanalyse 8 is sparkont < 3.5? 6. Repräsentation 7. Klassifikation 16 is famges < 2.5? Problemstellung 33 is rate >= 2.5? Beispielproblem Lineare Diskriminanzanalyse 67 Klassifikationsbäume is alter >= 34? Support-Vector-Machines 66 is alter < 26? 133 is alter >= 41? 267 is laufzeit >= 27? 32 ja 0.20 10% 132 534 134 17 5 13 ja 0.00 2% ja 0.33 3% ja 0.44 3% nein 0.72 6% nein 0.80 8% nein 0.83 8% 266 ja 0.17 4% 535 nein 0.71 5% 135 nein 0.80 5% 9 nein 0.79 6% 12 ja 0.29 2% 7 nein 0.88 37% 267 Statistik Etschberger - SS2014 Beispiel Pruning mit α =0.045 Entscheidungsbaum, beschnitten 1 is laufkont < 2.5? yes no 1. Einführung 2. Deskriptive Statistik 2 3. W-Theorie is laufzeit >= 11? 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 4 7. Klassifikation is wohnzeit >= 1.5? Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume 8 Support-Vector-Machines is sparkont < 3.5? 16 17 9 5 3 ja 0.39 32% nein 0.72 6% nein 0.79 6% nein 0.80 8% nein 0.84 47% 268 Statistik Etschberger - SS2014 Support-Vector-Machines Klassifikationsverfahren seit Mitte der 1990er Jahre (siehe Vapnik, 1999) 1. Einführung 2. Deskriptive Statistik Idee: Unterteilung der Daten in 2 Klassen durch Abbildung der Daten in höhere Dimension 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation In höherer Dimension: Benutzung einer einfachen Funktion zur Abstandsbestimmung und Bestimmung einer “Trennungslinie” 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines Dabei möglichst: Abstand der Klassen zur Trennungslinie maximal Äußerste Punkte der Klassen: Stützvektoren (Support Vector) Falsch klassifizerte Objekte erhöhen eine Kostenfunktion Mehr 269 Support-Vector-Machines Statistik Etschberger - SS2014 Zurück Kernel Methoden: Nutzen Informationen über das innere Produkt zwischen Objekten Viele Algorithmen lassen sich umformulieren, so dass sie nur noch das innere Produkt zwischen Daten benötigen Wenn der Kernel bekannt ist, muss man die Eigenschaften der Daten nicht spezifizieren 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Unabh. Daten im Raum: x ∈ X, Abhängige Daten in y ∈ Y = {−1,1}; Zum Beispiel f(x) = hw, xi + b, Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines h(x) = sign(f(x)) 270 Support-Vector-Machines Zurück d.h. Transformation in Feature-Raum muss nicht gemacht werden, es genügt, wenn die zugehörige Kernel-Funktion bekannt ist. Das heißt für einen Kernel K(x1 , x2 ) = hφ(x1 ), φ(x2 )i Statistik Etschberger - SS2014 1. Einführung 2. Deskriptive Statistik 3. W-Theorie 4. Induktive Statistik 5. Datenanalyse muss weder die Dimension, noch die Transformation φ bekannt sein. Es genügt der Kernel Kernel-Trick: Bilde Daten in Repräsentationsraum ab, in dem sie (einigermaßen vernünftig) linear separierbar sind, Messe Kosten aber nur via Kernelfunktion... 6. Repräsentation 7. Klassifikation Problemstellung Beispielproblem Lineare Diskriminanzanalyse Klassifikationsbäume Support-Vector-Machines 271 Statistik Etschberger - SS2014 120 Support-Vector-Machines: Ergebnisse mit Beispieldaten 100 o o 1. Einführung o 2. Deskriptive Statistik 80 3. W-Theorie o 4. Induktive Statistik o oo 60 o g g 40 7. Klassifikation g Problemstellung o o o o g o o g g g o 0 g o g g g g 40 o Klassifikationsbäume o g g g o o o g g 60 o o o o o g gg g g g g g g g g Lineare Diskriminanzanalyse o o Support-Vector-Machines g g g o Beispielproblem o o g 20 6. Repräsentation o o g o g g 5. Datenanalyse o o 80 100 272 Statistik Etschberger - SS2014 o o g g o o o 40 o o g g g g 0 g 40 g gg g g g g g g g g oo o gg g oo o 20 g g o 60 g 100 o o g g g g g g 40 80 60 o g gg g g g g g g g g g oo o oo o gg 60 100 o g g g g g g g g 40 6. Repräsentation o o o o g g g o o o o g 80 o o o o g go o o g o 4. Induktive Statistik o o 5. Datenanalyse g g o o o o g g o o g 80 o o g go o o g g o o o g g g o g o g g g g o o g g g o o o 0 20 g o o o g g o o g o 40 g g g g o o 40 o o 3. W-Theorie o oo 0 o g o 2. Deskriptive Statistik o o 1. Einführung o o oo o 60 60 g g o o o o 20 o oo o o 80 80 o o 100 o 100 100 o 120 120 120 Support-Vector-Maschines und Overfitting g gg g g g g g g g g 60 o oo o oo o gg Problemstellung Beispielproblem o go o g 80 7. Klassifikation Lineare Diskriminanzanalyse Klassifikationsbäume 100 Support-Vector-Machines Gefahr des Overfitting durch sukzessives Anpassen der Methodenparameter sehr groß Teil der Daten als Test- und ggf. Validierungsdaten unbedingt erforderlich 273