Statistische Methodenlehre Version 03 / 2013 (Skript Nummer 1619) Dr. Stefan von Weber, HS Furtwangen University, Fachbereich Wirtschaft, Campus Schwenningen Inhaltsverzeichnis Thema Wir erarbeiten uns gemeinsam beispielhaft Anwendungsgebiete der Statistik: 1 2 3 4 5 6 7 8 9 10 1. Beschreibung von Stichproben und Populationen (Grundgesamtheiten) 2. Darstellungsmöglichkeiten (Verhältnisse, Vergleiche, Verläufe, Verteilungen) 3. Datenarten und zulässige Operationen (nominal/kategorial, metrisch) 4. Erforschung von zeitlichen Trends (Geraden, Kurven, Zeitreihen, Prognose) 5. Beziehungen zwischen nominalen/kategorialen Merkmalen, Fragebögen 6. Beziehungen zwischen zwei metrischen Merkmalen (Korrelation, Regression) 7. Einfluss vieler Faktoren auf eine Zielgröße (Preisbildung multiple Regression) 8. Klassifikation (Kundenprofile, Schadensklassen, Gefahrstoffgüter,…) 1. Wir erarbeiten uns die Begriffe Population und Stichprobe, 2. arithmetisches Mittel, gewichtetes Mittel, geometrisches Mittel, Median, 3. die beiden Standardabweichungen (σn-1, σn ) und ihre Anwendung 4. Fehler des Mittelwerts, Genauigkeit einer Schätzung 1. Wir erarbeiten uns den Begriff der Datenverteilung (Dichte, Summenfunktion) 2. Histogramme und Anpassung einer theoretischen Verteilung 3. Binomialverteilung und Wahrscheinlichkeiten der Binomialverteilung 4. Glockenkurve, Φ(u)-Tafel, Freiheitsgrade, Quantile, Perzentile 5. Wahrscheinlichkeiten, Freiheitsgrad 6. t-Verteilung 7. Konfidenzintervall für das wahre Mittel der Population 1. Wann benutzt man welche Diagramme (Torte, Säule, xy, Boxplot)? 2. Indexierung auf Startwert 100% bei zeitlichen Verläufen 3. Preisindex nach Laspeyres EXCEL-Vorführung mit Beamer: 1. Einige EXCEL-Arbeitsblattfunktionen 2. Mittelwerte und Standardabweichungen 3. Konfidenzintervall für das wahre Mittel der Population 4. Ausreißer, Quartile, Momente 5. Histogramm mit Säulendiagramm 6. Indexierung und Liniendiagramm, logarithmische Skala 1. Rechenschema für Ausgleichsgerade bzw. Trendgerade 2. Nichtlineare Trends 3. Zeitreihen und saisonale Schwankungen 1. Marktforschung, Fragebögen, Auszählung, Hypothesen 2. Test von Häufigkeitszahlen 3. Zusammenhang von Merkmalen in Kontingenztafeln, χ2-Homogenitätstest 1. Beziehung zwischen zwei Größen: Korrelation, Regression 2. Berechnung des Korrelationskoeffizienten und Test EXCEL-Vorführung mit Beamer: 1. Einfach lineare Regression mit Teststatistiken 2. Berechnung einer Trendgeraden mit Prognose 3. Berechnung einer Korrelation mit Test des Koeffizienten 1. Multiple Regressionsanalyse 1 Seite 4 6 6 8 8 9 10 11 11 14 15 16 17 17 18 18 18 19 19 20 20 21 22 25 26 27 30 31 33 34 36 36 37 38 38 11 12 13 14 15 2. Suche signifikanter Einflussgrößen (Abbauverfahren) 3. Beispiel Parameterpreisbildung 4. Logistische Regression EXCEL-Vorführung mit Beamer: Multiple Regressionsanalyse am Beispiel einer Pflanzenproduktion Lineares Modell mit und ohne Regressionskonstante Suche signifikanter Einflussgrößen (Abbauverfahren) Mittelwertvergleich 1. Einstichproben-t-Test 2. Mittelwertvergleich normalverteilter Grundgesamtheiten, gleiche Varianz 3. Welch-Test bei ungleichen Varianzen und F-Test auf Varianzhomogenität 4. Gepaarter t-Test 5. Nichtparametrische Tests Klassifikation: Diskriminanzanalyse, Clusteranalyse 39 41 42 43 Aufgaben aus alten Klausuren zum selbst Üben (mit Lösungen) 46 47 47 48 51 51 53 55 Besprechen und Üben alter Klausuraufgaben im letzten Block der Vorlesungszeit. Literatur 61 Einführung konfirmatorische oder hypothesenprüfende Hypothese → Stichprobe → Test → Aussage zur Population einschließlich Irrtumswahrscheinlichkeit Hypothese (Beispiel): Weniger als 20% aller Münchner wollen eine Diät machen → Umfrage siehe links → asymptotischer Binomialtest 0.23 gegen 0.2 bei n=100 → u=0.75 → Hypothese abgeschmettert, d.h. keine signifikante Abweichung vom Wert 20% gefunden Statistik ist deskriptive oder beschreibende Mittelwerte, Standardabweichungen, Regressionskoeffizienten, Korrelationskoeffizienten, Wahrscheinlichkeitsschätzungen Beispiel Umfrage in München: Würden Sie gern eine Diät machen? 23 von 100 Probanden antworten mit "JA" → Wahrscheinlichkeit p = 23/100 = 0.23 in der Stichprobe, d.h. unter unter den 100 Befragten. Das ist lediglich eine Schätzung des p-Wertes aller Münchner. Statistik heißt Komprimierung, Visualisierung und Analyse von Daten. Ziele der deskriptiven Statistik sind Information und Vorhersage künftiger Daten, die Ziele der konfirmatorischen Statistik sind die Prüfung von Hypothesen mittels Stichproben. Aus den Daten einer Stichprobe zieht man Schlussfolgerungen für die gesamte Population (oder Grundgesamtheit). Beispiel: Aus einer Studie mit 15 Firmen zieht man Schlüsse, die für alle Firmen in dieser Branche Gültigkeit haben sollen, mit Angabe der Irrtumswahrscheinlichkeit. Eine Stichprobe sind z.B. 10 zufällig ausgewählte Firmen aus einem Katalog. Die Population ist die Menge aller Firmen dieser Branche. Personen heißen Proband, Fall, Objekte, z.B. Firmen, heißen Fall, Punkt, Messpunkt. Versuchsplanung heißt: • repräsentative Stichproben auswählen • mit möglichst wenig Kosten ein signifikantes Ergebnis erzielen • Störfaktoren entweder ausschließen oder als Kovariable messen 2 Tabelle der Sicherheitspunkte der t-, χ2-, F- und Φ(u)-Verteilung für α=0.05 (5%) t FG F (einseitig rechts) eins. zweis χ Φ(u) 2 1 2 3 4 5 10 20 FG1 FG2 1 2 3 4 5 6 7 8 9 10 6,31 2,92 2,35 2,13 2,02 1,94 1,89 1,86 1,83 1,81 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 161 18,5 10,1 7,71 6,61 5,99 5,59 5,32 5,12 4,96 200 19,0 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 216 19,2 9,28 6,59 5,41 4,76 4,35 4,07 3,06 3,71 225 19,2 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 230 19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 242 19,4 8,79 5,96 4,74 4,06 3,64 3,35 3,14 2,98 248 19,4 8,66 5,80 4,56 3,87 3,44 3,15 2,93 2,77 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 1,80 1,78 1,77 1,76 1,75 1,75 1,74 1,73 1,73 1,72 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 4,84 4,75 4,67 4,60 4,54 4,49 4,45 4,41 4,38 4,35 3,98 3,89 3,81 3,74 3,68 3,63 3,59 3,55 3,52 3,49 3,59 3,49 3,41 3,34 3,29 3,24 3,20 3,16 3,13 3,10 3,36 3,26 3,18 3,11 3,06 3,01 2,96 2,93 2,90 2,87 3,20 3,11 3,03 2,96 2,90 2,85 2,81 2,77 2,74 2,71 2,85 2,75 2,67 2,60 2,54 2,49 2,45 2,41 2,38 2,35 2,65 2,54 2,46 2,39 2,33 2,28 2,23 2,19 2,15 2,12 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 34 40 44 50 60 70 80 90 100 150 200 ∞ 1,72 1,72 1,71 1,71 1,71 1,71 1,70 1,70 1,70 1,70 1,69 1,68 1,68 1,68 1,67 1,67 1,66 1,66 1,66 1,66 1,65 1,65 2,08 2,07 2,07 2,06 2,06 2,06 2,06 2,05 2,05 2,04 2,03 2,02 2,02 2,01 2,00 1,99 1,99 1,99 1,98 1,98 1,97 1,96 32,67 33,92 35,17 36,42 37,65 38,89 40,11 41,34 42,56 43,77 48,60 55,76 60,48 67,50 79,08 90,53 101,88 113,15 124,34 179,58 233,99 ∞ 4,32 4,30 4,28 4,26 4,24 4,23 4,21 4,20 4,18 4,17 4,13 4,08 4,06 4,03 4,00 3,98 3,96 3,95 3,94 3,90 3,89 3,84 3,47 3,44 3,42 3,40 3,39 3,37 3,35 3,34 3,33 3,32 3,28 3,23 3,21 3,18 3,15 3,13 3,11 3,10 3,09 3,06 3,04 3,00 3,07 3,05 3,03 3,01 2,99 2,98 2,96 2,95 2,93 2,92 2,88 2,84 2,82 2,79 2,76 2,74 2,72 2,71 2,70 2,66 2,65 2,60 2,84 2,82 2,80 2,78 2,76 2,74 2,73 2,71 2,70 2,69 2,65 2,61 2,58 2,56 2,53 2,50 2,49 2,47 2,46 2,43 2,42 2,37 2,68 2,66 2,64 2,62 2,60 2,59 2,57 2,56 2,55 2,53 2,49 2,45 2,43 2,40 2,37 2,35 2,33 2,32 2,31 2,27 2,26 2,21 2,32 2,30 2,27 2,25 2,24 2,22 2,20 2,19 2,18 2,16 2,12 2,08 2,05 2,03 1,99 1,97 1,95 1,94 1,93 1,89 1,88 1,83 2,09 2,07 2,04 2,02 2,00 1,99 1,97 1,96 1,94 1,93 1,89 1,84 1,81 1,78 1,75 1,72 1,70 1,69 1,68 1,64 1,62 1,57 21 22 23 24 25 26 27 28 29 30 34 40 44 50 60 70 80 90 100 150 200 ∞ 3 u 0 u Φ(u) -0,1 -0,2 -0,3 -0,4 -0,5 -0,6 -0,7 -0,8 -0,9 -1,0 -1,1 -1,2 -1,3 -1,4 -1,5 -1,6 -1,7 -1,8 -1,9 0,4602 0,4207 0,3821 0,3446 0,3085 0,2742 0,2420 0,2119 0,1841 0.1587 0,1357 0,1151 0,0968 0,0808 0,0668 0,0548 0,0446 0,0359 0,0287 -2,0 -2,1 -2,2 -2,3 -2,4 -2,5 -2,6 -2,7 -2,8 -2,9 -3,0 -3,1 -3,2 -3,3 -3,4 -3,5 -3,6 -3,7 -3,8 -3,9 -4,0 0,0227 0,0179 0,0139 0,01072 0,00820 0,00621 0,00466 0,00347 0,00255 0,00187 0,001350 0,000967 0,000688 0,000484 0,000337 0,000233 0,000159 0,0001080 0,0000723 0,0000480 0,0000317 Thema 1 Wir erarbeiten uns gemeinsam beispielhaft Anwendungsgebiete der Statistik: 1.1 Stichprobe und Population (Grundgesamtheit) Beispiel: Die in Schwenningen ansässigen Bankfilialen sind ein Team (eine Stichprobe). Die zugehörige Population ist die Gesamtheit aller deutschen Bankfilialen. Nennen Sie weitere Beispiele. 1.2 Darstellung von Verhältnissen, Vergleichen, Verläufen, Verteilungen Beispiel: Verhältnis von Materialkosten, Lohnkosten und Gemeinkosten (Tortendiagramm) Beispiel: Vergleich der Umsätze des Vorjahres und des laufenden Jahres (Säulendiagramm) Beispiel: Verlauf der Materialkosten €/Kg im Jahr (Liniendiagramm) Beispiel: Verteilung der Konfektionsgrößen (wie viel verkauft pro Größe) (Histogramm) Nennen Sie weitere Beispiele. 1.3 Datenarten und zulässige Operationen (nominal/kategorial, metrisch) Systematische Fehler entstehen z.B. durch falsche Versuchspläne (z.B. sehr ungleiche Firmengrößen, Branchenunterschied, ...), falsch kalibrierte Messinstrumente, nicht operationalisierte Kriterien bei unterschiedlichen Erhebungen. Man kann systematische Fehler vermeiden oder teilweise korrigieren, wenn man sich an die Empfehlungen der Versuchsplanung hält. Zufallsfehler / Zufallszahlen: Alle Größen werden in der Statistik als Zufallszahlen aufgefasst. Der Umsatz im Juli war z.B. 1.445.326,27 €. Das Jahresmittel für die Monate war 1.345.201,66 €. Abweichungen vom Mittel werden hier nicht durch Ursachenforschung erklärt, sondern als Zufall aufgefasst. Eine Frau hat im Schnitt 1,4 Kinder. Die tatsächliche Kinderzahl einer Frau wird nicht durch die Lebensumstände erklärt, sondern als Zufall. Eine Zufallsvariable ist eine Funktion, die dem Ausgang eines Zufallsexperiments eine reelle Zahl zuordnet. Ein Zufallswert x der Zufallsvariablen X heißt Realisierung oder Ausprägung. Diskrete Zufallszahlen können nur bestimmte, meist ganzzahlige Werte (Realisierung, Ausprägung, Symptom, Kategorie) annehmen (Kinderzahl 1, 2, ..., oder Weinflaschenvolumen 0.5, 0.75, 1.0, 1.5, 2.0, 3.0, 5.0 usw.). Kontinuierliche Zufallszahlen können im Definitionsbereich beliebige Werte (Realisierungen) annehmen, z.B. Umsatz=1.445.326,27 € oder 1.345.201,66 €. Nominale (qualitative) Daten sind immer diskret und dienen nur zur Sortierung und Gruppeneinteilung. Z.B. ist die Postleitzahl in Patientenadressen eine nominale Größe. Summen oder Mittelwerte aus nominalen Daten sind Unsinn. Kategoriale Daten werden wie nominale behandelt, wenn sie nicht ordinal sind, d.h. keine Rangordnung dahinter versteckt ist (z.B. "weiße", "rote", "schwarze" T-Shirts, auch wenn sie mit 1,2,3 im Rechner codiert sind.). Metrische (quantitative, stetige) Daten lassen sich auf einer Zahlengeraden anordnen. Es besteht zwischen zwei Werten immer eine der Beziehungen "<", "=" oder ">". Mit metrischen Daten darf man rechnen (Summen, Mittelwerte, ...). Ranggeordnete kategoriale Daten werden oft wie metrische Daten behandelt, z.B. Ratings 1,2,...,5 oder Wagenklassen 1="klein", 2="mittel", 3="groß". Binärdaten (mit nur zwei Ausprägungen) können ebenfalls wie metrische Daten behandelt werden (z.B. weiblich=1, männlich=2 oder staatlich=0, privat=1). 4 Merke: Nominale bzw. kategoriale Daten benutzt man nur zum Zählen und Sortieren, z.B. Ländernamen, Postleitzahlen, Qualitäten, Kundennummer. Nennen Sie weitere Beispiele. Merke: Mit metrische Daten können wir Summen bilden bzw. andere Berechnungen vornehmen. Beispiele sind Umsatz, Absatz, Preisgüte, Stückzahl. Nennen Sie weitere Beispiele. 1.4 Zeitliche Trends (Geraden, Kurven, Zeitreihen, Prognose) Wie entwickelten sich die Energiekosten der Firma in den letzten 10 Jahren? (Gerade, Kurve) Wie werden sich die Energiekosten der Firma weiterentwickeln? (Prognose) Welche saisonalen oder monatstypischen Abweichungen treten auf? (Zeitreihenanalyse) Nennen Sie weitere Beispiele. 1.5 Beziehungen zwischen nominalen Merkmalen, Fragebögen Unterscheidet sich das Kaufverhalten von Großstädtern von dem der Kunden aus kleineren Gemeinden bezüglich der Kategorien Qualität, Label, aktuelle Trends? Nennen Sie weitere Beispiele. 1.6 Beziehungen zwischen metrischen Merkmalen (Korrelation, Regression) Korrelation ist eine Beziehung zwischen Merkmalen, bei der man Gleichlauf (ähnlichen Verlauf) oder Gegenlauf (ähnlich, aber entgegengesetzt) beobachtet. Meist werden beide Merkmale von unbekannten dritten Merkmalen gesteuert. Regression ist eine Beziehung zwischen Merkmalen, in der eine Zielgröße durch eine oder mehrere andere Größen gesteuert (beeinflusst) wird. Besteht eine Korrelation zwischen DAX-Index und der Wertentwicklung fest verzinslicher Papiere? Nennen Sie weitere Beispiele. Besteht eine Abhängigkeit des Benzinpreises vom Weltmarktpreis für Rohöl? Nennen Sie weitere Beispiele. 1.7 Einfluss vieler Faktoren auf eine Zielgröße (Multiple Regression) Von welchen Faktoren hängt der Preis einer Immobilie ab? Zählen Sie Faktoren auf. Von welchen Faktoren hängt der Preis einer Pralinenpackung ab? 1.8 Klassifikation (Kundenprofile, Schadensklassen, Gefahrstoffgüter,…) Nach welchen Kriterien würden Sie als Banker Kredite vergeben? Nach welchen Kriterien würden Sie als Vermieter Geschäftsräume vermieten? Nennen Sie weitere Beispiele. 5 Thema 2 2.1 Wir erarbeiten uns die Begriffe Population und Stichprobe. Eine Population umfasst die Daten aller interessierenden Objekte bzw. Personen. In den meisten Fällen sind die Daten einer Population aus verschiedenen Gründen (zu viele, geheim, ständig wechselnd) in ihrer Gesamtheit nicht verfügbar. Wir müssen uns mit einer Teilmenge – einer Stichprobe – begnügen. Beispiel: Die Personendaten aller deutschen Bürger bilden eine Population. Die Kundendatei eines Fitness-Centers ist eine Stichprobe. Beispiel: Die Produktionsdaten (Größe, Material, Preis, Kosten,…) aller in Deutschland gefertigten T-Shirts bilden eine Population. Die Daten aus der firmeneigenen Datenbank DATOS bilden eine Stichprobe. Wir suchen weitere Beispiele. 2.2 Arithmetisches Mittel, gewichtetes Mittel, geometrisches Mittel, Median, Das arithmetische Mittel einer Stichprobe ist ein mehr oder weniger genauer Schätzwert für das unbekannte Mittel µ der Population. Das Populationsmittel selbst bleibt fast immer unbekannt. arithmetisches Mittel x i = Der i-te Wert einer Stichprobe n = Stichprobenumfang x= 1 n ∑ xi n i =1 Beispiel: Durchschnittspreis von n = 8 Preisen in € 14,33 12,64 13,27 13,75 14,05 14,27 13,85 14,25 Mittelwert x = 13,80 € Das gewogene arithmetische Mittel bewertet die einzelnen summierten Zahlen xi durch zugeordnete Gewichte gi unterschiedlich. n n x = ∑ g i xi / ∑ g i i =1 i =1 gewogenes arithmetisches Mittel g i = Gewicht zum Wert xi Die Gewichte gi müssen positiv ( >0 ) sein. Beispiel: Gegeben sind die Klassenmitten und Frequenzen (Zahl der Stämme in der Klasse) von 7 Durchmesserklassen von Fichten. Klasse 1 sind z.B. Stämme von 25-30 cm Durchmesser. 27.5 32.5 37.5 42.5 47.5 52.5 57.5 Klassenmitte xi: Klassenumfang gi: 41 84 207 213 156 47 9 6 G = Σg i=757, Σgixi = 31067.5, gewichtetes Mittel = 31067.5/757 = 41.04 cm Ein weiteres Beispiel: Mittlere Preisgüte. Die Daten xi sind die Preisgüten zu einzelnen Aufträgen. Die Gewichte sind die Umsätze dieser Aufträge. Die Preisgüte großer Aufträge setzt sich auf diese Weise durch. Das geometrische Mittel nimmt man für Wachstumsprozente gleichlanger aufeinander folgender Perioden (Zinsgewinne, Börsengewinne,…) ( ln( x )) / n xG = e ∑ i geometrisches Mittel als n-te Wurzel des Produktes der Einzelwerte xG = n ∏x i = n x1 ⋅ x 2 ⋅ ... ⋅ x n als alternative Formel bei großem n mit ln(x) als natürlichem Logarithmus und ex als Exponentialfunktion Beispiel: Ein Aktienfond veränderte sich in den letzten Jahren von einem Jahr zum anderen um +3,6%, − 7,2%, +1.6%, +13.4%. Wegen des Minuszeichens müssen wir auf die absoluten Prozentwerte gehen: 103,6%, 92,8%, 101,6%, 113,4%. Das geometrische Mittel der absoluten Prozentzahlen ist 4 103.6 ⋅ 92.8 ⋅ 101.6 ⋅ 113.4 =102.59. Gehen wir wieder zu relativen Wachstumsraten über, erhalten wir einen jährlichen Zuwachs von 2,59% gemittelt über die 4 Jahre. Median: Der Median liefert den typischen Wert einer Stichprobe, d.h. es gibt ebenso viele kleinere als auch größere Werte. Zuerst müssen wir die Stichprobe sortieren. Bei ungeradem n ist der Wert in der Mitte der Median, bei geradem n ist das arithmetische Mittel der beiden mittleren Werte der Median. Beispiel: Sortiert man die 10 Umsätze in Tausend €: 54 46 61 47 43 59 38 44 49 41, erhält man die Folge 38 41 43 44 46 47 49 54 59 61. Das Mittel der 2 mittleren Werte, 46.5, ist hier der Median. Modalwert ist der am häufigsten auftretende Wert in einer Wertereihe sehr großen Umfangs mit unimodaler (eingipfliger) Verteilung. Der Modalwert wird selten benutzt. Wann nimmt man welchen Mittelwert? • Den Median, wenn entweder der typische Wert die beste Aussage macht, oder aber ein gegen Datenausreißer robuster Mittelwert gesucht wird. Ein Millionär und 100 arme Schlucker im Dorf haben ein Gesamteinkommen von 1.000.000 +100 x 10.000 €. Mittelwert 19.801,98 €. Typisch für das arme Dorf sind aber 10.000 €. • Das arithmetische Mittel, wenn es um Bilanzen geht. Ein Vorfluter mit 1000 Gramm Schmutzfracht pro m3 und 100 Gewässer mit 1 Gramm pro m3 verschmutzen den Bodensee im Mittel mit 11 Gramm pro m3. Das arithmetische Mittel ist empfindlich für Datenausreißer. • Das gewichtete arithmetische Mittel, um bereits vorverdichtete Zahlen zu mitteln (z.B. möchte man aus Klassenmitteln das Gesamtmittel berechnen, weil die Originaldaten fehlen), oder es gibt natürliche Gewichte (Stückzahlen, Umsätze,…), die das Mittel beeinflussen, oder man möchte Daten subjektiv gewichten, z.B. nach der Vertrauenswürdigkeit der Datenquelle. 7 2.3 Die beiden Standardabweichungen (σn-1, σn ) und ihre Anwendung Standardabweichung σ (sigma) heißt die mittlere quadratische Abweichung der Einzelwerte von ihrem Mittelwert. Diese Abweichungen können verschiedene Ursachen haben. Beispiel Monatsumsätze einer Firma: Zufälliger Auftragseingang, saisonale Schwankungen, Produktionsstörungen. Für Programmierer Für Taschenrechner 2 Standardabweichung in der (∑ x i2 ) − n ⋅ x 2 (xi − x ) ∑ σn = Stichprobe, d.h. genau für die n σn = n n Daten der Stichprobe (wird selten benutzt) (sprich sigma n) Standardabweichung der Grundgesamtheit geschätzt aus einer Stichprobe des Umfangs n σ n −1 = ∑ (x i − x) n −1 2 σ n −1 = (∑ x ) − n ⋅ x 2 i 2 n −1 Beispiel: für die Berechnung einer Standardabweichung σ n−1 nach der rechten Formel: Gegeben sind die n = 8 Preise in € : 14,33 12,64 13,27 13,75 14,05 14,27 13,85 14,25 Mittelwert x = 13,80125 € Wir bilden die Quadratsumme der Zahlen: Σxi2 = 14,33 2 + 12,64 2 + … + 14,25 2 = 1526,1943 Wir setzen in die rechte Formel für σ n−1 ein: σ n −1 = (∑ x ) − n ⋅ x 2 i n −1 2 = 1526,1943 − 8 ⋅ (13, 80125) 2 = 0,5853311 7 oder σ n−1 = 0,586 2.4 Fehler des Mittelwerts, Genauigkeit einer Schätzung Fehler des Mittelwerts σ x : Ziehen wir aus der Population immer wieder neue Stichproben des Umfangs n, dann streuen die berechneten Mittelwerte um das das unbekannte Mittel µ. Der Fehler des Mittelwerts schätzt die Ungenauigkeit bei der Bestimσ mung des wahren Mittelwertes µ (Erwartungswert) einer Grundgeσ x = n−1 samtheit aus einer Stichprobe des Umfangs n. Ein Mittelwert aus n n Einzelmessungen berechnet hat demnach die Genauigkeit oder Standardabweichung σ x , d.h. es gilt x ± σ x . Wann nimmt man welche Streuungsangabe? 8 • σn-1 (σ, s, Standardabweichung, SD, Standard Deviation) bei allen Angaben, wo man die Variabilität der gemessenen Daten angeben möchte, z.B. die für Konfektionäre interessante Größe 12-jähriger Knaben ist in Deutschland 143 ± 6 cm. Die Größe schwankt um das Mittel mit durchschnittlich 6 cm. Den Interquartilabstand statt σn-1 bei sehr schief verteilten Daten (75%−25%-Quartil) σ x (SE, Standard Error of Mean) wenn man die Genauigkeit einer Schätzung dokumentieren möchte, z.B. aus einer repräsentativen Stichprobe mit 1600 deutschen 12-jährigen Knaben wurde die mittlere Größe deutscher 12-jähriger Knaben zu 143.6 ± 0.15 cm bestimmt. Die Genauigkeit der Schätzung des unbekannten Populationsmittels ist 0.15 cm. σn in den extrem seltenen Fällen, wo man die Standardabweichung der Stichprobe selbst dokumentieren möchte, z.B. unsere Testgruppe aus 12-jährigen Knaben hatte eine mittlere Größe von 147.8 ± 3.6 cm. Hier bezieht sich die Standardabweichung nur auf die Personen der Testgruppe, nicht auf die Population. • • • Thema 3 3.1 Verteilungen Die Verteilungsfunktion gibt Auskunft, wie viele Daten mit welcher Abweichung vom Mittelwert erwartet werden. Die Darstellung der Verteilung diskreter Zufallszahlen erfolgt mit dem Balken- oder Tortendiagramm. Jeder Balken entspricht einer Ausprägung der Zufallszahl. Die Darstellung der Verteilung kontinuierlicher Zufallszahlen erfolgt bei beobachteten Daten mit dem Balkendiagramm (Histogramm der absoluten oder relativen Häufigkeiten), bei theoretischen Verteilungen mit dem Liniendiagramm. Die Festlegung der Klassenanzahl K und damit der Klassenbreite (z.B. 10 cm bei den Stammdurchmessern) richtet sich nach der Gesamtzahl N und erfordert einiges Probieren. Großes N ⇒ viele Klassen, kleines N ⇒ wenig Klassen. Es gibt keine Vorschrift. (In der Literatur wird K = N empfohlen, was aber oft zu viele Klassen ergibt.) Das kumulative Histogramm beobachteter Daten ist eine Treppenfunktion, die aufsteigend die Werte von 0 bis N (bzw. von 0 bis 100%) annimmt. (Siehe Summenverteilung) Diskrete Verteilung (Tablettenfehler A1, A2, A3 ) P[%] 46.8 30.8 22.4 Histogramm absoluter Histogramm relativer Häufigkeiten Häufigkeiten (Stammdurchmesser) (Stammdurchmesser) Ni 37 • • • • 2 3 Σ=100% 36 28 % 22 10 % % 4% % 20 30 40 50 60 70 48 14 1 Pi [%] N=133 29 5 20 30 40 50 60 70 Liniendiagramm einer DichteNormalverteilung [1/cm] f(x) 20 30 40 50 x[cm] Bei einer diskreten Verteilung ist ΣPi=1 bzw. ΣPi%=100% Beim Histogramm der absoluten Häufigkeiten ist N=ΣNi (N = Gesamtzahl der Objekte) Beim Histogramm der relativen Häufigkeiten ist ΣPi=1 bzw. ΣPi%=100% Bei einer Dichteverteilung ist die Gesamtfläche unter der Dichtekurve f(x) immer gleich 1. 9 Theoretische Verteilungen folgern aus einem Modellprozess. Die Dichtefunktion f(x) gibt mit ihrer Fläche über dem Intervall [a,b] die Wahrscheinlichkeit Pab an, dass ein x-Wert aus dem Intervall [a,b] auftritt. Variable x ist eine kontinuierliche Zufallsvariable. Normierung Wahrscheinlichkeit [1/cm] Pab f(x) b +∞ a −∞ Pab = ∫ f ( x ) dx a b x[cm] ∫ f ( x ) dx = 1 Die Verteilungsfunktion (Summenverteilung) F(x) gibt mit ihrem Funktionswert F(x) die Wahrscheinlichkeit P an, mit der ein Zufallswert aus dem Intervall [−∞, x] auftritt. Dichteverteilung P f(x ) Verteilungsfunktion Formel Verteilungsfunktion 1 F (x) P x F ( x) = ∫ f (u ) du −∞ 0 x x Wann man die Dichtefunktion verwendet oder die Verteilungsfunktion, dafür gibt es keine Vorschriften. Die Verteilungsinformation steckt in beiden Kurven. Eine Verteilung kann durch die Momente µi charakterisiert werden, ohne dass man das genaue Bild der Funktion vorliegen hat. Das entspricht in etwa der Taylorreihenentwicklung der Dichtefunktion. Die Momente µ1−µ4 haben die Namen Mittelwert, Varianz, Schiefe und Exzess. Die höheren Momente (ab µ2) werden auf das arithmetische Mittel bezogen berechnet (x−E). 1. Moment: Erwartungswert (Mittelwert, arithmetisches Mittel, Schwerpunkt) µ1 = E ( x) = +∞ ∫ x ⋅ f ( x)dx −∞ 3.2 2. Moment: Varianz Bei Normalverteilung ist µ2=σ2/2 mit σ = Standardabw. +∞ µ 2 = ∫ ( x − E ) 2 f ( x)dx −∞ 3. Moment: Schiefe µ3>0 : Gipfel links von E µ3<0 : Gipfel rechts von E +∞ µ 3 = ∫ ( x − E ) 3 f ( x)dx −∞ Histogramme und Anpassung einer theoretischen Verteilung Ein Histogramm (Häufigkeitsdiagramm) gibt die Anzahl von Objekten wieder, die in vordefinierte Klassen fallen. Theoretische Datenverteilungen werden beobachteten oder gemessenen Daten unterstellt. Man sagt z.B., die Daten seien normal verteilt oder sie seien binomial verteilt. Einen Beweis, dass die Daten tatsächlich so verteilt sind, gibt es nicht. Mit dem χ2-Anpassungstest oder dem Kolmogorov-Smirnov-Test kann man jedoch Abweichungen zwischen beobachteter Verteilung und unterstellter theoretischer Verteilung statistisch bewerten, und zu einer Aussage z.B. der Form kommen: "Es gibt keine signifikante Abweichung von der Normalverteilung". 10 [1/cm] f(x) 20 30 40 50 x[cm] Wichtige theoretische Verteilungen für diskrete Zufallszahlen sind die PoissonVerteilung, die Binomialverteilung, multinomiale Verteilung und hypergeometrische Verteilung. Alle vier Verteilungen werden auch als Prüfverteilungen zur Prüfung von Hypothesen benutzt, wenn auch seltener, als die u-, t-, χ2- und F-Verteilung.. 3.3 Binomialverteilung und Wahrscheinlichkeiten der Binomialverteilung Die Binomialverteilung hat als Modell eine Urne mit Anteil p an schwarzen und Anteil q=1−p an weißen Kugeln. Pn.k ist die Wahrscheinlichkeit, bei n Ziehungen mit Zurücklegen genau k schwarze Kugeln zu ziehen. p heißt Parameter der Binomialverteilung. Erwartungswert der Binomialverteilung ist E= n p, Varianz ist σ2 = pq n. n Pn.k = p k q n − k k n mit = 1 , 0 n n(n − 1)...(n − k + 1) = 1 ⋅ 2 ⋅ ... ⋅ k k (sprich "n über k") Beispiel: Ein bestimmter Produktionsprozess gerate mit Wahrscheinlichkeit p=0,068 außer Kontrolle (Erfahrungswert aus mehreren Jahren). Wie hoch ist die Wahrscheinlichkeit, dass von den 10 Chargen einer Woche 3 versaut sind? 10 10 ⋅ 9 ⋅ 8 P10.3 = 0.068 3 ⋅ 0.932 7 = ⋅ 0.00031 ⋅ 0.611 = 0.023 oder 2,3% 1⋅ 2 ⋅ 3 3 Man rechnet also etwa jede 40. Woche mit 3 versauten Chargen. Die Summe P der 11 Wahrscheinlichkeiten P = P10.0+ P10.1+...+ P10.10 ist exakt P=1. 3.4 Glockenkurve, Φ(u)-Tafel, Freiheitsgrade, Quantile, Perzentile Die wichtigsten kontinuierlichen theoretischen Verteilungen sind die Normalverteilung (auch u-Verteilung oder Gauß-Verteilung oder Glockenkurve genannt), die lognormale Verteilung, die t- oder Student-Verteilung, die χ2-Verteilung (Chi-Quadrat-Verteilung) und die FVerteilung (Fisher-Verteilung). Die Normalverteilung (u-Verteilung) und die lognormale Verteilung treten häufig als Datenverteilung auf. Die t-, χ2- und F-Verteilung sind seltener Datenverteilungen, sondern werden weit häufiger als Prüfverteilungen zum Testen von Hypothesen benutzt. Die Normalverteilung (u-Verteilung) ist beides - Datenverteilung und Prüfverteilung. Dichtefunktion der Normalverteilung: µ (Erwartungswert) und σ2 (Varianz) heißen Parameter der Normalverteilung. Man schätzt sie durch eine Stichprobe, indem man für µ den Mittelwert und für σ2 die Varianz σ2n-1 einsetzt. Normalverteilte Zufallszahlen entstehen, wenn sich viele Zufallseinflüsse addieren. 11 f (x) = 1 2π σ − e ( x−µ)2 2σ 2 Bei angenommener Normalverteilung einer Population und Schätzung ihrer Parameter µ und σ2 der Population aus einer Stichprobe gilt: Stichprobenstatistik Mittel x = Σxi / n Varianz σ 2 n −1 ∑ (x = i − x) n −1 → Schätzwert → ) → µ → 2 → ) σ2 → Parameter der Population µ σ2 Mit dem kleinen Dach ( ^ ) bezeichnen Statistiker einen (fehlerbehafteten) Schätzwert. Beispiel n=10 Stammdurchmesser: 36 41 39 52 48 53 55 61 54 49 cm. Das Mittel 48.8 cm ist Schätzwert für das unbekannte Populationsmittel µ. Die Standardabweichung σn-1=7,91 cm ist Schätzwert der unbekannten Standardabweichung σ der Population. Die wahren Parameter µ und σ2 der Population kann man nur für n→ ∞ erhalten. Alle Schätzwerte sind fehlerbehaftet. Normalverteilung mit Mittelwert µ und Varianz σ2 wird mit N(µ µ ; σ2) abgekürzt. N(0;1) ist die Standard-Normalverteilung mit Mittelwert 0 und Varianz 1. Die Verteilungsfunktion (Summenkurve) Φ (u) zur Normalverteilung f(x) wird auch Gaußsches Fehlerintegral genannt und ist in vielen Büchern tabelliert. Φ (u) und Umkehrfunktion u(Φ Φ ) sind wichtige Prüfverteilungen. Die Normalverteilung ist wichtig wegen des zentralen Grenzwertsatzes: Die Verteilung der Summe beliebig verteilter Zufallszahlen z nähert sich für wachsende Zahl an Summanden der Normalverteilung, d.h. in der Praxis ist die Größe S=z1+z2+...+zn schon ab n=5 recht gut normal verteilt. Darunter fällt z.B. jedes Stichprobenmittel mit Stichprobenumfang n≥5. Dichtefunktion der lognormalen Verteilung: M (Erwartungs(ln(x)−M)2 wert) und S2 (Varianz) heißen Parameter. Man berechnet aus den − 1 2 logarithmierten Daten Mittelwert und Varianz und setzt diese f (x) = e 2S gleich M und S. Lognormale Zufallszahlen entstehen, wenn sich S ⋅ x 2π Zufallseinflüsse multiplizieren. Die Verteilung ist unsymmetrisch. Die t-Verteilung (auch Student-Verteilung nach dem Pseudonym u Student von W. P. Gosset) ist die Verteilung des Quotienten t = u t= k 2 2 / χ. Dabei ist u N(0;1)-verteilt und χ ist χ -verteilt mit k Freiχ heitsgraden. Die Verteilung ist symmetrisch. Die χ2-Verteilung (Chi-Quadrat-Verteilung von F.R. Helmert χ 2 = u12 + ... + u k2 und K. Pearson) ist die Verteilung der Summe χ2 = u12+...uk2. Die ui sind N(0;1)-normalverteilt und stochastisch unabhängig. Freimit k Freiheitsgraden heitsgrad FG der Verteilung ist k. Unsymmetrische Verteilung. Die F-Verteilung von R. A. Fisher ist die Verteilung des QuoF= χ21 / χ22 2 2 2 2 tienten F= χ 1 / χ 2. Dabei ist χ 1 mit FG1 Freiheitsgraden und χ 2 Mit FG1und FG2 Freiheitsmit FG2 Freiheitsgraden verteilt. graden 2 Die F-Verteilung ist insofern interessant, da sie die t- und die χ -Verteilung quasi enthält. Es gilt t2(FG) = F mit FG1=1 und FG2=FG. 2 Es gilt χ (FG)= FG2 F mit FG1→∞ und FG2=FG. 12 Der Freiheitsgrad FG ist die Zahl der „freien Datenpunkte“, die zur Berechnung einer Streuung herangezogen werden können. Beispiel Abweichung der Punkte von einer Ausgleichsgeraden. Bei n=2 Punkten geht die Gerade exakt durch beide Punkte. Kein Punkt ist frei (FG=0). Bei n=3 Punkten ist einer überzählig (FG=1). Allgemein im Fall der Geraden ist FG = n - 2. Hinweis: In jedem konkreten Anwendungsfall, in dem Freiheitsgrade eine Rolle spielen, gibt es eine Formel zur Berechnung der Freiheitsgrade, wie z.B. die Formel FG = n - 2. Die folgenden drei Abbildungen zeigen das typische Aussehen der folgenden Verteilungen: Poisson-, Binomial-, Hypergeometrische Verteilung p 0 1 2 Normalverteilung, t-Verteilung f(u ) f(t) k 3 4 k u / t lognormale, χ2-, F-Verteilung f(x ) f(F ) f(χ 2 ) x /F /χ 2 Schätzung von Verteilungsparametern Ein Schätzwert (oder Schätzer) ist eine nach einer bestimmten Formel berechnete Zahl, die dem gesuchten Parameter einer Population, z.B. dem Mittelwert, möglichst nahe kommt. Es gibt gute, sehr gute und den besten Schätzwert. Eine allgemeine Methode zum Aufspüren des besten Schätzers heißt Maximum Likelihood. Die beobachteten Daten haben höchste Wahrscheinlichkeit, wenn gerade die besten Schätzwerte als Parameter der angenommenen Datenverteilung benutzt werden. Bei Annahme der Normalverteilung sind Maximum Likelihood und die Methode der kleinsten Quadrate asymptotisch (d.h. für n→∞) identisch. Quantile oder Perzentile: Als Quantil XP zur Wahrscheinlichkeit P bezeichnet man eine Zahl x auf der x-Achse, für die gilt, dass genau der Anteil P der Population kleinere Werte als XP aufweist. Gibt man die Wahrscheinlichkeit in % an, spricht man von Perzentilen. Mit welcher Wahrscheinlichkeit P sind z.B. Zufallszahlen x kleiner als Quantil XP, wenn x eine normalverteilte Zufallszahl mit Mittelwert x und Standardabweichung σn-1 ist? Berechne u = ( Xp- x )/ σn-1 und bestimme aus der Tafel Φ(u) von Seite 3 das P. Welches Quantil XP gehört zu den P% unteren normalverteilten Werten einer Population? P ist gegeben, suche in Φ(u) dazu den u-Wert. XP = x + u· σn-1 Beachte, dass die Tafel Φ(u) Seite 3 nur für negative u vorliegt. Positive u ergeben Wahrscheinlichkeiten P>0,5. Wegen der Symmetrie der Normalverteilung gilt Φ(u)=1−Φ(−u) Beispiel: a) Wie viele von 5.000 Geschädigten einer Hagelversicherung werden schätzungsweise einen Schaden von x>250 € aufweisen, wenn man Normalverteilung annimmt mit Mittelwert x =191,60 € und Standardabweichung σ n −1 = 56,80 € ? u = ( x- x )/ σn-1 = (250 - 191,60)/ 56,80 = 1,028 Da positive u-Werte in der Tafel Φ(u) nicht tabelliert sind, kehren wir das Vorzeichen 13 um, d.h. wir arbeiten mit u = - 1,028. (Das geht aus Symmetriegründen der Glocken Kurve) Φ(−u ) = 0,1587 laut Tafel Seite 3. E= N p =5000·0,1587= 793 ist der Erwartungswert für die gefragte Anzahl. b) Bei welchem Betrag x enden die 25% der „kleinen Schadensfälle“ (Quantil X25) ? p = 0,25 Mathematisch für 25% Suche aus der Tafel Φ(u) den u-Wert heraus, der zu p = Φ(u) = 0,25 passt: u ≈ -0,6 XP = x + u· σn-1 = 191,60 + ( -0,6) ·56,80 = 157,50 €. Es wird erwartet, dass 25% der Geschädigten Schäden kleiner 157,50 € haben. Würden wir das x zu den 25% der “großen Schadensfälle” suchen, müssten wir das Vorzeichen von u wechseln, d.h. mit u = + 0,6 arbeiten. 3.5 Wahrscheinlichkeiten Wozu Wahrscheinlichkeiten? In der Qualitätskontrolle, um Chancen berechnen, um im PC stochastische Modelle zu simulieren, und als Grundlage für einige Testverteilungen. Die möglichen Ausgänge eines Zufallsexperiments heißen Elementarereignisse (z.B. eine 4 beim Würfeln). Ihre Menge heißt Ereignisraum R (1-6 beim Würfel). Das sichere Ereignis (eine Zahl 1 ≤ x ≤ 6) trift immer ein, das unmögliche Ereignis (z.B. eine 0 oder 7) nie. Die Wahrscheinlichkeit P eines Ereignisses ist eine Zahl 0 ≤ P ≤ 1 bzw. 0% ≤ P% ≤ 100%. Wahrscheinlichkeiten schätzt man durch Auszählen der zutreffenden Fälle N1 und setzt diese ) Anzahl dann ins Verhältnis zur Gesamtzahl N der Fälle: P = N1 / N . Der Erwartungswert E der Häufigkeit, mit der ein Ereignis eintrifft ist E = N·P N=Zahl der Ziehungen insgesamt, P=Wahrscheinlichkeit für das Eintreffen des Ereignisses Beispiel Tablettenfehler R={1,2}, N=1.000.000 untersuchte Tabletten insgesamt Elementarereignis Ni Pi = Ni /N Pi %= Pi ·100 A1 (Tablette untergewichtig) 632 0,000632 0,0632 % A2 (Tablette übergewichtig) 869 0,000869 0,0869 % Multiplikationssatz: Die Wahrscheinlichkeit P(A∧B) für das gemeinsame Eintreffen stochastisch unabhängiger Ereignisse A und B: P(A∧B) = P(A)·P(B). Die Wahrscheinlichkeit mit zwei Würfeln A und B zwei Sechser zu würfeln ist P(6∧6) = (1/6) · (1/6) = (1/36). Stochastische Unabhängigkeit heißt, dass das Eintreffen von Ai nicht von Aj abhängt, Aj nicht von Ai, und es auch keine versteckte Abhängigkeit gibt. Beispiel: Die Wahrscheinlichkeit eines Motorschadens auf den ersten 10.000 km sei P(A)= 1,2 %. Die Wahrscheinlichkeit eines platten Reifens auf den ersten 10.000 km sei P(B)= 1,7 %. Dann ist die Wahrscheinlichkeit, dass man einen Platten und einen Motorschaden auf den ersten 10.000 km erleidet: 14 P = P(A∧B) = P(A)·P(B) = 0,012 · 0,017 = 0,000204 oder P% = 0,02 %. Additionssatz: Die Wahrscheinlichkeit P(A∨B) für das Eintreffen entweder des Ereignisses A oder aber des Ereignisses B. A und B sind disjunkt, d.h., sie schließen sich gegenseitig aus: P(A∨B) = P(A) + P(B). Beispiel: Die Wahrscheinlichkeit, dass eine untergewichtige Tablette produziert wird, liegt bei 0,0632%. Die Wahrscheinlichkeit, dass eine übergewichtige Tablette produziert wird, liegt bei 0,0869%. Dann ist die Wahrscheinlichkeit, dass eine Tablette untergewichtig oder übergewichtig ist: P = P(A∨B) = P(A) + P(B) = 0,000632 + 0,000869 = 0,001501 3.6 oder P% = 0,15%. t-Verteilung W. S. Gosset und R. A. Fisher erkannten, dass das oftmalige Ziehen kleiner Stichproben des Umfangs n zu ebensoviel unterschiedlichen Stichprobenmitteln x1 , x2 , ... führt. Die Verteilung der Stichprobenmittel lässt sich durch die t-Verteilung f(t) beschreiben. Die meisten Stichprobenmittel findet man in der Umgebung des Populationsmittels µ. Bildet man die Standardabweichung der Stichprobenmittel x1 , x2 , ... , dann nähert sich dieser Wert für wachsende Anzahl immer gleicher Stichproben des Umfangs n der Zahl σ x = σ n −1 n an, dem Fehler des Mittelwerts. Die Testgröße t hat im einfachsten Fall die Formel f(t) σ/√n α/2 t 0 t= x−µ σ tα n. Falls eine Stichprobe mit Mittelwert x tatsächlich aus der Population mit Mittelwert µ und Standardabweichung σ stammt, dann dürfte ihr t-Wert nur kleine Werte um die Null herum annehmen. Bei vielen gezogenen Stichproben x1 , x2 , ... darf nur der Anteil α/2 der t-Werte t1, t2, … im rechten schraffierten Bereich liegen, eine etwa gleichgroße Anzahl im linken. Der Punkt tα auf der t-Achse heißt Sicherheitspunkt der t-Verteilung. Er hängt vom Freiheitsgrad FG und der vorgegebenen Irrtumswahrscheinlichkeit α (z.B. α=0,05 oder α=5%) ab. Der Freiheitsgrad FG hängt vom Stichprobenumfang n ab. Die genaue Formel für FG wird in jedem konkreten Anwendungsfall gegeben. Die Sicherheitspunkte der t-Verteilung für α=5% und FG =1, 2, … sind auf Seite 3 tabelliert. Einseitig heißt, dass es nur auf einer Seite der Glockenkurve einen schraffierten Bereich mit Fläche α gibt, zweiseitig, dass es wie im Bild oben zwei schraffierte Bereiche mit jeweils α/2 gibt, d.h. dass Ausreißer bei den t-Werten nach oben und nach unten gleich wahrscheinlich sind. Wir benutzen in diesem Kurs ausschließlich die zweiseitigen Sicherheitspunkte. Merke: 15 Betragsmäßig große t-Werte können nur mit Wahrscheinlichkeit α auftreten, wenn Mittelwert x tatsächlich aus der Population mit Mittelwert µ und Standardabweichung σ stammt (Hypothese Ho). Stammt der Mittelwert x nicht aus der Population mit Mittelwert µ (Hypothese HA), dann sind große t-Werte quasi vorprogrammiert und damit sehr wahrscheinlich. Darauf beruht der t-Test. 3.7 Konfidenzintervalle Punktschätzung heißt die Berechnung eines einzelnen Wertes aus einer Stichprobe, z.B. des Stichprobenmittels x als Punktschätzung für das unbekannte Populationsmittel µ. In der deskriptiven (beschreibenden) Statistik haben Punktschätzungen einen festen Platz. In der konfirmatorischen (hypothesenprüfenden) Statistik werden Punktschätzungen nur berechnet als Grundlage für die Konstruktion der Konfidenzintervalle. Konfidenzintervalle: Bei oftmaliger Wiederholung einer Studie würden wir ähnliche, aber andere Schätzwerte für einen gesuchten Verteilungsparameter θ (z. B. im konkreten Fall des Populationsmittels µ) erhalten. Das ist der Zufallseffekt - andere Firmen in der Stichprobe, andere Jahreszeit usw. Wo liegt jetzt der wirkliche Wert unserer gesuchten Zahl θ (z. B. unseres Mittelwerts µ)? Hier hilft das Konfidenzintervall weiter: Ein (1−α)−Konfidenzintervall [θU, θO] für den Parameter θ ist ein zufälliges Intervall, das mit Wahrscheinlichkeit (1−α) den gesuchten Wert θ enthält. Zwei Beispiele für unterschiedliche Verteilungsparameter: Konfidenzintervall für µ. Sowohl x und σ2n-1 werden bei vorausgesetzter Normalverteilung aus einer Stichprobe des Umfangs n geschätzt Approximatives (n→∞) Konfidenzintervall [pU,pO] für relative Häufigkeit pˆ = k / n . x± σ n −1 n t (α , FG = n − 1, zweis.) pˆ ± u (1 − α / 2) pˆ (1 − pˆ ) n Beispiel: 11 Drahtdicken in mm gemessen: 0,141 0,138 0,143 0,142 0,145 0,141 0,142 0,144 0,143 0,139 0,144 x =0,1420 mm Arithmetisches Mittel, Schätzwert für µ in der Population σn-1=0,00214 mm Standardabweichung, Schätzwert für σ in der Population σ x =0,000645 mm Fehler des Mittelwertes (bei n=11 Messungen) 0,1420 ± 2.23·0.000645 95%-Konfidenzintervall für das wahre Mittel µ mit tα=2.23, 0,1420 ± 0,0014 zweiseitig und Freiheitsgrad FG = n-1 = 10. Beispiel: 726 GmbH von 2734 GmbH haben eine Geschäftsführerin. Gesucht ist das Konfidenzintervall für den Frauenanteil aller GmbHs. Stichprobengröße ist n = 2734 Zahl der eingetroffenen Ereignisse ist 726 ) Schätzwert des Frauenanteils p ist p = 726 / 2734 = 0,2655 16 uα=1,96 für α=5% (Dieser Wert gilt asymptotisch für n→∞ bei zweiseitiger Fragestellung und α=5%. In der Praxis ab Stichprobengröße n>10. Für n≤10 nimmt man Spezialformeln.) Halbe Konfidenzintervallbreite 1,96 ⋅ (0,2655 ⋅ 0,7345) 2734 = 0,01655 Konfidenzintervall für p ist 0,2655 ± 0,0166 Thema 4 4.1 Diagramme Tortendiagramm bei der Aufteilung eines Kuchens (100%), z.B. Marktanteile an der Europäischen Vitaminproduktion Balkendiagramm oder Säulendiagramm bei der Darstellung von Summendaten (Histogramme, Vergleich der Quartalssummen, Vergleich von Gruppenmitteln, Vergleich der Umsätze in den Jahren 2000 - 2005, ...) Liniendiagramm bei der Darstellung von Punkdaten (Verlauf des Börsenindex DAX, Tagesumsätze, Außentemperaturen (wichtig für Getränkeindustrie), ...) Boxplots zeigen auf einen Blick die Verteilung von Daten. Die eigentliche Box gibt den Bereich vom 25%- bis zum 75%-Perzentil an mit dem Median als Teilung. Die "whiskers" an den Enden geben das 10% und das 90%Perzentil an. Manche Boxplots zeigen als Punkte oder Kreise noch die extremen Werte an. Beispiel: 3 Gruppen im Vergleich. (Boxplots sind in EXCEL nicht verfügbar.) Scatterplots (x-y-Diagramme) zeigen die Messwerte als Punkte in einem Koordinatensystem, oft mit einem Liniendiagramm gekoppelt. Koordinatenachsen haben einen Maßstab. Dieser hat • einen Bereich von Anfang bis Ende, der Anfang muss nicht immer Null sein • eine Teilung, die fein oder grob sein kann, • eine Skala, die linear oder logarithmisch sein kann 4.2 Indexierung auf Startwert 100% bei zeitlichen Verläufen Indexierung von Zahlenreihe X1, X2, ..., Xn und Zahlenreihe Y1, Y2, ..., Yn auf Start bei 100%: Bei der Darstellung sehr unterschiedlich hoher Kurven, z.B. Umsatzvergleiche Mutterhaus mit einer Filiale, sieht die Kurve der Filiale oft miserabel aus, weil sie viel tiefer liegt. 17 Hier hilft die Indexierung. Jede Kurve startet bei 100% und verändert sich nur relativ zu diesem Startpunkt. Die Formel ist X’i = (Xi · 100) / X1 Man dividiert jeden Wert durch den ersten Wert der Zahlenreihe und multipliziert mit 100. Dasselbe macht man mit den Y-Werten: Y’i = (Yi · 100) / Y1 4.3 Preisindex nach Laspeyres: Es gibt zahlreiche Indizes, z. B. für Börsenkurse, Geschäftsklima, Kaufkraft usw. Ein in der Volkswirtschaft etablierter Indizex stammt von Laspeyres. P sind Preise, g sind Gewichte (Mengen oder Stückzahlen z.B.) 0 indiziert das Basisjahr (Bezugsjahr), 1 indiziert das aktuelle Jahr, n ist die Anzahl der Produkte im Warenkorb. Der Preisindex nach Étienne Laspeyres ist der meistbenutzte, da er über mehrere Jahre mit einem einmal festgelegten Warenkorb berechnet werden kann und somit die Zahlen vergleichbar sind. n n IQ = ∑ ( g0i P1i ) / ∑ ( g0i P0i ) i =1 i =1 Beispiel Stahlpreisindex: Sorte Baustahl Walzstahl Edelstahl Menge go 1,7 1,4 0,26 Preis/Kg Basisjahr Po 1,31 1,55 3,21 Preis/Kg Berichtsjahr P1 1,25 1,57 3,27 Summe goP1 Summe goPo Index 5,1723 5,2316 0,989 oder 98,9% Der Stahlpreisindex ist um 1,1% gesunken gegenüber dem Basisjahr. Thema 5 EXCEL-Vorführung mit Beamer: arithmetisches Mittel, geometrisches Mittel, Median, gewichtetes Mittel die beiden Standard-abweichungen (σn-1, σn ) und ihre Anwendung Fehler des Mittelwerts Konfidenzintervall für das wahre Mittel der Population Diagramme (Torte, Säule, xy, Boxplot, Histogramm) 5.1 Einige EXCEL-Arbeitsblattfunktionen EXCEL hat gute Hilfe-Möglichkeiten. Diese Tabelle kann nur eine Anregung sein. 18 Funktion und Parameter geomittel(xwerte) häufigkeit(x;klassengrenzen); norminv(p;mittelwert;sigma) normvert(x;mittel;sigma;typ) rgp(y;x;konst;zusatzstatistik) stabw(xwerte) tvert(t;df;s) trend(y;x;x*;k) ttest(g1;g2;s;typ) * potenz(x;y) 5.2 Aufrufbeispiel =geomittel(a1:a5); =häufigkeit(a2:a35;b7:b8) =norminv(b5;c1;d1) =normvert(a8:a12;b1;c1;1) =rgp(a2:a7;b2:d7;1;0) =stabw(c1:k1) =tvert(d8;b9;2) Was liefert sie? geometrisches Mittel Klassenhäufigkeiten Quantil Xp Normalverteilung Φ(u) mit u=(x-mittel)/sigma (multiple) lineare Regression Das σ n-1 aller Werte Irrtumswahrscheinlichkeit zu t, zum Freiheitsgrad, zweiseitig =trend(a2:a7;b2:b7;b8:b12;1 Werte der Ausgleichsgeraden ) (k=1 mit konstantem Glied) =ttest(a2:a9;b2:b14;2;2) Mittelwertvergleich zweier normlverteilter Populationen =(a1:a5)*(b1:b5) paarweise Multiplikation =potenz(((a1:a5)-a6);2) (Ai – A6 )^2 für i=1,...,5 Verschiedene Mittelwerte und Standardabweichung Starten Sie EXCEL. Tippen Sie in Zelle A1 irgend eine Spaltenbezeichnung, z.B. „Daten“, darunter 7 Zahlen, die für Sie Sinn machen (Z.B. 7 Umsätze oder 7 Temperaturen oder 7 Zinssätze oder 7 Gewichte). In Zelle A10 tippen Sie =Mittelwert(A2:A8) und geben dann ENTER. A2:A8 sagt, dass Sie mit der Maus (linke Taste gedrückt) über Ihre 7 Zahlen fahren („Ihre Daten selektieren“ ) oder aber den Feldbezug A2:A8 selbst eintippen. Schreiben Sie daneben in Zelle B10 als Erklärung das Wort „Mittelwert“ Auf A11 die Standardabweichung σn-1 mit =Stabw(A2:A8) , in B11 das Wort „Sigma“ Auf A12 den Median mit =Median(A2:A8), in B12 das Wort „Median“ Auf A13 das Geometrische Mittel, =Geomittel(A2:A8) , in B13 das Wort „Geomittel“ Ein Beispiel für das gewichtete Mittel der Preisgüte von unterschiedlich großen Umsätzen ist: Zuerst die Produkte Umsatz*Preisgüte bilden, dann die beiden Summen berechnen, dann dividieren (Summe Ums*PG) / (Summe Ums). Die Umsätze fungieren hier als Gewichte der Preisgüte. Umsätze T€ 127 236 133 117 143 287 Summe Ums= 5.3 1043 Preisgüte in % 108 112 134 98 102 108 Ums*PG 13716 26432 17822 11466 14586 30996 Summe Ums*PG= Gew. Mittlere PG= 115018 110,28 Konfidenzintervall 19 Ein 95%-Konfidenzintervall für das unbekannte Mittel µ unserer Umsatzwerte-Population erhalten wir z. B. so: Tippen Sie die Formeln in EXCEL-Spalte D ein: 1 2 3 4 5 6 7 8 A Mittelwert mit Standardabweichung Anzahl n Fehler des Mittelwerts Irrtumswahrscheinlichkeit Freiheitsgrad FG Sicherheitspunkt t_alpha Halbe Intervallbreite B C Umsätze T€ 127 236 133 117 143 287 5.4 D Mittelwert= Sigma= n= Fehler Mittelwert= alpha= FG= t_alpha = Halbe Intervallbreite= Konfidenzintervall= =mittelwert(A2:A7) =stabw(A2:A7) =anzahl(A2:A7) =B2/wurzel(B3) 0,05 eingetippt =D3-1 =tinv(D5;D6) =D7*D4 173,83 70,30 6,00 28,70 0,05 5,00 2,57 73,78 173,83 +- Ausreißer, Quartile, Momente Graphische Ausreißerkontrolle: Stellen Sie Ihre Datenspalte graphisch dar und suchen Sie visuell nach Ausreißern: A2 bis A7 selektieren → Diagrammassistent → Punkte (x,y) → Nur Punkte → Fertigstellen Quartile berechnen: Berechnen Sie auf A15 mit =Quartile(A2:A8 ; 1) das 1. Quartil (Grenze der unteren 25%) Ihrer Daten, dann auf A16 das 2. Quartil (Grenze der unteren 50%) usw. bis zum 3. Quartil. Vergleichen Sie die Quartile mit dem Median. Was fällt Ihnen auf? Momente der Datenverteilung: Berechnen Sie aus Ihren Daten die ersten 4 Momente. Auf Zelle A20 das Mittel =Mittelwert(A2:A8) Tippen Sie in B20 „Mittelwert“ ein. Auf Zelle A21 die Varianz =Varianz(A2:A8) Tippen Sie in B21 „Varianz“ ein. Auf Zelle A22 die Schiefe =Schiefe(A2:A8) Tippen Sie in B22 „Schiefe“ ein. Auf Zelle A23 die Kurtosis =Kurt(A2:A8) Tippen Sie in B23 „Kurtosis“ ein. (Die Kurtosis oder der Excess ist eine Randverdickung gegenüber der Gausskurve.) 5.5 Histogramm mit Säulendiagramm Legen Sie in Mappe 2 (Tabelle 2) auf EXCEL-Spalte A eine neue Spalte Daten an. Tippen Sie auf A1 das Wort „Daten“. Kopieren Sie Ihre Daten aus Tabelle 1 unter das Wort Daten und 20 verlängern Sie die Zahlenkolonne mit ausgedachten Zahlen bis A26 (insgesamt 25 Zahlenwerte). Tippen Sie in Zelle B1 das Wort „Klassengrenzen“. Geben Sie darunter 5 aufsteigend sortierte Zahlen ein als Klassengrenzen für zu bildende Klassen. Die erste Klassengrenze sollte größer sein als Ihr kleinster Datenwert, die 5. Klassengrenze kleiner als Ihr größter Datenwert. Tippen Sie in C1 das Wort „Häufigkeiten“. Selektieren Sie das Feld C2 bis C7 mit der Maus. Tippen Sie in die weiß gebliebene Zelle C2 die Formel =Häufigkeit(A2:A26 ; B2:B6) und geben Sie die 3-fach-Taste STRG-UMSCHENTER. Die 6 Zellen füllen sich mit den ausgezählten Häufigkeiten. Die erste Häufigkeit ist die Anzahl Ihrer Datenwerte in Klasse 1 (Kleinster Wert bis einschließlich 1. Klassengrenze). Der letzte Häufigkeitswert ist für die Klasse jenseits und einschließlich der 5. Klassengrenze. Tippen Sie in D1 das Wort „Klasse“. Waren Ihre Klassengrenzen z.B. 10, 20, 30, 40, 50, dann schreiben Sie in D2 den folgenden Text „bis einschl. 10 “, in D3 „von 11 bis einschl. 20 “, usw. und in D7 „ab einschl. 50 “. C1 bis C7 selektieren → Diagrammassistent → Säule → weiter → Reihe → ein Klick in das Feld rechts von „Beschriftung der Rubrikenachse (x)“ und mit der Maus D2 bis D7 selektieren → Fertigstellen. 5.6 Indexierung und Liniendiagramm, logarithmische Skala Indexierung auf gemeinsamen Startwert 100%: Spielen Sie das Beispiel Indexierung aus der Vorlesung mit eigenen Daten durch. Machen Sie eine Liniengraphik der beiden Datenreihen vor und nach der Indexierung. Das Liniendiagramm erstellen Sie so: → Diagramm → Linie → Zeilen/Spalten → Reihe Hinzufügen → Name: abc → Werte (mit der Maus über die Werte fahren) → Hinzufügen → Name: xyz → Werte (mit der Maus über die Werte fahren) → Beschriftung Rubrikenachse (mit der Maus über die Werte fahren) → Fertigstellen Logarithmische Skala Die logarithmische Skala nimmt man dann, wenn zwischen den Zahlen Welten liegen, d.h., wenn extrem große Unterschiede in den darzustellenden Zahlen vorliegen. Beispiel 3-D-Säulendiagramm mit logarithmischer Skala in EXCEL Zeile 1 Zeile 2 Zeile 3 Zeile 4 A ABC DEF GHI JKL B 177 672 154 22 Verkäufe 1996 1000 100 10 1 Markiere die Zellen A1 bis B4 → Einfügen → Diagramm → Auf demselben Blatt → Rahmen ziehen → weiter → 3-D-Säulen ABC DEF GHI Modelle 21 JKL → weiter → 1 → weiter → weiter → Legende nein → Titel, x- → Ende → irgendeine Zelle anklicken → Achsenbeschriftung Verkaufzahlenachse → Skalierung → Doppelklick im Diagramm → Doppelklick logarithmisch Thema 6 6.1 Rechenschema für Ausgleichsgerade bzw. Trendgerade Wir haben eine Einflussgröße x, von deren Werten angenommen wird, dass sie fehlerfrei einstellbar sind (Modellannahme) und eine Zielgröße y, die Zufallsfehler ei enthält und über eine einfache Geradengleichung von der Einflussgröße abhängt. Ist x die Zeit, dann sprechen wir auch von Trendanalyse und könnten den Buchstaben t statt des x verwenden, wenn wir wollen. Regressionsmodell y i = a + b x i + e i Gesucht sind Schätzwerte für die Regressionskonstante a und den Regressionskoeffizienten b in der Grundgesamtheit. Gegeben ist eine Stichprobe mit den n Wertepaaren (x1,y1), (x2,y2), ..., (xn,yn). y heißt Zielgröße, x heißt Einflussgröße, ei heißt Residuum (Abweichung, Fehler) im Punkt i. Regressionskonstante a ist der Erwartungswert der Zielgröße im Punkt x=0. Regressionskoeffizient b heißt auch Anstieg der Geraden, d.h. wenn x um 1 steigt, dann steigt y um b. Die Koeffizienten a und b werden nach der "Kleinsten-Quadrate-Methode" von C. F. Gauss geschätzt, d.h. so, dass die Summe Σei2=Minimum wird. Berechne zuerst die drei Abweichungsprodukt- bzw. Abweichungsquadratsummen SAPxy, SAQxx, SAQyy, wobei die linke Formel genauer, die rechte schneller zu berechnen ist. Folgendes Rechenschema bietet sich an, wenn man lediglich mit einem einfachen Taschenrechner ausgerüstet ist. Man berechnet die 5 Summen und benutzt anschließend den rechten Formelsatz für SAPxy, SAQxx, SAQyy. Vorsicht! Die Mittelwerte nicht zu sehr runden. 6 signifikante Ziffern sollten etwa bleiben, z.B. 127,123678 nur runden auf 127,124 oder 0,012345688 auf 0,0123457. Nr xi yi x i2 xi yi yi2 y1 x 12 x1 y1 y12 1 x1 2 x2 y2 x 22 x2 y2 y22 ... ... ... ... ... ... n xn yn x n2 xn yn yn2 Σ xi Σ yi Σ x i2 Σ xi yi Σ yi2 22 Formelsatz für Programmierer Formelsatz für Taschenrechner n bzw. SAPxy = ∑ xi y i − n ⋅ x y i =1 n bzw. SAQxx = ∑ xi2 − n ⋅ x 2 i =1 n bzw. SAQyy = ∑ y i2 − n ⋅ y 2 i =1 n SAPxy = ∑ (( x i − x )( y i − y )) i =1 n SAQxx = ∑ ( xi − x ) 2 i =1 n SAQyy = ∑ ( y i − y ) 2 i =1 Jetzt können wir die eigentlich interessanten Werte der Ausgleichsgeraden berechnen: bˆ = SAPxy / SAQxx aˆ = y − bˆ ⋅ x schätzt den Regressionskoeffizienten b schätzt die Regressionskonstante a ˆ ˆ yˆ i = aˆ + b ⋅ x i = y + b ⋅ ( xi − x ) schätzt y im Punkt xi (Erwartungswert) eˆi = y i − yˆ i schätzt das Residuum e i im Punkt xi ∑ (y 2 − yˆ i ) eˆi2 SAQyy − bˆ ⋅ SAPxy ∑ = = n−2 n−2 n−2 Ŝ R schätzt den mittleren Fehler σR in der Grundgesamtheit (Reststreuung der Punkte um die Gerade (in y-Richtung gesehen)). Die mittlere Formel ist für den Taschenrechner gut geeignet. FG = n-2 Freiheitsgrad der Reststreuung Ŝ R S = Sˆ / SAQxx Schätzfehler für Regressionskoeffizienten b Sˆ R = b R Schätzfehler der Regressionskonstanten a Schätzfehler des Erwartungswertes ŷ i x2 1 S a = Sˆ R + n SAQxx 1 (xi − x ) S yˆ = Sˆ R + n SAQxx t a = aˆ / S a t = bˆ / S b i b 2 mit FG = n-2 testet Ho: a=0 gegen HA: a≠0 (2-seitig) mit FG = n-2 testet Ho: b=0 gegen HA: b≠0 (2-seitig) Ein signifikantes a≠0 heißt, dass die Zielgröße y für den Wert x=0 der Einflussgröße mit hoher Wahrscheinlichkeit einen Wert y≠0 hat. Ein signifikanter Wert b≠0 sagt, dass die Einflussgröße x die Zielgröße y tatsächlich mit hoher Wahrscheinlichkeit beeinflusst, d.h., dass der Anstieg der Geraden nicht Zufall ist. Für Prognosen wichtig sind die beiden Konfidenzintervalle: 1 (xi − x ) yˆ i ± t (α , FG, zweis.) ⋅ Sˆ R ⋅ + n SAQxx Konfidenzintervall der wahren Regressionsgeraden 2 1 (x − x ) yˆ i ± t (α , FG, zweis.) ⋅ Sˆ R ⋅ 1 + + i n SAQxx 2 23 Konfidenzintervall der Einzelwerte bei Prognose. Zieht man immer wieder neue Stichproben des Umfangs n und berechnet man aus jeder Stichprobe die Regressionsgerade, dann erwartet man 100-α% der Geraden im Konfidenzintervall der "wahren Geraden". Ebenso liegt die wahre (unbekannte) Regressionsgerade der Grundgesamtheit mit 100-α% im Konfidenzintervall. Für Prognosen ist der zu erwartende Fehler der Einzelbeobachtung wichtig. 100-α% der Einzelwerte werden im Konfidenzintervall der Einzelwerte erwartet. Wie man sieht, erweitert sich das Konfidenzintervall außerhalb des Messbereichs dramatisch, so dass sich allzu kühne Prognosen z.B. in die Zukunft verbieten. Die Abbildung rechts zeigt die Regressionsgerade im X-Y-Koordinatensystem. Sie geht durch den Punkt a auf der Y-Achse und durch den Punkt ( x , y ). Die Messwerte yi sind durch kleine Kreise, die Residuen ei durch Striche dargestellt. Das Konfidenzintervall der wahren Geraden (wG) ist gestrichelt, das der Einzelwerte (Ew) ist gepunktet dargestellt. Y Ew wG a Ew _ X yi X wG Folgende Bedingungen stellt das Regressionsmodell an die Daten: 1. Das einfache lineare Modell yi = a + b xi + ei trifft auf die Grundgesamtheit zu 2. Die Messpunkte streuen überall normalverteilt mit N(µ=0; σ= Ŝ R ) um die Gerade. Zahlenbeispiel Ausgleichsgerade: Moderne Produkte der Kosmetikindustrie werden teilweise auf biologischem Weg in Behältern (Fermentern) durch Pilze oder Bakterien erzeugt. Manche Bakterien benötigen Sauerstoff, andere nicht. Der Sauerstoffgehalt y [mg/l] im Fermenter wurde gemessen und gleichzeitig der eingeblasene Luftstrom x [m3/h]. Fragestellung: Wie hängt der Sauerstoffgehalt y [mg/l] vom Luftstrom x [m3/h] ab? Zuerst das Rechenschema für die Summen (die x- und y-Werte sind gegeben): Nr 1 2 3 4 5 Σ x =188, y =2.82, x 50 110 110 300 370 940 y 1.3 1.9 2.1 3.7 5.1 14.1 x2 2500 12100 12100 90000 136900 253600 y2 1.60 3.61 4.41 13.69 26.01 49.41 xy 65 209 231 1110 1887 3502 SAQxx = 253600−5*1882 = 76880, SAQyy = 49.41−5*2.822 = 9.648, SAPxy = 3502−5*188*2.82 = 851.2, b̂ =851.2/76880=0.0110718 [mg/l / m3/h] â =2,82−0.01107*188=0.7388 [mg/l] Ŝ R =( (9.648-0.0110718*851.2) / (5-2) )0.5 = 0.273 [mg/l] FG=5−2=3 t (α=0.05, FG, zweiseitig) = 3.18 ŷ x=500=0.7388+0.01107*500=6.2738 [mg/l] [m3/h] Anstieg der Geraden Regressionskonstante Reststreuung Freiheitsgrad der Reststreuung Sicherheitspunkt der t-Verteilung Erwartungswert für x=500 24 1 (500 − 188)2 * 3.18 = 6.27 ± 0.273 * + 5 76880 6.27 ± 1.055, gerundet 6.27 ± 1.0 95%-Konfidenzintervall der "wahren Geraden" für x=500 1 (500 − 188)2 * 3.18 = 6.27 ± 0.273 * 1 + + 5 76880 6.27 ± 1.368, gerundet 6.27 ± 1.4 95%-Konfidenzintervall der Einzelwerte für x=500 Ho: b=0 gegen HA: b≠0 (2-seitig), α=0.05 Hypothesenpaar zum Anstieg b t = 0.0110718 * 76880 / 0.273 = 11.24 t-Statistik zum Anstieg b Hypothesenauswahl Ho oder HA Da t≥3.18, akzeptieren wir HA Der Anstieg b der Geraden in der Grundgesamtheit unterscheidet sich signifikant von 0. Es besteht ein signifikanter Zusammenhang zwischen Sauerstoffkonzentration y [mg/l] und Lufteintrag x [m3/h]. Ho: a=0 gegen HA: a≠0 (2-seitig), α=0.05 Hypothesenpaar zur Konstanten a 2 1 188 + ) = 3,320 t-Statistik zur Konstanten a 5 76880 Da t≥3.18, akzeptieren wir HA Hypothesenauswahl Ho oder HA Die Regressionskonstante a der Grundgesamtheit unterscheidet sich signifikant (auf 5%Niveau) von 0. Auch bei Null Lufteintrag besteht eine Sauerstoffkonzentration ≠0. t =0.7388 / (0.274 * 6.2 Nichtlineare Regression, nichtlineare Trends y Messwerte y(x) gefittete Kurve x bzw. t Oft liegen die Datenpunkte nicht auf einer Geraden. Die Aufgabe ist es, einen Kurventyp zu finden, der die Messwerte ohne ihre zufälligen Schwankungen wiedergibt. Für wachsende Werte nimmt man gern die Exponentialfunktion ex, aber auch andere mathematische Funktionen sind gebräuchlich, z.B. die Parabel y = ax2 + bx + c Bei der Berechnung der Kurvenanpassung unterscheiden wir zwischen linearisierten, quasilinearen und nichtlinearen Modellen. Beispiel Linearisierung der Exponentialfunktion: Wachstum allgemein ist in seiner Anαt fangsphase oft durch die Exponentialfunktion Z(t) = Zo e darstellbar. Der Wachstumskoeffizient α hat die Dimension [h-1], d.h. „pro Stunde“. Zo ist die Startmenge bei t=0. Logarithmieren der Modellgleichung ergibt ln(Z)=ln(Zo)+α t. Durch die Umbenennungen y=ln(Z), a= ln(Zo) und b=α erhalten wir das einfach lineare Regressionsmodell y = a + b t. Man a schätzt die beiden Koeffizienten a und b und erhält durch die rückwärtigen Ersetzungen Zo=e und α=b die gesuchten Koeffizienten für das nichtlineare Modell. Der Fehler des Anstiegs sb kann (mit kleinen Einschränkungen) direkt als Fehler von α, d.h. als sα interpretiert werden. Der Fehler der Konstanten sa aus dem logarithmierten Modell wird zum Multiplikator für den Originalkoeffizienten Zo, d.h Zo+sZ = Zo *esa und Zo−sZ = Zo /esa. Man beachte jedoch: 25 • • Die so gefundene Kurve minimiert im Originalplot nicht die Fehlerquadratsumme, sondern nur im logarithmierten Modell Die Hypothesenprüfung erfolgt nur am logarithmierten Modell korrekt Quasilineare Modelle: Man ersetzt x durch eine oder mehrere Funktionen von x. Jede Funktion bildet eine neue Variable, die in ein multiples lineares Regressionsmodell eingesetzt wird: Das Polynom z.B. quasilineare Modell y=a+ bt + c t2 y= b0 + b1 X1+ b2 X2 wird ersetzt durch das mit X1 = t und X2 = t 2 Vorsicht bei der Verwendung von Polynomen höheren Grades!!! Man kann durch n Punkte mit voneinander verschiedenen x-Werten immer exakt ein Polynom (n-1)-ten Grades legen. Eine Gerade durch 2 Punkte, eine Parabel durch 3 Punkte, ein Polynom 9. Grades durch 10 Punkte. Aber was macht das Polynom zwischen den Punkten? Oft liefert es konfuse Werte! Deshalb die Empfehlung: Ist n die Zahl der Messpunkte, dann sollte die Zahl p+1 der benutzten Koeffizienten b0, b1, b2, ..., bp im Modell immer kleiner als n/2 sein, d.h. doppelt so viele Messpunkte wie Koeffizienten. Benutzt man ein schrittweises Aufbau- bzw. Abbauverfahren, dann darf die anfängliche Zahl der Merkmale im Modell beliebig hoch sein. Hier übernimmt das Regressionsprogramm die Auswahl der geeigneten Menge an Merkmalen. Nichtlineare Modelle: Solver, wie sie in EXCEL z.B. zur Verfügung stehen, können beliebige Kurven an Daten fitten. Hier spielt es keine Rolle, ob die Koeffizienten linear oder nichtlinear in das Modell eingehen. Es kann jedoch sein, dass ein Solver nicht immer eine zulässige Lösung findet. Dann muss man die Startwerte der Koeffizienten ändern. Viele Programme liefern noch die Standardfehler der Koeffizienten, wobei diese Fehlerschätzungen jedoch mit Vorsicht zu genießen sind. Es sind allenfalls Richtwerte für die Fehler der Koeffizienten 6.3 Zeitreihen (Time series) und saisonale Schwankungen Die Graphik zeigt die Trendgerade überlagert von einer einfachen periodischen Schwingung, wie sie beim Getränkeverbrauch durch den Einfluss der Jahreszeiten entstehen (Sommer-Winter, Fasnet, Weihnachten). (EXCEL kann z.B. in einer Graphik Trendgeraden einfügen.) x x(t) Trendgerade t Ist die Zeit die Einflussgröße, dann spricht man von Zeitreihen. Der Einfluss anderer Variablen ist vorhanden, wird aber nicht direkt modelliert. Zumeist spaltet man im Modell die zeitliche Änderung in einen linearen Trend und eine Anzahl periodischer Schwingungen (saisonale Schwankungen) um diese Trendgerade auf. Bei der Modellierung der periodischen Schwingungen, die durch Tages-, Wochen, Monats-, Mond-, Quartals-, Jahres- oder andere Rhythmen bestimmt sein können, unterscheiden sich die Theorien. Diese bilden ein Buch für sich. In der betrieblichen Praxis berechnet man gern die Monatsmittel der Vorjahre und erhält so einen Planwert für die Monatswerte des laufenden Jahres. Indirekt ist das eine einfache Methode der Behandlung saisonaler Schwankungen. Im Zahlenbeispiel ist der Plan 2012 der Mittelwert der jeweiligen Monatswerte aus 2010 und 2011. 26 Monat Jan Feb Mrz Apr Mai Jun Jul Aug Sep Okt Nov Dez 2010 124 133 122 118 115 130 125 108 107 127 143 138 2011 132 134 128 115 102 110 127 120 118 105 133 145 Plan 2012 128,0 133,5 125,0 116,5 108,5 120,0 126,0 160 140 120 100 80 2010 60 2011 Plan 2012 40 20 0 1 2 3 4 5 6 7 8 9 10 11 12 Thema 7 7.1 Marktforschung, Fragebögen, Auszählung, Hypothesen In der Marktforschung sind Umfragen ein wichtiges Instrument. Probanden beantworten eine oder mehrere Fragen aus einem Fragebogen. Einfache Fragen lassen nur die Beantwortung mit Ja oder Nein zu. Komplizierte Fragen lassen eine Skala zu, z.B. 0 = “gar nicht“, 1 = „ein wenig“, …, 5 = „immer“. Bei der Auswertung durch die Marketingabteilung kann man jede Frage einzeln analysieren, d.h. man führt eine Auszählung durch, die die Häufigkeit der Ja-Antworten bzw. die Häufigkeit einer Skalenstufe liefert. Man kann auch Fragen kombinieren, z.B. getrennt nach Geschlecht auszählen oder getrennt nach Altersstufen der Probanden. Eine wissenschaftliche Hypothese ist eine Aussage über eine Grundgesamtheit. Beispiel: Nach Einnahme unseres neu entwickelten ACE-Hemmers sinkt der Blutdruck von Hochdruckpatienten. Gemeint ist die Grundgesamtheit aller Hochdruckpatienten. Überprüfen können wir eine solche Hypothese nur mit einer Stichprobe. Wir verallgemeinern die Ergebnisse einer (meist kleinen) Stichprobe auf die (zumeist große) Grundgesamtheit. Dabei können uns Zufallsfehler einen Schabernack spielen. Sie gaukeln uns eine Blutdruckabnahme vor, weil wir zufällig mehr Patienten ausgewählt hatten, bei denen unser neuer ACE-Hemmer eine Blutdruckerniedrigung bewirkt, als solche, bei denen nichts oder gar das Gegenteil eintritt. Um solche Fehler bewerten zu können, legt die konfirmatorische Statistik eine zulässige Irrtumswahrscheinlichkeit fest und prüft, ob sie durch die Ergebnisse der Stichprobe nicht überschritten wird. Das Hypothesenpaar H0 und HA Festlegung einer Nullhypothese H0, die Effekte als zufällig abtut (z.B. nur Zufallsschwankungen des Blutdrucks). Dagegen steht die Alternativhypothese HA, die einen signifikanten 27 Effekt (z.B. eine Blutdrucksenkung durch unser Medikament) postuliert. Bezeichnen wir z.B. die Differenz P1−P2 der Blutdruckmessungen vor und nach der Behandlung mit d, dann lauten die beiden Hypothesen bei zweiseitiger Fragestellung H0: d=0 und HA: d≠0. Der Fehler 1. Art, α, gibt die Wahrscheinlichkeit an, mit der wir eine richtige Nullhypothese H0 ablehnen, d.h. uns für die falsche Hypothese HA entscheiden. Übliche Wertevorgaben für α sind 0,05 bzw. 0,01 (5% bzw. 1%). Der selten kontrollierte Fehler 2. Art, β , gibt die Wahrscheinlichkeit, dass wir eine richtige Alternativhypothese HA ablehnen. Hier ist man mit Werten von β=10-30% schon zufrieden. Den Zusammenhang zwischen dem Fehler 1. Art, α, und dem Fehler 2. Art, β , zeigt die folgende Graphik an einem Beispiel: Kurve f(t) ist die von Gosset gefundene t-Verteilung bei Gültigkeit von H0. Kurve h(t) ist ein Beispiel für irgendeine meist unbekannt bleibende Verteilung der t-Werte bei Gültigkeit von HA. (Diese Verteilung interessiert nicht wirklich.) Der Sicherheitspunkt bei zweiseitiger Fragestellung für f(t) ist tα. Er tritt symmetrisch auf als +tα und −tα. Jeder Zwickel der f(t)-Kurve hat Wahrscheinlichkeit α/2, zusammen α. Fall1: H0 sei gültig, d.h. Kurve h(t) existiert nicht. f(t) ist die gültige Verteilung der t-Werte. Für einen aus der Stichprobe berechneten t-Wert mit t < tα nehmen wir H0 zu recht an. Fall2: H0 sei gültig. Für einen aus der Stichprobe berechneten t-Wert mit t ≥ tα lehnen wir H0 zu unrecht ab. Wir realisieren den Fehler 1. Art, α. Fall3: HA sei gültig, d.h. Kurve h(t) ist jetzt die gültige Verteilung der t-Werte, die man aus Stichproben berechnet. Für einen berechneten t-Wert mit t < tα nehmen wir H0 zu unrecht an. Wir realisieren den Fehler 2. Art, β. Fall4: HA sei gültig. Für einen berechneten t-Wert mit t > tα nehmen wir HA zu recht an. Effekt d f(t) h(t) β α/2 -tα α/2 0 tα t Ist der Effekt d klein, dann überlappen sich die beiden Verteilungen sehr stark und der Fehler 2. Art, β, wird immer größer. Man kann einen Effekt statistisch nur sichern, wenn er genügend groß ist. Allgemein gilt jedoch: Großes α ←→ kleines β und umgekehrt. Man muss den Kompromiss finden, was oft eine finanzielle Optimierungsaufgabe ist (→ → Versuchsplanung). p-Wert (p-Value) eines Tests ist die Wahrscheinlichkeit für das Auftreten von Werten der Testgröße bzw. noch größerer Werte, alles unter der Annahme, dass H0 gültig ist. (Beispiel:Ist der aus der Stichprobe berechnete t-Wert z.B. t=4,77, dann ist der zugehörige p-Value die Wahrscheinlichkeit, dass dieser t-Wert in ähnlich angelegten weiteren Untersuchungen wieder erreicht oder gar überschritten wird.) Ein p-Wert ≤ 0.05 bedeutet Signifikanz auf dem 5%-Niveau, ein p-Wert ≤ 0.01 bedeutet Signifikanz auf dem 1%-Niveau, usw. Trennschärfe (Power, Macht) eines Tests ist definiert als 1-β β , d.h. die Wahrscheinlichkeit, eine richtige Alternativhypothese statistisch zu sichern. Optimale Tests haben maximale Trennschärfe, wenn die Voraussetzungen erfüllt sind (richtige Datenverteilung, ..., usw.). 28 • • • • Die Trennschärfe steigt mit n . Über das Stichproben-n kann bei festem α das β beliebig heruntergedrückt werden, falls genug Geld und Zeit da ist und tatsächlich ein Effekt existiert. Die Trennschärfe sinkt, wenn α heruntergesetzt wird, d.h., man sollte mit dem höchsten zulässigen α arbeiten (5% in der Marktforschung, 1% oder manchmal sogar 0.1% bei der Zulassung von Medikamenten). Die Trennschärfe steigt mit besserer Messmethodik (kleineren Varianzen in den Gruppen). Die Trennschärfe ist bei einseitiger Fragestellung besser (aber Vorsicht! Sie müssen die einseitige Hypothese gut begründen). Wir arbeiten hier generell zweiseitig. Zweiseitige und einseitige Fragestellung: Weiß man nichts über die Richtung des Effekts, dann ist immer die zweiseitige Fragestellung angebracht. Hat man jedoch Vorwissen aus früheren Untersuchungen oder schreibt die Logik zwingend einen positiven oder einen negativen Effekt vor, dann darf man die Hypothesen einseitig aufstellen. Man wird durch kleinere Werte der Sicherheitspunkte belohnt, d.h. man erreicht leichter (mit weniger Daten) eine signifikante Aussage. Die folgende Tabelle benutzt als Beispiel die Frage nach unterschiedlichen Mittelwerten µ1 und µ2 zweier Populationen mit einer t-Statistik. Zweiseitige Fragestellung H0: µ1=µ2, HA: µ1≠µ2 einseitig positive Fragestellung H0: µ1≤µ2, HA: µ1>µ2 f(t) α/2 f(t) α/2 −tα 0 tα einseitig neg. Fragestellung H0: µ1≥µ2, HA: µ1<µ2 t α verteilt sich zu auf den linken und den rechten Zwickel. Entsprechend weit sind die Sicherheitspunkte tα von der 0 entfernt f(t) α 0 tα α −tα t Der gesamte Fehler 1. Art, α, ist im rechten Zwickel zu finden. Entsprechend liegt der einseitige Sicherheitspunkt tα näher an der Null 0 t Der gesamte Fehler 1. Art, α, ist im linken Zwickel zu finden. Entsprechend liegt der einseitige Sicherheitspunkt -tα näher an der Null Nehmen Sie nur die einseitige Fragestellung, wenn Sie sie auch gut begründen können! Freiheitsgrad: Der Begriff stammt aus der Mechanik und gibt dort die Zahl der möglichen Translations- und Rotationsbewegungen einer Ansammlung von Objekten an. In der Statistik ist es die Anzahl unabhängiger Werte, die in einer Quadratsumme stecken. Die Anzahl unabhängiger Werte ist FG=N−Np. Dabei ist N die Anzahl der quadrierten Werte, Np ist die Anzahl unabhängiger Stichprobenparameter, die in den quadrierten Daten stecken. Stichprobenparameter sind hier Parameter, die aus den Stichprobendaten selbst berechnet werden. Beispiel Gesamt-χ2 einer 4x2-Kontingenztafel ) 2 I J ( n e − n i . n. j ) ij ij ) 2 χ ij2 = , e = , χ = χ ij2 ) ∑∑ ij eij n i =1 j =1 Beispiel Varianz aus n Messwerten σ n −1 = ∑ (x i − x) 2 n −1 8 beobachtete unabhängige Häufigkeiten nij. n unabhängige Messwerte xi liegen Es gibt 5 benutzte unabhängige Parameter zur Berech- vor. Es gibt nur einen benutzten Pa29 nung der Erwartungswerte eij : Gesamtzahl n, die Zei- rameter, der aus den Daten berechnet lensumme n1. und die 3 Spaltensummen n.1 , n.2, n.3.. wird: x FG = 8−5 = 3 FG = n−1 Multiples Testen und Alpha-Adjustierung Führt man an einer Stichprobe mehrere Tests durch, von denen jeder die Irrtumswahrscheinlichkeit α hat, z.B. α=5%, dann findet man bei 100 Tests etwa 5 signifikante Alternativen, auch wenn in Wirklichkeit überall die Nullhypothese gültig ist. Wie geht man mit dem Problem um? 1. Wir stellen nur unabhängige Einzelhypothesen auf. Es macht uns nichts aus, wenn einige falsch bewertet werden. Die große Masse ist richtig bewertet. 2. Wir fordern, die Gesamtheit aller unserer Hypothesen wird als eine multiple Hypothese aufgefasst und darf nur mit Irrtumswahrscheinlichkeit α falsch sein, d.h., selbst bei 100 Hypothesentests darf die Wahrscheinlichkeit, dass auch nur eine Nullhypothese fälschlich abgelehnt wurde, nicht größer als α sein. Wir adjustieren das α der Einzeltests. Die Bonferroni-Adjustierung dividiert α durch die Hypothesenzahl nH, d.h. α*=α/ nH, und testet bei den Einzelhypothesen mit α* statt mit α. Holms sequentielle Prozedur berechnet zuerst die p-Werte für alle nH Einzeltest, ordnet die p-Werte aufsteigend nach der Größe, vergleicht den kleinsten p-Wert mit α0=α/ nH, den nächstgrößeren mit α1=α/ (nH-1), usw. bis zum größten p-Wert, der mit α verglichen wird. Ist ein p-Wert größer, als sein αi, dann ist dieser Test und alle nachfolgenden nicht signifikant. Die Bonferroni-Adjustierung ist einfacher durchzuführen, liefert eventuell aber weniger Signifikanzen, als Holms Prozedur. 7.2 Test von Häufigkeitszahlen Vergleich einer beobachteten relativen Häufigkeit mit einer Konstanten ) Vergleich einer beobachteten relativen Häufigkeit p mit einer vorgegebenen konstanten Wahrscheinlichkeit po. p sei die „unbekannte“ Wahrscheinlichkeit der Grundgesamtheit. Schritt 0: Hypothese Ho: p = po HA: p ≠ po (zweiseitiger Test) α=0.05 (5%) Schritt1 : Methode asymptotischer Binomial-Test: u ist unter H0 asymptotisch normal verteilt ) Schritt 2: Berechne p = h / n h=Zahl der JA-Antworten, n=Antworten insgesamt u= ) p − p0 p o (1 − p 0 ) n Schritt 3: Aussage: Die Sicherheitspunkte für u(α) sind identisch mit denen von t(α,FG→∞) bzw. mit denen der Standardnormalverteilung Φ(u). Bei zweiseitigem Test und α=0.05 ist u(α)=1,96 Wenn u > u(α) , dann ist signifikant p > po Wenn u < −u(α) , dann ist signifikant p < po Zahlenbeispiel: Die Biofirma Laktozar will in München eine Kampagne starten, wenn der Anteil von 20% Diätfreunden signifikant überschritten wird. Eine Umfrage unter 100 Personen ergab 23 JA-Stimmen für eine neue Diät. 30 (0,23 − 0,2) 100 = 0.75 0,2 ⋅ (1 − 0,2) 0.75 < 1.96, d.h. wir akzeptieren H0. Keine signifikante Abweichung vom Wert 20% wurde gefunden. Die Kampagne findet nicht in München statt. p=23/100=0.23, po=0.2, u= Vergleich zweier relativer beobachteter Häufigkeiten (genauer der Vergleich der geschätzten Wahrscheinlichkeiten p1 und p2 in zwei Grundgesamtheiten). Gegeben sind 2 Stichproben mit Umfang n1 bzw. n2 und h1 bzw. h2 „JAAntworten“. Schritt 0: Hypothese Ho: p1 = p2 HA: p1 ≠ p2 (zweiseitiger Test) α=0.05 (5%) Schritt 1 : Methode t-Test für Häufigkeiten Schritt 2 : Berechne ) p1 = h1 / n1 h + h2 p= 1 n1 + n 2 ) p 2 = h2 / n 2 FG = n1 + n2 − 2 ) ) p1 − p 2 n1 n 2 t= n1 + n 2 pq q=1−p Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG) aus der Tafel (2-seitig) Wenn t < −t(α, FG), dann ist signifikant p1 < p2 Wenn t > t(α, FG), dann ist signifikant p1 > p2 Zahlenbeispiel: Die Biofirma Laktozar will ihre Kampagne für die neue Diät in Deutschland starten, wenn Frankreich nicht signifikant mehr Diätfreunde hat. Es wurden zwei Umfragen erhoben, eine in Deutschland, eine in Frankreich. D: h1=127 F: h2=64 von n1=500 Probanden waren für eine neue Diät von n2=300 Probanden waren für eine neue Diät H0: p1=p2, HA:p1≠p2 (zweiseitige Fragestellung), α=0.05, d.h. tα=1.96 127 = 0.254 500 127 + 64 p= = 0.239 500 + 300 pˆ 1 = 64 = 0.213 300 q = 1−0.239 = 0.761 FG=500+300-2=798 pˆ 2 = t= 0.254 − 0,213 500 ⋅ 300 = 1.316 0.239 ⋅ 0.761 500 + 300 Den Sicherheitspunkt tα zum Freiheitsgrad FG=798 finden wir auf Seite 3, Spalte t-zweiseitig bei Freiheitsgrad FG→∞ . Wegen t < tα, d.h., 1.316 < 1.96 akzeptieren wir H0. Es besteht kein signifikanter Unterschied in der Zahl der Diätfreunde zwischen Deutschland und Frankreich. Die Kampagne wird in Deutschland gestartet. 7.3 Kontingenztafeln 31 Kontingenztafeln entstehen beim Auszählen von kategorialen Merkmalen. Die Merkmalszahl bestimmt die Dimension der Tafel (2 Merkmale ergeben z.B. eine Matrix aus Zeilen und Spalten, 3 Merkmale ein 3-dimensionales Zahlenfeld usw.). Beispiel: Befragung von 100 Probanden nach ihren Rauchgewohnheiten. Merkmal Geschlecht hat zwei Kategorien: weiblich / männlich. Merkmal Rauchgewohnheit hatte hier 3 Kategorien: nie / mäßig / stark. Die einzelne Häufigkeit nij (Frequenz) heißt Konfiguration oder Zelle. Zellen werden durch die Indizes i, j, k,.. bezeichnet. rauche nie mäßig stark w n11=22 n12=17 n13=11 m n21=26 n22=16 n23=8 Nur nominale, kategoriale oder binäre Merkmale sind zur Auszählung geeignet. Man kann jedoch metrische Merkmale in kategoriale umwandeln (z.B. Transformation in ein dichotomes 0/1-Merkmal). Die Kategorien eines Merkmals sollten als Nummern 1, 2, 3, .. kodiert sein. Was leistet die Kontingenztafelanalyse u.a.? • Kontingenztest (Chi-Quadrat-Test auf Unabhängigkeit von kategorialen Merkmalen) • Analyse von 2x2-Tafeln (Zusammenhangs- bzw. Assoziationsmaße) Kontingenztest oder Homogenitätstest auf Zusammenhang oder Unabhängigkeit zweier kategorialer Merkmale. Gegeben ist eine Kontingenztafel für k≥2 kategoriale Merkmale. Ho beim Globaltest: Die Merkmale sind unabhängig – es besteht kein Zusammenhang. HA beim Globaltest: Die Merkmale sind abhängig - es gibt einen Zusammenhang. Der Test erfolgt mit Chi-Quadrat und testet einseitig auf Überschreitung des oberen Sicherheitspunktes der Chi-Quadrat-Verteilung mit FG Freiheitsgraden. Schritt 0: Schritt 1: Schritt 2: Schritt 3: Hypothese Ho: „Kein Zusammenhang“, HA: „Signifikanter Zusammenhang“ α=0,05 (5%) Methode Globaler χ2-Test in Kontingenztafeln n i j = Häufigkeit der Kategorienkombination ( i, j ) (Beispiel k=2) ni . = Zeilensumme i n. j = Spaltensumme j I = Zeilenzahl der Tafel J = Spaltenzahl der Tafel n = Gesamtzahl aller Probanden (Fälle) Berechne Freiheitsgrad, Erwartungswerte, χ²-Komponenten und Gesamt-χ² ) n n FG = I·J − (I−1) − (J−1) −1 eij = i. . j n ) 2 I J (nij − eij ) 2 χ ij2 = χ = χ ij2 ) ∑∑ ges eij i =1 j =1 Suche den Sicherheitspunkt χ2(α,FG). Wenn χ2 ≥ χ2(α,FG), dann nimm einen signifikanten Zusammenhang der Merkmale (bzw. Kontingenz) an, sonst akzeptiere Ho: „Kein signifikanter Zusammenhang (bzw. keine Kontingenz)“ Beispiel Trinkverhalten: Aus einer Fragebogenaktion zum Trinkverhalten von Kunden ergab sich u. a. die Frage: Gibt es Unterschiede zwischen Männern und Frauen bezüglich der Wichtigkeit von Alkohol, Säften, Heißgetränken? (Trinktyp). Die Kontingenztafel lautet: 32 Trinktyp Säfte Heißgetränke Alkohol Geschlecht m 84 23 42 w 27 82 54 Testen Sie auf einen signifikanten Zusammenhang zwischen den Merkmalen Geschlecht und 2 Trinktyp (Hypothesen, eij , χ ij2 , χ Gesamt , Hypothese wählen, Antwortsatz) Hypothesenpaar: Zeilensummen: Spaltensummen: Gesamt-n Ho (Kein Zusammenhang) HA (Signifikanter Zusammenhang) n1. = 149 n2. = 163 n.1 = 111 n.2 = 105 n.3 = 96 n=312 149 ⋅ 111 149 ⋅ 105 Erwartungswerte e11= =53,0 e12= =50,1 …. 312 312 (84 − 53,0)2 =18,13 χ 2 = (23 − 50,1)2 =14,66 …. Chi-Quadrate χ 2 11= 12 53,0 50,1 2 Chi-Quadrat gesamt χ ges= 18,13 +14,66 + … = 63,3 Freiheitsgrad FG = 2 Sicherheitspunkt χ 2 alfa =5,99 Hypothesenwahl HA , da χ 2 ges > χ 2 alfa Es besteht ein signifikanter Zusammenhang zwischen den Merkmalen Geschlecht und Trinktyp. Frauen haben ein anderes Trinkverhalten, als Männer. Thema 8 8.1 Korrelation und Regression Wichtige Analysen bei zwei metrischen Merkmalspaaren sind die Korrelationsanalyse und die einfache Regressionsanalyse. Die Regressionsanalyse wurde bereits in Thema 6 abgehandelt. Korrelationsanalyse ist angebracht, wenn zwei beobachtete oder gemessene Merkmale in Beziehung stehen, sich aber keines der beiden Merkmale als Einflussgröße oder Zielgröße qualifizieren lässt. Beispiel: Materialkosten KM pro Jahr und Energiekosten KE einer Firma. Man kann nicht sagen, dass eines der Merkmale vom anderen abhängt, sondern beide Merkmale hängen vermutlich von einer oder sogar mehreren dritten Größen (Faktoren) ab, z.B. dem Umsatz. Einfache Regressionsanalyse ist angebracht, wenn definitiv eine Zielgröße von einer Einflussgröße abhängt. Beispiel: Materialkosten KM pro Jahr hängen vom Umsatz U ab. 8.2 Berechnung des Korrelationskoeffizienten und Test Gleichlaufendes oder ähnliches Verhalten zweier Merkmale wird als Korrelation bezeichnet, wobei eine direkte Abhängigkeit des einen Merkmals vom anderen nicht Voraussetzung ist. 33 Zeitliche Korrelation ist sogar ohne jeden Zusammenhang denkbar, wenn man an die gesellschaftlichen und kulturellen Entwicklungen voneinander isolierter Kontinente denkt. Zeitliche Korrelation zwischen DAX- und Nikkei-Indes Produkt-Momenten-Korrelation zwischen Körpergröße H und Körpergewicht W W Nikkei DAX H t Die über der Zeit aufgetragenen Werte des DAX-Index und des Nikkei-Index haben einen ähnlichen Verlauf. Hohe DAX-Werte z.B. korrelieren mit hohen Nikkei –Werten und umgekehrt. Große Probanden wiegen im Schnitt mehr als kleine Probanden, wobei es aber keinen sklavischen Zusammenhang gibt. Die Korrelationsellipse ist eine Höhenlinie der 2-dimensionalen Dichteverteilung der Messpunkte Der Korrelationskoeffizient r wird so normiert, dass er nur Werte zwischen −1 und +1 annehmen kann. Ein Wert r = 1 bedeutet, dass ein exakter linearer Zusammenhang der Form y=a+bx oder x=c+dy zwischen den beiden Merkmalen besteht ohne jede Abweichung. r = −1 bedeutet einen ebenso exakten Zusammenhang, aber von der Form y=a−bx bzw. y=c−dy. Hier sind a, b, c, d Konstante. Die Graphiken zeigen verschiedene Korrelationswerte und das Streubild der Messpunkte. r = −0.9 r = −0.5 r=0 y r = 0.5 y r = 0.9 y y x x x x Linearer Korrelationskoeffizient r (Produkt-Momenten-Korrelationskoeffizient nach Bravais und Pearson) zweier metrischer Merkmale in einer Grundgesamtheit. Gegeben ist eine Stichprobe mit Wertepaaren (x1,y1), (x2,y2), ..., (xn,yn), wobei es egal ist, welche der beiden Größen x bzw. y genannt wird. Berechne zuerst wie bei der Regressionsanalyse in Thema 6 die drei Abweichungsprodukt- bzw. Abweichungsquadratsummen SAPxy, SAQxx, SAQyy, wobei die linke Formel genauer, die rechte schneller zu berechnen ist. Folgendes Rechenschema bietet sich an, wenn man lediglich mit einem einfachen Taschenrechner ausgerüstet ist. Man berechnet die 5 Summen und benutzt anschließend den rechten Formelsatz für SAPxy, SAQxx, SAQyy. Vorsicht! Die Mittelwerte nicht zu sehr runden. 6 signifikante Ziffern sollten bleiben. Die Werte xi und yi sind gegeben. Nr 1 2 ... n xi x1 x2 ... xn x i2 x 12 x 22 ... x n2 yi y1 y2 ... yn 34 xi yi x1 y1 x2 y2 ... xn yn yi2 y12 y22 ... yn2 Σ xi Σ yi Σ x i2 Σ xi yi Σ yi2 Formelsatz für Programmierer Formelsatz für Taschenrechner n SAPxy = ∑ (( x i − x )( y i − y )) bzw. SAPxy = ∑ xi y i − n ⋅ x y i =1 i =1 2 n n bzw. SAQxx = ∑ xi2 − n ⋅ x 2 SAQxx = ∑ ( xi − x ) i =1 i =1 2 n n bzw. SAQyy = ∑ y i2 − n ⋅ y 2 SAQyy = ∑ ( y i − y ) i =1 i =1 ) r SAPxy ) r= t= n−2 FG = n − 2 ) SAQxx ⋅ SAQyy 1− r 2 n ) r schätzt den Korrelationskoeffizienten r der Grundgesamtheit. Die Nullhypothese ist H0: r=0 (keine Korrelation in der Grundgesamtheit), HA: r≠0 (es existiert eine Korrelation in der Grundgesamtheit). Die Korrelation r in der Grundgesamtheit ist signifikant von Null verschieden, wenn t ≥ t(α,FG) für zweiseitigen Test ist. Sonst nimmt man Ho: r = 0 an, d.h. "keine signifikante Korrelation in der Grundgesamtheit." Zahlenbeispiel Korrelationskoeffizient: Ist der Umsatz y, gegeben in Millionen €, mit den Materialkosten x, gegeben in Tausend €, korreliert? Die Daten stammen aus 5 Filialen. Zuerst das Rechenschema für die Summen. Die Werte für x und y sind gegeben: Nr 1 2 3 4 5 Σ x 50 110 110 300 370 940 y 1.3 1.9 2.1 3.7 5.1 14.1 x2 2500 12100 12100 90000 136900 253600 xy 65 209 231 1110 1887 3502 y2 1.60 3.61 4.41 13.69 26.01 49.41 x =188, y =2.82, SAQxx=253600−5*1882 =76880, SAQyy=49.41−5*2.822=9.648, SAPxy=3502−5*188*2.82=851.2, 851,2 = 0.98834 Korrelationskoeffizient 76880 ⋅ 9648 H0: r=0 , HA: r≠0 Hypothesenpaar 0,98834 t= 3 = 11.22 t-Statistik 1 − 0,98834 2 FG = 5−2 = 3 Freiheitsgrad tα = t (α=0.05, FG, zweiseitig) = 3.18 Sicherheitspunkt der t-Verteilung Wegen t> tα akzeptieren wir Hypothese HA, d.h. die Materialkosten x und Umsatz y sind (hoch) korreliert. r̂ = 35 Thema 9 (EXCEL-Vorführung mit Beamer) 9.1 Einfach lineare Regression mit Teststatistiken Die einfach lineare Regression setzt man z.B. bei folgenden Aufgaben ein: • Man möchte eine Ausgleichsgerade durch Datenpunkte ziehen • Man möchte den Anpassungsfehler (die Reststreuung) wissen • Man möchte testen, ob der Anstieg signifikant ist • Man möchte testen, ob die Konstante signifikant von Null verschieden ist, oder ob nicht eine Gerade durch den Ursprung die bessere Wahl wäre • Man möchte die Gerade für eine Prognose verlängern und wissen, wie genau sind die prognostizierten Werte. ) Die Funktion =trend( y-Werte ; x-Werte ) berechnet die Erwartungswerte y i der Ausgleichsgeraden, die durch die y- und x-Werte definiert ist. Die Funktion =rgp( y-Werte ; x-Werte ; wahr ; wahr ) berechnet die Regressionskoeffizienten, deren Standardabweichungen, die Reststreuung, die Bestimmtheit r2, deren Freiheitsgrad usw. einer einfachen oder multiplen Regression. Das erste wahr steht für ein "Modell mit Regressionskonstante", das zweite wahr für "außer den Koeffizienten weitere statistische Kennzahlen ausgeben", wie oben genannt. Die Abkürzung SSE steht für die 3-fachTastenbelegung Strg-Shift-Enter (bzw. Strg-Umsch-Enter). Drücken Sie erst die beiden linken Tasten Strg und ⇑, dann zusätzlich ENTER. Zuerst tippen Sie die Spaltenbezeichnungen x, y, y-Dach als Text ein, dann die x-Zahlenwerte in die Felder A2 bis A7, dann die y-Zahlenwerte in B2 bis B7, dann laut Schema: Z1 Z2 Z3 Z4 Z5 Z6 Z7 Z8 Z9 Z10 Z11 Z12 Z13 Z14 Z15 S1=A x 1,7 2,3 2,1 2,4 3,9 1,6 2,20 0,18 0,97 144 16,8 12 S2=B y 3,3 4,1 4,5 4,7 8,3 3,3 S3=C y-Dach Selektiere C2:C7 und tippe ein: =trend( sel. B2:B7 ; sel. A2:A7 ) SSE (y-Werte x-Werte) Auf C2 bis C7 erscheinen die berechneten y-Dach-Werte. Jetzt wollen wir die Koeffizienten und Statistiken berechnen: Selektiere A9:B13 und tippe ein: -0,45 b1,bo =rgp(sel.B2:B7;sel.A2:A7;wahr;wahr) SSE 0,45 sb1,sbo Es erscheinen die Zahlen in Spalte A und B 0,34 r2, sR z.B. b1=Anstieg, bo=Regressionskonstante 4 F, FG der Geraden y = bo + b1 x 0,47 ssreg,ssres Berechnung der t-Statistiken: Sel. A15:B15 = sel.A9:B9 / sel. A10:B10 SSE -1.0 t1, t0 die beiden Teststatistiken erscheinen In den berechneten Statistiken bedeuten: b1, bo den Regressionskoeffizienten b1 und die Konstante bo sb1, sb0 die Standardabweichungen (Fehler) der beiden Koeffizienten b1 und bo 2 r2 bzw. r die multiple Bestimmtheit (bei einer einfach linearen Regression ist es das Quadrat des Korrelationskoeffizienten r) 36 sR F Reststreuung der Messpunkte um die Gerade (mittlere Abweichung) Testgröße (F-Statistik) hier zur Hypothese Ho: b1=0 mit den Freiheitsgraden FG1=1 und FG2=FG. Bei einer einfachen Regression wie hier im Beispiel ist F=t12, und t1 die t-Statistik für b1 mit FG Freiheitsgraden. sind die Teststatistiken zu den Koeffizienten b1 und b0. Man testet damit die Hypothesen Ho: b1=0 gegen HA: b1≠0 bzw. Ho: bo=0 gegen HA: bo≠0 2 = ∑ ( y i − y ) , auch Summe der Abweichungsquadrate der y genannt (SAQyy) 2 ) = ∑ ( y i − y i ) = ∑ ei2 , auch Summe der Abweichungsquadrate bzw. t1 , t0 ssreg ssresid Fehlerquadratsumme genannt. 9.2 Trendgerade mit Prognose Wir geben die Jahre t=02 bis t=12 vor, dazu Umsätze in Millionen € für die Jahre 02 bis 09. Gewünscht sind die Prognosen für die Jahre 10, 11 und 12. Selektieren Sie die (noch leeren Zellen) Zellen unter der Spaltenüberschrift Trendwerte bis zum Jahr 9 und geben Sie die erste Trendanweisung ein. Abschluss mit 3-fach-Taste StrgShift-Enter (SSE). Die leeren Zellen füllen sich mit den Zahlen 122,08 bis 139,41. Zwischen den beiden Semikolons in der Mitte der Trendanweisung tippen Sie ein Blank oder garnichts. Die Prognosewerte für die Jahre 10 bis 12 erhalten wir mit der unteren Trendanweisung. Selektieren Sie die (noch leeren Zellen) Zellen unter Trendwerte vom Jahr 10 bis zum Jahr 12 und geben Sie die untere Trendanweisung ein. Abschluss mit 3-fach-Taste Strg-Shift-Enter (SSE). Die leeren Zellen füllen sich mit den Zahlen 141,89 bis 146,84. Jahr t 2 3 4 5 6 7 8 9 10 11 12 Umsatz U 124 121 127 135 130 128 142 139 Trendwerte 122,08 124,55 127,03 129,51 131,98 134,46 136,94 139,41 141,89 144,36 146,84 Graphik der Regression mit den Prognosewerten: Selektieren Sie mit der Maus alle Zellen von „Jahr t“ bis zur Zahl „146,84“ 1. Klicke auf den Diagrammassistenten 2. Wähle Diagrammtyp Punkte (X,Y) und dazu die Darstellung "nur Punkte" 3. Klicke rechten Mausklick auf einen Punkt der Trendwerte und füge die Trendgerade ein. mit =trend(U2 bis U9; t2 bis t9; ; wahr) SSE mit =trend(U2 bis U9; t2 bis t9; t10 bis t12; wahr) SSE 160 140 120 100 80 Umsatz U Trendwerte 60 Linear (Trendwerte) 40 20 0 0 37 2 4 6 8 10 12 14 9.3 Berechnung einer Korrelation mit Test des Koeffizienten Gegeben sind zwei Datenreihen gleicher Länge x und y. Gesucht ist der Korrelationskoeffizient r und der t-Test auf Signifikanz. x 4 3 9 2 6 7 y 13 9 22 5 9 14 r= n= t= p-value = 0,866 6 3,457 0,0259 mit mit mit mit =korrel(x ; y) =anzahl(x) = r/wurzel(1-r ^2)*wurzel(n -2) =tvert(abs(t); n -2; 2) Die fett kursiv geschriebenen Variablen bzw. Zahlenreihen müssen Sie mit der Maus selektieren, während sie die EXCEL-Anweisungen eintippen, d.h. bei x fahren Sie über die x-Werte, bei r klicken Sie auf den Wert von r usw. Der Korrelationskoeffizient r = 0,866 ist mit einer Irrtumswahrscheinlichkeit von p = 2,59% von Null verschieden, d.h., da unser p-value p < 0,05 ist, liegt eine signifikante Korrelation zwischen den Merkmalen x und y vor. Thema 10 10.1 Multiple Regression (z.B. Parameterpreisbildung) Die multiple Regression verknüpft p Einflussgrößen X1, X2,..., Xp mit einer Zielgröße Y. Das Modell kann mit oder ohne Regressionskonstante bo sein: Y X2 Y = bo + b1* X1 + b2* X2 + ... + bp* Xp + e X1 Die geometrische Interpretation ist eine Funktion über dem von X1, X2, ... aufgespannten Raum. Zumeist ist es eine Ebene, aber es lassen sich auch gebogene Flächen wie in der Graphik modellieren. Die Regressionskoeffizienten b1, b2,..., bp (und b0) werden nach der Methode der kleinsten Quadrate (Σe2= Minimum) geschätzt. e ist der zufällige Fehler oder Residuum (Abweichung). Beispiel Parameterpreisbildung: Der durchsetzbare Marktpreis eines neu zu entwickelnden Elektromotors soll geschätzt werden. Man benötigt dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl, Spannung) sowie die verfügbaren Marktpreise und Kenndaten schon verfügbarer ähnlicher Motore. Zielgröße y ist der Marktpreis, Einflussgrößen X1, X2, ... sind die Kenndaten, wie Gewicht, Leistung, Drehzahl. Das lineare Modell (mit Konstante und Fehler e) lautet: Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + b4*Leistung + e 38 Die multiple Regression schätzt aus den vorhandenen Daten, d.h. den Preisen und Kenndaten die Regressionskoeffizienten. Setzt man die "extra Daten" des eigenen geplanten Motors in die Regressionsgleichung ein, dann erhält man eine Schätzung für dessen Preis. Man kann das Modell mit und ohne Konstante bo aufstellen. Bei einem Modell mit Konstante bo werden in etwa durch die Konstante die Fixkosten eines Motors modelliert. Zum quasilinearen Modell siehe "nichtlineare Regression im Thema 6.2". Von gewichteter Regression spricht man, wenn jedem Datenpunkt i ein Gewicht Gi zugeordnet wird (EXCEL unterstützt diese Variante nicht). Die Zahl der Freiheitsgrade wird dadurch nicht verändert. Es gibt drei Hauptaufgaben der multiplen Regression: 1. Prognose (Vorhersage) von Y-Werten außerhalb des durch die x-Werte vorgegebenen Bereichs und/oder für neue Datenpunkte innerhalb des vorgegebenen X-Bereichs. Beispiele: Parameterpreisbildung oder Schätzung der Energiekosten im nächsten Jahr auf der Basis der Produktionszahlen und anderer Daten in den vergangenen Jahren. 2. Finden von signifikanten Einflussgrößen X: Beispiel: Welches sind die Haupteinflussgrößen auf den Preis einer Immobilie (Grundstücksgröße, Lage, Alter, Verkehrsanbindung, ..., usw.) Bei der Prognose (Vorhersage) interessiert die Genauigkeit der prognostizierten Y-Werte. Nicht die kleinste Reststreuung ist gefragt, sondern der kleinste Prognosefehler. Zur Bestimmung des Prognosefehlers benutzt man Lachenbruch-, Jackknife- oder BootstrapMethoden. Die Frage nach der Signifikanz der Einflussgrößen stellt sich nicht bzw. ist untergeordnet. Alle 3 genannten Methoden lassen sich auch mit EXCEL durchführen. 10.2 Suche signifikanter Einflussgrößen (Abbauverfahren) Das Auffinden signifikanter Einflussgrößen ist oft von wissenschaftlichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhänge erkennbar machen, oder aber den Erhebungsaufwand für Prognosedaten erheblich reduzieren helfen. Probleme beim Auffinden der signifikanten Einflussgrößen sind: 1. Aus einer Gruppe untereinander hoch korrelierter Einflussgrößen wird zumeist nur ein Merkmal mehr oder weniger zufällig ausgewählt. Es ist durchaus möglich, dass viele Merkmalen denselben signifikanten Einfluss haben, wie das zufällig gewählte Merkmal. Das kann dann ein Hinweis darauf sein, dass ein versteckter Faktor alle diese Merkmale steuert. Seltener tritt der Faktor selbst als Merkmal auf. 2. Liegen sehr viele Einflussgrößen vor, dann kann eine Alpha-Adjustierung, z.B. nach Bonferroni vorgenommen werden, da sonst Zufallsmerkmale eine Chance bekommen, als signifikant gemeldet zu werden (bei Irrtumswahrscheinlichkeit α=5% würden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn keine Alpha-Adjustierung vorgenommen wird.) "Schrittweises Abbauverfahren" bzw. "Aufbauverfahren": Ein Signifikanztest (t-Test, FTest) entscheidet über Aufnahme oder Verbleib einer Einflussgröße im Modell. Vorteile sind: • Nur Einflussgrößen mit einem statistisch gesicherten Einfluss auf die Reduktion der Reststreuung werden in das Modell aufgenommen ( Ausnahme: Ist kein Merkmal signifikant, wird das mit dem höchsten t-Wert genommen ) • Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten 39 • Es entsteht eine robuste Lösung, die auch bei moderaten Veränderungen in der Datenbasis noch Bestand hat "Regression mit allen Einflussgrößen" ist ein Verfahren, bei dem nur Merkmale aus dem Modell entfernt werden, wenn eine so starke lineare Abhängigkeit der Merkmale diagnostiziert wird, dass numerische Instabilitäten auftreten. Der Vorteil ist: Für die Stützstellen (und nur für diese) lässt sich die Reststreuung maximal minimieren. Es hängt sehr vom Modell ab, ob die Zielgrößenschätzung auch für Werte außerhalb der Stützstellen noch vernünftige Zahlen liefert. Am besten testet man dieses aus, indem man selbst einmal die X-Werte leicht variiert und in das berechnete Modell einsetzt. Polynomiale Standardmodelle Liegen die Datenpunkte auf einer gekrümmten Fläche, dann ist nichtlineare multiple Regression gefragt. Die einfachsten Modelle dieser Art sind die polynomialen Standardmodelle. Ein Polynom ist eine einfache Funktionen der Form Y = a X2 + b X +c, wobei der Grad n des Polynoms (im Beispiel ist n=2) frei gewählt werden kann. Bei zwei Einflussgrößen X1, X2 entstehen gebogene Flächen über der (X1- X2)-Ebene angeordnet. Bei mehr als zwei Einflussgrößen entstehen Hyperflächen über einem Hyperraum (X1, X2, …, Xp) angeordnet. In der Praxis der Regressionsanalyse werden solche Modelle fast immer als quasilineare Modelle behandelt. Einfach Polynomial: Zu jedem im Modell vorhandenen Xi-Merkmal wird bei Polynomgrad PG=2 ein Xi2-Merkmal zusätzlich erzeugt, bei Polynomgrad PG=3 ein Merkmalspaar Xi2und Xi3 zusätzlich erzeugt usw. Vollständig Polynomial: Wie einfach Polynomial, aber zusätzlich noch alle Produkte der vorhanden X-Merkmale, z.B. bei PG=2 und X1, X2 entstehen zusätzlich X12, X22, X1*X2, bei PG=3 und X1, X2 entstehen zusätzlich X12, X13, X22, X23, X1*X2, X12*X2, X1* X22 Erklärung der von der multiplen Regression benutzten und berechneten Größen: Y Das Zielgrößenmerkmal Xj Einflussgrößenmerkmale ( j = 1, 2, 3,..., p) mit p= Einflussgrößenzahl n Auswertbare Punktzahl (Datensätze ohne Ausfall) B = R2 Multiples Bestimmtheitsmaß (multiples R2), ein Maß für die Verbesserung der Vorhersage durch Kenntnis von X1, X2, ..., Xp. Es ist 0 ≤ B ≤ 1. B= SAQReg / SAQRest. Dabei ist SAQReg die Summe der Abweichungsquadrate aus 2 Erwartungswerten und Mittelwert ( ∑ ( yˆ i − y ) ) und SAQRest ist die Σe2. F FG bj s bj tj p-Wert F-Testwert für R2 bzw. B. Die Nullhypothese ist Ho: B=0 (Kein modellmäßiger Zusammenhang zwischen Y und den Xj nachweisbar) mit F=B(n−k)/(1-B) und mit FG1=p und FG2=n−k, k= Koeffizientenzahl einschließlich des bo. FG=N-k, Freiheitsgrad der Reststreuung, k= Koeffizientenzahl einschließlich des bo. Koeffizient Der Zahlenwert des Regressions-Koeffizienten Stdabw. Die geschätzte Standardabweichung des Koeffizienten b j t-Werte t-verteilte Prüfgrößen zum Test der Nullhypothese Ho: bj =0 (Koeffizient bj in der Grundgesamtheit Null?) p-value Kritische Irrtumswahrscheinlichkeit bei zweiseitigem Test für die Ablehnung der Nullhypothese Ho: bj=0 (HA: bj≠0) 40 sR Reststreuung oder mittleres Residuum (mittlerer Fehler e) 10.3 Beispiel Parameterpreisbildung Der durchsetzbare Marktpreis eines neu zu entwickelnden Elektromotors soll geschätzt werden. Man benötigt dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl, Spannung) sowie die verfügbaren Marktpreise und Kenndaten schon verfügbarer ähnlicher Motore. Zielgröße ist der Marktpreis, Einflussgrößen sind die Kenndaten. Das lineare Modell (mit Fehler e) lautet: Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + b4*Leistung + e Die multiple Regression schätzt aus den vorhandenen Preisen und Kennzahlen die Regressionskoeffizienten. Setzt man die "extra Daten" des eigenen geplanten Motors ein, dann erhält man eine Schätzung für dessen Preis. EXCEL nennt übrigens die Regressionskonstante nicht bo, sondern b, und die Koeffizienten nicht b1, b2, …, sondern m1, m2, … An solche unterschiedlichen Bezeichnungen zwischen Literatur und EXCEL muss sich der Nutzer gewöhnen. Multiple lineare Regression mit EXCEL: Modell Y = b + m1X1 + m2X2 +...+ mpXp + e Dabei ist Y die Zielgröße, X1 bis Xp die p Einflussgrößen, e das Residuum (Abweichung), b ist die Regressionskonstante, m1 bis mp die Regressionskoeffizienten. Die rechte Tabelle zeigt einen Ausschnitt aus einer EXCEL-Tabelle mit den Spalten A,B,C,... und den Zeilen 1,2,... Wir wollen z.B. die multiple Regression ohne Konstante b berechnen: P = m1D+m2S+m3G Wir markieren eine Matrix mit immer 5 Zeilen (hier ab Zeile 9) und soviel Spalten, wie Koeffizienten zu berechnen sind (hier 3 Spalten). Konstante b würde bei den Spalten mitzählen, hätten wir sie gewünscht. Wir geben über die Tastatur die Anweisung =rgp(a2:a7;b2:d7;falsch;wahr) und die Tasten-Kombination Strg-Shift-Enter. a2:a7 bezeichnet hier die Zielgröße Preis, b2:d7 bezeichnet hier die drei Einflussgrößen, falsch legt fest, dass die Konstante b entfällt, wahr legt fest, dass zusätzliche Statistiken (Fehler der Koeffizienten usw. erscheinen.) Siehe auch HELP-Möglichkeit von EXCEL. EXCEL berechnet in Zeile 9 die Koeffizienten in der Reihenfolge m3, m2, m1. In Zeile 10 A B C D Zeile1 Preis Drehz. Spann. Gewicht Zeile2 1400 1400 380 240 Zeile3 3800 2000 600 900 Zeile4 1850 2800 380 180 Zeile5 4450 12000 380 95 Zeile6 5900 1200 600 1800 Zeile7 22500 600 15000 3250 Zeile8 Zeile9 2,796 0,881 0,323 Zeile10 0,0549 0,0139 0,008 Zeile11 0,999 112,6 Zeile12 ....... 3 Zeile13 ....... ....... stehen die Fehler der Koeffizienten sm3, sm2, sm1. Zeile 11 liefert das Bestimmtheitsmaß B=r² und die Reststreuung (mittlere Abweichung). Zeile 12 enthält den Freiheitsgrad zur Reststreuung und wird für eventuelle t-Tests benötigt, die Sie zu den Koeffizienten durchführen wollen. Der Rest (…) ist hier unwichtig. Unser Modell lautet jetzt mit den berechneten Koeffizienten (beachte reverse Reihenfolge): 41 P = m1D+m2S+m3G = 0,323 D + 0,881 S + 2,796 G Wir stzen die Werte D = 6000 U/min, S = 800 Volt, G = 400 Kg unseres geplanten Motors in die Regressionsgleichung ein und erhalten den Preisvorschlag P = 3761,20 € für unseren geplanten Motor. 10.4 Logistische Regression Da EXCEL die logistische Regression bisher nicht unterstützt, ist dieser Abschnitt nur informativ. Bei der logistischen Regression ist die Zielgröße Y eine 0-1-Variable (z.B. eine Ja/NeinEntscheidung). Die Einflussgrößen X1, X2, … sind beliebig metrisch, kategorial ranggeordnet oder binär. Die logistische Regression teilt die Objekte in genau 2 Klassen (y=0 und y=1). Der Wert 0 oder 1 für y wird ähnlich wie bei der Regression aus p Einflussgrößen x1, x2, ..., xp geschätzt. Beispiel: y= Auftreten von Karies bei Schülern (Ja/Nein als 0 oder 1 codiert), x1=Wasserfluoridierung (Ja/Nein als 0 oder 1 codiert), x2=Anteil % Zucker in der Ernährung. Variable y folgt einer Bernoulli-Verteilung mit P(y=r) = p r (1−p) 1− r und r = 0 / 1. Erwartungswert ist E(y)=p, Varianz Var(y)= σ2y = p(1−p). Für die Modellierung der Wahrscheinlichkeit p in Abhängigkeit von x-Variablen benutzt man die logistische Verteilungsfunktion p(x). Wegen p(1−p) = exp( b0+b1x1+...+bpxp ) ist g(x) = log(p/1−p)) = b0+b1x1+...+bpxp. p( x) = exp(b0 + b1 x1 + ... + b p x p ) 1 + exp(b0 + b1 x1 + ... + b p x p ) p( x) = b0 + b1 x1 + ... g ( x) = log 1 − p ( x) Man berechnet die Wahrscheinlichkeit p(x), dass y den Wert 1 annimmt. Wird von einem noch nicht klassifiziertem Objekt die Wahrscheinlichkeit p(x) auf Grund der geschätzten Parameter b0, b1, ... der Lernstichprobe und seiner eigenen x-Werte geschätzt, dann muss man irgendwo (meist bei p=0.5) die Klassengrenze ziehen. Diese sollte so gesetzt werden, dass der Klassifikationsfehler ein Minimum wird. Die Schätzung der b0, b1, ... erfolgt iterativ durch rechentechnisch aufwendige Maximierung der Maximum-Likelihood-Funktion. Das Verfahren liefert auch die Fehler sbj der Koeffizienten. Mit dem Wald-Test (nach Abraham Wald) W=bj / sbj, wobei W approximativ als normal verteilt angenommen wird, prüft man die Signifikanz der Koeffizienten, und damit den Einfluss der x-Merkmale. Der Likelihoodratio-Test ist ein globaler Test, mit dem man unterschiedliche Modellansätze vergleichen kann. Binäre Einflussgrößen (xj=0 bzw. xj=1) führen auf das OddsRatio OR mit log(OR)=g(1)−g(0)=bj. OR=ebj ist die Wahrscheinlichkeit, die z.B. xj =1 zum Krankheitsrisiko beiträgt. Bei kontinuierlichen Einflussgrößen xj gibt man die Erhöhung der Risikowahrscheinlichkeit an, falls sich xj um 1 erhöht. Alle anderen Patientenwerte x1,..., xj−1 , xj+1,..., xp bleiben unverändert. 42 OR = p (1) p ( 0) 1 − p (1) 1 − p (0) p ( x1 ,..., x j + 1,..., x p ) p ( x1 ,..., x j ,..., x p ) Thema 11 EXCEL-Vorführung mit Beamer: Multiple Regressionsanalyse am Beispiel einer Pflanzenproduktion Lineares Modell mit und ohne Regressionskonstante Suche signifikanter Einflussgrößen (Abbauverfahren) Die multiple Regression verknüpft p Einflussgrößen X1, X2,..., Xp mit einer Zielgröße Y. Das Modell kann mit oder ohne Regressionskonstante bo sein: Y X2 Y = bo + b1* X1 + b2* X2 + ... + bp* Xp + e X1 Die geometrische Interpretation ist eine Ebene über dem von X1, X2, ... aufgespannten Raum. Die Regressionskoeffizienten b1, b2,..., bp (und b0) werden nach der Methode der kleinsten Quadrate (Σe2= Minimum) geschätzt. e ist der zufällige Fehler oder Residuum (Abweichung). Die multiple lineare Regression setzt man z.B. für folgende Aufgaben ein: • Man möchte eine Ausgleichsebene durch Datenpunkte legen, d.h. den Einfluss mehrerer Einflussgrößen X1, X2, … auf eine Zielgröße Y durch eine lineare Formel darstellen. Mit dieser Formel kann man Werte vorhersagen (Prognose) oder zwischen Datenpunkten interpolieren. • Man möchte wissen, ob die lineare Formel die Zielgröße genau genug wiedergibt. Man kann den Gesamteinfluss aller Einflussgrößen auf die Zielgröße global bewerten. • Man möchte aus sehr vielen Einflussgrößen diejenigen heraussuchen, die einen signifikanten Einfluss auf die Zielgröße haben, d.h. man bewertet jede Einflussgröße einzeln. Die multiple Regression schätzt aus p Einflussgrößen X1, X2, …, Xp die Werte einer Zielgröße Y. Das am meisten benutzte Regressionsmodell ist die Ebenengleichung Yi = b0 + b1 Xi1 + b2 Xi2 + ... + bp Xip + ei Dabei ist Yi ein beobachteter Wert der Zielgröße, Xij ist der i-te Wert der j-ten Einflussgröße, b0 ist die Regressionskonstante, b1 , b2 , ... , bp sind Regressionskoeffizienten, ei ist der Fehler im Datenpunkt i (oder Abweichung bzw. Residuum im Datenpunkt i). Beispiel Pflanzenproduktion: Der Ertrag in Abhängigkeit unterschiedlicher Parameter wird bestimmt. Die verfügbaren Daten sind in der folgenden EXCEL-Tabelle zu sehen. (Die Zeilennummern 1, 2, 3, … und die Spaltenbezeichnungen A, B, C, … gehören zum EXCELBlatt.) Zeile 1 2 3 4 5 A Bodenwert 2 2 4 3 B Beregnung 2 3 2 4 C Düngung 0,10 0,15 0,10 0,20 43 D E F Temperatur Bodendichte Y = Ertrag 17 1320 1,1 19 1410 1,5 22 1190 1,8 20 1240 2,0 6 7 8 9 2 1 4 2 1 3 4 3 0 0,10 0 0,20 18 18 21 15 1240 1350 1270 1300 0,80 1,20 1,95 1,15 Wir markieren das Feld von A11:F15 und tippen eine Regressionsanweisung ein, die zuerst die Zielgrößenwerte Y nennt, dann die Einflussgrößenwerte X. Das erste „wahr“ legt ein Modell „mit Konstante“ fest, das zweite „wahr“ legt fest, dass wir außer den Koeffizienten weitere Werte berechnet haben möchten, z.B. die sbi, R2, sR, usw. Es sind immer 5 Zeilen, die Sie markieren. Die Spaltenzahl richtet sich jedoch nach der Anzahl der Koeffizienten im Regressionsmodell (bo zählt mit, falls die Konstante berechnet werden soll). Zeile 11 12 13 14 15 16 =rgp( F2:F9; A2:E9; wahr; wahr) Strg-Shift-Enter b5=0,000129 b4=0,0995 b3=1,379 b2=0,185 b1=0,137 b0= -1,597 sb5=0,00036 sb4=0,0119 sb3=0,253 sb2=0,0214 sb1=0,0322 sb0=0,514 9 R2=0,997 sR =0,0431 F= 147,44 FG= 2 ssreg=1,37 ssresid=0,0037 ssreg ssresid Dichte Temperatur Düngung Beregnung Bodenwert b0 Wie man sieht, kehrt EXCEL die Reihenfolge der Regressionskoeffizienten um (b5, b4, ..., b0). In den berechneten Statistiken in den Zeilen 12 bis 15 bedeuten im Falle der multiplen Regression: die geschätzten Standardfehler der Koeffizienten b5 ,..., bo sb5,..., sb0 2 R die multiple Bestimmtheit (bei einer einfach linearen Regression ist es das Quadrat des Korrelationskoeffizienten r. R2 =0 heißt, dass keinerlei linearer Zusammenhang zwischen der Gesamtheit aller Einflussgrößen mit der Zielgröße besteht. R2 =1 heißt, dass die Einflussgrößen die gegebenen y-Werte absolut exakt reproduzieren ohne jede Abweichung.) sR Reststreuung der Messpunkte um die berechnete Ebene (mittlere Abweichung) F Testgröße (F-Statistik nach Fisher) zur Bewertung der multiplen Bestimmtheit. Hypothese Ho: „keine Bestimmtheit, ein Wert von R2>0 ist rein zufällig“. Hypothese HA: „Es besteht ein signifikanter Einfluss der Einflussgrößen auf die Zielvariable, ein Wert von R2>0 ist nicht zufällig“. Die Irrtumswahrscheinlichkeit p bei Ablehnung von Ho (bzw. Annahme von HA) berechnet man mit der Funktion FVERT( F ; n – FG – 1 ; FG ) wenn bo mitberechnet wird (mit TRUE ausgewählt), und wird auch als p-Value zum F-Test bezeichnet. Falls bo nicht berechnet wird (mit FALSE abgewählt), schreiben Sie FVERT( F ; n – FG ; FG ). Die Summen ssreg und ssresid wurden schon bei der einfachen Regression kurz beschrieben. Für die Bewertung der Wichtigkeit der einzelnen Einflussgrößen bzw. der Konstanten für das Regressionsmodell hat man zu jedem Koeffizienten das Hypothesenpaar Ho und HA. Ho sagt: „Diese Einflussgröße hat keinen linearen Einfluss auf die Zielgröße. Ein Wert bj ≠ 0 eines Koeffizienten ist rein zufällig“. Hypothese HA sagt: „Diese Einflussgroße trägt signifikant zur Erklärung der Zielgröße bei.“ 44 Praktisch berechnet man zu jedem Koeffizienten eine Teststatistik. Meistens wird die tStatistik verwendet. Es gilt t i = b i / s bi . Wir dividieren mit einer EXCEL-Anweisung gleich alle Koeffizienten und die Konstante durch ihren geschätzten Standardfehler und bilden den Absolutbetrag. Dazu markieren wir die Felder A18:F18 und tippen die nachfolgende Befehlszeile ein: Zeile 18 =ABS(A11:F11/A12:F12) Strg-Shift-Enter (SSE) t5=0,351 t4=8,33 t3=5,43 t2=8,65 t1=4,27 t0=3,10 Die t-Verteilung hat eine ähnliche Gestalt wie die Normalverteilung (Glockenkurve). Die Funktion TVERT berechnet aus einem t-Wert, dem Freiheitsgrad FG von oben und der Zahl 2 die zweiseitige Irrtumswahrscheinlichkeit (p-Value) bei Ablehnung der Hypothese H0 zum betreffenden Koeffizienten. Dieser p-Value (die Irrtumswahrscheinlichkeit) sollte möglichst klein sein, z.B. <0,05, denn dann bewerten wir die Einflussgröße als wesentlich (als signifikant). Zur Berechnung der p-Values markieren wir die Zellen A20:F20 und tippen folgende Anweisung ein: =TVERT( A18:F18; B14; 2 ) Strg-Shift-Enter (SSE) p5 = 0,75 p4 = 0,014 p3 = 0,032 p2 = 0,013 p1 = 0,0506 p0 = 0,09 Zeile 20 In der Betriebswirtschaft gibt man meist eine zulässige Irrtumswahrscheinlichkeit α = 5% ( 0,05) vor, d.h. mit 5% Wahrscheinlichkeit wollen wir uns bei der Bewertung einer Einflussgröße irren dürfen. Ist der berechnete p-Value größer α, dann entscheiden wir uns für Hypothese Ho (unwesentliche Einflussgröße). Ist p ≤ α , dann entscheiden wir uns für Hypothese HA (wesentliche Einflussgröße). Zur Darstellung der Hypothesenwahl markieren wir die Felder A22:F22 und tippen folgende Anweisung ein: Zelle 22 23 =wenn( A20:F20 > 0,05 ; „Ho“ ; „ Ha“ ) Strg-Shift-Enter (SSE) Ho Ha Ha Ha Ho Dichte Temperatur Düngung Beregnung Bodenwert Ho b0 Den schlechtesten p-Value (höchste Irrtumswahrscheinlichkeit) hat Einflussgröße X5=Dichte. Wenn wir unser Regressionsmodell von unwesentlichen Bestandteilen befreien wollen, sollten wir zuerst diese Einflussgröße entfernen (Schrittweiser Abbau). Entfernen Sie jedoch in jedem Schritt immer nur einen Term, d.h. eine Einflussgröße oder die Konstante bo. Durch Korrelationen zwischen den Einflussgrößen ändern sich die p-Values oft dramatisch bei Wegnahme oder Hinzunahme einer einzelnen Einflussgröße. Die Regressionskonstante bo kann man entfernen, indem man statt des ersten „wahr“ in der rgp-Anweisung ein „falsch“ schreibt. Den globalen Test auf einen signifikanten linearen Zusammenhang der Gesamtheit der Einflussgrößen auf die Zielgröße macht man mit dem F-Test (siehe oben bei der Erklärung des F). Das folgende Rechenschema liefert den p-Value und die Hypothese Ho bzw. HA. Jede eingetippte Anweisung schließen Sie mit ENTER ab. Zeile 24 Zeile 25 A B =ANZAHL(A2:A9) 8 Anzahl Die Wenn-Anweisung lautet vollständig: C D E =FVERT(A14; A24-B14-1; B14) 0,0067 F =wenn(…. Ha p-Value Hypothese =wenn( C24 > 0,05 ; „Ho“ ; „Ha“ ) 45 Thema 12 Mittelwertvergleiche Mittelwertvergleiche treten in der betrieblichen Praxis ständig auf. Man vergleicht die Umsätze von Quartale oder die Renditen von Filialen. Zum statistischen Problem werden Mittelwertvergleiche erst, wenn man von einer Stichprobe auf die zugehörige Population schließen will. Beispiel 1: Ihr Betrieb stößt schadstoffhaltige Luft aus, deren Gehalt an Schadstoff unter einem gesetzlichen Grenzwert liegen muss. Da die Messung selbst ungenau ist und der Schadstoffgehalt produktionsbedingt ständig schwankt, kann man mit einem statistischen Test z.B. dem Umweltamt beweisen, dass trotz einzelner kleiner Überschreitungen des Grenzwerts der Mittelwert des Schadstoffgehalts unter der gesetzlichen Schranke bleibt. Beispiel 2: Ihre Handelskette hat Filialen in Großstädten und in kleineren Gemeinden. Für eine Auswahl (Stichprobe) ausgewählter Filialen liegen Renditeberechnungen vor. Frage: Besteht ein signifikanter Unterschied bei der durchschnittlichen Rendite von Filialen in Großstädten und Filialen in kleinen Gemeinden? Die Aussage könnte wichtig für strategische Entscheidungen der Geschäftsführung sein. EXCEL verfügt mit der Arbeitsblattfunktion TTEST über ein Hilfsmittel, dass für viele Anwendungsfälle in der betrieblichen Praxis ausreichend ist. Der Aufruf hat die Form: =TTEST(Matrix1; Matrix2; Seiten; Typ) und liefert als Ergebnis den p-Value, d.h. die Irrtumswahrscheinlichkeit bei Ablehnung der Nullhypothese Ho: µ=µ0. Wenn TTEST einen Wert kleiner 0,05 liefert, dann liegt ein signifikanter Mittelwertunterschied vor. Matrix1 ist die Ho: µ=µ0 erste Datengruppe. Matrix2 ist die zweite Datengruppe. Seiten bestimmt, ob einseitig oder zweiseitig getestet wird. Wir testen immer zweiseitig, d.h, wir tippen an dieser Stelle eine 2 ein. Typ bestimmt den Typ des durchzuführenden t-Tests. Bei Typ=1 wird der gepaarte t-Test genommen (Thema 12.4) Bei Typ=2 wird der t-Test für normalverteilte Grundgesamtheiten bei gleicher Varianz Genommen (Thema 12.2) Bei Typ=3 wird der Welch-Test genommen (Thema 12.3) 12.1 Einstichproben-t-Test (Test Messreihenmittel gegen Konstante) Der Einstichproben-t-Test ist in EXCEL nicht implementiert, d.h. man muss ihn selbst durchführen. Ein Beispiel ist unten zu sehen. Gegeben ist eine Messreihe x1, x2, ..., xn. Der Mittelwert µ der Grundgesamtheit, aus der die Messreihe stammt, soll gegen einen Konstanten Wert µ0 getestet werden. µ0 kann eine vom Gesetzgeber festgelegte Norm sein, ein Literaturwert ohne Fehlerangabe oder eine sonstwie theoretisch begründete Zahl. Schritt 0: Hypothese Ho: µ=µ0 HA: µ ≠ µ0 (zweiseitiger Test) 46 α=0.05 (5%) Schritt1 : Methode t-Test x − µ0 Schritt 2: t= n, σ n −1 FG=n−1 Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG, zweis.) aus der Tafel S. 3 Wenn t < −t(α, FG, zweis.), dann ist signifikant µ < µ0 Wenn t > t(α, FG, zweis.), dann ist signifikant µ > µ0 in allen anderen Fällen Ho: µ = µ0 annehmen (kein signifikanter Unterschied) Beispiel CO-Gehalt: Grenzwert 0,03 darf nicht überschritten werden. Wir testen den Mittelwert der Datenreihe auf eine signifikante Abweichung von µ0=0,03. A CO-Gehalt 0,027 0,031 0,028 0,029 0,018 0,029 0,032 0,022 B C Grenzwert= Mittelwert= Sigma= Anzahl= Freiheitsgrad FG= Testgröße t= p-Value= D 0,030 0,027 0,005 7,000 6,000 -1,557 0,171 eingetippt =Mittelwert(CO-Daten) =Stabw(CO-Daten) =Anzahl(CO-Daten) =Anzahl - 1 =((Mittelwert-Grenzwert)/Sigma)*Wurzel(Anzahl) =TVERT(abs(t); FG; 2) In Spalte D sind noch einmal die Formeln angedeutet, die hinter den Zahlen in Spalte C stecken. Die fett kursiv geschriebenen Größen müssen mit der Maus in Spalte A selektiert bzw. in Spalte C angeklickt werden. Wie man sieht, gibt es eine nicht signifikante Abweichung des CO-Mittels von 0,027 nach unten, d.h., der CO-Grenzwert wird keinesfalls signifikant überschritten. 12.2 Mittelwertvergleich zweier normalverteilter Grundgesamtheiten Gegeben sind zwei unabhängige Stichproben (Messungen, Beobachtungen) x11, x12, ..., x1n1 und x21, x22, ..., x2n2 mit Umfang n1 und n2. Der erste Index bezeichnet die Stichprobe 1 oder 2, der zweite Index nummeriert die Beobachtungen innerhalb der Messreihe mit 1,2,3,... Sie wollen prüfen, ob die Mittelwertunterschiede signifikant sind. Dieser Test wird im EXCELTTEST als Typ 2 bezeichnet. Schritt 0: Hypothese Ho: µ1=µ2 HA: µ1 ≠ µ2 (zweiseitiger Test) α=0.05 (5%) Schritt1 : Methode t-Test mit gemittelter Standardabweichung Schritt2 : Berechne für jede Stichprobe i: x i , SAQi = ni σ2in = (Σ xij2) - ni ( x i)2 , i=1,2 Wie man sieht, lassen sich die SAQ auf zwei verschiedene Arten berechnen. Berechne FG = n1 + n2 -2 σ = SAQ1 + SAQ2 n1 + n 2 − 2 t= x1 − x 2 σ Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG, zws.) aus der Tafel S. 3 Wenn t < −t(α, FG, zweis.), dann ist signifikant µ1 < µ2 47 n1 ⋅ n 2 n1 + n 2 Wenn t > t(α, FG, zweis.), dann ist signifikant µ1 > µ2 in allen anderen Fällen Ho: µ1 = µ2 annehmen (kein signifikanter Unterschied) Zahlenbeispiel Mittelwertvergleich unabhängiger Stichproben: Ihre Handelskette hat Filialen in Großstädten und in kleineren Gemeinden. Für eine Auswahl (Stichprobe) ausgewählter Filialen liegen Renditeberechnungen vor. Rendite von Filialen in Großstädten Rendite von Filialen in Gemeinden 3.6 3.9 2.9 4.4 3.0 3.2 4.1 3.8 --4.3 Frage: Besteht ein signifikanter Unterschied bei der durchschnittlichen Rendite von Filialen in Großstädten und Filialen in kleinen Gemeinden? Zuerst das Rechenschema für die Summen. Zahlen x1 und x2 sind gegeben: 1 2 3 4 5 Σ n1=4, n2=5, Großstädte A=x1 3.6 2.9 3.0 4.1 --13.6 Gemeinden B=x2 3.9 4.4 3.2 3.8 4.3 19.6 x 12 12.96 8.41 9.00 16.81 --47.18 x 1=3.40 , SAQ1 = n1σ1,n2= (47.18−4*3.402) = 0.940 x 1=3.92 , SAQ2 = n1σ1,n2= (77.74−5*3.922) = 0.908 x 22 15.21 19.36 10.24 14.44 18.49 77.74 Anzahl, Mittel, SAQ Anzahl, Mittel, SAQ Hypothese Ho: µ1=µ2, HA: µ1 ≠ µ2 (zweiseitiger Test), α=0.05 (5%) σ= 0,940 + 0,908 = 0.5138 4+5−2 Gemitteltes σ FG=4+5-2=7, tα = t(α=0.05, FG=7, zweis.) = 2.36 t= (3,40 − 3,92) 0,5138 Hypothesenpaar 4⋅5 = − 1.509 4+5 Freiheitsgrad, Sicherheitsp. t-Statistik Da t< tα akzeptieren wir H0 Hypothesenauswahl Es besteht kein signifikanter Unterschied in den durchschnittlichen Renditen von Filialen in Großstädten und Filialen in kleinen Gemeinden. Man nimmt im 2-Stichproben-t-Test für unabhängige Stichproben die gemittelte Standardabweichung bei angenommener Gleichheit der Varianzen (homoscedasticity). Bei unterschiedlichen Varianzen (heteroscedasticity) ist der Fakt der Ungleichheit unerheblich, wenn die Stichprobenumfänge n1>30 und n2>30 sind. Ist das jedoch nicht der Fall, dann nimmt man den Welch-Test bzw. einen ähnlich aufgebauten Test. Der Welch-Test führt auf nichtganzzahlige Freiheitsgrade, die dann zu runden sind. 48 12.3 Mittelwertvergleich zweier normalverteilter Grundgesamtheiten bei ungleichen Varianzen und entweder n1 ≤ 30 oder n2 ≤ 30 oder beide n ≤ 30 (Welch-Test und F-Test auf Varianzhomogenität). Hypothese Ho: µ1=µ2 HA: µ1 ≠ µ2 (zweiseitiger Test) α=0.05 (5%) Methode: Welch-Test mit gemittelter Standardabweichung und adjustierten Freiheitsgraden. Dieser Test wird im EXCEL-TTEST als Typ 3 bezeichnet. Berechne für jede Stichprobe Mittelwert x i , Standardabweichung σ i , n-1 für i=1,2 σ = t= σ 12, n−1 n1 + σ 22, n−1 n2 x1 − x2 σ ( g1 + g 2 ) 2 σ 12, n−1 σ 22, n−1 mit g1 = und g 2 = . g12 g 22 n1 n2 + n1 − 1 n2 − 1 Berechne mit TINV(…) Sicherheitspunkt t(α, FG, zweis) 2-seitiger Test: Wenn t ≤ −t(α, FG, zweis.), dann ist signifikant µ1 < µ2 Wenn t ≥ t(α, FG, zweis.), dann ist signifikant µ1 > µ2 in allen anderen Fällen Ho: µ1 = µ2 annehmen (kein signifikanter Unterschied). mit Freiheitsgraden FG = F-Test zur Entscheidung, ob gleiche oder signifikant ungleiche Varianzen in den Grundgesamtheiten vorliegen. Sind σ 12, n −1 und σ 22, n −1 die Varianzschätzungen aus den beiden Stichproben x11, x12, ..., x1n1 und x21, x22, ..., x2n2 mit Umfang n1 und n2, dann ist die Testgröße σ 12, n −1 F= 2 σ 2, n −1 unter Ho F-verteilt mit FG1=n1-1 und FG2=n2-1 Freiheitsgraden. Ho: σ 12 = σ 22 Gleichheit der Varianzen (homoscedasticity) in den Grundgesamtheiten. HA: σ 12 ≠ σ 22 Ungleichheit der Varianzen (heteroscedasticity). Wir akzeptieren HA, wenn F ≥F(α, FG1, FG2) ist (Sicherheitspunkt der F-Verteilung). Wir akzeptieren Ho, wenn F <F(α, FG1, FG2) ist. Ist F<1, dann bildet man den Kehrwert 1/F und testet mit diesem, satt mit F. Dabei vertauschen sich die Freiheitsgrade. Es wird FG1=n2-1 und FG2=n1-1. Die Tafel der Sicherheitspunkte der F-Verteilung auf Seite 3 gibt die einseitigen oberen Sicherhheitspunkte für eine Irrtumswahrscheinlichkeit α=5%. (EXCEL liefert den p-Value.) Wir nehmen den einfachen t-Test (Typ 2) im Falle gleicher Varianzen (Hypothese Ho). Wir nehmen den Welch-Test (Typ 3) im Falle ungleicher Varianzen (Hypothese HA). Zahlenbeispiel F-Test und anschließender Welch-Test im Falle ungleicher Varianzen 49 Gegeben sind zwei unabhängige Stichproben. Zwei Gruppen von Bewerbern für einen Leitungsposten unterzogen sich IQ-Tests. Gruppe 1 ohne Auslandserfahrung, Gruppe 2 mit Auslandserfahrung. Frage: Beeinflusst die Auslandserfahrung signifikant den IQ-Test der Bewerber? Gruppe 1 Gruppe 2 102 89 97 88 94 100 91 97 105 102 95 93 99 90 95 82 116 104 87 98 74 114 79 98 84 113 117 114 123 σ 1, n −1 = 5,12974519 σ 2, n −1 = 16,4652481 n1=15 (FG=14) n 2=14.(FG=13) Da σ2> σ1 ist, vertauschen wir Zähler und Nenner, d.h. es ist F= σ22 / σ21. F = (16,4652481) 2 / (5,12974519 ) ) 2 = 10,30255575 mit FG1=14 und FG2=13. Den Sicherheitspunkt F(α=5%, FG1=14, FG2=13) =2,554 finden wir a) Durch Interpolation in unserer F-Tafel Seite 2 b) Oder mit der EXCELfunktion =FINV( 0,05 ; 14 ; 13 ) Wir akzeptieren HA, weil F ≥F(α, FG1, FG2) ist. Es besteht ein signifikanter Unterschied in den Varianzen der beiden Grundgesamtheiten. Wir empfehlen den WelchTest, der jetzt im Anschluss durchgeführt wird: σ = t= σ 12, n−1 n1 x1 − x2 g1 = σ σ 12, n−1 + σ 22, n−1 n2 = 4,5955 und = ( 95,8 - 100,214 ) / 4,5955 = -0,9606 = 1,754 , g2 = σ 22, n−1 = 19,365 , FG = ( g1 + g 2 ) 2 = 15,345. g12 g 22 + n1 − 1 n2 − 1 Wir runden FG=15. Sicherheitspunkt ist t(α=5%, FG=15, zweis.) = 2,13. Da │t│< t(α=5%, FG=15, zweiseitig) = 2,13 ist, akzeptieren wir Hypothese Ho. Der IQ-Test der Bewerber wird von einer Auslandserfahrung nicht signifikant beeinflusst. n1 n2 12.4 Gepaarter t-Test Gepaarte (bzw. korrelierte) Daten liegen vor, wenn am selben Objekt zweimal ein Wert erhoben wird, z.B. Mitarbeiterzahl einer Firma vor der Krise und nach der Krise, oder Börsenwert vor der Fusion und nach der Fusion. (Mittelwertvergleich einer normalverteilten korrelierten Stichprobe) Gegeben ist eine korrelierte Stichproben aus n Wertepaaren (y1, x1), (y2, x2), ..., (yn, xn). Korreliert heißt, die Messwertpaare (yi, xi) sind am selben Objekt gewonnen, Welche Größe mit x und welche mit y bezeichnet wird, ist egal. Man muß nur das Vorzeichen des Effekts d=y−x beachten. Schritt 0: Hypothese Ho: d = 0 HA: d ≠ 0 (zweiseitiger Test) oder z.B. HA: d > 0 (einseitiger >Test) Schritt 1 : Methode t-Test für das Differenzenmittel 50 α=0.05 (5%) Schritt 2 : Berechne alle Differenzen d i = y i - x i , daraus Mittelwert und Standardabweichung, wobei die linke sd-Formel genauer, die rechte einfacher zu berechnen ist: 2 ∑ di di − d d i2 − n ⋅ d 2 ∑ ∑ d= sd = = n n −1 n −1 FG=n−1 t = (d / s d ) ⋅ n ( ) ( ) Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG) aus der Tafel (beachte 1- oder 2-seitig) 2-seitiger Test: Wenn t < −t(α, FG), dann ist signifikant µy < µx bzw. d < 0 Wenn t > t(α, FG), dann ist signifikant µy > µx bzw. d > 0 1-seitiger Test : z.B. HA: µy > µx bzw. HA: d > 0 Wenn t > t(α, FG), dann ist signifikant µy > µx bzw. d > 0 in allen anderen Fällen Ho: µy = µx annehmen (kein signifikanter Unterschied) 12.5 Nichtparametrische Tests Dieser Abschnitt ist nur informativ, da EXCEL für die folgenden Tests wenig Unterstützung anbietet. Liegt keine Normalverteilung der Daten vor, dann dürfen wir die so genannten parametrischen Tests (t-Test, F-Test, χ2-Test, u-Test) nicht anwenden. Man weicht auf nichtparametrische Test aus, z.B. auf Rangsummentests. Wendet man nichtparametrische Tests auf normalverteilte Daten an, dann ist die Testpower geringfügig kleiner, als die des parametrischen Tests. Mann-Whitney-Test (Vergleich zweier Mittelwerte, Rangtest) Der Mann-Whitney-Test ist das nichtparametrische Pendant zum t-Test für zwei normalverteilte Grundgesamtheiten bei ungepaarten Daten und des Welch-Tests (Thema 12.2 und 12.3). Gegeben sind zwei unabhängige Stichproben (Messungen, Beobachtungen) x1, x2, ..., xn und y1, y2, ..., ym mit Umfang n und m. Sie wollen prüfen, ob die Mittelwertunterschiede signifikant sind. Es lässt sich definitiv keine Normalverteilung der zwei Messreihen herstellen, oder aber man will dieser Diskussion aus dem Wege gehen. Der Mann-Whitney-Test ist ein Rangtest: Schritt 0: Hypothese Ho: µ1=µ2 HA: µ1 ≠ µ2 (zweiseitiger Test) α=0.05 (5%) oder z.B. HA: µ1 > µ2 (einseitiger >Test) Schritt 1: Rangtest von Mann-Whitney für beliebig verteilte Daten Schritt 2: Man sortiert die vermischten Daten in eine Rangfolge, wobei eine ungerade Zahl gleicher Messwerte denselben Rang, z.B., .25, 27, 27, 27, 29 ... erhalten, eine gerade Zahl gleicher Messwerte das Rangmittel, z.B. ...,25, 26.5, 26.5, 28, ., und bildet die Rangsummen Rx der x-Messwerte, und ebenso Ry, daraus UX, UY: n(n + 1) m(m + 1) U X = nm + − RX , U Y = nm + − RY , 2 2 Ist n≤10 oder m≤10, dann berechnet man U=Min(UX, UY) und ist fertig, U − (nm / 2) sonst berechnet man aus U das u = nm(n + m + 1) / 12 51 Schritt 3: Sicherheitspunkte Uα=U(α, n, m) finden wir z.B. in E. Weber, Tab. 19 ff. 2-seitiger Test: Wenn U= UX > Uα, dann ist signifikant µX > µY Wenn U= UY > Uα, dann ist signifikant µY > µX in allen anderen Fällen Ho: µX = µY annehmen (kein signifikanter Unterschied) Bei n>10 und m>10 vergleichen wir u mit dem zweiseitigem Sicherheitspunkt der Normalverteilung, uα =1.96, einseitig uα=1.65: (gültig bei α=0.05) Gepaarter Mittelwert-Rangtest von Wilcoxon (Matched-pairs signed-ranks test) Mittelwertvergleich einer nicht normalverteilten korrelierten Stichprobe. Gegeben ist dieselbe Datenanordnung wie beim gepaarten t-Test. Schritt 0: Hypothese Ho: d = 0 HA: d ≠ 0 (zweiseitiger Test) α=0.05 (5%) oder z.B. HA: d > 0 (einseitiger >Test) Schritt 1: Wilcoxon-Test (Rangtest) Schritt 2: Die Differenzen di=yi−xi werden ohne Rücksicht auf das Vorzeichen mit Rangzahlen versehen. Sind zwei oder mehr di von gleicher absoluter Größe, so erhalten sie das Rangmittel der ihnen zustehenden Ränge. Differenzen di=0 werden entfernt und das n entsprechend erniedrigt. Jetzt werden die Rangzahlen mit dem Vorzeichen ihres di versehen und getrennt addiert. RN ist die Summe der negativen, RP die Summe der positiven Rangzahlen. Bei n≤25 berechnet man U=Min(RN, RP) U − (n(n + 1) / 4) Bei n>25 berechnet man u = n(n + 1)(2n + 1) / 24 Schritt 3: Sicherheitspunkte Uα=U(α, n) finden wir z.B. in E. Weber, Tab. 25. 2-seitiger Test: Wenn U=RP < Uα, dann ist signifikant µY > µX Wenn U= RN < Uα, dann ist signifikant µX > µY in allen anderen Fällen Ho: µX = µY annehmen (kein signifikanter Unterschied) Bei n>25 vergleichen wir u mit dem zweiseitigem Sicherheitspunkt der Normalverteilung, uα =1.96, einseitig uα=1.65: (gültig bei α=0.05) Thema 13 Klassifikation Die Diskriminanzanalyse kann Objekte klassifizieren, wenn Lernobjekte mit bekannter Klasseneinteilung zur Verfügung stehen. Die Clusteranalyse versucht bei völlig ungruppierten Daten eine Klasseneinteilung zu finden. Lineare Diskriminanzanalyse Die Diskriminanzanalyse hat folgende Hauptaufgaben: 1. Klassifikationsregeln für Objekte auf der Grundlage einer Lernstich probe bereits klassifizierter Lernobjekte aufstellen und den zu erwartenden Klassifikationsfehler schätzen. 2. Klassifikation neuer Objekte (Arbeitsobjekte) mit den aufgestellten Klassifikationsregeln durchführen und graphisch oder tabellarisch darstellen 52 3. Aufsuchen von signifikanten Trennmerkmalen zur Reduktion des Erfassungsaufwandes von Klassifikationsdaten 4. Test auf multivariate Mittelwertunterschiede zwischen Objektklassen. 5. Test auf Isoliertheit von Objektklassen, insbesondere in Verbindung mit der Clusteranalyse. Das Bild zeigt den Diskriminanzraum, der von den Diskriminanzmerkmalen D1 und D2 aufgespannt wird. Die Klassen 1, 2, 3 haben in dieser Projektion die Form von Kreisen. Trennlinien teilen die Klassengebiete ab. Die Objekte (die kleinen Ziffern) können nicht immer sauber ihrer Klasse zugeordnet werden. Die Minimierung des Klassifikationsfehlers ist eines der Hauptziele des Anwenders. Der Diskriminanzraum hat die Dimension d=k−1, wenn k die Klassenzahl ist ( hier d=2) D2 2 2 2 3 2 2 2 2 2 2 2 2 1 2 2 2 222 2 2 3 2 1 1 2 2 2 2222 2 3 2 3 1 11 1 221 32 3 3 3 1 11 1 2 1 2 33 33 1 11 1111 111 1 31 3 333333 3 1 1111111111 1 3333 3333 1111 111 1 1 1 1 33333 1 1 1 1 3 3 D1 2 2 1 3 Beispiel Klassifikation: In einer Firma, die Farbpigmente herstellt, soll ein Computerprogramm lernen, die GC-Kurven (Gas-Chromatographie) von 10 verschiedenen Farbstofflösemitteln sicher zu unterscheiden. Man gibt von jeder GC-Kurve 10 bis 30 Werte aus charakteristischen Bereichen des Chromatogramms als Datensatz ein. Um die Redundanz zu verbessern, nimmt man pro Lösemittel mindestens 10 Chromatogramme unterschiedlicher Proben desselben Lösemittels. Die lineare Diskriminanzanalyse berechnet aus den 10-30 originalen GC-Merkmalen ein oder mehrere Diskriminanzmerkmale sowie die Klassengrenzen. Die Klassengrenzen trennen im Diskriminanzraum, der von den Diskriminanzmerkmalen aufgespannt wird, die Klassen voneinander ab. Ein neues Chromatogramm ergibt einen Punkt im Diskriminanzraum. Man nimmt die Klasse an, in deren Gebiet der neue Punkt liegt. Auf diese Weise ist das Lösemittel über seine GC-Werte klassifizierbar. Beispiel Merkmalsauswahl: Für die Klassifikation von Produktionsfehlern soll die Anzahl der Messpunkte aus Zeitgründen minimiert werden. An einer Stichprobe von Teilen mit bekannten Fehlern werden genügend viele Messungen gemacht, um jeden Fehler eindeutig klassifizieren zu können. Jetzt erfolgt eine automatische Reduktion der Merkmale auf die wesentlichen Diskriminanzmerkmale, d.h. die Merkmalsmenge, die gerade noch eine sichere Klassifikation erlaubt. Das "schrittweise Verfahren" nimmt nur signifikante Trennmerkmale auf. Sind Merkmale hoch korreliert, wird zumeist nur ein Merkmal der unter sich hoch korrelierten Gruppe mehr oder weniger zufällig ausgewählt. Beispiel multivariater Mittelwertvergleich: Unterscheiden sich Kundenprofile aus Großstädten von Kundenprofilen aus ländlichen Gebieten. Zu jedem Kunden werden Daten erhoben, z.B. Vertrauen auf Marken, Preisbewusstsein, Qualitätsanspruch usw., aber auch die Herkunft (Großstadt oder ländlicher Raum). Das Programm berechnet den Mahalanobisabstand der beiden Klassen (Stadt / Land), eine Art gewichteter Mittelwertabstand über alle gemessenen Merkmale, und testet diesen Abstand auf Signifikanz. Entsprechend den Hauptaufgaben sind verschiedene Diskriminanzalgorithmen zu empfehlen. • Bei hoher Merkmalszahl und wenig Lernobjekten wird immer das schrittweise Aufbauverfahren empfohlen. Ebenso bei der Suche nach signifikanten Trennvariablen. Als Alternative gibt es das Abbauverfahren. "Schrittweises Aufbauverfahren" ist ein Verfahren, bei dem ein Signifikanztest (F-Test) über die Aufnahme oder den Verbleib einer Trennvariablen im Modell entscheidet 53 • Bei wenig Merkmalen und vielen Lernobjekten wird die Analyse mit allen Merkmalen empfohlen. (Nur extrem hoch korrelierte Merkmalsgruppen werden ausgedünnt.) Bei der Klassifikation neuer Objekte interessiert die Genauigkeit der prognostizierten Klassifikation. Nicht der kleinste Reklassifikationsfehler ist gefragt, sondern der kleinste Klassifikationsfehler bei neuen, bislang noch nicht klassifizierten Objekten. Zur Bestimmung benutzt man Jack-knife- oder Bootstrap-Methoden bzw. eine Teilung der vorhandenen Daten in einen Lern- und einen Arbeitsteil. Die Frage nach der Signifikanz der Trennvariablen stellt sich nicht bzw. ist untergeordnet. Multiple multivariate Mittelwertvergleiche: Es wird ein globaler F-Test ausgeführt. Er zeigt an, ob es insgesamt "irgendwelche" multivariate Mittelwertunterschiede gibt. Der Simultanvergleich jeder Klasse i gegen jede andere Klasse j führt auf eine Matrix Fij von F-Werten, die mit einem gemeinsamen Sicherheitspunkt Fsim verglichen werden. Gleichzeitig mit dem Mittelwertvergleich wird auch ein paarweiser Test auf Isoliertheit der Klassen durchgeführt. Nicht isolierte Klassen lassen sich schlecht trennen. Im Zusammenhang mit der Clusteranalyse sind sie ein Indiz für eine mögliche Klassenzusammenlegung. Klassifikationsstrategien: Ohne Apriori-Wahrscheinlichkeit: Die Einordnung in eine Klasse ist im Diskriminanzraum nur vom Quadrat k des Euklidischen Abstands des Objektes zum nächstgelegenen Klassenmittel abhängig, abgesehen von einem Faktor Nj/(Nj+1), der sich kaum von 1 unterscheidet. Nj ist der Klassenumfang (Objektzahl) der ausgewählten Lernklasse). Mit Apriori-Wahrscheinlichkeit: Die Einordnung in eine Klasse ist im Diskriminanzraum sowohl vom Quadrat k des Euklidischen Abstands als auch von der Wahrscheinlichkeit Pj der Klasse abhängig. Als Apriori-Wahrscheinlichkeit wird die relative Häufigkeit in den Klassen der Lerndaten genommen. Eine große Lernklasse hat automatisch eine größere Wahrscheinlichkeit, dass benachbarte Objekte ihr zugeordnet werden. Wann man ohne oder mit Apriori-Wahrscheinlichkeit arbeitet, dafür gibt es kein Rezept. Richtschnur ist nur die Güte der Klassifikation, die durch die Fehlerschätzung bewertet wird. Fehlerschätzung der Klassifikation: Wird ein Objekt einer falschen Klasse zugeordnet, liegt ein Klassifikationsfehler vor. Wir unterscheiden: • Reklassifikationsfehler: Die Objekte der Lernstichprobe werden reklassifiziert, d.h. einer Klasse zugeordnet. Mit steigender Merkmalszahl p nimmt dieser Fehler ab. Man darf sich davon jedoch nicht täuschen lassen. Eine Klassifikation von Objekten, die nicht in der Lernstichprobe waren, werden desto schlechter klassifiziert, je mehr unnötige Merkmale verwendet werden. • Jackknife-Fehler: Die Lernstichprobe wird in viele zufällig ausgewürfelte Teile unterteilt (meist 10). Neun werden als Lernstichprobe benutzt für die Merkmalsauswahl, dann werden die Objekte der 10. Teilstichprobe klassifiziert. Das Ganze wird 10 mal durchgeführt, bis jede Teilstichprobe einmal klassifiziert wurde. Diese Art der Fehlerschätzung ist recht realistisch, was die Fehlerrate bei völlig neuen Objekten betrifft. • Working-Sample Fehler: Hat man sehr viele Daten, kann man die Daten in Lern- und Arbeitsdaten teilen. An der Lernstichprobe wird die Merkmalsauswahl vorgenommen, an der Arbeitsstichprobe wird die richtige Klassifikation überprüft. Diese Art der Fehlerschätzung ist die realistischste, was die Fehlerrate bei völlig neuen Objekten betrifft. Datenaufbau für eine lineare Diskriminanzanalyse: Sie benötigen eine kategoriale Zielvariable Y mit Klassennummern und eine oder mehrere Trennvariablen Xj. Diese können metrisch, binaer oder ranggeordnet sein. Es können aus den eingelesenen Trennvariablen Xj durch Potenzieren und/ oder Multiplikation weitere Trennmerkmale gewonnen werden (polynomiale Modelle). Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Daten54 transformation in k-1 binäre Merkmale umcodiert werden (Beispiel Merkmal Haarfarbe mit den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss in zwei binäre Merkmale umcodiert werden: M1=schwarz/nichtschwarz, M2=rot/nichtrot) Clusteranalyse Hat man keinerlei Vorstellung, wie sich Daten strukturieren, dann versucht man mit der Clusteranalyse eine erste Klassenstruktur zu erzeugen. Es ist wie der Blick in den Sternhimmel, an dem der Mensch "Figuren" zu erkennen sucht. Ob sich so gefundene Klassen später als wertvoll erweisen, muss dann eine nachfolgende Analyse der Eigenschaften der Objekte, die in eine Klasse "geworfen" wurden, klären. Es gibt zwei prinzipiell verschiedene Clusterungsstrategien: Hierarchische Methoden: Diese erzeugen ein Dendrogramm (Baumstruktur), indem sie die N Objekte nach ihrer Distanz D im mehrdimensionalen Merkmalsraum ordnen. Sich nahestehende Objekte wandern in eine Klasse. Durch einen Schnitt in geeigneter Höhe kann man k Klassen erzeugen (Hier k=3 Klassen) Partitionierende Methoden: Man sucht "Kondensationskeime", d.h. Objekte mit vielen anderen Objekten drum herum und baut sie zu Klassen aus. Durch Austausch werden störende Objekte an benachbarte Klassen abgegeben. Ziel ist eine Klasse ohne Ausreißer und etwa von Kugelform. Die graphische Darstellung erfolgt dann mit den Mitteln der Diskriminanzanalyse. Zunächst gibt es keine Fehlzuordnungen, da ja eine Definition der Klassen noch völlig offen ist. D Schnitt N D2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 222 2 2 2 2 1 1 2 2 2 2222 2 2 2 3 1 11 1 222 22 3 3 3 1 11 1 1 1 3 33 33 1 11 1111 111 1 33 3 333333 3 1 1111111111 1 3333 3333 1111 111 1 1 1 3 33333 D1 1 1 1 1 3 3 2 1 3 Allen Methoden gemeinsam ist, dass der Anwender eine gewisse Vorstellung von der Anzahl der Klassen haben sollte, die er erwartet. Weiterhin ist allen Methoden gemeinsam, dass sie immens viel Computerzeit verbraten. Die Eingangsdaten sind Merkmalsvektoren - je einen pro Objekt. Die Merkmale unterliegen denselben Einschränkungen, wie die Trennmerkmale der Diskriminanzanalyse: Nur metrische, binäre oder rangeordnete kategoriale Merkmale sind zugelassen. Das Ergebnis der Clusteranalyse ist eine Klassennummer für jedes Objekt und einige Kennzahlen zu den Klassen (Mittelwert, Klassenumfang usw. Hier kann man auf die Diskriminanzanalyse zurückgreifen. 14 Übung Besprechen und Üben alter Klausuraufgaben im letzten Block der Vorlesungszeit. Die Übung findet immer statt, auch wenn nicht alle Themen erarbeitet werden konnten. 1. Multiplikation von Wahrscheinlichkeiten (Thema 3): Berechnen Sie die Wahrscheinlichkeit, dass Ereignis der nächste Kunde weiblich und unter 22 Jahre alt ist. Frauen stellen 57% der Kunden, Unter-22-Jährige 27% der Kunden. Lösung: 15,4% 55 2. Suchen Sie Ausreißer mit der 3−σ−Regel in den folgenden n=17 Umsätzen: 145 132 178 138 127 128 151 Lösung: x =152,47 3. σ n −1 = 18,87 152 157 147 163 204 144 153 166 158 149 umax=2,73 keine Ausreißer umin=-1,34 Statistische Maßzahlen: Berechnen Sie aus den 17 Umsätzen der Aufgabe 2 x , σ n − 1 , σ x sowie den Median und das 95%-Konfidenzintervall des wahren Mittels. Einen eventuellen Ausreißer lassen Sie in den Daten drin. x =152,47 Lösung: t α = 2,12 4. σ n −1 = 18,87 σ x = =4,58 Median=151 FG=16 Konfidenzinte4rvall 152,47 ± 9,71 Machen Sie den χ2-Homogenitätstest zu folgender Kontingenztafel, die die Häufigkeit des Besuchs eines Haarstudios in Abhängigkeit von der Haarfarbe und vom Geschlecht untersucht: Haarfarbe blond braun schwarz weiblich n11 = 27 n12 = 43 n13 = 30 männlich n21 = 13 n22 = 61 n23 = 76 Beantworten Sie die Frage nach der Unabhängigkeit der Merkmale Haarfarbe und Geschlecht bezüglich der Studiobesuche Lösung: e11=16 e12=41,6 …. χ 2 11=7,56 χ 2 12=o,o5 … χ 2 ges=18,73 FG=2 χ 2 alfa =5,99 HA Haarfarbe und Geschlecht sind Keine unabhängigen Merkmale bezüglich der Häufigkeit der Studiobesuche 6. Mittelwertvergleiche zweier normalverteilter Grundgesamtheiten: Gegeben sind die systolischen Blutdruckwerte von älteren Kunden vor und kurz nach einer Beschallung mit lauter Musik (im Rahmen einer Marketingstudie): Vor: 114 117 116 121 119 122 118 - - - 126 123 Nach: 122 119 115 124 - - - 123 121 121 129 - - (3 Kunden sagten den Test ab) a) Machen Sie den t-Test für ungepaarte Werte nach Thema 12.2, d.h., Hypothesenpaar, Mittelwerte, gemitteltes Sigma, t-Test, Ihre Testentscheidung und eine fachliche Umsetzung Lös.: x1 = 119,55 σ n1 = 12,69 n1=9 x 2 = 121,75 σ n 2 = 14,1875 n2=8 σ = 3,89 t=-1,162 FG=15 t α = 2,13 Wir akzeptieren Ho Es gibt keinen signifikanten Unterschied der Blutdruckwerte. 2 2 56 b) Machen Sie den gepaarten t-Test (Thema 12.4) mit den 7 vollständigen Paaren, d.h. Hypothesenpaar, Differenzen bilden, mittlere Differenz, Sigma der Differenzen, t-Test, Testentscheidung, fachliche Umsetzung Lös.: n=7 Differenzen: 8 2 -1 3 1 3 3 d = 2,714 σ n −1 = 2,752 FG=6 t α = 2,45 Wir akzeptieren HA Es gibt einen signifikanten Unterschied der Blutdruckwerte t=2,609 c) Welcher der beiden Tests bringt hier das bessere Ergebnis? Lösung: Der gepaarte t-Test 7. Vergleich von Häufigkeiten: Aus einer Fragebogenaktion zum Trinkverhalten von Patienten ergab sich u. a. die Frage: Gibt es Unterschiede zwischen Männern und Frauen bezüglich der Wichtigkeit von Alkohol, Säften, Heißgetränken? (Trinktyp). Die Kontingenztafel lautet: Trinktyp Säfte Heißgetränke Alkohol Geschlecht m 84 23 42 w 27 82 54 Machen Sie den Vergleiche von relativen Häufigkeitszahlen (Thema 7.2) für das Zahlenpaar aus der Tabelle von Spalte 1 (Alkohol). Hier ist n1 die Zeilensumme 1, n2 ist die Zeilensumme 2 der Tabelle (Hypothesen, p, q, t, Hypothese wählen, Antwortsatz). h2=27 n1=149 n2=163 Lös.: Ho:p1=p2 HA:p1≠p2 h1=84 p̂1 = 84/149=0,564 p̂ 2 = 27/163=0,166 p = 111/312=0,356 q=0,644 FG=310 t=7,33 t α = 1,96 Wir akzeptieren HA Der Alkoholkonsum ist bei den Männern signifikant größer als bei den Frauen. 8. Kennzahlen, Quantile: Gegeben Sind die n=28 Umsätze in Tausend € von 10 Großstadtfilialen und 18 Kleinstadtfilialen. 137 162 182 279 191 174 183 88 151 306 187 244 143 169 172 102 161 206 274 167 336 233 155 175 191 173 183 241 Berechnen Sie aus den gesamten Daten (alle 28 Werte) nach Thema 2 den Mittelwert x , Standardabweichung σn-1, den Fehler des Mittelwerts σ x , den Median und nach Thema 3.7 das 95%-Konfidenzintervall für das wahre Mittel. Lös.: n=28 x =191,6 σ n −1 = 56,8 σ x = 10,73 Median=178,5 t α = 2,06 Konfidenzinte4rvall 191,6 ± 22,1 57 FG=27 Wieviel von 5000 Filialen werden schätzungsweise einen Umsatz von x>250 aufweisen, wenn man Mittelwert x , Standardabweichung σ n −1 aus Aufgabe 3 zugrunde legt? Bei welchem Umsatz enden die 25% der „kleinen“ Umsätze (Quantil X25) (Beispiel 11) Lös.: a) b) 9. u=1,028 p=0,25 Φ(−u ) = 0,1587 u=-0,6 E= N p =5000·0,1587= 793 Filialen x=157,5 Mittelwertvergleiche: Gegeben sind die Umsätze in Tausend € von Kleinfilialen. Gr. 1 Gr. 2 67 93 72 123 56 109 77 98 71 133 87 107 74 103 94 94 83 97 109 Machen Sie den F-Test auf Varianzhomogenität zwischen Gruppe 1 und Gruppe 2 (Hypothesen, F-Wert, Hypothese wählen, Antwortsatz) wie in Thema 12.3. Lös.: Ho: Varianzhomogenität Ha: Varianzinhomogenität x2 = 106,6 σ n-1 = 12,91 n 2 = 10 F = 12,912 / 11,292 = 1,31 FG1 = 9 FG2 = 8 F α=5%, FG1=9, FG2=8 = 3,35 (Sicherheitspunkt) Ho: „Homogenität“ Machen Sie den Mittelwertvergleich zweier normalverteilter Grundgesamtheiten (t-Test) wie in Thema 12.2, um den Umsatzunterschied zwischen Gruppe 1 und Gruppe zwei auf Signifikanz zu testen (Hypothesen, t-Wert, Hypothese wählen, Antwortsatz). Lös.: Ho : µ1 = µ 2 H A : µ1 ≠ µ 2 SAQ1 = (672 + 722 +…+ 832 ) – 9 · 75,667 2 = 52549 – 51529 =1020 SAQ2 = (932 + 1232 +…+ 1092 ) – 10 · 126,6 2 = 115136 – 113636 = 1500 σ = (1020 + 1500 ) / 17 = 12,17 FG=17 t α = 2,11 t = ((75,67 − 106,6) / 12,17 ) ⋅ (9 ⋅10) / (9 + 10) = − 5,53 Ha: „Sign. Gewichtsunter- schied“ 10. Einfache lineare Regression a) Berechnen Sie nach dem Rechenschema aus Thema 6.1 die Koeffizienten a und b der Trendgeraden y = a + b t sowie die Reststreuung sr und die Fehler der Koeffizienten sa und sb. Die Umsatzdaten y in tausend € und die Jahre t finden Sie in der folgenden Tabelle: t: y: 06 423 07 542 08 597 09 511 10 485 11 527 b) Berechnen Sie den Erwartungswert ŷ des Umsatzes für das Jahr t = 12 mittels der Trendgeraden und berechnen Sie das 95%-Konfidenzintervall für die „wahre Gerade“ an diesem Punkt. Geben Sie auch den Freiheitsgrad FG und tα=5%, FG, zws an. c) Machen Sie eine Skizze mit der Geraden, den Datenpunkten und dem Intervall. 58 Lösung: t y t^2 ty y^2 6 7 8 9 10 11 423 542 597 511 485 527 36 49 64 81 100 121 2538 3794 4776 4599 4850 5797 178929 293764 356409 261121 235225 277729 51 3085 451 26354 1603177 t-mittel= y-mittel= n= 8,5 514,166667 6 SAQxx= SAPxy= SAQyy= 17,5 131,5 16972,8333 Summen b= a= sr= FG= t-alfa= 7,514 450,295 63,215 4 2,776 t= y-dach 12 540,467 Konf.Interv.= sb= sa= 15,1113509 131,013466 163,39 y 540 514 450 Konfidenzintervall Punkte a Mittel 0 t 0 11. 8,5 12 Korrelationskoeffizient Gegeben sind die Stückpreise y und Materialkosten x von 7 Aufträgen: Preis 73 94 61 77 108 45 80 Mat. 25 41 19 29 35 20 30 Berechnen Sie nach dem Rechenschema aus Thema 8.2 den Korrelationskoeffizienten r und machen Sie den Test auf signifikante Korrelation (Hypothesenpaar, Rechenschema mit x, y, x2, xy, y2, x , y , SAQxx, SAQyy, SAPxy, r, t, FG, tα, Hypothesenwahl, Antwortsatz. Lösung: Hypothesenpaar ist: Rechenschema: Ho: r = 0 HA: r ≠ 0 x y x^2 xy y^2 25 73 625 1825 41 94 1681 3854 19 61 361 1159 29 77 841 2233 35 108 1225 3780 20 45 400 900 30 80 900 2400 Σ 199 538 6033 16151 7 n Mittel 28,4285714 76,8571429 375,714286 856,428571 2554,85714 SAQxx,xy,yy 0,87413595 r 59 5329 8836 3721 5929 11664 2025 6400 43904 5 2,57058183 4,02450611 FG t alfa t Hypothesenwahl: Wegen t≥tα nehmen wir HA Antwortsatz: Es besteht eine signifikante Korrelation zwischen Stückpreis und Materialkosten 12. Zeitreihenanalyse mit Berücksichtigung eines Trends Gegeben sind die monatlichen Absatzdaten y in 1000 hl eines Getränkeherstellers über zwei Jahre. Die 24 Monate haben die Nummern x = 1, 2, 3, 4, …, 24. (Thema 6.3) 2011 2012 Jan 46,3 49,5 Feb 52,0 55,0 Mrz 39,7 44,9 Apr 36,4 37,8 Mai 45.9 49,0 Jun 53,1 60,2 Jul 64,8 63,7 Aug 65,0 70,1 Sep 49,2 55,5 Okt 44,7 50,2 Nov 35,2 41,9 Dez 43,1 45,7 a) Die Trendgerade durch die 24 Datenpunkte ist y = 46,7 + 0,26 · x . Berechnen Sie die Tabelle neu bereinigt um die Trendwerte. Z.B. für Jan 2011 wird yneu=46,3 - 46,7 - 0,26 ·1, oder für Dez 2012 wird yneu = 45,7 - 46,7 - 0,26 · 24. b) Berechnen Sie als 3. Zeile alle 12 Mittelwerte der bereinigten Monatsumsätze für Jan, Feb, …, Dez, z.B. MittelAug = (Aug2011, bereinigt + Aug2012, bereinigt)/2. c) Berechnen Sie als 4. Zeile die Prognosewerte y für 2013, indem Sie für die Monate x die Werte x = 25, 26, 27,…,36 verwenden und die Trendgerade zu den Monatsmitteln wieder addieren, z.B. für August 2013: y2013, Aug = 46,7 + 0,26 · 32 + MittelAug . Lösung: Mon. num. Werte 2011 Mon. num. Werte 2012 Berein. 11 Berein. 12 Monatsmitt. Mon. num. Progn. 13 Jan 1 46,3 13 49,5 -0,66 -0,58 -0,62 25 52,6 Feb 2 52,0 14 55,0 4,78 4,66 4,72 26 58,2 ……. ……… …….. ………. …….. …….. …… …… ……. …… 60 Aug 8 65,0 20 70,1 16,22 18,20 17,21 32 72,2 ……… …….. ……. …… ……. …… …….. …….. …… …… Dez 12 43,1 24 45,7 -6,72 -7,24 -6,98 36 49,1 15 Literatur Josef Puhani, Statistik, Verlag Lexika, 11. Auflage, 2008 (Das Statikstikbuch hat sich mittlerweile zur Standardliteratur für diejenigen Studenten und Praktiker entwickelt, die ein leicht verständliches Lehrbuch bei gleichzeitig konzentrierter und prägnanter Darstellung suchen. Die didaktische Konzeption zielt darauf ab, die Grundlagen der beschreibenden Statistik, der Wahrscheinlichkeitsrechnung und der Statistik praxisorientiert zu vermitteln. Auf mathematische Ableitungen wird weitgehend verzichtet. Ergänzend zum Buch gibt es als handliches Hilfsmittel eine darauf abgestimmte Formelsammlung zur Statistik für die praktische Anwendung.) Lothar Sachs, Angewandte Statistik, 11th ed., Springer Verlag (Der Lothar Sachs ist das Haupt- und Kochbuch des deutschen Naturforschers) Vorsicht: Die Zahlenangaben in den Beispielen des Skripts sind zumeist erfundene Zahlen 61