Statistische Methodenlehre

Statistische Methodenlehre
Version 03 / 2013 (Skript Nummer 1619)
Dr. Stefan von Weber, HS Furtwangen University,
Fachbereich Wirtschaft, Campus Schwenningen
Inhaltsverzeichnis
Thema
Wir erarbeiten uns gemeinsam beispielhaft Anwendungsgebiete der Statistik:
1
2
3
4
5
6
7
8
9
10
1. Beschreibung von Stichproben und Populationen (Grundgesamtheiten)
2. Darstellungsmöglichkeiten (Verhältnisse, Vergleiche, Verläufe, Verteilungen)
3. Datenarten und zulässige Operationen (nominal/kategorial, metrisch)
4. Erforschung von zeitlichen Trends (Geraden, Kurven, Zeitreihen, Prognose)
5. Beziehungen zwischen nominalen/kategorialen Merkmalen, Fragebögen
6. Beziehungen zwischen zwei metrischen Merkmalen (Korrelation, Regression)
7. Einfluss vieler Faktoren auf eine Zielgröße (Preisbildung multiple Regression)
8. Klassifikation (Kundenprofile, Schadensklassen, Gefahrstoffgüter,…)
1. Wir erarbeiten uns die Begriffe Population und Stichprobe,
2. arithmetisches Mittel, gewichtetes Mittel, geometrisches Mittel, Median,
3. die beiden Standardabweichungen (σn-1, σn ) und ihre Anwendung
4. Fehler des Mittelwerts, Genauigkeit einer Schätzung
1. Wir erarbeiten uns den Begriff der Datenverteilung (Dichte, Summenfunktion)
2. Histogramme und Anpassung einer theoretischen Verteilung
3. Binomialverteilung und Wahrscheinlichkeiten der Binomialverteilung
4. Glockenkurve, Φ(u)-Tafel, Freiheitsgrade, Quantile, Perzentile
5. Wahrscheinlichkeiten, Freiheitsgrad
6. t-Verteilung
7. Konfidenzintervall für das wahre Mittel der Population
1. Wann benutzt man welche Diagramme (Torte, Säule, xy, Boxplot)?
2. Indexierung auf Startwert 100% bei zeitlichen Verläufen
3. Preisindex nach Laspeyres
EXCEL-Vorführung mit Beamer:
1. Einige EXCEL-Arbeitsblattfunktionen
2. Mittelwerte und Standardabweichungen
3. Konfidenzintervall für das wahre Mittel der Population
4. Ausreißer, Quartile, Momente
5. Histogramm mit Säulendiagramm
6. Indexierung und Liniendiagramm, logarithmische Skala
1. Rechenschema für Ausgleichsgerade bzw. Trendgerade
2. Nichtlineare Trends
3. Zeitreihen und saisonale Schwankungen
1. Marktforschung, Fragebögen, Auszählung, Hypothesen
2. Test von Häufigkeitszahlen
3. Zusammenhang von Merkmalen in Kontingenztafeln, χ2-Homogenitätstest
1. Beziehung zwischen zwei Größen: Korrelation, Regression
2. Berechnung des Korrelationskoeffizienten und Test
EXCEL-Vorführung mit Beamer:
1. Einfach lineare Regression mit Teststatistiken
2. Berechnung einer Trendgeraden mit Prognose
3. Berechnung einer Korrelation mit Test des Koeffizienten
1. Multiple Regressionsanalyse
1
Seite
4
6
6
8
8
9
10
11
11
14
15
16
17
17
18
18
18
19
19
20
20
21
22
25
26
27
30
31
33
34
36
36
37
38
38
11
12
13
14
15
2. Suche signifikanter Einflussgrößen (Abbauverfahren)
3. Beispiel Parameterpreisbildung
4. Logistische Regression
EXCEL-Vorführung mit Beamer:
Multiple Regressionsanalyse am Beispiel einer Pflanzenproduktion
Lineares Modell mit und ohne Regressionskonstante
Suche signifikanter Einflussgrößen (Abbauverfahren)
Mittelwertvergleich
1. Einstichproben-t-Test
2. Mittelwertvergleich normalverteilter Grundgesamtheiten, gleiche Varianz
3. Welch-Test bei ungleichen Varianzen und F-Test auf Varianzhomogenität
4. Gepaarter t-Test
5. Nichtparametrische Tests
Klassifikation: Diskriminanzanalyse, Clusteranalyse
39
41
42
43
Aufgaben aus alten Klausuren zum selbst Üben (mit Lösungen)
46
47
47
48
51
51
53
55
Besprechen und Üben alter Klausuraufgaben im letzten Block der Vorlesungszeit.
Literatur
61
Einführung
konfirmatorische oder hypothesenprüfende
Hypothese → Stichprobe → Test → Aussage
zur Population einschließlich Irrtumswahrscheinlichkeit
Hypothese (Beispiel): Weniger als 20% aller
Münchner wollen eine Diät machen → Umfrage siehe links → asymptotischer Binomialtest 0.23 gegen 0.2 bei n=100 → u=0.75 →
Hypothese abgeschmettert, d.h. keine signifikante Abweichung vom Wert 20% gefunden
Statistik ist deskriptive oder beschreibende
Mittelwerte, Standardabweichungen, Regressionskoeffizienten, Korrelationskoeffizienten,
Wahrscheinlichkeitsschätzungen
Beispiel Umfrage in München: Würden Sie
gern eine Diät machen? 23 von 100 Probanden antworten mit "JA" → Wahrscheinlichkeit p = 23/100 = 0.23 in der Stichprobe, d.h.
unter unter den 100 Befragten. Das ist lediglich eine Schätzung des p-Wertes aller
Münchner.
Statistik heißt Komprimierung, Visualisierung und Analyse von Daten. Ziele der deskriptiven Statistik sind Information und Vorhersage künftiger Daten, die Ziele der konfirmatorischen Statistik sind die Prüfung von Hypothesen mittels Stichproben. Aus den Daten einer
Stichprobe zieht man Schlussfolgerungen für die gesamte Population (oder Grundgesamtheit). Beispiel: Aus einer Studie mit 15 Firmen zieht man Schlüsse, die für alle Firmen in dieser Branche Gültigkeit haben sollen, mit Angabe der Irrtumswahrscheinlichkeit. Eine Stichprobe sind z.B. 10 zufällig ausgewählte Firmen aus einem Katalog. Die Population ist die
Menge aller Firmen dieser Branche. Personen heißen Proband, Fall, Objekte, z.B. Firmen,
heißen Fall, Punkt, Messpunkt.
Versuchsplanung heißt:
• repräsentative Stichproben auswählen
• mit möglichst wenig Kosten ein signifikantes Ergebnis erzielen
• Störfaktoren entweder ausschließen oder als Kovariable messen
2
Tabelle der Sicherheitspunkte der t-, χ2-, F- und Φ(u)-Verteilung für α=0.05 (5%)
t
FG
F (einseitig rechts)
eins. zweis
χ
Φ(u)
2
1
2
3
4
5
10
20
FG1
FG2
1
2
3
4
5
6
7
8
9
10
6,31
2,92
2,35
2,13
2,02
1,94
1,89
1,86
1,83
1,81
12,71
4,30
3,18
2,78
2,57
2,45
2,36
2,31
2,26
2,23
3,84
5,99
7,81
9,49
11,07
12,59
14,07
15,51
16,92
18,31
161
18,5
10,1
7,71
6,61
5,99
5,59
5,32
5,12
4,96
200
19,0
9,55
6,94
5,79
5,14
4,74
4,46
4,26
4,10
216
19,2
9,28
6,59
5,41
4,76
4,35
4,07
3,06
3,71
225
19,2
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
230
19,3
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
242
19,4
8,79
5,96
4,74
4,06
3,64
3,35
3,14
2,98
248
19,4
8,66
5,80
4,56
3,87
3,44
3,15
2,93
2,77
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
1,80
1,78
1,77
1,76
1,75
1,75
1,74
1,73
1,73
1,72
2,20
2,18
2,16
2,14
2,13
2,12
2,11
2,10
2,09
2,09
19,68
21,03
22,36
23,68
25,00
26,30
27,59
28,87
30,14
31,41
4,84
4,75
4,67
4,60
4,54
4,49
4,45
4,41
4,38
4,35
3,98
3,89
3,81
3,74
3,68
3,63
3,59
3,55
3,52
3,49
3,59
3,49
3,41
3,34
3,29
3,24
3,20
3,16
3,13
3,10
3,36
3,26
3,18
3,11
3,06
3,01
2,96
2,93
2,90
2,87
3,20
3,11
3,03
2,96
2,90
2,85
2,81
2,77
2,74
2,71
2,85
2,75
2,67
2,60
2,54
2,49
2,45
2,41
2,38
2,35
2,65
2,54
2,46
2,39
2,33
2,28
2,23
2,19
2,15
2,12
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
34
40
44
50
60
70
80
90
100
150
200
∞
1,72
1,72
1,71
1,71
1,71
1,71
1,70
1,70
1,70
1,70
1,69
1,68
1,68
1,68
1,67
1,67
1,66
1,66
1,66
1,66
1,65
1,65
2,08
2,07
2,07
2,06
2,06
2,06
2,06
2,05
2,05
2,04
2,03
2,02
2,02
2,01
2,00
1,99
1,99
1,99
1,98
1,98
1,97
1,96
32,67
33,92
35,17
36,42
37,65
38,89
40,11
41,34
42,56
43,77
48,60
55,76
60,48
67,50
79,08
90,53
101,88
113,15
124,34
179,58
233,99
∞
4,32
4,30
4,28
4,26
4,24
4,23
4,21
4,20
4,18
4,17
4,13
4,08
4,06
4,03
4,00
3,98
3,96
3,95
3,94
3,90
3,89
3,84
3,47
3,44
3,42
3,40
3,39
3,37
3,35
3,34
3,33
3,32
3,28
3,23
3,21
3,18
3,15
3,13
3,11
3,10
3,09
3,06
3,04
3,00
3,07
3,05
3,03
3,01
2,99
2,98
2,96
2,95
2,93
2,92
2,88
2,84
2,82
2,79
2,76
2,74
2,72
2,71
2,70
2,66
2,65
2,60
2,84
2,82
2,80
2,78
2,76
2,74
2,73
2,71
2,70
2,69
2,65
2,61
2,58
2,56
2,53
2,50
2,49
2,47
2,46
2,43
2,42
2,37
2,68
2,66
2,64
2,62
2,60
2,59
2,57
2,56
2,55
2,53
2,49
2,45
2,43
2,40
2,37
2,35
2,33
2,32
2,31
2,27
2,26
2,21
2,32
2,30
2,27
2,25
2,24
2,22
2,20
2,19
2,18
2,16
2,12
2,08
2,05
2,03
1,99
1,97
1,95
1,94
1,93
1,89
1,88
1,83
2,09
2,07
2,04
2,02
2,00
1,99
1,97
1,96
1,94
1,93
1,89
1,84
1,81
1,78
1,75
1,72
1,70
1,69
1,68
1,64
1,62
1,57
21
22
23
24
25
26
27
28
29
30
34
40
44
50
60
70
80
90
100
150
200
∞
3
u 0
u
Φ(u)
-0,1
-0,2
-0,3
-0,4
-0,5
-0,6
-0,7
-0,8
-0,9
-1,0
-1,1
-1,2
-1,3
-1,4
-1,5
-1,6
-1,7
-1,8
-1,9
0,4602
0,4207
0,3821
0,3446
0,3085
0,2742
0,2420
0,2119
0,1841
0.1587
0,1357
0,1151
0,0968
0,0808
0,0668
0,0548
0,0446
0,0359
0,0287
-2,0
-2,1
-2,2
-2,3
-2,4
-2,5
-2,6
-2,7
-2,8
-2,9
-3,0
-3,1
-3,2
-3,3
-3,4
-3,5
-3,6
-3,7
-3,8
-3,9
-4,0
0,0227
0,0179
0,0139
0,01072
0,00820
0,00621
0,00466
0,00347
0,00255
0,00187
0,001350
0,000967
0,000688
0,000484
0,000337
0,000233
0,000159
0,0001080
0,0000723
0,0000480
0,0000317
Thema 1 Wir erarbeiten uns gemeinsam beispielhaft Anwendungsgebiete der Statistik:
1.1
Stichprobe und Population (Grundgesamtheit)
Beispiel: Die in Schwenningen ansässigen Bankfilialen sind ein Team (eine Stichprobe). Die
zugehörige Population ist die Gesamtheit aller deutschen Bankfilialen.
Nennen Sie weitere Beispiele.
1.2
Darstellung von Verhältnissen, Vergleichen, Verläufen, Verteilungen
Beispiel: Verhältnis von Materialkosten, Lohnkosten und Gemeinkosten (Tortendiagramm)
Beispiel: Vergleich der Umsätze des Vorjahres und des laufenden Jahres (Säulendiagramm)
Beispiel: Verlauf der Materialkosten €/Kg im Jahr (Liniendiagramm)
Beispiel: Verteilung der Konfektionsgrößen (wie viel verkauft pro Größe) (Histogramm)
Nennen Sie weitere Beispiele.
1.3
Datenarten und zulässige Operationen (nominal/kategorial, metrisch)
Systematische Fehler entstehen z.B. durch falsche Versuchspläne (z.B. sehr ungleiche Firmengrößen, Branchenunterschied, ...), falsch kalibrierte Messinstrumente, nicht operationalisierte Kriterien bei unterschiedlichen Erhebungen. Man kann systematische Fehler vermeiden
oder teilweise korrigieren, wenn man sich an die Empfehlungen der Versuchsplanung hält.
Zufallsfehler / Zufallszahlen: Alle Größen werden in der Statistik als Zufallszahlen aufgefasst. Der Umsatz im Juli war z.B. 1.445.326,27 €. Das Jahresmittel für die Monate war
1.345.201,66 €. Abweichungen vom Mittel werden hier nicht durch Ursachenforschung erklärt, sondern als Zufall aufgefasst. Eine Frau hat im Schnitt 1,4 Kinder. Die tatsächliche Kinderzahl einer Frau wird nicht durch die Lebensumstände erklärt, sondern als Zufall. Eine Zufallsvariable ist eine Funktion, die dem Ausgang eines Zufallsexperiments eine reelle Zahl
zuordnet. Ein Zufallswert x der Zufallsvariablen X heißt Realisierung oder Ausprägung.
Diskrete Zufallszahlen können nur bestimmte, meist ganzzahlige Werte (Realisierung, Ausprägung, Symptom, Kategorie) annehmen (Kinderzahl 1, 2, ..., oder Weinflaschenvolumen
0.5, 0.75, 1.0, 1.5, 2.0, 3.0, 5.0 usw.). Kontinuierliche Zufallszahlen können im Definitionsbereich beliebige Werte (Realisierungen) annehmen, z.B. Umsatz=1.445.326,27 € oder
1.345.201,66 €.
Nominale (qualitative) Daten sind immer diskret und dienen nur zur Sortierung und Gruppeneinteilung. Z.B. ist die Postleitzahl in Patientenadressen eine nominale Größe. Summen
oder Mittelwerte aus nominalen Daten sind Unsinn. Kategoriale Daten werden wie nominale
behandelt, wenn sie nicht ordinal sind, d.h. keine Rangordnung dahinter versteckt ist (z.B.
"weiße", "rote", "schwarze" T-Shirts, auch wenn sie mit 1,2,3 im Rechner codiert sind.).
Metrische (quantitative, stetige) Daten lassen sich auf einer Zahlengeraden anordnen. Es
besteht zwischen zwei Werten immer eine der Beziehungen "<", "=" oder ">". Mit metrischen
Daten darf man rechnen (Summen, Mittelwerte, ...). Ranggeordnete kategoriale Daten werden oft wie metrische Daten behandelt, z.B. Ratings 1,2,...,5 oder Wagenklassen 1="klein",
2="mittel", 3="groß". Binärdaten (mit nur zwei Ausprägungen) können ebenfalls wie metrische Daten behandelt werden (z.B. weiblich=1, männlich=2 oder staatlich=0, privat=1).
4
Merke: Nominale bzw. kategoriale Daten benutzt man nur zum Zählen und Sortieren, z.B.
Ländernamen, Postleitzahlen, Qualitäten, Kundennummer. Nennen Sie weitere Beispiele.
Merke: Mit metrische Daten können wir Summen bilden bzw. andere Berechnungen vornehmen. Beispiele sind Umsatz, Absatz, Preisgüte, Stückzahl. Nennen Sie weitere Beispiele.
1.4
Zeitliche Trends (Geraden, Kurven, Zeitreihen, Prognose)
Wie entwickelten sich die Energiekosten der Firma in den letzten 10 Jahren? (Gerade, Kurve)
Wie werden sich die Energiekosten der Firma weiterentwickeln? (Prognose)
Welche saisonalen oder monatstypischen Abweichungen treten auf? (Zeitreihenanalyse)
Nennen Sie weitere Beispiele.
1.5
Beziehungen zwischen nominalen Merkmalen, Fragebögen
Unterscheidet sich das Kaufverhalten von Großstädtern von dem der Kunden aus kleineren
Gemeinden bezüglich der Kategorien Qualität, Label, aktuelle Trends?
Nennen Sie weitere Beispiele.
1.6
Beziehungen zwischen metrischen Merkmalen
(Korrelation, Regression)
Korrelation ist eine Beziehung zwischen Merkmalen, bei der man Gleichlauf (ähnlichen Verlauf) oder Gegenlauf (ähnlich, aber entgegengesetzt) beobachtet. Meist werden beide Merkmale von unbekannten dritten Merkmalen gesteuert.
Regression ist eine Beziehung zwischen Merkmalen, in der eine Zielgröße durch eine oder
mehrere andere Größen gesteuert (beeinflusst) wird.
Besteht eine Korrelation zwischen DAX-Index und der Wertentwicklung fest verzinslicher
Papiere? Nennen Sie weitere Beispiele.
Besteht eine Abhängigkeit des Benzinpreises vom Weltmarktpreis für Rohöl?
Nennen Sie weitere Beispiele.
1.7
Einfluss vieler Faktoren auf eine Zielgröße (Multiple Regression)
Von welchen Faktoren hängt der Preis einer Immobilie ab? Zählen Sie Faktoren auf.
Von welchen Faktoren hängt der Preis einer Pralinenpackung ab?
1.8
Klassifikation (Kundenprofile, Schadensklassen, Gefahrstoffgüter,…)
Nach welchen Kriterien würden Sie als Banker Kredite vergeben?
Nach welchen Kriterien würden Sie als Vermieter Geschäftsräume vermieten?
Nennen Sie weitere Beispiele.
5
Thema 2
2.1
Wir erarbeiten uns die Begriffe Population und Stichprobe.
Eine Population umfasst die Daten aller interessierenden Objekte bzw. Personen. In den
meisten Fällen sind die Daten einer Population aus verschiedenen Gründen (zu viele, geheim,
ständig wechselnd) in ihrer Gesamtheit nicht verfügbar. Wir müssen uns mit einer Teilmenge
– einer Stichprobe – begnügen.
Beispiel: Die Personendaten aller deutschen Bürger bilden eine Population. Die Kundendatei
eines Fitness-Centers ist eine Stichprobe.
Beispiel: Die Produktionsdaten (Größe, Material, Preis, Kosten,…) aller in Deutschland gefertigten T-Shirts bilden eine Population. Die Daten aus der firmeneigenen Datenbank DATOS bilden eine Stichprobe.
Wir suchen weitere Beispiele.
2.2
Arithmetisches Mittel, gewichtetes Mittel,
geometrisches Mittel, Median,
Das arithmetische Mittel einer Stichprobe ist ein mehr oder weniger genauer Schätzwert für
das unbekannte Mittel µ der Population. Das Populationsmittel selbst bleibt fast immer unbekannt.
arithmetisches Mittel
x i = Der i-te Wert einer Stichprobe
n = Stichprobenumfang
x=
1 n
∑ xi
n i =1
Beispiel: Durchschnittspreis von n = 8 Preisen in €
14,33 12,64 13,27 13,75 14,05 14,27 13,85 14,25
Mittelwert x = 13,80 €
Das gewogene arithmetische Mittel bewertet die einzelnen summierten Zahlen xi durch zugeordnete Gewichte gi unterschiedlich.
  n

 n
x =  ∑ g i xi  /  ∑ g i 
 i =1
  i =1 
gewogenes arithmetisches Mittel
g i = Gewicht zum Wert xi
Die Gewichte gi müssen positiv ( >0 ) sein.
Beispiel: Gegeben sind die Klassenmitten und Frequenzen (Zahl der Stämme in der Klasse)
von 7 Durchmesserklassen von Fichten. Klasse 1 sind z.B. Stämme von 25-30 cm Durchmesser.
27.5 32.5 37.5 42.5 47.5 52.5 57.5
Klassenmitte xi:
Klassenumfang gi: 41
84
207 213 156 47
9
6
G = Σg i=757, Σgixi = 31067.5, gewichtetes Mittel = 31067.5/757 = 41.04 cm
Ein weiteres Beispiel: Mittlere Preisgüte. Die Daten xi sind die Preisgüten zu einzelnen Aufträgen. Die Gewichte sind die Umsätze dieser Aufträge. Die Preisgüte großer Aufträge setzt
sich auf diese Weise durch.
Das geometrische Mittel nimmt man für Wachstumsprozente gleichlanger aufeinander folgender Perioden (Zinsgewinne, Börsengewinne,…)
( ln( x )) / n
xG = e ∑ i
geometrisches Mittel als n-te Wurzel des
Produktes der Einzelwerte
xG = n
∏x
i
= n x1 ⋅ x 2 ⋅ ... ⋅ x n
als alternative Formel bei großem n mit
ln(x) als natürlichem Logarithmus und
ex als Exponentialfunktion
Beispiel: Ein Aktienfond veränderte sich in den letzten Jahren von einem Jahr zum anderen
um +3,6%, − 7,2%, +1.6%, +13.4%. Wegen des Minuszeichens müssen wir auf die absoluten
Prozentwerte gehen: 103,6%, 92,8%, 101,6%, 113,4%. Das geometrische Mittel der absoluten
Prozentzahlen ist 4 103.6 ⋅ 92.8 ⋅ 101.6 ⋅ 113.4 =102.59. Gehen wir wieder zu relativen Wachstumsraten über, erhalten wir einen jährlichen Zuwachs von 2,59% gemittelt über die 4 Jahre.
Median: Der Median liefert den typischen Wert einer Stichprobe, d.h. es gibt ebenso viele
kleinere als auch größere Werte. Zuerst müssen wir die Stichprobe sortieren. Bei ungeradem n
ist der Wert in der Mitte der Median, bei geradem n ist das arithmetische Mittel der beiden
mittleren Werte der Median.
Beispiel: Sortiert man die 10 Umsätze in Tausend €: 54 46 61 47 43 59 38 44 49 41,
erhält man die Folge 38 41 43 44 46 47 49 54 59 61. Das Mittel der 2 mittleren Werte, 46.5,
ist hier der Median.
Modalwert ist der am häufigsten auftretende Wert in einer Wertereihe sehr großen Umfangs
mit unimodaler (eingipfliger) Verteilung. Der Modalwert wird selten benutzt.
Wann nimmt man welchen Mittelwert?
• Den Median, wenn entweder der typische Wert die beste Aussage macht, oder aber ein
gegen Datenausreißer robuster Mittelwert gesucht wird. Ein Millionär und 100 arme
Schlucker im Dorf haben ein Gesamteinkommen von 1.000.000 +100 x 10.000 €. Mittelwert 19.801,98 €. Typisch für das arme Dorf sind aber 10.000 €.
• Das arithmetische Mittel, wenn es um Bilanzen geht. Ein Vorfluter mit 1000 Gramm
Schmutzfracht pro m3 und 100 Gewässer mit 1 Gramm pro m3 verschmutzen den Bodensee im Mittel mit 11 Gramm pro m3. Das arithmetische Mittel ist empfindlich für
Datenausreißer.
• Das gewichtete arithmetische Mittel, um bereits vorverdichtete Zahlen zu mitteln (z.B.
möchte man aus Klassenmitteln das Gesamtmittel berechnen, weil die Originaldaten
fehlen), oder es gibt natürliche Gewichte (Stückzahlen, Umsätze,…), die das Mittel
beeinflussen, oder man möchte Daten subjektiv gewichten, z.B. nach der Vertrauenswürdigkeit der Datenquelle.
7
2.3
Die beiden Standardabweichungen (σn-1, σn ) und ihre Anwendung
Standardabweichung σ (sigma) heißt die mittlere quadratische Abweichung der Einzelwerte
von ihrem Mittelwert. Diese Abweichungen können verschiedene Ursachen haben. Beispiel
Monatsumsätze einer Firma: Zufälliger Auftragseingang, saisonale Schwankungen, Produktionsstörungen.
Für Programmierer
Für Taschenrechner
2
Standardabweichung in der
(∑ x i2 ) − n ⋅ x 2
(xi − x )
∑
σn =
Stichprobe, d.h. genau für die n
σn =
n
n
Daten der Stichprobe (wird selten benutzt) (sprich sigma n)
Standardabweichung der
Grundgesamtheit geschätzt aus
einer Stichprobe des Umfangs n
σ n −1 =
∑ (x
i
− x)
n −1
2
σ n −1 =
(∑ x ) − n ⋅ x
2
i
2
n −1
Beispiel: für die Berechnung einer Standardabweichung σ n−1 nach der rechten Formel:
Gegeben sind die n = 8 Preise in € : 14,33 12,64 13,27 13,75 14,05 14,27 13,85 14,25
Mittelwert x = 13,80125 €
Wir bilden die Quadratsumme der Zahlen: Σxi2 = 14,33 2 + 12,64 2 + … + 14,25 2 = 1526,1943
Wir setzen in die rechte Formel für σ n−1 ein:
σ n −1 =
(∑ x ) − n ⋅ x
2
i
n −1
2
=
1526,1943 − 8 ⋅ (13, 80125) 2
= 0,5853311
7
oder σ n−1 = 0,586
2.4
Fehler des Mittelwerts, Genauigkeit einer Schätzung
Fehler des Mittelwerts σ x : Ziehen wir aus der Population immer wieder neue Stichproben
des Umfangs n, dann streuen die berechneten Mittelwerte um das das unbekannte Mittel µ.
Der
Fehler des Mittelwerts schätzt die Ungenauigkeit bei der Bestimσ
mung des wahren Mittelwertes µ (Erwartungswert) einer Grundgeσ x = n−1
samtheit aus einer Stichprobe des Umfangs n. Ein Mittelwert aus n
n
Einzelmessungen berechnet hat demnach die Genauigkeit oder
Standardabweichung σ x , d.h. es gilt x ± σ x .
Wann nimmt man welche Streuungsangabe?
8
•
σn-1 (σ, s, Standardabweichung, SD, Standard Deviation) bei allen Angaben, wo man die
Variabilität der gemessenen Daten angeben möchte, z.B. die für Konfektionäre interessante Größe 12-jähriger Knaben ist in Deutschland 143 ± 6 cm. Die Größe schwankt um das
Mittel mit durchschnittlich 6 cm.
Den Interquartilabstand statt σn-1 bei sehr schief verteilten Daten (75%−25%-Quartil)
σ x (SE, Standard Error of Mean) wenn man die Genauigkeit einer Schätzung dokumentieren möchte, z.B. aus einer repräsentativen Stichprobe mit 1600 deutschen 12-jährigen
Knaben wurde die mittlere Größe deutscher 12-jähriger Knaben zu 143.6 ± 0.15 cm bestimmt. Die Genauigkeit der Schätzung des unbekannten Populationsmittels ist 0.15 cm.
σn in den extrem seltenen Fällen, wo man die Standardabweichung der Stichprobe selbst
dokumentieren möchte, z.B. unsere Testgruppe aus 12-jährigen Knaben hatte eine mittlere Größe von 147.8 ± 3.6 cm. Hier bezieht sich die Standardabweichung nur auf die Personen der Testgruppe, nicht auf die Population.
•
•
•
Thema 3
3.1
Verteilungen
Die Verteilungsfunktion gibt Auskunft, wie viele Daten mit welcher Abweichung vom Mittelwert erwartet werden. Die Darstellung der Verteilung diskreter Zufallszahlen erfolgt mit
dem Balken- oder Tortendiagramm. Jeder Balken entspricht einer Ausprägung der Zufallszahl. Die Darstellung der Verteilung kontinuierlicher Zufallszahlen erfolgt bei beobachteten
Daten mit dem Balkendiagramm (Histogramm der absoluten oder relativen Häufigkeiten),
bei theoretischen Verteilungen mit dem Liniendiagramm. Die Festlegung der Klassenanzahl
K und damit der Klassenbreite (z.B. 10 cm bei den Stammdurchmessern) richtet sich nach der
Gesamtzahl N und erfordert einiges Probieren. Großes N ⇒ viele Klassen, kleines N ⇒ wenig
Klassen. Es gibt keine Vorschrift. (In der Literatur wird K = N empfohlen, was aber oft zu
viele Klassen ergibt.) Das kumulative Histogramm beobachteter Daten ist eine Treppenfunktion, die aufsteigend die Werte von 0 bis N (bzw. von 0 bis 100%) annimmt. (Siehe Summenverteilung)
Diskrete Verteilung
(Tablettenfehler
A1, A2, A3 )
P[%]
46.8
30.8
22.4
Histogramm absoluter Histogramm relativer
Häufigkeiten
Häufigkeiten
(Stammdurchmesser) (Stammdurchmesser)
Ni
37
•
•
•
•
2 3
Σ=100%
36
28 % 22
10 %
% 4%
%
20 30 40 50 60 70
48
14
1
Pi [%]
N=133
29
5
20 30 40 50 60 70
Liniendiagramm
einer DichteNormalverteilung
[1/cm]
f(x)
20 30 40 50 x[cm]
Bei einer diskreten Verteilung ist ΣPi=1 bzw. ΣPi%=100%
Beim Histogramm der absoluten Häufigkeiten ist N=ΣNi (N = Gesamtzahl der Objekte)
Beim Histogramm der relativen Häufigkeiten ist ΣPi=1 bzw. ΣPi%=100%
Bei einer Dichteverteilung ist die Gesamtfläche unter der Dichtekurve f(x) immer gleich 1.
9
Theoretische Verteilungen folgern aus einem Modellprozess. Die Dichtefunktion f(x) gibt
mit ihrer Fläche über dem Intervall [a,b] die Wahrscheinlichkeit Pab an, dass ein x-Wert aus
dem Intervall [a,b] auftritt. Variable x ist eine kontinuierliche Zufallsvariable.
Normierung
Wahrscheinlichkeit
[1/cm]
Pab
f(x)
b
+∞
a
−∞
Pab = ∫ f ( x ) dx
a b
x[cm]
∫ f ( x ) dx = 1
Die Verteilungsfunktion (Summenverteilung) F(x) gibt mit ihrem Funktionswert F(x) die
Wahrscheinlichkeit P an, mit der ein Zufallswert aus dem Intervall [−∞, x] auftritt.
Dichteverteilung
P
f(x )
Verteilungsfunktion
Formel Verteilungsfunktion
1
F (x)
P
x
F ( x) =
∫ f (u ) du
−∞
0
x
x
Wann man die Dichtefunktion verwendet oder die Verteilungsfunktion, dafür gibt es keine
Vorschriften. Die Verteilungsinformation steckt in beiden Kurven. Eine Verteilung kann
durch die Momente µi charakterisiert werden, ohne dass man das genaue Bild der Funktion
vorliegen hat. Das entspricht in etwa der Taylorreihenentwicklung der Dichtefunktion. Die
Momente µ1−µ4 haben die Namen Mittelwert, Varianz, Schiefe und Exzess. Die höheren
Momente (ab µ2) werden auf das arithmetische Mittel bezogen berechnet (x−E).
1. Moment: Erwartungswert
(Mittelwert, arithmetisches
Mittel, Schwerpunkt)
µ1 = E ( x) =
+∞
∫ x ⋅ f ( x)dx
−∞
3.2
2. Moment: Varianz
Bei Normalverteilung ist
µ2=σ2/2 mit σ = Standardabw.
+∞
µ 2 = ∫ ( x − E ) 2 f ( x)dx
−∞
3. Moment: Schiefe
µ3>0 : Gipfel links von E
µ3<0 : Gipfel rechts von E
+∞
µ 3 = ∫ ( x − E ) 3 f ( x)dx
−∞
Histogramme und Anpassung einer theoretischen Verteilung
Ein Histogramm (Häufigkeitsdiagramm) gibt die Anzahl von Objekten wieder, die in vordefinierte Klassen fallen.
Theoretische Datenverteilungen werden beobachteten oder gemessenen Daten unterstellt. Man sagt z.B., die Daten seien normal verteilt
oder sie seien binomial verteilt. Einen Beweis, dass die Daten tatsächlich so verteilt sind, gibt es nicht. Mit dem χ2-Anpassungstest oder dem
Kolmogorov-Smirnov-Test kann man jedoch Abweichungen zwischen
beobachteter Verteilung und unterstellter theoretischer Verteilung statistisch bewerten, und zu einer Aussage z.B. der Form kommen: "Es
gibt keine signifikante Abweichung von der Normalverteilung".
10
[1/cm]
f(x)
20 30 40 50 x[cm]
Wichtige theoretische Verteilungen für diskrete Zufallszahlen sind die PoissonVerteilung, die Binomialverteilung, multinomiale Verteilung und hypergeometrische Verteilung. Alle vier Verteilungen werden auch als Prüfverteilungen zur Prüfung von Hypothesen
benutzt, wenn auch seltener, als die u-, t-, χ2- und F-Verteilung..
3.3 Binomialverteilung und Wahrscheinlichkeiten der Binomialverteilung
Die Binomialverteilung hat als Modell eine Urne mit Anteil p an schwarzen und Anteil
q=1−p an weißen Kugeln. Pn.k ist die Wahrscheinlichkeit, bei n Ziehungen mit Zurücklegen
genau k schwarze Kugeln zu ziehen. p heißt Parameter der Binomialverteilung. Erwartungswert der Binomialverteilung ist E= n p, Varianz ist σ2 = pq n.
n
Pn.k =   p k q n − k
k 
n
mit   = 1 ,
0
 n  n(n − 1)...(n − k + 1)
  =
1 ⋅ 2 ⋅ ... ⋅ k
k 
(sprich "n über k")
Beispiel: Ein bestimmter Produktionsprozess gerate mit Wahrscheinlichkeit p=0,068 außer
Kontrolle (Erfahrungswert aus mehreren Jahren). Wie hoch ist die Wahrscheinlichkeit, dass
von den 10 Chargen einer Woche 3 versaut sind?
10 
10 ⋅ 9 ⋅ 8
P10.3 =  0.068 3 ⋅ 0.932 7 =
⋅ 0.00031 ⋅ 0.611 = 0.023 oder 2,3%
1⋅ 2 ⋅ 3
3
Man rechnet also etwa jede 40. Woche mit 3 versauten Chargen. Die Summe P der 11 Wahrscheinlichkeiten P = P10.0+ P10.1+...+ P10.10 ist exakt P=1.
3.4
Glockenkurve, Φ(u)-Tafel, Freiheitsgrade, Quantile, Perzentile
Die wichtigsten kontinuierlichen theoretischen Verteilungen sind die Normalverteilung
(auch u-Verteilung oder Gauß-Verteilung oder Glockenkurve genannt), die lognormale Verteilung, die t- oder Student-Verteilung, die χ2-Verteilung (Chi-Quadrat-Verteilung) und die FVerteilung (Fisher-Verteilung). Die Normalverteilung (u-Verteilung) und die lognormale Verteilung treten häufig als Datenverteilung auf. Die t-, χ2- und F-Verteilung sind seltener Datenverteilungen, sondern werden weit häufiger als Prüfverteilungen zum Testen von Hypothesen benutzt. Die Normalverteilung (u-Verteilung) ist beides - Datenverteilung und Prüfverteilung.
Dichtefunktion der Normalverteilung: µ (Erwartungswert)
und σ2 (Varianz) heißen Parameter der Normalverteilung. Man
schätzt sie durch eine Stichprobe, indem man für µ den Mittelwert und für σ2 die Varianz σ2n-1 einsetzt. Normalverteilte Zufallszahlen entstehen, wenn sich viele Zufallseinflüsse addieren.
11
f (x) =
1
2π σ
−
e
( x−µ)2
2σ 2
Bei angenommener Normalverteilung einer Population und Schätzung ihrer Parameter µ und
σ2 der Population aus einer Stichprobe gilt:
Stichprobenstatistik
Mittel
x = Σxi / n
Varianz σ
2
n −1
∑ (x
=
i
− x)
n −1
→ Schätzwert →
)
→
µ
→
2
→
)
σ2
→
Parameter der Population
µ
σ2
Mit dem kleinen Dach ( ^ ) bezeichnen Statistiker einen (fehlerbehafteten) Schätzwert.
Beispiel n=10 Stammdurchmesser: 36 41 39 52 48 53 55 61 54 49 cm. Das Mittel 48.8 cm ist
Schätzwert für das unbekannte Populationsmittel µ. Die Standardabweichung σn-1=7,91 cm ist
Schätzwert der unbekannten Standardabweichung σ der Population. Die wahren Parameter
µ und σ2 der Population kann man nur für n→ ∞ erhalten. Alle Schätzwerte sind fehlerbehaftet.
Normalverteilung mit Mittelwert µ und Varianz σ2 wird mit N(µ
µ ; σ2) abgekürzt. N(0;1) ist
die Standard-Normalverteilung mit Mittelwert 0 und Varianz 1. Die Verteilungsfunktion
(Summenkurve) Φ (u) zur Normalverteilung f(x) wird auch Gaußsches Fehlerintegral genannt und ist in vielen Büchern tabelliert. Φ (u) und Umkehrfunktion u(Φ
Φ ) sind wichtige
Prüfverteilungen. Die Normalverteilung ist wichtig wegen des zentralen Grenzwertsatzes:
Die Verteilung der Summe beliebig verteilter Zufallszahlen z nähert sich für wachsende Zahl
an Summanden der Normalverteilung, d.h. in der Praxis ist die Größe S=z1+z2+...+zn schon ab
n=5 recht gut normal verteilt. Darunter fällt z.B. jedes Stichprobenmittel mit Stichprobenumfang n≥5.
Dichtefunktion der lognormalen Verteilung: M (Erwartungs(ln(x)−M)2
wert) und S2 (Varianz) heißen Parameter. Man berechnet aus den
−
1
2
logarithmierten Daten Mittelwert und Varianz und setzt diese f (x) =
e 2S
gleich M und S. Lognormale Zufallszahlen entstehen, wenn sich
S ⋅ x 2π
Zufallseinflüsse multiplizieren. Die Verteilung ist unsymmetrisch.
Die t-Verteilung (auch Student-Verteilung nach dem Pseudonym
u
Student von W. P. Gosset) ist die Verteilung des Quotienten t = u
t=
k
2
2
/ χ. Dabei ist u N(0;1)-verteilt und χ ist χ -verteilt mit k Freiχ
heitsgraden. Die Verteilung ist symmetrisch.
Die χ2-Verteilung (Chi-Quadrat-Verteilung von F.R. Helmert
χ 2 = u12 + ... + u k2
und K. Pearson) ist die Verteilung der Summe χ2 = u12+...uk2. Die
ui sind N(0;1)-normalverteilt und stochastisch unabhängig. Freimit k Freiheitsgraden
heitsgrad FG der Verteilung ist k. Unsymmetrische Verteilung.
Die F-Verteilung von R. A. Fisher ist die Verteilung des QuoF= χ21 / χ22
2
2
2
2
tienten F= χ 1 / χ 2. Dabei ist χ 1 mit FG1 Freiheitsgraden und χ 2 Mit FG1und FG2 Freiheitsmit FG2 Freiheitsgraden verteilt.
graden
2
Die F-Verteilung ist insofern interessant, da sie die t- und die χ -Verteilung quasi enthält.
Es gilt t2(FG) = F
mit FG1=1 und FG2=FG.
2
Es gilt χ (FG)= FG2 F
mit FG1→∞ und FG2=FG.
12
Der Freiheitsgrad FG ist die Zahl der „freien Datenpunkte“, die zur Berechnung einer Streuung herangezogen werden können. Beispiel Abweichung der Punkte von einer Ausgleichsgeraden. Bei n=2 Punkten geht die Gerade exakt durch beide Punkte. Kein Punkt ist frei (FG=0).
Bei n=3 Punkten ist einer überzählig (FG=1). Allgemein im Fall der Geraden ist FG = n - 2.
Hinweis: In jedem konkreten Anwendungsfall, in dem Freiheitsgrade eine Rolle spielen, gibt
es eine Formel zur Berechnung der Freiheitsgrade, wie z.B. die Formel FG = n - 2.
Die folgenden drei Abbildungen zeigen das typische Aussehen der folgenden Verteilungen:
Poisson-, Binomial-, Hypergeometrische Verteilung
p
0
1
2
Normalverteilung,
t-Verteilung
f(u )
f(t)
k
3
4
k
u / t
lognormale, χ2-, F-Verteilung
f(x )
f(F )
f(χ 2 )
x /F /χ 2
Schätzung von Verteilungsparametern
Ein Schätzwert (oder Schätzer) ist eine nach einer bestimmten Formel berechnete Zahl, die
dem gesuchten Parameter einer Population, z.B. dem Mittelwert, möglichst nahe kommt. Es
gibt gute, sehr gute und den besten Schätzwert. Eine allgemeine Methode zum Aufspüren
des besten Schätzers heißt Maximum Likelihood. Die beobachteten Daten haben höchste
Wahrscheinlichkeit, wenn gerade die besten Schätzwerte als Parameter der angenommenen
Datenverteilung benutzt werden. Bei Annahme der Normalverteilung sind Maximum Likelihood und die Methode der kleinsten Quadrate asymptotisch (d.h. für n→∞) identisch.
Quantile oder Perzentile: Als Quantil XP zur Wahrscheinlichkeit P bezeichnet man eine
Zahl x auf der x-Achse, für die gilt, dass genau der Anteil P der Population kleinere Werte als
XP aufweist. Gibt man die Wahrscheinlichkeit in % an, spricht man von Perzentilen. Mit welcher Wahrscheinlichkeit P sind z.B. Zufallszahlen x kleiner als Quantil XP, wenn x eine normalverteilte Zufallszahl mit Mittelwert x und Standardabweichung σn-1 ist?
Berechne
u = ( Xp- x )/ σn-1
und bestimme aus der Tafel Φ(u) von Seite 3 das P.
Welches Quantil XP gehört zu den P% unteren normalverteilten Werten einer Population?
P ist gegeben, suche in Φ(u) dazu den u-Wert.
XP = x + u· σn-1
Beachte, dass die Tafel Φ(u) Seite 3 nur für negative u vorliegt. Positive u ergeben Wahrscheinlichkeiten P>0,5. Wegen der Symmetrie der Normalverteilung gilt Φ(u)=1−Φ(−u)
Beispiel:
a) Wie viele von 5.000 Geschädigten einer Hagelversicherung werden schätzungsweise einen
Schaden von x>250 € aufweisen, wenn man Normalverteilung annimmt mit Mittelwert
x =191,60 € und Standardabweichung σ n −1 = 56,80 € ?
u = ( x- x )/ σn-1 = (250 - 191,60)/ 56,80 = 1,028
Da positive u-Werte in der Tafel Φ(u) nicht tabelliert sind, kehren wir das Vorzeichen
13
um, d.h. wir arbeiten mit u = - 1,028. (Das geht aus Symmetriegründen der Glocken
Kurve)
Φ(−u ) = 0,1587
laut Tafel Seite 3.
E= N p =5000·0,1587= 793 ist der Erwartungswert für die gefragte Anzahl.
b) Bei welchem Betrag x enden die 25% der „kleinen Schadensfälle“ (Quantil X25) ?
p = 0,25
Mathematisch für 25%
Suche aus der Tafel Φ(u) den u-Wert heraus, der zu p = Φ(u) = 0,25 passt: u ≈ -0,6
XP = x + u· σn-1 = 191,60 + ( -0,6) ·56,80 = 157,50 €.
Es wird erwartet, dass 25% der Geschädigten Schäden kleiner 157,50 € haben.
Würden wir das x zu den 25% der “großen Schadensfälle” suchen, müssten wir
das Vorzeichen von u wechseln, d.h. mit u = + 0,6 arbeiten.
3.5
Wahrscheinlichkeiten
Wozu Wahrscheinlichkeiten? In der Qualitätskontrolle, um Chancen berechnen, um im PC
stochastische Modelle zu simulieren, und als Grundlage für einige Testverteilungen.
Die möglichen Ausgänge eines Zufallsexperiments heißen Elementarereignisse (z.B. eine 4
beim Würfeln). Ihre Menge heißt Ereignisraum R (1-6 beim Würfel). Das sichere Ereignis
(eine Zahl 1 ≤ x ≤ 6) trift immer ein, das unmögliche Ereignis (z.B. eine 0 oder 7) nie. Die
Wahrscheinlichkeit P eines Ereignisses ist eine Zahl 0 ≤ P ≤ 1 bzw. 0% ≤ P% ≤ 100%.
Wahrscheinlichkeiten schätzt man durch Auszählen der zutreffenden Fälle N1 und setzt diese
)
Anzahl dann ins Verhältnis zur Gesamtzahl N der Fälle: P = N1 / N .
Der Erwartungswert E der Häufigkeit, mit der ein Ereignis eintrifft ist E = N·P
N=Zahl der Ziehungen insgesamt, P=Wahrscheinlichkeit für das Eintreffen des Ereignisses
Beispiel Tablettenfehler R={1,2}, N=1.000.000 untersuchte Tabletten insgesamt
Elementarereignis
Ni
Pi = Ni /N
Pi %= Pi ·100
A1 (Tablette untergewichtig) 632
0,000632
0,0632 %
A2 (Tablette übergewichtig)
869
0,000869
0,0869 %
Multiplikationssatz: Die Wahrscheinlichkeit P(A∧B) für das gemeinsame Eintreffen stochastisch unabhängiger Ereignisse A und B: P(A∧B) = P(A)·P(B). Die Wahrscheinlichkeit
mit zwei Würfeln A und B zwei Sechser zu würfeln ist P(6∧6) = (1/6) · (1/6) = (1/36). Stochastische Unabhängigkeit heißt, dass das Eintreffen von Ai nicht von Aj abhängt, Aj nicht
von Ai, und es auch keine versteckte Abhängigkeit gibt.
Beispiel: Die Wahrscheinlichkeit eines Motorschadens auf den ersten 10.000 km
sei
P(A)= 1,2 %. Die Wahrscheinlichkeit eines platten Reifens auf den ersten 10.000 km
sei
P(B)= 1,7 %.
Dann ist die Wahrscheinlichkeit, dass man einen Platten und einen Motorschaden auf den
ersten 10.000 km erleidet:
14
P = P(A∧B) = P(A)·P(B) = 0,012 · 0,017 = 0,000204
oder P% = 0,02 %.
Additionssatz: Die Wahrscheinlichkeit P(A∨B) für das Eintreffen entweder des Ereignisses
A oder aber des Ereignisses B. A und B sind disjunkt, d.h., sie schließen sich gegenseitig
aus: P(A∨B) = P(A) + P(B).
Beispiel: Die Wahrscheinlichkeit, dass eine untergewichtige Tablette produziert wird, liegt
bei 0,0632%. Die Wahrscheinlichkeit, dass eine übergewichtige Tablette produziert wird, liegt
bei 0,0869%.
Dann ist die Wahrscheinlichkeit, dass eine Tablette untergewichtig oder übergewichtig ist:
P = P(A∨B) = P(A) + P(B) = 0,000632 + 0,000869 = 0,001501
3.6
oder P% = 0,15%.
t-Verteilung
W. S. Gosset und R. A. Fisher erkannten, dass das oftmalige Ziehen kleiner Stichproben des
Umfangs n zu ebensoviel unterschiedlichen Stichprobenmitteln x1 , x2 , ... führt. Die Verteilung
der Stichprobenmittel lässt sich durch die t-Verteilung f(t) beschreiben.
Die meisten Stichprobenmittel findet man in
der Umgebung des Populationsmittels µ. Bildet
man die Standardabweichung der Stichprobenmittel x1 , x2 , ... , dann nähert sich dieser
Wert für wachsende Anzahl immer gleicher
Stichproben des Umfangs n der Zahl
σ x = σ n −1 n an, dem Fehler des Mittelwerts.
Die Testgröße t hat im einfachsten Fall die Formel
f(t)
σ/√n
α/2
t
0
t=
x−µ
σ
tα
n.
Falls eine Stichprobe mit Mittelwert x tatsächlich aus der Population mit Mittelwert µ und
Standardabweichung σ stammt, dann dürfte ihr t-Wert nur kleine Werte um die Null herum
annehmen. Bei vielen gezogenen Stichproben x1 , x2 , ... darf nur der Anteil α/2 der t-Werte
t1, t2, … im rechten schraffierten Bereich liegen, eine etwa gleichgroße Anzahl im linken.
Der Punkt tα auf der t-Achse heißt Sicherheitspunkt der t-Verteilung. Er hängt vom Freiheitsgrad FG und der vorgegebenen Irrtumswahrscheinlichkeit α (z.B. α=0,05 oder α=5%) ab. Der
Freiheitsgrad FG hängt vom Stichprobenumfang n ab. Die genaue Formel für FG wird in
jedem konkreten Anwendungsfall gegeben.
Die Sicherheitspunkte der t-Verteilung für α=5% und FG =1, 2, … sind auf Seite 3 tabelliert.
Einseitig heißt, dass es nur auf einer Seite der Glockenkurve einen schraffierten Bereich mit
Fläche α gibt, zweiseitig, dass es wie im Bild oben zwei schraffierte Bereiche mit jeweils α/2
gibt, d.h. dass Ausreißer bei den t-Werten nach oben und nach unten gleich wahrscheinlich
sind.
Wir benutzen in diesem Kurs ausschließlich die zweiseitigen Sicherheitspunkte.
Merke:
15
Betragsmäßig große t-Werte können nur mit Wahrscheinlichkeit α auftreten, wenn Mittelwert x tatsächlich aus der Population mit Mittelwert µ und Standardabweichung σ stammt
(Hypothese Ho).
Stammt der Mittelwert x nicht aus der Population mit Mittelwert µ (Hypothese HA), dann
sind große t-Werte quasi vorprogrammiert und damit sehr wahrscheinlich. Darauf beruht der
t-Test.
3.7
Konfidenzintervalle
Punktschätzung heißt die Berechnung eines einzelnen Wertes aus einer Stichprobe, z.B. des
Stichprobenmittels x als Punktschätzung für das unbekannte Populationsmittel µ. In der deskriptiven (beschreibenden) Statistik haben Punktschätzungen einen festen Platz. In der konfirmatorischen (hypothesenprüfenden) Statistik werden Punktschätzungen nur berechnet als
Grundlage für die Konstruktion der Konfidenzintervalle.
Konfidenzintervalle: Bei oftmaliger Wiederholung einer Studie würden wir ähnliche, aber
andere Schätzwerte für einen gesuchten Verteilungsparameter θ (z. B. im konkreten Fall des
Populationsmittels µ) erhalten. Das ist der Zufallseffekt - andere Firmen in der Stichprobe,
andere Jahreszeit usw. Wo liegt jetzt der wirkliche Wert unserer gesuchten Zahl θ (z. B. unseres Mittelwerts µ)? Hier hilft das Konfidenzintervall weiter:
Ein (1−α)−Konfidenzintervall [θU, θO] für den Parameter θ ist ein zufälliges
Intervall, das mit Wahrscheinlichkeit (1−α) den gesuchten Wert θ enthält.
Zwei Beispiele für unterschiedliche Verteilungsparameter:
Konfidenzintervall für µ. Sowohl x und σ2n-1
werden bei vorausgesetzter Normalverteilung
aus einer Stichprobe des Umfangs n geschätzt
Approximatives (n→∞) Konfidenzintervall
[pU,pO] für relative Häufigkeit pˆ = k / n .
x±
σ n −1
n
t (α , FG = n − 1, zweis.)
pˆ ± u (1 − α / 2)
pˆ (1 − pˆ )
n
Beispiel: 11 Drahtdicken in mm gemessen: 0,141 0,138 0,143 0,142 0,145
0,141 0,142 0,144 0,143 0,139 0,144
x =0,1420 mm
Arithmetisches Mittel, Schätzwert für µ in der Population
σn-1=0,00214 mm
Standardabweichung, Schätzwert für σ in der Population
σ x =0,000645 mm
Fehler des Mittelwertes (bei n=11 Messungen)
0,1420 ± 2.23·0.000645
95%-Konfidenzintervall für das wahre Mittel µ mit tα=2.23,
0,1420 ± 0,0014
zweiseitig und Freiheitsgrad FG = n-1 = 10.
Beispiel:
726 GmbH von 2734 GmbH haben eine Geschäftsführerin.
Gesucht ist das Konfidenzintervall für den Frauenanteil aller GmbHs.
Stichprobengröße ist n = 2734
Zahl der eingetroffenen Ereignisse ist 726
)
Schätzwert des Frauenanteils p ist p = 726 / 2734 = 0,2655
16
uα=1,96 für α=5% (Dieser Wert gilt asymptotisch für n→∞ bei zweiseitiger Fragestellung und
α=5%. In der Praxis ab Stichprobengröße n>10. Für n≤10 nimmt man Spezialformeln.)
Halbe Konfidenzintervallbreite
1,96 ⋅ (0,2655 ⋅ 0,7345) 2734 = 0,01655
Konfidenzintervall für p ist
0,2655 ± 0,0166
Thema 4
4.1
Diagramme
Tortendiagramm bei der Aufteilung eines Kuchens
(100%), z.B. Marktanteile an der Europäischen Vitaminproduktion
Balkendiagramm oder Säulendiagramm bei der Darstellung von Summendaten (Histogramme, Vergleich der
Quartalssummen, Vergleich von Gruppenmitteln, Vergleich der Umsätze in den Jahren 2000 - 2005, ...)
Liniendiagramm bei der Darstellung von Punkdaten
(Verlauf des Börsenindex DAX, Tagesumsätze, Außentemperaturen (wichtig für Getränkeindustrie), ...)
Boxplots zeigen auf einen Blick die Verteilung von Daten. Die eigentliche Box gibt den Bereich vom 25%- bis
zum 75%-Perzentil an mit dem Median als Teilung. Die
"whiskers" an den Enden geben das 10% und das 90%Perzentil an. Manche Boxplots zeigen als Punkte oder
Kreise noch die extremen Werte an. Beispiel: 3 Gruppen
im Vergleich. (Boxplots sind in EXCEL nicht verfügbar.)
Scatterplots (x-y-Diagramme) zeigen die Messwerte als
Punkte in einem Koordinatensystem, oft mit einem Liniendiagramm gekoppelt.
Koordinatenachsen haben einen Maßstab. Dieser hat
• einen Bereich von Anfang bis Ende, der Anfang muss nicht immer Null sein
• eine Teilung, die fein oder grob sein kann,
• eine Skala, die linear oder logarithmisch sein kann
4.2
Indexierung auf Startwert 100% bei zeitlichen Verläufen
Indexierung von Zahlenreihe X1, X2, ..., Xn und Zahlenreihe Y1, Y2, ..., Yn auf Start bei
100%: Bei der Darstellung sehr unterschiedlich hoher Kurven, z.B. Umsatzvergleiche Mutterhaus mit einer Filiale, sieht die Kurve der Filiale oft miserabel aus, weil sie viel tiefer liegt.
17
Hier hilft die Indexierung. Jede Kurve startet bei 100% und verändert sich nur relativ zu diesem Startpunkt. Die Formel ist
X’i = (Xi · 100) / X1
Man dividiert jeden Wert durch den ersten Wert der Zahlenreihe und multipliziert mit 100.
Dasselbe macht man mit den Y-Werten:
Y’i = (Yi · 100) / Y1
4.3
Preisindex nach Laspeyres:
Es gibt zahlreiche Indizes, z. B. für Börsenkurse, Geschäftsklima, Kaufkraft usw. Ein in der
Volkswirtschaft etablierter Indizex stammt von Laspeyres.
P sind Preise, g sind Gewichte (Mengen oder Stückzahlen z.B.) 0 indiziert das Basisjahr (Bezugsjahr), 1 indiziert das aktuelle Jahr, n ist die Anzahl der Produkte im Warenkorb. Der
Preisindex nach Étienne Laspeyres ist der meistbenutzte, da er über mehrere Jahre mit einem
einmal festgelegten Warenkorb berechnet werden kann und somit die Zahlen vergleichbar
sind.
 n
  n

IQ =  ∑ ( g0i P1i ) /  ∑ ( g0i P0i )
 i =1
  i =1

Beispiel Stahlpreisindex:
Sorte
Baustahl
Walzstahl
Edelstahl
Menge go
1,7
1,4
0,26
Preis/Kg Basisjahr Po
1,31
1,55
3,21
Preis/Kg Berichtsjahr P1
1,25
1,57
3,27
Summe goP1
Summe goPo
Index
5,1723
5,2316
0,989
oder 98,9%
Der Stahlpreisindex ist um 1,1% gesunken gegenüber dem Basisjahr.
Thema 5
EXCEL-Vorführung mit Beamer:
arithmetisches Mittel, geometrisches Mittel, Median, gewichtetes Mittel
die beiden Standard-abweichungen (σn-1, σn ) und ihre Anwendung
Fehler des Mittelwerts
Konfidenzintervall für das wahre Mittel der Population
Diagramme (Torte, Säule, xy, Boxplot, Histogramm)
5.1
Einige EXCEL-Arbeitsblattfunktionen
EXCEL hat gute Hilfe-Möglichkeiten. Diese Tabelle kann nur eine Anregung sein.
18
Funktion und Parameter
geomittel(xwerte)
häufigkeit(x;klassengrenzen);
norminv(p;mittelwert;sigma)
normvert(x;mittel;sigma;typ)
rgp(y;x;konst;zusatzstatistik)
stabw(xwerte)
tvert(t;df;s)
trend(y;x;x*;k)
ttest(g1;g2;s;typ)
*
potenz(x;y)
5.2
Aufrufbeispiel
=geomittel(a1:a5);
=häufigkeit(a2:a35;b7:b8)
=norminv(b5;c1;d1)
=normvert(a8:a12;b1;c1;1)
=rgp(a2:a7;b2:d7;1;0)
=stabw(c1:k1)
=tvert(d8;b9;2)
Was liefert sie?
geometrisches Mittel
Klassenhäufigkeiten
Quantil Xp Normalverteilung
Φ(u) mit u=(x-mittel)/sigma
(multiple) lineare Regression
Das σ n-1 aller Werte
Irrtumswahrscheinlichkeit zu t,
zum Freiheitsgrad, zweiseitig
=trend(a2:a7;b2:b7;b8:b12;1 Werte der Ausgleichsgeraden
)
(k=1 mit konstantem Glied)
=ttest(a2:a9;b2:b14;2;2)
Mittelwertvergleich zweier
normlverteilter Populationen
=(a1:a5)*(b1:b5)
paarweise Multiplikation
=potenz(((a1:a5)-a6);2)
(Ai – A6 )^2 für i=1,...,5
Verschiedene Mittelwerte und Standardabweichung
Starten Sie EXCEL. Tippen Sie in Zelle A1 irgend eine Spaltenbezeichnung, z.B. „Daten“,
darunter 7 Zahlen, die für Sie Sinn machen (Z.B. 7 Umsätze oder 7 Temperaturen oder 7 Zinssätze oder 7 Gewichte).
In Zelle A10 tippen Sie
=Mittelwert(A2:A8) und geben dann ENTER.
A2:A8 sagt, dass Sie mit der Maus (linke Taste gedrückt) über Ihre 7 Zahlen fahren
(„Ihre Daten selektieren“ ) oder aber den Feldbezug A2:A8 selbst eintippen.
Schreiben Sie daneben in Zelle B10 als Erklärung das Wort „Mittelwert“
Auf A11 die Standardabweichung σn-1 mit =Stabw(A2:A8) , in B11 das Wort „Sigma“
Auf A12 den Median mit =Median(A2:A8), in B12 das Wort „Median“
Auf A13 das Geometrische Mittel, =Geomittel(A2:A8) , in B13 das Wort „Geomittel“
Ein Beispiel für das gewichtete Mittel der Preisgüte von unterschiedlich großen Umsätzen ist:
Zuerst die Produkte Umsatz*Preisgüte bilden, dann die beiden Summen berechnen, dann dividieren (Summe Ums*PG) / (Summe Ums). Die Umsätze fungieren hier als Gewichte der
Preisgüte.
Umsätze T€
127
236
133
117
143
287
Summe Ums=
5.3
1043
Preisgüte in %
108
112
134
98
102
108
Ums*PG
13716
26432
17822
11466
14586
30996
Summe Ums*PG=
Gew. Mittlere PG=
115018
110,28
Konfidenzintervall
19
Ein 95%-Konfidenzintervall für das unbekannte Mittel µ unserer Umsatzwerte-Population
erhalten wir z. B. so: Tippen Sie die Formeln in EXCEL-Spalte D ein:
1
2
3
4
5
6
7
8
A
Mittelwert mit
Standardabweichung
Anzahl n
Fehler des Mittelwerts
Irrtumswahrscheinlichkeit
Freiheitsgrad FG
Sicherheitspunkt t_alpha
Halbe Intervallbreite
B
C
Umsätze T€
127
236
133
117
143
287
5.4
D
Mittelwert=
Sigma=
n=
Fehler Mittelwert=
alpha=
FG=
t_alpha =
Halbe Intervallbreite=
Konfidenzintervall=
=mittelwert(A2:A7)
=stabw(A2:A7)
=anzahl(A2:A7)
=B2/wurzel(B3)
0,05 eingetippt
=D3-1
=tinv(D5;D6)
=D7*D4
173,83
70,30
6,00
28,70
0,05
5,00
2,57
73,78
173,83
+-
Ausreißer, Quartile, Momente
Graphische Ausreißerkontrolle: Stellen Sie Ihre Datenspalte graphisch dar und suchen Sie
visuell nach Ausreißern:
A2 bis A7 selektieren → Diagrammassistent → Punkte (x,y) → Nur Punkte → Fertigstellen
Quartile berechnen: Berechnen Sie auf A15 mit =Quartile(A2:A8 ; 1) das 1. Quartil (Grenze der unteren 25%) Ihrer Daten, dann auf A16 das 2. Quartil (Grenze der unteren 50%) usw.
bis zum 3. Quartil. Vergleichen Sie die Quartile mit dem Median. Was fällt Ihnen auf?
Momente der Datenverteilung: Berechnen Sie aus Ihren Daten die ersten 4 Momente.
Auf Zelle A20 das Mittel
=Mittelwert(A2:A8) Tippen Sie in B20 „Mittelwert“ ein.
Auf Zelle A21 die Varianz
=Varianz(A2:A8)
Tippen Sie in B21 „Varianz“ ein.
Auf Zelle A22 die Schiefe
=Schiefe(A2:A8)
Tippen Sie in B22 „Schiefe“ ein.
Auf Zelle A23 die Kurtosis =Kurt(A2:A8)
Tippen Sie in B23 „Kurtosis“ ein.
(Die Kurtosis oder der Excess ist eine Randverdickung gegenüber der Gausskurve.)
5.5
Histogramm mit Säulendiagramm
Legen Sie in Mappe 2 (Tabelle 2) auf EXCEL-Spalte A eine neue Spalte Daten an. Tippen Sie
auf A1 das Wort „Daten“. Kopieren Sie Ihre Daten aus Tabelle 1 unter das Wort Daten und
20
verlängern Sie die Zahlenkolonne mit ausgedachten Zahlen bis A26 (insgesamt 25 Zahlenwerte).
Tippen Sie in Zelle B1 das Wort „Klassengrenzen“. Geben Sie darunter 5 aufsteigend sortierte
Zahlen ein als Klassengrenzen für zu bildende Klassen. Die erste Klassengrenze sollte größer
sein als Ihr kleinster Datenwert, die 5. Klassengrenze kleiner als Ihr größter Datenwert.
Tippen Sie in C1 das Wort „Häufigkeiten“.
Selektieren Sie das Feld C2 bis C7 mit der Maus. Tippen Sie in die weiß gebliebene Zelle C2
die Formel =Häufigkeit(A2:A26 ; B2:B6) und geben Sie die 3-fach-Taste STRG-UMSCHENTER. Die 6 Zellen füllen sich mit den ausgezählten Häufigkeiten. Die erste Häufigkeit ist
die Anzahl Ihrer Datenwerte in Klasse 1 (Kleinster Wert bis einschließlich 1. Klassengrenze).
Der letzte Häufigkeitswert ist für die Klasse jenseits und einschließlich der 5. Klassengrenze.
Tippen Sie in D1 das Wort „Klasse“. Waren Ihre Klassengrenzen z.B. 10, 20, 30, 40, 50, dann
schreiben Sie in D2 den folgenden Text „bis einschl. 10 “, in D3 „von 11 bis einschl. 20 “,
usw. und in D7 „ab einschl. 50 “.
C1 bis C7 selektieren → Diagrammassistent → Säule → weiter → Reihe → ein Klick in das
Feld rechts von „Beschriftung der Rubrikenachse (x)“ und mit der Maus D2 bis D7 selektieren → Fertigstellen.
5.6
Indexierung und Liniendiagramm, logarithmische Skala
Indexierung auf gemeinsamen Startwert 100%: Spielen Sie das Beispiel Indexierung aus
der Vorlesung mit eigenen Daten durch. Machen Sie eine Liniengraphik der beiden Datenreihen vor und nach der Indexierung.
Das Liniendiagramm erstellen Sie so:
→ Diagramm → Linie → Zeilen/Spalten → Reihe Hinzufügen → Name: abc → Werte (mit
der Maus über die Werte fahren) → Hinzufügen → Name: xyz → Werte (mit der Maus über
die Werte fahren) → Beschriftung Rubrikenachse (mit der Maus über die Werte fahren) →
Fertigstellen
Logarithmische Skala
Die logarithmische Skala nimmt man dann, wenn zwischen den Zahlen Welten liegen, d.h.,
wenn extrem große Unterschiede in den darzustellenden Zahlen vorliegen.
Beispiel 3-D-Säulendiagramm mit logarithmischer Skala in EXCEL
Zeile 1
Zeile 2
Zeile 3
Zeile 4
A
ABC
DEF
GHI
JKL
B
177
672
154
22
Verkäufe 1996
1000
100
10
1
Markiere die Zellen A1 bis B4 → Einfügen
→ Diagramm → Auf demselben Blatt →
Rahmen ziehen → weiter → 3-D-Säulen
ABC
DEF
GHI
Modelle
21
JKL
→ weiter → 1 → weiter → weiter →
Legende
nein
→
Titel,
x- → Ende → irgendeine Zelle anklicken →
Achsenbeschriftung
Verkaufzahlenachse → Skalierung →
Doppelklick im Diagramm → Doppelklick
logarithmisch
Thema 6
6.1
Rechenschema für Ausgleichsgerade bzw. Trendgerade
Wir haben eine Einflussgröße x, von deren Werten angenommen wird, dass sie fehlerfrei einstellbar sind (Modellannahme) und eine Zielgröße y, die Zufallsfehler ei enthält und über eine
einfache Geradengleichung von der Einflussgröße abhängt. Ist x die Zeit, dann sprechen wir
auch von Trendanalyse und könnten den Buchstaben t statt des x verwenden, wenn wir wollen.
Regressionsmodell y i = a + b x i + e i
Gesucht sind Schätzwerte für die Regressionskonstante a und den Regressionskoeffizienten b
in der Grundgesamtheit. Gegeben ist eine Stichprobe mit den n Wertepaaren (x1,y1), (x2,y2),
..., (xn,yn). y heißt Zielgröße, x heißt Einflussgröße, ei heißt Residuum (Abweichung, Fehler)
im Punkt i.
Regressionskonstante a ist der Erwartungswert der Zielgröße im Punkt x=0.
Regressionskoeffizient b heißt auch Anstieg der Geraden, d.h. wenn x um 1 steigt, dann steigt
y um b.
Die Koeffizienten a und b werden nach der "Kleinsten-Quadrate-Methode" von C. F. Gauss
geschätzt, d.h. so, dass die Summe Σei2=Minimum wird.
Berechne zuerst die drei Abweichungsprodukt- bzw. Abweichungsquadratsummen SAPxy,
SAQxx, SAQyy, wobei die linke Formel genauer, die rechte schneller zu berechnen ist. Folgendes Rechenschema bietet sich an, wenn man lediglich mit einem einfachen Taschenrechner ausgerüstet ist. Man berechnet die 5 Summen und benutzt anschließend den rechten Formelsatz für SAPxy, SAQxx, SAQyy. Vorsicht! Die Mittelwerte nicht zu sehr runden. 6 signifikante Ziffern sollten etwa bleiben, z.B. 127,123678 nur runden auf 127,124 oder
0,012345688 auf 0,0123457.
Nr
xi
yi
x i2
xi yi
yi2
y1
x 12
x1 y1
y12
1
x1
2
x2
y2
x 22
x2 y2
y22
...
...
...
...
...
...
n
xn
yn
x n2
xn yn
yn2
Σ xi
Σ yi
Σ x i2
Σ xi yi
Σ yi2
22
Formelsatz für Programmierer
Formelsatz für Taschenrechner
 n

bzw. SAPxy =  ∑ xi y i  − n ⋅ x y
 i =1

n


bzw. SAQxx =  ∑ xi2  − n ⋅ x 2
 i =1 
 n

bzw. SAQyy =  ∑ y i2  − n ⋅ y 2
 i =1 
n
SAPxy = ∑ (( x i − x )( y i − y ))
i =1
n
SAQxx = ∑ ( xi − x )
2
i =1
n
SAQyy = ∑ ( y i − y )
2
i =1
Jetzt können wir die eigentlich interessanten Werte der Ausgleichsgeraden berechnen:
bˆ = SAPxy / SAQxx
aˆ = y − bˆ ⋅ x
schätzt den Regressionskoeffizienten b
schätzt die Regressionskonstante a
ˆ
ˆ
yˆ i = aˆ + b ⋅ x i = y + b ⋅ ( xi − x ) schätzt y im Punkt xi (Erwartungswert)
eˆi = y i − yˆ i
schätzt das Residuum e i im Punkt xi
∑ (y
2
− yˆ i )
eˆi2
SAQyy − bˆ ⋅ SAPxy
∑
=
=
n−2
n−2
n−2
Ŝ R schätzt den mittleren Fehler σR in der Grundgesamtheit (Reststreuung der Punkte um die
Gerade (in y-Richtung gesehen)). Die mittlere Formel ist für den Taschenrechner gut geeignet.
FG = n-2
Freiheitsgrad der Reststreuung Ŝ R
S = Sˆ / SAQxx
Schätzfehler für Regressionskoeffizienten b
Sˆ R =
b
R
Schätzfehler der
Regressionskonstanten a
Schätzfehler des
Erwartungswertes ŷ i
x2
1
S a = Sˆ R
+
n SAQxx
1 (xi − x )
S yˆ = Sˆ R
+
n
SAQxx
t a = aˆ / S a
t = bˆ / S
b
i
b
2
mit FG = n-2 testet Ho: a=0 gegen HA: a≠0 (2-seitig)
mit FG = n-2 testet Ho: b=0 gegen HA: b≠0 (2-seitig)
Ein signifikantes a≠0 heißt, dass die Zielgröße y für den Wert x=0 der Einflussgröße mit hoher Wahrscheinlichkeit einen Wert y≠0 hat.
Ein signifikanter Wert b≠0 sagt, dass die Einflussgröße x die Zielgröße y tatsächlich mit hoher Wahrscheinlichkeit beeinflusst, d.h., dass der Anstieg der Geraden nicht Zufall ist.
Für Prognosen wichtig sind die beiden Konfidenzintervalle:
1 (xi − x )
yˆ i ± t (α , FG, zweis.) ⋅ Sˆ R ⋅
+
n
SAQxx
Konfidenzintervall der
wahren Regressionsgeraden
2
1 (x − x )
yˆ i ± t (α , FG, zweis.) ⋅ Sˆ R ⋅ 1 + + i
n
SAQxx
2
23
Konfidenzintervall der
Einzelwerte bei Prognose.
Zieht man immer wieder neue Stichproben des Umfangs n und berechnet man aus jeder Stichprobe die Regressionsgerade, dann erwartet man 100-α% der Geraden im Konfidenzintervall
der "wahren Geraden". Ebenso liegt die wahre (unbekannte) Regressionsgerade der Grundgesamtheit mit 100-α% im Konfidenzintervall. Für Prognosen ist der zu erwartende Fehler der
Einzelbeobachtung wichtig. 100-α% der Einzelwerte werden im Konfidenzintervall der Einzelwerte erwartet. Wie man sieht, erweitert sich das Konfidenzintervall außerhalb des Messbereichs dramatisch, so dass sich allzu kühne Prognosen z.B. in die Zukunft verbieten.
Die Abbildung rechts zeigt die Regressionsgerade
im X-Y-Koordinatensystem. Sie geht durch den
Punkt a auf der Y-Achse und durch den Punkt
( x , y ). Die Messwerte yi sind durch kleine Kreise,
die Residuen ei durch Striche dargestellt. Das Konfidenzintervall der wahren Geraden (wG) ist gestrichelt, das der Einzelwerte (Ew) ist gepunktet dargestellt.
Y
Ew
wG
a
Ew
_
X
yi
X
wG
Folgende Bedingungen stellt das Regressionsmodell an die Daten:
1. Das einfache lineare Modell yi = a + b xi + ei trifft auf die Grundgesamtheit zu
2. Die Messpunkte streuen überall normalverteilt mit N(µ=0; σ= Ŝ R ) um die Gerade.
Zahlenbeispiel Ausgleichsgerade: Moderne Produkte der Kosmetikindustrie werden teilweise auf biologischem Weg in Behältern (Fermentern) durch Pilze oder Bakterien erzeugt. Manche Bakterien benötigen Sauerstoff, andere nicht. Der Sauerstoffgehalt y [mg/l] im Fermenter
wurde gemessen und gleichzeitig der eingeblasene Luftstrom x [m3/h].
Fragestellung: Wie hängt der Sauerstoffgehalt y [mg/l] vom Luftstrom x [m3/h] ab?
Zuerst das Rechenschema für die Summen (die x- und y-Werte sind gegeben):
Nr
1
2
3
4
5
Σ
x =188,
y =2.82,
x
50
110
110
300
370
940
y
1.3
1.9
2.1
3.7
5.1
14.1
x2
2500
12100
12100
90000
136900
253600
y2
1.60
3.61
4.41
13.69
26.01
49.41
xy
65
209
231
1110
1887
3502
SAQxx = 253600−5*1882 = 76880,
SAQyy = 49.41−5*2.822
= 9.648,
SAPxy = 3502−5*188*2.82 = 851.2,
b̂ =851.2/76880=0.0110718 [mg/l / m3/h]
â =2,82−0.01107*188=0.7388 [mg/l]
Ŝ R =( (9.648-0.0110718*851.2) / (5-2) )0.5 = 0.273 [mg/l]
FG=5−2=3
t (α=0.05, FG, zweiseitig) = 3.18
ŷ x=500=0.7388+0.01107*500=6.2738 [mg/l]
[m3/h]
Anstieg der Geraden
Regressionskonstante
Reststreuung
Freiheitsgrad der Reststreuung
Sicherheitspunkt der t-Verteilung
Erwartungswert für x=500
24
 1 (500 − 188)2 
 * 3.18 =
6.27 ± 0.273 *  +

5
76880


6.27 ± 1.055, gerundet 6.27 ± 1.0
95%-Konfidenzintervall der
"wahren Geraden" für x=500
 1 (500 − 188)2 
 * 3.18 =
6.27 ± 0.273 * 1 + +

5
76880


6.27 ± 1.368, gerundet 6.27 ± 1.4
95%-Konfidenzintervall der
Einzelwerte für x=500
Ho: b=0 gegen HA: b≠0 (2-seitig), α=0.05
Hypothesenpaar zum Anstieg b
t = 0.0110718 * 76880 / 0.273 = 11.24
t-Statistik zum Anstieg b
Hypothesenauswahl Ho oder HA
Da t≥3.18, akzeptieren wir HA
Der Anstieg b der Geraden in der Grundgesamtheit unterscheidet sich signifikant von 0. Es
besteht ein signifikanter Zusammenhang zwischen Sauerstoffkonzentration y [mg/l] und Lufteintrag x [m3/h].
Ho: a=0 gegen HA: a≠0 (2-seitig), α=0.05
Hypothesenpaar zur Konstanten a
2
1 188
+
) = 3,320
t-Statistik zur Konstanten a
5 76880
Da t≥3.18, akzeptieren wir HA
Hypothesenauswahl Ho oder HA
Die Regressionskonstante a der Grundgesamtheit unterscheidet sich signifikant (auf 5%Niveau) von 0. Auch bei Null Lufteintrag besteht eine Sauerstoffkonzentration ≠0.
t =0.7388 / (0.274 *
6.2
Nichtlineare Regression, nichtlineare Trends
y
Messwerte y(x)
gefittete
Kurve
x bzw. t
Oft liegen die Datenpunkte nicht auf einer
Geraden. Die Aufgabe ist es, einen Kurventyp
zu finden, der die Messwerte ohne ihre zufälligen Schwankungen wiedergibt.
Für wachsende Werte nimmt man gern die
Exponentialfunktion ex, aber auch andere mathematische Funktionen sind gebräuchlich,
z.B. die Parabel y = ax2 + bx + c
Bei der Berechnung der Kurvenanpassung unterscheiden wir zwischen linearisierten, quasilinearen und nichtlinearen Modellen.
Beispiel Linearisierung der Exponentialfunktion: Wachstum allgemein ist in seiner Anαt
fangsphase oft durch die Exponentialfunktion Z(t) = Zo e darstellbar. Der Wachstumskoeffizient α hat die Dimension [h-1], d.h. „pro Stunde“. Zo ist die Startmenge bei t=0. Logarithmieren der Modellgleichung ergibt ln(Z)=ln(Zo)+α t. Durch die Umbenennungen y=ln(Z),
a= ln(Zo) und b=α erhalten wir das einfach lineare Regressionsmodell y = a + b t. Man
a
schätzt die beiden Koeffizienten a und b und erhält durch die rückwärtigen Ersetzungen Zo=e
und α=b die gesuchten Koeffizienten für das nichtlineare Modell. Der Fehler des Anstiegs sb
kann (mit kleinen Einschränkungen) direkt als Fehler von α, d.h. als sα interpretiert werden.
Der Fehler der Konstanten sa aus dem logarithmierten Modell wird zum Multiplikator für den
Originalkoeffizienten Zo, d.h Zo+sZ = Zo *esa und Zo−sZ = Zo /esa. Man beachte jedoch:
25
•
•
Die so gefundene Kurve minimiert im Originalplot nicht die Fehlerquadratsumme, sondern nur im logarithmierten Modell
Die Hypothesenprüfung erfolgt nur am logarithmierten Modell korrekt
Quasilineare Modelle: Man ersetzt x durch eine oder mehrere Funktionen von x. Jede Funktion bildet eine neue Variable, die in ein multiples lineares Regressionsmodell eingesetzt
wird:
Das Polynom z.B.
quasilineare Modell
y=a+ bt + c t2
y= b0 + b1 X1+ b2 X2
wird ersetzt durch das
mit X1 = t und X2 = t 2
Vorsicht bei der Verwendung von Polynomen höheren Grades!!! Man kann durch n Punkte
mit voneinander verschiedenen x-Werten immer exakt ein Polynom (n-1)-ten Grades legen.
Eine Gerade durch 2 Punkte, eine Parabel durch 3 Punkte, ein Polynom 9. Grades durch 10
Punkte. Aber was macht das Polynom zwischen den Punkten? Oft liefert es konfuse Werte!
Deshalb die Empfehlung: Ist n die Zahl der Messpunkte, dann sollte die Zahl p+1 der benutzten Koeffizienten b0, b1, b2, ..., bp im Modell immer kleiner als n/2 sein, d.h. doppelt so viele
Messpunkte wie Koeffizienten. Benutzt man ein schrittweises Aufbau- bzw. Abbauverfahren,
dann darf die anfängliche Zahl der Merkmale im Modell beliebig hoch sein. Hier übernimmt
das Regressionsprogramm die Auswahl der geeigneten Menge an Merkmalen.
Nichtlineare Modelle: Solver, wie sie in EXCEL z.B. zur Verfügung stehen, können beliebige Kurven an Daten fitten. Hier spielt es keine Rolle, ob die Koeffizienten linear oder nichtlinear in das Modell eingehen. Es kann jedoch sein, dass ein Solver nicht immer eine zulässige
Lösung findet. Dann muss man die Startwerte der Koeffizienten ändern. Viele Programme
liefern noch die Standardfehler der Koeffizienten, wobei diese Fehlerschätzungen jedoch mit
Vorsicht zu genießen sind. Es sind allenfalls Richtwerte für die Fehler der Koeffizienten
6.3
Zeitreihen (Time series) und saisonale Schwankungen
Die Graphik zeigt die Trendgerade überlagert
von einer einfachen periodischen Schwingung, wie sie beim Getränkeverbrauch durch
den Einfluss der Jahreszeiten entstehen
(Sommer-Winter, Fasnet, Weihnachten).
(EXCEL kann z.B. in einer Graphik Trendgeraden einfügen.)
x
x(t)
Trendgerade
t
Ist die Zeit die Einflussgröße, dann spricht man von Zeitreihen. Der Einfluss anderer Variablen ist vorhanden, wird aber nicht direkt modelliert. Zumeist spaltet man im Modell die zeitliche Änderung in einen linearen Trend und eine Anzahl periodischer Schwingungen (saisonale
Schwankungen) um diese Trendgerade auf. Bei der Modellierung der periodischen Schwingungen, die durch Tages-, Wochen, Monats-, Mond-, Quartals-, Jahres- oder andere Rhythmen bestimmt sein können, unterscheiden sich die Theorien. Diese bilden ein Buch für sich.
In der betrieblichen Praxis berechnet man gern die Monatsmittel der Vorjahre und erhält so
einen Planwert für die Monatswerte des laufenden Jahres. Indirekt ist das eine einfache Methode der Behandlung saisonaler Schwankungen. Im Zahlenbeispiel ist der Plan 2012 der Mittelwert der jeweiligen Monatswerte aus 2010 und 2011.
26
Monat
Jan
Feb
Mrz
Apr
Mai
Jun
Jul
Aug
Sep
Okt
Nov
Dez
2010
124
133
122
118
115
130
125
108
107
127
143
138
2011
132
134
128
115
102
110
127
120
118
105
133
145
Plan 2012
128,0
133,5
125,0
116,5
108,5
120,0
126,0
160
140
120
100
80
2010
60
2011
Plan 2012
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
Thema 7
7.1
Marktforschung, Fragebögen, Auszählung, Hypothesen
In der Marktforschung sind Umfragen ein wichtiges Instrument. Probanden beantworten eine
oder mehrere Fragen aus einem Fragebogen. Einfache Fragen lassen nur die Beantwortung
mit Ja oder Nein zu. Komplizierte Fragen lassen eine Skala zu, z.B. 0 = “gar nicht“, 1 = „ein
wenig“, …, 5 = „immer“.
Bei der Auswertung durch die Marketingabteilung kann man jede Frage einzeln analysieren,
d.h. man führt eine Auszählung durch, die die Häufigkeit der Ja-Antworten bzw. die Häufigkeit einer Skalenstufe liefert.
Man kann auch Fragen kombinieren, z.B. getrennt nach Geschlecht auszählen oder getrennt
nach Altersstufen der Probanden.
Eine wissenschaftliche Hypothese ist eine Aussage über eine Grundgesamtheit. Beispiel:
Nach Einnahme unseres neu entwickelten ACE-Hemmers sinkt der Blutdruck von Hochdruckpatienten. Gemeint ist die Grundgesamtheit aller Hochdruckpatienten. Überprüfen können wir
eine solche Hypothese nur mit einer Stichprobe. Wir verallgemeinern die Ergebnisse einer
(meist kleinen) Stichprobe auf die (zumeist große) Grundgesamtheit. Dabei können uns Zufallsfehler einen Schabernack spielen. Sie gaukeln uns eine Blutdruckabnahme vor, weil wir
zufällig mehr Patienten ausgewählt hatten, bei denen unser neuer ACE-Hemmer eine Blutdruckerniedrigung bewirkt, als solche, bei denen nichts oder gar das Gegenteil eintritt. Um
solche Fehler bewerten zu können, legt die konfirmatorische Statistik eine zulässige Irrtumswahrscheinlichkeit fest und prüft, ob sie durch die Ergebnisse der Stichprobe nicht überschritten wird.
Das Hypothesenpaar H0 und HA
Festlegung einer Nullhypothese H0, die Effekte als zufällig abtut (z.B. nur Zufallsschwankungen des Blutdrucks). Dagegen steht die Alternativhypothese HA, die einen signifikanten
27
Effekt (z.B. eine Blutdrucksenkung durch unser Medikament) postuliert. Bezeichnen wir z.B.
die Differenz P1−P2 der Blutdruckmessungen vor und nach der Behandlung mit d, dann lauten die beiden Hypothesen bei zweiseitiger Fragestellung H0: d=0 und HA: d≠0. Der Fehler
1. Art, α, gibt die Wahrscheinlichkeit an, mit der wir eine richtige Nullhypothese H0 ablehnen, d.h. uns für die falsche Hypothese HA entscheiden. Übliche Wertevorgaben für α sind
0,05 bzw. 0,01 (5% bzw. 1%). Der selten kontrollierte Fehler 2. Art, β , gibt die Wahrscheinlichkeit, dass wir eine richtige Alternativhypothese HA ablehnen. Hier ist man mit Werten von
β=10-30% schon zufrieden.
Den Zusammenhang zwischen dem Fehler 1. Art, α, und dem Fehler 2. Art, β , zeigt die
folgende Graphik an einem Beispiel: Kurve f(t) ist die von Gosset gefundene t-Verteilung bei
Gültigkeit von H0. Kurve h(t) ist ein Beispiel für irgendeine meist unbekannt bleibende Verteilung der t-Werte bei Gültigkeit von HA. (Diese Verteilung interessiert nicht wirklich.) Der
Sicherheitspunkt bei zweiseitiger Fragestellung für f(t) ist tα. Er tritt symmetrisch auf als +tα
und −tα. Jeder Zwickel der f(t)-Kurve hat Wahrscheinlichkeit α/2, zusammen α.
Fall1: H0 sei gültig, d.h. Kurve h(t) existiert nicht. f(t) ist die gültige Verteilung der t-Werte.
Für einen aus der Stichprobe berechneten t-Wert mit t < tα nehmen wir H0 zu recht an.
Fall2: H0 sei gültig. Für einen aus der Stichprobe berechneten t-Wert mit t ≥ tα lehnen wir
H0 zu unrecht ab. Wir realisieren den Fehler 1. Art, α.
Fall3: HA sei gültig, d.h. Kurve h(t) ist jetzt die gültige Verteilung der t-Werte, die man aus
Stichproben berechnet. Für einen berechneten t-Wert mit t < tα nehmen wir H0 zu unrecht
an. Wir realisieren den Fehler 2. Art, β.
Fall4: HA sei gültig. Für einen berechneten t-Wert mit t > tα nehmen wir HA zu recht an.
Effekt d
f(t)
h(t)
β
α/2
-tα
α/2
0
tα
t
Ist der Effekt d klein, dann überlappen sich die beiden Verteilungen sehr stark und der Fehler
2. Art, β, wird immer größer. Man kann einen Effekt statistisch nur sichern, wenn er genügend
groß ist. Allgemein gilt jedoch: Großes α ←→ kleines β und umgekehrt. Man muss den
Kompromiss finden, was oft eine finanzielle Optimierungsaufgabe ist (→
→ Versuchsplanung).
p-Wert (p-Value) eines Tests ist die Wahrscheinlichkeit für das Auftreten von Werten der
Testgröße bzw. noch größerer Werte, alles unter der Annahme, dass H0 gültig ist. (Beispiel:Ist
der aus der Stichprobe berechnete t-Wert z.B. t=4,77, dann ist der zugehörige p-Value die
Wahrscheinlichkeit, dass dieser t-Wert in ähnlich angelegten weiteren Untersuchungen wieder erreicht oder gar überschritten wird.) Ein p-Wert ≤ 0.05 bedeutet Signifikanz auf dem
5%-Niveau, ein p-Wert ≤ 0.01 bedeutet Signifikanz auf dem 1%-Niveau, usw.
Trennschärfe (Power, Macht) eines Tests ist definiert als 1-β
β , d.h. die Wahrscheinlichkeit,
eine richtige Alternativhypothese statistisch zu sichern. Optimale Tests haben maximale
Trennschärfe, wenn die Voraussetzungen erfüllt sind (richtige Datenverteilung, ..., usw.).
28
•
•
•
•
Die Trennschärfe steigt mit n . Über das Stichproben-n kann bei festem α das β beliebig
heruntergedrückt werden, falls genug Geld und Zeit da ist und tatsächlich ein Effekt existiert.
Die Trennschärfe sinkt, wenn α heruntergesetzt wird, d.h., man sollte mit dem höchsten
zulässigen α arbeiten (5% in der Marktforschung, 1% oder manchmal sogar 0.1% bei der
Zulassung von Medikamenten).
Die Trennschärfe steigt mit besserer Messmethodik (kleineren Varianzen in den Gruppen).
Die Trennschärfe ist bei einseitiger Fragestellung besser (aber Vorsicht! Sie müssen die
einseitige Hypothese gut begründen). Wir arbeiten hier generell zweiseitig.
Zweiseitige und einseitige Fragestellung: Weiß man nichts über die Richtung des Effekts,
dann ist immer die zweiseitige Fragestellung angebracht. Hat man jedoch Vorwissen aus früheren Untersuchungen oder schreibt die Logik zwingend einen positiven oder einen negativen
Effekt vor, dann darf man die Hypothesen einseitig aufstellen. Man wird durch kleinere Werte
der Sicherheitspunkte belohnt, d.h. man erreicht leichter (mit weniger Daten) eine signifikante
Aussage.
Die folgende Tabelle benutzt als Beispiel die Frage nach unterschiedlichen Mittelwerten µ1
und µ2 zweier Populationen mit einer t-Statistik.
Zweiseitige Fragestellung
H0: µ1=µ2, HA: µ1≠µ2
einseitig positive Fragestellung
H0: µ1≤µ2, HA: µ1>µ2
f(t)
α/2
f(t)
α/2
−tα
0
tα
einseitig neg. Fragestellung
H0: µ1≥µ2, HA: µ1<µ2
t
α verteilt sich zu auf den
linken und den rechten Zwickel. Entsprechend weit
sind die Sicherheitspunkte tα
von der 0 entfernt
f(t)
α
0
tα
α
−tα
t
Der gesamte Fehler 1. Art, α,
ist im rechten Zwickel zu finden. Entsprechend liegt der
einseitige Sicherheitspunkt tα
näher an der Null
0
t
Der gesamte Fehler 1. Art, α,
ist im linken Zwickel zu finden. Entsprechend liegt der
einseitige Sicherheitspunkt -tα
näher an der Null
Nehmen Sie nur die einseitige Fragestellung, wenn Sie sie auch gut begründen können!
Freiheitsgrad: Der Begriff stammt aus der Mechanik und gibt dort die Zahl der möglichen
Translations- und Rotationsbewegungen einer Ansammlung von Objekten an. In der Statistik
ist es die Anzahl unabhängiger Werte, die in einer Quadratsumme stecken. Die Anzahl unabhängiger Werte ist FG=N−Np. Dabei ist N die Anzahl der quadrierten Werte, Np ist die Anzahl
unabhängiger Stichprobenparameter, die in den quadrierten Daten stecken. Stichprobenparameter sind hier Parameter, die aus den Stichprobendaten selbst berechnet werden.
Beispiel Gesamt-χ2 einer 4x2-Kontingenztafel
) 2
I
J
(
n
e
−
n i . n. j
)
ij
ij )
2
χ ij2 =
,
e
=
,
χ
=
χ ij2
)
∑∑
ij
eij
n
i =1 j =1
Beispiel Varianz aus n Messwerten
σ n −1 =
∑ (x
i
− x)
2
n −1
8 beobachtete unabhängige Häufigkeiten nij.
n unabhängige Messwerte xi liegen
Es gibt 5 benutzte unabhängige Parameter zur Berech- vor. Es gibt nur einen benutzten Pa29
nung der Erwartungswerte eij : Gesamtzahl n, die Zei- rameter, der aus den Daten berechnet
lensumme n1. und die 3 Spaltensummen n.1 , n.2, n.3..
wird: x
FG = 8−5 = 3
FG = n−1
Multiples Testen und Alpha-Adjustierung
Führt man an einer Stichprobe mehrere Tests durch, von denen jeder die Irrtumswahrscheinlichkeit α hat, z.B. α=5%, dann findet man bei 100 Tests etwa 5 signifikante Alternativen,
auch wenn in Wirklichkeit überall die Nullhypothese gültig ist. Wie geht man mit dem Problem um?
1. Wir stellen nur unabhängige Einzelhypothesen auf. Es macht uns nichts aus, wenn einige
falsch bewertet werden. Die große Masse ist richtig bewertet.
2. Wir fordern, die Gesamtheit aller unserer Hypothesen wird als eine multiple Hypothese
aufgefasst und darf nur mit Irrtumswahrscheinlichkeit α falsch sein, d.h., selbst bei 100
Hypothesentests darf die Wahrscheinlichkeit, dass auch nur eine Nullhypothese fälschlich
abgelehnt wurde, nicht größer als α sein. Wir adjustieren das α der Einzeltests.
Die Bonferroni-Adjustierung dividiert α durch die Hypothesenzahl nH, d.h. α*=α/ nH, und
testet bei den Einzelhypothesen mit α* statt mit α. Holms sequentielle Prozedur berechnet
zuerst die p-Werte für alle nH Einzeltest, ordnet die p-Werte aufsteigend nach der Größe, vergleicht den kleinsten p-Wert mit α0=α/ nH, den nächstgrößeren mit α1=α/ (nH-1), usw. bis zum
größten p-Wert, der mit α verglichen wird. Ist ein p-Wert größer, als sein αi, dann ist dieser
Test und alle nachfolgenden nicht signifikant. Die Bonferroni-Adjustierung ist einfacher
durchzuführen, liefert eventuell aber weniger Signifikanzen, als Holms Prozedur.
7.2
Test von Häufigkeitszahlen
Vergleich einer beobachteten relativen Häufigkeit mit einer Konstanten
)
Vergleich einer beobachteten relativen Häufigkeit p mit einer vorgegebenen konstanten
Wahrscheinlichkeit po. p sei die „unbekannte“ Wahrscheinlichkeit der Grundgesamtheit.
Schritt 0: Hypothese Ho: p = po
HA: p ≠ po
(zweiseitiger Test)
α=0.05 (5%)
Schritt1 : Methode asymptotischer Binomial-Test: u ist unter H0 asymptotisch normal verteilt
)
Schritt 2: Berechne p = h / n
h=Zahl der JA-Antworten,
n=Antworten insgesamt
u=
)
p − p0
p o (1 − p 0 )
n
Schritt 3: Aussage: Die Sicherheitspunkte für u(α) sind identisch mit denen von t(α,FG→∞)
bzw. mit denen der Standardnormalverteilung Φ(u).
Bei zweiseitigem Test und α=0.05 ist u(α)=1,96
Wenn u > u(α) , dann ist signifikant p > po
Wenn u < −u(α) , dann ist signifikant p < po
Zahlenbeispiel: Die Biofirma Laktozar will in München eine Kampagne starten, wenn der
Anteil von 20% Diätfreunden signifikant überschritten wird. Eine Umfrage unter 100 Personen ergab 23 JA-Stimmen für eine neue Diät.
30
(0,23 − 0,2)
100 = 0.75
0,2 ⋅ (1 − 0,2)
0.75 < 1.96, d.h. wir akzeptieren H0. Keine signifikante Abweichung vom Wert 20% wurde
gefunden. Die Kampagne findet nicht in München statt.
p=23/100=0.23,
po=0.2,
u=
Vergleich zweier relativer beobachteter Häufigkeiten
(genauer der Vergleich der geschätzten Wahrscheinlichkeiten p1 und p2 in zwei Grundgesamtheiten). Gegeben sind 2 Stichproben mit Umfang n1 bzw. n2 und h1 bzw. h2 „JAAntworten“.
Schritt 0: Hypothese Ho: p1 = p2
HA: p1 ≠ p2 (zweiseitiger Test)
α=0.05 (5%)
Schritt 1 : Methode t-Test für Häufigkeiten
Schritt 2 : Berechne
)
p1 = h1 / n1
h + h2
p= 1
n1 + n 2
)
p 2 = h2 / n 2
FG = n1 + n2 − 2
)
)
p1 − p 2
n1 n 2
t=
n1 + n 2
pq
q=1−p
Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG) aus der Tafel (2-seitig)
Wenn t < −t(α, FG), dann ist signifikant p1 < p2
Wenn t > t(α, FG), dann ist signifikant p1 > p2
Zahlenbeispiel: Die Biofirma Laktozar will ihre Kampagne für die neue Diät in Deutschland
starten, wenn Frankreich nicht signifikant mehr Diätfreunde hat. Es wurden zwei Umfragen
erhoben, eine in Deutschland, eine in Frankreich.
D: h1=127
F: h2=64
von n1=500 Probanden waren für eine neue Diät
von n2=300 Probanden waren für eine neue Diät
H0: p1=p2, HA:p1≠p2 (zweiseitige Fragestellung), α=0.05, d.h. tα=1.96
127
= 0.254
500
127 + 64
p=
= 0.239
500 + 300
pˆ 1 =
64
= 0.213
300
q = 1−0.239 = 0.761
FG=500+300-2=798
pˆ 2 =
t=
0.254 − 0,213
500 ⋅ 300
= 1.316
0.239 ⋅ 0.761 500 + 300
Den Sicherheitspunkt tα zum Freiheitsgrad FG=798 finden wir auf Seite 3, Spalte t-zweiseitig
bei Freiheitsgrad FG→∞ .
Wegen t < tα, d.h., 1.316 < 1.96 akzeptieren wir H0. Es besteht kein signifikanter Unterschied in der Zahl der Diätfreunde zwischen Deutschland und Frankreich. Die Kampagne wird
in Deutschland gestartet.
7.3
Kontingenztafeln
31
Kontingenztafeln entstehen beim Auszählen von kategorialen Merkmalen. Die Merkmalszahl bestimmt die Dimension der Tafel (2 Merkmale ergeben z.B. eine Matrix aus Zeilen und
Spalten, 3 Merkmale ein 3-dimensionales Zahlenfeld usw.). Beispiel: Befragung von 100 Probanden nach ihren Rauchgewohnheiten. Merkmal Geschlecht hat zwei Kategorien: weiblich /
männlich. Merkmal Rauchgewohnheit hatte hier 3 Kategorien: nie / mäßig / stark. Die einzelne Häufigkeit nij (Frequenz) heißt Konfiguration oder Zelle. Zellen werden durch die Indizes i,
j, k,.. bezeichnet.
rauche nie
mäßig
stark
w
n11=22
n12=17
n13=11
m
n21=26
n22=16
n23=8
Nur nominale, kategoriale oder binäre Merkmale sind zur Auszählung geeignet. Man kann
jedoch metrische Merkmale in kategoriale umwandeln (z.B. Transformation in ein dichotomes
0/1-Merkmal). Die Kategorien eines Merkmals sollten als Nummern 1, 2, 3, .. kodiert sein.
Was leistet die Kontingenztafelanalyse u.a.?
• Kontingenztest (Chi-Quadrat-Test auf Unabhängigkeit von kategorialen Merkmalen)
• Analyse von 2x2-Tafeln (Zusammenhangs- bzw. Assoziationsmaße)
Kontingenztest oder Homogenitätstest
auf Zusammenhang oder Unabhängigkeit zweier kategorialer Merkmale. Gegeben ist eine
Kontingenztafel für k≥2 kategoriale Merkmale.
Ho beim Globaltest: Die Merkmale sind unabhängig – es besteht kein Zusammenhang.
HA beim Globaltest: Die Merkmale sind abhängig - es gibt einen Zusammenhang. Der Test
erfolgt mit Chi-Quadrat und testet einseitig auf Überschreitung des oberen Sicherheitspunktes
der Chi-Quadrat-Verteilung mit FG Freiheitsgraden.
Schritt 0:
Schritt 1:
Schritt 2:
Schritt 3:
Hypothese Ho: „Kein Zusammenhang“, HA: „Signifikanter Zusammenhang“
α=0,05 (5%)
Methode Globaler χ2-Test in Kontingenztafeln
n i j = Häufigkeit der Kategorienkombination ( i, j ) (Beispiel k=2)
ni . = Zeilensumme i
n. j = Spaltensumme j
I = Zeilenzahl der Tafel
J = Spaltenzahl der Tafel
n = Gesamtzahl aller Probanden (Fälle)
Berechne Freiheitsgrad, Erwartungswerte, χ²-Komponenten und Gesamt-χ²
) n n
FG = I·J − (I−1) − (J−1) −1
eij = i. . j
n
) 2
I
J
(nij − eij )
2
χ ij2 =
χ
=
χ ij2
)
∑∑
ges
eij
i =1 j =1
Suche den Sicherheitspunkt χ2(α,FG). Wenn χ2 ≥ χ2(α,FG), dann nimm einen
signifikanten Zusammenhang der Merkmale (bzw. Kontingenz) an, sonst
akzeptiere Ho: „Kein signifikanter Zusammenhang (bzw. keine Kontingenz)“
Beispiel Trinkverhalten: Aus einer Fragebogenaktion zum Trinkverhalten von Kunden ergab
sich u. a. die Frage: Gibt es Unterschiede zwischen Männern und Frauen bezüglich der Wichtigkeit von Alkohol, Säften, Heißgetränken? (Trinktyp). Die Kontingenztafel lautet:
32
Trinktyp
Säfte
Heißgetränke
Alkohol
Geschlecht
m
84
23
42
w
27
82
54
Testen Sie auf einen signifikanten Zusammenhang zwischen den Merkmalen Geschlecht und
2
Trinktyp (Hypothesen, eij , χ ij2 , χ Gesamt
, Hypothese wählen, Antwortsatz)
Hypothesenpaar:
Zeilensummen:
Spaltensummen:
Gesamt-n
Ho (Kein Zusammenhang) HA (Signifikanter Zusammenhang)
n1. = 149
n2. = 163
n.1 = 111
n.2 = 105
n.3 = 96
n=312
149 ⋅ 111
149 ⋅ 105
Erwartungswerte
e11=
=53,0
e12=
=50,1 ….
312
312
(84 − 53,0)2 =18,13 χ 2 = (23 − 50,1)2 =14,66 ….
Chi-Quadrate
χ 2 11=
12
53,0
50,1
2
Chi-Quadrat gesamt χ ges= 18,13 +14,66 + … = 63,3
Freiheitsgrad
FG = 2
Sicherheitspunkt
χ 2 alfa =5,99
Hypothesenwahl HA , da χ 2 ges > χ 2 alfa
Es besteht ein signifikanter Zusammenhang zwischen den Merkmalen Geschlecht und Trinktyp. Frauen haben ein anderes Trinkverhalten, als Männer.
Thema 8
8.1
Korrelation und Regression
Wichtige Analysen bei zwei metrischen Merkmalspaaren sind die Korrelationsanalyse und die
einfache Regressionsanalyse. Die Regressionsanalyse wurde bereits in Thema 6 abgehandelt.
Korrelationsanalyse ist angebracht, wenn zwei beobachtete oder gemessene Merkmale in
Beziehung stehen, sich aber keines der beiden Merkmale als Einflussgröße oder Zielgröße
qualifizieren lässt. Beispiel: Materialkosten KM pro Jahr und Energiekosten KE einer Firma.
Man kann nicht sagen, dass eines der Merkmale vom anderen abhängt, sondern beide Merkmale hängen vermutlich von einer oder sogar mehreren dritten Größen (Faktoren) ab, z.B.
dem Umsatz. Einfache Regressionsanalyse ist angebracht, wenn definitiv eine Zielgröße von
einer Einflussgröße abhängt. Beispiel: Materialkosten KM pro Jahr hängen vom Umsatz U ab.
8.2
Berechnung des Korrelationskoeffizienten und Test
Gleichlaufendes oder ähnliches Verhalten zweier Merkmale wird als Korrelation bezeichnet,
wobei eine direkte Abhängigkeit des einen Merkmals vom anderen nicht Voraussetzung ist.
33
Zeitliche Korrelation ist sogar ohne jeden Zusammenhang denkbar, wenn man an die gesellschaftlichen und kulturellen Entwicklungen voneinander isolierter Kontinente denkt.
Zeitliche Korrelation zwischen DAX- und
Nikkei-Indes
Produkt-Momenten-Korrelation zwischen
Körpergröße H und Körpergewicht W
W
Nikkei
DAX
H
t
Die über der Zeit aufgetragenen Werte des
DAX-Index und des Nikkei-Index haben einen ähnlichen Verlauf. Hohe DAX-Werte z.B.
korrelieren mit hohen Nikkei –Werten und
umgekehrt.
Große Probanden wiegen im Schnitt mehr als
kleine Probanden, wobei es aber keinen sklavischen Zusammenhang gibt. Die Korrelationsellipse ist eine Höhenlinie der 2-dimensionalen Dichteverteilung der Messpunkte
Der Korrelationskoeffizient r wird so normiert, dass er nur Werte zwischen −1 und +1 annehmen kann. Ein Wert r = 1 bedeutet, dass ein exakter linearer Zusammenhang der Form
y=a+bx oder x=c+dy zwischen den beiden Merkmalen besteht ohne jede Abweichung. r = −1
bedeutet einen ebenso exakten Zusammenhang, aber von der Form y=a−bx bzw. y=c−dy. Hier
sind a, b, c, d Konstante. Die Graphiken zeigen verschiedene Korrelationswerte und das
Streubild der Messpunkte.
r = −0.9
r = −0.5
r=0
y
r = 0.5
y
r = 0.9
y
y
x
x
x
x
Linearer Korrelationskoeffizient r
(Produkt-Momenten-Korrelationskoeffizient nach Bravais und Pearson) zweier metrischer
Merkmale in einer Grundgesamtheit. Gegeben ist eine Stichprobe mit Wertepaaren (x1,y1),
(x2,y2), ..., (xn,yn), wobei es egal ist, welche der beiden Größen x bzw. y genannt wird. Berechne zuerst wie bei der Regressionsanalyse in Thema 6 die drei Abweichungsprodukt- bzw.
Abweichungsquadratsummen SAPxy, SAQxx, SAQyy, wobei die linke Formel genauer, die
rechte schneller zu berechnen ist. Folgendes Rechenschema bietet sich an, wenn man lediglich
mit einem einfachen Taschenrechner ausgerüstet ist. Man berechnet die 5 Summen und benutzt anschließend den rechten Formelsatz für SAPxy, SAQxx, SAQyy. Vorsicht! Die Mittelwerte nicht zu sehr runden. 6 signifikante Ziffern sollten bleiben. Die Werte xi und yi sind
gegeben.
Nr
1
2
...
n
xi
x1
x2
...
xn
x i2
x 12
x 22
...
x n2
yi
y1
y2
...
yn
34
xi yi
x1 y1
x2 y2
...
xn yn
yi2
y12
y22
...
yn2
Σ xi
Σ yi
Σ x i2
Σ xi yi
Σ yi2
Formelsatz für Programmierer
Formelsatz für Taschenrechner
 n

SAPxy = ∑ (( x i − x )( y i − y ))
bzw. SAPxy =  ∑ xi y i  − n ⋅ x y
i =1
 i =1

2
n
n


bzw. SAQxx =  ∑ xi2  − n ⋅ x 2
SAQxx = ∑ ( xi − x )
 i =1 
i =1
2
n
 n

bzw. SAQyy =  ∑ y i2  − n ⋅ y 2
SAQyy = ∑ ( y i − y )
 i =1 
i =1
)
r
SAPxy
)
r=
t=
n−2
FG = n − 2
)
SAQxx ⋅ SAQyy
1− r 2
n
)
r schätzt den Korrelationskoeffizienten r der Grundgesamtheit. Die Nullhypothese ist
H0: r=0 (keine Korrelation in der Grundgesamtheit), HA: r≠0 (es existiert eine Korrelation
in der Grundgesamtheit).
Die Korrelation r in der Grundgesamtheit ist signifikant von Null verschieden, wenn
t ≥ t(α,FG) für zweiseitigen Test ist. Sonst nimmt man Ho: r = 0 an, d.h. "keine signifikante Korrelation in der Grundgesamtheit."
Zahlenbeispiel Korrelationskoeffizient: Ist der Umsatz y, gegeben in Millionen €, mit den
Materialkosten x, gegeben in Tausend €, korreliert? Die Daten stammen aus 5 Filialen. Zuerst
das Rechenschema für die Summen. Die Werte für x und y sind gegeben:
Nr
1
2
3
4
5
Σ
x
50
110
110
300
370
940
y
1.3
1.9
2.1
3.7
5.1
14.1
x2
2500
12100
12100
90000
136900
253600
xy
65
209
231
1110
1887
3502
y2
1.60
3.61
4.41
13.69
26.01
49.41
x =188,
y =2.82,
SAQxx=253600−5*1882 =76880,
SAQyy=49.41−5*2.822=9.648,
SAPxy=3502−5*188*2.82=851.2,
851,2
= 0.98834
Korrelationskoeffizient
76880 ⋅ 9648
H0: r=0 , HA: r≠0
Hypothesenpaar
0,98834
t=
3 = 11.22
t-Statistik
1 − 0,98834 2
FG = 5−2 = 3
Freiheitsgrad
tα = t (α=0.05, FG, zweiseitig) = 3.18
Sicherheitspunkt der t-Verteilung
Wegen t> tα akzeptieren wir Hypothese HA, d.h. die Materialkosten x und Umsatz y sind
(hoch) korreliert.
r̂ =
35
Thema 9 (EXCEL-Vorführung mit Beamer)
9.1 Einfach lineare Regression mit Teststatistiken
Die einfach lineare Regression setzt man z.B. bei folgenden Aufgaben ein:
• Man möchte eine Ausgleichsgerade durch Datenpunkte ziehen
• Man möchte den Anpassungsfehler (die Reststreuung) wissen
• Man möchte testen, ob der Anstieg signifikant ist
• Man möchte testen, ob die Konstante signifikant von Null verschieden ist, oder ob
nicht eine Gerade durch den Ursprung die bessere Wahl wäre
• Man möchte die Gerade für eine Prognose verlängern und wissen, wie genau sind die
prognostizierten Werte.
)
Die Funktion =trend( y-Werte ; x-Werte ) berechnet die Erwartungswerte y i der Ausgleichsgeraden, die durch die y- und x-Werte definiert ist.
Die Funktion =rgp( y-Werte ; x-Werte ; wahr ; wahr ) berechnet die Regressionskoeffizienten, deren Standardabweichungen, die Reststreuung, die Bestimmtheit r2, deren Freiheitsgrad usw. einer einfachen oder multiplen Regression. Das erste wahr steht für ein "Modell mit
Regressionskonstante", das zweite wahr für "außer den Koeffizienten weitere statistische
Kennzahlen ausgeben", wie oben genannt. Die Abkürzung SSE steht für die 3-fachTastenbelegung Strg-Shift-Enter (bzw. Strg-Umsch-Enter). Drücken Sie erst die beiden linken
Tasten Strg und ⇑, dann zusätzlich ENTER.
Zuerst tippen Sie die Spaltenbezeichnungen x, y, y-Dach als Text ein, dann die x-Zahlenwerte
in die Felder A2 bis A7, dann die y-Zahlenwerte in B2 bis B7, dann laut Schema:
Z1
Z2
Z3
Z4
Z5
Z6
Z7
Z8
Z9
Z10
Z11
Z12
Z13
Z14
Z15
S1=A
x
1,7
2,3
2,1
2,4
3,9
1,6
2,20
0,18
0,97
144
16,8
12
S2=B
y
3,3
4,1
4,5
4,7
8,3
3,3
S3=C
y-Dach
Selektiere C2:C7 und tippe ein:
=trend( sel. B2:B7 ; sel. A2:A7 ) SSE
(y-Werte x-Werte)
Auf C2 bis C7 erscheinen die
berechneten y-Dach-Werte. Jetzt
wollen wir die Koeffizienten und Statistiken berechnen: Selektiere A9:B13
und tippe ein:
-0,45
b1,bo
=rgp(sel.B2:B7;sel.A2:A7;wahr;wahr) SSE
0,45
sb1,sbo
Es erscheinen die Zahlen in Spalte A und B
0,34
r2, sR
z.B. b1=Anstieg, bo=Regressionskonstante
4
F, FG
der Geraden y = bo + b1 x
0,47 ssreg,ssres Berechnung der t-Statistiken: Sel. A15:B15
= sel.A9:B9 / sel. A10:B10 SSE
-1.0
t1, t0
die beiden Teststatistiken erscheinen
In den berechneten Statistiken bedeuten:
b1, bo
den Regressionskoeffizienten b1 und die Konstante bo
sb1, sb0
die Standardabweichungen (Fehler) der beiden Koeffizienten b1 und bo
2
r2 bzw. r
die multiple Bestimmtheit (bei einer einfach linearen Regression ist es das
Quadrat des Korrelationskoeffizienten r)
36
sR
F
Reststreuung der Messpunkte um die Gerade (mittlere Abweichung)
Testgröße (F-Statistik) hier zur Hypothese Ho: b1=0 mit den Freiheitsgraden
FG1=1 und FG2=FG. Bei einer einfachen Regression wie hier im Beispiel ist
F=t12, und t1 die t-Statistik für b1 mit FG Freiheitsgraden.
sind die Teststatistiken zu den Koeffizienten b1 und b0. Man testet damit die
Hypothesen Ho: b1=0 gegen HA: b1≠0 bzw. Ho: bo=0 gegen HA: bo≠0
2
= ∑ ( y i − y ) , auch Summe der Abweichungsquadrate der y genannt (SAQyy)
2
)
= ∑ ( y i − y i ) = ∑ ei2 , auch Summe der Abweichungsquadrate bzw.
t1 , t0
ssreg
ssresid
Fehlerquadratsumme genannt.
9.2
Trendgerade mit Prognose
Wir geben die Jahre t=02 bis t=12 vor, dazu Umsätze in Millionen € für die Jahre 02 bis 09.
Gewünscht sind die Prognosen für die Jahre 10, 11 und 12.
Selektieren Sie die (noch leeren Zellen) Zellen unter der Spaltenüberschrift Trendwerte bis
zum Jahr 9 und geben Sie die erste Trendanweisung ein. Abschluss mit 3-fach-Taste StrgShift-Enter (SSE). Die leeren Zellen füllen sich mit den Zahlen 122,08 bis 139,41. Zwischen
den beiden Semikolons in der Mitte der Trendanweisung tippen Sie ein Blank oder garnichts.
Die Prognosewerte für die Jahre 10 bis 12 erhalten wir mit der unteren Trendanweisung. Selektieren Sie die (noch leeren Zellen) Zellen unter Trendwerte vom Jahr 10 bis zum Jahr 12
und geben Sie die untere Trendanweisung ein. Abschluss mit 3-fach-Taste Strg-Shift-Enter
(SSE). Die leeren Zellen füllen sich mit den Zahlen 141,89 bis 146,84.
Jahr t
2
3
4
5
6
7
8
9
10
11
12
Umsatz U
124
121
127
135
130
128
142
139
Trendwerte
122,08
124,55
127,03
129,51
131,98
134,46
136,94
139,41
141,89
144,36
146,84
Graphik der Regression mit den Prognosewerten: Selektieren Sie mit der Maus alle
Zellen von „Jahr t“ bis zur Zahl „146,84“
1. Klicke auf den Diagrammassistenten
2. Wähle Diagrammtyp Punkte (X,Y) und
dazu die Darstellung "nur Punkte"
3. Klicke rechten Mausklick auf einen
Punkt der Trendwerte und füge die
Trendgerade ein.
mit
=trend(U2 bis U9; t2 bis t9; ; wahr) SSE
mit
=trend(U2 bis U9; t2 bis t9; t10 bis t12; wahr) SSE
160
140
120
100
80
Umsatz U
Trendwerte
60
Linear (Trendwerte)
40
20
0
0
37
2
4
6
8
10
12
14
9.3
Berechnung einer Korrelation mit Test des Koeffizienten
Gegeben sind zwei Datenreihen gleicher Länge x und y. Gesucht ist der Korrelationskoeffizient r und der t-Test auf Signifikanz.
x
4
3
9
2
6
7
y
13
9
22
5
9
14
r=
n=
t=
p-value =
0,866
6
3,457
0,0259
mit
mit
mit
mit
=korrel(x ; y)
=anzahl(x)
= r/wurzel(1-r ^2)*wurzel(n -2)
=tvert(abs(t); n -2; 2)
Die fett kursiv geschriebenen Variablen bzw. Zahlenreihen müssen Sie mit der Maus selektieren, während sie die EXCEL-Anweisungen eintippen, d.h. bei x fahren Sie über die x-Werte,
bei r klicken Sie auf den Wert von r usw.
Der Korrelationskoeffizient r = 0,866 ist mit einer Irrtumswahrscheinlichkeit von p = 2,59%
von Null verschieden, d.h., da unser p-value p < 0,05 ist, liegt eine signifikante Korrelation
zwischen den Merkmalen x und y vor.
Thema 10
10.1
Multiple Regression (z.B. Parameterpreisbildung)
Die multiple Regression verknüpft p Einflussgrößen X1, X2,..., Xp mit einer Zielgröße
Y. Das Modell kann mit oder ohne Regressionskonstante bo sein:
Y
X2
Y = bo + b1* X1 + b2* X2 + ... + bp* Xp + e
X1
Die geometrische Interpretation ist eine Funktion über dem von X1, X2, ... aufgespannten Raum. Zumeist ist es eine Ebene, aber es lassen
sich auch gebogene Flächen wie in der Graphik modellieren. Die Regressionskoeffizienten b1,
b2,..., bp (und b0) werden nach der Methode der kleinsten Quadrate (Σe2= Minimum) geschätzt. e ist der zufällige Fehler oder Residuum (Abweichung).
Beispiel Parameterpreisbildung: Der durchsetzbare Marktpreis eines neu zu entwickelnden
Elektromotors soll geschätzt werden. Man benötigt dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl, Spannung) sowie die verfügbaren Marktpreise und Kenndaten schon verfügbarer ähnlicher Motore. Zielgröße y ist der Marktpreis, Einflussgrößen X1,
X2, ... sind die Kenndaten, wie Gewicht, Leistung, Drehzahl. Das lineare Modell (mit Konstante und Fehler e) lautet:
Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + b4*Leistung + e
38
Die multiple Regression schätzt aus den vorhandenen Daten, d.h. den Preisen und Kenndaten
die Regressionskoeffizienten. Setzt man die "extra Daten" des eigenen geplanten Motors in
die Regressionsgleichung ein, dann erhält man eine Schätzung für dessen Preis.
Man kann das Modell mit und ohne Konstante bo aufstellen. Bei einem Modell mit Konstante
bo werden in etwa durch die Konstante die Fixkosten eines Motors modelliert.
Zum quasilinearen Modell siehe "nichtlineare Regression im Thema 6.2".
Von gewichteter Regression spricht man, wenn jedem Datenpunkt i ein Gewicht Gi zugeordnet wird (EXCEL unterstützt diese Variante nicht). Die Zahl der Freiheitsgrade wird dadurch
nicht verändert.
Es gibt drei Hauptaufgaben der multiplen Regression:
1. Prognose (Vorhersage) von Y-Werten außerhalb des durch die x-Werte vorgegebenen
Bereichs und/oder für neue Datenpunkte innerhalb des vorgegebenen X-Bereichs. Beispiele: Parameterpreisbildung oder Schätzung der Energiekosten im nächsten Jahr auf der Basis der Produktionszahlen und anderer Daten in den vergangenen Jahren.
2. Finden von signifikanten Einflussgrößen X: Beispiel: Welches sind die Haupteinflussgrößen auf den Preis einer Immobilie (Grundstücksgröße, Lage, Alter, Verkehrsanbindung, ..., usw.)
Bei der Prognose (Vorhersage) interessiert die Genauigkeit der prognostizierten Y-Werte.
Nicht die kleinste Reststreuung ist gefragt, sondern der kleinste Prognosefehler. Zur Bestimmung des Prognosefehlers benutzt man Lachenbruch-, Jackknife- oder BootstrapMethoden. Die Frage nach der Signifikanz der Einflussgrößen stellt sich nicht bzw. ist untergeordnet. Alle 3 genannten Methoden lassen sich auch mit EXCEL durchführen.
10.2 Suche signifikanter Einflussgrößen (Abbauverfahren)
Das Auffinden signifikanter Einflussgrößen ist oft von wissenschaftlichem oder praktischem Wert. Das Ergebnis kann kausale Zusammenhänge erkennbar machen, oder aber den
Erhebungsaufwand für Prognosedaten erheblich reduzieren helfen. Probleme beim Auffinden
der signifikanten Einflussgrößen sind:
1. Aus einer Gruppe untereinander hoch korrelierter Einflussgrößen wird zumeist nur ein
Merkmal mehr oder weniger zufällig ausgewählt. Es ist durchaus möglich, dass viele
Merkmalen denselben signifikanten Einfluss haben, wie das zufällig gewählte Merkmal.
Das kann dann ein Hinweis darauf sein, dass ein versteckter Faktor alle diese Merkmale
steuert. Seltener tritt der Faktor selbst als Merkmal auf.
2. Liegen sehr viele Einflussgrößen vor, dann kann eine Alpha-Adjustierung, z.B. nach Bonferroni vorgenommen werden, da sonst Zufallsmerkmale eine Chance bekommen, als signifikant gemeldet zu werden (bei Irrtumswahrscheinlichkeit α=5% würden von 100 Zufallsmerkmalen immerhin 5 akzeptiert werden, wenn keine Alpha-Adjustierung vorgenommen wird.)
"Schrittweises Abbauverfahren" bzw. "Aufbauverfahren": Ein Signifikanztest (t-Test, FTest) entscheidet über Aufnahme oder Verbleib einer Einflussgröße im Modell. Vorteile sind:
• Nur Einflussgrößen mit einem statistisch gesicherten Einfluss auf die Reduktion der Reststreuung werden in das Modell aufgenommen ( Ausnahme: Ist kein Merkmal signifikant,
wird das mit dem höchsten t-Wert genommen )
• Eine Gruppe hoch korrelierter Merkmale wird durch ein Merkmal vertreten
39
•
Es entsteht eine robuste Lösung, die auch bei moderaten Veränderungen in der Datenbasis
noch Bestand hat
"Regression mit allen Einflussgrößen" ist ein Verfahren, bei dem nur Merkmale aus dem
Modell entfernt werden, wenn eine so starke lineare Abhängigkeit der Merkmale diagnostiziert wird, dass numerische Instabilitäten auftreten. Der Vorteil ist: Für die Stützstellen (und
nur für diese) lässt sich die Reststreuung maximal minimieren. Es hängt sehr vom Modell ab,
ob die Zielgrößenschätzung auch für Werte außerhalb der Stützstellen noch vernünftige Zahlen liefert. Am besten testet man dieses aus, indem man selbst einmal die X-Werte leicht variiert und in das berechnete Modell einsetzt.
Polynomiale Standardmodelle
Liegen die Datenpunkte auf einer gekrümmten Fläche, dann ist nichtlineare multiple Regression gefragt. Die einfachsten Modelle dieser Art sind die polynomialen Standardmodelle.
Ein Polynom ist eine einfache Funktionen der Form Y = a X2 + b X +c, wobei der Grad n
des Polynoms (im Beispiel ist n=2) frei gewählt werden kann. Bei zwei Einflussgrößen X1, X2
entstehen gebogene Flächen über der (X1- X2)-Ebene angeordnet. Bei mehr als zwei Einflussgrößen entstehen Hyperflächen über einem Hyperraum (X1, X2, …, Xp) angeordnet. In der
Praxis der Regressionsanalyse werden solche Modelle fast immer als quasilineare Modelle
behandelt.
Einfach Polynomial: Zu jedem im Modell vorhandenen Xi-Merkmal wird bei Polynomgrad
PG=2 ein Xi2-Merkmal zusätzlich erzeugt, bei Polynomgrad PG=3 ein Merkmalspaar Xi2und
Xi3 zusätzlich erzeugt usw.
Vollständig Polynomial: Wie einfach Polynomial, aber zusätzlich noch alle Produkte der vorhanden X-Merkmale, z.B. bei PG=2 und X1, X2 entstehen zusätzlich X12, X22, X1*X2, bei
PG=3 und X1, X2 entstehen zusätzlich X12, X13, X22, X23, X1*X2, X12*X2, X1* X22
Erklärung der von der multiplen Regression benutzten und berechneten Größen:
Y
Das Zielgrößenmerkmal
Xj
Einflussgrößenmerkmale ( j = 1, 2, 3,..., p) mit p= Einflussgrößenzahl
n
Auswertbare Punktzahl (Datensätze ohne Ausfall)
B = R2
Multiples Bestimmtheitsmaß (multiples R2), ein Maß für die Verbesserung der
Vorhersage durch Kenntnis von X1, X2, ..., Xp. Es ist 0 ≤ B ≤ 1.
B= SAQReg / SAQRest. Dabei ist SAQReg die Summe der Abweichungsquadrate aus
2
Erwartungswerten und Mittelwert ( ∑ ( yˆ i − y ) ) und SAQRest ist die Σe2.
F
FG
bj
s bj
tj
p-Wert
F-Testwert für R2 bzw. B. Die Nullhypothese ist Ho: B=0 (Kein modellmäßiger
Zusammenhang zwischen Y und den Xj nachweisbar) mit F=B(n−k)/(1-B) und mit
FG1=p und FG2=n−k, k= Koeffizientenzahl einschließlich des bo.
FG=N-k, Freiheitsgrad der Reststreuung, k= Koeffizientenzahl einschließlich des
bo.
Koeffizient Der Zahlenwert des Regressions-Koeffizienten
Stdabw.
Die geschätzte Standardabweichung des Koeffizienten b j
t-Werte
t-verteilte Prüfgrößen zum Test der Nullhypothese
Ho: bj =0 (Koeffizient bj in der Grundgesamtheit Null?)
p-value
Kritische Irrtumswahrscheinlichkeit bei zweiseitigem Test für
die Ablehnung der Nullhypothese Ho: bj=0 (HA: bj≠0)
40
sR
Reststreuung oder mittleres Residuum (mittlerer Fehler e)
10.3 Beispiel Parameterpreisbildung
Der durchsetzbare Marktpreis eines neu zu entwickelnden Elektromotors soll geschätzt werden. Man benötigt dazu die technischen Kennzahlen des Motors (Gewicht, Leistung, Drehzahl, Spannung) sowie die verfügbaren Marktpreise und Kenndaten schon verfügbarer ähnlicher Motore. Zielgröße ist der Marktpreis, Einflussgrößen sind die Kenndaten. Das lineare
Modell (mit Fehler e) lautet:
Marktpreis = bo + b1*Gewicht + b2*Leistung + b3* Drehzahl + b4*Leistung + e
Die multiple Regression schätzt aus den vorhandenen Preisen und Kennzahlen die Regressionskoeffizienten. Setzt man die "extra Daten" des eigenen geplanten Motors ein, dann erhält
man eine Schätzung für dessen Preis.
EXCEL nennt übrigens die Regressionskonstante nicht bo, sondern b, und die Koeffizienten
nicht b1, b2, …, sondern m1, m2, … An solche unterschiedlichen Bezeichnungen zwischen
Literatur und EXCEL muss sich der Nutzer gewöhnen.
Multiple lineare Regression mit EXCEL: Modell Y = b + m1X1 + m2X2 +...+ mpXp + e
Dabei ist Y die Zielgröße, X1 bis Xp die p Einflussgrößen, e das Residuum (Abweichung),
b ist die Regressionskonstante, m1 bis mp die Regressionskoeffizienten.
Die rechte Tabelle zeigt einen Ausschnitt aus
einer EXCEL-Tabelle mit den Spalten
A,B,C,... und den Zeilen 1,2,...
Wir wollen z.B. die multiple Regression ohne
Konstante b berechnen:
P = m1D+m2S+m3G
Wir markieren eine Matrix mit immer 5 Zeilen (hier ab Zeile 9) und soviel Spalten, wie
Koeffizienten zu berechnen sind (hier 3 Spalten). Konstante b würde bei den Spalten mitzählen, hätten wir sie gewünscht. Wir geben
über die Tastatur die Anweisung
=rgp(a2:a7;b2:d7;falsch;wahr)
und die Tasten-Kombination Strg-Shift-Enter.
a2:a7 bezeichnet hier die Zielgröße Preis,
b2:d7 bezeichnet hier die drei Einflussgrößen,
falsch legt fest, dass die Konstante b entfällt,
wahr legt fest, dass zusätzliche Statistiken
(Fehler der Koeffizienten usw. erscheinen.)
Siehe auch HELP-Möglichkeit von EXCEL.
EXCEL berechnet in Zeile 9 die Koeffizienten
in der Reihenfolge m3, m2, m1. In Zeile 10
A
B
C
D
Zeile1 Preis Drehz. Spann. Gewicht
Zeile2 1400
1400
380
240
Zeile3 3800
2000
600
900
Zeile4 1850
2800
380
180
Zeile5 4450 12000
380
95
Zeile6 5900
1200
600
1800
Zeile7 22500
600 15000
3250
Zeile8
Zeile9 2,796
0,881
0,323
Zeile10 0,0549 0,0139 0,008
Zeile11 0,999
112,6
Zeile12 .......
3
Zeile13 .......
.......
stehen die Fehler der Koeffizienten sm3,
sm2, sm1. Zeile 11 liefert das Bestimmtheitsmaß B=r² und die Reststreuung (mittlere Abweichung). Zeile 12 enthält den
Freiheitsgrad zur Reststreuung und wird
für eventuelle t-Tests benötigt, die Sie zu
den Koeffizienten durchführen wollen. Der
Rest (…) ist hier unwichtig.
Unser Modell lautet jetzt mit den berechneten Koeffizienten (beachte reverse Reihenfolge):
41
P = m1D+m2S+m3G
= 0,323 D + 0,881 S + 2,796 G
Wir stzen die Werte D = 6000 U/min, S = 800 Volt, G = 400 Kg unseres geplanten Motors in
die Regressionsgleichung ein und erhalten den Preisvorschlag P = 3761,20 € für unseren geplanten Motor.
10.4 Logistische Regression
Da EXCEL die logistische Regression bisher nicht unterstützt, ist dieser Abschnitt nur informativ.
Bei der logistischen Regression ist die Zielgröße Y eine 0-1-Variable (z.B. eine Ja/NeinEntscheidung). Die Einflussgrößen X1, X2, … sind beliebig metrisch, kategorial ranggeordnet
oder binär.
Die logistische Regression teilt die Objekte in genau 2 Klassen (y=0 und y=1). Der Wert 0
oder 1 für y wird ähnlich wie bei der Regression aus p Einflussgrößen x1, x2, ..., xp geschätzt.
Beispiel:
y= Auftreten von Karies bei Schülern (Ja/Nein als 0 oder 1 codiert),
x1=Wasserfluoridierung (Ja/Nein als 0 oder 1 codiert),
x2=Anteil % Zucker in der Ernährung.
Variable y folgt einer Bernoulli-Verteilung mit
P(y=r) = p r (1−p) 1− r und r = 0 / 1. Erwartungswert ist E(y)=p, Varianz Var(y)= σ2y = p(1−p). Für
die Modellierung der Wahrscheinlichkeit p in Abhängigkeit von x-Variablen benutzt man die logistische Verteilungsfunktion p(x). Wegen
p(1−p) = exp( b0+b1x1+...+bpxp ) ist
g(x) = log(p/1−p)) = b0+b1x1+...+bpxp.
p( x) =
exp(b0 + b1 x1 + ... + b p x p )
1 + exp(b0 + b1 x1 + ... + b p x p )
 p( x) 
 = b0 + b1 x1 + ...
g ( x) = log
 1 − p ( x) 
Man berechnet die Wahrscheinlichkeit p(x), dass y den Wert 1 annimmt. Wird von einem
noch nicht klassifiziertem Objekt die Wahrscheinlichkeit p(x) auf Grund der geschätzten Parameter b0, b1, ... der Lernstichprobe und seiner eigenen x-Werte geschätzt, dann muss man
irgendwo (meist bei p=0.5) die Klassengrenze ziehen. Diese sollte so gesetzt werden, dass
der Klassifikationsfehler ein Minimum wird. Die Schätzung der b0, b1, ... erfolgt iterativ durch
rechentechnisch aufwendige Maximierung der Maximum-Likelihood-Funktion. Das Verfahren liefert auch die Fehler sbj der Koeffizienten. Mit dem Wald-Test (nach Abraham
Wald) W=bj / sbj, wobei W approximativ als normal verteilt angenommen wird, prüft man die
Signifikanz der Koeffizienten, und damit den Einfluss der x-Merkmale. Der Likelihoodratio-Test ist ein globaler Test, mit dem man unterschiedliche Modellansätze vergleichen
kann.
Binäre Einflussgrößen (xj=0 bzw. xj=1) führen auf das OddsRatio OR mit log(OR)=g(1)−g(0)=bj. OR=ebj ist die Wahrscheinlichkeit, die z.B. xj =1 zum Krankheitsrisiko beiträgt.
Bei kontinuierlichen Einflussgrößen xj gibt man die Erhöhung
der Risikowahrscheinlichkeit an, falls sich xj um 1 erhöht. Alle
anderen Patientenwerte x1,..., xj−1 , xj+1,..., xp bleiben unverändert.
42
OR =
p (1)
p ( 0)
1 − p (1) 1 − p (0)
p ( x1 ,..., x j + 1,..., x p )
p ( x1 ,..., x j ,..., x p )
Thema 11
EXCEL-Vorführung mit Beamer:
Multiple Regressionsanalyse am Beispiel einer Pflanzenproduktion
Lineares Modell mit und ohne Regressionskonstante
Suche signifikanter Einflussgrößen (Abbauverfahren)
Die multiple Regression verknüpft p Einflussgrößen X1, X2,..., Xp mit einer Zielgröße
Y. Das Modell kann mit oder ohne Regressionskonstante bo sein:
Y
X2
Y = bo + b1* X1 + b2* X2 + ... + bp* Xp + e
X1
Die geometrische Interpretation ist eine Ebene
über dem von X1, X2, ... aufgespannten Raum. Die Regressionskoeffizienten b1, b2,..., bp (und
b0) werden nach der Methode der kleinsten Quadrate (Σe2= Minimum) geschätzt. e ist der
zufällige Fehler oder Residuum (Abweichung). Die multiple lineare Regression setzt man z.B.
für folgende Aufgaben ein:
• Man möchte eine Ausgleichsebene durch Datenpunkte legen, d.h. den Einfluss mehrerer Einflussgrößen X1, X2, … auf eine Zielgröße Y durch eine lineare Formel darstellen. Mit dieser Formel kann man Werte vorhersagen (Prognose) oder zwischen Datenpunkten interpolieren.
• Man möchte wissen, ob die lineare Formel die Zielgröße genau genug wiedergibt. Man
kann den Gesamteinfluss aller Einflussgrößen auf die Zielgröße global bewerten.
• Man möchte aus sehr vielen Einflussgrößen diejenigen heraussuchen, die einen signifikanten Einfluss auf die Zielgröße haben, d.h. man bewertet jede Einflussgröße einzeln.
Die multiple Regression schätzt aus p Einflussgrößen X1, X2, …, Xp die Werte einer Zielgröße
Y. Das am meisten benutzte Regressionsmodell ist die Ebenengleichung
Yi = b0 + b1 Xi1 + b2 Xi2 + ... + bp Xip + ei
Dabei ist Yi ein beobachteter Wert der Zielgröße, Xij ist der i-te Wert der j-ten Einflussgröße,
b0 ist die Regressionskonstante, b1 , b2 , ... , bp sind Regressionskoeffizienten, ei ist der Fehler im Datenpunkt i (oder Abweichung bzw. Residuum im Datenpunkt i).
Beispiel Pflanzenproduktion: Der Ertrag in Abhängigkeit unterschiedlicher Parameter wird
bestimmt. Die verfügbaren Daten sind in der folgenden EXCEL-Tabelle zu sehen. (Die Zeilennummern 1, 2, 3, … und die Spaltenbezeichnungen A, B, C, … gehören zum EXCELBlatt.)
Zeile
1
2
3
4
5
A
Bodenwert
2
2
4
3
B
Beregnung
2
3
2
4
C
Düngung
0,10
0,15
0,10
0,20
43
D
E
F
Temperatur Bodendichte Y = Ertrag
17
1320
1,1
19
1410
1,5
22
1190
1,8
20
1240
2,0
6
7
8
9
2
1
4
2
1
3
4
3
0
0,10
0
0,20
18
18
21
15
1240
1350
1270
1300
0,80
1,20
1,95
1,15
Wir markieren das Feld von A11:F15 und tippen eine Regressionsanweisung ein, die zuerst
die Zielgrößenwerte Y nennt, dann die Einflussgrößenwerte X. Das erste „wahr“ legt ein Modell „mit Konstante“ fest, das zweite „wahr“ legt fest, dass wir außer den Koeffizienten weitere Werte berechnet haben möchten, z.B. die sbi, R2, sR, usw. Es sind immer 5 Zeilen, die Sie
markieren. Die Spaltenzahl richtet sich jedoch nach der Anzahl der Koeffizienten im Regressionsmodell (bo zählt mit, falls die Konstante berechnet werden soll).
Zeile 11
12
13
14
15
16
=rgp( F2:F9; A2:E9; wahr; wahr) Strg-Shift-Enter
b5=0,000129
b4=0,0995
b3=1,379
b2=0,185
b1=0,137 b0= -1,597
sb5=0,00036
sb4=0,0119
sb3=0,253 sb2=0,0214 sb1=0,0322 sb0=0,514
9
R2=0,997
sR =0,0431
F= 147,44
FG= 2
ssreg=1,37 ssresid=0,0037
ssreg
ssresid
Dichte
Temperatur Düngung Beregnung Bodenwert
b0
Wie man sieht, kehrt EXCEL die Reihenfolge der Regressionskoeffizienten um (b5, b4, ..., b0).
In den berechneten Statistiken in den Zeilen 12 bis 15 bedeuten im Falle der multiplen Regression:
die geschätzten Standardfehler der Koeffizienten b5 ,..., bo
sb5,..., sb0
2
R
die multiple Bestimmtheit (bei einer einfach linearen Regression ist es das
Quadrat des Korrelationskoeffizienten r. R2 =0 heißt, dass keinerlei linearer
Zusammenhang zwischen der Gesamtheit aller Einflussgrößen mit der
Zielgröße besteht. R2 =1 heißt, dass die Einflussgrößen die gegebenen y-Werte
absolut exakt reproduzieren ohne jede Abweichung.)
sR
Reststreuung der Messpunkte um die berechnete Ebene (mittlere Abweichung)
F
Testgröße (F-Statistik nach Fisher) zur Bewertung der multiplen Bestimmtheit.
Hypothese Ho: „keine Bestimmtheit, ein Wert von R2>0 ist rein zufällig“.
Hypothese HA: „Es besteht ein signifikanter Einfluss der Einflussgrößen auf die
Zielvariable, ein Wert von R2>0 ist nicht zufällig“. Die Irrtumswahrscheinlichkeit p bei Ablehnung von Ho (bzw. Annahme von HA) berechnet man mit der
Funktion FVERT( F ; n – FG – 1 ; FG ) wenn bo mitberechnet wird (mit TRUE
ausgewählt), und wird auch als p-Value zum F-Test bezeichnet. Falls bo nicht
berechnet wird (mit FALSE abgewählt), schreiben Sie FVERT( F ; n – FG ;
FG ).
Die Summen ssreg und ssresid wurden schon bei der einfachen Regression kurz beschrieben.
Für die Bewertung der Wichtigkeit der einzelnen Einflussgrößen bzw. der Konstanten für das
Regressionsmodell hat man zu jedem Koeffizienten das Hypothesenpaar Ho und HA.
Ho sagt: „Diese Einflussgröße hat keinen linearen Einfluss auf die Zielgröße. Ein Wert bj ≠ 0
eines Koeffizienten ist rein zufällig“.
Hypothese HA sagt: „Diese Einflussgroße trägt signifikant zur Erklärung der Zielgröße bei.“
44
Praktisch berechnet man zu jedem Koeffizienten eine Teststatistik. Meistens wird die tStatistik verwendet. Es gilt t i = b i / s bi . Wir dividieren mit einer EXCEL-Anweisung
gleich alle Koeffizienten und die Konstante durch ihren geschätzten Standardfehler und bilden
den Absolutbetrag. Dazu markieren wir die Felder A18:F18 und tippen die nachfolgende Befehlszeile ein:
Zeile 18
=ABS(A11:F11/A12:F12) Strg-Shift-Enter (SSE)
t5=0,351
t4=8,33
t3=5,43
t2=8,65
t1=4,27
t0=3,10
Die t-Verteilung hat eine ähnliche Gestalt wie die Normalverteilung (Glockenkurve). Die
Funktion TVERT berechnet aus einem t-Wert, dem Freiheitsgrad FG von oben und der Zahl 2
die zweiseitige Irrtumswahrscheinlichkeit (p-Value) bei Ablehnung der Hypothese H0 zum
betreffenden Koeffizienten. Dieser p-Value (die Irrtumswahrscheinlichkeit) sollte möglichst
klein sein, z.B. <0,05, denn dann bewerten wir die Einflussgröße als wesentlich (als signifikant). Zur Berechnung der p-Values markieren wir die Zellen A20:F20 und tippen folgende
Anweisung ein:
=TVERT( A18:F18; B14; 2 ) Strg-Shift-Enter (SSE)
p5 = 0,75
p4 = 0,014 p3 = 0,032 p2 = 0,013 p1 = 0,0506 p0 = 0,09
Zeile 20
In der Betriebswirtschaft gibt man meist eine zulässige Irrtumswahrscheinlichkeit α = 5%
( 0,05) vor, d.h. mit 5% Wahrscheinlichkeit wollen wir uns bei der Bewertung einer Einflussgröße irren dürfen. Ist der berechnete p-Value größer α, dann entscheiden wir uns für Hypothese Ho (unwesentliche Einflussgröße). Ist p ≤ α , dann entscheiden wir uns für Hypothese
HA (wesentliche Einflussgröße). Zur Darstellung der Hypothesenwahl markieren wir die Felder A22:F22 und tippen folgende Anweisung ein:
Zelle 22
23
=wenn( A20:F20 > 0,05 ; „Ho“ ; „ Ha“ ) Strg-Shift-Enter (SSE)
Ho
Ha
Ha
Ha
Ho
Dichte
Temperatur Düngung Beregnung Bodenwert
Ho
b0
Den schlechtesten p-Value (höchste Irrtumswahrscheinlichkeit) hat Einflussgröße X5=Dichte.
Wenn wir unser Regressionsmodell von unwesentlichen Bestandteilen befreien wollen, sollten
wir zuerst diese Einflussgröße entfernen (Schrittweiser Abbau). Entfernen Sie jedoch in jedem Schritt immer nur einen Term, d.h. eine Einflussgröße oder die Konstante bo. Durch Korrelationen zwischen den Einflussgrößen ändern sich die p-Values oft dramatisch bei Wegnahme oder Hinzunahme einer einzelnen Einflussgröße. Die Regressionskonstante bo kann
man entfernen, indem man statt des ersten „wahr“ in der rgp-Anweisung ein „falsch“ schreibt.
Den globalen Test auf einen signifikanten linearen Zusammenhang der Gesamtheit der Einflussgrößen auf die Zielgröße macht man mit dem F-Test (siehe oben bei der Erklärung des
F). Das folgende Rechenschema liefert den p-Value und die Hypothese Ho bzw. HA. Jede eingetippte Anweisung schließen Sie mit ENTER ab.
Zeile 24
Zeile 25
A
B
=ANZAHL(A2:A9)
8
Anzahl
Die Wenn-Anweisung lautet vollständig:
C
D
E
=FVERT(A14; A24-B14-1; B14)
0,0067
F
=wenn(….
Ha
p-Value
Hypothese
=wenn( C24 > 0,05 ; „Ho“ ; „Ha“ )
45
Thema 12
Mittelwertvergleiche
Mittelwertvergleiche treten in der betrieblichen Praxis ständig auf. Man vergleicht die Umsätze von Quartale oder die Renditen von Filialen. Zum statistischen Problem werden Mittelwertvergleiche erst, wenn man von einer Stichprobe auf die zugehörige Population schließen
will.
Beispiel 1: Ihr Betrieb stößt schadstoffhaltige Luft aus, deren Gehalt an Schadstoff unter einem gesetzlichen Grenzwert liegen muss. Da die Messung selbst ungenau ist und der Schadstoffgehalt produktionsbedingt ständig schwankt, kann man mit einem statistischen Test z.B.
dem Umweltamt beweisen, dass trotz einzelner kleiner Überschreitungen des Grenzwerts der
Mittelwert des Schadstoffgehalts unter der gesetzlichen Schranke bleibt.
Beispiel 2: Ihre Handelskette hat Filialen in Großstädten und in kleineren Gemeinden. Für
eine Auswahl (Stichprobe) ausgewählter Filialen liegen Renditeberechnungen vor. Frage: Besteht ein signifikanter Unterschied bei der durchschnittlichen Rendite von Filialen in Großstädten und Filialen in kleinen Gemeinden? Die Aussage könnte wichtig für strategische Entscheidungen der Geschäftsführung sein.
EXCEL verfügt mit der Arbeitsblattfunktion TTEST über ein Hilfsmittel, dass für viele Anwendungsfälle in der betrieblichen Praxis ausreichend ist. Der Aufruf hat die Form:
=TTEST(Matrix1; Matrix2; Seiten; Typ)
und liefert als Ergebnis den p-Value, d.h. die Irrtumswahrscheinlichkeit bei Ablehnung der
Nullhypothese Ho: µ=µ0. Wenn TTEST einen Wert kleiner 0,05 liefert, dann liegt ein signifikanter Mittelwertunterschied vor.
Matrix1 ist die Ho: µ=µ0 erste Datengruppe. Matrix2 ist die zweite Datengruppe.
Seiten bestimmt, ob einseitig oder zweiseitig getestet wird. Wir testen immer zweiseitig, d.h,
wir tippen an dieser Stelle eine 2 ein.
Typ bestimmt den Typ des durchzuführenden t-Tests.
Bei Typ=1 wird der gepaarte t-Test genommen (Thema 12.4)
Bei Typ=2 wird der t-Test für normalverteilte Grundgesamtheiten bei gleicher Varianz
Genommen (Thema 12.2)
Bei Typ=3 wird der Welch-Test genommen (Thema 12.3)
12.1 Einstichproben-t-Test (Test Messreihenmittel gegen Konstante)
Der Einstichproben-t-Test ist in EXCEL nicht implementiert, d.h. man muss ihn selbst durchführen. Ein Beispiel ist unten zu sehen. Gegeben ist eine Messreihe x1, x2, ..., xn. Der Mittelwert µ der Grundgesamtheit, aus der die Messreihe stammt, soll gegen einen Konstanten Wert
µ0 getestet werden. µ0 kann eine vom Gesetzgeber festgelegte Norm sein, ein Literaturwert
ohne Fehlerangabe oder eine sonstwie theoretisch begründete Zahl.
Schritt 0: Hypothese
Ho: µ=µ0
HA: µ ≠ µ0 (zweiseitiger Test)
46
α=0.05 (5%)
Schritt1 : Methode t-Test
x − µ0
Schritt 2:
t=
n,
σ n −1
FG=n−1
Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG, zweis.) aus der Tafel S. 3
Wenn t < −t(α, FG, zweis.), dann ist signifikant µ < µ0
Wenn t > t(α, FG, zweis.), dann ist signifikant µ > µ0
in allen anderen Fällen Ho: µ = µ0 annehmen (kein signifikanter Unterschied)
Beispiel CO-Gehalt: Grenzwert 0,03 darf nicht überschritten werden. Wir testen den Mittelwert der Datenreihe auf eine signifikante Abweichung von µ0=0,03.
A
CO-Gehalt
0,027
0,031
0,028
0,029
0,018
0,029
0,032
0,022
B
C
Grenzwert=
Mittelwert=
Sigma=
Anzahl=
Freiheitsgrad FG=
Testgröße t=
p-Value=
D
0,030
0,027
0,005
7,000
6,000
-1,557
0,171
eingetippt
=Mittelwert(CO-Daten)
=Stabw(CO-Daten)
=Anzahl(CO-Daten)
=Anzahl - 1
=((Mittelwert-Grenzwert)/Sigma)*Wurzel(Anzahl)
=TVERT(abs(t); FG; 2)
In Spalte D sind noch einmal die Formeln angedeutet, die hinter den Zahlen in Spalte C stecken. Die fett kursiv geschriebenen Größen müssen mit der Maus in Spalte A selektiert bzw.
in Spalte C angeklickt werden.
Wie man sieht, gibt es eine nicht signifikante Abweichung des CO-Mittels von 0,027 nach
unten, d.h., der CO-Grenzwert wird keinesfalls signifikant überschritten.
12.2 Mittelwertvergleich zweier normalverteilter Grundgesamtheiten
Gegeben sind zwei unabhängige Stichproben (Messungen, Beobachtungen) x11, x12, ..., x1n1
und x21, x22, ..., x2n2 mit Umfang n1 und n2. Der erste Index bezeichnet die Stichprobe 1 oder
2, der zweite Index nummeriert die Beobachtungen innerhalb der Messreihe mit 1,2,3,... Sie
wollen prüfen, ob die Mittelwertunterschiede signifikant sind. Dieser Test wird im EXCELTTEST als Typ 2 bezeichnet.
Schritt 0: Hypothese Ho: µ1=µ2
HA: µ1 ≠ µ2 (zweiseitiger Test)
α=0.05 (5%)
Schritt1 : Methode t-Test mit gemittelter Standardabweichung
Schritt2 : Berechne für jede Stichprobe i: x i , SAQi = ni σ2in = (Σ xij2) - ni ( x i)2 , i=1,2
Wie man sieht, lassen sich die SAQ auf zwei verschiedene Arten berechnen.
Berechne
FG = n1 + n2 -2
σ =
SAQ1 + SAQ2
n1 + n 2 − 2
t=
x1 − x 2
σ
Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG, zws.) aus der Tafel S. 3
Wenn t < −t(α, FG, zweis.), dann ist signifikant µ1 < µ2
47
n1 ⋅ n 2
n1 + n 2
Wenn t > t(α, FG, zweis.), dann ist signifikant µ1 > µ2
in allen anderen Fällen Ho: µ1 = µ2 annehmen (kein signifikanter Unterschied)
Zahlenbeispiel Mittelwertvergleich unabhängiger Stichproben: Ihre Handelskette hat Filialen in Großstädten und in kleineren Gemeinden. Für eine Auswahl (Stichprobe) ausgewählter
Filialen liegen Renditeberechnungen vor.
Rendite von Filialen in Großstädten
Rendite von Filialen in Gemeinden
3.6
3.9
2.9
4.4
3.0
3.2
4.1
3.8
--4.3
Frage: Besteht ein signifikanter Unterschied bei der durchschnittlichen Rendite von Filialen
in Großstädten und Filialen in kleinen Gemeinden?
Zuerst das Rechenschema für die Summen. Zahlen x1 und x2 sind gegeben:
1
2
3
4
5
Σ
n1=4,
n2=5,
Großstädte
A=x1
3.6
2.9
3.0
4.1
--13.6
Gemeinden
B=x2
3.9
4.4
3.2
3.8
4.3
19.6
x 12
12.96
8.41
9.00
16.81
--47.18
x 1=3.40 , SAQ1 = n1σ1,n2= (47.18−4*3.402) = 0.940
x 1=3.92 , SAQ2 = n1σ1,n2= (77.74−5*3.922) = 0.908
x 22
15.21
19.36
10.24
14.44
18.49
77.74
Anzahl, Mittel, SAQ
Anzahl, Mittel, SAQ
Hypothese Ho: µ1=µ2, HA: µ1 ≠ µ2 (zweiseitiger Test), α=0.05 (5%)
σ=
0,940 + 0,908
= 0.5138
4+5−2
Gemitteltes σ
FG=4+5-2=7, tα = t(α=0.05, FG=7, zweis.) = 2.36
t=
(3,40 − 3,92)
0,5138
Hypothesenpaar
4⋅5
= − 1.509
4+5
Freiheitsgrad, Sicherheitsp.
t-Statistik
Da t< tα akzeptieren wir H0
Hypothesenauswahl
Es besteht kein signifikanter Unterschied in den durchschnittlichen Renditen von Filialen in
Großstädten und Filialen in kleinen Gemeinden.
Man nimmt im 2-Stichproben-t-Test für unabhängige Stichproben die gemittelte Standardabweichung bei angenommener Gleichheit der Varianzen (homoscedasticity). Bei unterschiedlichen Varianzen (heteroscedasticity) ist der Fakt der Ungleichheit unerheblich, wenn die Stichprobenumfänge n1>30 und n2>30 sind. Ist das jedoch nicht der Fall, dann nimmt man den
Welch-Test bzw. einen ähnlich aufgebauten Test. Der Welch-Test führt auf nichtganzzahlige
Freiheitsgrade, die dann zu runden sind.
48
12.3 Mittelwertvergleich zweier normalverteilter Grundgesamtheiten bei
ungleichen Varianzen und entweder n1 ≤ 30 oder n2 ≤ 30 oder beide n ≤ 30
(Welch-Test und F-Test auf Varianzhomogenität).
Hypothese Ho: µ1=µ2
HA: µ1 ≠ µ2 (zweiseitiger Test)
α=0.05 (5%)
Methode: Welch-Test mit gemittelter Standardabweichung und adjustierten Freiheitsgraden.
Dieser Test wird im EXCEL-TTEST als Typ 3 bezeichnet.
Berechne für jede Stichprobe Mittelwert x i , Standardabweichung σ i , n-1 für i=1,2
σ =
t=
σ 12, n−1
n1
+
σ 22, n−1
n2
x1 − x2
σ
( g1 + g 2 ) 2
σ 12, n−1
σ 22, n−1
mit g1 =
und g 2 =
.
g12
g 22
n1
n2
+
n1 − 1 n2 − 1
Berechne mit TINV(…) Sicherheitspunkt t(α, FG, zweis)
2-seitiger Test:
Wenn t ≤ −t(α, FG, zweis.), dann ist signifikant µ1 < µ2
Wenn t ≥ t(α, FG, zweis.), dann ist signifikant µ1 > µ2
in allen anderen Fällen Ho: µ1 = µ2 annehmen (kein signifikanter Unterschied).
mit Freiheitsgraden FG =
F-Test zur Entscheidung, ob gleiche oder signifikant ungleiche Varianzen in den Grundgesamtheiten vorliegen.
Sind σ 12, n −1 und σ 22, n −1 die Varianzschätzungen aus den beiden Stichproben x11, x12, ..., x1n1
und x21, x22, ..., x2n2 mit Umfang n1 und n2, dann ist die Testgröße
σ 12, n −1
F= 2
σ 2, n −1
unter Ho F-verteilt mit FG1=n1-1 und FG2=n2-1 Freiheitsgraden.
Ho: σ 12 = σ 22 Gleichheit der Varianzen (homoscedasticity) in den Grundgesamtheiten.
HA: σ 12 ≠ σ 22 Ungleichheit der Varianzen (heteroscedasticity).
Wir akzeptieren HA, wenn F ≥F(α, FG1, FG2) ist (Sicherheitspunkt der F-Verteilung).
Wir akzeptieren Ho, wenn F <F(α, FG1, FG2) ist.
Ist F<1, dann bildet man den Kehrwert 1/F und testet mit diesem, satt mit F. Dabei vertauschen sich die Freiheitsgrade. Es wird FG1=n2-1 und FG2=n1-1.
Die Tafel der Sicherheitspunkte der F-Verteilung auf Seite 3 gibt die einseitigen oberen Sicherhheitspunkte für eine Irrtumswahrscheinlichkeit α=5%. (EXCEL liefert den p-Value.)
Wir nehmen den einfachen t-Test (Typ 2) im Falle gleicher Varianzen (Hypothese Ho).
Wir nehmen den Welch-Test (Typ 3) im Falle ungleicher Varianzen (Hypothese HA).
Zahlenbeispiel F-Test und anschließender Welch-Test im Falle ungleicher Varianzen
49
Gegeben sind zwei unabhängige Stichproben. Zwei Gruppen von Bewerbern für einen Leitungsposten unterzogen sich IQ-Tests. Gruppe 1 ohne Auslandserfahrung, Gruppe 2 mit Auslandserfahrung. Frage: Beeinflusst die Auslandserfahrung signifikant den IQ-Test der Bewerber?
Gruppe 1
Gruppe 2
102 89 97 88 94 100 91 97 105 102 95 93 99 90 95
82 116 104 87 98 74 114 79 98 84 113 117 114 123
σ 1, n −1 = 5,12974519
σ 2, n −1 = 16,4652481
n1=15 (FG=14)
n 2=14.(FG=13)
Da σ2> σ1 ist, vertauschen wir Zähler und Nenner, d.h. es ist F= σ22 / σ21.
F = (16,4652481) 2 / (5,12974519 ) ) 2 = 10,30255575 mit FG1=14 und FG2=13.
Den Sicherheitspunkt F(α=5%, FG1=14, FG2=13) =2,554 finden wir
a) Durch Interpolation in unserer F-Tafel Seite 2
b) Oder mit der EXCELfunktion =FINV( 0,05 ; 14 ; 13 )
Wir akzeptieren HA, weil F ≥F(α, FG1, FG2) ist. Es besteht ein signifikanter Unterschied in den Varianzen der beiden Grundgesamtheiten. Wir empfehlen den WelchTest, der jetzt im Anschluss durchgeführt wird:
σ =
t=
σ 12, n−1
n1
x1 − x2
g1 =
σ
σ 12, n−1
+
σ 22, n−1
n2
= 4,5955
und
= ( 95,8 - 100,214 ) / 4,5955 = -0,9606
= 1,754
,
g2 =
σ 22, n−1
= 19,365 ,
FG =
( g1 + g 2 ) 2
= 15,345.
g12
g 22
+
n1 − 1 n2 − 1
Wir runden FG=15. Sicherheitspunkt ist t(α=5%, FG=15, zweis.) = 2,13.
Da │t│< t(α=5%, FG=15, zweiseitig) = 2,13 ist, akzeptieren wir Hypothese Ho.
Der IQ-Test der Bewerber wird von einer Auslandserfahrung nicht signifikant beeinflusst.
n1
n2
12.4 Gepaarter t-Test
Gepaarte (bzw. korrelierte) Daten liegen vor, wenn am selben Objekt zweimal ein Wert erhoben wird, z.B. Mitarbeiterzahl einer Firma vor der Krise und nach der Krise, oder Börsenwert
vor der Fusion und nach der Fusion.
(Mittelwertvergleich einer normalverteilten korrelierten Stichprobe) Gegeben ist eine korrelierte Stichproben aus n Wertepaaren (y1, x1), (y2, x2), ..., (yn, xn). Korreliert heißt, die Messwertpaare (yi, xi) sind am selben Objekt gewonnen, Welche Größe mit x und welche mit y
bezeichnet wird, ist egal. Man muß nur das Vorzeichen des Effekts d=y−x beachten.
Schritt 0: Hypothese Ho: d = 0
HA: d ≠ 0 (zweiseitiger Test)
oder z.B. HA: d > 0 (einseitiger >Test)
Schritt 1 : Methode t-Test für das Differenzenmittel
50
α=0.05 (5%)
Schritt 2 : Berechne alle Differenzen d i = y i - x i , daraus Mittelwert und Standardabweichung,
wobei die linke sd-Formel genauer, die rechte einfacher zu berechnen ist:
2
∑ di
di − d
d i2 − n ⋅ d 2
∑
∑
d=
sd =
=
n
n −1
n −1
FG=n−1
t = (d / s d ) ⋅ n
(
)
(
)
Schritt3 : Aussage : Suche Sicherheitspunkt t(α, FG) aus der Tafel (beachte 1- oder 2-seitig)
2-seitiger Test:
Wenn t < −t(α, FG), dann ist signifikant µy < µx bzw. d < 0
Wenn t > t(α, FG), dann ist signifikant µy > µx bzw. d > 0
1-seitiger Test : z.B. HA: µy > µx bzw. HA: d > 0
Wenn t > t(α, FG), dann ist signifikant µy > µx bzw. d > 0
in allen anderen Fällen Ho: µy = µx annehmen (kein signifikanter Unterschied)
12.5 Nichtparametrische Tests
Dieser Abschnitt ist nur informativ, da EXCEL für die folgenden Tests wenig Unterstützung
anbietet.
Liegt keine Normalverteilung der Daten vor, dann dürfen wir die so genannten parametrischen
Tests (t-Test, F-Test, χ2-Test, u-Test) nicht anwenden. Man weicht auf nichtparametrische
Test aus, z.B. auf Rangsummentests.
Wendet man nichtparametrische Tests auf normalverteilte Daten an, dann ist die Testpower
geringfügig kleiner, als die des parametrischen Tests.
Mann-Whitney-Test (Vergleich zweier Mittelwerte, Rangtest)
Der Mann-Whitney-Test ist das nichtparametrische Pendant zum t-Test für zwei normalverteilte Grundgesamtheiten bei ungepaarten Daten und des Welch-Tests (Thema 12.2 und 12.3).
Gegeben sind zwei unabhängige Stichproben (Messungen, Beobachtungen) x1, x2, ..., xn und
y1, y2, ..., ym mit Umfang n und m. Sie wollen prüfen, ob die Mittelwertunterschiede signifikant sind. Es lässt sich definitiv keine Normalverteilung der zwei Messreihen herstellen,
oder aber man will dieser Diskussion aus dem Wege gehen. Der Mann-Whitney-Test ist ein
Rangtest:
Schritt 0: Hypothese Ho: µ1=µ2
HA: µ1 ≠ µ2 (zweiseitiger Test)
α=0.05 (5%)
oder z.B. HA: µ1 > µ2 (einseitiger >Test)
Schritt 1: Rangtest von Mann-Whitney für beliebig verteilte Daten
Schritt 2: Man sortiert die vermischten Daten in eine Rangfolge, wobei eine ungerade
Zahl gleicher Messwerte denselben Rang, z.B., .25, 27, 27, 27, 29 ... erhalten,
eine gerade Zahl gleicher Messwerte das Rangmittel, z.B. ...,25, 26.5, 26.5, 28, .,
und bildet die Rangsummen Rx der x-Messwerte, und ebenso Ry, daraus UX, UY:
n(n + 1)
m(m + 1)
U X = nm +
− RX ,
U Y = nm +
− RY ,
2
2
Ist n≤10 oder m≤10, dann berechnet man U=Min(UX, UY) und ist fertig,
U − (nm / 2)
sonst berechnet man aus U das u =
nm(n + m + 1) / 12
51
Schritt 3: Sicherheitspunkte Uα=U(α, n, m) finden wir z.B. in E. Weber, Tab. 19 ff.
2-seitiger Test:
Wenn U= UX > Uα, dann ist signifikant µX > µY
Wenn U= UY > Uα, dann ist signifikant µY > µX
in allen anderen Fällen Ho: µX = µY annehmen (kein signifikanter Unterschied)
Bei n>10 und m>10 vergleichen wir u mit dem zweiseitigem Sicherheitspunkt
der Normalverteilung, uα =1.96, einseitig uα=1.65: (gültig bei α=0.05)
Gepaarter Mittelwert-Rangtest von Wilcoxon
(Matched-pairs signed-ranks test) Mittelwertvergleich einer nicht normalverteilten korrelierten Stichprobe. Gegeben ist dieselbe Datenanordnung wie beim gepaarten t-Test.
Schritt 0: Hypothese Ho: d = 0
HA: d ≠ 0 (zweiseitiger Test)
α=0.05 (5%)
oder z.B. HA: d > 0 (einseitiger >Test)
Schritt 1: Wilcoxon-Test (Rangtest)
Schritt 2: Die Differenzen di=yi−xi werden ohne Rücksicht auf das Vorzeichen mit
Rangzahlen versehen. Sind zwei oder mehr di von gleicher absoluter Größe,
so erhalten sie das Rangmittel der ihnen zustehenden Ränge. Differenzen di=0
werden entfernt und das n entsprechend erniedrigt. Jetzt werden die Rangzahlen
mit dem Vorzeichen ihres di versehen und getrennt addiert. RN ist die Summe
der negativen, RP die Summe der positiven Rangzahlen.
Bei n≤25 berechnet man U=Min(RN, RP)
U − (n(n + 1) / 4)
Bei n>25 berechnet man u =
n(n + 1)(2n + 1) / 24
Schritt 3: Sicherheitspunkte Uα=U(α, n) finden wir z.B. in E. Weber, Tab. 25.
2-seitiger Test:
Wenn U=RP < Uα, dann ist signifikant µY > µX
Wenn U= RN < Uα, dann ist signifikant µX > µY
in allen anderen Fällen Ho: µX = µY annehmen (kein signifikanter Unterschied)
Bei n>25 vergleichen wir u mit dem zweiseitigem Sicherheitspunkt der Normalverteilung, uα =1.96, einseitig uα=1.65: (gültig bei α=0.05)
Thema 13
Klassifikation
Die Diskriminanzanalyse kann Objekte klassifizieren, wenn Lernobjekte mit bekannter Klasseneinteilung zur Verfügung stehen. Die Clusteranalyse versucht bei völlig ungruppierten Daten eine Klasseneinteilung zu finden.
Lineare Diskriminanzanalyse
Die Diskriminanzanalyse hat folgende Hauptaufgaben:
1. Klassifikationsregeln für Objekte auf der Grundlage einer Lernstich probe bereits klassifizierter Lernobjekte aufstellen und den zu erwartenden Klassifikationsfehler schätzen.
2. Klassifikation neuer Objekte (Arbeitsobjekte) mit den aufgestellten Klassifikationsregeln
durchführen und graphisch oder tabellarisch darstellen
52
3. Aufsuchen von signifikanten Trennmerkmalen zur Reduktion des Erfassungsaufwandes
von Klassifikationsdaten
4. Test auf multivariate Mittelwertunterschiede zwischen Objektklassen.
5. Test auf Isoliertheit von Objektklassen, insbesondere in Verbindung mit der Clusteranalyse.
Das Bild zeigt den Diskriminanzraum, der von den Diskriminanzmerkmalen D1 und D2 aufgespannt wird. Die
Klassen 1, 2, 3 haben in dieser Projektion die Form von
Kreisen. Trennlinien teilen die Klassengebiete ab. Die
Objekte (die kleinen Ziffern) können nicht immer sauber
ihrer Klasse zugeordnet werden. Die Minimierung des
Klassifikationsfehlers ist eines der Hauptziele des Anwenders. Der Diskriminanzraum hat die Dimension
d=k−1, wenn k die Klassenzahl ist ( hier d=2)
D2
2 2
2
3
2 2 2 2 2 2 2
2 1 2 2 2 222 2 2 3 2
1 1 2 2 2 2222 2 3 2 3
1 11
1 221 32 3 3 3
1 11 1 2 1
2 33 33
1 11 1111 111 1 31 3 333333 3
1 1111111111 1
3333 3333
1111 111 1 1 1 1 33333
1 1 1
1
3 3 D1
2
2
1
3
Beispiel Klassifikation: In einer Firma, die Farbpigmente herstellt, soll ein Computerprogramm lernen, die GC-Kurven (Gas-Chromatographie) von 10 verschiedenen Farbstofflösemitteln sicher zu unterscheiden. Man gibt von jeder GC-Kurve 10 bis 30 Werte aus charakteristischen Bereichen des Chromatogramms als Datensatz ein. Um die Redundanz zu verbessern, nimmt man pro Lösemittel mindestens 10 Chromatogramme unterschiedlicher Proben
desselben Lösemittels.
Die lineare Diskriminanzanalyse berechnet aus den 10-30 originalen GC-Merkmalen ein
oder mehrere Diskriminanzmerkmale sowie die Klassengrenzen. Die Klassengrenzen trennen
im Diskriminanzraum, der von den Diskriminanzmerkmalen aufgespannt wird, die Klassen
voneinander ab. Ein neues Chromatogramm ergibt einen Punkt im Diskriminanzraum. Man
nimmt die Klasse an, in deren Gebiet der neue Punkt liegt. Auf diese Weise ist das Lösemittel
über seine GC-Werte klassifizierbar.
Beispiel Merkmalsauswahl: Für die Klassifikation von Produktionsfehlern soll die Anzahl
der Messpunkte aus Zeitgründen minimiert werden. An einer Stichprobe von Teilen mit bekannten Fehlern werden genügend viele Messungen gemacht, um jeden Fehler eindeutig klassifizieren zu können. Jetzt erfolgt eine automatische Reduktion der Merkmale auf die wesentlichen Diskriminanzmerkmale, d.h. die Merkmalsmenge, die gerade noch eine sichere Klassifikation erlaubt. Das "schrittweise Verfahren" nimmt nur signifikante Trennmerkmale auf.
Sind Merkmale hoch korreliert, wird zumeist nur ein Merkmal der unter sich hoch korrelierten
Gruppe mehr oder weniger zufällig ausgewählt.
Beispiel multivariater Mittelwertvergleich: Unterscheiden sich Kundenprofile aus Großstädten von Kundenprofilen aus ländlichen Gebieten. Zu jedem Kunden werden Daten erhoben, z.B. Vertrauen auf Marken, Preisbewusstsein, Qualitätsanspruch usw., aber auch die
Herkunft (Großstadt oder ländlicher Raum). Das Programm berechnet den Mahalanobisabstand der beiden Klassen (Stadt / Land), eine Art gewichteter Mittelwertabstand über alle
gemessenen Merkmale, und testet diesen Abstand auf Signifikanz.
Entsprechend den Hauptaufgaben sind verschiedene Diskriminanzalgorithmen zu empfehlen.
• Bei hoher Merkmalszahl und wenig Lernobjekten wird immer das schrittweise Aufbauverfahren empfohlen. Ebenso bei der Suche nach signifikanten Trennvariablen. Als Alternative gibt es das Abbauverfahren. "Schrittweises Aufbauverfahren" ist ein Verfahren,
bei dem ein Signifikanztest (F-Test) über die Aufnahme oder den Verbleib einer Trennvariablen im Modell entscheidet
53
•
Bei wenig Merkmalen und vielen Lernobjekten wird die Analyse mit allen Merkmalen
empfohlen. (Nur extrem hoch korrelierte Merkmalsgruppen werden ausgedünnt.)
Bei der Klassifikation neuer Objekte interessiert die Genauigkeit der prognostizierten Klassifikation. Nicht der kleinste Reklassifikationsfehler ist gefragt, sondern der kleinste Klassifikationsfehler bei neuen, bislang noch nicht klassifizierten Objekten. Zur Bestimmung benutzt
man Jack-knife- oder Bootstrap-Methoden bzw. eine Teilung der vorhandenen Daten in einen
Lern- und einen Arbeitsteil. Die Frage nach der Signifikanz der Trennvariablen stellt sich
nicht bzw. ist untergeordnet.
Multiple multivariate Mittelwertvergleiche: Es wird ein globaler F-Test ausgeführt. Er
zeigt an, ob es insgesamt "irgendwelche" multivariate Mittelwertunterschiede gibt. Der Simultanvergleich jeder Klasse i gegen jede andere Klasse j führt auf eine Matrix Fij von F-Werten,
die mit einem gemeinsamen Sicherheitspunkt Fsim verglichen werden. Gleichzeitig mit dem
Mittelwertvergleich wird auch ein paarweiser Test auf Isoliertheit der Klassen durchgeführt.
Nicht isolierte Klassen lassen sich schlecht trennen. Im Zusammenhang mit der Clusteranalyse sind sie ein Indiz für eine mögliche Klassenzusammenlegung.
Klassifikationsstrategien: Ohne Apriori-Wahrscheinlichkeit: Die Einordnung in eine Klasse ist im Diskriminanzraum nur vom Quadrat k des Euklidischen Abstands des Objektes zum
nächstgelegenen Klassenmittel abhängig, abgesehen von einem Faktor Nj/(Nj+1), der sich
kaum von 1 unterscheidet. Nj ist der Klassenumfang (Objektzahl) der ausgewählten Lernklasse). Mit Apriori-Wahrscheinlichkeit: Die Einordnung in eine Klasse ist im Diskriminanzraum sowohl vom Quadrat k des Euklidischen Abstands als auch von der Wahrscheinlichkeit
Pj der Klasse abhängig. Als Apriori-Wahrscheinlichkeit wird die relative Häufigkeit in den
Klassen der Lerndaten genommen. Eine große Lernklasse hat automatisch eine größere Wahrscheinlichkeit, dass benachbarte Objekte ihr zugeordnet werden. Wann man ohne oder mit
Apriori-Wahrscheinlichkeit arbeitet, dafür gibt es kein Rezept. Richtschnur ist nur die Güte
der Klassifikation, die durch die Fehlerschätzung bewertet wird.
Fehlerschätzung der Klassifikation: Wird ein Objekt einer falschen Klasse zugeordnet, liegt
ein Klassifikationsfehler vor. Wir unterscheiden:
• Reklassifikationsfehler: Die Objekte der Lernstichprobe werden reklassifiziert, d.h. einer
Klasse zugeordnet. Mit steigender Merkmalszahl p nimmt dieser Fehler ab. Man darf sich
davon jedoch nicht täuschen lassen. Eine Klassifikation von Objekten, die nicht in der
Lernstichprobe waren, werden desto schlechter klassifiziert, je mehr unnötige Merkmale
verwendet werden.
• Jackknife-Fehler: Die Lernstichprobe wird in viele zufällig ausgewürfelte Teile unterteilt
(meist 10). Neun werden als Lernstichprobe benutzt für die Merkmalsauswahl, dann werden die Objekte der 10. Teilstichprobe klassifiziert. Das Ganze wird 10 mal durchgeführt,
bis jede Teilstichprobe einmal klassifiziert wurde. Diese Art der Fehlerschätzung ist recht
realistisch, was die Fehlerrate bei völlig neuen Objekten betrifft.
• Working-Sample Fehler: Hat man sehr viele Daten, kann man die Daten in Lern- und
Arbeitsdaten teilen. An der Lernstichprobe wird die Merkmalsauswahl vorgenommen, an
der Arbeitsstichprobe wird die richtige Klassifikation überprüft. Diese Art der Fehlerschätzung ist die realistischste, was die Fehlerrate bei völlig neuen Objekten betrifft.
Datenaufbau für eine lineare Diskriminanzanalyse: Sie benötigen eine kategoriale Zielvariable Y mit Klassennummern und eine oder mehrere Trennvariablen Xj. Diese können
metrisch, binaer oder ranggeordnet sein. Es können aus den eingelesenen Trennvariablen Xj
durch Potenzieren und/ oder Multiplikation weitere Trennmerkmale gewonnen werden (polynomiale Modelle). Ein kategoriales X-Merkmal mit k Kategorien muss durch eine Daten54
transformation in k-1 binäre Merkmale umcodiert werden (Beispiel Merkmal Haarfarbe mit
den 3 Kategorien: K1=schwarz, K2=rot, K3=blond muss in zwei binäre Merkmale umcodiert
werden: M1=schwarz/nichtschwarz, M2=rot/nichtrot)
Clusteranalyse
Hat man keinerlei Vorstellung, wie sich Daten strukturieren, dann versucht man mit der
Clusteranalyse eine erste Klassenstruktur zu erzeugen. Es ist wie der Blick in den Sternhimmel, an dem der Mensch "Figuren" zu erkennen sucht. Ob sich so gefundene Klassen später
als wertvoll erweisen, muss dann eine nachfolgende Analyse der Eigenschaften der Objekte,
die in eine Klasse "geworfen" wurden, klären. Es gibt zwei prinzipiell verschiedene Clusterungsstrategien:
Hierarchische Methoden: Diese erzeugen ein
Dendrogramm (Baumstruktur), indem sie die N Objekte nach ihrer Distanz D im mehrdimensionalen Merkmalsraum ordnen. Sich nahestehende Objekte wandern
in eine Klasse. Durch einen Schnitt in geeigneter Höhe
kann man k Klassen erzeugen (Hier k=3 Klassen)
Partitionierende Methoden: Man sucht "Kondensationskeime", d.h. Objekte mit vielen anderen Objekten
drum herum und baut sie zu Klassen aus. Durch Austausch werden störende Objekte an benachbarte Klassen abgegeben. Ziel ist eine Klasse ohne Ausreißer und
etwa von Kugelform. Die graphische Darstellung erfolgt dann mit den Mitteln der Diskriminanzanalyse.
Zunächst gibt es keine Fehlzuordnungen, da ja eine
Definition der Klassen noch völlig offen ist.
D
Schnitt
N
D2
2 2 2
2
2 2 2 2 2 2 2 2
2 2 2 2 2 222 2 2 2 2
1 1 2 2 2 2222 2 2 2 3
1 11
1 222 22 3 3 3
1 11 1 1 1
3 33 33
1 11 1111 111 1 33 3 333333 3
1 1111111111 1
3333 3333
1111 111 1 1 1 3 33333 D1
1 1 1
1
3 3
2
1
3
Allen Methoden gemeinsam ist, dass der Anwender eine gewisse Vorstellung von der Anzahl
der Klassen haben sollte, die er erwartet. Weiterhin ist allen Methoden gemeinsam, dass sie
immens viel Computerzeit verbraten. Die Eingangsdaten sind Merkmalsvektoren - je einen
pro Objekt. Die Merkmale unterliegen denselben Einschränkungen, wie die Trennmerkmale
der Diskriminanzanalyse: Nur metrische, binäre oder rangeordnete kategoriale Merkmale sind
zugelassen. Das Ergebnis der Clusteranalyse ist eine Klassennummer für jedes Objekt und
einige Kennzahlen zu den Klassen (Mittelwert, Klassenumfang usw. Hier kann man auf die
Diskriminanzanalyse zurückgreifen.
14 Übung
Besprechen und Üben alter Klausuraufgaben im letzten Block der Vorlesungszeit. Die Übung findet
immer statt, auch wenn nicht alle Themen erarbeitet werden konnten.
1.
Multiplikation von Wahrscheinlichkeiten (Thema 3):
Berechnen Sie die Wahrscheinlichkeit, dass Ereignis der nächste Kunde weiblich und unter 22
Jahre alt ist. Frauen stellen 57% der Kunden, Unter-22-Jährige 27% der Kunden.
Lösung: 15,4%
55
2.
Suchen Sie Ausreißer mit der 3−σ−Regel in den folgenden n=17 Umsätzen:
145 132 178 138 127
128 151
Lösung: x =152,47
3.
σ n −1 = 18,87
152 157 147 163 204
144 153 166 158 149
umax=2,73
keine Ausreißer
umin=-1,34
Statistische Maßzahlen: Berechnen Sie aus den 17 Umsätzen der
Aufgabe 2 x , σ n − 1 , σ x sowie den Median und das 95%-Konfidenzintervall
des wahren Mittels. Einen eventuellen Ausreißer lassen Sie in den Daten drin.
x =152,47
Lösung:
t α = 2,12
4.
σ n −1 = 18,87
σ x = =4,58 Median=151 FG=16
Konfidenzinte4rvall 152,47 ± 9,71
Machen Sie den χ2-Homogenitätstest zu folgender Kontingenztafel, die die
Häufigkeit des Besuchs eines Haarstudios in Abhängigkeit von der Haarfarbe und
vom Geschlecht untersucht:
Haarfarbe
blond
braun
schwarz
weiblich
n11 = 27
n12 = 43
n13 = 30
männlich
n21 = 13
n22 = 61
n23 = 76
Beantworten Sie die Frage nach der Unabhängigkeit der Merkmale Haarfarbe und
Geschlecht bezüglich der Studiobesuche
Lösung: e11=16 e12=41,6 ….
χ 2 11=7,56 χ 2 12=o,o5 … χ 2 ges=18,73
FG=2
χ 2 alfa =5,99
HA
Haarfarbe und Geschlecht sind
Keine unabhängigen Merkmale bezüglich der Häufigkeit der Studiobesuche
6.
Mittelwertvergleiche zweier normalverteilter Grundgesamtheiten: Gegeben sind
die systolischen Blutdruckwerte von älteren Kunden vor und kurz nach einer Beschallung
mit lauter Musik (im Rahmen einer Marketingstudie):
Vor: 114 117 116 121 119 122 118 - - - 126 123
Nach: 122 119 115 124 - - - 123 121 121 129 - - (3 Kunden sagten den Test ab)
a) Machen Sie den t-Test für ungepaarte Werte nach Thema 12.2, d.h., Hypothesenpaar, Mittelwerte, gemitteltes Sigma, t-Test, Ihre Testentscheidung und eine fachliche
Umsetzung
Lös.: x1 = 119,55
σ n1 = 12,69
n1=9
x 2 = 121,75
σ n 2 = 14,1875 n2=8
σ = 3,89
t=-1,162
FG=15 t α = 2,13
Wir akzeptieren Ho
Es gibt keinen signifikanten Unterschied der Blutdruckwerte.
2
2
56
b) Machen Sie den gepaarten t-Test (Thema 12.4) mit den 7 vollständigen Paaren, d.h.
Hypothesenpaar, Differenzen bilden, mittlere Differenz, Sigma der Differenzen, t-Test,
Testentscheidung, fachliche Umsetzung
Lös.: n=7 Differenzen: 8 2 -1 3 1 3 3
d = 2,714
σ n −1 = 2,752
FG=6
t α = 2,45 Wir akzeptieren HA
Es gibt einen signifikanten Unterschied der Blutdruckwerte
t=2,609
c) Welcher der beiden Tests bringt hier das bessere Ergebnis? Lösung: Der gepaarte t-Test
7. Vergleich von Häufigkeiten: Aus einer Fragebogenaktion zum Trinkverhalten von Patienten ergab sich u. a. die Frage: Gibt es Unterschiede zwischen Männern und Frauen bezüglich der Wichtigkeit von Alkohol, Säften, Heißgetränken? (Trinktyp). Die Kontingenztafel
lautet:
Trinktyp
Säfte
Heißgetränke
Alkohol
Geschlecht
m
84
23
42
w
27
82
54
Machen Sie den Vergleiche von relativen Häufigkeitszahlen (Thema 7.2) für das Zahlenpaar
aus der Tabelle von Spalte 1 (Alkohol). Hier ist n1 die Zeilensumme 1, n2 ist die Zeilensumme
2 der Tabelle (Hypothesen, p, q, t, Hypothese wählen, Antwortsatz).
h2=27 n1=149
n2=163
Lös.: Ho:p1=p2
HA:p1≠p2 h1=84
p̂1 = 84/149=0,564 p̂ 2 = 27/163=0,166
p = 111/312=0,356
q=0,644
FG=310
t=7,33
t α = 1,96
Wir akzeptieren HA
Der Alkoholkonsum ist bei den Männern signifikant größer als bei den Frauen.
8.
Kennzahlen, Quantile:
Gegeben Sind die n=28 Umsätze in Tausend € von 10 Großstadtfilialen und 18 Kleinstadtfilialen.
137 162 182 279 191
174 183 88 151 306
187 244 143 169 172
102 161 206 274 167
336 233 155 175 191
173 183 241
Berechnen Sie aus den gesamten Daten (alle 28 Werte) nach Thema 2 den Mittelwert x ,
Standardabweichung σn-1, den Fehler des Mittelwerts σ x , den Median und nach Thema 3.7
das 95%-Konfidenzintervall für das wahre Mittel.
Lös.:
n=28 x =191,6 σ n −1 = 56,8 σ x = 10,73 Median=178,5
t α = 2,06
Konfidenzinte4rvall 191,6 ± 22,1
57
FG=27
Wieviel von 5000 Filialen werden schätzungsweise einen Umsatz von x>250 aufweisen, wenn
man Mittelwert x , Standardabweichung σ n −1 aus Aufgabe 3 zugrunde legt? Bei welchem
Umsatz enden die 25% der „kleinen“ Umsätze (Quantil X25) (Beispiel 11)
Lös.: a)
b)
9.
u=1,028
p=0,25
Φ(−u ) = 0,1587
u=-0,6
E= N p =5000·0,1587= 793 Filialen
x=157,5
Mittelwertvergleiche:
Gegeben sind die Umsätze in Tausend € von Kleinfilialen.
Gr. 1
Gr. 2
67
93
72
123
56
109
77
98
71
133
87
107
74
103
94
94
83
97
109
Machen Sie den F-Test auf Varianzhomogenität zwischen Gruppe 1 und Gruppe 2 (Hypothesen, F-Wert, Hypothese wählen, Antwortsatz) wie in Thema 12.3.
Lös.: Ho: Varianzhomogenität Ha: Varianzinhomogenität
x2 = 106,6 σ n-1 = 12,91 n 2 = 10 F = 12,912 / 11,292 = 1,31
FG1 = 9 FG2 = 8 F α=5%, FG1=9, FG2=8 = 3,35 (Sicherheitspunkt) Ho: „Homogenität“
Machen Sie den Mittelwertvergleich zweier normalverteilter Grundgesamtheiten (t-Test) wie
in Thema 12.2, um den Umsatzunterschied zwischen Gruppe 1 und Gruppe zwei auf Signifikanz zu testen (Hypothesen, t-Wert, Hypothese wählen, Antwortsatz).
Lös.:
Ho : µ1 = µ 2 H A : µ1 ≠ µ 2
SAQ1 = (672 + 722 +…+ 832 ) – 9 · 75,667 2 = 52549 – 51529 =1020
SAQ2 = (932 + 1232 +…+ 1092 ) – 10 · 126,6 2 = 115136 – 113636 = 1500
σ = (1020 + 1500 ) / 17 = 12,17 FG=17 t α = 2,11
t = ((75,67 − 106,6) / 12,17 ) ⋅
(9 ⋅10) / (9 + 10) = − 5,53
Ha: „Sign. Gewichtsunter-
schied“
10.
Einfache lineare Regression
a) Berechnen Sie nach dem Rechenschema aus Thema 6.1 die Koeffizienten a und b der
Trendgeraden y = a + b t sowie die Reststreuung sr und die Fehler der Koeffizienten sa und
sb. Die Umsatzdaten y in tausend € und die Jahre t finden Sie in der folgenden Tabelle:
t:
y:
06
423
07
542
08
597
09
511
10
485
11
527
b) Berechnen Sie den Erwartungswert ŷ des Umsatzes für das Jahr t = 12 mittels der Trendgeraden und berechnen Sie das 95%-Konfidenzintervall für die „wahre Gerade“ an diesem
Punkt. Geben Sie auch den Freiheitsgrad FG und tα=5%, FG, zws an.
c) Machen Sie eine Skizze mit der Geraden, den Datenpunkten und dem Intervall.
58
Lösung:
t
y
t^2
ty
y^2
6
7
8
9
10
11
423
542
597
511
485
527
36
49
64
81
100
121
2538
3794
4776
4599
4850
5797
178929
293764
356409
261121
235225
277729
51
3085
451
26354
1603177
t-mittel=
y-mittel=
n=
8,5
514,166667
6
SAQxx=
SAPxy=
SAQyy=
17,5
131,5
16972,8333
Summen
b=
a=
sr=
FG=
t-alfa=
7,514
450,295
63,215
4
2,776
t=
y-dach
12
540,467
Konf.Interv.=
sb=
sa=
15,1113509
131,013466
163,39
y
540
514
450
Konfidenzintervall
Punkte
a
Mittel
0
t
0
11.
8,5
12
Korrelationskoeffizient
Gegeben sind die Stückpreise y und Materialkosten x von 7 Aufträgen:
Preis
73
94
61
77
108
45
80
Mat.
25
41
19
29
35
20
30
Berechnen Sie nach dem Rechenschema aus Thema 8.2 den Korrelationskoeffizienten r und
machen Sie den Test auf signifikante Korrelation (Hypothesenpaar, Rechenschema mit x, y,
x2, xy, y2, x , y , SAQxx, SAQyy, SAPxy, r, t, FG, tα, Hypothesenwahl, Antwortsatz.
Lösung: Hypothesenpaar ist:
Rechenschema:
Ho: r = 0
HA: r ≠ 0
x
y
x^2
xy
y^2
25
73
625
1825
41
94
1681
3854
19
61
361
1159
29
77
841
2233
35
108
1225
3780
20
45
400
900
30
80
900
2400
Σ
199
538
6033
16151
7
n
Mittel
28,4285714 76,8571429
375,714286 856,428571 2554,85714 SAQxx,xy,yy
0,87413595
r
59
5329
8836
3721
5929
11664
2025
6400
43904
5
2,57058183
4,02450611
FG
t alfa
t
Hypothesenwahl: Wegen t≥tα nehmen wir HA
Antwortsatz: Es besteht eine signifikante Korrelation zwischen Stückpreis und Materialkosten
12.
Zeitreihenanalyse mit Berücksichtigung eines Trends
Gegeben sind die monatlichen Absatzdaten y in 1000 hl eines Getränkeherstellers über zwei
Jahre. Die 24 Monate haben die Nummern x = 1, 2, 3, 4, …, 24. (Thema 6.3)
2011
2012
Jan
46,3
49,5
Feb
52,0
55,0
Mrz
39,7
44,9
Apr
36,4
37,8
Mai
45.9
49,0
Jun
53,1
60,2
Jul
64,8
63,7
Aug
65,0
70,1
Sep
49,2
55,5
Okt
44,7
50,2
Nov
35,2
41,9
Dez
43,1
45,7
a) Die Trendgerade durch die 24 Datenpunkte ist y = 46,7 + 0,26 · x . Berechnen Sie die
Tabelle neu bereinigt um die Trendwerte. Z.B. für Jan 2011 wird
yneu=46,3 - 46,7 - 0,26 ·1, oder für Dez 2012 wird yneu = 45,7 - 46,7 - 0,26 · 24.
b) Berechnen Sie als 3. Zeile alle 12 Mittelwerte der bereinigten Monatsumsätze für Jan,
Feb, …, Dez, z.B. MittelAug = (Aug2011, bereinigt + Aug2012, bereinigt)/2.
c) Berechnen Sie als 4. Zeile die Prognosewerte y für 2013, indem Sie für die Monate x
die Werte x = 25, 26, 27,…,36 verwenden und die Trendgerade zu den Monatsmitteln
wieder addieren, z.B. für August 2013: y2013, Aug = 46,7 + 0,26 · 32 + MittelAug .
Lösung:
Mon. num.
Werte 2011
Mon. num.
Werte 2012
Berein. 11
Berein. 12
Monatsmitt.
Mon. num.
Progn. 13
Jan
1
46,3
13
49,5
-0,66
-0,58
-0,62
25
52,6
Feb
2
52,0
14
55,0
4,78
4,66
4,72
26
58,2
…….
………
……..
……….
……..
……..
……
……
…….
……
60
Aug
8
65,0
20
70,1
16,22
18,20
17,21
32
72,2
………
……..
…….
……
…….
……
……..
……..
……
……
Dez
12
43,1
24
45,7
-6,72
-7,24
-6,98
36
49,1
15 Literatur
Josef Puhani, Statistik, Verlag Lexika, 11. Auflage, 2008
(Das Statikstikbuch hat sich mittlerweile zur Standardliteratur für diejenigen Studenten und
Praktiker entwickelt, die ein leicht verständliches Lehrbuch bei gleichzeitig konzentrierter und
prägnanter Darstellung suchen. Die didaktische Konzeption zielt darauf ab, die Grundlagen
der beschreibenden Statistik, der Wahrscheinlichkeitsrechnung und der Statistik praxisorientiert zu vermitteln. Auf mathematische Ableitungen wird weitgehend verzichtet. Ergänzend
zum Buch gibt es als handliches Hilfsmittel eine darauf abgestimmte Formelsammlung zur
Statistik für die praktische Anwendung.)
Lothar Sachs, Angewandte Statistik, 11th ed., Springer Verlag
(Der Lothar Sachs ist das Haupt- und Kochbuch des deutschen Naturforschers)
Vorsicht: Die Zahlenangaben in den Beispielen des Skripts sind zumeist erfundene Zahlen
61