U. Römisch - TU Berlin

Werbung
Folien zur Vorlesung
Statistik für Prozesswissenschaften
(Teil 1: Beschreibende Statistik)
U. Römisch
http://www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting
Inhaltsverzeichnis
EINLEITUNG
1.
Was versteht man unter Statistik, Biometrie, Chemometrie,
Ökonometrie und Technometrie?
2.
Wie lügt man mit Statistik?
● Umfragen
● Mittelwert- und Streuungsmaße
● Wahrscheinlichkeiten
● Grafiken
● Signifikanzaussagen bei statistischen Tests
1. BESCHREIBENDE (DESKRIPTIVE) STATISTIK
1.1. Charakterisierung von Merkmalen
1.2. Grundgesamtheit und Stichprobe
1.3. Die Häufigkeitsverteilung diskreter und stetiger eindimensionaler Merkmale
- absolute u. relative Häufigkeiten und ihre grafische
Darstellung
- empirische Verteilungsfunktion
1.4. Stat. Maßzahlen eindim. Merkmale
- arithm. Mittel, Median, gestutztes Mittel, Modalwert,
geometrisches Mittel, α- Quantil
- Spannweite, Medianabstand, Quartilsabstand, Varianz,
Standardabweichung, Standardfehler des arithm.
Mittelwertes, Variationskoeffizient, Box- und Whisker Plots
- Schiefe und Exzess
1.5. Zweidimensionale Merkmale
- grafische Darstellung (Scatterplot)
- Häufigkeitsverteilung (Vierfeldertafel, Kontingenztafel,
2- dim. Häufigkeitstabelle, graf. Darstellungen)
- Zusammenhangsmaße (Assoziations-,Kontingenz-,
Maßkorrelations- und Rangkorrelationskoeff.)
- lineare Regression (einf. und multiple lineare Regression
und polynomiale Regression)
2. WAHRSCHEINLICHKEITSRECHNUNG
2.1. Zufällige Ereignisse, Ereignisfeld, Wahrscheinlichkeit
- Regeln für die Berechnung von Wahrscheinlichkeiten
2.2. Zufallsgrößen (ZG)
- Arten von Zufallsgrößen und ihre Verteilungen (diskrete
und stetige Zufallsgrößen)
- Kenngrößen von Zufallsgrößen (Erwartungswert u. Varianz)
2.3. Spezielle Verteilungen
- Binomial-, Hypergeometrische-, Poisson- und
Normalverteilung
- Prüfverteilungen (Chi2-, t- u. F- Verteilung), Funktionen
von Zufallsgrößen
2.4. Grenzwertsätze
3. SCHLIESSENDE (INDUKTIVE) STATISTIK
3.1. Statistische Schätzverfahren
- Schätzmethoden, Stichprobenfunktion, Punktschätzungen
- Konfidenz- und Toleranzintervalle, Kontrollkarten
3.2. Statistische Tests
- Parametrische Tests für Mittelwerte u. Varianzen bei
1- und 2- Stichprobenproblemen
- Varianzanalyse und multiple Vergleiche
- Verteilungsfreie Methoden (Verteilungsanpassung,
verteilungsfreie Tests)
- Induktive Methoden bei der Regressionsanalyse (Test
der Parameter u. des Modells, Residualanalyse,
Konfidenz- u. Prognoseintervalle)
4. KOMPLEXE PROJEKTBEISPIELE
4.1 Entwicklung eines glutenfreien und ballaststoffangereicherten Gebäckes mit optimalen Eigenschaften
mittels Methoden der statistischen Versuchsplanung
4.2 Herkunftsbestimmung von Weinen auf der Basis
chemischer Analysenparameter mittels uni- und
multivariater Methoden der statistischen Datenanalyse
In der Übung mit PC- Praktikum werden mit
Statistikprogrammen konkrete Fragestellungen
aus den Fachgebieten behandelt.
EINLEITUNG
1. Was ist Statistik?
Statistik ist die Wissenschaft des Sammelns, Analysierens
und Interpretierens von Daten.
Sie beantwortet die Fragen:
1. Wie sollen welche Daten gewonnen werden?
2. Wie soll man Daten beschreiben? und
3. Welche Schlüsse kann man aus Daten ziehen?
Teilgebiete:
Stochastik
Beschreibende Statistik
Wahrscheinlichkeitstheorie
Schliessende Statistik
Stat. DA
Stat. VP
1. BESCHREIBENDE (DESKRIPTIVE) STATISTIK
Die Beschreibende und explorative Statistik dient
der Beschreibung, Strukturierung und Verdichtung
umfangreichen Datenmaterials.
Wie erhält man nun Daten und welcher Art sind die
Daten?
Informationen über in der Realität existierende Erscheinungen
und Prozesse erhält man durch Erhebungen und Versuche.
Ziel: Kenntnisse über die Eigenschaften bestimmter
Objekte (z.B. Betriebe, Anlagen, Messmethoden,
Länder) oder Individuen (z.B. Personen, Tiere,
Pflanzen) zu erhalten
1.1. Charakterisierung von Merkmalen
- Die Objekte/ Individuen, an denen Beobachtungen vorgenommen werden, heißen Beobachtungseinheiten
(Merkmalsträger).
Dabei ist kein Objekt/ Individuum mit einem anderen
identisch. Diese Unterschiedlichkeit nennt man Variabilität.
- Die Größen oder Eigenschaften, auf die sich die
Beobachtungen beziehen, heißen Merkmale.
- Jedes Objekt/ Individuum ist durch eine spezielle Merkmalsausprägung gekennzeichnet.
- Alle beobachteten Werte eines Merkmals heißen
Merkmalswerte.
Klassifizierung von Merkmalen
1.
Merkmale
Qualitative Merkmale
Quantitative Merkmale
(Unterscheidung durch Art)
Bsp.: Geschlecht, Rasse, Sorte,
(Unterscheidung durch Größe)
Bsp.: Alter, Gewicht, Masse, Länge,
Land, Hefestamm, Aroma
2.
Merkmale
Diskrete Merkmale
(endlich viele oder abzählbar unendlich
viele Merkmalsausprägungen)
Bsp.: Geschlecht, Rasse, Sorte, Land,
Hefestamm, Aroma, Zellzahl
Volumen, Einkommen, Wasser- u.
Lufttemperatur, Konzentration,
Zellzahl
Stetige Merkmale
(überabzählbar unendlich viele Ausprägungen, d.h. Werte im reellen
Zahlenintervall)
Bsp.: Alter, Gewicht, Masse, B
Merkmale
3.
Nominalskalierte
Merkmale
(Skala mit niedrigstem
Niveau, keine
Vergleichbarkeit oder
Rangfolge zwischen
den Werten)
Bsp.: Geschlecht, Rasse,
Sorte, Land,
Hefestamm,
Aroma
Ordinalskalierte
Merkmale
Metrisch skalierte
Merkmale
(Skala mit höherem
(Skala mit höchstem
Niveau, Werte unterNiveau, Abstände
scheiden sich in ihrer
zwischen den Werten
Intensität, ermöglichen
sind interpretierbar)
eine Rangfolgeordnung, jedoch keine Bsp.: Alter, Gewicht, Masse,
Länge, Volumen, EinInterpretation der
kommen, Wasser- u.
Abstände zwischen
Lufttemperatur, Zellden Rängen)
zahl, Konzentration,
Bsp.: Aroma, Härtegrad,
sensor. Parameter,
Zensuren
Intervallskala
Proportionsskala
Intervallskala (Einheitenskala) :
• Die Skala besteht aus Zahlen, zwischen denen gleich große
Intervalle bestimmbar sind.
• Der Nullpunkt wird willkürlich festgelegt (relativ).
• Es sind nur Differenzen von Messwerten sinnvoll
interpretierbar.
Bsp.: Temperaturskala nach Celsius, tägl. Zunahme der
Körpermasse, bei logar. Transformation der Messwerte
Proportionalskala (Ratioskala) :
• Zusätzlich zur Intervallskala wird ein absoluter Nullpunkt
definiert, so dass auch Quotienten von Messwerten sinnvoll
interpretierbar sind.
Bsp.: Temperaturskala nach Kelvin (eine Verdoppelung der
Temperatur entspricht der Verdoppelung des
Gasvolumens), Gewicht, Masse, Volumen, Zellzahl
1.2. Grundgesamtheit und Stichprobe
Daten kann man durch Befragung von Personen oder durch
Experimente (Messungen) gewinnen.
Experimente
Passive Experimente
Alle Beobachtungswerte
ergeben sich zufällig
während des Versuches!
Aktive Experimente
Aktive Planung der Experimente
vor deren Durchführung, Planung
der Versuchsbedingungen
Anwendung der Methoden
der statistischen
Versuchsplanung
(SVP)!
Kombinierte Experimente
Methoden der statistischen Versuchsplanung
Ziel: Erzielen von Ergebnissen mit ausreichender
Sicherheit und Genauigkeit bei minimaler Anzahl
von Versuchen
Problem
Planung
3 (4) Versuchsetappen:
Durchführung
Auswertung
Schritte der SVP:
1. Erfassen des Gesamtproblems und aller Teilprobleme und Präzisieren der Versuchsfrage
2. Aufstellen des statistischen Modells
3. Ableitung des Versuchsplanes
4. Ermittlung des notwendigen Versuchsumfangs
5. Durchführung der Versuche
6. Statistische Auswertung der Versuche und
technologische Interpretation der Ergebnisse
7. Schlussfolgerungen
Grundprinzipien der SVP:
• Wiederholen von Versuchspunkten
• Randomisierung
• Blockbildung
• Symmetrie
•Vermengen
• Sequentielles Experimentieren
17
Typen von stat. Versuchsplänen (VP):
Faktorielle Versuchspläne (Box):
• Plackett- Burman- VP
• Vollständige und fraktionierte VP 1. oder 2. Ordnung vom
Typ 2k und 2k-p bzw. vom Typ 3k und 3k-p
• Box- Behnken- VP
• Zentral zusammengesetzte VP vom Typ 5k-p
Mischungspläne (Scheffé)
• Simplex- Gitter und Zentroid- Pläne
Optimale Versuchspläne (Kiefer):
A,- D,- G-optimale Versuchspläne
18
Faktorieller Versuchsplan
Bsp.: 3 Einflussgrößen,
y = f(x1,x2,x3)
x3
(- - +)
(+ - +)
6 Sternpunktversuche
(- + +)
1 Zentralpunktversuch
(+ + -)
x1
(+ - -)
x2
8 Würfelpunktversuche
Fakt. VP vom Typ 23 bzw. 24-1 in 2 Blöcken:
Vers.
Einflussgrößen
2-fakt. WW
Nr. B X X X
X1X2 X1X3 X2X3
X4
1
2
3
j
X1X2X3 X3X4 X2X4 X1X4
B
1
+
-
-
-
-
+
+
+
2
+
+
-
-
+
-
-
+
3
-
-
+
-
+
-
+
-
4
-
+
+
-
-
+
-
-
5
-
-
-
+
+
+
-
-
6
-
+
-
+
-
-
+
-
7
+
-
+
+
-
-
-
+
8
+
+
+
+
+
+
+
+
0
0
0
0
9-14
Zielgrößen
Y1
Y2
Bsp.: Herstellung einer best. Chemikalie
PROBLEM:
Zur Herstellung einer Chemikalie werden mehrere
Ausgangsstoffe einschließlich Katalysator vermischt und
über längere Zeit erhitzt. Dabei erfolgt eine Reaktion und
das Reaktionsprodukt wird abgetrennt.
ZIEL:
Erhöhung der Ausbeute durch eine Untersuchung der
Wirkung der Einflussgrößen:
- Temperatur [°C]
- Reaktionszeit [h] und
- Katalysatormenge [%]
und ihrer Wechselwirkungen
Mittelwerte der Ausbeute
Ausbeute
68,012 (66,48,69,55)
(+++)
55,387 (53,85,56,92)
62,387 (60,85,63,92)
Katalysator
54,012 (52,48,55,55)
68,887 (67,35,70,42)
56,112 (54,58,57,65)
61,813 (60,28,63,35)
53,287 (51,75,54,82)
Zeit
(- - -)
Temperatur
Erhebungen
Ungeplante, nicht
kontrollierbare Erhebungen
Bsp.: Erhebungen zur Preisentwicklung eines Produktes oder
zur Bevölkerungsentwicklung
Geplante Erhebungen
Bsp.: Befragungen zur Einkommensstruktur oder zum Kaufverhalten.
Man wählt z.B. bei Befragungen zur
Einkommensstruktur der Bevölkerung
nach einem Stichprobenplan eine
repräsentative Teilmenge, genannt
Stichprobe, aller Einkommen
beziehenden Personen, genannt
Grundgesamtheit, aus.
Def.: Die Menge aller möglichen Werte eines Merkmals nennt
man Grundgesamtheit.
Eine endliche Teilmenge der Grundgesamtheit nennt
man Stichprobe.
Besteht die Teilmenge aus n Elementen, so heißt n
Stichprobenumfang.
Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig
eine Gesamtheit von Beobachtungseinheiten
(Merkmalsträgern), die man ebenfalls als Grundgesamtheit oder Population bezeichnet.
Die Grundgesamtheit muss bei jeder Aufgabenstellung
festgelegt werden!
Eine Grundgesamtheit kann auch unendlich viele Elemente
enthalten. Theoretisch können wir den Versuch unendlich oft
wiederholen.
Mathematische Statistik
Beschreibende
Statistik
Wahrscheinlichkeitsrechnung
Induktionsschluss
Stichprobe
Grundgesamtheit
Deduktionsschluss
Was ist bei einer Stichprobenentnahme zu
beachten?
Die Stichprobenauswahl muss so erfolgen, dass die
Stichprobe die Grundgesamtheit repräsentiert!
1. Zufälligkeit der Stichprobe
2. Vermeiden systematischer Fehler
3. Umfang der Stichprobe
Optimaler Stichprobenumfang ist abhängig von :
- zeitlichen, arbeitstechnischen und finanziellen Faktoren
- Wahl des statistischen Modells
- Genauigkeit der Ergebnisse
- Umfang der Grundgesamtheit
4. Homogenität und gleiche Genauigkeit
5. Vergleichbarkeit
1.3. Die Häufigkeitsverteilung diskreter und
stetiger eindimensionaler Merkmale
Bei einem Versuch oder einer Erhebung wird an n
Beobachtungseinheiten ein Merkmal X beobachtet,
d.h. an jeder Einheit wird die Ausprägung dieses Merkmals
festgestellt.
Sind a1,...,am die möglichen Ausprägungen des Merkmals X,
so wird also der i-ten Beobachtungseinheit (i=1,...n) seine
Ausprägung aj als Merkmalswert xi zugeordnet:
xi = aj (i)
Merkmalswert
Beobachtungseinheit
Ausprägung
Schritte der Datenerfassung und -aufbereitung:
1. Schritt: Erfassung der Daten eines oder mehrerer
Merkmale
Stichprobe (ungeordnete Urliste): Merkmalswerte x1,...,xn
Variationsreihe (geordnete Urliste): x(1) ,...,x(n) ,
wobei x(1) ≤... ≤ x(n)
Skalierung der Ausprägungen: a1,B,am
2. Schritt: Ermittlung der abs. und rel. Häufigkeiten
2.1. (Primäre) Häufigkeitsverteilung bei diskreten
Merkmalen (ohne Klassenbildung)
Def.: Beobachtet man an n Beobachtungseinheiten ein
Merkmal X, das in m Ausprägungen a1,...,am
vorkommt, so heißt
fn(aj) = "Anzahl der Fälle, in denen aj auftritt" für j=1,...,m
absolute Häufigkeit der Ausprägung aj.
Bem.: - Σ fn(aj) = n
- Die abs. Häufigkeiten hängen vom Stichprobenumfang n ab, sie sind daher zum Vergleich von Stichproben unterschiedlichen Umfangs nicht geeignet.
- Die Folge der absoluten Häufigkeiten fn(a1),...,fn(am)
heißt abs. Häufigkeitsverteilung des Merkmals X.
Def.: Die relative Häufigkeit
hn(aj) = (1/n) fn(aj)
für j=1,...,m
gibt den Anteil der Beobachtungseinheiten bezogen
auf n an, die die Ausprägung aj haben.
Bem.: - Σ hn(aj) = 1
- 0 ≤ hn(aj) ≤ 1
- Die Folge der relativen Häufigkeiten hn(a1),...,hn(am)
heißt rel. Häufigkeitsverteilung des Merkmals X.
2.2. (Sekundäre) Häufigkeitsverteilung bei stetigen
Merkmalen (mit Klassenbildung)
- Da stetige Merkmale in sehr vielen Ausprägungen auftreten,
fasst man verschiedene Ausprägungen in Klassen
zusammen.
- Man zerlegt das Intervall, in dem alle Beobachtungswerte
liegen in m Klassen K1,...,Km ,
wobei Kj = (yj-1; yj] für j=1,...,m
mit den Klassengrenzen yj-1 und yj
und den Klassenmitten xj = (yj-1+yj) /2
- Die Anzahl der Klassen wählt man m ≤
wobei n der Stichprobenumfang ist.
n (od. 5 ≤ m ≤ 20),
- Der Abstand dj =yj - yj-1 für j=1,...,m heißt Klassenbreite.
Wenn dj = d j=1,...,m , spricht man von äquidistanten
Klassen.
Bem.: Durch die Angabe der unteren Anfangsklassengrenze
y0 und die Klassenbreite d oder durch y0, ym und m
wird eine Klasseneinteilung eindeutig bestimmt.
Bem.: Bildet man zu wenig Klassen, können charakteristische
Eigenschaften der HV verloren gehen, bildet man zu
viele Klassen, können kleine Zufallsschwankungen
eine Interpretation der HV erschweren.
Def.: Als absolute Klassenhäufigkeit bezeichnet man
fn(Kj) = fn(xj) = "Anzahl der Beobachtungswerte in der j- ten
Klasse mit der Klassenmitte xj" (j=1,...,m)
Bem.: Die Folge der abs. Klassenhäufigkeiten fn(x1),...,fn(xm)
heißt abs. Häufigkeitsverteilung des stet. Merkmals X.
Def.: Als relative Klassenhäufigkeit bezeichnet man
hn(xj) = (1/n) · fn(xj)
Bem.: Die Folge der relativen Häufigkeiten hn(x1),...,hn(xm)
heißt rel. Häufigkeitsverteilung des stet. Merkmals X.
3. Schritt: Grafische Darstellungen
- Stabdiagramm (Strecken- oder Liniendiagramm)
hn(aj)
● über jeder Ausprägung auf der Abszisse
wird die zugehörige Häufigkeit als
senkrechte Strecke abgetragen,
● besonders für diskrete Merkmale geeignet
- Häufigkeitspolygon
a1...
aj
hn(aj)
● erhält man durch Verbindung der Endpunkte der Strecken des Stabdiagramms,
● besonders zur Darstellung zeitlicher
Verläufe geeignet
a1...
aj
- Histogramm
hn(xj)
● Häufigkeiten werden als
aneinanderstoßende Rechtecke
dargestellt, deren Flächen proportional
den Häufigkeiten sind,
● besonders für stetige Merkmale geeignet
- Flächendiagramme, z.B.:
Kreisdiagramme
● Häufigkeiten werden durch Flächen
repräsentiert,
● zur Strukturdarstellung geeignet,
z.B.: Anzahl der Beschäftigten in verschiedenen Wirtschaftszweigen,
Wahlergebnisse
x1
y0 y1 B
13%
13%
57%
17%
xj
4. Schritt: Ermittlung der empirischen Verteilungsfunktion
Eine weitere Möglichkeit der Beschreibung der geordneten
Beobachtungsreihe ergibt sich durch die Betrachtung von
Summenhäufigkeiten.
4.1. (Primäre) Häufigkeitsverteilung bei diskreten
Merkmalen (ohne Klassenbildung)
Def.: Die absolute Summenhäufigkeit der j- ten Ausprägung
aj ist die Anzahl der Beobachtungseinheiten, bei denen
eine Ausprägung ≤ aj beobachtet wurde, d.h.
j
fn(a1) + ... + fn(aj) =
∑ f (a
n
k =1
k
)
; j=1,...,m
Def.: Die relative Summenhäufigkeit der j- ten Ausprägung
gibt den Anteil der Beobachtungseinheiten an, bei
denen eine Ausprägung aj beobachtet wurde, d.h.
j
hn(a1) + ... + hn(aj) =
∑ h (a
n
k
)
k =1
Durch die Folge der relativen Summenhäufigkeiten wird nun
die empirische Verteilungsfunktion des Merkmals X bestimmt.
Def.: Die empirische Verteilungsfunktion des Merkmals X
ist eine Funktion, die für alle reellen Zahlen x die
folgende Gestalt hat:
0
;
x < a1

 j
F̂n ( x ) =  ∑ h n ( a k ) ; a j ≤ x < a j +1
j = 1,..., m
 k =1
1
;
x ≥ am

Bem.: Die empirische Verteilungsfunktion ist auf jedem
Intervall [aj,aj+1) konstant und springt bei aj+1 um den
Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei
der kleinsten, die letzte bei der größten beobachteten
Merkmalsausprägung.
F̂n (x)
1
hn(a1)+ hn(a2)
hn(a1)
x
a1
a2
Ausprägungen
4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei stetigen
Merkmalen (mit Klassenbildung)
Def.: Die absolute Klassensummenhäufigkeit der j- ten
Klasse ist die Anzahl der Beobachtungswerte, die in
einer Klasse mit einer Klassenmitte ≤ xj liegen, d.h.
j
fn(x1) + ... + fn(xj) =
∑ f (x
n
k
)
; j=1,...,m
k =1
Def.: Die relative Klassensummenhäufigkeit der j- ten
Klasse gibt den Anteil der Beobachtungswerte an, die
in einer Klasse mit der Klassenmitte ≤ xj liegen, d.h.
j
hn(x1) + ... + hn(xj) =
∑h (x
n
k
)
; j=1,...,m
k =1
Durch die Folge der relativen Klassensummenhäufigkeiten
wird die empirische Verteilungsfunktion von X bestimmt.
Def.: Die empirische Verteilungsfunktion des Merkmals X,
deren Beobachtungswerte in Klassen vorliegen, hat
folgende Gestalt:
0
;
x < x1

 j
F̂n ( x ) = ∑ hn ( x k ) ; x j ≤ x < x j+1
j = 1,...,m
 k =1
1
;
x ≥ xm

Bem.: Die empirische Verteilungsfunktion an der Stelle x ist
die Summe der relativen Häufigkeiten aller Klassen,
deren Mitten xj ≤ x sind. Als Sprungstellen werden jetzt
die Klassenmitten verwendet.
Bsp.: Weindaten- stet. Merkmal Butandiolgehalt
Sekundäre Verteilungstabelle (y0 = 0 ; d = 0,25):
Kl.Nr. Kl.grenzen Kl.mitte abs.Häuf. rel.Häuf. abs.K.S.H. rel.K.S.H.
j
(yj-1 ; yj]
xj
fn(xj)
hn(xj)
-----------------------------------------------------------------------------------------------------0 (- ∞ ; 0]
1 (0
; 0,25] 0,125
f1
h1
f1
h1
2 (0,25 ; 0,45] 0,35
f2
h2
f1+f2
h1+h2
M
7
M
(1,45 ; 1,65]
(1,65 ; ∞)
1,55
f7
h7
M
M
n
1
Bem.: Die empirische Verteilungsfunktion ist auf jedem
Intervall [xj,xj+1) konstant und springt bei xj+1 um den
Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei
der kleinsten, die letzte bei der größten Klassenmitte.
F̂n (x)
1
hn(x1)+ hn(x2)
hn(x1)
x
x1
x2
Klassenmitten
1.4. Lage- und Streuungsmaße, Schiefe und
Exzeß von Häufigkeitsverteilungen
1.4.1. Lagemaße
1. Mittelwertmaße
Mittelwertmaße geben an, wo sich das Zentrum einer
Häufigkeitsverteilung befindet.
● Arithmetischer Mittelwert
Seien x1, ... ,xn die beobachteten Merkmalswerte des
Merkmals X mit den Ausprägungen a1, ... ,am
1 n
1 m
x = ∑ x i = ∑ a j fn ( a j )
n i =1
n j =1
Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein
unverzerrter Schätzwert für den Mittelwert einer
normalverteilten Grundgesamtheit und gut geeignet
bei eingipfligen Häufigkeitsverteilungen
- alle Informationen der Stichprobe werden
ausgeschöpft
Nachteile: - das arithm. Mittel ist unbrauchbar bei schiefen
oder mehrgipfligen Verteilungen
- das arithm. Mittel ist nicht robust gegenüber
Ausreißern
● Median (Zentralwert)
- Der Median ist dadurch charakterisiert, dass jeweils 50 %
der Beobachtungswerte einen Wert ≤ und 50 % einen Wert
≥ dem Median haben.
- Wir ordnen daher die Beobachtungswerte der Größe nach
und erhalten die Variationsreihe x(1) , ... ,x(n) mit
x(1) ≤ ... ≤ x(n)
~
x 0 ,5
 x ( k +1)
; für n = 2k + 1

=  x ( k ) + x ( k +1)
; für n = 2k

2
Vorteile: - der Median ist auch bei asymmetrischen und
mehrgipfligen Verteilungen verwendbar
- er ist zu bevorzugen bei nur wenigen Messwerten
und ordinalskalierten Beobachtungsmerkmalen
- er ist robust gegenüber Ausreißern
Nachteile: - es werden nicht alle Informationen der Stichprobe
ausgeschöpft (nicht alle Messwerte gehen
in die Berechnung des Medianes ein)
- bei normalverteilten Merkmalen hat er schlechtere
Schätzeigenschaften als das arithm. Mittel
● Gestutztes Mittel
- Wir ordnen wieder die Stichprobe der Größe nach und
streichen dann die m untersten und die m obersten
Merkmalswerte.
- Dann erhält man das (m/n) 100 % - gestutzte Mittel, indem
man das arithmetische Mittel aus den verbleibenden n - 2m
Merkmalswerten bildet.
xm
n
1
=
( x ( m +1) + ... + x ( n −m ) )
n − 2m
• Vorteil: - das gestutzte Mittel ist robust gegenüber Ausreißern und basiert im Vergleich zum Median auf
einer größeren Anzahl von Werten
• Nachteil: - es besitzt bei Normalverteilung schlechtere Schätzeigenschaften als das arithm. Mittel und schöpft
nicht alle Informationen der Stichprobe aus
● Modalwert (Dichtemittel, Modus)
Bei eingipfligen Verteilungen gibt das Dichtemittel die
Ausprägung mit der größten Häufigkeit in der Messreihe an.
Bei klassierten Daten (stet. Merkmale) gibt es die Klassenmitte der Klasse mit der größten Klassenhäufigkeit an.
fn (xmod) ≥ fn (aj)
∀aj
j=1,...,m
Vorteile: - das Dichtemittel ist auch bei nominal- und ordinalskalierten Merkmalen anwendbar
- bei mehrgipfligen Verteilungen gibt man neben
dem Median auch die lokalen Dichtemittel an
- das Dichtemittel ist robust gegenüber Ausreißern
Nachteile: - bei Normalverteilung hat das Dichtemittel
schlechtere Eigenschaften als das arithm. Mittel
- nicht alle Beobachtungswerte gehen in die
Berechnung des Dichtemittels ein
● Geometrisches Mittel
- Sind die Merkmalswerte relative Änderungen (Zuwachsraten,
Produktionssteigerungen), so wird das geometrische Mittel
verwendet, da die Gesamtänderung nicht durch eine Summe,
sondern durch ein Produkt beschrieben wird.
- Die Bezeichnung geom. Mittel ist ein Hinweis auf Zähl- oder
Messdaten, die statt der arithm. eine geometr. Zahlenfolge
bilden (z.B. bei Verdünnungsreihen).
- Es wird verwendet bei Zähldaten, von denen bekannt ist, dass
sie durch multiplikative Wirkungen entstanden sind und deren
Werte sehr unterschiedliche Größenordnungen aufweisen,
sowie fast immer eine stark asymmetrische Häufigkeitsverteilung aufweisen (z.B. Keimzahlen in flüssigen Medien,
wie Milch und Gülle).
- das geom. Mittel findet auch Anwendung bei logarithmischen
Daten (z.B. Spektralanalyse)
Es gibt folgende Möglichkeiten der Berechnung des geom.
Mittels und der durchschnittlichen Zuwachsrate:
1. Seien x1, ... ,xn Beobachtungswerte (rel. Änderungen, bez.
auf 1 = 100%) mit xi ≥ 0 für i=1,...,n und r die durchschnittliche Zuwachsrate.
xg = n x1 ⋅K⋅ xn
und
r =
xg − 1
2. Manche Analysenmethoden liefern die Logarithmen der
gesuchten Gehalte (z.B. Spektralanalyse).
1 n
lg x g = ∑ lg x i =
n i=1
lg x
x g = 10
lg x
3. Wenn sich eine Anfangsmenge A in einer Zeiteinheit um eine
konstante Zuwachsrate r erhöht, dann erhält man nach n
Zeiteinheiten die Endmenge E: E = A(1+r)n
xg = n E A
und
r =
xg − 1
2. Weitere Lagemaße:
● α - Quantil
Wir betrachten die Variationsreihe x (1) , ... ,x (n) .
Dann sind α % der Merkmalswerte ≤ und (1- α) % der
Merkmalswerte ≥ dem α - Quantil.
 x(k+1)
;k = int(n ⋅ α), falls n ⋅ α keine

~
xα =  x(k ) + x(k+1)
;k =
n ⋅ α, falls n ⋅ α

2
g.Z.
g.Z.
(int = ganzer Teil)
Wenn
 0 ,5

α =  0 ,25
 0 ,75

⇒
⇒
Median
unteres
Quartil
⇒
oberes
Quartil
1.4.2. Streuungsmaße
- Maße, die die Abweichung der Beobachtungswerte vom
Zentrum einer Häufigkeitsverteilung beschreiben, heißen
Streuungs- oder Dispersionsmaße.
- Kennt man Lage- und Streuungsmaße, hat man schon eine
recht gute Vorstellung von der Häufigkeitsverteilung, ohne
diese explizit zu kennen.
● Spannweite (Range, Variationsbreite)
Sie ist das einfachste Streuungsmaß und gibt den Streubereich einer HV an, d.h. den Bereich, in dem alle Merkmalswerte liegen.
Sei x(1), ... ,x(n) eine Variationsreihe, dann gilt:
R = x(n) - x(1) .
Vorteil:
- Einfach zu bestimmendes Streuungsmaß,
einfach interpretierbar
Nachteile: - R ist nicht robust gegenüber Ausreißern
- R besitzt keine guten stat. Schätzeigenschaften,
da außer den extremen Merkmalswerten alle
anderen Werte unberücksichtigt bleiben.
● Quartilsabstand (Interquartile range)
- Der Quartilsabstand gibt den Bereich zwischen oberem und
unterem Quartil einer Messreihe an.
- Er enthält 50 % aller Merkmalswerte.
~
x
−~
x
I =
0 , 75
0 , 25
Vorteile: - I ist robust gegenüber Ausreißern
- I ist anschaulich und besitzt bessere statistische
Schätzeigenschaften als die Spannweite
Nachteil: - nicht alle Informationen der Stichprobe gehen in
die Berechnung ein
● Mittlere absolute Abweichung vom Median
Man wählt hier als Bezugsgröße für die Abweichung der
Merkmalswerte vom Zentrum der Häufigkeitsverteilung den
Median.
1 n
d = ∑ xi − ~
x 0 ,5
n i =1
Es gilt die Minimumeigenschaft des Medians:
n
∑
i =1
n
xi − ~
x 0 ,5 ≤ ∑ x i − c
∀c ∈ R
i =1
Vorteile: - d ist robust gegenüber Ausreißern
- d ist gut geeignet bei schiefen Häufigkeitsverteilungen
Nachteil: - bei Normalverteilung ist die empir. Varianz das
bessere Schätzmaß
● Median der absoluten Abweichungen vom Median
y 0 ,5
x 0 ,5 ) = ~
MAD = med ( x i − ~
x 0 ,5
yi = x i − ~
Vor- und Nachteile: analog wie mittlere abs. Abweichung
vom Median
● Stichprobenvarianz und Standardabweichung
- Wir betrachten nun als Bezugsgröße für das Zentrum der HV
das arithmetische Mittel und wählen als Abstandsmaß keine
betragliche Differenz, sondern quadratische Abstände.
- Dann ist die Stichprobenvarianz die durchschnittliche quadratische Abweichung der Messwerte vom arithm. Mittelwert.
- Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der
voneinander unabhängigen Abweichungen, genannt
Freiheitsgrad, dividiert.
n
n
2

1
1

2
2
2
  ∑ xi  − nx 
s =
( xi − x ) =
∑
n − 1 i=1
n − 1  i=1 

Es gilt die Minimumeigenschaft des arithm. Mittelwertes:
n
n
i=1
i=1
2
2
(
x
−
x
)
≤
(
x
−
c
)
∑ i
∑ i
∀c ∈ R
- Als Standardabweichung s bezeichnet man:
s=
1 n
2
(
x
−
x
)
=
∑
i
n − 1 i=1
1
2
(∑ x i − n x 2 )
n −1
- Der Standardfehler des arithm. Mittelwertes bezieht sich
auf den Stichprobenumfang:
s
sx =
n
Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften
bei Normalverteilung
- Die Standardabweichung s hat die gleiche
Dimension wie die Messwerte und der arithm.
Mittelwert, man kann daher Intervalle der Form
x±s
bzw.
x ± 3 ⋅ s angeben.
Nachteil: - s2 ist nicht robust gegenüber Ausreißern
- Variationskoeffizient
Der Variationskoeffizient ist ein von
x bereinigtes Streuungs-
maß, das das Verhältnis von s und
x
misst.
s
v = ⋅ [100 %]
x
Vorteil:
- v ist gut geeignet zum Vergleich von Streuungen
von Beobachtungsreihen mit unterschiedlichem
Mittelwert
Nachteil: - v ist nur für positive Messwerte geeignet
Grafische Darstellung von Lage- und Streuungsmaßen:
1. Box- und Whisker Plot
Enzymaktivitäten von 8 Mutanten
Vanadiumgehalt von Weinen
Multipler Box- Whisker Plot für Vanadium
Box & Whisker Plot
(Enzymaktivitäten)
3,0
75
2,5
2,0
65
1,5
60
1,0
55
0,5
20
1
2
3
4
5
Mutanten
6
7
8
Median
25%-75%
Min-Max
Weisswein
Rotwein
Land
So uth Africa
25
Ro mania
30
Hu ngary
-1,5
35
Czech Republic
-1,0
So uth Africa
40
-0,5
Ro mania
45
0,0
Hu ngary
50
Czech Republic
Vanad ium
Enzymkonzentrationen
70
Median
25%-75%
Non-Outlier Range
Grafische Darstellung von Lage- und Streuungsmaßen:
2. Mittelwertplots
Enzymaktivitäten von 8 Mutanten
Mittelwertplot
Mittelwertplot
(Enzymaktivitäten von Mutanten)
(Enzymaktivitäten)
75
70
70
65
Enzymkonzentrationen
Enzymkonzentrationen
65
60
55
50
45
40
35
60
55
50
45
40
35
30
30
25
20
1
2
3
4
5
Mutanten
6
7
8
arithm . Mittelwert
MW + - 95%-iges Konfidenzintervall
Extrem werte
25
1
2
3
4
5
Mutanten
6
7
8
arithm . MW
Mean±0,95*SD
Bem.: - Die Standardabweichung ist das Streuungsmaß, das
z.B. in der analytischen Chemie am häufigsten verwendet wird, um den Zufallsfehler von Analysemethoden (nicht von Einzelwerten!) zu
charakterisieren.
- Bei log. Verteilungen wird die Standardabweichung
aus den Logarithmen der Messwerte berechnet.
s2 =
1
(lg x i − lg x g )2
n −1
=
1
(lg x i − lg x )2
n −1
- Der minimale Stichprobenumfang zur Bestimmung
von Stichprobenvarianz und Standardabweichung
beträgt n = 6.
Bem.: - Falls z.B. bei chem.- analytischen Untersuchungen
nur < 6 Mehrfachbestimmungen an einer Probe
durchgeführt werden können, dafür aber mehrere
Bestimmungswerte an Proben unterschiedlichen
Gehaltes vorliegen (Vor.: die Varianz ist unabhängig
vom Gehalt der Probe!), kann man die Gesamtstichprobenvarianz bzw. -standardabweichung wie
folgt berechnen:
m
nj
1
2
s =
(
x
−
x
)
∑
∑
ji
j
n − m j = 1 i =1
2
s= s
wobei m - Anz. der Proben und
nj - Anz. der Mehrfachbestimmungen
der j- ten Probe
2
1.4.3. Schiefe und Exzess
1. Schiefe
- Wenn der Median und der Modalwert vom arithmetischen
Mittel abweichen, bezeichnet man eine Verteilung als schief.
- Man charakterisiert schiefe Verteilungen außer durch Lageund Streuungsmaße auch durch die Schiefe g1 als Maß für
die Schiefheit und ihre Richtung.
- Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen
einer genügend großen Anzahl von Beobachtungswerten
und nach allen messtechnischen und mathematischen
Möglichkeiten der Transformation der Daten in symmetrische
Verteilungen die Schiefe der Verteilung bestehen bleibt.
- Keine echte Schiefe liegt vor, wenn man schiefe
Verteilungen durch Transformationen (z.B. Logarithmieren) in
symmetrische überführen kann.
Bsp.: Auftreten log. Verteilungen bei:
• Analyse sehr niedriger Gehalte (z.B. Spurenanalyse)
• Merkmalen mit sehr großer Spannweite (mehrere
Zehnerpotenzen)
• sehr großem Zufallsfehler (z.B. halbquantitative
Spektralanalyse)
g1 =
1 n
3
(
x
−
x
)
∑ i
n i=1
1 n
( ∑ ( x i − x ) 2 )3
n i=1
1 n  xi − x 
= ∑

n i=1  s 
Eine HV ist symmetrisch, wenn
3
x=~
x 0,5 = x mod
Eine HV ist linksschief oder rechtssteil, wenn
und
g1 = 0
x<~
x 0,5 < x mod
und g1 < 0
~
Eine HV ist rechtsschief oder linkssteil, wenn x > x 0,5 > x mod
und g1 > 0
2. Exzeß und Kurtosis
- Mängel in den gewählten Versuchsbedingungen können zu
einer Überhöhung (Streckung) oder Unterhöhung
(Stauchung) der Häufigkeitsverteilung führen.
Derartig verzerrte Verteilungen werden durch den Exzeß g2
charakterisiert.
- Der Exzeß gibt an, ob das absolute Maximum der
Häufigkeitsverteilung (bei annähernd gleicher Varianz)
größer oder kleiner dem Maximum der Normalverteilungsdichte ist.
1
( x i − x )4
∑
g2 = n
−3
2
1
2
(
x
−
x
)
n ∑ i



g2‘ heißt Kurtosis.
4
1 x −x
= ∑ i
 − 3 = g 2 '−3
n  s 
Wenn g2 = 0 ⇒
Häufigkeitsverteilung entspricht der NV
Wenn g2 < 0 ⇒
abs. Häufigkeitsmaximum < Maximum der
NV- Dichte (HV ist flachgipfliger),
d.h. die Anzahl „größerer“ Abweichungen
von x ist geringer als bei der NV bei
gleicher Varianz.
Wenn g2 > 0 ⇒
abs. Häufigkeitsmaximum > Maximum der
NV- Dichte (HV ist steilgipfliger),
d.h. die Anzahl „größerer“ Abweichungen
von x ist größer als bei der NV bei
gleicher Varianz.
Als k- tes Moment bezeichnet man:
und als k-tes zentriertes Moment:
1
n
n
∑
xi
k
i=1
1 n
( x i − x )k
∑
n i =1
Bem.: Damit stellen der arithm. Mittelwert das 1. Moment
und die empirische Varianz das 2. zentrierte Moment
dar, während Schiefe und Exzeß auf dem 3. bzw. 4.
zentrierten Moment basieren.
1.5. Mehrdimensionale Merkmale
- Wir haben bisher überwiegend Aufgabenstellungen
betrachtet, bei denen an jeder Beobachtungseinheit nur ein
einziges Merkmal beobachtet wurde. Für dieses Merkmal
wurden die empirische Häufigkeitsverteilung und die
Verteilungsfunktion ermittelt und grafisch dargestellt und
Lage- und Streuungsmaße berechnet.
- Bei vielen praktischen Problemen wirken jedoch Merkmale
nicht nur einzeln, sondern auch im Komplex. Es interessiert
dann der Zusammenhang zwischen zwei oder mehreren
Merkmalen.
- Wir bezeichnen einen Komplex von Merkmalen auch als
mehrdimensionales Merkmal (od. Merkmalsvektor) und
schreiben: (X1,...,Xn), bzw. (X,Y) bei einem zweidimensionalen Merkmal.
Beispiele:
1. X- Lagerzeit von Zuckerrüben
Y- Saccharosegehalt von Zuckerrüben
2. X- Körpermasse von Schweinen
Y- Körpergröße von Schweinen
(X- deterministische d.h.
einstellbare Einflussgröße,
Y- zufällige Zielgröße)
(X und Y - zufällige Größen,
jede kann als Einfluss- bzw.
Zielgröße betrachtet werden)
3. Prozess des Nass-Salzens von Hartkäse
(X1,X2,X3 - determ.
X1- Natriumchloridgehalt im Salzbad
Einflussgrößen,
X2- Temperatur des Salzbades
Y1,Y2 - zufällige
X3- Salzdauer
Zielgrößen)
Y1- Masseausbeute des Käses nach dem Salzen
Y2- Sensorischer Qualitätsparameter
WICHTIG: Erfassung aller für den zu untersuchenden Sachverhalt (Produkt, Prozess) wesentlichen Merkmale!
4 Fragestellungen sind von Interesse:
0. Welche Art von Merkmalen werden betrachtet?
(Klassifizierung, Einflussgröße einstellbar oder zufällig?)
1. Wie lassen sich zweidimensionale Merkmale grafisch
darstellen? (Punktwolke, Streudiagramm, XY- Scatterplot)
2. Wie sieht die Häufigkeitsverteilung (tabellarisch und
grafisch) eines zweidimensionalen Merkmals aus?
(2-dim. Häufigk.tabelle- Kontingenztafel, 3 -dim. Histogramm)
3. Wie stark ist der Zusammenhang zwischen 2 Merkmalen
X und Y und welche Richtung hat er?
(Assoziations-, Kontingenz-, Maßkorrelations- u.
Rangkorrelationskoeffizient)
4. In welcher Form lässt sich der Zusammenhang
darstellen?
(Kontingenztafel-, Varianz- u. Regressionsanalyse)
zu 1.) Streudiagramm (XY- Scatterplot)
y
annähernd linearer Zusammenhang
x
y
y
Hyperbel
Rezipr. Transf.
x
Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen
1/x
zu 2.) Häufigkeitsverteilung
Zur Darstellung von Häufigkeitsverteilungen dienen
Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und
grafische Darstellungen durch dreidimensionale Histogramme
oder Polygone.
1. Fall:
- Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2
Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht
vorhanden)
Vierfeldertafel (2 x 2):
Y
X vorhanden
nicht vorh.
Summe
Summe
vorhanden
nicht vorhanden
f11
f12
f11+f12
f21
f22
f21+f22
f11+f21
f12+f22
n
Bem.:
- Die absoluten Häufigkeiten fjk (j,k=1,2) im Innern der Tafel
stellen die 2- dim. absolute Häufigkeitsverteilung dar.
(analog: die relativen Häufigkeiten hjk = fjk/n stellen die 2dim. relative Häufigkeitsverteilung dar).
- Die Randsummenhäufigkeiten (Zeilen- und Spaltensummen) stellen die entsprechenden 1- dim. Häufigkeitsverteilungen von X bzw. Y dar.
- Aus der zweidimensionalen Häufigkeitsverteilung kann
man auf die eindimensionalen Häufigkeitsverteilungen
schließen, es gilt aber nicht die Umkehrung!
Bsp.: Untersuchung von 227 Ratten auf Milbenbefall der
Species A und B
Vierfeldertafel (2x2):
Spezies A
Summe
vorhanden
nicht vorhanden
Spezies vorhanden
B
nicht vorhanden
44
23
67
75
85
160
Summe
119
108
227
- Die Randsummen geben Aufschluss darüber, wie viele der
Ratten eine der beiden Milben beherbergen bzw. nicht beherbergen, unabhängig davon, ob die andere Spezies vorhanden
ist oder nicht, d.h. sie geben die eindimensionalen Häufigkeitsverteilungen an, die man erhalten würde, wenn man die Ratten
von vornherein nur auf An- und Abwesenheit einer einzelnen
Milbenspezies allein untersucht hätte.
Ergebnis:
- Die Chance, eine A- Milbe anzutreffen, ist bei den Ratten,
bei denen schon B- Milben festgestellt wurden, größer als bei
allen Ratten zusammengenommen, denn: nur auf etwa der
Hälfte aller 227 Ratten kamen A- Milben vor (Randsumme
119), aber in der Teilmenge der 67 Ratten, die B- Milben
beherbergen, befinden sich 44 Träger von A- Milben.
Damit ist der Anteil der Träger von A- Milben unter den
Trägern von B- Milben größer als in der Gesamtprobe!
Umgekehrt gilt dasselbe.
- Zwischen dem A- Milbenbefall und dem B- Milbenbefall
scheint also ein statistischer Zusammenhang zu bestehen.
Bem.: - In einer Vierfeldertafel erkennt man einen statistischen Zusammenhang daran, dass die abs. Häufigkeiten einer Reihe bzw. Spalte im Tafelinnern nicht
proportional zu den entsprechenden Randsummen
sind (44/23 ≠ 119/108 bzw. 75/85 ≠ 119/108, analog
die Verhältnisse zur Zeilensumme!)
- aber: bei kleinen abs. Häufigkeiten können durch
Zufall Disproportionalitäten vorgetäuscht sein,
d.h. die Sicherheit für das Vorhanden sein
eines statistischen Zusammenhanges ist
entsprechend gering!
2. Fall:
- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, bei dem
jede Komponente auf einer Rangskala gemessen wird,
d.h. als Merkmalsausprägung eine Rangzahl hat.
- Vorliegen einer Tabelle der Rangzahlen (keine Häufigkeitstabelle!)
Tabelle der Rangzahlen:
i
R(xi)
R(yi)
di
di2
1
R(x1)
R(y1)
d1
d12
...
...
...
...
...
n
R(xn)
R(yn)
dn
dn2
- dabei ist di = R(xi) - R(yi) die Differenz der Rangzahlen der
i- ten Komponente von X und Y
Bsp.: Weinverkostung
Bei einer Weinverkostung sollen 8 Weinsorten hinsichtlich
ihres Aromas in eine Rangordnung gebracht werden. 2 Prüfer
sollen unabhängig voneinander die Sorten begutachten, wobei
die Sorte mit dem schwächsten Aroma die Rangzahl 1 und die
Sorte mit dem stärksten Aroma die Rangzahl 8 erhalten soll.
Tabelle der Rangzahlen:
i
Sorte
Prüfer 1
R(xi)
Prüfer 2
R(yi)
di
1
A
6
5
1
2
B
3
2
1
3
C
8
8
0
4
D
2
4
-2
5
E
1
1
0
6
F
7
6
1
7
G
4
3
1
8
H
5
7
-2
Ergebnis:
- Nur bei 2 Sorten gab es Übereinstimmung in der Bewertung,
bei allen übrigen Sorten gab es Differenzen, die aber nicht
mehr als 2 Rangzahlen betragen.
- Man kann einen statistischen Zusammenhang vermuten,
denn je höher im allgemeinen die Rangzahl des 1. Prüfers
ist, desto höher ist im allgemeinen auch die Rangzahl des 2.
Prüfers.
- Die Weinsorten scheinen also Aromaunterschiede
aufzuweisen und beide Prüfer waren in der Lage, diese
zu erkennen.
3. Fall:
- Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, deren
Ausprägungen (aj,bk) mit den absoluten Häufigkeiten fjk und
den relativen Häufigkeiten hjk für j=1,...,l und k=1,...,m
auftreten.
Kontingenztafel (l x m):
Y
X
Summe
b1
b2
a1
f11
f12
...
f1m
f1.
a2
f21
f22
...
f2m
f2.
...
...
...
...
...
al
fl1
fl2
f.1
f.2
Summe
...
...
bm
flm
fl .
f.m
n
Bem.:
- Die absoluten Häufigkeiten fjk (j=1,...,l; k=1,...,m) im Innern
der Tafel stellen die 2- dim. absolute Häufigkeitsverteilung
dar.
- Das Merkmal X hat die Ausprägungen a1,...,al, die mit den
absoluten Randsummenhäufigkeiten f1. ,..., fl. auftreten und
das Merkmal Y hat die Ausprägungen b1,...,bm, die mit den
absoluten Randsummenhäufigkeiten f.1 ,..., f.m auftreten.
- Die Randsummenhäufigkeiten bilden die 1- dim. absoluten
Häufigkeitsverteilungen von X bzw. Y.
- Analog erhält man die 1- und 2- dim. relativen Häufigkeitsverteilungen.
Bsp.: Untersuchung der Noten von 32 Studenten in
Mathematik und Statistik
Kontingenztafel (5 x 5):
Note in Mathematik
Note
in
Statistik
1
2
3
4
5
Summe
1
1
1
0
0
0
2
2
0
2
3
0
0
5
3
0
2
10
4
0
16
4
0
0
2
4
0
6
5
0
0
1
1
1
3
Summe
1
5
16
9
1
32
Ergebnis:
- Je besser im allgemeinen die Note in Mathematik ist, desto
besser ist im allgemeinen auch die Note in Statistik und
umgekehrt.
- Man kann also einen statistischen Zusammenhang zwischen
den Noten vermuten, den man daran erkennt, dass die in
der Nähe der Diagonalen (von links oben nach rechts unten)
gelegenen Felder der Kontingenztafel die höchsten
absoluten Häufigkeiten (Besetzungszahlen) aufweisen.
4. Fall:
- Sei (X,Y) ein metrisch skaliertes Merkmal, für deren
Komponenten X und Y eine Klasseneinteilung vorliegt
Häufigkeitstabelle (analog Kontingenztafel!) (l x m):
Klassengrenzen
X
(y0;y1]
Y
(y1;y2]
...
(ym-1;ym]
Summe
(x0;x1]
f11
f12
...
f1m
f1.
(x1;x2]
f21
f22
...
f2m
f2.
...
...
...
...
...
(xl-1;xl]
fl1
fl2
f.1
f.2
Summe
...
flm
fl⋅
f.m
n
Bsp.: Untersuchung des Zusammenhangs zwischen dem
Kalium- und Aschegehalt bei Weinen
Bsp.: Weindaten (2- dim.Histogramm)
2- dim. Histogramm
(Weine aus Ungarn und Tschechien)
2- dim. Histogramm
(Weine aus Ungarn und Tschechien)
zu 3.) Zusammenhangsmaße
Art der Merkmale Häufigkeitsvert. Zusammenhangsmaß
nominalskaliert
Vierfeldertafel
Assoziationskoeff. von
Cramér , Cole, and Yule,
Kontingenzkoeff. von
Pearson
nominal- oder (und)
ordinalskaliert
Kontingenztafel
Assoziationskoeff. von
Cramér und Kontingenzkoeff. von Pearson
ordinalskaliert
(Tab. von
Rangzahlen)
Rangkorrelationskoeff. von
Spearman und Kendall
metrisch skaliert
2- dim.
Häufigkeitstabelle
(Kontingenztafel)
Vor.: X,Y zufällige Merkmale
Lin. Abhängigkeit → Maßkorrelationskoeff. von
Bravais/ Pearson
Mon. Abhängigkeit → Rangkorrelationskoeff. von
Spearman
1. Kontingenzkoeffizient C von Pearson:
- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes
diskretes Merkmal, das in den Ausprägungen (aj, bk) für
j = 1,Bl und k = 1,B,m mit den abs. Häufigkeiten fjk auftritt.
- Der Kontingenzkoeffizient ist ein Maß für die Stärke des
stochastischen Zusammenhanges zwischen 2 diskreten
Merkmalen.
χ
C= 2
χ +n
2
wobei
f j⋅ ⋅ f⋅k

f −
l
m  jk
n

2
χ = ∑∑
f j⋅ ⋅ f⋅k
j =1 k =1
n



2
Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall
vollst. Zusammenhang
kein Zusammenhang
min (l, m ) − 1
min (l, m )
0≤C≤
an.
- Der maximale Wert von C (d.h. vollständige Kontingenz)
ist von der Tafelgröße (Zeilen- bzw. Spaltenzahl l und m)
abhängig und nähert sich für große l bzw. m gegen 1.
⇒ besser: korrigierter Kontingenzkoeffizient von
Pearson Ccorr
- Für die Vierfeldertafel gilt:
χ
C= 2
χ +1
2
und 0 ≤ C ≤ 0,707
Bem.: - Der korrigierte Kontingenzkoeffizient Ccorr wird
berechnet nach:
χ
min (l, m )
⋅
2
χ +n
min (l, m ) − 1
2
C=
und es gilt nun: 0 ≤ Ccorr ≤ 1 ,
d.h. bei vollständiger Kontingenz wird immer der
Wert 1 angenommen, unabhängig von der
Größe der Kontingenztafel.
2. Assoziationskoeffizient von Cramér (Cramér‘s V):
- Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes
diskretes Merkmal, das in den Ausprägungen (aj, bk) für
j = 1,Bl und k = 1,B,m mit den abs. Häufigkeiten fjk auftritt.
- Der Assoziationskoeffizient ist ebenfalls ein Maß für die
Stärke des stochastischen Zusammenhanges zwischen 2
diskreten Merkmalen.
vollst. Zusammenhang
kein Zusammenhang
χ
n (min (l, m ) − 1)
2
V=
wobei
mit
f j⋅ ⋅ f⋅k


f −
l
m  jk
n

2
χ = ∑∑
f j⋅ ⋅ f⋅k
j =1 k =1
n



2
0≤V≤1
3. Rangkorrelationskoeffizient rs von SPEARMAN:
- Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes
Merkmal, bei dem jede Komponente Merkmalswerte mit
einer eindeutigen Rangfolge hat (rangskaliert).
- Wir beobachten an den n Beobachtungseinheiten die
Merkmalswerte (xi,yi) für i=1,...,n
- Wir ordnen nun jedem Beobachtungswert xi bzw. yi für
i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt:
R(x(i)) = i für i=1,...,n und x(1) ≥ x(2) ≥ ... ≥ x(n)
- Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet
man diesen gleichen Werten als Rang das arithmetische
Mittel der Ränge zu, die sie einnehmen.
-Der Rangkorrelationskoeffizient ist ein Maß für die Stärke
und Richtung eines monotonen stochastischen Zusammenhanges zwischen 2 rangskalierten Merkmalen.
Formel für den Rangkorrelationskoeffizienten rs:
∑ (R(x ) − R (x ))⋅ (R(y ) − R (y ))
n
i
rs =
i
i =1
(∑ (R(x ) − R (x )) )⋅ (∑ (R(y ) − R (y )) )
2
2
i
rs =
i
 n

 ∑ R(x i ) ⋅ R(y i ) − n ⋅ R ( x ) ⋅ R ( y )
 i=1

((∑ R(x ) ) − n ⋅ R (x ) )⋅ ((∑ R(y ) ) − n ⋅ R (y ) )
2
i
2
2
i
2
Wenn keine „Bindungen“ vorliegen,
d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt:
6 ⋅
rs = 1 −
n
∑
(
i= 1
2
n ⋅ n
di
2
− 1
)
, wobei d i = R (x i ) − R (y i )
i=1,B,n
Bem.: Für den Rangkorrelationskoeffizienten gilt:
● Wenn rs < 0 → neg. Rangkorrelation
Wenn rs > 0 → pos. Rangkorrelation
● -1 ≤ rs ≤ +1
● |rs| = 1 , wenn X und Y monoton zusammenhängen
rs = 1 , wenn die x- Ränge mit den y- Rängen
übereinstimmen
rs = -1 , wenn die x- und y- Ränge genau
entgegengesetzte Rangfolgen ergeben.
Bsp.: Aromaprüfung von 8 Weinsorten durch 2 Prüfer
Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf
einen recht starken, monoton wachsenden
stochastischen Zusammenhang hin.
4. Maßkorrelationskoeffizient rXY von BRAVAIS- PEARSON:
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal, deren
Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise
linearen Zusammenhang zwischen X und Y vermuten
lassen.
- Wir beobachten an den n Beobachtungseinheiten die
Merkmalswerte (xi,yi) für i=1,...,n
- Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und
Richtung eines linearen stochast. Zusammenhanges
zwischen 2 metrisch skalierten Merkmalen.
Formel für den Maßkorrelationskoeffizienten rXY:
n
∑ (x
n −1
rXY =
i
− x ) ⋅ (y i − y )
i =1
(∑ (x − x ) )⋅ (∑ (y − y ) )
2
n −1
rXY =
2
i
i
 n

 ∑ x i ⋅ y i  − n ⋅ x ⋅ y
 i=1

((∑ x ) − n ⋅ x )⋅ ((∑ y ) − n ⋅ y )
2
i
2
2
i
2
Bem.: Für den Maßkorrelationskoeffizienten rXY gilt:
● Wenn rXY < 0 → negative Korrelation
Wenn rXY > 0 → positive Korrelation
● -1 ≤ rXY ≤ +1
● |rXY| = 1 , wenn X und Y linear zusammenhängen
● Wenn rXY = 0 → Unkorreliertheit zwischen X und Y
Wenn rXY = 0 und (X,Y) 2- dim. normalverteilt
→ Unabhängigkeit zwischen X und Y
● Der Korrelationskoeffizient ist nicht imstande,
nichtlineare Zusammenhänge zwischen Merkmalen
zu erkennen.
● Man beachte Schein- und Unsinnkorrelationen!
Bem.: ● Merkmale mit sehr schiefen Häufigkeitsverteilungen
können mitunter auch einen Korrelationskoeffizienten
nahe 0 haben, obwohl ein statistischer Zusammenhang zwischen ihnen besteht.
● B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil
der Variation der y- Werte an, der durch den linearen
Zusammenhang zwischen X und Y bestimmt wird.
● Bei der Untersuchung von linearen Abhängigkeiten
zwischen mehr als 2 Merkmalen gibt es:
- partielle Korrelationskoeffizienten,
- multiple Korrelationskoeffizienten und
- kanonische Korrelationskoeffizienten.
Zu 4.) Form der statistischen Abhängigkeit
- Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den
Merkmalswerten (xi,yi) für i=1,...,n.
- Es interessiert die Form der Abhängigkeit eines Merkmals Y
(abhängiges Merkmal, Zielgröße, Regressand) von einem
Merkmal X (unabh. Merkmal, Einflussgröße, Regressor).
- Alle kontrollierbaren Einflussgrößen werden konstant
gehalten.
- Wir beschränken uns auf den Fall des Modells I der einfachen
linearen Regression (1Einflussgröße, lineare Abhängigkeit).
Vor.: ● Y zuf. Merkmal,
einstellbares Merkmal


● X  zuf. Merkmal, mit kleinem Fehler messbar  → RM I
 zuf. Merkmal

→ RM II
● Streudiagramm (XY- Scatterplot) →
Annahme eines linearen Modells für die Abhängigkeit
zwischen X und Y in der Grundgesamtheit:
y = β0 + β1 x,
genannt lineare Regressionsgleichung.
Dann gilt für die Zielgröße:
Y = β0 + β1 X + ε
Zufallsfehler,
wobei ε ~ N(0, σ2) und σ2
unabhängig von den Messpunkten xi
→ bei RM I : Y~ N(β0 + β1 x, σ2)
Regressionsanalyse:
1. Schätzung der empirischen linearen Regressionsgleichung
(Ausgleichsgerade) nach der Methode der kleinsten
Quadrate (MkQ, LS):
Beobachtungswerte
Modellwerte
1 n
1 n
1 n 2
2
2
Q(β0 , β1 ) = ∑ (y i − ŷ i ) = ∑ (y i − (β0 + β1 ⋅ x i )) = ∑ εˆ i → min
n i=1
n i=1
n i=1
geschätzte Residuen
Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum
annimmt, nennt man Kleinste-Quadrate-Schätzer βˆ 0 und βˆ1 .
Durch Nullsetzen der partiellen Ableitungen von Q nach β0
und β1 erhält man ein Normalgleichungssystem, das zu
lösen ist.
Die auf der Basis der konkreten Stichprobe ermittelten
Schätzwerte für β0 und β1 bezeichnet man mit b0 und b1.
n
b1 =
∑ (x
i
− x ) ⋅ (y i − y )
i =1
n
∑ (x
− x)
2
i
=
SPXY
SQ X
oder:
b 1 = rXY
sY
sX
i =1
und
b0 = y − b1 ⋅ x
→ geschätzte lineare Regressionsgleichung:
ŷ (b 0 , b1 ) = b 0 + b1 ⋅ x
Bem.:
s XY
1 n
1
(
)
(
)
=
x
−
x
⋅
y
−
y
=
⋅ SP XY
∑
i
i
n − 1 i =1
n −1
heißt Kovarianz zwischen X und Y und
sX
2
1 n
1
2
(x i − x ) =
=
⋅ SQ X
∑
n − 1 i=1
n −1
Varianz von X.
2. Zeichnen der Regressionsgerade ins Streudiagramm:
y
ŷ = b0 + b1 ⋅ x
ŷ i

 ε̂

yi
i
b0
0
xi
x
3. Güte des Regressionsmodells
- Beurteilung der Güte der Modellvorhersage für jeden Messwert mit Hilfe der geschätzten Residuen εˆ i = y i − ŷ i , i=1,B, n
- Maß für die Variation der Stichprobenwerte um die
geschätzte Regressionsgerade: Restvarianz
sR
2
sR
1 n
1 n
1 n 2
2
2
(yi − ŷ i ) =
(y i − (b0 + b1 ⋅ x i )) =
=
εˆ i
∑
∑
∑
n − 2 i=1
n − 2 i=1
n − 2 i=1
2
1
=
⋅ SQR
n−2
geschätzte Residuen
Restquadratsumme
FG
- Streuungszerlegung (Zerlegung der Quadratsummen!):
SQ T = SQR + SQM
„Gesamtstreuung“
n
∑ (yi − y )
i=1
2
durch den Modellzusammenhang
erklärte „Streuung“
„Reststreuung“
n
n
= ∑ (y i − ŷ i ) + ∑ (ŷ i − y )
i=1
2
i=1
2
Erklärte Streuung: Darstellung der Variation der y- Werte,
die auf den linearen Zusammenhang
SQM
zwischen X und Y zurückzuführen ist,
d.h. sie enthält die Variation der Werte
auf der Geraden um den Mittelwert y .
Reststreuung:
SQR
Verbleibender Rest der Variation der yWerte
Bem.: ● Liegen alle beobachteten Werte exakt auf einer
Geraden, so sind die Residuen 0 und ebenso die
Reststreuung. Dann ließe sich die gesamte Variation
von Y durch den linearen Modellzusammenhang mit
X erklären (funktionaler linearer Zusammenhang).
● Je größer die Reststreuung ist, desto schlechter
beschreibt das Modell die Daten.
- Als Maßzahl für die Güte der Modellanpassung
verwendet man häufig das Bestimmtheitsmaß B.
Es gibt den Anteil an der Gesamtstreuung der y- Werte
an, der durch die Regression von Y auf X erklärt wird
und ist der Quotient aus erklärter und Gesamtstreuung.
n
SQM
B=
=
SQ T
∑ (ŷ
n
− y)
2
i
i=1
n
2
(
)
y
−
y
∑ i
= 1−
i=1
∑ (y
− ŷ i )
2
i
i=1
n
2
(
)
y
−
y
∑ i
i=1
0≤B≤1
kein linearer Zusammenhang
B = rXY2
funktionaler linearer Zusammenhang
Für Vorhersagen sollte das Bestimmtheitsmaß möglichst ≥ 0,8 sein!
Aber: B ist bei RM I vom Versuchsplan abhängig!
- Tests zur Prüfung der Modelladäquatheit (F- Test der
Varianzanalyse) und zur Prüfung der Modellparameter
(t- Tests, Konfidenzintervalle) im Rahmen der schließenden
Statistik
4. Residualanalyse
- Prüfen der Modellvoraussetzungen über den Zufallsfehler
(ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi)
- Residualplots
εˆ i = y i − ŷ i → normierte Residuen
d
εˆ i
di =
sεˆ
d
Ausreißer
d
+3
ŷ
0
0
ŷ
0
-3
idealer Verlauf
ungleiche Varianzen
ŷ
d i > 3 → Ausreißer
Bsp.: Weindaten, Abhängigkeit zwischen den seltenen ErdenParametern Lanthanum und Gadolinum (RM II)
XY- Scatterplot (Lanthanum, Gadolinum)
y = -0,7128 + ,91690 * x
Korrelationskoeffizient: r = 0,98136
1
0
Gadolinum
-1
-2
-3
-4
-5
-4
-3
-2
-1
Lanthanum
0
1
2
95% Konfigen zgrenzen
Zugehörige Unterlagen
Herunterladen