Folien zur Vorlesung Statistik für Prozesswissenschaften (Teil 1: Beschreibende Statistik) U. Römisch http://www.lmtc.tu-berlin.de/angewandte_statistik_und_consulting Inhaltsverzeichnis EINLEITUNG 1. Was versteht man unter Statistik, Biometrie, Chemometrie, Ökonometrie und Technometrie? 2. Wie lügt man mit Statistik? ● Umfragen ● Mittelwert- und Streuungsmaße ● Wahrscheinlichkeiten ● Grafiken ● Signifikanzaussagen bei statistischen Tests 1. BESCHREIBENDE (DESKRIPTIVE) STATISTIK 1.1. Charakterisierung von Merkmalen 1.2. Grundgesamtheit und Stichprobe 1.3. Die Häufigkeitsverteilung diskreter und stetiger eindimensionaler Merkmale - absolute u. relative Häufigkeiten und ihre grafische Darstellung - empirische Verteilungsfunktion 1.4. Stat. Maßzahlen eindim. Merkmale - arithm. Mittel, Median, gestutztes Mittel, Modalwert, geometrisches Mittel, α- Quantil - Spannweite, Medianabstand, Quartilsabstand, Varianz, Standardabweichung, Standardfehler des arithm. Mittelwertes, Variationskoeffizient, Box- und Whisker Plots - Schiefe und Exzess 1.5. Zweidimensionale Merkmale - grafische Darstellung (Scatterplot) - Häufigkeitsverteilung (Vierfeldertafel, Kontingenztafel, 2- dim. Häufigkeitstabelle, graf. Darstellungen) - Zusammenhangsmaße (Assoziations-,Kontingenz-, Maßkorrelations- und Rangkorrelationskoeff.) - lineare Regression (einf. und multiple lineare Regression und polynomiale Regression) 2. WAHRSCHEINLICHKEITSRECHNUNG 2.1. Zufällige Ereignisse, Ereignisfeld, Wahrscheinlichkeit - Regeln für die Berechnung von Wahrscheinlichkeiten 2.2. Zufallsgrößen (ZG) - Arten von Zufallsgrößen und ihre Verteilungen (diskrete und stetige Zufallsgrößen) - Kenngrößen von Zufallsgrößen (Erwartungswert u. Varianz) 2.3. Spezielle Verteilungen - Binomial-, Hypergeometrische-, Poisson- und Normalverteilung - Prüfverteilungen (Chi2-, t- u. F- Verteilung), Funktionen von Zufallsgrößen 2.4. Grenzwertsätze 3. SCHLIESSENDE (INDUKTIVE) STATISTIK 3.1. Statistische Schätzverfahren - Schätzmethoden, Stichprobenfunktion, Punktschätzungen - Konfidenz- und Toleranzintervalle, Kontrollkarten 3.2. Statistische Tests - Parametrische Tests für Mittelwerte u. Varianzen bei 1- und 2- Stichprobenproblemen - Varianzanalyse und multiple Vergleiche - Verteilungsfreie Methoden (Verteilungsanpassung, verteilungsfreie Tests) - Induktive Methoden bei der Regressionsanalyse (Test der Parameter u. des Modells, Residualanalyse, Konfidenz- u. Prognoseintervalle) 4. KOMPLEXE PROJEKTBEISPIELE 4.1 Entwicklung eines glutenfreien und ballaststoffangereicherten Gebäckes mit optimalen Eigenschaften mittels Methoden der statistischen Versuchsplanung 4.2 Herkunftsbestimmung von Weinen auf der Basis chemischer Analysenparameter mittels uni- und multivariater Methoden der statistischen Datenanalyse In der Übung mit PC- Praktikum werden mit Statistikprogrammen konkrete Fragestellungen aus den Fachgebieten behandelt. EINLEITUNG 1. Was ist Statistik? Statistik ist die Wissenschaft des Sammelns, Analysierens und Interpretierens von Daten. Sie beantwortet die Fragen: 1. Wie sollen welche Daten gewonnen werden? 2. Wie soll man Daten beschreiben? und 3. Welche Schlüsse kann man aus Daten ziehen? Teilgebiete: Stochastik Beschreibende Statistik Wahrscheinlichkeitstheorie Schliessende Statistik Stat. DA Stat. VP 1. BESCHREIBENDE (DESKRIPTIVE) STATISTIK Die Beschreibende und explorative Statistik dient der Beschreibung, Strukturierung und Verdichtung umfangreichen Datenmaterials. Wie erhält man nun Daten und welcher Art sind die Daten? Informationen über in der Realität existierende Erscheinungen und Prozesse erhält man durch Erhebungen und Versuche. Ziel: Kenntnisse über die Eigenschaften bestimmter Objekte (z.B. Betriebe, Anlagen, Messmethoden, Länder) oder Individuen (z.B. Personen, Tiere, Pflanzen) zu erhalten 1.1. Charakterisierung von Merkmalen - Die Objekte/ Individuen, an denen Beobachtungen vorgenommen werden, heißen Beobachtungseinheiten (Merkmalsträger). Dabei ist kein Objekt/ Individuum mit einem anderen identisch. Diese Unterschiedlichkeit nennt man Variabilität. - Die Größen oder Eigenschaften, auf die sich die Beobachtungen beziehen, heißen Merkmale. - Jedes Objekt/ Individuum ist durch eine spezielle Merkmalsausprägung gekennzeichnet. - Alle beobachteten Werte eines Merkmals heißen Merkmalswerte. Klassifizierung von Merkmalen 1. Merkmale Qualitative Merkmale Quantitative Merkmale (Unterscheidung durch Art) Bsp.: Geschlecht, Rasse, Sorte, (Unterscheidung durch Größe) Bsp.: Alter, Gewicht, Masse, Länge, Land, Hefestamm, Aroma 2. Merkmale Diskrete Merkmale (endlich viele oder abzählbar unendlich viele Merkmalsausprägungen) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma, Zellzahl Volumen, Einkommen, Wasser- u. Lufttemperatur, Konzentration, Zellzahl Stetige Merkmale (überabzählbar unendlich viele Ausprägungen, d.h. Werte im reellen Zahlenintervall) Bsp.: Alter, Gewicht, Masse, B Merkmale 3. Nominalskalierte Merkmale (Skala mit niedrigstem Niveau, keine Vergleichbarkeit oder Rangfolge zwischen den Werten) Bsp.: Geschlecht, Rasse, Sorte, Land, Hefestamm, Aroma Ordinalskalierte Merkmale Metrisch skalierte Merkmale (Skala mit höherem (Skala mit höchstem Niveau, Werte unterNiveau, Abstände scheiden sich in ihrer zwischen den Werten Intensität, ermöglichen sind interpretierbar) eine Rangfolgeordnung, jedoch keine Bsp.: Alter, Gewicht, Masse, Länge, Volumen, EinInterpretation der kommen, Wasser- u. Abstände zwischen Lufttemperatur, Zellden Rängen) zahl, Konzentration, Bsp.: Aroma, Härtegrad, sensor. Parameter, Zensuren Intervallskala Proportionsskala Intervallskala (Einheitenskala) : • Die Skala besteht aus Zahlen, zwischen denen gleich große Intervalle bestimmbar sind. • Der Nullpunkt wird willkürlich festgelegt (relativ). • Es sind nur Differenzen von Messwerten sinnvoll interpretierbar. Bsp.: Temperaturskala nach Celsius, tägl. Zunahme der Körpermasse, bei logar. Transformation der Messwerte Proportionalskala (Ratioskala) : • Zusätzlich zur Intervallskala wird ein absoluter Nullpunkt definiert, so dass auch Quotienten von Messwerten sinnvoll interpretierbar sind. Bsp.: Temperaturskala nach Kelvin (eine Verdoppelung der Temperatur entspricht der Verdoppelung des Gasvolumens), Gewicht, Masse, Volumen, Zellzahl 1.2. Grundgesamtheit und Stichprobe Daten kann man durch Befragung von Personen oder durch Experimente (Messungen) gewinnen. Experimente Passive Experimente Alle Beobachtungswerte ergeben sich zufällig während des Versuches! Aktive Experimente Aktive Planung der Experimente vor deren Durchführung, Planung der Versuchsbedingungen Anwendung der Methoden der statistischen Versuchsplanung (SVP)! Kombinierte Experimente Methoden der statistischen Versuchsplanung Ziel: Erzielen von Ergebnissen mit ausreichender Sicherheit und Genauigkeit bei minimaler Anzahl von Versuchen Problem Planung 3 (4) Versuchsetappen: Durchführung Auswertung Schritte der SVP: 1. Erfassen des Gesamtproblems und aller Teilprobleme und Präzisieren der Versuchsfrage 2. Aufstellen des statistischen Modells 3. Ableitung des Versuchsplanes 4. Ermittlung des notwendigen Versuchsumfangs 5. Durchführung der Versuche 6. Statistische Auswertung der Versuche und technologische Interpretation der Ergebnisse 7. Schlussfolgerungen Grundprinzipien der SVP: • Wiederholen von Versuchspunkten • Randomisierung • Blockbildung • Symmetrie •Vermengen • Sequentielles Experimentieren 17 Typen von stat. Versuchsplänen (VP): Faktorielle Versuchspläne (Box): • Plackett- Burman- VP • Vollständige und fraktionierte VP 1. oder 2. Ordnung vom Typ 2k und 2k-p bzw. vom Typ 3k und 3k-p • Box- Behnken- VP • Zentral zusammengesetzte VP vom Typ 5k-p Mischungspläne (Scheffé) • Simplex- Gitter und Zentroid- Pläne Optimale Versuchspläne (Kiefer): A,- D,- G-optimale Versuchspläne 18 Faktorieller Versuchsplan Bsp.: 3 Einflussgrößen, y = f(x1,x2,x3) x3 (- - +) (+ - +) 6 Sternpunktversuche (- + +) 1 Zentralpunktversuch (+ + -) x1 (+ - -) x2 8 Würfelpunktversuche Fakt. VP vom Typ 23 bzw. 24-1 in 2 Blöcken: Vers. Einflussgrößen 2-fakt. WW Nr. B X X X X1X2 X1X3 X2X3 X4 1 2 3 j X1X2X3 X3X4 X2X4 X1X4 B 1 + - - - - + + + 2 + + - - + - - + 3 - - + - + - + - 4 - + + - - + - - 5 - - - + + + - - 6 - + - + - - + - 7 + - + + - - - + 8 + + + + + + + + 0 0 0 0 9-14 Zielgrößen Y1 Y2 Bsp.: Herstellung einer best. Chemikalie PROBLEM: Zur Herstellung einer Chemikalie werden mehrere Ausgangsstoffe einschließlich Katalysator vermischt und über längere Zeit erhitzt. Dabei erfolgt eine Reaktion und das Reaktionsprodukt wird abgetrennt. ZIEL: Erhöhung der Ausbeute durch eine Untersuchung der Wirkung der Einflussgrößen: - Temperatur [°C] - Reaktionszeit [h] und - Katalysatormenge [%] und ihrer Wechselwirkungen Mittelwerte der Ausbeute Ausbeute 68,012 (66,48,69,55) (+++) 55,387 (53,85,56,92) 62,387 (60,85,63,92) Katalysator 54,012 (52,48,55,55) 68,887 (67,35,70,42) 56,112 (54,58,57,65) 61,813 (60,28,63,35) 53,287 (51,75,54,82) Zeit (- - -) Temperatur Erhebungen Ungeplante, nicht kontrollierbare Erhebungen Bsp.: Erhebungen zur Preisentwicklung eines Produktes oder zur Bevölkerungsentwicklung Geplante Erhebungen Bsp.: Befragungen zur Einkommensstruktur oder zum Kaufverhalten. Man wählt z.B. bei Befragungen zur Einkommensstruktur der Bevölkerung nach einem Stichprobenplan eine repräsentative Teilmenge, genannt Stichprobe, aller Einkommen beziehenden Personen, genannt Grundgesamtheit, aus. Def.: Die Menge aller möglichen Werte eines Merkmals nennt man Grundgesamtheit. Eine endliche Teilmenge der Grundgesamtheit nennt man Stichprobe. Besteht die Teilmenge aus n Elementen, so heißt n Stichprobenumfang. Def.: Der Gesamtheit der Merkmalswerte entspricht eindeutig eine Gesamtheit von Beobachtungseinheiten (Merkmalsträgern), die man ebenfalls als Grundgesamtheit oder Population bezeichnet. Die Grundgesamtheit muss bei jeder Aufgabenstellung festgelegt werden! Eine Grundgesamtheit kann auch unendlich viele Elemente enthalten. Theoretisch können wir den Versuch unendlich oft wiederholen. Mathematische Statistik Beschreibende Statistik Wahrscheinlichkeitsrechnung Induktionsschluss Stichprobe Grundgesamtheit Deduktionsschluss Was ist bei einer Stichprobenentnahme zu beachten? Die Stichprobenauswahl muss so erfolgen, dass die Stichprobe die Grundgesamtheit repräsentiert! 1. Zufälligkeit der Stichprobe 2. Vermeiden systematischer Fehler 3. Umfang der Stichprobe Optimaler Stichprobenumfang ist abhängig von : - zeitlichen, arbeitstechnischen und finanziellen Faktoren - Wahl des statistischen Modells - Genauigkeit der Ergebnisse - Umfang der Grundgesamtheit 4. Homogenität und gleiche Genauigkeit 5. Vergleichbarkeit 1.3. Die Häufigkeitsverteilung diskreter und stetiger eindimensionaler Merkmale Bei einem Versuch oder einer Erhebung wird an n Beobachtungseinheiten ein Merkmal X beobachtet, d.h. an jeder Einheit wird die Ausprägung dieses Merkmals festgestellt. Sind a1,...,am die möglichen Ausprägungen des Merkmals X, so wird also der i-ten Beobachtungseinheit (i=1,...n) seine Ausprägung aj als Merkmalswert xi zugeordnet: xi = aj (i) Merkmalswert Beobachtungseinheit Ausprägung Schritte der Datenerfassung und -aufbereitung: 1. Schritt: Erfassung der Daten eines oder mehrerer Merkmale Stichprobe (ungeordnete Urliste): Merkmalswerte x1,...,xn Variationsreihe (geordnete Urliste): x(1) ,...,x(n) , wobei x(1) ≤... ≤ x(n) Skalierung der Ausprägungen: a1,B,am 2. Schritt: Ermittlung der abs. und rel. Häufigkeiten 2.1. (Primäre) Häufigkeitsverteilung bei diskreten Merkmalen (ohne Klassenbildung) Def.: Beobachtet man an n Beobachtungseinheiten ein Merkmal X, das in m Ausprägungen a1,...,am vorkommt, so heißt fn(aj) = "Anzahl der Fälle, in denen aj auftritt" für j=1,...,m absolute Häufigkeit der Ausprägung aj. Bem.: - Σ fn(aj) = n - Die abs. Häufigkeiten hängen vom Stichprobenumfang n ab, sie sind daher zum Vergleich von Stichproben unterschiedlichen Umfangs nicht geeignet. - Die Folge der absoluten Häufigkeiten fn(a1),...,fn(am) heißt abs. Häufigkeitsverteilung des Merkmals X. Def.: Die relative Häufigkeit hn(aj) = (1/n) fn(aj) für j=1,...,m gibt den Anteil der Beobachtungseinheiten bezogen auf n an, die die Ausprägung aj haben. Bem.: - Σ hn(aj) = 1 - 0 ≤ hn(aj) ≤ 1 - Die Folge der relativen Häufigkeiten hn(a1),...,hn(am) heißt rel. Häufigkeitsverteilung des Merkmals X. 2.2. (Sekundäre) Häufigkeitsverteilung bei stetigen Merkmalen (mit Klassenbildung) - Da stetige Merkmale in sehr vielen Ausprägungen auftreten, fasst man verschiedene Ausprägungen in Klassen zusammen. - Man zerlegt das Intervall, in dem alle Beobachtungswerte liegen in m Klassen K1,...,Km , wobei Kj = (yj-1; yj] für j=1,...,m mit den Klassengrenzen yj-1 und yj und den Klassenmitten xj = (yj-1+yj) /2 - Die Anzahl der Klassen wählt man m ≤ wobei n der Stichprobenumfang ist. n (od. 5 ≤ m ≤ 20), - Der Abstand dj =yj - yj-1 für j=1,...,m heißt Klassenbreite. Wenn dj = d j=1,...,m , spricht man von äquidistanten Klassen. Bem.: Durch die Angabe der unteren Anfangsklassengrenze y0 und die Klassenbreite d oder durch y0, ym und m wird eine Klasseneinteilung eindeutig bestimmt. Bem.: Bildet man zu wenig Klassen, können charakteristische Eigenschaften der HV verloren gehen, bildet man zu viele Klassen, können kleine Zufallsschwankungen eine Interpretation der HV erschweren. Def.: Als absolute Klassenhäufigkeit bezeichnet man fn(Kj) = fn(xj) = "Anzahl der Beobachtungswerte in der j- ten Klasse mit der Klassenmitte xj" (j=1,...,m) Bem.: Die Folge der abs. Klassenhäufigkeiten fn(x1),...,fn(xm) heißt abs. Häufigkeitsverteilung des stet. Merkmals X. Def.: Als relative Klassenhäufigkeit bezeichnet man hn(xj) = (1/n) · fn(xj) Bem.: Die Folge der relativen Häufigkeiten hn(x1),...,hn(xm) heißt rel. Häufigkeitsverteilung des stet. Merkmals X. 3. Schritt: Grafische Darstellungen - Stabdiagramm (Strecken- oder Liniendiagramm) hn(aj) ● über jeder Ausprägung auf der Abszisse wird die zugehörige Häufigkeit als senkrechte Strecke abgetragen, ● besonders für diskrete Merkmale geeignet - Häufigkeitspolygon a1... aj hn(aj) ● erhält man durch Verbindung der Endpunkte der Strecken des Stabdiagramms, ● besonders zur Darstellung zeitlicher Verläufe geeignet a1... aj - Histogramm hn(xj) ● Häufigkeiten werden als aneinanderstoßende Rechtecke dargestellt, deren Flächen proportional den Häufigkeiten sind, ● besonders für stetige Merkmale geeignet - Flächendiagramme, z.B.: Kreisdiagramme ● Häufigkeiten werden durch Flächen repräsentiert, ● zur Strukturdarstellung geeignet, z.B.: Anzahl der Beschäftigten in verschiedenen Wirtschaftszweigen, Wahlergebnisse x1 y0 y1 B 13% 13% 57% 17% xj 4. Schritt: Ermittlung der empirischen Verteilungsfunktion Eine weitere Möglichkeit der Beschreibung der geordneten Beobachtungsreihe ergibt sich durch die Betrachtung von Summenhäufigkeiten. 4.1. (Primäre) Häufigkeitsverteilung bei diskreten Merkmalen (ohne Klassenbildung) Def.: Die absolute Summenhäufigkeit der j- ten Ausprägung aj ist die Anzahl der Beobachtungseinheiten, bei denen eine Ausprägung ≤ aj beobachtet wurde, d.h. j fn(a1) + ... + fn(aj) = ∑ f (a n k =1 k ) ; j=1,...,m Def.: Die relative Summenhäufigkeit der j- ten Ausprägung gibt den Anteil der Beobachtungseinheiten an, bei denen eine Ausprägung aj beobachtet wurde, d.h. j hn(a1) + ... + hn(aj) = ∑ h (a n k ) k =1 Durch die Folge der relativen Summenhäufigkeiten wird nun die empirische Verteilungsfunktion des Merkmals X bestimmt. Def.: Die empirische Verteilungsfunktion des Merkmals X ist eine Funktion, die für alle reellen Zahlen x die folgende Gestalt hat: 0 ; x < a1 j F̂n ( x ) = ∑ h n ( a k ) ; a j ≤ x < a j +1 j = 1,..., m k =1 1 ; x ≥ am Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [aj,aj+1) konstant und springt bei aj+1 um den Wert hn(aj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten beobachteten Merkmalsausprägung. F̂n (x) 1 hn(a1)+ hn(a2) hn(a1) x a1 a2 Ausprägungen 4.2. (Sekundäre) Häufigkeitsverteilung (HV) bei stetigen Merkmalen (mit Klassenbildung) Def.: Die absolute Klassensummenhäufigkeit der j- ten Klasse ist die Anzahl der Beobachtungswerte, die in einer Klasse mit einer Klassenmitte ≤ xj liegen, d.h. j fn(x1) + ... + fn(xj) = ∑ f (x n k ) ; j=1,...,m k =1 Def.: Die relative Klassensummenhäufigkeit der j- ten Klasse gibt den Anteil der Beobachtungswerte an, die in einer Klasse mit der Klassenmitte ≤ xj liegen, d.h. j hn(x1) + ... + hn(xj) = ∑h (x n k ) ; j=1,...,m k =1 Durch die Folge der relativen Klassensummenhäufigkeiten wird die empirische Verteilungsfunktion von X bestimmt. Def.: Die empirische Verteilungsfunktion des Merkmals X, deren Beobachtungswerte in Klassen vorliegen, hat folgende Gestalt: 0 ; x < x1 j F̂n ( x ) = ∑ hn ( x k ) ; x j ≤ x < x j+1 j = 1,...,m k =1 1 ; x ≥ xm Bem.: Die empirische Verteilungsfunktion an der Stelle x ist die Summe der relativen Häufigkeiten aller Klassen, deren Mitten xj ≤ x sind. Als Sprungstellen werden jetzt die Klassenmitten verwendet. Bsp.: Weindaten- stet. Merkmal Butandiolgehalt Sekundäre Verteilungstabelle (y0 = 0 ; d = 0,25): Kl.Nr. Kl.grenzen Kl.mitte abs.Häuf. rel.Häuf. abs.K.S.H. rel.K.S.H. j (yj-1 ; yj] xj fn(xj) hn(xj) -----------------------------------------------------------------------------------------------------0 (- ∞ ; 0] 1 (0 ; 0,25] 0,125 f1 h1 f1 h1 2 (0,25 ; 0,45] 0,35 f2 h2 f1+f2 h1+h2 M 7 M (1,45 ; 1,65] (1,65 ; ∞) 1,55 f7 h7 M M n 1 Bem.: Die empirische Verteilungsfunktion ist auf jedem Intervall [xj,xj+1) konstant und springt bei xj+1 um den Wert hn(xj+1) nach oben. Die erste Sprungstelle liegt bei der kleinsten, die letzte bei der größten Klassenmitte. F̂n (x) 1 hn(x1)+ hn(x2) hn(x1) x x1 x2 Klassenmitten 1.4. Lage- und Streuungsmaße, Schiefe und Exzeß von Häufigkeitsverteilungen 1.4.1. Lagemaße 1. Mittelwertmaße Mittelwertmaße geben an, wo sich das Zentrum einer Häufigkeitsverteilung befindet. ● Arithmetischer Mittelwert Seien x1, ... ,xn die beobachteten Merkmalswerte des Merkmals X mit den Ausprägungen a1, ... ,am 1 n 1 m x = ∑ x i = ∑ a j fn ( a j ) n i =1 n j =1 Vorteile: - der arithm. Mittelwert einer Stichprobe ist ein unverzerrter Schätzwert für den Mittelwert einer normalverteilten Grundgesamtheit und gut geeignet bei eingipfligen Häufigkeitsverteilungen - alle Informationen der Stichprobe werden ausgeschöpft Nachteile: - das arithm. Mittel ist unbrauchbar bei schiefen oder mehrgipfligen Verteilungen - das arithm. Mittel ist nicht robust gegenüber Ausreißern ● Median (Zentralwert) - Der Median ist dadurch charakterisiert, dass jeweils 50 % der Beobachtungswerte einen Wert ≤ und 50 % einen Wert ≥ dem Median haben. - Wir ordnen daher die Beobachtungswerte der Größe nach und erhalten die Variationsreihe x(1) , ... ,x(n) mit x(1) ≤ ... ≤ x(n) ~ x 0 ,5 x ( k +1) ; für n = 2k + 1 = x ( k ) + x ( k +1) ; für n = 2k 2 Vorteile: - der Median ist auch bei asymmetrischen und mehrgipfligen Verteilungen verwendbar - er ist zu bevorzugen bei nur wenigen Messwerten und ordinalskalierten Beobachtungsmerkmalen - er ist robust gegenüber Ausreißern Nachteile: - es werden nicht alle Informationen der Stichprobe ausgeschöpft (nicht alle Messwerte gehen in die Berechnung des Medianes ein) - bei normalverteilten Merkmalen hat er schlechtere Schätzeigenschaften als das arithm. Mittel ● Gestutztes Mittel - Wir ordnen wieder die Stichprobe der Größe nach und streichen dann die m untersten und die m obersten Merkmalswerte. - Dann erhält man das (m/n) 100 % - gestutzte Mittel, indem man das arithmetische Mittel aus den verbleibenden n - 2m Merkmalswerten bildet. xm n 1 = ( x ( m +1) + ... + x ( n −m ) ) n − 2m • Vorteil: - das gestutzte Mittel ist robust gegenüber Ausreißern und basiert im Vergleich zum Median auf einer größeren Anzahl von Werten • Nachteil: - es besitzt bei Normalverteilung schlechtere Schätzeigenschaften als das arithm. Mittel und schöpft nicht alle Informationen der Stichprobe aus ● Modalwert (Dichtemittel, Modus) Bei eingipfligen Verteilungen gibt das Dichtemittel die Ausprägung mit der größten Häufigkeit in der Messreihe an. Bei klassierten Daten (stet. Merkmale) gibt es die Klassenmitte der Klasse mit der größten Klassenhäufigkeit an. fn (xmod) ≥ fn (aj) ∀aj j=1,...,m Vorteile: - das Dichtemittel ist auch bei nominal- und ordinalskalierten Merkmalen anwendbar - bei mehrgipfligen Verteilungen gibt man neben dem Median auch die lokalen Dichtemittel an - das Dichtemittel ist robust gegenüber Ausreißern Nachteile: - bei Normalverteilung hat das Dichtemittel schlechtere Eigenschaften als das arithm. Mittel - nicht alle Beobachtungswerte gehen in die Berechnung des Dichtemittels ein ● Geometrisches Mittel - Sind die Merkmalswerte relative Änderungen (Zuwachsraten, Produktionssteigerungen), so wird das geometrische Mittel verwendet, da die Gesamtänderung nicht durch eine Summe, sondern durch ein Produkt beschrieben wird. - Die Bezeichnung geom. Mittel ist ein Hinweis auf Zähl- oder Messdaten, die statt der arithm. eine geometr. Zahlenfolge bilden (z.B. bei Verdünnungsreihen). - Es wird verwendet bei Zähldaten, von denen bekannt ist, dass sie durch multiplikative Wirkungen entstanden sind und deren Werte sehr unterschiedliche Größenordnungen aufweisen, sowie fast immer eine stark asymmetrische Häufigkeitsverteilung aufweisen (z.B. Keimzahlen in flüssigen Medien, wie Milch und Gülle). - das geom. Mittel findet auch Anwendung bei logarithmischen Daten (z.B. Spektralanalyse) Es gibt folgende Möglichkeiten der Berechnung des geom. Mittels und der durchschnittlichen Zuwachsrate: 1. Seien x1, ... ,xn Beobachtungswerte (rel. Änderungen, bez. auf 1 = 100%) mit xi ≥ 0 für i=1,...,n und r die durchschnittliche Zuwachsrate. xg = n x1 ⋅K⋅ xn und r = xg − 1 2. Manche Analysenmethoden liefern die Logarithmen der gesuchten Gehalte (z.B. Spektralanalyse). 1 n lg x g = ∑ lg x i = n i=1 lg x x g = 10 lg x 3. Wenn sich eine Anfangsmenge A in einer Zeiteinheit um eine konstante Zuwachsrate r erhöht, dann erhält man nach n Zeiteinheiten die Endmenge E: E = A(1+r)n xg = n E A und r = xg − 1 2. Weitere Lagemaße: ● α - Quantil Wir betrachten die Variationsreihe x (1) , ... ,x (n) . Dann sind α % der Merkmalswerte ≤ und (1- α) % der Merkmalswerte ≥ dem α - Quantil. x(k+1) ;k = int(n ⋅ α), falls n ⋅ α keine ~ xα = x(k ) + x(k+1) ;k = n ⋅ α, falls n ⋅ α 2 g.Z. g.Z. (int = ganzer Teil) Wenn 0 ,5 α = 0 ,25 0 ,75 ⇒ ⇒ Median unteres Quartil ⇒ oberes Quartil 1.4.2. Streuungsmaße - Maße, die die Abweichung der Beobachtungswerte vom Zentrum einer Häufigkeitsverteilung beschreiben, heißen Streuungs- oder Dispersionsmaße. - Kennt man Lage- und Streuungsmaße, hat man schon eine recht gute Vorstellung von der Häufigkeitsverteilung, ohne diese explizit zu kennen. ● Spannweite (Range, Variationsbreite) Sie ist das einfachste Streuungsmaß und gibt den Streubereich einer HV an, d.h. den Bereich, in dem alle Merkmalswerte liegen. Sei x(1), ... ,x(n) eine Variationsreihe, dann gilt: R = x(n) - x(1) . Vorteil: - Einfach zu bestimmendes Streuungsmaß, einfach interpretierbar Nachteile: - R ist nicht robust gegenüber Ausreißern - R besitzt keine guten stat. Schätzeigenschaften, da außer den extremen Merkmalswerten alle anderen Werte unberücksichtigt bleiben. ● Quartilsabstand (Interquartile range) - Der Quartilsabstand gibt den Bereich zwischen oberem und unterem Quartil einer Messreihe an. - Er enthält 50 % aller Merkmalswerte. ~ x −~ x I = 0 , 75 0 , 25 Vorteile: - I ist robust gegenüber Ausreißern - I ist anschaulich und besitzt bessere statistische Schätzeigenschaften als die Spannweite Nachteil: - nicht alle Informationen der Stichprobe gehen in die Berechnung ein ● Mittlere absolute Abweichung vom Median Man wählt hier als Bezugsgröße für die Abweichung der Merkmalswerte vom Zentrum der Häufigkeitsverteilung den Median. 1 n d = ∑ xi − ~ x 0 ,5 n i =1 Es gilt die Minimumeigenschaft des Medians: n ∑ i =1 n xi − ~ x 0 ,5 ≤ ∑ x i − c ∀c ∈ R i =1 Vorteile: - d ist robust gegenüber Ausreißern - d ist gut geeignet bei schiefen Häufigkeitsverteilungen Nachteil: - bei Normalverteilung ist die empir. Varianz das bessere Schätzmaß ● Median der absoluten Abweichungen vom Median y 0 ,5 x 0 ,5 ) = ~ MAD = med ( x i − ~ x 0 ,5 yi = x i − ~ Vor- und Nachteile: analog wie mittlere abs. Abweichung vom Median ● Stichprobenvarianz und Standardabweichung - Wir betrachten nun als Bezugsgröße für das Zentrum der HV das arithmetische Mittel und wählen als Abstandsmaß keine betragliche Differenz, sondern quadratische Abstände. - Dann ist die Stichprobenvarianz die durchschnittliche quadratische Abweichung der Messwerte vom arithm. Mittelwert. - Dabei wird jedoch durch den Faktor (n-1), d.h. die Anzahl der voneinander unabhängigen Abweichungen, genannt Freiheitsgrad, dividiert. n n 2 1 1 2 2 2 ∑ xi − nx s = ( xi − x ) = ∑ n − 1 i=1 n − 1 i=1 Es gilt die Minimumeigenschaft des arithm. Mittelwertes: n n i=1 i=1 2 2 ( x − x ) ≤ ( x − c ) ∑ i ∑ i ∀c ∈ R - Als Standardabweichung s bezeichnet man: s= 1 n 2 ( x − x ) = ∑ i n − 1 i=1 1 2 (∑ x i − n x 2 ) n −1 - Der Standardfehler des arithm. Mittelwertes bezieht sich auf den Stichprobenumfang: s sx = n Vorteile: - Die Varianz s2 hat die besten Schätzeigenschaften bei Normalverteilung - Die Standardabweichung s hat die gleiche Dimension wie die Messwerte und der arithm. Mittelwert, man kann daher Intervalle der Form x±s bzw. x ± 3 ⋅ s angeben. Nachteil: - s2 ist nicht robust gegenüber Ausreißern - Variationskoeffizient Der Variationskoeffizient ist ein von x bereinigtes Streuungs- maß, das das Verhältnis von s und x misst. s v = ⋅ [100 %] x Vorteil: - v ist gut geeignet zum Vergleich von Streuungen von Beobachtungsreihen mit unterschiedlichem Mittelwert Nachteil: - v ist nur für positive Messwerte geeignet Grafische Darstellung von Lage- und Streuungsmaßen: 1. Box- und Whisker Plot Enzymaktivitäten von 8 Mutanten Vanadiumgehalt von Weinen Multipler Box- Whisker Plot für Vanadium Box & Whisker Plot (Enzymaktivitäten) 3,0 75 2,5 2,0 65 1,5 60 1,0 55 0,5 20 1 2 3 4 5 Mutanten 6 7 8 Median 25%-75% Min-Max Weisswein Rotwein Land So uth Africa 25 Ro mania 30 Hu ngary -1,5 35 Czech Republic -1,0 So uth Africa 40 -0,5 Ro mania 45 0,0 Hu ngary 50 Czech Republic Vanad ium Enzymkonzentrationen 70 Median 25%-75% Non-Outlier Range Grafische Darstellung von Lage- und Streuungsmaßen: 2. Mittelwertplots Enzymaktivitäten von 8 Mutanten Mittelwertplot Mittelwertplot (Enzymaktivitäten von Mutanten) (Enzymaktivitäten) 75 70 70 65 Enzymkonzentrationen Enzymkonzentrationen 65 60 55 50 45 40 35 60 55 50 45 40 35 30 30 25 20 1 2 3 4 5 Mutanten 6 7 8 arithm . Mittelwert MW + - 95%-iges Konfidenzintervall Extrem werte 25 1 2 3 4 5 Mutanten 6 7 8 arithm . MW Mean±0,95*SD Bem.: - Die Standardabweichung ist das Streuungsmaß, das z.B. in der analytischen Chemie am häufigsten verwendet wird, um den Zufallsfehler von Analysemethoden (nicht von Einzelwerten!) zu charakterisieren. - Bei log. Verteilungen wird die Standardabweichung aus den Logarithmen der Messwerte berechnet. s2 = 1 (lg x i − lg x g )2 n −1 = 1 (lg x i − lg x )2 n −1 - Der minimale Stichprobenumfang zur Bestimmung von Stichprobenvarianz und Standardabweichung beträgt n = 6. Bem.: - Falls z.B. bei chem.- analytischen Untersuchungen nur < 6 Mehrfachbestimmungen an einer Probe durchgeführt werden können, dafür aber mehrere Bestimmungswerte an Proben unterschiedlichen Gehaltes vorliegen (Vor.: die Varianz ist unabhängig vom Gehalt der Probe!), kann man die Gesamtstichprobenvarianz bzw. -standardabweichung wie folgt berechnen: m nj 1 2 s = ( x − x ) ∑ ∑ ji j n − m j = 1 i =1 2 s= s wobei m - Anz. der Proben und nj - Anz. der Mehrfachbestimmungen der j- ten Probe 2 1.4.3. Schiefe und Exzess 1. Schiefe - Wenn der Median und der Modalwert vom arithmetischen Mittel abweichen, bezeichnet man eine Verteilung als schief. - Man charakterisiert schiefe Verteilungen außer durch Lageund Streuungsmaße auch durch die Schiefe g1 als Maß für die Schiefheit und ihre Richtung. - Echt schiefe Verteilungen liegen vor, wenn bei Vorliegen einer genügend großen Anzahl von Beobachtungswerten und nach allen messtechnischen und mathematischen Möglichkeiten der Transformation der Daten in symmetrische Verteilungen die Schiefe der Verteilung bestehen bleibt. - Keine echte Schiefe liegt vor, wenn man schiefe Verteilungen durch Transformationen (z.B. Logarithmieren) in symmetrische überführen kann. Bsp.: Auftreten log. Verteilungen bei: • Analyse sehr niedriger Gehalte (z.B. Spurenanalyse) • Merkmalen mit sehr großer Spannweite (mehrere Zehnerpotenzen) • sehr großem Zufallsfehler (z.B. halbquantitative Spektralanalyse) g1 = 1 n 3 ( x − x ) ∑ i n i=1 1 n ( ∑ ( x i − x ) 2 )3 n i=1 1 n xi − x = ∑ n i=1 s Eine HV ist symmetrisch, wenn 3 x=~ x 0,5 = x mod Eine HV ist linksschief oder rechtssteil, wenn und g1 = 0 x<~ x 0,5 < x mod und g1 < 0 ~ Eine HV ist rechtsschief oder linkssteil, wenn x > x 0,5 > x mod und g1 > 0 2. Exzeß und Kurtosis - Mängel in den gewählten Versuchsbedingungen können zu einer Überhöhung (Streckung) oder Unterhöhung (Stauchung) der Häufigkeitsverteilung führen. Derartig verzerrte Verteilungen werden durch den Exzeß g2 charakterisiert. - Der Exzeß gibt an, ob das absolute Maximum der Häufigkeitsverteilung (bei annähernd gleicher Varianz) größer oder kleiner dem Maximum der Normalverteilungsdichte ist. 1 ( x i − x )4 ∑ g2 = n −3 2 1 2 ( x − x ) n ∑ i g2‘ heißt Kurtosis. 4 1 x −x = ∑ i − 3 = g 2 '−3 n s Wenn g2 = 0 ⇒ Häufigkeitsverteilung entspricht der NV Wenn g2 < 0 ⇒ abs. Häufigkeitsmaximum < Maximum der NV- Dichte (HV ist flachgipfliger), d.h. die Anzahl „größerer“ Abweichungen von x ist geringer als bei der NV bei gleicher Varianz. Wenn g2 > 0 ⇒ abs. Häufigkeitsmaximum > Maximum der NV- Dichte (HV ist steilgipfliger), d.h. die Anzahl „größerer“ Abweichungen von x ist größer als bei der NV bei gleicher Varianz. Als k- tes Moment bezeichnet man: und als k-tes zentriertes Moment: 1 n n ∑ xi k i=1 1 n ( x i − x )k ∑ n i =1 Bem.: Damit stellen der arithm. Mittelwert das 1. Moment und die empirische Varianz das 2. zentrierte Moment dar, während Schiefe und Exzeß auf dem 3. bzw. 4. zentrierten Moment basieren. 1.5. Mehrdimensionale Merkmale - Wir haben bisher überwiegend Aufgabenstellungen betrachtet, bei denen an jeder Beobachtungseinheit nur ein einziges Merkmal beobachtet wurde. Für dieses Merkmal wurden die empirische Häufigkeitsverteilung und die Verteilungsfunktion ermittelt und grafisch dargestellt und Lage- und Streuungsmaße berechnet. - Bei vielen praktischen Problemen wirken jedoch Merkmale nicht nur einzeln, sondern auch im Komplex. Es interessiert dann der Zusammenhang zwischen zwei oder mehreren Merkmalen. - Wir bezeichnen einen Komplex von Merkmalen auch als mehrdimensionales Merkmal (od. Merkmalsvektor) und schreiben: (X1,...,Xn), bzw. (X,Y) bei einem zweidimensionalen Merkmal. Beispiele: 1. X- Lagerzeit von Zuckerrüben Y- Saccharosegehalt von Zuckerrüben 2. X- Körpermasse von Schweinen Y- Körpergröße von Schweinen (X- deterministische d.h. einstellbare Einflussgröße, Y- zufällige Zielgröße) (X und Y - zufällige Größen, jede kann als Einfluss- bzw. Zielgröße betrachtet werden) 3. Prozess des Nass-Salzens von Hartkäse (X1,X2,X3 - determ. X1- Natriumchloridgehalt im Salzbad Einflussgrößen, X2- Temperatur des Salzbades Y1,Y2 - zufällige X3- Salzdauer Zielgrößen) Y1- Masseausbeute des Käses nach dem Salzen Y2- Sensorischer Qualitätsparameter WICHTIG: Erfassung aller für den zu untersuchenden Sachverhalt (Produkt, Prozess) wesentlichen Merkmale! 4 Fragestellungen sind von Interesse: 0. Welche Art von Merkmalen werden betrachtet? (Klassifizierung, Einflussgröße einstellbar oder zufällig?) 1. Wie lassen sich zweidimensionale Merkmale grafisch darstellen? (Punktwolke, Streudiagramm, XY- Scatterplot) 2. Wie sieht die Häufigkeitsverteilung (tabellarisch und grafisch) eines zweidimensionalen Merkmals aus? (2-dim. Häufigk.tabelle- Kontingenztafel, 3 -dim. Histogramm) 3. Wie stark ist der Zusammenhang zwischen 2 Merkmalen X und Y und welche Richtung hat er? (Assoziations-, Kontingenz-, Maßkorrelations- u. Rangkorrelationskoeffizient) 4. In welcher Form lässt sich der Zusammenhang darstellen? (Kontingenztafel-, Varianz- u. Regressionsanalyse) zu 1.) Streudiagramm (XY- Scatterplot) y annähernd linearer Zusammenhang x y y Hyperbel Rezipr. Transf. x Bsp.: Fallhöhe und Schwingungsfrequenz von Wasserfällen 1/x zu 2.) Häufigkeitsverteilung Zur Darstellung von Häufigkeitsverteilungen dienen Häufigkeitstabellen (Vierfeldertafeln, Kontingenztafeln) und grafische Darstellungen durch dreidimensionale Histogramme oder Polygone. 1. Fall: - Sei (X,Y) ein nominalskaliertes 2- dim. Merkmal mit je 2 Ausprägungen (aj,bk) j,k=1,2 (z.B.: ja/ nein, vorhanden, nicht vorhanden) Vierfeldertafel (2 x 2): Y X vorhanden nicht vorh. Summe Summe vorhanden nicht vorhanden f11 f12 f11+f12 f21 f22 f21+f22 f11+f21 f12+f22 n Bem.: - Die absoluten Häufigkeiten fjk (j,k=1,2) im Innern der Tafel stellen die 2- dim. absolute Häufigkeitsverteilung dar. (analog: die relativen Häufigkeiten hjk = fjk/n stellen die 2dim. relative Häufigkeitsverteilung dar). - Die Randsummenhäufigkeiten (Zeilen- und Spaltensummen) stellen die entsprechenden 1- dim. Häufigkeitsverteilungen von X bzw. Y dar. - Aus der zweidimensionalen Häufigkeitsverteilung kann man auf die eindimensionalen Häufigkeitsverteilungen schließen, es gilt aber nicht die Umkehrung! Bsp.: Untersuchung von 227 Ratten auf Milbenbefall der Species A und B Vierfeldertafel (2x2): Spezies A Summe vorhanden nicht vorhanden Spezies vorhanden B nicht vorhanden 44 23 67 75 85 160 Summe 119 108 227 - Die Randsummen geben Aufschluss darüber, wie viele der Ratten eine der beiden Milben beherbergen bzw. nicht beherbergen, unabhängig davon, ob die andere Spezies vorhanden ist oder nicht, d.h. sie geben die eindimensionalen Häufigkeitsverteilungen an, die man erhalten würde, wenn man die Ratten von vornherein nur auf An- und Abwesenheit einer einzelnen Milbenspezies allein untersucht hätte. Ergebnis: - Die Chance, eine A- Milbe anzutreffen, ist bei den Ratten, bei denen schon B- Milben festgestellt wurden, größer als bei allen Ratten zusammengenommen, denn: nur auf etwa der Hälfte aller 227 Ratten kamen A- Milben vor (Randsumme 119), aber in der Teilmenge der 67 Ratten, die B- Milben beherbergen, befinden sich 44 Träger von A- Milben. Damit ist der Anteil der Träger von A- Milben unter den Trägern von B- Milben größer als in der Gesamtprobe! Umgekehrt gilt dasselbe. - Zwischen dem A- Milbenbefall und dem B- Milbenbefall scheint also ein statistischer Zusammenhang zu bestehen. Bem.: - In einer Vierfeldertafel erkennt man einen statistischen Zusammenhang daran, dass die abs. Häufigkeiten einer Reihe bzw. Spalte im Tafelinnern nicht proportional zu den entsprechenden Randsummen sind (44/23 ≠ 119/108 bzw. 75/85 ≠ 119/108, analog die Verhältnisse zur Zeilensumme!) - aber: bei kleinen abs. Häufigkeiten können durch Zufall Disproportionalitäten vorgetäuscht sein, d.h. die Sicherheit für das Vorhanden sein eines statistischen Zusammenhanges ist entsprechend gering! 2. Fall: - Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, bei dem jede Komponente auf einer Rangskala gemessen wird, d.h. als Merkmalsausprägung eine Rangzahl hat. - Vorliegen einer Tabelle der Rangzahlen (keine Häufigkeitstabelle!) Tabelle der Rangzahlen: i R(xi) R(yi) di di2 1 R(x1) R(y1) d1 d12 ... ... ... ... ... n R(xn) R(yn) dn dn2 - dabei ist di = R(xi) - R(yi) die Differenz der Rangzahlen der i- ten Komponente von X und Y Bsp.: Weinverkostung Bei einer Weinverkostung sollen 8 Weinsorten hinsichtlich ihres Aromas in eine Rangordnung gebracht werden. 2 Prüfer sollen unabhängig voneinander die Sorten begutachten, wobei die Sorte mit dem schwächsten Aroma die Rangzahl 1 und die Sorte mit dem stärksten Aroma die Rangzahl 8 erhalten soll. Tabelle der Rangzahlen: i Sorte Prüfer 1 R(xi) Prüfer 2 R(yi) di 1 A 6 5 1 2 B 3 2 1 3 C 8 8 0 4 D 2 4 -2 5 E 1 1 0 6 F 7 6 1 7 G 4 3 1 8 H 5 7 -2 Ergebnis: - Nur bei 2 Sorten gab es Übereinstimmung in der Bewertung, bei allen übrigen Sorten gab es Differenzen, die aber nicht mehr als 2 Rangzahlen betragen. - Man kann einen statistischen Zusammenhang vermuten, denn je höher im allgemeinen die Rangzahl des 1. Prüfers ist, desto höher ist im allgemeinen auch die Rangzahl des 2. Prüfers. - Die Weinsorten scheinen also Aromaunterschiede aufzuweisen und beide Prüfer waren in der Lage, diese zu erkennen. 3. Fall: - Sei (X,Y) ein ordinalskaliertes 2- dim. Merkmal, deren Ausprägungen (aj,bk) mit den absoluten Häufigkeiten fjk und den relativen Häufigkeiten hjk für j=1,...,l und k=1,...,m auftreten. Kontingenztafel (l x m): Y X Summe b1 b2 a1 f11 f12 ... f1m f1. a2 f21 f22 ... f2m f2. ... ... ... ... ... al fl1 fl2 f.1 f.2 Summe ... ... bm flm fl . f.m n Bem.: - Die absoluten Häufigkeiten fjk (j=1,...,l; k=1,...,m) im Innern der Tafel stellen die 2- dim. absolute Häufigkeitsverteilung dar. - Das Merkmal X hat die Ausprägungen a1,...,al, die mit den absoluten Randsummenhäufigkeiten f1. ,..., fl. auftreten und das Merkmal Y hat die Ausprägungen b1,...,bm, die mit den absoluten Randsummenhäufigkeiten f.1 ,..., f.m auftreten. - Die Randsummenhäufigkeiten bilden die 1- dim. absoluten Häufigkeitsverteilungen von X bzw. Y. - Analog erhält man die 1- und 2- dim. relativen Häufigkeitsverteilungen. Bsp.: Untersuchung der Noten von 32 Studenten in Mathematik und Statistik Kontingenztafel (5 x 5): Note in Mathematik Note in Statistik 1 2 3 4 5 Summe 1 1 1 0 0 0 2 2 0 2 3 0 0 5 3 0 2 10 4 0 16 4 0 0 2 4 0 6 5 0 0 1 1 1 3 Summe 1 5 16 9 1 32 Ergebnis: - Je besser im allgemeinen die Note in Mathematik ist, desto besser ist im allgemeinen auch die Note in Statistik und umgekehrt. - Man kann also einen statistischen Zusammenhang zwischen den Noten vermuten, den man daran erkennt, dass die in der Nähe der Diagonalen (von links oben nach rechts unten) gelegenen Felder der Kontingenztafel die höchsten absoluten Häufigkeiten (Besetzungszahlen) aufweisen. 4. Fall: - Sei (X,Y) ein metrisch skaliertes Merkmal, für deren Komponenten X und Y eine Klasseneinteilung vorliegt Häufigkeitstabelle (analog Kontingenztafel!) (l x m): Klassengrenzen X (y0;y1] Y (y1;y2] ... (ym-1;ym] Summe (x0;x1] f11 f12 ... f1m f1. (x1;x2] f21 f22 ... f2m f2. ... ... ... ... ... (xl-1;xl] fl1 fl2 f.1 f.2 Summe ... flm fl⋅ f.m n Bsp.: Untersuchung des Zusammenhangs zwischen dem Kalium- und Aschegehalt bei Weinen Bsp.: Weindaten (2- dim.Histogramm) 2- dim. Histogramm (Weine aus Ungarn und Tschechien) 2- dim. Histogramm (Weine aus Ungarn und Tschechien) zu 3.) Zusammenhangsmaße Art der Merkmale Häufigkeitsvert. Zusammenhangsmaß nominalskaliert Vierfeldertafel Assoziationskoeff. von Cramér , Cole, and Yule, Kontingenzkoeff. von Pearson nominal- oder (und) ordinalskaliert Kontingenztafel Assoziationskoeff. von Cramér und Kontingenzkoeff. von Pearson ordinalskaliert (Tab. von Rangzahlen) Rangkorrelationskoeff. von Spearman und Kendall metrisch skaliert 2- dim. Häufigkeitstabelle (Kontingenztafel) Vor.: X,Y zufällige Merkmale Lin. Abhängigkeit → Maßkorrelationskoeff. von Bravais/ Pearson Mon. Abhängigkeit → Rangkorrelationskoeff. von Spearman 1. Kontingenzkoeffizient C von Pearson: - Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,Bl und k = 1,B,m mit den abs. Häufigkeiten fjk auftritt. - Der Kontingenzkoeffizient ist ein Maß für die Stärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen. χ C= 2 χ +n 2 wobei f j⋅ ⋅ f⋅k f − l m jk n 2 χ = ∑∑ f j⋅ ⋅ f⋅k j =1 k =1 n 2 Bem.: - Der Kontingenzkoeffizient C nimmt Werte im Intervall vollst. Zusammenhang kein Zusammenhang min (l, m ) − 1 min (l, m ) 0≤C≤ an. - Der maximale Wert von C (d.h. vollständige Kontingenz) ist von der Tafelgröße (Zeilen- bzw. Spaltenzahl l und m) abhängig und nähert sich für große l bzw. m gegen 1. ⇒ besser: korrigierter Kontingenzkoeffizient von Pearson Ccorr - Für die Vierfeldertafel gilt: χ C= 2 χ +1 2 und 0 ≤ C ≤ 0,707 Bem.: - Der korrigierte Kontingenzkoeffizient Ccorr wird berechnet nach: χ min (l, m ) ⋅ 2 χ +n min (l, m ) − 1 2 C= und es gilt nun: 0 ≤ Ccorr ≤ 1 , d.h. bei vollständiger Kontingenz wird immer der Wert 1 angenommen, unabhängig von der Größe der Kontingenztafel. 2. Assoziationskoeffizient von Cramér (Cramér‘s V): - Sei (X,Y) ein 2- dim. , nominal- oder ordinalskaliertes diskretes Merkmal, das in den Ausprägungen (aj, bk) für j = 1,Bl und k = 1,B,m mit den abs. Häufigkeiten fjk auftritt. - Der Assoziationskoeffizient ist ebenfalls ein Maß für die Stärke des stochastischen Zusammenhanges zwischen 2 diskreten Merkmalen. vollst. Zusammenhang kein Zusammenhang χ n (min (l, m ) − 1) 2 V= wobei mit f j⋅ ⋅ f⋅k f − l m jk n 2 χ = ∑∑ f j⋅ ⋅ f⋅k j =1 k =1 n 2 0≤V≤1 3. Rangkorrelationskoeffizient rs von SPEARMAN: - Sei (X,Y) ein 2- dim. , ordinal oder metrisch skaliertes Merkmal, bei dem jede Komponente Merkmalswerte mit einer eindeutigen Rangfolge hat (rangskaliert). - Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n - Wir ordnen nun jedem Beobachtungswert xi bzw. yi für i=1,...,n eine Rangzahl R(xi) bzw. R(yi) zu, wobei gilt: R(x(i)) = i für i=1,...,n und x(1) ≥ x(2) ≥ ... ≥ x(n) - Tritt eine Ausprägung mehrfach auf („Bindungen“), so ordnet man diesen gleichen Werten als Rang das arithmetische Mittel der Ränge zu, die sie einnehmen. -Der Rangkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines monotonen stochastischen Zusammenhanges zwischen 2 rangskalierten Merkmalen. Formel für den Rangkorrelationskoeffizienten rs: ∑ (R(x ) − R (x ))⋅ (R(y ) − R (y )) n i rs = i i =1 (∑ (R(x ) − R (x )) )⋅ (∑ (R(y ) − R (y )) ) 2 2 i rs = i n ∑ R(x i ) ⋅ R(y i ) − n ⋅ R ( x ) ⋅ R ( y ) i=1 ((∑ R(x ) ) − n ⋅ R (x ) )⋅ ((∑ R(y ) ) − n ⋅ R (y ) ) 2 i 2 2 i 2 Wenn keine „Bindungen“ vorliegen, d.h. wenn xi ≠ xj für i ≠ j und yi ≠ yj für i ≠ j gilt: 6 ⋅ rs = 1 − n ∑ ( i= 1 2 n ⋅ n di 2 − 1 ) , wobei d i = R (x i ) − R (y i ) i=1,B,n Bem.: Für den Rangkorrelationskoeffizienten gilt: ● Wenn rs < 0 → neg. Rangkorrelation Wenn rs > 0 → pos. Rangkorrelation ● -1 ≤ rs ≤ +1 ● |rs| = 1 , wenn X und Y monoton zusammenhängen rs = 1 , wenn die x- Ränge mit den y- Rängen übereinstimmen rs = -1 , wenn die x- und y- Ränge genau entgegengesetzte Rangfolgen ergeben. Bsp.: Aromaprüfung von 8 Weinsorten durch 2 Prüfer Der Rangkorrelationskoeffizient von rs = 0,86 deutet auf einen recht starken, monoton wachsenden stochastischen Zusammenhang hin. 4. Maßkorrelationskoeffizient rXY von BRAVAIS- PEARSON: - Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal, deren Merkmalswerte (xi,yi) , i=1,...,n, einen näherungsweise linearen Zusammenhang zwischen X und Y vermuten lassen. - Wir beobachten an den n Beobachtungseinheiten die Merkmalswerte (xi,yi) für i=1,...,n - Der Maßkorrelationskoeffizient ist ein Maß für die Stärke und Richtung eines linearen stochast. Zusammenhanges zwischen 2 metrisch skalierten Merkmalen. Formel für den Maßkorrelationskoeffizienten rXY: n ∑ (x n −1 rXY = i − x ) ⋅ (y i − y ) i =1 (∑ (x − x ) )⋅ (∑ (y − y ) ) 2 n −1 rXY = 2 i i n ∑ x i ⋅ y i − n ⋅ x ⋅ y i=1 ((∑ x ) − n ⋅ x )⋅ ((∑ y ) − n ⋅ y ) 2 i 2 2 i 2 Bem.: Für den Maßkorrelationskoeffizienten rXY gilt: ● Wenn rXY < 0 → negative Korrelation Wenn rXY > 0 → positive Korrelation ● -1 ≤ rXY ≤ +1 ● |rXY| = 1 , wenn X und Y linear zusammenhängen ● Wenn rXY = 0 → Unkorreliertheit zwischen X und Y Wenn rXY = 0 und (X,Y) 2- dim. normalverteilt → Unabhängigkeit zwischen X und Y ● Der Korrelationskoeffizient ist nicht imstande, nichtlineare Zusammenhänge zwischen Merkmalen zu erkennen. ● Man beachte Schein- und Unsinnkorrelationen! Bem.: ● Merkmale mit sehr schiefen Häufigkeitsverteilungen können mitunter auch einen Korrelationskoeffizienten nahe 0 haben, obwohl ein statistischer Zusammenhang zwischen ihnen besteht. ● B = rXY2 heißt Bestimmtheitsmaß. Es gibt den Anteil der Variation der y- Werte an, der durch den linearen Zusammenhang zwischen X und Y bestimmt wird. ● Bei der Untersuchung von linearen Abhängigkeiten zwischen mehr als 2 Merkmalen gibt es: - partielle Korrelationskoeffizienten, - multiple Korrelationskoeffizienten und - kanonische Korrelationskoeffizienten. Zu 4.) Form der statistischen Abhängigkeit - Sei (X,Y) ein metrisch skaliertes 2- dim. Merkmal mit den Merkmalswerten (xi,yi) für i=1,...,n. - Es interessiert die Form der Abhängigkeit eines Merkmals Y (abhängiges Merkmal, Zielgröße, Regressand) von einem Merkmal X (unabh. Merkmal, Einflussgröße, Regressor). - Alle kontrollierbaren Einflussgrößen werden konstant gehalten. - Wir beschränken uns auf den Fall des Modells I der einfachen linearen Regression (1Einflussgröße, lineare Abhängigkeit). Vor.: ● Y zuf. Merkmal, einstellbares Merkmal ● X zuf. Merkmal, mit kleinem Fehler messbar → RM I zuf. Merkmal → RM II ● Streudiagramm (XY- Scatterplot) → Annahme eines linearen Modells für die Abhängigkeit zwischen X und Y in der Grundgesamtheit: y = β0 + β1 x, genannt lineare Regressionsgleichung. Dann gilt für die Zielgröße: Y = β0 + β1 X + ε Zufallsfehler, wobei ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi → bei RM I : Y~ N(β0 + β1 x, σ2) Regressionsanalyse: 1. Schätzung der empirischen linearen Regressionsgleichung (Ausgleichsgerade) nach der Methode der kleinsten Quadrate (MkQ, LS): Beobachtungswerte Modellwerte 1 n 1 n 1 n 2 2 2 Q(β0 , β1 ) = ∑ (y i − ŷ i ) = ∑ (y i − (β0 + β1 ⋅ x i )) = ∑ εˆ i → min n i=1 n i=1 n i=1 geschätzte Residuen Die Werte von β0 und β1, für die Q(β0, β1) ihr Minimum annimmt, nennt man Kleinste-Quadrate-Schätzer βˆ 0 und βˆ1 . Durch Nullsetzen der partiellen Ableitungen von Q nach β0 und β1 erhält man ein Normalgleichungssystem, das zu lösen ist. Die auf der Basis der konkreten Stichprobe ermittelten Schätzwerte für β0 und β1 bezeichnet man mit b0 und b1. n b1 = ∑ (x i − x ) ⋅ (y i − y ) i =1 n ∑ (x − x) 2 i = SPXY SQ X oder: b 1 = rXY sY sX i =1 und b0 = y − b1 ⋅ x → geschätzte lineare Regressionsgleichung: ŷ (b 0 , b1 ) = b 0 + b1 ⋅ x Bem.: s XY 1 n 1 ( ) ( ) = x − x ⋅ y − y = ⋅ SP XY ∑ i i n − 1 i =1 n −1 heißt Kovarianz zwischen X und Y und sX 2 1 n 1 2 (x i − x ) = = ⋅ SQ X ∑ n − 1 i=1 n −1 Varianz von X. 2. Zeichnen der Regressionsgerade ins Streudiagramm: y ŷ = b0 + b1 ⋅ x ŷ i ε̂ yi i b0 0 xi x 3. Güte des Regressionsmodells - Beurteilung der Güte der Modellvorhersage für jeden Messwert mit Hilfe der geschätzten Residuen εˆ i = y i − ŷ i , i=1,B, n - Maß für die Variation der Stichprobenwerte um die geschätzte Regressionsgerade: Restvarianz sR 2 sR 1 n 1 n 1 n 2 2 2 (yi − ŷ i ) = (y i − (b0 + b1 ⋅ x i )) = = εˆ i ∑ ∑ ∑ n − 2 i=1 n − 2 i=1 n − 2 i=1 2 1 = ⋅ SQR n−2 geschätzte Residuen Restquadratsumme FG - Streuungszerlegung (Zerlegung der Quadratsummen!): SQ T = SQR + SQM „Gesamtstreuung“ n ∑ (yi − y ) i=1 2 durch den Modellzusammenhang erklärte „Streuung“ „Reststreuung“ n n = ∑ (y i − ŷ i ) + ∑ (ŷ i − y ) i=1 2 i=1 2 Erklärte Streuung: Darstellung der Variation der y- Werte, die auf den linearen Zusammenhang SQM zwischen X und Y zurückzuführen ist, d.h. sie enthält die Variation der Werte auf der Geraden um den Mittelwert y . Reststreuung: SQR Verbleibender Rest der Variation der yWerte Bem.: ● Liegen alle beobachteten Werte exakt auf einer Geraden, so sind die Residuen 0 und ebenso die Reststreuung. Dann ließe sich die gesamte Variation von Y durch den linearen Modellzusammenhang mit X erklären (funktionaler linearer Zusammenhang). ● Je größer die Reststreuung ist, desto schlechter beschreibt das Modell die Daten. - Als Maßzahl für die Güte der Modellanpassung verwendet man häufig das Bestimmtheitsmaß B. Es gibt den Anteil an der Gesamtstreuung der y- Werte an, der durch die Regression von Y auf X erklärt wird und ist der Quotient aus erklärter und Gesamtstreuung. n SQM B= = SQ T ∑ (ŷ n − y) 2 i i=1 n 2 ( ) y − y ∑ i = 1− i=1 ∑ (y − ŷ i ) 2 i i=1 n 2 ( ) y − y ∑ i i=1 0≤B≤1 kein linearer Zusammenhang B = rXY2 funktionaler linearer Zusammenhang Für Vorhersagen sollte das Bestimmtheitsmaß möglichst ≥ 0,8 sein! Aber: B ist bei RM I vom Versuchsplan abhängig! - Tests zur Prüfung der Modelladäquatheit (F- Test der Varianzanalyse) und zur Prüfung der Modellparameter (t- Tests, Konfidenzintervalle) im Rahmen der schließenden Statistik 4. Residualanalyse - Prüfen der Modellvoraussetzungen über den Zufallsfehler (ε ~ N(0, σ2) und σ2 unabhängig von den Messpunkten xi) - Residualplots εˆ i = y i − ŷ i → normierte Residuen d εˆ i di = sεˆ d Ausreißer d +3 ŷ 0 0 ŷ 0 -3 idealer Verlauf ungleiche Varianzen ŷ d i > 3 → Ausreißer Bsp.: Weindaten, Abhängigkeit zwischen den seltenen ErdenParametern Lanthanum und Gadolinum (RM II) XY- Scatterplot (Lanthanum, Gadolinum) y = -0,7128 + ,91690 * x Korrelationskoeffizient: r = 0,98136 1 0 Gadolinum -1 -2 -3 -4 -5 -4 -3 -2 -1 Lanthanum 0 1 2 95% Konfigen zgrenzen