3 Beschreibende Statistik 3.1. Daten, Datentypen, Skalen Daten Datum, Daten (data) ”das Gegebene” Fragen über Daten Datenerhebung: Was wurde gemessen, erfragt? Warum? Wie wurden die Daten erhalten? Versuchsplanung: Wieviele Messungen (Befragungen)? Wo messen? (Wen befragen?) Repräsentanz, Randomisierung Charakterisierung der Daten: Sind es genug? Sind alle notwendig? Was ist naturgegeben, was von Menschen beeinflusst (beeinflussbar)? Art der Daten (Skalen) Anzahl der möglichen Werte einer Variablen Anzahl der gleichzeitig untersuchten Variablen (univariate, multivariate Verfahren) 1 Skalenniveaus, Datentypen • Nominalskala: qualitative Merkmale – z.B. Eigenschaften wie ”krank” - ”gesund”, ”Raucher” ”Nichtraucher”, Geschlecht (dichotom), Farben, Berufsgruppe, Tierart, Apfelsorte – jede Beobachtung einer Merkmalsausprägung wird genau einer bestimmten Klasse (Kategorie) zugeordnet, – Klassen können nicht geordnet sondern nur unterschieden werden, Klassen z.B. durch natürliche Zahlen oder Buchstaben charakterisiert, – Invarianz gegenüber Permutationen • Ordinalskala: sinnvolles Ordnen der Beobachtungen möglich – z.B. Bewertung durch Noten 1 - 5, Antwortmuster: ”stark ablehnend” - ”ablehnend” ”unentschieden” - ”zustimmend” - ”stark zustimmend”, Platzierungen, Güteklassen, Ratingskalen – Präferenzstruktur, – Unterschiede zwischen den Werten bzw. Klassen nicht vergleichbar (keine Abstände), – wenn Klassen, dann üblicherweise durch natürliche Zahlen charakterisiert, – Invarianz gegenüber monotonen (isotonen) Transformationen 2 • Intervallskala: quantitative Merkmale, metrische Daten – physikalische Größen wie Temperatur in Grad Celsius, – Abstände zwischen den Werten der Skala besitzen eine Bedeutung; Berechnung von Differenzen sinnvoll, – kein absoluter Nullpunkt, deshalb z.B. Aussage: ”20o C sind doppelt so warm wie 10o C” unsinnig, – Invarianz gegenüber linearen Transformationen y = ax + b • Absolut- oder Verhältnisskala: wie Intervallskala, aber mit absolutem Nullpunkt – z.B. Temperatur in Grad Kelvin, aber auch Einkommen, – Invarianz gegenüber Ähnlichkeitstransformationen y = ax • Die Skalen sind nach steigendem Informationsgehalt aufgeführt (Nominalskala besitzt niedrigsten Gehalt). • Die Überführung von einem Datenniveau in ein anderes ist ”abwärts” stets möglich. 3 • Die Wahl der geeigneten statistischen Verfahren zur Auswertung von Daten richtet sich nach – der Art der Fragestellung – dem vorliegenden Datentyp und – der Anzahl der eingehenden Variablen. Bsp.: Analyse von Abhängigkeiten in gemischtskalierten, multivariaten Datensätzen • Die Festlegung des Datentyps hängt stets von der Art der Messung (Erfassung) der Daten ab, nicht nur von den tatsächlichen Eigenschaften der Daten. Wird z.B. der Aflatoxingehalt von Maispflanzen nur in Klassen ( 0 . . . 2, 2 . . . 5, 5 . . . 8, . . . [ppb]) erfasst, liegt diese Variable nur als ordinale Variable vor (eigentlich Absolutskala). 4 3.2. Univariate Verteilungen, grafische Darstellungen und Kenngrößen Ausgangspunkt: Urliste x1 , x 2 , . . . , x n Häufigkeiten: Hi . . . Anzahl oder absolute Häufigkeit des Auftretens der Merkmalsausprägung ai, i = 1, . . . , l Darstellung in Strichlisten, Häufigkeitstabellen, Balkenoder Stabdiagrammen bei zu vielen Ausprägungen (und ordinalen Daten): Klasseneinteilung; subjektiv, Manipulationsmöglichkeit! Faustregel: Anzahl der Klassen etwa √ n hi = Hi/n . . . relative Häufigkeit von ai, i = 1, . . . , l. Darstellung in Kreisdiagrammen bei ordinalen Daten: kumulierte absolute und relative Häufigkeiten: Ki = i X j=1 Hj , ki = i X j=1 hj Darstellung in Summenkurven (Summenpolygon) 5 Kenngrößen eindimensionaler Verteilungen • Charakterisierung von Verteilungen durch statistische Maßzahlen (Kenngrößen, Parameter), die die Eigenschaften (Zentrum, Ausbreitung, Form) der Verteilung widerspiegeln • wichtigste Maßzahlen sind Lage- und Streuungsparameter • Wichtig: Skalierungsniveau beachten Lageparameter: Der Modalwert • = die am häufigsten auftretende Merkmalsausprägung • = die Klasse (Klassenmitte) mit der größten Häufigkeit bei gruppierten Daten (Klassen) • Mehrere Maxima: kein Modalwert • Eigenschaften und Interpretation: – Wert, der ”am ehesten” zu beobachten ist (sprachl. Formulierungen wie: ”Diese Krankheit dauert normalerweise 3 Tage.”, ”Die Fahrzeit beträgt normalerweise 2 Stunden.”) – unempfindlich gegenüber Ausreißern (extremen Werten) 6 Median • mindestens ordinale Daten • Median heißt jede Merkmalsausprägung a, für die gilt: X i : xi ≤a hi ≥ 1/2 , X i : xi ≥a hi ≥ 1/2 • ”oberhalb” und ”unterhalb” der Mediane befinden sich gleichviele Elemente der Stichprobe • Bei metrischen Daten wird häufig der Mittelwert der Mediane als Median angegeben. • Eigenschaften und Interpretation: – zentraler Wert bei ordinalen Merkmalen – unempfindlich gegenüber Ausreißern Das arithmetische Mittel • metrische Daten 1 x̄ = n n X i=1 xi = l X j=1 aj hj • Eigenschaften und Interpretation: – Schwerpunkt der Verteilung, – empfindlich gegenüber Ausreißern (vgl. Median), – Minimaleigenschaft bezüglich quadratischer Abweichungen: n X i=1 (xi − z)2 → min hat die Lösung z = x̄ (Beweis: Übung). 7 Streuungsparameter (Variabilitätsparameter) • Maßzahlen zur Bewertung der Variabilität der Messwerte, der Breite einer Verteilung, der Abweichungen vom Mittelwert • Ziel von Analysen: Zerlegung der Variabilität der Messwerte nach verschiedenen Ursachen (Faktoren, Fehler des Messgerätes usw.), Analyse der Wirkung des Zufalls Streuungsparameter für metrische Daten • Spannweite: xmax − xmin • empirische Varianz: s2 1 s = n−1 2 n X i=1 ¶ n 1 µX 2 2 x − nx̄ (xi − x̄) = n − 1 i=1 i 2 ”mittlere quadratische Abweichung” 1 2 (· − ·) n−1 Dimension von s2 : ist z.B. xi eine Konzentration, dann mg 2/l2 • Eigentlich müsste durch n geteilt werden. Grund für die Division durch n − 1 ist die Anwendung der so erhaltenen Größe in der schließenden Statistik. √ • Standardabweichung: s = s2 gleiche Dimension wie xi • Variationskoeffizient: s 100% x̄ 8 dimensionslos 3.3. Bivariate Verteilungen • zwei Variablen X, Y werden gemeinsam betrachtet (an jedem Objekt werden gleichzeitig zwei Merkmale beobachtet) • Beobachtungswerte prägungen (x, y) sind Paare von Merkmalsaus- • Beispiele: – Material – Festigkeit – Höhe einer Maispflanze – Masse des Kolbens – Düngermenge – Ertrag – Wetter – Anzahl der Kunden • Variablen mit verschiedenem Skalenniveau zusammengestellt werden (Problem!) können • Fragen: – Zusammenhang ja / nein – Stärke des Zusammenhanges – evtl. Richtung, Typ des Zusammenhanges • Kausalität muss Fachwissenschaft klären • verschiedene grafische Methoden und viele Maßzahlen zur Bewertung von Zusammenhängen 9 • Bestimmung der absoluten Häufigkeiten für möglichen Beobachtungspaare/Kombinationen alle (für metrische Variable evtl. Klasseneinteilung vornehmen) Beispiel: Schulabschluss – monatliches Nettoeinkommen des Haushaltes • Tabelle heißt Kontingenztafel, Kreuztabelle, (Kreuztafel) • grafische Veranschaulichung dieser Tabelle: bivariates Histogramm, gestapeltes Histogramm für relative Häufigkeiten • bei stetigen (metrischen) Variablen: häufig Klasseneinteilung (sonst Tabelle unsinnig), Informationsverlust, • bei stetigen Daten oft besser: Streudiagramm oder Scatterplot (Punktwolke) Beobachtungen (x, y) als Punkte in der Zahlenebene darstellen zum Erahnen funktionaler Abhängigkeiten z.B. y y y y = = = = ax + b ax2 + bx + c a ∗ sin(bx) + c f (x) 10 • lineare Abhängigkeit (metrischer Variabler) wird als Korrelation bezeichnet (Unterschied zur Umgangssprache! Interpretation der Linearität!) Beispiele: a) Variablen extrem korreliert, Korrelation positiv b) Variablen stark korreliert, Korrelation positiv c) Variablen schwach korreliert, Korrelation positiv d) Variablen nahezu unkorreliert e) Variablen negativ korreliert f) Variablen extrem korreliert, Korrelation negativ g) Variablen nahezu unkorreliert, jedoch starker funktionaler Zusammenhang • Quantifizierung der Stärke der Korrelation → empirischer Korrelationskoeffizient Abhängigkeitsmaße bivariater Verteilungen • Zusammenhang zwischen zwei Variablen soll durch numerische Größen, ”Kenngrößen”, beschrieben werden • breites Spektrum solcher Kenngrößen • Abhängig vom Skalenniveau: – nominal → Kontingenzkoeffizient – ordinal → Rangkorrelationskoeffizient – metrisch → Korrelationskoeffizient 11 Metrische Daten • Gegeben: n Beobachtungen zweier Merkmale X und Y : (xi, yi), i = 1, 2, . . . , n. • empirische Kovarianz 1 cov(X, Y ) = n−1 n X i=1 (xi − x̄)(yi − ȳ) • empirischer Korrelationskoeffizient (auch: Produkt-Moment-Korrelationskoeffizient Pearson und Bravais) rXY 1 cov(X, Y ) = = n−1 sX sY µ X n i=1 nach xiyi − nx̄ȳ ¶ sX sY x̄ , ȳ . . . Mittelwerte der Merkmale X bzw. Y sX , sY . . . Standardabweichung der Merkmale X, Y • Unabhängig von der Maßeinheit • Interpretation: Gehören zu kleinen xi häufig kleine (große) yi, so ist das Vorzeichen von (xi − x̄)(yi − ȳ) häufig ’+’ (’–’) und die Summe wird groß, positiv (klein, negativ), bei ”Unabhängigkeit” ergibt sich ein Wert nahe 0. 12 • Es gilt −1 ≤ rXY ≤ 1. Besteht zwischen den Merkmalen X und Y ein deterministischer linearer Zusammenhang Y = a + bX so ist ( ⇔ ) rXY = rXY = 0 ( yi = a + b xi, i = 1, . . . , n ), 1, wenn b > 0 −1 , wenn b < 0 empirische Unkorreliertheit rXY (nur) Maß für die Stärke eines linearen Zusammenhanges • liefert Anhaltspunkt, ob Ausgleichsgerade sinnvoll • Beispiel: Düngermenge [kg/ha] – Ertrag [dt/ha] ([KSV S. 60]) rXY = 0, 894 13 Ordinale Daten • Frage nach dem Grad einer monotonen Abhängigkeit (Zusammenhanges) zweier Merkmale X und Y (d.h. X wächst/fällt gleichzeitig mit Y ) • Es sei: Ri = Rg(xi) Rang von xi unter den x-Werten Ri0 = Rg(yi) Rang von yi unter den y-Werten di = Ri − Ri0 Differenz der Ränge • treten Rangplätze mehrfach auf = Bindungen: → Literatur • Rangkorrelationskoeffizient nach Spearman und Krueger für ordinale Daten ohne Bindungen 6 R = 1 − n X d2i i=1 n(n2 − 1) • Summe klein bei etwa gleichlaufenden Reihen (di ≈ 0 also R ≈ 1), Summe groß bei gegenläufigen Reihen, Normierung so, dass dann R = −1. • Es gilt : Werte zwischen –1 und 1, mit Interpretation ”gegenläufig” ←→ ”gleichläufig” 14 • Beispiel: Kundenbefragung durch einen Baumarkt Zusammenhang zwischen der Häufigkeit der Benutzung eines bestimmten Gerätes und der Zufriedenheit mit diesem Gerät (n=8) Kunde i 1 2 3 Benutzung pro Jahr 100 5 12 Note 4 5 6 7 8 3 20 30 1 25 1,3 6,0 4,1 3,7 2,1 1,6 4,5 3,0 Rang Ri 1 6 5 7 4 2 8 3 Rang Ri0 1 8 6 5 3 2 7 4 di 0 −2 −1 2 1 0 1 −1 di 2 0 4 1 0 1 4 Damit ist R = 1 − 1 1 P = 12 6 · 12 = 0, 857 8 (64 − 1) Die Rangreihen sind stark gleichlaufend. ”Kunden, die das Gerät häufiger benutzten, waren häufiger auch zufriedenere Kunden.” ”Je häufiger die Kunden das Gerät benutzten, desto zufriedener waren sie damit.” ”Kunden, die mit dem Gerät zufrieden waren, nutzten es auch häufiger.” 15 3.4. Regressionsanalyse Untersuchung und Beschreibung der Abhängigkeit zwischen einer messbaren Zielgröße (Regressand) Y und einer (einstellbaren) Einflussgröße (Regressor) X in Form einer (linearen) Funktion (lineare Regression). X, Y metrisch! Konkrete Stichprobe: Messwertpaare (xi, yi), i = 1, . . . , n Beispiele: • Dosis (Medikament, Futterzusätze, Dünger, . . . ) −→ Wirkung (phys. Werte, Massezunahme, Milchleistung, Ertrag, . . . ) • Alter, Dauer (Zeit) −→ Einkommen, phys. Werte • X . . . Düngermenge in kg/ha Y . . . Ertrag in dt/ha Scatterplot, Korrelationskoeffizient: rXY = 0, 894 → Darstellung der Beziehung zwischen den beiden Variablen durch eine Gerade der Form Ertrag = b0 + b1 · Düngermenge scheint sinnvoll. Was sind b0 und b1? b0 . . . Ertrag in dt/ha ohne Dünger b1 . . . Ertragssteigerung in dt/ha pro zusätzlichem kg Dünger je ha 16 Modell: yi = b0 + b1 · xi + ri ri . . . Residuen. Wie b0 und b1 sinnvoll bestimmen? Methode der kleinsten Quadrate (MkQ), d.h. Lösung des Problems: SQR = n X i=1 n X ri2 → min: i=1 ( yi − (b0 + b1 · xi) )2 → min ↑ Messwert zu xi ↑ Funktionswert ŷi der Geraden bei xi (SQR . . . residual sum of squares) Extremwertaufgabe Formeln für optimale b∗0 , b∗1 : b∗0 = ȳ − b∗1 x̄ n P b∗1 = i=1 n P xiyi − nx̄ȳ i=1 x2i − nx̄2 = cov(X, Y ) s2X Beachte: Das Resultat hängt davon ab, welche der Variablen als abhängig und welche als unabhängig gewählt wurde. 17 Das Bestimmtheitsmaß Ausgangspunkt: Betrachtung der yi-Werte (Erträge). Diese schwanken um den Mittelwert ȳ = 42, 38 dt . ha Dieser ist ebenfalls optimal nach der MkQ: n X 2 i=1 (yi − ȳ) = min z n X (yi − z)2 , i=1 und das Maß für die Varianz um ȳ ist s2y = n 1 X (yi n−1 i=1 − ȳ)2 = 38, 55 . Das entsprechende Maß für die (mittlere) Varianz um die Ausgleichsgerade ist die (mittlere) Reststreuung 1 n−1 SQR = n X 1 (yi n−1 i=1 − ŷ)2 . Der Quotient aus beiden: 1 n−1 n X SQR = s2y i=1 n X i=1 (yi − ŷ)2 (yi − ȳ)2 = 0, 201 = ’Streuung um beste Gerade’ ’Streuung um beste Zahl’ erklärt, welcher Anteil der ursprünglichen Varianz nach der Anpassung der Geraden noch übrig ist. Die Größe n X B = 1 − i=1 n X i=1 (yi − ŷ)2 (yi − ȳ) 2 = 0, 799 heißt Bestimmtheitsmaß und beschreibt, welcher Anteil der ursprünglichen Varianz der yi (der Erträge) durch die (linear modellierte) Abhängigkeit von den xi (Düngermengen) erklärt worden ist. 18 Es gilt: 2 B = rXY ... Quadrat des Korrelationskoeffizienten zwischen X und Y , und so werden wir B bei Handrechnung auch stets berechnen! 2 In SPSS: rXY = Rsq 2 Im Beispiel: rXY = 0, 799 ≈ 0, 8 ” 80% der Streuung der Erträge auf den unterschiedlichen Versuchsflächen lassen sich (bei Unterstellung eines linearen Zusammenhanges) dadurch erklären, dass unterschiedliche Düngermengen eingesetzt wurden.” grafische Methode: Residualplots ri = yi − ŷi → Literatur: multiple Regression (mehrere Einflussgrößen), nichtlineare Regression, . . . 19