Statistik 1 Statistik, Prof. Dr. Karin Melzer 1.1. Was ist Statistik ? (I) „Es geht um die Kunst des vernünftigen Vermutens in Situationen, wo der Zufall im Spiel ist oder ins Spiel gebracht werden kann.“ Prof. Dr. Hermann Dinges (Uni Frankfurt/Main, 1998) 2 Statistik, Prof. Dr. Karin Melzer 1.1. Was ist Statistik ? (II) Eine mögliche Antwort: – „Statistik stellt das Instrumentarium zur Abschätzung von Art und Größe von Messfehlern, Fehlern bei Schlussfolgerungen, usw. bereit. – Sie ist überall dort einzusetzen wo der Zufall eine Rolle spielt oder wo Situationen so komplex sind, dass sie sich einer deterministischen Beschreibung entziehen. – Die induktive (schließende) Statistik modelliert den Zufall, sie versucht ihn „in den Griff zu bekommen“, oder „Sicherheit über Unsicherheit zu gewinnen“. (Hartung, 1987) Daten fallen immer und überall an, werden heute auch immer öfter massenhaft gespeichert (Datenbanken). Statistik transformiert diese Daten in nützliche Information. → komprimieren, beschreiben, quantifizieren, vorhersagen! 3 Statistik, Prof. Dr. Karin Melzer 1.1. Was ist Statistik ? (III) Grundgesamtheit (z. B. Gesamtbevölkerung Deutschlands) Ziehen einer Stichprobe Rückschluss auf Grundgesamtheit Stichprobe (z. B. 1.000 zufällig ausgewählte Personen) 4 Statistik, Prof. Dr. Karin Melzer 1.2 Teilbereiche der Statistik Statistik wird in drei Teilbereiche unterteilt: Datenerhebung oder Datengewinnung Darstellung der erhobenen Daten (beschreibende Statistik) Analyse und Interpretation der Daten (schließende Statistik) 5 Statistik, Prof. Dr. Karin Melzer 1.3. Einteilung der Vorlesung 1. Einführung (Einteilung der Vorlesung, Grundbegriffe) 2. Datenerhebung oder Datengewinnung 3. Beschreibende Statistik (graphische Darstellung der Daten, Berechnung von Parametern zur Beschreibung der Daten) 4. Wahrscheinlichkeitsrechnung und Kombinatorik (Wahrscheinlichkeiten, Zufallsvariablen, Verteilungen, …) 5. Schließende Statistik (Hypothesentests, Vertrauensintervalle, …) 6. Statistische Qualitätskontrolle (statistische Prozesskontrolle, Annahmestichprobenprüfung) 6 Statistik, Prof. Dr. Karin Melzer 1.4. Grundbegriffe der Statistik (I) 1. Grundgesamtheit: Objekte, an denen die interessierende Größe beobachtet und erfasst wird, über die man eine Aussage gewinnen will - alle Mietwohnungen von Stuttgart, alle Wahlberechtigten, alle Würfe eines Würfels, alle Teile, die eine Maschine produziert, Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen Elementen bestehen. Eine Grundgesamtheit kann real oder hypothetisch sein. 2. Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit. Es gibt verschiedene Arten der Stichprobengewinnung (vgl. Kapitel 2). 3. Umfang der Stichprobe: Anzahl der Elemente in der Stichprobe. Der Umfang einer Stichprobe ist immer endlich. 7 Statistik, Prof. Dr. Karin Melzer 1.4. Grundbegriffe der Statistik (II) 4. Merkmal: Interessierend Größe, die an den Elementen in der Stichprobe beobachtet (gemessen, erhoben) wird. z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart Merkmal 1: Nettomiete, Merkmal 2: Baualter, Merkmal 3: Größe in qm Es können ein oder mehrere Merkmale an einem Element der Grundgesamtheit erhoben werden. 5. Merkmalsausprägung: Werte, die jedes Merkmal annehmen kann. z.B. Test von Druckern in einer Computerzeitschrift. Grundgesamtheit: sämtliche zur Auswahl stehende Drucker Stichprobe: getestete Drucker Merkmal 1: Herstellername Merkmalsausprägung: HP, IBM, Lexmark, … Merkmal 2: Preis Merkmalsausprägung: 0 - … EUR Merkmal 3: Gewicht Merkmalsausprägung: 0 - … Kg Merkmal 4: Gesamturteil Merkmalsausprägung: sehr gut, gut, mittel, schlecht, sehr schlecht 8 Statistik, Prof. Dr. Karin Melzer 2. Datengewinnung 2.1. Arten von Erhebungen a) b) Vollerhebung ⇒ Untersuchung der Grundgesamtheit Teilerhebung ⇒ Untersuchung einer Stichprobe Aufgabe 1: Wann ist eine Teilerhebung sinnvoller als eine Vollerhebung ? 9 Statistik, Prof. Dr. Karin Melzer 2.2. Arten von Teilerhebungen (I) 1. Zufallsstichprobe (random sample): Jedes Objekt der Grundgesamtheit hat die gleiche Wahrscheinlichkeit in die Stichprobe zu gelangen. 2. Systematische Auswahl: Die Auswahl wird nach einem objektiven Kriterium vorgenommen, z. B. jeder 100. produzierte Artikel 3. Schichtenstichprobe (stratified sampling): Die Grundgesamtheit wird auf Basis einer oder mehrerer Merkmale in Schichten eingeteilt. 4. Klumpenstichprobe (cluster sampling): Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (meist Personen) zufällig ausgewählt. Innerhalb dieser Klumpen wird dann eine Vollerhebung durchgeführt. 5. Repräsentative Stichprobe: Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten, wie in der Grundgesamtheit enthalten. 10 Statistik, Prof. Dr. Karin Melzer 2.2. Arten von Teilerhebungen (II) Aufgabe 2: Welches Verfahren soll angewendet werden, um eine Teilerhebung durchzuführen? a) Ein Computerhersteller erhält eine Lieferung von 25.000 elektrischen Speicherchips, von denen 500 herausgegriffen werden und auf Funktionsfähigkeit untersucht werden sollen. b) Der aktuelle Wert eines Lagers soll durch eine Stichprobeninventur überprüft werden. Das Lager enthält sehr viele Kleinteile von geringem Wert, eine mittlere Anzahl von Teilen mit mittlerem Wert und relativ wenige Teile von sehr großem Wert. c) Mit der PISA-Studie wollen sich die teilnehmenden Staaten ein Bild davon machen, wie gut es ihren Schulen gelingt, Schüler auf die Herausforderungen der Zukunft vorzubereiten. Zuerst sollen deshalb innerhalb eines Bundeslandes (z.B. Baden-Württemberg, …) für jede Schulform (z.B. Hauptschule, Realschule, Gymnasium, …) Tests durchgeführt werden. 11 Statistik, Prof. Dr. Karin Melzer 2.2. Arten von Teilerhebungen (III) Aufgabe 2: Welches Verfahren soll angewendet werden, um eine Teilerhebung durchzuführen? d) Die Nürnberger Gesellschaft für Konsumforschung ermittelt die FernsehEinschaltquoten. Sie führt dazu Teilerhebungen mit 20.000 Menschen in ganz Deutschland durch. 12 Statistik, Prof. Dr. Karin Melzer 2.3. Behandlung von Datenausreißern und fehlenden Daten Ein Datenausreißer ist ein Extremwert innerhalb einer Stichprobe, der so extrem ist, dass die Person, die die Stichprobe zusammengetragen hat, glaubt, dass er nicht stimmen kann. Aufgabe 4: Gegeben ist eine Messreihe, bei der 10 Messungen durchgeführt wurden. Auf dem Erfassungsbogen stehen folgende Werte. 14,8 15,2 a) b) c) 15,2 14,9 15,1 15,0 14,9 18,4 unleserlich 15,1 Welcher Messwert ist ein Ausreißer? Wie soll mit Ausreißern umgegangen werden? Wie soll mit dem fehlenden Messwert umgegangen werden? 13 Statistik, Prof. Dr. Karin Melzer 3. Beschreibende Statistik 3.1 Merkmaltypen (I) 1. Qualitative Merkmale - Beschreiben Eigenschaften, die sich nicht durch Messen oder Zählen ermitteln lassen Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6 = „grün“ (mit diesen Zahlen kann man aber nicht rechnen). a) Qualitativ-ordinale Merkmale (Rangmerkmale) z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung „sehr groß“, „groß“, „mittel“, „gering“,… - Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen b) Qualitativ-nominale Merkmale (klassifikatorische Merkmale) z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,… - Merkmalsausprägung lässt sich nicht in eine Rangfolge bringen 14 Statistik, Prof. Dr. Karin Melzer 3. Beschreibende Statistik 3.1 Merkmaltypen (II) 2. Quantitative Merkmale (metrische Merkmale, kardinale Merkmale) - Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine Schraube ist um 2 mm länger als eine andere a) Quantitativ-stetige Merkmale z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!) - können jeden Wert in einem vorgegebenen Intervall annehmen - kommen meist durch Messung zustande b) Quantitativ-diskrete Merkmale z.B.: Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel - Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,… - treten vorzugsweise bei Zählungen auf 15 Statistik, Prof. Dr. Karin Melzer 3.2. Graphische Darstellung (I) „Ein Bild sagt mehr als tausend Worte“ Einige Möglichkeiten der Darstellung: 1. Qualitative Merkmale a) Häufigkeitstabelle (z.B. Wahlergebnisse) Partei (Merkmal) (↓ Merkmalsausprägung) Anzahl der Stimmen (absolute Häufigkeit) Stimmenanteil in % (relative Häufigkeit) CDU ( = a1) 1.009.749 ( = h1) 36,8 ( = f1) SPD ( = a2) 1.006.154 ( = h2) 36,7 ( = f2) FDP ( = a3) 258.554 ( = h3) 9,4 ( = f3) Grüne ( = a4) 206.606 ( = h4) 7,5 ( = f4) Linke ( = a5) 140.488 ( = h5) 5,1 ( = f5) Sonstige ( = a6) 121.158 ( = h6) 4,5 ( = f6) 2.742.709 ( = n) 100 Summe b) Säulendiagramm c) Kreisdiagramm 16 Statistik, Prof. Dr. Karin Melzer 3.2. Graphische Darstellung (II) 1. Qualitative Merkmale a) Häufigkeitstabelle b) Säulendiagramm (z.B. Wahlergebnisse) Stimmverteilung 1.200.000 1.009.749 1.006.154 1.000.000 800.000 600.000 400.000 258.554 206.606 140.488 200.000 121.158 0 CDU SPD FDP Grüne Linke Sonstige c) Kreisdiagramm 17 Statistik, Prof. Dr. Karin Melzer 3.2. Graphische Darstellung (III) 1. Qualitative Merkmale a) Häufigkeitstabelle (z.B. Wahlergebnisse) b) Säulendiagramm c) Kreisdiagramm (für prozentuale Aufteilung) 18 Statistik, Prof. Dr. Karin Melzer 3.2. Graphische Darstellung (IV) 2. Quantitative Merkmale a) Bei diskreten Merkmalen: Häufigkeitstabelle (ohne Klassenbildung), Säulendiagramm, Kreisdiagramm z. B. Tore, gelbe/rote Karten in den Spielen einer Saison der Bundesliga ⇒ Vorsicht! Wenn diskretes Merkmal zu viele Ausprägungen hat, dann nicht sinnvoll (z.B. Preis, Gewicht, Alter,…). b) Bei stetigen Merkmalen und diskreten Merkmalen mit vielen Ausprägungen: Histogramm z. B.: Radarkontrolle bei Fahrzeugen, Einkommen von Personen Vorgehen: Häufigkeitstabelle mit Klassenbildung • gegeben: n Messwerte • Einteilung des Messbereichs in etwa • (n = Anzahl der Messwerte) • Zählen: Häufigkeit in jeder Klasse (Strichliste) • Graphische Darstellung als Säulendiagramm n Klassen Histogramm = Säulendiagramm, bei dem die Säulen über den entsprechenden Intervallen der Klassen gezeichnet werden, und die daher an den Klassengrenzen aneinanderstoßen. 19 Statistik, Prof. Dr. Karin Melzer 3.2. Graphische Darstellung (V) 2. Quantitative Merkmale b) Histogramm (Forts.) → Erster visueller Eindruck von der Verteilung eines Merkmals Regeln: • Anzahl der Klassen k ≈ n, wenn n ≤ 400 Anzahl der Klassen k ≈ 20, wenn n > 400. • Klassen müssen alle vorkommenden Stichprobenwerte überdecken • Alle Klassen werden (i. d. R.) gleich breit gewählt • Klassen so wählen, dass keine Messwerte auf den Klassengrenzen liegen • • • • Informationen: In welchem Bereich (z. B. relativ zu den Toleranzgrenzen) liegen die „meisten Messungen“? Wie weit streuen die Daten? Ist die Verteilung symmetrisch oder schief? Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“? Beispiel: Einkommensdaten von 100 Personen 20 Statistik, Prof. Dr. Karin Melzer 3.3. Statistische Kennzahlen für quantitative Merkmale • Eine wesentliche Technik zur Charakterisierung von Datensätzen ist die Reduktion auf wenige Kenngrößen. • Diese sollen die Eigenart der Daten widerspiegeln. Dazu dienen Maßzahlen der Lage (Wo?) der Streuung (Wie breit?) • Übersicht über die betrachteten Kennzahlen: Lagemaße • arithmetisches Mittel, Mittelwert • Median Streumaße • empirische Varianz, empirische Standardabweichung • Spannweite • Mittlerer Abstand 21 Statistik, Prof. Dr. Karin Melzer 3.3. Statistische Kennzahlen für quantitative Merkmale Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden: • Messreihe: Beobachtete Werte in der Reihenfolge ihrer Ermittlung Beispiel: Größe der Schüler einer Schulklasse in cm x1 = 172; x2 = 153; x3 = 177; x4 = 156; x5 = 171; x6 = 183; x7 = 164; x8 = 158; x9 = 163; x10 = 172 • Häufigkeitstabelle ohne Klasseneinteilung d. h. zu jedem Messwert wird angegeben, wie oft er beobachtet wird (Häufigkeiten) (für jede Merkmalsausprägung eine Zeile) Beispiel: Notenspiegel • Häufigkeitstabelle mit Klasseneinteilung (Merkmalsausprägungen werden in Klassen zusammengefasst) Beispiel: die Körpergrößen werden nur in 10er-Schritten erfasst Note Anzahl 1,0 1,3 1,7 … 1 3 8 … Größe (Klassen) Anzahl [150;160) [160;170) [170;180) [180;190) 3 2 4 1 22 Statistik, Prof. Dr. Karin Melzer 3.3. Statistische Kennzahlen für quantitative Merkmale 3.3.1 Lagemaße (arithmetisches Mittel, Mittelwert, Durchschnitt) a) Arithmetisches Mittel (Mittelwert oder Durchschnitt) x aus einer Messreihe x1, x2, x3, … ,xn mit n = Anzahl der Messwerte: x1 + x2 + ... + xn 1 n x= = ∑ xi n n i =1 b) Arithmetisches Mittel x aus einer Häufigkeitstabelle (für quantitative Merkmale) ohne Klasseneinteilung mit k unterschiedlichen Ausprägungen a1, a2, a3, … ak, mit den absoluten (bzw. relativen) Häufigkeiten h1, h2, h3, … hk, (bzw. f1, f2, f3, … fk) berechnet sich, wenn n = Anzahl der Messwerte, als k k hj a1h1 + a2 h2 + ... + ak hk = ∑aj = ∑aj f j x= n n j =1 j =1 23 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (arithmetisches Mittel, Durchschnitt) c) Arithmetisches Mittel x gegeben: Häufigkeitstabelle (für quantitative Merkmale) mit Klasseneinteilung mit k Klassen und den Klassenmitten m1, m2, m3, … mk, mit den absoluten (bzw. relativen) Häufigkeiten h1, h2, h3, … hk, (bzw. f1, f2, f3, … fk) Klassen abs. Häufigkeit rel. Häufigkeit [u1;o1) mit m1 = ½ (u1+o1) [u2;o2) mit m2 = ½ (u2+o2) [u3;o3) … … h1 h2 h3 … f1 = h1/n f2 = h2/n f3 = h3/n … x berechnet sich, wenn n = Anzahl der Gesamtmesswerte, als k k hj m1h1 + m2 h2 + ... + mk hk = ∑mj = ∑mj f j x≈ n n j =1 j =1 24 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert) Median: gleich viele Daten auf beiden Seiten (50%/50%-Punkt) a) x einer Messreihe: ordne Werte der Größe nach Median ~ x1 ≤ x2 ≤ … ≤ xn, (n = Stichprobenumfang). Der Median ist - für n ungerade, der Wert in der Mitte der geordneten Stichprobe für n gerade, als das arithmetische Mittel der beiden mittleren Werte. ~ Bsp: 9 Werte der Größe nach geordnet: x = x5 ~ 1 10 Werte der Größe nach geordnet: x = 2 ⋅ ( x5 + x6 ) 6. Wert) (5. Wert) (Mittel aus 5. Wert & 25 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert) b) ~ Den Median x aus einer Häufigkeitstabelle ohne Klasseneinteilung erhält man durch folgendes Vorgehen: - Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte absolute Häufigkeit Hi. Berechnen von Hi bis der Wert n/2 exakt erreicht oder überschritten wird. ~ • Bei Überschreitung ⇒ x = entsprechende Merkmalsausprägung ~ • Bei exakter Erreichung ⇒ x = arithmetisches Mittel aus erreichter Merkmalsausprägung und nächst folgender Merkmal abs. Häufigkeit kum. abs. Häufigkeit a1 a2 … ai-1 ai … h1 h2 … hi-1 hi … H1 = h1 H2 = H1 + h2 … Hi-1 = Hi-2 + hi-1 < n/2 Hi = Hi-1 + hi ≥ n/2 … falls Hi > n/2: ~ x = ai falls H = n/2: i ~ x = ½ (ai+ai+1) 26 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert) c) x aus einer Häufigkeitstabelle mit Klasseneinteilung: Den Median ~ - - Aufsummieren der absoluten Häufigkeiten hi liefert die kumulierte absolute Häufigkeit Hi. bestimme i bei dem Hi den Wert n/2 exakt erreicht oder überschreitet Klassen abs. Häufigkeit kum. abs. Häufigkeit [u1;o1) [u2;o2) … [ui-1;oi-1) [ui;oi) … h1 h2 … hi-1 hi … H1 = h1 H2 = H1 + h2 … Hi-1 = Hi-2 + hi-1 Hi = Hi-1 + hi … < n/2 ≥ n/2 Median liegt dann irgendwo in dieser Klasse. Innerhalb der Klasse wird auf folgende Weise interpoliert: ~ x = untere Klassengrenze der i - ten Klasse + − H i −1 ⋅ H i − H i −1 n 2 (obere Klassengrenze der i - ten Klasse − untere Klassengrenze der i - ten Klasse) = ui + − H i −1 (oi − ui ) H i − H i −1 n 2 27 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert) Aufgabe 12 Berechnen Sie Median und arithmetisches Mittel der Stichproben a) 2.000 1.000 2.500 1.500 20.000 b) 3.000 2.000 4.000 1.000 12.000 20.000 28 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße (Median, Zentralwert, 50%-Wert) Aufgabe13 Berechnen Sie den Median der Daten in der klassierten Häufigkeitstabelle Klasse Absolute Klassenhäufigkeit (0;20] 8 (20;40] 10 (40;60] 11 (60;80] 8 (80;100] 13 29 Statistik, Prof. Dr. Karin Melzer 3.3.1 Lagemaße: Vergleich Median/arithm. Mittelwert Arithmetisches Mittel: - kann nur für quantitative Merkmale berechnet werden, beeinflusst von Ausreißern: wird von extremen Daten (sehr großen oder sehr kleinen) stark beeinflusst. Median: - kann für quantitative oder auch qualitativ-ordinale Merkmale verwendet werden (wichtig: es muss eine Reihenfolge geben) unempfindlich gegenüber Ausreißern/extremen Daten. Beispiel: zwei Ranglisten 1,2,5,6,9 Median 5 arithm. Mittel 4,6 1,2,5,6,60 5 14,8 30 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße • • Mittelwerte geben an, um welchen „mittleren“ Wert sich die Stichprobenwerte gruppieren, geben aber keine Auskunft über die Schwankung um den Mittelwert Beispiel: Gegeben 2 Stichproben Mittelwert a) 1 2 4 5 xa = 3 b) 2,7 3,0 3,1 3,2 xb = 3 • Aber: Die Werte von b) liegen dichter beim Mittelwert als die Werte von a) • Maßzahlen für die Schwankung: „Streuungsparameter“ oder „Streumaße“ 31 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße a) Einfachstes Streumaß: Spannweite R (range) R = xmax – xmin, wobei xmax = größter Stichprobenwert/Messwert xmin = kleinster Stichprobenwert/Messwert Bsp.: Berechnen Sie R für die Stichproben a) 1 2 4 5 b) 2,7 3,0 3,1 3,2 Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs und der Bereichsauswahl für graphische Darstellungen. b) Mittlerer Abstand oder mittlere absolute Abweichung Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, wird der mittlere Abstand definiert als das arithmetische Mittel der Abstände xi − x 1 n d = ∑ xi − x n i =1 Bemerkungen: Der mittlere Abstand wird kaum verwendet, weil - Betragsfunktion nicht differenzierbar (unhandliche Formeln) - schlechte Schätzeigenschaften (vgl. schließende Statistik) 32 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße c) Empirische Varianz und empirische Standardabweichung Für eine Stichprobe x1, x2, x3, … xn , n = Anzahl der Messwerte, ist die Varianz (empirische Varianz, Stichprobenvarianz) 1 n s = (xi − x )2 ∑ n − 1 i =1 2 ein Maß für die Streuung um den Mittelwert x. Man schreibt s2, weil als Streuungsmaß auch die empirische Standardabweichung 1 n (xi − x )2 s= s = ∑ n − 1 i =1 2 verwendet wird. 33 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße zu c) empirische Varianz und Standardabweichung Aufgabe: Berechnen Sie die empirische Varianz und die empirische Standardabweichung zu folgenden Stichproben: a) 1 2 4 5 b) 2,7 3,0 3,1 3,2 34 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße zu c) empirische Varianz und Standardabweichung (andere Berechnungsmethoden) (i) Durch Termumformungen lässt sich die empirische Varianz auch schreiben als s2 = 1 n 2 ∑ xi − n ⋅ x 2 n − 1 i =1 Diese Formel lässt sich mit dem Taschenrechner schneller berechnen. (ii) Berechnung der empirischen Varianz aus Häufigkeitstabelle ohne Klassen Für eine Stichprobe vom Umfang n mit k unterschiedlichen Ausprägungen a1, a2, a3, … ak mit den absoluten Häufigkeiten h1, h2, h3, … hk berechnet sich die empirische Varianz als s2 = 1 k 1 k 2 ( ) h a x = − ∑ hi ai2 − n ⋅ x 2 ∑ i i n − 1 i =1 n − 1 i =1 (iii) Berechnung der empirischen Varianz aus Häufigkeitstabelle mit Klassen Für eine Stichprobe vom Umfang n mit k unterschiedlichen Klassen mit den Klassenmitten m1, m2, m3, … mk mit den absoluten Häufigkeiten h1, h2, h3, … hk berechnet sich die empirische Varianz als s2 ≈ 1 k 1 k 2 ( ) h m x = − ∑ hi mi2 − n ⋅ x 2 ∑ i i n − 1 i =1 n − 1 i =1 36 Statistik, Prof. Dr. Karin Melzer 3.3.2 Streumaße zu c) empirische Varianz und Standardabweichung Bemerkungen - Standardabweichung hat dieselbe Einheit, wie die einzelnen Stichprobenwerte (z. B. Gramm anstatt Gramm2). - Durch die Division mit dem Faktor (n-1) (anstatt n !) wird erreicht, dass die empirische Standardabweichung bessere Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat. - Das arithmetische Mittel x minimiert die Funktion 1 n (xi − a )2 a a s (a) = ∑ n − 1 i =1 und ist in diesem Sinne ein optimaler Repräsentant der Stichprobenwerte. 37 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben In diesem Abschnitt werden zwei Merkmale einer Stichprobe betrachtet z.B. kann man bei Menschen den Zusammenhang zwischen Körpergröße und Schuhgröße untersuchen. a) Graphische Darstellung erfolgt mittels Streudiagramm oder Punktewolke oder Scatter Plot: jedes Paar von Ausprägungen (xi, yi) wird als Punkt im x-y-Koordinatensystem repräsentiert. Bsp: PS vs. Verbrauch 38 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben Maßzahlen für den Zusammenhang zwischen zwei Größen: b) Empirische Kovarianz und empirischer Korrelationskoeffizient Für die Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den arithmetischen Mittelwerten x und y ist die empirische Kovarianz definiert durch 1 n s xy = ∑ (xi − x )( yi − y ) n − 1 i =1 Kovarianz ist stark von den Maßeinheiten abhängig. Bei Normierung erhält man den empirischen Korrelationskoeffizient durch n rxy = sxy sx s y = ∑ (x − x )( y i =1 i i n n i =1 i =1 − y) ∑ (xi − x )2 ∑ ( yi − y )2 39 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben b) - Kovarianz und Korrelation: Alternative Berechnung: Durch Ausmultiplizieren der Klammern erhält man für die empirische Kovarianz die Formel 1 n s xy = ∑ xi yi − nx y n − 1 i =1 - Die empirische Korrelation kann man auch darstellen als rxy = sxy sx s y = 1 n ( xi − x ) ( yi − y ) ⋅ ∑ n − 1 i =1 sx sy 40 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben b) Empirische Kovarianz und empirischer Korrelationskoeffizient Aufgabe: Berechnen Sie sxy und rxy. Daten: Scatter-Plot: 9 Verkaufserlös, y (in 1.000 €) Werbeausgaben, x (in 100 €) 1 3 1 2 4 2 3 2 3 2 4 6 4 0 5 8 5 8 7 Sales Revenu e (y) Monat 6 5 4 3 1 0 1 2 3 4 5 6 Advertising Expenses (x) Ergebnis: sxy = 3; rxy= 0,7878 (sx2 = 2,5; sy2 = 5,8) 41 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben Bemerkungen Korrelationskoeffizient: 1. −1 ≤ rxy ≤ 1 2. rxy = 1 ⇔ mit yi = a + bxi a>0 (d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit positiver Steigung) 3. ⇔ rxy = -1 mit yi = a + bxi a<0 (d. h. alle Punkte (xi, yi) liegen auf einer Geraden mit negativer Steigung) 4. rxy = 0 bedeutet, dass kein linearer Zusammenhang zwischen xi und yi besteht rxy ist ein Maß für den linearen Zusammenhang (vgl. nachfolgende Graphiken). 42 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben Streudiagramme und Korrelationen 6 8 7 5 6 4 5 3 4 rxy=-0,7 3 rxy=0,9 2 1 2 0 1 0 1 2 3 4 5 6 0 0 1 2 3 4 5 6 7 8 7 6 6 5 5 rxy=-0,1 4 rxy=0,1 3 4 3 2 2 1 1 0 0 1 2 3 4 5 6 0 0 1 2 3 4 5 6 43 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose Typische Fragestellung: Beispiel (Forts.) Werbeausgaben, x (in 100 €) 1 3 1 2 4 2 3 2 3 4 6 4 5 8 5 Monat 9 8 7 Sales Revenue (y) Verkaufserlös, y (in 1.000 €) 6 5 4 3 2 1 0 0 • • 1 2 3 4 5 6 Advertising Expenses (x) Wie hoch wird der Umsatz erwartet, wenn die Werbeausgaben auf 350 € festgelegt werden? Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum nächsten Mess-/Zeitpunkt geschieht. 44 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose Stochastische Beziehung zwischen x und y - Beziehung zwischen zwei Variablen: y = f(x) Ann.: f(x) ist lineare Funktion in x Deterministische Beziehung y = α x+ β Stochastische Beziehung y = α x+ β + ε n Beobachtungen x und y: yi = α xi + β + εi i = 1, ... ,n - y yi εi αx+β αx i + β Bezeichnungen: xi x: unabhängige Variable, erklärende Variable y: abhängige Variable, interessierende Variable ε: Fehler (Zufallsvariable) α, β: (unbekannte) Regressionskoeffizienten Schätzung, so dass die Summe der Fehlerquadrate minimal wird! x 45 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose - Schätzer für die Regressionskoeffizienten: αˆ = - s xy s 2 x ∑ = ∑ n i =1 n xi yi − nx y i =1 x − nx 2 i βˆ = y − αˆx und 2 y = αˆx + βˆ = αˆx + ( y − αˆx ) Regressionsgerade: = αˆ ( x − x ) + y wobei αˆ = - s xy s x2 Die Regressionsgerade mit den Koeffizienten wie oben hat eine kleinere Summe der Fehlerquadrate (RSS: residual sum of squares) als jede andere Gerade. n n i =1 i =1 RSS = ∑ ε i2 = ∑ (αxi + β − yi ) → min . 2 46 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose Beispiel (Forts.) Werbeausgaben, x (in 100 €) 1 3 1 2 4 2 3 2 3 4 6 4 5 8 5 Monat 9 8 7 Sales Revenue (y) Verkaufserlös, y (in 1.000 €) 6 5 4 3 2 1 0 0 • 1 2 3 4 5 6 Advertising Expenses (x) Berechnen Sie die Koeffizienten und die Regressionsgerade. 47 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose Fortsetzung des Beispiels Vorhersage des Verkaufserlöses für gegebene Werbeausgaben: 9 8 S ales R evenue (y) 7 Werbeausgaben: 350 € ⇒ x = 3,5 6 5 4 3 2 y = 1,2 · 3,5 + 1 = 5,2 1 0 0 Erwarteter Umsatz: 5.200 € 1 2 3 4 5 6 Advertising Expenses (x) 49 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben c) Lineare Regression und Prognose: Zusammenfassung Bestimmung der Regressionsgeraden über die „Methode der kleinsten Quadrate“ (nach C. F. Gauß) d. h: Gesucht wird diejenige Gerade (Regressionsgerade) y = f ( x ) = m( x − x ) + b so dass die Summe der quadrierten Abstände ε i = ( yi − f ( xi ) ) über alle Wertepaare (x1,y1), (x2,y2), …, (xn,yn) minimal wird. 2 Ergebnis: Die Regressionsgerade für die Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den arithmetischen Mittelwerten x, y und den Standardabweichungen s x , s y lautet f ( x) = Die Steigung m = s xy s x2 s xy s x2 (x − x ) + y heißt empirischer Regressionskoeffizient. 50 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben Carl Friedrich Gauß (1777-1855) hat erstmalig die „Methode der kleinsten Quadrate“ angewandt zur Ermittlung der Umlaufbahn des Asteroiden Ceres um die Sonne 51 Statistik, Prof. Dr. Karin Melzer 3.3.3 zweidimensionale Stichproben Bestimmtheitsmaß R2 (nicht verwechseln mit Spannweite!!) d) Das Bestimmtheitsmaß R2 beschreibt den Anteil der Varianz der y-Werte, der durch die Regression erklärt werden kann. R2 ist für lineare und nichtlineare Regressionsfunktionen definiert. Im Falle einer linearen Regression gilt: ( rxy2 : Quadrat des Korrelationskoeff.) R 2 = rxy2 Außerdem gilt: 0 ≤ R2 ≤ 1 - Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut durch die Punktewolke. Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die Punktewolke nicht gut wieder. Im Beispiel: rxy = 0,7878 ⇒ R2 = rxy2 = 0,62 52 Statistik, Prof. Dr. Karin Melzer