Statistik » Kapitel 1: Einführung und Übersicht » Kapitel 2: Datengewinnung » Kapitel 3: Beschreibende Statistik 1. Einführung und Übersicht Eine Definition von „Statistik“: Die Statistik befasst sich mit Gewinnung und Auswertung von Daten. Ziel ist die Vorbereitung von Entscheidungen. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 2 1. Einführung und Übersicht Phasen einer statistischen Untersuchung und Kapitel der Vorlesung Planung Erhebung Datengewinnung (Kurzer Überblick in Kap. 2) Bereinigung Darstellung (Kap. 3: Beschreibende Statistik) Auswertung Analyse, Interpretation (Kap. 5: Schließende Statistik) Entscheidung Hilfsmittel für Kapitel 5: Kapitel 4: Wahrscheinlichkeitsrechnung Spezialfall von Kap. 5: Kapitel 6: Statistische Methoden in der Qualitätssicherung Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 3 2. Datengewinnung 2.1 Planungsphase einer statistischen Untersuchung a) Festlegung des Untersuchungsziels b) Festlegung der Grundgesamtheit und der statistischen Einheiten c) Festlegung der zu erhebenden Merkmale d) Festlegung von Art und Methode der Erhebung zu a) Untersuchungsziel: Fragestellung formulieren! Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 4 2.1 Planungsphase einer statistischen Untersuchung zu b) Grundgesamtheit und statistische Einheiten Die zu untersuchende Grundgesamtheit muss präzise abgegrenzt werden in » räumlicher » zeitlicher » sachlicher Hinsicht, d. h. es muss definiert werden, welche statistischen Einheiten (man sagt auch: „Merkmalsträger“ oder „Objekte“) dazugehören und welche nicht. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 5 2.1 Planungsphase einer statistischen Untersuchung zu c) zu erhebende Merkmale festlegen Arten von Merkmalen und ihre möglichen Ausprägungen: Merkmal quantitativ stetig Statistik, Prof. Dr. K. Melzer Hochschule Esslingen diskret qualitativ ordinal nominal 6 2.1 Planungsphase einer statistischen Untersuchung: Merkmale zu c) Merkmale » Quantitative Merkmale (metrische Merkmale, kardinale Merkmale) » Die Merkmalsausprägungen sind Zahlen aus Messungen oder Zählungen » Differenz zwischen zwei Ausprägungen hat einen Sinn, z. B. eine Schraube ist um 2 mm länger als eine andere » Quantitativ-stetige Merkmale » z.B.: Gewicht, Länge, Temperatur, Preis in EUR (!) » können jeden Wert in einem vorgegebenen Intervall annehmen » kommen meist durch Messung zustande » Quantitativ-diskrete Merkmale » Anzahl der Ausschussstücke einer Lieferung/Stichprobe, Tore pro Spiel » Werte sind einzelne Punkte auf dem Zahlenstrahl z. B. 1,2,3,… » treten vorzugsweise bei Zählungen auf Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 7 2.1 Planungsphase einer statistischen Untersuchung: Merkmale zu c) Merkmale » Qualitative Merkmale » Beschreibende Eigenschaften, die sich nicht durch Messen oder Zählen ermitteln lassen » Werte können auch durch Zahlen codiert werden, z. B. 3 = „gelb“, 6 = „grün“ (mit diesen Zahlen kann man aber nicht rechnen). » Qualitativ-ordinale Merkmale (Rangmerkmale) » z. B.: Besoldungsgruppen bei Beamten, Interesse an einer Veranstaltung mit Ausprägung „sehr groß“, „groß“, „mittel“, „gering“,… » Merkmalsausprägung lässt sich in eine (natürliche) Rangfolge bringen » Qualitativ-nominale Merkmale (klassifikatorische Merkmale) » z. B.: Religionszugehörigkeit, Farbe, gewählte Partei,… lässt sich nicht in eine Rangfolge Statistik, Prof. Dr.» K. Merkmalsausprägung Melzer Hochschule Esslingen bringen 8 2.1 Planungsphase einer statistischen Untersuchung: Merkmale zu d) Arten der Erhebung » » Vollerhebung (oder Totalerhebung) ⇒ Untersuchung der Grundgesamtheit Teilerhebung ⇒ Untersuchung einer Stichprobe Einige Methoden zur Durchführung von Stichprobenuntersuchungen » (reine) Zufallsstichprobe » Systematische Auswahl: objektives Kriterium, z. B. jeder 100. Artikel » Schichtenstichprobe: Die Grundgesamtheit wird auf Basis eines oder mehrerer Merkmale in Schichten eingeteilt. Die Schichten sollen bezüglich des Untersuchungsmerkmals möglichst homogen sein. Anschließend: ziehe aus jeder Schicht eine bestimmte Anzahl von Stichprobenstücken. Der Anteil der in die Stichprobe aufgenommenen Objekte kann von Schicht zu Schicht unterschiedlich sein. » Klumpenstichprobe: Aus der Grundgesamtheit werden Gruppen (Klumpen) von statistischen Einheiten (oft geographisch definiert) zufällig ausgewählt. Innerhalb dieser Klumpen wird dann eine Vollerhebung durchgeführt. » Quotenverfahren: Die Stichprobe soll die Werte gewisser Merkmale mit den gleichen Quoten/Anteilen, wie in der Grundgesamtheit enthalten. Repräsentative Stichprobe Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 9 2.2 Durchführung der Erhebung » Eine Erhebung wird technisch durchgeführt z. B. durch Befragung (Fragebogen, Internet...), Beobachtung oder Experiment. » Die Nutzung von bereits vorhandenem (evtl. früher für andere Zwecke erhobenem) Datenmaterial bezeichnet man als „Sekundärerhebung“ Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 10 2.3 Datenbereinigung » Behandlung von Datenausreißern » » » Ein „Ausreißer“ ist ein Extremwert innerhalb einer Stichprobe, der so extrem ist, dass die Person, die die Stichprobe prüft, glaubt, dass er nicht stimmen kann. = Daten, die offenbar viel zu groß oder viel zu klein sind. Vorgehen: 1. Ausreißer identifizieren; 2. überprüfen, ggf. berichtigen; 3. wenn die Ausreißer nicht berichtigt werden können, a) Datensatz streichen oder b) fehlerhafte Daten abändern (z. B. Ersetzen durch den Mittelwert der nicht fraglichen Daten) oder c) Datensatz unverändert beibehalten. » » Die Möglichkeiten 3b) und 3c) sollten nur mit größter Zurückhaltung angewendet werden. Im Zweifelsfall 3a)! Genauso behandelt man andere unmögliche oder unplausible Werte. Behandlung von Fehlern: wie Ausreißer aber ohne 3c) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 11 2.4 Grundbegriffe der Statistik (I) » Grundgesamtheit: Objekte, an denen die interessierende Größe beobachtet und erfasst wird, über die man eine Aussage gewinnen will » » » » alle alle alle alle Mietwohnungen von Stuttgart, Wahlberechtigten, Würfe eines Würfels, Teile, die eine Maschine produziert » Eine Grundgesamtheit kann aus endlich vielen oder unendlich vielen Elementen bestehen. » Eine Grundgesamtheit kann real oder hypothetisch sein. » Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit. » verschiedene Arten der Stichprobengewinnung Kapitel 2.1 » Umfang der Stichprobe n: Anzahl der Elemente in der Stichprobe (immer endlich). Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 12 2.4 Grundbegriffe der Statistik (II) » Merkmal: Interessierend Größe, die an den Elementen in der Stichprobe beobachtet (gemessen, erhoben) wird. » » » » z.B. Grundgesamtheit sind alle Mietwohnungen von Stuttgart Merkmal 1: Nettomiete, Merkmal 2: Baualter, Merkmal 3: Größe in qm » Es können ein oder mehrere Merkmale an einem Element der Grundgesamtheit erhoben werden. » Merkmalsausprägung: Werte, die jedes Merkmal annehmen kann. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 13 3. Beschreibende Statistik 3.1 Ziel der beschreibenden Statistik » Sachverhalte aufzeigen, die sonst nicht oder nicht so leicht ersichtlich wären. 3.2. Tabellarische und graphische Darstellung eines Merkmals Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 14 3. Beschreibende Statistik 3.1 Ziel der beschreibenden Statistik » Sachverhalte aufzeigen, die sonst nicht oder nicht so leicht ersichtlich wären. 3.2. Tabellarische und graphische Darstellung eines Merkmals » „Ein Bild sagt mehr als tausend Worte“ » Wir betrachten folgende Darstellungsmöglichkeiten Merkmal qualitativ oder diskret Häufigkeitstabelle (ohne Klasseneinteilung) * Säulendiagramm (Stabdiagramm) stetig* Kreisdiagramm (Tortendiagramm) Häufigkeitstabelle (mit Klasseneinteilung) Histogramm oder diskrete Merkmale mit vielen Ausprägungen Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 15 3.2. Tabellarische und graphische Darstellung eines Merkmals (I) » Vorbemerkung zur Objektivität bei Grafiken: » Die darzustellenden Größen müssen objektiv wiedergeben werden. Hierzu gehören u. a. auch folgende Regeln, die hier aufgeführt werden, weil gegen sie besonders oft verstoßen wird: » Proportionalität von Fläche und darzustellendem Wert. » Flächen im Diagramm müssen proportional zu den darzustellenden Werten sein. » Falsch: zwei Werte – zweiter Wert doppelt so groß ist wie der erste – grafisch durch zwei Quadrate wiederzugeben, von denen das zweite eine doppelt so große Seitenlänge wie das erste hat (denn die Fläche wäre dann viermal so groß wie die erste statt richtig doppelt so groß). » Skalierung der Achsen. » Bei Säulendiagrammen wird auf der y-Achse ein quantitatives Merkmal aufgetragen. Nach der Regel 1) oben müssen (bei konstanter Säulenbreite) die Höhen der Säulen proportional zu den darzustellenden Werten sein. Insbesondere darf daher die y-Achse nicht verzerrt sein und muss bei 0 beginnen. » Sollte es ausnahmsweise erforderlich sein, die Achse nicht bei 0 beginnen zu lassen, muss dies deutlich kenntlich gemacht werden. » Sinngemäß das gleiche gilt natürlich auch für die x-Achse (sofern hier ein quantitatives Merkmal aufgetragen wird) und für andere Diagrammtypen. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 16 3.2. Tabellarische und graphische Darstellung (II) 3.2.1 Qualitative und diskrete Merkmale » Häufigkeitstabelle ohne Klasseneinteilung » Säulendiagramm » Kreisdiagramm Partei (Merkmal) (↓ Merkmalsausprägung) Anzahl der Stimmen (absolute Häufigkeit, hi) Stimmenanteil in % (relative Häufigkeit, fi) CDU ( = a1) 1.009.749 36,8 ( = f1) SPD ( = a2) 1.006.154 ( = h2) 36,7 ( = f2) FDP ( = a3) 258.554 ( = h3) 9,4 ( = f3) Grüne ( = a4) 206.606 ( = h4) 7,5 ( = f4) Linke ( = a5) 140.488 ( = h5) 5,1 ( = f5) Sonstige ( = a6) 121.158 ( = h6) 4,5 ( = f6) 2.742.709 ( = n) Summe ( = h1) 100 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 17 3.2. Tabellarische und graphische Darstellung (III) 3.2.1 Qualitative und diskrete Merkmale » Häufigkeitstabelle ohne Klasseneinteilung » Säulendiagramm » Kreisdiagramm Stimmverteilung 1.200.000 1.009.749 1.006.154 1.000.000 800.000 600.000 400.000 258.554 206.606 200.000 140.488 121.158 0 CDU Statistik, Prof. Dr. K. Melzer Hochschule Esslingen SPD FDP Grüne Linke Sonstige 18 3.2. Tabellarische und graphische Darstellung (IV) 3.2.1 Qualitative und diskrete Merkmale » Häufigkeitstabelle ohne Klasseneinteilung » Säulendiagramm » Kreisdiagramm (für prozentuale Aufteilung) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 19 3.2. Tabellarische und graphische Darstellung (V) 3.2.2 Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen » Häufigkeitstabelle mit Klasseneinteilung » gegeben: n Messwerte » Einteilung des Messbereichs in Klassen » Zählen: Häufigkeit in jeder Klasse (Strichliste) » Beispiel: Einkommensverteilung » n = 100 ~ 10 Klassen Statistik, Prof. Dr. K. Melzer Hochschule Esslingen Einkommen Anzahl Einkommen Anzahl 0-750 2 3750-4500 12 750-1500 9 4500-5250 3 1500-2250 18 5250-6000 2 2250-3000 43 6000-6750 0 3000-3750 10 6750-7500 1 Summe 100 20 3.2. Tabellarische und graphische Darstellung (VI) » Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen » Regeln zur Erstellung einer Häufigkeitstabelle mit Klasseneinteilung: » Bestimme Spannweite: xmax – xmin » Bestimme Anzahl der Klassen (Faustregel): k ≈ n , wenn n ≤ 400 (max. 20 Klassen auch für n > 400). » Spannweite/Klassenzahl ≈ Klassenbreite » Klassenbreite: aufrunden (als Klassenbreite wähle „glatte“ Zahl 0,6 statt 0,5284) » Einteilung der Klassen bei „glattem“ Wert unterhalb von xmin beginnen; Klassen müssen alle Werte beinhalten » Alle Klassen werden (i. d. R.) gleich breit gewählt » Messwerte auf den Klassengrenzen müssen eindeutig einer Klasse zugeordnet werden. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 21 3.2. Tabellarische und graphische Darstellung (VII) » Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen » Histogramm = Säulendiagramm, bei dem die Säulen über den entsprechenden Intervallen der Klassen gezeichnet werden, und die daher an den Klassengrenzen aneinander stoßen. » Aus der Häufigkeitstabelle mit Klasseneinteilung erstellt man ein Histogramm. » Beispiel: Einkommensverteilung 50 45 40 35 30 25 20 15 10 5 0 0-750 7501500 15002250 22503000 30003750 37504500 45005250 52506000 60006750 67507500 Einkommen (EUR) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 22 3.2. Tabellarische und graphische Darstellung (VIII) » Stetige Merkmale oder diskrete Merkmale mit vielen Ausprägungen » Histogramm (Forts.) » Gibt ersten visuellen Eindruck von der Verteilung eines Merkmals Informationen: » In welchem Bereich (z. B. relativ zu den Toleranzgrenzen) liegen die „meisten Messungen“? » Wie weit streuen die Daten? » Ist die Verteilung symmetrisch oder schief? » Gibt es außergewöhnliche „Spitzen“ oder „Ausreißer“? Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 23 3.3. Statistische Kennzahlen für quantitative Merkmale (Übersicht) » Eine wesentliche Technik zur Charakterisierung von Datensätzen ist die Reduktion auf wenige Kenngrößen. » Kennzahlen sollen die Eigenart der Daten widerspiegeln. » Dazu dienen Maßzahlen » der Lage (Wo?) Lagemaße » der Streuung (Wie breit?) Streumaße » Lagemaße: » Geben an, wo die Messwerte im Mittel liegen, » z. B. arithmetischer Mittelwert oder empirischer Median » Streumaße: » Geben an, wie breit die Messwerte um den Mittelwert herum streuen, » z. B. empirische Varianz, empirische Standardabweichung, Spannweite » Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, liegen also viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 24 3.3. Statistische Kennzahlen für ein quantitatives Merkmal » Im Folgenden werden wir drei Typen von vorliegenden Daten unterscheiden: Note Anzahl » Messreihe (Rohdaten): x1 ;, x2 ; x3 .;…; xn (n = Anzahl der Messwerte) Beobachtete Werte in der Reihenfolge ihrer Ermittlung Beispiel: Größe der Studenten eines Semesters in cm x1 = 172; x2 = 153; x3 = 177; x4 = 156; x5 = 171; x6 = 183; x7 = 164; x8 = 158; x9 = 163; x10 = 172 diskrete oder stetige Merkmale 1,0 1,3 1,7 … 1 3 8 … » Häufigkeitstabelle ohne Klasseneinteilung d. h. zu jedem Messwert wird angegeben, wie oft er beobachtet wird (Häufigkeiten) Beispiel: Notenspiegel diskrete Merkmale Größe (Klassen) Anzahl [150;160) [160;170) [170;180) [180;190) 3 2 4 1 » Häufigkeitstabelle mit Klasseneinteilung (Merkmalsausprägungen werden in Klassen zusammengefasst) Beispiel: Körpergrößen in 10er-Schritten stetige Merkmale oder diskrete mit vielen Ausprägungen Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 25 3.3.1 Kennzahlen bei vorliegen einer Messreihe » Messreihe x1, x2, x3, … ,xn mit n = Anzahl der Messwerte » Arithmetisches Mittel x1 + x2 + ... + xn 1 n x= = ∑ xi n n i =1 » Empirischer Median ~ x Messwert, der bei Sortierung der Messreihe nach der Größe in der Mitte steht (bei gerader Anzahl von Messwerten: arithmetisches Mittel der beiden Messwerte in der Mitte). Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 26 3.3.1 Kennzahlen bei vorliegen einer Messreihe Einschub: Vergleich Arithmetisches Mittel/Median: » Arithmetisches Mittel: » kann nur für quantitative Merkmale berechnet werden, » beeinflusst von Ausreißern: wird von extremen Daten (sehr großen oder sehr kleinen) stark beeinflusst. » Median: » kann für quantitative oder auch qualitativ-ordinale Merkmale verwendet werden (wichtig: es muss eine Reihenfolge geben) » unempfindlich gegenüber Ausreißern/extremen Daten. » Beispiel: zwei Ranglisten (geordnete Messreihen) Median arithm. Mittel 1,2,5,6,9 5 4,6 1,2,5,6,60 5 14,8 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 27 3.3.1 Kennzahlen bei vorliegen einer Messreihe Motivation: Warum braucht man Streuparameter? » Mittelwerte geben an, um welchen „mittleren“ Wert sich die Stichprobenwerte gruppieren, geben aber keine Auskunft über die Schwankung um den Mittelwert » Beispiel: Gegeben 2 Stichproben Mittelwert a) 1 2 4 5 xa = 3 b) 2,7 3,0 3,1 3,2 xb = 3 » Aber: Die Werte von b) liegen dichter beim Mittelwert als die Werte von a) » Maßzahlen für die Schwankung: „Streuungsparameter“ oder „Streumaße“ Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 28 3.3.1 Kennzahlen bei vorliegen einer Messreihe » Spannweite R (range) » Einfachstes Streumaß: größter Messwert – kleinster Messwert » R = xmax – xmin, wobei xmax = größter Stichprobenwert/Messwert xmin = kleinster Stichprobenwert/Messwert » Spielt in der Praxis kaum eine Rolle, höchstens für die Bestimmung des Maßstabs und der Bereichsauswahl für graphische Darstellungen. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 29 3.3.1 Kennzahlen bei vorliegen einer Messreihe » Empirische Varianz s2 = 1 n 2 ∑ ( xi − x ) oder n − 1 i =1 1 n 2 ∑ xi − n ⋅ x 2 s = n − 1 i =1 2 » Die zweite Formel ist einfacher anzuwenden; hier muss man aber x mit großer Genauigkeit berechnen! » Die empirische Varianz gibt also die mittlere quadratische Abweichung von x an. » empirische Standardabweichung 1 n (xi − x )2 s= s = ∑ n − 1 i =1 2 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 30 3.3.1 Kennzahlen bei vorliegen einer Messreihe Bemerkungen zu empirischer Varianz und Standardabweichung » Ist die empirische Standardabweichung (bzw. empirische Varianz) klein, so liegen viele Messwerte in der Nähe des Mittelwertes. Ist sie groß, sind die Messwerte weiter vom Mittelwert entfernt. » Standardabweichung hat dieselbe Einheit, wie die einzelne Stichprobenwerte (z. B. Gramm anstatt Gramm2). » Durch die Division mit dem Faktor (n-1) (anstatt n !) wird erreicht, dass die empirische Standardabweichung bessere x Schätzeigenschaften (siehe Kapitel 5 „Schließende Statistik“) hat. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 31 3.3.1 Kennzahlen bei vorliegen einer Messreihe Bemerkungen zur Berechnung von x , s2, s » Nur in Ausnahmefällen wird man die Berechnung dieser Werte tatsächlich mit den oben genannten Formeln durchführen. » Viel kürzer ist es, die Datenreihe nur ein einziges Mal in den Taschenrechner (TR) einzugeben und anschließend die Werte über die eingebauten TR-Funktionen abzurufen. » Dabei ist die empirische Standardabweichung s auf dem TR oft mit dem Symbol σn-1 oder gelegentlich mit σx,n-1 o. ä. bezeichnet. » Die empirische Varianz erhält man dann, indem man diesen Wert quadriert. » Beachten Sie hierzu ggf. auch die von Prof. Plappert gesammelten Taschenrechner-Bedienungsanleitungen (s. Link auf meiner Internetseite) » Anleitungen sind ohne Gewähr bitte anhand von Beispielen überprüfen. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 32 3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen) Ausprägung absolute Häufigkeit x1 h1 x2 h2 … … xk hk Σ=n Auch h ier kan n man Mittel u arit n d e mp . Std.a hm. Kürzes b w. a m ten mit H eingeb auten T ilfe der R-Funk erledig tion en Datene . Leider ist die en ingabe Art der der Hä h1 , h , e ufigkeit tc. bei 2 en ve TR-Typ en unte rschiedenen rschied lich. » In den Formeln für x bzw. s2 müssen hier alle Summanden mit der jeweiligen Häufigkeit hi gewichtet (= multipliziert) werden. » Arithmetisches Mittel (n = Anzahl der Messwerte) 1 1 k x = ( x1h1 + x2 h2 + ... + xk hk ) = ∑ x j h j n n j =1 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 33 3.3.2 Kennzahlen bei Vorliegen einer Häufigkeitstabelle (ohne Klassen) » Empirische Varianz s2 aus einer Häufigkeitstabelle ohne Klasseneinteilung 1 k 2 s = ∑ hi ( xi − x ) oder n − 1 i =1 2 s2 = 1 k ∑ hi xi2 − n ⋅ x 2 n − 1 i =1 Zweite Formel ist einfacher, aber berechnet werden. » Empirische Standardabweichung s= Statistik, Prof. Dr. K. Melzer Hochschule Esslingen x muss mit größerer Genauigkeit s2 34 3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung Klassen Klassenmittelpunkt (u1;o1] (u2;o2] (u3;o3] … m1 = ½ (u1+o1) m2 = ½ (u2+o2) m2 = ½ (u2+o2) … Häufigkeit h1 h2 h3 … Σ =n » Hier rechnet man so, als ob alle Messwerte in der Mitte der jeweiligen Klasse liegen, und verwendet dann die 3.3.2 entsprechenden Formeln, wobei nur „xi“ durch „mi“ ersetzt werden muss. » Arithmetisches Mittel (n = Anzahl der Messwerte) 1 1 k x ≈ (m1h1 + m2h2 + ... + mk hk ) = ∑ m j h j n n j =1 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 35 3.3.3 Kennzahlen bei Vorliegen einer Häufigkeitstabelle mit Klasseneinteilung » Empirische Varianz s2 aus einer Häufigkeitstabelle mit Klasseneinteilung k s2 ≈ 1 2 ∑ hi (mi − x ) oder n − 1 i =1 1 k ∑ hi mi2 − n ⋅ x 2 s = n − 1 i =1 2 x Zweite Formel ist einfacher, aber Genauigkeit berechnet werden. muss mit größerer » Empirische Standardabweichung 2 s= Statistik, Prof. Dr. K. Melzer Hochschule Esslingen s 36 3.4 zweidimensionale Stichproben » Jetzt werden zwei Merkmale einer Stichprobe betrachtet 3.4.1. Graphische Darstellung: Streudiagramm (Punktewolke) » jedes Paar von Ausprägungen (xi, yi) wird als Punkt im x-y-Koordinatensystem repräsentiert. » Daten: Auto Nr. PS Verbrauch (l/100 km) 1 130 7,2 2 85 3 120 … … 13,5 10 … Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 37 3.4 zweidimensionale Stichproben 3.4.2 Empirischer Korrelationskoeffizient r » Gegeben: Wertepaare (x1,y1), (x2,y2), …, (xn,yn) mit den arithmetischen Mittelwerten x und y » empirischer Korrelationskoeffizient n rxy = ∑ (x − x )( y i =1 n ∑ (x i =1 r = i i − x) 2 i − y) oder n ∑(y i =1 − y) 2 i n ∑ xi yi − n ⋅ x ⋅ y i =1 n 2 n 2 ∑ xi − n ⋅ x 2 ⋅ ∑ yi − n ⋅ y 2 i =1 i =1 Zum Berechnen ist zweite Formel einfacher Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 38 3.4 zweidimensionale Stichproben Bemerkungen zum Korrelationskoeffizienten r: » Werte von r: −1 ≤ rxy ≤ 1 » r beschreibt die Stärke und Richtung des linearen Zusammenhangs (vgl. nachfolgende Graphiken). » Linearer Zusammenhang spiegelt sich in der Aussage „Je größer x, desto [größer/kleiner] ist tendenziell y“. » Falls |r| ≈ 1 , gibt es einen starken linearen Zusammenhang. (Aber nicht unbedingt einen ursächlichen Zusammenhang zwischen den xund y-Werten!) » Falls r ≈ 0 , gibt es keinen linearen Zusammenhang. (Aber in manchen Fällen einen Zusammenhang anderer Art, z. B. quadratisch!) » Falls r > 0, steigt die „beste Gerade“, falls r < 0 fällt sie. » rxy = 1: alle Punkte (xi, yi) liegen auf einer Geraden mit positiver Steigung) » rxy = −1: alle Punkte (xi, yi) liegen auf einer Geraden mit negativer Steigung) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 39 3.4 zweidimensionale Stichproben 8 6 7 5 6 4 5 3 4 rxy= -0,7 3 rxy=0,9 2 2 1 1 0 0 0 0 1 2 3 4 5 1 2 3 4 5 6 6 7 8 7 6 6 5 5 rxy= -0,1 4 rxy=0,1 4 3 3 2 2 1 1 0 0 0 0 1 2 3 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 4 5 1 2 3 4 5 6 6 40 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose » Typische Fragestellung: Beispiel ? 9 8 7 Erlös (Y) » Wie hoch wird der Umsatz erwartet, wenn die Werbeausgaben auf 350 € festgelegt werden? Modell gesucht » Oft: zeitliche Daten (Zeitreihe) mit der Frage, was zum nächsten Mess-/Zeitpunkt geschieht. 6 5 4 3 2 1 0 0 1 2 3 4 5 6 Werbeausgaben (X) Werbeausgaben, x Verkaufserlös, y (in 100 €) (in 1.000 €) 3 4 3 2 4 6 5 8 1 3 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 41 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose » (Empirische) Regression bedeutet: eine Gerade oder eine Kurve „möglichst gut“ durch eine gegebene „Punktewolke“ legen. » Im Falle einer Geraden spricht man von „linearer Regression“, sonst von „nichtlinearer Regression“ (z. B. von „quadratischer Regression“, wenn die Regressionskurve eine quadratische Funktion (Parabel) ist). » Diese Gerade/Kurve kann für die Prognose von Werten verwendet werden. 9 8 Erlös (Y) 7 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 Werbeausgaben (X) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 42 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose » Gegeben: n Wertepaare (x1,y1), (x2,y2), …, (xn,yn). Dabei wird angenommen, dass nur die y-Werte größeren (z. B. zufälligen) Schwankungen unterliegen können und die x-Werte fest (oder sehr genau bestimmbar) sind. » Methode der kleinsten Quadrate (MKQ): ∑ε y yi εi mx+b ŷi 2 i soll minimal werden. Dabei ist ε i = yi − yˆ i der Abstand in y-Richtung zwischen dem y-Wert des i-ten Datenpunktes und dem zu xi gehörenden y-Wert auf der Regressionsgeraden. [Das Dach-Symbol bei steht für „geschätzer Wert“. heißt „Residuum“.] xi Statistik, Prof. Dr. K. Melzer Hochschule Esslingen x 43 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose » MKQ führt zu folgender Gleichung der empirischen Regressionsgeraden: y = mx + b (∑ x y )− nxy m= (∑ x )− nx mit n i =1 n i 2 i =1 i i 2 und b = y − mx » Diese Regressionsgerade mit den Koeffizienten wie oben hat eine kleinere Summe der Fehlerquadrate als jede andere Gerade. n n ∑ε i =1 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 2 i = ∑ (mxi + b − yi ) → min . 2 i =1 44 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose 8 7 Erlös (Y) Verkaufserlös, y Werbeausgaben, x 9 6 (in 100 €) (in 1.000 €) 3 4 3 2 4 6 5 8 1 3 5 4 3 2 1 0 0 1 2 3 4 5 6 Werbeausgaben (X) Beispiel (Forts.) » Berechnen Sie die Koeffizienten der Regressionsgeraden und geben Sie die Regressionsgerade an. Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 45 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose Beispiel (Forts.) y x2 y2 xy 3 4 9 16 12 3 2 9 4 6 4 6 16 36 24 5 8 25 64 40 9 8 7 Erlös (Y) x 6 5 4 3 2 1 0 Σ 1 3 1 9 16 23 60 129 x = 3,2; y = 4,6 n =5 3 0 1 2 3 4 5 6 7 Werbeausgaben (X) 85 85 − 5 ⋅ 3,2 ⋅ 4 ,6 11,4 m= = = 1,2955 60 − 5 ⋅ 3,2 2 8,8 b = y − m x = 4 ,6 − 1,2955 ⋅ 3,2 = 0,4545 Also : y = mx + b = 1,2955 x + 0,4545 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 46 3.4 zweidimensionale Stichproben 3.4.3. Lineare Regression und Prognose Beispiel (Forts.) » Vorhersage des Verkaufserlöses für gegebene Werbeausgaben: 9 8 Werbeausgaben: 350 € ⇒ x = 3,5 Erlös (Y) 7 6 5 4 3 2 y = 1,2955 · 3,5 + 0,4545 = 4,9886 1 0 0 Erwarteter Umsatz: 4.989 € 1 2 3 4 5 6 7 Werbeausgaben (X) Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 47 3.4 zweidimensionale Stichproben 3.4.4 Bestimmtheitsmaß R2 » » Für alle Regressionstypen (auch quadratische usw.) wird als Gütemaß das Bestimmtheitsmaß R2 verwendet, d.h. wie gut die Gerade/Kurve die Punktwolke beschreibt (nicht verwechseln mit Spannweite R!!) Für das Bestimmtheitsmaß R2 gilt a) 0 ≤ R2 ≤ 1 b) Falls R2 ≈ 1 verläuft die Regressionsgerade (oder -kurve) gut durch die „Punktewolke“. Falls R2 ≈ 0 gibt die Regressionsgerade (oder -kurve) die „Punktewolke“ nicht gut wieder. c) R2 beschreibt den Anteil an der Varianz der y-Werte, der durch die Regression erklärt werden kann. » Während a), b), c) auch für nichtlineare Regressionen gelten, ist die Gleichung R2 = r2 nur im Falle der linearen Regression richtig. (Der empirische Korrelationskoeffizient r bezieht sich nämlich ausschließlich auf die lineare Regression.) » Im Beispiel: rxy = 0,7978 ⇒ R2 = (rxy )2 = 0,64 Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 48 3.4 zweidimensionale Stichproben » Bemerkung zur Berechnung von m und b bei linearer Regression » Viele TR haben eine eingebaute Berechnungsmöglichkeit für die Parameter m und k der empirischen Regressionsgeraden und für den empirischen Korrelationskoeffizienten r nach Eingabe aller x- und yWerte. Wer einen Taschenrechner besitzt, bei dem das so nicht möglich ist, benutzt am besten das gezeigte Berechnungsschema. » Die angegebenen Formeln sind für die Berechnung „von Hand“ – also wenn im TR Regression und Korrelation nicht implementiert sind – am einfachsten anzuwenden. Bei der Berechnung von m und r müssen x und y aber mit großer Genauigkeit bestimmt werden! Statistik, Prof. Dr. K. Melzer Hochschule Esslingen 49 3.4 zweidimensionale Stichproben Bemerkung zur Berechnung von m und b bei linearer Regression » (Leichter zu merkende) alternative Formeln für m und r verwenden folgende Größen: 1 n 2 ∑ xi − n ⋅ x 2 » Empirische Varianz der x-Werte sx2 = n − 1 i =1 1 n 2 ∑ yi − n ⋅ y 2 n − 1 i =1 » Empirische Varianz der y-Werte s 2y = » Empirische Kovarianz 1 n ∑ xi yi − nx y sxy = n − 1 i =1 » Empirische Standardabweichung sx = sx2 , s y = s 2y » Damit ist Statistik, Prof. Dr. K. Melzer Hochschule Esslingen m= s xy s x2 und r = s xy sx ⋅ s y 50