Beschreibende Statistik Betriebswirt VWA Wesen der Statistik Beschreibende Statistik 2 ©JB Statistik ist das methodische Vorgehen bei der Beschaffung von Informationen, die man braucht, um vernünftige Entscheidungen treffen zu können. • Beschreibende Statistik (Deskriptive Statistik) Methoden zur Erfassung, Aufbereitung, Darstellung und Analyse fest umrissener und konkret vorliegender Daten. • Schließende Statistik (Induktive Statistik) Methoden, deren Anwendung Schlüsse von Stichproben auf übergeordnete Gesamtheiten erlauben. Statistische Daten Beschreibende Statistik 3 ©JB • verbale oder qualitative Informationen - nicht sehr präzise - wenig objektiv - Zusammenfassung schwierig • quantitative, zahlenmäßige Informationen - zahlenmäßige Aussage - objektiv - einfach zusammenzufassen und zu verarbeiten Daten, die sich für eine Zusammenfassung eignen, werden als Statistische Daten bezeichnet. Statistische Modell Beschreibende Statistik 4 ©JB Ein Modell ist ein vereinfachtes Bild der Wirklichkeit und entsteht durch Beschränkung auf das Wesentliche. Modelle in der Statistik entstehen in der Regel durch Vereinfachung in dreifacher Weise: • sachlich • örtlich • zeitlich Problem: Es gibt keine eindeutigen, allgemein anerkannte Grundsätze zur Bildung Statistischer Modelle. Anwendungsgebiete Beschreibende Statistik 5 ©JB Statistische Methoden können überall dort eingesetzt werden, wo größere Informationsmengen zu verarbeiten sind. • • • • • • • Politik Verkehr Sozialwissenschaften Biologische Wissenschaften Naturwissenschaft und Technik Betriebstatistik Medizin Statistisches Material Beschreibende Statistik 6 ©JB Untersuchungszweck: Festlegung, wozu man Informationen benötigt Grundgesamtheit: Menge von Elementen über die sich die Entscheidung, die man statistisch untermauern will, erstreckt und über die man Informationen benötigt. Die Grundgesamtheit setzt sich aus den statistischen Einheiten zusammen. Abgrenzung der Gesamtheit: • sachlich • örtlich • zeitlich Bestands- und Bewegungsmassen Beschreibende Statistik 7 ©JB Bestandsmassen: Erfassung zu einem bestimmten Zeitpunkt. Bewegungsmassen: Erfassung während eines Zeitraumes. Fortschreibung: Bestandsmassen werden durch Bewegungsmassen fortgeschrieben (Zugangsmassen und Abgangsmassen). Bestands- und Bewegungsmassen Beschreibende Statistik 8 ©JB Beispiele für Bestandsmassen: • Einwohner von Mannheim • Studenten einer Hochschule • Kraftfahrzeuge in München • Unternehmen in NRW Beispiele für Bewegungsmassen: • Geburten in Bayern im September 1988 • Verbrauch an Bier in Hessen im Jahre 1987 • Regenfälle in einem bestimmten Gebiet • Umsätze von Unternehmen Vollerhebung oder Totalerhebung 9 Beschreibende Statistik Erfassung aller statistischer Einheiten ©JB Vorteil: • Vollständige Information Nachteil: • große Gesamtheiten nicht exakt abgrenzbar • Bei komplizierten Sachverhalten können Ergebnisse fehlerhafter werden, je mehr Einheiten berücksichtigt werden • große Kosten • Zeitdauer zu lang Teilerhebung / Stichprobe Beschreibende Statistik 10 ©JB Beschränkt man sich nur auf einen Teil der statistischen Masse, so spricht man von einer Teilerhebung. Der ausgewählte Teil heißt Stichprobe. Vorteil: • Kostengünstig, da geringer Aufwand • Vollerhebung eventuell unsinnig • Ergebnisse liegen schneller vor • Genauigkeit Nachteil: • Stichprobenfehler Herkunft der Daten 11 Beschreibende Statistik primärstatistische Erhebung: ©JB • Daten werden eigens für die Untersuchung erhoben • aus Kostengründen kaum durchführbar sekundärstatistische Erfassung: • Rückgriff auf bereits vorhandene Daten • Kostengünstig, da geringerer Aufwand Beschreibende Statistik 12 ©JB Erhebungsmethoden bei Primärstatistik 1. Mündliche Befragung Interview sehr Zeitaufwendig 2. Schriftliche Befragung geringer Aufwand, Güte kann leiden 3. Beobachtung Daten in der Regel unverfälscht 4. Experiment Produkttest 5. Automatische Erfassung Anwendung im tech. Bereich (z.B. Stromverbrauch) Träger der amtlichen Statistik Beschreibende Statistik 13 ©JB staatliche Institutionen oder vom Staat abhängige Stellen. Sie sind staatlich finanziert. Beispiele: • Statistisches Bundesamt • Statistische Landesämter • Statistische Ämter der Städte • Ministerien des Bundes und der Länder • Bundesargentur für Arbeit Veröffentlichung der amtlichen Statistik: • Staatistische Jahrbuch • Zeitschrift „Wirtschaft und Statistik • Der Statistische Wochendienst Träger der nichtamtlichen Statistik Beschreibende Statistik 14 ©JB • • • • • Wirtschaftsverbände Markt- und Meinungsforschungsinstitute wissenschaftliche Institute Unternehmen Arbeitgeber- und Arbeitnehmerorganisationen Erhebungen können schneller an aktuelle Bedürfnisse angepasst werden. Ergebnisse sind weniger objektiv. Ergebnisse sind oft Mittel der Selbstdarstellung. Statistische Merkmale Beschreibende Statistik 15 ©JB Merkmale: Eigenschaften einer statistischen Einheit, für die man sich bei einer statistischen Untersuchung interessiert. Sie sind Gegenstand der Untersuchung. Merkmalsträger: Träger der Merkmale sind die statistische Einheiten, die gezählt oder gemessen werden. Merkmalsausprägungen: Es sind die verschiedenen Ergebnisse, die bei der Beobachtung oder Messung auftreten können. Beispiele für Merkmalsausprägungen Beschreibende Statistik 16 ©JB Nr Merkmalsträger Merkmal Merkmalsausprägung 1 best. Person Waschmaschi- Besitzer, Nichtbesitzer nenbesitzer 2 best. Person Anhänger einer Partei Anhänger, kein Anhänger 3 best. Person Familienstand ledig, geschieden, verheiratet, verwitwet 4 Fernsehzuschauer Meinung zur Sendung sehr gut, gut, durchsch., schlecht, sehr schlecht 5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre 6 Betriebsangehörige Urlaubstage 18, 19, 20, ... 28 Tage Beispiele für Merkmalsausprägungen Beschreibende Statistik 17 Merkmal 1-3: Es handelt sich um Eigenschaften. Jede Reihen- und Rangfolge ist willkürlich und zufällig. Merkmal 4: Es handelt sich um eine Bewertung. Es liegt eine eindeutige Rangfolge vor. Merkmal 5-6: Es handelt sich um Zahlen. Eine Rangfolge ist vorgegeben. Abstände zwischen Ausprägungen sind gleich lang. Festlegung der Maßeinteilung nennt man Skalierung ©JB Arten von Skalierungen Beschreibende Statistik 18 ©JB 1. Nominale Skalierung: (Unterscheidungsmerkmale) Die Merkmalsausprägungen drücken lediglich die Verschiedenartigkeit aus. 2. Ordinale Skalierung: (Rangmerkmale) Die Merkmalsausprägungen bringen neben der Verschiedenartigkeit eine natürliche Rangfolge zum Ausdruck. 3. Metrische Skalierung: (Abstandsmerkmale) Merkmalsausprägungen grundsätzlich Zahlen. Neben der Rangordnung werden auch die Abstände zwischen den Merkmalsausprägungen verglichen. Gruppen von Skalierungen 19 Beschreibende Statistik Quantitative Ausprägungen: ©JB • metrisch skalierte Merkmale • Ausprägungen unterscheiden sich in ihrer Größe Qualitative Ausprägungen: • ordinal und nominal skalierte Merkmale • Ausprägungen unterscheiden sich in ihrer Art Qualitative Daten 20 Beschreibende Statistik nominal: Merkmalsausprägungen ©JB • können nicht durch Auszählen oder Messen ermittelt werden • Haben keine natürliche Reihenfolge • Liefern keine Abstände oder Verhältnisse ordinal: Merkmalsausprägungen • können in eine natürliche Reihenfolge gebracht werden • Sind keine absoluten, sondern relative Werte • Liefern keine Abstände oder Verhältnisse Quantitative Daten 21 Beschreibende Statistik metrisch: Merkmalsausprägungen ©JB • Sind messbar oder abzählbar (reelle Zahlen) • Sind somit absolute Werte • Liefern Abstände oder Verhältnisse Diskrete und stetige Merkmale 22 Beschreibende Statistik Diskrete Merkmale: (Beispiel Nr. 6) ©JB • Merkmal kann nur endlich viele Ausprägungen annehmen • Ausprägungen sind exakt bestimmbar • Abgrenzungsschwierigkeiten treten nicht auf Stetige Merkmale: (Beispiel Nr. 5) • Können jeden beliebigen reellen Wert in einem bestimmten Intervall annehmen • Ausprägungen sind nicht abzählbar, sie werden durch messen bestimmt • Sie sind genaugenommen nur Näherungswerte Beispiele für Merkmalsausprägungen Beschreibende Statistik 23 ©JB Nr Merkmalsträger Merkmal Merkmalsausprägung 1 best. Person Waschmaschi- Besitzer, Nichtbesitzer nenbesitzer 2 best. Person Anhänger einer Partei Anhänger, kein Anhänger 3 best. Person Familienstand ledig, geschieden, verheiratet, verwitwet 4 Fernsehzuschauer Meinung zur Sendung sehr gut, gut, durchsch., schlecht, sehr schlecht 5 Betriebsangehörige Alter in Jahren 16 – 65 Jahre 6 Betriebsangehörige Urlaubstage 18, 19, 20, ... 28 Tage Übersicht 24 Beschreibende Statistik Qualitative Merkmale ©JB Quantitative Merkmale Nominalskala Ordinalskala Metrische Skala Nr. 5 und 6 Skala Nr. 1-3 Datenerfassung vergleichen Nr. 4 vergleichen diskret stetig Nr. 6 Nr. 5 zählen messen Rechnen mit Summenzeichen 25 Beschreibende Statistik n ©JB i 1 + 2 + 3 + ... + n i=1 n ai a1 a2 ... an i=1 i: 1: n: ai: Index Untere Summationsgrenze Obere Summationsgrenze beliebige Werte, hier z.B. Merkmalsausprägungen Rechenbeispiele Beschreibende Statistik 26 ©JB 5 2i 2 4 6 8 10 2 1 4 9 16 25 30 i=1 5 i i=1 55 Rechenregeln mit Summen Beschreibende Statistik 27 ©JB n a na i=1 n m ai i=1 n ai ai mit 1 m n i=1 n i=m 1 n ai bi i=1 n ai i =1 bi i=1 Rechenregeln mit Summen Beschreibende Statistik 28 ©JB n n cai i=1 c ai i =1 n n- j ai k =0 ai i= - j j Gesamtsumme Beschreibende Statistik 29 ©JB m n uij j =1 i =1 Häufigkeitsverteilung Beschreibende Statistik 30 ©JB Urliste Ungeordnete Niederschrift der Zahlenwerte in der Reihenfolge ihres Auftretens. Häufigkeitszahl Gleiche Messwerte werden mit der Zahl ihres Auftretens versehen. Absolute Häufigkeit Anzahl der statt. Einheiten mit einer bestimmten Merkmalsausprägung. Relative Häufigkeit Absolute Häufigkeit dividiert durch Anzahl der stat. Einheiten Klassenbildung 31 Beschreibende Statistik 1. Anzahl der Klassen festlegen ©JB • • • • • opt. Anzahl erfolgt nicht nach festen Regeln Problemstellung ist maßgebend Zu viele Klassen -> unübersichtlich Zu wenige Klassen -> Informationsverlust In der Regel 5-20 Klassen 2. Klassengrenzen festlegen • • • Es soll eine obere und untere Grenze festgelegt werden In der Regel gleichbreite Klassen Ungleiche Klassen nur, wenn viele Beobachtungen in einem kleinen Bereich und geringer Rest in weitem Bereich Aufgabe Häufigkeitsverteilung Beschreibende Statistik 32 ©JB Die nachfolgende Tabelle enthält die Gewichte von 40 männlichen Studenten auf das nächste volle Pfund gerundet. Erstellen Sie eine Häufigkeitsverteilung. Urliste 138 164 150 132 144 125 149 157 146 158 140 147 136 148 152 144 168 126 138 176 163 119 154 165 146 173 142 147 135 153 140 135 161 145 135 142 150 156 145 128 Lösung Strichliste Beschreibende Statistik 33 ©JB Gewicht in Pfund Strichliste Häufigkeit rel. Häufigkeit 118 - 122 I 1 0,025 123 - 127 II 2 0,050 128 - 132 II 2 0,050 133 - 137 IIII 4 0,100 138 - 142 IIIII I 6 0,150 143 - 147 IIIII III 8 0,200 148 - 152 IIIII 5 0,125 153 - 157 IIII 4 0,100 158 - 162 II 2 0,050 163 - 167 III 3 0,075 168 - 172 I 1 0,025 173 - 177 II 2 0,050 Summe 40 1,000 Stamm-Blatt Darstellung Beschreibende Statistik 34 ©JB Stamm 11 12 12 13 13 14 14 15 15 16 16 17 17 Blatt 9 5 2 5 0 5 0 6 1 5 3 6 6 8 5 0 5 0 7 3 8 5 2 6 2 8 4 6 2 6 3 8 4 7 4 8 4 7 8 9 Lösung Häufigkeitsdiagramm 35 Beschreibende Statistik 8 7 6 5 4 3 2 1 0 120 ©JB 130 140 150 160 170 180 Stabdiagramm Beschreibende Statistik 36 ©JB 45 40 40 35 30 25 25 20 20 15 15 10 5 0 Ar An B S Rechteckdiagramm Beschreibende Statistik 37 ©JB 120 100 80 40 60 25 40 15 20 20 0 Kreisdiagramm Beschreibende Statistik 38 ©JB S 20% Ar 40% B 15% An 25% Mittelwerte oder Lagerparameter Beschreibende Statistik 39 ©JB • Das arithmetische Mittel – Einfaches arithmetische Mittel – Gewogenes arithmetisches Mittel – Arithmetisches Mittel für klassierte Daten • Modalwert oder häufigster Wert • Zentralwert oder Meridian • Quantile • Das geometrische Mittel Einfaches arithmetische Mittel 40 Beschreibende Statistik Arithmetische Mittel bei Einzelwerten ©JB n xi Arithmetisches Mittel x Eigenschaften: n xi x xi x 0 i 1 n i 1 2 Min i 1 n Summe der Einzelwerte Anzahlder Einheiten Das gewogene arithmetische Mittel Beschreibende Statistik 41 ©JB Arithmetische Mittel bei einer Häufigkeitsverteilung Anstatt gleiche Merkmalsausprägungen mehrfach zu addieren, gewichtet man sich unterscheidende Merkmalsausprägungen xi (i=1,2,...,n) mit der Häufigkeit des Auftretens hi. n x i hi x i 1 n hi i 1 Arithmetisches Mittel für klassierte Daten Beschreibende Statistik 42 ©JB Ist von einer Stichprobe weder die Urliste noch eine Häufigkeitsverteilung bekannt, so lässt sich der Mittelwert nicht exakt berechen. In einem solchen Fall ermittelt man einen Näherungswert, indem man von jeder Klasse die Klassenmitte verwendet. x 1 n n xxi hi i 0 mit xix Klassenmitteder Klassei Modalwert Beschreibende Statistik 43 ©JB Die am häufigsten vorkommende Merkmalsausprägung. Der Modalwert ist um so aussagekräftiger, je stärker die entsprechende Merkmalsausprägung dominiert. Für nominal skalierte Merkmale ist der Modalwert der einzige sinnvolle Lageparameter. Zentralwert oder Median Beschreibende Statistik 44 ©JB Der Zentralwert ist diejenige Merkmalsausprägung, die in der Mitte der in eine Rangfolge gebrachten Einzelausprägungen steht. D.h. die Merkmale müssen mindestens Ordinalskala besitzen. Anzahl gerade: Zentralwert an der Stelle (n+1)/2 Anzahl ungerade: Mittel der Werte an der Stelle n/2 und n/2 +1 Quantile Beschreibende Statistik 45 ©JB Das p% Quantil ist der Wert Lp für den p % der Beobachtungen kleiner und (100-p)% größer als Lp sind. Für p = 25%, 50%, 75% nennt man die Quantile Quartile (unteres, Median, oberes); Bezeichnung ist Q1,Q2,Q3. Den Wert Q3 - Q1 nennt man Interquantilsabstand. Das geometrische Mittel Beschreibende Statistik 46 ©JB Bei der Bestimmung von durchschnittlichen Wachstumsraten ist das arithmetische Mittel nicht brauchbar. Hier muss man auf das geometrische Mittel zurückgreifen. GM n x 1 x2 ... xn für xi 0 Negatives Wachstum Beschreibende Statistik 47 ©JB Jahr Absatzmenge Wachstumsrate Wachstumsfaktor 0 1 2 3 4 1000 1200 1080 1350 1512 0,20 -0,10 0,25 0,12 1,20 0,90 1,25 1,12 GM 4 1,2 0,9 1,25 1,12 1,1089 Streuungsmaße Beschreibende Statistik 48 ©JB Zur Beschreibung einer Stichprobe reicht der Mittelwert oft nicht aus, da er keine Aussage darüber erlaubt, wie weit die einzelnen Merkmalswerte vom Mittelwert abweichen. Aus diesem Grund wird der Mittelwert oft durch einen Streuungsparameter ergänzt. • • • • • Spannweite oder Variationsbreite Quartilsabstand und Boxplot Mittlere lineare Abweichung Varianz und Standardabweichung Varianzkoeffizient Spannweite oder Variationsbreite Beschreibende Statistik 49 ©JB Spannweite = Differenz zwischen dem größten (xmax) und dem kleinsten (xmin) Wert Vorteil: • leicht zu berechnen • schneller Vergleich der Streuung zweier Merkmalsreihen • rascher Überblick über die Breite der Skala Nachteil: • Extremwerte verzerren die Aussagekraft • Keine Aussage über Streuung zw. Extremwerten • Bei großen Untersuchungen treten öfter Werte auf, die die Spannweite erhöhen Quartilsabstand und Boxplot Beschreibende Statistik 50 ©JB Der Quartilsabstand ist die Differenz zwischen dem ersten und dem dritten Quartil. Er umfasst den Bereich mit den mittleren 50% der Werte. Das Box- oder Whiskerdiagramm stellt die Häufigkeitsverteilung schematisch dar: Zwischen dem 1. und dem 3. Quartil wird ein Kasten aufgebaut. In diesen Bereich fallen 50% der Beobachtungen. Die seitlich angesetzten „Schnurrhaare“ vermitteln einen Eindruck, wie weit die restlichen 50% streuen Box- und Whiskersdiagramm Beschreibende Statistik 51 ©JB 4 6 8 10 12 14 16 18 20 22 24 28 Tage Aufenthaltsdauer von Patientinnen nach Schnittentbindung (Seite 65) Mittlere lineare Abweichung Beschreibende Statistik 52 ©JB Durchschnittliche lineare Abweichung der Merkmalswerte vom Mittelwert. Arithmetisches Mittel der absoluten Abweichungen der Merkmalswerte von einem Mittelwert (arith. Mittel oder Median) d 1 ni n xi M 1 M = Mittelwert Varianz und Standardabweichung 53 Beschreibende Statistik Varianz s2: ©JB s2 Summealler Abweichungsquadrate Zahl derMeßwerte 1 ni n xi AM 2 1 Standardabweichung s = positve Wurzel der Varianz s2 s s2 1 ni n xi AM 1 2 Beispiel Standardabweichung Beschreibende Statistik 54 ©JB Liegezeit xi (xi-AM) (xi-AM)(xi-AM) hi hi*(xi-AM)(xi-AM) 8 9 10 11 12 13 14 15 17 20 28 -5 -4 -3 -2 -1 0 1 2 4 7 15 25 16 9 4 1 0 1 4 16 49 225 1 1 3 6 5 4 5 2 1 1 1 30 25 16 27 24 5 0 5 8 16 49 225 400 s2 400 30 13,33 s 3,65 Variationskoeffizient Beschreibende Statistik 55 ©JB Der Variationskoeffizient ist ein relativer Streuungsparameter. Variationskoeffizient v = Quotient aus Stabdardabw. und arithmetischem Mittel Der Variationskoeffizient gibt an, wie viel Prozent vom arithmetischen Mittel die Standardabweichung beträgt. v s AM Regression und Korrelation Beschreibende Statistik 56 ©JB Beschreibung eines (tendenziellen) Zusammenhangs zwischen zwei Merkmalsausprägungen. Korrelationsanalyse: Bestimmung einer Maßzahl, die die Stärke des Zusammenhangs beschreibt. (Korrelations- bzw. Kontingenzkoeffizient) Regressionsanalyse: Bestimmung von Funktionen zur Beschreibung der Form des Zusammenhangs zwischen zwei Merkmalen. (Regressionsgerade) Die drei Fragenstellungen 57 Beschreibende Statistik I. ©JB Besteht zwischen den Merkmalen ein Zusammenhang oder nicht? • Kontingenz • Korrelation II. Wie ausgeprägt ist ein Zusammenhang? • Kontingenz-Koeffizient • Korrelations-Koeffizient III. Durch welche Funktion kann die Tendenz eines Zusammenhangs beschrieben werden? • Regressionsrechnung Beispiel Kontingenztabellen Beschreibende Statistik 58 ©JB Soziale Stellung des Vaters Schultyp des Kindes Häufigkeit Arbeiter Hauptschule 6 Arbeiter Realschule 4 Arbeiter Gymnasium 0 Angestellter Hauptschule 2 Angestellter Realschule 2 Angestellter Gymnasium 1 Beamter Hauptschule 1 Beamter Realschule 2 Beamter Gymnasium 2 Selbständiger Hauptschule 1 Selbständiger Realschule 2 Selbständiger Gymnasium 2 Beispiel Kontingenztabellen Beschreibende Statistik 59 ©JB Arbeiter Angestellter Beamter Selbst. Hauptschule 6 2 1 1 Realschule 4 2 2 2 Gymnasium 0 1 2 2 Beschreibende Statistik 60 ©JB Zusammenhang zwischen Körpergröße und Körpergewicht Person Nr. 1 2 3 4 5 6 7 8 9 10 Größe in cm 174 182 178 190 172 165 172 189 168 181 Gewicht in kg 62 75 63 95 69 58 78 84 62 70 Person Nr. 11 12 13 14 15 16 17 18 19 20 Größe in cm 172 178 174 184 189 167 172 184 168 181 Gewicht in kg 72 65 70 65 78 60 65 72 65 72 Zusammenhang zwischen Körpergröße und Körpergewicht ©JB 100 90 80 Gewicht in kg Beschreibende Statistik 61 70 60 50 40 30 20 10 0 164 168 172 176 180 Größe in cm 184 188 192 Zusammenhang zwischen Körpergröße und Körpergewicht ©JB 100 90 80 Gewicht in kg Beschreibende Statistik 62 70 60 50 40 30 20 10 0 164 168 172 176 180 Größe in cm 184 188 192 Regressionsanalyse Beschreibende Statistik 63 ©JB Die Regressionsanalyse verfolgt das Ziel, die Tendenz des Zusammenhangs durch eine mathematische Funktion zu beschreiben. Mögliche Funktionen: Gerade: y = ax + b Parabel: y = ax2 + bx + c Potenzfunktion: y = bx2 Exponentialfunktion: y = bax Kriterium der kleinsten Quadrate Beschreibende Statistik 64 Zur Ermittlung der Regressionsfunktion hat sich das Kriterium der kleinsten Quadrate bewährt. In einem Koordinatensystem werden die Beobachtungspunkte eingezeichnet. Der Abstand zwischen den Punkten und der Funktion soll möglichst klein werden. d 1 , d 2 , d 3 , ... , d n mit d n x yi Von allen möglichen Funktionen wird nun die ausgewählt, für die die Quadrate der Abstände minimal sind n n yi y i i ©JB yi x 2 i 2 i d i 1 min Kriterium der kleinsten Quadrate 65 Beschreibende Statistik y ©JB P1 y2 y1 y2* y1* P2 y = ax + b d2 d1 P2* P1* x1 x2 x Lineare Regressionsfunktion 66 Beschreibende Statistik Forderung für Regressionsgerade y = ax + b: ©JB n f n yi y xi a, b i 1 2 yi axi b 2 Minimum i 1 Für Minimum muss 1. Ableitung nach a und b verschwinden: df da df db n 2 y i axi b xi 2 y i axi b 1 i 1 n i 1 Lineare Regressionsfunktion 67 Beschreibende Statistik Durch Null-Setzen der 1. Ableitungen folgt: ©JB n n x i yi b i 1 n n xi 2 i a i 1 n yi x nb a i 1 i 1 xi i 1 Auflösen nach a und b ergibt: n n n a xi yi i 1 n xi i 1 n n 2 i n x i 1 n yi i 1 xi i 1 2 n 2 i x b i 1 n yi i 1 n n xi i 1 n x i 1 n 2 i x i yi i 1 xi i 1 2 Lineare Regressionsfunktion 68 Beschreibende Statistik Andere Rechenmöglichkeit: ©JB n x i x yi y a i 1 = n xi x i 1 b y ax 2 Kovarianz Varianzder x Werte Einkommen - Miete 69 ©JB 700 600 500 Miete Beschreibende Statistik 800 400 300 200 100 0 1200 1400 1600 1800 2000 2200 2400 Nettoeinkommen 2600 2800 3000 3200 Einkommen - Miete 70 ©JB y = 0,1579x + 202,65 700 600 500 Miete Beschreibende Statistik 800 400 300 200 100 0 1200 1400 1600 1800 2000 2200 2400 Nettoeinkommen 2600 2800 3000 3200 Lineare Regressionsfunktion Beschreibende Statistik 71 ©JB Bisher haben wir die die Abhängigkeit des Merkmals Y vom Merkmal X beschrieben. (Regression von y auf x). Wollen wir die Abhängigkeit des Merkmals X vom Merkmal Y beschreiben (Regression von x auf y), so ergeben sich folgende Formeln: n x i x yi y a' i 1 b' n yi y i 1 2 x a' y Miete - Einkommen 72 ©JB 3000 Nettoeinkommen Beschreibende Statistik 3500 2500 2000 1500 1000 500 0 350 400 450 500 550 Miete 600 650 700 750 Miete - Einkommen 73 ©JB y = 5,73x - 946,5 3000 Nettoeinkommen Beschreibende Statistik 3500 2500 2000 1500 1000 500 0 350 400 450 500 550 Miete 600 650 700 750 Werbungskosten - Umsatz 74 ©JB 12 10 Umsatz (in Mio. €) Beschreibende Statistik 14 8 6 4 2 0 3 4 5 6 7 8 Werbungskosten (in 1000 €) 9 10 11 12 Werbungskosten - Umsatz 75 ©JB y = 1,22x - 0,54 12 10 Umsatz (in Mio. €) Beschreibende Statistik 14 8 6 4 2 0 3 4 5 6 7 8 Werbungskosten (in 1000 €) 9 10 11 12 Alter - Wartungskosten 76 ©JB 4 3,5 Kosten in 1000 DM Beschreibende Statistik 4,5 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 5 Alter in Jahren 6 7 8 9 10 Alter - Wartungskosten 77 ©JB 4 y = 0,1903x + 1,3854 3,5 Kosten in 1000 DM Beschreibende Statistik 4,5 3 2,5 2 1,5 1 0,5 0 0 1 2 3 4 5 Alter in Jahren 6 7 8 9 10 Korrelationsanalyse Beschreibende Statistik 78 ©JB In der Korrelationsanalyse versucht man, die Stärke des Zusammenhangs zwischen zwei Merkmalen durch eine Maßzahl auszudrücken. Wir unterscheiden folgende Maßzahlen: • Korrelationskoeffizient von Pearson (metrisch skalierte Merkmale) • Rangkorrelationskoeffizient von Spearman (ordinalskalierte Merkmale) • Kontingenzkoeffizienten (nominalskalierte Merkmale) Korrelationskoeffizient von Pearson 79 Beschreibende Statistik n ©JB xi x y i y i 1 r n n xi x 2 i 1 i 1 1 ni r 1 n yi y 2 n xi x yi y 1 n xi x i 1 2 1 ni n yi y 1 2 s xy sx s y Korrelationskoeffizient von Pearson Beschreibende Statistik 80 ©JB Der Korrelationskoeffizient r ist eine Zahl zwischen +1 und -1 r = 1: Alle Beobachtungswerte liegen auf einer steigenden Geraden. r = –1: Alle Beobachtungswerte liegen auf einer fallenden Geraden. r > 0: Merkmale positiv korreliert, d.h. die Regressionsgerade ist steigend. r < 0: Merkmale negativ korreliert, d.h. die Regressionsgerade ist fallend. r = 0: Die Merkmale sind unkorreliert, d.h. es besteht kein linearer Zusammenhang. Korrelationskoeffizient von Pearson Beschreibende Statistik 81 ©JB Zur Berechnung des Korrelationskoeffizienten von Pearson ist die folgende Formel besser geeignet: n n n xi yi xi i 1 r n i 1 n 2 i n x i 1 n xi i 1 2 yi i 1 n n n y i 1 2 i yi i 1 2 Beispiel Korrelationskoeffizient Beschreibende Statistik 82 ©JB 174 182 178 190 172 165 172 189 168 181 172 178 174 184 189 167 172 184 168 181 3540 177 62 75 63 95 69 58 78 84 62 70 72 65 70 65 78 60 65 72 65 72 1400 70 -3 5 1 13 -5 -12 -5 12 -9 4 -5 1 -3 7 12 -10 -5 7 -9 4 9 25 1 169 25 144 25 144 81 16 25 1 9 49 144 100 25 49 81 16 1138 -8 5 -7 25 -1 -12 8 14 -8 0 2 -5 0 -5 8 -10 -5 2 -5 2 64 25 49 625 1 144 64 196 64 0 4 25 0 25 64 100 25 4 25 4 1508 24 25 -7 325 5 144 -40 168 72 0 -10 -5 0 -35 96 100 25 14 45 8 954 Beschreibende Statistik 83 ©JB Rangkorrelationskoeffizient von Spearman • Zwei Merkmale besitzen mindestens eine Ordinalskala. • Merkmalswerte aufsteigend geordnet und jedem Platz eine Rangzahl zugeordnet. • Für Berechnung werden nur Rangzahlen benötigt. • Stimmen mehrere Merkmaleswerte überein, wird das arith. Mittel der Rangzahlen gebildet. n 6 rs 1 d i 1 2 n n 2 i 1 Beispiel 1 Beschreibende Statistik 84 ©JB Fall 1 Fall 2 Fall 3 Schüler Nr. Lehrer A Rang Lehrer B Rang Lehrer A Rang Lehrer B Rang Lehrer A Rang Lehrer B Rang 1 9 9 9 2 3 5 2 8 8 1 10 1 6 3 5 5 2 9 10 3 4 10 10 5 6 7 7 5 4 4 6 5 6 1 6 3 3 7 4 5 4 7 1 1 3 8 2 2 8 2 2 8 3 9 8 9 7 7 4 7 4 10 10 6 6 10 1 8 9 Beispiel 1 Beschreibende Statistik 85 ©JB Schüler Nr. Fall 1 Fall 2 Fall 3 1 0 49 4 2 0 81 25 3 0 49 49 4 0 1 0 5 0 1 25 6 0 9 1 7 0 25 0 8 0 25 1 9 0 9 36 10 0 81 1 Summen: 0 330 142 r: 1 -1 0,14 Beispiel 2 Beschreibende Statistik 86 ©JB Teilnehmer-Nr. A-Note B-Note 1 4,8 4,4 2 5,0 5,1 3 5,8 5,6 4 5,5 5,7 5 5,3 5,7 6 5,0 5,5 7 5,1 5,3 8 4,6 4,9 9 4,7 4,4 10 5,9 5,8 11 5,5 5,7 12 5,4 5,4 1 2 3 4 5 6 7 8 9 10 11 12 Teilnehmer-Nr. A-Note B-Note 8 4,6 4,9 9 4,7 4,4 1 4,8 4,4 2 5,0 5,1 6 5,0 5,5 7 5,1 5,3 5 5,3 5,7 12 5,4 5,4 4 5,5 5,7 11 5,5 5,7 3 5,8 5,6 10 5,9 5,8 Teilnehmer-Nr. A-Note B-Note 1 4,8 4,4 9 4,7 4,4 8 4,6 4,9 2 5,0 5,1 7 5,1 5,3 12 5,4 5,4 6 5,0 5,5 3 5,8 5,6 4 5,5 5,7 5 5,3 5,7 11 5,5 5,7 10 5,9 5,8 Rang: Beispiel 2 87 Beschreibende Statistik Teilnehmer Nr. Rang Note A Rang Note B 1 2 3 4 5 6 7 8 9 10 11 12 1,5 4 8 10 10 7 5 3 1,5 12 10 6 Quadrat 1,5 0,5 3 -0,5 -3 -2,5 1 -2 0,5 0 -0,5 2 2,25 0,25 9,00 0,25 9,00 6,25 1,00 4,00 0,25 0,00 0,25 4,00 36,50 rs ©JB 3 4,5 11 9,5 7 4,5 6 1 2 12 9,5 8 Differenz 1 6 36,5 12 144 1 = 1 219 1716 0,87 Beispiel Kontingenztabellen Beschreibende Statistik 88 ©JB Soziale Stellung des Vaters Schultyp des Kindes Häufigkeit Arbeiter Hauptschule 6 Arbeiter Realschule 4 Arbeiter Gymnasium 0 Angestellter Hauptschule 2 Angestellter Realschule 2 Angestellter Gymnasium 1 Beamter Hauptschule 1 Beamter Realschule 2 Beamter Gymnasium 2 Selbständiger Hauptschule 1 Selbständiger Realschule 2 Selbständiger Gymnasium 2 Mittlere quadratische Kontingenz Beschreibende Statistik 89 ©JB Arbeiter Angestellter Beamter Selbst. Hauptschule 6 2 1 1 10 Realschule 4 2 2 2 10 Gymnasium 0 1 2 2 5 10 5 5 5 25 Arbeiter Angestellter Beamter Selbst. Hauptschule 4 2 2 2 10 Realschule 4 2 2 2 10 Gymnasium 2 1 1 1 5 10 5 5 5 25 Mittlere quadratische Kontingenz Beschreibende Statistik 90 ©JB C 1 ni m r 1 j 1 m r C i 1 j 1 ni n j nij n ni nj n 2 ij n ni nj 2 1 Vierfelderkorrelation Beschreibende Statistik 91 ©JB n11 n12 n1* n21 n22 n2* n*1 n*2 n n12 n21 n11 n22 n11 n12 n21 n22 n11 n21 n12 n22 Korrigierter Vierfelderkoeffizient Beschreibende Statistik 92 ©JB korr max korr korr n12 n21 n min n11, n22 n11 n22 n12 n21 n12 n21 n min n21, n12 n11 n22 n12 n21 n11 n22 n11 n22 wenn n12 n21 n11 n22 wenn n12 n21 n11 n22