Deskriptive Statistik Vorlesung - Kurzfassung Prof. Dr. rer. nat. B. Grabowski © HTW des Saarlandes 2011 Literatur Einleitung Diese Kurseinheit dient der Vermittlung von Grundkenntnissen auf dem Gebiet der beschreibenden bzw. deskriptiven Statistik als Teilgebiet der Wahrscheinlichkeitsrechnung und mathematischen Statistik. Mathematische Statistik und Wahrscheinlichkeitsrechnung sind zwei unterschiedliche Teildisziplinen der Mathematik, die ohne einander nicht denkbar sind und unter dem Sammelbegriff „Stochastik“ zusammengefasst werden. Aufgabe der Wahrscheinlichkeitsrechnung ist es, Gesetzmäßigkeiten des Zufalls zu untersuchen, bzw. mathematische Modelle dafür zu liefern. Die Wahrscheinlichkeitsrechnung ist zugleich das theoretische Fundament der mathematischen Statistik. Diese wird in der Regel in die Teildisziplinen „Beschreibende Statistik“ und „Schließende Statistik“ unterteilt. Während es in der Beschreibenden Statistik um Methoden der Aufbereitung und Darstellung von Datenmaterial geht, stehen im Mittelpunkt der Schließenden Statistik Verfahren, mit deren Hilfe von Beobachtungsdaten eines Merkmals an n Objekten einer Grundgesamtheit, d.h. von der sogenannten Stichprobe, auf die Verteilung der Merkmalswerte in der gesamten Grundgesamtheit geschlossen wird. Dieser Schluss wird mit Hilfe von Methoden der Wahrscheinlichkeitsrechnung durch Irrtums- bzw. Sicherheitswahrscheinlichkeiten bewertet. Die Stochastik hat längst in viele moderne wissenschaftliche Teildisziplinen Einzug gehalten, auch die Informatik und die Kommunikationstechnik sind ohne stochastische Methoden nicht mehr denkbar. Stochastische Methoden finden hier zum Beispiel Anwendung - probabilistischen Analyse von Algorithmen bei der Codierung bzw. in der Informationstheorie in der Sprach- und Signalverarbeitung bei der Mustererkennung bzw. Bildverarbeitung bei der Modellierung von Rechner- bzw. Informationsnetzen bei der Simulation komplexer Systeme, wie z.B. Fertigungs-, Informations-, Verkehrssysteme usw. Darüber hinaus sind Methoden der beschreibenden Statistik fester Bestandteil von Datenbanksystemen geworden und finden als Data-Mining-Verfahren Anwendung. Wir geben in dieser Kurseinheit zunächst eine Einführung in die Methoden der beschreibenden (deskriptiven) Statistik und in einem weiteren Skript ein Einführung in die Wahrscheinlichkeitsrechnung und einige Methoden der Schließenden Statistik. Für weiter Methoden der Stochastik, insbesondere der Schließenden Statistik verweisen wir auf die im Literaturverzeichnis angegebene weiterführende Literatur. Literatur LITERATUR 1. Dieses (vorlesungsbegleitende) Skript in den Teilen 0. Algebraische Grundlagen (Logik, Mengenlehre) I - Deskriptive Statistik, II –Wahrscheinlichkeitsrechnung, III - Ausgewählte Gebiete der Stochastik in der Informatik IV - Anhang (A-Tabellen, B-Klausuren, C-Lösungen zu den Übungsaufgaben) 2. J.Schwarze: " Grundlagen der Statistik I - Beschreibende Verfahren", " Grundlagen der Statistik II - Wahrscheinlichkeitsrechnung und induktive Statistik" " Aufgabensammlung zur Statistik" alle 3 Bände erschienen bei NWB-Studienbücher -Wirtschaftswissenschaften, Verlag Neue Wirtschaftsbriefe - Herne/Berlin, 1990 3. L. Papula : "Mathematik für Ingenieure", Band 3 (Kapitel Wahrscheinlichkeitsrechnung und Statistik) 4. e-Learning-System: http://mathcoach.htw-saarland.de:8081/ActiveMath2 Inhalt INHALTSVERZEICHNIS Deskriptive (Beschreibende) Statistik 1 GRUNDBEGRIFFE...................................................................................................................................................... 2 1.1 GEGENSTAND DER STATISTIK - GRUNDGESAMTHEIT UND STICHPROBE......................................................... 2 1.2 MERKMALE, MERKMALSAUSPRÄGUNGEN, SKALEN ......................................................................................... 6 1.3 HÄUFIGKEITSVERTEILUNG DISKRETER ZUFALLSVARIABLEN ........................................................................ 10 1.4 HÄUFIGKEITSVERTEILUNG KLASSIFIZIERTER DATEN..................................................................................... 13 1.4.1 Vorschriften zur Klassenbildung .................................................................................................................... 16 1.4.2 Die Klassenhäufigkeitstabelle ......................................................................................................................... 17 1.4.3 Das Histogramm .............................................................................................................................................. 19 1.4.4 Auswertung von Klassenhäufigkeitstabellen, die Summenhäufigkeitsfunktion ....................................... 20 1.5 2 ÜBUNGSAUFGABEN ................................................................................................................................. 26 STICHPROBENKENNWERTE .............................................................................................................................. 28 2.1 LAGEPARAMETER (MITTELWERT, MEDIAN, QUANTILE, MODELWERT): .................................................... 28 2.1.1 Das arithmetische Mittel.................................................................................................................................. 28 2.1.2 Der Median....................................................................................................................................................... 29 2.1.3 Das α - Quantil einer Beobachtungsreihe .................................................................................................... 31 2.1.4 Der Modalwert ................................................................................................................................................. 31 2.1.5 Bemerkungen zu den Lagemaßzahlen........................................................................................................... 32 2.2 STREUUNGSMAßE ................................................................................................................................................. 33 2.2.1 Spannweite (Range)......................................................................................................................................... 33 2.2.2 Quartilabstand, Zentilabstand ...................................................................................................................... 34 2.2.3 Boxplots............................................................................................................................................................. 34 2.2.4 Streuung............................................................................................................................................................ 36 2.2.5 Standardabweichung ....................................................................................................................................... 36 2.2.6 Der Variationskoeffizient ................................................................................................................................ 37 2.2.7 Eigenschaften des arithmetischen Mittels und der Stichprobenstreuung - Hinweise zur praktischen Berechnung ................................................................................................................................................................... 37 2.3 MAßZAHLEN FÜR KLASSIFIZIERTE DATEN........................................................................................................ 39 2.3.1 Das arithmetische Mittel.................................................................................................................................. 39 2.3.2 Die Streuung..................................................................................................................................................... 40 2.3.3 Die Quantile...................................................................................................................................................... 41 2.4 ANWENDBARKEIT DER MAßZAHLEN FÜR DIE VERSCHIEDENEN SKALENTYPEN........................................... 45 2.5 3 ÜBUNGSAUFGABEN ................................................................................................................................... 46 ZWEIDIMENSIONALE VERTEILUNGEN - ZUSAMMENHANGSMAßE................................................. 49 3.1 ZWEIDIMENSIONALE HÄUFIGKEITSVERTEILUNGEN ....................................................................................... 50 3.2 KORRELATIONSMAßE .......................................................................................................................................... 53 3.2.1 Der Pearsonsche Korrelationskoeffizient ...................................................................................................... 53 3.2.2 Der Spearman’sche Korrelationskoeffizient für ordinal skalierte Daten ................................................... 57 3.3 ÜBUNGSAUFGABEN .......................................................................................................................................... 61 ©Prof. Dr. rer. nat. B. Grabowski HTW des Saarlandes (12/2011) I Deskriptive Statistik-Grundbegriffe Deskriptive (Beschreibende) Statistik 1 Grundbegriffe 1.1 Gegenstand der Statistik - Grundgesamtheit und Stichprobe Stochastik = Wissenschaftliche Methoden zur Untersuchung und Beurteilung zufälliger Merkmale an irgendwelchen Objekten. Das Interesse der Statistik richtet sich dabei nie auf einzelne Objekte, sondern immer auf eine (i.A. große) Menge (bzgl. des interessierenden Merkmals) „gleichartiger“ Objekte, die sogenannte Grundgesamtheit. Zufälliges Merkmal: Der Wert des Merkmals ist bei Auswahl eines Objektes nicht eindeutig voraussagbar! Erst nach Messung, Befragung, Untersuchung usw. kennt man den Merkmalswert für dieses Objekt genau. Grundgesamtheit: = Gruppe von Objekten, die hinsichtlich eines Untersuchungsziels als gleichartig angesehen werden Beispiel 1: Wir wollen wissen, wie sich die Saarländer bei der nächsten Landtagswahl verhalten werden. Merkmal: Wahlverhalten Objekt: 1 Saarländer Grundgesamtheit: Menge aller wahlberechtigten Saarländer. Weitere Beispiele: Merkmal Objekt Grundgesamtheit Lebensdauer Akku Akkus eines bestimmten Herstellers Zuverlässigkeit Festplatte Festplatten eines bestimmten Typs Anzahl eintreffender Signale pro Sek. Sekunde alle Sekunden eines bestimmten Zeitabschnittes Anzahl des Buchstabens E deutscher Text Alle deutschen Texte einer bestimmten Länge Leistung im Fach Mathematik alle Studenten einer bestimmten Gruppe Student Tabelle 1.1 ©Prof. Dr. rer. nat. B. Grabowski 2 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Ziel statistischer Untersuchungen: Aussagen über die Häufigkeit des Auftretens jedes Merkmalswertes in der Grundgesamtheit treffen . (z.B. wie viele wahlberechtigte Saarländer wählen CDU, SPD, ... oder wie häufig kommt welche Lebensdauer vor usw.). Zur Beurteilung des Merkmals Wahlverhalten (oder der Lebensdauer) kann man nicht alle Saarländer befragen (Akkus untersuchen), sondern nur einen Teil! ⇒Man macht eine Stichprobe! Stichprobe: = Teilmenge von Objekten der Grundgesamtheit. Die Auswahl erfolgt „zufällig“. Von der Verteilung der Merkmalswerte in der Stichprobe wird dann auf die Verteilung der Merkmalswerte in der Grundgesamtheit geschlossen. Grundfragen der Stochastik: • • • • Wie bestimmt man die Stichprobe? (Stichprobenumfang) Wie analysiert man die Stichprobe? (Verfahren) Wie schließt man von der Stichprobe auf die Grundgesamtheit? Wie groß ist der Fehler (Irrtumswahrscheinlichkeit), den man bei diesem Schluß macht? Die 3 Teilgebiete der Stochastik: • Beschreibende (Deskriptive) Statistik:= Empirische und grafische Methoden zur Analyse von Stichproben • Schließende (Induktive) Statistik: = Mathematische Methoden des Schließens von der Stichprobe auf die Grundgesamtheit mit Angaben von Irrtumswahrscheinlichkeiten • Wahrscheinlichkeitsrechnung:= Mathematische Methoden zur Beschreibung des Zufalls. Mathematische Grundlage der Schließenden Statistik DESKRIPTIVE STATISTIK SCHLIEßENDE STATISTIK WARSCHEINLICHKEITSRECHNUNG ©Prof. Dr. rer. nat. B. Grabowski 3 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Beispiel 1: Untersuchung des Wahlverhaltens der Saarländer: Was wäre, wenn nächsten Sonntag Landtagswahlen wären? Werten Sie die Wahlergebnisse der Stichprobe anhand nachfolgender Abbildung aus! Schließen Sie auf die Grundgesamtheit aller wahlberechtigten Saarländer! Anzahl Personen Wieviele Personen muß man befragen? Wie sicher ist der Schluß von den Stichprobeergebnissen auf die Grundgesamtheit? 52 33 2 CDU SPD FDP 12 1 Grüne Sonst. Abb. 1.1: Verdichtung durch Häufigkeitstabellen Die Schließende Statistik liefert Aussagen der Form: 'Mit 99% iger Sicherheit wählen zwischen 50% und 54% aller wahlberechtigten Saarländer die CDU.' Beispiel 2: Gleichmäßiger Würfel Untersuchen Sie, ob Ihr Würfel gleichmäßig ist! Wie gehen Sie vor? Machen Sie einen Vorschlag und führen Sie ihn aus! Welche Grafiken würden Sie anfertigen? Welche Fragen müssen Sie sich stellen und beantworten? ©Prof. Dr. rer. nat. B. Grabowski 4 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Beispiel 3: Untersuchung der Zwischenzeiten zwischen dem Eintreffen zweier Signale in einer Empfängerstation. 40 Zeiten: 5.4, 3.2, 4.1, 1.9, ….., 9.3 Wie kann man die Zeiten grafisch darstellen? Werten Sie die folgende Grafik aus! Was ist der typische Verteilungsverlauf? Schließen Sie auf die Verteilung in der Grundgesamtheit aller Zeiten! Welches Verteilungsmodell trifft für die Grundgesamtheit zu? Wie viele Zeiten muss man untersuchen? Wie sicher sind diese Ergebnisse? Beispiel 4: Untersuchung der Wirksamkeit zweier Medikamente M1, M2 Werten Sie die folgende Tabelle aus! Welches Medikament ist in den gegebenen Stichproben besser? Schließen Sie auf die Grundgesamtheit aller Patienten! M1 M2 verbessert nicht verbessert 98 55 22 11 Mit welchem Maß kann man die Wirksamkeit der beiden Medikamente vergleichen? Wie viele Personen muss man untersuchen? Wie sicher sind diese Ergebnisse? Tabelle 1.2 Die Schließende Statistik liefert Aussagen der Form: 'Mit 99%iger Sicherheit ist M2 wirksamer als M1.' ©Prof. Dr. rer. nat. B. Grabowski 5 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe 1.2 Merkmale, Merkmalsausprägungen, Skalen Bezeichnungen : Merkmale: X, Y, ... Merkmalsausprägungen: x, y, ... Merkmale werden am Objekt beobachtet: X(Objekt) = x Beispiel: X = Hersteller, Y = Qualität, Z = Lebensdauer, Objekt = Server Hersteller (Server) = Dell, Qualität(Server) = gut, Lebensdauer(Server) = 6 Jahre Wir wollen „rechnen“ ⇒ wir ordnen den Merkmalswerten Zahlen zu. Skalierung:= Zuordnung von Merkmalsausprägungen zu Zahlenwerten Welche Rechenoperationen mit den Zahlenwerten nach Skalierung durchgeführt werden dürfen, richtet sich danach, welche Eigenschaften die Merkmalswerte haben. Beim Merkmal ‚Hersteller’ stehen z.B. die Merkmalswerte ‚Dell’ , ‚Siemens’ und ‚Toshiba’ gleichberechtigt nebeneinander, d.h. sie lassen sich nicht anordnen und es gibt keinen Abstand zwischen den Merkmalswerten. Deshalb dürfen die ihnen zugeordeten Zahlen auch nicht angeordnet, subtrahiert, addiert usw. werden. Ein solches Merkmal nennen wir nominalskaliert. Für das Merkmal ‚Temperatur’ kennen wir die Skalen: °C (Grad Celsius), K (Kelvin), F (Fahrenheit). Die Umrechnung zwischen je zwei Skalen S1 und S2 erfolgt gemäß der Formel S1 = a S2+b. Es gibt Temperaturunterschiede,Temperaturen können angeordnet werden, und es gibt einen Abstand zwischen den Temperaturwerten, den wir in jeder Skala messen können; die Abstände sind bis auf die verwendete Maßeinheit a eindeutig. Probleme gibt es aber – wegen der Nullpunktverschiebung b- bei der Bildung von Verhältnissen. Angenommen, wir würden zwei in °C gemessene Temperaturwerte x1= 20°C, x2=10°C, ins Verhältnis setzen, so erhalten wir das Ergebnis: x1/x2 = 2. Wir könnten nun die gleichen Messwerte aber auch in K darstellen x1--> y1= 20 +273 K = 293 K; x2--> y2=10+273=283 K. Setzen wir diese in Kelvin umgerechneten Werte ins Verhältnis, so erhalten wir: y1/y2 = 293/283 ≠2. Die Rechenoperation’Brüche bilden’, liefert also völlig unterschiedliche Ergebnisse in Abhängigkeit von der verwendeten Skala. Um solche Probleme zu vermeiden, verlangen wir, dass bei statistischen Auswertungen der Temperatur, die Bruchrechnung nicht erlaubt ist! Ein solches Merkmal nennen wir intervallskaliert. Für das Merkmal ‚Lebensdauer’ kennen wir die Skalen ‚Stunden’, ‚Minuten’, Sekunden’, ‚ms’ usw. Die Umrechnung zwischen je zwei Skalen S1 und S2 erfolgt gemäß der Formel S1=aS2. Da hier keine Nullpunktverschiebung vorhanden ist, sind im Gegensatz zur ‚Temperatur’ beim Merkmal ‚Lebensdauer’ Brüche eindeutig, unabhängig von der verwendeten Skala (die Maßeinheit a kürzt sich bei Brüchen weg). Ein solches Merkmal nennen wir proportionalitätsskaliert. Je nachdem, welche Eigenschaften die Merkmalsausprägungen eines Merkmals haben, unterscheiden wir 4 Merkmals- bzw. Skalentypen: ©Prof. Dr. rer. nat. B. Grabowski 6 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Nominalskala (nominalskalierte Merkmale): Alle (Merkmals- bzw.) Skalenwerte stehen gleichberechtigt nebeneinander. Es gibt keine Ordnung, nur Unterschiede. Die Größe und die Ordnung der Zahlen spielen keine Rolle, d.h. sie dürfen nicht in statistische Auswertungen einbezogen werden. In statistischen Untersuchungen dürfen nur Häufigkeiten ermittelt werden. Alle Skalen, welche die in den Merkmalswerten enthaltenen Unterschiede und Gleichheiten abbilden, sind erlaubt; wir sagen sie sind zueinander äquivalent. Bsp: Hersteller, Geschlecht, Farbe, Marke usw. Ordinalskala (ordinalskaliertes Merkmal): Es gibt eine Ordnung und Unterschiede in den (Merkmals- und damit) Zahlenwerten der Skala. Die Größe der Zahlen spielt keine Rolle, d.h., die Zahlenwerte selbst dürfen nicht in die statistischen Auswertungen einbezogen werden, sie dürfen nicht addiert, subtrahiert usw. werden. In statistischen Untersuchungen dürfen nur Anordnungen und Häufigkeiten ermittelt und ausgewertet werden. Alle Skalen, welche die in den Merkmalswerten enthaltene Ordnungsrelation abbilden, sind erlaubt; wir sagen, sie sind zueinander äquivalente Ordinalskalen. Bsp: Qualitätsgruppe, Leistungen, usw. Intervallskala (intervallskaliertes Merkmal): Unterschiede, Ordnungen, Größen und Differenzen der (Merkmals- und damit) Zahlenwerte der Skala sind relevant und dürfen in statistische Untersuchungen einbezogen werden. Differenzen sind bis auf die Maßeinheit eindeutig. Der Nullpunkt ist nicht eindeutig. Zahlenverhältnisse dürfen deshalb nicht in statistische Auswertungen einbezogen werden. Alle Skalen S2, die sich aus der Transformation S2 =aS1 + b aus einer gegebenen Intervallskala S1 ergeben, sind erlaubt; wir sagen, sie sind zueinander äquivalente Intervallskalen. Bsp: Temperatur Proportionalitäts- (Verhältnis-) skala (proportionalitätsskaliertes Merkmal): Unterschiede, Ordnungen, Größen, Differenzen und Verhältnisse sind relevant und dürfen in statistische Untersuchungen einbezogen werden. Differenzen sind bis auf die Maßeinheit eindeutig, Verhältnisse sind eindeutig. Alle Skalen S2, die sich aus der Transformation S2 =aS1 aus einer gegebenen Proportionalitätsskala S1 ergeben, sind erlaubt, wir sagen; sie sind zueinander äquivalente Proportionalitätsskalen. Bsp: Länge, Zeit, Gewicht, Druck, Sromstärke, Kapazität, usw. Achtung: In statistischen Untersuchungen eines Merkmals dürfen nur solche statistischen Maßzahlen verwendet werden, die unabhängig davon, welche der zueinander äquivalenten (erlaubten) Skalen für dieses Merkmal zugrundegelegt wird, immer das gleiche Eergebnis liefern. Deshalb ist es wichtig, vor jeder statistischen Analyse zunächst den Skalentyp eines Merkmals zu bestimmen. ©Prof. Dr. rer. nat. B. Grabowski 7 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Beispiele: Merkmal Hersteller Qualität Merkmalsausprägung erlaubte (äquivalente) Skalen Dell Siemens Toshiba sehr gut gut befriedigend ausreichend mangelhaft ungenügend -1 1 0 1 2 3 4 5 6 o C, Temperatur 2 1 5 20 2000 17 100 15 10 11 9 8 7 6 3 K, F 1 1 2 erlaubte RechenOperatione n =, ≠ 2 =, ≠, 6 <, > 3 5 8 4 =, ≠, <, >, Skalentyp Nominal Ordinal Intervall alle Skalen, die durch +, Umrechnung o S = a C + b entstehen, sind erlaubt Lebensdauer sek., min., Stunde, ... =, ≠, <, >, Proportional +, -, *, :, alle Skalen, die durch und alle Umrechnung anderen S = a * sek entstehen, Rechenopesind erlaubt rationen Tab. 1.3 Merkmale, deren Zahl möglicher Ausprägungen endlich oder abzählbar sind, werden in der Regel durch eine Ordinal- oder Nominalskala abgebildet. Merkmale mit unendlich vielen verschiedenen Ausprägungen werden durch eine Intervalloder Proportionalitätsskala abgebildet. Man nennt solche Merkmale auch metrisch skaliert. Eine Ausnahme bilden das zufällige Merkmal: X = Anzahl von ....(irgendetwas) und das zufällige Merkmal X = Plazierung. Diese werden als proportionalitätsskaliert betrachtet (Spezialfälle). ©Prof. Dr. rer. nat. B. Grabowski 8 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Def.: Unter einer zufälligen Variable (Zufallsvariable, Zufallsgröße) X verstehen wir eine Variable, die einem zufälligen Merkmal zugeordnet wird und deren Zahlenwerte den Merkmalsausprägungen entsprechen. Skalierung Bezeichnungen Merkmal Zufallsvariable X, Y, Z Merkmalsausprägung Zahlenwerte x, y, z Menge der Merkmalsausprägungen Beispiele: Wertebereich X - Hersteller, = {1,2,3} Y - Leistung, = {1,2,3,4,5} Z - Lebensdauer, , , = [ 0, ∞) Def.: Eine zufällige Variable X, deren Wertebereich nur endlich oder abzählbar viele Werte annehmen kann, heißt diskrete Zufallsvariable (X- Hersteller, Y-Qualität). Eine zufällige Variable X, deren Wertebereich ein zusammenhängendes Intervall [a,b], a<b enthält, heißt stetige Zufallsvariable (Bsp. Temperatur, Lebensdauer). X - diskret, falls X - stetig, falls = {a 1 , a 2 , ..., a k , ...} ein kontinuierliches Intervall [a,b] enthält. Geben Sie jeweils das Merkmal und den Wertebereich des Merkmals, sowie die Grundgesamtheit an. Welcher Skalentyp liegt hier vor? Sind die Merkmale (bzw. Zufallsgrößen) diskret oder stetig? a) Zeit zwischen dem Eintreffen zweier Nachrichten in einer Vermittlungsstelle in ms. b) Anzahl der pro Minute eintreffenden Nachrichten c) Qualitätsgruppe von Geräten eines bestimmten Typs (A (sehr gut),…,F(mangelhaft)) d) Typ des an einer Kreuzung eintreffenden Autos (PKW, LKW, Bus usw.) ©Prof. Dr. rer. nat. B. Grabowski 9 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe 1.3 Häufigkeitsverteilung diskreter Zufallsvariablen Wir verwenden folgende Bezeichnungen: X – diskrete Zufallsvariable (Merkmal) = {a 1 ,..., a k } – Wertebereich von X (ai - Merkmalsausprägung) x1,...,xn – n Beobachtungen von X (Stichprobe vom Umfang n, wird auch als Urliste bezeichnet) elementare statistische Tätigkeit für diskrete Zufallsgrößen: Auszählen, wie viele Beobachtungen auf einen bestimmten Merkmalswert fallen,d.h. es wird die sogenannte Häufigkeitstabelle aufgestellt. Beispiel: Untersuchung des PC-Nutzungsverhaltens von Personen zwischen 15 - 21 Jahren (in der BRD) X : Nutzungsverhalten, Gg: Alle Personen der BRD zwischen 15-21 Skalierung: X 0 Verbringt 0 Stunden täglich am Rechner 1 Verbringt höchstens 1 Stunde pro Tag am Rechner = 2 Verbringt mehr als 1 Stunde, aber höchstens 2 Stunden pro Tag am Rechner 3 mehr als 2 Stunden pro Tag Stichprobe von n=100 Personen der Gg: 0,1,3,0,0,...,1 ( Urliste) ai Hn(ai) absolute Anzahl hn(ai) relative Anzahl H(i) absol. Sum-menhäufigkeit h(i) relative Summenhäufigkeit 0 1 2 3 40 15 40 5 0.4 0.15 0.4 0.05 40 55 95 100 0,.4 0.55 0.95 1.0 ∑ 100 1.00 Tab. 1.4: Statistische Häufigkeitstabelle Tabelle 1.4. ist die typische Form einer Häufigkeitstabelle für diskrete Zufallsgrößen. Aus dieser Tabelle kann man alle interessierenden Informationen entnehmen. Z.B. ist die Anzahl der Personen, die am PC sitzen, aber höchstens 1 Stunde am Tag am Rechner verbringen 15%. Die Anzahl ist 15. Der Anteil der Personen, die nicht mehr als 2 Stunden pro Tag am Rechner verbringen beträgt 95 %, die Anzahl ist 95. a) Wie viele Personen verbringen zwischen 1 und 2 Stunden am Rechner pro Tag? b) Wie viel % aller Personen verbringen Zeit am Rechner? ©Prof. Dr. rer. nat. B. Grabowski 10 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Die allgemeine Form einer statistischen Häufigkeitstabelle für eine diskrete Zufallsgröße X∈ = {a 1 ,..., a k } auf der Basis von Beobachtungen x1,...,xn hat folgende Gestalt: ai Hn(ai) absolute Anzahl hn(ai) relative Anzahl H(i) absol. Sum-menhäufigkeit h(i) relative Summenhäufigkeit a1 Hn(a1) hn(a1) ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Hn(a1) Hn(a1)+ Hn(a2) hn(a1) hn(a1)+ hn(a2) ⋮ ⋮ ak Hn(ak ) hn(ak ) n 1.0 ∑ N 1.00 Tab. 1.5: Allgemeine Form der Häufigkeitstabelle Def.: Die Aneinanderreihung x1,...,xn von beobachteten Merkmalen heißt Urliste. Def.: Hn(ai) = absolute Häufigkeit von ai. H n ( ai ) = relative Häufigkeit von ai. n hn(ai) = Hn(ai) : Anzahl aller xj mit xj = ai hn(ai): Anteil aller xj mit xj = ai , j = 1,...,n , j = 1,...,n ; (100⋅ hn(ai)=%ualer Anteil) Die Gesamtheit aller Hn(ai), i=1,...,k (bzw. hn(ai), i=1,...,k) heißt absolute bzw. relative Häufigkeitsverteilung von X bzgl. der Stichprobe x1,...,xn. Es gilt: 0 ≤ Hn(ai) ≤ n, k k ∑ H n (ai ) = n und 0 ≤ hn(ai) ≤ 1, ∑ h (a ) = 1 i =1 i =1 n i i Def.: H (i) = ∑H n (a j ) i=1,...,k - absolute Summenhäufigkeit i=1,...,k - relative Summenhäufigkeit j=1 i h( i ) = ∑h n (a j ) j=1 H(i) h(i) – Anzahl der Objekte (Stichprobenwerte xi), die einen Merkmalswert ≤ ai besitzen. – Anteil der Objekte (Stichprobenwerte xi), die einen Merkmalswert ≤ ai besitzen. Aus der Summenhäufigkeit sind wieder die einzelnen Häufigkeiten berechenbar. Es gilt: Hn(ai) = H(i) - H(i-1) hn(ai) = h(i) - h(i-1) mit h(0) = H(0) = 0 ©Prof. Dr. rer. nat. B. Grabowski i=1,...,k 11 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Typische grafische Darstellungen der Häufigkeitsverteilungen: Mit Hilfe der relativen Summenhäufigkeit läßt sich die sogenannte empirische Verteilungsfunktion (Summenhäufigkeitsfunktion) definieren: Def.: Empirische Verteilungsfunktion (Summenhäufigkeitsfunktion): für x < a 1 0 Fn ( x) = h(i) für a i ≤ x < ai +1 1 für x ≥ a k , i = 1,...,k - 1 Fn(x) – Anteil der Objekte in der Stichprobe mit einem Merkmalswert ≤ x F n (x ) 1 0 ,9 5 0 ,5 0 ,4 0 ,1 5 { x 1 2 3 Abb.: 1.6: Empirische Verteilungsfunktion zum obigen Beispiel Das Bild der empirischen Verteilungsfunktion ist eine Treppenfunktion. In jedem Merkmalswert ai springt die Funktion um hn(ai). Auch aus grafischen Darstellung kann man z.B. folgendes entnehmen: Der Anteil der Personen, die nicht mehr als 2 Stunden pro Tag am Rechner sitzen, beträgt 95 %, die Anzahl ist 95. ©Prof. Dr. rer. nat. B. Grabowski 12 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe 1.4 Häufigkeitsverteilung klassifizierter Daten Bisher sind wir davon ausgegangen, dass der Stichprobenumfang n der Beobachtungen der Zufallsgröße X wesentlich größer ist, als die Anzahl | |=k der möglichen Werte, die X annehmen kann. Nun betrachten wir genau den umgekehrten Fall, dass n wesentlich geringer ist, als die Zahl k der möglichen Werte für X. Das ist vor allem der Fall, wenn X ein stetiges Merkmal ist. Hier umfasst der Wertebereich , n ist viel kleiner als | | (es ist | |=∞). von X sogar (überabzählbar) unendlich viele Werte bzw. ∃ (a,b,) ⊆ I.a. werden in diesem Fall bei einer Stichprobe x1,..., xn vom Umfang n alle Werte voneinander verschieden sein, bzw. nur wenige Beobachtungen auf ein und denselben Merkmalswert fallen und man kann durch bloßes Auszählen, d.h. durch eine Häufigkeitstabelle, wie sie in Abschnitt 1.3. beschrieben wurde, keinen Eindruck über die Häufung von Merkmalswerten bekommen. Beispiel: Es soll die untersucht werden, wie die Zeit, die zum Telefonieren benötigt wird verteilt ist, d.h. in welchem Bereich die meisten Personen telefonieren und in welchen Bereichen es wesentliche Abweichungen vom Normverhalten gibt. Urliste: Dauer von 40 Telefonaten (in Sekunden) 138 146 168 146 161 164 158 126 173 145 150 140 138 142 135 ©Prof. Dr. rer. nat. B. Grabowski 132 147 178 147 142 144 136 163 135 150 13 125 148 119 153 156 149 152 154 140 145 157 144 165 135 128 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Häufigkeitstabelle: Dauer (Sek.) Anzahl Hn(Ki) 119 1 125 126 128 132 135 136 138 140 142 144 145 146 147 148 149 150 152 153 154 156 157 158 161 163 164 165 168 173 176 1 1 1 1 3 1 2 2 2 2 2 2 2 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 Tabelle 1.7 Stellen Sie die absoluten Häufigkeiten in einem Stabdiagramm dar! Wie beurteilen Sie die Aussagefähigkeit des Diagramms? Um einen Eindruck von der Verteilung der Merkmalswerte zu bekommen, werden die Merkmalsausprägungen klassifiziert und die Häufigkeit nicht mehr einzelnen Merkmalsausprägungen sondern den Klassen zugeordnet. Wir zerlegen dazu den Wertebereich X in k disjunkte Klassen (Intervalle): X = K1 ∪ K2 ∪...∪ Kk, Ki ∩ Kj = ∅ für i ≠ j. und zählen aus, wie viele Beobachtungen in welche Klasse fallen. In folgenden Tabellen wird anhand unseres Beispiels die Abhängigkeit des ©Prof. Dr. rer. nat. B. Grabowski 14 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Informationsgewinns“ über die Verteilung der Dauern von 40 Telefonaten von der gewählten Klassenbreite bzw. Klassenzahl demonstriert. Häufigkeitsverteilungen der Dauern von 40 Telefonaten: Klassenbreite: 5 Dauer (Sek.) Anzahl Häufigkeit 8 6 4 2 175 165 155 145 0 135 1 2 2 4 6 8 5 4 2 3 1 2 Summe 40 125 1 2 2 4 6 8 5 4 2 3 1 2 115 118-122 123-127 128-132 133-137 138-142 143-147 148-152 153-157 158-162 163-167 168-172 173-177 Abb. 1.7 Tab. 1.8 Klassenbreite: 9 Dauer (Sek.) Anzahl Häufigkeit 15 118-126 127-135 136-144 145-153 154-162 163-171 172-180 3 5 9 12 5 4 2 3 5 9 12 5 4 2 Summe 40 10 5 0 113 122 131 140 149 158 167 176 185 Abb. 1.8 Tabelle 1.9 Klassenbreite: 30 Dauer 118-147 148-177 Häufigkeit 23 17 20 Tab. 1.10 113 177 Abb. 1.9 ©Prof. Dr. rer. nat. B. Grabowski 15 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe In den Tabellen 1.8 und 1.9 sind Klasseneinteilungen mit der Klassenbreite 5 bzw. 9 Sek. gebildet worden. Die entsprechenden Histogramme zeigen eine symmetrische Verteilung und eine Häufung im mittleren Bereich. Tabelle 1.10 zeigt eine Klasseneinteilung der Klassenbreite 30 Sek. in nur 2 Klassen. Hier erkennt man wiederum keine Häufungen. Es gehen zu viele Informationen verloren. Wählen wir also zu kleine Klassenbreiten (zu viele Klassen) (Tabelle 1.7), so erkennt man keine Häufungen. Dasselbe geschieht bei der Wahl zu großer Klassenbreiten (zu wenig Klassen) (Tabelle 1.10). 1.4.1 Vorschriften zur Klassenbildung Es gibt keine allgemeingültige Vorschrift zur Wahl der Klassen, die für jede Art einer statistischen Analyse angewendet werden kann. Im Deutschen DIN-Institut (in Berlin) findet man für unterschiedlichste statistische Problemstellungen unterschiedliche DIN-Vorschriften zur Wahl der Klassenzahl und Klassenbreite. Wenn sich keine speziellen Angaben zur Klassenbildung aus der Problemstellung ergeben (wie z.B. an der jetzigen Stelle unserer Vorlesung), so verwenden wir folgende Faustregeln zur Klassenbildung: Wahl der Klassenzahl k: „Faustregel“: k≈ n 5 ≤ k !!! (optional: k ≤ 20) ⇒ n > 25 ! Mache keine statistische Analyse mit zu wenigen Daten!! In jedem Fall wird k auf einen ganzzahligen Wert auf- oder abgerundet. Wahl der Klassengrenzen/ Reduktionslage: Die Klassengrenzen sollen so gewählt werden, dass kein Wert auf eine Klassengrenze fällt. (z.B., indem man sie zwischen zwei Werte legt (½- Messgenauigkeit!)). Das wird z.B. erreicht, indem man den unteren Wert a1u der ersten Klasse K1 gemäß a1u =xmin - ε/2 festlegt, wobei ε die Messgenauigkeit ist und dann die Klassenbreite B auf die Messgenauigkeit aufrundet. a1u wird als Reduktionslage bezeichnet. Wahl der Klassenbreite: Man wählt in der Regel eine konstante Klassenbreite B = ∆Ki für i=1,...,k. Sei xmin – kleinster Wert und xmax – größter Wert der Stichprobe. In Anbetracht, dass kein Wert auf eine Klassengrenze fallen sollen, zerlegen wir nicht den Bereich xmin bis xmax , sondern den Bereich von xmin - ε/2 bis xmax + ε/2 in k Klassen, wobei ε die Messgenauigkeit ist. ©Prof. Dr. rer. nat. B. Grabowski 16 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe (x max - x min + ε ) k Klassenbreite = B = Man rundet B dann auf die Messgenauigkeit auf! Vorschrift : Klassenzahl: k ≈ n , muss : 5 ≤ k , kann : k ≤ 20, k wird auf einen ganzzahligen Wert gerundet Reduktionslage: a1u = xmin - ε/2, wobei ε die Messgenauigkeit ist Klassenbreite: B = (x max - x min + ε ) , k B wird auf die Messgenauigkeit aufgerundet. 1.4.2 Die Klassenhäufigkeitstabelle Die allgemeine Form einer statistischen Häufigkeitstabelle für eine stetige Zufallsgröße X auf der Basis von Beobachtungen x1,...,xn hat folgende Gestalt: Ki Hn(Ki) absolute Anzahl hn(Ki) relative Anzahl H(i) absolute Summenhäufigkeit h(i) relative Summenhäufigkeit K1 Hn(K1) hn(K1) ⋮ ⋮ ⋮ ⋮ ⋮ ⋮ Hn(K1) Hn(K1)+ Hn(K2) hn(K1) hn(K1)+ hn(K2) Kk Hn(Kk ) hn(Kk ) ∑ n 1.00 ⋮ ⋮ n 1.0 Tab. 1.11: Allgemeine Form der Klassenhäufigkeitstabelle Die Begriffe der absoluten und relativen Häufigkeit bleiben erhalten, beziehen sich aber nun auf die Klassen Ki und nicht mehr auf einen Merkmalswert ai. Jede Klasse ist charakterisiert durch ihr Klassengrenzen: a oi - obere Grenze der Klasse K i . a iu - untere Grenze der Klasse K i . (a oi = a iu+1 ) , ihre Klassenbreite: i=1,...,k ∆K i = (a oi − a iu ) , ©Prof. Dr. rer. nat. B. Grabowski i=1,...,k. 17 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Def.: Hn(Ki) – Anzahl aller xj mit xj ∈ Ki , j=1,...,n – Absolute Klassenhäufigkeit der Klasse Ki. H n (K i ) – Anteil aller xj mit xj ∈ Ki, j=1,...,n n – Relative Klassenhäufigkeit der Klasse Ki. h n (K i ) = Es gilt: 0 ≤ Hn(Ki) ≤ n, 0 ≤ hn(Ki) ≤ 1 k ∑ k ∑h H n (K i ) = n , i =1 n (K i ) =1 i =1 Die Gesamtheit der Hn(Ki), hn(Ki), i=1,...,k bezeichnet man als (Klassen-)Häufigkeitsverteilung von X in der Stichprobe. In der tabellarischen Darstellung werden wie bei diskreten Zufallsgrößen wieder die Summenhäufigkeiten mit einbezogen. i Def.: H (i ) = ∑H n (K j ) - absolute Summenhäufigkeit j =1 i h(i ) = ∑ hn ( K j ) - relative Summenhäufigkeit j =1 H(i) – Anzahl der Objekte (Stichprobenwerte), deren Merkmalswert x j ≤ a oi ist. h(i) – Anteil der Objekte, die einen Merkmalswert x j ≤ a oi besitzen. Stellen Sie die Klassenhäufigleitstabelle für die 40 TelefonatGesprächsdauern auf! Wie würden Sie die Häufigkeiten grafisch darstellen? Lösung: Klassenzahl: 40 = 6,32 ⇒ k = 6 (wir runden wie üblich). Reduktionslage: xmin = 119, xmax = 176, Messgenauigkeit ε=1 u Wir wählen: a1 =xmin-1/2 und zerlegen den Bereich von 118,5 – 176,5 in 6 Klassen 176 − 119 + 1 = 9,67 6 Klassenbreite: B = ©Prof. Dr. rer. nat. B. Grabowski 18 ⇒ B = 10 (aufrunden) HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Ki äquivalente Klassen Ki (118,5;128,5) (128,5;138,5) (138,5;148,5) (148,5;158,5) (158,5;168,5) (168,5;178,5) [119,129) [129,139) [139,149) [149,159) [159,169) [169,179) Hn(Ki) absolute Anzahl hn(Ki) relative Anzahl H(i) absolute Summenhäufigkeit h(i) relative Summenhäufigkeit [119,128] (128,138] (138,148] (148,158] (158,168] (168,178] 4 7 13 9 5 2 4/40 7/40 13/40 9/40 5/40 2/40 4 11 24 33 38 40 4/40 11/40 24/40 33/40 38/40 1 ∑ 40 1.00 Tab. 1.12: Klassen-Häufigkeitstabelle für die 40 Gespräche 1.4.3 Das Histogramm Die typische grafische Darstellungsform der Klassenhäufigkeitsverteilung ist das Histogramm. Auf der x- Achse werden die Klassen (Intervalle) abgetragen. Auf der y-Achse h (K ) werden über jeder Klasse als Höhe die sogenannte relative Häufigkeitsdichte n i ∆K i h (K ) abgetragen. Es entstehen so über jeder Klasse Ki eine Säule, wobei n i die Höhe der ∆K i Säule darstellt. Offensichtlich entspricht dann der Flächeninhalt jeder Säule ihrer zugehörigen relativen Häufigkeit hn(Ki) (siehe Abbildung 1.10). ⇒ der Anteil hn(Ki) der Daten x1,...,xn, die in Ki hineinfallen, ist gleich der Fläche über Ki. Def.: h *n ( K i ) = h n (K i ) ∆K i - relative Häufigkeitsdichte. h *n ( K i ) ist die auf die Klassenbreite bezogene Klassenhäufigkeit. Es ist oft üblich, die Häufigkeiten an der Stelle der Klassenmitten im Histogramm miteinander zu verbinden, wobei links und rechts eine zusätzliche Klasse mit der Klassenhäufigkeit 0 angenommen wird. Die Linie bildet das sogenannte Häufigkeitspolygon. ©Prof. Dr. rer. nat. B. Grabowski 19 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe h n* (K i ) hn(Ki) = h(i) - h(i-1) Häufigkeitspolygon Ki Abbildung 1.10 Zeichnen Sie das Histogramm für die Klasseneinteilung Tabelle 1.12 der 40 Gesprächsdauern! 1.4.4 Auswertung von Klassenhäufigkeitstabellen, die Summenhäufigkeitsfunktion Beantworten Sie unter Verwendung der Klasseneinteilung Tabelle 1.12 folgende Fragen zu den 40 Zeitdauern! a) Wie viele Gespräche haben eine Dauer bis zu 148 Sek.? b) Wie viele Gespräche haben eine Dauer von mehr als 139 und bis zu 168 Sek.? Nicht sofort entnehmen kann man der Klassenhäufigkeitstabelle 1.12 Angaben über „Zwischenwerte“, z.B. − Wie viele Gesprächsdauern liegen zwischen 140 und ≤ 170 Sek.? Wären alle Beobachtungsdaten xi, i=1,...,n, bekannt, so kann man die gesuchte Anzahl durch die empirische Verteilungsfunktion Fn ( x ) (= Anteil aller Daten xi, i=1,...,n , für die gilt: xi ≤ x) bestimmen: n⋅ ( Fn (170) − Fn (140)) Beantworten Sie mit Hilfe der empirische Verteilungsfunktion Fn ( x ) und Tabelle 1.7 folgende Frage: Wie viele Telefonate haben eine Dauer von mehr als 140 bis 170 Sek.? In der Regel werden bei großen Stichprobenanzahlen n die einzelnen Daten xi, i=1,...,n, nicht gespeichert, sondern nur die Klassenhäufigkeitstabelle 'aufgehoben'. ©Prof. Dr. rer. nat. B. Grabowski 20 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Dadurch gehen Informationen verloren. Es sind nicht mehr die genauen Werte der Beobachtungsdaten xi bekannt, sondern nur noch, wie viele von ihnen in einer Klasse Ki liegen. Damit ist auch nicht mehr bekannt, wie viele Beobachtungsdaten in einem beliebigen Intervall (a,b] liegen. Um diese Anzahl aus der Klassen-Häufigkeitstabelle abzuschätzen, wird eine Modellannahme getroffen: ' Die Beobachtungen xi sind in jeder Klasse gleichmäßig verteilt'. Unter dieser Annahme approximieren wir die empirische Verteilungsfunktion Fn ( x ) durch die ~ ~ sogenannten Klassensummenhäufigkeitsfunktion Fn ( x) . Mit Hilfe dieser Funktion Fn ( x) kann man die Anteile (und damit Anzahl) der ursprünglichen Stichprobendaten, die in einem Intervall (a,b] liegen, oder ≤ a bzw. >b sind, abschätzen, siehe Abbildungen 1.11, 1.12. Def.: Summenhäufigkeitsfunktion für klassifizierte Daten (Klassensummenhäufigkeitsfunktion): 0 ~ Fn ( x) = h(i − 1) + b 1 x < a 1u x ∈ Ki x > a ok b = ( x − aiu )hn* ( K i ) = (x - a iu ) h n (K i ) ∆K i Es gilt: x ∈ K i ⇔ h(i − 1) < x ≤ h(i) Diese Funktion gibt eine Abschätzung für den Anteil der Beobachtungswerte xj an der Stichprobe an, die den Wert x nicht überschreiten (xj ≤ x), siehe Abb. 1.11 . hn* (K i ) ~ Fn(x) b a1u x a ko Abb. 1.11 ©Prof. Dr. rer. nat. B. Grabowski 21 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe h n* (K i ) ~ ~ hn([a,b]) = Fn(b) - Fn(a) = Anteil der Beobachtungen x1,...,xn, die in das Intervall (a,b] fallen a b Abb 1.12 ~ Beantworten Sie mit Hilfe der Klassensummenhäufigkeitsfunktion Fn ( x) und Tabelle 1.12 folgende Frage: Wieviele Gespräche haben eine Dauer von mehr als 140 bis zu 170 Sek.? Lösung: ~ ~ Die Anzahl ist: 40⋅ ( Fn (170) − Fn (140)) . Dabei sind: 38 2 170 − 168,5 11 13 140 − 138,5 ~ ~ Fn (170) = + ⋅ + = 0,9575 und Fn (140) = =0,32375 40 40 10 40 40 10 ~ ~ Wir erhalten als Ergebnis: 40⋅ ( Fn (170) − Fn (140)) = 40(0,9575-0,32375) = 25,35 ≈ 25 Gespräche. Bemerkung: Die Berechnung der Anzahl der Telefonate, deren Dauer >140 und ≤ 170 Sek., ist keineswegs eindeutig. In Anbetracht der Tatsache, dass die Gesprächsdauern ganzzahlig sind, könnten wir z.B. die Anzahl aller Gespräche, deren Dauer größer als 140 und kleiner ~ ~ oder gleich 170 Sek. ist auch wie folgt berechnen: 40⋅ ( Fn (170,5) − Fn (140,5)) . Wollen wir die Anzahl aller Gespräche berechnen, deren Dauer ≥140mm und ≤ 170 Sek.ist, ~ ~ ~ ~ so könnten wir berechnen: 40⋅ ( Fn (170,5) − Fn (139,5)) oder 40⋅ ( Fn (170) − Fn (139,5)) . Die unterschiedlichen Formeln führen zu unterschiedlichen Ergebnissen, aber der Unterschied ist minimal. ~ D.h., die Verwendung der Klassensummenhäufigkeitsfunktion Fn ( x) führt zu einer relativ groben Abschätzung er gesuchten Anteile und Anzahlen, die keineswegs eindeutig sind. Man könnte z.B. genauso statt 140 jede andere Zahl aus [140,141) als untere Grenze des in der obigen Bleistift-Aufgabe betrachteten Intervalls (140,170] Sek. wählen und statt 170 z.B. jede andere Zahl aus dem Intervall [170, 171). Weiterhin kann man statt der Klasseneinteilung, die in Tabelle 1.12 in der linken Spalte steht, eine der beiden äquivalenten ©Prof. Dr. rer. nat. B. Grabowski 22 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Klasseneinteilungen für die Berechnung der Klassensummenhäufigkeitsfunktion zugrunde legen. Die Unterschiede in den jeweiligen Ergebnissen werden um so geringer ausfallen, je größer der Stichprobenumfang n ist. Beantworten Sie unter Verwendung der Klasseneinteilung Tabelle 1.12 folgende Fragen zu den 40 Telefonaten! - Wie viele Telefonate haben eine Dauer bis zu 150 Sek.? − Wie viele Telefonate haben eine Länge > 130 bis zu 160 Sek.? Verwenden Sie verschiedene Methoden und vergleichen Sie Ihre Ergebnisse untereinander und mit den exakten Ergebnissen, die aus der Stichprobe erhalten werden. ~ Die Klassensummenhäufigkeitsfunktion Fn ( x) lässt sich bequem grafisch darstellen. Dazu werden die relativen Klassensummenhäufigkeiten h(i) an den oberen Klassengrenzen abgetragen. Die untere Grenze der 1. Klasse bekommt den Wert 0. Anschließend werden die Werte durch Geraden miteinander verbunden. ~ Abbildung 1.13 zeigt die Klassensummenhäufigkeitsfunktion Fn ( x) für das Beispiel der 40 Telefonate. 1,2 0,96 1 0,8 0,6 0,4 0,2 0 118,5 Abb. 1.13: 138,5 158,5 170 178,5 Klassensummenhäufigkeitsfunktion der Dauer der 40 Telefonate. Interessiert etwa der Anteil der Gespräche, deren Dauer höchstens 170 Sek. beträgt, so findet man mit Hilfe der Summenhäufigkeitsfunktionen diesen gesuchten Anteil zu 0,96. ©Prof. Dr. rer. nat. B. Grabowski 23 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Abschließendes Beispiel: Es soll die Verteilung des Bruttomonatsverdienstes der Beschäftigten in einer Firma untersucht werden. Dazu werden 250 Beschäftigte befragt. In Tabelle 1.13 sind die zugehörige Klasseneinteilung der Bruttomonatsverdienste und die Klassenhäufigkeit tabellarisch und grafisch dargestellt. Klasse Nr. i Bruttomonatsverdienst in EURO 1 2 3 4 5 6 7 8 9 10 ∑ Beschäftigte Anzahl Hn(Ki) 6 13 22 32 40 42 39 31 20 5 250 500 bis 800 über 800 bis 1100 über 1100 bis 1400 über 1400 bis 1700 über 1700 bis 2000 über 2000 bis 2300 über 2300 bis 2600 über 2600 bis 2900 über 2900 bis 3200 über 3200 bis 3500 Anteil hn(Ki) 0,024 0,052 0,088 0,128 0,160 0,168 0,156 0,124 0,080 0,020 1,000 Summenhäufigkeiten Beschäftigte Kumulierte Kumulierter Anzahl H(i) Anteil h(i) 6 0,024 19 0,076 41 0,164 73 0,292 113 0,452 155 0,620 194 0,776 225 0,900 245 0,980 250 1,000 Tabelle 1.13 Klassenhäufigkeitstabelle Hn(Ki) Anzahl der 50 Beschäftigte n 40 hn(Ki) Anteil der 0,20 Beschäftigt 0,15 Abb. 1.14: Histogramm mit Klassen konstanter Breite sowie das entsprechende Häufigkeitspolygon (gestrichelter Linienzug) 30 0,10 20 10 0,05 5 bis 8 bis 8 11 hn (K i ) = hn* (K i ) 300 11 bis 14 14 bis 17 17 bis 20 20 bis 23 23 bis 26 26 bis 29 29 bis 32 32 bis 35 Bruttoverdienst in 100 EURO 0,0007 0,0005 Abb. 1.15: Histogramm der relativen Häufigkeitsdichte 0,0003 0,0001 4 5 bis 8 bis 8 11 11 bis 14 14 bis 17 ©Prof. Dr. rer. nat. B. Grabowski 17 bis 20 20 bis 23 23 bis 26 26 bis 29 29 bis 32 24 32 bis 35 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe 1,2 1 0,8 0,6 0,4 0,2 0 5 11 17 19 23 29 35 Abb. 116 Bruttomonatsverdienst in 100 EURO a) Wieviele Beschäftigte haben einen Bruttoverdienst von bis zu 2000 EURO? (113 bzw. 45,2%) b) Wieviele Beschäftigte haben einen Bruttoverdienst von mehr als 2000 und ≤ 2600 EURO? (194 - 113 = 81 bzw. 77,6 - 45,2% = 32,4%) c) Wieviele Beschäftigte haben einen Bruttolohn von höchstens 1900 EURO? (siehe Abb. 116 oder: ~ 1900 − 1700 Fn (1900) = 0,292 + 0,16 ⋅ = 0,4 ) 300 d) Wie groß ist der Anteil der Empfänger, die einen Bruttolohn von mehr als 1700 und ≤ 1900 EURO bekommen: ~ ~ ( Fn (1900) − Fn (1700) = 0,4 − 0,292 = 0,108 ⇒ 10,8% oder ca. 27 Beschäftigte) e) Wieviel % der Beschäftigten haben einen Bruttoverdienst bis 1100 DM? ~ Fn (1100) ⋅ 100% = 0,076 ⋅ 100% = 7,6% ©Prof. Dr. rer. nat. B. Grabowski 25 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe 1.5 Übungsaufgaben 1. Sind folgende Merkmale diskret oder stetig? a) Die durch eine wahlberechtigte Person der BRD gewählte Partei bei der Bundestagswahl. b) Kraftstoffverbrauch eines Personenkraftwagens auf 100 km. c) Zahl der pro Stunde in einer Empfängerstation eintreffenden Signale. e) Lebensdauer einer bestimmten Leuchtstoffröhrenart. f) Plazierung beim 100-Meter-Lauf (von Studenten der HTW) Geben Sie jeweils das Merkmal, die Objektmenge und den Wertebereich des Merkmals an. Welche Art Skalierung liegt hier vor? 2. An einem Bankschalter werden die Kundenankünfte (Anzahl der pro 10-Minuten- Zeitintervall ankommenden Kunden) beobachtet. Für 40 derartige Zeitintervalle erhält man folgende Ergebnisse: 0, 1, 2, 1, 0, 2, 0, 4, 1, 3, 1, 2, 3, 0, 1, 3, 4, 2, 6, 2, 1, 0, 1, 0, 2, 1, 0, 3, 2, 3, 2, 0, 1, 1, 3, 1, 1, 2, 1, 2, Ermitteln Sie absolute und relative Häufigkeiten der Kundenankünfte und stellen Sie Häufigkeitsverteilung und Summenhäufigkeitsfunktion grafisch dar! 3. 1000 Festplatten eines bestimmten Typs weisen folgende Lebensdauerverteilung auf: Lebensdauer in Anzahl der Jahren Festplatten bis 2 33 über 2 bis 4 276 über 4 bis 6 404 über 6 bis 8 237 über 8 bis 10 50 Tab.: Lebensdauerverteilung Stellen Sie diese Häufigkeitsverteilung als Histogramm und die dazugehörende Summenhäufigkeitsfunktion grafisch dar und bestimmen Sie den Anteil der Festplatten mit einer Lebensdauer von mehr als 5 Jahren! 4. Werten Sie nachstehende Urliste aus! Stellen Sie die absoluten, relativen Klassenhäufigkeiten, sowie die relativen (Klassen-) Summenhäufigkeiten tabellarisch und grafisch (Histogramm, Summenhäufigkeitsfunktion) dar! ©Prof. Dr. rer. nat. B. Grabowski 26 HTW des Saarlandes (10/2011) Deskriptive Statistik-Grundbegriffe Tab.: Zeit zwischen dem Eintreffen zweier Signale in einer Empfängerstation in Sekunden i xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 375,3 392,5 467,9 503,1 591,2 657,8 738,5 749,6 752,0 765,8 772,5 799,4 799,6 803,9 808,7 810,5 812,1 848,6 867,0 904,3 918,3 935,4 951,1 964,9 968,8 1006,5 1014,7 1189,0 1215,6 1407,2 5. Bestimmen Sie zu Aufgabe 4 jeweils A) unter Verwendung der 30 Stichprobendaten und B) unter Verwendung der Klasseneinteilung a) b) c) d) den Anteil der Zeiten, die mehr als 400 und ≤ 600 Sek. betragen! Wie viele (Anzahl) Zeiten sind > 600 Sek.? Wie hoch ist der Anteil der Zeiten, die 400 Sek. nicht überschreiten? Welcher Wer wird von 20 % der beobachteten Zwischenzeiten überschritten? ©Prof. Dr. rer. nat. B. Grabowski 27 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2 Stichprobenkennwerte Häufigkeitsverteilungen stellen eine Zusammenfassung („Verdichtung“) der Urdatenliste dar. Häufig ist man jedoch noch daran interessiert, diese Häufigkeitsverteilungen in noch knapperer Form zu charakterisieren. Dies ist durch die Berechnung statistischer Maßzahlen möglich. Diese Maßzahlen charakterisieren in knapper Form die Gestalt der Häufigkeitsverteilungen. Wir unterscheiden zwischen Lagemaßen (Maßzahlen, welche die Lage auf der x-Achse beschreiben) und Streuungsmaßen (Maßzahlen, welche die Variabilität der Daten beschreiben). ~ x 0,5 sei der Wert, der die Stichprobe (Wertemenge) teilt: d.h. 50 % der Daten liegen links und 50 % liegen rechts von ~ x . Dann ist ~ x ein Lageparameter. 0 ,5 0 ,5 x 0,5 − x min und x max − ~ x 0,5 sagen etwas über die Streuung um ~ x 0,5 aus. Die Abstände: ~ Wir erkennen daran, daß z.B. die Verteilung rechtsschief sein muß, falls ~ x 0,5 − x min < x max − ~ x 0,5 gilt. Diese Abstände sind Streuungsparameter! hn (Ki ) ∆Ki 0,5 – Flächeninhalt X ~x 0 ,5 xmin xmax Abb. 2.1 2.1 Lageparameter (Mittelwert, Median, Quantile, Modelwert): 2.1.1 Das arithmetische Mittel Sei X ein zufälliges Merkmal und sei x1,...,xn eine Stichprobe von X vom Umfang n. Def.: Unter dem arithmetischen Mittelwert der Stichprobe verstehen wir den 1 n durchschnittlichen Stichprobenwert x = xi . n i =1 ∑ ©Prof. Dr. rer. nat. B. Grabowski 28 HTW des Saarlandes (10/2011) Stichprobenkennwerte Beispiel: Legt ein Angestellter den Weg zwischen Wohnung und Arbeitsstätte an 5 Tagen in 12, 10, 16, 12 und 17 Minuten zurück, dann beträgt die durchschnittliche Zeit, die er für den Weg benötigt: x= (12 + 10 + 16 + 12 + 17) = 13,4 Minuten 5 Nachteile des arithmetischen Mittels: Das arithmetische Mittel ist nicht immer das aussagekräftigste Mittel. Betrachtet man zum Beispiel eine Gruppe von 10 Personen, von denen 9 ein Jahreseinkommen von je 40000 Euro und eine ein Jahreseinkommen von 400000 Euro bezieht, so ist das arithmetische Mittel x = 9 ⋅ 40000 + 1 ⋅ 400000 = 76000 EURO zur Charakterisierung dieser Personengruppe wenig sinnvoll. Gibt es also sogenannte „Ausreißer“, d.h. Werte, die weit weg vom Zentrum der Verteilung entfernt liegen oder hat die Verteilung kein eindeutiges Zentrum (z.B. ein Gipfel), so ist das arithmetische Mittel wenig aussagekräftig. Passender ist der im folgenden Abschnitt definierte Median. 2.1.2 Der Median Der Median (Zentralwert) x0,5 ist grob gesagt der Wert einer Beobachtungsreihe, der in der der Größe nach geordneten Beobachtungsreihe in der Mitte steht. Damit man die Stichprobe ordnen kann, muss das Merkmal mindestens ordinal skaliert sein! Sei x1,...,xn die Stichprobe und ihre der Größe nach geordnete Reihenfolge sei x[1] < x[2] < ... < x[n]. Für den Median einer Stichprobe gibt es verschiedene exakte Definitionen. Wir geben hier 2 an: Die erste Definition legt die empirische Verteilungsfunktion Fn(x), die den Anteil aller Beobachtungsdaten angibt, die ≤ x sind. Def.1: Der Median x einer Stichprobe ist der kleinste Wert der Stichprobe, für den gilt: Fn(x) ≥ 0,5. Er wird als x0,5 bezeichnet. In folgender Grafik ist das für die angegebene bereits geordnete Stichprobe veranschaulicht. Die empirische Verteilungsfunktion ist eine Treppenfunktion, die Zahl auf der linken Seite der Treppenstufe gehört zur Stufe dazu, die auf der rechten Seite einer Stufe gehört zur nächsten Stufe. Der Median ist der Wert, der zu der Sprungstelle gehört, durch den die Gerade y = 0,5 geht. In unserem Beispiel ist das x0,5 = 2. Liegt diese Gerade auf einer Treppenstufe, so ist der Median der x-Wert der zur linken Seite der Stufe gehört. ©Prof. Dr. rer. nat. B. Grabowski 29 HTW des Saarlandes (10/2011) Stichprobenkennwerte Median: x0,5 = 2 Die zweite Variante der Median-Definition ist die Folgende: Def.2: Der Median der Stichprobe ist definiert durch: x 0, 5 x n +1 2 = x n + x n+2 2 2 2 für n ungerade für n gerade Diese Variante werden wir im Folgenden für unsere Beispiele und Übungsaufgaben verwenden. Für das Beispiel in der obigen Grafik: 0,1,1,1,2,2,3,4,4,5 ergibt sich x0 ,5 = x[5] + x[ 6 ] 2 = 2. Für das oben angeführte Beispiel eines Angestellten, der an 5 Tagen die von seiner Wohnung zur Arbeitbenötigte Zeit festhält, ergibt sich die geordnete Beobachtungsreihe 10 12 12 16 17 und folglich der Median x0,5 = x[3] = 12 Minuten . Vorteil des Medians: Er ist relativ unempfindlich gegenüber Ausreißern. Berechnen Sie den Median des Einkommens einer Gruppe von 10 Personen, von denen 9 ein Jahreseinkommen von je 40000 Euro und eine ein Jahreseinkommen von 400000 Euro bezieht! Was bedeutet der errechnete Wert? ©Prof. Dr. rer. nat. B. Grabowski 30 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.1.3 Das α - Quantil einer Beobachtungsreihe Unter dem α-Quantil einer Beobachtungsreihe x1,...,xn versteht man grob gesagt den Wert xα , (0 < α < 1) , den α ⋅100% der (bzw. n ⋅ α ) Beobachtungswerte nicht überschreiten. Sei x[1] < x[2] < ... < x[n] die geordnete Stichprobe. In Analogie zur Definition des Medians gibt es auch hier verschiedene Definitionen. Wir geben 2 davon an: Die erste Variante verwendet wieder die empirische Verteilungsfunktion Fn(x), die den Anteil aller Beobachtungsdaten angibt, die ≤ x sind: Def.1: Das α-Quantil einer Stichprobe ist der kleinste Wert x der Stichprobe, für den gilt: Fn(x) ≥ α. Er wird als xα bezeichnet. Berechnen Sie das 0.75-Quantil der Stichprobe 0,1,1,1,2,2,3,4,4,5! Skizzieren Sie das Quantil in der Grafik für die empirische Verteilungsfunktion auf der vorigen Seite! Die 2. Definition entspricht der 2. Definition für den Median. Diese Definition werden wir im Folgenden für alle Beispiele und Übungsaufgaben zugrunde legen. Def.2 : Der Wert ( x[ k ] + x[ k +1] ) falls k = n ⋅ α eine ganze Zahl ist xα = 2 x [k] falls n ⋅ α keine ganze Zahl ist und k die auf n ⋅ α folgende Zahl ist heißt α-Quantil der Beobachtungsreihe x1,...,xn. Der Median ist damit ein spezielles, nämlich genau das 0,5-Quantil der Beobachtungsreihe. Wir bezeichnen das 0,25-Quantil als unteres Quartil. 0,75- Quantil als oberes Quartil. 0,1- 0,2- 0,3- ....0,9-Quantil als Dezentile. Berechnen Sie den Median des Einkommens einer Gruppe von 10 Personen, von denen 9 ein Jahreseinkommen von je 40000 Euro und eine ein Jahreseinkommen von 400000 Euro bezieht! Was bedeutet der errechnete Wert? 2.1.4 Der Modalwert Bei bestimmten Daten wie der Geschlechtszugehörigkeit, Beruf etc. kann man keinen Mittelwert, Median usw. bilden, da die Daten nur nominal skaliert sind. Ein Lagemaß, das auch für solche Merkmale definiert ist, ist der „Modus“ oder Modalwert. ©Prof. Dr. rer. nat. B. Grabowski 31 HTW des Saarlandes (10/2011) Stichprobenkennwerte Def.: Der Modalwert xmod ist der häufigste Wert einer Verteilung. Ist X diskret mit X = {a 1 , a 2 ,...} so gilt hn(xmod) ≥ hn(aj) für alle Merkmalsausprägungen a1,...,ak. Bei gruppierten Daten ist der Modalwert die Klassenmitte der am dichtesten besetzen Klasse; wir schreiben in diesem Fall auch xmod' statt xmod . Bemerkung: In manchen Fällen erfüllen mehrere Ausprägungen diese Bedingung, d.h. der Modalwert ist nicht eindeutig. Geben Sie den Modalwert folgender Stichprobe an: 12, 10, 16, 12 und 17 2.1.5 Bemerkungen zu den Lagemaßzahlen Bei mehrgipfligen und insbesondere u-förmigen Verteilungen sind im Gegensatz zu eingipfligen Verteilungen die Lagemaße oft nicht charakteristisch für die Häufigkeitsverteilung: Beispiel: Die Lebensdauer der Menschen im Mittelalter entsprach einer u-förmigen Häufigkeitsverteilung: hn B t 25 Jahre Abb. 2.2 Die Säuglingssterblichkeit war sehr hoch, aber danach hatte man gute Chancen, ein recht hohes Alter zu erreichen. Die Aussage: „Im Mittelalter wurden die Menschen im Durchschnitt 25 Jahre alt“ impliziert eine falsche Vorstellung von der damaligen Lebenserwartung. Die Lagemaße dienen insbesondere zur näheren Charakterisierung eingipfliger Verteilungen Seien x - das arithmetische Mittel , x0,5 - der Median , x mod - der Modalwert . Def.: Eine Häufigkeitsverteilung heißt rechtsschief oder linksschief, falls x > x0,5 > x mod linksschief oder rechtssteil, falls x < x0,5 < x mod symmetrisch, falls x = x0,5 = x mod ©Prof. Dr. rer. nat. B. Grabowski 32 HTW des Saarlandes (10/2011) Stichprobenkennwerte rechtsschief xmod ~ x 0 ,5 linksschief x ~x x 0 ,5 symmetrisch xmod x Abb. 2.3 2.2 Streuungsmaße Lagemaße geben i.a. wenig Auskunft über die Gesamtstruktur einer Häufigkeitsverteilung. Sie beschreiben nur das „Zentrum“ einer Verteilung, geben aber keine Auskunft darüber, wieweit ein konkreter Merkmalswert von einem solchen Zentrum abweichen kann. starke Streuung geringe Streuung x x X X Abb. 2.4 Maße, die die Abweichung von einem Zentrum einer Häufigkeitsverteilung beschreiben, heißen Streuungsmaße oder Dispersionsmaße. Die gemeinsame Angabe von „Lage- und Streuungsmaßen“ ergeben eine recht präzise Vorstellung von der gesamten Verteilung. 2.2.1 Spannweite (Range) Seien x1,...,xn eine Stichprobe, xmin der kleinste und xmax der größte Wert der Stichprobe. R := xmax - xmin Es ist nur sinnvoll, die Spannweiten verschiedener Beobachtungsreihen zu vergleichen, wenn sie gleichen Stichprobenumfang besitzen! Die Spannweite ist kein sehr gutes Streuungsmaß, denn es gehen nur zwei Werte der Verteilung ein. ⇒ Sie ist sehr empfindlich gegenüber Ausreißern! ©Prof. Dr. rer. nat. B. Grabowski 33 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.2.2 Quartilabstand, Zentilabstand S Q = x0, 75 − x0, 25 heißt Quartilabstand der Stichprobe. SQ ist nicht so empfindlich gegenüber Ausreißern. SQ gibt den Bereich an, in dem etwa die Hälfte (50 %) aller Beobachtungen liegen. S Q10 = x 20 − x10 , S Q10 = x30 − x 20 , S Q10 = x 40 − x30 ,.... heißen Zentilabstände. Die Zentilabstände geben jeweils den Bereich der Stichprobe an, in denen jeweils 10% der Stichprobendaten liegen. 2.2.3 Boxplots Oft charakterisiert man eine Stichprobe bzw. eine Häufigkeitsverteilung vereinfacht durch einen sogenannten Boxplot. Dazu werden der kleinste Wert xmin und der größte Wert xmax der Stichprobe, sowie die Quartile und der Median auf der reellen Zahlengeraden abgetragen, siehe Abb. 2.8. Abb. 2.5 In jedem der entstehenden 4 Abschnitte liegen jeweils 25% der Daten. Die Abstände der 5 Werte ergeben einen Eindruck von Lage, Schiefe bzw. Symmetrie und Streuung der Verteilung. Folgende Abbildung zeigt die Gestalt eines Boxplots bei einer nahezu symmetrischen Verteilung (Histogramm). In diesem Fall spiegeln sich die Abstände symmetrisch um den Median x0.5. ©Prof. Dr. rer. nat. B. Grabowski 34 HTW des Saarlandes (10/2011) Stichprobenkennwerte h *n ( K i ) Histogramm X zugehöriger Boxplot x0,5 xmin xmax x0,25 x 0 , 75 (Die Breite des Kästchens hat keine Bedeutung!) Abb. 2.6 Skizzieren Sie die Gestalt des Boxplots bei links- und rechtssteilen Histogrammen! Man verwendet Box-Plots auch zum 'schnellen' Vergleich mehrerer Häufigkeitsverteilungen, siehe Abbildung 2.7. Leben sdauer x m ax x m ax ~x 0 , 25 ~x 05 ~ x 0 , 25 ~x 0 , 75 x m ax x min ~x 05 ~ x 05 ~ x 0 , 75 x m in x min T yp 1 Typ 2 T yp 3 Abb. 2.7 Lebensdauerverteilungen verschiedener Festplattentypen im Vergleich Interpretieren Sie die Abbildung 2.7, d.h. vergleichen Sie die 3 Festplattentypen miteinander! ©Prof. Dr. rer. nat. B. Grabowski 35 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.2.4 Streuung Die Streuung ist eine Maßzahl für die Variabilität, die Daten auf metrischem Niveau voraussetzt. Sie nimmt Bezug auf den Mittelwert. Die Streuung ist der „mittlere“ quadratische Abstand der Daten von ihrem Mittelwert: Def.: s2 = 1 n −1 n ∑ ( x i − x) 2 = i =1 1 n 2 xi − n ⋅ x 2 n − 1 i =1 ∑ heißt Streuung (Stichprobenvarianz) der Stichprobe x1,...,xn. Bemerkungen: 1. In s2 geht der quadratischen Abstand ein. Dadurch werden größere Abstände stärker bewichtet, als kleinere. 2. Die Begründung dafür, dass in der Formel für s2 durch (n-1) und nicht durch n dividiert wird, liefert die schließende Statistik (siehe Kapitel III). Man kann zeigen, dass der Schluss von der Stichprobe auf die Grundgesamtheit bei obiger Formel ‚besser’ (im Sinne eines wohldefinierten Gütekriteriums) ist, als wenn man 1/n statt 1/(n-1) verwendet. 2.2.5 Standardabweichung Def.: s = s2 – Standardabweichung. Die Standardabweichung ist eines der gebräuchlichsten statistischen Streuungsmaße. Sie ist die Wurzel aus der Streuung. Sie hat die gleiche Dimension wie der Mittelwert. Bemerkung: Mit Hilfe des arithmetischen Mittels x und der Standardabweichung s einer Stichprobe lässt sich für Zufallsgrößen X, deren Verteilung der Beobachtungen (Realisierungen) von X in der Grundgesamtheit eine bestimmte Form hat, der Bereich abschätzen, in dem sämtliche Beobachtungen von X liegen. Sind die Beobachtungen von X zum Beispiel alle gleichhäufig und begrenzt auf endliches Intervall (wir sprechen von einer Gleichverteilung), so sind die Intervallgrenzen gerade durch x ± s 3 abschätzbar. Sind die Beobachtungen von X alle symmetrisch und nicht gleichmäßig um ein Mittelwert verteilt (wir sprechen von einer Normal- bzw. Gaußverteilung), so ist der Wertebereich von X durch x ± 3s abschätzbar. Die Begründung für diese Sachverhalte liefert die Wahrscheinlichkeitsrechnung (siehe Kapitel II). ©Prof. Dr. rer. nat. B. Grabowski 36 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.2.6 Der Variationskoeffizient Die Streuung und Standardabweichung benutzen wir als Bezugspunkt des arithmetischen Mittels und messen die mittlere Abweichung vom Mittelwert. Für einen Mittelwert x = 10000 ist die Standardabweichung s = 10 eine geringe Abweichung, für einen Mittelwert x = 1 stellt s = 10 eine große Abweichung dar. Um die Größe der Standardabweichung relativ zum Mittelwert beurteilen zu können, verwendet man den Variationskoeffizienten: Def.: v = s x – Variationskoeffizient v ist ein vom Mittelwert bereinigtes Streuungsmaß. v eignet sich besonders zum Vergleich der Streuungen verschiedener Meßreihen. Für unsere beiden Beispiele oben erhalten wir: 10 10 v1 = = 0,001 und v 2 = = 10 . 10000 1 2.2.7 Eigenschaften des arithmetischen Mittels und der Stichprobenstreuung - Hinweise zur praktischen Berechnung Es gelten folgende Aussagen: 1. Die Summe der Abweichungen einer Menge von Zahlen von ihrem arithmetischen Mittel ist gleich Null: n ∑ (x j − x) = 0 j =1 2. Die Summe der quadratischen Abweichungen der Zahlen von ihrem arithmetischen Mittel ist kleiner als die Summe der quadratischen Abweichungen von einer beliebigen anderen Zahl: n ∑( xj − x j =1 n ) ∑ (x 2 ≤ j −a ) 2 für alle a ∈ R j=1 3. Werden die Einzelwerte einer lineare Transformation unterzogen: x *j = a ⋅ x j + b , so unterliegt der Mittelwert der gleichen Transformation: 1 n * es gilt: x* = xj = a⋅x + b. n j=1 ∑ Für die Streuung s*2 der transformierten Daten erhält man: ©Prof. Dr. rer. nat. B. Grabowski 37 s *2 = a 2 ⋅ s 2 . HTW des Saarlandes (10/2011) Stichprobenkennwerte Beispiel: Eine Autovermietung berechnet für ihre Wagen eine feste Tagesgebühr von b = 40 EURO und einen Kilometersatz von a= 0,40EURO/km. Ferner sei bekannt, dass die Wagen täglich im Durchschnitt x = 250 km zurücklegen bei einer Standardabweichung von s = 5 km. Die durchschnittlichen täglichen Einnahmen pro Wagen ergeben sich dann als x * = a ⋅ x + b = 0,40 ⋅ 250 + 40 = 140 EURO bei einer Standardabweichung von s*=a⋅s =0,40 ⋅5=2 EURO. 4. Standardisierung: Die lineareTransformation x *i = xi − x nennen wir Standardisierung. s 2 Es gilt: x * = 0 und s* = 1 . Zur Berechnung von x und s: 5. Es berechnet sich leichter 1 n 2 2 xi − n ⋅ x n − 1 i =1 ∑ s= 6. Hat man schon Werte x und s für x1,...,xn ermittelt und kommt noch ein Wert x n +1 hinzu, so sind folgende Formeln nützlich: x n +1 = 1 ( x n+1 + n ⋅ x) n +1 s n +1 = ( n + 1)( x n+1 − x) (1) 2 + n −1 2 ⋅s n (2) 7. Hat man für zwei Stichproben vom Umfang n1 und n2 Mittelwerte x1 , x 2 und Streuungen s12 , s 2 2 gegeben, so berechnen sich der Mittelwert und die Streuung der gemeinsamen Stichprobe vom Umfang n = n 1 + n 2 gemäß: x= (n 1 ⋅ x1 + n 2 ⋅ x 2 ) (n 1 (n1 − 1) ⋅ s1 + (n 2 − 1) ⋅ s 2 n (x − x ) + n2 (x2 − x ) + 1 1 n1 + n 2 − 1 n1 + n 2 − 1 2 s2 = (3) + n2 ) ©Prof. Dr. rer. nat. B. Grabowski 2 2 38 2 (4) HTW des Saarlandes (10/2011) Stichprobenkennwerte Beispiel.: Ein Unternehmen stellt in zwei Betriebsteilen Reifen gleicher Sorte her. Es ist die durchschnittliche Lebensdauer von 100 Reifen zu bestimmen, wobei 20 im ersten und 80 im zweiten Betriebsteil untersucht werden. Für die beiden Betriebsteile ergab sich: x1 = 4 Jahre bzw. x 2 = 5 Jahre und s12 = 0.01 und s22 = 0.04. Die mittlere Lebensdauer der Gesamt-Stichprobe von 100 Reifen beträgt dann: x= (4 ⋅ 20 + 5 ⋅ 80) = 4,8 Jahre . 100 Berechnen Sie die Streuung für das Beispiel! a) Beweisen Sie die Formeln (3) und (4) ! b) Zeigen Sie, dass (1) aus (3) und (2) aus (4) folgt! 2.3 Maßzahlen für klassifizierte Daten Alle o.g. Maßzahlen kann man nur berechnen, wenn die Stichprobendaten x1,...,xn bekannt sind. Bei stetigen Zufallsgrößen liegt häufig nur noch die Klassenhäufigkeitstabelle vor, aber nicht aber die Stichprobe. In diesem Fall werden die o.g. statistischen Maßzahlen aus der Klassenhäufigkeitstabelle geschätzt (= näherungsweise bestimmt). Wie das geschieht, wird im folgenden beschrieben. 2.3.1 Das arithmetische Mittel Besitzen Beobachtungswerte den gleichen numerischen Wert ai, so empfiehlt es sich, sie bei der Mittelwertbildung zusammenzufassen. Ist X ein diskretes Merkmal und X = {a 1 ,..., a k } , so gilt offenbar: x= 1 n n ∑ i =1 xi = 1 n k ∑ k a i H n (a i ) = i =1 ∑a h i n (a i ) i =1 Ist X ein stetiges Merkmal und liegen die Daten in klassifizierter Form und als Urliste vor, so gilt offenbar: 1 n 1 k x= xj = xi H n (K i ) . n j=1 n i =1 ∑ ∑ Dabei ist xi der Mittelwert der Klasse i: xi = 1 xj . H n ( K i ) x j ∈K i ∑ Liegt die Urliste nicht mehr vor, sondern nur noch die Klasseneinteilung, so verwendet man ©Prof. Dr. rer. nat. B. Grabowski 39 HTW des Saarlandes (10/2011) Stichprobenkennwerte in der o.g. Formel anstelle der Klassenmittelwerte die Klassenmitten x ′i als Approximation und erhält als Approximation für das arithmetische Mittel: x′ = 1 k ∑ xi′ ⋅ H n ( K i ) n i =1 Approximation des arithmetischen Mittels aus der Klassenhäufigkeitstabelle. Beispiel : Wie groß ist die mittlere Lebensdauer von 1000 Mainboards, deren Lebensdauerverteilung durch folgende Tabelle gegeben ist: i Ki x ′i 1 2 3 4 5 bis 2 Jahre 1 (2-4] Jahre 3 (4-6] Jahre 5 (6-8] Jahre 7 (8-10] Jahre 9 Tab. 2.1 (33 + 276 ⋅ 3 + 404 ⋅ 5 + 237 ⋅ 7 + 50 ⋅ 9) Lösung: x′ = = 4,99 Jahre 1000 Die mittlere Lebensdauer beträgt etwa 5 Jahre. Hn(Ki) 33 276 404 237 50 2.3.2 Die Streuung Ist X diskret mit X = {a 1 ,..., a k } so gilt: s2 = 1 k (ai − x ) 2 ⋅ H n (ai ) ∑ n − 1 i =1 Betrachten wir nun klassifizierte Daten. Falls für jede Klasse Ki der Mittelwert xi aller Daten, die in Klasse Kj fallen, bekannt wäre, so könnte man als Approximation von s2 die Größe: s 02 = 1 k ( xi − x ) 2 ⋅ H n ( K i ) ∑ n − 1 i =1 verwenden. Sind die Klassenmittelwerte nicht bekannt, so ersetzt man sie durch die Klassenmitten a i ′ = aiu + a i0 und x wird durch die Approximation x ′ für 2 Klassenhäufigkeitstabellen ersetzt. Man erhält dann die folgende Approximation für die Streuung: s*2 = 1 k ' (a i − x ′) 2 ⋅ H n ( K i ) ∑ n − 1 i =1 ©Prof. Dr. rer. nat. B. Grabowski 40 HTW des Saarlandes (10/2011) Stichprobenkennwerte Untersuchungen haben folgendes gezeigt: Ist die Klassenzahl k klein im Vergleich zum Stichprobenumfang n, so wird die Streuung s2 durch s*2 überschätzt! Es wird deshalb anstelle von s*2 häufig die sogenannte Sheppardsche Korrekturformel verwendet: Sheppardsche Korrekturformel: Haben alle Klassen die gleiche Klassenbreite B, so lässt sich der Wert s*2 korrigieren: 2 s** = s*2 − 1 B2 , wobei s*2 = 12 n −1 k ∑ (a ' i − x ′) 2 ⋅ H n ( K i ) i =1 Bemerkung: Bei Verwendung klassifizierter Daten berechnet sich s*2 leichter wie folgt: s*2 = k 1 ⋅ [∑ (a i' ) 2 H n ( K i ) − nx ' 2 ] n − 1 i =1 Beispiel: Wie groß sind die mittlere Dauer (in sek) und die Streuung von 30 Telefonaten? Klasse Kj [60, 70) [70, 80) [80, 90) [90, 100) [100, 110) Hn(Kj) a i' 6 7 6 6 5 500 750 850 950 1250 Tab. 2.2 Berechnen Sie x ' und s*2 und s*2* ! 2.3.3 Die Quantile Für klassifizierte Daten (d.h., wenn nur noch die Klassenhäufigkeitstabelle, nicht aber die ~ Urliste vorliegt) verwenden wir die Klassensummenhäufigkeitsfunktion Fn ( x) , um eine ~ Approximation ~ xα für das α - Quantil xα zu erhalten.. Da Fn ( x) näherungsweise gleich dem Anteil aller Daten xi, i=1,...,n , für die gilt: xi ≤ x , ist, und xα der Wert ist, für den dieser ~ Anteil gleich α ist, können wir xα näherungsweise als Lösung der Gleichung: Fn ( x) = α erhalten. Das geschieht auf folgende Weise: ©Prof. Dr. rer. nat. B. Grabowski 41 HTW des Saarlandes (10/2011) Stichprobenkennwerte Man bestimme zunächst die Klasse i in der das α-Quantil liegt, d.h. für die gilt: h(i − 1) < α ≤ h( i) Das approximierte α - Quantil ~ x α ergibt sich dann durch die Umstellung der Formel: x − aiu ) (~ Fn ( ~ xα ) = h(i − 1) + hn ( K i ) ⋅ αo =α (a i − aiu ) nach ~ x α . Wir erhalten: (α − h(i − 1)) ~ x α = a iu + ⋅ (a oi − a iu ) . h n (Ki ) Die grafische Bestimmung von ~ x α aus der empirischen Verteilungsfunktion zeigt nachstehende Skizze: hn (Ki ) ∆K i Flächeninhalt α ~x X α Abb. 2.8 ~ Fn(x) 1 α ~x X α Abb. 2.9 Beispiel: Wir betrachten die Klassenhäufigkeitstabelle des Bruttomonatsverdienstes von 250 Beschäftigten einer Firma (siehe Tabelle 1.13, Kapitel 1.4.4). Es soll der Median, d.h. der Verdienst berechnet werden, den die Hälfte der 250 Beschäftigten unter- bzw. überschreitet! ©Prof. Dr. rer. nat. B. Grabowski 42 HTW des Saarlandes (10/2011) Stichprobenkennwerte Klasse Nr. i 1 2 3 4 5 6 7 8 9 10 ∑ Bruttomonatsverdienst in EURO Beschäftigte Anzahl Hn(Ki) 6 13 22 32 40 42 39 31 20 5 250 500 bis 800 über 800 bis 1100 über 1100 bis 1400 über 1400 bis 1700 über 1700 bis 2000 über 2000 bis 2300 über 2300 bis 2600 über 2600 bis 2900 über 2900 bis 3200 über 3200 bis 3500 Anteil hn(Ki) 0,024 0,052 0,088 0,128 0,160 0,168 0,156 0,124 0,080 0,020 1,000 Summenhäufigkeiten Beschäftigte Kumulierte Kumulierter Anzahl H(i) Anteil h(i) 6 0,024 19 0,076 41 0,164 73 0,292 113 0,452 155 0,620 194 0,776 225 0,900 245 0,980 250 1,000 Lösung: Der Median liegt in der Klasse i, in der die Summenhäufigkeitsfunktion den Wert 0,5 erreicht: D.h., für die Klasse i, die den Median enthält, muss gelten: h i −1 < 0,5 ≤ h i . Der Tabelle entnehmen wir: i = 6. h n ( Ki ) ∆Ki 0,5 ~x 0,5 Abb. 2.10 Mit i=6 ergibt sich für den Median: (0,5 − 0,452) ~ x0,5 = 2000 + ⋅ 300 0,168 = 2085,71EURO ≈ 2100 EURO D.h., 50% der Beschäftigten der Firma verdienen mehr und 50% nicht mehr als 2100 EURO. Unter Benutzung der grafischen Darstellung der empirischen Verteilungsfunktion ergibt sich eine grafische Näherungslösung für den Median, wie unten stehenden Skizze zeigt. ©Prof. Dr. rer. nat. B. Grabowski 43 HTW des Saarlandes (10/2011) Stichprobenkennwerte ~ Fn(x) 1,5 1 0,5 0 5 11 17 23 Me = 21 29 35 Bruttomonatsverdienst in 100 EURO (x) Abb. 2.11: Grafische Bestimmung des Medians bei klassifizierten Daten Berechnen Sie den Boxplot der Lebensdauer von 1000 Mainboards, deren Lebensdauerverteilung durch folgende Tabelle gegeben ist: i Ki x ′i Hn(Ki) 1 2 3 4 5 bis 2 Jahre (2-4] Jahre (4-6] Jahre (6-8] Jahre (8-10] Jahre 1 3 5 7 9 33 276 404 237 50 Interpretieren Sie den Boxplot! Vergleichen Sie den Median mit dem approximativen Mittelwert x ' = 4,99 ! ©Prof. Dr. rer. nat. B. Grabowski 44 HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.4 Anwendbarkeit der Maßzahlen für die verschiedenen Skalentypen Maße Skala Nominalskala Ordinalskala Intervallskala Verhältnisskala Lagemaße Modus Median α-Quantile Arithm. Mittel X X X (X) X X X X X X X X X X X X Streuungsmaße Spannweite Quantilabstände Mittlere absolute Abweichung vom Median Streuung Standardabweichung Variationskoeffizient X X Stab-, Blakendiagramm Klasseneinteilung Histogramm Tab. 2.3: Anwendbarkeit der statischen Maßzahlen für verschiedene Skalentypen a) Begründen Sie, warum der Variationskoeffizient intervallskalierte Merkmale anwendbar ist! nicht für b) Begründen Sie, was man bei der Mittelwertberechnung bei ordinalskalierte Merkmale beachten muß! (Unter Bedingungen können Mittelwerte verwendet werden? ©Prof. Dr. rer. nat. B. Grabowski 45 welchen HTW des Saarlandes (10/2011) Stichprobenkennwerte 2.5 Übungsaufgaben Arbeiten Sie das Kapitel 2.1 durch und lösen Sie dann folgende Aufgabe: Aufgabe 1 An einem Bankschalter werden die Kundenankünfte (Anzahl der pro 10-Minuten-Zeitintervall ankommenden Kunden) beobachtet. Für 40 derartige Zeitintervalle erhält man folgende Ergebnisse: 0, 1, 2, 1, 0, 2, 0, 4, 1, 3, 1, 2, 3, 0, 1, 3, 4, 2, 6, 2, 1, 0, 1, 0, 2, 1, 0, 3, 2, 3, 2, 0, 1, 1, 3, 1, 1, 2, 1, 2, Berechnen Sie Mittelwert, Modus und Median der Kundenankünfte! Arbeiten Sie das Kapitel 2.2 durch und lösen Sie dann folgende Aufgaben: Aufgabe 2 a) Zeigen Sie, dass für die Streuung s 2 = 1 n 1 n 2 2 gilt: ( x − x ) s = ( xi ) 2 − x 2 ∑ ∑ i n i =1 n i =1 b) Berechnen Sie die Streuung folgender Daten: 2, 1, 0,3, -1, 2, 2, -2 ,-2, 5 Aufgabe 3 Zeigen Sie: a) Für die Beobachtungen einer diskreten Variablen X mit den verschiedenen Realisierungen a1, a2,...,ak gilt: k ∑ (a i − x) ⋅ H n ( a i ) = 0 ! i =1 b) Bei der Transformation (Standardisierung) von Daten x1,...,xn gemäß x *i = xi − x gilt für s den Mittelwert und Streuung der transformierten Daten: * x = 0 und s*2 = 1 ©Prof. Dr. rer. nat. B. Grabowski 46 HTW des Saarlandes (10/2011) Stichprobenkennwerte Aufgabe 4 Leben sdauer x m ax x m ax ~x 0 , 25 ~x 05 ~x 0 , 75 ~ x 0 , 25 x m ax x min ~x 05 ~ x 05 ~ x 0 , 75 x m in x min Typ 2 T yp 1 T yp 3 Das Bild zeigt die Boxplots der Lebensdauern von Festplatten dreier verschiedener Typen. Interpretieren Sie dieses Bild! Aufgabe 5 Bei Piloten kommt es darauf an, dass sie möglichst schnell auf optische Signale reagieren.Um die Reaktionszeit zu verbessern, wurde eine Trainingsmethode entwickelt. Eine Untersuchung an 10 Personen ergab folgende Reaktionszeiten vor Anwendung und nach Anwendung der Trainingsmethode (in Sekunden): Person 1 2 3 4 5 6 7 8 9 10 Vorher 14 9 57 15 19 38 43 29 16 17 11 20 10 15 30 32 30 16 17 Nachher 10 Untersuchen Sie mit Hilfe von Boxplots, ob das Training eine Verbesserung der Reaktionszeit (zumindest in der Stichprobe) bewirkt! Verwenden Sie dabei Definition 2 für die Quantile! Fertigen Sie Zeichnungen an und begründen Sie Ihre Aussagen! Aufgabe 6 Lesen Sie in Skript I den Abschnitt 2.2.7 durch. Lösen Sie dann folgende Aufgabe unter Verwendung der Formeln (3) und (4) des Abschnitts 2.2.7. In zwei Betriebsteilen eines Unternehmens werden Akkus gleicher Sorte hergestellt. Zur Untersuchung der Qualität der Produktion wurden Lebensdaueranalysen mit je einer Stichprobe vom Umfang m1 im 1. Und m2 im 2. Betriebsteil gemacht. Für die mittlere Lebensdauer und die Streuung ergab sich: x 1 = 30 J , s12 = 25 J 2 , m1 = 20 ; x 2 = 25 J , s 22 = 16 J 2 , m 2 = 50 ; Wie groß sind Mittelwert, Streuung und Variationskoeffizient der gemeinsamen Stichprobe vom Umfang m1 + m2 ? ©Prof. Dr. rer. nat. B. Grabowski 47 HTW des Saarlandes (10/2011) Stichprobenkennwerte Arbeiten Sie im Skript I Kapitel 2.3. durch! Lösen Sie dann folgende Aufgaben: Aufgabe 7 Folgende Tabelle enthält die Klassenhäufigkeitsverteilung der Verweildauer von 1000 Signalen in einem Übertragungssystem (in Sek.). i Ki x ′i Hn(Ki) 1 2 3 4 5 bis 2 Sek. (2-4] Sek. (4-6] Sek. (6-8] Sek. (8-10] Sek. 1 3 5 7 9 33 276 404 237 50 a) Berechnen Sie auf der Basis der Klasseneinteilung einen Näherungswert für den Median der Stichprobe! a) Berechnen Sie auf der Basis der Klasseneinteilung einen Näherungswert für das arithmetische Mittel der Stichprobe! c) Vergleichen Sie beide Werte (Median und arithmetisches Mittel). Was können Sie schließen? d) Wie groß ist der Modalwert der Verteilung? e) Wie viel % aller Verweildauern sind > 7,5 Sek.? Aufgabe 8 Gegeben seinen Klassenhäufigkeitstabellen der Lebensdauern zweier Sorten von Festplatten: Typ 1 Jahre 0-2 2-4 4-6 6-8 8 - 10 10 - 12 >12 Typ 2 Hn(Ki) 0 10 80 200 100 10 0 Jahre 0-2 2-4 4-6 6-8 >8 Hn(Ki) 0 50 200 50 0 Vergleichen Sie die Lebensdauern beider Typen durch Boxplots! Berechnen Sie dabei die Quantile näherungsweise unter Verwendung der Klasseneinteilung. Verwenden Sie als Approximation für xmin und xmax (= kleinster und größter Wert der nicht mehr vorhandenen Original-Stichprobe) die untere Klassengrenze der 1. Klasse und die obere Klassengrenze der letzten Klasse! ©Prof. Dr. rer. nat. B. Grabowski 48 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen 3 Zweidimensionale Verteilungen - Zusammenhangsmaße Beispiel 1: Frage: Ist die Reaktionszeit in einem bestimmten Experiment vom Geschlecht unabhängig? Gg der Objekte: Gesunde Personen zwischen 30 und 40 Jahren Merkmale: T = Reaktionszeit (ms), S = Geschlecht (0 – männlich, 1– weiblich) Z = (T, S) – 2-dimensionales Merkmal, T stetig, S-diskret, nominal Stichprobe: Testen 200 Probanden, zi = (ti, si) – Merkmalsausprägung von Proband i , i = 1,...,200 Erfassung der Ergebnisse in einer 2-dimensionalen Häufigkeitstabelle: T stetig ⇒ Reaktionszeit wird in Klassen eingeteilt: K1 = [100, 130) ms, K2 = [130, 160) ms, K3 = [160, 190) ms S T [100, 130) [130, 160) [160, 190) ∑ 0 M 20 50 10 80 1 w 40 60 20 120 ∑ 60 110 30 200 Absolute Zell-Häufigkeiten S T [100, 130) [130, 160) [160, 190) ∑ 0 m 0,1 0,25 0,05 0,4 1 w 0,2 0,3 0,1 0,6 ∑ 0,3 0,55 0,15 1 Relative Zell-Häufigkeiten Tab.: 3.1: Zweidimensionale Häufigkeitstabellen von Reaktionszeit T und Geschlecht S Verteilungen der Reaktionszeiten in den Gruppen m und w bezogen auf die (verschiedenen) Beobachtungszahlen aus den Gruppen: T: m: w: ∑ K1 20/80 40/120 60/200 K2 50/80 60/120 110/200 K3 10/80 20/120 30/200 T: m: w: ∑ K1 0,25 0,33 0,3 K2 0,625 0,5 0,55 K3 0,125 0,17 0,15 Diese Verteilungen sind in etwa gleich. Die Reaktionszeit kann man als unabhängig vom Geschlecht beobachten. Ziel: Statistische Maßzahlen zur Messung der Abhängigkeit/Unabhängigkeit zwischen 2 Merkmalen entwickeln. ©Prof. Dr. rer. nat. B. Grabowski 49 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen 3.1 Zweidimensionale Häufigkeitsverteilungen Sei Z = (X, Y), X ∈ X und Y ∈ Y ein 2-dimensionales Merkmal 1.Fall: X, Y diskret: X = {a1,...,ak}, Y = {b1,...,bj} Wertebereich von Z: Z = X × Y = {cij = (ai. bj) / ai ∈ X, bj ∈ Y} Wir beobachten Z an n Objekten: zi= (xi, yi), i = 1,...,n – Stichprobe vom Umfang n Wie im eindimensionalen Fall besteht zunächst die elementare statistische Tätigkeit darin, die Häufigkeitsverteilung der Stichprobe von Z zu ermitteln, d.h. auszuzählen, wieviele Beobachtungspaare (xv, yv), v = 1,...,n jeweils auf eine Merkmalsausprägung cij = (ai, bj) von Z fallen. Bezeichnungen: (ai, bj) - Zelle Hij := Anzahl aller Paare (xv, yv) mit xv = ai und yv = bj – absolute „Zellhäufigkeit“ hij := H ij - Anteil aller Paare (xv, yv) mit xv = ai und yv = bj n – relative „Zellhäufigkeit“ 2. Fall: X stetig oder Y stetig Wir machen eine Klasseneinteilung von X bzw. Y K ix i = 1,...,k – Klasseneinteilung von X K yj j = 1,...,l – Klasseneinteilung von Y (K ) x y i ,Kj – Zelle Hij – Anzahl aller (xv, yv) mit xv ∈ K ix und y ∈ K yj – absolute Zellhäufigkeit hij – Anteil aller (xv, yv) mit xv ∈ K ix und y ∈ K yj – relative Zellhäufigkeit Def.: Die Gesamtheit aller absoluten bzw. relativen Häufigkeiten (( H ij ,i = 1,..., k; j = 1,...,l )) bzw. (( h ij ,i = 1,..., k; j = 1,...,l )) heißt zweidimensionale absolute bzw. relative Häufigkeitsverteilung von Z. ©Prof. Dr. rer. nat. B. Grabowski 50 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Kontingenztabelle (k x l –Tabelle): Y bj H1j Zeilensumme ∑ K 1X K X2 a1 a2 H21 H22 H2j H2l H2• K Yi ai Hi1 Hi2 Hij Hil Hi• K Xk ak Hk1 Hk2 Hkj Hkl Hk• H•1 H•2 H•j H•l n X ∑ Spaltensumme K Y2 b2 H12 K Yl bl H1l K 1Y b1 H11 K Yj H1• Tab. 3.2 Bezeichnungen: l H i• = ∑H ij – i-te Zeilensumme ij – j-te Spaltensumme j=1 k H•j = ∑H i =1 – Randsummen H • j , H i• k H •• = l ∑∑H ij – Stichprobenumfang =n i =1 j=1 Def.: Die Gesamtheit der Randsummen bilden die Häufigkeitsverteilungen von X bzw. Y: ((H (( H ) i• , i = 1,..., k ) •j , j = 1,..., l )) - Häufigkeitsverteilung von X Randverteilung - Häufigkeitsverteilung von Y Bemerkung: Betrachten wir hij statt Hij, so erhalten wir die Randsummen hi•, h•j. Diese bilden die relative Häufigkeitsverteilung von X bzw. Y. Beispiel 2: Auf einer Hühnerfarm seien zufällig 1000 Eier ausgewählt, vermessen und gewogen worden. Die Merkmale sind X = Länge (cm) und Y = Breite (cm) Frage: Gibt es einen Zusammenhang zwischen Länge und Breite? Objekte: Eier dieser Farm Merkmal: Z = (X, Y) = 2-dimensionales Merkmal ©Prof. Dr. rer. nat. B. Grabowski 51 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen X, Y stetig ⇒ für beide Merkmale wird eine Klasseneinteilung gemacht. Häufigkeitstabelle der 1000 Beobachtungen: Y X 4<X≤5 5<X≤6 6<X≤7 7<X≤8 Summe Summe 2<Y≤3 3<Y≤4 4<Y≤5 5<Y≤6 10 5 0 0 66 250 47 0 0 157 380 15 0 0 29 41 76 412 456 56 15 363 552 70 1000 Zweidimensionale Häufigkeitsverteilung für (Xg, Yg) Übliche grafische Darstellung zweidimensionaler Verteilungen: Abb.: Zweidimensionaler Plot ©Prof. Dr. rer. nat. B. Grabowski 52 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen 3.2 Korrelationsmaße 3.2.1 Der Pearsonsche Korrelationskoeffizient Beispiel 2: X – Länge von Eiern Y – Breite von Eiern Frage: Hängen Länge und Breite zusammen? Sind die Eier mehr so: und oder mehr so: und Wir werden ein Maß herleiten, um das zu beurteilen! Eine Stichprobe von 1000 Eiern liefert folgende Beobachtungen (xi, yi), i = 1,...,1000: ©Prof. Dr. rer. nat. B. Grabowski 53 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen II III I IV Offensichtlich gilt: ⇒ (xi, yi) liegt im I. oder III. Quadranten ⇒ (xi, yi) liegt im II. oder IV. Quadranten Statistische Maßzahl für diesen Sachverhalt: ( x i − x) ⋅ ( y i − y ) < 0 ( x i − x) ⋅ ( y i − y ) > 0 Seien: x= 1 n ∑x n i =1 i Def.: S xy y= 1 n ∑y n i =1 i 1 n = ∑ ( x − x)( y i − y) n − 1 i =1 i – arithmetische Mittel der Stichprobe bzgl. xi und yi – heißt Stichprobenkovarianz von X und Y bzgl. der Stichprobe (xi, yi), i = 1,...,n Bemerkung: Liegen die Daten hauptsächlich im I. und III. Quadranten ⇒ Sxy < 0 II. und IV. Quadranten ⇒ Sxy > 0 X, Y, unabhängig ⇒ gleich viele im I., II., III., IV. Quadranten ⇒ Sxy = 0 ©Prof. Dr. rer. nat. B. Grabowski 54 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Problem: Beurteilung der Größe von Sxy. In unserem Beispiel ergibt sich Sx y = 1,2. Ist S = 1,2 groß oder klein? ⇒ Wir können S nicht verwenden, sondern müssen S erst normieren!! Bemerkung: 2 s x := S xx s y 2 := S yy 2 1 n x i − x) = ( ∑ n − 1 i =1 1 n 2 = y i − y) ( ∑ n − 1 i =1 – Streuung (Stichprobenvarianz) von X – Streuung (Stichprobenvarianz) von Y Def.: Das Maß r= S xy 2 sx ⋅ sy 2 heißt Pearsonscher Korrelationskoeffizient von X und Y bzgl. der Stichprobe ( x , y ), i = 1,..., n . i i Satz: Es gilt: 1. − 1 ≤ r ≤ 1 (r ist normiert) falls y i = a ⋅ x i + b, a > 0 1 2. r = falls y i = a ⋅ x i + b, a < 0 - 1 Wir verwenden zur Beurteilung des Zusammenhangs zwischen X und Y das Maß r. Auswertung von r: Der Pearson’sche Korrelationskoeffizient r misst den Grad des linearen Zusammenhangs zwischen 2 Merkmalen X und Y. Standard: Bezeichnungen r < −0,2 r > +0,2 ⇒ Daten sind negativ korreliert (große x ⇔ kleine y-Werte) (I., III. Quadrant) ⇒ Daten sind positiv korreliert (große x ⇔ große y-Werte) (II., IV Quadrant) „Feinabstufung“: ©Prof. Dr. rer. nat. B. Grabowski 55 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen 1. 0 ≤ r ≤ 0,2 2. 0,2 < r ≤ 0,5 unkorreliert schwach korreliert 3. 0,5 < r ≤ 0,8 korreliert 4. 0,8 < r ≤ 1 hoch korreliert Für unser Beispiel gilt: r = 0,83 ⇒ Länge und Breite sind hoch positiv korreliert (siehe Scattergramm: Dicke Eier sind lang, dünne Eier sind kurz (die Eier sind und und nicht und Typische „Punktwolke“ für Korrelationskoeffizienten r: X X X XX X X X X X X X X X X X r ≈ - 0,6 X XX X X X X X X X X X y X X X X X X X X X X X X X X X X X r ≈ 0,6 x r≈0 X r ≈1 Abb. 3.3 Bemerkungen: 1.) Voraussetzung: X, Y stetig (mindestens intervallskaliert) 2.) Sei Y = X2 → Für alle Beobachtungen (xi, yi), i = 1,...,n gilt: y i = x 2i (Die Punkte (xi, yi) liegen auf einer Parabel.) In diesem Fall ist r≈0 !! ©Prof. Dr. rer. nat. B. Grabowski 56 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen X X y X X X X X X x ⇒ Sxy ≈ 0 ⇒r≈0 ⇒ r ≈ 0 bedeutet nicht „Unabhängigkeit“ sondern nur „Unkorreliertheit“ (d.h. X und Y weichen „total“ vom linearen Zusammenhang ab, aber sie können daraus auf eine andere Weise funktional zusammenhängen) Der Pearson’sche Korrelationskoeffizient r misst nur den Grad des linearen Zusammenhangs. 3.2.2 Der Spearman’sche Korrelationskoeffizient für ordinal skalierte Daten Wenn mindestens ein Merkmal ordinal skaliert ist, ist r nicht anwendbar, da für ordinalskalierte Merkmale das arithmetische Mittel und Streuungen nicht berechnet werden dürfen. Fragestellungen mit ordinalskalierten Merkmalen treten allerdings oft auf. Wir wenden in diesen Fällen den sogenannten Korrelationskoeffizienten ρ von Spearman an. Beispiele: Gibt es einen Zusammenhang a) zwischen Mathematik- und Englischleistungen? b) zwischen A- und B- Note beim Eiskunstlauf ? c) zwischen Körpergröße und Bildungsgrad? d) Zwischen Qualitätsklasse und Preis? Der Spearman’sche Korrelationskoeffizient ρ: Seien X und Y zwei Zufallsgrößen, mindestens ordinal skaliert. Der Spearman’sche Korrelationskoeffizient erfordert die Zuordnung von sogenannten Rangplätzen R[xi] zu Stichprobenwerten xi, i = 1,...,n. Rangplatzbestimmung: Sei x1,...,xn eine Stichprobe vom Umfang n und x [ 1] ≤ x [ 2 ] ≤ ⋯ ≤ x [ n ] die geordnete Stichprobe. Unter dem Rangplatz R[xi] von xi versteht man den Platz von xi in der geordneten Stichprobe. Die Ordnung der Stichprobendaten xi ergibt sich aus der Ordnung der Merkmalsausprägungen, denen die xi zugeordnet sind. Dabei ordnet man die Merkmalsausprägungen so, dass der in der Ordnung an erster Stelle stehende Merkmalswert der "beste", der an zweiter Stelle stehende Merkmalswert der "zweitbeste" usw. sind. ©Prof. Dr. rer. nat. B. Grabowski 57 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Haben mehrere Daten xi den gleichen Rangplatz (d.h. den gleichen Wert), so wird ihnen der mittlere Rangplatz zugewiesen: Beispiel 3: Merkmal: Qualität Ausprägung (Qualitätsklasse) durch Skalierung zugeordnete Daten: xi A B C D E F G 2 3 4 5 6 7 100 xi Platz in geordneter Stichprobe R[xi] R[3] = 2 1 3 2 7 6 3 3 5 5 3 4 100 7 1 3 6 3 5 3 7 2 + 3+ 4 =3– mittlerer Rangplatz des Werts 3 in der geordneten Stichprobe 3 Seien nun (xi, yi) , i = 1,...,n eine Stichprobe und seien R[xi], R[yi] die den Stichprobenwerten xi und yi zugeordneten Rangplatzzahlen. Im folgenden Bild ist der Zusammenhang dargestellt zwischen der Monotonie der Stichprobendaten und der Linearität der Rangplatzdaten. Liegen (xi, yi) , i = 1,...,n, auf einer streng monoton wachsenden Funktion, so gilt für die Rangplätze R[xi] = i und R[yi] = i, i=1,...,n und folglich liegen die Rangplatzdaten (R[xi], R[yi]), i=1,...,n, auf einer Geraden mit positivem Anstieg. Man überzeugt sich leicht selbst, dass analog gilt: wenn (xi, yi) , i = 1,...,n, auf einer streng monoton fallenden Funktion liegen, so liegen die Rangplatzdaten (R[xi], R[yi]), i=1,...,n, auf einer Geraden mit negativem Anstieg. Abweichungen der Daten von der Monotonie würden Abweichungen der Rangplatzdaten von der Linearität bewirken. D.h., der Pearson’sche Korrelationskoeffizient rR[x],R[y] der Rangplatzdaten, der ja den Grad der Linearität misst, misst damit auch folglich den Grad der Monotonie der Ausgangsdaten (xi,yi), i=1,....,n. Ist rR[x],R[y] = 1, so liegen die Daten (xi,yi) auf einer monoton wachsenden Funktion, ist rR[x],R[y] = -1 auf einer monoton fallenden Funktion, ist rR[x],R[y] = 0,9, soschwanken die Daten (xi,yi) eng um eine monoton wachsende Funktion usw., usf. Der Spearman’sche Korrelationskoeffizient ist als Pearson’scher Korrelationskoeffizient der Rangplätze definiert und misst den Grad der Monotonie der Daten (xi,yi),i=1,...,n. ©Prof. Dr. rer. nat. B. Grabowski 58 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Def.: Der Koeffizient ρ: = rR[ x ] ,R[ y ] = S R [ x ] , R[ y ] s 2R[ x ] ⋅ s 2R[ y ] heißt Spearman’scher Korrelationskoeffizient (ρ := Pearson’scher Koeffizient für die Rangplatzzahlen) ⇒ „Rangplatzkorrelationskoeffizient“ Zur Erleichterung der Berechnung des Spearman’sche Korrelationskoeffizienten kann man folgenden Satz anwenden: n 6⋅ Satz: Es gilt: ρ =1− ∑d 2 i i =1 ( , d i = R [ x i ] − R [ yi ] ) n ⋅ n2 − 1 Berechnung des Spearman’schen Korellationskoeffizienten: 1.) Man ordnet jedem xi und yi einen Rangplatz R[xi], R[yi] zu. 2.) Man bildet die Rangplatzdifferenzen d i : = R[ x i ] − R[ y i ] , d 2i und ∑d 2 i . 3.) Man berechnet den Spearman’schen Korrelationskoeffizienten ρ. x y R[x] R[y] | di | di2 x1 y1 R[x1] R[y1] | d1 | d12 xi yi R[xi] R[yi] | di | di2 xn yn R[xn] R[yn] | dn | dn2 ∑ ∑ di2 Tab. 3.6 Auswertung von ρ: (wie bei r !) −1≤ ρ ≤ 1 ρ ≤ 0,2 ⇒ unkorreliert ρ ≤ 0,5 ⇒ schwach korreliert ρ ≤ 0,8 ⇒ korreliert 1 ≥ ρ > 0,8 negative und positive Korrelation ⇒hoch korreliert Beispiel 4 Noten: Gibt es einen Zusammenhang zwischen den Leistungen in Mathe und in Englisch? ©Prof. Dr. rer. nat. B. Grabowski 59 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Person Mathe Englisch 1 2 3 4 5 1 5 4 6 2 6 3 1 4 3 4 2 3 Noten 6 5 1 3 4 2 10 14 19 16 14 19 Punkte 5,5 3 2,5 6,25 2 4,5 2,5 6,25 3,5 1,5 2 4 ∑ 46,5 R[Mathe] 1 5,5 3,5 R[Englisch] 6 4,5 1,5 | di | 5 1 2 di2 25 1 4 6 ⋅ 46,5 46,5 ρ =1− =1− = − 0,32 6 ⋅ 35 35 Mathe- und Englischleistungen sind schwach negativ korreliert! D.h., es ist eine leichte Tendenz in folgender Richtung zu erkennen: Je besser die Noten in Mathe, desto schlechter in Englisch und umgekehrt. Beispiel 5: Eiskunstlauf: Gibt es einen Zusammenhang zwischen A und B-Note? Läufer A-Note B-Note Rangplatz A Rangplatz B | di | 2 di ⇒ ρ =1− 1 5,3 5,4 3 2 5,6 5,4 1 3 5,0 5,1 6,5 4 5,3 5,2 3 5 4,9 5,0 8 6 4,6 4,5 9 7 5,3 5,5 3 8 5,0 4,8 6,5 9 5,2 5,1 5 2,5 2,5 5,5 4 7 9 1 8 5,5 0,5 0,25 1,5 2,25 1 1 1 1 1 1 0 0 2 4 1,5 2,25 0,5 0,25 ∑ 12 6 ⋅ 12 6 ⋅ 12 =1− = 0,9 9 ⋅ (81 − 1) 9 ⋅ 80 ⇒ A und B sind hoch positiv korreliert! D.h., je besser die A Note, um so besser auch die B-Note. ©Prof. Dr. rer. nat. B. Grabowski 60 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen 3.3 Übungsaufgaben Aufgabe 1 In einem psychologischen Experiment wurde die Reaktionszeit von Probanden vom Geben bis zum Erkennen eines optischen Signals gemessen. Die Reaktionszeit wurde dabei in 3 Gruppen eingeteilt: 1 – schnell, 2 - mittel, 3 – langsam. Eine Untersuchung an 30 Personen ergab folgende Daten : (M-männlich, W-weiblich) Person Geschl echt 1 W 2 W 3 W 4 M 5 M 6 W 7 M 8 M 9 W 10 M Reaktionszeit 1 2 2 3 1 3 2 1 3 1 Person 11 12 13 14 15 16 17 18 19 20 Geschle cht M M W W M W W M M M Reaktionszeit 2 1 1 1 3 2 1 3 3 1 Person 21 22 23 24 25 26 27 28 29 30 Geschle cht W W M M W W W W M M Reaktionszeit 2 3 2 2 1 2 2 3 1 1 Geben Sie an: a) Die relative Häufigkeitsverteilung der Zufallsgröße X=Geschlecht! b) Die relative Häufigkeitsverteilung der Zufallsgröße Y=Reaktionszeitgruppe! c) Geben Sie eine Näherung für den Modalwert der Reaktionszeit an! d) Geben Sie eine Näherung für die mittlere Reaktionszeit an! e) Geben Sie eine Näherung für den Median der Reaktionszeit an! f) Was ist der Modalwert des Merkmals Geschlecht? Aufgabe 2 Geben Sie ein geeignetes Zusammenhangsmaß für die folgenden Merkmalspaare an: a) Einstellungsalter und Anfangsgehalt in Euro bei Absolventen einer Hochschule. b) Wartezeit und Verweilzeit von Nachrichten in einem Übertragungssystem c) Preis und Qualitätsklasse von CD‘s d) Leistung (Zensur) in "Statistik" und Leistung in Mathematik Aufgabe 3 Zeigen Sie, dass für den Pearsonschen Korrleationskoeffizient r einer Stipchprobe von Datenpaaren (xi,yi),i=1,....,n gilt: y i = axi + b, i = 1,..., n mit a > 0 1 falls r= y i = axi + b, i = 1,..., n mit a < 0 − 1 falls ©Prof. Dr. rer. nat. B. Grabowski 61 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Aufgabe 4 Zeigen Sie, dass für die Stichprobenkovarianz S xy = 1 n ∑ ( xi − x )( y i − y ) n − 1 i =1 einer Stipchprobe von Datenpaaren (xi,yi),i=1,....,n gilt: S xy = 1 n ∑ xi y i − n ⋅ x ⋅ y n − 1 i =1 Aufgabe 5 Gegeben seien die folgenden Beobachtungswerte der gemeinsam auftretenden Merkmale X und Y. X Y 0 2 2 0 4 6 6 4 Berechnen Sie mit der in Aufgabe 4 hergeleiteten Formel die Stichprobenkovarianz, die Stichprobenvarianz (= Streuung) für x und y und den Pearsonschen Korrelationskoeffizienten! Aufgabe 6 Interpretieren Sie die Aussagen für die Pearson’sche Korrelation: a) Die Korrleation zwischen X und Y ist r = - 0,85. b) Die Korrleation zwischen X und Y ist r = 0,6 Die Korrleation zwischen X und Y ist r = - 0,1. Aufgabe 7 Aus 80 Wertepaaren der Merkmale X (Zwischenankunftszeit zwischen 2 Signalen) und Y (Verweilzeit eines Signals im System ) wurde ein Pearson’scher Korrelationskoeffizient von r = - 0,95 berechnet. Welche der folgenden Aussagen sind richtig? a) Die Beobachtungswerte streuen eng um eine fallende Gerade. b) Ein Zusammenhang ist nicht erwiesen, da r < 0 gilt. c) Die Werte von X und Y sind annähernd umgekehrt proportional zueinander. Aufgabe 8 Für 10 verschiedene Netzbandbreiten (Megabit pro Sekunde) wurde die Anzahl der Transaktionen eines Webservers gemessen (Antworten des Servers pro Sekunde): Beobachtung Netzbandbreite (Mbit/sec) Transaktionszahl A 10 B 20 C 20 D 40 E 50 F 60 G 70 H 80 I 60 J 100 200 300 250 300 500 550 600 900 600 900 Untersuchen Sie den Grad des linearen Zusammenhanges zwischen Netzbandbreite und Transaktionszahl! Aufgabe 9 Warum kann zur Beurteilung des Zusammenhangs zwischen Note in einem Fach und der Beliebtheit des Fach-Dozenten nicht der Korrelationskoeffizient von Pearson berechnet werden? ©Prof. Dr. rer. nat. B. Grabowski 62 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Aufgabe 10 Berechnen Sie die Rangplatzdaten x[i] für folgende Stichprobe xi,i=1,..., 10 und tragen Sie sie in die Tabelle ein! xi x[i] 2 1 2 2 1 4 1 4 2 3 Aufgabe 11 Folgende Grafiken zeigen die Lage von 6 Messdatenpaaren im Koordinatensystem an. a) Berechnen Sie für beide Fälle die Rangplatzdaten R(xi) und R(yi) und stellen Sie die Rangplatzdatenpaare (R(xi),R(yi)) im Koordinatensystem dar! b) Stellen Sie eine Hypothese über den Zusammenhang zwischen der Monotonie der Messdaten (xi,yi) und der Lage der Rangplatzdaten (R(xi),R(yi)) auf! Fall 1: Messdaten liegen auf einer streng monoton wachsenden Funktion Fall 2: Messdaten liegen auf einer streng monoton fallenden Funktion ©Prof. Dr. rer. nat. B. Grabowski 63 HTW des Saarlandes (10/2011) Zusammenhangsmaße-Korrelationen Aufgabe 12 Zwei Studenten haben für die in der Grafik gegebenen Daten den Pearson’schen und den Spearman’schen Korrelationskoeffizienten r bzw. ρ berechnet. Leider haben sie den Zettel, auf dem sie das Resultat ihrer Berechnung geschrieben haben, verloren. Sie wissen nur noch, das beide Koeffizienten je einen der Werte aus der Menge {-1, -0,9, -0,1, 0,1, 0,9, 1} besaßen. Nach einem Blick auf die Grafik der Daten, wussten sie aber sofort, welchen Wert r und welchen Wert ρ hatte. Wie groß sind r und ρ ? Aufgabe 13 CD-Typen werden hinsichtlich Ihrer Qualität von der Stiftung Warentest in 4 Klassen eingeteilt (A: sehr gut, B: gut, C: befriedigend, D: ungenügend). Untersuchen Sie, ob mit wachsendem Preis für ein Paket von 50 Stück auch die Qualität zunimmt! Beoabachtung. Qualität Preis (euro) 1 B 9,10 ©Prof. Dr. rer. nat. B. Grabowski 2 C 7,95 3 B 9,00 64 4 A 9,95 5 C 8,50 6 D 7,95 HTW des Saarlandes (10/2011)