Einführung in Statistik 4. Semester Begleitendes Skriptum zur Vorlesung im Fachhochschul-Studiengang Informationstechnologien und Telekommunikation von Günther Karigl FH Campus Wien 2009 Inhaltsverzeichnis Einführung in Statistik Einleitung 1 1. Deskriptive Statistik 3 1.1 Univariate Datenbeschreibung 1.2 Multivariate Datenbeschreibung 2. Wahrscheinlichkeitsrechnung 2.1 Grundlagen der Wahrscheinlichkeitsrechnung 2.2 Diskrete Verteilungen 2.3 Stetige Verteilungen 3. Überblick Schätz- und Testverfahren 3.1 Punkt- und Intervallschätzung 3.2 Einige statistische Testverfahren Anhang: Statistische Tafeln und Funktionen 3 13 22 22 31 36 41 41 46 A1 1 Einleitung Einleitung Wenn man von Statistik hört, denkt man vielleicht zunächst an Erhebungen über Konsumgewohnheiten, Verkehrsunfälle, an Berechnungen von Preisindizes oder Durchschnittseinkommen − kurzum an das weite Gebiet der sogenannten beschreibenden (deskriptiven) Statistik. Dieser älteste Zweig der Statistik beschäftigt sich vor allem mit der übersichtlichen Darstellung von Datenmengen mittels Tabellen, Graphiken und der Berechnung charakteristischer Maßzahlen (Mittelwert, Varianz, Korrelationskoeffizient u.a.). Die beschreibende Statistik wird heute z.B. von der Republik Österreich im Rahmen der "Amtlichen Statistik", von Markt- und Meinungsforschungsinstituten, u.s.w. betrieben. Daneben wird das Wort Statistik noch in einem anderen Sinn verwendet: Man denke etwa an Wahlhochrechnungen, an Prognosen über die Bevölkerungsentwicklung, an Vergleiche über die Wirksamkeit von Medikamenten oder an die Prüfung von Umweltbelastungen durch Schadstoffe. Fragen dieser Art gehören zum Gebiet der beurteilenden (induktiven) Statistik, deren Ziel es ist, auf Grund von Stichprobendaten allgemeingültige Aussagen über eine bestimmte Grundgesamtheit zu gewinnen. Ein Verständnis der Methoden der beurteilenden Statistik, die in vielen Bereichen der Technik, der Medizin, der Wirtschafts- und der Sozialwissenschaften zur Anwendung gelangen, setzt zumindest Grundkenntnisse der Mathematik, insbesondere der Wahrscheinlichkeitsrechnung, voraus. Ein einfaches Beispiel möge einen ersten Einblick in die Arbeitsweise der induktiven Statistik vermitteln: Der Einfluss von Alkohol auf das menschliche Reaktionsvermögen soll untersucht werden. Dazu werden zehn Personen (behandelte Gruppe "B") zufällig ausgewählt und deren Reaktionszeit in einem genau festgelegten Experiment nach Konsumation einer bestimmten Alkoholmenge gemessen. Zusätzlich werden die Reaktionszeiten von zehn weiteren Personen (Kontrollgruppe "K") ermittelt, die keinen Alkohol zu sich genommen haben. Die erhaltenen Messwerte sind in der folgenden Tabelle zusammengefasst: Gruppe B Gruppe K Reaktionszeiten (in s) der einzelnen Personen 0.79, 0.82, 0.82, 0.67, 0.88, 0.60, 0.94, 0.77, 0.90, 0.74 0.59, 0.68, 0.80, 0.62, 0.64, 0.70, 0.82, 0.91, 0.72, 0.60 Die beiden Gruppen sollen also hinsichtlich eines Merkmals, der Reaktionszeit, miteinander verglichen werden. Dazu wird man zunächst die beiden Gruppenmittel x B = 0.793 bzw. x K = 0.708 berechnen, die erwartungsgemäß nicht übereinstimmen. Für die Verschiedenheit kann es mehrere Gründe geben. Wir wollen ausschließen, dass die Versuchsplanung oder Versuchsdurchführung fehlerhaft war (z.B. kann bei nicht zufälliger Auswahl der Probanden eine künstliche Heterogenität zwischen den beiden Gruppen entstehen). In der Regel werden aber bei jedem Versuch Zufallsschwankungen mitspielen, die z.B. durch biologische Variabilität oder durch Messfehler bedingt sind. Solche Abweichungen sind unvermeidbar und werden in den statistischen Verfahren entsprechend berücksichtigt. Einleitung 2 Schließlich kann tatsächlich ein Unterschied im Verhalten der Gruppen bestehen, d.h. ein Einfluss des Alkoholkonsums auf die Reaktionszeit, und dieser Effekt soll ja gerade aufgedeckt werden. Kann also aus der Ungleichheit der Gruppenmittel geschlossen werden, dass die mittlere Reaktionszeit all jener Menschen, die durch diese 20 Versuchspersonen repräsentiert werden, von Alkoholkonsum beeinflusst wird? Diese Frage lässt sich durch einen statistischen Test beantworten, der angibt, wie und mit welcher Sicherheit von den beiden Stichproben auf die entsprechenden Grundgesamtheiten geschlossen werden kann. Am Beginn einer jeden statistischen Untersuchung sollte stets eine genaue Abgrenzung des zu untersuchenden Problems und die Formulierung von Hypothesen stehen. Erst dann kann sinnvoller weise ein Experiment oder eine Erhebung geplant, ausgeführt und ausgewertet werden. Die statistische Analyse des Datenmaterials ermöglicht schließlich den Schluss von den Stichprobendaten auf die (reale oder hypothetische) Grundgesamtheit, der nie mit vollkommener Sicherheit, sondern lediglich mit einer bestimmten, angebbaren Wahrscheinlichkeit erfolgen kann. Dabei versteht man unter einer realen Grundgesamtheit eine tatsächlich existierende Grundgesamtheit, bestehend aus einer endlichen Anzahl von Individuen oder Objekten (z.B. die Gesamtbevölkerung Österreichs, alle Neugeborenen des Jahres 2000 oder alle Computer einer bestimmten Type aus einer festgelegten Produktionsperiode). Hypothetische Grundgesamtheiten hingegen existieren nur in der Vorstellung und können meist als unendlich groß aufgefasst werden (z.B. alle Leukämiepatienten in vergleichbarem Zustand, die der gleichen Therapie unterzogen werden könnten, oder alle Messungen, die mit demselben Apparat an einem bestimmten Präparat durchgeführt werden könnten). Aussagen über die Grundgesamtheiten erhalten wir aus Untersuchungen von Stichproben. Diese müssen daher so gewählt sein, dass die Ergebnisse auf die betreffende Grundgesamtheit verallgemeinerbar sind. Zumeist geschieht dies in Form von Zufallsstichproben, d.h., dass jedes Element der Grundgesamtheit bei einer Auswahl die gleiche Chance hat, in die Stichprobe zu gelangen. Diese Darstellung ist folgendermaßen gegliedert: Der erste Abschnitt ist der deskriptiven Statistik gewidmet. Dabei werden beschreibende Verfahren für ein- und mehrdimensionale Stichproben, d.h. für Beobachtungen, bei denen ein oder mehrere Merkmale erfasst werden, behandelt. Hierzu zählen tabellarische und graphische Methoden, die Berechnung von Maßzahlen sowie die Regressions- und Korrelationsrechnung. Der nächste Abschnitt beinhaltet das Rechnen mit Wahrscheinlichkeiten, diskrete und stetige Zufallsvariablen und deren Verteilungen. Der dritte Abschnitt ist der beurteilenden Statistik vorbehalten. Dazu zählen insbesondere Verfahren zur Schätzung von Parametern sowie Hypothesentests, wobei Hypothesen über Grundgesamtheiten anhand von Stichproben überprüft und entweder angenommen oder verworfen werden. Unumgänglich im Bereich der Statistik ist natürlich auch die Verwendung geeigneter Statistik-Software. Auswertungen im Rahmen der beschreibenden, aber auch der beurteilenden Statistik sind ohne EDV-Unterstützung praktisch nicht möglich. Aus diesem Grund ist das begleitende EXCEL-Arbeitsskriptum eine wesentliche Ergänzung. 1.1 Univariate Datenbeschreibung 3 1. Deskriptive Statistik Die statistische Auswertung eines Datenmaterials, das durch Messungen, Zählungen oder allgemein durch Beobachtungen an irgendwelchen Objekten gewonnen wurde, beginnt im Allgemeinen wohl damit, dass man die Daten überschaubar ordnet. Diese werden anfangs meist listenartig in der Reihenfolge, wie sie die Untersuchung ergeben hat, vorliegen. Eine solche Darstellung ist aber kaum geeignet, Besonderheiten der Daten erkennen zu lassen und kann vor allem auch keine Vorstellung darüber vermitteln, wie sich z.B. die Beobachtungswerte bei den verschiedenen Merkmalsausprägungen konzentrieren oder welche Symmetrie das so entstehende Verteilungsbild hat. Informationen darüber erhält man meist erst aus einer übersichtlichen Darstellung der Daten in Form der verschiedenen, in der deskriptiven Statistik gebräuchlichen Tabellen oder Diagramme. Während diese also Überschaubarkeit mit möglichst detaillierter Erfassung der Datenstruktur verbinden, hat man in den Lage- und Streuungsmaßen numerische Größen zur Verfügung, die das Datenmaterial global kennzeichnen, und zwar einerseits hinsichtlich der Lage des Zentrums der Beobachtungswerte, andererseits hinsichtlich deren Streuung. Das zu untersuchende Datenmaterial wird in der Regel aus einer umfassenderen Grundgesamtheit ausgewählt sein, d. h. eine Stichprobe bilden. Während sich also dieses Kapitel mit der Beschreibung von Stichproben im Sinne der deskriptiven Statistik befasst, wird es später − im Rahmen der induktiven Statistik − darum gehen, auf der Basis von Stichproben Aussagen über die entsprechenden Grundgesamtheiten zu gewinnen. 1.1 Univariate Datenbeschreibung An Hand des in der folgenden Tabelle dargestellten Beobachtungsmaterials sollen zuerst einige grundlegende Begriffe erläutert werden. Die Tabelle Tab. 1 enthält Daten über gewisse Eigenschaften von insgesamt 64 Kraftfahrzeugen, die durchnumeriert und in Form einer sogenannten Urliste angeschrieben wurden. Man nennt die bei einer statistischen Untersuchung beobachteten Objekte, hier also die einzelnen Fahrzeuge, auch Beobachtungseinheiten. Um klar zu machen, dass die Liste gerade aus 64 Beobachtungseinheiten besteht, spricht man genauer von einer Stichprobe vom Umfang n = 64. Während sich in Tab. 1 jede Zeile auf eine Beobachtungseinheit bezieht, wird durch die mit X1, X2 und X3 überschriebenen Spalten angegeben, wie gewisse Eigenschaften (Eigengewicht, Vorhandensein eines Katalysators bzw. Fahrzeugtyp), die man in diesem Zusammenhang Merkmale (oder Variable) nennt, in der aus den 64 Fahrzeugen bestehenden Stichprobe variieren. An jeder Beobachtungseinheit können entweder ein oder auch mehrere Merkmalsausprägungen erfasst werden. Entsprechend nennt man, je nachdem, wie viele Merkmalsausprägungen von jeder Beobachtungseinheit vorliegen, eine Stichprobe ein-, zweioder mehrdimensional (bzw. univariat, bivariat oder multivariat). So stellt z.B. das gesamte Datenmaterial in Tab. 1 eine dreidimensionale Stichprobe dar. Beschränken wir uns etwa nur auf das Merkmal X1 (Eigengewicht), so haben wir eine eindimensionale Stichprobe. 4 1.1 Univariate Datenbeschreibung Tab. 1. Urliste für die an 64 Kraftfahrzeugen beobachteten Merkmale: X1 Eigengewicht (in kg) X2 Katalysator: vorhanden (j), nicht vorhanden (n) X3 Typ: Klein-LKW (1), Kombi (2), Sportwagen (3), PKW (4), Oldtimer (5) Lfd.Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 X1 823 1201 920 828 688 487 799 542 426 1266 1108 879 734 934 872 700 669 1183 1303 1222 731 465 845 1030 1072 1170 927 1244 671 1123 X2 j j j j j n j j j j j j j j j j j j j j j j n n n j j j j j X3 4 2 4 1 3 4 2 4 4 1 2 1 2 2 2 4 1 1 4 4 2 4 4 2 4 1 2 1 1 4 Lfd.Nr. 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 X1 848 937 792 782 862 1071 965 780 867 1068 875 700 549 542 672 799 920 920 590 918 1083 811 995 673 975 720 715 1152 1450 1125 935 710 1605 1445 X2 j j j n n n j j j n n j n n j j j j n n j j j n j j j j j j j j j j X3 4 2 4 3 1 4 1 4 4 4 5 4 2 2 4 4 4 4 3 2 2 2 2 3 2 2 4 4 4 4 4 4 4 4 Es ist zweckmäßig, zwischen quantitativen und qualitativen Merkmalen zu unterscheiden. Bei quantitativ oder metrisch skalierten Merkmalen sind die Merkmalsausprägungen Ergebnisse von Messungen oder Zählungen und somit von Natur aus zahlenmäßig darstellbar. Von den Merkmalen in Tab. 1 ist X1 (Eigengewicht) natürlich metrisch. Im Gegensatz zu den quantitativen Merkmalen sind die Merkmalsausprägungen bei qualitativ skalierten Merkmalen nicht mehr mess- oder zählbar, sondern nur begrifflich unterscheidbar. Folglich sind die Merkmalsausprägungen häufig in Verbalform dargestellt, wie z.B. „vorhanden“ bzw. „nicht vorhanden“ beim Merkmal X2 (Katalysator) von Tab. 1. Manchmal 1.1 Univariate Datenbeschreibung 5 lassen sich die Ausprägungen eines Merkmals jedoch anordnen, etwa bei Ausprägungen der Form „schwach“, „mittel“, „stark“. Qualitative Merkmale, deren Ausprägungen in eine solche Rangordnung gebracht werden können, heißen ordinal im Unterschied zu den nominalen, bei denen dies nicht möglich ist. Somit ergibt sich die nachstehende, in Hinblick auf die Weiterverarbeitung wichtige Unterscheidung der sogenannten Skalenniveaus von Merkmalen: • Nominalskala: Diese hat das niedrigste Niveau. Die einzelnen Ausprägungen unterscheiden sich nur begrifflich voneinander. Sind sie durch Zahlen codiert, kann man mit diesen Zahlen in keiner Weise rechnen. Beispiel: Geschlecht (männlich, weiblich), Farbe (rot, blau, usw.) oder Kraftfahrzeugtyp (Variable X3 in Tab. 1). • Ordinalskala: Hier ist eine Anordnung der Ausprägungen festgelegt, weitergehende Berechnungen sind aber nicht möglich. Beispiel: Schulnoten von sehr gut (1) bis nicht genügend (5). • Metrische Skala: Die Werte auf dieser Skala sind stets Zahlen, mit denen auch gerechnet werden kann. Bei der Intervallskala können Differenzen von Messwerten gebildet und verglichen werden, der Nullpunkt ist jedoch mehr oder weniger willkürlich festgelegt. Beispiel: Temperatur (in °C). Die Verhältnisskala dagegen hat einen absoluten Nullpunkt, ansonsten gibt es nur positive Werte. Insbesondere können aber auch Quotienten und prozentuelle Unterschiede in sinnvoller Weise betrachtet werden. Beispiel: Körpergewicht oder Körpergröße einer Person, Größe der Klassen an Schulen und Fachhochschulen. Merkmale lassen darüber hinaus auch eine Einteilung in diskret und stetig zu. Im diskreten Fall kommen nur bestimmte, endlich oder abzählbar unendlich viele Werte als Merkmalsausprägungen in Frage. Stetige Merkmale sind hingegen solche, deren Ausprägungen (zumindest theoretisch) beliebige Zahlenwerte aus einem Intervall auf der reellen Zahlengeraden annehmen können. Häufigkeiten bei diskreten Merkmalen In einer Urliste wird oft dieselbe Ausprägung eines bestimmten Merkmals bei mehreren verschiedenen Beobachtungseinheiten auftreten. Es ist naheliegend, diese zusammenzufassen und so die Urliste in eine wesentlich übersichtlichere Häufigkeitstabelle für das betrachtete Merkmal zu verdichten. Beispiel: Wir betrachten die aus den in Tab. 1 enthaltenen Beobachtungen des qualitativen Merkmals X3 (Fahrzeugtyp) bestehende eindimensionale Stichprobe. Der Stichprobenumfang ist n = 64, und es gibt die fünf möglichen Merkmalsausprägungen a1 = 1, a2 = 2, a3 = 3, a4 = 4, a5 = 5. Die Zusammenfassung gleicher Ausprägungen ergibt unmittelbar die absoluten Häufigkeiten der einzelnen Merkmalsausprägungen, die durch Abzählen gewonnen werden können. So findet man als absolute Häufigkeit der Ausprägung a1 = l, kurz mit k1 bezeichnet, den Wert k1 = 10, usw. Dividiert man die absoluten Häufigkeiten ki (i = 1,2,3,4,5) durch den Stichprobenumfang n, so erhält man die entsprechenden relativen Häufigkeiten h1 = k1/n = 10/64 = 0,156, usw. Durch Zusammenfassen der so gewonnenen Ergebnisse erhält man schließlich die nachstehende Häufigkeitstabelle für die betrachtete Stichprobe. Insbesondere erkennt man auch, dass stets hi ≥ 0 gilt und dass h1 + h2 + h3 + h4 + h5 = 1 sein muss. 6 1.1 Univariate Datenbeschreibung Häufigkeitstabelle für die aus den Beobachtungswerten des Fahrzeugtyps X3 gebildete Stichprobe von Tab. 1 Auspr. ai 1 2 3 4 5 Summe Strichliste //// //// //// //// //// /// //// //// //// //// //// //// //// / / abs. Häuf. ki 10 18 4 31 1 64 rel. Häuf. hi (in %) 15.6 28.1 6.3 48.4 1.6 100.0 Allgemein kann also über eindimensionale Stichproben vom Umfang n für ein Merkmal mit den m Ausprägungen al, a2, ..., am gesagt werden: Die relative Häufigkeit hi einer jeden Ausprägung ai erhält man als Quotient ihrer absoluten Häufigkeit ki und des Stichprobenumfanges n, d.h. hi = ki n (i = 1,2,..., m) . Dabei gilt stets hi ≥ 0 und Σ hi = 1. Der durch die Zuordnung zwischen Merkmalsausprägung ai und der relativen Häufigkeit hi für alle i = 1,2,...,m gegebene Zusammenhang heißt kurz Häufigkeitsverteilung des betrachteten Merkmals. Neben der tabellarischen Darstellung einer Häufigkeitsverteilung gibt es auch verschiedene graphische Veranschaulichungen, von denen das Stabdiagramm sowie das Kreisdiagramm genannt seien (siehe Abbildung). Stabdiagramm Kreisdiagramm 35 5 30 1 abs. Häufigkeit 25 20 15 4 10 2 5 0 1 2 3 4 5 3 Fahrzeugtyp Klassenbildung Bei quantitativ diskreten Merkmalen mit einer großen Zahl verschiedener Merkmalsausprägungen ist es zumeist zweckmäßig, benachbarte Merkmalsausprägungen zu Klassen zusammenzufassen. Dazu wird ein Intervall, in dem alle beobachteten Werte liegen, in eine bestimmte Anzahl von meist gleich großen Teilintervallen, den sogenannten Klassen, zerlegt. 7 1.1 Univariate Datenbeschreibung Unumgänglich sind Klasseneinteilungen bei stetigen Merkmalen. Tatsächlich stellt bereits die Niederschrift einer Urliste eine Klasseneinteilung dar, die durch die begrenzte Genauigkeit in den Zahlenangaben bedingt ist. Beispiel: Für die 64 Messwerte der Variablen X1 (Fahrzeuggewicht) von Tab. 1 wählen wir eine Einteilung in Klassen von 300 bis 500, von über 500 bis 700, ..., von über 1500 bis 1700, was eine Gruppierung der Daten in 7 Klassen ergibt. Die oben genannten Zahlen heißen die Klassengrenzen und die (konstante) Differenz jeweils aus oberer und unterer Klassengrenze wird Klassenbreite genannt. Für die Festlegung der Klassenbreite bzw. der Anzahl der zu bildenden Klassen gibt es keine festen Regeln. Als Faustregel für die Klassenzahl kann man sich am Wert Klassenzahl ≈ n orientieren, wobei n den Umfang der Stichprobe bezeichnet. Viele (und damit enge) Klassen setzen einerseits die Übersichtlichkeit herab, andererseits können bei wenigen (d.h. großen) Klassen interessante Details verloren gehen. Diese Einteilung ist auch die Grundlage für die nachstehende Häufigkeitstabelle. Nach der Klassennummer i sind dort die Klassengrenzen angeführt, danach die Klassenmitten ui, weiters für jede Klasse die absolute Klassenhäufigkeit ki (d.h. die Anzahl der Stichprobenwerte, die in die jeweilige Klasse fallen) sowie die relative Klassenhäufigkeit hi (d.h. die durch den Stichprobenumfang n dividierte absolute Klassenhäufigkeit) und schließlich die relative Summenhäufigkeit Hi, die den Anteil der Beobachtungsdaten in den Klassen von 1 bis i angibt. Folglich erhält man Hi auch durch Aufsummieren der relativen Klassenhäufigkeiten h1, h2, , hi. Häufigkeitstabelle für die gruppierten Eigengewichtswerte X1 von Tab. 1 Kl.Nr. i 1 2 3 4 5 6 7 Summe Kl.Grenzen von über / bis 300 - 500 500 - 700 700 - 900 900 - 1100 1100 - 1300 1300 - 1500 1500 - 1700 Kl.Mitte ui 400 600 800 1000 1200 1400 1600 abs.Kl.H. ki 3 11 20 16 10 3 1 64 rel.Kl.H. hi (in %) 4.7 17.2 31.3 25.0 15.6 4.7 1.6 100.0 rel.S.H. Hi (in %) 4.7 21.9 53.1 78.1 93.8 98.4 100.0 Eine graphische Veranschaulichung der durch diese Häufigkeitstabelle bestimmten Verteilung ist das Histogramm. Auf einer horizontalen Merkmalsachse werden die Klassengrenzen bzw. Klassenmitten vermerkt und über jeder Klasse ein Rechteck mit einer der absoluten oder relativen Klassenhäufigkeit entsprechenden Höhe errichtet. (Die Rechteckflächen sind also den jeweiligen Klassenhäufigkeiten proportional.) Gegenüber den Originaldaten bedeutet die Häufigkeitstabelle bzw. das Histogramm aber einen Verlust an Information, nämlich über die Verteilung der Stichprobenwerte in jeder einzelnen Klasse. 8 1.1 Univariate Datenbeschreibung Histogramm 25 Häufigkeit 20 15 10 5 0 400 600 800 1000 1200 1400 1600 Fahrzeuggewicht (gruppiert) Lage- und Streuungsmaße Stichproben werden in übersichtlicher Form und, wenn man von Klasseneinteilungen absieht, ohne jeden Informationsverlust durch Häufigkeitstabellen dargestellt. Dem gegenüber werden zur globalen Kennzeichnung von Stichproben einige numerische Größen verwendet, zu denen vor allem die verschiedenen Lage- und Streuungsmaße gehören. Von den Lagemaßen findet zweifellos das arithmetische Mittel, kurz der Mittelwert am häufigsten Verwendung. Man berechnet ihn bekanntlich, indem man alle Stichprobenwerte zuerst aufsummiert und die Summe dann durch den Stichprobenumfang geteilt wird. Ist n der Stichprobenumfang und sind xl, x2, ..., xn die Stichprobenwerte, so gilt für den Mittelwert x= 1 1 n ( x 1 + x 2 + ... + x n ) = ∑ x i . n n i =1 Erleichtert wird die Berechnung von x , wenn man nicht auf die Urliste zurückgreifen muss, sondern bereits eine Häufigkeitstabelle vorhanden ist. Liegt dieser eine Klasseneinteilung zugrunde, so lässt sich daraus der Mittelwert allerdings nur näherungsweise bestimmen. Wenn insgesamt n Stichprobenwerte in m Klassen eingeteilt sind und wenn ui bzw. ki die Klassenmitte bzw. absolute Klassenhäufigkeit der i-ten Klasse ist, dann gilt 1 1 m x = (k 1 u 1 + k 2 u 2 + ... + k m u m ) = ∑ k i u i . n n i =1 Beispiel: Für die Fahrzeuggewichte von Tab. 1 beträgt der Mittelwert x = 901,77 kg. Auf Basis der vorgenommenen Klasseneinteilung erhält man statt des exakten Wertes den Näherungswert x ≈ 900,00 kg. Die Übereinstimmung mit dem exakten Wert ist natürlich umso besser, je feiner die Klasseneinteilung vorgenommen wird. Man beachte, dass das arithmetische Mittel i. Allg. mit keinem Stichprobenwert zusammenfällt, ja − bei einem diskreten Merkmal − zumeist nicht einmal mit irgendeiner möglichen 9 1.1 Univariate Datenbeschreibung Merkmalsausprägung übereinstimmen wird. Ferner ist die Bildung des Mittelswert nur auf metrischem Skalenniveau möglich, bei qualitativen Merkmalen ist sie sinnlos. Neben dem arithmetischen Mittel spielt auch der Median (oder Zentralwert) als Mittelwertmaß eine wichtige Rolle. Zu seiner Bestimmung wird die Stichprobe xl, x2, ..., xn der Größe nach geordnet, sodass sie als sogenannte Rangliste in der Form x(l) ≤ x(2) ≤ ... ≤ x(n) vorliegt. Bei ungeradem Stichprobenumfang n ist der Median ~ x dann nämlich gleich dem mittleren der Stichprobenwerte, bei geradem n gleich dem arithmetischen Mittel aus den beiden mittleren Werten, d.h. x (k +1) xɶ = x (k ) + x (k +1) 2 für n = 2k + 1 für n = 2k . x. Damit liegen stets gleich viele Stichprobenwerte unterhalb wie oberhalb von ~ Der Median ist ein Sonderfall eines allgemeineren Lagemaßes, nämlich des p-Quantils ~ xp ~ (für 0 < p < 1). Dabei ist x jener Wert, der von einem Anteil p aller Stichprobenwerte unterp schritten und von einem Anteil 1 − p überschritten wird. Seine explizite Berechnung erfolgt nach folgender Formel: x (k +1) xɶ p = x (k ) + x (k +1) 2 mit k = [pn], falls pn keine ganze Zahl mit k = pn, falls pn ganze Zahl (wobei k = [pn] in der ersten Zeile die nächst kleinere ganze Zahl an pn, also k + 1 die nächst x = ~ x 0.5 gerade das 50%größere ganze Zahl an pn bezeichnet). Somit stellt der Median ~ Quantil dar, während die 25%- bzw. 75%-Quantile auch erstes Quartil Q1 = ~ x 0.25 und drittes Quartil Q3 = ~ x 0.75 genannt werden. Während der Mittelwert streng genommen nur für quantitative Merkmale sinnvoll ist, können der Median und alle Quantile auch für ordinale Merkmale verwendet werden. Besitzen die Ausgangsdaten lediglich nominales Merkmalsniveau, eignet sich als Lagemaß einer solchen Stichprobe nur noch die Angabe des Modalwerts (oder Modus) xmod, welcher einfach als häufigster Wert des betrachteten Merkmals definiert ist (falls es diesen gibt). Zwei Stichproben können das gleiche Mittelwertmaß besitzen und trotzdem stark voneinander abweichen, indem die Stichprobenwerte mehr oder weniger um dieses Maß streuen. Dementsprechend wird die Häufigkeitsverteilung in einem Fall einen eher flachen, im anderen Fall einen eher steilen Verlauf aufweisen. Zur Kennzeichnung dieser Eigenschaft ist über das Lagemaß hinaus die Angabe eines Streuungsmaßes unerlässlich. Das wichtigste Streuungsmaß ist die Varianz s2. Diese ist für eine Stichprobe xl, x2, ..., xn mit dem Umfang n und dem Mittelwert x definiert durch s2 = n 1 n 1 2 2 ( x − x ) = ( x i − nx 2 ) . ∑ ∑ i n − 1 i =1 n − 1 i =1 Falls alle Stichprobenwerte xi zusammenfallen, gilt xi = x und folglich s2 = 0. In jedem anderen Fall ist s2 > 0. Die Wurzel von s2 nennt man die Standardabweichung s. 10 1.1 Univariate Datenbeschreibung Beispiel: Für die Fahrzeuggewichte von Tab. 1 lautet der Mittelwert x = 901,77 kg. Die Varianz ist gegeben durch s2 = 61436,50 kg2, und damit beträgt die Standardabweichung s = 247,86 kg. Liegt die Stichprobe als Klasseneinteilung vor, so erhält man wie vorhin bei der Berechnung des arithmetischen Mittels einen Näherungswert für s2, wenn man für jede Klasse die darin liegenden Stichprobenwerte als in der Klassenmitte befindlich annimmt. Für die gruppierten Fahrzeuggewichte berechnen wir: Kl.Nr. i 1 2 3 4 5 6 7 Summe Kl.Mitte ui 400 600 800 1000 1200 1400 1600 abs.Kl.H. ki 3 11 20 16 10 3 1 64 kiui 1200 6600 16000 16000 12000 4200 1600 57600 ki(ui− x )2 750000 990000 200000 160000 900000 750000 490000 4240000 Diesem Schema kann man unmittelbar als Näherungen x = 57600/64 = 900 sowie s2 = 4240000/63 = 67301,59 und folglich s = 259,43 entnehmen. Vergleiche zwischen den Streuungen in zwei Stichproben mittels s2 oder s sind nur dann sinnvoll, wenn die Werte in beiden Stichproben dieselbe Größenordnung besitzen. Ansonsten ist eine Relativierung von s auf den Mittelwert x angebracht. Die dadurch entstehende Größe v = s/ x heißt Variationskoeffizient, sie ist dimensionslos und wird meist in Prozenten angegeben. Besonders einfach kann die Streuung einer Stichprobe durch ihre Spannweite R = xmax − xmin erfasst werden, d.h. durch die Differenz zwischen dem größten und kleinsten Messwert. Diese schnell zu bildende Größe ist vor allem bei kleinem Stichprobenumfang durchaus geeignet, eine Vorstellung über die Streuung der Beobachtungswerte zu vermitteln, sie ist allerdings sehr stark durch Ausreißer beeinflusst. Dieser Abhängigkeit der Spannweite von Ausreißern versucht man dadurch entgegenzuwirken, dass man die Daten an den beiden äußersten Rändern der Stichprobe nicht einbezieht. Auf diese Weise erhält man etwa den sogenannten Interquartilabstand IQR, welcher als Abstand zwischen dem ersten und dritten Quartil definiert ist, also IQR = Q3 − Q1. Die folgende Übersicht zeigt, welche Skalenniveaus für die sinnvolle Berechnung der einzelnen Lage- und Streuungsmaße notwendig sind. Skala Modalwert nominal ordinal metrisch (Intervall) metrisch (Verhältn.) ja ja ja ja Lagemaße Streuungsmaße Median, Mittelwert Spannweite, Varianz, VariationsQuantile IQR Std.Abw. koeffizient ja ja ja ja ja ja ja ja ja ja 11 1.1 Univariate Datenbeschreibung Eine einfache graphische Darstellung, welche Aufschlüsse über Lage und Streuung einer Stichprobe erlaubt, sind die sogenannten Box-Plots (oder Box-and-Whiskers-Plots). Dabei wird um den Median ein Rechteck vom ersten zum dritten Quartil gezeichnet, welches 50% der Stichprobenwerte beinhaltet. Die von diesem Rechteck ausgehenden Striche zeigen die Lage des Minimums und des Maximums der Stichprobe an (siehe Abbildung). 1. Quartil Minimum 3. Quartil Mittelwert Maximum Median Box-Plots zum Vergleich der Körpergröße von n1 = 39 männlichen und n2 = 30 weiblichen Studenten Neben den Lage- und Streuungsmaßen gibt es noch weitere Kennzahlen zur Charakterisierung von Stichproben und deren Verteilungen. Dazu gehört u.a. die Schiefe g, welche ein Maß für die Symmetrie bzw. Asymmetrie der Verteilung eines metrisch skalierten Merkmals darstellt. Sie ist formelmäßig gegeben durch 12 1.1 Univariate Datenbeschreibung 1 n ⋅ ∑ (x i − x) 3 n i =1 . g= s3 Die Schiefe g ist dimensionslos, sie kann sowohl positiv als auch negativ sein. Für eine symmetrische Verteilung gilt g = 0, sie ist rechtsschief, falls g > 0 bzw. linksschief, falls g < 0 (siehe Abbildung). Empirische Verteilungen mit unterschiedlicher Schiefe linksschief g<0 x <~ x < xmod symmetrisch g=0 x =~ x = xmod rechtsschief g>0 x >~ x > xmod Zusammenfassung Das bei einer Untersuchung anfallende Datenmaterial schreibt man zweckmäßigerweise zuerst in einer so genannten Urliste zusammen, etwa in Form einer Tabelle, in der jede Zeile einer Beobachtungseinheit in der Stichprobe und jede Spalte einem Merkmal entspricht. Die Anzahl der Beobachtungseinheiten bestimmt den Stichprobenumfang, je nach der Anzahl der Merkmale spricht man von ein- oder mehrdimensionalen Stichproben. Die einzelnen Merkmale können nominales, ordinales oder metrisches Skalenniveau besitzen. Eine einfache und zugleich übersichtliche Darstellung des Datenmaterials einer eindimensionalen Stichprobe ist die Häufigkeitstabelle. Diese enthält neben den einzelnen Ausprägungen a1, a2, ..., am des beobachteten Merkmals die entsprechenden absoluten Häufigkeiten kl, k2, ...,km bzw. relativen Häufigkeiten h1, h2, ..., hm, wobei für i = 1,2,...,m gilt: hi = ki ≥ 0 und n m ∑h i =1. i =1 Zur Erreichung einer übersichtlicheren Darstellung ist es bei stetigen und häufig auch bei diskreten Merkmalen notwendig, die Merkmalsausprägungen in Klassen zusammenzufassen. Erfahrungsgemäß wählt man etwa m ≈ n Klassen bei einem Stichprobenumfang von n. Unbesetzte mittlere Klassen sollten durch geeignete Wahl von m bzw. der Klassengrenzen vermieden werden. Die Anzahl der Stichprobenwerte, die in die Klasse i fallen, heißt die entsprechende absolute Klassenhäufigkeit ki. Nach Division durch den Stichprobenumfang n ergibt sich daraus die relative Klassenhäufigkeit hi = ki/n. Schließlich ist die relative Summenhäufigkeit Hi gleich der auf den Stichprobenumfang bezogenen Anzahl der Stichprobenwerte in den Klassen 1,2,...,i, d.h. 13 1.1 Univariate Datenbeschreibung i Hi = ∑ h j . j=1 Nach der Klasseneinteilung treten die ursprünglichen Beobachtungsdaten nicht mehr in Erscheinung. Vielmehr wird angenommen, dass alle Werte einer Klasse i in der zugehörigen Klassenmitte ui liegen. Graphisch lassen sich eindimensionale Stichproben z.B. durch Stabund Kreisdiagramme bzw. bei gruppierten Daten durch Histogramme veranschaulichen. Die Lagemaße kennzeichnen die Werte einer Stichprobe insofern, als sie deren „Lage“ jeweils durch eine einzige Zahl beschreiben. Am wichtigsten ist das arithmetische Mittel x , das man durch einfache Durchschnittsbildung erhält. Demgegenüber ist der Median ~ x als spezielles Quantil jene Zahl, die von ebenso vielen Stichprobenwerten unter- wie überschritten wird. Weitere Quantile sind die beiden Quartile Q1 und Q3. Der Modalwert ist der häufigste Wert innerhalb einer Stichprobe. Offensichtlich ist bei nominalen und ordinalen Merkmalen die Bildung des arithmetischen Mittels sinnlos, ebenso die Bildung des Medians bei nominalen, nicht aber bei ordinalen Merkmalen. Bei metrischen Merkmalen findet meist das arithmetische Mittel Verwendung. Da dieses im Unterschied zum Median von extremen Stichprobenwerten, sogenannten „Ausreißern“, stark beeinflusst wird, kann sich bei unsymmetrischer Häufigkeitsverteilung der Median als das zweckmäßigere Lagemaß erweisen. Bei symmetrischen Verteilungen fallen x und ~ x zusammen; eingipfelige unsymmetrische Verteilungen mit ~ x < x heißen rechtsschief, solche mit x < ~ x linksschief. Zur Kennzeichnung der Streuung der Werte einer Stichprobe (für ein metrisches Merkmal) sind die Spannweite R, d.i. der maximale Abstand der Stichprobenwerte, der Interquartilabstand IQR, d.i. der Abstand der beiden Quartile und schließlich die Varianz s2 bzw. die Wurzel aus s2, d.i. die Standardabweichung s gebräuchlich. Lage und Streuung von Stichproben können übersichtlich mit Hilfe von Box-Plots dargestellt werden. 1.2 Multivariate Datenbeschreibung Wenngleich auch bisher schon mehrere Merkmale je Beobachtungseinheit betrachtet und datenmäßig erfasst wurden, so erfolgte doch deren statistische Auswertung stets getrennt. In diesem Abschnitt sollen nun der Zusammenhang zwischen zwei Merkmalen, also z.B. Körpergröße und Körpergewicht, Haarfarbe und Augenfarbe oder Geschwindigkeit und Bremsweg untersucht sowie Art und Ausmaß der Abhängigkeiten zwischen diesen Merkmalen beschrieben werden. Zu diesem Zweck sollen zwei Situationen auseinandergehalten werden, je nachdem, ob die beiden betrachteten Merkmale qualitativer oder quantitativer Natur sind. Kontingenztafeln Wir betrachten zunächst den Fall, dass beide Beobachtungen qualitative Merkmale betreffen, deren Ausprägungen also in (zwei oder mehrere) begrifflich unterscheidbare Klassen ein- 14 1.2 Multivariate Datenbeschreibung geteilt werden können. Eine derartige Situation ist z.B. dann gegeben, wenn Haarfarbe und Augenfarbe oder − wie in folgendem Beispiel − Geschlecht und Rauchgewohnheiten miteinander verglichen werden sollen. Beispiel: In einer Gruppe von Studenten befinden sich 39 Männer und 30 Frauen. Unter den Männern sind 19 Raucher, unter den Frauen sind es dagegen 10. Kann von diesen Daten auf einen Zusammenhang zwischen den beiden Merkmalen Geschlecht und Rauchgewohnheiten geschlossen werden? Tab. 2. Vierfeldertafel für die Merkmale Geschlecht und Rauchen männlich weiblich Raucher n11 = 19 n21 = 10 n.1 = 29 Nichtraucher n12 = 20 n22 = 20 n.2 = 40 n1. = 39 n2. = 30 n = 69 Eine übersichtliche Darstellung des Datenmaterials erreicht man in Form einer so genannten Vierfeldertafel, in der die absoluten Häufigkeiten aller möglichen Kombinationen von Merkmalsausprägungen eingetragen sind. Die Anzahl der männlichen Raucher bezeichnen wir mit n11 = 19, und entsprechend sind die Besetzungszahlen der weiteren Klassen durch n12, n21 und n22 gegeben (siehe Tab. 2). Aus ihnen lassen sich die Randhäufigkeiten berechnen, das sind die Zeilensummen n1. = n11 + n12 = 39 und n2. = n21 + n22 = 30, die die Besetzungszahlen für das Merkmal Geschlecht angeben, und die Spaltensummen n.1 = n11 + n21 = 29 und n.2 = n12 + n22 = 40, die die Besetzungszahlen für das Merkmal Rauchen darstellen (dabei gibt der Punkt jeweils an, über welchen Index summiert wurde). Die Gesamtzahl aller Studenten ist somit n = n1. + n2. = n.1 + n.2 = 69. Um aus den oben eingeführten absoluten Häufigkeiten die entsprechenden relativen Häufigkeiten zu erhalten, dividieren wir durch den Stichprobenumfang n. Berechnung der relativen Häufigkeiten für Tab. 2 männlich weiblich Raucher h11 = 0,275 h21 = 0,145 h.1 = 0,420 Nichtraucher h12 = 0,290 h22 = 0,290 h.2 = 0,580 h1. = 0,565 h2. = 0,435 1 Aus dieser Tabelle geht hervor, dass sich unsere Stichprobe aus 56,5% Männern und 43,5% Frauen bzw. aus 42% Rauchern und 58% Nichtrauchern zusammensetzt. Mit Hilfe dieser relativen Häufigkeiten kann man sich schon ein grobes Bild von der Abhängigkeit zwischen den beiden betrachteten Merkmalen verschaffen. Nehmen wir nämlich an, dass zwischen beiden Merkmalen Unabhängigkeit besteht, so müsste der Prozentsatz der Raucher (jeweils innerhalb der Männer bzw. Frauen) für Männer und Frauen gleich groß, und zwar gleich h.1 = 0,42 sein. Das bedeutet beispielsweise für die männlichen Raucher, dass n11 / n1. = h.1 bzw. n11 15 1.2 Multivariate Datenbeschreibung = n1.⋅h.1 = n⋅h1.⋅h.1 sein muss. Wir können daher im Fall der Unabhängigkeit der beiden Merkmale die folgenden absoluten Klassenhäufigkeiten erwarten: e11 = n⋅h1.⋅h.1 = 16,4, e12 = n⋅h1.⋅h.2 = 22,6, e21 = n⋅h2.⋅h.1 = 12,6, e22 = n⋅h2.⋅h.2 = 17,4. Ein Vergleich dieser erwarteten Ergebnisse mit den tatsächlich beobachteten Größen n11, n12, n21 und n22 (Tab. 2) zeigt jedoch deutliche Unterschiede, und es könnte vermutet werden, dass allgemein der Anteil der Raucher unter den Männern größer ist als unter den Frauen. Präzise Aussagen liefert erst ein statistischer Test, nämlich der χ2-Test. Im Allgemeinen können die beiden Merkmale natürlich auch mehr als zwei verschiedene Merkmalsausprägungen aufweisen. Betrachtet man die Merkmale X und Y, die in den Ausprägungen a1, a2, ..., ak bzw. bl, b2, ..., bm vorkommen, so kann man die Besetzungszahlen nij der einzelnen Klassen in Form einer Kontingenztafel anordnen. (Die Vierfeldertafel ist also ein Spezialfall einer Kontingenztafel für k = m = 2.) Allgemeine Form einer Kontingenztafel für zwei Merkmale mit k bzw. m Ausprägungen b1 b2 ⋯ a1 n11 n12 ⋯ n1 j ⋯ n1m n1. a2 n 21 n 22 ⋯ n 2 j ⋯ n 2 m n 2. ⋮ ⋮ ⋮ ai n i1 ni2 ⋮ ⋮ ⋮ ak bj ⋮ ⋯ n ij ⋮ ⋯ bm ⋮ ⋯ n im ⋮ ⋮ n i. ⋮ n k1 n k 2 ⋯ n kj ⋯ n km n k. n .1 n n .2 ⋯ n. j ⋯ n .m Die Randhäufigkeiten ni. und n.j sind wieder die Zeilen- bzw. Spaltensummen, und die Gesamtsumme n entspricht der Anzahl aller Beobachtungen. Die relativen Häufigkeiten ergeben sich genauso wie bei der Vierfeldertafel, und auch die Überlegungen zur Unabhängigkeit gelten hier unverändert. Korrelation Zu den in der Statistik am häufigsten verwendeten Verfahren zählen zweifellos die Korrelations- und die Regressionsanalyse. Beide Verfahren sind dazu geeignet, Beziehungen zwischen zwei (oder mehreren) quantitativen Merkmalen zu studieren, jedoch zu jeweils verschiedenem Zweck. Wir betrachten im Folgenden zwei Variablen X und Y, die mit einer Stichprobe (x1,y1), (x2,y2), ..., (xn,yn) vom Umfang n erhoben wurden. Zunächst nehmen wir an, dass keine Unterscheidung in eine abhängige und eine unabhängige Variable möglich oder sinnvoll ist, sondern beide Größen einander gleichberechtigt gegenüberstehen. Die ältesten Beispiele für diese für die Korrelationsanalyse typische Situation stammen aus der Biostatistik und betreffen den Zusammenhang quantitativer Merkmale zwischen Verwandten, also z.B. die Körpergröße von Brüdern und Schwestern. Eine Beurteilung des Zusammenhanges zwischen derartigen Größen ermöglicht der (empirische) Korrelationskoeffizient r, der als Maß für die „Kovariabilität“ der beiden Merkmale angesehen werden kann; er gibt den Grad der Linearität des Zusammenhanges zwischen den beobachteten Größen an und wird wie folgt berechnet: 16 1.2 Multivariate Datenbeschreibung r= s xy sxsy . Dabei bedeuten sx und sy die Standardabweichungen der x- bzw. y-Werte und sxy die Kovarianz der (x,y)-Wertepaare der Stichprobe gemäß s xy = 1 n 1 n ( x i − x )( y i − y) = ∑ x i y i − nxy . ∑ n − 1 i =1 n − 1 i =1 Ferner gilt stets −1 ≤ r ≤ 1. Beispiel: In Tab. 3 ist der systolische Blutdruck für 16 Zwillingspaare angegeben. Wir fragen nach der Güte des linearen Zusammenhanges zwischen den Blutdruckwerten der Zwillingspaare und berechnen dazu den Korrelationskoeffizienten der Stichprobe. Tab. 3. Systolischer Blutdruck (in mm Hg) von identischen Zwillingen 1. Zwilling X 2. Zwilling Y 152 123 124 188 121 150 165 144 123 174 155 138 127 182 117 160 143 160 125 170 119 182 170 117 145 130 118 186 172 120 160 138 Korrelogram m 200 190 180 Blutdruck Y 170 160 150 140 130 120 110 100 100 120 140 160 180 200 Blutdruck X Um eine ungefähre Vorstellung über den möglichen Zusammenhang zwischen den x- und yWerten zu gewinnen, zeichnen wir die sechzehn Wertepaare in ein (x,y)-Koordinatensystem, wobei sich ein sogenanntes Korrelogramm (oder Streudiagramm) ergibt (siehe Abbildung). Dieses vermittelt den Eindruck, dass die entsprechenden Punkte annähernd auf einer Geraden liegen, d.h., dass ein linearer Zusammenhang zwischen den Größen X und Y besteht. Der Reihe nach berechnen wir nun sx = 24,26, sy = 23,07 und sxy = 515,11; daraus ergibt sich der Korrelationskoeffizient r = sxy / (sxsy) = 0,92. 17 1.2 Multivariate Datenbeschreibung Zur Beurteilung dieses Wertes betrachte man zunächst die theoretisch möglichen Grenzfälle r = 0 und r = ±l. Allgemein bedeutet r = 0, dass aus den beobachteten Daten kein linearer Zusammenhang erkennbar ist. Ist r = 1 oder r = −1, dann liegen alle Beobachtungspunkte im Korrelogramm exakt auf einer Geraden, sonst hingegen nicht. Je näher r bei 1 (oder −1) liegt, desto genauer folgen die Punkte der Geraden im Korrelogramm. Ein positiver Korrelationskoeffizient bedeutet, dass für wachsende x-Werte im Durchschnitt auch die y-Werte ansteigen; ist r negativ, so fällt y im Mittel für größer werdendes x. Der Korrelationskoeffizient ist eine dimensionslose Größe, sein Wert ist unabhängig von den Maßeinheiten der x- bzw. y-Werte. In obigem Beispiel sind die Blutdruckwerte der beiden Zwillinge positiv korreliert: Mit steigendem Blutdruck des ersten Zwillings nimmt auch der des zweiten Zwillings zu. Der hohe Wert von r = 0,92 für den Korrelationskoeffizienten zeigt einen sehr guten linearen Zusammenhang der beiden Merkmale in den beobachteten Daten. Der Korrelationskoeffizient r ist kein Maß für den Zusammenhang zweier Merkmale schlechthin, sondern r beurteilt nur den linearen Zusammenhang; es ist daher durchaus möglich, dass r nahe bei 0 liegt, obwohl die Datenpaare z.B. recht genau dem Verlauf einer Parabel folgen. Zur richtigen Einschätzung des rechnerischen Ergebnisses ist daher unbedingt auch das Korrelogramm zu studieren. Ein hoher r-Wert sagt nur statistisch etwas über den Zusammenhang der beobachteten Daten aus. Keineswegs darf eine solcherart errechnete Abhängigkeit ohne jede weitere Überlegung als Kausalzusammenhang interpretiert werden. In solch einem Fall kann nämlich Y von X oder auch X von Y abhängen, die beiden Merkmale können einander aber auch gegenseitig beeinflussen. Oder aber es gibt noch eine dritte Größe Z im Hintergrund, welche sowohl X als auch Y beeinflusst. Bei einem Zusammenhang dieser Art spricht man von einer Scheinkorrelation. Der Korrelationskoeffizient r kann nur gebildet werden, wenn die Merkmale X und Y beide quantitativ sind. Ist mindestens eines der beiden Merkmale nur ordinal, so kann man sich so behelfen, dass man statt der Originalwerte x1, x2, ..., xn bzw. y1, y2, ..., yn die Rangzahlen R(x1), R(x2), ..., R(xn) bzw. R(y1), R(y2), ..., R(yn) nimmt, die diesen bei einer aufsteigenden Sortierung zukommen. Durch Einsetzen in obige Formel für r ergibt sich dann der sogenannte Rangkorrelationskoeffizient von Spearman n 6∑ d i rs = 1 − 2 i =1 n (n − 1)(n + 1) mit d i = R ( x i ) − R ( y i ) . Genau wie der Korrelationskoeffizient r kann auch rs nur Werte in dem Intervall [−1,1] annehmen, allerdings mit dem Unterschied, dass die Extremwerte +1 und −1 genau dann angenommen werden, wenn ein durchgängiger monotoner Zusammenhang (und zwar wachsend bzw. fallend, je nach Vorzeichen) zwischen den ursprünglichen x- und y-Werten besteht. Regression In diesem Abschnitt wollen wir zwei quantitative Größen studieren, bei denen die Werte des einen Merkmals ursprünglich bekannt oder vorgegeben sind, während die Werte des zweiten Merkmals von diesen − wenn auch mit zufallsbedingten Schwankungen − abhängen mögen. 18 1.2 Multivariate Datenbeschreibung Die Regressionsanalyse wird angewendet, wenn der formelmäßige Zusammenhang bestimmt und Werte des einen Merkmals zu gegebenen Werten des anderen Merkmals vorhergesagt bzw. geschätzt werden sollen. Historisch geht die Bezeichnung Regression auf Beobachtungen über den Zusammenhang zwischen der Größe von Vätern und deren Söhnen zurück, die zuerst von F. Galton gemacht wurden: Es zeigte sich, dass große Väter im Durchschnitt zwar auch große Söhne haben, diese sind aber zumeist etwas kleiner als ihre Väter; entsprechendes gilt für kleine Väter. Galton schloss daraus auf einen Rückschritt (Regress) zur durchschnittlichen Größe der Population. Beispiel: Aus einer Stichprobe von zwölf Frauen sei das Alter X (in Jahren) sowie der systolische Blutdruck Y (in mm Hg) gegeben (Tab. 4). Kann damit allgemein aus der Kenntnis des Alters einer Frau eine Aussage über deren ungefähren Blutdruck gemacht werden? Tab. 4. Alter und systolischer Blutdruck von Frauen Alter X (in Jahren) Syst. Blutdruck Y (in mm Hg) 42 137 50 168 52 147 25 132 32 121 36 134 38 133 60 165 67 188 68 165 70 180 40 128 Wir stellen die zwölf Wertepaare zunächst wieder in einem Korrelogramm dar und erkennen, dass Y bis auf zufallsbedingte Schwankungen linear von X abhängt, d.h., dass wir den x-yZusammenhang annähernd durch eine Gerade beschreiben können. Diejenige Gerade, die diesen Zusammenhang in gewissem Sinn am besten erfasst, heißt (empirische) Regressionsgerade von Y bezüglich X; sie minimiert die Summe der Quadrate der senkrechten Abstände (Prinzip der kleinsten Quadrate). Die Regressionsgerade lässt sich allgemein darstellen durch 19 1.2 Multivariate Datenbeschreibung y = a + bx (a,b konstant) oder y − y = b (x − x ). Dabei sind x und y die arithmetischen Mittel der x- und y-Werte. Den Proportionalitätsfaktor b nennt man Regressionskoeffizient. Zu seiner Berechnung ermitteln wir zuerst die Varianz sx2 der x-Werte und die Kovarianz sxy der (x,y)-Wertepaare der Stichprobe; der Regressionskoeffizient ergibt sich dann aus b= s xy sx 2 , die Konstante a aus a = y − bx . Für die Daten aus obigem Beispiel berechnen wir nun sukzessive x = 48,33, y = 149,83, sx2 = 230,61 und sxy = 307,33. Somit erhalten wir b = sxy / sx2 = 1,33 und a = y − b x = 85,42. Die Regressionsgerade ist also durch die Gleichung y = 85,42 + 1,33 x bestimmt und ebenfalls in obiger Abbildung dargestellt. Sie erlaubt es uns, zu einer vorgegebenen Ausprägung x des Merkmals X einen Näherungswert y des Merkmals Y zu finden, d.h., zu einem gewissen Alter einen erwarteten (durchschnittlichen) Wert für den systolischen Blutdruck anzugeben. Ein Maß dafür, wie genau die einzelnen Beobachtungen der Regressionsgeraden folgen, ist das so genannte Bestimmtheitsmaß r2, welches als Quadrat des Korrelationskoeffizienten r berechnet wird. Das Bestimmtheitsmaß kann als Anteil der durch Regression erklärten Variation an der Gesamtvariation interpretiert werden, es gilt stets 0 ≤ r2 ≤ 1. Der Wert r2 = 1 wird genau dann angenommen, wenn alle Punkte auf der Regressionsgeraden liegen. In diesem Fall spricht man davon, dass die gesamte Streuung der y-Werte durch die Regression erklärt wird. Je mehr die Punkte von der Regressionsgeraden abweichen, desto kleiner wird das Bestimmtheitsmaß. Von der Regressionsgeraden von Y bezüglich X (fast immer) verschieden ist die Gerade von X bezüglich Y, die die Summe der Quadrate der waagrechten Abstände minimiert. Sie kann vollkommen analog zu den obigen Überlegungen bestimmt werden, wobei lediglich die xWerte gegen die y-Werte auszutauschen sind. Im Allgemeinen ist aber eines der beiden Merkmale als ursprüngliche, bekannte oder unabhängige Variable ausgezeichnet, aus der man mittels einer Regressionsformel die unbekannte, abhängige Variable näherungsweise berechnen möchte. Die Ermittlung einer Regressionsgeraden ist allerdings nur dann sinnvoll, wenn sich im Korrelogramm tatsächlich ein annähernd linearer Zusammenhang und nicht etwa ein deutlicher Kurvenverlauf zeigt. Dann wäre unter Umständen ein Verfahren der nichtlinearen Regression zielführend, wobei gelegentlich eine Zurückführung auf den linearen Fall möglich ist, wie das nachfolgende Beispiel zeigt. Beispiel: Für ein radioaktives Präparat wurden nach x Tagen die folgenden Aktivitäten gemessen: Zeit X (in Tagen) Aktivität Y (in Zerfällen/Minute) 0 5 10 15 20 25 30 510 397 307 240 181 142 108 20 1.2 Multivariate Datenbeschreibung Wir wollen mit Hilfe dieser Daten einen formelmäßigen Zusammenhang zwischen den Größen X und Y finden und daraus die Halbwertszeit für den Zerfallsprozess bestimmen. Trägt man die sieben Wertepaare (xi,yi) als Punkte in ein Korrelogramm ein, so kann man deutlich einen abnehmenden nichtlinearen Kurvenverlauf erkennen (vgl. untenstehende Abbildung). Tatsächlich wird ein radioaktiver Zerfall durch eine Exponentialfunktion der Form y = y 0 e − λx beschrieben, wobei die Konstante y0 die Aktivität zum Zeitpunkt x = 0 und λ die sogenannte Zerfallskonstante bedeuten. Eine häufig angewandte Methode zur Bestimmung dieser Größen besteht nun darin, diese Gleichung zu logarithmieren, also ln y = ln y 0 − λx zu bilden, und auf diese Weise den exponentiellen Zusammenhang zwischen X und Y auf einen linearen Zusammenhang zwischen X und Z = ln Y mit a = ln y0 und b = −λ zurückzuführen. Die Anwendung der linearen Regressionsrechnung auf die entsprechenden Wertepaare (xi,zi) liefert unmittelbar die Konstanten a = 6,24 und b = −0,052, somit y0 = ea = 513,84 und λ = −b = 0,052. Die Zerfallskurve wird daher durch die Gleichung y = 513,84e −0, 052 x beschrieben und ermöglicht für jeden Zeitpunkt x die näherungsweise Bestimmung der entsprechenden Aktivität y(x). Die Halbwertszeit τ ergibt sich schließlich aus der Gleichung y(τ) = 0,5 y0 und beträgt somit τ = −(ln 0,5)/λ = 13,3 Tage. Zusammenfassung Eine zweidimensionale Stichprobe qualitativer Merkmale kann in übersichtlicher Form durch eine Kontingenztafel dargestellt werden. Kommen die Merkmale A und B in den Ausprägungen A1, A2, ..., Ak bzw. Bl, B2, ..., Bs vor, so geben die Besetzungszahlen nij in der i-ten 1.2 Multivariate Datenbeschreibung 21 Zeile bzw. j-ten Spalte der Kontingenztafel die Anzahl jener Elemente der Stichprobe an, die vom Typ Ai und zugleich vom Typ Bj sind. Besitzt jedes Merkmal nur zwei verschiedene Ausprägungen, d.h. k = s = 2, spricht man von einer Vierfeldertafel. Die Randhäufigkeiten, das sind die Zeilen- bzw. Spaltensummen der Kontingenztafel, bestimmen die Randverteilungen der einzelnen Merkmale. Eine Division sämtlicher absoluter Größen durch den Stichprobenumfang n liefert die relativen Häufigkeiten, mit deren Hilfe erste grobe Überlegungen zur Abhängigkeit der betrachteten Merkmale angestellt werden können. Die Einschätzung der Stärke des linearen Zusammenhangs zwischen zwei quantitativen Merkmalen ist durch den Korrelationskoeffizienten r möglich, der gemäß r = sxy / (sxsy) definiert ist (sx, sy Standardabweichungen der x- bzw. y-Werte, sxy Kovarianz). Der Korrelationskoeffizient gibt den Grad der Linearität des Zusammenhanges zwischen den beobachteten Größen an, er kann aber auch − im Rahmen einer Regressionsanalyse − als Maß für die Güte der Anpassung der Regressionsgeraden an die Datenpunkte im Korrelogramm interpretiert werden. Ein hoher Wert des Korrelationskoeffizienten lässt jedoch noch keinen Schluss auf die Art oder Richtung der Abhängigkeit zwischen den beiden Merkmalen zu; bei einer Scheinkorrelation besteht − trotz eines hohen r-Wertes − überhaupt kein unmittelbarer Zusammenhang zwischen den entsprechenden Größen. Ferner ist für die Beurteilung von r die Anzahl n der Beobachtungspaare wesentlich. Mit zunehmendem n steigt auch die Zuverlässigkeit des Korrelationskoeffizienten, während etwa große r-Werte bei geringem Stichprobenumfang nur wenig Aussagekraft besitzen. (Im Fall n = 2 gilt sogar stets r = ±1.) Die Regressionsanalyse ermöglicht die Beschreibung eines funktionellen Zusammenhanges zwischen zwei (oder mehreren) quantitativen Größen. Ausgangspunkt ist eine Stichprobe von Zahlenpaaren, die graphisch in einem (x,y)-Diagramm in Form eines Korrelogramms veranschaulicht werden können. Die im Sinne der Methode der kleinsten Quadrate bestmögliche Approximation dieser Datenpunkte im Korrelogramm durch eine Gerade stellt die Regressionsgerade dar. Sie ist durch die Gleichung y = a + bx gegeben, wobei die Konstante a durch a = y − b x und der Regressionskoeffizient b durch b = sxy /sx2 festgelegt sind ( x , y arithmetische Mittel, sx2 Varianz, sxy Kovarianz). Diese Regressionsgerade, deren Ermittlung allerdings nur sinnvoll ist, wenn das Korrelogramm oder auch andere Überlegungen einen annähernd linearen Zusammenhang vermuten lassen, ermöglicht es, zu jedem vorgegebenen Wert des einen Merkmals einen durchschnittlichen Wert für das zweite Merkmal anzugeben.