Teil I: Deskriptive Statistik 2 Grundbegriffe 2.1 Merkmal und Stichprobe 2.2 Skalenniveau von Merkmalen 2.3 Geordnete Stichproben und Ränge 2.1 Merkmal und Stichprobe An (geeignet ausgewählten) Untersuchungseinheiten (Beobachtungsein– heiten, Merkmalsträger) werden Werte eines oder mehrerer Merkmale festgestellt. Merkmal (Variable) ist die zu untersuchende Größe einer Untersuchungseinheit. StatBio 24 Merkmalsausprägungen sind die möglichen Werte, die von einem Merkmal angenommen werden können. Tabelle 2–1 Merkmale und ihre Ausprägungen Einheit Person Merkmal Geschlecht Alter in Jahren Blutgruppe Bluthochdruck Ausprägung weiblich, männlich 1, 2, 3, . . . A, B, AB, 0 Werte in mmHg Bakterienkolonie Durchmesser Werte in mm Baum Baumart Eiche, Buche,... Grundgesamtheit (Kollektiv, Population): Menge aller potentiellen Untersuchungseinheiten für eine bestimmte Fragestellung. Totalerhebung: Alle Merkmalsträger einer Grundgesamtheit werden in die Untersuchung einbezogen. StatBio 25 Stichprobe: Endliche Teilmenge einer Grundgesamtheit. Hat diese Menge n Elemente, so spricht man von einer Stichprobe vom Umfang n (sample of size n). Daten, Beobachtungen: konkrete Werte der Merkmalsausprägungen einer Stichprobe. Beispiel: Grundgesamtheit: Alle Personen Merkmal: Plasmaalbumingehalt Stichprobe vom Umfang 5: A, B, C, D, E Daten: 3.9, 3.3, 4.6, 4.0, 3.8 Bemerkung: Die Begriffe Stichprobe und Daten werden auch häufig synonym verwendet (so auch im Folgenden). StatBio 26 Qualitative (artmäßig erfassbare) Merkmale haben nur endlich viele Ausprägungen, die Namen oder Kategorien sind. Beispiele: – Geschlecht – Blutgruppe – Rhesusfaktor Quantitative (in natürlicher Weise zahlenmäßig erfassbare) Merkmale liegen vor, wenn ihre Ausprägungen eine Größe wiedergeben. Beispiele: – Kinderzahl – Anzahl zuckerkranker Personen – Körpertemperatur – Adrenalinkonzentration – Körpergewicht – Körpergröße StatBio 27 Eine andere Unterscheidung ist in diskrete und stetige Merkmale. • Diskretes Merkmal (discrete variable): Ein solches Merkmal kann nur endlich viele oder höchstens abzählbar unendlich viele Ausprägungen annehmen (häufig ganzzahlig, also 0, 1, 2, ...). Alle qualitativen Merkmale sind trivialerweise diskret. Quantitative Merkmale sind dann diskret, wenn ihre Merkmalsausprägungen durch einen Zählvorgang ermittelt werden (sogenannte Zähldaten). Beispiele für Zähldaten: – – – – StatBio Anzahl Anzahl Anzahl Anzahl herzkranker Personen der Blutspender der Pulsschläge der Bäume in einer Region 28 • Stetiges Merkmal (continuous variable): Die Ausprägungen können (wenigstens dem Prinzip nach) beliebige Werte aus einem Intervall annehmen, alle Werte aus einem Intervall sind also denkbar. Die Ausprägungen werden in der Regel durch einen Messvorgang ermittelt, sogenannte Messdaten. Beispiele für Messdaten: – – – – Blutdruck Körpertemperatur Adrenalinkonzentration Laktatkonzentration Zusammenfassung: Merkmal qualitativ quantitativ StatBio diskret ja ja (Zähldaten) stetig nein ja (Messdaten) 29 Bemerkung: Stetige Merkmale können nur diskret beobachtet werden (Messgenauigkeit), Angaben z. B. auf zwei Dezimalstellen hinter dem Komma genau (Rundungen). In der Praxis ist die Unterscheidung diskret/stetig vielfach willkürlich. 2.2 Skalenniveau von Merkmalen Für statistische Analysen ist die Einteilung in qualitative und quantitative Merkmale zu grob. Von entscheidender Bedeutung für die – Interpretation von Daten und – Eignung statistischer Verfahren ist es, wie bzw. nach welchen Kriterien die Merkmalsausprägungen gemessen und geordnet werden können. StatBio 30 Grundsätzlich erfolgt die Messung der Merkmalswerte mit Hilfe einer Skala (Messvorschrift). Skala: Anordnung von Zahlen, denen die Merkmalsausprägungen eindeutig zugordnet werden. Skalenwerte: Zahlenwerte, die auf einer Skala Berücksichtigung finden. Man spricht in diesem Zusammenhang auch von Skalierung. Das Skalenniveau gibt an 1. welche Vergleichsaussagen und welche rechnerischen Operationen für die Skalenwerte sinnvoll und somit zulässig sind 2. welche Transformationen von Skalenwerten die Messung erhalten (sogenannte zulässige Transformationen). StatBio 31 Die verschiedenen Skalenniveaus (Übersicht): Qualitative Merkmale Nominalskala Quantitative Merkmale Ordinalskala Metrische Skala Intervallskala StatBio Verhältnisskala 32 Nominalskala (Skala mit dem niedrigsten Niveau) Charakteristika: – keine natürliche Rangordnung der Skalenwerte – Zuordnung von Zahlen ist lediglich eine Kodierung der Merkmalsausprägungen – Anordnung hat keine inhaltliche Bedeutung Vergleichsaussagen: gleich (=), ungleich (6=) Rechnerische Operationen: Häufigkeiten Zulässige Transformationen: bijektive (eineindeutige) Abbildungen (siehe Aufgabe 3, Blatt 1) StatBio 33 Tabelle 2–2 Nominale Merkmale und Kodierungen Merkmal Baumart Merkmalsausprägungen Eiche Buche Birke Linde sonstige Kodierung 1 2 3 4 5 Geschlecht männlich weiblich 0 1 Blutgruppe 0 A B AB 0 1 2 3 Spezialfall nominalskalierter Merkmale sind binäre Merkmale (dichotome Merkmale): Merkmale mit nur zwei Ausprägungen (häufig 0/1–kodiert). StatBio 34 Ordinalskala (Rangskala) Charakteristika: Die Merkmalsausprägungen sind Kategorien, bei denen eine natürliche Rangordnung aufgrund ihrer Größe bzw. Intensität gegeben ist. Vergleichsaussagen: gleich (=), ungleich (6=) sowie kleiner (<), größer (>) Rechnerische Ränge Operationen: Häufigkeiten, Zulässige Transformationen: streng monotone (ordnungserhaltende) Abbildungen (siehe Aufgabe 3, Blatt 1) StatBio 35 Tabelle 2–3 Ordinale Merkmale und Kodierungen Merkmal Antibiotikaresistenz Ausprägung sehr sensitiv sensitiv intermediär resistent sehr resistent Kodierung 1 2 3 4 5 Schmerzen wenig mittel stark −1 0 1 1 2 3 3 2 1 Bei nominal– und ordinalskalierten Merkmalen haben Abstände (Differenzen) und Verhältnisse (Quotienten) von Skalenwerten keine inhaltliche Bedeutung, sind also nicht vergleichbar. StatBio 36 Bei quantitativen Merkmalen verwendet man eine metrische Skala. Hier liegt Messbarkeit im engeren Sinne vor, wobei Skalenwerte im Allgemeinen eine Dimension haben (Celsius, mg/l, mmol, sec, cm, usw.). Charakteristika: – Abstände zwischen Skalenwerten sind interpretierbar – Natürliche Rangordnung durch Größe der Merkmalswerte. Bei der metrischen Skala wird zwischen Intervall– und Verhältnisskala unterschieden. StatBio 37 Intervallskala (Differenzenskala) Charakteristika: Bezugspunkt dieser Skala (Nullpunkt, Durchschnittswert) ist willkürlich festgelegt. Konsequenz: Vergleich von Differenzen ist sinnvoll, nicht aber von Quotienten. Vergleichsaussagen: gleich (=), ungleich (6=) sowie kleiner (<), größer (>) Rechnerische Operationen: Ränge, Subtraktionen Häufigkeiten, Zulässige Transformationen: lineare Abbildungen (siehe Aufgabe 3, Blatt 1) Beispiele intervallskalierter Merkmale: – Temperatur in Celsius (Gefrierpunkt Wasser = ˆ 0◦ C) bzw. in Fahrenheit (Körpertemperatur Mensch = ˆ 100◦ F) (Vgl. Aufgabe 4, Blatt 1) StatBio 38 – Intelligenzquotient nach Wechsler (Durchschnittswert = 100) Verhältnisskala (Ratioskala) Charakteristika: Natürlicher (absoluter) Nullpunkt ist gegeben, Vergleich von Verhältnissen (Quotienten) ist daher sinnvoll. Gleiche Quotienten drücken einen gleich großen Unterschied aus. Vergleichsaussagen: gleich (=), ungleich (6=) sowie kleiner (<), größer (>) Rechnerische Operationen: Häufigkeiten, Ränge, Subtraktionen, Divisionen Zulässige Transformationen: lineare homogene Abbildungen (siehe Aufgabe 3, Blatt 1) StatBio 39 Beispiele verhältnisskalierter Merkmale: – – – – Alter in Jahren Länge Gewicht Temperatur in Kelvin (0◦ Kelvin = ˆ −273.15◦ Celsius). Die verschiedenen Skalenniveaus stellen eine Hierachie dar: Tabelle 2–4 Sinnvoll interpretierbare Berechnungen Skala Nominal Ordinal Intervall Verhältnis StatBio zählen ja ja ja ja ordnen nein ja ja ja subtrahieren nein nein ja ja dividieren nein nein nein ja 40 Bemerkung: Statistische Methoden, die für ein niedriges Skalenniveau geeignet sind, können auch für ein höheres Skalenniveau verwendet werden (zählen und ordnen ist stets für metrische Merkmale durchführbar). Die Umkehrung gilt nicht! Für metrische Merkmale kann etwa der Durchschnittswert (arithmetisches Mittel) berechnet werden, was für ordinal– und nominalskalierte Merkmale im Allgemeinen völlig sinnlos ist. StatBio 41 Skalentransformationen Für die statistische Analyse kann es sinnvoll sein, metrische Daten so zu transformieren, dass ihre Ausprägungen ordinalskaliert sind, auch wenn solche Transformationen immer mit einem gewissen Informationsverlust verbunden sind (denn aus der Kenntnis der transformierten Werte können die ursprünglichen Werte nicht mehr zurückgewonnen werden). Die wichtigsten Transformationen sind der Übergang zu – Kategorien, Klassen (Klassenbildung ,,von ... bis”, ,,Klassierung der Daten”) – Rängen (Daten werden der Größe nach geordnet, der kleinste Wert erhält Rang 1, der zweitkleinste Wert Rang 2, usw.) StatBio 42 Beispiel 2.1: Von 20 Blutproben wurde der Plasmaalbumingehalt (in g/dl) bestimmt, wobei sich folgende Werte ergaben: 3.9, 3.3, 4.6, 4.0, 3.8, 3.8, 3.6, 4.6 4.0 3.9 3.9, 3.9, 4.1, 3.7, 3.6, 4.6 4.0, 4.0, 3.8 4.1 Die Merkmalsausprägung Plasmaalbumingehalt wird auf der Verhältnisskala gemessen. Ordnet man die Werte in aufsteigender Reihenfolge, so lassen sich die Rangpositionen zuordnen. Des Weiteren wird die Kategorie 1 ,,Plasmaalbumingehalt ≤ 4.0” und die Kategorie 2 ,,Plasmaalbumingehalt > 4.0” betrachtet. StatBio 43 Tabelle 2–5 Skalen–Transformation der Plasma–Daten Patient– Nr. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 StatBio Wert 3.9 3.3 4.6 4.0 3.8 3.8 3.6 4.6 4.0 3.9 3.9 3.9 4.1 3.7 3.6 4.6 4.0 4.0 3.8 4.1 geordnete Werte 3.3 3.6 3.6 3.7 3.8 3.8 3.8 3.9 3.9 3.9 3.9 4.0 4.0 4.0 4.0 4.1 4.1 4.6 4.6 4.6 Rang Kategorie 1 2.5 2.5 4 6 6 6 9.5 9.5 9.5 9.5 13.5 13.5 13.5 13.5 16.5 16.5 19 19 19 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 44 Durchschnittsrang Der Beobachtungswert 3.6 kommt zweimal vor. Es sind die Ränge 2 und 3 zu vergeben. Bilden des Durchschnittsrangs: 2+3 Rang(3.6) = = 2.5 2 Der Beobachtungswert 3.8 kommt dreimal vor. Es sind die Ränge 5, 6 und 7 zu vergeben: Bilden des Durchschnittsrangs: 5+6+7 =6 Rang(3.8) = 3 etc. StatBio 45 2.3 Geordnete Stichproben und Ränge Gegeben seien Daten x1, x2, . . . , xn Bezeichne x(1) die kleinste der n Zahlen x1, . . . , xn x(2) die zweitkleinste der n Zahlen x1, . . . , xn .. x(n) die größte der n Zahlen x1, . . . , xn x(k) heißt k–te Ordnungsgröße. Per Definition gilt stets x(1) ≤ x(2) ≤ . . . ≤ x(n) x(1), . . . , x(n) heißt geordnete Stichprobe. StatBio 46 Tabelle 2–6 Geordnete Plasma–Daten i 1 2 3 4 5 6 7 8 9 10 xi 3.9 3.3 4.6 4.0 3.8 3.8 3.6 4.6 4.0 3.9 x(i) 3.3 3.6 3.6 3.7 3.8 3.8 3.8 3.9 3.9 3.9 i 11 12 13 14 15 16 17 18 19 20 xi 3.9 3.9 4.1 3.7 3.6 4.6 4.0 4.0 3.8 4.1 x(i) 3.9 4.0 4.0 4.0 4.0 4.1 4.1 4.6 4.6 4.6 Der Rang einer Zahl xi innerhalb einer Stichprobe gibt an, die wie–vielt–kleinste Zahl sie ist. Um den Rang einer Beobachtung zu bestimmen ist es sinnvoll, die Daten der Größe nach zu ordnen. Formaler versteht man unter einem Rang folgendes: StatBio 47 1. Fall: Der Beobachtungswert xi kommt in der Stichprobe nur einmal vor. Dann ist der Rang von xi gleich 1 plus Anzahl der Beobachtungen die kleiner als xi sind: Rang(xi) = 1 + Anzahl der xj mit xj < xi 2. Fall: Der Beobachtungswert xi kommt in der Stichprobe k–mal vor, k ≥ 2 (man spricht von einer Bindung der Länge k). Dann hat man für diese k gleichen Beobachtungswerte die Ränge ri, ri + 1, . . . , ri + (k − 1) zu vergeben, wobei ri = 1 + Anzahl der xj mit xj < xi Käme der Beobachtungswert xi nur einmal vor, so wäre die Zahl ri der Rang von xi. StatBio 48 Diese k gleichen Beobachtungswerte bekommen alle den gleichen Rang, den Durchschnittsrang. Dieser ist definiert als das arithmetische Mittel der zu vergebenden Ränge: Rang(xi) ri + (ri + 1) + . . . + [ri + (k − 1)] = k (2.1) Formel (2.1) lässt sich vereinfachen (Aufgabe 6, Blatt 1). Beachte: Die Rang–Transformation xi → Rang(xi) einer Beobachtung xi ist immer nur in Bezug auf die Daten x1, . . . , xn festgelegt! (Vgl. Aufgabe 7, Blatt 1) StatBio 49