Grundbegriffe M. Kresken 1 Grundgesamtheit / Stichprobe • Die Grundgesamtheit ist die Menge aller statistischen Einheiten (auch Merkmalsträger, Erhebungseinheit, Beobachtungseinheit) mit übereinstimmenden Identifikationskriterien (sachlich, zeitlich und örtlich). • Die statistische Einheit ist Träger der Informationen für die statistische Untersuchung. • Statistische Einheiten können natürliche Einheiten (Personen, Tiere, Pflanzen, Werkstücke), aber auch künstliche Einheiten, zum Beispiel sozio-ökonomische Einheiten (Familien, Haushalte, Unternehmen), sein. M. Kresken 2 Beispiel Kundenumfrage Grundgesamtheit • Umfragen werden mit dem Ziel durchgeführt, neue Erkenntnisse über bestimmte Personen (z.B. Kunden, Mitarbeiter) zu erhalten bzw. gültige Aussagen über diese Personen treffen zu können. • Die Grundgesamtheit ist dabei die Menge der Personen, für die die Aussagen einer Untersuchung gelten sollen, z.B „alle Mitarbeiter des Unternehmens X“ oder „alle Kunden im Alter von 18 bis 49 Jahren“. M. Kresken 3 Grundgesamtheit / Stichprobe • Als Stichprobe bezeichnet man eine Teilmenge einer Grundgesamtheit, die unter bestimmten Gesichtspunkten ausgewählt wurde. • Mit Stichproben wird in Anwendungen der Statistik (etwa in der Marktforschung, aber auch in der Qualitätskontrolle und in der naturwissenschaftlichen, medizinischen und psychologischen Forschung) häufig gearbeitet, da es oft nicht möglich ist, die Grundgesamtheit, etwa die Gesamtbevölkerung oder alle hergestellten Exemplare eines Produkts, zu untersuchen. • Grundgedanke der Zuhilfenahme von Stichproben ist das Induktionsprinzip, bei dem von besonderen auf allgemeine Fälle geschlossen wird. M. Kresken 4 Beispiel Kundenumfrage Stichprobe • Es wird nur ein Teil der „Mitarbeiter des Unternehmens X“ oder der „Kunden im Alter von 18 bis 49 Jahren befragt“. M. Kresken 5 Grundgesamtheit / Stichprobe • Die Auswahl bzw. Zusammensetzung der Stichprobe kann auf verschiedene Arten erfolgen. Am gängigsten ist die so genannte Zufallsauswahl. • Es ist wichtig, die Grundgesamtheit genau fest zu legen, um die Stichprobe nachvollziehbar auszuwählen und exakt angeben zu können, für wen die Untersuchungsergebnisse Gültigkeit beanspruchen. • Auf der Basis der Daten der Stichprobe kann man dann Rückschlüsse auf die Grundgesamtheit ziehen. M. Kresken 6 Grundgesamtheit / Stichprobe • Damit der Schluss von einer Stickprobe auf die Grundgesamtheit zulässig ist, müssen zwei Bedingungen erfüllt sein: 1. Die Stichprobe muss groß genug sein. Die Untergrenze liegt bei 30 Personen, besser sind 100 Personen. 2. Die Stichprobe muss „repräsentativ“ sein. Die Stichprobe soll die Zusammensetzung der Grundgesamtheit widerspiegeln, also z.B. ebenso viele Frauen oder Personen mit Hochschulbildung usw. enthalten wie die Grundgesamtheit, der sie entstammt. Dies ist per Definition bei einer Zufallsauswahl der Fall. M. Kresken 7 Arten von Merkmalen 1. Qualitativ versus quantitativ: • qualitativ heißen diejenigen Merkmale, deren Ausprägungen unterschiedliche Arten darstellen (z.B. Farbe mit den Ausprägungen: blau, rot, grün, gelb; Familienstand) • quantitativ heißen diejenigen Merkmale, die von vorneherein Zahlen als Ausprägungen haben (z.B. Alter, Kinderzahl, Entfernungen in KM, Umsatz in €, Blutdruck in mmHg) M. Kresken 8 Arten von Merkmalen 2. Diskret versus stetig: • diskrete Merkmale können nur abzählbar viele Werte annehmen (z.B. Anzahl, Geschlecht) • stetige Merkmale können jeden Wert eines Kontinuums annehmen (z.B. Gewicht: 63,786… kg, Länge: 4.387,35… cm) In der Praxis werden die Werte eines stetigen Merkmals oft in Klassen zusammengefasst und damit „diskreditiert“. M. Kresken 9 Skalenniveau • • • Jeder Merkmalsausprägung kann eine Zahl als Code zugeordnet werden. Das Skalenniveau hängt davon ab, wie die Zuordnung der Zahl zur Merkmalsausprägung erfolgt. Man unterscheidet: - Nominalskala - Ordinalskala - Intervallskala metrische Skalen - Verhältnisskala - Absolutskala M. Kresken 10 Nominalskala • • • Ein Merkmal heißt nominal, wenn seine möglichen Ausprägungen zwar unterschieden, aber nicht in einer Rangfolge gebracht werden können. Verschiedenen Merkmalsausprägungen werden verschiedene Zahlenwerte zugeordnet, z.B. 1 = blau, 2 = rot. Die einzig zulässige Schlussfolgerung aus einer Nominalskala lautet: - Gleiche Zahlen bedeuten gleiche Merkmalsausprägungen - Unterschiedliche Zahlen bedeuten unterschiedliche Merkmalsausprägungen M. Kresken 11 Ordinalskala • • Ein Merkmal heißt ordinal, wenn jede Merkmalsausprägung der Untersuchungseinheit genau einer Kategorie zugeordnet wird. Die Kategorien lassen sich in eine Rangfolge bringen und mit Namen oder Zahlen bezeichnen. Die verschiedenen Merkmalsausprägungen stehen zueinander in einer „größer bzw. kleiner“ – Beziehung, d.h. die Zahlen drücken nicht nur die Verschiedenheit, sondern auch die zugrunde liegende Ordnung aus, z.B. 1 = sehr schwach, 2 = schwach, 3 = mittel, 4 = stark, 5 = sehr stark. M. Kresken 12 Ordinalskala • Eine zulässige Aussage ist, dass die Rangfolge der Zahlen gleich der Rangfolge der Stärke der Merkmalsausprägungen ist: - Jemand mit einem höheren Rang hat auch eine höhere Merkmalsausprägung als jemand mit einem niedrigeren Rang. - Über die absolute Stärke der Merkmalsausprägung oder die Größe des Merkmalunterschiedes zwischen Objekten lässt sich aber keine Aussage machen. M. Kresken 13 Beispiele Ordinalskala Merkmal Dekubitusrisiko Kategorien geringes bis hohes Risiko nach der Norton-Skala Zufriedenheit mit einem Produkt sehr zufrieden > eher zufrieden > eher unzufrieden > sehr unzufrieden Selbsteinstufung des 1 Einkommens hoch > mittel > niedrig Schulische Leistung sehr gut > gut > befriedigend > ausreichend > mangelhaft > ungenügend 1 wenn das Einkommen in Klassen eingeteilt wird (z. B. 0 – 999 €, 1.000 – 2.000 €, > 2.000 €) M. Kresken 14 Intervallskala • • • Ein intervallskaliertes Merkmal ist ein Merkmal, dessen Ausprägung sich quantitativ mittels Zahlen darstellen lässt. Rangunterschiede und Abstände zwischen Werten können gemessen werden, d.h. quantitative Merkmale gehen in ihren Anforderungen über ordinale und nominale Eigenschaften hinaus. Bei den intervallskalierten Merkmalen lassen sich zu den Eigenschaften der Ordinalskala die Abstände zwischen den verschiedenen Merkmalsausprägungen exakt bestimmen. M. Kresken 15 Intervallskala • • • Die Intervalle (=Abstände) zwischen benachbarten Merkmalsausprägungen sind gleich groß, allerdings existiert kein natürlicher Nullpunkt für die Skala. Willkürlich definierte Nullpunkte - wie bei der CelsiusTemperaturskala - zählen hier nicht als natürlicher Nullpunkt, während der Nullpunkt der KelvinTemperaturskala (absoluter Nullpunkt) ein natürlicher Nullpunkt ist. Jede Intervallskala ist so geartet, dass die Rangfolge der Differenz zwischen Zahlen gleich der Rangfolge der Merkmalsunterschiede zwischen den entsprechenden Objekten ist. M. Kresken 16 Beispiele Intervallskala • • • • Temperatur auf der Celsius-Skala Jahreszahlen Zeitpunkte IQ-Skala M. Kresken 17 IQ Skala Beispiel für eine IQ-Skala (es existiert bisher keine Norm) Prozentanteil in der Bevölkerung IQ unter 20 schwerste Intelligenzminderung IQ unter 62 extrem niedrige Intelligenz 2,2 % IQ 63 bis 78 sehr niedrige Intelligenz 6,7 % IQ 79 bis 90 niedrige (schwache) Intelligenz 16,1 % IQ 91 bis 109 durchschnittliche Intelligenz, normal begabt 50,0 % IQ 110 bis 117 hohe Intelligenz (Voraussetzung für einen Gymnasialbesuch) 16,1 % IQ 118 bis 126 sehr hohe Intelligenz (Voraussetzung für ein Studium) 6,7 % IQ ab 127 extrem hohe Intelligenz 2,2 % IQ 130 Genieschwelle IQ um 140 Weniger als 0,5 % der Bevölkerung haben einen höheren IQ als 140 IQ ab 155 genial (Bevölkerungsanteil unter 0,1 %) M. Kresken 18 Verhältnisskala • Auf einer Verhältnisskala / Rationalskala werden Merkmalsausprägungen eingetragen, für die folgendes gilt: - Merkmalsausprägungen werden als Zahl dargestellt - für die Zahlenwerte existiert ein natürlicher Nullpunkt und - die Maßeinheit ist willkürlich definiert M. Kresken 19 Beispiele Verhältnisskala Merkmal Temperatur in Kelvin Nullpunkt Absoluter Nullpunkt Zeitdauer in Sekunden keine Zeit* Gewicht in Kilogramm kein Gewicht Preis in € Kostenlos Geschwindigkeit in Kilometer pro Stunde keine Geschwindigkeit, Stillstand Prozentzahlen 0 bis 100 0 Prozent Entfernung keine Entfernung *Der absolute Nullpunkt ist der Urknall. M. Kresken 20 Univariate Statistik M. Kresken 21 Univariate Statistik • Unter dem Begriff versteht man die isolierte Betrachtung einzelner Merkmale bzw. Variablen von Untersuchungseinheiten (z.B. Personen). M. Kresken 22 Beispiel Verteilung - Urliste Teilnehmer M. Kresken Alter 1 21 2 22 3 27 4 21 5 25 6 23 7 27 8 21 9 22 10 21 11 25 12 28 23 Häufigkeiten / Verteilungen • Liegen n Beobachtungen für ein Merkmal vor, so nennt man die Anzahl k der Beobachtungen, die die gleiche Ausprägung x aufweisen, die absolute Häufigkeit dieser Merkmalsausprägung. M. Kresken 24 Beispiel Verteilung – sortierte Liste Rang M. Kresken Alter 1 21 2 21 3 21 4 21 5 22 6 22 7 23 8 25 9 25 10 27 11 27 12 28 25 Beispiel Verteilung – sortierte Liste Rang M. Kresken Alter Alter Anzahl 1 21 21 4 2 21 22 2 3 21 23 1 4 21 25 2 5 22 27 2 6 22 28 1 7 23 8 25 9 25 10 27 11 27 12 28 26 Häufigkeiten / Verteilungen • Der Quotient Zahl der Beobachtungen mit der Ausprägung x k = n Gesamtzahl der Beobachtungen heißt relative Häufigkeit für die Merkmalsausprägung x. • Die relative Häufigkeit liegt immer zwischen 0 und 1. • Gebräuchlich ist die Angabe der relativen Häufigkeit in Prozent. M. Kresken 27 Häufigkeiten / Verteilungen • In praktischen Situationen ergibt sich bei der Erhebung der Gesamtzahl der Beobachtungen dann ein Problem, wenn die Angaben zur Merkmalsausprägung für eine oder mehrere Beobachtungseinheiten fehlen oder ungültig sind. • In solchen Fällen ist der Bezug auf die „validen“ Beobachtungen zu empfehlen. • Dabei sollte jedoch auf eine explizite Auszählung bzw. Erwähnung der ungültigen oder fehlenden Messergebnisse nicht verzichtet werden, da diese ggf. als informativ anzusehen sind. M. Kresken 28 Univariate Statistik Urliste anlegen M. Kresken 29