Biometrie_Teil_1 - Antiinfectives Intelligence

Werbung
Grundbegriffe
M. Kresken
1
Grundgesamtheit / Stichprobe
• Die Grundgesamtheit ist die Menge aller statistischen
Einheiten (auch Merkmalsträger, Erhebungseinheit,
Beobachtungseinheit) mit übereinstimmenden
Identifikationskriterien (sachlich, zeitlich und örtlich).
• Die statistische Einheit ist Träger der Informationen für
die statistische Untersuchung.
• Statistische Einheiten können natürliche Einheiten
(Personen, Tiere, Pflanzen, Werkstücke), aber auch
künstliche Einheiten, zum Beispiel sozio-ökonomische
Einheiten (Familien, Haushalte, Unternehmen), sein.
M. Kresken
2
Beispiel Kundenumfrage
Grundgesamtheit
• Umfragen werden mit dem Ziel durchgeführt, neue
Erkenntnisse über bestimmte Personen (z.B. Kunden,
Mitarbeiter) zu erhalten bzw. gültige Aussagen über
diese Personen treffen zu können.
• Die Grundgesamtheit ist dabei die Menge der
Personen, für die die Aussagen einer Untersuchung
gelten sollen, z.B „alle Mitarbeiter des Unternehmens X“
oder „alle Kunden im Alter von 18 bis 49 Jahren“.
M. Kresken
3
Grundgesamtheit / Stichprobe
• Als Stichprobe bezeichnet man eine Teilmenge einer
Grundgesamtheit, die unter bestimmten Gesichtspunkten
ausgewählt wurde.
• Mit Stichproben wird in Anwendungen der Statistik (etwa in
der Marktforschung, aber auch in der Qualitätskontrolle und
in der naturwissenschaftlichen, medizinischen und
psychologischen Forschung) häufig gearbeitet, da es oft
nicht möglich ist, die Grundgesamtheit, etwa die
Gesamtbevölkerung oder alle hergestellten Exemplare eines
Produkts, zu untersuchen.
• Grundgedanke der Zuhilfenahme von Stichproben ist das
Induktionsprinzip, bei dem von besonderen auf allgemeine
Fälle geschlossen wird.
M. Kresken
4
Beispiel Kundenumfrage
Stichprobe
• Es wird nur ein Teil der „Mitarbeiter des Unternehmens
X“ oder der „Kunden im Alter von 18 bis 49 Jahren
befragt“.
M. Kresken
5
Grundgesamtheit / Stichprobe
• Die Auswahl bzw. Zusammensetzung der Stichprobe kann
auf verschiedene Arten erfolgen. Am gängigsten ist die so
genannte Zufallsauswahl.
• Es ist wichtig, die Grundgesamtheit genau fest zu legen, um
die Stichprobe nachvollziehbar auszuwählen und exakt
angeben zu können, für wen die Untersuchungsergebnisse
Gültigkeit beanspruchen.
• Auf der Basis der Daten der Stichprobe kann man dann
Rückschlüsse auf die Grundgesamtheit ziehen.
M. Kresken
6
Grundgesamtheit / Stichprobe
•
Damit der Schluss von einer Stickprobe auf die
Grundgesamtheit zulässig ist, müssen zwei Bedingungen
erfüllt sein:
1. Die Stichprobe muss groß genug sein.
Die Untergrenze liegt bei 30 Personen, besser sind 100
Personen.
2. Die Stichprobe muss „repräsentativ“ sein.
Die Stichprobe soll die Zusammensetzung der
Grundgesamtheit widerspiegeln, also z.B. ebenso viele
Frauen oder Personen mit Hochschulbildung usw.
enthalten wie die Grundgesamtheit, der sie entstammt.
Dies ist per Definition bei einer Zufallsauswahl der Fall.
M. Kresken
7
Arten von Merkmalen
1. Qualitativ versus quantitativ:
• qualitativ heißen diejenigen Merkmale, deren
Ausprägungen unterschiedliche Arten darstellen
(z.B. Farbe mit den Ausprägungen: blau, rot, grün,
gelb; Familienstand)
• quantitativ heißen diejenigen Merkmale, die von
vorneherein Zahlen als Ausprägungen haben (z.B.
Alter, Kinderzahl, Entfernungen in KM, Umsatz in €,
Blutdruck in mmHg)
M. Kresken
8
Arten von Merkmalen
2. Diskret versus stetig:
• diskrete Merkmale können nur abzählbar viele
Werte annehmen (z.B. Anzahl, Geschlecht)
• stetige Merkmale können jeden Wert eines
Kontinuums annehmen (z.B. Gewicht: 63,786… kg,
Länge: 4.387,35… cm)
In der Praxis werden die Werte eines stetigen
Merkmals oft in Klassen zusammengefasst und damit
„diskreditiert“.
M. Kresken
9
Skalenniveau
•
•
•
Jeder Merkmalsausprägung kann eine Zahl als Code
zugeordnet werden.
Das Skalenniveau hängt davon ab, wie die Zuordnung
der Zahl zur Merkmalsausprägung erfolgt.
Man unterscheidet:
- Nominalskala
- Ordinalskala
- Intervallskala
metrische Skalen
- Verhältnisskala
- Absolutskala
M. Kresken
10
Nominalskala
•
•
•
Ein Merkmal heißt nominal, wenn seine möglichen
Ausprägungen zwar unterschieden, aber nicht in einer
Rangfolge gebracht werden können.
Verschiedenen Merkmalsausprägungen werden
verschiedene Zahlenwerte zugeordnet, z.B. 1 = blau, 2 = rot.
Die einzig zulässige Schlussfolgerung aus einer
Nominalskala lautet:
- Gleiche Zahlen bedeuten gleiche Merkmalsausprägungen
- Unterschiedliche Zahlen bedeuten unterschiedliche
Merkmalsausprägungen
M. Kresken
11
Ordinalskala
•
•
Ein Merkmal heißt ordinal, wenn jede Merkmalsausprägung
der Untersuchungseinheit genau einer Kategorie zugeordnet
wird. Die Kategorien lassen sich in eine Rangfolge bringen
und mit Namen oder Zahlen bezeichnen.
Die verschiedenen Merkmalsausprägungen stehen
zueinander in einer „größer bzw. kleiner“ – Beziehung, d.h.
die Zahlen drücken nicht nur die Verschiedenheit, sondern
auch die zugrunde liegende Ordnung aus, z.B. 1 = sehr
schwach, 2 = schwach, 3 = mittel, 4 = stark, 5 = sehr stark.
M. Kresken
12
Ordinalskala
•
Eine zulässige Aussage ist, dass die Rangfolge der Zahlen
gleich der Rangfolge der Stärke der Merkmalsausprägungen
ist:
- Jemand mit einem höheren Rang hat auch eine höhere
Merkmalsausprägung als jemand mit einem niedrigeren
Rang.
- Über die absolute Stärke der Merkmalsausprägung oder
die Größe des Merkmalunterschiedes zwischen Objekten
lässt sich aber keine Aussage machen.
M. Kresken
13
Beispiele Ordinalskala
Merkmal
Dekubitusrisiko
Kategorien
geringes bis hohes Risiko nach der
Norton-Skala
Zufriedenheit mit einem
Produkt
sehr zufrieden > eher zufrieden > eher
unzufrieden > sehr unzufrieden
Selbsteinstufung des
1
Einkommens
hoch > mittel > niedrig
Schulische Leistung
sehr gut > gut > befriedigend >
ausreichend > mangelhaft >
ungenügend
1
wenn das Einkommen in Klassen eingeteilt wird
(z. B. 0 – 999 €, 1.000 – 2.000 €, > 2.000 €)
M. Kresken
14
Intervallskala
•
•
•
Ein intervallskaliertes Merkmal ist ein Merkmal, dessen
Ausprägung sich quantitativ mittels Zahlen darstellen
lässt.
Rangunterschiede und Abstände zwischen Werten
können gemessen werden, d.h. quantitative Merkmale
gehen in ihren Anforderungen über ordinale und
nominale Eigenschaften hinaus.
Bei den intervallskalierten Merkmalen lassen sich zu
den Eigenschaften der Ordinalskala die Abstände
zwischen den verschiedenen Merkmalsausprägungen
exakt bestimmen.
M. Kresken
15
Intervallskala
•
•
•
Die Intervalle (=Abstände) zwischen benachbarten
Merkmalsausprägungen sind gleich groß, allerdings
existiert kein natürlicher Nullpunkt für die Skala.
Willkürlich definierte Nullpunkte - wie bei der CelsiusTemperaturskala - zählen hier nicht als natürlicher
Nullpunkt, während der Nullpunkt der KelvinTemperaturskala (absoluter Nullpunkt) ein natürlicher
Nullpunkt ist.
Jede Intervallskala ist so geartet, dass die Rangfolge
der Differenz zwischen Zahlen gleich der Rangfolge der
Merkmalsunterschiede zwischen den entsprechenden
Objekten ist.
M. Kresken
16
Beispiele Intervallskala
•
•
•
•
Temperatur auf der Celsius-Skala
Jahreszahlen
Zeitpunkte
IQ-Skala
M. Kresken
17
IQ Skala
Beispiel für eine IQ-Skala (es existiert bisher keine Norm)
Prozentanteil in der
Bevölkerung
IQ unter
20
schwerste Intelligenzminderung
IQ unter
62
extrem niedrige Intelligenz
2,2 %
IQ 63 bis 78
sehr niedrige Intelligenz
6,7 %
IQ 79 bis 90
niedrige (schwache) Intelligenz
16,1 %
IQ 91 bis 109
durchschnittliche Intelligenz, normal begabt
50,0 %
IQ 110 bis 117
hohe Intelligenz (Voraussetzung für einen
Gymnasialbesuch)
16,1 %
IQ 118 bis 126
sehr hohe Intelligenz (Voraussetzung für ein
Studium)
6,7 %
IQ ab 127
extrem hohe Intelligenz
2,2 %
IQ 130
Genieschwelle
IQ um 140
Weniger als 0,5 % der Bevölkerung haben
einen höheren IQ als 140
IQ ab 155
genial (Bevölkerungsanteil unter 0,1 %)
M. Kresken
18
Verhältnisskala
•
Auf einer Verhältnisskala / Rationalskala werden
Merkmalsausprägungen eingetragen, für die folgendes
gilt:
- Merkmalsausprägungen werden als Zahl dargestellt
- für die Zahlenwerte existiert ein natürlicher Nullpunkt
und
- die Maßeinheit ist willkürlich definiert
M. Kresken
19
Beispiele Verhältnisskala
Merkmal
Temperatur in Kelvin
Nullpunkt
Absoluter Nullpunkt
Zeitdauer in Sekunden
keine Zeit*
Gewicht in Kilogramm
kein Gewicht
Preis in €
Kostenlos
Geschwindigkeit in
Kilometer pro Stunde
keine Geschwindigkeit, Stillstand
Prozentzahlen 0 bis 100
0 Prozent
Entfernung
keine Entfernung
*Der absolute Nullpunkt ist der Urknall.
M. Kresken
20
Univariate Statistik
M. Kresken
21
Univariate Statistik
• Unter dem Begriff versteht man die isolierte
Betrachtung einzelner Merkmale bzw. Variablen von
Untersuchungseinheiten (z.B. Personen).
M. Kresken
22
Beispiel Verteilung - Urliste
Teilnehmer
M. Kresken
Alter
1
21
2
22
3
27
4
21
5
25
6
23
7
27
8
21
9
22
10
21
11
25
12
28
23
Häufigkeiten / Verteilungen
• Liegen n Beobachtungen für ein Merkmal vor, so nennt
man die Anzahl k der Beobachtungen, die die gleiche
Ausprägung x aufweisen, die absolute Häufigkeit dieser
Merkmalsausprägung.
M. Kresken
24
Beispiel Verteilung – sortierte Liste
Rang
M. Kresken
Alter
1
21
2
21
3
21
4
21
5
22
6
22
7
23
8
25
9
25
10
27
11
27
12
28
25
Beispiel Verteilung – sortierte Liste
Rang
M. Kresken
Alter
Alter
Anzahl
1
21
21
4
2
21
22
2
3
21
23
1
4
21
25
2
5
22
27
2
6
22
28
1
7
23
8
25
9
25
10
27
11
27
12
28
26
Häufigkeiten / Verteilungen
• Der Quotient
Zahl der Beobachtungen mit der Ausprägung x
k
=
n
Gesamtzahl der Beobachtungen
heißt relative Häufigkeit für die Merkmalsausprägung x.
• Die relative Häufigkeit liegt immer zwischen 0 und 1.
• Gebräuchlich ist die Angabe der relativen Häufigkeit in
Prozent.
M. Kresken
27
Häufigkeiten / Verteilungen
• In praktischen Situationen ergibt sich bei der Erhebung
der Gesamtzahl der Beobachtungen dann ein Problem,
wenn die Angaben zur Merkmalsausprägung für eine
oder mehrere Beobachtungseinheiten fehlen oder
ungültig sind.
• In solchen Fällen ist der Bezug auf die „validen“
Beobachtungen zu empfehlen.
• Dabei sollte jedoch auf eine explizite Auszählung bzw.
Erwähnung der ungültigen oder fehlenden
Messergebnisse nicht verzichtet werden, da diese ggf.
als informativ anzusehen sind.
M. Kresken
28
Univariate Statistik
 Urliste anlegen
M. Kresken
29
Herunterladen