Deskriptive Statistik - Medizinische Universitaet Graz

Werbung
Deskriptive Statistik
In der beschreibenden Statistik werden Methoden behandelt, mit deren Hilfe man Daten
übersichtlich darstellen und kennzeichnen kann. Die Urliste (=Daten in der Reihenfolge ihrer
Erhebung) ist meist umfangreich und läßt kaum Aussagen über die Struktur der Population zu.
Daher müssen die Werte geordnet und verdichtet werden.
Tabellen und graphische Darstellungen
Eine Form der Aufbereitung von umfangreichem Datenmaterial besteht darin, Untersuchungseinheiten mit gleichen oder ähnlichen Merkmalsausprägungen zu Klassen
zusammenzufassen und festzustellen, wieviele Einheiten auf jede Klasse entfallen. So entsteht
eine Häufigkeitsverteilung, die tabellarisch und graphisch dargestellt werden kann.
Die Anzahl (ni, i=1,..,k, k£n) der Beobachtungen in einer Klasse wird als absolute Häufigkeit
(Besetzungszahl) in dieser Klasse bezeichnet. Nach Division durch die Gesamtzahl der
Beobachtungen (n) erhält man die relative Häufigkeit (hi) einer Klasse.
Während bei nominalen Daten die Reihenfolge der Klassen keine Rolle spielt, muß bei allen
höheren Meßniveaus die Rangordnung der Klassen beachtet werden. Bei nominalen oder
ordinalen Daten ergeben sich zumeist natürliche Klassengrenzen, doch bei größerem
metrischen Datenmaterial ist es notwendig, eine Klasseneinteilung vorzunehmen.
Klasseneinteilung, Klassierung
Die Klasseneinteilung ist notwendig, um eine Überbewertung des Zufallseinflusses zu
vermeiden und die Struktur (Verteilungstyp, Gesetzmäßigkeit) der Beobachtungsreihe besser
erkennen zu können. Die Wahl einer geeigneten Klasseneinteilung ist stets willkürlich, aber es
sollten einige Regeln beachtetet werden:
1.
Die Klasseneinteilung muß alle Beobachtungswerte umfassen (also in der ersten Version
auch extreme Werte).
2.
Die Klassengrenzen sind so zu wählen, daß die Beobachtungswerte eindeutig den Klassen
zugeordnet werden können, z.B. sollen die Klassenenden auf Werte, die meßtechnisch
nicht vorkommen, fallen (etwa eine Dezimale mehr als gemessen wird) oder man
verwendet halboffene Klassen (z.B. von 32 bis unter 40). Man wähle gleiche
Klassenbreiten.
3.
Die Klassenmitte repräsentiert die übrigen Meßwerte der Klasse.
4.
Je kleiner die Klassenanzahl umso größer die Klassenbreite und umso größer ist der
Informationsverlust. Je größer die Klassenanzahl, umso mehr kommt die nichtinteressierende Wirkung von Zufallseinflüssen zur Geltung. Die Erfahrung führt zu folgenden
Faustregeln:
k » n , k » 5 log10 n
(k: Klassenanzahl, n: Anzahl der Beobachtungswerte)
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
1
Die gebräuchlichsten graphischen Darstellungsformen sind:
·
·
·
·
·
Stab-, Balkendiagramm (bar chart)
Kreisdiagramm (pie chart)
Histogramm
Häufigkeitspolygon
Stamm- und Blatt Darstellung (stem and leaf plot)
Beim Stabdiagramm ist die Höhe der Stäbe proportional zu den Besetzungszahlen bzw. rel.
Häufigkeiten in den einzelnen Klassen. Breite und Abstand spielen keine Rolle. Es eignet sich
für qualitative, ordinale und quantitativ diskrete Merkmale (z.B. Blutgruppe, Schulnoten,
Anzahl kariöser Zähne bei Volksschulkindern)
Das Kreisdiagramm (als spezielles Flächendiagramm) wird in Segmente proportional zu den
beobachteten Anzahlen (rel. Häufigkeiten) zerlegt.
Histogramme müssen flächentreu sein - d.h. die Fläche (und nicht die Höhe) muß proportional
der Häufigkeit ni bzw.hi sein. Daher kann nur bei konstanter Klassenbreite (Dx) ni bzw. hi als
Ordinate der Rechtecke verwendet werden.
Die Polygondarstellung verwendet man meist, wenn mehrere Häufigkeitsverteilungen
verschiedener Gruppen in einem gemeinsamen Diagramm verglichen werden sollen.
Stamm- und Blatt- Darstellung:
Das Histogramm stellt die Häufigkeit für alle Werte innerhalb einer bestimmten Klasse dar.
Demzufolge kann man die Häufigkeit eines Einzelwertes dieser Klasse nicht mehr erkennen.
Eine graphische Repräsentation der Häufigkeitsverteilung ohne diesen Informationsverlust ist
die Stamm- und Blatt-Darstellung (stem and leaf plot). Im Stamm werden jene Ziffern, welche
die Klasseneinteilung repräsentieren, eingetragen und im Blatt erfolgt die Eintragung der
Ziffern der nächsten Stelle der Größe nach.
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
2
Kenngrößen
Kenngrößen dienen dazu, die Datenmenge zu einigen wenigen Zahlen zu komprimieren,
welche bestimmte Eigenschaften der Daten möglichst gut beschreiben.
Wir wollen
·
·
die mittlere Tendenz der Daten
die Streuung der Daten um die mittlere Tendenz
charakterisieren.
Maßzahlen der Lage
Lagemaßzahlen beschreiben zentrale Eigenschaften einer Verteilung. Sie charakterisieren das
Zentrum der Häufigkeitsverteilung, also den Wert (Ort) mit der größten Häufigkeit bzw.
Wahrscheinlichkeit des Auftretens. Darüber hinaus werden durch Lagemaßzahlen
Positionsmerkmale (Ordnungsstatistiken) einer der Größe nach geordneten Datenmenge
wiedergegeben (z.B. die Position in der Zahlenreihe, bis zu welcher 90 % der
Beobachtungswerte auftreten). Die Statistik braucht eine Reihe verschieden definierter
Lagemaßzahlen, um der Vielfalt der Verteilungen statistischer Datenmengen gerecht zu
werden.
Arithmetisches Mittel (mean)
Gegeben sei eine Stichprobe x1,x2 ,...,xn vom Umfang n. Das arithmetische Mittel ist
definiert als
x=
1 n
å xi
n i =1
Nachteile des arithmetischen Mittels:
· Es gibt extremen Werten zu viel Gewicht, und ist daher nur verwendbar, wenn man es mit
eingipfeligen nicht allzu schiefen Verteilungen zu tun hat.
Median (median)
Der Median oder Zentralwert ist die mittlere Beobachtung der Daten xi, i=1,2,...,n, die der
Größe nach sortiert wurden x1 £ x 2 £ x3 £ ... £ x n .Er hat die Eigenschaft, daß mindestens
~
50% der Meßwerte kleiner oder gleich dem Median x sind.
Für ungerades n
~
x = x((n+1) / 2 )
Für gerades n
1
~
x = (x(n / 2 ) + x(n / 2+1) )
2
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
3
Vorteile des Medians:
· Der Median ist unempfindlich gegenüber extremen Werten.
· Er eignet sich als Lokationsmaß für schiefe Verteilungen und ordinal skalierte Daten.
a-Quantil
Der Median ist lediglich ein Spezialfall aus einer Familie von Kenngrößen, die auf der
Rangordnung der Daten beruhen - die Quantile. Ein a-Quantil xa ist derart definiert, daß
mindestens a% der Meßwerte kleiner oder gleich diesem Wert xa sind. Die Berechnung
erfolgt über
xa = x(k )
, falls na keine ganze Zahl ist (k=int(na)+1)
1
=
(x(k ) + x(k +1) )
xa
2
, falls na eine ganze Zahl ist (k=na)
Spezielle a-Quantile: 1.Quartil (a = 0.25), 2.Quartil oder Median, 3.Quartil (a = 0.75),
Perzentile (Fraktile)
Modalwert (mode)
Bei nominalskalierten Merkmalen ist der Modalwert xmod der einzige anzuwendende
Kennwert. Er ist definiert als der Wert, der am häufigsten in der Meßwertreihe vorkommt. Bei
quantitativen Merkmalswerten wird der Modalwert durch die Klassenmitte der am dichtesten
besetzten Klasse repräsentiert. Er eignet sich für schiefe Häufigkeitsverteilungen oder zur
Charakterisierung von mehrgipfeligen Verteilungen (bimodal, multimodal).
Zulässige Lagemaße bei den verschiedenen Skalenniveaus:
Skalenniveau
Nominalskala
Ordinalskala
Metrische Skalen
zulässige Lage-Kenngrößen
Modalwert
Modalwert, Median
Modalwert, Median, Mittelwert
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
4
Maßzahlen der Streuung
Durch Mittelwerte allein läßt sich eine Datenmenge nicht ausreichend charakterisieren, da sie
keine Auskunft geben, wie die einzelnen Werte sich um den Mittelwert verteilen. Wie bei den
Lagemaßen sind in der Statistik auch verschiedene Streuungsmaße üblich, um die
unterschiedlichen Skalen und Verteilungen von Daten ausreichend gut beschreiben zu können.
Spannweite (range)
Das einfachste Maß für die Streuung ist die Spannweite, die Differenz aus dem größten und
kleinsten Meßwert. Sie ist für kleine Proben brauchbar, wird aber durch extreme Werte sehr
stark beeinflußt.
R = Maximum - Minimum = x n - x1
Varianz (variance) und Streuung (standard deviation)
Die Varianz s2 gibt die durchschnittliche, quadrierte Abweichung der Meßwerte vom
arithmetischen Mittel wieder.
1 n
2
s2 =
å ( xi - x )
n - 1 i =1
Die Standardabweichung: s = s 2
Die Standardabweichung eignet sich wesentlich besser zur Einschätzung der Variabilität eines
Merkmals als s2, da sie die gleiche Dimension wie die Beobachtungen hat.
Auch diese Maße werden durch Ausreißer beeinflußt.
Interquartilsabstand (interquartile range)
Eine weitere Kennzahl zur Beschreibung der Variabilität um den zentralen Wert ist der
Interquartilsabstand IQR. Er ist die Differenz zwischen dem 75%-Quantil (3.Quartil) und dem
25%-Quantil (1.Quartil). In diesem Bereich des IQR liegen somit 50% der Meßwerte.
IQR = x0,75 - x0, 25
Der IQR ist gegenüber extremen Werten unempfindlich.
Eine graphische Darstellung für den Median, die Spannweite und den Interquartilsabstand (5Zahlen-Zusammenfassung) ist der Box-and-Whiskers Plot. Ausgehend von dieser
Konstruktion gibt es zahlreiche Modifikationen.
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
5
Der Boxplot eignet sich besonders gut für den visuellen Vergleich mehrerer Meßwertreihen.
6
Einsekundenkapazität in l
5
4
3
2
Geschlecht
1
weiblich
männlich
0
N=
104
100
5-8 Jahre
152
170
9-12 Jahre
49
51
13-16 Jahre
Altersgruppen
Variationskoeffizient:
Ob die Streuung von Meßwerten als stark oder gering anzusehen ist, erweist sich oft erst,
wenn man die Streuung im Verhältnis zum Mittelwert betrachtet. Der Quotient
Vk =
s
x
wird als Variationskoeffizient bezeichnet. Er wird häufig in Prozent angegeben. In der Praxis
interpretiert man Vk bis zu 10% als geringe Variabilität, zwischen 10% und 25% als normal
und über 25% als starke Streuung des Beobachtungsmaterials. Er ist gegen Ausreißer anfällig.
Er wird zum Vergleich von Streuungen verschiedener Meßreihen verwendet (ist unabhängig
von der gewählten Einheit).
Skalenniveau
Nominalskala
Ordinalskala
Metrische Skalen
zulässige Streuungskenngrößen
keine
Spannweite, Quartilsabstand
Spannweite, Quartilsabstand,
Standardabweichung,
Variationskoeffizient
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
6
Kennzahlen zur Beschreibung der Verteilungsform
Im folgenden werden Kennzahlen eingeführt, die als Maß für die Schiefe und die Wölbung
einer eingipfeligen Verteilung herangezogen werden können.
Mit Hilfe der verschiedenen Lagemaße lassen sich bereits Aussagen über die Schiefe einer
eingipfeligen Verteilung treffen:
Verteilungsform
Bedingung
rechtsschief (linkssteil) x > ~
x > xmod
linksschief (rechtssteil) x < ~
x < xmod
symmetrisch
x=~
x = xmod
Schiefe (Skewness)
Mit Hilfe des Schiefemasses g1 ist man nun in der Lage, durch einen einzigen Kennwert
Auskunft über die Schiefe und deren Richtung zu erhalten.
1
(xi - x )3
å
n i =1
g1 =
3
æ1
2ö
ç å ( xi - x ) ÷
ø
è n i =1
Ist g1 » 0, so kann man davon ausgehen, daß die Meßwerte symmetrisch um x verteilt liegen.
Bei linksschiefen Verteilungsformen wird g1 negativ, bei rechtschiefen positiv.
Exzeß und Wölbung (Kurtosis)
g2 =
1
(xi - x )4
å
n i =1
æ1
2ö
ç å ( xi - x ) ÷
è n i =1
ø
2
-3
Der Exzeß gibt an, ob, bei gleicher Varianz, das absolute Maximum der Verteilung größer als
bei der Dichte der Normalverteilung ist. Der theoretische Wert von g2 für normalverteilte
Merkmalswerte ist 0. Ist g2 > 0 (g2 < 0), so liegen im Zentrum der Verteilung mehr (weniger)
Merkmalswerte als bei der Normalverteilung.
Evidenzbasierte Medizin und Biostatistik, Prof. Andrea Berghold
7
Herunterladen