Die Statistik beschäftigt sich mit Massenerscheinungen, bei denen die dahinterstehenden Einzelereignisse meist zufällig sind. Statistik benutzt die Methoden der Wahrscheinlichkeitsrechnung. Fundamentalregeln: Statistischen Aussagen beziehen sich nie auf ein Einzelereignis, sondern nur auf Gesamtheiten vieler Ereignisse. Jede statistische Aussage ist mit einer prinzipiell unvermeidlichen Unsicherheit behaftet. 2 Deskriptive Statistik KAD 2013.09.12 das erste Anwendungsgebiet der Statistik bestand in der Staatsbeschreibung (Völkszählung) Status = Zustand Semmelweis (18181865) war der erste bekannte Arzt, der den Nutzen einer neuen Therapie mit statistischen Methoden belegte 3 http://www.medizin.uni-koeln.de/kai/imsie/kursinfo/q1/Q1-01-Einfuehrung.pdf 4 Labormessergebnisse Was messen Physiker, Arzt und Medizinstudent? 5 6 Pr.Buch Tabelle 3 Klassifizierung der Merkmale Skalentypen der metrischen Merkmale diskret Intervallskala kontinuierlich Tage in einem Kalender Temperatur in °C Anzahl der Zähne Temperatur in K definierte Differenz, „kein” 0 Punkt Verhältnisskala definiertes Verhältnis, 0 Punkt 7 8 Element =, ≠ =, ≠ <, > +,− =, ≠ <, > =, ≠ <, > +, − *, / Auseinanderhalten Anordnung Differenz Stichprobe: Gesamtheit der Individuen (Elemente), deren Eigenschaften bei der Studie untersucht werden sollen. Die gesamte Menge der interessierenden Daten. Der für die Studie ausgewählte Teil der Population. N = „unendlich” Verhältnis n = endlich N >>n (Umfang) 9 über die man etwas aussagen möchte die Stichprobenelemente sollen zufällig ausgewählt werden Grundgesamtheit (Population): 10 Wie hoch ist die normale Pulsfrequenz (einer Population)? Merkmal: Pulsfrequenz zufällige Erhebung einiger Elementen der Population: Stichprobe Grundgesamtheit Daten der Stichprobe liegen in Form einer Urliste vor: Stichprobe 66, 56, 89, 63, 66, 69, 71, 68, 58, 69, 78, 66, 64, 84, 74, 76, 69, 77, 74, 76 (Einheit: 1/Min), oder: Zufall ! deskriptive Statistik Unsicherheit ! „Die Werte sollen geordnet und verdichtet werden.” !? induktive Statistik (schließende St. analytische St.) Stellen wir die Daten entlang einer Zahlengeraden dar! Die deskriptive Statistik ist die Vorstufe zur induktiven Statistik keine Daten 11 wenige Daten viele Daten wenige Daten keine Daten 12 Pr.Buch Abb. 4 Häufigkeitsdichte Verfeinern wir die Klassen noch weiter! Δn Δx Unterteilen wir die Zahlengerade in gleich breite Klassen (Intervalle) und zählen wir ab, wie viele Daten sich in den so erhaltenen Klassen befinden! ⎛ ⎞ ⎜ 1 ⎟ ⎛ Min ⎞ ⎜ ⎟=⎜ ⎟ ⎜5 1 ⎟ ⎝ 5 ⎠ ⎜ ⎟ ⎝ Min ⎠ in Excel: =frequency(...) =Häufigkeit(...) Die Fläche unter der Treppenfunktion zwischen 55 und 60: 5 Die Grenzwerte und die Breiten der Klassen sind willkürlich. Stellen wir diese Treppenfunktion dar! 13 ⎛ 1 ⎞ ⎜ ⎟ ⎝ Min ⎠ 1 Min ⋅2 =2 Min 5 Die Gesamtfläche unter der Treppenfunktion: 20 = n, Anzahl der Messdaten in der Stichprobe 14 Pr.Buch Tabelle 5 Δn Δx ⎛ Min ⎞ ⎜ ⎟ ⎝ 5 ⎠ absolute Häufigkeitsdichteverteilung 1 Δn n Δx ⎛ 1 Min ⎞ ⎜ ⎟ ⎝ 20 5 ⎠ relative Fläche unter der Kurve: n ⎛ 1 ⎞ ⎜ ⎟ ⎝ Min ⎠ absolute Häufigkeitsdichte (Histogramm) relative Häufigkeitsdichte (Histogramm) Fläche unter der Kurve: 1 n = 1 = 100 • • n ⎛ 1 ⎞ ⎜ ⎟ ⎝ Min ⎠ „Jedes Rechteck entspricht einem Messwert. „ 15 16 Pr.Buch Abb. 5 Bestimmung der optimalen Klasseneinteilung empirische Funktion empirische Funktion n vergrößert sich, die Klassenbreite Δx kann verkleinert werden optimale Klassenanzahl m: m 2 = 2n m = 2n m = 40 = 6.3 optimale Klassenbreite Δx: x − xmin Δx = max m 89 − 56 Δx = = 5.2 6 .3 17 Pr.Buch Abb. 5 Bei großen Stichproben ergibt die empirische Verteilungsfunktion eine sehr gute Näherung der theoretischen Verteilungsfunktion. (Die Stichprobe ist „gleich” der 18 Grundgesamtheit.) theoretische Funktion Pr.Buch Abb. 6 Lagemasse, Lokationsmasse Analyse von Häufigkeitsverteilungen Lageparameter. Charakterisierung das Zentrum der Daten Durchschnittswert (der arithmetische Mittelwert) homogene symmetrische Stichprobe: heterogene Stichprobe: Vermutung: linksschief rechtsschief =Mittelwert(...) n x= homogene nichtsymmetrische Stichproben: =average(...) x1 + x 2 + K + x n = n ∑x i =1 i n Modus (Modalwert, Dichtemittel): der Wert mit der größten Wahrscheinlichkeit; der häufigste Wert einer Häufigkeitsverteilung =mode(...) =Modalwert(...) Median (Zentralwert): halbiert eine Stichprobe. Anzahl der Daten der Stichprobe kleiner als Median = = Anzahl der Daten der Stichprobe größer als Median Gleichverteilung? Normalverteilung? Überlagerung von zwei Normalverteilungen? ⎧ x( n +1) / 2 falls n ungerade xmed = ⎨ ⎩( x n / 2 + x( n / 2+1) ) / 2 falls n gerade =median(...) =Median(...) 20 Durchschnittswert (der arithmetische Mittelwert) + x1 + x2 x3 Linkssteile bzw. rechtschiefe Verteilung = f(x) =skew(...) > 0 =Schiefe(...) > 0 = n ∑ (x i =1 i + x x − x ) = ∑ xi − ∑ x = ∑ xi − n x = 0 + x Die Summe der Abweichungen der Daten von diesem Wert ist gleich Null. z.B. Einkommensverteilungen in einem Land: Der Großteil der Bevölkerung verdient relativ wenig, während es nur wenig Leute gibt, die sehr viel verdienen. n x= x1 + x 2 + K + x n = n ∑x i =1 n i =average(...) =Mittelwert(...) x Modus Median Durchschnitt =3x 21 22 Weitere Beispiele Linksschiefe bzw. rechtssteile Verteilung f(x) MaxwellBoltzmannVerteilung =skew(...) < 0 =Schiefe(...) < 0 Durchschnitt Komplexität der Tiere Median Modus x z.B. Dauer einer Schwangerschaft 23 www.vordenker.de/if_gould/images/verteilung.gif 24 Streuungsmasse (Variabilitätsmaße, Variationsmaße) Mass für die Streubreite von Daten Streuungsparameter. Charakterisierung der Variation der Daten Daten und ihre Durchschnittswerte Die Daten streuen um den Durchschnittswert. Standardabweichung (Streuung der Messdaten, s): die mittlere Abweichung vom Durchschnitt: das Quadrat der Streuung, die mittlere quadratische Abweichung, auch als Varianz bezeichnet: Pulsfrequenzen (1/Min) 25 Spannweite: xmax-xmin n s= ∑(x i =1 i n −1 n s2 = − x )2 ∑(x i =1 i =stdev(...) =Stabw(...) − x )2 n −1 =var(...) =Varianz(...) =max(...)-min(...) 26 Pr.Buch Abb. 10 α-Quantil 0 <α <1 (seien dazu die xi aufsteigend sortiert): Perzentilenkurven sind ein Werkzeug für den Arzt. falls nα keine ganze Zahl ist ⎧ x xα = ⎨ [nα ]+1 + ( x x ⎩ nα nα +1 ) / 2 falls nα ganzzahlig ist x1/4 – unteres Quartil x3/4 – oberes Quartil x1/10 – unteres Dezil x9/10 – oberes Dezil =Quartil(...) Wachstums- und Gewichtskurven für Mädchen halber Quartilabstand : (x3/4 – x1/4)/2 mit Wörter: z.B. Dezile Durch Dezile (lat. „Zehntelwerte“) wird die Verteilung in 10 gleich große Teile zerlegt. Unterhalb des dritten Dezils liegen 30 % der Verteilung. =percentile(...) =Quantil(...) 27 28 Position des Medians und des Durchschnitts einer Verteilung f(x) ΔN Δx rechtsschiefe Verteilung Apunktierte = Aschraffierte 50% x Modus Median Durchschnitt Skalentypen 50% zulässige LageParameter zulässige StreuungsParameter Nominalskala Modus – Ordinalskala Modus, Median – numerische Skalen Modus, Median, Durchschnittswert Spannweite, Quartilabstand, Standardabweichung Summen- (kumulierte/kumulative) Häufigkeitsverteilung N 14 Wieviele Werte sind kleiner als h? 12 10 8 6 4 2 0 150 ΔN Δh ⎛ 1 ⎞ ⎜⎜ ⎟⎟ ⎝ 10 cm ⎠ HäufigkeitsdichteVerteilung „SummenHäufigkeitsverteilung” 170 180 190 200 210 220 h (cm) 6 5 DD-”Spektrum” 4 3 2 1 0 150 M=N0-N 160 160 170 180 190 200 210 220 14 12 ID-”Spektrum” 10 8 6 4 2 0 150 h (cm) Wieviele Werte sind grösser als h? h (cm) 160 170 180 190 200 210 220 ΔN Δx Median Schwerlinie 29 SummenHäufigkeitsverteilung x 31 Durchschnitt Coulter-Zähler x 30