3. Einführung in die Statistik Grundlegendes Modell zu Daten: unabhängige Zufallsgröß en X1 ; : : : ; Xn mit Verteilungsfunktion F bzw. Einzelwahrscheinlichkeiten p1 ; : : : ; pr in den Anwendungen: konkrete reale Ausprägungen X1 ; : : : ; Xn Zahlenwerte, Werte von Vektoren, qualitative Größ en B verschiedene Datentypen: diskret (kategorial) Nominaldaten Operationen =6= rein qualitativ stetig Ordinaldaten reelle =6=<> =6=<> + quantitativ quantitativ = ohne Ordnung der Werte Werte geordnet Werte geordnet metrische Skala Beispiele Farbe,Geschlecht, Noten, Temperatur, Namen Fehleranzahl Gewicht,Umsatz B Ablauf einer statistischen Untersuchung: 1) Planung der Untersuchung - Versuchsplanung - Suche nach geeigneten Datenquellen 2) Erhebung (Sammeln) von Daten - zufällige Auswahl der Stichprobe, Datenerfassung - Abwägen zwischen Kosten für Daten und gewünschter Präzision 3) Aufbereitung der Daten (explorative Analyse) - deskriptive Statistik - Erkennen von Strukturen in den Daten - Maß zahlen, Tabellen, Gra…ken 4) Inferenzstatistik - Schätzung von Modellparametern/Modellfunktionen - Kon…denzintervalle, Tests 5) Interpretation - die Ergebnisse in 4) sind zu interpretieren, Schlussfolgerungen zu ziehen - gra…sche Darstellung der Ergebnisse in 4) - Abschlussbericht 1 4. Deskriptive Statistik Vorgegeben Daten X1 ; : : : ; Xn Variationsreihe (Ordnungsstatistik) X(1) ; X(2) ; : : : ; X(n) mit X(1) X(2) ::: X(n) : Definition: Die relative Häu…gkeit des Ereignisses Xi Verteilungsfunktion an der Stelle x: Fn (x) = 1 Anzahl der Xi mit Xi n x ergibt die empirische x monoton wachsende Treppenfunktion mit Sprüngen in Xi B Histogramm Wir teilen den Grundbereich G des Merkmals in mehrere disjunkte Intervalle ein S (möglichst gleiche Breite): I1 ; I2 ; : : : ; Ik ; kj=1 Ij = G. Hj Anzahl der Stichprobenelemente im Intervall Ij mit Breite Über jedem Intervall I1 ; : : : ; Ik werden Balken der Breite in das Diagramm eingetragen. Die Höhe dieser Balken beträgt: a) die absolute Häu…gkeit Hj oder H b) die relative Häu…gkeit hj = nj oder c) relative Häu…gkeit hj Hj = = Intervallbreite n Empirische Kenngröß en B Stichprobenmittel (Mittelwert) Empirischer Median m ^X = ( 1X X= Xi n i=1 n X(N ) mit N = n+1 , falls n ungerade, 2 1 X + 12 X(L+1) mit L = n2 , falls n gerade. 2 (L) Geometrisches Mittel ~= X p n X1 X2 : : : Xn 2 Stichprobenvarianz 2 SX = 1 n 1 n X Xi X 2 = i=1 n X 1 n 1 Xi2 i=1 nX 2 ! Empirische Standardabweichung v u u SX = t 1 n 1 n X Xi X 2 i=1 Variationskoe¢ zient Empirische Schiefe: dX = SX VX = X n X 1 Xi n X 3 i=1 3 SX empirisches -Quantil: N ergibt sich durch Aufrunden von n auf die nächstgröß ere ganze Zahl. q^ = ( X(N ) , wenn n keine ganze Zahl ist, 1 X + 21 X( n+1) , wenn n eine ganze Zahl ist. 2 ( n) q^ ist Schätzer für das -Quantil der Verteilung. Quartilsabstand: q^0:75 q^0:25 , Box-Whisker-Plot Whisker links: X(1) , Whisker rechts: X(n) linker Rand Box: q^0:25 , rechter Rand Box: q^0:75 , Strich in der Mitte: m ^ = q^0:5 Plus-Zeichen: X Konzentrationskurve - Lorenzkurve Werte: a1 ; : : : ; aN . Die Werte des Merkmalsträgers werden sortiert: a(1) ::: A= N X i=1 3 ai a(2) a(3) sortierte Anteilswerte: v0 = 0; 1X vi = a(j) A j=1 i für i = 1; : : : ; N kumulierte Gleichanteile: ui = Ni (i = 1 : : : N ) Lorenzkurve: Verbinden der Punkte (ui ; vi ) Konzentrationsmaßnach Gini/Lorenz-Münzner 2 N X1 vi i=1 =1 N 1 Lorenz‡äche: Fläche zwischen Diagonale und Lorenzkurve. Dieses Konzentrationsmaß gibt das Verhältnis von der Lorenz‡äche und der größ tmöglichen Lorenz‡äche N2N1 an. 0 1. Einfache Analysen von Zeitreihen Zeitreihe X1 ; X2 ; : : : ; Xn B Durchschnittliche Steigerungsrate pro Zeitabschnitt: Index = Xn X1 1=(n 1) , Rate r = 1 ( 1) 100% ist die jährliche Steigerungsrate für Zeitraum vom Jahr 1 bis Jahr n, d.h. in n 1 Jahren. B Gleitende Mittel Zahl k vorgegeben. Gleitmittel zum Zeitpunkt t ist der Mittelwert der Werte Xt k ; : : : ; Xt+k : t+k X 1 ~ Xi Xt = 2k + 1 i=t k B Exponentielles Glätten Zahl 2 (0; 1) vorgegeben. ~ t = (1 X ~t )X 1 + Xt häu…g benutzte Werte: = 0:1 : : : 0:3 Prognose für das Jahr t + 1: ^ t+1 = (1 X ~ t + Xt )X 4 5. Punktschätzungen Stichprobe X1 ; : : : ; Xn unabhängiger Zufallsgröß en Xi hat Verteilungsfunktion F (x). E(Xi ) = ; Var(Xi ) = 2 Satz: Bei Xi N ( ; 2 ) besitzt Xn eine N ( ; 2 =n)-Verteilung. Ist Xi nicht normalverteilt, dann nähert sich asymptotisch (n ! 1) die Verteilung von Xn einer N ( ; 2 =n)-Verteilung. 2 -Verteilung mit n Freiheitsgraden: f (x) = ( 1 xn=2 1 2n=2 (n=2) N( ; 2 ) =) n 1 2 x ) 2 für x 0 0 für x < 0: Gammafunktion, (m) = (m Satz: Xi exp( 1)! für m 2 N, ansonsten Tabelle/Computer 2 besitzt eine SX 2 n 1 -Verteilung. Schätzer für spezielle Verteilungen Normalverteilung N ( ; 2 ) 1X 1 X 2 ^=X= Xi ; ^ 2 = SX = (Xi n i=1 n 1 i=1 n n X)2 Exponentialverteilung mit Parameter ^= 1 = n n X X Xi i=1 Poissonverteilung mit Parameter X ^=X= 1 Xi n i=1 n Binomialverteilung mit Parameter p und vorgegebenem Parameter N n 1 X p^ = Xi nN i=1 5 6. Kon…denzbereiche Gegeben Stichprobe X1 ; X2 ; : : : ; Xn unabhängiger Zufallsgröß en, 2 Xn Mittelwert, SX Stichprobenvarianz Kon…denzniveau " = 1 Z 2 n; X X N (0; 1), X und Z unabhängig. Die Zufallsgröß e Y = q besitzt dann Z n eine t-Verteilung mit n Freiheitsgraden (n 1, Symbol: Y X N ( ; 2) Kon…denzintervall für den Erwartungswert J = Xn z(1 =2) p ; Xn + z(1 n tn ). bei bekannter Varianz =2) p 2 n P ( 2 J) = 1 Kon…denzintervall für den Erwartungswert bei unbekannter Varianz SX SX =2) p ; Xn + tn 1 (1 J = Xn tn 1 (1 =2) p n n 2 P ( 2 J) = 1 Kon…denzintervalle für die Varianz 2 2 2 (n 1)SX (n 1)SX ; zweiseitig: J = 2 2 =2) n 1 (1 n 1 ( =2) P( 2 einseitig: J = 0; (n 2 n 2 1)SX 1( ) 2 J) = 1 Gegeben Ereignis A, P (A) = p, Hn absolute Häu…gkeit des Auftretens von A in der Stichprobe der Länge n. Asymptotisches Kon…denzintervall für p q2 q2 1 1 J= H + qW ; H + + qW n n n + q2 2 n + q2 2 mit W := r Hn (n Hn ) q 2 + ; q = z(1 n 4 P (p 2 J) 6 1 =2);