Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie Friedrich-Schiller-Universität Jena P. Krause & M. Santoro -1- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Teil A Univariate Deskriptive Statistik ......................................................................... 6 1. Das Summenzeichen .......................................................................................... 6 1.1 Definition ...................................................................................................... 6 1.2 Rechenregeln ............................................................................................... 6 2. Formelzeichen..................................................................................................... 7 3. Skalen ................................................................................................................. 7 4. Häufigkeiten ........................................................................................................ 8 5. 6. 7. 4.1 Einfache Häufigkeiten .................................................................................. 8 4.2 Kumulierte Häufigkeiten (Summenhäufigkeiten) .......................................... 8 Klassierte Daten .................................................................................................. 9 5.1 Klassenzahl, Klassenbreite .......................................................................... 9 5.2 Definition und Berechnung von Klassenmerkmalen ..................................... 9 Lageparameter .................................................................................................. 10 6.1 Modus, Dichtester Wert.............................................................................. 10 6.2 Quantile, Quartile ....................................................................................... 11 6.3 Median, Zentralwert.................................................................................... 11 6.4 Mittelwerte.................................................................................................. 11 6.4.1 Arithmetisches Mittel ........................................................................... 11 6.4.2 Gewogenes arithmetisches Mittel ....................................................... 12 6.4.3 Harmonisches Mittel............................................................................ 12 6.4.4 Geometrisches Mittel .......................................................................... 12 Streuungsparameter.......................................................................................... 13 7.1 7.1.1 Spannweite ......................................................................................... 13 7.1.2 Durchschnittliche Abweichung ............................................................ 13 7.1.3 Varianz ................................................................................................ 13 7.1.4 Standardabweichung .......................................................................... 13 7.2 8. 9. Absolute Streuungsmaße........................................................................... 13 Relative Streuungsmaße............................................................................ 13 7.2.1 Relative Variabilität ............................................................................. 13 7.2.2 Variationskoeffizient ............................................................................ 13 Formparameter.................................................................................................. 14 8.1 Schiefe ....................................................................................................... 14 8.2 Wölbung – Exzess...................................................................................... 14 Konzentrationsmaße - Disparitätsparameter ..................................................... 15 -2- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 9.1 Absolute Konzentrationsmaße ................................................................... 15 9.1.1 9.2 Herfindahl-Index.................................................................................. 15 Relative Konzentrationsmaße .................................................................... 15 9.2.1 Lorenzkurve ........................................................................................ 15 9.2.2 Gini-Koeffizient.................................................................................... 15 Teil B ....................................................................................................................... 17 Bivariate Deskriptive Statistik ............................................................................ 17 10. Kontingenztabelle .......................................................................................... 17 10.1 Häufigkeiten ............................................................................................... 17 10.1.1 Absolute Randhäufigkeiten ................................................................. 17 10.1.2 Relative Häufigkeiten, relative Randhäufigkeiten ................................ 17 10.1.3 Bedingte relative Häufigkeiten............................................................. 18 10.1.4 Prüfung auf Unabhängigkeit................................................................ 18 11. Lageparameter bivariater Verteilungen.......................................................... 18 11.1 Arithmetisches Mittelzentrum ..................................................................... 18 11.2 Gewogenes arithmetisches Mittelzentrum.................................................. 18 11.3 Medianzentrum........................................................................................... 19 12. 12.1 13. Streuungsparameter bivariater Verteilungen ................................................. 19 Standarddistanz ......................................................................................... 19 Korrelationsanalyse ....................................................................................... 19 13.1 Normierter Kontingenzkoeffizient ............................................................... 19 13.2 Vierfelderkorrelationskoeffizient ρφ (rho-phi) .............................................. 20 13.3 Rangkorrelationskoeffizient nach SPEARMAN .............................................. 20 13.4 Produkt-Moment-Korrelationskoeffizient nach BRAVAIS-PEARSON .............. 20 14. Regressionsanalyse....................................................................................... 21 14.1 Lineare Regression .................................................................................... 21 14.2 Das Bestimmtheitsmaß, Determinationskoeffizient .................................... 21 14.3 Nonlineare Regression............................................................................... 21 Teil C Schließende Statistik...................................................................................... 22 15. Wahrscheinlichkeitsrechnung ........................................................................ 22 15.1 Begriffsdefinition und Formelzeichen ......................................................... 22 15.2 Axiome der Wahrscheinlichkeitsrechnung (Kolmogoroff-Axiome) .............. 22 15.3 Klassischer Wahrscheinlichkeitsbegriff ...................................................... 22 15.4 Rechenregeln für die Wahrscheinlichkeit ................................................... 22 15.5 Bedingte Wahrscheinlichkeiten .................................................................. 22 15.6 Stochastische Unabhängigkeit ................................................................... 23 -3- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 16. Verteilungsfunktion F(x) ................................................................................. 23 16.1 F(x) diskreter Zufallsvariablen .................................................................... 23 16.2 F(x) stetiger Zufallsvariablen ...................................................................... 23 17. Wahrscheinlichkeitsfunktion f(x) .................................................................... 23 17.1 f(x) diskreter Zufallsvariablen ..................................................................... 23 17.2 f(x) stetiger Zufallsvariablen ....................................................................... 24 18. Erwartungswert .............................................................................................. 24 18.1 Erwartungswert diskreter Zufallsvariablen.................................................. 24 18.2 Erwartungswert stetiger Zufallsvariablen.................................................... 24 19. Varianz und Standardabweichung ................................................................. 24 19.1 Varianz und Standardabweichung diskreter Variablen............................... 24 19.2 Varianz und Standardabweichung stetiger Variablen................................. 24 20. Diskrete theoretische Verteilungen ................................................................ 25 20.1 Bernoulli Experiment .................................................................................. 25 20.1.1 Wahrscheinlichkeitsfunktion der Bernoulli Verteilung.......................... 25 20.1.2 Erwartungswert der Bernoulli Verteilung ............................................. 25 20.1.3 Varianz der Bernoulli Verteilung.......................................................... 25 20.2 Binominal Verteilung .................................................................................. 25 20.2.1 Wahrscheinlichkeitsfunktion der Binominal Verteilung ........................ 25 20.2.2 Erwartungswert der Binominalverteilung ............................................. 26 20.2.3 Varianz der Binominal Verteilung ........................................................ 26 20.3 Hypergeometrische Verteilung ................................................................... 26 20.3.1 Verteilungsfunktion der hypergeometrischen Verteilung ..................... 26 20.3.2 Erwartungswert der hypergeometrischen Verteilung........................... 26 20.3.3 Varianz der hypergeometrischen Verteilung ....................................... 27 20.4 Poisson Verteilung ..................................................................................... 27 20.4.1 21. Verteilungsfunktion der Poisson Verteilung......................................... 27 Stetige theoretische Verteilungen .................................................................. 27 21.1 Die Exponentialverteilung........................................................................... 27 21.1.1 Dichtefunktion der Exponentialverteilung ............................................ 27 21.1.2 Verteilungsfunktion der Exponentialverteilung .................................... 27 21.1.3 Erwartungswert der Exponentialverteilung .......................................... 27 21.1.4 Varianz der Exponentialverteilung....................................................... 27 21.2 Die Normalverteilung.................................................................................. 28 21.2.1 Dichtefunktion der Normalverteilung ................................................... 28 21.2.2 Verteilungsfunktion der Normalverteilung ........................................... 28 -4- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 21.3 Die Standardnormalverteilung .................................................................... 28 21.3.1 Transformation von der Normalverteilung zur Standardnormalverteilung 28 21.3.2 Dichtefunktion der Standardnormalverteilung ..................................... 28 21.3.3 Verteilungsfunktion der Standardnormalverteilung.............................. 28 21.4 22. Die Lognormalverteilung ............................................................................ 28 Parametrische Signifikanztests...................................................................... 29 22.1 Mittelwerttest .............................................................................................. 29 22.1.1 Gaußtest ............................................................................................. 29 22.1.2 Der t-Test ............................................................................................ 30 22.2 Varianzentest – χ²-Test .............................................................................. 30 22.3 Anteilstest................................................................................................... 30 22.4 Differenzentest (Mittelwerte) ...................................................................... 31 -5- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Teil A Univariate Deskriptive Statistik 1. Das Summenzeichen 1.1 Definition n ∑ xi i =1 mit: = x1 + x2 + x3 + L + xn −1 + xn xi : Objektausprägung i : Laufindex über die Objekte (i = 1 ... n) n : Anzahl der Objekte und: n ∑ a = (a + a + L + a ) = n ⋅ a i =1 mit: 1.2 a : Konstante Rechenregeln Regel 1: Ein konstanter, multiplikativer Faktor lässt sich vor das Summenzeichen ziehen (ausklammern). n n i =1 i =1 ∑ a ⋅ xi = a ∑ x i da: a ⋅ x1 + a ⋅ x2 + L + a ⋅ x n = a ⋅ ( x1 + x 2 + L + x n ) Regel 2: Eine Summe innerhalb des Summenzeichens lässt sich gliedweise summieren: n n n i =1 i =1 i =1 ∑ ( xi + y i ) = ∑ x i + ∑ y i da: (x1 + y1 ) + (x2 + y 2 ) + L + (xn + yn ) = (x1 + x2 + L + xn ) + ( y1 + y2 + L + yn ) Bei einem konstanten additiven Faktor gilt: n n n n i =1 i =1 i =1 i =1 ∑ ( a + xi ) = ∑ a + ∑ x i = n ⋅ a + ∑ x i Regel 3: Die Verknüpfung von Regel 1 und 2 ergibt: n n n n n i =1 i =1 i =1 i =1 i =1 ∑ (a ⋅ xi + b ⋅ yi ) = ∑ (a ⋅ xi ) + ∑ (b ⋅ yi ) = a ∑ xi + b∑ yi -6- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Regel 4: Das Summenzeichen entspricht der Addition, daher ist die Operatorenrangfolge („Punkt vor Strich“) zu beachten. n n n i =1 i =1 i =1 ∑ ( xi ⋅ y i ) ≠ ∑ x i ⋅ ∑ y i 2. Formelzeichen Die Elemente der Grundgesamtheit werden mit N bezeichnet. Ihr Wertebereich sind die natürlichen Zahlen (1 ... ∞) Die Elemente der Stichprobe werden mit n bezeichnet. Sie sind eine Teilmenge der Grundgesamtheit N. Daher liegt ihr Wertebereich zwischen 1 und N. Die Merkmalsträger werden mit einem Laufindex, meist i bzw. j, bezeichnet mit: i,j = 1 ... n,N Die Merkmalsausprägungen der Merkmalsträger werden meist mit x bzw. y und dem entsprechenden Laufindex (i, j) bezeichnet: xi, yi oder xj, yj. 3. Skalen In der Statistik werden folgende Skalen unterschieden: Skala Zweck Relationen, Operationen Beispiel Nominalskala Identifikation von Untersuchungselementen xi = xj xi ≠ xj Geschlecht, Farben, Namen wie oben und Ordinalskala Identifikation und Ordnung Rangfolge beim Sport, Richterskala Nonmetrische Skalen xi < xj xi > xj wie oben und Intervallskala Metrische Skalen Identifikation, Ordnung und Bewertung (additiv) xi = xj + a xi = xj - b Temperaturen in °C oder F xi + xj = c Rationalskala Identifikation, Ordnung und Bewertung (multiplikativ) -7- wie oben und xi = xj · a xi = xj / b xi · xj = c Temperaturen in K, Längen, Gewichte, Flächen Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 4. Häufigkeiten 4.1 Einfache Häufigkeiten Die absolute Häufigkeit mit der die einzelnen Merkmalsausprägungen xi in der Stichprobe oder Grundgesamtheit auftreten wird mit hi bezeichnet. Wertebereich: 1 ... N,n Die relative Häufigkeit beschreibt den Anteil der Merkmalsausprägungen xi an der Stichprobe bzw. Grundgesamtheit und wird mit fi bezeichnet. fi ergibt sich aus hi nach: fi = hi n der Wertebereich liegt zwischen 0 und 1. Die prozentuale Häufigkeit beschreibt den Anteil der Merkmalsausprägungen xi an der Stichprobe bzw. Grundgesamtheit in Prozent. Sie wird mit pi bezeichnet und ergibt sich aus fi nach: pi = f i ⋅100 der Wertebereich liegt zwischen 0 und 100%. 4.2 Kumulierte Häufigkeiten (Summenhäufigkeiten) Die kumulierten Häufigkeiten ergeben sich durch sukzessives Aufsummieren der einfachen Häufigkeiten. Die kumulierte absolute Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit Hi bezeichnet. Sie ergibt sich aus den absoluten Häufigkeiten hi der Merkmalsträger nach: H 1 = h1 H 2 = h1 + h2 H 3 = h1 + h2 + h3 Wertebereich: 1 ... n,N L H n = h1 + h2 + h3 + L + hn Die kumulierte relative Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit Fi bezeichnet. Sie ergibt sich aus den relativen Häufigkeiten fi der Merkmalsträger nach: F1 = f1 F2 = f1 + f 2 F3 = f1 + f 2 + f 3 Wertebereich: 0 ...1 L Fn = f1 + f 2 + f 3 + L + f n -8- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Die kumulierte prozentuale Häufigkeit der Merkmalsausprägungen x1 ... xn wird mit Pi bezeichnet. Sie ergibt sich aus den relativen Häufigkeiten pi der Merkmalsträger nach: P1 = p1 P2 = p1 + p 2 P3 = p1 + p 2 + p3 Wertebereich: 0 ...100% L Pn = p1 + p 2 + p3 + L + p n 5. Klassierte Daten Bei großer Anzahl von Untersuchungselementen n oder N und/oder sehr unterschiedlichen Merkmalsausprägungen xi werden die Daten aus Gründen der Anschaulichkeit oft klassiert. 5.1 Klassenzahl, Klassenbreite Zur Ermittlung einer geeigneten Klassenzahl k einer Verteilung mit n Elementen kann die Faustregel nach STURGES herangezogen werden: k ≈ 1 + 3.32 ⋅ lg n mit: k : Anzahl der Klassen n : Anzahl der Elemente der Verteilung Die Klassenbreite ∆x ergibt sich daraus nach: ∆x = ( xmax − xmin ) k mit: xmax : Größte Merkmalsausprägung xmin : Kleinste Merkmalsausprägung Die Faustregel nach STURGES liefert lediglich einen Anhaltspunkt. Bei der tatsächlichen Einteilung der Klassen sollten folgende Regeln beachtet werden: o Die Klassen sollen gleich breit sein (äquidistant). o Die Klassen sollen sich nicht überlappen (disjunkt). o Die Klassen sollen aneinander angrenzen, d.h. keine Werte zwischen zwei aufeinanderfolgende Klassen sollen ausgelassen werden. o Die Klassen sollen das gesamte Werteintervall der Urliste abdecken. 5.2 Definition und Berechnung von Klassenmerkmalen Die untere Klassengrenze der Klasse i wird mit xiu bezeichnet. Die obere Klassengrenze der Klasse i wird mit xio bezeichnet. Die Klassenbreite der Klasse i wird mit ∆xi bezeichnet und berechnet sich nach: ∆xi = xio − xiu -9- Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Die Klassenmitte der Klasse i wird mit xim bezeichnet und wird für weitergehende Berechnungen als repräsentativ für die Klasse angenommnen. Sie berechnet sich nach: xim = ( xiu + xio ) 2 Die absolute Häufigkeit der Merkmale in der Klasse i wird mit hi bezeichnet und berechnet sich nach: hi = xio ∑ hj mit hj : Einzelhäufigkeiten der Merkmale innerhalb der Klasse j = xiu Aus hi und n ergibt sich die relative Häufigkeit fi der Klasse i nach: fi = hi n Und daraus die prozentuale Häufigkeit pi der Klasse i nach: pi = f i ⋅ 100 6. Lageparameter Die Lageparameter einer statistischen Verteilung dienen der möglichst aussagekräftigen Beschreibung, Repräsentation oder Charakterisierung der gesamten Daten der Urliste durch einen einzigen Wert. 6.1 Modus, Dichtester Wert Als Modus, Modalwert oder Dichtester Wert wird der Wert der Verteilungsfunktion bezeichnet, der am häufigsten auftritt. Er wird mit D oder xmod bezeichnet und ergibt sich: Bei unklassierten Daten nach: D = xi bei hi = max Bei klassierten Daten kann der Modus nach folgender Schätzformel näherungsweise berechnet werden: hi max − hi max −1 ⋅ ∆xi xmod = xiu max + 2 ⋅ hi max − hi max −1 + hi max +1 mit: xiumax : Klassenuntergrenze der am stärksten besetzten Klasse himax : absolute Häufigkeit der am stärksten besetzten Klasse himax+1, -1 : absolute Häufigkeit der benachbarten Klassen ∆xi : Klassenbreite Die Angabe eines Modalwertes sollte nur bei eingipfligen (unimodalen) Verteilungen erfolgen. - 10 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 6.2 Quantile, Quartile Quantile beschreiben bestimmte Stellen in der Verteilungsfunktionen bei denen x Prozent der Werte oberhalb und 100 - x Prozent der Werte unterhalb liegen. Die Quantile werden mit qp bezeichnet, wobei p dem gesuchten Prozentwert entspricht. Beispiel: q20 ist der Wert der Verteilungsfunktion bei dem 20% der Merkmale unterhalb und 80% der Merkmale oberhalb lokalisiert sind. Die Ermittlung der Quantile erfolgt mit Hilfe der kumulierten relativen oder prozentualen Häufigkeiten. Die besonders wichtigen Quantile an der 25%, 50% und 75%-Stelle der Verteilung werden erstes, zweites, drittes Quartil genannt. 6.3 Median, Zentralwert Der Median oder Zentralwert (= zweites Quartil) ist der Beobachtungswert bei dem mindestens 50% aller Beobachtungen größer oder gleich bzw. 50% aller Beobachtungswerte kleiner oder gleich dieses Wertes sind. Der Median wird mit Me oder xmed bezeichnet und berechnet sich für unklassierte Daten: bei ungerader Merkmalszahl n nach: xmed = x n+1 2 bei gerader Merkmalszahl n nach: 1 xmed = x n + x n +1 2 2 2 Bei klassierten Daten erfolgt die Bestimmung des Medians nach folgender Schätzformel: xmed = xiu ( med) mit: 6.4 n − H i ( med−1) + ∆xmed ⋅ 2 hmed xiu(med) : Klassenuntergrenze der Klasse die den Median enthält ∆xmed : Klassenbreite der Klasse die den Median enthält Hi(med-1) : Kumulierte absolute Häufigkeit der Klasse unterhalb hmed : Absolute Häufigkeit der Klasse die den Median enthält Mittelwerte 6.4.1 Arithmetisches Mittel Das arithmetische Mittel wird mit x bezeichnet und ist der bekannteste Mittelwert. Die Berechnung erfolgt nach: x= 1 n ∑ xi für unklassierte, ungruppierte Einzelwerte bzw.: n i =1 - 11 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 1 n x = ∑ xi ⋅ hi n i =1 für klassierte oder gruppierte Werte. 6.4.2 Gewogenes arithmetisches Mittel Mit dem gewogenen arithmetischen Mittel ( x g ) können einzelne Beobachtungswerte für die Berechnung des Mittelwertes unterschiedlich gewichtet werden. Die Berechnung erfolgt nach: n xg = ∑ xi ⋅ g i i =1 mit gi : Gewichte der Beobachtungswerte xi n ∑ gi i =1 6.4.3 Harmonisches Mittel Das harmonische Mittel ( xh ) kommt zum Einsatz, wenn das Mittel aus Verhältniszahlen mit variablen Nenner berechnet wird. xh = n n 1 ∑x i =1 i 6.4.4 Geometrisches Mittel Bei multiplikativer Abhängigkeit der Beobachtungswerte, wie z.B. bei Wachstum oder Reihenfortpflanzungen erfolgt die Mittelwertberechnung mit dem geometrischen Mittel ( xg ) nach: xg = n x1 ⋅ x2 ⋅ K ⋅ xn = n n ∏ xi i =1 Alternativ kann mit logarithmierten Werten gerechnet werden nach: lg xg = 1 n ∑ lg xi n i =1 Bei gruppierten oder klassierten Werten berechnet sich xg nach: xg = n x1h ⋅ x2h ⋅ K ⋅ xnh = 1 2 n n n ∏ xih i i =1 bzw. lg xg = - 12 - 1 n ∑ hi ⋅ lg xi n i =1 Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 7. Streuungsparameter Die Streuungsparameter (Streuungsmaße, Dispersionsmaße) geben Auskunft über die Verteilung der Daten innerhalb der Stichprobe oder der Grundgesamtheit. 7.1 Absolute Streuungsmaße 7.1.1 Spannweite Die Spannweite wird mit R (Range) bezeichnet und beschreibt die Ausdehnung einer Verteilung und berechnet sich nach: R = xmax − xmin 7.1.2 Durchschnittliche Abweichung Die durchschnittliche Abweichung DA ist als die mittlere absolute Abweichung der Merkmalsausprägungen von ihrem Mittelwert definiert und berechnet sich nach: DA = 1 n ∑ ( xi − x ) n i =1 7.1.3 Varianz Die Varianz s² ist als die Summe der quadratischen Abweichungen der Merkmalsausprägungen von ihrem Mittelwert definiert und berechnet sich nach: 1 n s = ∑ ( xi − x ) 2 n i =1 2 7.1.4 Standardabweichung Als Wurzel aus der Varianz ergibt sich die Standardabweichung s, die den Vorteil besitzt, dass bei ihr Dimension und Einheit der Beobachtungswerte erhalten bleiben. s= 7.2 1 n ( xi − x ) 2 = s 2 ∑ n i =1 Relative Streuungsmaße Der Vergleich der Streuung unterschiedlicher Verteilung ist auf Grund ihrer absoluten Ausprägung mit den oben aufgeführten Streuungsmaßen nur bedingt möglich. Besser hierfür geeignet sind die relativen Streuungsmaße. 7.2.1 Relative Variabilität Die relative Variabilität Vrel [in %] wird durch die Normierung der durchschnittlichen Abweichung mit dem Betrag des Mittelwertes berechnet: Vrel = DA ⋅ 100 x 7.2.2 Variationskoeffizient Der Variationskoeffizient V [in %] wird durch die Normierung der Standardabweichung mit dem Betrag des Mittelwertes berechnet: - 13 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena V= s ⋅ 100 x 8. Formparameter Mit den Formparametern wird die Form der Verteilungsfunktion beschrieben und bezüglich ihrer Abweichung von der Normalverteilung bewertet. 8.1 Schiefe Über die Schiefe wird beschrieben ob und wie stark eine Verteilung in ihrer Symmetrie von der Normalverteilung abweicht. Me < MW linkssteil – rechtsschief MW < Me Me = MW symmetrisch rechtssteil - linksschief Die Schiefe g berechnet sich mit dem dritten Standardmoment nach: 1 n ( xi − x )3 ∑ g = n i =1 3 s Es gilt: g = 0 für symmetrische Verteilungen (Median = Mittelwert) g > 0 für linkssteile (=rechtsschiefe) Verteilungen (Median < Mittelwert) g < 0 für rechtssteile (=linksschiefe) Verteilungen (Median > Mittelwert) 8.2 Wölbung – Exzess Mit dem Exzess wird beschrieben ob und wie stark eine Verteilung hinsichtlich ihrer Wölbung von der Normalverteilung (Exzess = 3) abweicht. negative Wölbung Exzess = 0 positive Wölbung Der Exzess Ez berechnet sich mit dem vierten Standardmoment nach: 1 n ( xi − x ) 4 ∑ Ez = n i =1 4 −3 s Es gilt: Ez = 0 gleiche Wölbung wie Normalverteilung (= mesokurtisch) Ez < 0 geringere Wölbung als Normalverteilung (= platykurtisch) Ez > 0 stärkere Wölbung als Normalverteilung (= leptokurtisch) - 14 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 9. Konzentrationsmaße - Disparitätsparameter Mit den Konzentrationsmaßen (= Disparitätsparameter) wird beschrieben wie stark eine Verteilung bezüglich der Konzentration der Merkmalsausprägungen von einer entsprechenden Gleichverteilung abweicht. 9.1 Absolute Konzentrationsmaße Die absoluten Konzentrationsmaße sind für nominal- und ordinalskalierte Beobachtungswerte geeignet. 9.1.1 Herfindahl-Index Der Herfindahl-Index wird mit CH bezeichnet und berechnet sich als Summe der quadrierten relativen Häufigkeiten nach: n CH = ∑ f i 2 i =1 Der Wertebereich von CH ist: Mit: CH = 1 n CH = 1 9.2 1 ≤ CH ≤ 1 n vollkommene Gleichverteilung vollkommene Konzentration aller Werte auf einem Merkmalsträger. Relative Konzentrationsmaße Die relativen Konzentrationsmaße sind zum Vergleich unterschiedlicher Verteilungen besser geeignet als die absoluten. 9.2.1 Lorenzkurve Die Stärke der Abweichung der resultieren Kurve von der Diagonalen (= Gleichverteilung) beschreibt die Konzentration. 1 0.9 F(Merkmalsausprägungen) Die Lorenzkurve dient der grafischen Darstellung der Konzentration einer Verteilung. Hierzu werden die kumulierten relativen Häufigkeiten der Merkmalsträger auf der XAchse gegen die kumulierten relativen Häufigkeiten der Merkmalsausprägungen auf der Y-Achse aufgetragen. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.2 0.4 0.6 0.8 1 F(Merkmalsträger) 9.2.2 Gini-Koeffizient Zur Quantifizierung der Abweichung der Lorenzkurve von der Diagonalen wird der Gini-Koeffizient G berechnet: - 15 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena n G= mit: 1 − ∑ ( Fi − Fi −1 )( Fxi + Fxi −1 ) i =1 1 − fn Fi : kumulierte relative Häufigkeit der Merkmalsträger Fxi : kumulierte relative Häufigkeit der Merkmalsausprägungen fn : relative Häufigkeit der/des n-ten (letzten) Klasse/Merkmalsträger Der Wertebereich von G ist: 0 ≤ G ≤1 mit: G=1 G=0 vollkommene Konzentration aller Werte auf einem Merkmalsträger vollkommene Gleichverteilung - 16 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Teil B Bivariate Deskriptive Statistik 10. Kontingenztabelle Zur Bearbeitung von zweidimensionalem Datenmaterial wird dieses zunächst in eine Kontingenztabelle nach folgendem Muster überführt. Merkmal2 Merkmal1 x1 x2 x3 … xk Randhäufigkeit M2 mit: y1 y2 y3 … ym h11 h21 h31 … hk1 h•1 h12 h22 h32 … hk2 h•2 h13 h23 h33 … hk3 h•3 … … … … … h1m h2m h3m … hkm h•m xi Ausprägung des Merkmals 1, mit i = 1 ... k yj Ausprägung des Merkmals 2, mit j = 1 ... m hij Absolute Einzelhäufigkeit der Merkmalskombination hi• Randhäufigkeiten des Merkmals 1 h•j Randhäufigkeiten des Merkmals 2 Randhäufigkeit M1 h1• h2• h3• hk• 10.1 Häufigkeiten 10.1.1 Absolute Randhäufigkeiten Die Randhäufigkeiten ergeben sich durch zeilen-, bzw. spaltenweises Aufsummieren der Einzelhäufigkeiten nach: m k j =1 i =1 hi• = ∑ hij bzw. h• j = ∑ hij Die Summe der Randhäufigkeiten ist gleich n nach: k m i =1 j =1 ∑ hi• = ∑ h• j = n 10.1.2 Relative Häufigkeiten, relative Randhäufigkeiten Die relativen Einzelhäufigkeiten der Merkmalstupel berechnen sich nach: f ij = hij n - 17 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Die relativen Randhäufigkeiten berechnen sich nach: m k j =1 i =1 fi• = ∑ fij bzw. f• j = ∑ f ij 10.1.3 Bedingte relative Häufigkeiten Als bedingte relative Häufigkeit wird die Häufigkeit eines Merkmals xi unter der konstanten Bedingung yj verstanden bzw. umgekehrt. Sie wird mit f(Merkmal|Bedingung) bezeichnet: f ( xi | y j ) ist die bedingte Häufigkeit von xi unter der Bedingung yj f ( y j | xi ) ist die bedingte Häufigkeit von yj unter der Bedingung xi Sie berechnet sich aus der Einzelhäufigkeit und der zugehörigen Randhäufigkeit nach: f ( xi | y j ) = hij h• j bzw. f ( y j | xi ) = hij hi • 10.1.4 Prüfung auf Unabhängigkeit Sind die beiden Merkmalsausprägungen voneinander unabhängig gilt: hij = hi ⋅ h j n bzw. f ij = f i ⋅ f j Sind diese Gleichungen nicht wahr bedeutet dies, dass die Merkmale voneinander abhängen. 11. Lageparameter bivariater Verteilungen Wie bei den univariaten Verteilungen können auch die bivariaten Verteilungen über Lageparameter beschrieben werden. Diese sind besonders für geographische Fragestellungen interessant, da hierdurch mittlere Positionen von Punkten im Raum bestimmt werden können. Hierfür werden die Koordinaten von Punkten als Merkmale x und y betrachtet. 11.1 Arithmetisches Mittelzentrum Das arithmetische Mittelzentrum P beschreibt den Schwerpunkt einer bivariaten Verteilung. Es setzt sich aus dem arithmetischen Mittel des Merkmals x und dem des Merkmals y zusammen nach : P = (x, y) 11.2 Gewogenes arithmetisches Mittelzentrum Wird anstelle des arithmetischen Mittels das gewogene arithmetische Mittel zur Berechnung eingesetzt, ergibt sich das gewogene arithmetische Mittelzentrum nach: Pg = ( xg , y g ) - 18 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 11.3 Medianzentrum Das Medianzentrum ist der Punkt einer bivariaten Verteilung zu dem die Summe der Distanzen zu allen anderen Punkten minimal ist. Die genaue Lage des Medianzentrum kann nicht direkt berechnet werden. In erster Näherung kann der Median der xi bzw. yi zur Bestimmung berechnet werden. Durch Verschieben dieses Punktes in x bzw. y Richtung kann die Summe der Distanzen meist weiter minimiert werden. 12. Streuungsparameter bivariater Verteilungen 12.1 Standarddistanz Die Standarddistanz sd ist ein Maß für die Streuung der Punkte im Raum und die Lage der Punkte untereinander. Sie berechnet sich nach: sd = 2 2 1 k m 2 d mit dij2 = ( xi − x j ) + ( yi − y j ) 2 ∑∑ ij n i =1 j =1 oder mit Hilfe des arithmetischen Mittelzentrums nach: sd = ( 1 n 2 2 ( xi − x ) + ( yi − y ) ∑ n i =1 ) 13. Korrelationsanalyse Mit der Korrelationsanalyse wird die Stärke und Richtung des Zusammenhangs der Merkmale von multivariaten Verteilungen bewertet. 13.1 Normierter Kontingenzkoeffizient Der normierte Kontingenzkoeffizient K* wird zur Berechnung der Korrelation von nominal skalierten Merkmalsausprägungen benutzt. Sein Wertebereich liegt zwischen 0 (unabhängig) und 1 (streng korreliert). Für seine Berechnung sind mehrere Schritte notwendig: 1. Berechnung der unabhängigen Einzelhäufigkeiten h%ij nach: h ⋅h j h%ij = i n 2. Berechnung von χ² nach: k m χ 2 = ∑∑ (h i =1 j =1 ij − h%ij h% ) 2 ij 3. Berechnung des einfachen Kontingenzkoeffizienten K nach: χ2 K= n + χ2 - 19 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 4. Berechnung des Maximalwertes von K K max = M −1 M mit: M = min(k , m) wobei k die Anzahl der Spalten und m die Anzahl der Zeilen der Kontingenztabelle sind. 5. Berechnung von K* nach: K* = K K max 13.2 Vierfelderkorrelationskoeffizient ρφ (rho-phi) Der Vierfelderkorrelationskoeffizient dient der Berechnung der Korrelation von zwei dichotonen (nur zwei mögliche Merkmalsausprägungen) Variablen. Hierzu wird eine Vierfeldertafel nach folgendem Schema aufgebaut: x0 x1 y0 h00 h10 h•0 Hieraus berechnet sich ρφ nach: y1 h01 h11 h•1 h0• h1• h00 ⋅ h11 − h01 ⋅ h10 ρφ = = ( h00 + h01 )( h10 + h11 )( h00 + h10 )( h01 + h11 ) h00 ⋅ h11 − h01 ⋅ h10 h0 ⋅ h1 ⋅ h 0 ⋅ h 1 Der Wertebereich von rho-phi liegt zwischen –1 und +1. 13.3 Rangkorrelationskoeffizient nach SPEARMAN Die Bewertung der Korrelation ordinal skalierter Daten erfolgt durch die Berechnung des Rangkorrelationskoeffizienten rsp nach SPEARMAN. Hierzu werden die Einzelausprägungen des Merkmals x bzw. des Merkmals y entsprechend ihrer Größe mit Rangzahlen Rx bzw. Ry belegt. Hieraus berechnet sich rsp nach: n rsp = 1 − 6∑ di2 mit: di = ( Rxi − Ryi ) 2 i =1 2 n ⋅ (n − 1) 2 Der Rangkorrelationskoeffizient besitzt einen Wertebereich von –1 bis +1. 13.4 Produkt-Moment-Korrelationskoeffizient nach BRAVAIS-PEARSON Der Produkt-Moment-Korrelationskoeffizient (Wertebereich: –1 ≤ r ≤ 1) dient der Berechnung der Korrelation von metrisch (intervall, rational) skalierten Daten nach: n r= ∑ ( xi − x )( yi − y ) i =1 n n i =1 i =1 ∑ ( xi − x )2 ∑ ( yi − y )2 - 20 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 14. Regressionsanalyse 14.1 Lineare Regression Vorraussetzung ist die Trennung der Merkmale in eine Ausgangsvariable x (Prädiktor) und eine Zielvariable y (Regressand). Für die lineare Regression ergibt sich die Funktionsgleichung: y = a + bx Nach dem GAUSSschen Prinzip der kleinsten Quadrate ergibt sich der Regressionskoeffizient (=Steigung) b nach: n b= ∑ ( xi − x )( yi − y ) i =1 n ∑ ( xi − x )2 i =1 und die Regressionskonstante (=Achsenabschnitt) a nach: a = y − bx 14.2 Das Bestimmtheitsmaß, Determinationskoeffizient Das Bestimmtheitsmaß r² (=Determinationskoeffizient) (Wertebereich 0 ≤ r² ≤ 1) berechnet sich nach: n r2 = ∑ ( yˆi − y )2 i =1 n ∑ ( yi − y ) 2 mit: yˆ i Werte der Regressionsgleichung i =1 14.3 Nonlineare Regression Liegt ein nicht linearer Zusammenhang zwischen Prädiktor und Regressand vor kann durch eine Variablentransformation der Zusammenhang „linearisiert“ werden. Mit den transformierten Variablen kann dann wieder wie bei der linearen Regression die Funktionsgleichung bestimmt werden. Der tatsächliche Zusammenhang ergibt sich dann durch Retransformation der gefundenen Regressionsgleichung. - 21 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Teil C Schließende Statistik 15. Wahrscheinlichkeitsrechnung 15.1 Begriffsdefinition und Formelzeichen n Anzahl der Versuche p ( A) Wahrscheinlichkeit für das Eintreffen eines Ereignisses A p ( A) Wahrscheinlichkeit für das Nichteintreffen eines Ereignisses A X Zufallsvariable xi Ausprägung der Zufallsvariable Ω Ereignisraum der möglichen Ausprägungen von xi 15.2 Axiome der Wahrscheinlichkeitsrechnung (Kolmogoroff-Axiome) 1. Der Wertebereich der Wahrscheinlichkeit für das Eintreffen des Ereignisses ist 2. Die Wahrscheinlichkeit für den gesamten Ereignisraum ist p ( Ω ) = 1 3. 0 ≤ p ( A) ≤ 1 Die Wahrscheinlichkeit für die Vereinigung disjunkter (nicht überschneidend) Ereignisse ist gleich der Summe der Einzelwahrscheinlichkeiten: P ( A ∪ B ∪ L ∪ Z ) = P ( A) + P ( B ) + L + P ( Z ) 15.3 Klassischer Wahrscheinlichkeitsbegriff P( A) = A Anzahl der Günstigen = Ω Anzahl der Möglichen 15.4 Rechenregeln für die Wahrscheinlichkeit 1. P ( A ) = 1 − P ( A) 2. P ( A ) ≤ P ( B ) für A ∈ B 3. P ( A ) ∪ P ( B ) = P ( A ) + P ( B ) für disjunkte Ereignisse 4. P ( A ) ∪ P ( B ) = P ( A ) + P ( B ) − P ( A ∩ B ) für non-disjunkte Ereignisse 15.5 Bedingte Wahrscheinlichkeiten Die Wahrscheinlichkeit von A unter der Bedingung, dass auch B ist: P( A | B) = P( A ∩ B) P( B) - 22 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 15.6 Stochastische Unabhängigkeit Zwei Ereignisse A und B werden als stochastisch unabhängig bezeichnet wenn eine der drei folgenden Bedingungen gilt: 1. P ( A ∩ B ) = P ( A) ⋅ P ( B ) 2. P ( A | B ) = P ( A ) für P ( B ) > 0 3. P ( B | A ) = P ( B ) für P ( A ) > 0 16. Verteilungsfunktion F(x) Die Verteilungsfunktion F(x) beschreibt die Wahrscheinlichkeit, dass die Ausprägung x einer Zufallsvariable kleiner oder gleich einem bestimmten Wertes z ist. Die Werte der Verteilungsfunktion entsprechen den kumulierten relativen Häufigkeiten der deskriptiven Statistik. 16.1 F(x) diskreter Zufallsvariablen Für F(x) diskreter Zufallsvariablen gilt die allgemeine Form der Verteilungsfunktion: F ( x) = P ( X ≤ z ) Aus den Werten der Verteilungsfunktion ergeben sich die Wahrscheinlichkeiten für ein bestimmtes Werteintervall zwischen a und b nach: P ( a < X ≤ b ) = F (b) − F (a ) 16.2 F(x) stetiger Zufallsvariablen Liegt eine stetige Zufallsvariable vor kann die Wahrscheinlichkeit für P ( X ≤ z ) unendlich viele Realisationen annehmen. Die Berechnung erfolgt in diesem Falle durch die Integration einer geeigneten Funktion f(x) nach: F ( x) = P ( X ≤ z ) = x ∫ f (t )dt −∞ 17. Wahrscheinlichkeitsfunktion f(x) Die Wahrscheinlichkeitsfunktion beschreibt die Wahrscheinlichkeit für die Ausprägung x einer Zufallsvariable. Die Werte der Wahrscheinlichkeitsfunktion entsprechen den einfachen relativen Häufigkeiten der deskriptiven Statistik. 17.1 f(x) diskreter Zufallsvariablen P ( X = xi ) f ( x) = 0 Die Summe aller Werte der Wahrscheinlichkeitsfunktion ist 1. n ∑ f ( xi ) = 1 i =0 - 23 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 17.2 f(x) stetiger Zufallsvariablen f(x) wird bei stetigen Zufallsvariablen Dichtefunktion genannt und berechnet sich als nach: f ( x) = F '( x) 18. Erwartungswert Der Erwartungswert entspricht dem Mittelwert der deskriptiven Statistik. Er wird mit E(X) oder µ bezeichnet. 18.1 Erwartungswert diskreter Zufallsvariablen n E ( X ) = µ = ∑ xi ⋅ f ( xi ) i =1 18.2 Erwartungswert stetiger Zufallsvariablen E( X ) = µ = ∞ ∫ x ⋅ f ( x) dx −∞ 19. Varianz und Standardabweichung Die Streuung wird wie bei der deskriptiven Statistik mit der Varianz und der Standardabweichung beschrieben. 19.1 Varianz und Standardabweichung diskreter Variablen n Varianz: σ2 = ∑ ( xi − µ ) ⋅ f ( xi ) 2 i =1 Standardabweichung: σ = σ2 = n ∑ ( xi − µ ) i =1 2 ⋅ f ( xi ) 19.2 Varianz und Standardabweichung stetiger Variablen Varianz: σ2 = ∞ ∫ ( x − µ) −∞ Standardabweichung: σ = σ2 - 24 - 2 ⋅ f ( x) dx Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 20. Diskrete theoretische Verteilungen 20.1 Bernoulli Experiment Für ein Bernoulli Experiment gelten folgende Randbedingungen: 1. Für jeden Versuch gibt es genau zwei mögliche Ausgänge 2. Die Wahrscheinlichkeiten bleiben bei jedem Durchgang gleich 3. Die einzelnen Durchführungen sind unabhängig voneinander 20.1.1 Wahrscheinlichkeitsfunktion der Bernoulli Verteilung p für x = 1 f ( x) = q für x = 0 mit q = 1 − p 0 sonst 20.1.2 Erwartungswert der Bernoulli Verteilung n µ = E ( X ) = ∑ xi ⋅ p = p i =1 20.1.3 Varianz der Bernoulli Verteilung n σ 2 = ∑ ( xi − µ ) ⋅ f ( xi ) = (1 − p ) ⋅ p = p ⋅ q i =1 20.2 Binominal Verteilung Die Binominal Verteilung beschreibt eine n-malige Durchführung eines Bernoulli Experimentes. Es gelten folgende Bedingungen: 1. Für jeden Versuch gibt es genau zwei mögliche Ausgänge 2. Nach jedem Versuch wird das gezogene Element wieder zurückgelegt 3. aus 2 folgt: die Wahrscheinlichkeiten bleiben bei jedem Durchgang gleich und die einzelnen Versuche sind unabhängig voneinander 20.2.1 Wahrscheinlichkeitsfunktion der Binominal Verteilung Die Wahrscheinlichkeitsfunktion der Binoninal Verteilung berechnet sich anhand der beiden Parameter p = Wahrscheinlichkeit für einen Erfolg und n = Anzahl der Versuche nach: n f ( x) = p x ⋅ q n− x x n x Wobei der Ausdruck (sprich „n über x“) die Anzahl der Kombinationen für ein xfaches Eintreffen des Ergebnisses bei n Versuchen angibt. - 25 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena n über x berechnet sich nach: n n! x = x! n − x ! ( ) Der Ausdruck n! (sprich: „n Fakultät“) berechnet sich nach: n! = 1 ⋅ 2 ⋅ 3 ⋅ K ⋅ n Hinweis: Die Fakultät von 0 ist als 1 definiert: 0! = 1 20.2.2 Erwartungswert der Binominalverteilung n n n µ = E ( x ) = ∑ x ⋅ f ( x) = ∑ x p x q n− x x =0 x =0 x Eine vereinfachte Berechnung ergibt sich wenn die Funktionswerte der Binominal Verteilung als Serie von Bernoulli Experimenten betrachtet werden. Dann folgt: n µ = ∑ p = n⋅ p x =0 20.2.3 Varianz der Binominal Verteilung n σ = ∑ p⋅q = n⋅ p⋅q 2 x =0 20.3 Hypergeometrische Verteilung Mit der hypergeometrischen Verteilung wird die Wahrscheinlichkeit des Erfolges bei einem Experiment beschrieben, das n-mal durchgeführt wird ohne das gezogene Element zurückzulegen. Daraus folgt, dass: 1. sich die Wahrscheinlichkeiten bei jedem Durchgang ändern 2. die einzelnen Versuche nicht unabhängig voneinander sind 20.3.1 Wahrscheinlichkeitsfunktion der hypergeometrischen Verteilung Die Verteilungsfunktion ist von drei Parametern abhängig: N = Anzahl aller Elemente, M = Anzahl der günstigen Elemente und n = Anzahl der Versuche. M N − M − x n x f ( x) = N n 0 für max ( 0, n + M − N ) ≤ x ≤ min ( n, M ) sonst 20.3.2 Erwartungswert der hypergeometrischen Verteilung µ = E ( x) = n M N - 26 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 20.3.3 Varianz der hypergeometrischen Verteilung σ2 = n ⋅ M N M ⋅ 1 − N N −n ⋅ N −1 20.4 Poisson Verteilung Die Poisson Verteilung stellt einen Sonderfall der Binominal Verteilung dar wenn gilt: 1. Die Anzahl der Versuche n strebt gegen unendlich 2. Der Erwartungswert µ = n ⋅ p ist konstant 3. Aus 1. und 2. folgt: p strebt gegen 0 Merkmale der Poisson Verteilung sind: 1. Erwartungswert ist gleich der Varianz: µ = σ 2 2. Die Verteilungsfunktion ergibt sich allein aus dem Erwartungswert µ 20.4.1 Wahrscheinlichkeitsfunktion der Poisson Verteilung µ x ⋅ e −µ f ( x) = x! 21. Stetige theoretische Verteilungen 21.1 Die Exponentialverteilung Die Exponentialverteilung besitzt Gültigkeit, wenn die Zufallsvariable X nur positive Werte annimmt und kleine Werte relativ häufiger als große Werte vorkommen. 21.1.1 Dichtefunktion der Exponentialverteilung a ⋅ e − ax , x ≥ 0 f ( x) = 0 , sonst mit a > 0 21.1.2 Verteilungsfunktion der Exponentialverteilung Durch Integration der Dichtefunktion entsteht die Verteilungsfunktion: x F ( x) = ∫ a ⋅ e − au 0 du = ( −e − au ) x = −e − ax + 1 0 21.1.3 Erwartungswert der Exponentialverteilung E ( x) = µ = 1 a 21.1.4 Varianz der Exponentialverteilung σ2 = 1 a2 - 27 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 21.2 Die Normalverteilung Die Normalverteilung ist eine der wichtigsten Verteilung in der Statistik und in den Naturwissenschaften. Da sie durch ihren Erwartungswert und ihre Standardabweichung beschrieben wird, wird sie häufig mit N(µ;σ) abgekürzt. 21.2.1 Dichtefunktion der Normalverteilung f ( x) = 1 σ ⋅ 2π ⋅e 1 x −µ − 2 σ 2 21.2.2 Verteilungsfunktion der Normalverteilung 1 u −µ σ 1 x − 2 F ( x) = ∫e σ 2π −∞ 2 du Das Integral lässt sich nicht numerisch lösen, da keine elementare Stammfunktion existiert. 21.3 Die Standardnormalverteilung Jede Normalverteilung kann in eine Standardnormalverteilung überführt werden. Die Standardnormalverteilung besitzt einen Erwartungswert von 0 und eine Standardabweichung von 1. Sie wird häufig mit N(0;1) abgekürzt. 21.3.1 Transformation von der Normalverteilung zur Standardnormalverteilung Normalverteilte Zufallsvariablen X können durch folgende Normierung in standardnormalverteilte Zufallsvariablen Z transformiert werden: Z= X −µ σ 21.3.2 Dichtefunktion der Standardnormalverteilung 2 z − 1 f ( z) = ⋅e 2 2π 21.3.3 Verteilungsfunktion der Standardnormalverteilung 2 1 z − u2 F ( z) = ∫ e du 2π −∞ Auch dieses Integral lässt sich nicht numerisch lösen, da keine elementare Stammfunktion existiert, aber die Werte für verschiedene Ausprägungen von Z lassen sich in Tabellen (Tabelle 1 im Anhang) nachsehen. 21.4 Die Lognormalverteilung Nimmt eine Zufallsvariable X nur Werte größer 0 an und streut ein großer Teil der Merkmalsträger um einen kleinen Wert von X kann die Verteilung durch eine Lognormalverteilung beschrieben werden. - 28 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Sind Mittelwert und Standardabweichung der Lognormalverteilung bekannt können diese in den Mittelwert und die Standardabweichung einer korrespondierenden Normalverteilung überführt werden nach: σ σ NV = ln 1 + ln µln und 1 µ NV = ln µ ln − σ 2NV 2 Durch Transformation der Normalverteilung in eine entsprechende Standardnormalverteilung kann wiederum Tabelle X (Anhang 1) zur Bestimmung von Wahrscheinlichkeiten genutzt werden. Durch Retransformation werden dann wieder die entsprechenden Werte der Lognormalverteilung berechnet. 22. Parametrische Signifikanztests Für die Signifikanztests gilt immer folgender Testaufbau: 1. Spezifizierung einer Nullhypothese (H0) und einer Alternativhypothese (HA) 2. Festlegung eines Signifikanzniveaus α 3. Auswahl einer Testfunktion 4. Bestimmung des Testwertes und Entscheidung Das Signifikanzniveau α, wird auch als Irrtumswahrscheinlichkeit bezeichnet. Diese Beschreibt die Wahrscheinlichkeit, dass die Nullhypothese verworfen wird, obwohl sie richtig war. Je nach Parameter der getestet wird und Größe der Stichprobe n kommen unterschiedliche Testfunktionen zum Einsatz. Außerdem werden einseitige Tests (größer, kleiner Beziehung) und zweiseitige Tests (gleich, ungleich Beziehung) unterschieden. 22.1 Mittelwerttest 22.1.1 Gaußtest Ist die Standardabweichung und der Mittelwert der Grundgesamtheit bekannt und ist die Anzahl der Elemente der Stichprobe n größer 30 kommt der Gaußtest zum Einsatz. Die Testwert v des Gaußtest berechnet sich nach: v= mit: X − µ0 n σ X : Mittelwert der Stichprobe µ0 : Mittelwert der Grundgesamtheit σ : Standardabweichung der Grundgesamtheit Der Testwert wird mit den Funktionswerten der Standardnormalverteilung (Tabelle 1 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. - 29 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena 22.1.2 Der t-Test Bei einem Stichprobenumfang von n < 30 kommt anstelle des Gaußtests der t-Test zum Einsatz. Ist die Standardabweichung (σ) der Grundgesamtheit bekannt, berechnet sich der Testwert beim t-Test nach: v= X − µ0 n σ Ist die Standardabweichung der Grundgesamtheit nicht bekannt, berechnet sich der Testwert beim t-Test nach: v= X − µ0 n s Mit der Standardabweichung der Stichprobe anstelle der der Grundgesamtheit: s= 1 n 2 ( xi − x ) ∑ n − 1 i =1 Der Testwert v wird mit den Funktionswerten der t-Verteilung (Tabelle 2 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. Die tVerteilung wird hierzu auf Basis der Freiheitsgrade FG bestimmt, mit: FG = n − 1 22.2 Varianzentest – χ²-Test Ist der zu testende Parameter die Varianz (Standardabweichung) einer Stichprobe gegen die Varianz (Standardabweichung) der Grundgesamtheit berechnet sich die Testgröße nach: s2 1 n 2 v = (n − 1) ⋅ 2 = 2 ⋅ ∑ ( xi − x ) σ0 σ0 i =1 Der Testwert v wird mit den Funktionswerten der χ²-Verteilung (Tabelle 3 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. Die χ²-Verteilung wird hierzu auf Basis der Freiheitsgrade FG bestimmt, mit: FG = n − 1 22.3 Anteilstest Ist der zu testende Parameter der Anteil eines Merkmals in der Stichprobe, der gegen den Anteil des gleichen Merkmals in der Grundgesamtheit geprüft wird, berechnet sich die Testgröße nach: v= mit: p1 − p0 p0 ⋅ (1 − p0 ) n p0 : Anteil des Merkmals in der Grundgesamtheit p1 : Anteil des Merkmals in der Stichprobe - 30 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Bei hinreichend großem Stichprobenumfang (n > 9 / p(1-p)) wird der Testwert v mit den Funktionswerten der Standardnormalverteilung (Tabelle 1 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. 22.4 Differenzentest (Mittelwerte) Sollen die Unterschiede der Mittelwerte zweier unabhängiger Stichproben geprüft werden berechnet sich die Testgröße nach: v= mit: X −Y 2 sx2 s y + nx n y X , Y : Mittelwerte der Stichproben s x2 , s 2y : Varianzen der Stichproben nx , n y : Anzahl der Elemente in den Stichproben Bei hinreichend großem Stichprobenumfang (n > 30) wird der Testwert v mit den Funktionswerten der Standardnormalverteilung (Tabelle 1 im Anhang) an den Signifikanzstellen verglichen um zu einer Entscheidung zu gelangen. - 31 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Anhang Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998 - 32 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998 - 33 - Formelsammlung zum Methodenseminar „Statistik für Diplom Geographen“ Institut für Geographie – Friedrich-Schiller-Universität Jena Quelle: Assenmacher, Induktive Statistik, 3. Aufl., Springer Verlag, 1998 - 34 -