Weitere Files findest du auf www.semestra.ch/files DIE FILES DÜRFEN NUR FÜR DEN EIGENEN GEBRAUCH BENUTZT WERDEN. DAS COPYRIGHT LIEGT BEIM JEWEILIGEN AUTOR. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 1 Statistik FGW WS 99 / SS 01 G. Müller 1. BESCHREIBENDE STATISTIK ........................................................... 3 1.1 Verteilungskennwerte ...................................................................................................3 1.1.1 Der Mittelwert .........................................................................................................3 1.1.2 Modus.....................................................................................................................3 1.1.3 Median....................................................................................................................3 1.1.4 Die Quartile .............................................................................................................4 1.1.5 Dezile und Perzentile ................................................................................................4 1.1.6 Range / Variabilität...................................................................................................4 1.1.7 Die Varianz..............................................................................................................4 1.1.8 Standardabweichung................................................................................................4 1.1.9 Variationskoeffizient .................................................................................................4 1.2 Visualisierung von Daten..............................................................................................5 1.2.1 Häufigkeitsverteilung.................................................................................................5 1.2.2 Klassifikation von Häufigkeitsverteilungen.................................................................5 1.2.3 Kumulierte Häufigkeitsverteilung...............................................................................5 1.2.4 Histogramm .............................................................................................................5 1.2.5 Tortendiagramm.......................................................................................................5 1.2.6 Säulendiagramm.......................................................................................................6 1.2.7 Stem-and-Leaf-Diagramm........................................................................................6 1.3 Skalenniveaus ...............................................................................................................6 1.3.1 Nominal- oder Kategorialskalen...............................................................................6 1.3.2 Ordinal- oder Rangskalen.........................................................................................6 1.3.3 Intervallskalen..........................................................................................................6 1.3.4 Proportional- oder Ratioskala...................................................................................7 2. INDUKTIVE (SCHLIESSENDE) STATISTIK: SCHÄTZEN UND TESTEN VON PARAMETERN ................................................................... 7 2.1 Die Zufallsvariabel........................................................................................................7 2.2 Wahrscheinlichkeitsverteilung .....................................................................................7 2.2.1 Binominalverteilung...................................................................................................7 2.3 Wahrscheinlichkeit........................................................................................................8 2.3.1 Rechenregeln für Wahrscheinlichkeiten.....................................................................8 2.3.2 Erwartungswerte von Zufallsvariabeln .......................................................................8 2.3.3 Rechenregeln für Erwartungswerte............................................................................8 2.3.4 Varianz von Zufallsvariabeln .....................................................................................8 2.3.5 Rechenregeln für Varianz von Zufallsvariabeln...........................................................9 2.3.6 Qualitätsmerkmale guter Schätzverfahren..................................................................9 2.4 Statistische Tests für diskrete Zufallsvariabeln..........................................................9 2.4.1 Signifikanzniveau......................................................................................................9 2.4.2 Fehler erster und zweiter Art ....................................................................................9 2.4.3 Kritischer Wert........................................................................................................9 2.4.4 Hypothesenformulierung.........................................................................................10 Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 2 2.4.5 Gerichtete und ungerichtete Tests............................................................................10 2.4.6 Prinzip der Entscheidungsstatistik............................................................................10 2.5 Statistische Tests für kontinuierliche Zufallsvariablen.............................................10 2.5.1 Verteilungsfunktion für kontinuierliche Zufallsvariablen.............................................11 2.5.2 Zentrales Grenzwerttheorem...................................................................................11 2.5.3 Stichprobenkennwertverteilung...............................................................................11 2.5.4 Normalverteilung....................................................................................................12 2.5.5 Standardnormalverteilung .......................................................................................12 2.5.6 z-Transformation....................................................................................................12 2.5.7 Konfidenzintervall...................................................................................................13 2.5.8 z-Test ....................................................................................................................13 3. PRÜFEN VON UNTERSCHIEDSHYPOTHESEN ............................. 13 3.1 ÷2-Test .........................................................................................................................13 3.1.1 Freiheitsgrade beim ÷2-Test....................................................................................14 3.1.2 Der eindimensionale ÷2-Test...................................................................................14 3.1.3 Median-Test ..........................................................................................................14 3.1.4 Der Vier-Felder Test..............................................................................................14 3.2 t-Test............................................................................................................................15 4. PRÜFUNG VON ZUSAMMENHANGSHYPOTHESEN .................... 15 4.1 Primitive Zusammenhangshypothesen.......................................................................16 4.2 Komplexe Zusammenhänge........................................................................................16 4.2.1 Korrelationskoeffizienten........................................................................................16 4.2.2 Spearman Rang-Korrealtion...................................................................................16 4.2.3 Kendalls Rangkorrelation.......................................................................................17 4.2.4 Pearson Korrelation...............................................................................................17 5. GRUNDZÜGE DER COMPUTERGESTÜTZTEN DATENANALYSE 17 5.1 Data-Handling .............................................................................................................17 5.2 Definition einer Variablen..........................................................................................17 5.3 Datentransformation...................................................................................................18 5.3.1 Datacleaning ..........................................................................................................18 5.3.2 Hinzufügen von neuen Daten...................................................................................18 5.3.3 Recodieren von Daten............................................................................................18 5.3.4 Zusammenfügen von Datensätzen...........................................................................18 5.3.5 Analyse von Teildatensätzen...................................................................................18 Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 1. Beschreibende Statistik Zweck: Kompression von Daten übersichtliche Darstellung/rasches Erfassen der Informationen 1.1 Verteilungskennwerte 1.1.1 Der Mittelwert Engl.: mean value x= Mittelwert 1 n ∑ xi n i =1 Der Mittelwert minimiert die Distanz zu den individuellen Werten. Der Mittelwert macht keine Angaben über die Streuung der Werte. Mittelwert aus Häufigkeitsverteilung: siehe HIRSIG, 2.29 Wird der Mittelwert nicht aus einer Stichprobe sondern aus der Grundgesamtheit N ermittelt, so wird x zu µ . 1.1.2 Modus Modus: höchster Punkt einer Verteilung 1.1.3 Median Median: Ausprägungsgrad der Merkmalsdimension, der die in eine Rangreihe geordneten Ausprägungsgrade in zwei Hälften teilt. Ø Medianbestimmung bei ungerader Anzahl Beobachtungen und nur einmal vorkommenden Ausprägungsgraden: kein Problem Ø Medianbestimmung bei gerader Anzahl Beobachtungen und nur einmal vorkommenden Ausprägungsgraden: Arithmetisches Mittel der zwei mittleren Werte Ø Medianbestimmung bei gerader Anzahl Beobachtungen und mehrmals vorkommenden Ausprägungsgraden: lineare Interpolation gefunden werden. kumulierte Häufigkeit cf b a y KB x a ⋅ KB b Der Median ergibt sich, wenn man zum unteren Grenzwert der Klasse den Wert y addiert. y= 3 Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 4 Der Median ist robust und wird nicht durch statistische Ausreisser beeinflusst. Ist die Verteilung symmetrisch, fällt der Median mit dem Mittelwert zusammen. 1.1.4 Die Quartile Die Quartilen teilen die Gesamtfläche in 4 gleich grosse Flächen auf. Dabei sind die Abstände zwischen den Quartilen meistens nicht gleich gross. Interquartilsabstand: Q3 -Q1 Grosse Gesellschaften haben einen grossen Interquartilsabstand, kleine Gesellschaften einen kleinen. 1.1.5 Dezile und Perzentile Analog zu Median und Quartile. 1.1.6 Range / Variabilität Engl.: range Range: Maximalwert - Minimalwert 1.1.7 Die Varianz Engl.: variance Varianz s2 = 1 n ( xi − x ) 2 ∑ n i =1 Die Varianz ist ein Mass für die Variabilität einer Verteilung. s2 = 0 heisst, dass alle untersuchten Werte genau gleich gross sind. 1.1.8 Standardabweichung Engl.: standard deviation Standardaweichung s = s 2 = n 1 ∑ n (x − x ) i =1 2 i Die Standardabweichung liefert Informationen über die mittlere Abweichung zum Mittelwert. Wird die Standardabweichung nicht aus einer Stichprobe sondern aus der Grundgesamtheit N ermittelt, so wird s zu σ . 2 σ≅ N 1.1.9 Variationskoeffizient Engl.: coefficient of variation Variationskoeffizient c = s x Der Variationskoeffizient relativiert die Standardabweichung am Mittelwert. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 5 1.2 Visualisierung von Daten 1.2.1 Häufigkeitsverteilung Grundidee: Einteilung von Fällen in Klassen. Bei der Klasseneinteilung gilt es folgendes zu beachten: Ø gleiche Intervalle Ø keine Lücken oder Überschneidungen Ø Intervall so wählen, dass nicht zu viele oder zuwenig Werte in die einzelnen Intervalle fallen. Absolute Häufigkeit (frequency): Anzahl Fälle pro Intervall Relative Häufigkeit (precent): Division der Anzahl Fälle pro Intervall (Fallzahl) durch N (Anzahl Elemente der Grundmenge). Der Vorteil der relativen Häufigkeit ist die bessere Vergleichbarkeit, der Nachteil ist die Gefahr der statistischen Ausreisser. 1.2.2 Klassifikation von Häufigkeitsverteilungen Ø Ø Ø Ø symmetrische Häufigkeitsverteilung rechts steile/links schiefe Häufigkeitsverteilung links steile/rechts schiefe Häufigkeitsverteilung mehrgipflige Häufigkeitsverteilung 1.2.3 Kumulierte Häufigkeitsverteilung Få Kumulierte Häufigkeitsverteilungen sind monoton wachsend. Der Median befindet sich bei 50%. Trifft der Median auf ein Platteau: Mittelwert der beiden möglichen Werte ermitteln 10% Gewicht [kg] I Kummulierte Häufigkeit cf ( I ) = ∑ f (i ) i =1 1.2.4 Histogramm Engl.: histogramm Das Histogramm ist ähnlich wie ein Säulendiagramm, die Achsen sind jedoch hier intervall- oder proportionalskaliert. Die Möglichen Ausprägungsdimensionen werden in Klassen zusammengefasst und gegen die Anzahl Werte pro Klasse aufgetragen. 1.2.5 Tortendiagramm Engl.: pie chart Tortendiagramme eigenen sich für eine optimale Darstellung von Proportionen (bis zu 7 Ausprägungskategorien). Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 6 1.2.6 Säulendiagramm Engl.: bar chart Säulendiagramme sind Tortendiagrammen vorzuziehen, wenn die lineare Rangfolge der Ausprägungskategorien zu Ausdruck gebracht werden soll. 1.2.7 Stem-and-Leaf-Diagramm Stamm: höhere Dezimalzahlen Blätter: Kleinere Dezimalzahlen Stemm Leaf (Tausender (Hunderter) ) 2 1 0 0 4 2 8 6 1000; 1200; 1600 400; 800 Da man nur zwei Dezimalen hat muss man immer auf Hunderter runden. 1.3 Skalenniveaus Mit den Skalenniveau verbindet sich das Problem der Transformationsfreiheit. Es gilt das Prinzip der Tranformations-Invarianz: Statistische Aussagen dürfen nicht durch statthafte Skalentransformationen verändert werden. 1.3.1 Nominal- oder Kategorialskalen Als ausprägungsgrade einer Merkmalsdimension sind nur eine endliche Zahl disjunkter Kategorien denkbar. Nominalskalen mit nur zwei Ausprägungsgrade werden als dichotome Skalen bezeichnet. Die Ausprägungskategorien dürfen sich nicht gegenseitig ausschliessen und dürfen sich nicht überschneiden. Im weiteren müssen Sie erschöpfend sein. Mögliche Transformationen: Ø beliebige Permutation von numerischen Codes, bei denen die Anzahl Codes konstant bleibt. 1.3.2 Ordinal- oder Rangskalen Die Ausprägungsgrade einer Merkmalsdimension lassen sich in eine eindimensionale Rangreihe abbilden. Über die absoluten Abstände zwischen den Rangplätzen können keine Aussagen gemacht werden. Mögliche Transformationen: Ø streng monotone Transformationen (y = ax2 + bx +c) sind erlaubt 1.3.3 Intervallskalen Die möglichen Ausprägungsgrade einer Merkmalsdimension können nicht nur linear rangiert werden, sondern sind äquidistant. Der Nullpunkt ist willkürlich festgelegt. Bei Intervallskalen sind Vergleiche von Differenzen möglich. Mögliche Transformationen: Ø lineare Transformationen (y = ax + b) Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 7 1.3.4 Proportional- oder Ratioskala Die Ausprägungsgrade einer Merkmalsdimension sind äquidistant und durch die Merkmalsdimension selber wird ein absoluter Nullpunkt definiert. Ø Transformationen vom Typ y = ax 2. Induktive (schliessende) Statistik: Schätzen und Testen von Parametern Aus ökonomischen Gründen ist die Forschung meist gezwungen mit Stichproben und nicht mit der Population zu arbeiten. Bei der idealen Stichprobe haben alle Mitglieder der Population die gleiche Chance zur Stichprobe zu gehören. Voraussetzung für ein Schätzen und Testen von Parametern ist, dass es sich um eine echte Zufallsstichprobe handelt. 2.1 Die Zufallsvariabel Engl.: random variable Zufallsvariable Funktion, welche den Ergebnissen eines Zufallsexperimentes reelle Zahlen zuordnet. Abhängig davon, welche Eigenschaften der Ausgänge eines Zufallsexperimentes erfasst werden sollen, unterscheiden wir Zufallsvariablen mit Nominal-, Ordinal-, Intervall- oder Porportionalskalencharakter. Diskrete Zufallsvariabel: endlicher Wertevorrat Kontinuierliche / stetige Zufallsvariabel: unendlicher Wertevorrat 2.2 Wahrscheinlichkeitsverteilung Wahrscheinlichkeitsverteilung: ordnet den möglichen Werten eines Zufallsexperimentes die Wahrscheinlichkeit für sein Eintreffen zu. Zufallsereignisse Werte des Zufallsereignisses Zufallsvariabel diskrete Wahrscheinlichkeitsfunktion Wahrscheinlichkei Wahrscheinlichkeitsverteilung kontinuierliche Wahrscheinlichkeitsfunktion 2.2.1 Binominalverteilung Bei Zufallsexperimenten mit nur zwei alternativen Resultaten (bivariate Verteilung) entspricht die Wahrscheinlichkeitsverteilung einer Binominalverteilung. Die Binominalverteilung ist von der Wahrscheinlichkeit der Elementarereignissen und der Anzahl Experimente abhängig. Ist die Wahrscheinlichkeit für beide Elementarereignisse gleich gross, ist die Binominalverteilung symmetrisch. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 8 Mit der Binominalverteilung kann die Wahrscheinlichkeit berechnet werden, dass ein Ereignis A in n unabhängigen1 Versuchen genau x-mal eintrifft; dabei ist p die konstante Wahrscheinlichkeit, dass A im einzelnen Versuch eintrifft. n Binominalverteilung Pn ( x ) = p x ⋅ q n − x k Anzahl Teilmengen mit k Elementen einer Menge mit n Elementen , wobei die Reihenfolge der Elemente unwesentlich ist (Widerholungen nicht gestattet): n n! = k k !( n − k )! Bei der binomischen Verteilung gilt: µ= n⋅ p C(k,n) = σ = n ⋅ p ⋅ (1 − p ) 2.3 Wahrscheinlichkeit Der Wahrscheinlichkeit p werden Werte aus dem Intervall [0;1] zugeordnet, wobei 1 als sicheres, 0 als unmögliches Ereignis gilt. 2.3.1 Rechenregeln für Wahrscheinlichkeiten Wahrscheinlichkeiten zweier unabhängiger Ereignisse: p ( M ∪ N ) = p( M ) + p( N ) p (M ∩ N ) = p (M ) ⋅ p (N ) 2.3.2 Erwartungswerte von Zufallsvariabeln Engl.: expectation n Erwartungswert E ( X ) = ∑ xi ⋅ pi = µ i =1 2.3.3 Rechenregeln für Erwartungswerte E(X + Y) = E(X) + E(Y) E(kX) = k · E(X) E(X +k) = E(X) + k wenn X und Y unabhängig: E(X·Y) =E(x) · E(Y) 2.3.4 Varianz von Zufallsvariabeln n n i =1 i =1 Varianz der Zufallsvariable V ( X ) = E( xi − E ( X ) ) 2 = ∑ pi ( xi − E ( X ) ) 2 = ∑ pi ( xi − µ)2 1 Urnenmodell: Ziehen mit Zurücklegen Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 9 2.3.5 Rechenregeln für Varianz von Zufallsvariabeln V(kX) = k2 V(X) V(X + k) = V(X) wenn X und Y unabhängig: V(X + Y) = V(X) + V(Y) 2.3.6 Qualitätsmerkmale guter Schätzverfahren Ø Erwartungstreu Ø Konsistent Je mehr Versuche, desto näher dem wahren Populationsparameter Ø Effizient Minimale Varianz bei gegebenem Stichprobenumfang 2.4 Statistische Tests für diskrete Zufallsvariabeln Anhand von statistischen Tests können die Grenzen der Zufälligkeit ermittelt werden. Bei welche Resultate weichen nur zufällig ab und wo ist die Abweichung signifikant? 2.4.1 Signifikanzniveau In der Sozialwissenschaft geht man von folgenden Signifikanzniveaus aus: Irrtumswahrscheinlichkeit verbale Umschreibung >5% nicht signifikant ≤ 5% signifikant ≤ 1% sehr signifikant ≤ 0.1 % hoch signifikant 2.4.2 Fehler erster und zweiter Art Fehler erster Art (á-Fehler): Fehler zwiter Art (â-Fehler): Nullhypothese wird fälschlicherweise abgelehnt (Publikation, obwohl falsch) Nullhypothese wird fälschlicherweise angenommen (keine Publikation obwohl neue Erkenntnis) Fehler zweiter Art können vermieden werden, wenn das Signifikanzniveau hoch angesetzt ist, wenn starke statistische Tests verwendet werden und wenn die Stichproben gross sind (kleine Varianz). Entscheidung aufgrund der Stichprobe zugunsten von H0 In der Populatio gilt die H0 richtige Entscheidung H1 â-Fehler H1 á-Fehler richtige Entscheidung 2.4.3 Kritischer Wert Engl.: critical value Der kritische Wert trennt signifikante von nicht signifikanten Resultaten. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 10 2.4.4 Hypothesenformulierung Nullhypothese H0: Der beobachtete Unterschied im Verteilungskennwert ist zufällig entstanden / es besteht kein Unterschied. (beide Stichproben stammen aus der selben Population). Alternativhypothese H1: Der beobachtete Unterschied im Verteilungskennwert ist signifikant / es besteht ein Unterschied. (beide Stichproben stammen nicht aus der selben Population) Die Alternativhypothese H1 postuliert exakt das Gegenteil der Nullhypothese Ho Präzise Alternativhypothesen H1 sind nicht testbar, weil dann die Nullhypothese Ho unpräzise ist und nicht mehr falsifiziert werden kann. 2.4.5 Gerichtete und ungerichtete Tests Einseitig gerichtete Fragestellung: Ereignis A tritt häufiger ein als Ereignis B. Zweiseitig ungerichtete Fragestellung: Ereignis A trifft nicht gleich oft ein wie Ereignis B. 2.4.6 Prinzip der Entscheidungsstatistik Um anzuklären inwieweit zur Erklärung eines Unterschiedes in den Verteilungskennwerten zweier Stichprobenerhebungen der Zufall ausgeschlossen werden dar, formulieren wir die Nullhypothese Ho und versuchen diese zu falsifizieren. (Karl Popper: Um allgemeine Sätze zu widerlegen muss man Gegenbeispiele suchen.) Ø Ist die Nullhypothese Ho unwahrscheinlich, so lehnen wir sie ab und schliessen bei der Interpretation des beobachteten Unterschiedes eines Verteilungskennwertes den Zufall aus. Es lässt sich jedoch nicht statistisch belegen worauf der Unterschied zurückzuführen ist. Ø Ist die Nullhypothese Ho wahrscheinlich, so kann sie nicht abgelehnt werden. Wir können so bei der Interpretation des beobachteten Unterschiedes eines Verteilungskennwertes den Zufall nicht ausschliessen. Damit ist die Nullhypothese Ho jedoch nicht bewiesen. 2.5 Statistische Tests für kontinuierliche Zufallsvariablen Wird in einem Zufallsexperiment eine kontinuierliche Grösse erfasst, besteht die Ergebnismenge aus unendlich vielen Elementarereignissen, denen eine Zufallsvariabel X unendlich viele Werte zuweist. Für kontinuierliche Zufallsvariablen gibt es deshalb keine Wahrscheinlichkeitsverteilung sondern eine Dichtefunktion. Bei kontinuierlichen Zufallsvariablen fragen wir nicht nach der Wahrscheinlichkeit einzelner Elementarereignisse (diese geht gegen Null), sondern nach der Wahrscheinlichkeit für das Auftreten von Ereignissen, die sich in einem bestimmten Intervall der Zufallsvariablen befinden. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 11 2.5.1 Verteilungsfunktion für kontinuierliche Zufallsvariablen Engl: distribution functions Verteilungsfunktion F(X): kumulierte Wahrscheinlichkeitsfunktion Bei der Verteilungsfunktion wir die Fläche der Wahrscheinlichkeitsfunktion in eine Streck umgewandelt. å Wahrscheinlichkeitsfunktion Verteilungsfunktion F ( X ) = å Verteilungsfunktion ∑ f (x ) j x j≤X Wahrscheinlichkeit für X<a p ( X < a ) = a ∫ f ( X )dX −∞ 2.5.2 Zentrales Grenzwerttheorem Die Verteilung von Mittelwerten aus Stichproben des Umfangs n, die sämtlich derselben Grundgesamtheit entnommen wurden, geht mit wachsendem Stichprobenumfang in eine Normalverteilung über. Ø Stichprobenumfang n> 30: Die Stichprobenmittelwerte sind von der Verteilung der Merkmalsausprägung in der Population unabhängig und normalverteilt. Ø Stichprobenumfang n < 30: Sind die Merkmalsausprägungen in der Population normalverteilt, so darf für die Verteilung der Stichprobenmittelwerte eine t-Verteilung mit dem Freiheitsgrad df = (n-1) angenommen werden. 2.5.3 Stichprobenkennwertverteilung Aus einer Grundgesamtheit werden (theoretisch) unendlich viele gleich grosse Zufallsstichproben von n Systemen gezogen. In allen diesen Stichproben werden die Verteilung des interessierenden Merkmals und die zugehörigen Verteilungskennwerte x i und si bestimmt. Stellen wir die Verteilungskennwerte aller Stichproben wiederum in einem Verteilungsdiagram dar, so erhalten wir die sogenannten Stichprobenkennwertverteilungen. Ø Die Stichprobenkennwertverteilung für den Mittelwert ist (für n > 30) normalverteilt. Ø Der Mittelwert der Verteilung der Stichprobenmittelwerte µx entspricht dem Mittelwert µ des Merkmals der Population (wenn n ∞ ) und ist somit erwartungstreu. 1 N 1 N 1 N 1 E ( x ) = E ∑ xi = E ∑ xi = ∑ E( xi ) = ⋅ N ⋅ E ( x i ) = E ( x i ) N N i =1 N i =1 N i =1 Ø Die Varianz der Verteilung der Stichprobenmittelwerte µx entspricht dem N-ten Teil der Varianz der Population. 1 N 1 N 1 N 1 1 V ( x ) = V ∑ xi = 2 V ∑ x i = 2 ∑ V ( xi ) = 2 ⋅ N ⋅ σx2i = σx2i N N N i =1 N i =1 N i =1 Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] Individualdaten xi σ x2i Varianz Mittelwerte x σ x2i N σxi σ = σx i Standardabweichung 2 xi ≅ 12 N N 2.5.4 Normalverteilung Für die Normalverteilung gilt: Ø glockenförmig und symmetrisch (Gaussche-Glockenkurve) Ø Verteilung nähert sich asymptotisch der X-Achse Ø Modalwert, Median und Erwartungswert fallen zusammen f (x ) = 1 ⋅ e−(x−µ) 2 / 2σ 2 2πσ 2 Eine Normalverteilung ist durch den Erwartungswert ì und die Varianz ó eindeutig definiert. Man schreibt: N(ì, ó). 2.5.5 Standardnormalverteilung Standardnormalverteilung: Normalverteilung mit dem Mittelwert ì =0 und der Standardabweichung ó = 1 Durch die z-Transformation können sämtliche Normalverteilungen in eine Standardnormalverteilung transferiert werden (in der Regel eine lineare Transformation der Zufallsvariablen x). f(z) −z 2 1 f (z) = ⋅e 2 2π p (z < a ) = ∫ a −∞ −z 1 ⋅e 2 2π 2 z 0 2.5.6 z-Transformation Mit der z-Transformation kann jede beliebige Normalverteilung in eine Standardnormalverteilung übergeführt werden. z − Transformation zi = xi − µ σ Graphische Darstellung der z-Transformation siehe: HIRSIG 3.14 Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 13 2.5.7 Konfidenzintervall Engl.: confidence interval f(z) Das Konfidenzintervall kennzeichnet denjenigen Bereich eines Merkmals, in dem sich ein definierter Prozentsatz (in der Regel 90% 99%) aller möglichen Populationsparameter befinden, die den empirisch ermittelten Stichprobenkennwert erzeugt haben können. z 0 2.5.8 z-Test Der z-Test wird hauptsächlich angewandt um zu bestimmen mit welcher Wahrscheinlichkeit der Ausprägungsgrad einer Zufallsvariablen zwischen zwei Grenzwerten zu erwarten ist (Konfidenzintervall). Zum Prüfen von Hypothesen kann der z-Test angewandt werden. Dabei wird folgendes Vorgehen angewandt: Ø Formulieren der Nullhypothese Ho und der Alternativhypothese H1 Ø Signifikanzniveau festlegen Ø mit z-Verteilung (Tabelle) prüfen, ob Nullhypothese Ho selten ist Fall 1: Nullhypothese Ho ist selten verwerfen Unterschied ist signifikant Fall 2: Nullhypothese Ho ist nicht selten nicht verwerfen Unterschied nicht signifikant 3. Prüfen von Unterschiedshypothesen Skala Ratioskala Intervallskala Ordinalskala Nominalskala mögliche Testverfahren t-Test t-Test Vergleich der Mediane Vergleich der Modalwerte ÷2-Test 3.1 ÷2-Test Alle ÷2-Methoden laufen auf einen Vergleich von beobachteten und erwarteten Häufigkeiten hinaus, wobei die erwarteten Häufigkeiten die jeweils geprüfte Nullhypothese repräsentieren. Der Test kann gerichtet (einseitig) oder ungerichtet (zweiseitig) sein. Ø Voraussetzung: grosse Stichprobe Ø Anwendung bei nominalskalierten Merkmalsdimensionen Ø Ziel: prüfen ob eine empirische Verteilung signifikant von einer beliebigen theoretischen Verteilung abweicht Ø minimales ÷2: kein Unterschied Ø maximales ÷2: sicherer Unterschied Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 1 Merkmalsdimension 1-dimensionales ÷2 2 Ausprägungsgrade mehr als 2 Ausprägungsgrade 1-dimensionales ÷2 2 Merkmalsdimensionen 4-Felder- ÷2-Test k l ÷2-Test 14 m Merkmalsdimensinen Konfigurationsfrequenzanalyse für alternative Merkmale Konfigurationsfrequenzanalyse für alternative Merkmale mit mehr als zwei Ausprägungen 3.1.1 Freiheitsgrade beim ÷2-Test Engl.: degree of freedom Die Tabellendimension (Anzahl Merkmale, Ausprägungsgrade) beeinflusst die Freiheitsgrade. Die Freiheitsgrade werden in der Regel wie folgt berechnet: Freiheitsgrade df (Anzahl Zeilen - 1 ) (Anzahl Spalten - 1) 3.1.2 Der eindimensionale ÷2-Test Der eindimensionale ÷2-Test wird bei nominalskalierten Merkmalsdimensionen mit nur zwei Ausprägungsgraden angewendet. k Chi-Quadrat χ 2 = ∑ i =1 ( H real − H erw ) 2 H erw mit (k-1) Freiheitsgraden k: Anzahl Ausprägungskategorien Ø Voraussetzung: jede Ausprägungskategorie weist mind. 5 Elemente auf. Sonst wird der Fishers Exact-Test angewendet. 3.1.3 Median-Test Der Median-Test prüft ob die Mediane zweier Gruppen (ordinalskalierten Merkmalsdimensionen) unterschiedlich sind. Ø bestimmen des gemeinsamen Medians MG (für beide Gruppe zusammen) Ø Originaltabelle vereinfachen: Teilen oberhalb Median MG zu einem Cluster CO zusammenfassen; Zeilen unterhalb Median MG zu einem Cluster CU zusammenfassen Ø aus den beiden Clustern CO und Cu eine 4-Feldertabelle erstellen Ø errechnen der erwarteten Häufigkeiten HE Ø ÷2-Test mit Freiheitsgrade df (Anzahl Zeilen - 1 ) (Anzahl Spalten - 1) 3.1.4 Der Vier-Felder Test Der Vier-Felder-Test prüft zwei Merkmale auf stochastische Unabhängigkeit. Zu diesem Zweck wird eine Vier-Felder-Tafel nach untenstehendem Muster erstellt. Merkmal 1 Merkmal 2 Total Gruppe 1 a c a+c Gruppe 2 b d b+d Total a+b c+d a+b+c+d (Soll diese Tafel mit einer theoretisch begründeten oder einer zweiten empirischen Verteilung verglichen werden, so wird der eindimensionale ÷2-Test angewendet.) Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 15 2 N N a ⋅ d − b ⋅ c − 2 χ2 = (a + b )(c + d )( a + c )(b + D) mit dem Freiheitsgrad df = 1 3.2 t-Test Der t-Test vergleicht Mittelwerte von Stichproben untereinander und mit dem Mittelwert der Grundgesamtheit. Bei kleinen Stichproben (n>30) oder geschätzter Varianz s der Stichprobenmittelwerte kann man nicht mehr davon ausgehen, dass die Mittelwerte der Stichproben normalverteilt sind (zentrales Grenzwerttheorem).2 Diese Mittelwerte sind t-verteilt, sofern die Messwerte in der Grundgesamtheit normalverteilt sind. t-Verteilung: Werden Stichproben des Umfangs n aus einer normalverteilten Grundgesamtheit gezogen, verteilen sich die am geschätzten Standardfehler s ( σ̂ x ) relativierten Differenzen m1 - m2 ( x − µ ) entsprechend einer t-Verteilung mit n-1 Freiheitsgraden. E(m1 - m2) = E(m1) - E(m2) = 0 Je weiter der Erwartungswert der Mittelwertdifferenz der beiden Stichproben von Null entfernt ist, desto unwahrscheinlicher ist dieser Erwartungswert. m1 − m2 s Freiheitsdgrade df: (n1 + n2 - 2) m1; m2 : Stichprobenmittelwerte s: Schätzung der Standardabweichung s 2 ⋅ ( n1 − 1) + s 22 ⋅ ( n 2 − 1) 1 1 Schätzung der Varianz von (m 1 - m2) s 2 = 1 ⋅ − ( n1 − 1) + ( n 2 − 1) n1 n 2 t= s12 , s 22 : n1 , n 2 : Varianzen der beiden Stichproben Anzahl Beobachtungen der beiden Stichproben Es gibt verschiedene Varianten des t-Tests. Der Unterschied besteht hauptsächlich in der unterschiedlichen Schätzung der Standardabweichung s der Stichprobenmittelwerte m1; m2. 4. Prüfung von Zusammenhangshypothesen Die Gleichung, die wir bei stochastischen Zusammenhängen zur Merkmalsvorhersage benötigen, wird Regressionsgleichung genannt. Die Enge des Zusammenhangs zwischen zwei Merkmalen charakterisiert der Korrelationskoeffizient, der Werte zwischen +1 und -1 annehmen kann. Erreicht ein Korrelationskoeffizient Werte von +1 bzw. -1, geht der stochastische Zusammenhang in einen funktionalen, deterministischen Zusammenhang über. Eine Korrelation von +1 zeigt einen linearen gleichsinnigen Zusammen hang, eine Korrelation von -1 zeigt einen linearen gegenläufigen Zusammenhang an. Unabhängig von ihrer Höhe, dürfen Korrelationen nicht im Sinn von Kausalbeziehungen interpretiert werden. 2 mit grösser werdendem n geht die t-Verteilung in eine Normalverteilung über. Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 16 Kausalität: klare Richtung des Einflusses x y Korrelation: es besteht ein Zusammenhang x y oder y x 4.1 Primitive Zusammenhangshypothesen Bei einfachen Zusammenhangshypothesen können die selben Verfahren wie bei der Prüfung von Unterschiedeshypothesen angewandt werden. Dazu werden die Resultate in eine Tabelle eingetragen und dann mittels ÷2-Test geprüft. 4.2 Komplexe Zusammenhänge 4.2.1 Korrelationskoeffizienten Engl.: correlation coefficient r = 1.0 r = -1.0 r = 0.0 4.2.2 Spearman Rang-Korrealtion Der Zusammenhang zweier ordinalskalierten Merkmale wird durch die Spearman Rang-Korrelation rs erfasst.3 Die Spearman Rang-Korrelation wird eingesetzt, wenn man monotone nichtlineare und lineare Zusammenhänge vermutet. Die Spearman Rang-Korrelation wiest ein hohes â-Fehler Risiko auf. n Korrelationskoeffizient rs nach Spearman: rs − 6 ⋅ ∑ d i2 i =1 n3 − n Vorgehen: Ø Rangreihen für beide Merkmale bilden Ø für jedes Individuum die Differenz di der Rangplätze bilden Ø die Summer der quadrierten Differenzen di der Rangplätze bilden Ø Korrelationskoeffizient rs nach obenstehender Formel ermitteln Ø Vergleich des Korrelationskoeffizienten rs mit der Tabelle der kritischen Werte4 a) der Korrelationskoeffizient rs ist grösser als der kritische Wert Daten sind selten unter der Annahme dass Ho: rs = 0 die Korrelation ist signifikant b) der Korrelationskoeffizient rs ist kleiner als der kritische Wert Ho: rs = 0 kann nicht verworfen werden Korrelation ist nicht signifikant 3 rs ist mit der Produkt-Moment-Korrelation identisch, wenn beide Merkmale jeweils die Werte 1 bis n annehmen, was bei Rangreihen der Fall ist. Eine Rangkorrelation könnte somit berechnet werden indem in die Produkt-Moment-Korrelationsformel statt der intervallskalierten Messwerte die Rangdaten eingesetzt werden. 4 n>30 t-Verteilung Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 17 4.2.3 Kendalls Rangkorrelation Verbunde Rangplätze (mehrere Individuen belegen den selben Rang) beeinflussen den Korrelationskoeffizienten rs ungünstig. Sind mehr als 25% der Rangplätze verbunden, muss eine Korrektur vorgenommen werden. Der Korrelationskoeffizient ôc von Kendall berücksichtigt diese Korrektur. Korrelationskoeffizient nach Kendall τc = C−D m −1 0.5 ⋅ N 2 ⋅ m C: Konkordante Paarvergleiche D: Diskordante Paarvergleiche N: Total aller Beobachtungen m: minimale Zeilen-(Kolonnenzahl) Konkordante Paarvergleiche: (stützt H1): Paare bestehen aus Werten bei denen die Differenz zum erwarteten Wert (wenn H0 gilt) grösser oder gleich Null ist (jedoch nicht beide Differenzen Null sind). Diskonkordante Paarvergleiche: (stützt H1 nicht): Paare bestehen aus Werten bei denen die Differenz zum erwarteten Wert (wenn H0 gilt) kleiner oder gleich Null ist (jedoch nicht beide Differenzen Null sind). 4.2.4 Pearson Korrelation Die Korrelation nach Pearson zeigt ähnlich dem der Rangkorrelation nach Spearman Zusammenhänge zwischen zwei ordinalskalierten Variabeln auf. Die Pearson Korrelation gilt aber nur für lineare Zusammenhänge. 5. Grundzüge der computergestützten Datenanalyse 5.1 Data-Handling Um erfasste Daten auswerten zu können, müssen die einzelnen Ausprägungsgrade eines Merkmals codiert werden (Zuordnung von Zahlen zu einem Wert). Grundidee: Die Daten werden in eine Datenmatrix eingetragen, wobei die erste Variabel immer die Laufnummer des Individuums ist. 5.2 Definition einer Variablen variable name: variable lable: value label: missing values: variable type: measurement: decimal places: max. 8 Buchstaben (Sonderzeichen vermeiden) hauptsächlich für Dateneingabe aussagekräftige Variablenbezeichnung hauptsächlich für Datenausgabe Zuordnung des Ausprägungsgrades zu einer Zahl (1: männlich) nur bei nominal- und ordinalskalierten Daten sinnvoll a) system missing: nichts eingegeben b) selbst definiert (für verschiedene Gründe des Fehlens von Angaben). Skalenniveau eingeben (?) eher Variablenart (Datum, Text,...) (Compi macht was eingegeben, auch wenn unlogisch) Skalenniveau Anzahl Kommastellen Zusammenfassung Statistik FGW Carine Bommeli, Polygonstr. 79, 3014 Bern, [email protected] 5.3 Datentransformation Operation Entfernen Hinzufügen Modifizieren Zeilen = Beobachtungen dataclening neue Stichproben fehler Korrigieren Spalten = Variablen datacleaning neue Indizes recodieren 5.3.1 Datacleaning Ø Bereich (Zeile/Spalte) markieren Ø rechte Maustaste: clear 5.3.2 Hinzufügen von neuen Daten Ø Cursor auf Stelle wo Daten eingefügt werden sollen Ø rechte Maustaste: insert case/ insert variable (paste, wenn kopierter/ausgeschnittener Teil eingefügt werden soll) 5.3.3 Visualisieren von Daten Ø Analyse / descriptives / frequencys / Darstellung wählen 5.3.4 Recodieren von Daten Ø Ø Ø Ø Ø neue Spalte einfügen Variabel definieren Menuleiste: transform compute Recodierung definieren ausführen 5.3.5 Zusammenfügen von Datensätzen Ø Ø Ø Ø Datensatz A öffnen alles markieren: copy Datensatz B öffen Cursor auf Stelle von Daten eingefügt werden sollen: paste Achtung: Aufpassen das Reihenfolge der Fragen stimmen. 5.3.6 Analyse von Teildatensätzen Ø Data / select cases Ø if (Bedingungen der ausgewählten Fälle angeben, z.B. gender = 2 and ... Ø Data / split files Ø compare groupes WICHTIG: nicht vergessen (select all cases / analyse all cases) die Teildatensätze aufzuheben 18