1 Bettina Kietzmann 1D(neu) Februar 2013 Grundlagen der Statistik, Klausurübungen, Erklärungen 1. Aussagenlogik 2. Modalwert, Median, Mittelwert, Spannweite, Erwartungswert 3. Varianz, Standardabweichung 4. Absolute/relative Häufigkeit + Randverteilung/bedingte Wahrscheinlichkeit 5. Venn-Diagramme 6. Verteilungs-und Wahrscheinlichkeitsfunktion 7. Merkmalsklassifikation 8. Datenerhebung, Experiment und Stichprobenverfahren 9. Schätzen von Modellparametern (Punkt- und Intervallschätzung) 10. Kombinatorik- diskrete Verteilung (Binomialverteilung/-koeffizient, Bernoulli) 11. Konzentrationsmessung (Lorenzkurve, Gini-Koeffizient, Herfindahl-Index) 12. Zusammenhangsmessung/ Regressions- und Varianzanalyse 13. Testen, Gauß-Test; Fehler beim Testen, Gütefunktion Klausurhinweise 2012/2013 https://moodle.fernunihagen.de/file.php/30448/Klausurhinweise/Klausurhinweise-03-2013-BWiss.pdf Merksatz: ALLE bisherigen Klausuren RECHNEN RECHNEN RECHNEN!!!!Verstehen kommt dann…ich habe lange, zu lange den Fehler gemacht und erst verstehen wollen VOR dem Rechnen, das kann mir das „Bestehen“ jetzt kosten!!!!WEIL ich zu spät mit der Rechnerei begonnen habe …. 1. Aussagenlogik Hier ist es für die Lösung der Aufgaben notwendig, die Tabelle auszufüllen. Achtgeben muss man auf die Bedeutung der Zeichen ᴧ (UND) ν (ODER) und „nicht a“. Eine Konklusion ist korrekt, wenn mindestens eine der beiden Aussagen P1 oder P2 wahr sind, denn dann ist K (Ableitung der Prämissen, logischer Schluss) auch wahr. Gut verständlich- Übungssache. 2. Modalwert, Median, Mittelwert, Spannweite, Erwartungswert Beispiel eines Datensatzes aus POL/SOZ September 2011: 4,8 6,4 4,2 4,6 4,8 3,9 4,2 7,6 6,5 - Ich ordne prinzipiell erst einmal die Daten, also: 3,9 4,2 4,2 4,6 4,8 4,8 6,4 6,5 7,6 2 Bettina Kietzmann 1D(neu) Februar 2013 Mittelwert (muss nicht geordnet sein!): dieser berechnet sich, wie ein Notendurchschnitt. Ich summiere alle Daten und teile dann durch die Anzahl der Daten. In diesem Falle 3,9+4,2+4,2+…Xn, dann Ergebnis geteilt durch 9. Lösung Mittelwert= 47 ÷9= 5, 22222 Modalwert (muss nicht geordnet sein!): Fragen: „Welcher Wert tritt am häufigsten auf?“ „Gibt es einen eindeutigen Modalwert?“ Antwort: In diesem Falle hat der Datensatz keinen eindeutigen Modalwert sondern 2 Modalwerte, nämlich 4,2 und 4,8. Median (Datensatz muss geordnet sein!): Nun gibt es 2 verschiedene Möglichkeiten: 1. Der Datensatz hat eine ungerade Zahl an Daten- hier zutreffend (9 Daten). Der mittlere Wert des Datensatzes ist hier der Median, also der 5. Wert: 4,8 2. Der Datensatz hat eine gerade Zahl an Daten man berechnet in diesem Falle alle Elemente n und dividiert durch 2. Dieser Wert und der darauffolgende werden summiert und abermals dividiert durch 2. Das ist der Modalwert. Beispiel: 3 5 7 1 5 9 2 8 = gerade ; 8÷2=4 die 4. Zahl im Datensatz ist 1, die darauffolgende ist 5. Beide zusammen ergeben 6, dann 6÷2= 3 . Der Median beträgt 3. Spannweite (geordneter Datensatz!): Der letzte Wert wird mit dem ersten Wert subtrahiert. Also hier: 7,6 -3,9 = 3,7 Die Gesamtlänge eines Boxplots ist die Spannweite Erwartungswert- Beispiel Würfel POL/SOZ März 2010. Ich werfe 10 mal und bekomme die Werte 3 6 4 3 5 1 2 3 4 2 Der Erwartungswert berechnet sich mit der Eintrittswahrscheinlichkeit (1+2+3+4+5+6)* = und der Summe aller k 1 2 3 4 5 6 also = 3,5 (=diskrete Verteilung) Merke: Erwartungswerte werden verschieden berechnet je nachdem was gegeben ist. Schaut in die Formelsammlung. Ganz wichtig ist der Umgang mit dieser!!!! 3. Varianz, Standardabweichung Varianz= die durchschnittliche quadrierte Abweichung der Werte vom Mittelwert - Halbiere ich alle Werte des Datensatzes geht die Varianz auf ein Viertel des Ausgangswertes zurück. S²= 3 Bettina Kietzmann 1D(neu) Februar 2013 Standardabweichung- Halbiere ich alle Werte des Datensatzes geht die Standardabweichung auf die Hälfte des Ausgangswertes zurück. Wenn alle Werte verdoppelt werden, vervierfacht sich s² und s verdoppelt sich. Kleiner Zusatz: = 1 ; 0!=1 Formelsammlung S.10 4. Absolute/relative Häufigkeit + Randverteilung/bedingte Wahrscheinlichkeit Je Aufgabe schreibe ich mir alle gegebenen Werte auf und skizziere mein Vorhaben. Absolute Häufigkeit ist die Anzahl und die relative Häufigkeit zeigt genauer auf, in welchen Verhältnissen die Anzahl vorliegt. Z.B. 500 Schüler 200 sind 18 Jahre alt. Wie viel Prozent sind das? 200 ÷500 = 0,4 also 40%. In den Aufgaben zur Randverteilung macht es Sinn ein Baumdiagramm ODER/UND eine 4-Felder-Tafel zu erstellen. Zahlen trägt man ein und berechnet schrittweise die relative Häufigkeit. Wichtig ist hier darauf zu achten, welche Grundgesamtheiten in der Aufgabenstellung erfragt sind (es gibt auch oft Teilgesamtheiten (unabhängig von der Grundgesamtheit), die eine relative Häufigkeit verlangen. Die kleinere Zahl wird durch die Größere dividiert und man erhält die jeweiligen Prozente. z.B. POL/SOZ März 2011 Aufgabe 7. Gegeben: Gesamtbevölkerung 36 Mio.; Männer (auch Jungen) 49,5%; erwerbstätige Männer 58 %; erwerbstätige Frauen 44,5% Erwerbstätig 58% also 17,82Mio*0,58 =10,3356Mio 49,5% Männer nicht erwerbstätig 42%=7,4844Mio 36Mio *0,495=17,82Mio Gesamtbevölkerung 36 Mio. Erwerbstätig 44,5%, also 18,18Mio*0,445=8,0901Mio 50,5% Frauen 36Mio*0,505=18,18Mio Nicht erwerbstätig 55,5%=10,0899Mio 4 Bettina Kietzmann 1D(neu) Februar 2013 Bei der Berechnung muss darauf geachtet werden, dass die Anzahl der Männer und die Anzahl der Frauen aus der Grundgesamt des Gesamtbevölkerung zu berechnen ist. Möchten man allerdings die Anzahl der erwerbslosen Männer und Frauen berechnen, muss man als Grundgesamtheit die Anzahl der Männer bzw. Frauen benutzen (nicht die Gesamtbevölkerung!!!!). 5. Venn-Diagramme Quelle: http://fos-mathe-trainer.de/tag/venn-diagramm/ 9.2.2013 11:32 Uhr „Venn-Diagramme helfen in der Wahrscheinlichkeitsrechnung dabei, Zusammenhänge zwischen zwei Ereignissen grafisch zu veranschaulichen. Die folgende Grafik zeigt alle möglichen Ereignisse, die Ihr aus zwei Ereignissen A und B durch Vereinigen, Schneiden und Bilden des Gegenereignisses bilden könnt. Rot markiert sind dabei die sich jeweils ergebenden Teilmengen, also z. B. im zweiten Bild in der ersten Zeile . Unter jedem Bild steht, wie man das Ereignis aus A und B erhält.“ steht für das “ausschließende Oder” (auch: “exklusives Oder”, “XOR”) und bedeutet “entweder A oder B” — das dürft Ihr nicht mit “A oder B” „Das Formelsymbol ( ) verwechseln: Beim ausschließenden Oder gilt Element von A oder von B ist, nicht aber von beiden! wenn x entweder Die Abbildung stammt von der Wikipedia-Seite zu Venn-Diagrammen (Autor: Tilman Piesk), ich habe die dort zu findenden Bildunterschriften auf Mengen/Ereignisse angepasst.“ ( Blau unterstrichene Mengen sind von mir eingefügt.--> für uns relevant) 5 Bettina Kietzmann 1D(neu) Februar 2013 Disjunkt sind beide Mengen, wenn sie kein gemeinsames Element haben!! 6. Verteilungs-und Wahrscheinlichkeitsfunktion Beispiel POL/SOZ September 2010 Aufgabe 9: Gegeben: x-Achse: x y-Achse: f(x)-Eintrittswahrscheinlichkeit 6 Bettina Kietzmann 1D(neu) Februar 2013 0,5 0,45 0,4 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 1 2 3 4 5 Nun muss man eine Verteilungsfunktion erstellen. Wichtig ist, dass die Verteilungsfunktion nicht nur bis 5 definiert ist, sondern darüber hinaus geht!!! Beachtet werden muss, ob die 0 eine Eintrittswahrscheinlichkeit besitzt oder nicht. Im obigen Beispiel besitzt sie KEINE, bei Roulette ja (beginnt dort also bei 1/37- der Erwartungswert beim Roulette beträgt immer 20,027027 ;) ). Ebenfalls muss beachtet werden, dass die Eintrittswahrscheinlichkeiten in der Verteilungsfunktion AUFSUMMIERT werden! 7 Bettina Kietzmann 1D(neu) Februar 2013 Den Erwartungswert berechnet man durch Ablesen der Wahrscheinlichkeitsfunktion 1. Abbildung und Aufsummierung, also 1*0,1+2*0,3+3*0,1+4*0,3+5*0,2= 3,2. Die Verteilungsfunktion enthält die aufsummierten Eintrittswahrscheinlichkeiten, im Falle x=3 nimmt die Verteilungsfunktion den Wert 0,5 an. Für alle Werte x von 2 ≤ x < 3 ergibt sich der Wert 0,4. Wird X transformiert wird zu Y= X+1, dann ist die Varianz von Y mit der von X identisch. Der Erwartungswert E(x)= μ nimmt bei Transformation Y= X² = μ² an. Beispiel Roulette: insgesamt 37 mögliche Ergebnisse. Wie ist die Wahrscheinlichkeit bei einmaligen Spiel eine zweistellige Zahl zu erlangen? Laplace Uns interessieren die Zahlen, von 10-36, also 27 sind zweistellig. Laplace= = = 0,7297 Wie ist die Wahrscheinlichkeit, in jedem der 2 Spiele eine 10 zu erhalten UND die Frage, ob dies das Doppelte ist, von einem Spiel? Habe 1/37 Wahrscheinlichkeit die 10 zu bekommen bei einmal Spielen 2. Spiel: wieder 1/37 Chance 1/37*1/37= 1/37²= Ist das identisch mit der doppelten Wahrscheinlichkeit einmal eine 10 zu werfen? 1/37=0,027027 dann: 0,027027*2= 0,054054 ist das gleiche, wie 2/37 die Wahrscheinlichkeit 2mal hintereinander die 10 zu werfen= und das vergleiche ich mit der doppelten Wahrscheinlichkeit einmal eine zu werfen, also mit 2/37 0,00073 verglichen mit 0,054 8 Bettina Kietzmann 1D(neu) Februar 2013 7. Merkmalsklassifikation - Die metrische Skala ist zu spezifizieren in Intervallskala und Verhältnisskala. Letztere kann einen Sonderfall aufweisen: Absolutskala - Nominal: Merkmalsausprägungen müssen nicht in eine Reihenfolge gebracht werden - Metrische Operationen sind NICHT für Ordinalskalen zulässig und odinalskalierte Operationen (Rangfolge) sind NICHT zulässig für nominalskalierte Operationen (keine Rangfolge) . Dagegen sind ordinale Operationen auch für metrische zulässig. Metrische Operationen können Differenzen in den Merkmalsausprägungen aufweisen, wohingegen ordinalskalierte Operationen keine Differenzen inne haben. - - - - Bsp nominal: „Bei einer Wahl gewählte Partei.“ Partei = Kategorie ohne Rangordnung oder „Art der Heizung- Gas, Kohle etc.“ keine Rangordnung Bildungsstand zum Beispiel ist mit Rangordnung (ohne Abschluss, HS, RS, Gymnasium etc.), daher ORDINAL Stetiges Merkmal: z.B. Gewicht einer Person Diskretes Merkmal: Art der Heizung, Zählvariable, z.B. Anzahl der gemeldeten EHEC-Fälle März 2011, Bildungsstand Metrisch= Entfernung zwischen Firma und zu Hause; Gewicht einer Person Nominal= Transportmittel von zu Hause bis zur Arbeit(PKW, Fahrrad) Quantitative Merkmale= metrisch Qualitative Merkmale= sowohl ordinal als auch nominal möglich Sowohl bei ordinal als auch bei nominal ist die Bildung von Differenzen NICHT möglich Realdefinition: behaltet Aussage über Eigenschaften eines Gegenstandes oder Sachverhaltes, also umfasst NICHT ALLE Eigenschaften des Definiendums). Die Realdefinition kann falsch oder unvollständig sein. Nominaldefinition: der Gegenstand (Definiendum) wird durch anderen Gegenstand (Definiens) erklärt, also ist eine Worterklärung mit gleicher Begriffsbedeutung. Die Nominaldefinition kann NICHT falsch sein. Beide Definitionen sind NICHT NUR entweder richtig oder falsch 9 Bettina Kietzmann 1D(neu) Februar 2013 Tabelle: NOMINAL (Kategorie) Spezialfall: dichotome Skala ORDINAL (Rang) METRISCH Intervall Ratio/Verhältnis (Sonderfall: Absolutskala) stetig- unendliche Werte und beliebige Zwischenwerte Verhältnis zwischen Objekten ist größer oder kleiner, also Abstände sind größer-kleiner diskret- beliebe Werte aber keine unendlichen Zwischenwerte Objekte =gleich oder Verhältnis zwischen Objekten ist größer-kleiner; ungleich besser-schlechter , Likertskala: gut-mittelschlecht Bsp: Geschlecht, Partei, Beispiel: Temperatur in Temperatur Kelvin, Zeit, Muttersprache, Farbe, PLZ,, Grad, Datum, Zieleinlauf von Anzahl, länge, Gewicht, derzeitiger soz. Status, Läufern, Zeitdruck-ja/nein, Einkommen, Schuljahre, Berufsbezeichnung, Glück Likertskala= Stundenanzahl für durch allein leben oder Wettkampfplatzierung Mathe/Woche Familie? Bsp. für beide: Schulnoten Zunahme an Informationsgehalt 8. Datenerhebung, Experiment und Stichprobenverfahren Befragung: Filterfragen bilden Untergruppen mit speziellen Fragen Fragebögen: es kann passieren, dass eine Frage die Antwort der nächsten Frage beeinflusst (=Halo-Effekt) Messen theoretischer Konstrukte (Erfolg, Zufriedenheit) werden mit beobachtbaren Konstrukten VERKNÜPFT, das heißt Handlungsanweisungen für Datengewinnung werden spezifiziert (=Operationalisierung) Random Route es werden KEINE Namens- und Adressdaten verwendet; es werden Haushalte durch einen Interviewer befragt, dabei ist der Startpunkt im Interview zufällig gewählt und alle weiteren Schritte sind dem Interviewer vorgegeben Personenexperiment- 2 Gruppen: 1. Versuchsgruppe (Einflussgrößen werden planmäßig verändert (=Treatment) 2. Kontrollgruppe (bei dieser werden die Einflussgrößen NICHT planmäßig verändert = Treatment) QuasiExperiment= wenn die Zuordnung in beide Gruppen NICHT zufällig erfolgt! Nicht-reaktive Datengewinnung= verdeckte Erfassung und Auswertung (z.B. DeStatis, Logfile-Analysen) DeStatis (statistisches Bundesamt) erfasst automatisiert die Nutzungshäufigkeit von DeStatis-Datenangeboten zu verschiedenen Themen, um Verhalten des Nutzer zu verfolgen/auszuwerten Undercoverage= Fehler in Stichprobenbasierten Datenerhebungen; wenn nicht alle Elemente der Population, die aus einer Stichprobe gezogen wird, 10 Bettina Kietzmann 1D(neu) Februar 2013 berücksichtigt werden, also Objekte gehören zur Grundgesamtheit, aber nicht zur Auswahlgesamtheit Overcoverage- Objekte gehören zur Auswahlgesamtheit, aber nicht zur Grundgesamtheit; - Es werden Elemente ausgewählt, die nicht die gewünschten Eigenschaften aufweisen Wenn allgemeine Bevölkerungsumfrage durch freiwillige Befragung oder offene Online-Befragung, können systematisch verzerrte Ergebnisse aufkommen Beispiel: Befragung von Schülern in Hauptschulen Deutschlands Auswahleinheit= Hauptschulen in Dtl.; Erhebungseinheit= Schüler, die befragt werden (stichprobenartig) Gütekriterien für Messungen: OBJEKTIVITÄT, INTERSUBJEKTIVITÄT, VALIDITÄT, RELIABILITÄT Validität: „Wird wirklich DAS gemessen, was gemessen werden SOLL?“ Reliabilität: „Inwieweit liefert Messinstrument bei wiederholter Messung gleiche Ergebnisse (Messwerte)?“ Aus der Reliabilität einer Messung folgt NICHT gleich deren Validität Aus der Validität folgt stets auch die Reliabilität Klumpenauswahl: 2 stufiger Auswahlprozess 1. Zufällig gewählte Teilmenge der Grundgesamtheit 2. ALLE Elemente eines Klumpens (Teilmenge)- nicht Untersuchungseinheiten!!! Geschichtete Stichprobenauswahl - allgemein: Prozentsatz kann grundsätzlich variieren Geschichtete Stichprobenauswahl- proportional: hat festen Prozentsatz (muss gleich sein) von Stichprobenelementen Stichprobenauswahl mit proportionaler Schichtung 1. Grundgesamtheit wird in Teilpopulationen zerlegt 2. Zufallsstichprobe aus dieser Teilpopulation Quotenauswahlverfahren: 2stufiges Stichprobenverfahren zur Gewinnung einer Stichprobe = zufallsgesteuert, d.h. 2. Stufe: systematische (kein Zufall) Auswahl der Stichprobenelemente Zusatz: dichotomisiert= 1. Aus vielen Variablen 2 machen (ordinal nominal) 2. Z-Werte, Normierung Binnendifferenzierung= z.B. methodische Maßnahmen für Verbesserung und Gestaltung Unterricht; zusammengesetzt aus logischen Operatoren; Operationalisierung samt innerer und äußerer Differenzierungen 11 Bettina Kietzmann 1D(neu) Februar 2013 9. Schätzen von Modellparametern (Punkt- und Intervallschätzung) Die Stichprobenfunktion (bzw. Varianz s²) liefert eine VERZERRTE (nicht übereinstimmende) Schätzung für die Varianz σ² man kann auch sagen, dass man die Summe der quadratischen Abweichung bildet und mit n dividiert = verzerrte Schätzung der Varianz Stichprobenfunktion: X = 1. Stichprobenmittelwert 2. Stichprobenvarianz s² Wenn der Erwartungswert anhand des Mittelwertes der Stichprobenfunktion geschätzt wird ist dies UNVERZERRT (E( ) = μ FS S.20) übereinstimmend)dann stimmt auch MSE (mittlere quadratische Abweichung) mit Varianz überein (MSE=V(X)). Man kann auch sagen, wenn man die Summe der MSE bildet und dann mit n dividiert, erhält man eine verzerrte Schätzung für die Varianz.(unverzerrt= korrigierte Varianz FS S.3) Der Erwartungswert kann durch ein Konfidenzintervall geschätzt werden; die Grenzen der Intervallschätzung sind ZUFALLSABÄNGIG Bsp. Würfel: Mittelwert und Erwartungswert stimmen überein= unverzerrt, ebenso stimmt auch der MSE mit Varianz überein. Normalverteilung= Gaußglocke (Grafik Quelle: http://www.rouletteportal.org/showwiki.php?title=Normalverteilung 10.2.2013 12:37 Uhr) Korrigierte Varianz: Wenn man quadrierten Abweichungen aufsummiert und durch n-1 teilt, ist dies eine unverzerrte Schätzung für die Varianz von X. Formelsammlung S.21 12 Bettina Kietzmann 1D(neu) Februar 2013 Konfidenzintervall (Grafik Quelle: http://eswf.uni-koeln.de/lehre/stathome/statcalc/v2202.htm 10.2.2013 12:40Uhr) SymmetrischSpiegel Erwartungswert μ liegt „irgendwo im Konfidenzitervall ODER in α Konfidenzintervall α (auch:Fehler) Je größer α, desto kleiner wird das Konfindenzintervall und umgekehrt. Die Varianz vom Mittelwert geht, bei Verdopplung n, auf die Hälfte zurück. (Nicht auf ein Viertel!) FS S.20 unten V( Bei Verdopplung n, nimmt Varianz um Faktor und die Standardabweichung um 10. = = ab. Kombinatorik- diskrete Verteilung (Binomialverteilung/-koeffizient, Bernoulli) Bernoulli-Experiment (-prozess): zufällig, 2 Versuchsausgänge -der Erwartungswert berechnet sich durch n*p (p= Eintrittswahrscheinlichkeit) Binomialverteilt= diskrete Wahrscheinlichkeitsverteilung; beschreibt die Anzahl/Folge von gleichen, unabhängigen Versuchen (z.B. einer Münze), die je genau 2 mögliche Ausgänge haben. Bei einem Münzwurf ist X binomialverteilt mit n und p. Varianz (X)- σ²= n*p(1-p)= (NICHT ) ; q berechnet sich durch 1-p ; q und p sind Eintrittswahrscheinlichkeiten. Die Eintrittswahrscheinlichkeit p für z.B. Kopf kann man anhand Mittelwert X schätzen. Varianz der Wahrscheinlichkeit (p und q)= Würfe. – bei fairen Münze: ; n= Anzahl der 13 Bettina Kietzmann 1D(neu) Februar 2013 Erwartungswert n*p für Binomialverteilung z.B. wenn man wissen möchte wie die Wahrscheinlichkeit bei 9 mal werfen mit zwei Würfeln ist, dass ich eine 1 oder eine 2 habeman hat das Komplementärereignis A-Strich und A (2 mögliche Ausgänge)-davon interessieren uns nur die ersten beiden Augenzahlen, also = =p und die Anzahl der Würfe n=9E(X) =n*p wäre in diesem Falle 3. Weiteres Beispiel September 2011 POL/SOZ Aufgabe 11 A: Gegeben: faire Münze (Eintrittswahrscheinlichkeit p= 0,5) wird n= 8mal geworfen X ist das Ereignis Zahl zu werfen. Gesucht ist die Wahrscheinlichkeit mindestens 4 mal eine Zahl zu werfen. Vorgehen: P (X ) – das heißt, ich berechne die Wahrscheinlichkeit für 4,5,6,7,8 dies impliziert zu viele Rechenschritte, daher arbeitet man mit der Komplementärwahrscheinlichkeit P (X , also 1,2,3. 1. Schritt: Komplementärwahrscheinlichkeit berechnen über die Verteilungsfunktion F(X)= binomialverteilt mit n=8; p=0,5 und k=3 (also über die Trägermenge k =0,1,2,3 mal eine Zahl zu werfen). 2. F(X)= ) * 3. F(3)= ) * * * = 0,3633 = die Komplementärwahrscheinlichkeit 4. Nun ziehen wir die Komplementärwahrscheinlichkeit von 1 ab, also 1- 0,3633= 0,6367 = P (X Kleiner Zusatz: Der Taschenrechner berechnet uns den Binomialkoeffizient ) - hier die Formel: ) = ein: n Shift ÷ k in den Taschenrechner gibt man ) folgendermaßen 14 Bettina Kietzmann 1D(neu) Februar 2013 11. Konzentrationsmessung (Lorenzkurve, Gini-Koeffizient) Beispiel September 2011 POL/SOZ Aufgabe 7 Aktien Gesamtwert 20 Mio – verteilt auf 4 Aktionäre Verteilung muss geordnet werden, also Aktionär1: 10%=2Mio; Aktionär2 25%=5Mio; Aktionär3 25%=5Mio; Aktionär4 40%=8Mio Muss aufsummiert werden: y-Achse:0,1+0,25+0,25+0,4=1; x-Achse: 100÷4+100÷4+100÷4+100÷4 (da 4 Aktionäre muss die x-Achse in 4 Teile Berechnung der Punkte auf der blauen Linie: 1. 2/20; 2. 2+5/20 (das ist der Anteil, den der erste und zweite Aktionär am Gesamtwert von 20 Mio. besitzen); 3. 2+5+5/20; 4. 2+5+5+8/20 (das ist immer eins, (denn das ist der Gesamtwert von 20 Mio.) 1 0,8 0,6 D… D… 0,4 0,2 0 0 0,25 0,5 0,75 1 Je weiter die Lorenzkurve „ausstrahlt“, desto ungleicher sind die Daten verteilt. Die Lorenzkurve gibt an, wie viel % Aktionär1 v1 (0,25; 0,1) an gesamten Aktien besitzt v 3 (0,75;0,6) zeigt an, inwieweit die ersten 3 Aktionäre am Gesamtwert beteiligt sind Gini-Koeffizient= unnormiert es existiert eine obere Schranke mit 0,75 , also 0 ≤ G ≤ =0,75 für n=4 (ist IMMER so definiert) also, wenn alle blauen Punkte auf der roten Geraden liegen ist G= 0, da es keine Abweichung gibt. Für n= 3 wäre der G= 0,66. 15 Bettina Kietzmann 1D(neu) Februar 2013 Unterschied zwischen normiertem und unnormiertem Gini-Koeffizient: Unnormiert G q =59 (1*2+2*5+3*5+4*8) p =20 (2+5+5+8) G= G= 0,225 Normierter G* : G*= * G (dafür benötigt man auch den unnormierten Gini- Koeffizienten!) G*= * 0,225 G*= 0,3 Herfindahl- Index (Alternative zum Gini-Koeffizienten): H:= )²= * H es gilt: i= Laufvariable, nicht Multiplizieren! (der Taschenrechner erkennt allerdings nicht, was X ist. Daher PER HAND aufsummieren!) Beispiel für gegebene Werte: H:= * (2²+ 5²+ 5²+ 8²)= 0,295 Verdoppelt man xi, also in unserem Beispiel 2, 5, 5, 8, so verändern sich beide Gini-Koeffizienten NICHT! In der Klausur März 2011 POL/SOZ Aufgabe 11 Nummer C ist der SINN des Gini-Koeffizienten erläutert: „Der Gini-Koeffizient liefert Aussagen des Typs „x% der Merkmalsträger teilen sich y% der Merkmalssumme.“ 16 Bettina Kietzmann 1D(neu) Februar 2013 12. Zusammenhangsmessung/ Regressions- und Varianzanalyse Empirische Zusammenhänge sind durch Beobachtungen errechenbar; theoretische Zusammenhangsmaße gelten für Zufallsvariablen. Der Korrelationskoeffizient r (Brevais Pearson) misst die Stärke eines linearen Zusammenhangs zwischen 2 Merkmalen X und Y und ist auf metrisch skalierte Daten anwendbar. Anforderungen an die Zusammenhangsmessung („Wie ist der Zusammenhang einer Zahl? Beispiel: Je größer Einkommen, desto größer Konsum.“) die empirische Verteilung wird durch den Korrelationskoeffizienten Bravais Pearsons beschrieben) 1. Lineare /nicht lineare Korrelation Linear Nicht linear: 17 Bettina Kietzmann 1D(neu) Februar 2013 2. Positive (je größer X desto größer Y) und negative (je größer X desto kleiner Y) Korrelation r<0 je größer desto kleiner r>0 je größer desto größer 3. Stärke einer Korrelation- je größer r desto größer Zusammenhang: c)hohe Korrelation a) niedrige Korrelation - C) = hohe/starke Korrelation, also gen Wert 1 das heißt allerdings nicht, dass zwingend eine sachlogische Verbindung besteht, z.B. „Die Sonnenfleckenintensität hat Einfluss auf das wirtschaftliche Wachstum.“ korreliert stark, heißt ABER nicht, dass Verbindung besteht… 4. Der Wertebereich liegt bei -1≤r≤1 ra=1 steigende Gerade ra ~0 (in dem Falle ist NICHT ausgeschlossen (kann, aber muss nicht), dass zwischen beiden Merkmalen ein nicht linearer Zusammenhang besteht; ist r = 0 ist von einem linearen Zusammenhang auszugehen. 18 Bettina Kietzmann 1D(neu) Februar 2013 ra=-1 fallende Gerade Die Kovarianz ist NICHT das Zusammenhangsmaß, welches NUR Werte zwischen -1 und 1 annimmt denn das ist die NORMIERUNG der Kovarianz- diese liegt zwischen -1 und 1. Den Korrelationskoeffizienten berechnet man durch: r:= Kovarianz-cov: sxy= Cov = * Beispiel Klausur September 2011 Aufgabe 14 Nummer A: Werte sind vorgegeben außer die Standardabweichung, allerdings muss man nur noch die Wurzel aus der Varianz ziehen. Der Korrelationskoeffizient beträgt demnach 0, 835. Nun kann man eine Aussage über diesen treffen: stark positive Korrelation. B: lineares Regressionsmodell y i= β*x + αi + u i siehe Formelsammlung Seite 27 = eine Funktion für eine Gerade (Linearfunktion) Manche kennen vielleicht aus der Schule: y=m*x+n m= Anstieg = β n= Schnittpunkt mit der Y-Achse= α Und x ist x ;) 19 Bettina Kietzmann 1D(neu) Februar 2013 ui= Residuum* * (ui= Stör-Term/-variable= Residuum) Berechnung des Residuums: ui Dach = yi - yi Dach=yi - αDach – ßDach*xi Nr. 14: Beispiel : u1 Dach = y1 – y1 Dach = y1 - αDach – ßDach*x1 =2,5 -0,15- 0,80 * 2,7 = 0,19 Wenn die Kovarianz negativ ist und die Varianz positiv ist (ist sie IMMER) die Gerade FALLEND, da ßDach negativ ist. Wenn die Kovarianz und demzufolge ßDach positiv sind, ist die Gerade steigend. Wenn die Cov negativ ist, dann ist ß negativ,- die Varianz als quadrierte Zahl ist immer positiv. Regressionskoeffizient: Regressionsgerade und wenn αDach= y * x = sxy ÷ sx² wenn (bzw. Dach) >0 dann steigende <0 dann fallend. Achtung: die Werte sind alle gegeben! Keine Panik ;) 20 Bettina Kietzmann 1D(neu) Februar 2013 Für die Methode der kleinsten Quadrate braucht man αDach und ßDach Seite 27 Formelsammlung. Das sind alles nur geschätzte Werte, keine wahren Werte! R²= Bestimmtheits- bzw. Gütemaß hat Definitionsbereich 0≤R²≤1 beurteilt, ob die Regressionsgerade, die ich berechnet habe eine „gute“ oder „schlechte“ Anpassung an den gegebenen Datensatz haben. Fakt ist, dass versucht wird, die Abweichung der Regressionsgerade möglichst gering zu halten- die Summe der quadrierten Residuen wird versucht gering zu halten. Bei Null würden alle Daten des Datensatzes auf der Regressionsgeraden liegen und das ist sehr selten der Fall. Wenn R²=0 schließt nicht aus, dass zwischen X und Y ein nicht-linearer Zusammenhang besteht. R² (=Gütemaß)=r² (Korrelationskoeffizient ins Quadrat) Unterschied= dass r auch negative Werte annehmen kann. 0≤R²≤1 und -1≤r≤1. R²= = s²yDach ÷ s²y = 1 – s²uDach ÷ s²y= = r² (Formelsammlung Seite 29) Das Bestimmtheitsmaß bzw Gütemaß, z.B. 0,45 gibt an, dass 45% der Gesamtvariation des Datensatzes durch das Regressionsmodell erklärt ist. Würde R² beispielsweise 0,9 sein, dann bedeutet dies, dass 90% der Gesamtvariation des Datensatzes durch das Regressionsmodell erklärt ist. Würde in einer Aufgabe stehen, dass R² = 0,9 und dieser 65% der Gesamtvariation des Datensatzes durch das Regressionsmodell erklärt, wäre dies FALSCH. Beispiel März 2011 POL/SOZ Aufgabe 15 Nummer B. R²= = 0,1075 Lernsache bzw. Formelsammlung Seite 30: Die unabhängige Variable ist diskret und die abhängige (Responsevariable) ist stetig. 13. Testen, Gauß-Test; Fehler beim Testen, Gütefunktion Formelsammlung Seite 22. Dazu findet ihr eine Grunderklärung meinerseits in einer weiteren Datei in diesem Artikel namens Gauß-Test, mit sehr guter und vornehmlicher Hilfe dieses Linkes: http://www.fernstudi.net/blogs/null-und-alternativhypothese-gauss-test Numerische Aufgaben folgen in einer seperaten Datei. 21 Bettina Kietzmann 1D(neu) Februar 2013