Grundlagen der Statistik

Werbung
1
Bettina Kietzmann 1D(neu) Februar 2013
Grundlagen der Statistik, Klausurübungen, Erklärungen
1. Aussagenlogik
2. Modalwert, Median, Mittelwert, Spannweite, Erwartungswert
3. Varianz, Standardabweichung
4. Absolute/relative Häufigkeit + Randverteilung/bedingte Wahrscheinlichkeit
5. Venn-Diagramme
6. Verteilungs-und Wahrscheinlichkeitsfunktion
7. Merkmalsklassifikation
8. Datenerhebung, Experiment und Stichprobenverfahren
9. Schätzen von Modellparametern (Punkt- und Intervallschätzung)
10. Kombinatorik- diskrete Verteilung (Binomialverteilung/-koeffizient, Bernoulli)
11. Konzentrationsmessung (Lorenzkurve, Gini-Koeffizient, Herfindahl-Index)
12. Zusammenhangsmessung/ Regressions- und Varianzanalyse
13. Testen, Gauß-Test; Fehler beim Testen, Gütefunktion
Klausurhinweise 2012/2013 https://moodle.fernunihagen.de/file.php/30448/Klausurhinweise/Klausurhinweise-03-2013-BWiss.pdf
Merksatz: ALLE bisherigen Klausuren RECHNEN RECHNEN RECHNEN!!!!Verstehen
kommt dann…ich habe lange, zu lange den Fehler gemacht und erst verstehen wollen VOR
dem Rechnen, das kann mir das „Bestehen“ jetzt kosten!!!!WEIL ich zu spät mit der
Rechnerei begonnen habe ….
1. Aussagenlogik
Hier ist es für die Lösung der Aufgaben notwendig, die Tabelle auszufüllen.
Achtgeben muss man auf die Bedeutung der Zeichen ᴧ (UND) ν (ODER) und „nicht
a“.
Eine Konklusion ist korrekt, wenn mindestens eine der beiden Aussagen P1 oder P2
wahr sind, denn dann ist K (Ableitung der Prämissen, logischer Schluss) auch wahr.
Gut verständlich- Übungssache.
2. Modalwert, Median, Mittelwert, Spannweite, Erwartungswert
Beispiel eines Datensatzes aus POL/SOZ September 2011:
4,8 6,4 4,2 4,6 4,8 3,9 4,2 7,6 6,5
- Ich ordne prinzipiell erst einmal die Daten, also:
3,9 4,2 4,2 4,6 4,8 4,8 6,4 6,5 7,6
2
Bettina Kietzmann 1D(neu) Februar 2013
Mittelwert (muss nicht geordnet sein!): dieser berechnet sich, wie ein
Notendurchschnitt. Ich summiere alle Daten und teile dann durch die Anzahl der
Daten. In diesem Falle 3,9+4,2+4,2+…Xn, dann Ergebnis geteilt durch 9. Lösung
Mittelwert= 47 ÷9= 5, 22222
Modalwert (muss nicht geordnet sein!): Fragen: „Welcher Wert tritt am häufigsten
auf?“ „Gibt es einen eindeutigen Modalwert?“ Antwort: In diesem Falle hat der
Datensatz keinen eindeutigen Modalwert sondern 2 Modalwerte, nämlich 4,2 und 4,8.
Median (Datensatz muss geordnet sein!): Nun gibt es 2 verschiedene Möglichkeiten:
1. Der Datensatz hat eine ungerade Zahl an Daten- hier zutreffend (9 Daten). Der
mittlere Wert des Datensatzes ist hier der Median, also der 5. Wert: 4,8
2. Der Datensatz hat eine gerade Zahl an Daten man berechnet in diesem Falle
alle Elemente n und dividiert durch 2. Dieser Wert und der darauffolgende werden
summiert und abermals dividiert durch 2. Das ist der Modalwert.
Beispiel: 3 5 7 1 5 9 2 8 = gerade ; 8÷2=4 die 4. Zahl im Datensatz ist 1, die
darauffolgende ist 5. Beide zusammen ergeben 6, dann 6÷2= 3 . Der Median
beträgt 3.
Spannweite (geordneter Datensatz!): Der letzte Wert wird mit dem ersten Wert
subtrahiert. Also hier: 7,6 -3,9 = 3,7 Die Gesamtlänge eines Boxplots ist die
Spannweite
Erwartungswert- Beispiel Würfel POL/SOZ März 2010. Ich werfe 10 mal und
bekomme die Werte 3 6 4 3 5 1 2 3 4 2  Der Erwartungswert berechnet sich
mit der Eintrittswahrscheinlichkeit
(1+2+3+4+5+6)* =
und der Summe aller k 1 2 3 4 5 6 also
= 3,5 (=diskrete Verteilung)
Merke: Erwartungswerte werden verschieden berechnet je nachdem was gegeben ist.
Schaut in die Formelsammlung. Ganz wichtig ist der Umgang mit dieser!!!!
3. Varianz, Standardabweichung
Varianz= die durchschnittliche quadrierte Abweichung der Werte vom Mittelwert
- Halbiere ich alle Werte des Datensatzes geht die Varianz auf ein Viertel des
Ausgangswertes zurück.
S²=
3
Bettina Kietzmann 1D(neu) Februar 2013
Standardabweichung- Halbiere ich alle Werte des Datensatzes geht die
Standardabweichung auf die Hälfte des Ausgangswertes zurück. Wenn alle
Werte verdoppelt werden, vervierfacht sich s² und s verdoppelt sich.
Kleiner Zusatz:
= 1 ; 0!=1 Formelsammlung S.10
4. Absolute/relative Häufigkeit + Randverteilung/bedingte Wahrscheinlichkeit
Je Aufgabe schreibe ich mir alle gegebenen Werte auf und skizziere mein Vorhaben.
Absolute Häufigkeit ist die Anzahl und die relative Häufigkeit zeigt genauer auf, in
welchen Verhältnissen die Anzahl vorliegt. Z.B. 500 Schüler 200 sind 18 Jahre alt.
Wie viel Prozent sind das? 200 ÷500 = 0,4 also 40%.
In den Aufgaben zur Randverteilung macht es Sinn ein Baumdiagramm ODER/UND
eine 4-Felder-Tafel zu erstellen. Zahlen trägt man ein und berechnet schrittweise die
relative Häufigkeit. Wichtig ist hier darauf zu achten, welche Grundgesamtheiten in
der Aufgabenstellung erfragt sind (es gibt auch oft Teilgesamtheiten (unabhängig von
der Grundgesamtheit), die eine relative Häufigkeit verlangen. Die kleinere Zahl wird
durch die Größere dividiert und man erhält die jeweiligen Prozente.
z.B. POL/SOZ März 2011 Aufgabe 7.
Gegeben: Gesamtbevölkerung 36 Mio.; Männer (auch Jungen) 49,5%; erwerbstätige
Männer 58 %; erwerbstätige Frauen 44,5%
Erwerbstätig 58% also
17,82Mio*0,58 =10,3356Mio
49,5%
Männer
nicht erwerbstätig 42%=7,4844Mio
36Mio *0,495=17,82Mio
Gesamtbevölkerung
36 Mio.
Erwerbstätig 44,5%, also
18,18Mio*0,445=8,0901Mio
50,5%
Frauen
36Mio*0,505=18,18Mio
Nicht erwerbstätig
55,5%=10,0899Mio
4
Bettina Kietzmann 1D(neu) Februar 2013
Bei der Berechnung muss darauf geachtet werden, dass die Anzahl der Männer und die
Anzahl der Frauen aus der Grundgesamt des Gesamtbevölkerung zu berechnen ist.
Möchten man allerdings die Anzahl der erwerbslosen Männer und Frauen berechnen,
muss man als Grundgesamtheit die Anzahl der Männer bzw. Frauen benutzen (nicht
die Gesamtbevölkerung!!!!).
5. Venn-Diagramme
Quelle: http://fos-mathe-trainer.de/tag/venn-diagramm/ 9.2.2013 11:32 Uhr
„Venn-Diagramme helfen in der Wahrscheinlichkeitsrechnung dabei, Zusammenhänge
zwischen zwei Ereignissen grafisch zu veranschaulichen. Die folgende Grafik zeigt alle
möglichen Ereignisse, die Ihr aus zwei Ereignissen A und B durch Vereinigen, Schneiden und
Bilden des Gegenereignisses bilden könnt. Rot markiert sind dabei die sich jeweils ergebenden
Teilmengen, also z. B. im zweiten Bild in der ersten Zeile
. Unter jedem Bild steht,
wie man das Ereignis aus A und B erhält.“
steht für das “ausschließende Oder” (auch: “exklusives Oder”,
“XOR”) und bedeutet “entweder A oder B” — das dürft Ihr nicht mit “A oder B”
„Das Formelsymbol
(
) verwechseln: Beim ausschließenden Oder gilt
Element von A oder von B ist, nicht aber von beiden!
wenn x entweder
Die Abbildung stammt von der Wikipedia-Seite zu Venn-Diagrammen (Autor: Tilman
Piesk), ich habe die dort zu findenden Bildunterschriften auf Mengen/Ereignisse
angepasst.“
( Blau unterstrichene Mengen sind von mir eingefügt.--> für uns relevant)
5
Bettina Kietzmann 1D(neu) Februar 2013
Disjunkt sind beide Mengen, wenn sie kein gemeinsames Element haben!!
6. Verteilungs-und Wahrscheinlichkeitsfunktion
Beispiel POL/SOZ September 2010 Aufgabe 9:
Gegeben:
x-Achse: x
y-Achse: f(x)-Eintrittswahrscheinlichkeit
6
Bettina Kietzmann 1D(neu) Februar 2013
0,5
0,45
0,4
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
1
2
3
4
5
Nun muss man eine Verteilungsfunktion erstellen.
Wichtig ist, dass die Verteilungsfunktion nicht nur bis 5 definiert ist, sondern darüber hinaus
geht!!!
Beachtet werden muss, ob die 0 eine Eintrittswahrscheinlichkeit besitzt oder nicht. Im obigen
Beispiel besitzt sie KEINE, bei Roulette ja (beginnt dort also bei 1/37- der Erwartungswert
beim Roulette beträgt immer 20,027027 ;) ). Ebenfalls muss beachtet werden, dass die
Eintrittswahrscheinlichkeiten in der Verteilungsfunktion AUFSUMMIERT werden!
7
Bettina Kietzmann 1D(neu) Februar 2013
Den Erwartungswert berechnet man durch Ablesen der Wahrscheinlichkeitsfunktion 1.
Abbildung und Aufsummierung, also 1*0,1+2*0,3+3*0,1+4*0,3+5*0,2= 3,2.
Die Verteilungsfunktion enthält die aufsummierten Eintrittswahrscheinlichkeiten, im Falle
x=3 nimmt die Verteilungsfunktion den Wert 0,5 an. Für alle Werte x von 2 ≤ x < 3 ergibt
sich der Wert 0,4.
Wird X transformiert wird zu Y= X+1, dann ist die Varianz von Y mit der von X identisch.
Der Erwartungswert E(x)= μ nimmt bei Transformation Y= X² = μ² an.
Beispiel Roulette: insgesamt 37 mögliche Ergebnisse.
Wie ist die Wahrscheinlichkeit bei einmaligen Spiel eine zweistellige Zahl zu erlangen? 
Laplace
Uns interessieren die Zahlen, von 10-36, also 27 sind zweistellig.
Laplace=
=
= 0,7297
Wie ist die Wahrscheinlichkeit, in jedem der 2 Spiele eine 10 zu erhalten UND die Frage, ob
dies das Doppelte ist, von einem Spiel?


Habe 1/37 Wahrscheinlichkeit die 10 zu bekommen bei einmal Spielen
2. Spiel: wieder 1/37 Chance

1/37*1/37= 1/37²=

Ist das identisch mit der doppelten Wahrscheinlichkeit einmal eine 10 zu
werfen? 1/37=0,027027 dann: 0,027027*2= 0,054054  ist das gleiche, wie
2/37

die Wahrscheinlichkeit 2mal hintereinander die 10 zu werfen=
und das
vergleiche ich mit der doppelten Wahrscheinlichkeit einmal eine zu werfen,
also mit 2/37  0,00073 verglichen mit 0,054
8
Bettina Kietzmann 1D(neu) Februar 2013
7. Merkmalsklassifikation
- Die metrische Skala ist zu spezifizieren in Intervallskala und Verhältnisskala.
Letztere kann einen Sonderfall aufweisen: Absolutskala
- Nominal: Merkmalsausprägungen müssen nicht in eine Reihenfolge gebracht
werden
- Metrische Operationen sind NICHT für Ordinalskalen zulässig und
odinalskalierte Operationen (Rangfolge) sind NICHT zulässig für
nominalskalierte Operationen (keine Rangfolge) . Dagegen sind
ordinale Operationen auch für metrische zulässig. Metrische
Operationen können Differenzen in den Merkmalsausprägungen
aufweisen, wohingegen ordinalskalierte Operationen keine
Differenzen inne haben.
-
-
-
-
Bsp nominal: „Bei einer Wahl gewählte Partei.“ Partei = Kategorie ohne
Rangordnung oder „Art der Heizung- Gas, Kohle etc.“ keine Rangordnung
Bildungsstand zum Beispiel ist mit Rangordnung (ohne Abschluss, HS, RS,
Gymnasium etc.), daher ORDINAL
Stetiges Merkmal: z.B. Gewicht einer Person
Diskretes Merkmal: Art der Heizung, Zählvariable, z.B. Anzahl der gemeldeten
EHEC-Fälle März 2011, Bildungsstand
Metrisch= Entfernung zwischen Firma und zu Hause; Gewicht einer Person
Nominal= Transportmittel von zu Hause bis zur Arbeit(PKW, Fahrrad)
Quantitative Merkmale= metrisch
Qualitative Merkmale= sowohl ordinal als auch nominal möglich
Sowohl bei ordinal als auch bei nominal ist die Bildung von Differenzen NICHT
möglich
Realdefinition: behaltet Aussage über Eigenschaften eines Gegenstandes oder
Sachverhaltes, also umfasst NICHT ALLE Eigenschaften des Definiendums). Die
Realdefinition kann falsch oder unvollständig sein.
Nominaldefinition: der Gegenstand (Definiendum) wird durch anderen
Gegenstand (Definiens) erklärt, also ist eine Worterklärung mit gleicher
Begriffsbedeutung. Die Nominaldefinition kann NICHT falsch sein.
Beide Definitionen sind NICHT NUR entweder richtig oder falsch
9
Bettina Kietzmann 1D(neu) Februar 2013
Tabelle:
NOMINAL (Kategorie)
Spezialfall: dichotome Skala
ORDINAL (Rang)
METRISCH
Intervall Ratio/Verhältnis
(Sonderfall:
Absolutskala)
stetig- unendliche Werte und
beliebige Zwischenwerte
Verhältnis zwischen
Objekten ist größer oder
kleiner, also Abstände sind
größer-kleiner
diskret- beliebe Werte aber keine unendlichen
Zwischenwerte
Objekte =gleich oder
Verhältnis zwischen
Objekten ist größer-kleiner;
ungleich
besser-schlechter ,
Likertskala: gut-mittelschlecht
Bsp: Geschlecht, Partei,
Beispiel: Temperatur in
Temperatur Kelvin, Zeit,
Muttersprache, Farbe, PLZ,, Grad, Datum, Zieleinlauf von Anzahl, länge, Gewicht,
derzeitiger soz. Status,
Läufern, Zeitdruck-ja/nein,
Einkommen, Schuljahre,
Berufsbezeichnung, Glück
Likertskala=
Stundenanzahl für
durch allein leben oder
Wettkampfplatzierung
Mathe/Woche
Familie?
Bsp. für beide: Schulnoten
Zunahme an Informationsgehalt
8. Datenerhebung, Experiment und Stichprobenverfahren
 Befragung: Filterfragen bilden Untergruppen mit speziellen Fragen
 Fragebögen: es kann passieren, dass eine Frage die Antwort der nächsten
Frage beeinflusst (=Halo-Effekt)
 Messen theoretischer Konstrukte (Erfolg, Zufriedenheit) werden mit
beobachtbaren Konstrukten VERKNÜPFT, das heißt Handlungsanweisungen
für Datengewinnung werden spezifiziert (=Operationalisierung)
 Random Route es werden KEINE Namens- und Adressdaten verwendet; es
werden Haushalte durch einen Interviewer befragt, dabei ist der Startpunkt im
Interview zufällig gewählt und alle weiteren Schritte sind dem Interviewer
vorgegeben
 Personenexperiment- 2 Gruppen: 1. Versuchsgruppe (Einflussgrößen werden
planmäßig verändert (=Treatment) 2. Kontrollgruppe (bei dieser werden die
Einflussgrößen NICHT planmäßig verändert = Treatment) QuasiExperiment= wenn die Zuordnung in beide Gruppen NICHT zufällig erfolgt!
 Nicht-reaktive Datengewinnung= verdeckte Erfassung und Auswertung (z.B.
DeStatis, Logfile-Analysen) DeStatis (statistisches Bundesamt) erfasst
automatisiert die Nutzungshäufigkeit von DeStatis-Datenangeboten zu
verschiedenen Themen, um Verhalten des Nutzer zu verfolgen/auszuwerten
 Undercoverage= Fehler in Stichprobenbasierten Datenerhebungen; wenn nicht
alle Elemente der Population, die aus einer Stichprobe gezogen wird,
10
Bettina Kietzmann 1D(neu) Februar 2013













berücksichtigt werden, also Objekte gehören zur Grundgesamtheit, aber nicht
zur Auswahlgesamtheit
Overcoverage- Objekte gehören zur Auswahlgesamtheit, aber nicht zur
Grundgesamtheit; - Es werden Elemente ausgewählt, die nicht die
gewünschten Eigenschaften aufweisen
Wenn allgemeine Bevölkerungsumfrage durch freiwillige Befragung oder
offene Online-Befragung, können systematisch verzerrte Ergebnisse
aufkommen
Beispiel: Befragung von Schülern in Hauptschulen Deutschlands
Auswahleinheit= Hauptschulen in Dtl.; Erhebungseinheit= Schüler, die
befragt werden (stichprobenartig)
Gütekriterien für Messungen: OBJEKTIVITÄT, INTERSUBJEKTIVITÄT,
VALIDITÄT, RELIABILITÄT
Validität: „Wird wirklich DAS gemessen, was gemessen werden SOLL?“
Reliabilität: „Inwieweit liefert Messinstrument bei wiederholter Messung
gleiche Ergebnisse (Messwerte)?“
Aus der Reliabilität einer Messung folgt NICHT gleich deren Validität
Aus der Validität folgt stets auch die Reliabilität
Klumpenauswahl: 2 stufiger Auswahlprozess 1. Zufällig gewählte
Teilmenge der Grundgesamtheit 2. ALLE Elemente eines Klumpens
(Teilmenge)- nicht Untersuchungseinheiten!!!
Geschichtete Stichprobenauswahl - allgemein: Prozentsatz kann
grundsätzlich variieren
Geschichtete Stichprobenauswahl- proportional: hat festen Prozentsatz
(muss gleich sein) von Stichprobenelementen
Stichprobenauswahl mit proportionaler Schichtung 1. Grundgesamtheit
wird in Teilpopulationen zerlegt 2. Zufallsstichprobe aus dieser Teilpopulation
Quotenauswahlverfahren: 2stufiges Stichprobenverfahren zur Gewinnung
einer Stichprobe = zufallsgesteuert, d.h. 2. Stufe: systematische (kein Zufall)
Auswahl der Stichprobenelemente
Zusatz: dichotomisiert= 1. Aus vielen Variablen 2 machen (ordinal 
nominal) 2. Z-Werte, Normierung
Binnendifferenzierung= z.B. methodische Maßnahmen für Verbesserung und
Gestaltung Unterricht; zusammengesetzt aus logischen Operatoren;
Operationalisierung samt innerer und äußerer Differenzierungen
11
Bettina Kietzmann 1D(neu) Februar 2013
9. Schätzen von Modellparametern (Punkt- und Intervallschätzung)




Die Stichprobenfunktion (bzw. Varianz s²) liefert eine VERZERRTE (nicht
übereinstimmende) Schätzung für die Varianz σ² man kann auch sagen,
dass man die Summe der quadratischen Abweichung bildet und mit n dividiert
= verzerrte Schätzung der Varianz
Stichprobenfunktion: X = 1. Stichprobenmittelwert 2. Stichprobenvarianz s²
Wenn der Erwartungswert anhand des Mittelwertes der
Stichprobenfunktion geschätzt wird ist dies UNVERZERRT (E( ) = μ FS
S.20) übereinstimmend)dann stimmt auch MSE (mittlere quadratische
Abweichung) mit Varianz überein (MSE=V(X)). Man kann auch sagen,
wenn man die Summe der MSE bildet und dann mit n dividiert, erhält man
eine verzerrte Schätzung für die Varianz.(unverzerrt= korrigierte Varianz
FS S.3)
Der Erwartungswert kann durch ein Konfidenzintervall geschätzt werden; die
Grenzen der Intervallschätzung sind ZUFALLSABÄNGIG
Bsp. Würfel: Mittelwert und Erwartungswert stimmen überein= unverzerrt,
ebenso stimmt auch der MSE mit Varianz überein.
Normalverteilung= Gaußglocke (Grafik Quelle: http://www.rouletteportal.org/showwiki.php?title=Normalverteilung 10.2.2013 12:37 Uhr)
Korrigierte Varianz: Wenn man quadrierten Abweichungen aufsummiert und durch n-1 teilt,
ist dies eine unverzerrte Schätzung für die Varianz von X. Formelsammlung S.21
12
Bettina Kietzmann 1D(neu) Februar 2013
Konfidenzintervall (Grafik Quelle: http://eswf.uni-koeln.de/lehre/stathome/statcalc/v2202.htm
10.2.2013 12:40Uhr)
SymmetrischSpiegel
Erwartungswert μ
liegt „irgendwo im
Konfidenzitervall
ODER in α
Konfidenzintervall
α (auch:Fehler)


Je größer α, desto kleiner wird das Konfindenzintervall und umgekehrt.
Die Varianz vom Mittelwert geht, bei Verdopplung n, auf die Hälfte zurück.
(Nicht auf ein Viertel!) FS S.20 unten V(

Bei Verdopplung n, nimmt Varianz um Faktor und die Standardabweichung
um
10.
=
=
ab.
Kombinatorik- diskrete Verteilung (Binomialverteilung/-koeffizient, Bernoulli)
Bernoulli-Experiment (-prozess): zufällig, 2 Versuchsausgänge
-der Erwartungswert berechnet sich durch n*p (p= Eintrittswahrscheinlichkeit)
Binomialverteilt= diskrete Wahrscheinlichkeitsverteilung; beschreibt die Anzahl/Folge
von gleichen, unabhängigen Versuchen (z.B. einer Münze), die je genau 2 mögliche
Ausgänge haben.
Bei einem Münzwurf ist X binomialverteilt mit n und p.
Varianz (X)- σ²= n*p(1-p)= (NICHT ) ; q berechnet sich durch 1-p ; q und p sind
Eintrittswahrscheinlichkeiten.
Die Eintrittswahrscheinlichkeit p für z.B. Kopf kann man anhand Mittelwert X schätzen.
Varianz der Wahrscheinlichkeit (p und q)=
Würfe.
– bei fairen Münze:
; n= Anzahl der
13
Bettina Kietzmann 1D(neu) Februar 2013
 Erwartungswert n*p für Binomialverteilung z.B. wenn man wissen möchte wie die
Wahrscheinlichkeit bei 9 mal werfen mit zwei Würfeln ist, dass ich eine 1 oder eine 2
habeman hat das Komplementärereignis A-Strich und A (2 mögliche Ausgänge)-davon
interessieren uns nur die ersten beiden Augenzahlen, also = =p und die Anzahl der Würfe
n=9E(X) =n*p wäre in diesem Falle 3.
Weiteres Beispiel September 2011 POL/SOZ Aufgabe 11 A:
Gegeben: faire Münze (Eintrittswahrscheinlichkeit p= 0,5) wird n= 8mal geworfen
X ist das Ereignis Zahl zu werfen.
Gesucht ist die Wahrscheinlichkeit mindestens 4 mal eine Zahl zu werfen.
Vorgehen: P (X
) – das heißt, ich berechne die Wahrscheinlichkeit für 4,5,6,7,8 dies
impliziert zu viele Rechenschritte, daher arbeitet man mit der
Komplementärwahrscheinlichkeit
P (X
, also 1,2,3.
1. Schritt: Komplementärwahrscheinlichkeit berechnen über die Verteilungsfunktion
F(X)= binomialverteilt mit n=8; p=0,5 und k=3 (also über die Trägermenge k =0,1,2,3
mal eine Zahl zu werfen).
2. F(X)=
) *
3. F(3)=
) *
*
*
= 0,3633 = die
Komplementärwahrscheinlichkeit
4. Nun ziehen wir die Komplementärwahrscheinlichkeit von 1 ab, also 1- 0,3633=
0,6367
= P (X
Kleiner Zusatz: Der Taschenrechner berechnet uns den Binomialkoeffizient
) - hier
die Formel:
) =
ein: n Shift ÷ k
 in den Taschenrechner gibt man
) folgendermaßen
14
Bettina Kietzmann 1D(neu) Februar 2013
11.
Konzentrationsmessung (Lorenzkurve, Gini-Koeffizient)
Beispiel September 2011 POL/SOZ Aufgabe 7



Aktien Gesamtwert 20 Mio – verteilt auf 4 Aktionäre
Verteilung muss geordnet werden, also Aktionär1: 10%=2Mio; Aktionär2
25%=5Mio; Aktionär3 25%=5Mio; Aktionär4 40%=8Mio
Muss aufsummiert werden: y-Achse:0,1+0,25+0,25+0,4=1;
x-Achse: 100÷4+100÷4+100÷4+100÷4 (da 4 Aktionäre muss die x-Achse in 4 Teile
Berechnung der Punkte auf der blauen Linie: 1. 2/20; 2. 2+5/20 (das ist der Anteil, den
der erste und zweite Aktionär am Gesamtwert von 20 Mio. besitzen); 3. 2+5+5/20; 4.
2+5+5+8/20 (das ist immer eins, (denn das ist der Gesamtwert von 20 Mio.)
1
0,8
0,6
D…
D…
0,4
0,2
0
0
0,25



0,5
0,75
1
Je weiter die Lorenzkurve „ausstrahlt“, desto ungleicher sind die Daten
verteilt.
Die Lorenzkurve gibt an, wie viel % Aktionär1 v1 (0,25; 0,1) an gesamten
Aktien besitzt
v 3 (0,75;0,6) zeigt an, inwieweit die ersten 3 Aktionäre am Gesamtwert
beteiligt sind
Gini-Koeffizient= unnormiert  es existiert eine obere Schranke mit 0,75 ,
also 0 ≤ G ≤
=0,75 für n=4 (ist IMMER so definiert)  also, wenn alle blauen
Punkte auf der roten Geraden liegen ist G= 0, da es keine Abweichung gibt. Für n= 3 wäre der
G= 0,66.
15
Bettina Kietzmann 1D(neu) Februar 2013
Unterschied zwischen normiertem und unnormiertem Gini-Koeffizient:
Unnormiert G
q =59 (1*2+2*5+3*5+4*8)
p =20 (2+5+5+8)
G=
G= 0,225
Normierter G* : G*=
* G (dafür benötigt man auch den unnormierten Gini-
Koeffizienten!)
G*= * 0,225
G*= 0,3
Herfindahl- Index (Alternative zum Gini-Koeffizienten):
H:=
)²=
*
H
 es gilt:
 i= Laufvariable, nicht Multiplizieren!
(der Taschenrechner erkennt allerdings nicht, was X ist. Daher PER HAND aufsummieren!)
Beispiel für gegebene Werte:
H:=
* (2²+ 5²+ 5²+ 8²)= 0,295
Verdoppelt man xi, also in unserem Beispiel 2, 5, 5, 8, so verändern sich
beide Gini-Koeffizienten NICHT!
In der Klausur März 2011 POL/SOZ Aufgabe 11 Nummer C ist der SINN des
Gini-Koeffizienten erläutert: „Der Gini-Koeffizient liefert Aussagen des Typs
„x% der Merkmalsträger teilen sich y% der Merkmalssumme.“
16
Bettina Kietzmann 1D(neu) Februar 2013
12.
Zusammenhangsmessung/ Regressions- und Varianzanalyse
Empirische Zusammenhänge sind durch Beobachtungen errechenbar; theoretische
Zusammenhangsmaße gelten für Zufallsvariablen.
Der Korrelationskoeffizient r (Brevais Pearson) misst die Stärke eines linearen
Zusammenhangs zwischen 2 Merkmalen X und Y und ist auf metrisch skalierte Daten
anwendbar.
Anforderungen an die Zusammenhangsmessung („Wie ist der Zusammenhang einer Zahl?
Beispiel: Je größer Einkommen, desto größer Konsum.“) die empirische Verteilung wird
durch den Korrelationskoeffizienten Bravais Pearsons beschrieben)
1. Lineare /nicht lineare Korrelation
Linear
Nicht linear:
17
Bettina Kietzmann 1D(neu) Februar 2013
2. Positive (je größer X desto größer Y) und negative (je größer X desto kleiner Y)
Korrelation
r<0 je größer desto kleiner
r>0 je größer desto größer
3. Stärke einer Korrelation- je größer r desto größer Zusammenhang:
c)hohe Korrelation
a) niedrige Korrelation
-
C) = hohe/starke Korrelation, also gen Wert 1 das heißt allerdings nicht, dass
zwingend eine sachlogische Verbindung besteht, z.B. „Die
Sonnenfleckenintensität hat Einfluss auf das wirtschaftliche Wachstum.“ 
korreliert stark, heißt ABER nicht, dass Verbindung besteht…
4. Der Wertebereich liegt bei -1≤r≤1
ra=1
steigende Gerade
ra ~0 (in dem Falle ist NICHT ausgeschlossen (kann, aber muss nicht), dass
zwischen beiden Merkmalen ein nicht linearer Zusammenhang besteht; ist r = 0 ist
von einem linearen Zusammenhang auszugehen.
18
Bettina Kietzmann 1D(neu) Februar 2013
ra=-1
fallende Gerade
Die Kovarianz ist NICHT das Zusammenhangsmaß, welches NUR Werte zwischen -1
und 1 annimmt denn das ist die NORMIERUNG der Kovarianz- diese liegt
zwischen -1 und 1.
Den Korrelationskoeffizienten berechnet man durch:
r:=
Kovarianz-cov:
sxy= Cov = *
Beispiel Klausur September 2011 Aufgabe 14
Nummer A: Werte sind vorgegeben außer die Standardabweichung, allerdings muss
man nur noch die Wurzel aus der Varianz ziehen. Der Korrelationskoeffizient beträgt
demnach 0, 835. Nun kann man eine Aussage über diesen treffen: stark positive
Korrelation.
B: lineares Regressionsmodell
y i= β*x + αi + u i  siehe Formelsammlung Seite 27
= eine Funktion für eine Gerade (Linearfunktion)
Manche kennen vielleicht aus der Schule: y=m*x+n
m= Anstieg = β
n= Schnittpunkt mit der Y-Achse= α
Und x ist x ;)
19
Bettina Kietzmann 1D(neu) Februar 2013
ui= Residuum*
* (ui= Stör-Term/-variable= Residuum)
Berechnung des Residuums: ui Dach = yi - yi Dach=yi - αDach – ßDach*xi
Nr. 14: Beispiel : u1 Dach = y1 – y1 Dach = y1 - αDach – ßDach*x1
=2,5 -0,15- 0,80 * 2,7 = 0,19
Wenn die Kovarianz negativ ist und die Varianz positiv ist (ist sie
IMMER) die Gerade FALLEND, da ßDach negativ ist. Wenn die
Kovarianz und demzufolge ßDach positiv sind, ist die Gerade
steigend. Wenn die Cov negativ ist, dann ist ß negativ,- die Varianz
als quadrierte Zahl ist immer positiv.
Regressionskoeffizient:
Regressionsgerade und wenn
αDach= y * x
= sxy ÷ sx² wenn (bzw. Dach) >0 dann steigende
<0 dann fallend.
Achtung: die Werte sind alle gegeben! Keine Panik ;)
20
Bettina Kietzmann 1D(neu) Februar 2013
Für die Methode der kleinsten Quadrate braucht man αDach und ßDach  Seite 27
Formelsammlung. Das sind alles nur geschätzte Werte, keine wahren Werte!
R²= Bestimmtheits- bzw. Gütemaß hat Definitionsbereich 0≤R²≤1 beurteilt, ob die
Regressionsgerade, die ich berechnet habe eine „gute“ oder „schlechte“ Anpassung an
den gegebenen Datensatz haben.
Fakt ist, dass versucht wird, die Abweichung der Regressionsgerade möglichst gering
zu halten-  die Summe der quadrierten Residuen wird versucht gering zu halten. Bei
Null würden alle Daten des Datensatzes auf der Regressionsgeraden liegen und das ist
sehr selten der Fall.
Wenn R²=0 schließt nicht aus, dass zwischen X und Y ein nicht-linearer
Zusammenhang besteht.
R² (=Gütemaß)=r² (Korrelationskoeffizient ins Quadrat) Unterschied= dass r auch
negative Werte annehmen kann. 0≤R²≤1 und -1≤r≤1.
R²=
= s²yDach ÷ s²y = 1 – s²uDach ÷ s²y=
= r²
(Formelsammlung Seite 29)
Das Bestimmtheitsmaß bzw Gütemaß, z.B. 0,45 gibt an, dass 45% der
Gesamtvariation des Datensatzes durch das Regressionsmodell erklärt ist. Würde R²
beispielsweise 0,9 sein, dann bedeutet dies, dass 90% der Gesamtvariation des
Datensatzes durch das Regressionsmodell erklärt ist. Würde in einer Aufgabe stehen,
dass R² = 0,9 und dieser 65% der Gesamtvariation des Datensatzes durch das
Regressionsmodell erklärt, wäre dies FALSCH.
Beispiel März 2011 POL/SOZ Aufgabe 15 Nummer B.
R²=
= 0,1075
Lernsache bzw. Formelsammlung Seite 30: Die unabhängige Variable ist diskret und die
abhängige (Responsevariable) ist stetig.
13. Testen, Gauß-Test; Fehler beim Testen, Gütefunktion
Formelsammlung Seite 22.
Dazu findet ihr eine Grunderklärung meinerseits in einer weiteren Datei in diesem Artikel namens
Gauß-Test, mit sehr guter und vornehmlicher Hilfe dieses Linkes:
http://www.fernstudi.net/blogs/null-und-alternativhypothese-gauss-test
Numerische Aufgaben folgen in einer seperaten Datei.
21
Bettina Kietzmann 1D(neu) Februar 2013
Herunterladen