Statistik – Formelsammlung

Werbung
Statistik – Formelsammlung
© by Nico S. Beck – WS 01/02
1. Variabelenbezeichnungen, Formeln
N
hi
Statistische Einheiten
Absolute (Klassen-) Häufigkeit
fi
Hi
Fi
xi
xiu
xio
Relative (Klassen-) Häufigkeit
Absolute Summenhäufigkeit
Relative Summenhäufigkeit
Merkmalsausprägung
Untere Klassengrenze
Obere Klassengrenze
Klassenbreite
Klassenanzahl
 xi
k
h j
Spaltensumme
Beschreibung / Formel
Anzahl der statistischen Einheiten
Wie oft kommt eine Merkmalsausprägung in der GG vor.
Beispiel
20 Studenten
6 Mi’s im 2
Sem.
0,23
23; 51; …
0,10; 0,27; …
Rot, blau, …
1800,5
4950,5
200
100
Beschreibt den prozentualen Anteil einer Merkmalsauspr.
Aufsummierung aller hi (ab ordinalskalierten Merkmalen)
Aufsummierung aller fi (ab ordinalskalierten Merkmalen)
Eines der Ausprägungen der Wertebereichs des Merkmals
Untere Grenze einer Klasse
Obere Grenze einer Klasse
Klassenober- - Klassenuntergrenze
25<= N <= 400:
k  N ; 25<= N <= 8000: k  3 N
Absolute Häufigkeit der Ausprägungen h j 
r

hij
i
m
hi
Zeilensumme
hij
fij
Absolute Randhäufigkeit
Relative Häufigkeit
Quantil
Zeilen- und Spaltensummen werden addiert
fij = hij / N -> Anzahl der relativen Häufigkeiten
siehe „Begriffe und Erklärungen“
xmod
xme
Modus (Modalwert)
Median (Zentralwert)

Aus 2, 3, 4, 5, 6, 3 ist Modus = 3
Aus 1, 2, 3, 4, 5 ist Median der Wert 3, aus
1, 2, 3, 4 ist der Median 2,5.
Arithmetisches Mittel
Absolute Häufigkeit der Ausprägungen
hi   hij
j
x '

W
Gewichtetes arithm. Mittel
(mü)

1 N
  xi
N i 1
k
aus Häufigkeitstabelle:
Harmonisches Mittel
k
 W   wi xi
H
und
Geometrisches Mittel
w
i 1
i
1
wi ist das Gewicht
N
N
1
x
i 1
G
   f i xi
i 1
k
i 1
H
0,5
Gn
i
n
x
i
i 1
MAc
Mittlerer Abstand

Varianz
(sigma)
N
MAc  (1 / N )   xi  c
i 1
2
k
MAc   ( f i  xi  c )
i 1
N
 2  (1 / N )   ( xi   ) 2
i 1
oder aus absoluter bzw. relativer. Häufigkeit:
k
 2   ( f i xi 2 )   2
i 1

Standardabweichung
(sigma)
N
   ((1 / N )   ( xi   ) 2 )
i 1
VC
Variationskoeffizient
VC   / 
mr(c)
Momente
mr (c)  (1 / N )   ( x j  c) r mit r = 1, 2, 3, …
m1(0)
m2(  )
SM
Moment 1. Ordnung
Moment 2. Ordnung
Schiefmaß
Entspricht dem arithmetischen Mittel
Entspricht der Varianz
N
j 1
SM  m3
W
Wölbung (Exzess)
w
Rs
3
m4 (  )
3
Rangkorrelationskoeffizient
nach Spearman
  0  linksschie fe

SM  0  symmetrische Verteilung
  0  rechtsschiefe

( )
  0  breitbrüst ige

w 0  normalbrüstige Verteilung
 0  schmalbrüstige

3
N
Rs  1 
6   (ri  r 'i ) 2
i 1
N ( N 2  1)
  1  ri  r 'i füri

Rs  1  ri  N  1  r 'i
  0  kein _ Trend

-1 <= Rs <= 1
ri sind Rangnummern von xi und r’i von yi
COV
Empirische Kovarianz
N
COV  (1 / N )   ( xi   x )( yi   y )
i 1
wenn aus Häufigkeitstabelle:
r
l
COV  (1 / N )   ( xi   x )( y j   y )  fij
i 1 j 1
r
Einfacher Korrelationskoeffizient
COV > 0 -> Es existiert ein positiver Zusammenhang. Die Beobachtungs
paaren liegen überwiegend im I. und III. Quadranten.
COV < 0 -> Es existiert ein negativer Zusammenhang. Die Beobachtungs
paaren liegen überwiegend im II. und IV. Quadranten.
COV > 0 -> Die Merkmale sind unkorreliert.
…
r = 1 starker positiver Zusammenhang
r > 0 positive Korrelation
r = 0 kein Zusammenhang / keine Korrelation
r < 0 negative Korrelation
r = 1 starker negativer Zusammenhang
2. Diagramme und Darstellungen
Bezeichnung
Histogramm
Häufigkeitspolynom
Kreisdiagramm
Summenhäufigkeit
Streudiagramm
Erklärung:
Oder auch Säulendiagramm. Häufigkeiten werden
durch Flächen dargestellt
Entsteht durch Verbinden der oberen Punkte der
Stäbe der Stabdiagramme (Histogramme etc.)
Zu jeder Merkmalsausprägung wird ein
Kreissektor gebildet. Sektorfläche ist proportional
zu den Häufigkeiten (Besonders gut bei
nominalskalierten Merkmalen)
Graphische Darstellung der Summenhäufigkeiten
Punktwolke im Koordinatensystem
Abszisse
Körpergröße in cm
Ordinate
hi
Körpergröße in cm
hi
-
-
Länge in m
Körpergröße in m
fi
Körpergewicht in kg
3. Begriffe und Erklärungen
Nominalskala
Ordinalskala
Rangskala
Metrische Skala
Intervallskala
Verhältnisskala
Erhebungen
Teilerhebung
Vollerhebung
Sekundärstatistische Unters.
Primärstatistische Unters.
Grundgesamtheit
Merkmalsträger
Merkmal
(statistisches Merkmal)
Merkmalsausprägung
Wertebereich
Stetige Merkmale
Diskrete Merkmale
Dichotome Merkmale
Eindimensionale Merkmale
Mehrdimensionale Merkmale
Quantil (  -Quantil)
Ohne Ordnungsbeziehung (z. B. Farbskala, Geschlecht, Religionszugehörigkeit)
Mit Ordnungsbeziehung aber ohne Abstandsquantifizierung (Schulnoten)
Ordinalskala aber beginnend mit i = 1
Mit Ordnungsbeziehung und Abstandsquantifizierung (Längenangaben)
Metrisch – Skalennullpunkt willkürlich, Quotientenbildung unsinnig (Temperatur)
Metrisch – absoluter Skalennullpunkt, Quotientenbildung sinnvoll (Alter, Größe)
Beschaffen von Daten zur Auswertung durch: schriftliche oder mündliche Befragung,
Experiment, Beobachtung, automatische Erfassung (Kassensysteme etc.)
Beispiel: Bei einer Umfrage auf der Straße wird nicht jeder Mensch befragt.
Beispiel: Durch eine Kasse werden alle verkauften Artikel registriert
Vorhandenes Datenmaterial wird genutzt
Daten müssen erst Erhoben werden (siehe Erhebung)
Endlich oder Unendlich, sowie real oder hypothetisch. Die Grundgesamtheit muss
räumlich, zeitlich und sachlich abgrenzbar sein.
Die statistische Einheit, die die Merkmale besitzt. (z. B. „Auto“)
Eigenschaften einer statistischen Einheit, für die man sich bei einer Untersuchung
interessiert. (z. B. die „Art“ des Autos)
Daten, die erhoben werden und statistisch Analysiert. (z.B. „Benziner oder Diesel“)
Wird nach verschiedenen Gesichtspunkten klassifiziert: Skalen, Stetigkeit, Dimension
(bei metrisch skalierten M.) Ausprägung kann Werte aus einen Intervall annehmen, die
nur beliebig genau, jedoch nie 100% erfasst werden können. (Länge, Zeit, Gewicht)
(bei metrisch skalierten M.) Praktisch ist nur das ganzzahlige Vielfache eines kleinsten
Messintervalls messbar (Geldbeträge (kleiner als Pfennig gibt es nicht))
Diskrete Merkmale mit nur zwei Merkmalsausprägungen
Merkmalsausprägung kann durch eine einzige Angabe charakterisiert werden (Zeit…)
Zur eindeutigen Charakterisierung sind k Angaben notwendig (Vektor (x, y, z)...)
Ein wird durch zwei gleichwertige Eigenschaften definiert:
(1) min. 100 *  % der Werte sind <= x ' und min. 100 * (1-  ) % sind >= x '
(2) max. 100 *
Median
Quartil
Dezil
Percentil
Anteilswerte
Modus (Modalwert)
Lageparameter
Median (Zentralwert)
Arithmetisches Mittel
Gewichtetes arithm. Mittel
(gewogenes)
Gesamtmittelwert
Harmonisches Mittel
Geometrisches Mittel
 % der Werte sind < x ' und max. 100 * (1-  ) % sind > x '
0,5 Quantil (siehe erneut weiter unten)
Das Quartil ist ein (1/4)-Quantil mit i = 1, 2, 3, 4. Somit entspricht das 1. Quartil dem
0,25 Quantil und das 3. Quartil dem 0,75 Quantil usw.
Wir Quartil jedoch mit i = 1, 2, …, 10. Das 1. Dezil entspricht dem 0,10 Quantil usw.
Wie Quartil jedoch mit i = 1, 2, …, 100. Das 1. Perc. entspricht dem 0,01 Quantil usw.
Zur Berechnung der zugehörigen Quantils durch Angabe eines Wertes:
25 Zahlen, 22 sind kleines als 4,5 und 3 sind größer. 22/25 => 88%-Quantil
Ist die Merkmalsausprägung, die am häufigsten vorkommt. Für nominalskalierte
Merkmale ist der Modus der einzig sinnvolle Lageparameter.
Stehen die Werte in einer <=Beziehung, dann ist der Median x me die MerkmalsAusprägung desjenigen Elementes, welches in einer geordneten Beobachtungsreihe in
der Mitte steht. Mindestens ordinalskalierte Merkmale. Medien braucht nicht
Element der Beobachtungsreihe zu sein. Beispiel xme=3,5 mit 1, 2, 3, 4, 5, 6
Damit ist der „Mittelwert“ oder der „Durchschnitt“ gemeint und sollte mindestens nur
für intervalskalierte Merkmale berechnet werden. Der Mittelwert ist sehr empfindlich
gegenüber Ausreißern.
…
Ist gleich mit dem gewichteten arith. Mittel der k Einzelelemente
i . Die Gewichte
sind proportional zu den einzelnen Umfängen.
Sinnvoll anwendbar zur Berechnung des Durchschnitts, wenn das Merkmal als
Quotient definiert ist und der Zähler des Quotienten und die Häufigkeit auf dieselbe
Größe bezogen sind. (für verhältnisskalierte Merkmale, welche alle entweder positiv
oder negativ sein müssen)
Es geht um die Mittlung relativer Verhältnisse. Ist Sinnvoll anwendbar, wenn die
zugrunde liegende Häufigkeitsfunktion einer geometrischen Zahlenfolge entspricht.
Durchschnittliche, prozentuale Entwicklung einer wirtschaftlichen Größe (Gewinn,
Kapital, Aktienkurs, Preis). Ausprägungen müssen alle positiv sein und Merkmale
Spannweite (Range) R
Quartilsabstand
Quantilsabstand
Mittlerer Abstand
Varianz
Standardabweichung
Variationskoeffizient
Momente
Schiefmaß
Wölbung (Exzess)
Korrelation
Korrelationskoeffizient
Regressionsanalyse
Chi-Quadrat
Phi-Koeffizient
Kontingenzkoeffizient nach
Pearson
Rangkorrelationskoeffizient
nach Spearman
Empirische Kovarianz
Einfacher Korrelationskoeffizient
verhältnisskaliert.
Gibt den Abstand zwischen größten und kleinsten Beobachtungswert an. (Bei
klassierten Datenmaterial werden u. U. die einzelnen Grenzen betrachtet)
Differenz zwischen 75% und 25% Quartil (Umfasst also 50%)
Differenz zwischen zwei Quantilen
Gibt die Absolute Abweichung der Beobachtungswerte von einem Zahlenwert c an.
… Die Dimension der Varianz ist das Quadrat der Dimension der Beobachtungswerte.
Ist die Wurzel aus der Varianz.
Ist ein relatives Streuungsmaß. Er kann als Streuungsmaß zum Vergleich zweier
Verteilungen mit stark voneinander unterschiedlichen Mittelwerten benutzt werden.
Sinnvoll nur für positive verhältnisskalierte Merkmale.
Dienen der einheitlichen Beschreibung von Verteilungen. Momente bezüglich dem
Wert c=0 (1. Ordnung = arithm. Mittel) werden gewöhnliche und bezüglich dem Wert
c=  (2. Ordnung = Varianz) zentrale Momente genannt.
Zentrale Momente ungerader Ordnung eignen sich als Maß der Schiefe. Je größer SM,
desto schiefer ist die Verteilung.
Ist als ein Maß für die Wölbung einer symmetrischen Verteilung zu benutzen.
w vergleicht die Wölbung einer Verteilung mit der einer Normalverteilung.
Abhängigkeit zwischen Merkmalen. Ermittlung durch Korrelationsanalyse.
Gibt die Stärke des Zusammenhangs an. 0 = kein, 1 = vollständiger Zusammenhang.
Versuch, den Zusammenhang in funktionaler Form zu beschreiben: Die Stärke und der
Typ des Zusammenhangs sowie eine mathematische Funktion, die den ZusammenHang möglichst gut beschreibt.
Zur Berechnung zweier Merkmale durch quadratische Kontingenz. 0 = keine
Abhängigkeit;
Ist nur für quadratische Kontingenztafeln zu benutzen. Man berücksichtigt hier die
Grundgesamtheit. Wenn 0 dann Unabhängigkeit, wenn = r-1 dann volle Abh.
Basiert auf Chi-Quadrat. Ist aber eine normierte Größe von Chi-Quadrat.
Ckorr = 0 bei Unabhängigkeit und Ckorr = 1 bei Abhängigkeit.
Der Spearman’sche Rangkorrelationskoeffizient ist ein Maß für den Zusammenhang in
der Rangfolge der Beobachteten Merkmalswerte. Für ordinalskalierte Merkmale.
Eine Fläche wird berechnet…
Wertebereich von minus bis plus Unendlich!
Ist ein Maß für die Linearität eines Zusammenhangs zwischen zwei Merkmalen X und
Y.
Herunterladen