Angewandte Statistik ()

Werbung
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Angewandte Statistik
Deskriptive Statistik = Darstellung von Datenmaterial
- Charts, Plots, Maps, Timetables, ...
Schließende Statistik = Inferenzstat.
(aus Stickproben allgemein gültige Aussagen ableiten)
- Gültigkeit von Hypothesen und Vermutungen überprüfen
- statistische Modellbildung
Methoden:
1.
2.
3.
4.
5.
6.
Konfidenzintervalle
Statistische Tests
Korrelations- und Regressionsanalyse
Varianzanalyse
Zeitreihenanalyse
Clusteranalyse
Datengewinnung – Untersuchungseinheiten – Merkmal - Merkmalswert
 Merkmalswerte insgesamt = Daten
Stetige Merkmale (Continuous):
beliebiger Wert in einem Bereich möglich;
metrisches Merkmal;
Diskrete Merkmale:
nur endlich viele Werte in einem Bereich möglich;
nominale und ordinale Merkmale;
Population = Gesamtheit gleichartiger statistischer Objekte, die hinsichtlich eines
Merkmals untersucht werden;
Stichprobe = Auswahl von Untersuchungseinheiten aus der Grundgesamtheit
Repräsentativ = gesamte Inhomogenität der Grundgesamtheit muss in der Stichprobe
enthalten sein;
481341032
Page 1 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Nominalskala
Ordinalskala
Metrische- Kardinalsk.
=≠
Umbennenen, Permutation,
=≠<>
isotone oder rangerhaltende
Transformationen
Zeugnisnoten, Sozialstatus,
Produktgüteklassen, MercalliErdbebenskala,
Militärdienstgrad,
 rangskalierte Daten
=≠<>+-*/
Ähnlichkeitstransformationen,
y = a*x mit a > 0
Temperatur, geogr. Höhe,
Messungen in cm / g / sec,
Anzahlen, Alter, Kinderzahl,
Gewicht, Einkommen,
Familienstand, Geschlecht,
Postleitzahl,
Artikelbezeichnung,
Religionszugehörigkeit,
erlernter Beruf,
Vereinszugehörigkeit, …
Namen, Symbole, Codes
Ordinalzahlen
(i.d.R. ganze Zahlen)
 Median
kein Mittelwert !
keine Differenzen !
kein arithmetisches Mittel !
Modalwert (häufigster Wert) Median (Zentrum)
Schiefe (Skewness)
Modalwert (häufigster Wert)
Wölbung (Kurtosis)
Unteres Quantil Q0.25
Gipfelanzahl (ein / mehr)
Oberes Quantil Q0.75
Interquartilsdistanz (IQR 50%)
Minimum
Maximum
Range (Spannweite)
Schiefe (Skewness)
Wölbung (Kurtosis)
Gipfelanzahl (ein / mehr)
reelle Zahlen
(stetig oder diskret)
Präzessionsmaß festlegen
arithmetischer Mittelwert
`x = Summe xi / n
Median (Zentrum)
Modalwert (häufigster Wert)
Unteres Quantil Q0.25
Oberes Quantil Q0.75
Interquartilsdistanz (IQR 50%)
Minimum
Maximum
Range (Spannweite)
Standardabweichung s
Varianz s²
Schiefe (Skewness)
Wölbung (Kurtosis)
Gipfelanzahl (ein / mehr)
Variationskoeffizient (v =s / `x)
Describe / Categorical Data Describe / Numerical Data /
/ Tabulation
One-Variable-Analysis
Summenhäufigkeit:
Describe / Numerical Data
/ One-Variable-Analysis
481341032
Page 2 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Absolute Häufigkeit:
Summe (von j=1 bis k) über Hj = n
- Nachteil: ist nicht vergleichbar
Relative Häufigkeit:
-
hj = Hj / n
(Summe (von j=1 bis k) über Hj = 1)
= prozentualer Anteil der Untersuchungseinheiten
Nachteil: Gesamtmenge geht nicht hervor
Absolute Summenhäufigkeit: Summe (von i=1 bis j) über H(ai)
Relative Häufigkeit:
1 / n * (Summe (von i=1 bis j) über H(ai))
Empirische Verteilungsfunktion = Summenhäufigkeitsfunktion:
Sn(x) = 1 / n * (Summe (von i=1 bis j) über H(ai))
= (Summe (von i=1 bis j) über h(ai))
Anzahl
Fehler
0
1
2
3
4
5
Summe
Hj
7
6
3
1
1
2
20
hj =
h(aj)
0,35
0,30
0,15
0,05
0,05
0,10
1,00
Sn(x)
0,35
0,65
0,80
0,85
0,90
1,00
Sn(H)
7
13
16
17
18
20
KLASSENEINTEILUNG
-
-
alle Beobachtungswerte erfassen (auch Ausreißer) !
Klassengrenzen so wählen, dass Beobachtungswerte eindeutig den Klassen
zugeordnet werden können
Klassenmitte repräsentiert die übrigen Messwerte der Klasse
je kleiner die Klassenanzahl desto größer die Klassenbreite und desto größer der
Informationsverlust
Klassenbreite
d=R/k
k = Wurzel (n) 5 < k < 20
keine offenen Verteilungsenden
Klassenbreiten gleichlang
Nulllinie beachten (negative Klassen vermeiden)
Flächentreue =
481341032
Häufigkeit muss proportional zur Fläche des Rechteckes sein und
nicht zur Höhe
Page 3 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
HÄUFIGKEITSVERTEILUNG
Charakterisierung einer Häufigkeitsverteilung
LAGE
= charakterisiert das Zentrum und das Niveau einer Häufigkeitsverteilung;
Arithmetisches Mittel:
`x = (Summe i=1 bis n von (xi)) / n
 Mittelwert eines metrisch skalierten Merkmals
- empfindlich gegenüber Ausreißern
- nicht geeignet: mehrgipfelige und sehr schiefe HV
α – Quantile (Ordnungsstatistiken):
Qα
= xj
(wenn n-α keine ganze Zahl ist)
= (xj + x(j+1)) / 2
(wenn n-α ganze Zahl ist)
 metrische und ordinal skalierte Merkmale
- geordnete Datenmenge
nα Werte <= Qα , n(1-α) Werte >= Qα
- spezielle Quantile:
Median (Q0,5), Minimum (Q0), Maximum (Q1),
Unteres Quantil (Q0,25), Oberes Quantil (Q0,75)
Median:
= teilt die geordnete Datenreihe in zwei gleich große Teile
 metrische und ordinal skalierte Merkmale
x`
= x((n+1)/2)
wenn n ungerade
= (x(n/2) + x(n/2 +1))
wenn n gerade
- unempfindlich gegen Ausreißer
- nicht geeignet: mehrgipfelige und sehr schiefe HV
Modalwert:
x mod = häufigster Wert einer Beobachtungsreihe
 nominal skalierte Merkmale
- Klassenmitte der Klasse mit der größten Häufigkeit
- geeignet für: mehrgipfelige und sehr schiefe HV
STREUUNG
= Streuungsmaße / Dispersionsmaße: charakterisieren das Ausmaß der Abweichungen
vom Zentrum (Variabilität) einer HV;
Spannweite (Range):
= Differenz zwischen größtem (xmax) und kleinstem (xmin) Werte einer
Beobachtungsreihe:
R = xmax - xmin
 für metrisch und ordinal skalierte Merkmale
- stark durch Ausreißer beeinflusst
- verschiedene Beobachtungsreihen vergleichbar wenn St.P.umfang n gleich groß ist
481341032
Page 4 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Stichprobenvarianz (Varianz):
= mittlere quadratische Abweichung vom arithmetischen Mittel
s² = Summe (xi - `x)² / (n-1)
Standardabweichung:
s = Wurzel (s²)
 nur metrische Merkmale
- stark durch Ausreißer beeinflusst
- besser geeignet als Varianz zur Interpretation
- s hat gleiche Maßeinheit wie Beobachtungen
- Interpretation nur sinnvoll wenn `x bekannt ist (arithmetisches Mittel)
Interquartilsdistanz (Quartilsabstand):
= Differenz zwischen oberem (Q0,75) und unterem (Q0,25) Quartil
= Größe des Bereiches in dem ca. 50% aller Werte liegen
IQR = Q 0,75 – Q 0,25
 für metrisch und ordinal skalierte Merkmale
- nicht / kaum durch Ausreißer beeinflusst
- zum Vergleich der Variabilität verschiedener Beobachtungsreihen besser geeignet
als Range
Variationskoeffizient:
= Verhältnis von Standardabweichung zu arithmetischen Mittel
v = s / `x
 nur metrische Merkmale
- stark durch Ausreißer beeinflusst
- eignet sich zum Vergleich der Streuung von Merkmalen mit unterschiedlichen
Wertebereichen
- nur sinnvoll bei ausschließlich positiven Werten
- kann ohne Nennung von `x interpretiert werden
FORM
1.) eingipfelig (unimodal) oder mehrgipfelig (multimodal)
Schiefe (Unsymmetrie / Skewness):
sk = 0
sk < 0
sk > 0
symmetrisch
linksschiefer
rechtsschiefer
Mittelwert = Median = Modalwert
Mittelwert < Median < Modalwert
Mittelwert > Median > Modalwert
Wölbung (Steilheit, Kurtosis):
- Vergleich mit der Normalverteilung
- theoretische Wölbung einer NV = 0
kur = 0
normal
kur < 0
flachgipfelig
kur > 0
steilgipfelig
481341032
Page 5 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Grafische Darstellung
Histogramm:
Describe / Numeric Data / One-Variable-Analysis
Boxplot:
-
Darstellung der wesentlichen Charakteristika einer HV (Median, Q0,25, Q0,75, ...)
hoher Infogehalt
Identifikation von Ausreißern
Vergleich von Beobachtungsreihen
Bestimmung von Ausreißern:
Innen:
Q 0,25

Q 0,75
innere Eingrenzung:
Q 0,25 – 1,5 * IQR

Q 0,75 + 1,5 * IQR
äußere Eingrenzung: Q 0,25 – 3 * IQR

Q 0,75 + 3 * IQR
außerhalb:
 im Bereich äußere – innere Eingrenzung
weit außerhalb:
 außerhalb der äußeren Eingrenzung
Scatterplot (Streudiagramm):
-
zwei Stichprobenmengen
Describe / Numeric Data / Two-Variable-Analysis
Korrelationsanalyse – Lineare Korrelation
-
Grad des linearen Zusammenhangs zweier
metrisch skalierter Merkmale X und Y nach dem
Pearson`schen Korrelationskoeffizienten ( -1 <= r <= 1 )

r = Summe( (x-`x)*(y-`y) ) / ( (n-1)*s(x)*s(y) )
positiver Zusammenhang:
- r>0
- hohe Werte von X korrelieren mit hohen Werten von Y
- direkte Proportionalität
negativer Zusammenhang:
- r<0
- hohe Werte von X korrelieren mit niedrigen Werten von Y
- indirekte Proportionalität
unkorreliert:
- kein linearer Zusammenhang zwischen X und Y
- r~0
-
r nach Prüfung von Scatterplot nicht verwenden, wenn:
o nichtlinearer Zusammenhang vorzuliegen scheint
o potentielle Ausreißer Auswertung verfälschen könnten
o drittes relevantes Merkmal vorliegt
o eines der beiden Merkmale genau vorherbestimmt ist
Spearman`sche Rangkorrelation
481341032
Page 6 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Analyse einer Häufigkeitsverteilung:
Eine Stichprobenmenge:
Histogramm / Boxplot:
Describe / Numeric Data / One-Variable-Analysis
Zwei Stichprobenmengen:
Histogramm / Scatterplot:
481341032
Describe / Numeric Data / Two-Variable-Analysis
Page 7 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
WAHRSCHEINLICHKEITSRECHNUNG
Deterministisch = Verwirklichung eines Ursachenkomplexes führt eindeutig zu einem
Ergebnis E
Stochastisch
= Eintritt eines Ereignisses kann nicht genau vorhergesagt werden,
da Ursachenkomplex nicht vollständig erfassbar ist
Ereignisraum Ω
= Menge aller möglichen zufälligen Ereignisse bei einem ZE
Zufallsexperiment = nach bestimmter Vorschrift beliebig oft wiederholbar, Ergebnis ist
zufallsabhängig;
Klassische Wahrscheinlichkeit
|E| / | Ω| = Anzahl der günstigen Fälle / Anzahl der möglichen Fälle
Statistische Wahrscheinlichkeit
-
P(E) als Grenzwert der relativen Häufigkeit h(E) bei n Wiederholungen definiert;
Kombinatorik
AngewandteStatistik.xls
= Bestimmung der Anzahl der möglichen Fälle
 Describe / Numeric Data / Multiple-Var-Analysis
| Box-Plot
Variation ohne Wiederholung
-
Anordnung der Elemente ist wichtig (Menge M mit n Elementen)
Anordnung von k Elementen <= Möglichkeiten
Vkn = n! / (n-k)!
0! = 1
Beispiel: 1.) Anzahl 4 stelliger Passwörter, Ziffern 1 – 9, jede Zahl einmal (3024)
Variation mit Wiederholung
wVk
n
-
nk
=
Beispiel: 1.) Anzahl 4 stelliger Passwörter, Ziffern 1 – 9, jede Zahl mehrmals
(6561)
2.) Möglichkeiten eines 3-stelligen Ziffernschlosses, Ziffern von 0-9, jede Ziffer
mehrmals aber keine führende 0 (10³ - 10² = 900)
Permutation ohne Wiederholung
-
Anordnung der Elemente wichtig
Elemente k = Möglichkeiten n
Pn = Vkn = n! / (n-n)! = n! / 0! = n!
k = n und 0! = 1
Beispiel: Auf wie viele Arten können 4 Speichererweiterungen in 4 Steckplätzen
angeordnet werden? (24)
481341032
Page 8 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Permutation mit Wiederholung
-
-
Anordnung der Elemente wichtig
Gesamtzahl Elemente k = Möglichkeiten n
m,r,s P = n! / (m! * r! * s!)
k = m+r+s und 0! = 1
n
Beispiel: 1. ) Auf wie viele Arten können 4 Speichererweiterungen in 4
Steckplätzen angeordnet werden, wenn jeweils 2 Speichererweiterungen gleich
sind? (6)
2.) Anzahl der 5 stelligen Binärcodes aus 3 Nullen und 2 Einsern (10)
Kombination
= jede Teilmenge von k Elementen aus M mit k <= n
- Anordnung der Elemente ist NICHT wichtig ! (Unterschied zu Variation)
Ckn = n! / ((n-k)! * k!) = "n über k"
- Beispiel: 1.) 24 Telefone in Firma – wie viele Verbindungen können hergestellt
werden? (276)
- 2.) Aus 26 verschiedenen alphanummerischen Zeichen sollen 5 verschiedene zur
Codierung verwendet werden. Wieviele Codierungen sind möglich? (65780)
Rechnen mit Wahrscheinlichkeiten
Summensatz (Entweder – Oder):
 einander ausschließende Ereignisse:
P(E1 u E2) = P(E1) + P(E2)
- Beispiel: 1.) Würfeln eine 2 oder eine 5 (1/6 + 1/6 = 1/3)
 einander NICHT ausschließende Ereignisse:
P(E1 u E2) = P(E1) + P(E2) – P(E1 A E2)
- Beispiel: 1.) Würfeln eine 2 oder eine gerade Zahl (1/6 + 3/6 – 1/6 = 1/2)
- 2.) 56 Männer + 9 Frauen: Wie hoch ist P bei 4er Ausschuss, dass 1 oder 2 Damen
sind? (P = ((9 über1)*(56über3)) / (65über4) + ((9 über2)*(56über2))/(65über4))
- 3.) 56 Männer + 9 Frauen: Wie hoch ist P dass mindestens 2 am gleichen Tag
Geburtstag haben? (P = 1 – (0 oder 1) = 1 - ((364! – 299!) / 365) )
Multiplikationssatz (Sowohl als auch):
 für unabhängige Ereignisse:
P(E1 A E2) = P(E1) * P(E2)
- Beispiel: 1.) 80 Stecker D und 5 Stecker E pro Tag – bei 3 Stück Wie hoch ist P
dass nur D Stecker sind? (75/80 * 74/79 * 73/78 = 0,82)
 für abhängige Ereignisse:
P(E1 A E2) = P(E1) * P(E2 / E1)
- Beispiel: 1.) Virus auf 12% der PCs (V) – 4% sind irreparabel (I) – Wie hoch ist P,
dass beliebiger PC befallen und irreparabel ist? (P(V A I) = P(V) * P(I / V) = 0,12 *
0,04 = 0,0048)
Bedingte Wahrscheinlichkeit:
P(E2 / E1) = P(E1 A E2) / P(E1)
481341032
Page 9 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
 einander NICHT ausschließende Ereignisse ( E1 A E2 ≠ {} ):
P(E1 u E2) = P(E1) + P(E2) – P(E1) * P(E2 / E1)
= P(E1) + P(E2) – P(E2) * P(E1 / E2)
- Beispiel: P, dass eine Zahl zwischen 1 und 60 durch 6 teilbar ist wenn bekannt
ist, dass sie durch 8 teilbar ist? (P(Z6 / Z8) = 2/7)
Zufallsvariable = Größe die einen Wert aus einem Wertevorrat (Intervall) annehmen
kann;
Zufallsvariable x = eine Funktion X, die jedem Ereignis ω eines Zufallsexperiment mit
Ereignisraum Ω eine reelle Zahl zuordnet;
Diskrete ZV (= abzählbar viele Werte)
Wahrscheinlichkeitsfunktion ( f(x) = P(X = x1) = p1 )
= Zuordnung Einzelwahrscheinlichkeiten für Auftreten der Werte Xi
Verteilungsfunktion F(x)= P(X<=x) = Σpi
= Summe der Einzelwahrscheinlichkeiten bis zur Stelle x
-
Beispiel: 1.) 100 Werkstücke, davon 10 defekt, zufällig 5 ausgewählt:
f(1) = ((10über1) * (90über4)) / (100über5), ....;
Wahrscheinlichkeit und F(x):
P(X <= b) = F(b)
P(X > a) = 1 – F(a)
P(a < X <= b) = F(b) – F(a)
Stetige ZV = (unendlich viele mögliche Werte)
- Merkmalswert kann nur einem Intervall zugeordnet werden
- Wahrscheinlichkeit einen bestimmten Wert zu erreichen = 0
- Gesucht ist immer ein Intervall
Dichtefunktion = relative Häufigkeit; f(t) >= 0,
F(x) = P(X <= x) = Integrall (-∞ bis x) f(t)dt;
Verteilungsfunktion F(x) = Summe
NORMALVERTEILUNG (NV)
- Wertesammlung aus der Stichprobe  Histogramm
- theoretische Verteilung in Population  Curve Fitting / Distribution Fitting
 nur für stetige Werte !!!
- wie gut passt s und `x (Stichprobe) zur Ermittlung von σ und μ (Population – NV)
481341032
Page 10 of 12
07.04.2017
FH Informationmanagement JG00
Thomas Maringer, Group B / 3
Induktive oder schließende Statistik
Estimator / Confidence Limits
-
Ermittlung von σ und μ (=Grundgesamtheit)
Punktschätzer = den unbekannten Wert von f(x) schätzen
Konfidenzintervall = Intervall in dem der unbekannte Wert mit vorgegebener
Wahrscheinlichkeit liegt;
Konfidenzintervall
Genauigkeit a:
Sicherheit:
a = OG – UG
Wahrscheinlichkeit 1 – α, dass Parameter im Intervall liegt
P (UG <= μ <= OG) = 1 - α
α = Irrtumswahrscheinlichkeit
Testen
1.) Formulieren von Hypothesen
o Nullhypothese
o Alternativhypothese
2.) Auswahl des statistischen Testverfahrens
o wesentlich für Auswahl: Skalierung und Verteilung
3.) Festlegen von α und n
o je größer n, desto kleiner die Risiken
o α = Irrtumswahrscheinlichkeit = Produzentenrisiko
4.) Daten sammeln
5.) Testausführung und Entscheidung
o Berechnung einer Testgröße (t) aus den Daten
 t ist hinreichend groß, wenn zugehörige Wahrscheinlichkeit p
kleiner als vorgegebenen Irrtumswahrscheinlichkeit α ist
 H0 ablehnen wenn p < α (einseitig)
oder wenn p/2 < α/2 (zweiseitig)
o Vergleich mit kritischen Wert
Fehler 1. Art = α – Fehler = Produzentenrisiko
= Vermutung verwerfen, obwohl sie stimmt
(H0 ist wahr und wird abgelehnt)
Fehler 2.Art = β - Fehler = Konsumentenrisiko
= Vermutung bestätigen, obwohl sie falsch ist
(H0 ist falsch und wird beibehalten)
 Risiken reduzieren !
481341032
Page 11 of 12
07.04.2017
FH Informationmanagement JG00
481341032
Thomas Maringer, Group B / 3
Page 12 of 12
07.04.2017
Herunterladen