FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Angewandte Statistik Deskriptive Statistik = Darstellung von Datenmaterial - Charts, Plots, Maps, Timetables, ... Schließende Statistik = Inferenzstat. (aus Stickproben allgemein gültige Aussagen ableiten) - Gültigkeit von Hypothesen und Vermutungen überprüfen - statistische Modellbildung Methoden: 1. 2. 3. 4. 5. 6. Konfidenzintervalle Statistische Tests Korrelations- und Regressionsanalyse Varianzanalyse Zeitreihenanalyse Clusteranalyse Datengewinnung – Untersuchungseinheiten – Merkmal - Merkmalswert Merkmalswerte insgesamt = Daten Stetige Merkmale (Continuous): beliebiger Wert in einem Bereich möglich; metrisches Merkmal; Diskrete Merkmale: nur endlich viele Werte in einem Bereich möglich; nominale und ordinale Merkmale; Population = Gesamtheit gleichartiger statistischer Objekte, die hinsichtlich eines Merkmals untersucht werden; Stichprobe = Auswahl von Untersuchungseinheiten aus der Grundgesamtheit Repräsentativ = gesamte Inhomogenität der Grundgesamtheit muss in der Stichprobe enthalten sein; 481341032 Page 1 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Nominalskala Ordinalskala Metrische- Kardinalsk. =≠ Umbennenen, Permutation, =≠<> isotone oder rangerhaltende Transformationen Zeugnisnoten, Sozialstatus, Produktgüteklassen, MercalliErdbebenskala, Militärdienstgrad, rangskalierte Daten =≠<>+-*/ Ähnlichkeitstransformationen, y = a*x mit a > 0 Temperatur, geogr. Höhe, Messungen in cm / g / sec, Anzahlen, Alter, Kinderzahl, Gewicht, Einkommen, Familienstand, Geschlecht, Postleitzahl, Artikelbezeichnung, Religionszugehörigkeit, erlernter Beruf, Vereinszugehörigkeit, … Namen, Symbole, Codes Ordinalzahlen (i.d.R. ganze Zahlen) Median kein Mittelwert ! keine Differenzen ! kein arithmetisches Mittel ! Modalwert (häufigster Wert) Median (Zentrum) Schiefe (Skewness) Modalwert (häufigster Wert) Wölbung (Kurtosis) Unteres Quantil Q0.25 Gipfelanzahl (ein / mehr) Oberes Quantil Q0.75 Interquartilsdistanz (IQR 50%) Minimum Maximum Range (Spannweite) Schiefe (Skewness) Wölbung (Kurtosis) Gipfelanzahl (ein / mehr) reelle Zahlen (stetig oder diskret) Präzessionsmaß festlegen arithmetischer Mittelwert `x = Summe xi / n Median (Zentrum) Modalwert (häufigster Wert) Unteres Quantil Q0.25 Oberes Quantil Q0.75 Interquartilsdistanz (IQR 50%) Minimum Maximum Range (Spannweite) Standardabweichung s Varianz s² Schiefe (Skewness) Wölbung (Kurtosis) Gipfelanzahl (ein / mehr) Variationskoeffizient (v =s / `x) Describe / Categorical Data Describe / Numerical Data / / Tabulation One-Variable-Analysis Summenhäufigkeit: Describe / Numerical Data / One-Variable-Analysis 481341032 Page 2 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Absolute Häufigkeit: Summe (von j=1 bis k) über Hj = n - Nachteil: ist nicht vergleichbar Relative Häufigkeit: - hj = Hj / n (Summe (von j=1 bis k) über Hj = 1) = prozentualer Anteil der Untersuchungseinheiten Nachteil: Gesamtmenge geht nicht hervor Absolute Summenhäufigkeit: Summe (von i=1 bis j) über H(ai) Relative Häufigkeit: 1 / n * (Summe (von i=1 bis j) über H(ai)) Empirische Verteilungsfunktion = Summenhäufigkeitsfunktion: Sn(x) = 1 / n * (Summe (von i=1 bis j) über H(ai)) = (Summe (von i=1 bis j) über h(ai)) Anzahl Fehler 0 1 2 3 4 5 Summe Hj 7 6 3 1 1 2 20 hj = h(aj) 0,35 0,30 0,15 0,05 0,05 0,10 1,00 Sn(x) 0,35 0,65 0,80 0,85 0,90 1,00 Sn(H) 7 13 16 17 18 20 KLASSENEINTEILUNG - - alle Beobachtungswerte erfassen (auch Ausreißer) ! Klassengrenzen so wählen, dass Beobachtungswerte eindeutig den Klassen zugeordnet werden können Klassenmitte repräsentiert die übrigen Messwerte der Klasse je kleiner die Klassenanzahl desto größer die Klassenbreite und desto größer der Informationsverlust Klassenbreite d=R/k k = Wurzel (n) 5 < k < 20 keine offenen Verteilungsenden Klassenbreiten gleichlang Nulllinie beachten (negative Klassen vermeiden) Flächentreue = 481341032 Häufigkeit muss proportional zur Fläche des Rechteckes sein und nicht zur Höhe Page 3 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 HÄUFIGKEITSVERTEILUNG Charakterisierung einer Häufigkeitsverteilung LAGE = charakterisiert das Zentrum und das Niveau einer Häufigkeitsverteilung; Arithmetisches Mittel: `x = (Summe i=1 bis n von (xi)) / n Mittelwert eines metrisch skalierten Merkmals - empfindlich gegenüber Ausreißern - nicht geeignet: mehrgipfelige und sehr schiefe HV α – Quantile (Ordnungsstatistiken): Qα = xj (wenn n-α keine ganze Zahl ist) = (xj + x(j+1)) / 2 (wenn n-α ganze Zahl ist) metrische und ordinal skalierte Merkmale - geordnete Datenmenge nα Werte <= Qα , n(1-α) Werte >= Qα - spezielle Quantile: Median (Q0,5), Minimum (Q0), Maximum (Q1), Unteres Quantil (Q0,25), Oberes Quantil (Q0,75) Median: = teilt die geordnete Datenreihe in zwei gleich große Teile metrische und ordinal skalierte Merkmale x` = x((n+1)/2) wenn n ungerade = (x(n/2) + x(n/2 +1)) wenn n gerade - unempfindlich gegen Ausreißer - nicht geeignet: mehrgipfelige und sehr schiefe HV Modalwert: x mod = häufigster Wert einer Beobachtungsreihe nominal skalierte Merkmale - Klassenmitte der Klasse mit der größten Häufigkeit - geeignet für: mehrgipfelige und sehr schiefe HV STREUUNG = Streuungsmaße / Dispersionsmaße: charakterisieren das Ausmaß der Abweichungen vom Zentrum (Variabilität) einer HV; Spannweite (Range): = Differenz zwischen größtem (xmax) und kleinstem (xmin) Werte einer Beobachtungsreihe: R = xmax - xmin für metrisch und ordinal skalierte Merkmale - stark durch Ausreißer beeinflusst - verschiedene Beobachtungsreihen vergleichbar wenn St.P.umfang n gleich groß ist 481341032 Page 4 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Stichprobenvarianz (Varianz): = mittlere quadratische Abweichung vom arithmetischen Mittel s² = Summe (xi - `x)² / (n-1) Standardabweichung: s = Wurzel (s²) nur metrische Merkmale - stark durch Ausreißer beeinflusst - besser geeignet als Varianz zur Interpretation - s hat gleiche Maßeinheit wie Beobachtungen - Interpretation nur sinnvoll wenn `x bekannt ist (arithmetisches Mittel) Interquartilsdistanz (Quartilsabstand): = Differenz zwischen oberem (Q0,75) und unterem (Q0,25) Quartil = Größe des Bereiches in dem ca. 50% aller Werte liegen IQR = Q 0,75 – Q 0,25 für metrisch und ordinal skalierte Merkmale - nicht / kaum durch Ausreißer beeinflusst - zum Vergleich der Variabilität verschiedener Beobachtungsreihen besser geeignet als Range Variationskoeffizient: = Verhältnis von Standardabweichung zu arithmetischen Mittel v = s / `x nur metrische Merkmale - stark durch Ausreißer beeinflusst - eignet sich zum Vergleich der Streuung von Merkmalen mit unterschiedlichen Wertebereichen - nur sinnvoll bei ausschließlich positiven Werten - kann ohne Nennung von `x interpretiert werden FORM 1.) eingipfelig (unimodal) oder mehrgipfelig (multimodal) Schiefe (Unsymmetrie / Skewness): sk = 0 sk < 0 sk > 0 symmetrisch linksschiefer rechtsschiefer Mittelwert = Median = Modalwert Mittelwert < Median < Modalwert Mittelwert > Median > Modalwert Wölbung (Steilheit, Kurtosis): - Vergleich mit der Normalverteilung - theoretische Wölbung einer NV = 0 kur = 0 normal kur < 0 flachgipfelig kur > 0 steilgipfelig 481341032 Page 5 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Grafische Darstellung Histogramm: Describe / Numeric Data / One-Variable-Analysis Boxplot: - Darstellung der wesentlichen Charakteristika einer HV (Median, Q0,25, Q0,75, ...) hoher Infogehalt Identifikation von Ausreißern Vergleich von Beobachtungsreihen Bestimmung von Ausreißern: Innen: Q 0,25 Q 0,75 innere Eingrenzung: Q 0,25 – 1,5 * IQR Q 0,75 + 1,5 * IQR äußere Eingrenzung: Q 0,25 – 3 * IQR Q 0,75 + 3 * IQR außerhalb: im Bereich äußere – innere Eingrenzung weit außerhalb: außerhalb der äußeren Eingrenzung Scatterplot (Streudiagramm): - zwei Stichprobenmengen Describe / Numeric Data / Two-Variable-Analysis Korrelationsanalyse – Lineare Korrelation - Grad des linearen Zusammenhangs zweier metrisch skalierter Merkmale X und Y nach dem Pearson`schen Korrelationskoeffizienten ( -1 <= r <= 1 ) r = Summe( (x-`x)*(y-`y) ) / ( (n-1)*s(x)*s(y) ) positiver Zusammenhang: - r>0 - hohe Werte von X korrelieren mit hohen Werten von Y - direkte Proportionalität negativer Zusammenhang: - r<0 - hohe Werte von X korrelieren mit niedrigen Werten von Y - indirekte Proportionalität unkorreliert: - kein linearer Zusammenhang zwischen X und Y - r~0 - r nach Prüfung von Scatterplot nicht verwenden, wenn: o nichtlinearer Zusammenhang vorzuliegen scheint o potentielle Ausreißer Auswertung verfälschen könnten o drittes relevantes Merkmal vorliegt o eines der beiden Merkmale genau vorherbestimmt ist Spearman`sche Rangkorrelation 481341032 Page 6 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Analyse einer Häufigkeitsverteilung: Eine Stichprobenmenge: Histogramm / Boxplot: Describe / Numeric Data / One-Variable-Analysis Zwei Stichprobenmengen: Histogramm / Scatterplot: 481341032 Describe / Numeric Data / Two-Variable-Analysis Page 7 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 WAHRSCHEINLICHKEITSRECHNUNG Deterministisch = Verwirklichung eines Ursachenkomplexes führt eindeutig zu einem Ergebnis E Stochastisch = Eintritt eines Ereignisses kann nicht genau vorhergesagt werden, da Ursachenkomplex nicht vollständig erfassbar ist Ereignisraum Ω = Menge aller möglichen zufälligen Ereignisse bei einem ZE Zufallsexperiment = nach bestimmter Vorschrift beliebig oft wiederholbar, Ergebnis ist zufallsabhängig; Klassische Wahrscheinlichkeit |E| / | Ω| = Anzahl der günstigen Fälle / Anzahl der möglichen Fälle Statistische Wahrscheinlichkeit - P(E) als Grenzwert der relativen Häufigkeit h(E) bei n Wiederholungen definiert; Kombinatorik AngewandteStatistik.xls = Bestimmung der Anzahl der möglichen Fälle Describe / Numeric Data / Multiple-Var-Analysis | Box-Plot Variation ohne Wiederholung - Anordnung der Elemente ist wichtig (Menge M mit n Elementen) Anordnung von k Elementen <= Möglichkeiten Vkn = n! / (n-k)! 0! = 1 Beispiel: 1.) Anzahl 4 stelliger Passwörter, Ziffern 1 – 9, jede Zahl einmal (3024) Variation mit Wiederholung wVk n - nk = Beispiel: 1.) Anzahl 4 stelliger Passwörter, Ziffern 1 – 9, jede Zahl mehrmals (6561) 2.) Möglichkeiten eines 3-stelligen Ziffernschlosses, Ziffern von 0-9, jede Ziffer mehrmals aber keine führende 0 (10³ - 10² = 900) Permutation ohne Wiederholung - Anordnung der Elemente wichtig Elemente k = Möglichkeiten n Pn = Vkn = n! / (n-n)! = n! / 0! = n! k = n und 0! = 1 Beispiel: Auf wie viele Arten können 4 Speichererweiterungen in 4 Steckplätzen angeordnet werden? (24) 481341032 Page 8 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Permutation mit Wiederholung - - Anordnung der Elemente wichtig Gesamtzahl Elemente k = Möglichkeiten n m,r,s P = n! / (m! * r! * s!) k = m+r+s und 0! = 1 n Beispiel: 1. ) Auf wie viele Arten können 4 Speichererweiterungen in 4 Steckplätzen angeordnet werden, wenn jeweils 2 Speichererweiterungen gleich sind? (6) 2.) Anzahl der 5 stelligen Binärcodes aus 3 Nullen und 2 Einsern (10) Kombination = jede Teilmenge von k Elementen aus M mit k <= n - Anordnung der Elemente ist NICHT wichtig ! (Unterschied zu Variation) Ckn = n! / ((n-k)! * k!) = "n über k" - Beispiel: 1.) 24 Telefone in Firma – wie viele Verbindungen können hergestellt werden? (276) - 2.) Aus 26 verschiedenen alphanummerischen Zeichen sollen 5 verschiedene zur Codierung verwendet werden. Wieviele Codierungen sind möglich? (65780) Rechnen mit Wahrscheinlichkeiten Summensatz (Entweder – Oder): einander ausschließende Ereignisse: P(E1 u E2) = P(E1) + P(E2) - Beispiel: 1.) Würfeln eine 2 oder eine 5 (1/6 + 1/6 = 1/3) einander NICHT ausschließende Ereignisse: P(E1 u E2) = P(E1) + P(E2) – P(E1 A E2) - Beispiel: 1.) Würfeln eine 2 oder eine gerade Zahl (1/6 + 3/6 – 1/6 = 1/2) - 2.) 56 Männer + 9 Frauen: Wie hoch ist P bei 4er Ausschuss, dass 1 oder 2 Damen sind? (P = ((9 über1)*(56über3)) / (65über4) + ((9 über2)*(56über2))/(65über4)) - 3.) 56 Männer + 9 Frauen: Wie hoch ist P dass mindestens 2 am gleichen Tag Geburtstag haben? (P = 1 – (0 oder 1) = 1 - ((364! – 299!) / 365) ) Multiplikationssatz (Sowohl als auch): für unabhängige Ereignisse: P(E1 A E2) = P(E1) * P(E2) - Beispiel: 1.) 80 Stecker D und 5 Stecker E pro Tag – bei 3 Stück Wie hoch ist P dass nur D Stecker sind? (75/80 * 74/79 * 73/78 = 0,82) für abhängige Ereignisse: P(E1 A E2) = P(E1) * P(E2 / E1) - Beispiel: 1.) Virus auf 12% der PCs (V) – 4% sind irreparabel (I) – Wie hoch ist P, dass beliebiger PC befallen und irreparabel ist? (P(V A I) = P(V) * P(I / V) = 0,12 * 0,04 = 0,0048) Bedingte Wahrscheinlichkeit: P(E2 / E1) = P(E1 A E2) / P(E1) 481341032 Page 9 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 einander NICHT ausschließende Ereignisse ( E1 A E2 ≠ {} ): P(E1 u E2) = P(E1) + P(E2) – P(E1) * P(E2 / E1) = P(E1) + P(E2) – P(E2) * P(E1 / E2) - Beispiel: P, dass eine Zahl zwischen 1 und 60 durch 6 teilbar ist wenn bekannt ist, dass sie durch 8 teilbar ist? (P(Z6 / Z8) = 2/7) Zufallsvariable = Größe die einen Wert aus einem Wertevorrat (Intervall) annehmen kann; Zufallsvariable x = eine Funktion X, die jedem Ereignis ω eines Zufallsexperiment mit Ereignisraum Ω eine reelle Zahl zuordnet; Diskrete ZV (= abzählbar viele Werte) Wahrscheinlichkeitsfunktion ( f(x) = P(X = x1) = p1 ) = Zuordnung Einzelwahrscheinlichkeiten für Auftreten der Werte Xi Verteilungsfunktion F(x)= P(X<=x) = Σpi = Summe der Einzelwahrscheinlichkeiten bis zur Stelle x - Beispiel: 1.) 100 Werkstücke, davon 10 defekt, zufällig 5 ausgewählt: f(1) = ((10über1) * (90über4)) / (100über5), ....; Wahrscheinlichkeit und F(x): P(X <= b) = F(b) P(X > a) = 1 – F(a) P(a < X <= b) = F(b) – F(a) Stetige ZV = (unendlich viele mögliche Werte) - Merkmalswert kann nur einem Intervall zugeordnet werden - Wahrscheinlichkeit einen bestimmten Wert zu erreichen = 0 - Gesucht ist immer ein Intervall Dichtefunktion = relative Häufigkeit; f(t) >= 0, F(x) = P(X <= x) = Integrall (-∞ bis x) f(t)dt; Verteilungsfunktion F(x) = Summe NORMALVERTEILUNG (NV) - Wertesammlung aus der Stichprobe Histogramm - theoretische Verteilung in Population Curve Fitting / Distribution Fitting nur für stetige Werte !!! - wie gut passt s und `x (Stichprobe) zur Ermittlung von σ und μ (Population – NV) 481341032 Page 10 of 12 07.04.2017 FH Informationmanagement JG00 Thomas Maringer, Group B / 3 Induktive oder schließende Statistik Estimator / Confidence Limits - Ermittlung von σ und μ (=Grundgesamtheit) Punktschätzer = den unbekannten Wert von f(x) schätzen Konfidenzintervall = Intervall in dem der unbekannte Wert mit vorgegebener Wahrscheinlichkeit liegt; Konfidenzintervall Genauigkeit a: Sicherheit: a = OG – UG Wahrscheinlichkeit 1 – α, dass Parameter im Intervall liegt P (UG <= μ <= OG) = 1 - α α = Irrtumswahrscheinlichkeit Testen 1.) Formulieren von Hypothesen o Nullhypothese o Alternativhypothese 2.) Auswahl des statistischen Testverfahrens o wesentlich für Auswahl: Skalierung und Verteilung 3.) Festlegen von α und n o je größer n, desto kleiner die Risiken o α = Irrtumswahrscheinlichkeit = Produzentenrisiko 4.) Daten sammeln 5.) Testausführung und Entscheidung o Berechnung einer Testgröße (t) aus den Daten t ist hinreichend groß, wenn zugehörige Wahrscheinlichkeit p kleiner als vorgegebenen Irrtumswahrscheinlichkeit α ist H0 ablehnen wenn p < α (einseitig) oder wenn p/2 < α/2 (zweiseitig) o Vergleich mit kritischen Wert Fehler 1. Art = α – Fehler = Produzentenrisiko = Vermutung verwerfen, obwohl sie stimmt (H0 ist wahr und wird abgelehnt) Fehler 2.Art = β - Fehler = Konsumentenrisiko = Vermutung bestätigen, obwohl sie falsch ist (H0 ist falsch und wird beibehalten) Risiken reduzieren ! 481341032 Page 11 of 12 07.04.2017 FH Informationmanagement JG00 481341032 Thomas Maringer, Group B / 3 Page 12 of 12 07.04.2017