Deskriptive Statistik Beschreiben, Zusammenfassen, Darstellen gegebener Daten (Datenreduktion!) - Arithmetisches Mittel o Das arithmetische Mittel (auch Durchschnitt) ist ein Mittelwert, der als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte definiert ist: Alternativ: π₯ = ∑ π ∗ ππ π - Geometrisches Mittel o Das geometrische Mittel ist ein Mittelwert; es ist in der Statistik ein geeignetes Mittelmaß für Größen, von denen das Produkt anstelle der Summe interpretierbar ist, z. B. von Verhältnissen oder Wachstumsraten. o Durchschnittliche Änderung in % - Median Ein Wert m ist Median einer Stichprobe, wenn höchstens die Hälfte der Beobachtungen in der Stichprobe einen Wert < m und höchstens die Hälfte einen Wert > m hat. Sortiert man die Beobachtungswerte der Größe nach, geordnete Stichprobe oder Rang, so ist der Median bei einer ungeraden Anzahl von Beobachtungen der Wert der in der Mitte dieser Folge liegenden Beobachtung. Bei einer geraden Anzahl von Beobachtungen gibt es kein einziges mittleres Element, sondern zwei. Hier sind die Werte der beiden mittleren Beobachtungen sowie alle Werte dazwischen (obwohl diese möglicherweise bei keiner Beobachtung aufgetreten sind) ein Median der Stichprobe, da für alle diese Werte obige Bedingung zutrifft. Bei kardinal skalierten Messgrößen (wenn es also sinnvoll möglich ist, die Differenz von Messwerten zu berechnen) verwendet man im Falle einer geraden Anzahl Beobachtungen meist das arithmetische Mittel der beiden mittleren Beobachtungswerte. Der Median also: einer geordneten Stichprobe von n Messwerten ist dann - Varianz Wenn Beobachtungen gegeben sind: π 1 π = ∑( π₯π − π₯ )2 π 2 π=1 Wenn Verteilung f1,…, fk gegeben ist: π 2 π = ∑( ππ − π₯ )2 ∗ ππ π=1 - Standardabweichung Wenn Beobachtungen gegeben sind: π 1 π = √ ∑( π₯π − π₯ )2 π π=1 Wenn Verteilung f1,…, fk gegeben ist: π π = √∑( ππ − π₯ )2 ∗ ππ π=1 - Darstellung Häufigkeitsverteilung o Histogramm ο§ Wie konstruiert man ein Histogramm? ο· Klasse der Intervalle bestimmen ο· Klasse Häufigkeit hj ο· Intervallbreite dj ο· Absolute Häufigkeitsdichte hj/dj ο· Relative Häufigkeitsdichte fj/dj ο· Die Rechtecksfläche zeigt die Häufigkeit = Zeigt wie dicht die Werte im Intervall (sind) liegen o Boxplot o Die Box beinhaltet die zentralen 50%, der untere und obere Whisker jeweils 25%, diese dürfen maximal 1,5 Boxlängen lang sein. Ausreißer werden mit Punkten markiert. Falls die Daten näherungsweise normalverteilt sind, ist der 3 Sigma Bereich analog zu den Whiskern und der Box Baum-/Blattdiagramm Hier bedeutet 2 | 5 = 25 Sek. o - Balkendiagramm ο§ Relative Häufigkeit ο§ Für stetige Variablen ungeeignet Sigma-Regeln Sofern die Daten näherungsweise normalverteilt sind, gilt: 68,27 % aller Messwerte haben eine Abweichung von höchstens 1σ vom Mittelwert 95,45 % aller Messwerte haben eine Abweichung von höchstens 2σ vom Mittelwert 99,73 % aller Messwerte haben eine Abweichung von höchstens 3σ vom Mittelwert - Schiefe (nur am Bild beurteilen) - Kurtosis Y2 = 0 => meso-kurtisch Y2 > 0 => lepto-kurtisch Y2 < 0 => platy-kurtisch Induktive Statistik Schließen von Daten (Beobachtungen) auf allgemeinere Prinzipien. Baut auf der deskriptiven Statistik auf. - Wahrscheinlichkeitsbaum - Konfidenzintervall für p o Ein Intervall von plausiblen Zahlen für p o Die Größe des Intervalls sollte indirekt proportional zur Anzahl der Befragten sein o Das Intervall sollte so konstruiert sein, dass wir VERTRAUEN haben können, dass der wahre Wert von p darin liegt o Der Vertrauensgrad (= Konfidenzniveau) sollte hoch sein o Berechnung: π ∑ ππ ~ π(ππ, ππ(1 − π)) ππππ πΜ ~ π (π, π=1 π(1 − π) ) π Standardisierung: π −1.96 ≤ ( πΜ − π √π(1 − π) π ≤ 1,96 = 0,95 ) P in die Mitte bringen: πΜ (1 − πΜ ) πΜ (1 − πΜ ) π (πΜ − 1.96√ ≤ π ≤ πΜ + 1.96√ ) = 0,95 π π Approximatives 95% Konfidenzintervall für den unbekannten Anteil p ist: πΜ (1 − πΜ ) (πΜ ± 1.96√ ) π Jeder Wert im Konfidenzintervall ist eine plausible Schätzung für den unbekannten Parameter. Wie groß sollte n sein, damit das KI durchschnittlich halb so groß ist, wie das gerade beobachtete? => Stichprobenumfang 4x so groß wie vorher - - Konfidenzniveau Konfidenzniveau ist meist 95% oder größer Es besagt, mit welcher Sicherheit man sagen kann, dass sich der Parameter in dem Intervall befindet. (100% wären 0-1, also unsinnig) Signifikanztest Erklärung an einem Beispiel: In der Vergangenheit hatte ein TV-Programm typische Einschaltquoten von 10%, für einen bestimmten Tag wird ermittelt, dass 350 von 4000 Personen der Zufallsstichprobe das Programm gesehen haben. - War das ein typischer Tag? Falls es ein typischer Tag war: 4000 ∑ ππ ~ π΅(4000 , 0,1) ~ π(400,360) π=1 4000 1 0,1 ∗ 0,9 πΜ = ∑ ππ ~ π (0,1, ) 4000 4000 π=1 Falls es ein typischer Tag war, wie wahrscheinlich ist es dann, einen Anteil p zu beobachten, der mindestens so weit von den erwarteten 10% entfernt ist wie 8,75%? Diese Wahrscheinlichkeit nennt man den p-Wert der Hypothese „Es war ein typischer Tag“ Dies kann man leicht berechnen, wenn man p standardisiert. Der p-Wert ist in der Tat sehr klein – kleiner als 1%! Die Frage ist nun: War es ein typischer Tag, obwohl es sehr unwahrscheinlich ist, so einen extremen Anteil von p zu beobachten? Schlussfolgerung: Entweder war es ein typischer Tag und etwas sehr Seltenes hat sich ereignet oder es war kein typischer Tag! Kritischer Bereich: Der Gemessene Wert von p liegt außerhalb des erwarteten 3Sigma-Bereichs o o Diskussion zum Fehler 1. und 2. Art Fehler erster Art: Man lehnt die Hypothese H0 ab, obwohl diese wahr ist Fehler zweiter Art: Man lehnt die Hypothese H0 nicht ab, obwohl diese nicht wahr ist Signifikanztests sind so konstruiert, dass die Wahrscheinlichkeit für einen Fehler erster Art klein und unter Kontrolle ist. Sie ist höchstens so groß wie Alpha. Allerdings ist die Wahrscheinlichkeit für einen Fehler zweiter Art nicht unter Kontrolle. Sie kann so groß sein wie 1-Alpha, also 95%. Da ist eine grundsätzliche Asymmetrie in einem Signifikanztest. Das bedeutet: Wir können nur dann darauf vertrauen, dass wir etwas entdeckt haben, wenn H0 abgelehnt wird! Aus einer nicht Ablehnung von H0 gewinnen wir keine neue Information. - Worauf passen welche Verteilungen? o Binomialverteilung Bei jedem Versuch ist die Erfolgswahrscheinlichkeit p gleich groß Anzahl der Erfolge bei n unabhängigen Versuchen (i). Eine Zufallsvariable X mit π(π₯ = π) = (ππ) ππ (1 − π)π−π , π = 0, … , π heißt binomialverteilt zu den Parametern n und p. Kurz: π ~ π΅(π, π) Dann gilt πΈ(π₯) = π ∗ π πππ(π₯) = π ∗ π ∗ (1 − π) o Poissonverteilung Findet Verwendung bei Zufallsvariablen, die Ereignisse zählen, welche jederzeit eintreten können, in einem kurzen Zeitintervall aber selten sind Erfolg bei sehr vielen Versuchen mit jeweils sehr kleiner Erfolgswahrscheinlichkeit n = nicht spezifizierbar p nahe 0 ο° Aber Erfolge passieren! π~ ππ(πΎ) πΎ = πΈππ€πππ‘π’πππ π€πππ‘ π π πΎ π −πΎ π−π lim ( ) π (1 − π) = π π→ ∞ π π! π→0 π∗π→ πΎ Dann gilt πΈ(π₯) = πΎ πππ(π₯) = πΎ o Normalverteilung ο§ Theoretisches Modell Dichtefunktionen der Normalverteilungen (blau), (grün) und (rot) ο§ π ~ π(π, π 2 ) o ο§ πΈ(π) = π ο§ πππ(π) = π 2 Standardnormalverteilung ο§ π ~ π(0,1) ο§ NUR für Standardnormalverteilung gibt es eine Tabelle Standardisierung von π ~ π(π, π 2 ): π− π π = π ~ π(0,1) o Sind X1 , … , X n ~ N(μ, σ2 ) und unabhängig, dann gilt: n 1 σ2 πΜ = ∑ X i ~ N(μ, ) n n i=1 - Faustregel o Spezialfall des zentralen Grenzwertsatzes Ist X ~ B(n, p), dann gilt für großes n: π ~ π(ππ, ππ(1 − π)) π π(1 − π) ~ π (π, ) π π ππππππππππ: o ππ(1 − π) > 9 (Varianz der Zahl der Erfolge) Verallgemeinerung: Sind X1,…, Xn unabhängig und identisch verteilt (=selbes stochastisches Modell) mit Erwartungswert π und Varianz π 2 , dann gilt für großes n: π ∑ ππ ~ π(ππ, ππ 2 ) π=1 πΜ = π 1 π2 ∑ ππ ~ π(π, ) π π π=1 Begrifflichkeiten - Daten sind das Ergebnis von Beobachtungen: Zählvorgängen Messvorgängen Komplexeren Vorgängen - Population = Gesamtheit von Objekten, für die man sich interessiert - Variable = ein interessierendes Merkmal (oder ein Attribut) eines Objektes o Eine Variable kann verschiedene Werte annehmen o Skalierung ο§ Kategorial (Nominalskaliert), falls sich nur sagen lässt, ob jeweils zwei Werte gleich sind oder nicht ο§ Rangvariable (Ordinalskaliert), falls ihre Werte angeordnet werden können ο§ Metrisch (Quantitativ), falls ihre Werte Ergebnisse eines Mess- oder Zählvorgangs sind. Man unterscheidet: ο· Verhältnisskaliert: Die Differenz und auch das Verhältnis zweier Werte sind sinnvoll ο· Intervallskaliert: Nur die Differenz ist sinnvoll ο· Diskret = Kann nur isolierte Werte annehmen ο· Stetig = Kann (theoretisch) jeden beliebigen Wert in einem Intervall Annehmen o Häufigkeitsverteilung ο§ n-Beobachtungen: x1, x2, …, xn ο§ k unterschiedliche Werte: a1,a2,…,an ο§ h(aj) = # Beobachtungen mit Wert aj = absolute Häufigkeit von aj ο§ f(aj) = h(aj) / n = relative Häufigkeit von aj - Semantisches Differential Das semantische Differential, auch Eindrucksdifferential oder Polaritätenprofil genannt, ist ein Verfahren, welches zum Zweck der Messung von Wortbedeutungen im Jahr 1952 von Osgood entwickelt worden ist. Eine Person muss anhand einer Reihe von Items ein Objekt beschreiben. Die Items sind siebenstellige bipolare Skalen, deren Extreme durch jeweils gegensätzliche Eigenschaftswörter wie dynamisch/statisch, jung/alt, beschrieben werden. Die numerische Unterteilung der Itemskala erlaubt es, eine Ausprägung intervallskaliert anzugeben, wobei die Richtung der angegebenen Ausprägung vom Nullpunkt für die Qualität, die Distanz zum Nullpunkt für die Intensität der assoziierten Eigenschaften stehen. Objekte Variable Werte Studierende Geschlecht M, W Körpergröße in cm …,167,168,… Dienstage Goldpreis (US$) …,1004,0,1004,2,… Rendite (%) …,-2,5,-1,7,… Kunden im Supermarkt Gesamtausgabe (€) …,10,33,… Hat preisreduzierten Güter gekauft? Ja, Nein Beurteilung d. Angebotes Unzufrieden,…,Sehr zufrieden Zahl der Positionen 1,2,3,… Erwachsene in den USA Wiederaufbau von NO Ja, Nein Wochentage Zahl der zur Reparatur gebrachten Autos 0,1,2,3,… - Datensammlung o Die erste Frage ist extrem wichtig, sog. Appetizer, wird oft nicht ausgewertet o Totalerhebung oder Zensus = Die Sammlung von Daten aus der gesamten Population o Teilerhebung oder Ziehung = Die Sammlung von Daten aus einer Teilpopulation - Length Sampling Bias => systematischer Fehler Erwartungswert o Selbes Prinzip, wie beim arithmetischem Mittel, mit Wahrscheinlichkeiten anstatt der relativen Häufigkeiten πΈ(π₯) = ∑ π ∗ π(π₯ = π) π - Wahrscheinlichkeitsdichte o Konzept der Wahrscheinlichkeitsfunktion ist für stetige Variablen unbrauchbar, man braucht eine Dichte! π π ( π ≤ π ≤ π) = ∫ π(π₯)ππ₯ π Erwartungswert: ∞ πΈ (π) = ∫ π₯ ∗ π(π₯)ππ₯ −∞