Formelsammlung zur Klausur Beschreibende Statistik Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Statistische Daten Qualitative Daten Nominal skalierte Merkmalsausprägungen (Unterscheidungsmerkmale) können nicht durch Auszählen oder Messen ermittelt werden. haben keine natürliche Reihenfolge. liefern keine Abstände oder Verhältnisse. Ordinal skalierte Merkmalsausprägungen (Rangmerkmale) können in eine natürliche Reihenfolge (auf- oder absteigende Ordnung) gebracht werden. sind keine absoluten, sondern nur relative Werte. liefern keine Abstände oder Verhältnisse. Quantitative Daten Metrisch skalierte Merkmalsausprägungen (Abstandsmerkmale) sind messbar oder abzählbar (reelle Zahlen). sind absolute Werte. liefern Abstände und Verhältnisse. sind diskret, wenn es nur endlich viele Ausprägungen geben kann (zählen). sind stetig, wenn sie jeden beliebigen reellen Wert zumindest in einem bestimmten Intervall annehmen können (messen). © JB Seite 2 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Häufigkeitsverteilung Absolute Häufigkeit Die Anzahl hi (i = 1, 2, ..., k) der statistischen Einheiten mit der Merkmalsausprägung xi bezeichnet man als absolute Häufigkeit. Es gilt: k h1 h2 h3 ... hk = ∑ hi = n i=1 Relative Häufigkeit Dividiert man die absoluten Häufigkeiten hi durch die Anzahl n der statistischen Einheiten, so erhält man die relativen Häufigkeiten fi. fi = hi n Die Größen 100 * fi % heißen prozentuale Häufigkeiten. k Es gilt: ∑ fi = 1 = 100 i=1 Regel für Klassenbildung • Zu viele Klassen machen das Bild unübersichtlich • Zu wenige Klassen lassen Informationen verloren gehen • In der Regel 5 – 20 Klassen, jedoch weniger als n (n ist Größe der Stichprobe) • Es soll eine obere und untere Klassengrenze fest gelegt werden • In der Regel gleich breite Klassen verwenden • Ungleiche Klassenbreiten nur, wenn viele Beobachtungen in kleinem Bereich und geringer Rest in weitem Bereich. Häufigkeitsdichte= Häufigkeit Klassenbreite Häufigkeitssummenverteilung Aufsummierte Häufigkeiten. Die Addition der Häufigkeiten erfolgt nach der natürlichen Reihenfolge der Ausprägungen von der kleinsten zur größten. Die Summenverteilung ist nur für Rang- und Abstandsmerkmale sinnvoll. Man summiert die Häufigkeiten aller Ausprägungen bis zu einem bestimmten Wert. Die Häufigkeitssummenverteilung gibt also an, wie viele Einheiten einer Gesamtheit einen bestimmten Wert nicht überschreiten. Die aufsummierten Häufigkeiten werden durch die Summenkurve grafisch veranschaulicht. © JB Seite 3 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Mittelwerte oder Lageparameter Das arithmetische Mittel n Arithmetisches Mittel x = Summe der Einzelwerte 1 ⋅∑ x i = n i =1 Anzahl der Einheiten Das gewogene arithmetische Mittel n x = ∑ x i⋅hi i =1 n ∑ hi i =1 Das arithmetische Mittel klassierter Daten n 1 x = ∑ x *i⋅h i n i =1 mit x *i Klassenmitte der Klasse i Modalwert oder häufigster Wert Modalwert = diejenige Merkmalsausprägung die am häufigsten vorkommt. Zentralwert oder Median Der Zentralwert ist diejenige Merkmalsausprägung, die in der Mitte der in eine Rangfolge gebrachten Einzelausprägungen steht. n1 2 Anzahl der Elemente ungerade: Median an der Stelle Anzahl der Elemente gerade: Median arithmetisches Mittel der Elemente an den n n 1 Stellen und 2 2 © JB Seite 4 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Quartile Quartile geben zusammen mit dem Median Hinweise auf die Verteilung der Daten: Links des unteren Quartils (x0, 25) liegen etwa 25% der Daten und rechts des oberen Quartils (x0, 75) ebenfalls etwa 25% der Daten. Im mittleren Bereich liegen die restlichen 50%. Bestimmung der Quartile Q1, Q2 und Q3: Q2 entspricht dem Median. Bestimmung siehe oben. Zur Bestimmung von Q1 und Q3 wird die untere bzw. die obere Hälfte der Daten nach der gleichen Methode wie bei der Bestimmung des Medians nochmals unterteilt. Geometrisches Mittel Immer dann, wenn es um die Ermittlung durchschnittlicher Wachstumsraten geht, versagt das arithmetische Mittel. An seiner Stelle wird das geometrische Mittel verwendet. GM = © JB n x 1⋅x 2⋅...⋅x n für x i 0 Seite 5 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Streuungsmaße Spannweite oder Variationsbreite Spannweite = Differenz zwischen dem grössten (xmax) und dem kleinsten (xmin) Wert. Quartilsabstand und Boxplot Der Quartilsabstand ist die Differenz zwischen dem ersten und dritten Quartil. Er umfasst den Bereich der mittleren 50% der Werte. Das Box- and Wiskersdiagramm stellt eine Häufigkeitsverteilung dar: Zwischen dem 1. und 3. Quartil wird ein Kasten aufgebaut. In diesem Bereich liegen 50% der Beobachtungen. Die seitlich angesetzten Schnurrhaare vermitteln einen Eindruck, wie weit die restlichen 50% der Werte streuen. Wie weit die Schnurrhaare ausgezogen werden ist unterschiedlich. Die gebräuchlichsten Verfahren gehen bis zu den Extremwerten bzw. bis zum 10. und 90. Perzentil. Mittlere lineare Abweichung Mittlere lineare Abweichung bezeichnet das arithmetische Mittel der absoluten Abweichungen der Merkmalswerte von einem Mittelwert (arithmetisches Mittel oder Median). n d = 1 ∑ ∣x −M∣ n i =1 i M = Mittelwert Varianz n Summe aller Abweichungsquadrate 1 s = = ∑ x i −AM 2 Zahl der Meßwerte n i =1 2 (AM = arithmetisches Mittel) Standardabweichung Die Standardabweichung s ist die Wurzel aus der Varianz. s = © JB s 2 = n 1 x i −AM 2 ∑ n i =1 Seite 6 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Variationskoeffizient Variationskoeffizient = Quotient aus Standardabweichung und arithmetischem Mittel. v = s AM Der Variationskoeffizient v ist eine dimensionslose Zahl. Er gibt an, wie viel Prozent vom arithmetischen Mittelwert die Standardabweichung beträgt. Der Variationskoeffizienten ist ein relatives oder größenunabhäniges Streuungsmaß. Er ist daher geeignet, die Streuung mehrerer Verteilungen mit unterschiedlichen Mittelwerten zu vergleichen. © JB Seite 7 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Regression und Korrelation Lineare Regression Bestimmung der Geradengleichung y = ax + b. Berechnungsverfahren 1: n a = n∑ xi yi − i =1 n n ∑ x 2i − i =1 n b = i =1 n i =1 i =1 2 ∑ n ∑ x ∑ yi 2 i n ∑ xi ∑ y i − i =1 n n ∑ x 2i − i =1 n xi i =1 n n i =1 i =1 2 ∑ xi ∑ xi yi n ∑ xi i =1 Arbeitstabelle: xi yi x i⋅y i x 2i ∑ xi ∑ yi ∑ xi yi ∑ x 2i Berechnungsverfahren 2: n a = ∑ x i −x y i −y i =1 n ∑ x i −x 2 = Kovarianz Varianz der x −Werte i =1 b = y −a x © JB Seite 8 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Arbeitstabelle: xi yi x i − x x i − x y i − y x i − x y i − y ∑ xi ∑ yi ∑ x i −x ∑ x i −x 2 ∑ y i −y ∑ x i −x y i −y 2 Korrelationskoeffizient von Pearson Der Korrelationskoeffizient von Pearson liefert ein Maß für die Abhängigkeit der beiden Merkmale x und y. Er kann die Werte zwischen -1 und +1 annehmen. r= 1: Alle Beobachtungswerte liegen auf einer steigenden Geraden. r = –1: Alle Beobachtungswerte liegen auf einer fallenden Geraden. r> 0: Merkmale positiv korreliert, d.h. die Regressionsgerade ist steigend. r< 0: Merkmale negativ korreliert, d.h. die Regressionsgerade ist fallend. r= 0: Die Merkmale sind unkorreliert, d.h. es besteht kein linearer Zusammenhang. Berechnungsverfahren 1: n r = ∑ x i −x y i −y i =1 ∑ n i =1 x i − x 2 ∑ n i =1 y i − y 2 n = 1 ∑ x −x y i −y n i =1 i n n 1 1 x i − x 2 y i − y 2 ∑ ∑ n i =1 n i =1 s xy s x⋅s y = Arbeitstabelle: xi yi ∑ xi ∑ yi © JB x i − x 2 x i − x y i − y ∑ x i −x 2 Seite 9 / 12 2 y i − y x i − x y i − y ∑ y i −y 2 ∑ x i −x y i −y Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Berechnungsverfahren 2: n r = n∑ xi yi − [ i =1 n n∑ x − i =1 2 i n n i =1 i =1 ∑ xi ∑ yi ∑ ][ ∑ 2 n i =1 xi n n i =1 2 i y − ∑ ] 2 n i =1 yi Arbeitstabelle: xi ∑ xi yi x i⋅y i x 2i y i2 ∑ yi ∑ xi y i ∑ x 2i ∑ y 2i Rangkoeffizient von Spearman Voraussetzung: es liegen zwei Merkmale vor, die mindestens eine Ordinalskala besitzen. Die Merkmalswerte eines jeden Merkmals werden aufsteigend geordnet und es wird ihnen entsprechend ihrem Platz eine Rangzahl zugeordnet. Für die weitere Berechnungen verwendet man nur noch die Rangzahlen, nicht mehr die tatsächlichen Merkmalswerte. n rs = 1 − 6 ∑ d i2 i =1 2 n n −1 n = Anzahl der statistischen Einheiten d i = Rang x i − Rang y i 2 d i = quadratische Differenz zwischen den Rängen der beiden Merkmale © JB Seite 10 / 12 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Mittlere quadratische Kontingenz y1 ... yj ... yr x1 n11 ... n1j ... n1r ... ... ... ... ... ... xi ni1 ... ... ... ... ... ... xm nm1 ... nmj ... nmr nm* n*r n nij n*1 nir n*j n1* ni* Berechnungsverfahren 1: C = 1 n ∑∑ m r i =1 j =1 n ⋅n n ij − i * * j n n i *⋅n * j n 2 Arbeitstabelle: nij n i *⋅n * j n n ij − n i *⋅n * j n n ⋅n nij − i * * j n 2 ∑ © JB Seite 11 / 12 n ⋅n n ij − i * * j n n i *⋅n * j n 2 n ⋅n n ij − i * * j n n i *⋅n * j n 2 Formelsammlung Beschreibende Statistik 2. Semester 2004/2005 Berechnungsverfahren 2: n 2ij C = ∑∑ i =1 j =1 n i *⋅n * j m r − 1 Arbeitstabelle: n ij n i *⋅n * j n 2ij n 2ij ni *⋅n * j n2ij ∑ n ⋅n i* *j Vierfelderkoeffizient n11 n12 n1* n21 n22 n2* n*1 n*2 n = n12⋅n 21 − n11⋅n22 n11n12 n21n22 n11n21 n12n22 korr = n12⋅n 21 − n11⋅n 22 n⋅minn11, n 22 n12 n 21 − n11 n22 wenn n12 n 21 n11 n 22 korr = n12⋅n 21 − n11⋅n 22 n⋅minn 21, n12 − n12 n 21 n11 n22 wenn n12 n 21 n11 n 22 © JB Seite 12 / 12