Statistik – Formelsammlung © by Nico S. Beck – WS 01/02 1. Variabelenbezeichnungen, Formeln N hi Statistische Einheiten Absolute (Klassen-) Häufigkeit fi Hi Fi xi xiu xio Relative (Klassen-) Häufigkeit Absolute Summenhäufigkeit Relative Summenhäufigkeit Merkmalsausprägung Untere Klassengrenze Obere Klassengrenze Klassenbreite Klassenanzahl xi k h j Spaltensumme Beschreibung / Formel Anzahl der statistischen Einheiten Wie oft kommt eine Merkmalsausprägung in der GG vor. Beispiel 20 Studenten 6 Mi’s im 2 Sem. 0,23 23; 51; … 0,10; 0,27; … Rot, blau, … 1800,5 4950,5 200 100 Beschreibt den prozentualen Anteil einer Merkmalsauspr. Aufsummierung aller hi (ab ordinalskalierten Merkmalen) Aufsummierung aller fi (ab ordinalskalierten Merkmalen) Eines der Ausprägungen der Wertebereichs des Merkmals Untere Grenze einer Klasse Obere Grenze einer Klasse Klassenober- - Klassenuntergrenze 25<= N <= 400: k N ; 25<= N <= 8000: k 3 N Absolute Häufigkeit der Ausprägungen h j r hij i m hi Zeilensumme hij fij Absolute Randhäufigkeit Relative Häufigkeit Quantil Zeilen- und Spaltensummen werden addiert fij = hij / N -> Anzahl der relativen Häufigkeiten siehe „Begriffe und Erklärungen“ xmod xme Modus (Modalwert) Median (Zentralwert) Aus 2, 3, 4, 5, 6, 3 ist Modus = 3 Aus 1, 2, 3, 4, 5 ist Median der Wert 3, aus 1, 2, 3, 4 ist der Median 2,5. Arithmetisches Mittel Absolute Häufigkeit der Ausprägungen hi hij j x ' W Gewichtetes arithm. Mittel (mü) 1 N xi N i 1 k aus Häufigkeitstabelle: Harmonisches Mittel k W wi xi H und Geometrisches Mittel w i 1 i 1 wi ist das Gewicht N N 1 x i 1 G f i xi i 1 k i 1 H 0,5 Gn i n x i i 1 MAc Mittlerer Abstand Varianz (sigma) N MAc (1 / N ) xi c i 1 2 k MAc ( f i xi c ) i 1 N 2 (1 / N ) ( xi ) 2 i 1 oder aus absoluter bzw. relativer. Häufigkeit: k 2 ( f i xi 2 ) 2 i 1 Standardabweichung (sigma) N ((1 / N ) ( xi ) 2 ) i 1 VC Variationskoeffizient VC / mr(c) Momente mr (c) (1 / N ) ( x j c) r mit r = 1, 2, 3, … m1(0) m2( ) SM Moment 1. Ordnung Moment 2. Ordnung Schiefmaß Entspricht dem arithmetischen Mittel Entspricht der Varianz N j 1 SM m3 W Wölbung (Exzess) w Rs 3 m4 ( ) 3 Rangkorrelationskoeffizient nach Spearman 0 linksschie fe SM 0 symmetrische Verteilung 0 rechtsschiefe ( ) 0 breitbrüst ige w 0 normalbrüstige Verteilung 0 schmalbrüstige 3 N Rs 1 6 (ri r 'i ) 2 i 1 N ( N 2 1) 1 ri r 'i füri Rs 1 ri N 1 r 'i 0 kein _ Trend -1 <= Rs <= 1 ri sind Rangnummern von xi und r’i von yi COV Empirische Kovarianz N COV (1 / N ) ( xi x )( yi y ) i 1 wenn aus Häufigkeitstabelle: r l COV (1 / N ) ( xi x )( y j y ) fij i 1 j 1 r Einfacher Korrelationskoeffizient COV > 0 -> Es existiert ein positiver Zusammenhang. Die Beobachtungs paaren liegen überwiegend im I. und III. Quadranten. COV < 0 -> Es existiert ein negativer Zusammenhang. Die Beobachtungs paaren liegen überwiegend im II. und IV. Quadranten. COV > 0 -> Die Merkmale sind unkorreliert. … r = 1 starker positiver Zusammenhang r > 0 positive Korrelation r = 0 kein Zusammenhang / keine Korrelation r < 0 negative Korrelation r = 1 starker negativer Zusammenhang 2. Diagramme und Darstellungen Bezeichnung Histogramm Häufigkeitspolynom Kreisdiagramm Summenhäufigkeit Streudiagramm Erklärung: Oder auch Säulendiagramm. Häufigkeiten werden durch Flächen dargestellt Entsteht durch Verbinden der oberen Punkte der Stäbe der Stabdiagramme (Histogramme etc.) Zu jeder Merkmalsausprägung wird ein Kreissektor gebildet. Sektorfläche ist proportional zu den Häufigkeiten (Besonders gut bei nominalskalierten Merkmalen) Graphische Darstellung der Summenhäufigkeiten Punktwolke im Koordinatensystem Abszisse Körpergröße in cm Ordinate hi Körpergröße in cm hi - - Länge in m Körpergröße in m fi Körpergewicht in kg 3. Begriffe und Erklärungen Nominalskala Ordinalskala Rangskala Metrische Skala Intervallskala Verhältnisskala Erhebungen Teilerhebung Vollerhebung Sekundärstatistische Unters. Primärstatistische Unters. Grundgesamtheit Merkmalsträger Merkmal (statistisches Merkmal) Merkmalsausprägung Wertebereich Stetige Merkmale Diskrete Merkmale Dichotome Merkmale Eindimensionale Merkmale Mehrdimensionale Merkmale Quantil ( -Quantil) Ohne Ordnungsbeziehung (z. B. Farbskala, Geschlecht, Religionszugehörigkeit) Mit Ordnungsbeziehung aber ohne Abstandsquantifizierung (Schulnoten) Ordinalskala aber beginnend mit i = 1 Mit Ordnungsbeziehung und Abstandsquantifizierung (Längenangaben) Metrisch – Skalennullpunkt willkürlich, Quotientenbildung unsinnig (Temperatur) Metrisch – absoluter Skalennullpunkt, Quotientenbildung sinnvoll (Alter, Größe) Beschaffen von Daten zur Auswertung durch: schriftliche oder mündliche Befragung, Experiment, Beobachtung, automatische Erfassung (Kassensysteme etc.) Beispiel: Bei einer Umfrage auf der Straße wird nicht jeder Mensch befragt. Beispiel: Durch eine Kasse werden alle verkauften Artikel registriert Vorhandenes Datenmaterial wird genutzt Daten müssen erst Erhoben werden (siehe Erhebung) Endlich oder Unendlich, sowie real oder hypothetisch. Die Grundgesamtheit muss räumlich, zeitlich und sachlich abgrenzbar sein. Die statistische Einheit, die die Merkmale besitzt. (z. B. „Auto“) Eigenschaften einer statistischen Einheit, für die man sich bei einer Untersuchung interessiert. (z. B. die „Art“ des Autos) Daten, die erhoben werden und statistisch Analysiert. (z.B. „Benziner oder Diesel“) Wird nach verschiedenen Gesichtspunkten klassifiziert: Skalen, Stetigkeit, Dimension (bei metrisch skalierten M.) Ausprägung kann Werte aus einen Intervall annehmen, die nur beliebig genau, jedoch nie 100% erfasst werden können. (Länge, Zeit, Gewicht) (bei metrisch skalierten M.) Praktisch ist nur das ganzzahlige Vielfache eines kleinsten Messintervalls messbar (Geldbeträge (kleiner als Pfennig gibt es nicht)) Diskrete Merkmale mit nur zwei Merkmalsausprägungen Merkmalsausprägung kann durch eine einzige Angabe charakterisiert werden (Zeit…) Zur eindeutigen Charakterisierung sind k Angaben notwendig (Vektor (x, y, z)...) Ein wird durch zwei gleichwertige Eigenschaften definiert: (1) min. 100 * % der Werte sind <= x ' und min. 100 * (1- ) % sind >= x ' (2) max. 100 * Median Quartil Dezil Percentil Anteilswerte Modus (Modalwert) Lageparameter Median (Zentralwert) Arithmetisches Mittel Gewichtetes arithm. Mittel (gewogenes) Gesamtmittelwert Harmonisches Mittel Geometrisches Mittel % der Werte sind < x ' und max. 100 * (1- ) % sind > x ' 0,5 Quantil (siehe erneut weiter unten) Das Quartil ist ein (1/4)-Quantil mit i = 1, 2, 3, 4. Somit entspricht das 1. Quartil dem 0,25 Quantil und das 3. Quartil dem 0,75 Quantil usw. Wir Quartil jedoch mit i = 1, 2, …, 10. Das 1. Dezil entspricht dem 0,10 Quantil usw. Wie Quartil jedoch mit i = 1, 2, …, 100. Das 1. Perc. entspricht dem 0,01 Quantil usw. Zur Berechnung der zugehörigen Quantils durch Angabe eines Wertes: 25 Zahlen, 22 sind kleines als 4,5 und 3 sind größer. 22/25 => 88%-Quantil Ist die Merkmalsausprägung, die am häufigsten vorkommt. Für nominalskalierte Merkmale ist der Modus der einzig sinnvolle Lageparameter. Stehen die Werte in einer <=Beziehung, dann ist der Median x me die MerkmalsAusprägung desjenigen Elementes, welches in einer geordneten Beobachtungsreihe in der Mitte steht. Mindestens ordinalskalierte Merkmale. Medien braucht nicht Element der Beobachtungsreihe zu sein. Beispiel xme=3,5 mit 1, 2, 3, 4, 5, 6 Damit ist der „Mittelwert“ oder der „Durchschnitt“ gemeint und sollte mindestens nur für intervalskalierte Merkmale berechnet werden. Der Mittelwert ist sehr empfindlich gegenüber Ausreißern. … Ist gleich mit dem gewichteten arith. Mittel der k Einzelelemente i . Die Gewichte sind proportional zu den einzelnen Umfängen. Sinnvoll anwendbar zur Berechnung des Durchschnitts, wenn das Merkmal als Quotient definiert ist und der Zähler des Quotienten und die Häufigkeit auf dieselbe Größe bezogen sind. (für verhältnisskalierte Merkmale, welche alle entweder positiv oder negativ sein müssen) Es geht um die Mittlung relativer Verhältnisse. Ist Sinnvoll anwendbar, wenn die zugrunde liegende Häufigkeitsfunktion einer geometrischen Zahlenfolge entspricht. Durchschnittliche, prozentuale Entwicklung einer wirtschaftlichen Größe (Gewinn, Kapital, Aktienkurs, Preis). Ausprägungen müssen alle positiv sein und Merkmale Spannweite (Range) R Quartilsabstand Quantilsabstand Mittlerer Abstand Varianz Standardabweichung Variationskoeffizient Momente Schiefmaß Wölbung (Exzess) Korrelation Korrelationskoeffizient Regressionsanalyse Chi-Quadrat Phi-Koeffizient Kontingenzkoeffizient nach Pearson Rangkorrelationskoeffizient nach Spearman Empirische Kovarianz Einfacher Korrelationskoeffizient verhältnisskaliert. Gibt den Abstand zwischen größten und kleinsten Beobachtungswert an. (Bei klassierten Datenmaterial werden u. U. die einzelnen Grenzen betrachtet) Differenz zwischen 75% und 25% Quartil (Umfasst also 50%) Differenz zwischen zwei Quantilen Gibt die Absolute Abweichung der Beobachtungswerte von einem Zahlenwert c an. … Die Dimension der Varianz ist das Quadrat der Dimension der Beobachtungswerte. Ist die Wurzel aus der Varianz. Ist ein relatives Streuungsmaß. Er kann als Streuungsmaß zum Vergleich zweier Verteilungen mit stark voneinander unterschiedlichen Mittelwerten benutzt werden. Sinnvoll nur für positive verhältnisskalierte Merkmale. Dienen der einheitlichen Beschreibung von Verteilungen. Momente bezüglich dem Wert c=0 (1. Ordnung = arithm. Mittel) werden gewöhnliche und bezüglich dem Wert c= (2. Ordnung = Varianz) zentrale Momente genannt. Zentrale Momente ungerader Ordnung eignen sich als Maß der Schiefe. Je größer SM, desto schiefer ist die Verteilung. Ist als ein Maß für die Wölbung einer symmetrischen Verteilung zu benutzen. w vergleicht die Wölbung einer Verteilung mit der einer Normalverteilung. Abhängigkeit zwischen Merkmalen. Ermittlung durch Korrelationsanalyse. Gibt die Stärke des Zusammenhangs an. 0 = kein, 1 = vollständiger Zusammenhang. Versuch, den Zusammenhang in funktionaler Form zu beschreiben: Die Stärke und der Typ des Zusammenhangs sowie eine mathematische Funktion, die den ZusammenHang möglichst gut beschreibt. Zur Berechnung zweier Merkmale durch quadratische Kontingenz. 0 = keine Abhängigkeit; Ist nur für quadratische Kontingenztafeln zu benutzen. Man berücksichtigt hier die Grundgesamtheit. Wenn 0 dann Unabhängigkeit, wenn = r-1 dann volle Abh. Basiert auf Chi-Quadrat. Ist aber eine normierte Größe von Chi-Quadrat. Ckorr = 0 bei Unabhängigkeit und Ckorr = 1 bei Abhängigkeit. Der Spearman’sche Rangkorrelationskoeffizient ist ein Maß für den Zusammenhang in der Rangfolge der Beobachteten Merkmalswerte. Für ordinalskalierte Merkmale. Eine Fläche wird berechnet… Wertebereich von minus bis plus Unendlich! Ist ein Maß für die Linearität eines Zusammenhangs zwischen zwei Merkmalen X und Y.