Eine Auswahl des Stoffes der Vorlesung ”Statistik für Wirtschaftswissenschaftler” Kurs 2007/08 1. Teil Inhaltsverzeichnis 1 Grundbegriffe der Statistik 1.1 Einführung . . . . . . . . . . . . . . . . . . . 1.2 Grundgesamtheit, Stichprobe . . . . . . . . . 1.3 Merkmale . . . . . . . . . . . . . . . . . . . . 1.4 Beschreibende Statistik, schließende Statistik . . . . 3 3 3 3 4 2 Teilaufgaben einer statistischen Untersuchung 2.1 Datenerfassung oder Erhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Aufbereitung und Auszählung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Darstellung des statistischen Materials . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 9 3 Parameter von Häufigkeitsverteilungen 3.1 Mittelwerte . . . . . . . . . . . . . . . . 3.2 Streuungsmaße . . . . . . . . . . . . . . 3.3 Pearsonsches Schiefemaß . . . . . . . . . 3.4 Lorenz–Kurve, Gini–Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 13 14 15 4 Maßzahlen, Verhältniszahlen, Indexzahlen 4.1 Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Verhältniszahlen . . . . . . . . . . . . . . . . . . . . . . . 4.3 Einführung der verschiedenen Indizes . . . . . . . . . . . . 4.4 Besondere Indexprobleme . . . . . . . . . . . . . . . . . . 4.4.1 Formale Eigenschaften . . . . . . . . . . . . . . . . 4.4.2 Einige Verfahren zur Behandlung von Indexreihen 4.5 Einige regelmäßig veröffentlichte Indizes . . . . . . . . . . 4.6 Subindizes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 17 18 20 21 21 22 23 24 5 Zeitreihenanalyse 5.1 Einführung der Zeitreihen . . . . . . . . . . . . . . . . 5.2 Komponenten einer Zeitreihe . . . . . . . . . . . . . . 5.3 Schätzung des Trends . . . . . . . . . . . . . . . . . . 5.3.1 Die Methode der gleitenden Durchschnitte . . . 5.3.2 Die Methode der exponentiellen Glättung . . . 5.3.3 Drei Funktionsansätze für die Trendschätzung . 5.3.4 Die Freihandmethode . . . . . . . . . . . . . . 5.3.5 Die Methode der kleinsten Quadrate . . . . . . 5.4 Saisonbereinigung . . . . . . . . . . . . . . . . . . . . . 5.4.1 Ein Verfahren bei additiver Verknüpfung . . . 5.4.2 Ein Verfahren bei multiplikativer Verknüpfung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 26 27 27 27 28 28 28 28 30 30 31 1 . . . . . . . . . . . . . . . . . . . . . . 6 Lineare Regression 6.1 Einfache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Zweifache Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 32 33 7 Wahrscheinlichkeitsrechnung 7.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Grundlagen der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . 7.3 Bedingte Wahrscheinlichkeit, stochastische Unabhängigkeit, Formel für die totale Wahrsch., Formel von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.4 Zufallsvariable, Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . 7.5 Erwartungswert, Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6 Spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.2 Poisson-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.3 Normalverteilung oder Gauß-Verteilung . . . . . . . . . . . . . . . . . . . 7.6.4 Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 7.7 Gemeinsame Verteilung mehrerer Zufallvariabler . . . . . . . . . . . . . . . . . . 7.8 Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.9 Gesetz der großen Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.10 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 34 36 2 41 42 47 48 48 48 49 51 52 54 55 55 Kapitel 1 Grundbegriffe der Statistik 1.1 Einführung Allgemeine Beschreibung der Statistik: Gegenstand: Massenerscheinungen aller Art (nicht auf ein bestimmtes Sachgebiet festgelegt). Aufgabe: Bereitstellung von Verfahren, mit deren Hilfe Entscheidungen getroffen werden können, die ein gewisses Maß an Unsicherheit zulassen müssen. Häufig auch nur Informationsbeschaffung. Aus der konkret gestellten Aufgabe ergibt sich das Ziel der stat. Untersuchung. Dieses Ziel sollte vor der stat. Untersuchung genau beschrieben werden. 1.2 Grundgesamtheit, Stichprobe Die Grundgesamtheit (=statistische Masse) besteht aus allen Personen oder Sachen, die von dem Untersuchungsziel erfaßt werden. Sie muß sachlich ( z.B. durch ”erwerbstätige Personen ” ); zeitlich ( z.B. durch einen Stichtag, etwa 1.9.95 ); örtlich ( z.B. durch ”in BW mit Hauptwohnsitz gemeldet ” ) genau abgegrenzt werden. Die Personen oder Sachen in der Grundgesamtheit nennt man statistische Elemente (= statistische Einheiten). Bei vielen stat. Verfahren untersucht man statt der ganzen Grundgesamtheit nur eine Stichprobe, d.h. eine Auswahl von Personen oder Sachen aus der Grundgesamtheit. Gegenstand der stat. Untersuchung ist aber die Grundgesamtheit, nicht die Stichprobe. 1.3 Merkmale An einzelnen stat. Elementen (häufig nicht an allen) werden Merkmale untersucht (z.B. erlernter Beruf). Häufig werden an einem stat. Element mehrere Merkmale untersucht (z.B. Alter, erlernter Beruf, ausgeübter Beruf). Das Untersuchungsergebnis eines Merkmals bei einem statischen Element heißt Merkmalsausprägung (=Merkmalswert), (z.B. 40 J. , 35 J. , . . . bei dem Merkmal ”Alter”) Bem.: Bei den ersten beiden Beispielen in der nachstehenden Tabelle 1.1 ist der Betrieb z.B. in einer Branche und nicht etwa der einzelne Beschäftigte stat. Element. 3 Arten von Merkmalen Art des Merkmals zeitpunktbezogen nicht häufbar Beispiele Anzahl der Beschäftigten am 1.9.95 (Stichtag) Anzahl der Neueinstellungen vom 1.9. − 30.9.95 Jahreseinkommen, Alter, Anzahl von · · · Staatsangehörigkeit, Geschlecht, Beruf Körpergröße, Alter häufbar Beruf, Staatsangehörigkeit zeitintervallbezogen quantitativ qualitativ Kennzeichung geht aus der Bezeichnung hervor geht aus der Bezeichnung hervor Ausprägungen sind durch Zahlen gegeben Ausprägungen sind durch Begriffe gegeben Jedes stat. Elem. kann nur eine Ausprägung haben Ein stat. Elem. kann mehrere Ausprägungen haben Weitere Unterteilung bei quantitativen Merkmalen: Art des Merkmals diskret stetig fast stetig Beispiele Merkmal Ausprägungen Anzahl von . . . 0, 1, 2, 3, ... Noten bei Prüfungs1.0, 1.3, 1.7, ... klausuren ..,5.0 Höhen über NN 320m, 310.7m, Zugkraft bei Zerreißen 30.1t, 28.61t, eines Seils 31.5t, ... Jahreseinkommen 20300.-, 31300.-, in DM ... Kennzeichnung Die Skala der denkbaren Ausprägungen kann nicht beliebig verfeinert werden Die Skala der denkbaren Ausprägungen kann beliebig verfeinert werden nicht stetig, aber näherungsweise wie ein stetiges Merkmal zu behandeln Weitere Begriffe: Die Festlegung der Bezeichnungen bzw. Maßeinheiten für die Merkmalsausprägungen nennt man Skalierung. Bei qualitativen Merkmalen spricht man von einer nominalen Skalierung, bei quantitativen von einer ordinalen Skalierung, wenn die Ausprägungen eine Rangfolge erkennen lassen, aber Differenzen und Quotienten der Zahlenwerte keine Bedeutung haben ( Bsp.:Notenskala), und von einer kardinalen Skalierung, wenn auch Differenzen und Quotienten von Ausprägungen sinnvoll zu interpretieren sind ( z.B. bei Einkommen ). 1.4 Beschreibende Statistik, schließende Statistik Ziel der beschreibenden Statistik ist es, die Daten, die eine empirische Untersuchung liefert, möglichst übersichtlich zu präsentieren, so daß die wesentlichen Informationen schnell aufgenommen werden können. Bei der schließenden Statistik werden nur stat. Elemente aus einer Stichprobe tatsächlich untersucht. Von dem Untersuchungsergebnis wird dann auf die Grundgesamtheit geschlossen, wobei eine gewisse Unsicherheit zugelassen werden muß. 4 Kapitel 2 Teilaufgaben einer statistischen Untersuchung 2.1 Datenerfassung oder Erhebung Primärstatistik: Gewinnung der Daten durch Umfragen o.ä. Vorteil: Die stat. Untersuchung kann genau dem Untersuchungsziel angepaßt werden. Nachteil: Hoher Aufwand und hohe Kosten. Daher sollten vor einer primärstat. Erhebung folgende Fragen geklärt werden: a) Sind die erforderlichen Daten bereits vorhanden, z.B. in Form von Belegen über Vorgänge im Betrieb oder als Ergebnisse bei einer amtl. Statistik, und sind sie ohne Eingriff in den Betriebsablauf zu beschaffen ? b) Sind bereits Daten für eine andere, ähnliche Untersuchung gesammelt worden ? In beiden Fällen empfiehlt sich als Erhebungsart die Sekundärstatistik: Benutzung vorhandenen Materials. Weitere Unterscheidungen: Einfache Zählung der stat. Elemente der Grundgesamtheit. Vollerhebung: Untersuchung aller Elemente der Grundgesamtheit. Vorteil: Vollständigkeit der Untersuchung Nachteile: a) sehr aufwendig und kostspielig, b) nicht immer durchführbar oder sinnvoll, c) Erhebung und Auswertung brauchen viel Zeit, daher verminderte Aktualität des Materials. Teilerhebung: Untersuchung der Elemente einer Stichprobe, dann Schluß auf die Grundgesamtheit. Vorteile: a) billiger, b) die Ergebnisse liegen früher vor, daher größere Aktualität, 5 c) intensivere Untersuchung möglich, daher u.U. genauere Ergebnisse als bei der Vollerhebung. Nachteil: Die Stichprobe kann eine andere Zusammensetzung haben als die Grundgesamtheit, was u.U. falsche Ergebnisse zur Folge hat. Beispiel für eine einmalige Erhebung: Zählung der am 1.1.95 beschäftigten Personen. Keine weiteren Zählungen geplant. Beispiel für eine laufende Erhebung: Monatliche Zählung der jeweils am 1. des Monats beschäftigten Personen. Bt := Zahl der Beschäftigten z. Zeit t. (Bsp. für eine Bestandsmasse) Zt1 ,t2 := Zahl der Zugänge zwischen t1 und t2 , d.h. Zahl der in diesem Zeitintervall neu eingestellten Personen At1 ,t2 := Zahl der Abgänge zwischen t1 und t2 , d.h. Zahl der Personen, die in diesem Zeitintervall aus dem Betrieb ausscheiden. (Zwei Beispiele für Bewegungsmassen) Fortschreibung: Bestimmung weiterer Werte von Bt über Zugänge und Abgänge: Bt2 = Bt1 + Zt1 ,t2 − At1 ,t2 Beispiele von Quellen, die bei sekundärstatistischer Erhebung benutzt werden können, und zwar für betriebsinterne Daten: a) Belege, z.B. Krankheits-, Lohn- u. Gehaltslisten, Stücklisten, Preislisten usw... b) Zahlenmaterial aus Buchhaltung, Kostenrechnung, Planung, usw... c) Information aus Betriebsberichten und für betriebsexterne Daten: a) statistische Jahrbücher, z.B. der BRD b) Zeitschrift ”Wirtschaft und Statistik” c) Fachserien des Statistischen Bundesamtes d) Veröffentlichungen der Statistischen Landesämter und der kommunalstatistischen Ämter e) Veröffentlichungen der Bundesanstalt für Arbeit f) Monatsberichte der Deutschen Bundesbank g) Statistiken von Wirtschaftsinstituten, Industrie- und Handelskammern, Gewerkschaften 2.2 Aufbereitung und Auszählung Zur Aufbereitung gehören z.B. folgende Tätigkeiten: Verschlüsselung (hauptsächlich von Ausprägungen qual. Merkmale) Beispiel: 1 Energiewirtschaft, Wasserversorgung und Bergbau 10 Energiewirtschaft und Wasserversorgung 11 Bergbau 6 110 Steinkohlebergbau u. Kokerei Prüfen des stat. Materials z.B. auf Vollständigkeit, Ablochen auf Datenkarten. Das Auszählen geschieht in der Regel maschinell. Nur bei kleineren Problemen sind noch manuelle Verfahren (z.B. Strichliste) sinnvoll. Eine erste Sammlung der Daten in der Reihenfolge, wie sie gerade registriert werden, heißt Urliste. Beispiel: Stampfzeiten von 3.4 3.6 3.8 3.8 4.2 4.5 4.0 3.6 3.7 3.3 3.5 4.2 3.6 3.8 3.7 Betonelementen in Minuten: 3.0 4.1 3.5 3.2 3.9 3.5 3.9 4.0 4.4 3.9 3.7 3.9 4.4 4.2 3.6 4.3 3.8 3.3 4.0 4.3 3.8 Ordnet man diese Daten der Größe nach, so erhält man eine Rangliste: 3.0 3.2 3.3 3.3 3.4 3.5 3.5 3.5 3.6 3.6 3.6 3.6 3.7 3.7 3.7 3.8 3.8 3.8 3.8 3.8 3.9 3.9 3.9 3.9 4.0 4.0 4.0 4.1 4.2 4.2 4.2 4.3 4.3 4.4 4.4 4.5 Tabelle 2.1: Häufigkeitstabelle oder Frequenztabelle aus den obigen Daten Stampfzeit xi 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 4.1 4.2 4.3 4.4 4.5 Summe fi 1 0 1 2 1 3 4 3 5 4 3 1 3 2 2 1 36 hi 0.028 0.000 0.028 0.056 0.028 0.083 0.111 0.083 0.139 0.111 0.083 0.028 0.083 0.056 0.056 0.028 1.001 h′i 2.8 0.0 2.8 5.6 2.8 8.3 11.1 8.3 13.9 11.1 8.3 2.8 8.3 5.6 5.6 2.8 100.1 fi ist die (absolute) Häufigkeit (Abk.: Hf.) des Merkmalswerts xi . fi hi := P k ist die relative Häufigkeit des Merkmalswerts xi . fj j=1 h′i := hi · 100 ist die prozentuale Häufigkeit des Merkmalswerts xi . Zu dem Bsp. einer klassierten Häufigkeitstabelle (untenstehende Tabelle 2.2): Eine Klasse (oder Gruppe) ist die Menge sämtlicher empirischer Daten, die innerhalb festgelegter Grenzen liegen, z.B. ”von 3600 bis unter 4800 (DM)”. Die Differenz der beiden Klassengrenzen heißt Klassenbreite . 7 Die kumulierten Häufigkeiten (= Summenhäufigkeiten ) beschreiben die (abs., rel. oder proz.) Häufigkeiten der Merkmalswerte unter einem bestimmten Wert bei aufsteigender Kumulation bzw. von einem bestimmten Wert an bei absteigender Kumulation. Für die aufsteigende Kumulation ist die obere Klassengrenze und für absteigende Kumulation die untere Klassengrenze der maßgebenden Wert, damit jeweils die ganze Klasse erfaßt wird. Für Werte innerhalb der Klassen können die kumulierten Häufigkeiten nur näherungsweise angegeben werden, z.B. über die untenstehende lineare Interpolationsformel (2.2.1). Würde man nämlich mit (2.2.1) die kumulierte Hf. für alle Werte innerhalb einer Klasse exakt berechnen können, so müßten die Merkmalswerte innerhalb dieser Klasse gleichmäßig verteilt sein. Da man aber die exakte Hf.-verteilung innerhalb der Klassen i.a. nicht kennt, kann man die Gleichverteilung nur als Näherungsanahme verwenden. Tabelle 2.2: Aufteilung der Lohnsteuerpflichtigen 1961 nach Bruttolohngruppen Bruttojahreslohngruppe von . . . bis . . . unter (in Tsd DM) 0 - 1.2 1.2 - 2.4 2.4 - 3.6 3.6 - 4.8 4.8 - 6.0 6.0 - 7.2 7.2 - 8.4 8.4 - 9.6 9.6 - 12 Summe fi h′i 1892641 1638205 1866273 2437081 2795752 2967843 2545287 1646398 1525416 19314895 9.16 7.93 9.03 11.79 13.53 14.36 12.31 7.97 7.38 93.46 kumul. proz. Hf aufsteig. Kum. 9.16 17.08 26.11 37.90 51.43 65.79 78.10 86.07 93.45 × kumul. proz.Hf. absteig. Kum 100.00 90.84 82.92 73.89 62.10 48.57 34.21 21.90 13.93 × 12 - 16 16 - 20 20 - 25 25 - 36 36 - 50 50 - 75 75 - 100 ab 100 834763 285345 131707 66662 21088 9236 2703 3056 4.04 1.38 0.64 0.32 0.10 0.04 0.01 0.01 97.49 98.87 99.50 99.83 99.93 99.97 99.99 100.0 6.55 2.51 1.13 0.50 0.17 0.07 0.03 0.01 Summe 1354560 6.54 × × (2.2.1) y y = y1 + 6 x−x1 x2 −x1 (y2 − y1 ) y1 y y2 - x1 x x2 x Anhaltspunkte für die Klassenbildung: a) Die Zahl der Klassen soll etwa zwischen 10 und 20 liegen (genauer vgl. DIN 55302). b) Die Klassen sind so festzulegen, daß jeder Merkmalswert nur einer Klasse angehört. Das wird in Tabelle 2.2 durch die Bezeichnung ”von ...bis unter...” erreicht. 8 c) Es sollen keine Klassen gebildet werden, die keine Merkmalswerte enthalten. d) Offene Klassen (=Flügelklassen) wie z.B. die letzte Klasse in Tabelle 2.2 sind nach Möglichkeit zu vermeiden. 2.3 Darstellung des statistischen Materials Schematische Darstellung der Bezeichnungsweisen in Tabellen (vgl. DIN 55301): Überschrift (Titel und wichtige Angaben) Tabellenkopf ... Fach Zeile Zeile Fach ... Vorspalte Spalte Spalte Quelle/Fußnoten Weitere Regeln für den Aufbau einer Tabelle: a) Jede Tabelle soll eine Überschrift haben, die den wesentlichen Tabelleninhalt in möglichst knapper Form kennzeichnet. Der Titel soll sowohl die wesentlichen Gliederungsmerkmale in Tabellenkopf und Vorspalte als auch den Erhebungssektor kennzeichnen. b) Zahlentabellen sollen keine leeren Fächer enthalten. Sind aus irgendwelchen Gründen in bestimmte Tabellenfächer keine Zahlen einzutragen, so hat man statt dessen eines der folg. Zeichen einzusetzen: ”×”, wenn aus sachlichen Gründen keine Eintragung gemacht werden kann. ”−”, wenn der Zahlenwert genau Null ist, ”0”, wenn der Zahlenwert von Null verschieden, aber kleiner als die Hälfte der Einheit von dem niedringsten, in der Tab. noch angegeb. Stellenwert ist, ”·”, wenn der Zahlenwert unbekannt ist oder nicht mitgeteilt wird, ”· · ·”, wenn der Zahlenwert erst in einem späteren Zeitpunkt zu erwarten ist. 9 c) Vorläufige Zahlen werden durch beigefügtes ”p”, berichtigte Zahlen durch ”r”, geschätzte Zahlen durch ”s” gekennzeichnet. Diese Bedeutung der Buchstaben ”p,r,s” ist unter der Tab. anzugeben. d) Das Fach über der Vorspalte ist (wie etwa in Tab. 2.2) im allgemeinen als Kopf zur Vorspalte zu benutzen. Eine andere Verwendung ist wie folgt zu kennzeichnen: XX XXX XXX Vorspalte zum Kopf XX XXX XXX XX XX Kopf zur Vorspalte X Vorspalte zum Kopf - e) Häufig ist eine Numerierung der Tabellen und auch der Zeilen und Spalten in den Tabellen zweckmäßig. f) Ebenso ist die Bildung von Unterspalten zulässig und in vielen Fällen zweckmäßig. Beispiele von graphischen Darstellungen: Stabdiagramm Zahl der Beschäftigten 6 100 80 60 40 20 - Montage Ersatzteile Reparatur Lager 10 Verwaltung Betriebszweig Histogramme zu klassierten Häufigkeitstabellen · · · - mit variabler Klassenbreite (Siehe Tab. 2.2) - mit konst. Klassenbreite Proz. Hf auf die Klassenbreite 1200 DM umgerechnet 6 Zahl der Großhändler 6 15 15 10 10 5 5 - 10 30 Umsatz in 1000 Euro 80 - 1.2 4.8 9.6 Bruttolohn in 1000 DM 12 16 20 Regel: Die Flächen der Rechtecke sind proportional zur (abs., rel. bzw. proz.) Häufigkeit. Für die Höhen gilt das bei variabler Klassenbreite i.a. nicht. (2.3.1) Rechteckhöhe = (abs., rel., bzw. proz) Hf. Bezugsklassenbreite Klassenbreite Einige der im folgenden behandelten Sachverhalte bei Hf-Verteilungen lassen sich am besten an graphischen Darstellungen mit glatter Kurve (vgl u.) statt der Stufenkurve des Histogramms erläutern. Eine solche glatte Kurve erhielte man in vielen Fälle als Grenzkurve, wenn man die Zahl der Merkmalswerte immer weiter erhöhen und die Klassenbreiten immer weiter verkleinern würde (im Gegensatz zu der Regel a) Abschn. 2.2.) 11