2 Grundbegriffe der Statistik 2.1 Grundgesamtheit und

Werbung
Udo Bankhofer | Jürgen Vogel
Datenanalyse und Statistik
Udo Bankhofer | Jürgen Vogel
Datenanalyse
und Statistik
Eine Einführung für Ökonomen im Bachelor
Bibliografische Information Der Deutschen Nationalbibliothek
Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der
Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über
<http://dnb.d-nb.de> abrufbar.
Prof. Dr. Udo Bankhofer ist Leiter des Fachgebiets Quantitative Methoden der Wirtschaftswissenschaften an der TU Ilmenau.
Dr. Jürgen Vogel ist Wissenschaftlicher Mitarbeiter am Lehrstuhl für Quantitative Methoden der
Wirtschaftswissenschaften an der TU Ilmenau.
1. Auflage 2008
Alle Rechte vorbehalten
© Betriebswirtschaftlicher Verlag Dr. Th. Gabler | GWV Fachverlage GmbH, Wiesbaden 2008
Lektorat: Susanne Kramer | Jutta Hinrichsen
Der Gabler Verlag ist ein Unternehmen von Springer Science+Business Media.
www.gabler.de
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede
Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne
Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für
Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung
und Verarbeitung in elektronischen Systemen.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk
berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im
Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher
von jedermann benutzt werden dürften.
Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de
Druck und buchbinderische Verarbeitung: Wilhelm & Adam, Heusenstamm
Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier
Printed in Germany
ISBN 978-3-8349-0434-8
Literaturverzeichnis
Vorwort
In der Praxis werden umfassendere statistische Auswertungen heute ausnahmslos
mittels entsprechender Software durchgeführt. Dabei muss man nicht zwangsläufig
auf spezielle Statistikprogramme zurückgreifen, da selbst in vielen Standardanwendungen, wie beispielsweise in Microsoft Excel, entsprechende Methoden implementiert sind. Dies hat für den Anwender dieser Software zwei entscheidende Vorteile:
Zum einen wird ihm die Rechenarbeit abgenommen und zum anderen können aufgrund heutiger Rechnerleistungen auch immense Datenmengen problemlos analysiert
werden. Dennoch muss der Anwender selbst entscheiden, welche Methode zur Auswertung der Daten geeignet ist, welche Prämissen gegebenenfalls zu beachten und wie
die Analyseergebnisse zu bewerten und im Hinblick auf die zugrundeliegende Problemstellung zu interpretieren sind. Genau an dieser Stelle setzt das vorliegende Buch
an. Bei der Darstellung der Methoden wird besonderer Wert darauf gelegt, dass auch
die jeweiligen Voraussetzungen, das Anwendungsspektrum und die entsprechenden
Ergebnisinterpretationen nicht zu kurz kommen. Darüber hinaus werden die Methoden anhand zahlreicher Beispiele erläutert, um das grundlegende Verständnis zu
vertiefen.
Die in der europäischen Hochschullandschaft zurzeit stattfindende Umstellung auf
das gestufte Bachelor-Master-System verlangt, Studierende schon in sechs bis sieben
Semestern für ihren angestrebten Beruf zu qualifizieren. Die erfordert eine Straffung
der Ausbildung und die Konzentration auf grundlegende inhaltliche Schwerpunkte in
den neuen Bachelorstudiengängen. Das vorliegende Lehrbuch soll einen Beitrag dazu
leisten. Es richtet sich vor allem an Studierende wirtschafts- und sozialwissenschaftlicher sowie verwandter Bachelorstudiengänge, in denen grundlegende Kenntnisse statistischer und datenanalytischer Methoden benötigt werden.
In diesem Buch werden neben der deskriptiven und induktiven Statistik insbesondere
auch Methoden der Datenanalyse sowie neuere Ansätze des Data Mining behandelt.
Daraus resultiert die Gliederung in vier Teile. In Teil 1 erfolgt eine Einführung in die
deskriptive Statistik. Dabei werden in den Kapiteln 1 bis 7 Grundlagen und Grundbegriffe der Statistik, Häufigkeitsverteilungen, statistische Maßzahlen und Zusammenhangsmaße, die lineare Regression sowie Indexzahlen thematisiert. Der Teil 2
widmet sich dann der induktiven Statistik. Nach einer Darstellung der entsprechenden Grundlagen in Kapitel 8 werden in den Kapiteln 9 bis 11 Punkt- und Bereichsschätzungen sowie Signifikanztests behandelt. Der dritte Teil des Buches befasst sich
anschließend mit grundlegenden Methoden der Datenanalyse. Den Ausgangspunkt
dazu stellen Daten- und Distanzmatrizen dar, die Gegenstand von Kapitel 12 sind. Die
Kapitel 13 bis 15 setzen sich dann mit den einzelnen Aufgabenstellungen der Daten-
V
Vorwort
analyse in Form der Klassifikation, Repräsentation und Identifikation auseinander.
Abschließend geht der Teil 4 des Buches noch auf den Bereich des Data Mining ein.
Mit den Kapiteln 16 bis 18 werden dabei der Gegenstand des Data Mining, der Ansatz
der Assoziationsanalyse sowie Entscheidungsbäume vorgestellt. Vorausgesetzt werden dabei mathematische und wahrscheinlichkeitstheoretische Grundkenntnisse, wie
Sie üblicherweise in allen oben angesprochenen Studiengängen in den ersten beiden
Semestern vermittelt werden. Dennoch wurden insbesondere wahrscheinlichkeitstheoretische Grundlagen im Anhang A dieses Buches zusammengestellt, auf die an den
entsprechenden Textstellen auch verwiesen wird. Dadurch soll die Lektüre erleichtert
werden, da die notwendigen Grundkenntnisse direkt nachgeschlagen und vertieft
werden können. Die unverzichtbaren statistischen Tafeln, die von uns mit Hilfe von
Microsoft Excel erstellt wurden, befinden sich im Anhang B.
Wir möchten dieses Vorwort nicht schließen, ohne uns bei all denjenigen recht herzlich
zu bedanken, die an der Entstehung dieses Buches mitgewirkt haben. An erster Stelle
ist hier Herr Dipl.-Kfm. Christian Kornprobst zu nennen, der das Kapitel 18 verfasst
und uns bei der Erstellung der Kapitel 16 und 17 unterstützt hat. Besonderer Dank
geht auch an den Gabler-Verlag und in diesem Zusammenhang vor allem an Frau
Kramer und Frau Hinrichsen, die mit uns bis zur endgültigen Fertigstellung des Manuskripts verständnisvoll und jederzeit hilfsbereit zusammengearbeitet haben.
Udo Bankhofer
Jürgen Vogel
VI
Inhaltsverzeichnis
Inhaltsverzeichnis
Teil 1: Beschreibende Statistik
1
Einführung .................................................................................................................
3
2
Grundbegriffe der Statistik ....................................................................................
5
2.1
Grundgesamtheit und Merkmale .................................................................
5
2.2
Skalenarten .......................................................................................................
8
2.3
Datenerhebung ................................................................................................ 10
2.4
Quellen wirtschaftsstatistischer Daten ......................................................... 11
3
4
5
6
Häufigkeitsverteilungen ......................................................................................... 13
3.1
Primäre Häufigkeitstabelle ............................................................................ 13
3.2
Sekundäre Häufigkeitstabellen ..................................................................... 16
3.3
Grafische Darstellung von Häufigkeiten ..................................................... 21
Statistische Maßzahlen ............................................................................................ 27
4.1
Lageparameter ................................................................................................. 27
4.2
Streuungsparameter ....................................................................................... 32
4.3
Box-Whisker-Plots ........................................................................................... 37
4.4
Empirische Quantile ....................................................................................... 39
4.5
Empirische Momente ...................................................................................... 40
4.6
Konzentrationsmaße ....................................................................................... 44
Zusammenhänge zwischen Merkmalen ............................................................... 51
5.1
Der empirische Korrelationskoeffizient ....................................................... 52
5.2
Der Rangkorrelationskoeffizient von Spearman ......................................... 55
5.3
Der Kontingenzkoeffizient ............................................................................. 58
Lineare Regression ................................................................................................... 63
6.1
Lineare einfache Regression .......................................................................... 64
6.2
Curvilineare Regression ................................................................................. 70
VII
Inhaltsverzeichnis
7
Indexzahlen ............................................................................................................... 75
7.1
Einfache Indizes .............................................................................................. 75
7.2
Zusammengesetzte Indizes ............................................................................ 76
7.3
Internationale Preisvergleiche ....................................................................... 82
7.4
Einige wirtschaftlich bedeutsame Indizes ................................................... 85
Teil 2: Schließende Statistik
8
9
10
Grundlagen der schließenden Statistik ................................................................ 91
8.1
Grundbegriffe der schließenden Statistik .................................................... 91
8.2
Wichtige Stichprobenfunktionen .................................................................. 94
8.3
Quantile von Prüfverteilungen ...................................................................... 100
Punktschätzungen .................................................................................................... 105
9.1
Wünschenswerte Eigenschaften von Punktschätzungen ........................... 106
9.2
Konstruktionsmethoden für Punktschätzungen ......................................... 110
Bereichsschätzungen ................................................................................................ 117
10.1 Definition des Begriffs Konfidenzintervall .................................................. 117
10.2 Konfidenzintervalle für normalverteilte Merkmale ................................... 118
10.3 Konfidenzintervall für eine Wahrscheinlichkeit p ...................................... 122
11
Signifikanztests ........................................................................................................ 125
11.1 Grundbegriffe der Testtheorie ....................................................................... 125
11.2 Parametertests für normalverteilte Merkmale ............................................ 127
11.3 Test auf Wahrscheinlichkeit ........................................................................... 133
11.4 Anpassungstests .............................................................................................. 135
11.5 Tests auf Unabhängigkeit ............................................................................... 140
11.6 Stichprobenvergleiche .................................................................................... 144
11.7 Der Vorzeichentest .......................................................................................... 147
11.8 Signifikanztests in Statistiksoftware ............................................................. 151
VIII
Inhaltsverzeichnis
Teil 3: Datenanalyse
12
Daten- und Distanzmatrizen .................................................................................. 155
12.1 Objekte, Merkmale, Distanzen ...................................................................... 155
12.2 Merkmalstypen und ihre Distanzen ............................................................. 158
12.3 Aggregation von Distanzen ........................................................................... 164
13
Klassifikationsverfahren ......................................................................................... 173
13.1 Klassifikationstypen ....................................................................................... 173
13.2 Klassifikationsheuristiken .............................................................................. 177
13.3 Bewertungskriterien ....................................................................................... 180
13.4 Partitionierende Verfahren ............................................................................. 188
13.5 Hierarchische Verfahren ................................................................................. 196
14
Repräsentationsverfahren ....................................................................................... 207
14.1 Mehrdimensionale Skalierung ...................................................................... 208
14.2 Faktorenanalyse .............................................................................................. 219
15
Identifikationsverfahren ......................................................................................... 225
15.1 Multiple Regression ........................................................................................ 227
15.2 Diskriminanzanalyse ...................................................................................... 234
15.3 Varianzanalyse ................................................................................................. 243
Teil 4: Data Mining
16
Gegenstand des Data Mining ................................................................................. 253
16.1 Knowledge Discovery in Databases ............................................................. 253
16.2 Anwendungsbereiche und Methodenüberblick ......................................... 255
16.3 Einsatzgebiete und Anwendungsbeispiele .................................................. 258
17
Assoziationsanalyse ................................................................................................. 261
17.1 Grundlegende Begriffe ................................................................................... 261
17.2 Generierung von Assoziationsregeln ........................................................... 263
17.3 Interessantheitsmaße ...................................................................................... 268
17.4 Sequenzanalyse ............................................................................................... 270
IX
Inhaltsverzeichnis
18
Entscheidungsbäume ............................................................................................... 273
18.1 Klassifikationsbäume ...................................................................................... 273
18.2 Auswahlmaße .................................................................................................. 276
18.3 Entscheidungsbaumverfahren ....................................................................... 282
18.4 Kritische Anmerkungen ................................................................................. 283
Anhang
A
B
Wahrscheinlichkeitstheorie .................................................................................... 287
A.1
Wahrscheinlichkeiten ...................................................................................... 287
A.2
Eindimensionale Verteilungen ...................................................................... 292
A.3
Zweidimensionale Verteilungen ................................................................... 298
A.4
Grenzwertsätze ................................................................................................ 303
Statistische Tafeln ..................................................................................................... 307
Literaturverzeichnis ......................................................................................................... 315
Stichwortverzeichnis ........................................................................................................ 321
X
Grundgesamtheit und Merkmale
Teilȱ1ȱ
BeschreibendeȱStatistikȱ
1ȱ
2.1
Grundgesamtheit und Merkmale
1 Einführung
KeinȱWissenschaftler,ȱkeinȱPolitikerȱundȱkeinȱUnternehmerȱkannȱesȱsichȱheuteȱleisten,ȱ
seineȱEntscheidungenȱohneȱstatistischȱbelegteȱInformationenȱzuȱtreffen.ȱDabeiȱhatȱdieȱ
Statistikȱ inȱ derȱ breitenȱ Bevölkerungȱ nichtȱ unbedingtȱ einenȱ gutenȱ Ruf.ȱ Alsȱ trockeneȱ
Beschäftigungȱ mitȱvielenȱZahlenȱverschrien,ȱwirdȱihrȱzusätzlichȱnochȱeinȱunredlicherȱ
Charakterȱnachgesagt.ȱDerȱehemaligeȱbritischeȱPremierministerȱBenjaminȱDisraeliȱsollȱ
dasȱ einmalȱ soȱ aufȱ denȱ Punktȱ gebrachtȱ haben:ȱ „Thereȱ areȱ threeȱ kindsȱ ofȱ lies:ȱ lies,ȱ
damnedȱlies,ȱandȱstatistics.“ȱHinzuȱkommt,ȱdassȱdurchȱunsachgemäßesȱInterpretierenȱ
statistischerȱ Erkenntnisseȱ häufigȱ auchȱ unbeabsichtigtȱ falscheȱ Schlussfolgerungenȱ
gezogenȱ werden.ȱ Nichtȱ immerȱ sagtȱ einemȱ derȱ gesundeȱ Menschenverstand,ȱ dassȱ daȱ
etwasȱ nichtȱ stimmenȱ kann,ȱ wieȱ inȱ dieserȱ nichtȱ wirklichȱ passiertenȱ Episode:ȱ Einȱ
BrummifahrerȱhältȱsichȱinȱeinerȱRaststätteȱgeradeȱmitȱeinemȱKännchenȱKaffeeȱmunter,ȱ
alsȱ durchȱ dasȱ Radioȱ dieȱ Meldungȱ kommt:ȱ „Neuesteȱ statistischeȱ Veröffentlichungenȱ
besagen,ȱ dassȱ beiȱ 10ȱ%ȱ allerȱ Verkehrsunfälleȱ Alkoholȱ imȱ Spielȱ war.“ȱ Derȱ Fahrerȱ
überlegt:ȱ „Dasȱ bedeutetȱ doch,ȱ dassȱ beiȱ 90ȱ %ȱ allerȱ Unfälleȱ …?ȱ Herrȱ Wirt,ȱ bitteȱ zweiȱ
Doppelte!“ȱ
DerȱUrsprungȱdesȱWortesȱStatistikȱliegtȱimȱlateinischenȱ„status“ȱ(Zustand,ȱStaat)ȱundȱ
demȱ italienischenȱ „statista“ȱ (Staatskundiger,ȱ Politiker).ȱ Soȱ bedeuteteȱ Statistikȱ inȱ derȱ
Mitteȱ desȱ 17.ȱJahrhundertsȱ dieȱ Lehreȱ vonȱ denȱ Staatsmerkwürdigkeiten.ȱ Damitȱ warenȱ
z.ȱB.ȱ dieȱ Bevölkerung,ȱ dasȱ Heer,ȱ dieȱ landwirtschaftlichenȱ Flächenȱ undȱ dieȱ Gewerbeȱ
gemeint.ȱ Erstȱ imȱ 19.ȱ Jahrhundertȱ erhieltȱ dasȱ Wortȱ dieȱ heutigeȱ Bedeutungȱ desȱ SamȬ
melnsȱundȱAnalysierensȱvonȱDaten.ȱ
ObwohlȱdieȱStatistikȱeineȱrelativȱjungeȱWissenschaftȱist,ȱreichenȱihreȱUrsprüngeȱdochȱ
mindestensȱfünftausendȱJahreȱzurück.ȱDieȱBabylonierȱhinterließenȱkleineȱTontafelnȱmitȱ
TabellenȱüberȱlandwirtschaftlicheȱErträgeȱundȱgetauschteȱWaren.ȱDieȱÄgypterȱnahmenȱ
2500ȱ v.ȱ Chr.ȱ alleȱ zweiȱ Jahreȱ Zählungenȱ desȱ Geldes,ȱ derȱ Felderȱ undȱ derȱ Bevölkerungȱ
vor.ȱImȱaltenȱRomȱfandenȱinnerhalbȱvonȱ500ȱJahrenȱinsgesamtȱ69ȱVolkszählungenȱstatt,ȱ
alsoȱimȱDurchschnittȱalleȱsiebenȱJahreȱeine.ȱZumȱVergleich,ȱdieȱletzteȱVolkszählungȱinȱ
derȱ Bundesrepublikȱ Deutschlandȱ warȱ imȱ Jahreȱ 1987.ȱ Karlȱ derȱ Großeȱ ließȱ imȱ 8.ȱ JahrȬ
hundertȱGüterȬȱundȱBesitzverzeichnisseȱanlegen.ȱSpäterȱfälltȱdannȱallerdingsȱauf,ȱdassȱ
imȱEuropaȱdesȱMittelaltersȱkeineȱVolkszählungenȱvorgenommenȱwurden.ȱDieȱUrsacheȱ
kannȱmanȱimȱAltenȱTestamentȱnachlesen.ȱZwarȱwerdenȱimȱ4.ȱBuchȱMosesȱdieȱErgebȬ
nisseȱzweierȱVolkzählungenȱ ausführlichȱbeschrieben.ȱImȱ2.ȱBuchȱSamuelȱjedochȱwirdȱ
Königȱ Davidȱ durchȱ denȱ Herrnȱ schwerȱ bestraft,ȱ weilȱ erȱseinȱ Kriegsvolkȱ gezähltȱ hatte.ȱ
Ihrȱ modernesȱ Gesichtȱ erhieltȱ dieȱ Statistikȱ Endeȱ desȱ 19.ȱ undȱ Anfangȱ desȱ 20.ȱ JahrȬ
hundertsȱ mitȱ derȱ zunehmendenȱ Anwendungȱ mathematischerȱ Methoden,ȱ vorȱ allemȱ
derȱ Wahrscheinlichkeitsrechnung,ȱ inȱ derȱ Physik,ȱ derȱ Biologieȱ undȱ denȱ anderenȱ
3ȱ
2.1
1
Einführung
Naturwissenschaften.ȱBahnbrechendenȱEinflussȱaufȱdieȱEntwicklungȱderȱStatistikȱzurȱ
modernenȱWissenschaftȱhattenȱdieȱEngländerȱK.ȱPearson1ȱundȱR.ȱA.ȱFisher2.ȱȱ
DieȱStatistikȱwirdȱgegenwärtigȱgernȱinȱdreiȱTeilbereicheȱgegliedertȱ(vgl.ȱAbbildungȱ1Ȭ
1):ȱ dieȱ beschreibendeȱ (auch:ȱ deskriptive),ȱ dieȱ schließendeȱ (auch:ȱ induktive)ȱ undȱ dieȱ
explorativeȱ Statistik,ȱ dieȱ Methodenȱ sowohlȱ derȱ beschreibendenȱ alsȱ auchȱ derȱ schlieȬ
ßendenȱStatistikȱbenutzt.ȱ
Abbildungȱ1Ȭ1:ȱ
TeilbereicheȱderȱStatistikȱ
Statistik
Beschreibende Statistik
Schließende Statistik
Methoden zur Erhebung, Strukturierung und Beschreibung umfangreichen oder unübersichtlichen
Datenmaterials
Methoden zur Untersuchung von
Stichproben zwecks Schlussfolgerungen auf die Grundgesamtheit
Wichtige Instrumente: Tabellen,
Kennwerte, Diagramme
Wichtige Instrumente: Intervallschätzung, Hypothesenprüfung
Explorative Statistik
Aufsuchen von Mustern und Strukturen in zumeist
sehr großen Datenbeständen zur Generierung statistischer Hypothesen
Wichtige Instrumente: Datenanalyse, Data Mining
ȱ
ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱ ȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱȱ ȱȱȱȱȱ
1ȱKarlȱPearson,ȱ1857ȱȬȱ1936.ȱ
2ȱSirȱRonaldȱAylmerȱFisher,ȱ1890ȱ–ȱ1962.ȱ
4ȱ
Grundgesamtheit und Merkmale
2 Grundbegriffe der Statistik
2.1
Grundgesamtheit und Merkmale
DieȱbeidenȱgrundlegendenȱBegriffe,ȱaufȱdenenȱdieȱStatistikȱundȱdamitȱjedeȱstatistischeȱ
Erhebungȱaufbauen,ȱsindȱdieȱGrundgesamtheitȱundȱdasȱMerkmal.ȱMitȱGrundgesamtȬ
heitȱ wirdȱ eineȱ Mengeȱ gleichartigerȱ Objekteȱ bezeichnet,ȱ anȱ denenȱ mindestensȱ eineȱ
Eigenschaftȱ untersuchtȱ werdenȱ soll.ȱ Dieseȱ Eigenschaftenȱ nenntȱ manȱ Merkmale.ȱ Dieȱ
Gleichartigkeitȱ allerȱ Objekteȱ derȱ Grundgesamtheitȱ bestehtȱ darin,ȱ dassȱ sieȱ ebenȱ jeneȱ
Merkmaleȱhabenȱmüssen.ȱ
Dieȱ Werte,ȱ dieȱ einȱ Merkmalȱ annehmenȱ kann,ȱ werdenȱ inȱ derȱ Statistikȱ alsȱ AusȬ
prägungenȱ bezeichnet.ȱ Dasȱ müssenȱ übrigensȱ nichtȱ unbedingtȱ Zahlenȱ sein.ȱ Zumȱ BeiȬ
spielȱkönnteȱdieȱGrundgesamtheitȱausȱAutosȱbestehenȱundȱdasȱMerkmalȱdieȱFarbeȱderȱ
Autosȱsein.ȱDannȱsindȱdieȱAusprägungenȱrot,ȱblau,ȱgrün,ȱsilberȬmetallicȱusw.ȱEsȱwirdȱ
wohlȱ seltenȱ vorkommen,ȱ dassȱ manȱ sichȱ beiȱ einerȱ statistischenȱ Untersuchungȱ nurȱ fürȱ
einȱ Merkmalȱ interessiert.ȱ Beiȱ denȱ Autosȱ sindȱ vielleichtȱ nochȱ dieȱ Merkmaleȱ MotorȬ
leistungȱ[kW],ȱHubraumȱ[ccm],ȱKraftstoffverbrauchȱ[l/100km]ȱundȱBaujahrȱinteressant.ȱ
Nebenbeiȱwirdȱhierȱdeutlich,ȱdassȱMerkmaleȱeineȱMaßeinheitȱbesitzenȱkönnen.ȱȱ
DieȱElementeȱderȱGrundgesamtheit,ȱdieȱvorhinȱalsȱObjekteȱbezeichnetȱwurden,ȱnenntȱ
manȱ Untersuchungseinheitenȱ oderȱ statistischeȱ Einheiten.ȱ Sieȱ sindȱ dieȱ eigentlichenȱ
Trägerȱ derȱ gewünschtenȱ Information.ȱ Umȱ anȱ dieseȱ Informationȱ zuȱ gelangen,ȱ führtȱ
manȱ einȱ statistischesȱ Experimentȱ durch.ȱ Eineȱ derȱ wichtigstenȱ Aufgabenȱ inȱ VorȬ
bereitungȱ einerȱ solchenȱ statistischenȱ Untersuchungȱ bestehtȱ darin,ȱ dieȱ GrundgesamtȬ
heitȱ zuȱ definieren.ȱ Esȱ istȱ unerlässlich,ȱ dieȱ Fragenȱ wasȱ willȱ ichȱ wannȱ undȱ woȱ unterȬ
suchen,ȱklarȱzuȱbeantworten.ȱDieseȱsachliche,ȱzeitlicheȱundȱräumlicheȱAbgrenzungȱistȱ
nichtȱ nurȱ fürȱ dieȱ Versuchsdurchführung,ȱ sondernȱ auchȱ fürȱ dieȱ Interpretationȱ derȱ
gewonnenenȱErgebnisseȱganzȱwichtig.ȱȱ
Hierȱ einigeȱ Beispieleȱ fürȱ statistischeȱ Erhebungenȱ mitȱ dazugehörigenȱ konkretȱ unterȬ
legtenȱGrundbegriffen:ȱ
„ StudienwunschȱvonȱAbiturientenȱȱ
Grundgesamtheit:ȱalleȱSchülerȱvonȱzwölftenȱKlassenȱinȱThüringenȱamȱ31.ȱMärzȱ
einesȱbestimmtenȱJahresȱ
Untersuchungseinheit:ȱSchülerȱ
Merkmal:ȱErsterȱStudienwunschȱ
Ausprägungen:ȱJura,ȱBWL,ȱ…ȱ
„ AltersstrukturȱderȱdeutschenȱBevölkerungȱȱ
Grundgesamtheit:ȱBevölkerungȱDeutschlandsȱamȱ30.ȱJuniȱ2007ȱ
5ȱ
2.1
2
Grundbegriffe der Statistik
Untersuchungseinheit:ȱEinwohnerȱ
Merkmale:ȱȱ
ȱȱȱLebensalterȱ
ȱȱȱGeschlechtȱ
Ausprägungen:ȱ
ȱȱȱ0,ȱ1,ȱ2,ȱ…,ȱ110ȱȱ[Jahre]ȱ
ȱȱȱmännlich,ȱweiblichȱ
ȱ
„ VolkswirtschaftlicheȱKennwerteȱ
Grundgesamtheit:ȱalleȱStaaten,ȱdieȱEndeȱ2003ȱderȱEuropäischenȱUnionȱangehörtenȱ
Untersuchungseinheit:ȱStaatȱ
Merkmale:ȱȱ
Ausprägungen:ȱȱ
ȱȱȱBruttoinlandsproduktȱinȱ2003ȱ
ȱȱȱ23,1ȱ…ȱ2129,2ȱȱ[Mrd.ȱ€]ȱ
ȱȱȱdurchschnittlicheȱArbeitslosenquoteȱinȱ2003ȱ
ȱȱȱ3,7ȱ…ȱ11,3ȱȱ[%]ȱ
ȱȱȱdurchschnittlicheȱInflationsrateȱinȱ2003ȱ
ȱȱȱ1,0ȱ…ȱ4,0ȱȱ[%]ȱ
„ WurfȱmitȱeinerȱMünzeȱȱ
Grundgesamtheit:ȱalleȱMünzwürfeȱamȱ3.ȱAprilȱ2008ȱinȱeinemȱLaborversuchȱ
Untersuchungseinheit:ȱMünzwurfȱ
Merkmal:ȱobenȱliegendeȱSeiteȱȱ
Ausprägungen:ȱZahl,ȱWappenȱ
Beiȱ demȱ letztenȱ Beispielȱsollȱnochȱ einȱ wenigȱ verweiltȱ werden.ȱ Dasȱ klassischeȱ ExperiȬ
mentȱ mitȱ derȱ Münzeȱ istȱ sicherȱ schonȱ unzähligeȱ Maleȱ durchgeführtȱ worden.ȱ Einigeȱ
VersuchsergebnisseȱausȱcomputerlosenȱZeitenȱhabenȱesȱsogarȱinȱdieȱLehrbücherȱüberȱ
Wahrscheinlichkeitsrechnungȱ geschafft.ȱ Inȱ demȱ erwähntenȱ Laborversuchȱ istȱ genauȱ
registriertȱ worden,ȱ wieȱ häufigȱ dieȱ Münzeȱ geworfenȱ wurdeȱ undȱ wieȱ oftȱ dabeiȱ dasȱ
Wappenȱ obenȱ lag.ȱ Dieȱ Tabelleȱ 2Ȭ1ȱ istȱ einȱ Auszugȱ ausȱ derȱ Ergebnisliste.ȱ Dieȱ darinȱ
vorkommendeȱ relativeȱ Häufigkeitȱ istȱ dasȱ Verhältnisȱ vonȱ Anzahlȱ Wappenȱ zuȱ Anzahlȱ
Würfe.ȱ
Tabelleȱ2Ȭ1:ȱ
ErgebnisȱeinerȱReiheȱvonȱMünzwürfenȱ
Anzahl der Würfe davon Anzahl Wappen relative Häufigkeit
3
1
0,3333
5
2
0,4000
300
148
0,4933
1000
478
0,4780
10000
4984
0,4984
24000
12012
0,5005
ȱ
Zugegeben,ȱ dasȱ Ergebnisȱ inȱ derȱ letztenȱ Zeileȱ dieserȱ Tabelleȱ stammtȱ nichtȱ ausȱ demȱ
Laborversuchȱ desȱ Jahresȱ 2008.ȱ Esȱ istȱ 100ȱ Jahreȱ älterȱ undȱ wirdȱ Karlȱ Pearsonȱ zuȬ
geschrieben.ȱ Esȱ istȱ inȱ sofernȱ interessant,ȱ weilȱ manȱ davonȱ ausgehenȱ kann,ȱ dassȱ dieseȱ
hoheȱ Zahlȱ vonȱ Würfenȱ nochȱwirklichȱ mitȱeinerȱ Münzeȱ erarbeitetȱ wurde.ȱHeutzutageȱ
6ȱ
Herunterladen