Definition (relative Häufigkeit)

Werbung
Stand: 02. Juli 2011
Grundkurs Mathematik
Kurshalbjahr 11.1
Von Daten zu Funktionen
1.
2.
3.
4.
Aufarbeitung und Darstellung statistischer Daten
1.1
Absolute und relative Häufigkeiten
1.2
Graphische Darstellung
Maßzahlen zu Beschreibung statistischer Daten
2.1
Maße der zentralen Tendenz (Lagemaße) – Modus, Median, arithmetisches Mittel
2.2
Maße der Streuung: Spannweite, mittlere lineare Abweichung, mittlere
quadratische Abweichung (Varianz), Standardabweichung
Lineare Regression und Korrelation
3.1
Maße des Zusammenhangs (Korrelationsmaße)
3.1.1 Der Produkt-Moment-Korrelationskoeffizient (PMK)
3.1.2 Der Spearman’sche Rangkorrelationskoeffizient (SRK)
3.1.3 Der Kontingenzkoeffizient
3.1.4 Der Phi-Koeffizient
3.1.5 Korrelation und Kausalität
3.2
Lineare Regression
Funktionen
4.1
Eindeutige Zuordnung, Definitionsmenge, Wertemenge
4.2
Darstellungen von Funktionen (Funktionsgleichung, Wertetabelle, Graph)
4.3
Ganzrationale Funktionen (Achsenabschnitte, Symmetrieeigenschaften,
Monotonie)
4.3.1 Lineare Funktionen
4.3.2 Quadratische Funktionen
4.3.3 Ganzrationale Funktionen (mindestens bis Grad 4)
Carsten Püttmann
Document1
Seite 1
Stand: 02. Juli 2011
Kurshalbjahr 11.2
Von der mittleren zur lokalen Änderungsrate
5.
6.
Ermittlung von Änderungsraten
5.1
Mittlere Änderungsrate, Differenzenquotient, Sekantensteigung
5.2
Deutung der Ableitung als lokale Änderungsrate und als Tagentensteigung
Von der Änderungsrate zur Ableitungsfunktion
6.1
Ableitungsfunktion
6.2
Ableitungsregeln
6.2.1 Potenzregel
6.2.2 Faktorregel
6.2.3 Summenregel
Lokale und globale Eigenschaften von Funktionen
7.
Analyse von ganzrationalen Funktionen
7.1
Monotonie
7.2
Notwendiges und hinreichendes Kriterium für lokale Extremstellen
7.3
Krümmungsverhalten
7.4
Notwendiges und hinreichendes Kriterium für Wendestellen
7.5
Randverhalten
Carsten Püttmann
Document1
Seite 2
Stand: 02. Juli 2011
Kurshalbjahr 11.1
Von Daten zu Funktionen
Die empirische Sozialforschung, die Biologie, die Medizin oder die Entwicklungspsychologie
liefern wichtige Daten für die Erziehungswissenschaft: Wie ist der Wissenstand deutscher
Schülerinnen und Schüler im internationalen Vergleich? Was bewirkt mediale Gewalt bei
Kindern und Jugendlichen? Wie stark ist der Zusammenhang zwischen Einkommen der Eltern
und Schulabschluss des Kindes? Diese und ähnliche Fragestellungen versucht die empirisch
orientierte Pädagogik zu beantworten, um pädagogische Handlungsweisen bzw. Programme zu
entwickeln, die die beobachteten Missstände beseitigen bzw. zu vermeiden helfen. Sie greift
dabei auf Methoden der mathematischen Statistik zurück.
Der Begriff Statistik umfasst alle quantitativen Modelle und Techniken, mittels derer empirische
Daten zusammengefasst, geordnet und verdichtet werden können (Deskriptivstatistik bzw.
beschreibende Statistik) bzw. durch die sich aufgrund empirischer Daten Aussagen über die
Richtigkeit von Hypothesen formulieren lassen (Inferenzstatistik bzw. beurteilende Statistik).
„Ziel jeder statistischen Analyse muss es sein, die in den Daten enthaltenen Informationen sichtbar zu
machen und zu interpretieren, um auf dieser Grundlage angemessene Entscheidungen zu treffen. In
diesem Sinne können die Modelle der Statistik auch verstanden werden als
entscheidungsunterstützende Verfahren“ (Pfeiffer & Püttmann, 2011, S. 79).
1. Aufarbeitung und Darstellung statistischer Daten
Täglich werden Millionen einzelner Daten gesammelt, beschrieben und analysiert. Auf ihrer
Grundlage erhofft man sich Erkenntnisse über Eigenschaften und Tendenzen derjenigen
Bereiche, aus denen die Daten stammen. Diese können dann wiederum als Grundlage für
zukünftige Entscheidungen dienen. Denken Sie beispielsweise daran, welche Daten bei dem
Gebrauch von Internetportalen, des I-Phones, bei der Zahlung mit der EC-Karte oder der
zentralen Abschlussprüfungen gesammelt werden.
In diesem Abschnitt werden die wichtigsten Grundbegriffe eingeführt und Möglichkeiten
beschrieben, diese übersichtlich anzuordnen.
Beispiel 1a (Merkmale und Merkmalsausprägungen)
Bei ihren Aufnahmegesprächen wurden Schülerinnen (w) und Schüler (m) danach befragt,
welche Note sie in der letzten Klassenarbeit in der Jahrgangsstufe 10 im Fach Mathematik erzielt
haben. Darüber hinaus wollte der Schulleiter wissen, ob sie großes (g), wenig (w) oder kein (k)
Interesse an mathematischen Inhalten haben. Die Daten sind in der untenstehenden Urliste (
Tab.1) zusammengefasst.
Die 23 befragten Schülerinnen und Schüler bilden zusammen die Grundgesamtheit dieser
statischen Erhebung. Jede einzelne Schülerin bzw. jeder einzelne Schüler ist als Element dieser
Grundgesamtheit im Hinblick auf die Merkmale „Geschlecht“, „Mathematiknote der letzten
Klassenarbeit der Jahrgangstufe 10“ und „Interesse an mathematischen Inhalten“ ein
Merkmalsträger.
Die Merkmale selbst kommen in verschiedenen Merkmalsausprägungen vor:

Geschlecht
Carsten Püttmann
männlich, weiblich
Document1
Seite 3
Stand: 02. Juli 2011


Mathematiknote 1, 2, 3, 4, 5, 6
Interesse
groß, wenig, kein
Tab.1: Urliste einer Schülerbefragung
1
Al l eri ch
w
2
g
2
Ammerma nn
w
2
g
3
Ba a rtel s
w
3
g
4
Ba umei s ter
m
4
w
5
Berthol d
w
2
w
6
Bl ume
w
5
k
7
Connra d
m
4
k
8
Chri s topovi c
m
2
g
9
Da mmers
w
1
g
10 Derbol ov
w
4
k
11 Dros te
m
3
w
12 Eckbert
m
2
g
13 Eggers
w
3
w
14 Ewers
w
4
w
15 Evers
w
3
w
16 Fra nke
w
2
g
17 Gottha rd
m
6
k
18 Hei nri ch
w
3
w
19 Kna pp
m
2
g
20 Li eberknecht
w
1
g
21 Mül l er
m
2
g
22 Schmi dt
w
3
g
23 Werner
m
1
g
24 Wol f
w
4
k
25 Zörner
w
2
g
Wir unterscheiden bei der Art der Merkmale zwischen quantitativen und qualitativen
Merkmalen. Bei quantitativen Merkmalen lassen sich Merkmalsausprägungen durch Zahlen oder
Größenwerte ausdrücken und dadurch in einer metrischen Skala sortieren. Wir unterscheiden
dabei zwischen einer Intervallskala und einer Verhältnisskala bzw. Rationalskala.
Qualitative Merkmale werden unterschieden in solche, bei denen die Merkmalsausprägungen in
eine Reihenfolge (Rangskala bzw. Ordinalskala oder ordinale Skala) gebracht werden können,
und solche, bei denen die Merkmalsausprägungen nicht abgestuft werden können
(Nominalskala oder nominale Skala).
Hinweis: Qualitative Merkmale werden in der EDV meistens codiert. Eine Zuordnung, ob ein Merkmal qualitativ oder
quantitativ ist, muss daher von der ursprünglichen Merkmalsausprägung beurteilt werden. Bei Schulnoten
unterscheiden wir grundsätzlich zwischen einer sehr guten (1) , einer guten (2), einer befriedigenden (3), einer
ausreichenden (4), einer mangelhaften (5) oder ungenügenden (6) Leistung.
Carsten Püttmann
Document1
Seite 4
Stand: 02. Juli 2011
Konkreter lassen sich die vier Skalentypen bzw. Messniveaus wie folgt beschreiben:




Nominalskala: Diese ist das niedrigste Messniveau und kommt bei kategorialen
Begriffen zur Anwendung (Geschlecht, Familienstand). Hier werden Relationen gleichungleich angewendet. Die Zahlen haben nur Symbolcharakter: es können also auch
beliebige, nicht numerische Symbole verwendet werden. Elemente, die im empirischen
Relativ gleich sind, erhalten das gleiche Symbol und verschiedene Elemente
dementsprechend verschiedene Symbole. Zulässige Transformationen sind alle die,
welche die Ungleichheit oder Gleichheit der Objekte nicht ändern (streng symmetrische
Transformationen).
Ordinalskala: Die Ordinal- oder Rangskala bildet die Ausprägungen von komparativen
Begriffen ab. Dabei werden nicht nur Gleich-Ungleich-Relationen sondern auch GrößerKleiner-Relationen abgebildet. Größere Zahlen bedeutet ein Mehr oder Weniger im
empirischen Relativ. Es geht also um sortierte oder geordnete Beziehungen (Schulnoten,
Schichtindex, Ranking). Zulässig sind hier nur streng monotone Transformationen, so
dass die ermittelte Ordnung der Merkmale nicht verloren geht.
Intervallskala: Hierbei handelt es sich im engeren Sinne um eine metrische Skala, bei
der die Abstände zwischen den Zahlen eine Bedeutung haben. Der Nullpunkt und die
Einheiten der Skala können jedoch willkürlich gewählt werden. Bekannteste Beispiele
sind Temperaturskalen wie Celsius und Fahrenheit. Ob es sich bei den üblicherweise
verwendeten Einstellungsskalen und Persönlichkeitstest um Intervallskalen handelt,
wird in der Literatur unterschiedlich beurteilt.
Verhältnisskala: Der Unterschied zur Intervallskala besteht darin, dass die
Verhältnisskala einen natürlichen Nullpunkt hat. Null Einkommen bedeutet auch Null.
Die vorgefundenen Verhältnisse der Zahlen haben eine empirische Bedeutung, d. h.,
wenn jemand doppelt soviel verdient, ist dies direkt am Einkommen in Zahlen ablesbar.
Da eine Nullpunktverschiebung wegen des natürlichen Nullpunktes nicht möglich ist,
sind nur Ähnlichkeitstransformationen zulässig.
Für unsere Merkmale aus Beispiel 1.1 lässt sich somit zusammenfassend festhalten:
Tab.2: Merkmal, Merkmalsausprägung, Skala
Merkmal
Merkmalsausprägung
Art des Merkmals
Art der Skala
Geschlecht
Männlich (m), Weiblich (w)
qualitativ
Nominalskala
Note
sehr gut (1), gut (2), befriedigend
(3), ausreichend (4), mangelhaft
(5), ungenügend (6)
qualitativ
Ordinalskala
Interesse
Groß (g), wenig (w), klein (k)
qualitativ
Ordinalskala
Grundbegriffe statistischer Erhebungen, über die Sie nach der Lektüre verfügen sollten
Grundgesamtheit, Merkmal, Merkmalsträger, Merkmalsausprägung, qualitatives Merkmal,
quantitatives Merkmal, metrische Skala, Nominalskala, Ordinalskala, Intervallskala,
Rationalskala
Carsten Püttmann
Document1
Seite 5
Stand: 02. Juli 2011
1.1
Absolute und relative Häufigkeiten
Im Folgenden soll es darum gehen, wie statisch erhobene Daten aufbereitet bzw. dargestellt
werden können, um sie beispielsweise in einer Präsentation oder in einem (Forschungs-)Bericht
verwenden zu können. Die einfachste Form der Aufbereitung von Daten ist, festzuhalten, mit
welcher Häufigkeit ein gemessenes Merkmal auftaucht. Dabei unterscheiden wir in der
einfachsten Form zwischen absoluter und relativer Häufigkeit.
Definition (absolute Häufigkeit)
Die absolute Häufigkeit 𝐻(𝑥𝑖 ) einzelner Merkmalsausprägungen 𝑥𝑖 erhalten wir durch einfaches
Zählen. Diese Anzahl gibt an, wie oft eine bestimmte Ausprägung eines bestimmten Merkmals
vorkommt.
Beispiel 1b (Notenspielgel: absolute Häufigkeit)
Bei unserer Befragung aus Beispiel 1a ergibt sich der folgende Notenspiegel:
Tab.3: Notenverteilung in einer Mathematikklausur
Note
1
2
3
4
5
6
Summe
Anzahl
3
9
6
5
1
1
25
Hier gilt:
𝐻(1) = 3 , 𝐻(2) = 9 , 𝐻(3) = 6 , 𝐻(4) = 5 , 𝐻(5) = 1 , 𝐻(6) = 1.
Definition (relative Häufigkeit)
Die relative Häufigkeit ℎ(𝑥𝑖 ) einer Merkmalsausprägung erhalten wir durch Quotientenbildung.
Es ist:
ℎ(𝑥𝑖 ) =
𝐻(𝑥𝑖 )
𝑛
=
𝑎𝑏𝑠𝑜𝑙𝑢𝑡𝑒 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡 𝑑𝑒𝑟 𝑀𝑒𝑟𝑘𝑚𝑎𝑙𝑠𝑎𝑢𝑠𝑝𝑟ä𝑔𝑢𝑛𝑔
.
𝐺𝑒𝑠𝑎𝑚𝑡𝑧𝑎ℎ𝑙 𝑎𝑙𝑙𝑒𝑟 𝑀𝑒𝑟𝑘𝑚𝑎𝑙𝑠𝑡𝑟ä𝑔𝑒𝑟
Die relative Häufigkeit einer Merkmalsausprägung gibt also den Anteil an, den diese Ausprägung
unter allen betrachteten Personen oder Objekten (Merkmalsträgern) hat. Diese Anteile werden
durch gewöhnliche Brüche, Dezimalbrüche oder in Prozent angegeben.
Dabei gilt für die Ermittlung des Prozentwertes:
ℎ% (𝑥𝑖 ) = ℎ(𝑥𝑖 ) ∙ 100%.
Beispiel 1c (absolute, relative und prozentuale Häufigkeit)
Wir betrachten noch einmal unser Beispiel „Notenspiegel“. Insgesamt haben 25 Schülerinnen
und Schüler die Mathematikklausur mitgeschrieben. Damit ergeben sich für die relativen
Häufigkeiten die Werte
Carsten Püttmann
Document1
Seite 6
Stand: 02. Juli 2011
ℎ(1) =
𝐻(1)
25
=
3
25
= 0,12 ; ℎ(2) =
𝐻(2)
25
=
9
25
= 0,36 usw.
Die entsprechenden prozentualen Häufigkeiten sind dann:
ℎ% (1) = ℎ(1) ∙ 100% = 0,12 ∙ 100% = 12%
ℎ% (2) = ℎ(2) ∙ 100% = 0,36 ∙ 100% = 36%
usw.
Insgesamt ergibt sich dann für das Beispiel die folgende Häufigkeitstabelle:
Tab.4: Häufigkeiten in einer Mathematikklausur
Note
1
2
3
4
5
6
Summe
𝑯
3
9
6
5
1
1
25
𝒉
0,12
0,36
0,24
0,2
0,04
0,04
1
𝒉%
12%
36%
24%
20%
4%
4%
100%
Tab.4 zeigt die absoluten, die relativen und die prozentualen Häufigkeiten an. Es fällt auf,



dass sich die Summe der absoluten Häufigkeiten gleich der Anzahl der Merkmalsträger
(𝑛 = 25) ist.
dass die Summe der relativen Häufigkeiten gleich 1 ist.
dass die Summe der prozentualen Häufigkeiten gleich 100% ist.
Mit dieser sogenannten Summenprobe kann die Vollständigkeit einer Erhebung oder die
Richtigkeit einer Rechnung überprüft werden.
Tabellen, in denen die verschiedenen Ausprägungen eines Merkmals zusammen mit den
relativen (prozentualen) Häufigkeiten abgedruckt werden, bezeichnen wir als
Häufigkeitsverteilung eines Merkmals. Die obigen Tabellen lassen sich ebenfalls verstehen als
Wertetabellen einer Funktion ( Kap.4)
Merkmalsausprägung  Häufigkeit der Merkmalsausprägung.
Wenn die Anzahl der Merkmalsträger zu gering oder die Anzahl der Merkmalsausprägungen zu
hoch ist, kann es mitunter sinnvoll oder gar notwendig sein, verschiedene
Merkmalsausprägungen zusammenzufassen. Dies kann geschehen

bei metrischen Merkmalen, indem Intervalle von Messdaten gebildet werden,

bei nominalen Merkmalen ohne natürliche Reihenfolge, indem mehrere Eigenschaften/
Kategorien zusammengefasst werden,

bei Rangmerkmalen, indem die Anzahl der Ränge durch Zusammenfassung reduziert
wird.
Der Vorteil solcher Klassenbildungen besteht in der Übersichtlichkeit der Präsentation. Der
Nachteil liegt darin, dass durch die Zusammenfassung Informationen verloren gehen, die für
eine spätere Interpretation durchaus wichtig sein könnten.
Carsten Püttmann
Document1
Seite 7
Stand: 02. Juli 2011
Beispiel 1d (Klassenbildung)
In der folgenden Tabelle wurde der Fernsehkonsum der Schülerinnen uns Schüler einer FOS12
Klasse an einem normalen Montag erfasst. Dabei ergaben sich folgende Werte [in Minuten]:
Tab.5: Fernsehkonsum von Schülerinnen und Schüler der FOS12
95
135
160
80
90
65
120
95
110
100
75
80
90
150
195
120
45
90
105
85
95
70
105
130
115
85
95
55
75
95
Diese Variablen können z. B. zu folgenden Klassen zusammengefasst werden:




weniger als eine Stunde:
eine Stunde bis weniger als zwei Stunden:
zwei Stunden bis weniger als drei Stunden:
mehr als drei Stunden:
Intervall:
Intervall:
Intervall:
Intervall:
𝐼1 = [0; 60[
𝐼2 = [60; 120[
𝐼3 = [120; 180[
𝐼4 = [180; 1440[
Hinweis: 120 Minuten gehören nach der obigen Einteilung zum Intervall 𝐼3 , nicht zum Intervall
𝐼2 .
Grundbegriffe statistischer Erhebungen, über die Sie nach der Lektüre verfügen sollten
Absolute Häufigkeit, relative Häufigkeit,
Häufigkeitsverteilung, Klassenbildung
prozentuale
Häufigkeit,
Summenregel,
Übungsaufgabe
Fertigen Sie für die obigen Intervalle eine Häufigkeitstabelle an, in der Sie die absoluten, die
relativen und die prozentualen Häufigkeiten erfassen.
Carsten Püttmann
Document1
Seite 8
Stand: 02. Juli 2011
1.2
Graphische Darstellung
Neben der Tabellenform lassen sich Daten auch graphisch darstellen. Die gängigsten Formen der
graphischen Darstellungen wie Säulendiagramm, Balkendiagramm, Blockdiagramm,
Kreisdiagramm bzw. Polygonzug werden im Folgenden exemplarisch dargestellt. Dabei wird
für jede Darstellungsart auf die jeweiligen Vorteile hingewiesen. So



zeigen beispielsweise Säulendiagramme sehr übersichtlich absolute und relative
Häufigkeiten der einzelnen Merkmale einer Stichprobe und lassen einen einfachen
Vergleich der Merkmalsausprägungen zu.
lassen sich durch Kreisdiagramme deutlich die Anteile darstellen, die jedes einzelne
Merkmal einer Stichprobe am Gesamtumfang hat.
lässt sich die Verteilung eines Merkmals in verschiedenen Gruppen durch
Blockdiagramme vergleichend visualisieren.
Auf eine gesonderte Definition der verschiedenen Darstellungsarten werden wir jedoch
verzichten.
Ausgangspunkt für die Erstellung einer Graphik ist dabei stets ein konkretes Beispiel.
Beispiel 1e (Säulendiagramm)
In einer Kindertagesstätte beschweren sich die Erzieherinnen über verlängerte Arbeitszeiten,
die durch die Häufigkeiten der Verspätungen der Eltern bei der Abholung ihre Kinder zu
Erklären sind. In Vorbereitung auf einen Elternabend, an dem dieses diskutiert werden soll,
werden diese nun festgehalten. Für die ersten vier Wochen im August 2010 berichtet die
Einrichtungsleitung ihrem Team über die Verspätungen und geht dabei insbesondere auf die
einzelnen Wochentage ein:
Tab.6: Verspätungen
Da tum
2.
3.
4.
5.
6.
9.
10.
11.
12.
13.
16.
17.
18.
19
20.
23.
24.
25.
26.
27.
Wochenta g Mo
Di
Mi
Do
Fr
Mo
Di
Mi
Do
Fr
Mo
Di
Mi
Do
Fr
Mo
Di
Mi
Do
Fr
Anza hl
0
0
1
1
3
1
1
0
1
2
1
1
0
1
2
1
0
1
1
2
In einem ersten Schritt erstellen wir aus der Urliste ( Tab.6) eine Häufigkeitsverteilung in
Abhängigkeit der Wochentage:
Tab.7: Verspätungen je Wochentag
Carsten Püttmann
𝒙𝒊
Mo
Di
Mi
Do
Fr
Summe
𝑯
9
3
2
2
4
20
𝒉
0,45
0,15
0,1
0,1
0,2
1
Document1
Seite 9
Stand: 02. Juli 2011
10
0.5
8
0.4
6
0.3
4
0.2
2
0.1
0
0
Mo
Di
Mi
Do
Fr
Mo
Di
Mi
Do
Fr
Abb.1: Säulendiagramm mit absoluten bzw. mit relativen Häufigkeiten
Säulendiagramme ( Abb.1) bestehen, wie wir sehen können, aus nebeneinander stehenden,
gleich breiten Rechtecken; die Höhe der Rechtecke entspricht der absoluten oder der relativen
Häufigkeit der jeweiligen Merkmalsausprägung.
Erfolgt die Anordnung der Rechtecke nicht wie in Abb.1 nebeneinander, sondern übereinander,
so dass die Häufigkeiten auf der x-Achse abgetragen werden, handelt es sich um ein
Balkendiagramm ( Abb.2). Ein solches empfiehlt sich vor allem, wenn eine größere Anzahl
von Kategorien vorliegt.
Beispiel 1f (Balkendiagramm)
Fr
Do
Mi
Di
Mo
0
2
4
6
8
10
Abb.2: Beispiel eines Balkendiagramms mit relativen Häufigkeiten
Werden hingegen die Häufigkeiten von Merkmalsausprägungen übereinander oder
nebeneinander zu einem Gesamtrechteck „gestapelt“, so dass sich die Beträge der einzelnen
Werte mit dem Gesamtbetrag vergleichen lassen, dann spricht man von einem Blockdiagramm.
Sind dabei die Prozentanteile der einzelnen Kategorien eingetragen, so müssen sich diese
Anteile zu einem Rechteck summieren, dessen Gesamtlänge genau 100% entspricht. Ein
Blockdiagramm ist vor allem sinnvoll, wenn die Verteilung eines Merkmals in verschiedenen
Gruppen vergleichend visualisiert werden soll.
Carsten Püttmann
Document1
Seite 10
Stand: 02. Juli 2011
Bei Kreisdiagrammen ( Abb.3) wird jeder Merkmalsausprägung ein Kreissektor zugeordnet,
dessen Mittelpunktswinkel 𝛼 (im Vergleich zum Vollwinkel von 360°) der relativen Häufigkeit
der jeweiligen Ausprägung entspricht.
Beispiel 1g (Kreisdiagramm)
In der obigen Statistik ergibt sich beispielsweise für die Merkmalsausprägung „Mo“ ein
Mittelpunktswinkel von
𝛼 = 360° ∙ 0,45 = 162°.
Insgesamt ergibt sich so das folgende Kreisdiagramm:
Fr, 0.2, 20%
Mo, 0.45, 45%
Do, 0.1, 10%
Mi, 0.1,
10%
Di, 0.15, 15%
Abb.3: Kreisdiagramm
Kreis- und Blockdiagramme geben also an, wie sich die Stichprobe bzgl. eines Merkmals
zusammensetzt. Das bedeutet zwangsläufig, dass sich die betrachteten Merkmalsausprägungen
gegenseitig ausschließen müssen. Das wiederum hat zur Folge, dass beispielsweise bei einer
(schriftlichen) Befragung keine Mehrfachnennungen zugelassen werden dürfen.
Kreisdiagramme eignen sich insbesondere dann, wenn vorliegende Mehrheitsverhältnisse
verdeutlicht werden sollen; Blockdiagramme lassen eher den Vergleich der Ergebnisse aus
verschiedenen Erhebungen zu.
An Säulendiagrammen lassen sich hingegen leichter ablesen, welche Reihenfolge hinsichtlich
ihrer Häufigkeiten die verschiedenen Ausprägungen haben. Hier sind im Gegensatz zu den
beiden anderen Diagrammtypen auch Mehrfachnennungen darstellbar.
Polygonzüge bzw. ein Liniendiagramm ( Abb.4) werden bevorzugt eingesetzt, wenn
unterschiedliche Stichproben verglichen werden sollen. Dazu werden die Häufigkeiten als
Punkte in ein Koordinatensystem eingetragen und mir Geraden verbunden. Polygonzüge finden
wir z. B. bei Trendanalysen wie etwa im Politbarometer wieder, wobei hier die x-Achse die
Zeitdimension repräsentiert.
Carsten Püttmann
Document1
Seite 11
Stand: 02. Juli 2011
Liegen die Daten in klassifizierter Form vor, ist es üblich, diese durch Histogramme ( Abb.4)
darzustellen. Histogramme sind Säulendiagramme, bei denen keine Lücken zwischen den
einzelnen Säulen gelassen werden. Die Breite der so entstandenen Rechtecke entspricht dabei
den angegebenen Intervallbreiten und der Flächeninhalt der zugehörigen absoluten bzw.
relativen Häufigkeit, mit der die Merkmalsausprägung auftritt. Bei unterschiedlichen
Klassenbreiten ist darauf zu achten, dass die Flächeninhalte den Häufigkeiten entsprechen. Dann
gilt:
𝑅𝑒𝑐ℎ𝑡𝑒𝑐𝑘ℎöℎ𝑒 =
𝐾𝑙𝑎𝑠𝑠𝑒𝑛ℎä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡
.
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑏𝑟𝑒𝑖𝑡𝑒
Gelegentlich werden Polygonzüge und Histogramme Formen miteinander kombiniert.
Beispiel 1h (Polygonzug und Histogramm)
In einer Kindertagesstätte sind 15 Angestellte verschiedenen Alters beschäftigt:
Tab.8: 15 Angestellte verschiedenen Alters
Person A B C D E F G H I
J K L M N O
Alter
28 55 29 47 53 38 40 42 57 53 51 35 20 43 25
Um ein Histogramm zu erstellen bilden wir zunächst sinnvolle Altersklassen und im Anschluss
eine Häufigkeitsverteilung:
Tab.9: Häufigkeitsverteilung von 15 Angestellten verschiedenen Alters
Alter 20-29 30-39 40-49 50-59
H
4
2
4
5
Verbinden wir die Mitten der oberen Seiten des Histogramms mit Geraden, dann erhalten wir
auf der Basis des Histogramms ein so genanntes Häufigkeitspolynom ( Abb.4):
6
5
4
3
2
1
0
20-29
30-39
40-49
50-59
Abb.4: Histogramm und Polygonzug
Carsten Püttmann
Document1
Seite 12
Stand: 02. Juli 2011
Grundsätzlich gilt, dass Informationen durch geeignete grafische Darstellungsformen zwar
leichter zu vermitteln sind, dass sie aber auch „bessere“ Möglichkeiten der Manipulation bieten.
Dies gilt ganz besonders für die heute in Zeitungen und Zeitschriften oft und gerne verwendeten
Piktogramme ( Abb.5), die mit Hilfe von Symbolen die betrachteten Größen veranschaulichen
sollen.
Durch diese Darstellungsformen gelingt es oft, die besondere Aufmerksamkeit des Lesers zu
wecken. Dabei unterlaufen häufig – gewollt oder ungewollt – Fehler, die, wenn sie bewusst
eingesetzt werden, die Meinung des Lesers beeinflussen können und sollen.
Typische Fehler einer solchen grafischen Darstellung sind z. B.

Verstöße gegen Proportionalität

perspektivische Verzerrungen

Stauchung oder Streckung von Achsen

Verwendung von Polygonzügen anstelle von Säulendiagrammen

Verwendung von dreidimensionalen anstelle von zweidimensionalen Formen etc.
Aus Gründen der Vollständigkeit seien an dieser Stelle zwei Beispiele für Piktogramme, wie sie
etwa in den bekannten Wochenzeitungen Spiegel oder Focus zu finden sind, ohne Kommentar
aufgeführt.
Abb.5: Beispiele für Piktogramme (aus: Griesel/Postel, 1999, S.111)
Übungsaufgaben (Schöwe, 2011, S. 29)
1.
Die folgende Tabelle gibt an, welche Zeit die Teilnehmer eines Volkslaufs für die Strecke
benötigen.
Zeit in Stunden
2 bis 2,5
2,5 bis 3
3 bis 3,5
3,5 bis 4
4 bis 4,5
Teilnehmerzahl
240
600
510
90
60
a) Stellen Sie die Häufigkeitsverteilung in einem Kreisdiagramm dar.
b) Stellen Sie die relativen Häuf gkeiten in einem Histogramm dar. Bilden Sie das
Häufigkeitspolygon.
2.
20 Würfe mit einem Würfel brachten folgende Augenzahlen: 6, 2, 4. 1. 14. 3. 3. 2. 1. 6. 5. 6.
3. 4. 1, 6. 2. 5. 3.
a) Ermitteln Sie die absolute und die relative Häufigkeit der einzelnen Augenzahlen.
Carsten Püttmann
Document1
Seite 13
Stand: 02. Juli 2011
b) Stellen Sie die Häufigkeitsverteilung in einem Säulendiagramm dar.
3.
Der Pinzgauer Zuchtverband veröffentlichte für ein Jahr die unten stehende statistische
Aufstellung über den Milchertrag der steierischen Milchkühe. Erstellen Sie für die
Häufigkeitsverteilung ein Histogramm.
Mi chertra g i n 1 von … bi s unter Anza hl Kühe
0-1.000
4.
11
1.000-2.000
556
2.000-3.000
1.169
3.000-4.000
326
4.000-5.000
32
5.000-6.000
4
Bei Versuchen zur prophylaktischen Bekämpfung der Nonne (Raupenart) wurden an 30
Probestämmen die folgenden Anzahlen von Eiern gezählt:
125, 212, 284, 176, 100, 132, 52, 319, 410, 181, 273, 186, 43, 11, 109, 20, 76, 30, 73, 47,
121, 518, 129, 22, 314, 144, 38, 225, 257, 138.
Überlegen Sie sich eine geeignete Klasseneinteilung, stellen Sie die dazu gehörende
Häufigkeitsverteilung in einem Kreisdiagramm, Säulendiagramm sowie Histogramm dar
und bilden Sie dazu das Häufigkeitspolygon.
5.
Pa rtei
In der Tabelle ist das Wahlergebnis der Bundestagswahl vom 18. September 2004
wiedergegeben. Ermitteln Sie die relative Häufigkeit in Prozent der abgegebenen
Stimmen und stellen Sie das Ergebnis in einem Säulendiagramm dar. Geben Sie die
Verteilung der Sitze in einem Kreisdiagramm wieder.
SPD
CDU
CSU
Sti mmen 16.194.665 13.136.740 3.494.309
Si tze
Carsten Püttmann
222
180
46
Grüne
FDP
Di e Li nke
Ungül ti ge und Sons ti ge
3.838.326
4.648.144
4.118.194
2.613.756
51
61
54
Document1
Seite 14
Stand: 02. Juli 2011
2.
Maßzahlen zu Beschreibung statistischer Daten
Die Daten einer statistischen Erhebung, die zum Beispiel mit Hilfe eines Fragebogens oder eines
Interview erhoben werden, enthalten eine Vielzahl an Informationen, die, wenn es um schnelle
Entscheidungen gehen soll oder aber auch um eine sinnvolle Beurteilung auf typische
Kennzahlen (Lagemaße bzw. Streuungsmaße) reduziert werden. Je nachdem, für welche
Eigenschaften der Grundgesamtheit man sich interessiert, welche Aussagen man treffen möchte,
für wen die Daten aufbereitet werden, für welches Zweck usw. sind einige Informationen
wichtig, andere eher nebensächlich. Also: Hinter jeder Reduzierung der Datenmenge steht eine
Absicht. Wir betrachten im Folgenden aber zunächst nur die mathematische Seite. Dabei halten
wir zu Beginn fest:


Lagemaße beschreiben die Daten „im Mittel“
Streuungsmaße geben darüber Auskunft, welchen Schwankungen die Daten unterliegen
und in welchem Bereich der größte Teil der Daten liegt.
2.1
Maße der zentralen Tendenz (Lagemaße) – Modus, Median, arithmetisches
Mittel
Maße der zentralen Tendenz fassen Häufigkeitsverteilungen in einer einzigen Kennzahl
zusammen. Ziel dieser Datenreduktion ist es, die Häufigkeitsverteilung eines gemessenen
Merkmals durch eine einzige Zahl zu charakterisieren. Somit geben Maße der zentralen Tendenz
wichtige Informationen über ein betrachtetes Merkmal, indem sie die Gesamtzahl der
Einzelinformationen zu einer einzigen statistischen Kennzahl verdichten – dem sogenannten
Schwerpunkt oder Mittelpunkt einer Häufigkeitsverteilung; sie sind überschaubar und
repräsentativ und lassen erste grobe Vergleiche zu.
Die in der Statistik gebräuchlichsten Maße der zentralen Tendenz wie

Modalwert (Mo),

Median (Md) und

arithmetisches Mittel (M)
werden im Folgenden näher beschrieben.
Definition (Modalwert)
Der Modalwert bzw. Modus (𝑀𝑜) einer Verteilung ist derjenige Wert, der am häufigsten in einer
Verteilung vorkommt, d. h. es ist die Merkmalsausprägung, die die meisten untersuchten Objekte
aufweist.
Bei der graphischen Darstellung einer Verteilung ist der Modalwert somit der Wert, bei dem die
Häufigkeitsverteilung ihr Maximum besitzt.
Carsten Püttmann
Document1
Seite 15
Stand: 02. Juli 2011
Anmerkungen
(1)
(2)
Bei klassierten Daten gilt die Klassenmitte der am häufigsten besetzten Kategorie als
Modalwert.
Mitunter kann es vorkommen, dass eine Verteilung mehr als ein lokales Maximum
besitzt. Im Säulendiagramm bzw. Histogramm kommen somit zwei (oder mehr)
unterschiedliche „Gipfel“ vor. Wir sprechen in einem solchen Fall von einer bimodalen
(multimodalen) Verteilung.
Definition (Median)
Der Median 𝑀𝑑 ist der Wert, der die geordnete Datenreihe in zwei gleich große Hälften
unterteilt, d. h. es liegen je 50% der Daten oberhalb und unterhalb des Medians.
Ist die Anzahl 𝑛 der untersuchten Merkmalsträger ungerade, so lässt sich der Median
bestimmen, indem die Messwerte der Größe nach geordnet und die unteren (𝑛 − 1)/2 Werte
abgezählt werden. Der nächste Wert ist dann der gesuchte Median. Eine Alternative bietet die
Formel
𝑴𝒅 = 𝒙𝒏+𝟏 .
𝟐
Ist die Anzahl 𝑛 der untersuchten Merkmalsträger gerade, so ist der Median nicht zwingend ein
Wert der Datenreihe selbst. Er errechnet sich durch
1
𝑀𝑑 = 2 (𝑥𝑛 + 𝑥𝑛+1 ).
2
2
Definition (arithmetisches Mittel)
Das arithmetische Mittel M ist das gebräuchlichste Maß zur Kennzeichnung der zentralen
Tendenz. Es wird berechnet, indem die Summe aller Werte durch die Anzahl aller Werte
dividiert wird. Mathematisch schreibt man dafür:
𝑛
1
1
𝑀 = ∑ 𝑥𝑖 = (𝑥1 + 𝑥2 + 𝑥3 + ⋯ 𝑥𝑛 ).
𝑛
𝑛
𝑖=1
Das arithmetische Mittel ist unter anderem dadurch gekennzeichnet, dass Abweichungen nach
oben und nach unten ausgeglichen werden, d. h. die Summe aller Abweichungen vom
arithmetischen Mittel ist 0:
𝑛
∑(𝑥𝑖 − 𝑀) = 0.
𝑖=1
Carsten Püttmann
Document1
Seite 16
Stand: 02. Juli 2011
Beispiel 2a (arithmetisches Mittel; Median; Modalwert)
Eine Befragung von 20 Schülerinnen und Schüler der AHR11 über deren täglichen
Fernsehkonsum in Minuten ergab folgende (ungeordnete) Datenreihe:
156
166
169
178
159
168
173
186
168
164
175
189
165
168
176
189
165
168
177
195
Das arithmetische Mittel errechnet sich hier zu
𝑛
1
1
1
(156 + 166 + 169 + ⋯ + 195) = 172,2.
𝑀 = ∑ 𝑥𝑖 = (𝑥1 + 𝑥2 + 𝑥3 + ⋯ 𝑥𝑛 ) =
𝑛
𝑛
20
𝑖=1
Ordnen wir die Daten der Größe nach, ergibt sich folgende geordnete Datenreihe:
156
159
164
165
165
166
168
168
168
168
169
173
175
176
177
178
186
189
189
198
Der Median ist dann
1
1
𝑀𝑑 = (𝑥𝑛 + 𝑥𝑛+1 ) = (168 + 169) = 168,5.
2 2
2
2
Die Merkmalsausprägung „168“ besitzt mit 4 die größte absolute Häufigkeit.
Demnach ist
𝑀𝑜 = 168.
Beispiel 2b (Arithmetisches Mittel, Median und Modalwert bei Klassenbildung)
Die Ergebnisse einer Befragung von 20 Schülerinnen und Schüler der AHR11 über deren
täglichen Fernsehkonsum wurden zu folgenden Klassen zusammengefasst:
𝐼1 = [150; 160[ ; 𝐼2 = [160; 170[ ; 𝐼3 = [170; 180[ ; 𝐼4 = [180; 190[ ; 𝐼5 = [190; 200[
Damit ergibt sich die folgende Häufigkeitstabelle:
Tab.10: Klassenbildung bei einer Befragung zum Fernsehkonsum
[150; 160[
[160; 170[
[170; 180[
[180; 190[
[190; 200[
2
9
5
3
1
Werden mit dieser Häufigkeitstabelle die verschiedenen Mittelwerte bestimmt, so ist nicht mehr
zu ermitteln, ob die Werte aus den verschiedenen Intervallen im Bereich der unteren oder der
Carsten Püttmann
Document1
Seite 17
Stand: 02. Juli 2011
oberen Intervallgrenze liegen. Somit muss die jeweilige Klassenmitte für die Berechnungen
benutzt werden.
Die Klassenmitte kann mit der folgenden Formel berechnet werden:
𝑙𝑖𝑛𝑘𝑒 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑔𝑟𝑒𝑛𝑧𝑒+𝑟𝑒𝑐ℎ𝑡𝑒 𝐼𝑛𝑡𝑒𝑟𝑣𝑎𝑙𝑙𝑔𝑟𝑒𝑛𝑧𝑒
2
= 𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑚𝑖𝑡𝑡𝑒.
Für die Klasse [150; 160[bedeutet das:
𝐾𝑙𝑎𝑠𝑠𝑒𝑛𝑚𝑖𝑡𝑡𝑒 =
150+160
2
= 155.
Tab.11: Klassenbildung bei einer Befragung zum Fernsehkonsum mit der Angabe der Klassenmitte
Klasse
[150; 160[
[160; 170[
[170; 180[
[180; 190[
[190; 200[
Klassenmitte
155
165
175
185
195
Absolute
Häufigkeit
2
9
5
3
1
Das arithmetische Mittel errechnet sich hier, indem wir die jeweiligen Klassenmitten mit ihren
(absoluten) Häufigkeiten multiplizieren, die Ergebnisse addieren und durch die Gesamtzahl 𝑛 =
20 dividieren:
𝑛
1
1
𝑀 = ∑ 𝐻(𝑥𝑖 ) ∙ 𝑥𝑖 = (2 ∙ 155 + 9 ∙ 165 + 5 ∙ 175 + 3 ∙ 185 + 3 ∙ 195) = 171.
𝑛
20
𝑖=1
Der Median wird dann bestimmt durch:
1
1
𝑀𝑑 = (𝑥𝑛 + 𝑥𝑛+1 ) = (𝑥10 + 𝑥11 ).
2 2
2
2
Sowohl die Stelle 𝑥10 , als auch die Stelle 𝑥11 liegen in der Klasse [160; 170[ , denn die ersten
beiden Werte liegen in der Klasse [150; 160[; die nächsten neun eben in [160; 170[.
Der Median wird nun durch die Klassenmitte charakterisiert:
𝑀𝑑 = 165.
Der Modalwert ergibt sich unmittelbar aus dem Vergleich der Häufigkeiten der verschiedenen
Klassen. Er wird ebenfalls durch die Klassenmitte dargestellt:
𝑀𝑜 = 165.
Hinweis
Wir sehen beim zweiten Beispiel deutlich, dass durch die Klassenbildung zusätzlich weitere
Informationen zu den erhobenen Daten verloren gehen: Obwohl die gleichen Ausgangsdaten wie
Carsten Püttmann
Document1
Seite 18
Stand: 02. Juli 2011
im ersten Beispiel benutzt werden, verändern sich alle Zentralwerte. Dieser Umstand sollte bei
einer Klassenbildung stets bedacht werden.
Es sei hier daran erinnert, dass aufgrund der Rechenoperationen, die zur Bestimmung der Maße
der zentralen Tendenz durchgeführt werden, ein bestimmtes Skalenniveau des untersuchten
Merkmals vorausgesetzt werden muss.
Eine Übersicht bietet folgende Tabelle:
Tab.12: Skalenniveaus der Maße der zentralen Tendenz
Skala
Nominal-
Ordinal-
Intervall-
Verhältnis-
Modalwert Mo




Median Md
-



Arithmetisches Mittel M
-
-


Anmerkungen
(1)
(2)
(3)
Im Vergleich zum arithmetischen Mittel ist der Median weniger empfindlich (robuster)
gegenüber sogenannten Ausreißern (Extremwerten), da es bei der Medianbestimmung
nicht auf jeden einzelnen Wert, sondern nur auf deren Reihenfolge ankommt.
Bei der Erhebung von Daten wissen wir zunächst nicht, warum Ausreißer auftreten, ob
sie vielleicht nur Messfehler darstellen, oder ob es sich um sehr spezielle Fälle handelt.
Es ist daher sinnvoll, stets auch den Median anzugeben und Abweichungen vom
arithmetischen Mittel und vom Median zu überprüfen. Zur genaueren
Betrachtungsweise wird zusätzlich der Modalwert mit einbezogen.
Die drei Maße der zentralen Tendenz unterscheiden sich, wie aus obiger Tabelle zu
ersehen ist, zunächst hinsichtlich ihrer Anwendbarkeit auf den unterschiedlichen
Skalenniveaus. Sind die Daten mindestens intervallskaliert, so ist eine Berechnung aller
drei Maße sinnvoll.
Übungsaufgabe
Berechnen Sie das arithmetische Mittel, den Median und den Modus der folgenden Datenreihe
(Anzahl der Gegentore in den ersten zehn Spielen des BSC Lippstadt in der vergangenen Saison):
2
Carsten Püttmann
0
2
3
2
0
Document1
3
2
1
3
Seite 19
Stand: 02. Juli 2011
2.2
Maße der Streuung: Spannweite, mittlere lineare Abweichung, mittlere
quadratische Abweichung (Varianz), Standardabweichung
Maße der Streuung bzw. Dispersionsmaße kennzeichnen die Streuung einer
Häufigkeitsverteilung um den Mittelwert. Hier geht es um die Frage: Wie typisch ist der
errechnete Mittelwert für die Gesamtreihe der Messwerte?
Die einfache Überlegung ist: je geringer die Streuung der Messwerte, umso typischer ist der
Mittelwert und umso homogener (gleichmäßiger zusammengesetzt) ist die Verteilung.
Wie bei den Maßen der zentralen Tendenz ist auch für die Dispersionsmaße das Skalenniveau
ausschlaggebend, welches Maß zur Beschreibung der Verteilung sinnvoll berechenbar ist.
Tab.13: Skalenniveaus der Dispersionsmaße
Skala
Nominal-
Ordinal-
Intervall-
Verhältnis-
Variationsbreite SP
-



mittlere lineare
Abweichung d
-
-


Varianz s²,
Standardabweichung s
-
-


Definition (Variationsbreite bzw. Spannweite)
Die Variationsbreite bzw. Spannweite SP (englisch: range) ist das am einfachsten zu
bestimmende Dispersionsmaß. Sie wird ermittelt, indem wir die Differenz aus dem größten und
kleinsten Wert der Messreihe bilden:
𝑆𝑃 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛 .
Der Nachteil dieses Streuungsmaßes ist, dass es lediglich auf den beiden Extremwerten basiert
und somit höchst unsicher ist; es sagt zudem nichts über die dazwischen liegenden Werte aus.
Der Vorteil ist, dass wir die Spannweite schon bei ordinalskalierten Werten bestimmen können.
Definition (Quartilsabstand)
Der Quartilsabstand bezeichnet die Spannweite zwischen unterem und oberem Viertel einer
Verteilung, d. h. er gibt den Abstand für die mittleren 50% der Fälle an. Auch dieses Maß eignet
sich bereits für ordinale Größen.
Definition (mittlere lineare Abweichung d)
Die mittlere lineare Abweichung d (engl.: mean deviation) bietet sich bei metrisch skalierten
Merkmalen als Streuungsmaß an. Sie ist das arithmetische Mittel der absoluten Abweichungen
der einzelnen Messwerte vom Mittelwert.
Carsten Püttmann
Document1
Seite 20
Stand: 02. Juli 2011
Üblicherweise wird zur Berechnung das arithmetische Mittel als Mittelwert verwendet, so dass
sich ergibt:
𝑛
1
𝑑 = ∑| 𝑥𝑖 − 𝑀 |.
𝑛
𝑖=1
Die mittlere lineare Abweichung vom arithmetischen Mittel wird in der Praxis selten benutzt;
die ebenfalls mögliche lineare Abweichung vom Median fast überhaupt nicht. Dennoch sind
diese Maße für Zwecke der Deskriptivstatistik brauchbare und anschaulich interpretierbare
Kennzahlen zur Messung der Dispersion.
Für den einfachen Vergleich von Stichprobenergebnissen wäre die Angabe und der Vergleich der
mittleren linearen Abweichung durchaus ausreichend. Nicht zuletzt aus Gründen der
Generalisierbarkeit von Stichprobenergebnissen ( Inferenzstatistik) werden allerdings andere
Dispersionsmaße vorgezogen, nämlich die Varianz s² als mittlere quadratische Abweichung und
ihre Wurzel, die Standardabweichung s.
Definition (Varianz s²; Standardabweichung s)
Die Varianz s² wird definiert als mittlere quadratische Abweichung vom arithmetischen Mittel.
Ihre Wurzel wird als Standardabweichung s bezeichnet.
𝑛
1
𝑠 = ∑(𝑥𝑖 − 𝑀)2
𝑛
2
𝑖=1
bzw.
𝑛
1
𝑠 = √𝑠 2 = √ ∑(𝑥𝑖 − 𝑀)2 .
𝑛
𝑖=1
Durch das Quadrieren der Abweichungen vom arithmetischen Mittel werden negative
Differenzen vermieden; die Standardabweichung wiederum erlaubt eine Interpretation des
Ergebnisses in der ursprünglichen Dimension.
Beispiel 2c (Varianz und Standardabweichung 1)
Es liegen folgende zehn Werte vor:
26 ml; 28 ml; 26 ml; 31 ml; 29 ml; 23 ml; 36 ml; 24 ml; 32 ml; 25 ml
Dies ergibt einen Mittelwert von:
𝑀 = 28 [𝑚𝑙].
Varianz und Standardabweichung errechnen sich wie folgt:
𝑠2 =
Carsten Püttmann
1
[(26 − 28)² + (28 − 28)² + ⋯ + (32 − 28)² + (25 − 28)²] = 14,8
10
Document1
Seite 21
Stand: 02. Juli 2011
und
𝑠 = √14,8 ≈ 3,847.
Häufig können wir uns die Berechnung mit Hilfe von Tabellen erleichtern:
Beispiel 2d (Varianz und Standardabweichung 2)
Gegeben ist folgende Tabelle:
Tab.14: Beispiel Varianz und Standardabweichung
VP
xi
xi  M
( x i  M)2
1.
123
-15,75
248,0625
2.
158
19,25
370,5625
3.
112
-26,75
715,5625
4.
162
23,25
540,5625
4

4

x i  555
4
( xi  M )  0
i 1
i 1
( x
i
 M ) 2  1874 ,75
i 1
mit
M
4
1
4
 xi 
i 1
555
 138,75
4
ergibt sich
s² 
4
1
4
 x i  M 2
i 1

1874,75
 468,6875
4
bzw.
s  s² 
Carsten Püttmann
1
4
4
 xi  M 2

468,6875  21,65
i 1
Document1
Seite 22
Stand: 02. Juli 2011
Es bleibt zu klären, wie die errechneten Kenngrößen, wie die Varianz bzw. Standardabweichung
zu interpretieren sind. Was bedeutet es beispielsweise, wenn in einem Test ein Mittelwert von
50 Punkten und eine Standardabweichung von 10 Punkten auftreten?
Um hier eine Antwort geben zu können, betrachten wir die sogenannte Normalverteilung (
Abb.94): Diese Häufigkeitsverteilung hat einen unimodalen und glockenförmigen Verlauf.
Abb.94: Normalverteilung
Liegt annähernd eine Normalverteilung vor, dann gilt, dass im Intervall
[M-s;M+s]
ca. zwei Drittel aller untersuchten Fälle (68,27%) zu finden sind.
Erweitern wir den Bereich auf zwei Standardabweichungen
[ M - 2s ; M + 2s ],
so befinden sich in diesem Intervall ca. 95% (95,45%) aller Fälle.
Beispiel 2e (Normalverteilung)
Bei einer schulinternen Studie wurde der Intelligenzquotient für jede Schülerin und jeden
Schüler der FOS12 getestet. Dabei ergab sich ein arithmetisches Mittel von M = 95 und eine
Standardabweichung von s = 9.
Wir nehmen an, dass die Häufigkeitsverteilung annähernd normalverteilt ist, dann befinden sich
im Intervall [95-9 ; 95+5 ] = [86 ; 104 ] ca. 68% aller Schülerinnen und Schüler der untersuchten
Jahrgangsstufe.
Umgekehrt lässt sich formulieren: Bei Vorliegen einer Normalverteilung ist die
Wahrscheinlichkeit, dass ein Messwert um mehr als eine Standardabweichungseinheit vom
Mittelwert abweicht, ca. 32%.
Carsten Püttmann
Document1
Seite 23
Stand: 02. Juli 2011
Übungaufgaben
1.
Im Biologieunterricht wird in einer Klasse von jedem der 26 Schüler eine Bohne
gepflanzt. Nach einiger Zeit wird die Länge der verschiedenen Ranken gemessen. Dabei
ergeben sich die folgenden (ungeordneten) Daten (Angabe in mm):
a.
b.
c.
d.
e.
f.
g.
2.
6,15
7,51
6,18
4,98
6,49
7,95
8,62
7,25
5,98
7,16
6,09
6,44
7,95
4,99
8,55
8,19
7,95
6,46
4,91
7,64
4,99
8,46
5,22
9,36
4,99
5,67
Bestimmen Sie den arithmetischen Mittelwert M.
Bestimmen Sie den Median Md.
Bestimmen Sie den Modalwert Mo.
Bestimmen Sie die Spannweite der Werte aus der Tabelle.
Bestimmen Sie die mittlere lineare Abweichung.
Bestimmen Sie die Varianz.
Bestimmen Sie die Standardabweichung.
Bei einem Preisvergleich für ein neues Notebook im Internet ergaben sich folgende
Preise in Euro:
Preis
H(x i )
627
659
679
698
699
719
729
789
2
5
4
3
7
6
3
1
a. Berechnen Sie den arithmetischen Mittelwert.
b. Bestimmen Sie die Varianz und die Standardabweichung.
3.
In der folgenden Tabelle wurde der Fernsehkonsum der Schülerinnen und Schüler der
Klasse FSP1 an einem Montag erfasst. Zur besseren Übersicht erfolgte eine
Klasseneinteilung. Bestimmen Sie das arithmetische Mittel sowie Varianz und
Standardabweichung. Halten Sie Ihre Ergebnisse in einem Kurzbericht fest.
Zeit in min
0 – 59
60 – 119
120 – 179
180 - 239
H(x i )
2
21
6
1
Klassenmitte
29,5
89,5
149,5
209,5
Referatsthema
Insbesondere beim Vergleich von Messwerten interessiert man sich dafür. Wie dicht
beieinander z. B. die mittleren 50% der Werte liegen. Dazu teilt man die Spannweite in vier
Bereiche, die sog. Quartile.
Stellen Sie da, wie man diese Quartile bestimmt und wie man diese mit Hilfe eines Boxplots
darstellt. Gehen Sie dabei von einer Beispielsituation aus.
Carsten Püttmann
Document1
Seite 24
Stand: 02. Juli 2011
3.
4.
Lineare Regression und Korrelation
3.1
Maße des Zusammenhangs (Korrelationsmaße)
3.1.1 Der Produkt-Moment-Korrelationskoeffizient (PMK)
3.1.2 Der Spearman’sche Rangkorrelationskoeffizient (SRK)
3.1.3 Der Kontingenzkoeffizient
3.1.4 Der Phi-Koeffizient
3.1.5 Korrelation und Kausalität
3.2
Lineare Regression
Funktionen
4.1
Eindeutige Zuordnung, Definitionsmenge, Wertemenge
4.2
Darstellungen von Funktionen (Funktionsgleichung, Wertetabelle, Graph)
4.3
Ganzrationale Funktionen (Achsenabschnitte, Symmetrieeigenschaften,
Monotonie)
4.3.1 Lineare Funktionen
4.3.2 Quadratische Funktionen
4.3.3 Ganzrationale Funktionen (mindestens bis Grad 4)
Carsten Püttmann
Document1
Seite 25
Herunterladen