Die statistische Erhebung – Eine Möglichkeit wissenschaftspropädeutischen Arbeitens Ein Instrument wissenschaftspropädeutischen Arbeitens ist die statistische Erhebung. Schülerinnen und Schüler in einem Leistungskurs Sport sollten in der Lage sein, Statistiken zu verstehen, statistische Daten zu analysieren und auch einfache Erhebungen selbst durchzuführen. Die Aussagekraft dieser Erhebungen wird allerdings in der Regel nur begrenzt sein, da umfangreiche Untersuchungen den Rahmen eines Leistungskurses sprengen würden. Trotzdem gibt es viele Möglichkeiten, Daten zu erheben und zu interessanten Beobachtungen zu kommen: • Zahlenmäßiges Erfassen der Ballkontakte von unterschiedlichen Spielern im Basketball, der Anzahl von Vereinssportlern und Nichtvereinssportlern der eigenen Schule usw. • Befragungen von Schülern, Eltern, Lehrern, Vereinssportlern usw. • Testen von einer Hypothese mit Versuchs- und Kontrollgruppe Befragungen lassen sich z.B. mit dem allen Schulen zur Verfügung stehenden Computerprogramm grafStat1 auswerten. Auch Testverfahren der schließenden Statistik sind zum Teil für Untersuchungen geeignet, wie das Testen mit Hilfe der Vierfeldertafel: Beispiel: Der exakte Test von Fischer (Vierfeldertafel) Möchte man testen, ob ein kausaler Zusammenhang zwischen zwei Merkmalen oder Sachverhalten B und A besteht, wird man nach der Wahrscheinlichkeit der Hypothese: „Wenn für eine Person das Merkmal oder der Sachverhalt B gilt, dann trifft für die Person auch Merkmal oder Sachverhalt A zu“. suchen. Eine einfache Möglichkeit der Berechnung bietet dazu der exakte Test von Fischer bzw. das Rechnen mit einer Vierfeldertafel. Man führt zum Nachweis einer solchen Hypothese einen Vergleichstest durch. Es werden mit dem Test 2 Gruppen betrachtet, die Gruppe der Testpersonen, für die B gilt, und die Gruppe der Kontrollpersonen, für die nicht B gilt. Es wird die folgende Tafel mit der Anzahl der Ergebnisse ausgefüllt. Wenn, wie in der Hypothese vermutet, tatsächlich Merkmal oder Sachverhalt A bei den Testpersonen häufiger auftritt, muss überlegt werden, ob dies wirklich an Merkmal oder Sachverhalt B liegt oder nicht vielleicht doch nur zufällig aufgetreten ist. Merkmal A nicht Merkmal A Summe Testpersonen (B) Kontrollpersonen (nicht B) Summe Hypothese H0 : Merkmal A ist bei den Testpersonen nur zufällig stärker ausgeprägt Hypothese H1 : Merkmal A ist bei den Testpersonen auf Grund des Merkmals oder Sachverhalts B stärker ausgeprägt: B=>A. Um sicher zu sein, dass der für die Hypothese H1 günstige Testausfall nicht durch Zufall entstanden ist, nimmt man an, dass H0 richtig sei. Wie groß ist dafür die Wahrscheinlichkeit? 1 Siehe dazu auch die Internetadressen: www.grafstat.de und www.forschen-mit-grafstat.de Ist sie sehr klein, dann wird man H0 ablehnen, also H1 annehmen. Man spricht von einem Ergebnis, dass auf dem 1% - Niveau (oder auf dem 5% - Niveau) signifikant ist, wenn diese Wahrscheinlichkeit < 1% bzw. < 5% ist. Berechnung der Wahrscheinlichkeit P für H0: Die in die Vierfeldertafel geschriebenen Testergebnisse werden zur Berechnung der Wahrscheinlichkeit in die untere Formel gesetzt, wobei die Bezeichnungen für die einzelnen Werte aus folgender Tafel zu entnehmen sind. Merkmal A nicht Merkmal A Summe Testpersonen (B) a b a+b=ST Kontrollpersonen (nicht B) c d c+d=SK Summe a+c=SA b+d=SnA a+b+c+d=Gesamt Die Wahrscheinlichkeit P für H0 lässt sich interpretieren durch die Überlegung: „Die Test- und Kontrollpersonen haben gleiche Voraussetzungen für Merkmal A. Die Tafel sei also rein zufällig mit den Werten a, b, c, d belegt. Wie groß ist dann die Wahrscheinlichkeit, dass man, wenn man zufällig a+b=ST Personen auswählt, a Personen oder mehr das Merkmal A besitzen?“ SA a . SnA + SA b a+1 a Personen aus allen mit Merkmal A + . SnA b-1 a+1 Personen aus allen mit Merkmal A + …… + + ........... + SA a+b . a+b Personen aus allen mit Merkmal A Alle Möglichkeiten, dass aus a+b=ST Personen genau a :oder mehr das Merkmal A besitzen wobei n k : SnA b-b Gesamt ST = P (H0) 2 Alle Möglichkeite n, a+b Personen aus allen Personen zu wählen zu lesen ist als “n über k”, zu berechnen ist als n! : (k! (n – k)!) und zu verstehen ist als die Anzahl der Möglichkeiten, aus n Elementen k Elemente herauszunehmen. 2 Diese Formel gilt für b<c, im anderen Fall ist bis „a+c Personen aus allen mit Merkmal A“ aufzuaddieren. Beispiel zur Berechung: Merkmal A nicht Merkmal A Summe Testpersonen (B) 10 3 13 Kontrollpersonen (nicht B) 2 15 17 Summe 12 18 30 12 10 . 18 3 + 12 11 . 18 2 + 12 12 . 18 1 : 30 13 = P (H0) mit b>c 12! 18! 12! 18! 12! 18! 10!•2! • 3!•15! + 11!•1! • 2!•16! + 12!•0! • 1!•17! 30! : 13!•17! = 55710 : 119759850 ≈ 0,00047 = 0,047% < 0,1% Schon bei dieser Berechnung wird deutlich, dass die Berechnung bei größeren Zahlen mühselig wird. Spätestens dann ist es sinnvoll, mit Excel oder Derive zu arbeiten oder auf andere Rechenverfahren zurückzugreifen. Die Wahrscheinlichkeit für H0 liegt unter 0,1%, die Hypothese H1 ist also hochsignifikant. Hier ist damit statistisch ein Zusammenhang nachgewiesen. Um aber nicht zu unlogischen Schlüssen zu kommen, muss trotzdem überlegt werden, ob die Zusammenhänge sachlogisch begründet sind. So wird man z.B. auch bei signifikantem Zahlenmaterial eine Beziehung zwischen Merkmal B: „Die Person ist kleiner als 170cm“ und dem Merkmal A: „Die Person trägt weiße Sportsocken“ eher verneinen müssen.