Versuch 1

Werbung
VERSUCH 1: STATISTIK
UND
DATENVERARBEITUNG
THEORETISCHE GRUNDLAGEN
In der Biophysik versuchen wir biologische Vorgänge mit physikalischen Methoden zu
untersuchen und zu verstehen. Wir setzen dabei voraus, dass biologische Größen quantitativ
gemessen und mit mathematischen Modellen beschrieben werden können. Wegen der Komplexität
biologischer Systeme und der inhärenten Messfehler unserer Methoden werden dabei oft sehr
viele Messungen durchgeführt und entsprechend viele Daten fallen an. Um diese
(fehlerbehafteten) Daten zu analysieren und zueinander in Beziehung zu setzen, verwenden
wir Methoden der statistischen Datenanalyse. Wegen der Vielzahl der zu verarbeitenden Werte
werden dazu heute vor allem elektronische Datenverarbeitungsanlagen (aka Computer) mit
geeigneter Software verwendet.
STATISTIK
"Ich glaube nur die Statistik, die ich selbst gefälscht habe."
Diese fälschlich Winston Churchill zugeschriebene Aussage wird oft als Argument gegen die
Statistik zitiert, unterstellt aber, dass Churchill bewusst falsche Daten und/oder falsche
Methoden zuließ. Unredlichkeit und Voreingenommenheit beim Umgang mit Daten können
nur die betreffenden Anwender, nicht aber die naturwissenschaftliche Methode abqualifizieren.
Statistik dient dazu, Daten die durch zufällige Ereignisse beeinflusst werden zu beschreiben
bzw. aus solchen Daten allgemeine Aussagen abzuleiten oder vorherzusagen. Dies betrifft fast
alle Daten, die aus Messungen hervorgegangen sind, da diese unvermeidlich mit einem
(zufälligen) Messfehler behaftet sind. Gemessene Daten sind also nicht exakt, sondern immer
mehr oder weniger genaue Schätzwerte und die Statistik hilft uns bei der Beurteilung der
Genauigkeit dieser Werte und der daraus abgeleiteten Aussagen. (Hier sei z.B. die Frage der
"signifikanten Stellen" eines Messwertes aufgeworfen).
Statistik verwendet zwar mathematische Verfahren wird aber nicht als eigentlicher Zweig der
Mathematik aufgefasst. Sie verwendet vielmehr standardisierte Rechenvorschriften um
statistische Maßzahlen zu gewinnen, die unsere Daten und ggf. ihre Genauigkeit beschreiben.
Die Gewinnung dieser Maßzahlen aus den Rohdaten ist (bei gewissenhafter Anwendung der
Regeln s. o.) reproduzierbar und erlaubt uns daher eine objektivere Beurteilung unserer
Ergebnisse. Neben der Unzulänglichkeit des Beobachters sowie der Instrumente kommen in der
Biologie noch die natürlichen Schwankungen der lebenden Systeme hinzu, die eine eindeutige
Aussage erschweren. Eine mathematisch-statistische Auswertung der Beobachtungen lässt sich
daher kaum vermeiden.
BESCHREIBENDE STATISTIK
Die beschreibende Statistik liefert Informationen in Form von empirischer Zahlen (Statistiken Umfrageergebnisse) über Populationen bei denen die untersuchten Größen zufällig schwanken.
Mit der mathematischen Statistik analysiert man also Massenerscheinungen. Dabei zeigt sich
9
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
oft, dass die Massenerscheinungen gewisse Gesetzmäßigkeiten aufweisen, die sich für
Einzelerscheinungen nicht formulieren lassen, da sie dort nur als zufällige Unregelmäßigkeit
auftreten. Werden z.B. 100 Bohnen einer bestimmten Sorte einzeln gewogen, so streuen die
einzelnen Werte zufällig und sind somit nicht vorhersagbar. Das mittlere Gewicht und die
Streuung der Werte jedoch sind auch nach dem Auszählen einer zweiten Stichprobe nahezu
identisch. Diese charakteristischen Werte erlauben somit eine Aussage über die Grundgesamtheit
aller Bohnen dieser Sorte.
In der Wahrscheinlichkeitsrechnung wird der Mittelwert als Erwartungswert interpretiert. In der
Bundesrepublik sterben jährlich 100 Personen aufgrund eines technischen Defekts an einem
elektrischen Haushaltsgerät. Glaubhaft, da ein eng definiertes, singuläres Schadensereignis. Auf
der Welt sterben jährlich über zwei Millionen Menschen an den Folgen ihres Nikotinkonsums.
Dies wird nicht geglaubt, da es sich um ein Multikomponenten Ereignis handelt, von dem jeder
eine Ausnahme kennt.
Die biologische Statistik besteht in erster Linie in einer kritischen Bewertung von
Stichprobenergebnissen. Messungen biologischer Parameter schwanken nicht um einen wahren
Wert, wie etwa eine physikalische Größe im unbelebten System, sondern sie haben eine
beträchtliche Streuung, die durch die biologische Variabilität bedingt ist.
Das Ziel ist, allgemeine Aussagen über spezielle Merkmale gleicher Individuen zu machen. Die
Gesamtheit aller Individuen des zu untersuchenden Materials stellt die Grundgesamtheit dar. Da
es meist nicht möglich ist, alle Individuen zu untersuchen, werden Stichproben durchgeführt. Die
Auswahl dieser Stichproben muss zufällig sein.
TABELLARISCHE
UND GRAPHISCHE
DARSTELLUNG
100
100
80
80
60
60
Häufigkeit N
Häufigkeit N
Üblicherweise werden die n Beobachtungsereignisse (Massen einzelner Bohnen) der Reihe nach
aufgelistet (Urliste). Aus dieser Stichprobe vom Umfang n kann man Schlüsse auf die zugehörige
Grundgesamtheit ziehen. Wären gleichzeitig mehrere Merkmale gemessen worden, z.B. Masse
und Größe, so hätte man eine Stichprobe erhalten, die aus n Zahlenpaaren besteht.
40
20
40
20
0
0
-5
-4
-3
-2
-1
0
1
Klassenmitten
2
3
4
5
-5
-4
-3
-2
-1
0
1
2
3
4
5
Klassenmitten
Abb. 1: Häufigkeitsverteilung einer Gaußschen Normalverteilung. oben: Stabdiagramm. unten:
Balkendiagramm mit Kurvenzug der theoretischen Funktionsgleichung.
Bei kleinen Stichproben hilft es schon, wenn man die Werte der Größe nach ordnet, um einen
10
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
Überblick zu bekommen. Besser ist es, zahlenmäßig gleiche Werte zusammenzufassen und sie
graphisch darzustellen. Dabei wird die Anzahl ai über dem Messwert xi aufgetragen. Die Anzahl ai
heißt die absolute Häufigkeit des betreffenden Wertes in der Stichprobe. Dividiert man die
absolute Häufigkeit durch den Stichprobenumfang n, so erhält man die relative Häufigkeit. Die
relative Häufigkeit ist somit immer eine Zahl zwischen 0 und 1. Die Auftragung kann als Punkt-,
Stab- oder Balkendiagramm (Abb. 1) erfolgen. Eine direkte Verbindung der Punkte untereinander
ergibt ein Häufigkeitspolygon (Abb. 1, unten). Diese Graphiken stellen Häufigkeitsverteilungen
oder Histogramme der Stichprobe dar.
KLASSENBILDUNG
Kommen in einer Stichprobe sehr viele zahlenmäßig verschiedene Werte vor, so ist die Tabelle
oder die Zeichnung der Häufigkeitsverteilung meist noch recht unübersichtlich. Man kann in
diesem Fall die Stichprobe weiter vereinfachen, und zwar durch die sog. Gruppierung oder
Klassenbildung im Gegensatz zu den oben genannten nicht gruppierten Werten.
Dabei geht man von dem Intervall aus, in dem alle Stichprobenwerte liegen. Dieses unterteilt
man in Teilintervalle (Abb. 1, oben), die als Klassenintervalle bezeichnet werden. Die Mitten dieser
Intervalle heißen Klassenmitten (Abb. 1, unten). Alle Stichprobenwerte in einem solchen Intervall
bilden zusammen jeweils eine Klasse von Werten. Die ursprünglichen Stichprobenwerte treten
nicht mehr einzeln in Erscheinung. Man nimmt an, dass alle Werte einer Klasse in der
zugehörigen Klassenmitte liegen (Abb. 1, oben). Je weniger Klassen man bildet, desto mehr
Information, die in den ursprünglichen Stichprobenwerten steckt, geht aber verloren. Man sollte
so klassifizieren, dass nur unwesentliche Einzelheiten ausgeschieden werden. In der Praxis wählt
man meist 10 - 20 Klassen und mehr als 20 höchstens bei sehr umfangreichen Stichproben.
Unnötige Komplikationen bei späteren Rechnungen lassen sich vermeiden, wenn man die
folgenden Regeln beachtet:
•
Die Klassenintervalle wählt man gleich lang.
•
Die Klassenmitten sollen möglichst einfachen Zahlen, d.h. Zahlen mit möglichst wenigen
Ziffern, entsprechen.
•
Ein Wert, der auf einen Intervallendpunkt fällt, wird je zur Hälfte in jedem der beiden
angrenzenden Klassenintervalle mitgezählt.
Oftmals kann man die genannten Endpunkte ohne Mühe so wählen, dass sie nicht mit
Stichprobenwerten zusammenfallen. Durch die beschränkten Messgenauigkeiten von
Messgeräten ergeben sich die besten Klassengrenzen oft von selbst, da das Messgerät selbst die
Klasseneinteilung vorgibt.
SUMMENHÄUFIGKEITSFUNKTION
EINER
STICHPROBE
Die Häufigkeitsverteilung einer Stichprobe gibt die Häufigkeiten an, mit der die einzelnen
Zahlenwerte in der Stichprobe vorkommen (Abb. 1, unten). Wenn es 30 Bohnen mit dem Gewicht
3,2 g gibt, man jedoch wissen möchte, wie viele Bohnen 3,2 g oder weniger wiegen, so erhält man
die Antwort durch aufsummieren der einzelnen Häufigkeiten bis x = 3,2 g. Man erhält auf diese
Weise die Summenhäufigkeitsfunktion oder Verteilungsfunktion einer Stichprobe. Die
11
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
Summenhäufigkeitsfunktion stellt das Integral der Häufigkeitsfunktion dar (Abb. 2). Aus
unstetigen
Häufigkeitsfunktionen
erhält
man
Treppenfunktionen,
aus
stetigen
Häufigkeitsverteilungen Sigmoide. Jede der beiden genannten Funktionen bestimmt die
Stichprobe in allen Einzelheiten. Die Summenhäufigkeitsfunktion (Abb. 2) ist weniger
anschaulich als die Häufigkeitsfunktion (Abb. 1,unten).
Summenhäufigkeit / Klasse
1000
800
600
400
200
0
-4
-3
-2
-1
0
1
2
3
4
Messgrösse x
Abb. 2: Summenhäufigkeit (Treppenfunktion und
Sigmoide) der Häufigkeitsverteilung aus Abb. 1,
(unten).
MITTELWERT, VARIANZ, STANDARDABWEICHUNG, STANDARDFEHLER
Neben der Häufigkeits- bzw. Summenhäufigkeitsfunktion kann man eine Grundgesamtheit oder
eine Stichprobe auch durch Maßzahlen charakterisieren. Die beiden in der Praxis wichtigsten
Maßzahlen sind der Mittelwert, der die durchschnittliche Größe der Grundgesamtheit N oder der
Stichprobe n kennzeichnet, und eine Angabe über die Streuung der Werte. Im Weiteren wird die
Annahme gemacht, dass die Messwerte eine Normalverteilung nach Gauß ergeben (s. u.). Eine
genügend große Stichprobe wird vorausgesetzt.
Der arithmetische Mittelwert ist definiert als:
x1 + x 2 + K x n
n
n
1
= ∑ xi
n i= 1
x=
µ= Mittelwert der Grundgesamtheit,
x = Mittelwert der Stichprobe
Dieser allein reicht jedoch nicht aus, um z. B. eine Stichprobe zu beschreiben, wie folgendes
Beispiel zeigt:
Stichprobe 1:
Stichprobe 2:
1; 2; 4; 5
2,7; 3,0; 3,1; 3,2
x=3
x=3
Beide Stichproben haben den Mittelwert x = 3. Sie unterscheiden sich aber trotzdem
wesentlich voneinander, denn die Werte der ersten Stichprobe liegen viel weiter auseinander
(und auch weiter vom Mittelwert entfernt) als die Werte der zweiten Stichprobe. Um diesen
Unterschied zu erfassen, braucht man noch eine weitere Maßzahl. Geeignet ist hierzu offenbar
12
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
eine Zahl, die die Abweichung der Stichprobenwerte vom Mittelwert misst. Man könnte die
Spannweite der Stichprobe, d.h. die Differenz zwischen dem größten (Maximum) und kleinsten
(Minimum) Stichprobenwert ermitteln (Abb. 1, oben: Minimum = 0, Maximum = 100). Es wird
jedoch gefordert, dass ähnlich wie beim Mittelwert jeder Einzelwert in gewisser Weise
mitberücksichtigt wird. Die wohl am nächsten liegende Möglichkeit, die Summe der
Einzelabweichungen xi − x scheidet allerdings aus, da die Summe aus negativen und positiven
Gliedern besteht und diese somit immer Null ist. Dies könnte vermieden werden, wenn man die
Absolutbeträge der Einzelabweichungen bilden würde. Aus mathematischen Ableitungen hat
sich jedoch die Bildung der Quadrate der Einzelabweichungen als günstiger erwiesen. Diese
werden auch als die kleinsten Gaußschen Fehlerquadrate (engl. least squares) bezeichnet. Die
Maßzahl, die man auf diesem Weg erhält heißt Varianz oder Streuung (engl. variance). Sie
berechnet sich für die Grundgesamtheit nach
σ
2
=
1 n
∑ ( xi − µ
n i= 1
)
2
und für die Stichprobe nach
s2 =
1 n
2
( xi − x )
∑
n − 1 i= 1
Aus der Wahrscheinlichkeitstheorie lässt sich die unterschiedliche Berechnung der Varianz für
Grundgesamtheit und Stichprobe ableiten. Man muss im Allgemeinen bei der Berechnung nur
wissen, ob es sich um eine Grundgesamtheit oder eine Stichprobe handelt. (n - 1) bezeichnet man
als die Anzahl der Freiheitsgrade, sie ergeben sich aus der Anzahl unabhängiger Einzelwerte. Die
nichtnegative Quadratwurzel der Varianz heißt Standardabweichung (engl. standard deviation,
S.D.)
σ =
σ
s=
s2 =
2
=
1 n
∑ ( xi − µ
n i= 1
)
2
1 n
∑ ( xi − x )
n − 1 i= 1
Bei Taschenrechnern mit statistischen Programmen muss der Unterschied bei der
Standardabweichung zwischen Grundgesamtheit und Stichprobe durch Auswahl der
entsprechenden Funktionstaste beachtet werden. Die Größen Varianz und Standardabweichung
sind mit demselben Formelbuchstaben belegt, da beide in der Praxis gleichwertig verwendet
werden. Die Varianz hat den Vorteil, dass man sich nicht mit Quadratwurzeln herumärgern
muss. Die Standardabweichung hat den Vorteil, dass sie dieselbe Dimension der Größeneinheit
(z.B. cm oder kg) wie der Mittelwert besitzt.
Für die obigen Beispiele ergeben sich somit:
Stichprobe 1:
Stichprobe 2:
x=3
x=3
s2 = 3,3
s2 = 0,05
s = 1,8
s = 0,22
13
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
Die Streuung der zweiten Stichprobe ist also wesentlich kleiner. Durch Angabe von Mittelwert
und Varianz bzw. Standardabweichung sind Stichproben meist ausreichend beschrieben.
Die Berechnung der Standardabweichung (bzw. Varianz) nach den Definitionsformeln ist
ungünstig. Durch die Differenzbildung ( x− x ) von den relativ großen Zahlen entstehen sehr
kleine Differenzen, die dann auch noch quadriert werden müssen. Durch Rundungsfehler
entstehen Genauigkeitsverluste, die beim elektronischen Rechnen nicht einmal bemerkt werden.
Es gibt deshalb Berechnungsformeln für die Praxis. Bei ihnen werden die Differenzbildungen
vermieden. Für die Standardabweichung einer Stichprobe ergibt sich somit
s=
2
1  n 2 1 n  
 ∑ xi −  ∑ xi  
n − 1  i = 1
n  i = 1  
Eine ebenfalls verwendete Formel ist:
1  n 2

xi − nx 2 
∑

n − 1  i= 1

s=
Bei der Bestimmung von Stichproben möchte man gerne wissen, mit welcher Wahrscheinlichkeit
sich die bei einer Stichprobe gefundenen Größen auf die Grundgesamtheit ausweiten lassen. Im
Beispiel der Bohnen möchte man also eine Aussage über alle Bohnen einer Sorte machen. Die für
eine Stichprobe ermittelten Werte (Mittelwert, Varianz, Standardabweichung) sind also nur
Schätzwerte für die Grundgesamtheit. Man möchte z.B. wissen, wie weit der
Stichprobenmittelwert x vom Mittelwert der Grundgesamtheit µ abweicht. Diese Abweichung
bezeichnet man als Standardfehler (= Fehler des Mittelwertes = Standardabweichung des
Mittelwertes; engl. standard error of the mean, S.E.M.). Wenn keine extremen Abweichungen der
Stichprobenwerte xi von der Normalverteilung um den Stichprobenmittelwert x vorliegen,
darf man annehmen, dass sich auch die Mittelwerte annähernd gleich großer Stichproben
gleichmäßig um den Grundgesamtheitsmittelwert µ verteilen. Die Abweichung kann durch den
Standardfehler abgeschätzt werden. Er berechnet sich aus der Standardabweichung s.
s
=
n
s
n
∑ (x
−x
sx =
n
=
i= 1
i
)
2
n ( n − 1)
Das zusätzliche n in der Formel für den Standardfehler s (im Gegensatz zu Varianz und
Standardabweichung) liefert eine Angabe über die Größe der Stichprobe. Je größer eine
Stichprobe ist, desto genauer wird die Schätzung für die Grundgesamtheit. Der Standardfehler
verkleinert sich dabei (n steht im Nenner), geht somit gegen µ; (Die Genauigkeit ist dem
Geduldsfaden des Experimentators direkt proportional). Der Standardfehler wird oft zusammen
mit dem Stichprobenmittelwert zur Charakterisierung einer Stichprobe bezüglich der
Grundgesamtheit angegeben:
x ± sx z.B. 5 ±0,6 g
14
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
GEWICHTETER MITTELWERT, ZENTRALWERT, HÄUFIGSTER WERT
Teilt man die Messwerte in k Klassen ein (Gruppierung, Abb. 1, unten), so lässt sich der
arithmetische Mittelwert auch als gewichteter Mittelwert x gew. (gewogenes Mittel) berechnen.
Dazu wird jede mittlere Klassengröße xi mit ihrer Klassenhäufigkeit ai multipliziert.
x gew . =
=
a1 x1 + a2 x 2 + K ak x k
n
n=
k
∑
i= 1
ai
1 k
∑ ai xi
n i= 1
20
x
15
10
5
-3
-2
-1
0
1
2
3
y
Abb. 3: Beispiel für einen Medianwert. Der
Medianwert teilt eine Verteilung genau in zwei
Hälften.
Der Zentralwert oder Medianwert stellt ebenfalls einen charakteristischen Lagewert einer
Häufigkeitsverteilung dar. Er wird für bestimmte statistische Verfahren benötigt. Er teilt die
Häufigkeitsverteilung flächengleich auf, so dass sich links und rechts vom Zentralwert genau
gleich viele Ereignisse befinden. Der häufigste Wert oder Modalwert stellt, wie sein Name schon
sagt, den Wert mit der größten Häufigkeit dar. Er ist also der Gipfel ("Peak") in einer
Häufigkeitsverteilung.
15
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
600
Mittelwert
Median
Modalwert
Häufigkeit / Klasse
500
400
300
200
100
0
0.00
0.25
0.50
0.75
1.00
1.25
1.50
1.75
2.00
Klassenmitten
Abb. 4: Beispiel für eine nicht symmetrische
Verteilung. Beachte die Lage von Mittelwert,
Median und Modalwert.
In einer Normalverteilung (Gaußverteilung, Abb. 5) sind infolge der Symmetrie der Verteilung
arithmetischer Mittelwert, Medianwert und Modalwert identisch.
STATISTISCHE VERTEILUNGEN
G AUSSVERTEILUNG, P OISSONVERTEILUNG
1.0
0.8
y
0.6
0.4
0.2
0.0
-6σ
-5σ
-4σ
-3σ
-2σ
-1σ
µ
1σ
2σ
3σ
4σ
5σ
6σ
x
Abb. 5: Normalverteilung (vergl. Abb. 1) mit
Angabe des Mittelwertes µ=0 und der
Standardabweichung σ
Als Beispiele für theoretische, stetige Häufigkeitsverteilungen sollen die Normalverteilung
(Gaußsche Glockenkurve) und die Poissonverteilung als Beispiel für eine schiefe Verteilung
besprochen werden. Viele Messwerte aus Experimenten sind nach diesen beiden theoretischen
Mustern verteilt. Die Normalverteilung (Abb. 5) wurde von Gauß im Zusammenhang mit der
Theorie der Messfehler eingeführt. Aus verschiedenen Gründen ist sie die wichtigste stetige
Verteilung:
1. Viele Zufallsvariablen, die bei Experimenten und Beobachtungen auftreten, sind
normalverteilt.
16
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
2. Andere Zufallsvariablen sind annähernd normalverteilt. In vielen Fällen führt dann die
Annahme einer Normalverteilung zu sinnvollen und praktisch brauchbaren Ergebnissen.
3. Gewisse, nicht normalverteilte Variablen lassen sich auf einfache Weise so transformieren,
dass die sich daraus ergebende Variable normalverteilt ist.
Die Funktionsgleichung der Gaußverteilung lautet:
f ( x) =
1  x− µ 

σ 
− 
1
e 2
2π σ
2
µ = Mittelwert σ = Standardabweichung
Die Standardabweichungen σ sind definitionsgemäß die Wendepunkte der Glockenkurve,
projiziert auf die x-Achse (Abb. 5). Im Bereich zwischen ±σ liegen 68% aller beobachteten Werte.
Im Bereich±2σ liegen 95,5% und im Bereich ±3σ
so gut wie alle Werte, nämlich 99,7%.
Die Standardabweichung σ ist ein Maß für die Streuung der Werte um den Mittelwert µ Je größer
die Standardabweichung, desto weiter streuen also die Werte um den Mittelwert (Abb. 5). Die
Summenhäufigkeitsfunktion oder Verteilungsfunktion (Integral der Glockenkurve) ergibt eine
Sigmoide (Abb. 2).
100
σ =1
σ =2
σ =3
80
f(x)
60
40
20
0
-6
-4
-2
0
2
4
6
x
Abb. 6: Normalverteilungen mit
Mittelwert
und
verschieden
Standardabweichungen.
gleichem
großen
Ein Beispiel für eine schiefe diskrete Verteilung ist die Poissonverteilung (Abb. 7) mit der
Funktionsgleichung:
f ( x) =
µ x −µ
e
x!
Für Mittelwerte nahe Null kann sich die Poissonverteilung einer abnehmenden
Exponentialfunktion nähern, für größere Mittelwerte kann sie in eine Normalverteilung
übergehen (Abb. 7).
17
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
0.40
0.35
µ =1
µ =5
µ = 10
0.30
y
0.25
0.20
0.15
0.10
0.05
0.00
0
5
10
15
20
x
Abb. 7: Poissonverteilungen mit unterschiedlich
großen Mittelwerten. Für µ= 1: Annäherung an
eine Exponentialverteilung; für µ = 10:
Annäherung an Normalverteilung
SCHLIESSENDE STATISTIK – STATISTISCHE TESTS
Neben der bloßen Beschreibung unserer Daten liefern statistische Verfahren auch Methoden,
welche uns erlauben, vernünftige Entscheidungen im Falle von Ungewissheit zu treffen, und
Maßzahlen zu erhalten, die für Schlussfolgerungen, Prognosen und Entscheidungen verwendet
werden können. Solche Verfahren nennt man statistische Tests.
Statistische Tests überprüfen bestimmte (vorgegebene) Annahmen über die Verteilung einer
Grundgesamtheit anhand von Daten aus einer oder mehreren Stichproben. Bei
wissenschaftlichen Untersuchungen muss man meist Vergleiche anstellen. Man möchte z.B.
wissen, ob sich zwei Stichproben (Mittelwerte und Standardabweichungen) tatsächlich, d.h.
signifikant, oder nur rein zufällig unterscheiden (Abb. 8). Das prinzipielle Vorgehen bei diesen
Tests ist dabei stets ähnlich:
18
•
Zunächst wird aufgrund z.B. einer Theorie eine Annahme über die Verteilung bzw.
Verteilungen der beteiligten Grundgesamtheiten formuliert (z.B. die Verteilungen
besitzen gleichen Mittelwert). Diese Annahme nennt man Nullhypothese. Zu einer
Nullhypothese darf es nur genau eine weitere Möglichkeit geben, die Alternativhypothese
dass die Nullhypothese nicht zutrifft. Hierbei gilt zu beachten, dass es nicht für jede
beliebige Nullhypothese auch entsprechende Testverfahren gibt. Man sollte sich daher
bereits im Vorfeld überlegen, was man realistisch testen kann!!!
•
Danach erhebt man mit Hilfe von Zufallstafeln, Zufallsgeneratoren o.Ä. einen Satz
randomisierter Stichproben aus den zu untersuchenden Grundgesamtheiten (z.B. unseren
Bohnensäckchen). Umfang und Art dieser Stichproben richten sich nach der Fragestellung
bzw. dem vorgesehenen Test. Bei Messungen gilt jede Einzelmessung als ein Wert und
entsprechende Messserien (z.B. 5× 1 mL mit einer bestimmten Pipette abmessen)als
Stichprobe.
•
Das statistische Testverfahren liefert nun aus den erhobenen Stichproben Maßzahlen für
die Wahrscheinlichkeit des Zutreffens der Nullhypothese.
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
•
Je nach Wertigkeit des Problems wird eine statistische Signifikanzschwelle festgelegt.
Diese ergibt sich aus der Wahrscheinlichkeit an, dass die Nullhypothese abgelehnt wird
obwohl sie zutrifft. Üblich sind Irrtumswahrscheinlichkeiten von 5% (meist mit signifikant
bezeichnet) und 1% (meist mit hoch signifikant bezeichnet).
•
Liegen die ermittelten Maßzahlen über der Schwelle, so wird die Nullhypothese
angenommen, liegen sie darunter wird sie verworfen und die Alternativhypothese wird
angenommen. Man sollte aber beachten, dass eine Ablehnung der Nullhypothese noch
keinen schlüssigen Beweis für die Alternativhypothese erbringt. Statistische Tests lassen
sich in ihrer Logik nicht umkehren! Mit Statistik lassen sich also keine Beweise führen, nur
Hypothesen bekräftigen.
Es sei hier auch noch einmal ausdrücklich darauf hingewiesen dass die Signifikanzschwellen
mathematisch völlig willkürlich sind und eher eine gesellschaftlichen Konsens über ein Restrisiko
darstellen. Je nach Problemstellungen können auch Irrtumswahrscheinlichkeiten von 10-6 noch
inakzeptabel hoch sein (z.B. bei Medikamenten oder im Hochsicherheitsbereich von
Kernreaktoren).
120
Häufigkeit / Klasse
100
80
60
40
20
0
-5.0
-2.5
0.0
2.5
5.0
7.5
10.0
Klassenmitten x
Abb. 8: Normalverteilungen mit unterschiedlich
großen
Mittelwerten
(zwei
verschiedene
Stichproben)
und
gleich
großen
Standardabweichungen.
Man kann statistische Tests grob in verteilungsabhängige und verteilungsunabhängige Tests
einteilen. Bei verteilungsabhängigen Tests muss die Art der Verteilung (z.B. Normalverteilung)
bekannt sein oder sie wird vorausgesetzt. Als Beispiel soll wieder das Gewicht der Bohnen
dienen. Zwei Stichproben derselben Bohnensorte werden sich nur rein zufällig, d.h. nicht
signifikant voneinander unterscheiden, während sich zwei unterschiedliche Bohnensorten
tatsächlich, d.h. signifikant unterscheiden könnten. Um das zu prüfen, muss eine Bewertung für
die Differenz zweier arithmetischer Mittelwerte ( ∆ x = x1 − x 2 ) aus zwei Stichproben über
dasselbe
Merkmal
Standardabweichung
gefunden
sd
werden.
Dabei
wird
auch
für
diese
Differenz
eine
gebildet, die sich aus den beiden Standardabweichungen der beiden
Mittelwerte berechnen lässt:
19
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
sd2 = sx21 + sx22
Die Genauigkeit, die man für die Unterscheidung zweier Stichproben vorgibt, wird durch
Vielfache der Standardabweichung angegeben. Als Konvention wird üblicherweise folgende
Klassifizierung anerkannt:
DER T-TEST
∆ x ≥ 2, 576 × sd
•
:Abweichung ist wahrscheinlich signifikant
(Vertrauensintervall für s > 99%)
•
1, 96 × sd ≤ ∆ x < 2, 576 × sd
•
∆ x < 1, 96 × sd
: keine sichere Aussage möglich
: Abweichung ist wahrscheinlich zufällig
(Vertrauensintervall für s < 95%)
NACH
STUDENT
Der sogenannte t-Test nach Student beruht auf der t-Verteilung, die von W.S. Gosset unter dem
Pseudonym Student veröffentlicht wurde. Mit dem t-Test wird geprüft, ob die Mittelwerte
und
x2
s1
mit ihren Standardabweichungen
s2
und
x1
zweier normalverteilter Stichproben
(Voraussetzung beim t-Test) gleich oder verschieden sind (Abb. 8).
t=
x1 − x 2
sd
Das Ergebnis dieses Tests ist eine Fehlerwahrscheinlichkeit α in %, die angibt, ob der
Unterschied der beiden Stichproben signifikant ist. Oft ist es nicht möglich, in beiden Messreihen
den gleichen Probenumfang herzustellen, dann liegt also n1 ≠ n2 vor. Bei kleineren Messreihen
(unter 50 Varianten) oder bei Unterschieden zwischen n1 und n2 von mehr als 5 - 10 % muss dies
berücksichtigt werden. Man verwendet dann die Berechnungsformel:
t=
n1n2 ( n1 + n2 − 2 )
n1 + n2
x1 − x 2
( n1 − 1) s12 + ( n2 − 1) s22
Auch hier sind die wichtigsten Zahlenwerte schon aus den Berechnungen der Mittelwerte und
Standardabweichungen der einzelnen Proben bekannt.
Die weitere Auswertung erfolgt mit einer t-Tafel (siehe Tabellenwerke der Statistik) oder mit
einem t-Wert-Diagramm, in dem die t-Werte, die α-Werte und die Anzahl der Freiheitsgrade
tabellarisch oder graphisch dargestellt sind. Mit dem berechneten Wert für t und der Anzahl der
Freiheitsgrade (m = n1+n2-2) kann man die Fehlerwahrscheinlichkeit ablesen. Zur Beurteilung
des Versuchsergebnisses gilt:
20
•
α< 0,01: Es besteht ein signifikanter Unterschied zwischen den Proben
•
α < 0,05: Mit großer Wahrscheinlichkeit besteht ein Unterschied
•
α > 0,05: Ein Unterschied ist nicht anzunehmen
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
•
PAARE
α > 0,5 : Sehr wahrscheinlich besteht kein Unterschied
VON
MESSUNGEN, REGRESSION, KORRELATION
Bisher sind Zufallsexperimente behandelt worden, in denen nur eine einzelne Variable x vorkam.
Bei Problemen mit zwei Variablen (x, y) prüft man meist, ob eine Beziehung zwischen den
Variablen besteht und welcher Gesetzmäßigkeit sie folgt. So kann man beispielsweise nach der
Abhängigkeit zwischen Durchmesser x und Gewicht y bei Bohnen fragen. In der Analysis heißt y
dann eine Funktion von x. In der Statistik spricht man stattdessen von der Regression y bezüglich
x. Diese nichts sagende Beziehung (Regress = Rückschritt) hat sich leider allgemein eingebürgert
und erhalten besser ist der Ausdruck Ausgleichsrechnung oder Kurvenanpassung. Interessiert
man sich nur für die Beziehung zwischen x und y, ohne nach der Abhängigkeit zu fragen, so
spricht man von der Korrelation zwischen x und y.
REGRESSIONSGERADE, PRINZIP
DER KLEINSTEN
QUADRATE
Liegt eine Stichprobe von Beobachtungen (x1,y1), (x2,y2), ... (xn, yn) aus einer zweidimensionalen
Grundgesamtheit vor, so trägt man sie am besten in ein kartesisches Koordinatensystem ein ().
Man erhält dann entweder eine Punktwolke oder einen mehr oder weniger guten
Zusammenhang der Punkte, die vielleicht schon optisch eine Gerade ergeben könnten. Man
könnte dann subjektiv eine Ausgleichsgerade oder Regressionsgerade durch die Punkte zeichnen
und zu einem beliebigen x-Wert den zugehörigen y-Wert ablesen (Abb. 9).
40
Daten
Regressionsgerade
35
30
y
25
20
15
10
5
0
0
2
4
6
8
10
x
Abb. 9: Regressionsgerade
liegende Punkte.
durch
verstreut
Liegen die Punkte jedoch nicht mehr so ideal, so werden verschiedene Personen im Allgemeinen
verschiedener Meinung darüber sein, wie die Ausgleichsgerade zu legen ist. Um subjektive
Einflüsse auszuschalten, muss wieder eine objektive Methode herangezogen werden. Eine solche
ist das Gaußsche Prinzip der kleinsten Quadrate (least squares). Es besagt bezüglich der
Regressionsgerade (lineare Regression) folgendes:
•
Die Gerade y = a x + b ist so zu legen, dass die Summe der Quadrate aller Abstände der
Punkte von der Geraden möglichst klein (Minimum) wird (Abb. 9).
•
Unter dem Abstand eines Punktes von einer Geraden versteht man üblicherweise die
Länge des Lotes von dem Punkt auf die Gerade, also den senkrechten Abstand. Man
21
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
benutzt aber aus rechentechnischen und theoretischen Gründen den Abstand parallel zur
y-Richtung. Beide sind trigonometrisch einfach ineinander umrechenbar.
•
Die Summe der Abstände wird minimal,
Regressionsgeraden wie folgt berechnet:
wenn
man
die
Steigung
a
der
 n

 ∑ xi − yi  − nx y

a =  i= 1 n

2
2
 ∑ xi  − nx
 i= 1 
•
Der Achsenabschnitt b der Regressionsgeraden berechnet sich mit dieser Steigung a:
b = y − ax
Man kann sich die Suche nach dem Minimum mit einem Modell aus der Mechanik anschaulich
erklären (siehe Modell Regressionsgerade). Die Regressionsgerade stellt einen Stab dar, auf den
von den einzelnen Punkten aus Kräfte, vermittelt durch Gummiringe (bzw. Federn), einwirken.
Die Gummiringe müssen dabei parallel zur y-Richtung gehängt werden. Der Stab bewegt sich
automatisch in eine Lage, in der das Gesamtdrehmoment auf ihn gleich Null ist, d.h. der Stab
kommt zur Ruhe. Diese Lage entspricht genau dem gesuchten Minimum für die Summe der
Abstände und somit der theoretisch berechneten Regressionsgeraden. Als Maß dafür, wie gut die
einzelnen Punkte eine Gerade ergeben, wie gut sie also korrelieren, dient der
Korrelationskoeffizient r. Er berechnet sich nach:
2
 n

 ∑ ( xi − x ) ( y i − y ) 

r = n i = 1
n
2
2
∑ ( xi − x ) ∑ ( yi − y )
i= 1
i= 1
Der Wert für r bewegt sich zwischen -1 und +1.
•
r = -1 : Regressionsgerade mit negativer Steigung und beste Korrelation der Messwerte.
•
r = 0 : Die Messwerte zeigen überhaupt keine Korrelation.
•
r = +1 : Regressionsgerade mit positiver Steigung und beste Korrelation der Messwerte.
Viele Taschenrechner besitzen auch eine direkte Möglichkeit zur statistischen Berechnung von
Regressionsgeraden. Sie geben als Ergebnis die Steigung a, den Achsenabschnitt b und den
Korrelationskoeffizienten r aus.
Der Vollständigkeit halber soll noch erwähnt werden, dass es auch nichtlineare Regressionen für
beliebige Funktionsgleichungen nach unterschiedlichen Verfahren gibt. Da sie rechnerisch
aufwendig sind, werden sie meist mit Computerprogrammen (Statistiksoftware) realisiert.
Außerdem gibt es noch die Möglichkeit, verschiedene Funktionen in Geraden zu transformieren
und dann eine lineare Regression durchzuführen. Hierbei muss man jedoch beachten, dass die
Abstände von den Punkten zur Kurve entsprechend mittransformiert werden. Man spricht bei
22
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
dieser Art der Regression auch von Anpassung, Ausgleichsrechnung oder Kurvenfitting (kurz
Fitting). Alle Begriffe bringen zum Ausdruck, dass theoretische Kurven an vorhandene
Messwerte angepasst werden sollen.
EXPERIMENTELLER TEIL
DATENVERARBEITUNG
UND
MODELLIERUNG
MIT
MICROSOFT EXCEL™
Der Versuchsteil „EXCEL“ zielt darauf ab, Ihnen den Einstieg in die Behandlung von Messwerten
mit Hilfe einfacher Datenerfassungsprogramme zu erleichtern. Mit der Tabellenkalkulation
„EXCEL“ können auf einfache Weise Messreihen textlich und graphisch dargestellt werden. Hier
seien nur aufgeführt: Datenreihen, Tabellen, einfache Graphen, Säulendiagramme, Histogramme
und Boxplots. Als alternative Programme bieten sich wissenschaftliche Graphik- und StatistikPakete an, z.B. ORIGIN, SIGMAPLOT, SPSS und STATISTICA.
DER
ERSTE
KONTAKT
MIT EINEM
„SPREADSHEET“
Üben Sie unter Anleitung ihres Praktikumsassistenten folgende Operationen:
•
Erstellen eines Arbeitsblattes.
•
Füllen einzelner Spalten mit Daten.
•
Markieren und Verschieben einzelner Spalten.
•
Copy und Paste (Kopieren – Einfügen).
•
Löschen von einzelnen Daten.
EINFACHE FORMELN
•
Entwickeln Sie ein Arbeitsblatt, in dem in einer von Ihnen frei gewählten Spalte eine
monoton zunehmende Zahlenreihe von 1 bis 1000 erstellt werden kann. (z.B. mit den
Schrittweiten 1 und 5: 0,1,2,3,4… 1000 bzw. 0, 5, 10, 15, 20, 25 … 1000).
•
Addieren Sie alle Zahlen der Zahlenreihe 1, 2, 3, 4, … 1000. Vergleichen Sie Ihr Ergebnis
mit der Gauß’schen Formel:
 n+ 1
i = n

 2 
i= 1
n
∑
•
Generieren Sie die Reihe 2n von 1 bis 100. Sortieren Sie die Spalte in absteigender
Reihenfolge.
•
Generieren Sie eine zufällige Zahlenreihe.
RELATIVE
UND ABSOLUTE
BEZÜGE
RELATIVE BEZÜGE
Werden Formeln kopiert, passt EXCEL Zelladressen, die sich in den zu kopierenden Zellen
befinden, im Zielbereich automatisch an ihre neue Position an. Adressen bzw. Bezüge die beim
kopieren automatisch angepasst werden, heißen daher „relative“ Bezüge. Die Adressen der
23
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
Formel sind abhängig von der Position der Formelzelle! (Relative Bezüge werden meist bei
einfachen und übersichtlichen Rechnungen verwendet. Beim „Kopieren“ und „Einfügen“ werden
die Adressen automatisch verwaltet.
ABSOLUTE BEZÜGE
Absolute Bezüge bleiben mit den ursprünglichen Koordinaten erhalten. Sie enthalten vor der
Spalten- bzw. Zeilenbezeichnung ein Dollarzeichen $. Absolute Bezüge werden häufig bei der
Verwendung von Formeln verwendet.
Zellbezug in der
Ursprungsformel
A1
$A$1
A$1
$A1
●
Bezugart
Zellbezug in der kopierten
Formel
Relativer Zellbezug: Beide Teile der B2
Adresse werden kopiert und angepasst.
Absolute Spalten und Zeilen-Adressen: $A$1
Beim Kopieren wird nichts verändert.
Absolute Zeilenadresse: Beim Kopieren B$1
wird
nur
der
Spaltenbuchstabe
angepasst.
Absolute Spaltenadresse: Beim Kopieren $A2
wird nur die Zeilennummer angepasst.
Füllen Sie die Felder B5 und F5 mit zwei beliebigen Zahlen. Berechnen Sie B5-F5 und
$B$5-$F$5. Kopieren Sie die einzelnen Funktionen in neue Felder.
SIMULATION
DER
RATENGLEICHUNG
MIT EINER
TABELLENKALKULATION
Selbst bei einfachen Ratengleichungen (z.B. Zustand A geht in einer bestimmten Zeit über in
Zustand B und zerfällt weiter in Zustand C) treten Differenzialgleichungssysteme auf, die sich oft
nur mit ausgefeilten mathematischen Fähigkeiten analytisch lösen lassen. Mit EXCEL ist es
möglich, die Gleichungen auf anschauliche und einfache Weise numerisch zu lösen und
graphisch darzustellen.
In unserem Praktikum sollen Sie die einfache Ratengleichung A → B (z.B. Radioaktiver Zerfall,
oder exponentielles Wachstum einer Bakterienkultur) numerisch lösen und graphisch
visualisieren.
ETWAS MATHEMATIK
Für die numerische Lösung von Differentialgleichungen muss man die Gleichungen so
umwandeln oder vereinfachen, dass sich das Problem mit einem digitalen Rechner berechnen
lässt.
Die Ratengleichung für den Übergang
A  λ→ B
lautet
24
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
dA ( t )
= − λ A( t)
dt
Diese Gleichung können Sie mathematisch lösen, für eine rechnerische Lösung mit dem
Computer eignet sie sich aber noch nicht, da der Rechner keine Möglichkeit besitzt die
infinitesimal kleinen Differentiale darzustellen. Stattdessen verwenden wir eine Näherungslösung
indem wir die Gleichung umschreiben und die Differentiale in Differenzen umwandeln
∆ A ( t)
= − λ A( t)
∆t
c
∆ A ( t) = − λ ∆ t A ( t)
Tabellenkalkulationen eignen sich besonders für sog. rekursive Berechnungen bei denen ein Wert
sich jeweils aus dem vorhergehenden ergibt d.h.
A ( t + ∆ t) = f ( A ( t) )
Für unseren Fall ergibt sich
A ( t + ∆ t) = A ( t) + ∆ A ( t)
= A ( t) − λ ∆ t A ( t)
= A ( t) ( 1 − λ ∆ t)
FORMULIERUNG
•
IN
EXCEL
Festlegen des Zeitintervalls ∆t, der Geschwindigkeitskonstante λ und der Anfangsmenge
A(0): z.B. ∆t = 5, λ = 0.035 und A(0) = 100.
•
Generieren einer Zeitreihe mit der festgelegten Schrittweite. z.B. 20 Schritte
•
Iterative Berechnung von A(t).
•
Graphische Darstellung Ihres Ergebnisses mit linearer und logarithmischer Skalierung.
•
Ändern der Zeitkonstanten.
•
Erneute iterative Berechnung von A(t)
•
Graphische Darstellung Ihres Ergebnisses mit linearer und logarithmischer Skalierung.
•
Vergleichen Sie Ihr Ergebnis mit der analytischen Lösung der Differenzialgleichung:
A ( t ) = A0 e− λ t
Warum haben wir den Ansatz für unsere rechnerische Lösung als Näherung bezeichnet?
AUSWAHL
STATISTISCHER
Funktion
ANZAHL()
FUNKTIONEN:
Argumente
Zellbezüge/ Werte
Beschreibung
Anzahl der Zahlen in der Argumentenliste bzw.
den Bereichen
25
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
ANZAHL2()
Zellbezüge/ Werte
MAX()
MEDIAN()
MIN()
MITTELWERT()
STABW()
Zellbezüge/ Werte
Zellbezüge/ Werte
Zellbezüge/ Werte
Zellbezüge/ Werte
Zellbezüge/ Werte
STABWN()
Zellbezüge/ Werte
STFEHLERXY()
Zellbezüge/ Werte
AUSWAHL
MATHEMATISCHER
FUNKTIONEN
Funktion
ABS()
Argumente
Zahl
EXP()
FAKULTÄT()
KÜRZEN()
LN()
LOG()
Zahl
Zahl
Zahl
Zahl
Zahl; Basis
LOG10()
Zahl
PI()
keine
PRODUKT()
Zellbereich/ Werte
REST()
Zahl; Divisor
RUNDEN()
Zahl; Stellenanzahl
SUMME()
Zahlen/ Zellbereich
WURZEL()
positive Zahl
ZUFALLSZAHL()
keine
ZUFALLSZAHL()* keine
100
KÜRZEN(ZUFAL keine
LSZAHL()*100)
26
Anzahl
der
gefüllten
Zellen
in
der
Argumentenliste bzw. den Bereichen
Größter Zahlenwert der Liste bzw. der Bereiche
Median der angegebenen Zahlen/Bereiche
Kleinster Wert des Zahlenbereichs
Durchschnittswert der Zahlen bzw. der Bereiche
Berechnet die Standardabweichung ausgehend
von einer Stichprobe
Berechnet die Standardabweichung ausgehend
von der Grundgesamtheit
Standardfehler bei der linearen Regression
Beschreibung
Absolutwert der Zahl (ohne Vorzeichen)
Expotentialfunktion: e hoch Zahl
Fakultät der Zahl
Schneidet die Nachkommastellen ab
Natürlicher Logarithmus zur Basis e
Logarithmus der Zahl zur angegebenen Basis,
ohne Angabe der Basis wird 10 als Basiswert
genommen
Natürlicher Logarithmus zur Basis 10
Die Kreiskonstante Pi mit einer Genauigkeit von
15 Stellen
Produkt der Zahlen in der Liste oder dem
Bereich
Ermittelt den Divisionsrest
Die Zahl wird kaufmännisch gerundet. Falls die
Stellenanzahl
negativ
ist,
wird
dem
entsprechend vor dem Komma gerundet
Summe der Zahlenliste bzw. der Zahlen im
Bereich
Quadratwurzel der Zahl
Liefert nach jeder Neuberechnung
Zufallszahl >=0 und <1
Zufallszahl zwischen 0 und 100
Ganzzahlige Zufallszahl zwischen 0 und 100
eine
PHYSIKALISCH-TECHNISCHE METHODEN IN DER BIOLOGIE
GRAPHISCHE DATENVERARBEITUNG
MIT
MICROCAL ORIGIN™ 5.0
Origin ist ein graphisch orientiertes Analysesystem für Messdaten. Mit diesem Programm soll
beispielhaft der Umgang mit naturwissenschaftlicher Software in Verbindung mit den aus
Experimenten gewonnenen Daten gezeigt werden.
Solch eine Software erleichtert die Arbeit erheblich, da sie Daten schnell statistisch verarbeiten
und auch sofort veröffentlichungsreif ausdrucken kann. Man kann die Daten schnell
transformieren, korrelieren oder einer entsprechenden Regression unterziehen. Die Gefahr dabei
ist, dass man sich oft nicht darüber im Klaren ist, was dabei genau passiert. Aus dem “Fitten” der
Kurve kann dann sehr schnell ein “passend machen” der Kurve werden.
Nachfolgend sind einige Möglichkeiten aufgeführt, die mit dieser Software bearbeitet werden
können. Sämtliche Möglichkeiten können über ein “Menue” vom Benutzer aufgerufen werden.
Die Eingabe der Daten kann über die Tastatur oder aus einer Vielzahl von Dateiformaten
erfolgen. Die Daten können vielfältig transformiert werden:
•
Änderung von Größe und Skalierung der Darstellung
•
Lineare, halblogarithmische oder doppelt logarithmische Darstellung
•
Punktdarstellung, Linienzüge oder Balkendiagramme
•
Darstellung mit Kartesischen oder Polarkoordinaten
•
Fast Fourier Transformation
Weiterhin sind statistische Analysen und Kurvenanpassungen mit Angaben der Fehlergrenzen an
die Daten möglich. Der Benutzer hat die Möglichkeit aus zahlreichen internen Funktionen
auszuwählen oder selbst Funktionen zu definieren. Außerdem ist das Integrieren und
Differenzieren von Kurven möglich. In jedem Bearbeitungsstadium können die Daten graphisch
ausgegeben werden.
GRÖSSENVERTEILUNG
VON
ZELLKULTUREN
Zwei verschiedene Zellkulturen sollen bezüglich ihrer Größe (Durchmesser, evtl. auch Volumen)
statistisch analysiert und verglichen werden. Dazu wurden von jeder Zellkultur mit einer
Mikroskopkamera Bilder erstellt (siehe auch 5), die Sie nun ausmessen werden. Die Zellkulturen
wurden vor der Bildaufnahme mit Trypsin behandelt wodurch sie sich von ihrem
Wachstumssubstrat abgelöst haben und nun nahezu ideal rund wurden.
•
Machen Sie Ausdrucke von den Bildern und bestimmen Sie jeweils den größten und
kleinsten Durchmesser der Zellen mit einem Lineal. Alternativ können Sie diese Messung
auch in einem Bildverarbeitungsprogram wie ImageJ vornehmen. Tragen Sie die beiden
Größen in eine Urliste z.B. in einer Excel-Tabelle oder in Microcal Origin ein.
•
Wenn Sie hinreichend viele (wie viele sind das?) Zellen vermessen haben berechnen Sie
den mittleren Durchmesser und das mittlere Zellvolumen als das Volumen eines
Rotationselypsoids um die Achse des längsten Durchmessers.
27
VERSUCH 1: STATISTIK UND DATENVERARBEITUNG
•
Bestimmen Sie mit den Statistikfunktionen Mittelwert, Varianz, Standardabweichungen
und Standardfehler für beide Größen. Vergleichen Sie die beiden Zellkulturen
•
Bestimmen Sie die Verteilung des mittleren Durchmessers und des Zellvolumens anhand
eines Histogramms. “Fitten” Sie dieses Histogramm mit einer Gaussverteilung. Damit
kann die Normalverteilung der Werte überprüft werden. Das ist für den t-Test wichtig, da
er als verteilungsabhängiger Test eine Normalverteilung voraussetzt.
•
Vergleichen Sie die beiden Zellkulturen mittels des t-Tests. Sind beide wirklich gleich
groß. Was passiert, wenn Sie ihren Stichprobenumfang vergrößern?
LITERATUR
1. Bosch, K.: Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg
Studium Basiswissen, Braunschweig, 1986
2. Bosch, K.: Elementare Einführung in die angewandte Statistik, Vieweg Studium
Basiswissen, Braunschweig, 1987
3. Hopp, V., Berninger, G.: Mathematische Funktionen zur Beschreibung von Vorgängen in
Natur und Technik, GIT Fachz. Lab. 8, 682-691, 1987
4. Kreyszig E.: Statistische Methoden und ihre Anwendungen, Vandenhoeck u. Ruprecht,
Göttingen, 1975
5. Müller, G.W., Kick, T.: Basic-Programme für die angewandte Statistik,
R.Oldenburg Verlag, München, 1985
6. Sachs, L.: Angewandte Statistik, 9. Auflage. Springer Verlag, Heidelberg, 1999
7. Vogel, A.: Funktionstafeln und statistische Tabellen, Verlag Konrad Wittwer, Stuttgart,
1979
8. Wallis W.A., Roberts H.V.: Methoden der Statistik, rororo, 1969
28
Herunterladen