„Gruppen-Screening“ – ein Paradebeispiel für

Werbung
„Gruppen-Screening“ –
ein Paradebeispiel für
Anwendungsorientierung und
Vernetzungsmöglichkeiten
im Mathematikunterricht
Hans HUMENBERGER
Universität Wien
Mit einfachen schulmath. Mitteln:
• ein Problem aus der Realität modellieren
• Verbindung von elementarer Stochastik
(EW einer ZG) und Analysis schaffen
(Funktionen, Graphen, Extremwerte,
Grenzwerte, Kurvendiskussionen)
• Prinzip der Approximation veranschaulichen,
(Näherungsverfahren, Näherungsformel)
• das Verhältnis zwischen diskreten und
kontinuierlichen Problemen beleuchten
• ein CAS gut einsetzen
0
Einzel-Tests vs. Paar-Tests
Aufgabe 1:
Nach einem großen Sportfest sollen alle Sportler
Proben (Blut, Urin) abgeben: Dopingkontrolle!
Es werden 2 Möglichkeiten vorgeschlagen:
• Jede Probe wird einzeln überprüft.
• Je 2 Proben werden zusammengeschüttet und
das Resultat getestet; falls nötig Einzeltests.
a) Wie viele Tests sind beim „Paartest“ unter
welchen Umständen nötig (pro Paar) ?
Paar-Test negativ: beide „sauber“; 1 Test nötig
Paar-Test positiv: 1. Person allein getestet:
• Negativ: 2. Person hat gedopt (2 Tests)
• Positiv: auch die
2. Person muss
getestet werden
(3 Tests)
b) Vergleich für 2n Personen:
Einzeltests: 2n Personen, 2n Tests
Paar-Tests: jedenfalls n Tests für die n Paare
Extremfälle:
Bei allen Paaren reicht 1 Test: n
Bei allen Paaren 3 Tests nötig: 3n
Klar: Paar-Test bringt dann Vorteile, wenn
wenige positive Proben zu erwarten sind.
Aufgabe 2:
Sportfest-Diagramm:
Anzahl der Paare, bei
denen 1, 2, 3 Tests
benötigt wurden.
Was ist alles aus
diesem Diagramm zu
entnehmen?
90
80
70
60
50
40
30
20
10
0
1
2
3
• 80 + 30 + 10 = 120 Paare, d. h. 240 TN
• Tests: 80 + 30  2 + 10  3 = 170 , ca. 0,71 T/TN,
• zwischen 40 und 50 Sportler/innen gedopt,
Dopingquote: 16,7 % – 20,8 %
- 29 %
Aufgabe 3: (Erwartungswert)
Wie viele nötige Tests sind pro Paar zu erwarten,
wenn aus langjähriger Erfahrung bekannt ist, dass
der Anteil p aller Sportler/innen Doping betreibt?
E = (1 – p)²  1 + (1 – p) p  2 + p  3 = – p² + 3p + 1
 p  3p  1  2
2
p 0

p  0,38
Gruppentests bei Krankheiten
„Krankheitsanteil in der Bevölkerung ist p“
1
Modellannahme: n Individuen seien
unabhängig voneinander und mit jeweils
gleicher WS p von dieser Krankheit befallen
Auswahl der Testpersonen = Bernoulli-Exp.
Bei Einzelprüfung:
1 Test pro Person bzw.
k Tests für k Personen
2-stufiger Gruppentest nach Dorfman
1. Stufe (Gruppentest): Mischen des Blutes
von jeweils k  2 Personen
a) Gruppentest neg.: alle Personen gesund
nur 1 Test für diese k Personen
b) Gruppentest pos.: mind. 1 Person krank:
jede Blutprobe in der Gruppe wird
anschließend (2. Stufe) einzeln
untersucht: insgesamt k + 1 Tests.
Problem: Gruppengröße k (?),
so dass insges. möglichst wenige
Tests zu erwarten sind:
• minimale zu erwartende Kosten
• Ergebnisse sollen möglichst schnell
vorliegen.
2
q := 1 – p P(gesund) , „Gesundheitsanteil“ der Bev.
k  2
die gewählte Gruppengröße
EW einer Zufallsgröße, zunächst in einer k-Gruppe:
X := Anzahl der nötigen Analysen in einer k-Gruppe
X kann nur die Werte 1 und k + 1 annehmen:
P( X  1)  q
k
P( X  k  1)  1  q
k
 E ( X )  1 q k  (k  1)  (1  q k )  k  1  k  q k
E(X) für verschiedene k nicht gerecht vergleichbar;
nicht allein. Krit.: je größer k, desto größer E(X)!
Gesamtzahl: n Individuen, (n/k) viele k-Gruppen,

insgesamt
n
 E( X )
k
zu erwartende Tests für alle n Personen.
Zur Vereinfachung sinnvoll: Division durch die feste
Zahl n, „Normieren“ (pro Person), „relativer EW “
n
 E( X )  Min
k

E( X )
 Min
k
3
EW der Anzahl der nötigen
Untersuchungen
PRO PERSON (Gruppengr. k  2 )
E( X ) k  1  k  q
1
k
f (q, k ) :

 1  q
k
k
k
k
Diese Funktion (Term) müssen wir
genauer untersuchen!
1
k
f
(
q
,
k
)

1


q
1
Genau bei
k
bringt Gruppenbildung auf lange Sicht einen
Vorteil gegenüber Einzeluntersuchung.
Bei festem q  (0 ; 1) suchen wir k0  2
(k0  N) mit:
• f (q,k0) < 1 (Ersparnis geg. Einzelunt.)
• f (q,k0) ist minimal
f (q,k) als Fkt. in kontinuierlichen Var.:
k

obwohl ja eigentlich 2  k 
Ein eigentlich diskretes Problem wird
in ein kontinuierliches verwandelt:
kontinuierliche Graphen, Kraft der Analysis
z. B. beim Suchen der Minimumstelle
4
Wir setzen festes q  (0,1) voraus, d. h.
f(q,k) ist eine Funktion in einer Variable k
(Gruppengröße) :
1
k
f q (k ) : 1   q
k
Kurvenschar, Funktionenschar
mit Parameter q !
1
f q (k ) : 1   q k
k
für k  (0,50):
• von oben nach unten:
q = 0.4; 0.6; 0.7; 0.8; 0.85
• Für kleinere q-Werte
q < 0.7 scheint zu
gelten:
k : f q (k )  1
Uninteressanter Bereich – keine Ersparnis gegenüber
Einzeluntersuchungen!
5
1
f q (k ) : 1   q k
k
k  (0,50), größere q :
• 2 Schnittp. mit y = 1,
asympt. Annäh. v. oben
• eindeutiges Min. zw.
0 und 1:
Min.stelle interessant
(opt. Gruppengröße!)
• Wo liegt diese Stelle?
1) Ablesen: CAS-Graph
2) analyt. Überlegungen
1. Versuch: 1. Ableitung von f q (k )
1
k
f q (k )   2  q ln q  0 
k
'
Log, : ( 2)

ln q
ln k 
 k
2
: m
2
k  q  ( ln q)

k
ln   ln q 
2
: b
y = ln k hat mit einer Gerade y = mk + b
„klarer Weise“ höchstens 2 Schnittpunkte 
(ln immer negativ d. h. nach rechts gekrümmt!)
f q (k )
6
hat höchstens zwei lokale Extremstellen!
Aber:
• f q (k )  0 nicht geschlossen lösbar
'
• für welche q gibt es 0, 1, 2 Lösungen?
(Näherungslösungen!)
• für welche q ergibt sich ein
Min/Max/Sattelpunkt?
Analog:
Schon
f q (k )  1
f q (k )  1
Log,  ( 1)


nicht geschlossen lösbar:
1
k
q 
k
1
k q
k
ln k    ln q   k
höchstens 2 Schnittpunkte (Lösungen) !
Zur weiteren Begründung f q ( k )
und deren Ableitung besser vermeiden!
1
k
Die Teilfunktionen von f q (k )  1   q
k
Wohlbekannte Funkt. aus der Mittelstufe:
1
Hyperbel:
k
k
Exponentialfunktion:
q
(fallend: 0 < q < 1)
Interessant nur (Ersparnis!) :
1
k
f q (k )  1   q  1
k

1
k
q
k
7
Zunächst:
• 0, 1, 2 Schnittp.,
je nach q
• q groß 
k
q fällt flach:
für q  qB
(Berührwert)
 2 Schnittp.
1
k
f q (k )  1   q
k
Damit klar :
f q (k )  1
Bei q  qB ist für k1  k  k2 :
1
k

q
k
Begründung des 2. Schnittpunktes
auch für q  1durch „de l‘Hospital“
Oben: höchstens 2 Schnittpunkte,
damit genau 2 für q  qB !
8
Berührkonstellation lässt sich sogar genau
bestimmen: einfache, traditionelle, klassische
„Rechnung“, Lösung des GLS:
'
'
1
1
k
k
9
 q     q 
k
k
CAS auf Knopfdruck (z. B. MAPLE, auch per
Hand, DERIVE nicht: bei nichtlinearen GLS
nur numerisch gut):
kB  e ; qB  e
1/ e
 0,6922
Einzelgleichungen nicht geschlossen nach k
auflösbar, d. h. die beiden Gleichungen
„passen“ gut zueinander.
Bis jetzt:
• Für q  qB  0,6922
k
1/
k

q
 f q (k )  1 ,
ist
d. h. Gruppentests schlechter als Einzeltests
(im Durchschnitt, „Erwartungswert“) !
• Auch für q  qB bringt Gruppenbildung im
k
Durchschnitt keine Ersparnis: q  1/ k  f q (k )  1
• Erst ab q  qB kann Gruppenbildung im
Durchschnitt überhaupt Ersparnis bringen
(d. h. bei einem Gesundheitsanteil von mind.
ca. 70%, so eine Grenze auch intuitiv zu
erwarten)!
Noch zu zeigen:
f q ( k ) hat für q  qB
in [k1 , k2 ]
genau 1 Minimumstelle k*
Oben: f q ( k ) hat
höchstens 2
lokale Extremstellen
Im Folgenden: f q ( k ) hat für q  qB mindestens
eine lokale Minimumstelle k* in [k1 , k2 ]
und eine lokale Maximumstelle
k **  k2 
genau diese beiden lokalen Extremstellen!
Begründung für k*
und k**:
1
f q (k )  1   q k
k
10
1 k
,q
besser „getrennt“:
k
1
Bei k1 , k2 : Differenz
 q k  0 , dazwischen < 0 !
k
1
 q k stetig   Min.stelle in [k1 , k2 ] bei k*
k
(betraglich Differenz dort maximal !)
„Rechts“ von
Salopp: Bei
k2 :
k2
und im Limes k   :
1
k

q
0
Differenz
k
1
k

q
0
„dazwischen“ :
k
  Max.-stelle in
( k 2 , )
: bei k**
I. A.:
k 
*
: k0 = [k*] oder k0 = [k*] + 1
Bei k* sehr flacher Graphverlauf,
d. h. ziemlich gleichgültig,
ob k0 = [k*]
oder k0 = [k*] + 1
Konkrete Lösung mit CAS
(MAPLE, DERIVE o. ä.)
bei gegebenem Wert q > qB :
11
• Zeichnen des Graphen von fq(k):
k* und k0 (die „bessere“ der natürlichen
Nachbarzahlen) einfach ungefähr ablesen!
'
• oder die Gleichung f q (k )  0 wird näh.w.
gelöst (CAS: mit „beliebiger“ Genauigkeit
möglich), 2 Lösungen k* < k** ;
k0 = [k*] oder k0 = [k*] + 1
12
(je nach kleinerem Funktionswert von fq )
Konkrete Lösung mit oder ohne CAS
Durch obige analyt.
Überlegungen klar:
fq(k) bis k* fallend,
dann „steigend bis 1“
Die Suche nach k0 kann sich also (begründet!)
auf das Probieren einiger ganzzahliger Werte
reduzieren: Ab welchem k werden die
Funktionswerte fq(k) wieder größer?
Weitere Möglichkeiten:
1)
Zusammenhang q  k0
(geschlossene Formel unmöglich!)
• Man könnte für viele einzelne q-Werte das
Problem lösen: q gegeben, k0 gesucht:
q
0,7
0,8
0,85
0,9
0,92
0,94
0,96
0,98
0,99
0,995
0,999
k0
3
3
3
4
4
5
6
8
11
15
32
Ersp.%
1
18
28
41
47
53
62
73
80
86
94
11 punktuelle Fälle gelöst,
aber bei q = 0,93 ???
13
Umgekehrt:
k0 vorgegeben, zugehöriger q-Bereich gesucht
Z. B.: für welche q ist 4 die optimale Gruppengröße?
A priori klar: k0 monoton wachsend mit q
(bei mehr Gesunden kann die optimale
Gruppengröße nicht kleiner sein) !
Wo liegt q4 / 5? („Trenn-q“
zw. k0 = 4 und k0 = 5)
Idee: für welches q sind 4 und 5 gleich gute
Gruppengrößen: fq(4) = fq(5): CAS: q4 / 5  0,934
Durch wenige Trenn-q-Werte großer
q-Bereich abgedeckt
Zusammenhang effizienter beschrieben:
2)
Elementare Numerik
Näherungsverf. bei Gleichungen,
nicht nur black box (CAS),
sondern konkretes Verfahren!
Trenn-q-Werte:
qk / k 1 : f q (k )  f q (k  1)
1
 q  1
k (k  1)q k
„Fixpunktgleichung“
„Iterationsverfahren“
Analytischer Nachweis möglich (Wahlpflichtfach):
Konvergenz bei Startwert 1
qk / k+1 ist anziehender Fixpunkt (flacher Schnitt) !
3) Gruppengröße k = 2 ist für
KEIN q optimal !
1
k
q als Variable: f (q, k )  1   q  f k (q)
k
für k = 2 und k = 3:
14
Differenz: f(q,2) – f(q,3)
f(q,2) – f(q,3) > 0 leicht analytisch zu begründen
4) Näherungsformel für k0 (kleine p!)
 1 
k0  k0 : 

 p
15
• Wie gut ist diese Näherungsformel?
• Wie kann man sie plausibel machen?
q
0,7
0,8
0,85
0,9
0,92
0,94
0,96
0,98
0,99 0,995 0,999
k0
3
3
3
4
4
5
6
8
11
15
32
k0
2
3
3
4
4
5
5
8
10
15
32
Plausibilitätsbetrachtung (p statt q !)
1
k
f p (k )  1   (1  p)
k
Ersetze für kleine p den „unangenehmen“ Teilterm
[ k im Exp! ] durch eine einfachere Funktion:
g ( p ) : (1  p) k
Fkt. v. p (p klein!)
„Lok. Linearisieren“ : Tangente in (0|1)
Für kleine p :
(1  p)k  g ( p)
 t ( p)  1  kp
16
Damit für kleine p Approx. möglich:
1
1
1
k
f p (k )  1   (1  p )  1   (1  kp)   kp
k
k
k
1
.
f p (k ) hat das einzige Minimum bei k0 
p
: f p ( k )
 1 
Die Werte k0 : 
 sind für kleine p
 p
und praktische Zwecke genau genug für k 0 !
Dorfman:
k0  11 ;
Näherung: k0  10
;
80,443 % Ersparnis
80,438 % Ersparnis
Potenzial dieses Themas: Kernaufgabe von
Schülern selbständig zu lösen;
ausbaufähig in viele Richtungen
• Bei Begründungen gestufte Niveaus
möglich
• Intensität des CAS-Einsatzes sehr variabel
• k = 2 ist nie optimal
• Numerische Mathematik:
„Umkehrfrage“, Iterationsverfahren,
explizite Näherungsformel
„The main goal of all science is
first to observe
and then to explain phenomena.
In mathematics
the explanation is the proof.”
(D. GALE, 1990)
Literatur
Humenberger / Henn (2004):
Gruppenscreening - ein Paradebeispiel für
Vernetzungsmöglichkeiten im MU.
In: Biehler/Engel/Meyer (Hrsg.):
Neue Medien und innermathematische
Vernetzungen in der Stochastik. Anregungen
zum Stochastikunterricht, Band 2, S. 19 – 32;
Franzbecker, Hildesheim.
Herunterladen