„Gruppen-Screening“ – ein Paradebeispiel für Anwendungsorientierung und Vernetzungsmöglichkeiten im Mathematikunterricht Hans HUMENBERGER Universität Wien Mit einfachen schulmath. Mitteln: • ein Problem aus der Realität modellieren • Verbindung von elementarer Stochastik (EW einer ZG) und Analysis schaffen (Funktionen, Graphen, Extremwerte, Grenzwerte, Kurvendiskussionen) • Prinzip der Approximation veranschaulichen, (Näherungsverfahren, Näherungsformel) • das Verhältnis zwischen diskreten und kontinuierlichen Problemen beleuchten • ein CAS gut einsetzen 0 Einzel-Tests vs. Paar-Tests Aufgabe 1: Nach einem großen Sportfest sollen alle Sportler Proben (Blut, Urin) abgeben: Dopingkontrolle! Es werden 2 Möglichkeiten vorgeschlagen: • Jede Probe wird einzeln überprüft. • Je 2 Proben werden zusammengeschüttet und das Resultat getestet; falls nötig Einzeltests. a) Wie viele Tests sind beim „Paartest“ unter welchen Umständen nötig (pro Paar) ? Paar-Test negativ: beide „sauber“; 1 Test nötig Paar-Test positiv: 1. Person allein getestet: • Negativ: 2. Person hat gedopt (2 Tests) • Positiv: auch die 2. Person muss getestet werden (3 Tests) b) Vergleich für 2n Personen: Einzeltests: 2n Personen, 2n Tests Paar-Tests: jedenfalls n Tests für die n Paare Extremfälle: Bei allen Paaren reicht 1 Test: n Bei allen Paaren 3 Tests nötig: 3n Klar: Paar-Test bringt dann Vorteile, wenn wenige positive Proben zu erwarten sind. Aufgabe 2: Sportfest-Diagramm: Anzahl der Paare, bei denen 1, 2, 3 Tests benötigt wurden. Was ist alles aus diesem Diagramm zu entnehmen? 90 80 70 60 50 40 30 20 10 0 1 2 3 • 80 + 30 + 10 = 120 Paare, d. h. 240 TN • Tests: 80 + 30 2 + 10 3 = 170 , ca. 0,71 T/TN, • zwischen 40 und 50 Sportler/innen gedopt, Dopingquote: 16,7 % – 20,8 % - 29 % Aufgabe 3: (Erwartungswert) Wie viele nötige Tests sind pro Paar zu erwarten, wenn aus langjähriger Erfahrung bekannt ist, dass der Anteil p aller Sportler/innen Doping betreibt? E = (1 – p)² 1 + (1 – p) p 2 + p 3 = – p² + 3p + 1 p 3p 1 2 2 p 0 p 0,38 Gruppentests bei Krankheiten „Krankheitsanteil in der Bevölkerung ist p“ 1 Modellannahme: n Individuen seien unabhängig voneinander und mit jeweils gleicher WS p von dieser Krankheit befallen Auswahl der Testpersonen = Bernoulli-Exp. Bei Einzelprüfung: 1 Test pro Person bzw. k Tests für k Personen 2-stufiger Gruppentest nach Dorfman 1. Stufe (Gruppentest): Mischen des Blutes von jeweils k 2 Personen a) Gruppentest neg.: alle Personen gesund nur 1 Test für diese k Personen b) Gruppentest pos.: mind. 1 Person krank: jede Blutprobe in der Gruppe wird anschließend (2. Stufe) einzeln untersucht: insgesamt k + 1 Tests. Problem: Gruppengröße k (?), so dass insges. möglichst wenige Tests zu erwarten sind: • minimale zu erwartende Kosten • Ergebnisse sollen möglichst schnell vorliegen. 2 q := 1 – p P(gesund) , „Gesundheitsanteil“ der Bev. k 2 die gewählte Gruppengröße EW einer Zufallsgröße, zunächst in einer k-Gruppe: X := Anzahl der nötigen Analysen in einer k-Gruppe X kann nur die Werte 1 und k + 1 annehmen: P( X 1) q k P( X k 1) 1 q k E ( X ) 1 q k (k 1) (1 q k ) k 1 k q k E(X) für verschiedene k nicht gerecht vergleichbar; nicht allein. Krit.: je größer k, desto größer E(X)! Gesamtzahl: n Individuen, (n/k) viele k-Gruppen, insgesamt n E( X ) k zu erwartende Tests für alle n Personen. Zur Vereinfachung sinnvoll: Division durch die feste Zahl n, „Normieren“ (pro Person), „relativer EW “ n E( X ) Min k E( X ) Min k 3 EW der Anzahl der nötigen Untersuchungen PRO PERSON (Gruppengr. k 2 ) E( X ) k 1 k q 1 k f (q, k ) : 1 q k k k k Diese Funktion (Term) müssen wir genauer untersuchen! 1 k f ( q , k ) 1 q 1 Genau bei k bringt Gruppenbildung auf lange Sicht einen Vorteil gegenüber Einzeluntersuchung. Bei festem q (0 ; 1) suchen wir k0 2 (k0 N) mit: • f (q,k0) < 1 (Ersparnis geg. Einzelunt.) • f (q,k0) ist minimal f (q,k) als Fkt. in kontinuierlichen Var.: k obwohl ja eigentlich 2 k Ein eigentlich diskretes Problem wird in ein kontinuierliches verwandelt: kontinuierliche Graphen, Kraft der Analysis z. B. beim Suchen der Minimumstelle 4 Wir setzen festes q (0,1) voraus, d. h. f(q,k) ist eine Funktion in einer Variable k (Gruppengröße) : 1 k f q (k ) : 1 q k Kurvenschar, Funktionenschar mit Parameter q ! 1 f q (k ) : 1 q k k für k (0,50): • von oben nach unten: q = 0.4; 0.6; 0.7; 0.8; 0.85 • Für kleinere q-Werte q < 0.7 scheint zu gelten: k : f q (k ) 1 Uninteressanter Bereich – keine Ersparnis gegenüber Einzeluntersuchungen! 5 1 f q (k ) : 1 q k k k (0,50), größere q : • 2 Schnittp. mit y = 1, asympt. Annäh. v. oben • eindeutiges Min. zw. 0 und 1: Min.stelle interessant (opt. Gruppengröße!) • Wo liegt diese Stelle? 1) Ablesen: CAS-Graph 2) analyt. Überlegungen 1. Versuch: 1. Ableitung von f q (k ) 1 k f q (k ) 2 q ln q 0 k ' Log, : ( 2) ln q ln k k 2 : m 2 k q ( ln q) k ln ln q 2 : b y = ln k hat mit einer Gerade y = mk + b „klarer Weise“ höchstens 2 Schnittpunkte (ln immer negativ d. h. nach rechts gekrümmt!) f q (k ) 6 hat höchstens zwei lokale Extremstellen! Aber: • f q (k ) 0 nicht geschlossen lösbar ' • für welche q gibt es 0, 1, 2 Lösungen? (Näherungslösungen!) • für welche q ergibt sich ein Min/Max/Sattelpunkt? Analog: Schon f q (k ) 1 f q (k ) 1 Log, ( 1) nicht geschlossen lösbar: 1 k q k 1 k q k ln k ln q k höchstens 2 Schnittpunkte (Lösungen) ! Zur weiteren Begründung f q ( k ) und deren Ableitung besser vermeiden! 1 k Die Teilfunktionen von f q (k ) 1 q k Wohlbekannte Funkt. aus der Mittelstufe: 1 Hyperbel: k k Exponentialfunktion: q (fallend: 0 < q < 1) Interessant nur (Ersparnis!) : 1 k f q (k ) 1 q 1 k 1 k q k 7 Zunächst: • 0, 1, 2 Schnittp., je nach q • q groß k q fällt flach: für q qB (Berührwert) 2 Schnittp. 1 k f q (k ) 1 q k Damit klar : f q (k ) 1 Bei q qB ist für k1 k k2 : 1 k q k Begründung des 2. Schnittpunktes auch für q 1durch „de l‘Hospital“ Oben: höchstens 2 Schnittpunkte, damit genau 2 für q qB ! 8 Berührkonstellation lässt sich sogar genau bestimmen: einfache, traditionelle, klassische „Rechnung“, Lösung des GLS: ' ' 1 1 k k 9 q q k k CAS auf Knopfdruck (z. B. MAPLE, auch per Hand, DERIVE nicht: bei nichtlinearen GLS nur numerisch gut): kB e ; qB e 1/ e 0,6922 Einzelgleichungen nicht geschlossen nach k auflösbar, d. h. die beiden Gleichungen „passen“ gut zueinander. Bis jetzt: • Für q qB 0,6922 k 1/ k q f q (k ) 1 , ist d. h. Gruppentests schlechter als Einzeltests (im Durchschnitt, „Erwartungswert“) ! • Auch für q qB bringt Gruppenbildung im k Durchschnitt keine Ersparnis: q 1/ k f q (k ) 1 • Erst ab q qB kann Gruppenbildung im Durchschnitt überhaupt Ersparnis bringen (d. h. bei einem Gesundheitsanteil von mind. ca. 70%, so eine Grenze auch intuitiv zu erwarten)! Noch zu zeigen: f q ( k ) hat für q qB in [k1 , k2 ] genau 1 Minimumstelle k* Oben: f q ( k ) hat höchstens 2 lokale Extremstellen Im Folgenden: f q ( k ) hat für q qB mindestens eine lokale Minimumstelle k* in [k1 , k2 ] und eine lokale Maximumstelle k ** k2 genau diese beiden lokalen Extremstellen! Begründung für k* und k**: 1 f q (k ) 1 q k k 10 1 k ,q besser „getrennt“: k 1 Bei k1 , k2 : Differenz q k 0 , dazwischen < 0 ! k 1 q k stetig Min.stelle in [k1 , k2 ] bei k* k (betraglich Differenz dort maximal !) „Rechts“ von Salopp: Bei k2 : k2 und im Limes k : 1 k q 0 Differenz k 1 k q 0 „dazwischen“ : k Max.-stelle in ( k 2 , ) : bei k** I. A.: k * : k0 = [k*] oder k0 = [k*] + 1 Bei k* sehr flacher Graphverlauf, d. h. ziemlich gleichgültig, ob k0 = [k*] oder k0 = [k*] + 1 Konkrete Lösung mit CAS (MAPLE, DERIVE o. ä.) bei gegebenem Wert q > qB : 11 • Zeichnen des Graphen von fq(k): k* und k0 (die „bessere“ der natürlichen Nachbarzahlen) einfach ungefähr ablesen! ' • oder die Gleichung f q (k ) 0 wird näh.w. gelöst (CAS: mit „beliebiger“ Genauigkeit möglich), 2 Lösungen k* < k** ; k0 = [k*] oder k0 = [k*] + 1 12 (je nach kleinerem Funktionswert von fq ) Konkrete Lösung mit oder ohne CAS Durch obige analyt. Überlegungen klar: fq(k) bis k* fallend, dann „steigend bis 1“ Die Suche nach k0 kann sich also (begründet!) auf das Probieren einiger ganzzahliger Werte reduzieren: Ab welchem k werden die Funktionswerte fq(k) wieder größer? Weitere Möglichkeiten: 1) Zusammenhang q k0 (geschlossene Formel unmöglich!) • Man könnte für viele einzelne q-Werte das Problem lösen: q gegeben, k0 gesucht: q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999 k0 3 3 3 4 4 5 6 8 11 15 32 Ersp.% 1 18 28 41 47 53 62 73 80 86 94 11 punktuelle Fälle gelöst, aber bei q = 0,93 ??? 13 Umgekehrt: k0 vorgegeben, zugehöriger q-Bereich gesucht Z. B.: für welche q ist 4 die optimale Gruppengröße? A priori klar: k0 monoton wachsend mit q (bei mehr Gesunden kann die optimale Gruppengröße nicht kleiner sein) ! Wo liegt q4 / 5? („Trenn-q“ zw. k0 = 4 und k0 = 5) Idee: für welches q sind 4 und 5 gleich gute Gruppengrößen: fq(4) = fq(5): CAS: q4 / 5 0,934 Durch wenige Trenn-q-Werte großer q-Bereich abgedeckt Zusammenhang effizienter beschrieben: 2) Elementare Numerik Näherungsverf. bei Gleichungen, nicht nur black box (CAS), sondern konkretes Verfahren! Trenn-q-Werte: qk / k 1 : f q (k ) f q (k 1) 1 q 1 k (k 1)q k „Fixpunktgleichung“ „Iterationsverfahren“ Analytischer Nachweis möglich (Wahlpflichtfach): Konvergenz bei Startwert 1 qk / k+1 ist anziehender Fixpunkt (flacher Schnitt) ! 3) Gruppengröße k = 2 ist für KEIN q optimal ! 1 k q als Variable: f (q, k ) 1 q f k (q) k für k = 2 und k = 3: 14 Differenz: f(q,2) – f(q,3) f(q,2) – f(q,3) > 0 leicht analytisch zu begründen 4) Näherungsformel für k0 (kleine p!) 1 k0 k0 : p 15 • Wie gut ist diese Näherungsformel? • Wie kann man sie plausibel machen? q 0,7 0,8 0,85 0,9 0,92 0,94 0,96 0,98 0,99 0,995 0,999 k0 3 3 3 4 4 5 6 8 11 15 32 k0 2 3 3 4 4 5 5 8 10 15 32 Plausibilitätsbetrachtung (p statt q !) 1 k f p (k ) 1 (1 p) k Ersetze für kleine p den „unangenehmen“ Teilterm [ k im Exp! ] durch eine einfachere Funktion: g ( p ) : (1 p) k Fkt. v. p (p klein!) „Lok. Linearisieren“ : Tangente in (0|1) Für kleine p : (1 p)k g ( p) t ( p) 1 kp 16 Damit für kleine p Approx. möglich: 1 1 1 k f p (k ) 1 (1 p ) 1 (1 kp) kp k k k 1 . f p (k ) hat das einzige Minimum bei k0 p : f p ( k ) 1 Die Werte k0 : sind für kleine p p und praktische Zwecke genau genug für k 0 ! Dorfman: k0 11 ; Näherung: k0 10 ; 80,443 % Ersparnis 80,438 % Ersparnis Potenzial dieses Themas: Kernaufgabe von Schülern selbständig zu lösen; ausbaufähig in viele Richtungen • Bei Begründungen gestufte Niveaus möglich • Intensität des CAS-Einsatzes sehr variabel • k = 2 ist nie optimal • Numerische Mathematik: „Umkehrfrage“, Iterationsverfahren, explizite Näherungsformel „The main goal of all science is first to observe and then to explain phenomena. In mathematics the explanation is the proof.” (D. GALE, 1990) Literatur Humenberger / Henn (2004): Gruppenscreening - ein Paradebeispiel für Vernetzungsmöglichkeiten im MU. In: Biehler/Engel/Meyer (Hrsg.): Neue Medien und innermathematische Vernetzungen in der Stochastik. Anregungen zum Stochastikunterricht, Band 2, S. 19 – 32; Franzbecker, Hildesheim.