Was für Studienteilnehmer zumutbar ist

Werbung
FORSCHUNG UND TECHNIK 57
Neuö Zürcör Zäitung
Mittwoch, 2. März 2011 ! Nr. 51
Was für Studienteilnehmer zumutbar ist
Eine neue Evaluationsmethode soll helfen, Forschungsrisiken besser als bisher abzuwägen
Eliane Pfister
Die Forschung am Menschen birgt zum
Teil erhebliche Risiken für die Studienteilnehmer. Je nach Intervention können sie von geringen Hautreaktionen
über Kopfschmerzen bis zu schweren,
potenziell tödlichen Allergien reichen.
Verschiedene Gesetze, Verordnungen
und ethische Leitlinien fordern deshalb
eine angemessene Beurteilung der Risiken eines Forschungsprojekts für die
Studienteilnehmer. Um die Menschen
in klinischen Studien zu schützen, ist
zum Beispiel auch im Entwurf zum
Schweizer Gesetz zur Forschung am
Menschen vom Konzept der «minimalen Risiken» die Rede. Dieses besagt,
dass ein Forschungsprojekt nur dann
durchgeführt werden darf, wenn die
Risiken für bestimmte Teilnehmergruppen – etwa Urteilsunfähige und Kinder
– minimal beziehungsweise möglichst
klein sind.
Schwierige Beurteilung
Doch wann ist ein Risiko minimal und
somit zumutbar? Eine Blutentnahme
wird wahrscheinlich als minimales Risiko beurteilt. Aber wie steht es um
einen Allergie-Hauttest oder eine Leberbiopsie? Ethikkommissionen stehen
vor der Herausforderung, die Risiken
zu beurteilen und zu entscheiden, ob sie
akzeptiert werden können oder nicht.
Dass diese Abwägung nicht einfach ist
und – auch wenn sorgfältig durchgeführt – zu inkonsistenten Resultaten
führen kann, legt eine 2004 durchgeführte Studie der amerikanischen Institutes of Health und der Emmes Corporation, Bethesda, nahe.1
Die Arbeit kommt zum Schluss, dass
Ethikkommissionen gleiche Risiken
zum Teil sehr unterschiedlich einschätzen. So wurde etwa das Risiko eines Allergie-Hauttests zu gleichen Teilen als
«minimal», «ein bisschen grösser als
minimal» oder «mehr als nur ein bisschen grösser als minimal» beurteilt.
Oft werden die Forschungsrisiken
mit Risiken von Vergleichsaktivitäten
verglichen, zum Beispiel mit Alltags-
scher auch zum Thema Leberbiopsie
durch. Hier ergab die Analyse, dass bei
dieser Intervention eine ganze Reihe
von möglichen schweren Schäden eintreten können, die auch wahrscheinlicher sind als jene der Alltagsaktivitäten. Die Risiken der Leberbiopsie seien
deshalb grösser als minimal, folgern die
Forscher.
Systematischer Risikovergleich
Was ist gefährlicher – ein Allergie-Hauttest oder Alltagsaktivitäten?
1000000
Schürfung
100000
10000
Wahrscheinlichkeit der Schädigung pro 100 000 Personen
Die Risiken für Teilnehmer von
klinischen Studien sind dann
akzeptabel, wenn sie minimal
sind oder in keinem Missverhältnis zum Nutzen stehen. Eine
neue Evaluationsmethode könnte
Systematik und Transparenz in
der Risikobeurteilung erhöhen.
1000
Grippe
Vorübergehende
Schmerzen
Lokale allergische
Reaktion
Knochenbruch
100
Noch viele offene Fragen
Bänderriss
10
Milde
allergische Reaktion
am ganzen Körper
1
0,1
Mässige
allergische Reaktion
am ganzen Körper
Schwere
allergische Reaktion
am ganzen Körper
Lähmungen
Verlust eines Fingers
0,01
Tod
0,001
0,0001
Vernachlässigbar
Klein
Mässig
Bedeutsam
Gross
Schwer
Katastrophal
Schweregrad der Schädigung
Um die Risiken eines Forschungsprojekts zu beurteilen, werden die möglichen Schäden für die Teilnehmer nach ihrer Schwere und Wahrscheinlichkeit aufgeschlüsselt – dargestellt sind die
Resultate für einen Allergie-Hauttest ( ). Zum Vergleich werden die Risiken von Alltagsaktivitäten herangezogen ( ). Weil die möglichen Schäden des Hauttests im Diagramm nicht
wahrscheinlicher, schwerer und zahlreicher sind als jene der Vergleichsaktivitäten, spricht man von minimalen Risiken.
NZZ-INFOGRAFIK / mfe.
QUELLE: JAMA
aktivitäten wie Sporttreiben oder Autofahren – oder mit medizinischen Routineuntersuchungen wie Blutentnahme
oder Röntgenuntersuchung. Die unterschiedlichen Vergleichsresultate kommen unter anderem deshalb zustande,
weil kein einheitliches, systematisches
Vorgehen für die Risikoevaluation angewendet wird und Beurteilungen deshalb stark subjektiv und intuitiv geprägt
sind. So werden etwa Risiken, die dem
Prüfer vertraut sind, im Verhältnis zu
unbekannteren Risiken als zu gering
eingeschätzt.
Vergleich mit Alltagsaktivitäten
Ein Forscherteam des National Institutes of Health Clinical Center in den
USA und der Universität Zürich hat als
Reaktion auf die unterschiedliche Risikobeurteilung eine Evaluationsmethode entwickelt, mit der sich Forschungsrisiken systematischer und damit besser nachvollziehbar beurteilen
lassen sollen.2 Die von Annette Rid,
Ezekiel J. Emanuel und David Wendler
entwickelte Systematic Evaluation of
Research Risks (SERR) basiert ebenfalls auf dem Vergleich zwischen Risiken der Forschung und Risiken anderer
Aktivitäten. SERR fordert allerdings
ein klares, systematisches Vorgehen. So
sollen die Risiken in vier Schritten evaluiert werden – und zwar anhand der
Schwere der möglichen Schäden und
ihrer Eintretenswahrscheinlichkeiten.
Konkret funktioniert das so:
Im ersten Schritt wird anhand von
empirischen Daten geprüft, welche
Schäden die Forschungsteilnehmer von
einer Forschungsintervention überhaupt davontragen könnten. Im zweiten
Schritt werden die möglichen Schäden
nach ihrer Schwere kategorisiert. Im
dritten Schritt wird die Wahrscheinlichkeit jedes möglichen Schadens anhand
von Risikodaten ermittelt oder geschätzt. Im vierten Schritt wird dann die
Wahrscheinlichkeit jedes einzelnen
möglichen Schadens (der Forschungsintervention) mit der Wahrscheinlichkeit eines jeweils gleich schweren möglichen Schadens einer Vergleichsaktivität verglichen. Je nach Vergleichsresultat werden diese dann als minimal oder
grösser eingestuft.
Die Forschergruppe hat ihre Methode getestet, indem sie die Risiken eines
Allergie-Hauttests mit den Alltagsrisiken verglichen hat, denen die Durchschnittsbevölkerung ausgesetzt ist (z. B.
durch Sportaktivitäten, Autofahren,
eine Grippe usw.). Aus der wissenschaftlichen Literatur identifizierten sie sechs
verschiedene Schäden, die ein Hauttest
verursachen kann: von schwachen und
vorübergehenden Schmerzen der Hautstiche über unterschiedlich ausgeprägte
allergische Reaktionen bis hin zum Tod.
Anhand einer Schadensskala wurden sie
entsprechend ihrer Schwere eingeteilt:
die Schmerzen der Hautstiche als kleiner Schaden, die allergischen Reaktionen je nach Stärke als mässige bis bedeutsame Schäden und der Tod als katastrophaler Schaden. Anschliessend
schätzten die Forscher zusammen mit
Experten die Eintretenswahrscheinlichkeiten dieser möglichen Schäden.
Darstellung in einem Diagramm
Danach wurden diese Werte mit den
Schwere- und Wahrscheinlichkeitsdaten
der Alltagsrisiken in einem Diagramm
verglichen (siehe Grafik). Als Vergleichsrisiken dienten unter anderem
eine gewöhnliche Grippe (kleiner Schaden), ein unkomplizierter Knochenbruch (mässiger Schaden), ein kompletter Bänderriss (bedeutsamer Schaden)
und der Tod (katastrophaler Schaden).
Die Vergleichsanalyse zeigte, dass
die möglichen Schäden des AllergieHauttests nicht zahlreicher und alle
gleich oder weniger wahrscheinlich waren als die vergleichbaren Schäden, die
man zum Beispiel vom Sporttreiben
oder Autofahren davontragen kann.
Dieses Ergebnis veranlasste die Forscher dazu, die Risiken eines AllergieHauttests als minimal zu bezeichnen.
Den gleichen Test mit den gleichen
Vergleichsaktivitäten führten die For-
Noch wird SERR in der Praxis nicht angewendet. Annette Rid, die Entwicklerin der Methode, sagt, dass noch einige
Fragen offen seien und eine Weiterentwicklung der Methode deshalb in Arbeit sei. In erster Linie ist aus ethischer
Perspektive noch unklar, welche Aktivitäten als Vergleichsaktivitäten wirklich
angemessen sind. Zu diskutieren ist
auch der Umgang mit Unsicherheitsfaktoren wie schlechten Daten und unterschiedlichen Schadenskategorisierungen. Im Weiteren muss noch genauer
definiert werden, welche Urteile aus
den generierten Profilen – den Diagrammen mit den Verteilungen der
Schadens- und Wahrscheinlichkeitsdaten – zu folgern sind.
Robert Maurer, Präsident der kantonalen Ethikkommission Zürich, weist
darauf hin, dass die vorgestellte Methode Objektivität und Exaktheit bis zu
einem gewissen Grad nur vortäusche,
da sie von individuellen und damit subjektiven Eingabewerten abhänge. Er
könnte sich aber trotzdem vorstellen,
SERR in der Kommissionsarbeit anzuwenden – wenn auch nicht als absoluter
Massstab, so aber doch als Hilfsmittel,
um die Subjektivität in der Risikobeurteilung zu reduzieren. Er bestätigt nämlich, dass die Risikoabwägung auch in
seiner Kommission sehr stark von den
jeweiligen individuellen Massstäben der
einzelnen Kommissionsmitglieder abhängig sei.
Annette Rid ist bestrebt, diese Situation zu verbessern und den Entscheidungsfindungsprozess zu strukturieren.
Sie sagt, dass SERR helfen könne, Standards für die Risikobewertung in der
Forschung zu setzen und besondere Gegebenheiten von Studien zu berücksichtigen. Zudem könnte die Methode in
Streitfragen von lokalen Ethikkommissionen eingesetzt werden. Je besser es
gelingen werde, die noch offenen Fragen zu klären, desto einheitlicher und
klarer werden die mit Hilfe von SERR
gefällten Urteile ausfallen.
JAMA 291, 476–482 (2004), 2 JAMA 304, 1472–1479
(2010).
1
Eine solide Grundlage für eine kombinatorische Vermutung
Neu entfachte Kontroverse um die Rolle des Computers beim Beweisen von mathematischen Theoremen
Drei Mathematiker haben kürzlich gezeigt, dass eine seit fast
drei Jahrzehnten bestehende
Vermutung der Kombinatorik
wahr ist. Dass sie den Beweis mit
Computerhilfe erbrachten, stösst
nicht überall auf Wohlwollen.
George Szpiro
In einem 1985 in Montreal gehaltenen
Vortrag hatte der Mathematiker Richard Stanley vom Massachusetts Institute of Technology ein Dutzend Fragen
aus dem Gebiet der Kombinatorik aufgeworfen. Bis 1999 konnten alle diese
Fragen beantwortet werden – bis auf
eine. Jetzt ist auch dieses Rätsel gelöst.
Mit Computerhilfe haben Christoph
Koutschan und Manuel Kauers vom
Institut für symbolisches Rechnen der
Universität Linz zusammen mit Doron
Zeilberger von der Rutgers University
im amerikanischen Gliedstaat New Jersey eine Vermutung bewiesen, an der
sich Kombinatoriker auf der ganzen
Welt die Zähne ausgebissen hatten.1
Bei den kombinatorischen Problemen, die Stanley 1985 aufgelistet hatte,
geht es um sogenannte planare Partitionen. Darunter versteht man eine Stapelung von Klötzen auf einer schachbrettartigen Ebene, die folgender Bedingung
genügen muss: Wenn man sich in dem
Raster nach rechts oder nach vorne bewegt, darf die Höhe der Türme nicht zunehmen. Unter den verschiedenen
Möglichkeiten, die Klötze entsprechend
dieser Vorgabe zu stapeln, zeichnen sich
manche durch eine hohe Symmetrie aus:
Wenn die Position mit den Koordinaten
(i, j, k) mit einem Klotz besetzt ist, so
sind es auch die Positionen mit den permutierten Koordinaten (i, k, j), (j, i, k),
(j, k, i), (k, i, j) und (k, j, i). Ist dies der
Fall, so spricht man von einer total symmetrischen planaren Partition (TSPP)
(siehe Abbildung).
Total symmetrische planare Partition
z
2,5 Tonnen Papier
x
y
Diese Stapelung der Klötzchen zeichnet sich durch eine hohe
Symmetrie aus: Ist die Position (x, y, z) mit einem Klötzchen
besetzt, so sind es auch die Positionen mit permutierten
Koordinaten. Verbindet man die entsprechenden Koordinaten
miteinander, entsteht ein Orbit. Eingezeichnet sind drei
Beispiele. Grün: (4, 4, 4); rot: (1, 1, 8), (8, 1, 1), (1, 8, 1); gelb:
(7, 2, 4), (7, 4, 2), (4, 7, 2), (2, 7, 4), (2, 4, 7), (4, 2, 7).
QUELLE: MANUEL KAUERS
NZZ-INFOGRAFIK / tcf.
Keine Chance ohne Computer
Die Frage, wie viele total symmetrische
Partitionen es bei einem Raster mit vorgegebener Seitenlänge gibt, wurde 1995
mit einer eleganten Formel beantwortet. Als härtere Knacknuss erwies sich
jedoch die Frage, wie viele dieser TSPP
eine bestimmte Anzahl von Orbits aufweisen (so nennt man die ringförmigen
Kurven, die die permutierten Koordina-
tatkräftigen Unterstützung hatten die
Forscher immense Schwierigkeiten zu
überwinden.
ten miteinander verbinden). Schon 1983
hatten die Amerikaner George Andrews und David Robbins die Vermutung geäussert, dass die Antwort auf
diese Frage durch die Koeffizienten
eines gewissen Polynoms gegeben wird.
Um das zu beweisen, vertrauten Koutschan, Kauers und Zeilberger auf die
Hilfe von Computern. Selbst mit dieser
Eine erste Version des Beweises hätte
eine Rechenleistung von 1,7 Milliarden
Tagen benötigt. Durch verbesserte Algorithmen konnte die erforderliche Rechenleistung schrittweise auf 35 Tage
reduziert werden. Mit acht simultan
arbeitenden Computern hätte der
Beweis somit innert 4 Tagen bewerkstelligt werden können – hätte nicht
eine Putzfrau eines Nachts das Stromkabel eines der Computer aus der
Steckdose gezogen. So mussten Berechnungen teilweise wiederholt werden.
Schliesslich war es aber so weit. Der
Output betrug 7 Gigabytes. Ein vollständiger Ausdruck hätte 2,5 Tonnen
Papier erfordert.
Als die Autoren die Beschreibung
ihres Beweises bei einer Zeitschrift für
symbolische Logik einreichten, erlebten
sie jedoch eine Überraschung. Die Publikation − «Ein Beweis der q-TSPPVermutung von George Andrews und
Dave Robbins» − wurde von Gutachtern zwar als korrekt und publikations-
würdig beurteilt, aber die Redaktoren
bestanden auf einer Änderung des
Titels, da es sich nicht um einen rigorosen Beweis handle. Daraufhin zogen die
erbosten Autoren ihren Artikel wieder
zurück. Zeilberger stellt sich auf den
Standpunkt, dass die genaue Beschreibung eines Beweisverfahrens, das dann
im Detail von Computern ausgeführt
wird, mindestens so rigoros sei wie von
Menschenhand geschaffene Beweise.
Wie verschiedene Beispiele aus jüngster
Zeit gezeigt hätten, könnten ja letztere
auch falsch sein, obwohl sie einer akribischen Kontrolle unterworfen werden
können.
Die Redaktion der «Proceedings of
the National Academy of Sciences»,
einer nicht gerade gängigen Zeitschrift
für mathematische Themen, war weniger kleinkariert und akzeptierte den
Artikel. In einem Nachwort schreiben
die Autoren, für die Andrews-RobbinsVermutung gäbe es möglicherweise gar
keinen eleganten, kurzen Beweis. Und
Koutschan fragt, ob der mathematischen Gemeinschaft eine Tatsache vorenthalten bleiben dürfe, bloss weil der
Beweis zu lang sei.
1
PNAS, Online-Publikation vom 24. Januar 2011.
Herunterladen