FORSCHUNG UND TECHNIK 57 Neuö Zürcör Zäitung Mittwoch, 2. März 2011 ! Nr. 51 Was für Studienteilnehmer zumutbar ist Eine neue Evaluationsmethode soll helfen, Forschungsrisiken besser als bisher abzuwägen Eliane Pfister Die Forschung am Menschen birgt zum Teil erhebliche Risiken für die Studienteilnehmer. Je nach Intervention können sie von geringen Hautreaktionen über Kopfschmerzen bis zu schweren, potenziell tödlichen Allergien reichen. Verschiedene Gesetze, Verordnungen und ethische Leitlinien fordern deshalb eine angemessene Beurteilung der Risiken eines Forschungsprojekts für die Studienteilnehmer. Um die Menschen in klinischen Studien zu schützen, ist zum Beispiel auch im Entwurf zum Schweizer Gesetz zur Forschung am Menschen vom Konzept der «minimalen Risiken» die Rede. Dieses besagt, dass ein Forschungsprojekt nur dann durchgeführt werden darf, wenn die Risiken für bestimmte Teilnehmergruppen – etwa Urteilsunfähige und Kinder – minimal beziehungsweise möglichst klein sind. Schwierige Beurteilung Doch wann ist ein Risiko minimal und somit zumutbar? Eine Blutentnahme wird wahrscheinlich als minimales Risiko beurteilt. Aber wie steht es um einen Allergie-Hauttest oder eine Leberbiopsie? Ethikkommissionen stehen vor der Herausforderung, die Risiken zu beurteilen und zu entscheiden, ob sie akzeptiert werden können oder nicht. Dass diese Abwägung nicht einfach ist und – auch wenn sorgfältig durchgeführt – zu inkonsistenten Resultaten führen kann, legt eine 2004 durchgeführte Studie der amerikanischen Institutes of Health und der Emmes Corporation, Bethesda, nahe.1 Die Arbeit kommt zum Schluss, dass Ethikkommissionen gleiche Risiken zum Teil sehr unterschiedlich einschätzen. So wurde etwa das Risiko eines Allergie-Hauttests zu gleichen Teilen als «minimal», «ein bisschen grösser als minimal» oder «mehr als nur ein bisschen grösser als minimal» beurteilt. Oft werden die Forschungsrisiken mit Risiken von Vergleichsaktivitäten verglichen, zum Beispiel mit Alltags- scher auch zum Thema Leberbiopsie durch. Hier ergab die Analyse, dass bei dieser Intervention eine ganze Reihe von möglichen schweren Schäden eintreten können, die auch wahrscheinlicher sind als jene der Alltagsaktivitäten. Die Risiken der Leberbiopsie seien deshalb grösser als minimal, folgern die Forscher. Systematischer Risikovergleich Was ist gefährlicher – ein Allergie-Hauttest oder Alltagsaktivitäten? 1000000 Schürfung 100000 10000 Wahrscheinlichkeit der Schädigung pro 100 000 Personen Die Risiken für Teilnehmer von klinischen Studien sind dann akzeptabel, wenn sie minimal sind oder in keinem Missverhältnis zum Nutzen stehen. Eine neue Evaluationsmethode könnte Systematik und Transparenz in der Risikobeurteilung erhöhen. 1000 Grippe Vorübergehende Schmerzen Lokale allergische Reaktion Knochenbruch 100 Noch viele offene Fragen Bänderriss 10 Milde allergische Reaktion am ganzen Körper 1 0,1 Mässige allergische Reaktion am ganzen Körper Schwere allergische Reaktion am ganzen Körper Lähmungen Verlust eines Fingers 0,01 Tod 0,001 0,0001 Vernachlässigbar Klein Mässig Bedeutsam Gross Schwer Katastrophal Schweregrad der Schädigung Um die Risiken eines Forschungsprojekts zu beurteilen, werden die möglichen Schäden für die Teilnehmer nach ihrer Schwere und Wahrscheinlichkeit aufgeschlüsselt – dargestellt sind die Resultate für einen Allergie-Hauttest ( ). Zum Vergleich werden die Risiken von Alltagsaktivitäten herangezogen ( ). Weil die möglichen Schäden des Hauttests im Diagramm nicht wahrscheinlicher, schwerer und zahlreicher sind als jene der Vergleichsaktivitäten, spricht man von minimalen Risiken. NZZ-INFOGRAFIK / mfe. QUELLE: JAMA aktivitäten wie Sporttreiben oder Autofahren – oder mit medizinischen Routineuntersuchungen wie Blutentnahme oder Röntgenuntersuchung. Die unterschiedlichen Vergleichsresultate kommen unter anderem deshalb zustande, weil kein einheitliches, systematisches Vorgehen für die Risikoevaluation angewendet wird und Beurteilungen deshalb stark subjektiv und intuitiv geprägt sind. So werden etwa Risiken, die dem Prüfer vertraut sind, im Verhältnis zu unbekannteren Risiken als zu gering eingeschätzt. Vergleich mit Alltagsaktivitäten Ein Forscherteam des National Institutes of Health Clinical Center in den USA und der Universität Zürich hat als Reaktion auf die unterschiedliche Risikobeurteilung eine Evaluationsmethode entwickelt, mit der sich Forschungsrisiken systematischer und damit besser nachvollziehbar beurteilen lassen sollen.2 Die von Annette Rid, Ezekiel J. Emanuel und David Wendler entwickelte Systematic Evaluation of Research Risks (SERR) basiert ebenfalls auf dem Vergleich zwischen Risiken der Forschung und Risiken anderer Aktivitäten. SERR fordert allerdings ein klares, systematisches Vorgehen. So sollen die Risiken in vier Schritten evaluiert werden – und zwar anhand der Schwere der möglichen Schäden und ihrer Eintretenswahrscheinlichkeiten. Konkret funktioniert das so: Im ersten Schritt wird anhand von empirischen Daten geprüft, welche Schäden die Forschungsteilnehmer von einer Forschungsintervention überhaupt davontragen könnten. Im zweiten Schritt werden die möglichen Schäden nach ihrer Schwere kategorisiert. Im dritten Schritt wird die Wahrscheinlichkeit jedes möglichen Schadens anhand von Risikodaten ermittelt oder geschätzt. Im vierten Schritt wird dann die Wahrscheinlichkeit jedes einzelnen möglichen Schadens (der Forschungsintervention) mit der Wahrscheinlichkeit eines jeweils gleich schweren möglichen Schadens einer Vergleichsaktivität verglichen. Je nach Vergleichsresultat werden diese dann als minimal oder grösser eingestuft. Die Forschergruppe hat ihre Methode getestet, indem sie die Risiken eines Allergie-Hauttests mit den Alltagsrisiken verglichen hat, denen die Durchschnittsbevölkerung ausgesetzt ist (z. B. durch Sportaktivitäten, Autofahren, eine Grippe usw.). Aus der wissenschaftlichen Literatur identifizierten sie sechs verschiedene Schäden, die ein Hauttest verursachen kann: von schwachen und vorübergehenden Schmerzen der Hautstiche über unterschiedlich ausgeprägte allergische Reaktionen bis hin zum Tod. Anhand einer Schadensskala wurden sie entsprechend ihrer Schwere eingeteilt: die Schmerzen der Hautstiche als kleiner Schaden, die allergischen Reaktionen je nach Stärke als mässige bis bedeutsame Schäden und der Tod als katastrophaler Schaden. Anschliessend schätzten die Forscher zusammen mit Experten die Eintretenswahrscheinlichkeiten dieser möglichen Schäden. Darstellung in einem Diagramm Danach wurden diese Werte mit den Schwere- und Wahrscheinlichkeitsdaten der Alltagsrisiken in einem Diagramm verglichen (siehe Grafik). Als Vergleichsrisiken dienten unter anderem eine gewöhnliche Grippe (kleiner Schaden), ein unkomplizierter Knochenbruch (mässiger Schaden), ein kompletter Bänderriss (bedeutsamer Schaden) und der Tod (katastrophaler Schaden). Die Vergleichsanalyse zeigte, dass die möglichen Schäden des AllergieHauttests nicht zahlreicher und alle gleich oder weniger wahrscheinlich waren als die vergleichbaren Schäden, die man zum Beispiel vom Sporttreiben oder Autofahren davontragen kann. Dieses Ergebnis veranlasste die Forscher dazu, die Risiken eines AllergieHauttests als minimal zu bezeichnen. Den gleichen Test mit den gleichen Vergleichsaktivitäten führten die For- Noch wird SERR in der Praxis nicht angewendet. Annette Rid, die Entwicklerin der Methode, sagt, dass noch einige Fragen offen seien und eine Weiterentwicklung der Methode deshalb in Arbeit sei. In erster Linie ist aus ethischer Perspektive noch unklar, welche Aktivitäten als Vergleichsaktivitäten wirklich angemessen sind. Zu diskutieren ist auch der Umgang mit Unsicherheitsfaktoren wie schlechten Daten und unterschiedlichen Schadenskategorisierungen. Im Weiteren muss noch genauer definiert werden, welche Urteile aus den generierten Profilen – den Diagrammen mit den Verteilungen der Schadens- und Wahrscheinlichkeitsdaten – zu folgern sind. Robert Maurer, Präsident der kantonalen Ethikkommission Zürich, weist darauf hin, dass die vorgestellte Methode Objektivität und Exaktheit bis zu einem gewissen Grad nur vortäusche, da sie von individuellen und damit subjektiven Eingabewerten abhänge. Er könnte sich aber trotzdem vorstellen, SERR in der Kommissionsarbeit anzuwenden – wenn auch nicht als absoluter Massstab, so aber doch als Hilfsmittel, um die Subjektivität in der Risikobeurteilung zu reduzieren. Er bestätigt nämlich, dass die Risikoabwägung auch in seiner Kommission sehr stark von den jeweiligen individuellen Massstäben der einzelnen Kommissionsmitglieder abhängig sei. Annette Rid ist bestrebt, diese Situation zu verbessern und den Entscheidungsfindungsprozess zu strukturieren. Sie sagt, dass SERR helfen könne, Standards für die Risikobewertung in der Forschung zu setzen und besondere Gegebenheiten von Studien zu berücksichtigen. Zudem könnte die Methode in Streitfragen von lokalen Ethikkommissionen eingesetzt werden. Je besser es gelingen werde, die noch offenen Fragen zu klären, desto einheitlicher und klarer werden die mit Hilfe von SERR gefällten Urteile ausfallen. JAMA 291, 476–482 (2004), 2 JAMA 304, 1472–1479 (2010). 1 Eine solide Grundlage für eine kombinatorische Vermutung Neu entfachte Kontroverse um die Rolle des Computers beim Beweisen von mathematischen Theoremen Drei Mathematiker haben kürzlich gezeigt, dass eine seit fast drei Jahrzehnten bestehende Vermutung der Kombinatorik wahr ist. Dass sie den Beweis mit Computerhilfe erbrachten, stösst nicht überall auf Wohlwollen. George Szpiro In einem 1985 in Montreal gehaltenen Vortrag hatte der Mathematiker Richard Stanley vom Massachusetts Institute of Technology ein Dutzend Fragen aus dem Gebiet der Kombinatorik aufgeworfen. Bis 1999 konnten alle diese Fragen beantwortet werden – bis auf eine. Jetzt ist auch dieses Rätsel gelöst. Mit Computerhilfe haben Christoph Koutschan und Manuel Kauers vom Institut für symbolisches Rechnen der Universität Linz zusammen mit Doron Zeilberger von der Rutgers University im amerikanischen Gliedstaat New Jersey eine Vermutung bewiesen, an der sich Kombinatoriker auf der ganzen Welt die Zähne ausgebissen hatten.1 Bei den kombinatorischen Problemen, die Stanley 1985 aufgelistet hatte, geht es um sogenannte planare Partitionen. Darunter versteht man eine Stapelung von Klötzen auf einer schachbrettartigen Ebene, die folgender Bedingung genügen muss: Wenn man sich in dem Raster nach rechts oder nach vorne bewegt, darf die Höhe der Türme nicht zunehmen. Unter den verschiedenen Möglichkeiten, die Klötze entsprechend dieser Vorgabe zu stapeln, zeichnen sich manche durch eine hohe Symmetrie aus: Wenn die Position mit den Koordinaten (i, j, k) mit einem Klotz besetzt ist, so sind es auch die Positionen mit den permutierten Koordinaten (i, k, j), (j, i, k), (j, k, i), (k, i, j) und (k, j, i). Ist dies der Fall, so spricht man von einer total symmetrischen planaren Partition (TSPP) (siehe Abbildung). Total symmetrische planare Partition z 2,5 Tonnen Papier x y Diese Stapelung der Klötzchen zeichnet sich durch eine hohe Symmetrie aus: Ist die Position (x, y, z) mit einem Klötzchen besetzt, so sind es auch die Positionen mit permutierten Koordinaten. Verbindet man die entsprechenden Koordinaten miteinander, entsteht ein Orbit. Eingezeichnet sind drei Beispiele. Grün: (4, 4, 4); rot: (1, 1, 8), (8, 1, 1), (1, 8, 1); gelb: (7, 2, 4), (7, 4, 2), (4, 7, 2), (2, 7, 4), (2, 4, 7), (4, 2, 7). QUELLE: MANUEL KAUERS NZZ-INFOGRAFIK / tcf. Keine Chance ohne Computer Die Frage, wie viele total symmetrische Partitionen es bei einem Raster mit vorgegebener Seitenlänge gibt, wurde 1995 mit einer eleganten Formel beantwortet. Als härtere Knacknuss erwies sich jedoch die Frage, wie viele dieser TSPP eine bestimmte Anzahl von Orbits aufweisen (so nennt man die ringförmigen Kurven, die die permutierten Koordina- tatkräftigen Unterstützung hatten die Forscher immense Schwierigkeiten zu überwinden. ten miteinander verbinden). Schon 1983 hatten die Amerikaner George Andrews und David Robbins die Vermutung geäussert, dass die Antwort auf diese Frage durch die Koeffizienten eines gewissen Polynoms gegeben wird. Um das zu beweisen, vertrauten Koutschan, Kauers und Zeilberger auf die Hilfe von Computern. Selbst mit dieser Eine erste Version des Beweises hätte eine Rechenleistung von 1,7 Milliarden Tagen benötigt. Durch verbesserte Algorithmen konnte die erforderliche Rechenleistung schrittweise auf 35 Tage reduziert werden. Mit acht simultan arbeitenden Computern hätte der Beweis somit innert 4 Tagen bewerkstelligt werden können – hätte nicht eine Putzfrau eines Nachts das Stromkabel eines der Computer aus der Steckdose gezogen. So mussten Berechnungen teilweise wiederholt werden. Schliesslich war es aber so weit. Der Output betrug 7 Gigabytes. Ein vollständiger Ausdruck hätte 2,5 Tonnen Papier erfordert. Als die Autoren die Beschreibung ihres Beweises bei einer Zeitschrift für symbolische Logik einreichten, erlebten sie jedoch eine Überraschung. Die Publikation − «Ein Beweis der q-TSPPVermutung von George Andrews und Dave Robbins» − wurde von Gutachtern zwar als korrekt und publikations- würdig beurteilt, aber die Redaktoren bestanden auf einer Änderung des Titels, da es sich nicht um einen rigorosen Beweis handle. Daraufhin zogen die erbosten Autoren ihren Artikel wieder zurück. Zeilberger stellt sich auf den Standpunkt, dass die genaue Beschreibung eines Beweisverfahrens, das dann im Detail von Computern ausgeführt wird, mindestens so rigoros sei wie von Menschenhand geschaffene Beweise. Wie verschiedene Beispiele aus jüngster Zeit gezeigt hätten, könnten ja letztere auch falsch sein, obwohl sie einer akribischen Kontrolle unterworfen werden können. Die Redaktion der «Proceedings of the National Academy of Sciences», einer nicht gerade gängigen Zeitschrift für mathematische Themen, war weniger kleinkariert und akzeptierte den Artikel. In einem Nachwort schreiben die Autoren, für die Andrews-RobbinsVermutung gäbe es möglicherweise gar keinen eleganten, kurzen Beweis. Und Koutschan fragt, ob der mathematischen Gemeinschaft eine Tatsache vorenthalten bleiben dürfe, bloss weil der Beweis zu lang sei. 1 PNAS, Online-Publikation vom 24. Januar 2011.