Klassifikation von histologischen Subtypen des Lungenkarzinoms anhand von Antikörperprofilen Casjens S1, Johnen G1, Taeger D1, Rozynek P1, Rabstein S1, Wiethege T1, Brüning T1, Stricker I2, Westerwick D2, Tannapfel A2, Ickstadt K3, Pesch B1 1 2 Institut für Prävention und Arbeitsmedizin der Deutschen Gesetzlichen Unfallversicherung - Institut der Ruhr-Universität Bochum (IPA) Institut für Pathologie der Ruhr-Universität Bochum am Berufsgenossenschaftlichen Universitätsklinikum Bergmannsheil, 3 TU Dortmund Zelle Gegenstand intensivernatuA Einleitung Zelle Gegenstand intensivernatuA Zelle Gegenstand intensiveAA123 Ergebnisse Zelle Gegenstand intensiveAA123 Lungenkrebs kann in verschiedene histologische Subtypen eingeteilt werden. Hauptformen sind das Adenokarzinom (AdCa) und das Plattenepithelkarzinom (SqCC), die zu nicht-kleinzelligen Lungentumoren zusammengefasst werden, sowie das kleinzellige Lungenkarzinom (SCLC). Für die Tumorbehandlung wurden neue Medikamente wie Gefitinib entwickelt, die insbesondere bei nicht-kleinzelligen Lungentumoren als „targeted therapy“ wichtige Signalpathways hemmen. Eine zuverlässige Klassifizierung der Subtypen kann therapieentscheidend sein. Hierzu stützen sich Pathologen neben der morphologischen Charakterisierung der Zellen auch auf immunhistochemische Färbungen von Proteinen im Lungengewebe. Ohne Berücksichtigung der Antikörperkosten klassifizierten drei Merkmale der Proteine P1, P2 und P3 die histologischen Subtypen mit einer FKR von 10,49%. Mit Berücksichtigung der Antikörperkosten: Die besten NSGA-II-Einstellungen mit höchstem S-Metrik-Wert sind: 400 Generationen, Populationsgröße 125, One-Point-Crossover mit Wahrscheinlichkeit 75% und Bit-Flip-Mutationswahrscheinlichkeit 0,1%. Abbildung 2 zeigt die zugehörigen Ergebnismengen und deren gute Diversität in den Populationen. Ziel des Projekts: Verbesserung der Klassifikation von Subtypen des Lungenkrebses anhand von Protein-Signaturen unter Berücksichtigung der Antikörperkosten, d.h. eine kostensensitive Klassifikation. Zelle Gegenstand intensiveriiiiii Datengrundlage Zelle Gegenstand intensiveriiiiii Das Studienkollektiv umfasst 143 Gewebeproben von männlichen Uranbergarbeitern, bei denen mindestens zwei von drei Pathologen übereinstimmend den Subtyp klassifizierten. Darunter sind 35 AdCa, 33 SqCC, 39 SCLC und 36 Kontrollen. Mischformen wurden ausgeschlossen. 22 Proteine (sowohl Standard- als auch neue Marker) konnten mit Antikörpern nachgewiesen werden, deren Auswahl eine umfangreiche Literaturrecherche zugrundelag. Die molekularen Signaturen wurden anhand von Färbungen mit Antikörpern in Zellmembran, Zytoplasma und Zellkern sichtbar gemacht. Die Beurteilung der Färbung der 22 Proteine erfolgte in vier Intensitätskategorien (-), (+), (++), (+++). Abbildung 1 zeigt Schnitte mit Färbung des Proteins P1. Abbildung 2: Ergebnismenge der besten NSGA-II-Optimierung. Bei der mehrkriteriellen Optimierung ist die geringste FKR von 7% bei Verwendung der Proteine P1, P3 und P4 beobachtbar. Im Vergleich zur Modellierung ohne Berücksichtigung der Antikörperkosten ist die Fehlklassifikation geringer. Außerdem können die für diese Rechnung angesetzten Kosten um 22% gesenkt werden. Abbildung 3 zeigt den CART-Baum für die Merkmalskombination mit geringster FKR und die Cut-Off-Werte der zugehörigen Scores. Abbildung 1: Protein-Färbung in AdCa, SqCC, SCLC, Kontrollgewebe (von links). Score für die statistische Analyse: Für jeden Schnitt wurde die prozentuale Verteilung der Farbintensitäten pro Zellbestandteil angegeben und je durch einen Score quantitativ erfasst: Score = 0 × relativer Zellanteil ohne Färbung (-) Score12+ 1 × relativer Zellanteil mit schwacher Färbung (+) Score12+ 2 × relativer Zellanteil mit mäßiger Färbung (++) Score12+ 3 × relativer Zellanteil mit starker Färbung (+++) 01234 012345 0123456 ∈ [0,300]. Zelle GegenstandAAa12345 Statistische Methoden Zelle GegenstandAAa12345 Die kostensensitive Klassifikation stellt ein mehrkriterielles Optimierungsproblem dar, dessen Ziele die Minimierung der Fehlklassifikationsrate und des finanziellen Aufwandes sind. Gesucht sind somit die Merkmale (Protein & Zellbestandteil), mit denen die beste Klassifikation zu den geringsten Antikörperkosten erreicht werden kann. Mit Hilfe mehrkriterieller evolutionärer Algorithmen und einem geeigneten Klassifikationsverfahren erfolgt die kostensensitive Variablenselektion, um paretooptimale Merkmalsteilmengen zu erhalten, die eine gute und zugleich kostengünstige Klassifizierung der Lungenkrebsubtypen ermöglichen. Hybrid-Ansatz: Evolutionärer Algorithmus (EA) & Klassifikationsverfahren. • Zielfunktionen: – Klassifikator (CART) liefert fünffach kreuzvalidierte Fehlklassifikationsraten (FKR) bzgl. betrachteter Proteine. – Finanzielle Kosten der zur Färbung benötigten Antikörper. • EA (NSGA-II) zur mehrkriteriellen Optimierung mit Bit-String-Repräsentation. • Parameter-Einstellungen für EA durch Latin-Hypercube-Design (LHD) ermittelt. • Vergleich verschiedener EA-Optimierungen mittels des dominierten Hypervolumens (S-Metrik). Abbildung 3: CART-Baum mit geringster Fehlklassifikationsrate aus der NSGA-II-Ergebnismenge. Zelle Gegenstand inte1234 Diskussion und Ausblick Zelle Gegenstand inte1234 Am Beispiel der Klassifikation von Lungenkrebssubtypen wurden 22 ausgewählte Proteine statistisch ausgewertet. Der hier vorgestellte mehrkriterielle Hybrid-Ansatz aus EA und Klassifikationsverfahren ist kostensensitiv und liefert eine geringere Fehlklassifikationsrate als die einkriterielle Analyse mit CART. Beide Verfahren finden jeweils drei Merkmale, mit denen sich eine geringe Fehlklassifikation erzielen lässt, wobei zwei Proteine in den Verfahren identisch sind. Die mit Hilfe des LHD optimierten Parametereinstellungen des Hybrid-Ansatzes liefern eine finale Generation mit guter Diversität. Weitere zu verfolgende statistische Ansätze: • Untersuchung der Kombination weiterer EAs und Klassifikationsverfahren. • Betrachtung einer dritten Zielfunktion „Anzahl betrachteter Proteine“ stellvertretend für die Gesamtkosten der Proteinfärbung. Zelle Gegenstand intensive1234567891234567 Danksagung Zelle Gegenstand intensive1234567891234567 Das Projekt wird durch das Bundesamt für Strahlenschutz (Projekt 3607S04528) gefördert.