„Maschinelle Intelligenz –ein Modell für menschliche Kognition?“ Prof. Dr. Ulrich Müller-Funk KI als Konstrukt Die Entwicklung von (teil-) automatisierten Analyse-, Experten -, oder Informationssystemen auf Basis von Informationstechnologien, ist stets von der Diskussion begleitet gewesen, ob und inwieweit Computern eine eigenständige künstliche –oder treffender maschinelle – Intelligenz zuzubilligen sei. Mit „KI“ sollen daher die Fähigkeiten von Computern umschrieben werden, auf Basis von Eingaben (Optionen, Daten,…) eine jeweils spezielle Klasse von Problemen analysieren und lösen zu können. Beispielhaft seien hier etwa Schach-Computer genannt. Ursprünglich weitergehende Vorstellungen von „KI“ in Verbindung mit dem sog. “general problem solver (gps)“, -der menschlichen Problemlösen sehr viel allgemeiner nachahmen sollte, -wurden Ende der 1960er fallengelassen. Eine recht ausführliche Darstellung der Historie lässt sich etwa bei S. Russell und P. Norvig, „Künstliche Intelligenz“ nachlesen. Dort findet sich auch eine aktuelle Zusammenfassung der philosophischen Diskussion zum Thema KI, beginnend mit den Beiträgen von A. Turing. Kernpunkte dieser Erörterungen sind die schwache bzw. starke KI-Hypothese. Erstere postuliert bekanntlich –etwas vereinfachend formuliert, dass Computer auf Basis komplexer Programme menschliche Intelligenz imitieren können. Diese These ist wissenschaftstheoretisch nicht anstößig und wird sehr weitgehend akzeptiert. Interessant ist nur die starke Hypothese, nach der Maschinen die ihnen vermittelte Wissensbasis denkend verändern bzw., verbreiten können. Die philosophische Auseinandersetzung mit dieser ist weitgehend bestimmt durch die Antinomie „Funktionalismus versus Naturalismus“ bzw. das Köper-Geist-Problem. Die gegensätzlichen Standpunkte werden verdeutlicht durch eine Reihe bekannter Gedankenexperimente wie etwa das „Chinesische Zimmer“. Zu dieser Form der Diskussion soll und kann hier nichts beigetragen werden. Anknüpfungspunkte der folgenden Überlegungen sollen vielmehr einige Auffälligkeiten dieser Diskussion aus methodischer bzw. mathematischer Sicht sein. Frage: Wem wird eigentlich welche Art von Intelligenz zugebilligt? IT-basierte Entscheidungsunterstützungssysteme u. ä. werden zumeist als interaktive MenschMaschine-Systeme begriffen. Was –bei einer isolierten Betrachtung der Maschine –nun als deren Intelligenzanteil aufzufassen ist, lässt sich höchstens bei einer differenzierteren Sicht auf den Begriff „Intelligenz“ sagen. Dessen völlig generische Verwendung –die in der KIDebatte üblich ist –erstaunt auch deshalb, weil sich in der Diagnostik menschliche Intelligenz seit langem sehr viel abgestuftere Vorstellungen dieses Konstrukts als hilfreich erwiesen haben. So ist die auf Cattel1) zurückgehende Unterscheidung in „kristalline“ bzw. „fluide“ Intelligenz auch im Rahmen der KI ein brauchbarer Ansatz zu Präzisierung der Problematik. Niemand wird zögern, einem Computer kristalline Intelligenz aufgrund seiner Speicherfähigkeit zuzubilligen. Die starke KI-Hypothese wirft –in dieser Terminologie –dann die Frage nach dem Vorliegen fluider Intelligenz auf, d. h. nach der Fähigkeit sich einer dynamischen „Umwelt“ selbstadaptierend anzupassen. Diese Fähigkeit wiederum lässt sich gedanklich aufteilen in die Aufgaben „Lernen“, „Intentionalisieren“ und „Umsetzen“. Fluide Fähigkeiten sind hierbei vor allem die ersten zwei. Auf das maschinelle Lernen als dem soll in einem späteren Abschnitt eingegangen werden. Für die maschineninterne Bildung von Absichten und Zielen scheinen keinerlei Konstruktionskonzepte zu existieren. Selbst wenn man dabei die Menge aller möglichen Zielsetzungen der Maschine vorgibt, so bleibt das Problem, diese zu einer internen Präferenzbildung bzw. Nutzenbewertung „anzuregen“. In der Psychologie bilden Intelligenz-Modelle die Grundlage für die Intelligenzmessung. Irgendwie erstaunlich ist es auch, dass in einem von Informatikern, Physikern und Mathematikern dominiertem Forschungsgebiet bislang keinerlei Instrumentarium entwickelt worden zu sein scheint, mit dessen Hilfe der - gemäß der starken KI-Hypothese existierende Lernzugewinn sich erfassen lassen könnte. Frage: Warum bleiben wichtige, KI-relevante Begrifflichkeiten so unpräzise – und dies im Rahmen eines ansonsten stark formalisierten Forschungsgebietes?“ In der heutigen Vorstellung von KI spielen der sog. „Agent“ bzw. ganze „Agentengesellschaften“ eine entscheidende Rolle. Ein Agent –repräsentiert durch ein Programm, welches auf einer sog. Architektur abläuft –spiegelt dabei die Vorstellung eines autonom denkenden und rational handelnden elektronischen Golems wieder. Nüchterner formuliert: Agenten stehen für Eingabe – Verarbeitung – Ausgabe – Muster. Mathematisch lässt sich daher ein solches lernendes Schattenwesen beschreiben durch • • • eine parametrisierte Funktion F (. ; p) („Eingabe-Ausgabe“), ein zugehöriger rekursiv arbeitender Lernalgorithmus L, p(neu) = L (p (alt), D), wobei D die Lerndaten bezeichne einen Satz von Startwerten p(o) Nach einem vorgegebenen Schema werden dabei die Parameterwerte aktualisiert und in die Funktion F eingetragen. Agenten für komplexe Aufgaben werden dabei durch Funktionen dargestellt, die selbst aus der Vernetzung vieler Einzelfunktionen hervorgehen können. Unter diesen können auch Pseudo-Zufallszahlen-Generatoren sein oder (De-) Fuzzifizierer. Darüber hinaus kann eine solche Funktion F auch mit einer Schicht ummantelt sein, welche –nach vorprogrammierten Regeln –im Inneren für Dynamik, Adaption, etc, sorgen kann. Das Resultat ist aber in jedem Falle einfach eine mathematische Funktion –eventuell mit einem komplizierten Aufbau. Es fällt in diesem Rahmen schwer, Begriffen wie „Autonomie“, Selbstadaption“ hier einen Platz zuzuweisen. Ebenso unklar ist, was hier mit „rationalem Handeln“ gemeint sein könnte. Letztlich agieren tun (vielleicht) die Adressaten, an die die AgentenAusgabe versandt wird. In de Mathematik bzw. der Informatik werden Begrifflichkeiten wie „Distanz“, „Baum“, „Automat“ etc. etc. ganz selbstverständlich formalisiert und damit operationabel gemacht warum nicht auch die obigen Agenteneigenschaften? Eine entsprechende Vorgehensweise im Bereich der KI würde die Diskussion um die Fähigkeiten von Agenten bzw. Computern deutlich versachlichen, da sich visionäre bzw. spekulative Vorstellungen recht einfach von dem isolieren ließe, was mit heutigen Konzepten erreichbar ist. Nur letzteres ist für eine wissenschaftstheoretische Einordnung von KI letztlich relevant. Terminologische Vagheit ist aber nicht nur im Umgang mit dem Konstrukt „KI“ zu beobachten, sie durchweht den ganzen Forschungsbereich „KI“. Seit der begrifflichen „Gründung“ der Künstlichen Intelligenz als Disziplin der Informatik sind inzwischen mehr als 50 Jahre vergangen. Trotzdem fällt es schwer, von einer einheitlichen Wissenschaftsdisziplin zu sprechen, da die methodischen Leihgaben aus Logik, Statistik Numerik, Psychologie etc. etc. eher –etwas umetikettiert –nebeneinander stehen, aber kaum in übergreifende Theoriegebäude eingegangen sind. Wie ein weiterer Blick in ein internationales Standardwerk wie „Künstliche Intelligenz“ von S. Russell und P. Norvig zeigt, definiert sich der Bereich eher über Zielsetzungen, nämlich der Absicht intelligente Systeme / Einheiten erstellen zu wollen. Selbst entsprechende Definitionen von KI fallen dabei eher euphorisch als präzise aus.1) Ein solcher Mangel an Selbstreflektion ist auch in Teilbereichen der KI zu beachten, etwa der „Theorie“ künstlicher neuronaler Netze, die im Kontext des maschinellen Lernens zentral für die KI sind. Eine internationale Monographie beachtete wie “Neural Networks“ von S. Haykin beginnt mit einem Unterabschnitt “What is a neural network?“ –ohne anschließend auch nur den Versuch einer begrifflichen Eingrenzung zu wagen. Hervorgehoben wird der Bezug zum menschlichen Gehirn, die Notwendigkeit komplexe, nicht-lineare Abläufe modellieren zu müssen –mehr nicht. Die meisten künstlichen neuronalen Netze beschreiben wieder Eingabe – Ausgabe – Muster, mathematisch gesehen also wieder funktionale Zusammenhänge. Ganz überwiegend wird für diese eine Repräsentation in Form eines Graphen gewählt, welche die Berechnung des Ausgabewertes strukturiert. Selbstverständlich lassen sich solche Funktionen auch in ganz anderer Weise darstellen, etwa in rein analytischer Form. So wird ein sog. “error backpropagation network“ (EBPN) typischerweise in Form eines vorwärtsgerichteten tripartiten Graphen angegeben. Analytisch völlig äquivalent lassen sich diese durch zusammengesetzte Funktionen des Typs y = S2 (T2 (S1 (T1 e))) beschreiben, wobei Ti lineare Transformationen sind, die S1 durch die Wahl der jeweiligen Sigmoidfunktionen festgelegt werden und e die Eingabe bezeichne Diese Beobachtung legt nun sofort die Frage nahe, welche Funktionen denn nun als künstliche neuronale Netze anzusehen sind –und welche nicht. Trotz intensiver Suche ließ sich hierzu in der einschlägigen Literatur kein Verweis finden. Frage: Was ist maschinelles Lernen? Der Lernalgorithmus L zu einer parametrisierten Eingabe-Ausgabe-Funktion F (; p) basiert zumeist auf überwachtem Lernen (und nur selten auf anderen Formen). Im ersten Fall wird die Abweichung von dem prognostizierten und dem tatsächlichen Wert mittels einer Verlustfunktion bewertet und dann minimiert bezüglich der Parameter, die ja den Prognosewert bestimmen. Hierbei kommen entweder klassische Optimierungsmethoden –wie etwa eine der Varianten der Gradientenabstiegsmethode –zum Einsatz oder aber auch sog. SchwarmMethoden oder ähnliches. Diese Vorgehensweise ist exakt das, was in der Statistik seit je unter (semi-) parametrische Modellselektion verstanden wird. (Manchmal wird maschinelles Lernen sogar noch spezieller mit dem entsprechenden statistischen statistischen Risikoansatz von Vapnik und Chervonenkis gleichgesetzt.) Lernen auf eine reine Parameteranpassung zu reduzieren und dieser Art als einen rein algorithmischen Vorgang zu interpretieren ist sicherlich eine recht enge Sichtweise –verglichen mit dem was etwa in den Lerntheorien des Kognitivismus oder Konstruktivismus darunter subsumiert wird. Unüberwachtes Lernen tritt etwa bei Gruppierungsproblemen auf. Die Ausgaben sind dann Kennzeichnungen (“labels“) oder Zentroide bzw. Gewichte die auf Basis klassischer Clusteralgorithmen, oder ART –bzw. Kohonennetzen berechnet werden. Auch hier reduziert sich der zugehörige Lernvorgang zumeist auf ein Problem der (Abstands-) Minimierung und damit ebenfalls wieder eine technische „Reizreaktion“. Komplizierter wird die Lernsituation in Agentengesellschaften, diese in einer (iterierten) spieltheoretischen Konfliktsituation agieren sollen. Autonomie und Rationalität bedeuten hier, dass jeder Agent dein Gleichgewichtsstrategie wählt, und damit eine wechselseitig beste Antwort auf die Aktionen der Konkurrenten. Letzteres ergibt sich –von Ausnahmen abgesehen –jedoch nur dann, wenn alle Agenten sich an demselben Gleichgewicht orientieren. Damit sich diese Situation schließlich einstellt, benötigt jeder Agent eine (unüberwachte) Lernstrategie mittels derer erst die Folgen einer Aktion analysiert und bewertet werden, dann eventuell ein Strategiewechsel vollzogen wird, natürlich in Abhängigkeit des Verhaltens aller Mitspieler. Entsprechende Agentenprogramme existieren jedoch nur für einfache Spiele von Typ des wiederholten Gefangenen-Dilemmas, bei denen die Lernstrategie etwa in der Form “tit for tat“ vorgegeben wird. (Zudem hat diese Reaktionsweise bekannte Schwächen, die sich aus dem Vergeltungsautomatismus ergeben.) Auch hier geht Lernen dann über eine Reizreaktion nicht hinaus.