„Maschinelle Intelligenz –ein Modell für menschliche Kognition?“ KI

Werbung
„Maschinelle Intelligenz –ein Modell für menschliche Kognition?“
Prof. Dr. Ulrich Müller-Funk
KI als Konstrukt
Die Entwicklung von (teil-) automatisierten Analyse-, Experten -, oder Informationssystemen
auf Basis von Informationstechnologien, ist stets von der Diskussion begleitet gewesen, ob
und inwieweit Computern eine eigenständige künstliche –oder treffender maschinelle –
Intelligenz zuzubilligen sei. Mit „KI“ sollen daher die Fähigkeiten von Computern umschrieben werden, auf Basis von Eingaben (Optionen, Daten,…) eine jeweils spezielle Klasse von
Problemen analysieren und lösen zu können. Beispielhaft seien hier etwa Schach-Computer
genannt. Ursprünglich weitergehende Vorstellungen von „KI“ in Verbindung mit dem sog.
“general problem solver (gps)“, -der menschlichen Problemlösen sehr viel allgemeiner nachahmen sollte, -wurden Ende der 1960er fallengelassen. Eine recht ausführliche Darstellung
der Historie lässt sich etwa bei S. Russell und P. Norvig, „Künstliche Intelligenz“ nachlesen.
Dort findet sich auch eine aktuelle Zusammenfassung der philosophischen Diskussion zum
Thema KI, beginnend mit den Beiträgen von A. Turing. Kernpunkte dieser Erörterungen sind
die schwache bzw. starke KI-Hypothese. Erstere postuliert bekanntlich –etwas vereinfachend
formuliert, dass Computer auf Basis komplexer Programme menschliche Intelligenz imitieren
können. Diese These ist wissenschaftstheoretisch nicht anstößig und wird sehr weitgehend
akzeptiert. Interessant ist nur die starke Hypothese, nach der Maschinen die ihnen vermittelte
Wissensbasis denkend verändern bzw., verbreiten können. Die philosophische Auseinandersetzung mit dieser ist weitgehend bestimmt durch die Antinomie „Funktionalismus versus
Naturalismus“ bzw. das Köper-Geist-Problem. Die gegensätzlichen Standpunkte werden verdeutlicht durch eine Reihe bekannter Gedankenexperimente wie etwa das „Chinesische Zimmer“. Zu dieser Form der Diskussion soll und kann hier nichts beigetragen werden. Anknüpfungspunkte der folgenden Überlegungen sollen vielmehr einige Auffälligkeiten dieser Diskussion aus methodischer bzw. mathematischer Sicht sein.
Frage: Wem wird eigentlich welche Art von Intelligenz zugebilligt?
IT-basierte Entscheidungsunterstützungssysteme u. ä. werden zumeist als interaktive MenschMaschine-Systeme begriffen. Was –bei einer isolierten Betrachtung der Maschine –nun als
deren Intelligenzanteil aufzufassen ist, lässt sich höchstens bei einer differenzierteren Sicht
auf den Begriff „Intelligenz“ sagen. Dessen völlig generische Verwendung –die in der KIDebatte üblich ist –erstaunt auch deshalb, weil sich in der Diagnostik menschliche Intelligenz
seit langem sehr viel abgestuftere Vorstellungen dieses Konstrukts als hilfreich erwiesen haben. So ist die auf Cattel1) zurückgehende Unterscheidung in „kristalline“ bzw. „fluide“ Intelligenz auch im Rahmen der KI ein brauchbarer Ansatz zu Präzisierung der Problematik. Niemand wird zögern, einem Computer kristalline Intelligenz aufgrund seiner Speicherfähigkeit
zuzubilligen. Die starke KI-Hypothese wirft –in dieser Terminologie –dann die Frage nach
dem Vorliegen fluider Intelligenz auf, d. h. nach der Fähigkeit sich einer dynamischen „Umwelt“ selbstadaptierend anzupassen. Diese Fähigkeit wiederum lässt sich gedanklich aufteilen
in die Aufgaben „Lernen“, „Intentionalisieren“ und „Umsetzen“. Fluide Fähigkeiten sind
hierbei vor allem die ersten zwei. Auf das maschinelle Lernen als dem soll in einem späteren
Abschnitt eingegangen werden. Für die maschineninterne Bildung von Absichten und Zielen
scheinen keinerlei Konstruktionskonzepte zu existieren. Selbst wenn man dabei die Menge
aller möglichen Zielsetzungen der Maschine vorgibt, so bleibt das Problem, diese zu einer
internen Präferenzbildung bzw. Nutzenbewertung „anzuregen“.
In der Psychologie bilden Intelligenz-Modelle die Grundlage für die Intelligenzmessung. Irgendwie erstaunlich ist es auch, dass in einem von Informatikern, Physikern und Mathematikern dominiertem Forschungsgebiet bislang keinerlei Instrumentarium entwickelt worden zu
sein scheint, mit dessen Hilfe der - gemäß der starken KI-Hypothese existierende Lernzugewinn sich erfassen lassen könnte.
Frage: Warum bleiben wichtige, KI-relevante Begrifflichkeiten so unpräzise –
und dies im Rahmen eines ansonsten stark formalisierten Forschungsgebietes?“
In der heutigen Vorstellung von KI spielen der sog. „Agent“ bzw. ganze „Agentengesellschaften“ eine entscheidende Rolle. Ein Agent –repräsentiert durch ein Programm, welches auf
einer sog. Architektur abläuft –spiegelt dabei die Vorstellung eines autonom denkenden und
rational handelnden elektronischen Golems wieder. Nüchterner formuliert: Agenten stehen für
Eingabe – Verarbeitung – Ausgabe – Muster. Mathematisch lässt sich daher ein solches lernendes Schattenwesen beschreiben durch
•
•
•
eine parametrisierte Funktion F (. ; p) („Eingabe-Ausgabe“),
ein zugehöriger rekursiv arbeitender Lernalgorithmus L, p(neu) = L (p (alt), D), wobei
D die Lerndaten bezeichne
einen Satz von Startwerten p(o)
Nach einem vorgegebenen Schema werden dabei die Parameterwerte aktualisiert und in die
Funktion F eingetragen. Agenten für komplexe Aufgaben werden dabei durch Funktionen
dargestellt, die selbst aus der Vernetzung vieler Einzelfunktionen hervorgehen können. Unter
diesen können auch Pseudo-Zufallszahlen-Generatoren sein oder (De-) Fuzzifizierer. Darüber
hinaus kann eine solche Funktion F auch mit einer Schicht ummantelt sein, welche –nach
vorprogrammierten Regeln –im Inneren für Dynamik, Adaption, etc, sorgen kann. Das Resultat ist aber in jedem Falle einfach eine mathematische Funktion –eventuell mit einem komplizierten Aufbau. Es fällt in diesem Rahmen schwer, Begriffen wie „Autonomie“, Selbstadaption“ hier einen Platz zuzuweisen. Ebenso unklar ist, was hier mit „rationalem Handeln“ gemeint sein könnte. Letztlich agieren tun (vielleicht) die Adressaten, an die die AgentenAusgabe versandt wird. In de Mathematik bzw. der Informatik werden Begrifflichkeiten wie
„Distanz“, „Baum“, „Automat“ etc. etc. ganz selbstverständlich formalisiert und damit operationabel gemacht warum nicht auch die obigen Agenteneigenschaften? Eine entsprechende
Vorgehensweise im Bereich der KI würde die Diskussion um die Fähigkeiten von Agenten
bzw. Computern deutlich versachlichen, da sich visionäre bzw. spekulative Vorstellungen
recht einfach von dem isolieren ließe, was mit heutigen Konzepten erreichbar ist. Nur letzteres ist für eine wissenschaftstheoretische Einordnung von KI letztlich relevant. Terminologische Vagheit ist aber nicht nur im Umgang mit dem Konstrukt „KI“ zu beobachten, sie
durchweht den ganzen Forschungsbereich „KI“.
Seit der begrifflichen „Gründung“ der Künstlichen Intelligenz als Disziplin der Informatik
sind inzwischen mehr als 50 Jahre vergangen. Trotzdem fällt es schwer, von einer einheitlichen Wissenschaftsdisziplin zu sprechen, da die methodischen Leihgaben aus Logik, Statistik
Numerik, Psychologie etc. etc. eher –etwas umetikettiert –nebeneinander stehen, aber kaum in
übergreifende Theoriegebäude eingegangen sind. Wie ein weiterer Blick in ein internationales
Standardwerk wie „Künstliche Intelligenz“ von S. Russell und P. Norvig zeigt, definiert sich
der Bereich eher über Zielsetzungen, nämlich der Absicht intelligente Systeme / Einheiten
erstellen zu wollen. Selbst entsprechende Definitionen von KI fallen dabei eher euphorisch als
präzise aus.1) Ein solcher Mangel an Selbstreflektion ist auch in Teilbereichen der KI zu beachten, etwa der „Theorie“ künstlicher neuronaler Netze, die im Kontext des maschinellen
Lernens zentral für die KI sind. Eine internationale Monographie beachtete wie “Neural Networks“ von S. Haykin beginnt mit einem Unterabschnitt “What is a neural network?“ –ohne
anschließend auch nur den Versuch einer begrifflichen Eingrenzung zu wagen. Hervorgehoben wird der Bezug zum menschlichen Gehirn, die Notwendigkeit komplexe, nicht-lineare
Abläufe modellieren zu müssen –mehr nicht. Die meisten künstlichen neuronalen Netze beschreiben wieder Eingabe – Ausgabe – Muster, mathematisch gesehen also wieder funktionale Zusammenhänge. Ganz überwiegend wird für diese eine Repräsentation in Form eines Graphen gewählt, welche die Berechnung des Ausgabewertes strukturiert. Selbstverständlich lassen sich solche Funktionen auch in ganz anderer Weise darstellen, etwa in rein analytischer
Form. So wird ein sog. “error backpropagation network“ (EBPN) typischerweise in Form
eines vorwärtsgerichteten tripartiten Graphen angegeben. Analytisch völlig äquivalent lassen
sich diese durch zusammengesetzte Funktionen des Typs y = S2 (T2 (S1 (T1 e))) beschreiben,
wobei Ti lineare Transformationen sind, die S1 durch die Wahl der jeweiligen Sigmoidfunktionen festgelegt werden und e die Eingabe bezeichne Diese Beobachtung legt nun sofort die
Frage nahe, welche Funktionen denn nun als künstliche neuronale Netze anzusehen sind –und
welche nicht. Trotz intensiver Suche ließ sich hierzu in der einschlägigen Literatur kein Verweis finden.
Frage: Was ist maschinelles Lernen?
Der Lernalgorithmus L zu einer parametrisierten Eingabe-Ausgabe-Funktion F (; p) basiert
zumeist auf überwachtem Lernen (und nur selten auf anderen Formen). Im ersten Fall wird
die Abweichung von dem prognostizierten und dem tatsächlichen Wert mittels einer Verlustfunktion bewertet und dann minimiert bezüglich der Parameter, die ja den Prognosewert
bestimmen. Hierbei kommen entweder klassische Optimierungsmethoden –wie etwa eine der
Varianten der Gradientenabstiegsmethode –zum Einsatz oder aber auch sog. SchwarmMethoden oder ähnliches. Diese Vorgehensweise ist exakt das, was in der Statistik seit je unter (semi-) parametrische Modellselektion verstanden wird. (Manchmal wird maschinelles
Lernen sogar noch spezieller mit dem entsprechenden statistischen statistischen Risikoansatz
von Vapnik und Chervonenkis gleichgesetzt.) Lernen auf eine reine Parameteranpassung zu
reduzieren und dieser Art als einen rein algorithmischen Vorgang zu interpretieren ist sicherlich eine recht enge Sichtweise –verglichen mit dem was etwa in den Lerntheorien des Kognitivismus oder Konstruktivismus darunter subsumiert wird. Unüberwachtes Lernen tritt etwa
bei Gruppierungsproblemen auf. Die Ausgaben sind dann Kennzeichnungen (“labels“) oder
Zentroide bzw. Gewichte die auf Basis klassischer Clusteralgorithmen, oder ART –bzw. Kohonennetzen berechnet werden. Auch hier reduziert sich der zugehörige Lernvorgang zumeist
auf ein Problem der (Abstands-) Minimierung und damit ebenfalls wieder eine technische
„Reizreaktion“.
Komplizierter wird die Lernsituation in Agentengesellschaften, diese in einer (iterierten)
spieltheoretischen Konfliktsituation agieren sollen. Autonomie und Rationalität bedeuten
hier, dass jeder Agent dein Gleichgewichtsstrategie wählt, und damit eine wechselseitig beste
Antwort auf die Aktionen der Konkurrenten. Letzteres ergibt sich –von Ausnahmen abgesehen –jedoch nur dann, wenn alle Agenten sich an demselben Gleichgewicht orientieren. Damit sich diese Situation schließlich einstellt, benötigt jeder Agent eine (unüberwachte) Lernstrategie mittels derer erst die Folgen einer Aktion analysiert und bewertet werden, dann eventuell ein Strategiewechsel vollzogen wird, natürlich in Abhängigkeit des Verhaltens aller
Mitspieler. Entsprechende Agentenprogramme existieren jedoch nur für einfache Spiele von
Typ des wiederholten Gefangenen-Dilemmas, bei denen die Lernstrategie etwa in der Form
“tit for tat“ vorgegeben wird. (Zudem hat diese Reaktionsweise bekannte Schwächen, die sich
aus dem Vergeltungsautomatismus ergeben.) Auch hier geht Lernen dann über eine Reizreaktion nicht hinaus.
Zugehörige Unterlagen
Herunterladen