Organisatorisches Wissensmodellierung und wissensbasierte Systeme Kontakt: Vorlesung im Hauptstudium Vorlesung: Thorsten Liebig Übungen: Universität Ulm Institut für Künstliche Intelligenz Dr. Thorsten Liebig: [email protected] Tel.: (50) 24207 Raum: O27/423 Dienstag 14:15 – 15:45 Uhr Raum 3211 Donnerstag 10:15 – 11:45 Uhr Raum 3211 nach Bedarf (Bleistiftübungen, kleinere Projekte, ...) Olaf Noppens [email protected] Tel.: (50) 24113 Raum: O27/422 Voraussetzungen: Logik (wie für Vordiplom Informatik) Einführung in die KI (empfehlenswert) Vorlesungsunterlagen: Folienkopien Web-Seiten zur Vorlesung SS 2008 http://www.informatik.uni-ulm.de/ki/Edu/Vorlesungen/Wimo08/ SS08, T. Liebig, Uni Ulm 0 -1 SS08, T. Liebig, Uni Ulm Inhalte und Einführung 0 -2 Inhalte und Einführung Warum Wissensmodellierung? Allgemeine Problemstellungen: Strategische Planung (Berücksichtigung von Kontextinformationen) Konfiguration (z. B. Komponenten komplexer Systeme) Diagnose (Medizin, technische Anlagen, ...) Teil I Textverstehen (z. B. in einem Auskunftssystem) / Übersetzung (vgl. Verbmobil) Inhalte und Einführung “Konservierung” von Expertenwissen in einem Unternehmen (corporate knowledge) Zusammenführung von Experten mit spezifischen Problemstellungen Software-Agenten im WWW Finde Telefonnummer von der Person, die die Übungen zur Vorlesung X leitet E-Commerce Finde die drei billigsten Web-Shops für Produkt Y mit Eurocard Zahlungsmöglichkeit ... SS08, T. Liebig, Uni Ulm 1 -3 SS08, T. Liebig, Uni Ulm 1 -4 Inhalte und Einführung Inhalte und Einführung Aktuelle Beispiele: Google Aktuelle Beispiele: BMI Interview mit Google-Mitarbeiter Urs Hölzle (c’t, Nr. 5/2002): Man kann [..] nicht vom Benutzer erwarten, dass ihm oder ihr immer die richtigen Stichwörter einfallen. In solchen Fällen wäre es schön, wenn Google mehr zum Beispiel über Synonyme wüsste, um den Benutzern helfen zu können, die Queries zu verfeinern. Pressemitteilung des BMI vom 1.2.2002 bzgl. eines europäischen Polizei-Informationssystem INPOL-neu: Für anspruchsvolle kriminalpolizeiliche Recherchen wird [..] eine [..] Datenbank erstellt. Über diese Datenbank können beispielsweise Querbezüge zwischen mehreren Tatverdächtigen, Tatorten und -waffen sichtbar gemacht werden. Anfragebeispiel: Suche VW Kombi (schließt Passat Variant mit ein) Bisher jedoch lediglich “Ähnliche Seiten” Funktionalität. Anfragebeispiel: Finde Person Z1 aus der Gegend G1 mit Kontakt zu Person Z2 mit Vorstrafe bzgl. Waffenmissbrauch W1 Jedoch: Forschungsdirektorin Monika Lenzinger in der FAZ v. 7.2.2005 (Nr. 31, S. 19) [..] Maschinen müssen besser verstehen, welche Themengebiete der Nutzer meint. [Angegebene] Interessengebiete lenken dann die Suchergebnisse in die gewünschte Richtung. Die Mehrheit der [Internetnutzer] geht falsch an die Sache heran. Die Nutzer [müssen] Worte eingeben, die auf der Ergebnisseite vorkommen sollen. Die meisten Nutzer denken nicht auf diese Art. SS08, T. Liebig, Uni Ulm Laut technischem Gutachten ein System mit “Problematischer Gesamtkomplexität, das an die Grenzen dessen geht, was derzeit mit verfügbarer Technologie zu machen ist.” 1 -5 SS08, T. Liebig, Uni Ulm Inhalte und Einführung Inhalte und Einführung Aktuelle Beispiele: Yahoo SS08, T. Liebig, Uni Ulm 1 -6 Aktuelle Beispiele: Wissensmanagement 1 -7 SS08, T. Liebig, Uni Ulm 1 -8 Inhalte und Einführung Inhalte und Einführung Markterwartung Vision: persönlicher Reiseagent Szenario: Automatisierte Reiseplanung zu beliebigen Zielorten unter Berücksichtigung individueller Präferenzen. Annahme: Kein Reiseportal kann jemals alle denkbaren Reiseziele und Präferenzen bedienen. SS08, T. Liebig, Uni Ulm 1 -9 SS08, T. Liebig, Uni Ulm Inhalte und Einführung 1 - 10 Inhalte und Einführung Persönlicher Reiseagent: Zielsetzung Persönlicher Reiseagent: Anreiseplanung Aufgabe: Reiseplanung und -buchung zum Fischerstechen in Ulm. Gegeben: • Ursprungsort • Webseite der Veranstaltung Zunächst: Identifikation der Eckdaten der Reise. SS08, T. Liebig, Uni Ulm 1 - 11 SS08, T. Liebig, Uni Ulm 1 - 12 Inhalte und Einführung Inhalte und Einführung Persönlicher Reiseagent: Unterkunft Persönlicher Reiseagent: Reiseplan Lässt sich ein solcher Reiseagent auf der Basis derzeitiger Web-Technologie (Sprachen, Formate, Standards, usw.) realisieren? Wenn ja, wie? Wenn nein, wo liegen die Probleme? SS08, T. Liebig, Uni Ulm 1 - 13 SS08, T. Liebig, Uni Ulm Inhalte und Einführung 1 - 14 Inhalte und Einführung Aufgaben des persönlichen Reiseagenten Gemeinsamkeiten der Problemstellungen Es wird heterogenes “Wissen” über einen mehr oder weniger umfangreichen Problembereich (Domäne) vorausgesetzt. Identifikation der relevanten Reisedaten: Wo und Wann? “Begriffsklärung”: Reichsstadt Ulm = Universitätsstadt Ulm? Grobentwurf der Reise: Zur Verfügung stehende Reisemittel: Taxi, Bus, Zug, Mietwagen, Flugzeug, ... Dieses Wissen muss in geeigneter Form im Rechner dargestellt werden. Reiseentfernung zum Ziel (auch zwecks Zeitplanung) Laufweite ↔ Interkontinentalflug Lokalisierung entsprechender Web-Anbieter Kombination verschiedener Reisemittel Flexible maschinelle Verarbeitung des Wissens muss möglich sein. → Abfrage von Wissen / Schlussfolgerungen Auswahl einer Übernachtungsmöglichkeit geographische Nähe zur Veranstaltung (hier Donau): Benutzung von Stadtplänen, Routenplaner (alternativ in Neu-Ulm suchen) persönliche Präferenzen, z. B. best. Restaurant oder Arzt in der Nähe Wissensaustausch (insb. im Internet) erfordert eine (im gewissen Umfang) standardisierte Darstellung. Reservierung/Verhandlung und Buchung Rückmeldungen bzw. Rückfragen an Auftraggeber Inhaltsbezogene statt syntaktischer Informationsverarbeitung Präsentation der Reisedaten mit individuell zusammengestellten Informationen Was ist mit “konventionellen” Lösungen wie z. B. Datenbanken? SS08, T. Liebig, Uni Ulm 1 - 15 SS08, T. Liebig, Uni Ulm 1 - 16 Inhalte und Einführung Inhalte und Einführung Datenbanken (Datenverarbeitung) vs. Wissensverarbeitung Vorgriff: Idee und Vision des “Semantic Web” The Semantic Web is a vision: ◮ Unvollständiges manchmal unsicheres Wissen im Kontext der Wissensrepräsentation vs. Zurückweisung. ◮ Darstellung hochkomplexer, heterogener Wissenseinheiten im Gegensatz zu großen Mengen relativ homogen strukturierter Daten: The idea of having data on the web defined and linked in a way, that it can be used by machines – not just for display purposes, but for using it in various applications. [http://www.w3.org/2001/sw/] erfordert die (manuelle) Erstellung vieler und oftmals wenig genutzer Reihen oder Zusatztabellen (großer Designoverhead/Effizienzproblem), oder Hinzunahm von “freien Textfeldern”/BLOBs (binary large obj.) (dann aber keine sinnvolle maschinelle Weiterverarbeitung). Problem: ◮ Verarbeitungsablauf nur implizit oder gar nicht vorgegeben vs. explizit festgelegt. Großes Angebot an Informationen (Texte, Bilder, Ton, Video, ...) ◮ WB-System kann im Prinzip den ausgeführten Verarbeitungsprozess erklären und begründen vs. Verarbeitungsprozess nur vom Programmierer erklärbar. Fokussierung auf visuelle Bedürfnisse Lediglich syntaktische “Beziehung” zwischen diese Ressourcen (implizite Bedeutung) Idee: Erweiterung des Web durch “Anreicherung” von Ressourcen und Beziehungen mit explizit definierter (und damit maschinell verarbeitbarer) Bedeutung (→ Knowledge Web). ◮ Gewisser Grad an Deklarativität erforderlich vs. primitive Datentypen. ◮ Bedeutung von Begriffen spielt die zentrale Rolle vs. reine syntaktische Verarbeitung. ◮ ... Kombination von Methoden der Wissensrepräsentation mit Techniken und Standards des WWW SS08, T. Liebig, Uni Ulm 1 - 17 SS08, T. Liebig, Uni Ulm 1 - 18 Inhalte und Einführung Inhalte und Einführung Vorlesungsinhalte (Teil 1) Vorlesungsinhalte (Teil 2) Die Modellierung und Verarbeitung von Wissen ist eines der zentralen Gebiete in der KI (Wissen oftmals Voraussetzung für “intelligente Systeme”) Ontologien haben in der Informationstechnologie inzwischen eine große Bedeutung. Ontologien und Wissensbasen Einführung in die Thematik ◦ Repräsentationsformen und Typen von Ontologien ◦ Verwandte Repräsentationsformalismen ◦ Historische Entwicklung der Wissensrepräsentation UML ER-Diagramme Logik-basierte Wissensmodellierung ◦ ◦ ◦ ◦ Logische Grundlagen und Begriffe (PL1) Semantische Netze Frames Beschreibungslogiken ◦ Beispiele und Anwendungen WordNet UMLS SUO Cyc Sprachen und Konstruktoren Semantik Systeme und Systemdienste Anwendungsgebiete Algorithmen SS08, T. Liebig, Uni Ulm ◦ Formale Analyse von Ontologien OntoClean ◦ Tools und Editoren 1 - 19 SS08, T. Liebig, Uni Ulm 1 - 20 Inhalte und Einführung Inhalte und Einführung Vorlesungsinhalte (Teil 3) Allgemein: Was ist Wissen, was Information, was Daten? Wissen (knowledge) und Information und auch Daten werden im Alltag häufig nicht unterschieden und mehr oder weniger als Synonyme verwendet. Wissensverarbeitung mit wechselnder Beachtung in der Forschungshistorie. Renaissance im Zusammenhang mit aktuellen Aktivitäten im Internet. Webster’s Third International Dictionary: Informationsdarstellung im Internet Knowledge applies to any body of known facts or to any body of ideas inferred from such facts or accepted as truths on good grounds. Information generally applies to knowledge, commonly accepted as true, of a factual kind usually gathered form others or from books. Data is information in numerical form that can be digitally transmitted or processed. ◦ Entwicklung des (hyperlinked) WWW Grundlagen des Semantic Web ◦ ◦ ◦ ◦ ◦ Motivation, Vision XML, XML Schema, URI, Namespaces, (XSL & XSLT) RDF, RDF Schema Repräsentation von Ontologien (OWL) Web Services Aktueller Stand des Semantic Web ◦ Schnittstellen ◦ Werkzeuge ◦ Prototypische Anwendungen Wissen.de Wissen: Inbegriff von rationaler Erkenntnis; dabei auch das Innewerden einer spezifische Gewissheit (intuitives Wissen) → Wissen schließt das Ableiten (inference/Innewerden) von Fakten mit ein. SS08, T. Liebig, Uni Ulm 1 - 21 SS08, T. Liebig, Uni Ulm Inhalte und Einführung Inhalte und Einführung Wissen, Informationen und Daten in der KI Wissensrepräsentation und Schlussfolgerungen In der VL unterscheiden wir wie folgt: Repräsentation: Gruppen von Symbolen, die für eine Aussage stehen. Daten Sequenz von nicht mehr zerlegbaren Einheiten. Unterschiedliche Kodierungen möglich. Z. B.: “· · · − − − · · ·”, “53 4F 53”, “SOS”, ... Die Wissensrepräsentation beschäftigt sich mit formalen Symbolen, welche die Menge von Aussagen eines Agenten/Experten/... repräsentieren. Information Fakten. Abstraktion von der jeweiligen Kodierung. “SOS = Save Our Souls = Rettet unsere Seelen” Hier: Einschränkung auf endliche Menge von Symbolen. Schlussfolgern: Schlussfolgern ist die formale Manipulation von Symbolen (welche Aussagen repräsentieren) um zu Repräsentationen von neuen Symbolen zu gelangen. Wissen (knowledge) Schließt die Interpretation der Informationen mit ein. Explizitmachen von impliziten Informationen. Berücksichtigung von Kontext(wissen), Regeln, Heuristiken, ... (→ Begriffe wie Widerspruch, Redundanz, usw. erst auf dieser Ebene möglich). “Save Our Souls: Internationaler Hilferuf → Rettungsaktion starten” Eine adäquate Repräsentation von Wissen ist hier unumgänglich – Aussagen sind abstrakt; ihre Repräsentation kann jedoch leicht manipuliert werden. Schlussfolgern (kann) einfach wie “Rechnen” (sein): raining is true raining implies wet-street is true wet-street is true Hier: Abstraktion von mentalen Sichtweisen wie Meinung, Erwartung, Glaube, ... SS08, T. Liebig, Uni Ulm 1 - 22 1 - 23 SS08, T. Liebig, Uni Ulm 1 - 24 Inhalte und Einführung Inhalte und Einführung Wissenrepräsentation und Intelligenz (1) Wissenrepräsentation und Intelligenz (2) Wissensrepräsentationshypothese [Smith 1985]: The Knowledge Level [Newell 1982]: Any mechanically embodied intelligent process will be comprised of structural ingredients that Knowledge is to be characterized entirely functionally, in terms of what it does, not structurally, in terms of physical objects with particular properties and relations. Principle of Rationality: If an agent has knowledge that one of its actions will lead to one of its goals, then the agent will select that action. (a) we as external observers naturally take to represent a propositional account of the knowledge that the overall process exhibits, and (b) independent of such external semantical attribution, play a formal but causal and essential role in engendering the behavior that manifests that knowledge. Auf Wissensebene sind Wissensinhalte zu sehen, nicht aber die interne Struktur, in denen sich die Inhalte manifestieren (Was). Diese Strukturen werden erst auf Symbolebene sichtbar (Wie). Vgl. mit abstrakten Datentypen (Abstrakter Datentyp spezifiziert ein best. Verhalten aber abstrahiert von der Realisierung dieses Verhaltens). Das relevante Wissen ist “propositional” explizit repräsentiert und vom außenstehenden Betrachter als eine “natürliche” Beschreibung dieses Wissens angesehen. System-Verhalten ist unmittelbar durch die Propositionen bedingt und für den Betrachter mit der Bedeutung dieser Propositionen konsistent. SS08, T. Liebig, Uni Ulm 1 - 25 SS08, T. Liebig, Uni Ulm Inhalte und Einführung Inhalte und Einführung Semantik der Repräsentation von Wissen Wissenrepräsentation und KI Hauptziel der KI-Forschung: Entwicklung intelligenter rechnergestützter Systeme. Prozedural: Wissen ist kodiert in einem Programm; die Bedeutung ergibt sich aus dem Verhalten des Programms. Das Wissen ist quasi “versteckt”, schwer analysier- und kommunizierbar. Stark vereinfacht: KI-System = Wissensrepäsentation + Problemlösungstechnik + Benutzerschnittstelle Deklarativ: Abbildung der symbolischen Ausdrücke (Symbolebene) auf Abstraktionsebene der zu repräsentierenden Sachverhalte (Wissensebene). Wissen ist logisch analysierbar, kommunizierbar und verifizierbar. Annahme: Das hierzu notwendige Wissen, das auch vom Menschen in diesen Situationen (bewusst oder unbewusst) benutzt wird, muss in geeigneter Form in einem solchen System “eingebracht” werden. Extern: Abbildung bezieht sich auf externe zu modellierende Entitäten, nicht auf im Rechner existierende Objekte (mit interner Semantik). ⇒ Dieses Wissen kann sich auf eine spezielle, eng eingrenzbare Domäne beschränken, oder von allgemeinem Umfang sein. Wissensrepräsentationssystemen basieren in der Regel auf einer deklarativen Semantik, häufig über eine Abbildung auf eine formale Logik. SS08, T. Liebig, Uni Ulm 1 - 26 1 - 27 SS08, T. Liebig, Uni Ulm 1 - 28 Inhalte und Einführung Inhalte und Einführung Kriterien der Wissensrepräsentation Potenziale und Grenzen wissensbasierter Systeme Korrektheit: Große Erwartungen (und Befürchtungen) Ender der siebziger Jahre. Ist ein Verfahren bezüglich der Semantik korrekt? Ist es möglich falsche Schlussfolgerungen zu ziehen? Misserfolge und die Analyse der verwendeten Methodiken führten bald zu einer Ernüchterung. Vollständigkeit: Heute eine sehr viel abgeklärtere Betrachtung von Expertensystemen / wissensbasierten Systemen. Ist es möglich alle korrekten Schlüsse zu ziehen? → “If it works, it’s not AI” (Historisches siehe z. B. [Phillips, 1999]) Probleme: Entscheidbarkeit: Existiert eine immer terminierender Algorithmus, der das Schlussfolgerungsproblem löst? Wissensbasierte Systeme beschränken sich auf ein festgelegtes Einsatzgebiet (keine Abschätzung der eigenen Grenzen und Kompetenzen; keine Reflektion). Adäquatheit: Menschliche Experten verfügen neben Fachwissen stets auch über Alltagswissen. Können die zu lösenden Probleme verständlich und natürlich formuliert werden? Es ist schwierig das Wissen eines Experten explizit zu machen. Anwendung sog. stillschweigendem Wissens (tacit knowledge). Komplexität: Formale Spezifikation und Verifikation nahezu unmöglich. Welcher Aufwand ist für den Prozess der Lösungsfindung notwendig? SS08, T. Liebig, Uni Ulm 1 - 29 SS08, T. Liebig, Uni Ulm Inhalte und Einführung 1 - 30 Inhalte und Einführung The AI Hype Literatur zu Teil 1 Standard-Lehrbücher der KI ◦ Einf. in die/Handbuch der Künstliche Intelligenz (Görz, 2000); insb. Kap. “Wissensrep. & Logik” QAA 705/2000 G ◦ Knowledge Representation (Sowa, 2000) QAA 705/2000 Sb ◦ Wissensverarbeitung (Heinsohn & Ambrosius, 1999) QAA 706/1999 H Speziell Logik / Beschreibungslogik: ◦ Logik für Informatiker (Schöning, 2000) ◦ Logical Foundations of AI (Genesereth/Nilson, 1986) ◦ The Description Logic Handbook (Baader et. al., 2003) QAA 206/2000 S QAA 705/1988 G QAA 705/2003 B Konferenzen / Workshops ◦ Int. Conf. on Principles of Knowledge Representation and Reasoning (KR) (zweijährig) [http://www.kr.org/] ◦ Int. Workshop on Description Logics (DL) (jährlich) [http://dl.kr.org/] Diverse Web-Quellen; Interessanter Einstiegspunkte ist: ◦ “AI on the Web” unter [http://www.cs.berkeley.edu/~russell/ai.html ] SS08, T. Liebig, Uni Ulm 1 - 31 SS08, T. Liebig, Uni Ulm 1 - 32 Inhalte und Einführung Inhalte und Einführung Literatur zu Teil 2 Literatur zu Teil 3 (Noch) keine (allg. anerkannte) Standard-Einführung in die Thematik! Handbook on Ontologies (Staab, Studer, 2004) QAA 705/2004 S XML in a Nutshell (Harold/Means, 2000) Ontologies: A Silver Bullet for Knowledge Management and Electronic Commerce (Fensel, 2001) Creating the Semantic Web with RDF (Hjelm, 2001) Formal Ontology in Information Systems (Guarino, 1998) Spinning the Semantic Web (Fensel, 2003) Diverse Web-Quellen; Einen guten Überblick bieten: Semantic Web – Grundlagen (Hitzler et al, 2007) QAA 720/2001 H QAA 420.I6/2003 F wird angeschafft Dictionary of XML Technologies and the Semantic Web (Geroimenko, 2004) QAA 592.X5/2004 G Web-Ressourcen: ◦ “KBS/Ontology Projects and Groups” unter [http://www.cs.utexas.edu/users/mfkb/related.html ] ◦ Cyc [http://www.cyc.org/] ◦ ◦ ◦ ◦ ◦ ◦ SUMO (Suggested Upper Merged Ontology) [http://suo.ieee.org/] ◦ SS08, T. Liebig, Uni Ulm QAA 592.X5/2001 H 1 - 33 World Wide Web Consortium [http://www.w3.org] Semantic Web Activity des W3C [http://www.w3.org/2001/sw/] [http://www.SemanticWeb.org/ ] “The Semantic Web” (Scientific American 05/ 2001 von Tim Berners-Lee) OWL Web Ontology Language [http://www.w3c.org/sw/] SS08, T. Liebig, Uni Ulm Inhalte und Einführung 1 - 34 Inhalte und Einführung Ziele der Lehrveranstaltung Literatur zum Kapitel Verständnis für die Problematik wecken. [Smith 1985] B. Smith: Prologue to “Reflection and Semantics in a Procedural Language”, in Readings in Knowledge Representation, edited by R. J. Brachman & H. J. Levesque, Morgan Kaufmann, 1985. Grundlagen für die Modellierung und rechnergestützte Verarbeitung von Wissen vermitteln. Vorstellung von potenziellen Anwendungsbereichen und existierenden Systemen. [Newell 1982] A. Newell: The Knowledge Level. Artificial Intelligence, 18:87-127, 1982. Erläuterung der neuesten Entwicklungen und Darstellung des Stands der aktuellen Forschung und Entwicklung. [Phillips 1999] E. Phillips, If It Work’s, It’s Not AI, Bachelor thesis, MIT, USA, 1999. Aufzeigen von Trends und Visionen. SS08, T. Liebig, Uni Ulm 1 - 35 SS08, T. Liebig, Uni Ulm 1 - 36