Präzisionssuche im homöopathischen Netz Wir möchten in diesem Artikel eine neue Suchmaschine vorstellen, die auf einer neuen am Max-PlanckInstitut für Informatik in Saarbrücken entwickelten Technik basiert, die speziell auf die Suche in wissensorientierten Dokumenten wie Bücher, Artikel, Emails, etc. zugeschnitten ist. Die Suchmaschine ist unter der Adresse http://www.homeonet.org frei zugänglich und erfasst zahlreiche Klassiker der homöopathischen Literatur — darunter Herings Guiding Symptoms, Kents Lectures, den Clarke, Boericke, Nash, das Organon — sowie die inzwischen über 26,000 Emails der nun seit vier Jahren aktiven HZ Mailingliste. Diese Sammlung wird beständig erweitert. Die genannten Bücher haben Robert Seror und Sylvain Cazalet elektronisch erfasst und auf ihren Seiten http://www.homeoint.org der Allgemeinheit zur Verfügung gestellt; herzlichen Dank an dieser Stelle für diese großartige Arbeit und die freundliche Genehmigung, diese Seiten uneingeschränkt für unsere Arbeit verwenden zu dürfen. Die neue Seite http://www.homeonet.org macht auf den ersten Blick den Eindruck einer herkömmlichen Suchmaschine und kann auch so benutzt werden. Die neue Technik ermöglicht aber eine weitaus präzisere und umfassendere Suche, und Ziel des übrigen Artikels ist es, möglichst verständlich in die neuen Elemente einzuführen. Für Ungeduldige sei vorweg das Wesentliche in drei Regeln zusammengefasst, die aber wohl erst durch die nachfolgenden Erläuterungen ganz verständlich werden. Die Suchbegriffe nicht ausschreiben, sondern immer nur soweit tippen bis die unter dem Eingabefeld angezeigten Wörter alle oder fast alle zum Thema gehören! Eins, zwei oder drei Punkte statt dem Leerzeichen tippen, wenn die Wort nahe beieinander stehen sollen, je näher desto weniger Punkte! An die oft hilfreichen Spezialworte denken, und diese immer GANZ groß schreiben! Eine Liste erscheint beim Tippen eines Fragezeichens. Es empfiehlt sich, das nun folgende Beispiel gleich live über http://www.homeonet.org nachzuvollziehen. Ein ausführliches Beispiel Nehmen wir an, wir suchen alle Emails in der HZ Mailingliste die auf Hahnemanns 250. Geburtstag Bezug nehmen (in dem Fall hauptsächlich Zeitungsartikel, die jemand in die Liste gestellt hat). Dann geben wir ein HZ hahnemann...250...geb Drei Dinge fallen bei dieser Suchanfrage auf: erstens, die vollständige Großschreibung des Wortes HZ; zweitens, die drei Punkte ... statt eines Leerzeichens zwischen hahnemann und 250 sowie zwischen 250 und geb; drittens, das offenbar nicht ganz ausgeschriebene Wort geb. Alle drei Dinge sind von entscheidender Wichtigkeit für ein präzises Suchergebnis, wie wir im Folgenden erklären wollen. Zuallererst müssen wir uns über folgendes grundlegendes Prinzip aller gegenwärtigen Suchmaschinen, und dieser hier im Besonderen, klar werden. Wir müssen uns bevor wir anfangen zu tippen die Frage stellen: Wie sehen Dokumente aus, die ich finden will? Oder homöopathisch formuliert: was charakterisiert diese Dokumente, was unterscheidet sie von denen, die ich nicht finden will? Die Antwort in unserem Fall: Emails aus der HZ Mailingliste, die zu Hahnemanns 250. Geburtstag Bezug nehmen, haben mit ziemlicher Sicherheit folgende Eigenschaften: (1) sie enthalten einen Hinweis auf die Mailingliste der Homöopathie-Zeitschrift; (2) sie enthalten ein Wort wie „Hahnemann“ oder „Hahnemanns“; (3) sie enthalten die Zahl „250“; (4) sie enthalten ein Wort wie „Geburtstag“, „geboren“, o.ä.; (5) die Worte „Hahnemann“, „250“, und „Geburtstag“ oder „geboren“ kommen höchstwahrscheinlich in ein- und demselben Satz vor (z.B. „zum 250. Geburtstag von Samuel Hahnemann“) oder in zwei aufeinander folgenden Sätzen (z.B. „... Samuel Hahnmann gewürdigt. Anlässlich seines 250. Geburtstages ...“). Wichtig ist, dass auch umgekehrt alle Dokumente mit den Eigenschaften (1)-(5) mit großer Wahrscheinlichkeit Emails aus der Mailingliste sind, die auf Hahnemanns 250. Geburtstag Bezug nehmen. Es ist genau wie in der Homöopathie: (1)-(5) sind die charakteristischen Symptome unseres Suchwunsches, und über die müssen wir uns klar werden bevor wir überhaupt anfangen zu tippen ̶ freilich mit dem Unterschied, dass es hier nicht die Sprache der Natur sondern die der Suchmaschine ist, in die wir uns hineindenken müssen. Sind wir uns einmal im Klaren, wie wohl die Dokumente aussehen die wir finden wollen, ist die Umsetzung in eine Suchanfrage nicht mehr schwer. Zu (1) kommen uns gleich die Entwickler der Suchmaschine zur Hilfe, denn sie haben in jede Email aus dem Archiv der HZ Mailingliste das Spezialwort „HZ“ eingefügt. Indem wir HZ ganz groß schreiben, teilen wir der Suchmaschine mit, dass wir genau dieses Spezialwort meinen. Die Ganz-Großschreibung ist hier entscheidend wichtig: hätten wir hz klein geschrieben, würde nach dem gewöhnlichen Wort „hz“ gesucht (z.B. die Abkürzung für die Frequenzeinheit „Hertz“) und wir erhalten für uns vollkommen irrelevante Dokumente. Die Zahl über dem Eingabefeld teilt uns nun mit, dass wir uns durch das Tippen von HZ bereits auf ca. 26,000 Dokumente herangezoomt haben, nämlich genau auf alle Emails aus der Mailingliste (die diversen Bücher zur Materia Medica sind an dieser Stelle schon ausgeschieden). Nun tippen wir ein Leerzeichen und teilen der Suchmaschine dadurch mit, dass es keine Rolle spielt, an welcher Stelle eines Dokumentes das nun folgende Wort auftritt. Dann geben wir die drei Worte hahnemann und 250 und geb ein, aber jetzt dazwischen, ganz wichtig, kein Leerzeichen, sondern jeweils ... drei Punkte! Dadurch teilen wir der Suchmaschine mit, was wir uns vorher unter (5) überlegt hatten, nämlich dass diese drei Suchbegriffe halbwegs in der Nähe voneinander stehen sollten. Hätten wir ein Leerzeichen zwischen den Worten eingegeben, würde uns die Suchmaschine unnötig viele irrelevante Dokumente zurückgeben, zum Beispiel eines, in der an einer Stelle von einem Gebäude im Wert von 250 Tausend Euro die Rede ist, und an einer ganz anderen Stelle von einem Hahnemann-Zitat. Es ist wieder wie in der Homöopathie: lassen wir ein charakteristisches Symptom weg, wird unser Ergebnis unpräzise oder gar völlig falsch. Und warum jetzt nur geb und nicht geburtstag? Schauen wir dazu auf die angezeigte Liste von Worten direkt unter dem Eingabefeld für die Suchanfrage. Dort sehen wir unter anderem die Worte geboren, geburtstag, und geburtstages. Das sind nun nicht etwa alle möglichen Worte die mit geb anfangen — das wären viele hunderte — nein es sind genau die Worte die mit geb anfangen die auch tatsächlich in einer Email vorkommen in der Nähe von hahnemann und 250. Wenn die meisten Worte aus dieser Liste Sinn machen, brauchen und sollten wir das entsprechende Wort nicht mehr weitertippen. Würden wir zum Beispiel geburtstag ganz ausschreiben, finden wir zwar jene Emails in denen explizit der „250. Geburtstag“ steht, aber nicht die Emails, in denen steht, dass Hahnemann vor „250 Jahren geboren wurde“, und eine von diesen wollten wir vielleicht gerade finden! Tippen wir dagegen nur ge sehen wir auch Worte wie gelegenheit und geistige, die für unsere Suchanfrage nicht von Bedeutung sind. Es muss nun weiter keine Taste mehr gedrückt werden, denn es werden mit (fast) jedem Tastendruck immer auch schon relevante Dokumente angezeigt bzw. Auszüge daraus mit einem Link auf das vollständige Dokument, so wie man es von Suchmaschinen wie Google gewöhnt ist. Und das sind, nachdem wir HZ hahnemann...250...geb eingegeben haben, zum Zeitpunkt der Niederschrift dieses Artikels genau 26 Emails ohne Ausnahme genau zum Thema! Dabei werden immer die ersten 7 Treffer angezeigt; Weiterblättern geschieht mit der Taste BildAb, Zurückblättern mit der Taste BildAuf. Weitere Beispiele In Kürze hier noch eine Reihe weiterer lehrreicher Suchanfragen zum Ausprobieren. HZ aur.ars Findet alle Emails aus der Mailingliste, in denen die Arznei aurum arsenicosum erwähnt wird. Was charakterisiert diese Emails? Sie enthalten das Spezialwort HZ (ganz groß geschrieben, da ein Spezialwort) und die Worte aur bzw. aurum und ars bzw. arsenicum bzw. arsenicosum stehen direkt nebeneinander (daher der Punkt; ein Leerzeichen würde wieder sehr viele irrelevante Dokumente bringen). Und wieder: die Worte nicht ganz ausschreiben! Sonst findet man zum Beispiel nicht die Abkürzungen aurum ars. oder aur-ars. MM uter..prol Findet alle Textstellen in der (zurzeit nur englischsprachigen) Materia Medica, in denen von Gebärmuttervorfall die Rede ist. Was charakterisiert diese Textstellen? Sie enthalten das Wort MM (wurde als Spezialwort zu allen Seiten aus einer Materia Medica hinzugefügt), und sie enthalten ein Wort wie „uterus“ oder „uterine“ und nur wenige Worte davor oder danach (daher die .. zwei Punkte) „prolapse“ oder „prolapsed“ oder „prolapsus“. Nun ist es natürlich schwierig, Worte wie „prolapsus“ im Voraus zu kennen, aber da zeigt sich gerade das Besondere dieser Suchmaschine: wir tippen erstmal das naheliegende uter, entdecken in einem der Auszüge prolapsed, tippen dann uter..prol und ersehen aus der Wortliste unter dem Eingabefeld Variationen wie prolapsus. ORG DE gro..gab Findet alle Textstellen im deutschen Organon, in denen von großen Gaben die Rede ist. Was charakterisiert diese? Sie enthalten das Wort ORGANON (wurde als Spezialwort zu allen Seiten des Organons hinzugefügt, ORG tippen reicht auch schon), sie enthalten das Wort DEUTSCH (wurde als Spezialwort zu allen deutschsprachigen Seiten hinzugefügt), und sie enthalten Worte wie „groß“, „großer“, „große“ und in unmittelbarer Nähe (daher die .. zwei Punkte) „gabe“, „gaben“. Und wieder: nicht etwa große..gaben eingeben, sonst findet man nicht die Textstelle „in großer Gabe“ — wie weit man tippen muss sagt einem wieder die Wortliste direkt unter dem Eingabefeld. Noch zwei Kommentare zum Abschluss. Für die präzise Suche, wie sie beispielsweise bei der Suche nach Symptomen oft von Nöten ist, stehen noch weitere Feinheiten zur Verfügung. Diese, und was immer in Zukunft noch entwickelt werden wird, sind zu jedem Zeitpunkt einfach über das Tippen des Fragezeichens ? abrufbar. Auch eine Liste der vorhandenen Spezialwörter findet sich dort. Zum Schluss noch ein Hinweis zum Datenschutz in Bezug auf die Mailingliste. In archivierten Emails suchen zu können, war ausdrücklicher Wunsch der HZ Redaktion sowie der großen Mehrheit der ListenteilnehmerInnen. Es wurden allerdings auch vereinzelt Bedenken zur damit eingehenden größeren Öffentlichkeit der Liste geäußert. Zur Zeit sind drei Maßnahmen getroffen um dieses Problem zu entschärfen: (1) alle vorkommenden Emailadressen sind unkenntlich gemacht; (2) die Emails sind nur über http://www.homeonet.org nicht aber über die großen Suchmaschinen wie z.B. Google zu finden; (3) jeder Listenbeitrag kann explizit als einer der nicht archiviert werden möge markiert werden. Fragen dazu bitte an die HZ Redaktion oder direkt an den Autor. Dr. Holger Bast Max-Planck-Institut für Informatik Stuhlsatzenhausweg 85 66123 Saabrücken http://www.mpi-sb.mpg.de/units/ag1/ir.html