hzartikel - Max Planck Institute for Informatics

Werbung
Präzisionssuche im homöopathischen Netz
Wir möchten in diesem Artikel eine neue Suchmaschine vorstellen, die auf einer neuen am Max-PlanckInstitut für Informatik in Saarbrücken entwickelten Technik basiert, die speziell auf die Suche in
wissensorientierten Dokumenten wie Bücher, Artikel, Emails, etc. zugeschnitten ist. Die Suchmaschine ist
unter der Adresse http://www.homeonet.org frei zugänglich und erfasst zahlreiche Klassiker der
homöopathischen Literatur — darunter Herings Guiding Symptoms, Kents Lectures, den Clarke, Boericke,
Nash, das Organon — sowie die inzwischen über 26,000 Emails der nun seit vier Jahren aktiven HZ
Mailingliste. Diese Sammlung wird beständig erweitert. Die genannten Bücher haben Robert Seror und
Sylvain Cazalet elektronisch erfasst und auf ihren Seiten http://www.homeoint.org der
Allgemeinheit zur Verfügung gestellt; herzlichen Dank an dieser Stelle für diese großartige Arbeit und die
freundliche Genehmigung, diese Seiten uneingeschränkt für unsere Arbeit verwenden zu dürfen.
Die neue Seite http://www.homeonet.org macht auf den ersten Blick den Eindruck einer
herkömmlichen Suchmaschine und kann auch so benutzt werden. Die neue Technik ermöglicht aber eine
weitaus präzisere und umfassendere Suche, und Ziel des übrigen Artikels ist es, möglichst verständlich in
die neuen Elemente einzuführen. Für Ungeduldige sei vorweg das Wesentliche in drei Regeln
zusammengefasst, die aber wohl erst durch die nachfolgenden Erläuterungen ganz verständlich werden.
 Die Suchbegriffe nicht ausschreiben, sondern immer nur soweit tippen bis die unter dem Eingabefeld
angezeigten Wörter alle oder fast alle zum Thema gehören!
 Eins, zwei oder drei Punkte statt dem Leerzeichen tippen, wenn die Wort nahe beieinander stehen
sollen, je näher desto weniger Punkte!
 An die oft hilfreichen Spezialworte denken, und diese immer GANZ groß schreiben! Eine Liste
erscheint beim Tippen eines Fragezeichens.
Es empfiehlt sich, das nun folgende Beispiel gleich live über http://www.homeonet.org
nachzuvollziehen.
Ein ausführliches Beispiel
Nehmen wir an, wir suchen alle Emails in der HZ Mailingliste die auf Hahnemanns 250. Geburtstag Bezug
nehmen (in dem Fall hauptsächlich Zeitungsartikel, die jemand in die Liste gestellt hat). Dann geben wir
ein
HZ hahnemann...250...geb
Drei Dinge fallen bei dieser Suchanfrage auf: erstens, die vollständige Großschreibung des Wortes HZ;
zweitens, die drei Punkte ... statt eines Leerzeichens zwischen hahnemann und 250 sowie zwischen
250 und geb; drittens, das offenbar nicht ganz ausgeschriebene Wort geb. Alle drei Dinge sind von
entscheidender Wichtigkeit für ein präzises Suchergebnis, wie wir im Folgenden erklären wollen.
Zuallererst müssen wir uns über folgendes grundlegendes Prinzip aller gegenwärtigen Suchmaschinen, und
dieser hier im Besonderen, klar werden. Wir müssen uns bevor wir anfangen zu tippen die Frage stellen:
Wie sehen Dokumente aus, die ich finden will? Oder homöopathisch formuliert: was charakterisiert diese
Dokumente, was unterscheidet sie von denen, die ich nicht finden will?
Die Antwort in unserem Fall: Emails aus der HZ Mailingliste, die zu Hahnemanns 250. Geburtstag Bezug
nehmen, haben mit ziemlicher Sicherheit folgende Eigenschaften:
(1) sie enthalten einen Hinweis auf die Mailingliste der Homöopathie-Zeitschrift;
(2) sie enthalten ein Wort wie „Hahnemann“ oder „Hahnemanns“;
(3) sie enthalten die Zahl „250“;
(4) sie enthalten ein Wort wie „Geburtstag“, „geboren“, o.ä.;
(5) die Worte „Hahnemann“, „250“, und „Geburtstag“ oder „geboren“ kommen höchstwahrscheinlich in
ein- und demselben Satz vor (z.B. „zum 250. Geburtstag von Samuel Hahnemann“) oder in zwei
aufeinander folgenden Sätzen (z.B. „... Samuel Hahnmann gewürdigt. Anlässlich seines 250.
Geburtstages ...“).
Wichtig ist, dass auch umgekehrt alle Dokumente mit den Eigenschaften (1)-(5) mit großer
Wahrscheinlichkeit Emails aus der Mailingliste sind, die auf Hahnemanns 250. Geburtstag Bezug nehmen.
Es ist genau wie in der Homöopathie: (1)-(5) sind die charakteristischen Symptome unseres Suchwunsches,
und über die müssen wir uns klar werden bevor wir überhaupt anfangen zu tippen ̶ freilich mit dem
Unterschied, dass es hier nicht die Sprache der Natur sondern die der Suchmaschine ist, in die wir uns
hineindenken müssen.
Sind wir uns einmal im Klaren, wie wohl die Dokumente aussehen die wir finden wollen, ist die
Umsetzung in eine Suchanfrage nicht mehr schwer.
Zu (1) kommen uns gleich die Entwickler der Suchmaschine zur Hilfe, denn sie haben in jede Email aus
dem Archiv der HZ Mailingliste das Spezialwort „HZ“ eingefügt. Indem wir HZ ganz groß schreiben,
teilen wir der Suchmaschine mit, dass wir genau dieses Spezialwort meinen. Die Ganz-Großschreibung ist
hier entscheidend wichtig: hätten wir hz klein geschrieben, würde nach dem gewöhnlichen Wort „hz“
gesucht (z.B. die Abkürzung für die Frequenzeinheit „Hertz“) und wir erhalten für uns vollkommen
irrelevante Dokumente.
Die Zahl über dem Eingabefeld teilt uns nun mit, dass wir uns durch das Tippen von HZ bereits auf ca.
26,000 Dokumente herangezoomt haben, nämlich genau auf alle Emails aus der Mailingliste (die diversen
Bücher zur Materia Medica sind an dieser Stelle schon ausgeschieden).
Nun tippen wir ein Leerzeichen und teilen der Suchmaschine dadurch mit, dass es keine Rolle spielt, an
welcher Stelle eines Dokumentes das nun folgende Wort auftritt. Dann geben wir die drei Worte
hahnemann und 250 und geb ein, aber jetzt dazwischen, ganz wichtig, kein Leerzeichen, sondern
jeweils ... drei Punkte! Dadurch teilen wir der Suchmaschine mit, was wir uns vorher unter (5) überlegt
hatten, nämlich dass diese drei Suchbegriffe halbwegs in der Nähe voneinander stehen sollten. Hätten wir
ein Leerzeichen zwischen den Worten eingegeben, würde uns die Suchmaschine unnötig viele irrelevante
Dokumente zurückgeben, zum Beispiel eines, in der an einer Stelle von einem Gebäude im Wert von 250
Tausend Euro die Rede ist, und an einer ganz anderen Stelle von einem Hahnemann-Zitat. Es ist wieder wie
in der Homöopathie: lassen wir ein charakteristisches Symptom weg, wird unser Ergebnis unpräzise oder
gar völlig falsch.
Und warum jetzt nur geb und nicht geburtstag? Schauen wir dazu auf die angezeigte Liste von
Worten direkt unter dem Eingabefeld für die Suchanfrage. Dort sehen wir unter anderem die Worte
geboren, geburtstag, und geburtstages. Das sind nun nicht etwa alle möglichen Worte die mit
geb anfangen — das wären viele hunderte — nein es sind genau die Worte die mit geb anfangen die auch
tatsächlich in einer Email vorkommen in der Nähe von hahnemann und 250. Wenn die meisten Worte
aus dieser Liste Sinn machen, brauchen und sollten wir das entsprechende Wort nicht mehr
weitertippen. Würden wir zum Beispiel geburtstag ganz ausschreiben, finden wir zwar jene Emails in
denen explizit der „250. Geburtstag“ steht, aber nicht die Emails, in denen steht, dass Hahnemann vor „250
Jahren geboren wurde“, und eine von diesen wollten wir vielleicht gerade finden! Tippen wir dagegen nur
ge sehen wir auch Worte wie gelegenheit und geistige, die für unsere Suchanfrage nicht von
Bedeutung sind.
Es muss nun weiter keine Taste mehr gedrückt werden, denn es werden mit (fast) jedem Tastendruck
immer auch schon relevante Dokumente angezeigt bzw. Auszüge daraus mit einem Link auf das
vollständige Dokument, so wie man es von Suchmaschinen wie Google gewöhnt ist. Und das sind,
nachdem wir HZ hahnemann...250...geb eingegeben haben, zum Zeitpunkt der Niederschrift
dieses Artikels genau 26 Emails ohne Ausnahme genau zum Thema! Dabei werden immer die ersten 7
Treffer angezeigt; Weiterblättern geschieht mit der Taste BildAb, Zurückblättern mit der Taste
BildAuf.
Weitere Beispiele
In Kürze hier noch eine Reihe weiterer lehrreicher Suchanfragen zum Ausprobieren.
HZ aur.ars
Findet alle Emails aus der Mailingliste, in denen die Arznei aurum arsenicosum erwähnt wird. Was
charakterisiert diese Emails? Sie enthalten das Spezialwort HZ (ganz groß geschrieben, da ein Spezialwort)
und die Worte aur bzw. aurum und ars bzw. arsenicum bzw. arsenicosum stehen direkt
nebeneinander (daher der Punkt; ein Leerzeichen würde wieder sehr viele irrelevante Dokumente bringen).
Und wieder: die Worte nicht ganz ausschreiben! Sonst findet man zum Beispiel nicht die Abkürzungen
aurum ars. oder aur-ars.
MM uter..prol
Findet alle Textstellen in der (zurzeit nur englischsprachigen) Materia Medica, in denen von
Gebärmuttervorfall die Rede ist. Was charakterisiert diese Textstellen? Sie enthalten das Wort MM (wurde
als Spezialwort zu allen Seiten aus einer Materia Medica hinzugefügt), und sie enthalten ein Wort wie
„uterus“ oder „uterine“ und nur wenige Worte davor oder danach (daher die .. zwei Punkte) „prolapse“
oder „prolapsed“ oder „prolapsus“. Nun ist es natürlich schwierig, Worte wie „prolapsus“ im Voraus zu
kennen, aber da zeigt sich gerade das Besondere dieser Suchmaschine: wir tippen erstmal das naheliegende
uter, entdecken in einem der Auszüge prolapsed, tippen dann uter..prol und ersehen aus der
Wortliste unter dem Eingabefeld Variationen wie prolapsus.
ORG DE gro..gab
Findet alle Textstellen im deutschen Organon, in denen von großen Gaben die Rede ist. Was charakterisiert
diese? Sie enthalten das Wort ORGANON (wurde als Spezialwort zu allen Seiten des Organons hinzugefügt,
ORG tippen reicht auch schon), sie enthalten das Wort DEUTSCH (wurde als Spezialwort zu allen
deutschsprachigen Seiten hinzugefügt), und sie enthalten Worte wie „groß“, „großer“, „große“ und in
unmittelbarer Nähe (daher die .. zwei Punkte) „gabe“, „gaben“. Und wieder: nicht etwa große..gaben
eingeben, sonst findet man nicht die Textstelle „in großer Gabe“ — wie weit man tippen muss sagt einem
wieder die Wortliste direkt unter dem Eingabefeld.
Noch zwei Kommentare zum Abschluss. Für die präzise Suche, wie sie beispielsweise bei der Suche nach
Symptomen oft von Nöten ist, stehen noch weitere Feinheiten zur Verfügung. Diese, und was immer in
Zukunft noch entwickelt werden wird, sind zu jedem Zeitpunkt einfach über das Tippen des Fragezeichens
? abrufbar. Auch eine Liste der vorhandenen Spezialwörter findet sich dort.
Zum Schluss noch ein Hinweis zum Datenschutz in Bezug auf die Mailingliste. In archivierten Emails
suchen zu können, war ausdrücklicher Wunsch der HZ Redaktion sowie der großen Mehrheit der
ListenteilnehmerInnen. Es wurden allerdings auch vereinzelt Bedenken zur damit eingehenden größeren
Öffentlichkeit der Liste geäußert. Zur Zeit sind drei Maßnahmen getroffen um dieses Problem zu
entschärfen: (1) alle vorkommenden Emailadressen sind unkenntlich gemacht; (2) die Emails sind nur über
http://www.homeonet.org nicht aber über die großen Suchmaschinen wie z.B. Google zu finden;
(3) jeder Listenbeitrag kann explizit als einer der nicht archiviert werden möge markiert werden. Fragen
dazu bitte an die HZ Redaktion oder direkt an den Autor.
Dr. Holger Bast
Max-Planck-Institut für Informatik
Stuhlsatzenhausweg 85
66123 Saabrücken
http://www.mpi-sb.mpg.de/units/ag1/ir.html
Herunterladen