Anja Holderbaum, Michael Prien (Heidelberg) Kollokationen im Web: Zur Herleitung einer zweisprachig ausgearbeiteten Kollokationsdatenbank Inhalt 1 Einführung 2 Die Selektion des erfassten Sprachmaterials 3 Die Entwicklungsumgebung und Distribution der Datenbank 4 Der Außentext 5 Die Eintragsstruktur 6 Die Suchoptionen 7 Kontextualisierung und Erweiterbarkeit der Oberfläche 8 Ausblick 9 Literatur 9.1 Darstellungen und Wörterbücher 9.2 Internetseiten 1 Einführung Kollokationen - Wortzweierkombinationen von auffallender Üblichkeit wie einen Vertrag unterzeichnen, schütteres Haar oder Anzeige erstatten - prägen jede natürliche Sprache. Während ein Muttersprachler diese Kombinationen aus Basis und Kollokator als vertraute Halbfertigprodukte sowohl in der Textproduktion als auch der Textrezeption verfügbar hat, geraten Kollokationen selbst für professionelle Sprachmittler und fortgeschrittene Fremdsprachenlerner nicht selten zu Stolpersteinen der fremdsprachlichen Textproduktion. Die Kombinierbarkeit der Mitspieler einer Kollokation ist weder semantisch noch grammatisch abzuleiten oder vorherzusehen, die Wortzweierkombinationen können nicht ad hoc gebildet werden, sondern müssen als disponible Einheiten bereits im mentalen Lexikon verfügbar sein. Für den Fremdsprachler bedeutet dies, dass Kollokationen, gleich Lexemen, gelernt werden müssen. Akute Wissenslücken treten jedoch immer wieder auf - hier ist eine Konsultation geeigneter Referenzwerke die Strategie der Wahl. Wie jedoch bereits mehrfach festgestellt (z.B. Kornelius 1995; Holderbaum/ Kornelius 2001; Holderbaum 2003) ist die lexikografische Hilfsmittellage im Bereich des kollokativen Sprachgebrauchs überaus defizitär. Einsprachige (Lerner-)Wörterbücher des Englischen wie das Oxford Advanced Learner’s Dictionary of Current English (OALD), das Longman Dictionary of Contemporary English (DCE) und das Collins Cobuild English Language Dictionary (CCELD) berücksichtigen Kollokationen in einem für den Fremdsprachler unzureichenden Maße (vgl. auch Bahns 1994 und Kornelius 1995b). Darüber hinaus wird ein Großteil der verzeichneten Kollokationen nicht unter der Basis, sondern unter dem Kollokator und somit asynchron zum Findungsweg des fremdsprachigen Wörterbuchbenutzers gelistet (vgl. Kornelius 1995b). Das Kollokationspotenzial einschlägiger englischer Lernerwörterbücher kann insgesamt als unzureichend gelten. Mit dem BBI Dictionary of English Word Combinations (1997) und dem Oxford Collocations Dictionary for Students of English (2002) stehen zwar zwei vergleichsweise umfassende Referenzwerke des Englischen im Printformat zur Verfügung, ein für den fremdsprachlichen Textproduzenten bzw. den Sprachmittler wünschenswertes zweisprachiges Kollokationswörterbuch findet sich jedoch ebenso wenig wie geeignete, auf den kollokativen Sprachgebrauch ausgerichtete elektronische Referenzwerke. Mit Blick auf das dringliche Desiderat eines mehrsprachigen, dynamisch erweiterbaren Referenzwerkes wird nachfolgend eine webbasierte zweisprachig ausgearbeitete Kollokationsdatenbank vorgestellt. 2 Die Selektion des erfassten Sprachmaterials Bei der Auswahl der Wortkombinationen für die Aufnahme in die Datenbank stellt sich zum einen die Schwierigkeit, freie von affinen Kombinationen zu unterscheiden. Die Grenze ist hier nicht eindeutig zu ziehen, die Sprachüblichkeit einer Wortzweierkombination ist prinzipiell nicht operationalisierbar. Rein frequenzgestützte Ansätze der Extraktion von Wortkombinationen aus Textkorpora erbringen zu einem großen Teil nicht-kollokative Verbindungen (vgl. z.B. das Wortschatz-Lexikon der Universität Leipzig http://www.wortschatz.uni-leipzig.de/, den Collins Cobuild English Collocations on CD-ROM oder den Cobuild Corpus Concordance Sampler http://titania.cobuild.collins.co.uk/form. html# democoll). In einem elektronischen Kollokationswörterbuch wie dem nachfolgend ausgearbeiteten werden die primär aus Korpora extrahierten Sprachdaten einer Akzeptabilitäts- und Üblichkeitsprüfung durch mehrere Muttersprachler unterzogen. Neben den vergleichsweise eindeutig als Kollokationen bestimmten Wortverbindungen werden im Sinne eines zusätzlichen Informationsangebots auch Wendungen, die zu Ko-Kreationen hin tendieren, sowie Konstruktionen aufgenommen. Hinsichtlich der diasystematischen Eigenschaften der Kollokationen stellen sich ebenfalls einige Fragen. Mit Blick auf die diatopische Markiertheit ist festzulegen, ob beispielsweise eine Beschränkung auf britisches und/oder amerikanisches Englisch vorgenommen wird. Dies erscheint im vorliegenden Falle jedoch als nicht sinnvoll. Des Weiteren ist zu entscheiden, ob Kollokationen aller Stilschichten aufgenommen werden und ob register- und fachsprachenspezifische Wendungen - und wenn ja, welche - Aufnahme finden. Eine Ausblendung der unteren Stilschichten trägt präskriptive Züge und ist in der vorgestellten Datenbank nicht vorgesehen. Jedoch sind Wendungen, die einem stilistisch niedrigen Sprachgebrauch zuzurechnen sind, über entsprechende diasystematische Markierungen deutlich als solche zu kennzeichnen. Eine Aufnahme umgangssprachlicher Kollokationen, gleichsam versehen mit der entsprechenden diasystematischen Markierung, erscheint sinnvoll, da so auch verstärkt dem mündlichen Sprachgebrauch Rechnung getragen werden kann. Hinsichtlich fachsprachlicher Wortkombinationen kann die zunächst allgemeinsprachlich ausgerichtete Kollokationsdatenbank durch fachsprachliche Kollokationen, die gesondert erarbeitet und terminografisch aufbereitet werden, ergänzt werden. Die fachsprachlichen Kollokationen sind über das Eintragsfeld Fachgebiet und auch über die Zuweisung entsprechender diasystematischer Markierungen als solche gekennzeichnet. Gleichsam lassen sich bei der ausgearbeiteten Datenbank Suchanfragen implementieren, die alle Einträge zu einem bestimmten Fachgebiet aus den Datensätzen herausfiltern, so dass beispielsweise gezielt fachsprachliche Wortverbindungen zu einem Fachbereich extrahiert und zur Vorbereitung fachsprachlicher Sprachmittlung eingesetzt werden können. 3 Die Entwicklungsumgebung und Distribution der Datenbank Die Kollokationsdatenbank wurde mittels des relationalen Datenbankmanagementsystems Microsoft Access erstellt, einem vergleichsweise weit verbreiteten Datenverwaltungssystem, das umfassende Funktionalitäten hinsichtlich der Anordnung, Sortierung, Filterung und Suche von Daten bereitstellt. Die ausgearbeitete Datenbank wird unter einer registrierten Domain auf einen Internetserver gestellt, so dass der Benutzer durch Aufruf einer URL auf den Datenbestand zugreifen kann. Dieses Vorgehen erweist sich als vorteilhafter gegenüber der Distribution der Datenbank über eine CD-ROM: Während auf CD-ROM verfügbare Daten nach einem finalisierten Brennvorgang nicht mehr veränderbar sind, kann die online vorliegende Datenbank kontinuierlich erweitert und gepflegt werden. So kann ein sehr umfassendes, dynamisches Referenzwerk zum kollokativen Sprachgebrauch entstehen. Die Pflege und Ergänzung der Daten kann von jedem Rechner mit Internetanbindung aus erfolgen (siehe unten). Veränderungen des Datenbestandes sind unmittelbar wirksam, vorgenommene Aktualisierungen stehen ohne weitere Zeitverzögerung online. Hier zeigen sich erneut die Vorteile elektronischer Medien gegenüber dem vergleichsweise kostenintensiven und statischen Printmedium. Der Server, auf den die Access-Datenbank hochgeladen wurde, unterstützt die serverseitige Scripting-Umgebung ASP (Active Server Pages), die die Erstellung dynamischer und interaktiver Web-Anwendungen erlaubt. Die in VBScript oder JScript geschriebenen Skripte werden hierbei direkt vom Server, und nicht, wie beispielsweise bei HTML, vom Browser des Clients ausgeführt. Die Suchabfragen werden über SQL (Structured Query Language) realisiert. Diese standardisierte Abfragesprache für relationale Datenbanken wird als nichtprozedurale Programmiersprache ohne Unterprogramme, Schleifen oder Funktionen charakterisiert. Beim Aufbau der Datenbank ist darauf zu achten, dass die Daten jeweils eindeutig voneinander zu unterscheidende Datensätze bilden. Mit Hilfe der Abfragesprache SQL sind dann auch aus sehr umfangreichen Datenmengen die Daten in vielfältiger Weise sortier- und filterbar, so dass sich verschiedenste Informationen auslesen lassen. Der Zugriff auf die Datenbank wird im vorliegenden Fall durch einen vorgeschalteten Login-Bildschirm, d.h. die erforderliche Eingabe einer Kombination aus Benutzername und Passwort geschützt. Abb. 3-1: Der Login-Bildschirm zur Kollokationsdatenbank Die Administratoren und ggf. auch andere registrierte Nutzer haben die Möglichkeit, neue Einträge anzulegen (siehe unten). Bei Bedarf können der Name des eingeloggten Benutzers und das Datum des Logins auch automatisch in ein Datenbankfeld Bearbeiter resp. Bearbeitungsdatum geschrieben werden. Prinzipiell ist über die kostenpflichtige Distribution von Benutzerkennungen auch eine kommerzialisierte Nutzung des Datenbestandes möglich. In diesem Fall erfolgt die Einrichtung separater Kennungen, bei denen dem Benutzer lediglich ein Lesezugriff auf die Daten gewährt wird. 4 Der Außentext Printwörterbücher verfügen generell über einen - mehr oder weniger ausführlichen - Außentext, wobei hier erst ein umfassender und informativer Vorspann die effektive Nutzung des Wörterbuchkorpus ermöglicht. Auch ein elektronisches Nachschlagewerk sollte über einen ausgearbeiteten „Vorspann“ verfügen, der sich bei der vorgestellten Datenbank über die Links Hinweise zur Benutzung und Über Kollokationen aufrufen lässt. Die Hinweise zur Benutzung sind als den Nutzer direkt adressierende Anleitungstexte konzipiert. Sie können, wie im vorliegenden Fall, als untergliederter Fließtext abgefasst sein, denkbar ist aber auch die Form einer FAQ-Sammlung (Frequently Asked Questions). Die Suchoptionen, die Form der Lemmata und die Eintragsstruktur werden erläutert. Daneben finden sich Angaben zum verzeichneten Sprachausschnitt (z.B. inwieweit fachsprachliche Kollokationen berücksichtigt werden), zu Datenquellen, zum intendierten Benutzungszweck der Datenbank, zur Zielgruppe sowie zu den an der Erstellung der Datenbank beteiligten Personen. Der Link Über Kollokationen führt zu Informationen zur spezifischen Charakteristik des erfassten Sprachmaterials, d.h. zu den Besonderheiten und den konstituierenden Merkmalen von Kollokationen. Im Sinne einer Ausbildung oder Erweiterung des Kollokationsbewusstseins wird hier insbesondere auf die Charakteristik von Kollokationen als Problemgrößen der fremdsprachlichen Textproduktion bzw. Übersetzung eingegangen. Die als „Vorspann“ aufgeführten Informationen sind allgemeinverständlich, d.h. in Form einer fachexternen Kommunikation formuliert. Nachfolgend abgebildet: wird der Eröffnungsbildschirm der Kollokationsdatenbank Abb. 4-1: Der Eröffnungsbildschirm zur Kollokationsdatenbank DeutschEnglisch Ein Klick auf den Link Kollokationsdatenbank Deutsch - Englisch führt zu folgendem Bildschirm: Abb. 4-2: Die Möglichkeiten des Zugriffs auf die Einträge Dem Benutzer bieten sich verschiedene Möglichkeiten des Zugriffs auf die Datenbankeinträge. Neben einer Volltextsuche und einer Suche in den Haupteinträgen ist das Aufrufen einer jeweils alphabetisch sortierten Liste der deutschen und englischen Kollokationen möglich. Ein kurzer Textabschnitt gibt jeweils die zentralen Informationen zu den einzelnen Suchoptionen. Auf die Suchmöglichkeiten und Eintragslisten wird im Abschnitt 5 detaillierter eingegangen. Die Interaktivität der Anwendung manifestiert sich über den Link Eintrag anlegen. Dieser führt zu einem HTML-Formular zum Anlegen neuer Datenbankeinträge, das mit entsprechenden Sprachdaten befüllt werden kann. Nach der Eingabe dieser Sprachdaten klickt der Benutzer auf die Schaltfläche Abschicken, um der Datenbank den neuen Eintrag bzw. Datensatz hinzuzufügen. Abb. 4-3: Anlegen eines neuen Datenbankeintrags 5 Die Eintragsstruktur Nachfolgend wird die Eintragsstruktur der zweisprachigen Kollokationsdatenbank erläutert. Die Ausarbeitung der Datenfelder ist hierbei zum einen auf den Informationsbedarf von Sprachmittlern, zum anderen auch auf die möglichen SQL-Abfragen abgestimmt. Fachgebiet: Das Feld Fachgebiet wird vor allem mit Blick auf die Erweiterung einer allgemeinsprachlichen Datenbank um fachsprachliche Kollokationen (vgl. oben) angelegt. Mehrfachnennungen in diesem Datenfeld sind möglich, wenn eine Kollokation mehreren Fachgebieten zugeordnet werden kann. Wie unten dargelegt, enthält die Eintragsstrukur gleichsam ein Feld für diasystematische Markierungen. Handelt es sich um einen diatechnisch markierten Eintrag, so kongruieren die Inhalte der Datenfelder Fachgebiet und Stil. Typ: Dieses Feld bezeichnet den gelisteten Kollokationstyp nach Hausmann. Die verwendeten Kürzel sind folgende: Typ I: S (O) + V bzw. V + S (O) Typ IV: S + S bzw. S + P + S Typ II: Aj + S Typ V: Av + Aj Typ III: S (S) + V Typ VI: Av + V bzw. V + Av Im Falle einer Konstruktion wird das Kürzel Konstr, im Falle einer Ko-Kreation die Markierung Ko-Krea verwendet. Stil (Diasystematische Markierung): Die Einträge einer Kollokationsdatenbank tragen wie die Lemmata eines Wörterbuchs spezifische, einem sprachlichen Diasystem angehörende Merkmale. Insbesondere für den fremdsprachigen Wörterbuchbenutzer ist die Angabe dieser Merkmale von großer Bedeutung. Somit wird in der vorliegenden Kollokationsdatenbank ein Feld für diasystematische Markierungen angelegt. Da der Begriff „Diasystematische Markierung“ für viele Benutzer jedoch vermutlich undurchsichtig ist, wird das Datenfeld hier mit der kürzeren und leichter verständlichen Bezeichnung „Stil“ versehen. Verfügen Kollokationen über mehrere diasystematische Merkmale, so finden sich in dem Feld mehrere Angaben. In einem zweisprachigen Kollokationswörterbuch sollten den zielsprachlichen Wendungen möglichst die gleichen diasystematischen Eigenschaften zukommen wie der jeweiligen ausgangssprachlichen Kollokation. Ist dies nicht der Fall, so ist der zielsprachlichen Wendung eine andere Kennzeichnung beizufügen, wobei die unterschiedlichen Markierungen in der Regel im Feld Anmerkungen (siehe unten) kommentiert werden. Folgende Auflistung enthält das Inventar an diasystematischen Markierungen des Kollokationswörterbuchs: Diachronische Markierungen veraltend/veraltet (veralt) archaisch (arch) modern (mod) Neologismus (Neol) Diastratische Markierungen förmlich/formell (form) literarisch (lit) poetisch (poet) pathetisch (path) gehoben (geh) informell (inform) umgangssprachlich (ugs) salopp (sal) vulgär (vul) Diatopische Markierungen süddeutsch (süddt) norddeutsch (norddt) etc. Amerikanisches Englisch (AE) Britisches Englisch (BE) Diakonnotative Markierungen aufwertend (aufw) euphemistisch (euph) scherzhaft (hum) ironisch (iron) abwertend (abw) Diaintegrative Markierungen Anglizismus (Angl) Italianismus (Ital) etc. Diafrequente Markierungen selten (im akt. Sprachgebrauch) (selt) Diatechnische Markierungen militärisch (mil) juristisch (jur) Medizin (Med) Wirtschaft (Wirt) Sport (Sport) etc. Dianormative Markierungen tabu (tabu) Basis und Kollokator: Die beiden Datenfelder Basis und Kollokator (Koll.) sind zentrale Felder der Datenbank und dienen der Listung der beiden Mitspieler einer Kollokation. Die entworfene Anwendung ist zweisprachig angelegt und kann von beiden Sprachen ausgehend durchsucht werden. Die ausgearbeitete Datenbankmaske verfügt über je ein Datenfeld für die deutsche Basis, den deutschen Kollokator, die englische Basis und den englischen Kollokator. Das Anlegen von getrennten Datenfeldern für Basis und Kollokator ist notwendig, um die Kollokationen in einer alphabetischen Liste angeordnet anzeigen zu können. Liegen mehrere Kollokationen mit dem gleichen Basiswort vor, so kann über das Feld Kollokator eine alphabetische Untersortierung nach Kollokatoren erfolgen. Beim Eintragen von Basis und Kollokator in ein gemeinsames Datenfeld könnte diese Unteralphabetisierung nach Kollokatoren nicht realisiert werden. Bei Kollokationen, deren Mitspieler die Reihenfolge Kollokator - Basis aufweisen (z.B. Typ II nagender Zweifel, Typ V falsch informiert, Typ VI entschieden zurückweisen) gibt die Anordnung der Datenfelder gleichsam die Reihenfolge Basis - Kollokator vor. Die lemmatisierte Form der Kollokation findet sich jeweils im Feld Nennform. Nennform: Wie bei Printwörterbüchern sind auch bei der Ausarbeitung bzw. Befüllung einer Datenbank bestimmte Konventionen zur morphologischen Form der Haupteinträge, d.h. zur Nennform, festzulegen. Die Nennformen der Kollokationsdatenbank weisen folgende Merkmale auf: 1. Die in den Kollokationen enthaltenen Substantive werden in der Regel im Singular aufgeführt, die Verben im Präsens Indikativ. 2. Die Einträge dokumentieren die Kollokationen vollständig. Hierzu gehört ggf. die Angabe eines Artikels (z.B. ein Problem lösen, den Fernseher einschalten, a falling birthrate) sowie die Kodierung notwendiger bzw. möglicher Objekte, Präpositionen und Reflexivpronomen (z.B. jmdm. die Freude verderben, sich einer Aufgabe annehmen, to have sth. at one’s disposal, to seal sb.’s doom, to do a blood test (on), to utter (a) blasphemy against sb./sth. etc.). Die Eintragungen im Feld Nennform folgen diesen Lemmatisierungskonventionen. Die Einrichtung dieses Feldes erlaubt das Suchen einer Kollokation über die gleichzeitige Eingabe von Basis und Kollokator in das Suchfeld (z.B. Problem lösen), so dass der Benutzer direkt zum gewünschten Eintrag gelangen kann. Die Suchoptionen werden in Abschnitt 5 detaillierter erläutert. Existiert zu einer Kollokation in der einen Sprache keine Kollokation in der anderen der beiden Sprachen, so findet sich im Feld Nennform eine als solche gekennzeichnete Ko-Kreation mit äquivalenter Bedeutung. Definition: Das Datenfeld Definition dient der Erläuterung der Bedeutung allgemeinsprachlicher Kollokationen, sofern diese Bedeutung für den Fremdsprachler möglicherweise undurchsichtig ist. Insbesondere besteht jedoch bei fachsprachlichen Kollokationen ein Bedarf an Definitionen. Diese sind primär entsprechenden Fachtexten oder Fachwörterbüchern zu entnehmen. Die Quelle der Definition wird nicht in einem eigenen Datenfeld, sondern im Anschluss an die jeweilige Definition aufgeführt. Wird die Definition mangels anderer Quellen vom Verfasser des Eintrags geprägt, so wird dies kenntlich gemacht. Kontext: Anwendungsbeispiele sind für den Fremdsprachler von zentraler Bedeutung. Eine Befragung von 100 Studierenden der Übersetzungs- und Dolmetschwissenschaft, die im Rahmen einer Untersuchung zum Bedarf an lexikografischen Informationen im Bereich des festen Wortgebrauchs durchgeführt wurde, ergab, dass bei der Übersetzung in die Fremdsprache 91 Prozent und bei der Übersetzung aus der Fremdsprache 60 Prozent der Befragten Anwendungsbeispiele sehr häufig oder relativ häufig benötigen (Holderbaum 1999:255ff.). Mit Blick auf den Umfang des Demonstrationsteils werden von den Befragten generell zwei oder mehr Anwendungsbeispiele gewünscht. Das Feld Kontext führt den jeweiligen Haupteintrag im Satzkontext an. Um einen aktuellen und authentischen Sprachgebrauch abzubilden, wird aus Korpora bzw. Internetquellen extrahierten Textbelegen der Vorzug gegenüber made up examples gegeben. Da die entworfene Kollokationsdatenbank vornehmlich der Textproduktion dient und in beiden Sprachrichtungen nutzbar ist, ist sowohl zum deutschen als auch zum englischen Haupteintrag ein ausführlicher Demonstrationsteil anzuführen. Das Datenfeld Kontext ist so angelegt, dass hier mehrere Satzkontexte eingetragen werden können, über den Scrollbalken am rechten Feldrand ist der jeweilige Text einsehbar. Die Angaben zur Quelle des Kontextes werden wiederum direkt den Beispielen nachfolgend angeführt. Bei den Angaben handelt es sich häufig um Internetquellen, die vollständig und nicht als Kürzel in einem Quellenfeld aufgeführt werden, so dass der Benutzer aus der Datenbank heraus über Copy and Paste direkt zur entsprechenden URL navigieren kann. Wurde ein Textbeleg für die Aufnahme in der Datenbank abgeändert, z.B. durch Kürzen oder Tilgung von Eigennamen, so wird dies durch ein der Quellenangabe vorangestelltes „nach“ gekennzeichnet. Synonym: Dieses Datenfeld listet die zum Haupteintrag synonymen Kollokationen, wie z.B. Geschirr spülen/abspülen/abwaschen, Kaffee kochen/machen, a problem arises/comes up etc. Den Synonymen kommt jeweils ein eigener zweisprachiger Eintrag zu. Anmerkung: Das Feld Anmerkung ist als Mehrzweckfeld konzipiert. Hier finden sich vor allem ergänzende Angaben zum Gebrauch der jeweiligen Kollokation. In einem für die Textproduktion konzipierten Kollokationswörterbuch sollten beispielsweise Informationen zu regionalen Variationen, spezifischen Gebrauchskontexten und -restriktionen oder semantischen Besonderheiten verfügbar sein. Die im Feld Anmerkung gelisteten Usage Notes können auch auf eventuelle Bedeutungs- oder Gebrauchsunterschiede der deutschen und englischen Wortkombination hinweisen. Auch wenn es sich bei einer der beiden Wortkombinationen um keine Kollokation, sondern um eine freie Verbindung handelt (siehe oben), sollte hier ein entsprechender Kommentar angeführt werden. Das Feld Anmerkungen dient zudem der Angabe von alternativen Schreibweisen des Haupteintrags, Unterschieden in der Verwendung von Haupteintrag und Synonym etc. Querverweis: Hier wird bei Bedarf auf andere Datenbankeinträge verwiesen, beispielsweise kann im Bereich fachsprachlicher Kollokationen die Konsultation eines anderen (fachsprachlichen) Eintrags sinnvoll für das Verständnis oder den korrekten Gebrauch der jeweiligen Kollokation sein. Nachfolgend wird exemplarisch ein mit Sprachdaten befüllter Eintrag abgebildet: Abb. 5-1: Ein exemplarischer Datenbankeintrag Die Sprachdaten eines Eintrags können von den Administratoren und ggf. von weiteren registrierten Nutzern verändert werden, die entsprechenden Änderungen werden nach dem Anklicken der Schaltfläche Aktualisieren wirksam. Durch einen Klick auf die rechte untere Schaltfläche, die mit einem Kreuz versehen ist, wird der entsprechende Datenbankeintrag gelöscht. 6 Die Suchoptionen Die entworfene Kollokationsdatenbank bietet zwei Suchmodi an: zum einen die Suche in den Haupteinträgen und zum anderen eine Volltextsuche. Bei der Volltextsuche werden alle Datenbankfelder nach dem eingegebenen Suchbegriff durchsucht, somit können z.B. auch Definitionen und Kontexte nach einem bestimmten Lexem bzw. einer Zeichenfolge durchsucht werden. Die oben angesprochenen Informationen zu den einzelnen Suchoptionen werden hierbei neben dem Suchfeld eingeblendet: Abb. 6-1: Suchfeld für die Volltextsuche Die SQL-Syntax für die Volltextsuche wurde in folgender Form implementiert: "SELECT * FROM Unionde WHERE (deutsch_nennform LIKE '%::suchtext::%') OR (deutsch_basis LIKE '%::suchtext::%') OR (deutsch_kollokator LIKE '%::suchtext::%') OR (definition_deutsch LIKE '%::suchtext::%') OR (kontext_deutsch LIKE '%::suchtext::%') OR (synonym_deutsch LIKE '%::suchtext::%') OR (anmerkung LIKE '%::suchtext::%') OR (querverweis LIKE '%::suchtext::%') ORDER BY deutsch_basis, typ_deutsch, deutsch_kollokator ASC" Nach der Eingabe des Suchbegriffs in das Suchfeld werden im linken Frame alle Einträge aufgeführt, die das entsprechende Wort als Teil eines beliebigen Datenfeldes des Eintrags aufweisen. Über ein Anklicken der gewünschten Wortverbindung aus der Liste wird der jeweilige Datenbankeintrag mit den einzelnen Datenfeldern aufgerufen und im Hauptframe angezeigt. Eine Eingabe eines Wortteils bzw. unvollständigen Lexems in das Suchfeld ist gleichsam möglich. So werden z.B. nach Eingabe der Zeichenfolge Sche Datensätze, die Wörter wie Scheck, Scheidung, schenken etc. enthalten, gefunden. Bei der Suche in den Haupteinträgen werden die Felder Nennform für das Deutsche und das Englische durchsucht. Wird beispielsweise das Wort Scheck eingegeben, das in zahlreichen Kollokationen als Basis fungiert, so werden nach der Eingabe des Suchbegriffs in das Suchfeld und dem Starten der Suche im linken Frame des Bildschirms alle Einträge aufgeführt, die das entsprechende Wort als Teil der Nennform aufweisen. Die Sortierung der Einträge erfolgt nach drei Parametern: Sie basiert zunächst auf dem Basiswort (Eintragsfeld Basis), bei mehreren Datensätzen zu einem Basislexem wird nach Kollkationstypen (Feld Typ) und schließlich nach Kollokatoren (Feld Kollokator) alphabetisch untersortiert. Durch die Kombination der Parameter wird erreicht, dass die Kollokationen alphabetisch und nach Kollokationstypen geordnet aufgeführt werden, d.h. zunächst die Kollokationen des Typs I in alphabetischer Folge, dann die des Typs II etc. Es wurde eine SQL-Abfrage implementiert, die alle Einträge, die als Inhalt des Datenfeldes Basis die gesuchte Zeichenfolge, hier Scheck, enthalten, nach dem Inhalt des Feldes Typ und dem des Feldes Kollokator alphabetisch untersortiert. Der SQL-String nimmt hierbei folgende Form an: "SELECT * FROM Unionde WHERE (deutsch_nennform LIKE '%::suchtext::%') ORDER BY deutsch_basis, typ_deutsch, deutsch_kollokator ASC" ASC steht hierbei für Ascending, also aufsteigende Sortierung, Unionde bezeichnet eine UNION-Abfrage und das Prozentzeichen steht für Links- und Rechts-Trunkierung. Es handelt sich um eine Suche in einer SQL-UNION-Abfrage, die Teil der Access-Datenbank ist, d.h. die deutschen und englischen Felder jedes Eintrags werden in eine neue Tabelle geschrieben, die wiederum die Grundlage der Suche bildet. Im oben angeführten Suchstring wird lediglich das Feld deutsch_nennform aufgeführt, die englische Nennform ist dennoch in eigenständigen Datensätzen enthalten; deutsch_nennform ist lediglich die Bezeichnung des Datenbank-Feldes, ähnlich einer Spaltenüberschrift in einer Word-Tabelle. Die eigentliche UNION-Abfrage lautet (ebenfalls in SQL): "SELECT dict.id, dict.deutsch_nennform, dict.deutsch_basis, dict.deutsch_kollokator, dict.definition_deutsch, dict.kontext_deutsch, dict.synonym_deutsch, dict.anmerkung, dict.querverweis, dict.typ_deutsch FROM dict; UNION SELECT dict.id, dict.englisch_nennform, dict.englisch_basis, dict.englisch_kollokator, dict.definition_englisch, dict.kontext_englisch, dict.synonym_englisch, dict.anmerkung, dict.querverweis, dict.typ_englisch FROM dict;" Die Suche im Feld Nennform erlaubt, wie oben angesprochen, die kombinierte Eingabe von Basis und Kollokator. So führt z.B. die Eingabe von „Scheck einlösen“, „bitter enttäuscht“ oder „sparse hair“ direkt zu den entsprechenden Einträgen. Entscheidend für die Auffindbarkeit der Einträge ist, dass die Eingabe in das Suchfeld sich mit der Zeichenfolge bzw. einem zusammenhängenden Ausschnitt der Zeichenfolge im Feld Nennform deckt. Die ausgearbeitete Datenbank wird von deutschen Benutzern vornehmlich in der Sprachrichtung deutsch-englisch durchsucht, da sich die maßgebliche Schwierigkeit im kollokativen Sprachgebrauch mit der fremdsprachlichen Textproduktion bzw. der Übersetzung in die Fremdsprache verbindet. Im Deutschen stehen Basis und Kollokator in der Nennform zumeist unmittelbar nebeneinander, so dass die Eingabe der Kollokation in das Suchfeld in der Regel mit der Zeichenfolge oder einem Teil der Zeichenfolge im Feld Nennform kongruiert und die betreffende Kollokation so problemlos aufgesucht werden kann. Im Englischen allerdings stehen zwischen der Basis und dem Kollokator mitunter Platzhalter für Objekte oder Reflexivpronomen (siehe oben, z.B. to have sth. at one’s disposal, to seal sb.’s doom). Hier kann jedoch der Benutzer auf die Nennform schließen, indem er die in den Nennformen einheitlich verwendeten Zeichenfolgen für Objekte (sth., sb., sb.’s), für Reflexivpronomen (one’s) oder für (fakultative) Artikel ((a)) bei der Eingabe ergänzt. Die entsprechenden Informationen zur Eingabe der Nennform finden sich auch in den Benutzungshinweisen zur Datenbank. Falls dennoch Unklarheit über die eingetragene Zeichenfolge einer Nennform besteht, so kann der Benutzer weiterhin einen Mitspieler der Kollokation eingeben und erhält die Liste aller Haupteinträge/Nennformen, die diesen Mitspieler aufweisen. Aus dieser alphabetischen Liste wird dann der gewünschte Eintrag ausgewählt (siehe oben). Neben den implementierten Suchfunktionen können auch alphabetisch geordnete Listen aller deutschen und aller englischen Kollokationen (Haupteinträge/Nennformen) aufgerufen werden. Die Sortierung ist hierbei erneut eine dreifache, sie basiert auf dem Basiswort (Eintragsfeld Basis), auf dem Kollokator (Feld Kollokator) und dem Kollokationstyp (Feld Typ). Die Kollokationen werden somit - wie oben dargelegt - alphabetisch und nach Kollokationstypen geordnet aufgeführt. Die Syntax für die entsprechende SQL-Abfrage für die Liste deutscher Kollokationen ist folgende: "SELECT * FROM dict ORDER BY deutsch_basis, typ_deutsch, deutsch_kollokator ASC" Hierbei ist dict der Name der Access-Tabelle, der Asteriskus steht für alles, d.h. für alle Felder, in ASP wird nach Ausführung der SQL-Abfrage hierbei allerdings lediglich die Nennform (dreifach sortiert) in dem im Browser angezeigten HTML-Dokument aufgeführt. Die Einträge der alphabetischen Listen werden jeweils in der Form der Nennform (Inhalt des Feldes Nennform) aufgeführt. Für die alphabetische Sortierung sind somit die Felder Basis, Kollokator und Typ (s.o.) relevant, die Einträge in der Liste referieren hingegen auf das Feld Nennform, um dem Benutzer jeweils die Kollokation in der korrekten Abfolge von Basis und Kollokator, ergänzt durch entsprechende Objekte, Artikel oder Platzhalter für Objekte anzuzeigen. Abb. 6-2: Die alphabetisch sortierte Liste aller verzeichneten Einträge (deutsch) Erneut lässt sich über das Anklicken einer gewünschten Wortverbindung aus der Liste der entsprechende Datenbankeintrag aufrufen. Enthält die Datenbank zahlreiche Einträge, so werden zusätzliche Schaltflächen in Form von Buchstabenfeldern implementiert, über die die alphabetisch sortierte Liste aller Einträge, jeweils beginnend mit dem angewählten Buchstaben aufgerufen wird. Dies ist einem Daumenregister (Thumb Index) bei Printwörterbüchern vergleichbar: Abb. 6-3: Die Implementierung von Schaltflächen zur Buchstabenwahl 7 Kontextualisierung und Erweiterbarkeit der Oberfläche Die zweisprachige Kollokationsdatenbank wird, wie oben beschrieben, einschließlich aller Web-Dateien per ftp (File Transfer Protocol) auf einen Server hochgeladen und ist dann über das Aufrufen der URL verfügbar. Der Zugriff auf die Daten ist zunächst beschränkt, da auf einer vorgeschalteten Seite ein Benutzername und ein zugehöriges Passwort eingegeben werden müssen. Die Datenbank wurde auf ein Unterverzeichnis der Domain www.lighthouseunlimited.de gestellt. Die wissenschaftliche Redaktion Lighthouse Unlimited (Joachim Kornelius, Anja Holderbaum) publiziert in Zusammenarbeit mit dem WVT Wissenschaftlicher Verlag Trier an der Englischen Abteilung des Instituts für Übersetzen und Dolmetschen der Universität Heidelberg verfasste Diplomarbeiten als elektronische Bücher. Die Publikationen werden mit einer regulären ISBN-Nummer versehen und auf CD-ROM vertrieben. Sie liegen als PDF-Dateien mit einer ausgearbeiteten Hyperlinkstruktur vor. Über einen implementierten E-Shop lassen sich das Angebot an wissenschaftlichen Publikationen sowie die Klappentexte und die Inhaltsverzeichnisse zu den einzelnen elektronischen Büchern aufrufen. Abb. 7-1: Anzeige des Klappentextes und Inhaltsverzeichnisses einer in der Reihe Lighthouse Unlimited erschienenen Publikation Der E-Shop ermöglicht Bestellvorgang. einen einfachen und benutzerfreundlichen Abb. 7-2: Der Online-Shop der Publikationsreihe Lighthouse Unlimited Die entworfene Kollokationsdatenbank auf der Oberfläche Lighthouse Unlimited ist somit in einen Kontext eingebettet, in dem weitere Referenzwerke zur Sprachund Fachdatenrecherche aus den unterschiedlichsten übersetzungsbezogenen Themenbereichen verfügbar sind. Neben der Kollokationsdatenbank als Nachschlagewerk für affine Wortkombinationen ist auch eine Integration fachsprachlicher Kollokationstrainer oder E-Learning-Module denkbar. Diese können als CDRom-Version ausgearbeitet vorliegen, jedoch auch unter eine Domain auf einen Server hochgeladen werden und als Downloads verfügbar sein. Vom Eingangsbildschirm des Kollokationswörterbuchs lassen sich Hyperlinks zu den einzelnen fachsprachlichen Kollokationstrainern setzen. Insgesamt bietet eine Internetplattform vielfältige Möglichkeiten, ein umfassendes Angebot an Nachschlagewerken und Tools für den Ausbau der kollokativen (fremd)sprachlichen Kompetenz zu realisieren. 8 Ausblick Vorliegende Arbeit stellte eine in MS Access entwickelte Kollokationsdatenbank vor, auf die über eine Internetplattform zugegriffen werden kann. Ein Vorteil dieses webbasierten Referenzwerkes liegt darin, dass der Datenbestand kontinuierlich weiter ausgebaut und gepflegt werden kann. Somit kann auch der Kollokationsbestand verschiedener Fachgebiete kurz- bzw. mittelfristig zweisprachig aufbereitet Sprachmittlern zur Verfügung gestellt werden. Die Ergänzung der Daten kann von den Lexikografen bzw. Administratoren dezentral von jedem Computer mit Internetanbindung aus vorgenommen werden, es generiert sich eine Anwendung, die zu einem sehr umfassenden zweisprachigen Referenzwerk für den kollokativen Sprachgebrauch ausgebaut werden kann. Die Oberfläche der Datenbank ist auf die Informationsbedürfnisse von Sprachmittlern hin ausgelegt. Neben den zielsprachlichen Äquivalenten ist hierbei insbesondere ein ausführlicher Demonstrationsteil notwendig für die fremdsprachliche Textproduktion. SQL-Abfragen erlauben eine Volltextsuche, eine Suche in den Haupteinträgen sowie die Anzeige alphabetisch und nach Kollokationstypen sortierter Listen aller eingetragenen deutschen und englischen Wortkombinationen. Ein zweisprachiges elektronisches Referenzwerk wie die ausgearbeitete Datenbank kann die defizitäre Hilfsmittelsituation im Bereich des kollokativen Sprachgebrauchs maßgeblich entschärfen. 9 Literatur 9.1 Darstellungen und Wörterbücher Bahns, J. 1994. „Die Berücksichtigung von Kollokationen in den drei großen Lernerwörterbüchern des Englischen“, in Fremdsprachen lehren und lernen 23, 84-101. Benson, E., Benson, M. u. Ilson, R. 1997 The BBI Dictionary of English Word Combinations. (Erste Ausgabe 1986 The BBI Combinatory Dictionary of English: A Guide to Word Combinations). Amsterdam/Philadelphia. dies. 1989 (rev. Ed., 2. Aufl. 2002). Student’s Dictionary of Collocations. Berlin. Collins Cobuild English Collocations on CD-Rom. 1995. London Hausmann, F. J. 1979. „Un dictionnaire des collocations est-il possible?“, in Travaux de Linguistique et de Littérature 17, 187-195. ders. 1984. „Wortschatzlernen ist Kollokationslernen. Zum Lehren und Lernen französischer Wortverbindungen“, in Praxis des neusprachlichen Unterrichts 31, 395-406. ders. 1989. „Le dictionnaire de collocations“, in Wörterbücher Dictionaries Dictionnaires. Ein internationales Handbuch zur Lexikographie. Vol. 1. (Handbücher zur Sprach- und Kommunikationswissenschaft 5.1.). Berlin, New York, 1010-1017. Holderbaum, A. 1999a. Englische Idiomatiken als Gegenstand einer empirischen Übersetzungsforschung. Trier. dies. u. Kornelius, J. 2001. „Kollokationen als Problemgrößen der Sprachmittlung”, in A. Lehr et al. (Hg.), Sprache im Alltag. Beiträge zu neuen Perspektiven in der Linguistik. Herbert Ernst Wiegand zum 65. Geburtstag gewidmet. Berlin, New York, 533-545. dies. 2003. Kollokationen als Problemgrößen der Sprachmittlung. Trier. Hornby, A. S. 1989 (5. Aufl. 1995, J. Crowther (Hg.)) Oxford Advanced Learner’s Dictionary of Current English. Oxford et al. Kornelius, J. 1995a. „Vom Printwörterbuch zum elektronischen Kollokationswörterbuch. Theoretische, methodische und praktische Überlegungen zur Erstellung eines Kollokationswörterbuchs“, in Lexicographica. International Annual for Lexicography 11, 153-171. ders. 1995b. „Was beim Übersetzen an der Hochschule geschehen sollte“, in anglistik & englischunterricht Bd. 55/56 Themenband: Realities of Translating. Heidelberg, 45-71. Sinclair, J. et al. (Hg.) 1987. Collins Cobuild English Language Dictionary. London. Summers, D. et al. (Hg.) 1987 (neu bearb. Ausg.). Longman Dictionary of Contemporary English. Berlin, München. 9.2 Internetseiten http://www.wortschatz.uni-leipzig.de/, http://titania.cobuild.collins.co.uk/form. html# democoll www.lighthouse-unlimited.de