Kollokationen im Web: Zur Herleitung einer zweisprachig

Anja Holderbaum, Michael Prien (Heidelberg)
Kollokationen im Web: Zur Herleitung einer zweisprachig
ausgearbeiteten Kollokationsdatenbank
Inhalt
1
Einführung
2
Die Selektion des erfassten Sprachmaterials
3
Die Entwicklungsumgebung und Distribution der Datenbank
4
Der Außentext
5
Die Eintragsstruktur
6
Die Suchoptionen
7
Kontextualisierung und Erweiterbarkeit der Oberfläche
8
Ausblick
9
Literatur
9.1
Darstellungen und Wörterbücher
9.2
Internetseiten
1
Einführung
Kollokationen - Wortzweierkombinationen von auffallender Üblichkeit wie einen
Vertrag unterzeichnen, schütteres Haar oder Anzeige erstatten - prägen jede
natürliche Sprache. Während ein Muttersprachler diese Kombinationen aus Basis
und Kollokator als vertraute Halbfertigprodukte sowohl in der Textproduktion als
auch der Textrezeption verfügbar hat, geraten Kollokationen selbst für
professionelle Sprachmittler und fortgeschrittene Fremdsprachenlerner nicht
selten zu Stolpersteinen der fremdsprachlichen Textproduktion. Die
Kombinierbarkeit der Mitspieler einer Kollokation ist weder semantisch noch
grammatisch abzuleiten oder vorherzusehen, die Wortzweierkombinationen
können nicht ad hoc gebildet werden, sondern müssen als disponible Einheiten
bereits im mentalen Lexikon verfügbar sein. Für den Fremdsprachler bedeutet
dies, dass Kollokationen, gleich Lexemen, gelernt werden müssen. Akute
Wissenslücken treten jedoch immer wieder auf - hier ist eine Konsultation
geeigneter Referenzwerke die Strategie der Wahl.
Wie jedoch bereits mehrfach festgestellt (z.B. Kornelius 1995; Holderbaum/
Kornelius 2001; Holderbaum 2003) ist die lexikografische Hilfsmittellage im
Bereich des kollokativen Sprachgebrauchs überaus defizitär.
Einsprachige (Lerner-)Wörterbücher des Englischen wie das Oxford Advanced
Learner’s Dictionary of Current English (OALD), das Longman Dictionary of
Contemporary English (DCE) und das Collins Cobuild English Language
Dictionary (CCELD) berücksichtigen Kollokationen in einem für den
Fremdsprachler unzureichenden Maße (vgl. auch Bahns 1994 und Kornelius
1995b). Darüber hinaus wird ein Großteil der verzeichneten Kollokationen nicht
unter der Basis, sondern unter dem Kollokator und somit asynchron zum
Findungsweg des fremdsprachigen Wörterbuchbenutzers gelistet (vgl. Kornelius
1995b). Das Kollokationspotenzial einschlägiger englischer Lernerwörterbücher
kann insgesamt als unzureichend gelten.
Mit dem BBI Dictionary of English Word Combinations (1997) und dem Oxford
Collocations Dictionary for Students of English (2002) stehen zwar zwei
vergleichsweise umfassende Referenzwerke des Englischen im Printformat zur
Verfügung, ein für den fremdsprachlichen Textproduzenten bzw. den
Sprachmittler wünschenswertes zweisprachiges Kollokationswörterbuch findet
sich jedoch ebenso wenig wie geeignete, auf den kollokativen Sprachgebrauch
ausgerichtete elektronische Referenzwerke.
Mit Blick auf das dringliche Desiderat eines mehrsprachigen, dynamisch
erweiterbaren Referenzwerkes wird nachfolgend eine webbasierte zweisprachig
ausgearbeitete Kollokationsdatenbank vorgestellt.
2
Die Selektion des erfassten Sprachmaterials
Bei der Auswahl der Wortkombinationen für die Aufnahme in die Datenbank
stellt sich zum einen die Schwierigkeit, freie von affinen Kombinationen zu
unterscheiden. Die Grenze ist hier nicht eindeutig zu ziehen, die Sprachüblichkeit
einer Wortzweierkombination ist prinzipiell nicht operationalisierbar. Rein
frequenzgestützte Ansätze der Extraktion von Wortkombinationen aus
Textkorpora erbringen zu einem großen Teil nicht-kollokative Verbindungen
(vgl.
z.B.
das
Wortschatz-Lexikon
der
Universität
Leipzig
http://www.wortschatz.uni-leipzig.de/, den Collins Cobuild English Collocations
on CD-ROM oder den Cobuild Corpus Concordance Sampler
http://titania.cobuild.collins.co.uk/form. html# democoll).
In einem elektronischen Kollokationswörterbuch wie dem nachfolgend
ausgearbeiteten werden die primär aus Korpora extrahierten Sprachdaten einer
Akzeptabilitäts- und Üblichkeitsprüfung durch mehrere Muttersprachler
unterzogen. Neben den vergleichsweise eindeutig als Kollokationen bestimmten
Wortverbindungen werden im Sinne eines zusätzlichen Informationsangebots
auch Wendungen, die zu Ko-Kreationen hin tendieren, sowie Konstruktionen
aufgenommen.
Hinsichtlich der diasystematischen Eigenschaften der Kollokationen stellen sich
ebenfalls einige Fragen. Mit Blick auf die diatopische Markiertheit ist
festzulegen, ob beispielsweise eine Beschränkung auf britisches und/oder
amerikanisches Englisch vorgenommen wird. Dies erscheint im vorliegenden
Falle jedoch als nicht sinnvoll. Des Weiteren ist zu entscheiden, ob
Kollokationen aller Stilschichten aufgenommen werden und ob register- und
fachsprachenspezifische Wendungen - und wenn ja, welche - Aufnahme finden.
Eine Ausblendung der unteren Stilschichten trägt präskriptive Züge und ist in der
vorgestellten Datenbank nicht vorgesehen. Jedoch sind Wendungen, die einem
stilistisch niedrigen Sprachgebrauch zuzurechnen sind, über entsprechende
diasystematische Markierungen deutlich als solche zu kennzeichnen. Eine
Aufnahme umgangssprachlicher Kollokationen, gleichsam versehen mit der
entsprechenden diasystematischen Markierung, erscheint sinnvoll, da so auch
verstärkt dem mündlichen Sprachgebrauch Rechnung getragen werden kann.
Hinsichtlich fachsprachlicher Wortkombinationen kann die zunächst
allgemeinsprachlich ausgerichtete Kollokationsdatenbank durch fachsprachliche
Kollokationen, die gesondert erarbeitet und terminografisch aufbereitet werden,
ergänzt werden. Die fachsprachlichen Kollokationen sind über das Eintragsfeld
Fachgebiet und auch über die Zuweisung entsprechender diasystematischer
Markierungen als solche gekennzeichnet. Gleichsam lassen sich bei der
ausgearbeiteten Datenbank Suchanfragen implementieren, die alle Einträge zu
einem bestimmten Fachgebiet aus den Datensätzen herausfiltern, so dass
beispielsweise gezielt fachsprachliche Wortverbindungen zu einem Fachbereich
extrahiert und zur Vorbereitung fachsprachlicher Sprachmittlung eingesetzt
werden können.
3
Die Entwicklungsumgebung und Distribution der Datenbank
Die
Kollokationsdatenbank
wurde
mittels
des
relationalen
Datenbankmanagementsystems Microsoft Access erstellt, einem vergleichsweise
weit verbreiteten Datenverwaltungssystem, das umfassende Funktionalitäten
hinsichtlich der Anordnung, Sortierung, Filterung und Suche von Daten
bereitstellt. Die ausgearbeitete Datenbank wird unter einer registrierten Domain
auf einen Internetserver gestellt, so dass der Benutzer durch Aufruf einer URL
auf den Datenbestand zugreifen kann. Dieses Vorgehen erweist sich als
vorteilhafter gegenüber der Distribution der Datenbank über eine CD-ROM:
Während auf CD-ROM verfügbare Daten nach einem finalisierten Brennvorgang
nicht mehr veränderbar sind, kann die online vorliegende Datenbank
kontinuierlich erweitert und gepflegt werden. So kann ein sehr umfassendes,
dynamisches Referenzwerk zum kollokativen Sprachgebrauch entstehen. Die
Pflege und Ergänzung der Daten kann von jedem Rechner mit Internetanbindung
aus erfolgen (siehe unten). Veränderungen des Datenbestandes sind unmittelbar
wirksam, vorgenommene Aktualisierungen stehen ohne weitere Zeitverzögerung
online. Hier zeigen sich erneut die Vorteile elektronischer Medien gegenüber
dem vergleichsweise kostenintensiven und statischen Printmedium.
Der Server, auf den die Access-Datenbank hochgeladen wurde, unterstützt die
serverseitige Scripting-Umgebung ASP (Active Server Pages), die die Erstellung
dynamischer und interaktiver Web-Anwendungen erlaubt. Die in VBScript oder
JScript geschriebenen Skripte werden hierbei direkt vom Server, und nicht, wie
beispielsweise bei HTML, vom Browser des Clients ausgeführt.
Die Suchabfragen werden über SQL (Structured Query Language) realisiert.
Diese standardisierte Abfragesprache für relationale Datenbanken wird als
nichtprozedurale Programmiersprache ohne Unterprogramme, Schleifen oder
Funktionen charakterisiert. Beim Aufbau der Datenbank ist darauf zu achten,
dass die Daten jeweils eindeutig voneinander zu unterscheidende Datensätze
bilden. Mit Hilfe der Abfragesprache SQL sind dann auch aus sehr
umfangreichen Datenmengen die Daten in vielfältiger Weise sortier- und
filterbar, so dass sich verschiedenste Informationen auslesen lassen.
Der Zugriff auf die Datenbank wird im vorliegenden Fall durch einen
vorgeschalteten Login-Bildschirm, d.h. die erforderliche Eingabe einer
Kombination aus Benutzername und Passwort geschützt.
Abb. 3-1: Der Login-Bildschirm zur Kollokationsdatenbank
Die Administratoren und ggf. auch andere registrierte Nutzer haben die
Möglichkeit, neue Einträge anzulegen (siehe unten). Bei Bedarf können der
Name des eingeloggten Benutzers und das Datum des Logins auch automatisch
in ein Datenbankfeld Bearbeiter resp. Bearbeitungsdatum geschrieben werden.
Prinzipiell ist über die kostenpflichtige Distribution von Benutzerkennungen
auch eine kommerzialisierte Nutzung des Datenbestandes möglich. In diesem
Fall erfolgt die Einrichtung separater Kennungen, bei denen dem Benutzer
lediglich ein Lesezugriff auf die Daten gewährt wird.
4
Der Außentext
Printwörterbücher verfügen generell über einen - mehr oder weniger
ausführlichen - Außentext, wobei hier erst ein umfassender und informativer
Vorspann die effektive Nutzung des Wörterbuchkorpus ermöglicht. Auch ein
elektronisches Nachschlagewerk sollte über einen ausgearbeiteten „Vorspann“
verfügen, der sich bei der vorgestellten Datenbank über die Links Hinweise zur
Benutzung und Über Kollokationen aufrufen lässt. Die Hinweise zur Benutzung
sind als den Nutzer direkt adressierende Anleitungstexte konzipiert. Sie können,
wie im vorliegenden Fall, als untergliederter Fließtext abgefasst sein, denkbar ist
aber auch die Form einer FAQ-Sammlung (Frequently Asked Questions). Die
Suchoptionen, die Form der Lemmata und die Eintragsstruktur werden erläutert.
Daneben finden sich Angaben zum verzeichneten Sprachausschnitt (z.B.
inwieweit fachsprachliche Kollokationen berücksichtigt werden), zu
Datenquellen, zum intendierten Benutzungszweck der Datenbank, zur Zielgruppe
sowie zu den an der Erstellung der Datenbank beteiligten Personen.
Der Link Über Kollokationen führt zu Informationen zur spezifischen
Charakteristik des erfassten Sprachmaterials, d.h. zu den Besonderheiten und den
konstituierenden Merkmalen von Kollokationen. Im Sinne einer Ausbildung oder
Erweiterung des Kollokationsbewusstseins wird hier insbesondere auf die
Charakteristik von Kollokationen als Problemgrößen der fremdsprachlichen
Textproduktion bzw. Übersetzung eingegangen. Die als „Vorspann“ aufgeführten
Informationen sind allgemeinverständlich, d.h. in Form einer fachexternen
Kommunikation formuliert.
Nachfolgend
abgebildet:
wird
der
Eröffnungsbildschirm
der
Kollokationsdatenbank
Abb. 4-1: Der Eröffnungsbildschirm zur Kollokationsdatenbank DeutschEnglisch
Ein Klick auf den Link Kollokationsdatenbank Deutsch - Englisch führt zu
folgendem Bildschirm:
Abb. 4-2: Die Möglichkeiten des Zugriffs auf die Einträge
Dem Benutzer bieten sich verschiedene Möglichkeiten des Zugriffs auf die
Datenbankeinträge. Neben einer Volltextsuche und einer Suche in den
Haupteinträgen ist das Aufrufen einer jeweils alphabetisch sortierten Liste der
deutschen und englischen Kollokationen möglich. Ein kurzer Textabschnitt gibt
jeweils die zentralen Informationen zu den einzelnen Suchoptionen. Auf die
Suchmöglichkeiten und Eintragslisten wird im Abschnitt 5 detaillierter
eingegangen.
Die Interaktivität der Anwendung manifestiert sich über den Link Eintrag
anlegen. Dieser führt zu einem HTML-Formular zum Anlegen neuer
Datenbankeinträge, das mit entsprechenden Sprachdaten befüllt werden kann.
Nach der Eingabe dieser Sprachdaten klickt der Benutzer auf die Schaltfläche
Abschicken, um der Datenbank den neuen Eintrag bzw. Datensatz hinzuzufügen.
Abb. 4-3: Anlegen eines neuen Datenbankeintrags
5
Die Eintragsstruktur
Nachfolgend
wird
die
Eintragsstruktur
der
zweisprachigen
Kollokationsdatenbank erläutert. Die Ausarbeitung der Datenfelder ist hierbei
zum einen auf den Informationsbedarf von Sprachmittlern, zum anderen auch auf
die möglichen SQL-Abfragen abgestimmt.
Fachgebiet: Das Feld Fachgebiet wird vor allem mit Blick auf die Erweiterung
einer allgemeinsprachlichen Datenbank um fachsprachliche Kollokationen (vgl.
oben) angelegt. Mehrfachnennungen in diesem Datenfeld sind möglich, wenn
eine Kollokation mehreren Fachgebieten zugeordnet werden kann. Wie unten
dargelegt, enthält die Eintragsstrukur gleichsam ein Feld für diasystematische
Markierungen. Handelt es sich um einen diatechnisch markierten Eintrag, so
kongruieren die Inhalte der Datenfelder Fachgebiet und Stil.
Typ: Dieses Feld bezeichnet den gelisteten Kollokationstyp nach Hausmann. Die
verwendeten Kürzel sind folgende:
Typ I:
S (O) + V bzw. V + S (O)
Typ IV:
S + S bzw. S + P + S
Typ II: Aj + S
Typ V:
Av + Aj
Typ III: S (S) + V
Typ VI: Av + V bzw. V + Av
Im Falle einer Konstruktion wird das Kürzel Konstr, im Falle einer Ko-Kreation
die Markierung Ko-Krea verwendet.
Stil (Diasystematische Markierung): Die Einträge einer Kollokationsdatenbank
tragen wie die Lemmata eines Wörterbuchs spezifische, einem sprachlichen
Diasystem angehörende Merkmale. Insbesondere für den fremdsprachigen
Wörterbuchbenutzer ist die Angabe dieser Merkmale von großer Bedeutung.
Somit wird in der vorliegenden Kollokationsdatenbank ein Feld für
diasystematische Markierungen angelegt. Da der Begriff „Diasystematische
Markierung“ für viele Benutzer jedoch vermutlich undurchsichtig ist, wird das
Datenfeld hier mit der kürzeren und leichter verständlichen Bezeichnung „Stil“
versehen. Verfügen Kollokationen über mehrere diasystematische Merkmale, so
finden sich in dem Feld mehrere Angaben. In einem zweisprachigen
Kollokationswörterbuch sollten den zielsprachlichen Wendungen möglichst die
gleichen diasystematischen Eigenschaften zukommen wie der jeweiligen
ausgangssprachlichen Kollokation. Ist dies nicht der Fall, so ist der
zielsprachlichen Wendung eine andere Kennzeichnung beizufügen, wobei die
unterschiedlichen Markierungen in der Regel im Feld Anmerkungen (siehe unten)
kommentiert werden.
Folgende Auflistung enthält das Inventar an diasystematischen Markierungen des
Kollokationswörterbuchs:
Diachronische Markierungen
veraltend/veraltet (veralt)
archaisch (arch)
modern (mod)
Neologismus (Neol)
Diastratische Markierungen
förmlich/formell (form)
literarisch (lit)
poetisch (poet)
pathetisch (path)
gehoben (geh)
informell (inform)
umgangssprachlich (ugs)
salopp (sal)
vulgär (vul)
Diatopische Markierungen
süddeutsch (süddt)
norddeutsch (norddt) etc.
Amerikanisches Englisch (AE)
Britisches Englisch (BE)
Diakonnotative Markierungen
aufwertend (aufw)
euphemistisch (euph)
scherzhaft (hum)
ironisch (iron)
abwertend (abw)
Diaintegrative Markierungen
Anglizismus (Angl)
Italianismus (Ital) etc.
Diafrequente Markierungen
selten (im akt. Sprachgebrauch) (selt)
Diatechnische Markierungen
militärisch (mil)
juristisch (jur)
Medizin (Med)
Wirtschaft (Wirt)
Sport (Sport) etc.
Dianormative Markierungen
tabu (tabu)
Basis und Kollokator: Die beiden Datenfelder Basis und Kollokator (Koll.) sind
zentrale Felder der Datenbank und dienen der Listung der beiden Mitspieler einer
Kollokation. Die entworfene Anwendung ist zweisprachig angelegt und kann von
beiden Sprachen ausgehend durchsucht werden. Die ausgearbeitete
Datenbankmaske verfügt über je ein Datenfeld für die deutsche Basis, den
deutschen Kollokator, die englische Basis und den englischen Kollokator. Das
Anlegen von getrennten Datenfeldern für Basis und Kollokator ist notwendig, um
die Kollokationen in einer alphabetischen Liste angeordnet anzeigen zu können.
Liegen mehrere Kollokationen mit dem gleichen Basiswort vor, so kann über das
Feld Kollokator eine alphabetische Untersortierung nach Kollokatoren erfolgen.
Beim Eintragen von Basis und Kollokator in ein gemeinsames Datenfeld könnte
diese Unteralphabetisierung nach Kollokatoren nicht realisiert werden.
Bei Kollokationen, deren Mitspieler die Reihenfolge Kollokator - Basis
aufweisen (z.B. Typ II nagender Zweifel, Typ V falsch informiert, Typ VI
entschieden zurückweisen) gibt die Anordnung der Datenfelder gleichsam die
Reihenfolge Basis - Kollokator vor. Die lemmatisierte Form der Kollokation
findet sich jeweils im Feld Nennform.
Nennform: Wie bei Printwörterbüchern sind auch bei der Ausarbeitung bzw.
Befüllung einer Datenbank bestimmte Konventionen zur morphologischen Form
der Haupteinträge, d.h. zur Nennform, festzulegen. Die Nennformen der
Kollokationsdatenbank weisen folgende Merkmale auf:
1. Die in den Kollokationen enthaltenen Substantive werden in der Regel im
Singular aufgeführt, die Verben im Präsens Indikativ.
2. Die Einträge dokumentieren die Kollokationen vollständig. Hierzu gehört ggf.
die Angabe eines Artikels (z.B. ein Problem lösen, den Fernseher einschalten,
a falling birthrate) sowie die Kodierung notwendiger bzw. möglicher Objekte,
Präpositionen und Reflexivpronomen (z.B. jmdm. die Freude verderben, sich
einer Aufgabe annehmen, to have sth. at one’s disposal, to seal sb.’s doom, to
do a blood test (on), to utter (a) blasphemy against sb./sth. etc.).
Die
Eintragungen
im
Feld
Nennform
folgen
diesen
Lemmatisierungskonventionen. Die Einrichtung dieses Feldes erlaubt das Suchen
einer Kollokation über die gleichzeitige Eingabe von Basis und Kollokator in das
Suchfeld (z.B. Problem lösen), so dass der Benutzer direkt zum gewünschten
Eintrag gelangen kann. Die Suchoptionen werden in Abschnitt 5 detaillierter
erläutert.
Existiert zu einer Kollokation in der einen Sprache keine Kollokation in der
anderen der beiden Sprachen, so findet sich im Feld Nennform eine als solche
gekennzeichnete Ko-Kreation mit äquivalenter Bedeutung.
Definition: Das Datenfeld Definition dient der Erläuterung der Bedeutung
allgemeinsprachlicher Kollokationen, sofern diese Bedeutung für den
Fremdsprachler möglicherweise undurchsichtig ist. Insbesondere besteht jedoch
bei fachsprachlichen Kollokationen ein Bedarf an Definitionen. Diese sind
primär entsprechenden Fachtexten oder Fachwörterbüchern zu entnehmen. Die
Quelle der Definition wird nicht in einem eigenen Datenfeld, sondern im
Anschluss an die jeweilige Definition aufgeführt. Wird die Definition mangels
anderer Quellen vom Verfasser des Eintrags geprägt, so wird dies kenntlich
gemacht.
Kontext: Anwendungsbeispiele sind für den Fremdsprachler von zentraler
Bedeutung. Eine Befragung von 100 Studierenden der Übersetzungs- und
Dolmetschwissenschaft, die im Rahmen einer Untersuchung zum Bedarf an
lexikografischen Informationen im Bereich des festen Wortgebrauchs
durchgeführt wurde, ergab, dass bei der Übersetzung in die Fremdsprache 91
Prozent und bei der Übersetzung aus der Fremdsprache 60 Prozent der Befragten
Anwendungsbeispiele sehr häufig oder relativ häufig benötigen (Holderbaum
1999:255ff.). Mit Blick auf den Umfang des Demonstrationsteils werden von den
Befragten generell zwei oder mehr Anwendungsbeispiele gewünscht.
Das Feld Kontext führt den jeweiligen Haupteintrag im Satzkontext an. Um einen
aktuellen und authentischen Sprachgebrauch abzubilden, wird aus Korpora bzw.
Internetquellen extrahierten Textbelegen der Vorzug gegenüber made up
examples gegeben.
Da die entworfene Kollokationsdatenbank vornehmlich der Textproduktion dient
und in beiden Sprachrichtungen nutzbar ist, ist sowohl zum deutschen als auch
zum englischen Haupteintrag ein ausführlicher Demonstrationsteil anzuführen.
Das Datenfeld Kontext ist so angelegt, dass hier mehrere Satzkontexte
eingetragen werden können, über den Scrollbalken am rechten Feldrand ist der
jeweilige Text einsehbar. Die Angaben zur Quelle des Kontextes werden
wiederum direkt den Beispielen nachfolgend angeführt. Bei den Angaben handelt
es sich häufig um Internetquellen, die vollständig und nicht als Kürzel in einem
Quellenfeld aufgeführt werden, so dass der Benutzer aus der Datenbank heraus
über Copy and Paste direkt zur entsprechenden URL navigieren kann. Wurde ein
Textbeleg für die Aufnahme in der Datenbank abgeändert, z.B. durch Kürzen
oder Tilgung von Eigennamen, so wird dies durch ein der Quellenangabe
vorangestelltes „nach“ gekennzeichnet.
Synonym: Dieses Datenfeld listet die zum Haupteintrag synonymen
Kollokationen, wie z.B. Geschirr spülen/abspülen/abwaschen, Kaffee
kochen/machen, a problem arises/comes up etc. Den Synonymen kommt jeweils
ein eigener zweisprachiger Eintrag zu.
Anmerkung: Das Feld Anmerkung ist als Mehrzweckfeld konzipiert. Hier finden
sich vor allem ergänzende Angaben zum Gebrauch der jeweiligen Kollokation.
In einem für die Textproduktion konzipierten Kollokationswörterbuch sollten
beispielsweise Informationen zu regionalen Variationen, spezifischen
Gebrauchskontexten und -restriktionen oder semantischen Besonderheiten
verfügbar sein. Die im Feld Anmerkung gelisteten Usage Notes können auch auf
eventuelle Bedeutungs- oder Gebrauchsunterschiede der deutschen und
englischen Wortkombination hinweisen. Auch wenn es sich bei einer der beiden
Wortkombinationen um keine Kollokation, sondern um eine freie Verbindung
handelt (siehe oben), sollte hier ein entsprechender Kommentar angeführt
werden. Das Feld Anmerkungen dient zudem der Angabe von alternativen
Schreibweisen des Haupteintrags, Unterschieden in der Verwendung von
Haupteintrag und Synonym etc.
Querverweis: Hier wird bei Bedarf auf andere Datenbankeinträge verwiesen,
beispielsweise kann im Bereich fachsprachlicher Kollokationen die Konsultation
eines anderen (fachsprachlichen) Eintrags sinnvoll für das Verständnis oder den
korrekten Gebrauch der jeweiligen Kollokation sein.
Nachfolgend wird exemplarisch ein mit Sprachdaten befüllter Eintrag abgebildet:
Abb. 5-1: Ein exemplarischer Datenbankeintrag
Die Sprachdaten eines Eintrags können von den Administratoren und ggf. von
weiteren registrierten Nutzern verändert werden, die entsprechenden Änderungen
werden nach dem Anklicken der Schaltfläche Aktualisieren wirksam. Durch
einen Klick auf die rechte untere Schaltfläche, die mit einem Kreuz versehen ist,
wird der entsprechende Datenbankeintrag gelöscht.
6
Die Suchoptionen
Die entworfene Kollokationsdatenbank bietet zwei Suchmodi an: zum einen die
Suche in den Haupteinträgen und zum anderen eine Volltextsuche.
Bei der Volltextsuche werden alle Datenbankfelder nach dem eingegebenen
Suchbegriff durchsucht, somit können z.B. auch Definitionen und Kontexte nach
einem bestimmten Lexem bzw. einer Zeichenfolge durchsucht werden. Die oben
angesprochenen Informationen zu den einzelnen Suchoptionen werden hierbei
neben dem Suchfeld eingeblendet:
Abb. 6-1: Suchfeld für die Volltextsuche
Die SQL-Syntax für die Volltextsuche wurde in folgender Form implementiert:
"SELECT * FROM Unionde WHERE (deutsch_nennform LIKE
'%::suchtext::%') OR (deutsch_basis LIKE '%::suchtext::%') OR
(deutsch_kollokator LIKE '%::suchtext::%') OR (definition_deutsch LIKE
'%::suchtext::%') OR (kontext_deutsch LIKE '%::suchtext::%') OR
(synonym_deutsch LIKE '%::suchtext::%') OR (anmerkung LIKE
'%::suchtext::%') OR (querverweis LIKE '%::suchtext::%') ORDER BY
deutsch_basis, typ_deutsch, deutsch_kollokator ASC"
Nach der Eingabe des Suchbegriffs in das Suchfeld werden im linken Frame alle
Einträge aufgeführt, die das entsprechende Wort als Teil eines beliebigen
Datenfeldes des Eintrags aufweisen. Über ein Anklicken der gewünschten
Wortverbindung aus der Liste wird der jeweilige Datenbankeintrag mit den
einzelnen Datenfeldern aufgerufen und im Hauptframe angezeigt.
Eine Eingabe eines Wortteils bzw. unvollständigen Lexems in das Suchfeld ist
gleichsam möglich. So werden z.B. nach Eingabe der Zeichenfolge Sche
Datensätze, die Wörter wie Scheck, Scheidung, schenken etc. enthalten,
gefunden.
Bei der Suche in den Haupteinträgen werden die Felder Nennform für das
Deutsche und das Englische durchsucht. Wird beispielsweise das Wort Scheck
eingegeben, das in zahlreichen Kollokationen als Basis fungiert, so werden nach
der Eingabe des Suchbegriffs in das Suchfeld und dem Starten der Suche im
linken Frame des Bildschirms alle Einträge aufgeführt, die das entsprechende
Wort als Teil der Nennform aufweisen. Die Sortierung der Einträge erfolgt nach
drei Parametern: Sie basiert zunächst auf dem Basiswort (Eintragsfeld Basis), bei
mehreren Datensätzen zu einem Basislexem wird nach Kollkationstypen (Feld
Typ) und schließlich nach Kollokatoren (Feld Kollokator) alphabetisch
untersortiert. Durch die Kombination der Parameter wird erreicht, dass die
Kollokationen alphabetisch und nach Kollokationstypen geordnet aufgeführt
werden, d.h. zunächst die Kollokationen des Typs I in alphabetischer Folge, dann
die des Typs II etc.
Es wurde eine SQL-Abfrage implementiert, die alle Einträge, die als Inhalt des
Datenfeldes Basis die gesuchte Zeichenfolge, hier Scheck, enthalten, nach dem
Inhalt des Feldes Typ und dem des Feldes Kollokator alphabetisch untersortiert.
Der SQL-String nimmt hierbei folgende Form an:
"SELECT * FROM Unionde WHERE (deutsch_nennform LIKE
'%::suchtext::%')
ORDER BY deutsch_basis, typ_deutsch, deutsch_kollokator ASC"
ASC steht hierbei für Ascending, also aufsteigende Sortierung, Unionde
bezeichnet eine UNION-Abfrage und das Prozentzeichen steht für Links- und
Rechts-Trunkierung.
Es handelt sich um eine Suche in einer SQL-UNION-Abfrage, die Teil der
Access-Datenbank ist, d.h. die deutschen und englischen Felder jedes Eintrags
werden in eine neue Tabelle geschrieben, die wiederum die Grundlage der Suche
bildet. Im oben angeführten Suchstring wird lediglich das Feld
deutsch_nennform aufgeführt, die englische Nennform ist dennoch in
eigenständigen Datensätzen enthalten; deutsch_nennform ist lediglich die
Bezeichnung des Datenbank-Feldes, ähnlich einer Spaltenüberschrift in einer
Word-Tabelle.
Die eigentliche UNION-Abfrage lautet (ebenfalls in SQL):
"SELECT dict.id, dict.deutsch_nennform, dict.deutsch_basis,
dict.deutsch_kollokator, dict.definition_deutsch, dict.kontext_deutsch,
dict.synonym_deutsch, dict.anmerkung, dict.querverweis, dict.typ_deutsch
FROM dict; UNION SELECT dict.id, dict.englisch_nennform,
dict.englisch_basis, dict.englisch_kollokator, dict.definition_englisch,
dict.kontext_englisch, dict.synonym_englisch, dict.anmerkung, dict.querverweis,
dict.typ_englisch FROM dict;"
Die Suche im Feld Nennform erlaubt, wie oben angesprochen, die kombinierte
Eingabe von Basis und Kollokator. So führt z.B. die Eingabe von „Scheck
einlösen“, „bitter enttäuscht“ oder „sparse hair“ direkt zu den entsprechenden
Einträgen. Entscheidend für die Auffindbarkeit der Einträge ist, dass die Eingabe
in das Suchfeld sich mit der Zeichenfolge bzw. einem zusammenhängenden
Ausschnitt der Zeichenfolge im Feld Nennform deckt. Die ausgearbeitete
Datenbank wird von deutschen Benutzern vornehmlich in der Sprachrichtung
deutsch-englisch durchsucht, da sich die maßgebliche Schwierigkeit im
kollokativen Sprachgebrauch mit der fremdsprachlichen Textproduktion bzw. der
Übersetzung in die Fremdsprache verbindet. Im Deutschen stehen Basis und
Kollokator in der Nennform zumeist unmittelbar nebeneinander, so dass die
Eingabe der Kollokation in das Suchfeld in der Regel mit der Zeichenfolge oder
einem Teil der Zeichenfolge im Feld Nennform kongruiert und die betreffende
Kollokation so problemlos aufgesucht werden kann.
Im Englischen allerdings stehen zwischen der Basis und dem Kollokator mitunter
Platzhalter für Objekte oder Reflexivpronomen (siehe oben, z.B. to have sth. at
one’s disposal, to seal sb.’s doom). Hier kann jedoch der Benutzer auf die
Nennform schließen, indem er die in den Nennformen einheitlich verwendeten
Zeichenfolgen für Objekte (sth., sb., sb.’s), für Reflexivpronomen (one’s) oder
für (fakultative) Artikel ((a)) bei der Eingabe ergänzt. Die entsprechenden
Informationen zur Eingabe der Nennform finden sich auch in den
Benutzungshinweisen zur Datenbank. Falls dennoch Unklarheit über die
eingetragene Zeichenfolge einer Nennform besteht, so kann der Benutzer
weiterhin einen Mitspieler der Kollokation eingeben und erhält die Liste aller
Haupteinträge/Nennformen, die diesen Mitspieler aufweisen. Aus dieser
alphabetischen Liste wird dann der gewünschte Eintrag ausgewählt (siehe oben).
Neben den implementierten Suchfunktionen können auch alphabetisch geordnete
Listen aller deutschen und aller englischen Kollokationen (Haupteinträge/Nennformen) aufgerufen werden. Die Sortierung ist hierbei erneut eine dreifache, sie
basiert auf dem Basiswort (Eintragsfeld Basis), auf dem Kollokator (Feld
Kollokator) und dem Kollokationstyp (Feld Typ). Die Kollokationen werden
somit - wie oben dargelegt - alphabetisch und nach Kollokationstypen geordnet
aufgeführt. Die Syntax für die entsprechende SQL-Abfrage für die Liste
deutscher Kollokationen ist folgende:
"SELECT * FROM dict
ORDER BY deutsch_basis, typ_deutsch, deutsch_kollokator ASC"
Hierbei ist dict der Name der Access-Tabelle, der Asteriskus steht für alles, d.h.
für alle Felder, in ASP wird nach Ausführung der SQL-Abfrage hierbei
allerdings lediglich die Nennform (dreifach sortiert) in dem im Browser
angezeigten HTML-Dokument aufgeführt.
Die Einträge der alphabetischen Listen werden jeweils in der Form der Nennform
(Inhalt des Feldes Nennform) aufgeführt. Für die alphabetische Sortierung sind
somit die Felder Basis, Kollokator und Typ (s.o.) relevant, die Einträge in der
Liste referieren hingegen auf das Feld Nennform, um dem Benutzer jeweils die
Kollokation in der korrekten Abfolge von Basis und Kollokator, ergänzt durch
entsprechende Objekte, Artikel oder Platzhalter für Objekte anzuzeigen.
Abb. 6-2: Die alphabetisch sortierte Liste aller verzeichneten Einträge (deutsch)
Erneut lässt sich über das Anklicken einer gewünschten Wortverbindung aus der
Liste der entsprechende Datenbankeintrag aufrufen.
Enthält die Datenbank zahlreiche Einträge, so werden zusätzliche Schaltflächen
in Form von Buchstabenfeldern implementiert, über die die alphabetisch sortierte
Liste aller Einträge, jeweils beginnend mit dem angewählten Buchstaben
aufgerufen wird. Dies ist einem Daumenregister (Thumb Index) bei
Printwörterbüchern vergleichbar:
Abb. 6-3: Die Implementierung von Schaltflächen zur Buchstabenwahl
7
Kontextualisierung und Erweiterbarkeit der Oberfläche
Die zweisprachige Kollokationsdatenbank wird, wie oben beschrieben,
einschließlich aller Web-Dateien per ftp (File Transfer Protocol) auf einen Server
hochgeladen und ist dann über das Aufrufen der URL verfügbar. Der Zugriff auf
die Daten ist zunächst beschränkt, da auf einer vorgeschalteten Seite ein
Benutzername und ein zugehöriges Passwort eingegeben werden müssen.
Die Datenbank wurde auf ein Unterverzeichnis der Domain www.lighthouseunlimited.de gestellt. Die wissenschaftliche Redaktion Lighthouse Unlimited
(Joachim Kornelius, Anja Holderbaum) publiziert in Zusammenarbeit mit dem
WVT Wissenschaftlicher Verlag Trier an der Englischen Abteilung des Instituts
für Übersetzen und Dolmetschen der Universität Heidelberg verfasste
Diplomarbeiten als elektronische Bücher. Die Publikationen werden mit einer
regulären ISBN-Nummer versehen und auf CD-ROM vertrieben. Sie liegen als
PDF-Dateien mit einer ausgearbeiteten Hyperlinkstruktur vor. Über einen
implementierten E-Shop lassen sich das Angebot an wissenschaftlichen
Publikationen sowie die Klappentexte und die Inhaltsverzeichnisse zu den
einzelnen elektronischen Büchern aufrufen.
Abb. 7-1: Anzeige des Klappentextes und Inhaltsverzeichnisses einer in der
Reihe Lighthouse Unlimited erschienenen Publikation
Der E-Shop ermöglicht
Bestellvorgang.
einen
einfachen
und
benutzerfreundlichen
Abb. 7-2: Der Online-Shop der Publikationsreihe Lighthouse Unlimited
Die entworfene Kollokationsdatenbank auf der Oberfläche Lighthouse Unlimited
ist somit in einen Kontext eingebettet, in dem weitere Referenzwerke zur Sprachund Fachdatenrecherche aus den unterschiedlichsten übersetzungsbezogenen
Themenbereichen verfügbar sind.
Neben der Kollokationsdatenbank als Nachschlagewerk für affine
Wortkombinationen
ist
auch
eine
Integration
fachsprachlicher
Kollokationstrainer oder E-Learning-Module denkbar. Diese können als CDRom-Version ausgearbeitet vorliegen, jedoch auch unter eine Domain auf einen
Server hochgeladen werden und als Downloads verfügbar sein. Vom
Eingangsbildschirm des Kollokationswörterbuchs lassen sich Hyperlinks zu den
einzelnen fachsprachlichen Kollokationstrainern setzen. Insgesamt bietet eine
Internetplattform vielfältige Möglichkeiten, ein umfassendes Angebot an
Nachschlagewerken und Tools für den Ausbau der kollokativen (fremd)sprachlichen Kompetenz zu realisieren.
8
Ausblick
Vorliegende Arbeit stellte eine in MS Access entwickelte Kollokationsdatenbank
vor, auf die über eine Internetplattform zugegriffen werden kann. Ein Vorteil
dieses webbasierten Referenzwerkes liegt darin, dass der Datenbestand
kontinuierlich weiter ausgebaut und gepflegt werden kann. Somit kann auch der
Kollokationsbestand verschiedener Fachgebiete kurz- bzw. mittelfristig
zweisprachig aufbereitet Sprachmittlern zur Verfügung gestellt werden. Die
Ergänzung der Daten kann von den Lexikografen bzw. Administratoren dezentral
von jedem Computer mit Internetanbindung aus vorgenommen werden, es
generiert sich eine Anwendung, die zu einem sehr umfassenden zweisprachigen
Referenzwerk für den kollokativen Sprachgebrauch ausgebaut werden kann. Die
Oberfläche der Datenbank ist auf die Informationsbedürfnisse von
Sprachmittlern hin ausgelegt. Neben den zielsprachlichen Äquivalenten ist
hierbei insbesondere ein ausführlicher Demonstrationsteil notwendig für die
fremdsprachliche Textproduktion. SQL-Abfragen erlauben eine Volltextsuche,
eine Suche in den Haupteinträgen sowie die Anzeige alphabetisch und nach
Kollokationstypen sortierter Listen aller eingetragenen deutschen und englischen
Wortkombinationen. Ein zweisprachiges elektronisches Referenzwerk wie die
ausgearbeitete Datenbank kann die defizitäre Hilfsmittelsituation im Bereich des
kollokativen Sprachgebrauchs maßgeblich entschärfen.
9
Literatur
9.1
Darstellungen und Wörterbücher
Bahns, J. 1994. „Die Berücksichtigung von Kollokationen in den drei großen
Lernerwörterbüchern des Englischen“, in Fremdsprachen lehren und lernen
23, 84-101.
Benson, E., Benson, M. u. Ilson, R. 1997 The BBI Dictionary of English Word
Combinations. (Erste Ausgabe 1986 The BBI Combinatory Dictionary of
English: A Guide to Word Combinations). Amsterdam/Philadelphia.
dies. 1989 (rev. Ed., 2. Aufl. 2002). Student’s Dictionary of Collocations. Berlin.
Collins Cobuild English Collocations on CD-Rom. 1995. London
Hausmann, F. J. 1979. „Un dictionnaire des collocations est-il possible?“, in
Travaux de Linguistique et de Littérature 17, 187-195.
ders. 1984. „Wortschatzlernen ist Kollokationslernen. Zum Lehren und Lernen
französischer Wortverbindungen“, in Praxis des neusprachlichen Unterrichts
31, 395-406.
ders. 1989. „Le dictionnaire de collocations“, in Wörterbücher Dictionaries
Dictionnaires. Ein internationales Handbuch zur Lexikographie. Vol. 1.
(Handbücher zur Sprach- und Kommunikationswissenschaft 5.1.). Berlin,
New York, 1010-1017.
Holderbaum, A. 1999a. Englische Idiomatiken als Gegenstand einer empirischen
Übersetzungsforschung. Trier.
dies. u. Kornelius, J. 2001. „Kollokationen als Problemgrößen der
Sprachmittlung”, in A. Lehr et al. (Hg.), Sprache im Alltag. Beiträge zu
neuen Perspektiven in der Linguistik. Herbert Ernst Wiegand zum 65.
Geburtstag gewidmet. Berlin, New York, 533-545.
dies. 2003. Kollokationen als Problemgrößen der Sprachmittlung. Trier.
Hornby, A. S. 1989 (5. Aufl. 1995, J. Crowther (Hg.)) Oxford Advanced
Learner’s Dictionary of Current English. Oxford et al.
Kornelius, J. 1995a. „Vom Printwörterbuch zum elektronischen
Kollokationswörterbuch. Theoretische, methodische und praktische
Überlegungen zur Erstellung eines Kollokationswörterbuchs“, in
Lexicographica. International Annual for Lexicography 11, 153-171.
ders. 1995b. „Was beim Übersetzen an der Hochschule geschehen sollte“, in
anglistik & englischunterricht Bd. 55/56 Themenband: Realities of Translating. Heidelberg, 45-71.
Sinclair, J. et al. (Hg.) 1987. Collins Cobuild English Language Dictionary. London.
Summers, D. et al. (Hg.) 1987 (neu bearb. Ausg.). Longman Dictionary of Contemporary English. Berlin, München.
9.2
Internetseiten
http://www.wortschatz.uni-leipzig.de/,
http://titania.cobuild.collins.co.uk/form. html# democoll
www.lighthouse-unlimited.de