Tipps & Tricks: Februar 2010 Bereich: SQL, PL/SQL Erstellung: 02/2010 EF Versionsinfo: 10g, 11g, XE Letzte Überarbeitung: 02/2010 EF Oracle Text I Einführung Seit der Version 7 bietet Oracle die Möglichkeit der Volltextsuche. Die frühen Optionen mußten noch separat installiert werden und in der Oracle -Version 8i war die Textsuche in das kostenpflichtige Zusatzmodul interMedia integriert. Seit Version 9i ist Oracle Text jedoch fester Bestandteil der Datenbank, auch in der Express Edition. Das kann man leicht nachprüfen, indem man nach dem User ctxsys sucht: conn scott/tiger SELECT * FROM all_users WHERE username = 'CTXSYS'; => USERNAME USER_ID CREATED ------------------------------ ---------- -------CTXSYS 25 07.02.06 Die Basisfunktionalitäten kann man ohne zusätzliche Rechte nutzen, für die Anpassung der Sucheinstellungen braucht man jedoch mindestens das Execute-Recht an dem wichtigsten Package des Schemas ctxsys: ctx_ddl oder die Rolle ctxapp. conn / AS sysdba GRANT EXECUTE ON ctx_ddl TO scott; oder GRANT ctxapp TO scott; Wie funktioniert Oracle Text ? 1.Die Dokumente werden in einen so genannten Datastore eingelesen. Die zu indizierenden Texte können dabei entweder in CLOB-, VARCHAR2- oder XMLTYPE-Spalten einer Tabelle in der Datenbank liegen (direct_datastore), im Filesystem des Datenbankservers (file_datastore) oder im Inter- bzw. Intranet (url_datastore). Es besteht sogar die Möglichkeit, die Texte über eine selbst definierte Prozedur direkt vor der Indizierung zusammenzustellen (user_datastore). 2.Im 2. Schritt werden die Objekte im Bedarfsfall gefiltert. Das ist nur dann nötig, wenn es sich um binäre Files, wie Word-Dokumente oder PDF-Dateien handelt. Text-, HTML- und XML-Dateien müssen nicht gefiltert werden. Oracle erkennt über 150 Formate automatisch. 3.Der Sectioner kann HTML- oder XML-Dokumente anhand von Tags (z.B. <H1> ...</H1> in HTML oder <Produktbeschreibung> .... </Produktbeschreibung> in XML) in einzelne Abschnitte aufteilen. 4.Der Lexer extrahiert alle relevanten Wörter aus dem Text. Interpunktions- und Sonderzeichen werden entfernt. Bei diesem Schritt kann man u.a. einstellen, was als Trennzeichen gewertet bzw. ignoriert werden soll (Leerzeichen, Unterstriche etc.) ob Groß- und Kleinschreibung beibehalten werden soll, ob zusammengesetzte Worte in ihre Einzelteile zerlegt werden sollen, etc. Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 1 von 11 5.Beim Indizierungsprozeß wird aus den gesammelten Wörtern ein invertierter Index erzeugt. Jedem Wort wird dabei eine Liste seiner Fundstellen zugeordnet. Artikel, Konjunktionen, Präpositionen und Hilfsverben etc., bei Oracle Text Stopwörter genannt, werden nicht indiziert. Die Einstellungen der sog. wordlist legen fest, welche grammatikalischen Regeln verwendet werden sollen, damit bei der Textsuche auch Beugungsformen des gesuchten Verbs oder Wörter mit ähnlichem Stamm erkannt werden. In diesem Monatstipp sollen zunächst die grundlegenden Funktionen der Volltextsuche am Beispiel eines Context-Indexes auf einer Text-Spalte erklärt werden. Die Beispiel-Tabelle, eine Sammlung von Sprichwörtern (mit diversen Schreibfehlern und kleinen Abwandlungen) können Sie hier als SQL-File herunterladen. Volltextsuche in Textspalten Wir erstellen die Tabelle und erzeugen erstmal einen Index ohne zusätzliche Parameter: @ d:\sprichwoerter CREATE INDEX sprueche_idx ON sprichwoerter(text) INDEXTYPE IS ctxsys.context; Die Suche in einem Context-Index wird über das Schlüsselwort CONTAINS durchgeführt: SELECT spaltenliste FROM tabelle WHERE CONTAINS(index_spalte, '<suchbegriff>')>0; Die wichtigsten Suchmöglichkeiten: 1. Einfache Suche nach Wörtern, z.B.: SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Abend') > 0; => NUMMER TEXT ------ ------------------------------------------50 Es ist noch nicht aller Tage Abend 89 Man soll den Tag nicht vor dem Abend loben 2. Suche nach Wort-Kombinationen oder -Alternativen mit den Booleschen Operatoren "AND" und "OR": SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Gold AND Silber') > 0; => NUMMER TEXT ------ ---------------------------------------103 Reden ist Silber, Schweigen ist Gold SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Abend OR Morgen') > 0; => NUMMER TEXT ------ --------------------------------------------------------50 Es ist noch nicht aller Tage Abend 89 Man soll den Tag nicht vor dem Abend loben 92 Morgen, morgen, nur nicht heute, sagen alle faulen Leute Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 2 von 11 3. Suche nach ähnlich geschriebenen Wörtern: Wenn man den Operator "?" vor das gesuchte Wort stellt, kann man auch Wörter mit Rechtschreibfehlern oder Buchstabendrehern finden: SELECT * FROM sprichwoerter WHERE CONTAINS(text, '?Länder') > 0; => NUMMER TEXT ------ -----------------------------8 Andere Lender, andere Sitten. Dann bekommt man aber leicht unerwünschte Ergebnisse - wie hier Messer statt Meister. SELECT * FROM sprichwoerter WHERE CONTAINS(text, '?Meister') > 0; => NUMMER TEXT ------ -----------------------------------------------------------45 Einmal findet jeder seinen Meister. 49 Es ist noch kein Meitser vom Himmel gefallen, aber vom Gerüst. 90 Messer, Gabel, Scher' und Licht sind für kleine Kinder nicht. 113 Übung macht den Meister Um die Möglichkeiten einzugrenzen, kann man das Schlüsselwort Fuzzy einsetzen, z.B.: SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'FUZZY(Meister, 70, 5, N)') > 0; => NUMMER TEXT ------ --------------------------------------------------------45 Einmal findet jeder seinen Meister. 49 Es ist noch kein Meitser vom Himmel gefallen, aber vom Gerüst. 113 Übung macht den Meister Der 1. Parameter bestimmt die Ähnlichkeit (minimal = 1, identisch = 80, default = 60). Daraus resultiert eine Liste ähnlicher Worte (hier Meister, Meitser und Messer). Mit diesen Wörtern wird dann eine oder-Suche durchgeführt. Der 2. Parameter bestimmt die maximale Anzahl der Wörter dieser Liste (1- 5000, default = 100). Der 3. Parameter wirkt sich nur auf die Relevanzgewichtung (s.u. Score) aus. 4. Suche mit Wildcards: "%" für kein oder beliebig viele Zeichen und "_" für genau 1 Zeichen: SELECT * FROM sprichwoerter WHERE CONTAINS(text, '_elbst%') > 0; => NUMMER TEXT ------ ----------------------------------------------------109 Selbst ist der Mann! 110 Selbsterkenntnis ist der erste Weg zur Besserung. Eigentlich erwartet man hier auch Ergebnisse, die das Wort "selbst" enthalten. Das wird aber als Stopwort behandelt und nicht indiziert. 5. Suche nach ähnlich klingenden Wörtern (Soundex-Funktion) mit dem Operator "!": Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 3 von 11 Da die Soundex-Funktion auf englische Phonetik ausgerichtet ist, kann man dabei aber durchaus Überraschungen erleben (wie die zum Hasen mutierte Katze im Beispiel). SELECT * FROM sprichwoerter WHERE CONTAINS(text, '!Kaze') > 0; => NUMMER TEXT ------ --------------------------------------------------------------19 Da liegt der Hase im Pfeffer. 28 Die Katze lässt das Mausen nicht. 87 Lügen haben kurze Beine 129 Wenn die Katze aus dem Haus ist, tanzen die Mäuse auf dem Tisch. 6. Suche nach Ausdrücken, die denselben Wortstamm haben wie das Suchwort oder mit dem Suchwort zusammengesetzte Worte bilden, mit dem Operator "$": SELECT * FROM sprichwoerter WHERE CONTAINS(text, '$helfen') > 0; => NUMMER TEXT ------ ------------------------------------------------31 Dumm bleibt dumm, da helfen keine Pillen! 66 Hilf dir selbst, so hilft dir Gott! oder SELECT * FROM sprichwoerter WHERE CONTAINS(text, '$Porzellan') > 0; => NUMMER TEXT ------ --------------------------------------------120 Vorsicht ist die Mutter der Porzellankiste. Unterschiede zwischen Standard-/Enterprise- und Express-Edition Die obigen Beispiele wurden auf einer 11g-Oracle-Datenbank getestet. Wer die gleichen Selects auf einer XE-DB ausführt, erlebt zunächst einmal eine Überraschung, weil z.B. nicht nach Groß- und Kleinschreibung unterschieden wird und die Suche nach den Wortstämmen nicht funktioniert, dafür aber die Suche nach Artikeln und ähnlichen "nutzlosen" Wörtern. Welche Wörter indiziert wurden, kann man über folgende Abfrage herausfinden: SELECT token_text FROM dr$sprueche_idx$i; Hier zeigen sich deutliche Unterschiede: -- 10g Express Edition: TOKEN_TEXT ----------18 ABEND ABER ALLE ALLEIN Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 4 von 11 ALLER ALLES ALS .... 482 Zeilen ausgewählt. -- 11g und 10g-Enterprise Edition: TOKEN_TEXT -------------18 A Abend Aller Alles Alte Alter Andere Anfang ... 489 Zeilen ausgewählt. Die Unterschiede bei der Indizierung werden verständlich, wenn man sich die voreingestellten Parameter der Volltextsuche ansieht (Falls Oracle Ultrasearch installiert ist, taucht bei der folgenden Abfrage auch der User WKSYS auf, deshalb wurde hier auf ctxsys eingeschränkt.): SELECT * FROM ctx_preference_values WHERE prv_owner = 'CTXSYS'; Oracle-XE: PRV_OWNER PRV_PREFERENCE PRV_ATTRIBUTE PRV_VALUE ---------- ------------------- ---------------------------------------------------CTXSYS DEFAULT_STORAGE R_TABLE_CLAUSE lob (data) store AS (cache) CTXSYS DEFAULT_STORAGE I_INDEX_CLAUSE compress 2 CTXSYS DEFAULT_WORDLIST STEMMER ENGLISH CTXSYS DEFAULT_WORDLIST FUZZY_MATCH GENERIC CTXSYS URL_DATASTORE TIMEOUT 30 CTXSYS URL_DATASTORE MAXTHREADS 8 CTXSYS URL_DATASTORE URLSIZE 256 CTXSYS URL_DATASTORE MAXURLS 256 CTXSYS URL_DATASTORE MAXDOCSIZE 2097152 Enterprise-Edition: PRV_OWNER PRV_PREFERENCE PRV_ATTRIBUTE PRV_VALUE ---------- ------------------- ---------------------------------------------------CTXSYS DEFAULT_WORDLIST STEMMER GERMAN CTXSYS DEFAULT_WORDLIST FUZZY_MATCH GERMAN CTXSYS URL_DATASTORE TIMEOUT 30 CTXSYS URL_DATASTORE MAXTHREADS 8 CTXSYS URL_DATASTORE URLSIZE 256 CTXSYS URL_DATASTORE MAXURLS 256 CTXSYS URL_DATASTORE MAXDOCSIZE 2097152 CTXSYS DEFAULT_LEXER COMPOSITE GERMAN CTXSYS DEFAULT_LEXER MIXED_CASE YES Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 5 von 11 CTXSYS CTXSYS CTXSYS DEFAULT_LEXER DEFAULT_STORAGE DEFAULT_STORAGE ALTERNATE_SPELLING R_TABLE_CLAUSE I_INDEX_CLAUSE GERMAN lob (data) store AS (cache) compress 2 Erklärungen: STEMMER: legt die Grammatik für Stamm- und Beugungsformen fest. Die Voreinstellung GERMAN führt dazu, dass z.B. die Suche nach $laufen auch Formen wie lief, gelaufen, läuft, etc. liefert. FUZZY_MATCH: bestimmt, nach welcher Routine ähnlich geschriebene Wörter gesucht werden (hier sind allerdings nicht allzu viele Unterschiede zwischen GERMAN und GENERIC festzustellen) Die Einstellung COMPOSITE = GERMAN im deutschen Lexer ermöglicht die Zerlegung eines Wortes im Index in seine Bestandteile (Neben Porzellankiste wird im Index auch Porzellan und Kiste gespeichert). MIXED_CASE = YES bedeutet, dass Groß- und Kleinschreibung unterschieden wird. ALTERNATE_SPELLING = GERMAN bewirkt, dass Wörter in alternativen Schreibweisen im Index gespeichert werden, also z.B. Töchter als Toechter und bisschen als bißchen. Ein weiterer Unterschied zeigt sich bei den oben erwähnten Stopwörtern, die von Oracle Text nicht indiziert werden, weil sie in jedem Text vorkommen, wie z.B. Artikel, Konjunktionen und Präpositionen. Diese Listen kann man einsehen: SELECT * FROM ctx_stoplists WHERE spl_owner = 'CTXSYS'; => -- 10g und 11g-Enterprise-Edition SPL_OWNER SPL_NAME SPL_COUNT SPL_TYPE ---------- -------------------- ---------- --------------CTXSYS EMPTY_STOPLIST 0 BASIC_STOPLIST CTXSYS EXTENDED_STOPLIST 0 BASIC_STOPLIST CTXSYS DEFAULT_STOPLIST 235 BASIC_STOPLIST -- deutsche Stopwörter -- Express-Edition SPL_OWNER SPL_NAME SPL_COUNT SPL_TYPE ---------- -------------------- ---------- --------------------CTXSYS EMPTY_STOPLIST 0 BASIC_STOPLIST CTXSYS DEFAULT_STOPLIST 114 BASIC_STOPLIST -- englische Stopwörter CTXSYS EXTENDED_STOPLIST 0 BASIC_STOPLIST Die darin enthaltenen Wörter erhält man über: SELECT spw_word FROM ctx_stopwords WHERE spw_stoplist = 'DEFAULT_STOPLIST'; Nachrüsten der sprachspezifischen Einstellungen in der Express-Edition Bei der Installation der Express-Edition wird Oracle Text mit den amerikanischen Einstellungen vorkonfiguriert. Die Konfiguration kann man jedoch leicht über das Skript drdefd.sql im Ordner <Oracle-Home>\ctx\admin\defaults ändern (ein Blick in dieses Skript lohnt sich). Wenn die Einstellungen für alle User gelten sollen, nimmt man diese Änderungen am besten direkt im ctxsys-Schema vor. Dies muss man zuerst freischalten: CONN / AS sysdba ALTER USER ctxsys IDENTIFIED BY text ACCOUNT UNLOCK; CONN ctxsys/text Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 6 von 11 Die alten Einstellungen werden über Bord geworfen: BEGIN ctx_ddl.drop_preference('DEFAULT_LEXER'); ctx_ddl.drop_preference('DEFAULT_WORDLIST'); ctx_ddl.drop_stoplist('DEFAULT_STOPLIST'); ctx_ddl.drop_policy('DEFAULT_POLICY_ORACONTAINS'); END; / und die neuen eingespielt: @ =>\ctx\admin\defaults\drdefd.sql Jetzt muss man noch den Index an die neuen Einstellungen anpassen. Das geht entweder über einen Alter Index Befehl: conn scott/tiger ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE wordlist ctxsys.default_wordlist stoplist ctxsys.default_stoplist lexer ctxsys.default_lexer'); oder über Löschen und Neuerstellen des Indexes: DROP INDEX sprueche_idx; CREATE INDEX sprueche_idx ON sprichwoerter (text) INDEXTYPE IS ctxsys.context PARAMETERS('wordlist ctxsys.default_wordlist stoplist ctxsys.default_stoplist lexer ctxsys.default_lexer'); Die neuen Einstellungen kann man über die Views CTX_STOPLISTS und CTX_PREFERENCE_VALUES überprüfen. Anpassungen der Sprach-Einstellungen Die Einstellungen von wordlist, stoplist und lexer kann man nachträglich noch anpassen. Wenn man z.B. die Case-Sensitivity abschalten will, kann man sich über die Prozedur CTX_DDL.CREATE_PREFERENCE auf der Basis des default-Lexers einen eigenen Lexer erzeugen, dessen Attribute man selber setzen kann. Leider genügt es nicht, hier nur diesen einen Parameter anzupassen, dann gehen nämlich die deutschen Einstellungen für ALTERNATE_SPELLING und COMPOSITE verloren. Wenn man Text indizieren will, der Wörter mit Sonderzeichen enthält, möchte man nicht, dass diese Sonderzeichen als Trennzeichen gewertet werden. Dies kann man mit dem Attribut PRINTJOINS erreichen. Im Beispiel unten werden Unterstrich, Dollarzeichen, Raute und das Apostroph (das wie üblich mit einem zusätzlichen Apostroph maskiert werden muss) als Bestandteile von Wörtern festgelegt. Zudem kann man über das Attribut NEW_GERMAN_SPELLING bewirken, dass sowohl die alten und die neuen Formen (z.B. rauh / rau, Stengel / Stängel) im Index abgespeichert und bei der Suche gefunden werden. BEGIN -- Preference löschen, falls schon vorhanden -- ctx_ddl.drop_preference('scott_insensitive'); ctx_ddl.create_preference( preference_name => 'scott_insensitive', -- Name der neuen Einstellung Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 7 von 11 object_name => 'basic_lexer'); -- basiert auf dem basic_lexer ctx_ddl.set_attribute( preference_name => 'scott_insensitive', attribute_name => 'mixed_case', attribute_value => 'no'); -- default ist yes ctx_ddl.set_attribute('scott_insensitive','composite', 'german'); ctx_ddl.set_attribute('scott_insensitive','alternate_spelling', 'german'); ctx_ddl.set_attribute('scott_insensitive','printjoins', '_$#-'''); ctx_ddl.set_attribute('scott_insensitive','new_german_spelling','yes'); END; / Anpassen des Indexes: ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE LEXER scott_insensitive'); Vorsicht, Falle! Da im neuen Lexer Bindestriche als Bestandteile von Wörtern gewertet werden, sollte die folgende Abfrage eigentlich ein Ergebnis zurückliefern: SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Oracle-Experte') > 0; => Es wurden keine Zeilen ausgewählt Der Bindestrich wird jedoch in der Abfrage-Syntax als Minus-Zeichen ausgewertet. Ähnliche Probleme gibt es z. B. mit dem $-Zeichen. Wenn man nach Wörtern mit diesen Zeichen sucht, muss man sie maskieren, indem man entweder einen Schrägstrich vor das Zeichen stellt oder das ganze Suchwort in geschweifte Klammern stellt: SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Oracle\-Experte') > 0; => NUMMER TEXT ------ ------------------------------------------------------54 Früh übt sich, was ein Oracle-Experte werden will. oder SELECT * FROM sprichwoerter WHERE CONTAINS(text, '{18-Karat-Gold}') > 0; => NUMMER TEXT ------ --------------------------------------------48 Es ist nicht alles 18-Karat-Gold, was glänzt Anpassen der Stopwort-Liste Hier gibt es mehrere Möglichkeiten. Änderungen der default-Liste mit den Prozeduren ADD_STOPWORD und REMOVE_STOPWORD: conn ctxsys/text exec ctx_ddl.add_stopword('default_stoplist', 'wird'); Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 8 von 11 exec ctx_ddl.remove_stopword('default_stoplist', 'selbst'); Danach muss man den Index im Schema Scott anpassen: conn scott/tiger ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE STOPLIST ctxsys.default_stoplist'); direkte Anpassung des Index (nur Hinzufügen möglich): conn scott/tiger ALTER INDEX sprueche_idx REBUILD PARAMETERS ('ADD STOPWORD wird'); Anlegen einer eigenen Stopwortliste: conn scott/tiger BEGIN ctx_ddl.create_stoplist('scott_stop'); ctx_ddl.add_stopword('scott_stop', 'A'); ctx_ddl.add_stopword('scott_stop', 'B'); ... END; / Leider gibt es nicht die Möglichkeit, die eigene Stopwortliste auf der Grundlage der default-Liste aufzubauen. Man muss also alle Stopwörter eingeben (am besten per copy and paste aus dem Skript drdefd.sql) und danach den Index mit der neuen Stopwortliste aktualisieren: ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE STOPLIST scott_stop'); Synchronisation und Optimierung des Indexes In früheren Versionen von Oracle Text musste der Index nach DML-Operationen manuell oder über DBMS_JOB bzw. DBMS_SCHEDULER neu aufgebaut werden. Ab Version 10g hat man auch hier mehrere Möglichkeiten. 1. Manuell: INSERT INTO Sprichwoerter VALUES(seq1.nextval, 'Wissen ist Macht, aber nichts wissen macht auch nichts'); SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'wissen') > 0; => kein Treffer exec ctx_ddl.sync_index('sprueche_idx'); SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'wissen') > 0; => Treffer 2. Über einen Job in regelmäßigen Intervallen. Dazu gab es in der Oracle DB Version 9 ein kleines Skript namens drjobdml.sql, dass den Namen des Indexes und das Intervall in Minuten per Austauschvariable übernimmt: set define on DECLARE Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 9 von 11 job NUMBER; BEGIN dbms_job.submit(job, 'ctx_ddl.sync_index(''&indexname'');', interval => 'SYSDATE+&interval/1440'); commit; END; / => Geben Sie einen Wert für indexname ein: sprueche_idx Geben Sie einen Wert für interval ein: 60 Der Index wird nun alle 60 Minuten synchronisiert 3. Automatisch in regelmäßigen Intervallen (das macht das 9i-Skript überflüssig). Diese Option kann man beim Anlegen des Indexes oder nachträglich einrichten. Man braucht dazu das Create Job-Recht: Synchronisation jeden Tag um Mitternacht CREATE INDEX sprueche_idx ON sprichwoerter(text) INDEXTYPE IS CTXSYS.CONTEXT PARAMETERS ('SYNC (EVERY "TRUNC(sysdate)+1/24")'); oder nachträglich (hierbei werden nur die Metadaten des Index verändert, nicht die Struktur): ALTER INDEX sprueche_idx REBUILD PARAMETERS (REPLACE METADATA 'SYNC (EVERY "TRUNC(sysdate)+1/24")'; 4. Automatisch nach jedem Commit (ab Oracle 10g). Dies ist nur dann sinnvoll, wenn selten DML-Aktionen stattfinden, weil der Index sonst unnötig fragmentiert: CREATE INDEX sprueche_idx ON sprichwoerter(text) INDEXTYPE IS ctxsys.context PARAMETERS ('SYNC (ON COMMIT)'); bzw.: ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE METADATA SYNC (ON COMMIT)'); 5. Automatisch nach jeder Transaktion (ab Oracle 10g). Damit werden Änderungen in den Texten sofort registriert (in der Tabelle dr$unindexed im Schema ctxsys), die Synchronisation muss aber zusätzlich erfolgen, damit die Abfrageperformance mit wachsender Größe dieser Tabelle nicht in den Keller geht: CREATE INDEX sprueche_idx ON sprichwoerter(text) INDEXTYPE IS ctxsys.context PARAMETERS ('TRANSACTIONAL'); oder ALTER INDEX sprueche_idx REBUILD PARAMETERS ('REPLACE METADATA TRANSACTIONAL'); Beispiel: Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 10 von 11 INSERT INTO Sprichwoerter VALUES(seq1.nextval, 'Besser ein Ende mit Schrecken, als ein Schrecken ohne Ende.'); SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Schrecken') > 0; => Treffer ROLLBACK; SELECT * FROM sprichwoerter WHERE CONTAINS(text, 'Schrecken') > 0; => kein Treffer Eine Optimierung des Indexes ist über die Prozedur CTX_DDL.OPTIMIZE_INDEX möglich. Je nach Änderungshäufigkeit sollte man den Index über einen Job in regelmäßigen Abständen optimieren, z.B. einmal pro Tag mit: BEGIN ctx_ddl.optimize_index(index_name => 'sprueche_idx', optlevel => 'FULL'); END; / Fazit Oracle Text bietet eine kostenlose, einfache und sehr flexible Möglichkeit der linguistischen Volltextsuche. Die hier gezeigten Funktionalitäten stellen nur "die Spitze des Eisbergs" dar. In einem der nächsten Tips geht's weiter mit der Suche in Dokumenten außerhalb der Datenbank (file_datastore und url_datastore), Highlighting und Sortierung der Ergebnisse nach Relevanz etc. Links und Literatur: Original-Dokumentation (hier für 11g) Text Application Developer's Guide: http://download.oracle.com/docs/cd/B28359_01/text.111/b28303.pdf Text Reference: http://download.oracle.com/docs/cd/B28359_01/text.111/b28304.pdf Die Oracle-Seite zum Thema Text: http://www.oracle.com/technology/products/text/index.html deutsche Quellen: Sehr empfehlenswert: der Oracle-Text-Blog von Carsten Czarski und Ulrike Schwinn http://oracle-text-de.blogspot.com/ Auch in der Apex-Community gibt es viele Artikel zu diesem Thema, z.B. http://www.oracle.com/global/de/community/tipps/text-search/index.html http://www.oracle.com/global/de/community/tipps/adressen_text/index.html Muniqsoft GmbH Schulungszentrum, Grünwalder Weg 13a, 82008 Unterhaching, Tel. 089 / 679090-40 IT-Consulting & Support, Witneystraße 1, 82008 Unterhaching, Tel. 089 / 6228 6789-0 Seite 11 von 11