RLI RBL ROSETTE Language Identifier Sortierung nach ROSETTE Base Linguistics Bessere Suche www.basistech.com [email protected] +1 617-386-2090 REX ROSETTE Entity Extractor Namen von Entit Erhöht die Geschwindigkeit RES Verb ROSETTE Entity Resolver Artikel Real Identities Nomen und Genauigkeit Ihrer Suche RNI ROSETTE Konjunktion Name Indexer Nomen Pronomen Nomen durch hochentwickelte RNT Präposition ROSETTE Name Translator Adjektiv Übereinstimmen Übersetzte Nam linguistische Analysen . Categorizer Sorted Content RCA ROSETTE Nomen Adjektiv RSA ROSETTE Sentiment Analyzer Suche für viele Sprachen mit hoher Genauigkeit Jede Sprache, darunter auch Englisch, stellt Suchanwendungen, die relevante und präzise Ergebnisse liefern sollen, vor spezielle und schwierige Herausforderungen. Rosette® Base Linguistics (RBL) bietet Unternehmen ein umfassendes Set an linguistischen Funktionen, mit denen vielsprachige Texte effektiv durchsucht und verarbeitet werden können. RBL reichert den Originaltext in der entsprechenden Sprache an, um erstklassige Sprachverarbeitung und höhere Geschwindigkeit und Genauigkeit zu erzielen. Als Linguistik-Experte mit umfassenden Kenntnissen hinsichtlich der Verknüpfung von Sprache und Technologie nimmt Basis Technology kontinuierliche Verbesserungen an der Rosette-Produktfamilie vor. So werden ständig zusätzliche Sprachen integriert, Funktionen aktualisiert und die neuesten Innovationen aus der akademischen Welt angewandt. Zeichensetzung 40 Actionable Insigh Unterstützte Sprachen HAUP TMER K MALE - Einfache API - Hohe Skalierung und hoher Durchsatz - Zuverlässiger Support - Einfache Installation - Flexibel und kundenspezifisch anpassbar - Integration: Java, C++ und Web Services - Plattform: Unix, Linux, Mac, PC (64- oder 32-Bit) - Komponente des Rosette SDK - Kundenspezifisch anpassbare Funktionen, wie z. B. benutzerspezifische Wörterbücher, orthographische Normalisierung und Zeichenkonvertierung. Kundenauswahl RBL noch heute nutzen, kostenlose Produktevaluierung www.basistech.com RLI ROSETTE Language Identifier RBL Sortierung nach Sprachen ROSETTE Base Linguistics Bessere Suche Fortgeschrittene morphologische Funktionen REX ROSETTE Entity Extractor Namen von Entitäten Language Identifier LEMMATISIERUNG DEKOMPOSITION RLI Identifizierung von Sprachen und TOKENISIERUNG Codierungen RES ROSETTEverwenden Bigramme, Viele Suchmaschinen Entity Resolver um Sprachen ohne Leerzeichen zwischen Die meisten Suchmaschinen versuchen, RBL unterteilt zusammengesetzte Wörter in Real Identities unwichtige Zeichen am Ende eines Wortes Sub-Komponenten und liefert jedes einzelne zu ignorieren. Diese Methode, die auch Element zur Indizierung. Dies ist besonders „Stemming“ genannt wird, führt oft zu nützlich für die Erhöhung der Suchrelevanz in Suche für viele Sprachen mit hoher falschen Treffern und niedriger Genauigkeit. Sprachen wie Deutsch und Koreanisch. Genauigkeit Übereinstimmende Identitäten RBL erkennt hingegen die echte weil lexikale Grundform jedes Worts, das „Lemma“, mithilfe Beispiel: Deutsch von Vokabular, Kontext und fortschrittlichen Samstagmorgen ist eine Kombination aus Samstag morphologischen Analysen. Die Indizierung und Morgen. Durch die Dekomposition führt die der Grundform erhöht die Suchrelevanz und Orten Suche nach Erkennung von Personen, und „Samstag“ zu einem gültigen Treffer. Übersetzte Namen verschlankt den Suchindex, da nicht alle Organisationen gebeugten Formen indiziert werden. Auch alternative Lemmata werden verwendet, PART-OF-SPEECH-TAGGING um die Indizierung zu ergänzen. den Wörtern zu verstehen. Dies führt zu einem größeren Index und niedrigerer ROSETTE Relevanz. RBL hingegen erkennt präzise jedes Wort mithilfe von hochentwickelter statistischer Modellierung. Die sich dadurch ergebende Segmentierung minimiert dieROSETTE Indexgröße, verbessert die Treffergenauigkeit und erhöht die Relevanz. RNI RBL Name Indexer Name Translator REX RNT ROSETTE RCA Beispiel: Chinesisch Categorizer Betrachten Sie das Problem der Indizierung von RES „Universität Beijing Biologie-Institut“ und der anschließenden Suche nach „Student“: RSA INDEX ROSETTE SentimentSUCHE Analyzer Base Linguistics Biologie-Institut 2 Beijing 2 3 3 4 (kein Wort) Universität 4 Entity Resolver Pronomen Sorted Content (Student) 5 6 BiologieInstitut 6 7 RNT Name Indexer Biologie-Institut Kompatibilität Name Translator RNI Kompatibilität Plattformen RNT Bei bestimmten Nomen, vor allem bei RBL gruppiert die Nomen und ihre Bestimmungswörter. Dies ist nützlich für das Dokument-Clustering und die Konzeptextraktion. Categorizer Für unregelmäßige spoke spoke speak (v.) Verben und Nomen spoke (n.) Categorize Everything In SightSATZERKENNUNG funktioniert das Stemming nicht. RSA Sentiment Analyzer Detect The Sentiments Of Verfügbare Sprachen Suchmaschinen Code-Basis SUCHE Ergebnisse liefern. RCA „Universität Beijing Biologie-Institut“ wird richtigerweise ausgelassen. 学 Universität Beijing RES Nomen Übersetzung fremdsprachiger Namen kann ins es sehr schwierig sein, Eigennamen, Stemming kann several sever several Englische sie als eine Einheit zu identifizieren. ungewollte (kein Wort) RBL MORPHOLOGICAL TOKENIZTION 2 Adjektiv statistische Modellierung verwendet, um die richtige Wortart zu bestimmen – sogar bei Actionablemehrdeutigen Insights Wörtern. Jeder Token wird dann für ein verbessertes Verständnis und eine höhere Suchrelevanz gekennzeichnet. STAMM LEMMA Wörter können den gleichen Stamm haben. „Student“ weist fälschlicherweise einen Treffer bei „Universität Beijing Biologie-Institut“ auf. 1 Verb Make real-world connections inImyour data Rahmen der Lemmatisierung wird die Vergleich von Namen in vielen Variationen EXTRAKTION VON Zwei nicht animals anim animal zusammenhängende animated animate NOMINALPHRASEN (Student) 5 REX Beispiel: Englisch Die linguistische Analyse ist für jede Sprache nützlich. Im Englischen erhöht die Lemmatisierung die Trefferquote und Genauigkeit. RNI BIGRAMME 1 RBL Entity Extractor SCHWIERIGKEIT Universität Beijing RLI RCA Der Beginn und das Ende jedes Satzes wird automatisch erkannt, auch wenn die von Satzzeichen mehrdeutig YourVerwendung Text sein kann. RSA WESTEUROPA OSTEUROPA NAHER OSTEN ASIEN - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Chinesisch, vereinfacht - Chinesisch, traditionell - Indonesisch - Japanisch - Koreanisch - Malaiisch* - Thailändisch Katalanisch* Tschechisch Dänisch Niederländisch Englisch Finnisch* Französisch Deutsch Griechisch Italienisch Norwegisch Portugiesisch Spanisch Schwedisch Albanisch* Bulgarisch* Kroatisch* Estnisch* Ungarisch Lettisch* Polnisch Rumänisch Russisch Serbisch* Slowakisch* Slowenisch* Türkisch Ukrainisch* Arabisch Hebräisch Paschtunisch Persisch Urdu * Eingeschränkter Support © 2015 Basis Technology Corporation. „Basis Technology“ und „Rosette“ sind eingetragene Marken der Basis Technology Corporation. Alle Marken, Dienstleistungszeichen und Logos, die in diesem Dokument verwendet werden, sind Eigentum der jeweiligen Inhaber. (2014-12-18-RBL) ZENTRALE USA FEDERAL US-WESTKÜSTE EUROPA ASIEN One Alewife Center Cambridge, MA 02140 2553 Dulles View Dr. Suite 450 Herndon, VA 20171 1700 Montgomery St San Francisco, CA 94111 Furzeground Way Middlesex UB11 1BD, UK 9-6 Nibancho, Chiyoda-ku Tokyo 102-0084, Japan ROSETT Lang ROSETT Base ROSETT Entit ROSETT Entit ROSETT Nam ROSETT Nam ROSETT Cate ROSETT Sent