Erhöht die Geschwindigkeit und Genauigkeit

RLI
RBL
ROSETTE
Language Identifier
Sortierung nach
ROSETTE
Base Linguistics
Bessere
Suche
www.basistech.com
[email protected]
+1 617-386-2090
REX
ROSETTE
Entity Extractor
Namen von Entit
Erhöht die Geschwindigkeit
RES
Verb
ROSETTE
Entity Resolver
Artikel
Real Identities
Nomen
und
Genauigkeit
Ihrer
Suche
RNI
ROSETTE
Konjunktion
Name Indexer
Nomen
Pronomen
Nomen
durch hochentwickelte
RNT
Präposition
ROSETTE
Name Translator
Adjektiv
Übereinstimmen
Übersetzte Nam
linguistische
Analysen
.
Categorizer
Sorted Content
RCA
ROSETTE
Nomen
Adjektiv
RSA
ROSETTE
Sentiment
Analyzer
Suche
für viele
Sprachen
mit hoher Genauigkeit
Jede Sprache, darunter auch Englisch, stellt Suchanwendungen, die
relevante und präzise Ergebnisse liefern sollen, vor spezielle und schwierige
Herausforderungen. Rosette® Base Linguistics (RBL) bietet Unternehmen
ein umfassendes Set an linguistischen Funktionen, mit denen vielsprachige
Texte effektiv durchsucht und verarbeitet werden können. RBL reichert
den Originaltext in der entsprechenden Sprache an, um erstklassige
Sprachverarbeitung und höhere Geschwindigkeit und Genauigkeit zu erzielen.
Als Linguistik-Experte mit umfassenden Kenntnissen hinsichtlich der
Verknüpfung von Sprache und Technologie nimmt Basis Technology
kontinuierliche Verbesserungen an der Rosette-Produktfamilie vor. So werden
ständig zusätzliche Sprachen integriert, Funktionen aktualisiert und die
neuesten Innovationen aus der akademischen Welt angewandt.
Zeichensetzung
40
Actionable Insigh
Unterstützte
Sprachen
HAUP TMER K MALE
- Einfache API
- Hohe Skalierung und hoher Durchsatz
- Zuverlässiger Support
- Einfache Installation
- Flexibel und kundenspezifisch anpassbar
- Integration: Java, C++ und Web Services
- Plattform: Unix, Linux, Mac, PC (64- oder 32-Bit)
- Komponente des Rosette SDK
- Kundenspezifisch anpassbare Funktionen,
wie z. B. benutzerspezifische Wörterbücher,
orthographische Normalisierung und
Zeichenkonvertierung.
Kundenauswahl
RBL noch heute nutzen,
kostenlose Produktevaluierung
www.basistech.com
RLI
ROSETTE
Language Identifier
RBL
Sortierung nach Sprachen
ROSETTE
Base Linguistics
Bessere Suche
Fortgeschrittene
morphologische Funktionen
REX ROSETTE
Entity Extractor
Namen von Entitäten
Language Identifier
LEMMATISIERUNG
DEKOMPOSITION
RLI
Identifizierung von Sprachen und
TOKENISIERUNG
Codierungen
RES ROSETTEverwenden Bigramme,
Viele Suchmaschinen
Entity Resolver
um Sprachen ohne Leerzeichen zwischen
Die meisten Suchmaschinen versuchen,
RBL unterteilt zusammengesetzte Wörter in
Real Identities
unwichtige Zeichen am Ende eines Wortes
Sub-Komponenten und liefert jedes einzelne
zu ignorieren. Diese Methode, die auch
Element zur Indizierung. Dies ist besonders
„Stemming“ genannt wird, führt oft zu
nützlich für die Erhöhung der Suchrelevanz in
Suche für viele Sprachen mit hoher
falschen Treffern und niedriger Genauigkeit.
Sprachen wie Deutsch und Koreanisch.
Genauigkeit
Übereinstimmende
Identitäten
RBL erkennt
hingegen die echte weil
lexikale
Grundform jedes Worts, das „Lemma“, mithilfe
Beispiel: Deutsch
von Vokabular, Kontext und fortschrittlichen
Samstagmorgen ist eine Kombination aus Samstag
morphologischen Analysen. Die Indizierung
und Morgen. Durch die Dekomposition führt die
der Grundform
erhöht die Suchrelevanz
und Orten
Suche nach
Erkennung
von Personen,
und „Samstag“ zu einem gültigen Treffer.
Übersetzte
Namen
verschlankt den Suchindex, da nicht alle
Organisationen
gebeugten Formen indiziert werden. Auch
alternative Lemmata werden verwendet,
PART-OF-SPEECH-TAGGING
um die Indizierung zu ergänzen.
den Wörtern zu verstehen. Dies führt zu
einem größeren Index und niedrigerer
ROSETTE
Relevanz. RBL
hingegen erkennt präzise
jedes Wort mithilfe von hochentwickelter
statistischer Modellierung. Die sich
dadurch ergebende Segmentierung
minimiert dieROSETTE
Indexgröße, verbessert die
Treffergenauigkeit und erhöht die Relevanz.
RNI
RBL
Name Indexer
Name Translator REX
RNT
ROSETTE
RCA
Beispiel: Chinesisch
Categorizer
Betrachten Sie das Problem der Indizierung von
RES
„Universität Beijing Biologie-Institut“ und der
anschließenden Suche nach „Student“:
RSA
INDEX
ROSETTE
SentimentSUCHE
Analyzer
Base Linguistics
Biologie-Institut
2
Beijing
2
3
3
4
(kein Wort) Universität
4
Entity Resolver
Pronomen
Sorted Content
(Student)
5
6
BiologieInstitut
6
7
RNT
Name Indexer
Biologie-Institut
Kompatibilität
Name Translator
RNI
Kompatibilität
Plattformen
RNT
Bei bestimmten Nomen, vor allem bei
RBL gruppiert die Nomen und ihre
Bestimmungswörter. Dies ist nützlich für das
Dokument-Clustering und die Konzeptextraktion.
Categorizer
Für unregelmäßige
spoke
spoke speak (v.)
Verben und Nomen
spoke (n.)
Categorize
Everything
In SightSATZERKENNUNG
funktioniert das
Stemming nicht.
RSA
Sentiment Analyzer
Detect The Sentiments Of
Verfügbare Sprachen
Suchmaschinen
Code-Basis
SUCHE
Ergebnisse liefern.
RCA
„Universität Beijing
Biologie-Institut“
wird richtigerweise
ausgelassen.
学
Universität Beijing
RES
Nomen
Übersetzung fremdsprachiger
Namen kann
ins es sehr schwierig sein,
Eigennamen,
Stemming kann
several
sever several
Englische
sie als eine Einheit zu identifizieren.
ungewollte
(kein Wort)
RBL MORPHOLOGICAL TOKENIZTION
2
Adjektiv
statistische Modellierung verwendet, um die
richtige Wortart zu bestimmen – sogar bei
Actionablemehrdeutigen
Insights Wörtern. Jeder Token wird dann
für ein verbessertes Verständnis und eine
höhere Suchrelevanz gekennzeichnet.
STAMM LEMMA
Wörter können den
gleichen Stamm
haben.
„Student“ weist fälschlicherweise einen Treffer bei „Universität Beijing
Biologie-Institut“ auf.
1
Verb
Make real-world connections inImyour
data
Rahmen
der Lemmatisierung wird die
Vergleich von Namen in vielen Variationen
EXTRAKTION VON
Zwei nicht
animals
anim
animal
zusammenhängende animated
animate
NOMINALPHRASEN
(Student)
5
REX
Beispiel: Englisch
Die linguistische Analyse ist für jede Sprache
nützlich. Im Englischen erhöht die Lemmatisierung
die Trefferquote und Genauigkeit.
RNI
BIGRAMME
1
RBL
Entity Extractor
SCHWIERIGKEIT
Universität
Beijing
RLI
RCA
Der Beginn und das Ende jedes Satzes
wird automatisch erkannt, auch wenn die
von Satzzeichen mehrdeutig
YourVerwendung
Text
sein kann.
RSA
WESTEUROPA
OSTEUROPA
NAHER OSTEN
ASIEN
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- Chinesisch, vereinfacht
- Chinesisch, traditionell
- Indonesisch
- Japanisch
- Koreanisch
- Malaiisch*
- Thailändisch
Katalanisch*
Tschechisch
Dänisch
Niederländisch
Englisch
Finnisch*
Französisch
Deutsch
Griechisch
Italienisch
Norwegisch
Portugiesisch
Spanisch
Schwedisch
Albanisch*
Bulgarisch*
Kroatisch*
Estnisch*
Ungarisch
Lettisch*
Polnisch
Rumänisch
Russisch
Serbisch*
Slowakisch*
Slowenisch*
Türkisch
Ukrainisch*
Arabisch
Hebräisch
Paschtunisch
Persisch
Urdu
* Eingeschränkter Support
© 2015 Basis Technology Corporation. „Basis Technology“
und „Rosette“ sind eingetragene Marken der Basis Technology
Corporation. Alle Marken, Dienstleistungszeichen und Logos,
die in diesem Dokument verwendet werden, sind Eigentum der
jeweiligen Inhaber. (2014-12-18-RBL)
ZENTRALE
USA FEDERAL
US-WESTKÜSTE
EUROPA
ASIEN
One Alewife Center
Cambridge, MA
02140
2553 Dulles View Dr.
Suite 450
Herndon, VA
20171
1700 Montgomery St
San Francisco, CA
94111
Furzeground Way
Middlesex UB11 1BD,
UK
9-6 Nibancho,
Chiyoda-ku
Tokyo 102-0084,
Japan
ROSETT
Lang
ROSETT
Base
ROSETT
Entit
ROSETT
Entit
ROSETT
Nam
ROSETT
Nam
ROSETT
Cate
ROSETT
Sent