Worldmatch - Internationale Daten abgleichen

Werbung
GLOBALISIERUNG KONSEQUENT UMSETZEN
Worldmatch®
Internationale Daten abgleichen
Weltweit Daten aus unterschiedlichen Sprachen und Schriftarten fehlertolerant miteinander
abgleichen – integriert in alle kritischen Unternehmens-Prozesse.
Die Welt rückt immer näher zusammen.
Globale Märkte bieten neue Chancen
und möchten erobert werden. Je mehr
Kunden- und Lieferantenprozesse automatisiert werden, desto wichtiger werden
korrekte, einheitliche Stammdaten. Während das Bewusstsein dafür einerseits
CARSTEN KRAUS
zunimmt, wachsen andererseits die Anfor-
„Durch hohe Datenqualität in allen
derungen: Nach wie vor sind Datenabglei-
Ländern beschleunigen Sie Ihre
globalen Prozesse.“
Founder & CEO,
Omikron Data Quality GmbH
che alles andere als trivial – und Fehler
können teurer werden als je zuvor. Vor
allem bei internationalen Abgleichen wird
es kritisch: Das korrekte Verfahren ist ausschlaggebend.
The Data Quality Company
Daten miteinander vergleichen
Der Pferdefuß ist die schlechte Trennschärfe: „Maier“ zu
Immer wieder ist es notwendig, dass beispielsweise
„Meier“ wird zwar gefunden, aber schon bei „Meyer“ weicht
Stammdaten miteinander verglichen werden: etwa bei
der dritte, der relevante Buchstabe ab – der Matchcode
der Dublettenprüfung des eigenen Kundenstamms, beim
versagt. Bei „Maier“ zu „Maihofer“ wird hingegen fälschlich
Anlegen neuer Kundendaten, bei der Adress-Suche im
eine Dublette gemeldet. Fazit: Das Matchcode-Verfahren
Call-Center oder bei internationalen Adress-Abgleichen.
ist veraltet.
Im ersten Moment hört sich „Vergleichen“ einfach an.
Doch was der Mensch beherrscht, fällt dem Computer
Das phonetische Verfahren:
Vertipper werden zum Verhängnis
schwer: „Gleich“ bedeutet für das elektronische Gehirn
Indem ähnlich klingende Buchstaben in denselben Code
eine Übereinstimmung von 100 Prozent. Schon bei kleins-
verwandelt werden, sind unterschiedliche Schreibwei-
ten Abweichungen wie einem Tippfehler versagt die
sen vereinheitlicht. P und B werden z.B. zur „1“, K und C
Zuordnung. Der Computer versteht die Ähnlichkeit von
und G zur „2“. Becker und Begger werden so als „gleich“
„Mathias“ und „Matias“ nicht – zumindest nicht ohne pro-
betrachtet.
grammierte Intelligenz. Für den Menschen dagegen sind
Wie beim Matchcode kann auch hier der Phonetik-Code
beide Schreibweisen annähernd gleich. Genau auf diese
in einem Index gespeichert werden, was das Verfahren
Intelligenz kommt es bei elektronischen Vergleichen an.
schnell macht. Es gibt eine Vielzahl solcher Phonetik-Verfahren, wobei die einfachen nur einzelne Buchstaben, die
Computer lernen Ähnlichkeit
besseren auch Buchstabengruppen („Sch“) betrachten.
Seit den sechziger Jahren bekämpfen clevere Program-
Das einfachste ist das Russell-Soundex-Verfahren, häufig
mierer die Doppeladressen. Zu Anfang war Rechenzeit
nur Soundex genannt. Es ist weit verbreitet, macht aber
noch teuer. So wurde der Flug von Apollo 11 im Jahr
auch sehr viele Fehler: So wird z.B. „Mehl“ und „Maier“
1968 von einem Großcomputer berechnet, der in der
gleichgesetzt. Bei Dublettenabgleichen nennt man diese
Leistungsfähigkeit einem 286er-PC entsprach – mehr als
falschen Zuordnungen auch „Overkill“.
die 50.000-fache (!) Rechenleistung steht heute auf vielen
Eine moderne Phonetik kommt auch mit deutschen
Schreibtischen! Um wirtschaftlich zu sein, mussten die
Umlauten klar und findet selbst kompliziertere Abwei-
ersten Verfahren also mit wenig Rechenzeit auskommen.
chungen wie „Kristof“ zu „Christoph“ oder „Klusoh“ zu
Es war billiger, Verluste durch ein paar zu wenig gefun-
„Cluseault“. Aber Achtung: Auch die beste Phonetik findet
dene Dubletten hinzunehmen, als einen größeren Com-
eben nur phonetische Fehler. Tippfehler oder Abkürzun-
puter anzuschaffen. Und so entstand das schnelle und
gen lassen sich damit nicht aufspüren. Deshalb sind pho-
ressourcensparende Matchcode-Verfahren.
netische Verfahren allein – zumindest für Firmenadressen
– völlig unzureichend.
Das Matchcode-Verfahren:
schnell, aber ungenau
Statt bei zwei Datensätzen Buchstabe für Buchstabe zu
Unscharfe Ähnlichkeitsverfahren:
die bessere Wahl
vergleichen, werden mit dem Matchcode-Verfahren nur
Da Computer immer leistungsfähiger und billiger gewor-
markante Punkte miteinander verglichen, beispielsweise
den sind, ist es heute nicht mehr nötig, ein indizierbares
PLZ, Hausnummer, der erste und der dritte Buchstabe des
Verfahren zu verwenden. Die Matchcode-Verfahren wur-
Nachnamens sowie der erste Buchstabe des Vornamens.
den daher von so genannten „unscharfen“ (engl. „fuzzy“)
Solange alle diese Dinge übereinstimmen, wird der Kunde
Verfahren abgelöst. Ein unscharfes Verfahren trifft keine
als Dublette erkannt, trotz eventueller Abweichungen in
Ja-/Nein-Entscheidungen, sondern bestimmt den Grad
den anderen Buchstaben.
der Ähnlichkeit. Durch Abwägen verschiedener Elemente
der Adresse können so wesentlich höhere Trennschär-
Solche Verfahren benötigen kaum Rechenzeit, da dieser
fen erzielt werden: Sind beispielsweise Firmenname und
„Matchcode“ einfach gebildet wird und in einem Index
Ansprechpartner zweier zu vergleichender Unterneh-
für jede Adresse abgelegt werden kann – er muss also
men sehr ähnlich, so kann trotz gänzlich anderer Straße
nicht jedes Mal für alle Adressen neu errechnet werden.
(Umzug!) die Firma als Dublette zugeordnet werden. Bei
INTERNATIONALE
DATEN ABGLEICHEN
So gut sind die unterschiedlichen
Ähnlichkeitsverfahren wirklich:
Matchcode-Verfahren
Phonetisches Verfahren
Unscharfe Verfahren national
Betrachten nur Teile des Inhaltes,
Vereinheitlichte
Betrachtung
In einem unscharfen Verfahren
aus dem ein sogenannter Match-
ähnlich klingender Buchstaben.
wird der Grad der Ähnlichkeit
code abgeleitet wird. Abgleiche
Das große Problem sind Tippfeh-
durch einen Score ermittelt. Dabei
benötigen
ler und Abkürzungen, die nicht
kommen
erkannt werden.
men zum Einsatz, die bei natio-
wenig
Rechenzeit,
darum sind sie sehr schnell, aber
auch sehr ungenau.
Algorith-
nalen Daten sehr gute Ergebnisse
liefern.
Unscharfes Verfahren
Unscharfes Verfahren
international mit Unicode
international mit Worldmatch®
Unicode stellt für sinntragende
Dieses unscharfe Verfahren kennt
Schriftzeichen oder Textelemente
die Besonderheiten der unter-
einen digitalen Code. Das Problem
schiedlichen Sprachen und kann
sind Transliteration und Tran-
Vergleiche zwischen Sprachen und
skription, die Spielraum für Fehler
Schriften so direkt und präzise
eröffnen.
durchführen.
Abgleichqualität national
komplexere
Abgleichqualität international
andererseits stärkere Abweichungen im Firmennamen
Datenabgleiche weltweit –
die besondere Herausforderung
zugelassen werden. Diese Abwägung wäre etwa mit
1995 erzielte Deutschland bereits 20 Prozent seines
einem Matchcode-Verfahren nicht möglich.
Brutto-Nationaleinkommens durch Exporte. 2015 waren
annähernd identischer Straße und Hausnummer können
es bereits 37 Prozent – und die Globalisierung nimmt
weiter zu.
Waren erste Verfahren wie Levenstein ausschließlich auf
Tippfehler ausgerichtet, überwinden aktuelle Verfahren
diese Hürde. So findet beispielsweise das FACT®-Verfah-
Durch das Zusammenwachsen der Wirtschaftskreisläufe
ren alle oben aufgeführten Beispiele und kommt damit
sind auch die Anforderungen der Unternehmen an die
der menschlichen Fähigkeit, Ähnlichkeiten erkennen zu
eigenen Datenbestände enorm gestiegen: Firmensitz in
können, schon sehr nahe.
Deutschland (lateinischer Zeichensatz), Niederlassung
Schreibweise
Zeichensatz
アイコ
Katakana
ZHANG Aiguo
あいこ
Hiragana
ZHANG Aimin
あい子
Hiragana / Kanji
ZHANG Aidang
あ以子
Hiragana / Kanji
Zhang = Familienname, Ai = Generationsname
Lediglich die letzte Silbe repräsentiert den eigentlichen Namen
アイ子
Katakana / Kanji
Russische Namen
あ衣子
Hiragana / Kanji
Михаил Горбачёв
Michail Gorbatschow
亜衣古
Kanji
Раиса Горбачёва
Raissa Gorbatschowa
亜伊子
Kanji
亜緯子
Kanji
亜以子
Kanji
Mögliche Schreibweisen des Namens: Aiko
Chinesische Namen
Griechische Namen
Πέτρος Κώτης
Petros Kotis
Αναστασία Κώτη
Anastasia Koti
Im Russischen wie auch im Griechischen ändert sich der Familienname je nach Geschlecht
Arabische Namen
Vater
Hassan ibn Selim
Im Arabischen ist der Name des Vaters Bestandteil der Kindernamen
Sohn
Yassir ibn Hassan
in Marokko (arabisch): Unternehmen, die international
agieren, benötigen eine weltweit einsetzbare Datenbankstruktur und Prozesse, die ebenfalls weltweit funktionieren. Denn auch wenn die Logistik ein Zusammenrücken
der Märkte ermöglicht, gibt es keine Hoffnung, dass sich
die Welt in absehbarer Zeit auf eine gemeinsame Stan-
Worldmatch® ermöglicht
weltweite Datenabgleiche
zwischen unterschiedlichen
Sprachen und Schriften.
dardsprache und -schrift einigen wird.
Und so erschwert eine Internationalisierung die Arbeit
Der eigentliche Abgleich der Daten erfolgt dann mit latei-
mit Daten, denn Abgleiche müssen nicht nur in der
nischen Zeichen.
Muttersprache zuverlässig greifen, sondern auch über
Auf den ersten Blick macht diese Vorgehensweise einen
die eigene Grenze hinweg. Die Anforderungen an die
soliden Eindruck. Bei genauerer Betrachtung lassen sich
Abgleich-Software steigen mit der Anzahl der Sprachen.
aber schnell die Schwächen erkennen. So gehen durch
die Wandlung wichtige Informationen für einen unschar-
Ein Beispiel: Der irische Name Ewan hört sich korrekt
fen Abgleich verloren.
ausgesprochen an wie „Juin“. Ein Sachbearbeiter in
Deutschland, der nicht mit den sprachlichen Besonder-
Das folgende Beispiel eines Vergleichs von deutschen
heiten Irlands vertraut ist, wird den Namen vermutlich
und russischen Daten zeigt die Problematik: Fyodor, ein
auch so in die Datenbank eintragen: Juin. Findet spä-
russischer Name, wird Федор geschrieben. Der kyrillische
ter ein Abgleich der deutschen Datenbank, der nur die
Buchstabe e kann bei der Umwandlung ins Lateinische
Besonderheiten der deutschen Sprache berücksichtigt,
ebenfalls e oder zu ye werden. Ein diakritisches Zeichen
mit den Daten der irischen Vertriebsgesellschaft statt,
über dem e – also ë – ändert die Betonung nochmals auf
dann würde diese „Dublette“ nicht gefunden werden.
yo. Das Zeichen darf in der russischen Schrift auch ganz
Es ist also notwendig, dass die Abgleich-Software die
weggelassen werden.
Besonderheiten beider Sprachen kennt und miteinander
in Beziehung setzen kann.
Mit Unicode würde also je nach Regelsatz Федор (für
Fyodor) entweder in Fyedor oder Fedor gewandelt wer-
Solange man sich im lateinischen Schriftraum bewegt,
den. Beim anschließenden Abgleich mit den lateinischen
kommt es lediglich auf einige Besonderheiten der Spra-
Daten ergibt sich dann ein großes Problem, da die Ähn-
che an. Denkt man aber an die neuen Märkte in Russland,
lichkeit zwischen Fyodor und Fedor eher gering ist. Eine
Indien und China, dann wird es wesentlich komplizierter.
zuverlässige Zuordnung ist so also nicht mehr möglich.
In diesen Sprachräumen wird mit völlig anderen Zeichensätzen geschrieben, deren Regelsätze sich zudem grund-
Fazit: „Unicode“ ist nicht genug! Transkription und Trans-
legend unterscheiden. Im Arabischen wird von rechts
literation alleine funktionieren nicht, denn verschiedenen
nach links geschrieben und die Vokale entfallen.
Schriften liegen unterschiedliche Funktionsprinzipien zu
Grunde. Diese müssen beim Vergleich der Daten eben-
Unicode: Schwachstelle Transkription
Unicode ist ein internationaler Standard, in dem für
jedes sinntragende Schriftzeichen oder Textelement
aller bekannten Schriftkulturen und Zeichensysteme ein
digitaler Code feststeht. Mit einem einfachen Trick kann
man so internationale Daten abgleichen. Dazu wird im
ersten Schritt jedem Datensatz eine eindeutige Identifikationsnummer zugewiesen. Will man beispielsweise
Kundendaten aus Deutschland und Japan miteinander
abgleichen, könnte man die japanischen Zeichen ins
lateinische Zeichensystem umwandeln (transliterieren).
falls berücksichtigt werden.
Worldmatch®
Sichere und verlässliche Abgleiche
Worldmatch prüft die verschiedenen Schriften gegenei-
Worldmatch ist ein Verfahren, das die internationalen
und erkennt Ähnlichkeiten etwa bei Vertippern, Buch-
Hürden meistert. Der Vorteil dieses Verfahrens ist, dass
stabendrehern und Abkürzungen. Worldmatch kann die
die einzelnen Schriften nicht erst auf einen gemeinsamen
optischen Ähnlichkeiten chinesischer Zeichen in Betracht
Zeichensatz vereinheitlicht werden, sondern ein direkter
ziehen. So werden treffsichere internationale Abgleiche
Abgleich zwischen unterschiedlichen Zeichensätzen bzw.
auf einem hohen Standard möglich.
nander, berücksichtigt die Besonderheiten der Sprachen
Schriften stattfindet.
Zudem kann Worldmatch mit allen chinesischen DialekWorldmatch transliteriert nicht, sondern assoziiert. Die
ten gleichzeitig arbeiten. Dabei muss die Omikron-Tech-
Präzision der Abgleiche wird dadurch ungleich höher.
nologie nicht wissen, für welchen Dialekt sie die Transli-
Alphabete – Александр
Abjads – ‫العربية‬
Zeichen der Welt
Alphabete – Александр
Abjads – ‫العربية‬
Bei Alphabeten entspricht jeder Buchstabe
einem Sprachlaut. Man spricht auch
von einer phonographischen Schrift.
Abjads werden von rechts nach links
geschrieben. Abjad ist primär eine Konsonantenschrift. Vokale werden bei den
meisten Worten weggelassen, da sie für
Einheimische offensichtlich sind und beim
Sprechen einfach hinzugefügt werden.
Beispiele für Alphabete:
Lateinisch / Kyrillisch / Griechisch
Beispiele für Abjads:
Hebräisch / Arabisch
teration machen muss, weil es eben nicht transliteriert,
Am Beispiel des russischen Namens „Fyodor“ (Федор)
sondern assoziiert. Und: Bei japanischen Zeichen kann
bedeutet das, dass Worldmatch alle möglichen lateini-
Worldmatch ebenfalls alle Lesarten und Kanji-Kana-Kom-
schen Schreibweisen beachtet. Also Fedor, Fyedor aber
binationen berücksichtigen. Das ist wichtig, weil es im
auch Fyodor.
Japanischen sowohl gleich ausgesprochene, aber unter-
Worldmatch steht als Funktion im Omikron Data Quality
schiedlich geschriebene Wörter gibt (die dann ganz
Server (Built for SOA) zur Verfügung und kann auch in Ihre
unterschiedliche Bedeutung haben und nicht zugeordnet
eigenen Applikationen und Prozesse integriert werden.
werden sollten), als auch verschiedene erlaubte Schreibweisen für das gleiche Wort gibt, die gleich ausgesprochen werden und die gleiche Bedeutung haben und zugeordnet werden sollten.
Symbolschriften – 愛子
Silbenschriften – あいこ
Abugidas – ेवनागर
Abugidas – ेवनागर
Silbenschriften – あいこ
Symbolschriften – 愛子
Abugidas sind charakteristisch für die indischen
und äthiopischen Schriften. Bei dieser Art von
Schrift werden nur Konsonanten geschrieben.
Es gibt Standardvokale, die verwendet werden.
Kommt ein besonderer Vokal zum Einsatz, wird
er mit einer speziellen Markierung gekennzeichnet. Abugidas werden auch als Zwischenstufe von Alphabet und Silbenschrift angesehen.
Beispiele für Abugidas:
Indisch (Devanagari) / Singhalesisch
Silbenschriften gehören wie
Alphabete auch zu den phonografischen Schriften. In einer Silbenschrift
steht jedes Zeichen für eine Silbe.
Bei Symbolschriften steht jedes Zeichen
für ein komplettes Wort. Zusammengesetzte Wörter bestehen aus mehreren
Symbolen. Symbolschriften werden auch
als logograpische Schrift bezeichnet.
Beispiele für Silbenschriften:
Japanisch (Hiragana) / Cherokee
Beispiele für Symbolschriften:
Chinesisch / Japanisch (Kanji)
Über Omikron
Worldmatch® (entwickelt für den unscharfen Abgleich
Omikron zählt zu den führenden deutschen Unterneh-
internationaler Daten) und die fehlertolerante Suche
men im Bereich Datenqualität in Kunden-, Lieferan-
FACT-Finder sorgen in allen Geschäftsprozessen für sau-
ten- und Materialstammdaten. Omikron analysiert und
bere Unternehmens-Informationen. Lösungen von Omi-
überarbeitet bestehende Daten und bietet umfassen-
kron verfügen über Schnittstellen zu wichtigen Unter-
des Consulting für alle Fragen der Datenbereinigung
nehmens-Anwendungen wie Microsoft Dynamics, SAP,
und Datenqualitätssicherung. Intelligente Technologien
salesforce.com und mehr.
wie der Omikron Data Quality Server (built for SOA),
Wir beraten Sie gerne:
+49 7231 12597 0
Omikron Data Quality GmbH
Habermehlstr. 17
75172 Pforzheim
Telefon: +49 7231 12597 0
E-Mail: [email protected]
www.omikron.net
The Data Quality Company
Herunterladen