GLOBALISIERUNG KONSEQUENT UMSETZEN Worldmatch® Internationale Daten abgleichen Weltweit Daten aus unterschiedlichen Sprachen und Schriftarten fehlertolerant miteinander abgleichen – integriert in alle kritischen Unternehmens-Prozesse. Die Welt rückt immer näher zusammen. Globale Märkte bieten neue Chancen und möchten erobert werden. Je mehr Kunden- und Lieferantenprozesse automatisiert werden, desto wichtiger werden korrekte, einheitliche Stammdaten. Während das Bewusstsein dafür einerseits CARSTEN KRAUS zunimmt, wachsen andererseits die Anfor- „Durch hohe Datenqualität in allen derungen: Nach wie vor sind Datenabglei- Ländern beschleunigen Sie Ihre globalen Prozesse.“ Founder & CEO, Omikron Data Quality GmbH che alles andere als trivial – und Fehler können teurer werden als je zuvor. Vor allem bei internationalen Abgleichen wird es kritisch: Das korrekte Verfahren ist ausschlaggebend. The Data Quality Company Daten miteinander vergleichen Der Pferdefuß ist die schlechte Trennschärfe: „Maier“ zu Immer wieder ist es notwendig, dass beispielsweise „Meier“ wird zwar gefunden, aber schon bei „Meyer“ weicht Stammdaten miteinander verglichen werden: etwa bei der dritte, der relevante Buchstabe ab – der Matchcode der Dublettenprüfung des eigenen Kundenstamms, beim versagt. Bei „Maier“ zu „Maihofer“ wird hingegen fälschlich Anlegen neuer Kundendaten, bei der Adress-Suche im eine Dublette gemeldet. Fazit: Das Matchcode-Verfahren Call-Center oder bei internationalen Adress-Abgleichen. ist veraltet. Im ersten Moment hört sich „Vergleichen“ einfach an. Doch was der Mensch beherrscht, fällt dem Computer Das phonetische Verfahren: Vertipper werden zum Verhängnis schwer: „Gleich“ bedeutet für das elektronische Gehirn Indem ähnlich klingende Buchstaben in denselben Code eine Übereinstimmung von 100 Prozent. Schon bei kleins- verwandelt werden, sind unterschiedliche Schreibwei- ten Abweichungen wie einem Tippfehler versagt die sen vereinheitlicht. P und B werden z.B. zur „1“, K und C Zuordnung. Der Computer versteht die Ähnlichkeit von und G zur „2“. Becker und Begger werden so als „gleich“ „Mathias“ und „Matias“ nicht – zumindest nicht ohne pro- betrachtet. grammierte Intelligenz. Für den Menschen dagegen sind Wie beim Matchcode kann auch hier der Phonetik-Code beide Schreibweisen annähernd gleich. Genau auf diese in einem Index gespeichert werden, was das Verfahren Intelligenz kommt es bei elektronischen Vergleichen an. schnell macht. Es gibt eine Vielzahl solcher Phonetik-Verfahren, wobei die einfachen nur einzelne Buchstaben, die Computer lernen Ähnlichkeit besseren auch Buchstabengruppen („Sch“) betrachten. Seit den sechziger Jahren bekämpfen clevere Program- Das einfachste ist das Russell-Soundex-Verfahren, häufig mierer die Doppeladressen. Zu Anfang war Rechenzeit nur Soundex genannt. Es ist weit verbreitet, macht aber noch teuer. So wurde der Flug von Apollo 11 im Jahr auch sehr viele Fehler: So wird z.B. „Mehl“ und „Maier“ 1968 von einem Großcomputer berechnet, der in der gleichgesetzt. Bei Dublettenabgleichen nennt man diese Leistungsfähigkeit einem 286er-PC entsprach – mehr als falschen Zuordnungen auch „Overkill“. die 50.000-fache (!) Rechenleistung steht heute auf vielen Eine moderne Phonetik kommt auch mit deutschen Schreibtischen! Um wirtschaftlich zu sein, mussten die Umlauten klar und findet selbst kompliziertere Abwei- ersten Verfahren also mit wenig Rechenzeit auskommen. chungen wie „Kristof“ zu „Christoph“ oder „Klusoh“ zu Es war billiger, Verluste durch ein paar zu wenig gefun- „Cluseault“. Aber Achtung: Auch die beste Phonetik findet dene Dubletten hinzunehmen, als einen größeren Com- eben nur phonetische Fehler. Tippfehler oder Abkürzun- puter anzuschaffen. Und so entstand das schnelle und gen lassen sich damit nicht aufspüren. Deshalb sind pho- ressourcensparende Matchcode-Verfahren. netische Verfahren allein – zumindest für Firmenadressen – völlig unzureichend. Das Matchcode-Verfahren: schnell, aber ungenau Statt bei zwei Datensätzen Buchstabe für Buchstabe zu Unscharfe Ähnlichkeitsverfahren: die bessere Wahl vergleichen, werden mit dem Matchcode-Verfahren nur Da Computer immer leistungsfähiger und billiger gewor- markante Punkte miteinander verglichen, beispielsweise den sind, ist es heute nicht mehr nötig, ein indizierbares PLZ, Hausnummer, der erste und der dritte Buchstabe des Verfahren zu verwenden. Die Matchcode-Verfahren wur- Nachnamens sowie der erste Buchstabe des Vornamens. den daher von so genannten „unscharfen“ (engl. „fuzzy“) Solange alle diese Dinge übereinstimmen, wird der Kunde Verfahren abgelöst. Ein unscharfes Verfahren trifft keine als Dublette erkannt, trotz eventueller Abweichungen in Ja-/Nein-Entscheidungen, sondern bestimmt den Grad den anderen Buchstaben. der Ähnlichkeit. Durch Abwägen verschiedener Elemente der Adresse können so wesentlich höhere Trennschär- Solche Verfahren benötigen kaum Rechenzeit, da dieser fen erzielt werden: Sind beispielsweise Firmenname und „Matchcode“ einfach gebildet wird und in einem Index Ansprechpartner zweier zu vergleichender Unterneh- für jede Adresse abgelegt werden kann – er muss also men sehr ähnlich, so kann trotz gänzlich anderer Straße nicht jedes Mal für alle Adressen neu errechnet werden. (Umzug!) die Firma als Dublette zugeordnet werden. Bei INTERNATIONALE DATEN ABGLEICHEN So gut sind die unterschiedlichen Ähnlichkeitsverfahren wirklich: Matchcode-Verfahren Phonetisches Verfahren Unscharfe Verfahren national Betrachten nur Teile des Inhaltes, Vereinheitlichte Betrachtung In einem unscharfen Verfahren aus dem ein sogenannter Match- ähnlich klingender Buchstaben. wird der Grad der Ähnlichkeit code abgeleitet wird. Abgleiche Das große Problem sind Tippfeh- durch einen Score ermittelt. Dabei benötigen ler und Abkürzungen, die nicht kommen erkannt werden. men zum Einsatz, die bei natio- wenig Rechenzeit, darum sind sie sehr schnell, aber auch sehr ungenau. Algorith- nalen Daten sehr gute Ergebnisse liefern. Unscharfes Verfahren Unscharfes Verfahren international mit Unicode international mit Worldmatch® Unicode stellt für sinntragende Dieses unscharfe Verfahren kennt Schriftzeichen oder Textelemente die Besonderheiten der unter- einen digitalen Code. Das Problem schiedlichen Sprachen und kann sind Transliteration und Tran- Vergleiche zwischen Sprachen und skription, die Spielraum für Fehler Schriften so direkt und präzise eröffnen. durchführen. Abgleichqualität national komplexere Abgleichqualität international andererseits stärkere Abweichungen im Firmennamen Datenabgleiche weltweit – die besondere Herausforderung zugelassen werden. Diese Abwägung wäre etwa mit 1995 erzielte Deutschland bereits 20 Prozent seines einem Matchcode-Verfahren nicht möglich. Brutto-Nationaleinkommens durch Exporte. 2015 waren annähernd identischer Straße und Hausnummer können es bereits 37 Prozent – und die Globalisierung nimmt weiter zu. Waren erste Verfahren wie Levenstein ausschließlich auf Tippfehler ausgerichtet, überwinden aktuelle Verfahren diese Hürde. So findet beispielsweise das FACT®-Verfah- Durch das Zusammenwachsen der Wirtschaftskreisläufe ren alle oben aufgeführten Beispiele und kommt damit sind auch die Anforderungen der Unternehmen an die der menschlichen Fähigkeit, Ähnlichkeiten erkennen zu eigenen Datenbestände enorm gestiegen: Firmensitz in können, schon sehr nahe. Deutschland (lateinischer Zeichensatz), Niederlassung Schreibweise Zeichensatz アイコ Katakana ZHANG Aiguo あいこ Hiragana ZHANG Aimin あい子 Hiragana / Kanji ZHANG Aidang あ以子 Hiragana / Kanji Zhang = Familienname, Ai = Generationsname Lediglich die letzte Silbe repräsentiert den eigentlichen Namen アイ子 Katakana / Kanji Russische Namen あ衣子 Hiragana / Kanji Михаил Горбачёв Michail Gorbatschow 亜衣古 Kanji Раиса Горбачёва Raissa Gorbatschowa 亜伊子 Kanji 亜緯子 Kanji 亜以子 Kanji Mögliche Schreibweisen des Namens: Aiko Chinesische Namen Griechische Namen Πέτρος Κώτης Petros Kotis Αναστασία Κώτη Anastasia Koti Im Russischen wie auch im Griechischen ändert sich der Familienname je nach Geschlecht Arabische Namen Vater Hassan ibn Selim Im Arabischen ist der Name des Vaters Bestandteil der Kindernamen Sohn Yassir ibn Hassan in Marokko (arabisch): Unternehmen, die international agieren, benötigen eine weltweit einsetzbare Datenbankstruktur und Prozesse, die ebenfalls weltweit funktionieren. Denn auch wenn die Logistik ein Zusammenrücken der Märkte ermöglicht, gibt es keine Hoffnung, dass sich die Welt in absehbarer Zeit auf eine gemeinsame Stan- Worldmatch® ermöglicht weltweite Datenabgleiche zwischen unterschiedlichen Sprachen und Schriften. dardsprache und -schrift einigen wird. Und so erschwert eine Internationalisierung die Arbeit Der eigentliche Abgleich der Daten erfolgt dann mit latei- mit Daten, denn Abgleiche müssen nicht nur in der nischen Zeichen. Muttersprache zuverlässig greifen, sondern auch über Auf den ersten Blick macht diese Vorgehensweise einen die eigene Grenze hinweg. Die Anforderungen an die soliden Eindruck. Bei genauerer Betrachtung lassen sich Abgleich-Software steigen mit der Anzahl der Sprachen. aber schnell die Schwächen erkennen. So gehen durch die Wandlung wichtige Informationen für einen unschar- Ein Beispiel: Der irische Name Ewan hört sich korrekt fen Abgleich verloren. ausgesprochen an wie „Juin“. Ein Sachbearbeiter in Deutschland, der nicht mit den sprachlichen Besonder- Das folgende Beispiel eines Vergleichs von deutschen heiten Irlands vertraut ist, wird den Namen vermutlich und russischen Daten zeigt die Problematik: Fyodor, ein auch so in die Datenbank eintragen: Juin. Findet spä- russischer Name, wird Федор geschrieben. Der kyrillische ter ein Abgleich der deutschen Datenbank, der nur die Buchstabe e kann bei der Umwandlung ins Lateinische Besonderheiten der deutschen Sprache berücksichtigt, ebenfalls e oder zu ye werden. Ein diakritisches Zeichen mit den Daten der irischen Vertriebsgesellschaft statt, über dem e – also ë – ändert die Betonung nochmals auf dann würde diese „Dublette“ nicht gefunden werden. yo. Das Zeichen darf in der russischen Schrift auch ganz Es ist also notwendig, dass die Abgleich-Software die weggelassen werden. Besonderheiten beider Sprachen kennt und miteinander in Beziehung setzen kann. Mit Unicode würde also je nach Regelsatz Федор (für Fyodor) entweder in Fyedor oder Fedor gewandelt wer- Solange man sich im lateinischen Schriftraum bewegt, den. Beim anschließenden Abgleich mit den lateinischen kommt es lediglich auf einige Besonderheiten der Spra- Daten ergibt sich dann ein großes Problem, da die Ähn- che an. Denkt man aber an die neuen Märkte in Russland, lichkeit zwischen Fyodor und Fedor eher gering ist. Eine Indien und China, dann wird es wesentlich komplizierter. zuverlässige Zuordnung ist so also nicht mehr möglich. In diesen Sprachräumen wird mit völlig anderen Zeichensätzen geschrieben, deren Regelsätze sich zudem grund- Fazit: „Unicode“ ist nicht genug! Transkription und Trans- legend unterscheiden. Im Arabischen wird von rechts literation alleine funktionieren nicht, denn verschiedenen nach links geschrieben und die Vokale entfallen. Schriften liegen unterschiedliche Funktionsprinzipien zu Grunde. Diese müssen beim Vergleich der Daten eben- Unicode: Schwachstelle Transkription Unicode ist ein internationaler Standard, in dem für jedes sinntragende Schriftzeichen oder Textelement aller bekannten Schriftkulturen und Zeichensysteme ein digitaler Code feststeht. Mit einem einfachen Trick kann man so internationale Daten abgleichen. Dazu wird im ersten Schritt jedem Datensatz eine eindeutige Identifikationsnummer zugewiesen. Will man beispielsweise Kundendaten aus Deutschland und Japan miteinander abgleichen, könnte man die japanischen Zeichen ins lateinische Zeichensystem umwandeln (transliterieren). falls berücksichtigt werden. Worldmatch® Sichere und verlässliche Abgleiche Worldmatch prüft die verschiedenen Schriften gegenei- Worldmatch ist ein Verfahren, das die internationalen und erkennt Ähnlichkeiten etwa bei Vertippern, Buch- Hürden meistert. Der Vorteil dieses Verfahrens ist, dass stabendrehern und Abkürzungen. Worldmatch kann die die einzelnen Schriften nicht erst auf einen gemeinsamen optischen Ähnlichkeiten chinesischer Zeichen in Betracht Zeichensatz vereinheitlicht werden, sondern ein direkter ziehen. So werden treffsichere internationale Abgleiche Abgleich zwischen unterschiedlichen Zeichensätzen bzw. auf einem hohen Standard möglich. nander, berücksichtigt die Besonderheiten der Sprachen Schriften stattfindet. Zudem kann Worldmatch mit allen chinesischen DialekWorldmatch transliteriert nicht, sondern assoziiert. Die ten gleichzeitig arbeiten. Dabei muss die Omikron-Tech- Präzision der Abgleiche wird dadurch ungleich höher. nologie nicht wissen, für welchen Dialekt sie die Transli- Alphabete – Александр Abjads – العربية Zeichen der Welt Alphabete – Александр Abjads – العربية Bei Alphabeten entspricht jeder Buchstabe einem Sprachlaut. Man spricht auch von einer phonographischen Schrift. Abjads werden von rechts nach links geschrieben. Abjad ist primär eine Konsonantenschrift. Vokale werden bei den meisten Worten weggelassen, da sie für Einheimische offensichtlich sind und beim Sprechen einfach hinzugefügt werden. Beispiele für Alphabete: Lateinisch / Kyrillisch / Griechisch Beispiele für Abjads: Hebräisch / Arabisch teration machen muss, weil es eben nicht transliteriert, Am Beispiel des russischen Namens „Fyodor“ (Федор) sondern assoziiert. Und: Bei japanischen Zeichen kann bedeutet das, dass Worldmatch alle möglichen lateini- Worldmatch ebenfalls alle Lesarten und Kanji-Kana-Kom- schen Schreibweisen beachtet. Also Fedor, Fyedor aber binationen berücksichtigen. Das ist wichtig, weil es im auch Fyodor. Japanischen sowohl gleich ausgesprochene, aber unter- Worldmatch steht als Funktion im Omikron Data Quality schiedlich geschriebene Wörter gibt (die dann ganz Server (Built for SOA) zur Verfügung und kann auch in Ihre unterschiedliche Bedeutung haben und nicht zugeordnet eigenen Applikationen und Prozesse integriert werden. werden sollten), als auch verschiedene erlaubte Schreibweisen für das gleiche Wort gibt, die gleich ausgesprochen werden und die gleiche Bedeutung haben und zugeordnet werden sollten. Symbolschriften – 愛子 Silbenschriften – あいこ Abugidas – ेवनागर Abugidas – ेवनागर Silbenschriften – あいこ Symbolschriften – 愛子 Abugidas sind charakteristisch für die indischen und äthiopischen Schriften. Bei dieser Art von Schrift werden nur Konsonanten geschrieben. Es gibt Standardvokale, die verwendet werden. Kommt ein besonderer Vokal zum Einsatz, wird er mit einer speziellen Markierung gekennzeichnet. Abugidas werden auch als Zwischenstufe von Alphabet und Silbenschrift angesehen. Beispiele für Abugidas: Indisch (Devanagari) / Singhalesisch Silbenschriften gehören wie Alphabete auch zu den phonografischen Schriften. In einer Silbenschrift steht jedes Zeichen für eine Silbe. Bei Symbolschriften steht jedes Zeichen für ein komplettes Wort. Zusammengesetzte Wörter bestehen aus mehreren Symbolen. Symbolschriften werden auch als logograpische Schrift bezeichnet. Beispiele für Silbenschriften: Japanisch (Hiragana) / Cherokee Beispiele für Symbolschriften: Chinesisch / Japanisch (Kanji) Über Omikron Worldmatch® (entwickelt für den unscharfen Abgleich Omikron zählt zu den führenden deutschen Unterneh- internationaler Daten) und die fehlertolerante Suche men im Bereich Datenqualität in Kunden-, Lieferan- FACT-Finder sorgen in allen Geschäftsprozessen für sau- ten- und Materialstammdaten. Omikron analysiert und bere Unternehmens-Informationen. Lösungen von Omi- überarbeitet bestehende Daten und bietet umfassen- kron verfügen über Schnittstellen zu wichtigen Unter- des Consulting für alle Fragen der Datenbereinigung nehmens-Anwendungen wie Microsoft Dynamics, SAP, und Datenqualitätssicherung. Intelligente Technologien salesforce.com und mehr. wie der Omikron Data Quality Server (built for SOA), Wir beraten Sie gerne: +49 7231 12597 0 Omikron Data Quality GmbH Habermehlstr. 17 75172 Pforzheim Telefon: +49 7231 12597 0 E-Mail: [email protected] www.omikron.net The Data Quality Company