Informatik Karsten Hoermann Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3 Diplomarbeit Bibliografische Information der Deutschen Nationalbibliothek: Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de/ abrufbar. Dieses Werk sowie alle darin enthaltenen einzelnen Beiträge und Abbildungen sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsschutz zugelassen ist, bedarf der vorherigen Zustimmung des Verlages. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen, Auswertungen durch Datenbanken und für die Einspeicherung und Verarbeitung in elektronische Systeme. Alle Rechte, auch die des auszugsweisen Nachdrucks, der fotomechanischen Wiedergabe (einschließlich Mikrokopie) sowie der Auswertung durch Datenbanken oder ähnliche Einrichtungen, vorbehalten. Copyright © 2001 Diplomica Verlag GmbH ISBN: 9783832463922 http://www.diplom.de/e-book/221822/entwicklung-eines-konzepts-zur-klassifizierung-und-zielgerichteten-nutzung Karsten Hoermann Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3 Diplom.de Karsten Hoermann Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3 Diplomarbeit an der Universität Dortmund April 2001 Abgabe ID 6392 ID 6392 Hoermann, Karsten: Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3 Hamburg: Diplomica GmbH, 2003 Zugl.: Dortmund, Universität, Diplomarbeit, 2001 Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen. Diplomica GmbH http://www.diplom.de, Hamburg 2003 Printed in Germany Abstract II Abstract In den letzten zehn Jahren ist die Menge der weltweit gesammelten und gespeicherten Daten immens angestiegen. Diese Daten können nur dann sinnvoll genutzt werden, wenn die Nutzenden wissen, wo und wie sie die Daten finden, was die Daten beinhalten und wie die Daten verwendet werden können. Im Verlauf der industriellen Auftragsabwicklung ist es z.B. notwendig, existierende Materialstammdaten schnellstmöglich wiederzufinden. Die Einordnung der Materialstammdaten in das Fachgebiet der Produktionsplanung und –steuerung verdeutlicht die Problematik. Dieser Zustand macht eine Datenauswertung mit traditionellen Mitteln unmöglich. Daher ist der Wunsch nach Verfahren entstanden, die automatisch interessante Muster aus großen Datenbeständen filtern. Aus dieser Zielsetzung ist das Forschungsgebiet des Knowledge Discovery in Databases (KDD) Anfang der 90er Jahre entstanden. Mit Hilfe eigener Methoden werden Abhängigkeiten und Regelmäßigkeiten zwischen Datenbankeinträgen und Dokumenten gefunden. Anschließend wird das gefundene Wissen in einer für den Menschen verständlichen Form präsentiert. In diesem Zusammenhang stellt ein von der SAP AG neu entwickeltes Tool eine Lösungsmöglichkeit für das Materialstammdatenmanagement dar. Dazu wird in der vorliegenden Arbeit das Thema KDD unter ausgewählten Aspekten analysiert. Das neuartige Tool soll in den KDD Prozeß integriert werden. Anschließend werden die einzelnen Schritte des KDD Prozeß für die Materialstammdaten diskutiert. Insgesamt wird ein Verfahren zur Wiederverwendung von Materialstammdaten mit Hilfe eines neuartigen Tool unter Verwendung von Methoden des KDD entworfen. Inhaltsverzeichnis III Inhaltsverzeichnis 1 EINLEITUNG....................................................................................................... 1 1.1 PROBLEMSTELLUNG ........................................................................................... 2 1.2 ZIELSETZUNG ..................................................................................................... 3 1.3 AUFBAU DER ARBEIT .......................................................................................... 3 2 ANWENDUNGEN BEI DER MGB ...................................................................... 7 2.1 SICHTWEISEN AUF DIE MATERIALSTAMMDATEN ..................................................... 8 2.1.1 Einkauf MPE ............................................................................................. 9 2.1.2 Turbokompressoren MPT2 ..................................................................... 10 2.1.3 Schraubenmaschinen MPT4 .................................................................. 11 2.1.4 Anlagentechnik MPP .............................................................................. 11 2.1.5 Fertigungstechnik MWL .......................................................................... 12 2.2 ERGEBNISSE DER PROZEßAUFNAHME BEI DER MGB ........................................... 13 2.3 ZUGRIFF AUF DIE MATERIALSTAMMDATEN ........................................................... 16 3 MATERIALSTAMMDATEN INNERHALB DER PRODUKTIONSPLANUNG UND -STEUERUNG ................................................................................................. 18 3.1 DIE BEDEUTUNG DER MATERIALSTAMMDATEN .................................................... 22 4 FALLSTUDIE: SAP R/3 .................................................................................... 25 4.1 DIE SAP R/3 ARCHITEKTUR ............................................................................. 25 4.2 DIE MATCHCODESUCHE IM SAP R/3-SYSTEM .................................................... 28 4.2.1 Das Prinzip der Matchcodes ................................................................... 29 4.3 DIE SUCHMASCHINE DRFUZZY ....................................................................... 33 4.3.1 Begriffsabgrenzung................................................................................. 33 4.3.1.1 Fuzzy Logic........................................................................................ 33 4.3.2 Funktionsumfang .................................................................................... 34 4.3.3 Interne Struktur ....................................................................................... 40 Inhaltsverzeichnis IV 4.3.4 Aufbau der Infrastruktur .......................................................................... 42 4.4 TESTREIHEN UND ERGEBNISSE .......................................................................... 44 5 KNOWLEDGE DISCOVERY IN DATENBANKEN UND DATA MINING .......... 49 5.1 DATEN, WISSEN UND INFORMATION ................................................................... 50 5.2 DIE BEGRIFFE DATA MINING UND KNOWLEDGE DISCOVERY IN DATENBANKEN ....... 51 5.2.1 Definitionen............................................................................................. 51 5.2.2 Begriffsabgrenzung................................................................................. 53 5.2.2.1 OLAP ................................................................................................. 53 5.2.2.2 Data Warehouse ................................................................................ 54 5.3 ANWENDUNGSGEBIETE DES KDD ...................................................................... 54 5.4 ZIELE DES DATA MINING UND DES KDD ............................................................. 55 5.5 HERAUSFORDERUNGEN DES DATA MINING UND DES KDD ................................... 56 5.6 METHODEN DES DATA MINING ........................................................................... 57 5.6.1 Clustering ............................................................................................... 58 5.6.1.1 Ähnlichkeits- und Distanzfunktionen .................................................. 59 5.6.1.2 Verfahren des Clustering ................................................................... 61 5.6.2 Klassifizierung......................................................................................... 65 5.6.2.1 Klassifizierung mit Hilfe von Entscheidungsbäumen.......................... 66 5.6.3 Assoziationsregeln.................................................................................. 70 5.6.3.1 Apriori Algorithmus............................................................................. 72 5.6.4 Generalisierung ...................................................................................... 75 5.6.5 Musterbasierte Ähnlichkeitssuche .......................................................... 76 5.6.6 Data Mining Ansätze für Text Retrieval Systeme.................................... 78 5.7 DER KDD PROZEß ........................................................................................... 81 5.7.1 Data Selection ........................................................................................ 83 5.7.2 Cleaning ................................................................................................. 85 5.7.3 Enrichment ............................................................................................. 86 Inhaltsverzeichnis V 5.7.4 Coding .................................................................................................... 87 5.7.5 Data Mining ............................................................................................ 90 5.7.6 Reporting ................................................................................................ 93 5.8 DIE KDD UMGEBUNG ....................................................................................... 94 6 ZUSAMMENFASSUNG .................................................................................... 96 6.1 FAZIT .............................................................................................................. 96 6.2 AUSBLICK ........................................................................................................ 97 7 LITERATURVERZEICHNIS .............................................................................. 99 Bildverzeichnis VI Bildverzeichnis Bild 1 : Informationsflut im Unternehmensalltag (in Anlehnung an /BULL95/, S. 16) .. 1 Bild 2 : Der Aufbau der Arbeit ..................................................................................... 4 Bild 3 : Das Kreuzmodell der betr. und techn. Integrationspfade (in Anlehnung an /MUCH95/, S. 201) ............................................................................................ 19 Bild 4 : Das Aufgabenmodell der PPS (in Anlehnung an /MUCH95/, S. 202) ........... 20 Bild 5 : Evolution der PPS-Planungskonzepte .......................................................... 20 Bild 6 : Das Y-Modell (in Anlehnung an /SCHE98/, S. 93)........................................ 23 Bild 7 : Die SAP R/3-Architektur (in Anlehnung an /SBIB99/) ................................... 27 Bild 8 : Prinzipdarstellung eines Matchcodes (in Anlehnung an /SAPH98/) ............. 29 Bild 9 : Aufbau eines logischen Matchcode (in Anlehnung an /SAPH98/) ................ 30 Bild 10 : Aufbau eines physischen Matchcode (in Anlehnung an /SAPH98/) ........... 31 Bild 11 : Ansicht des Dynpro zum Matchcodeobjekt MAT1 ...................................... 32 Bild 12 : Schematische Darstellung der DrFuzzy-Ablagestruktur (in Anlehnung an /DRFI99/, S. 14) ................................................................................................ 41 Bild 13 : Dreistufige Struktur für die Datensuche ...................................................... 43 Bild 14 : Die Struktur für den Suchmethodenvergleich ............................................. 45 Bild 15 : Schematische Darstellung einer zweidimensionalen Datenmenge (in Anlehnung an /FAYY96b/, S. 43) ...................................................................... 58 Bild 16 : Darstellung möglicher Cluster der zweidimensionalen Datenmenge (in Anlehnung an /FAYY96b/, S. 45) ...................................................................... 64 Bild 17 : Darstellung einer möglichen Klassifizierung der zweidimensionalen Datenmenge (in Anlehnung an /FAYY96b/, S. 44) ............................................ 66 Bild 18 : Darstellung eines Entscheidungsbaums für Wetterdaten (in Anlehnung an /QUIN86/, S. 87)................................................................................................ 68 Bild 19 : Prinzipdarstellung eines data cube für Verkaufsinformationen (in Anlehnung an /CHEN96/, S. 873)........................................................................................ 76 Bild 20 : Die Schritte des KDD Prozeß (in Anlehnung an /ADRI96/, S. 38) .............. 82 Bildverzeichnis VII Bild 21 : Ausschnitt eines möglichen Entscheidungsbaums für die Warengruppe 14000000 .......................................................................................................... 92 Tabellenverzeichnis VIII Tabellenverzeichnis Tabelle 1 : Darstellung der problemrelevanten Materialmerkmale............................ 15 Tabelle 2 : Stamm- und Bewegungsdaten von Datenobjekten (in Anlehnung an /MUCH95/, S. 257) ............................................................................................ 22 Tabelle 3 : Exemplarische Testreihen ...................................................................... 46 Tabelle 4 : Das Prinzip einer Objekt-Merkmal-Matrix (in Anlehnung an /STAH85/, S. 53) ..................................................................................................................... 59 Tabelle 5 : Tabelle der Übereinstimmungen zweier Objektvektoren (in Anlehnung an /STAH85/, S. 68) ............................................................................................... 60 Tabelle 6 : Beispielhafte Attribute und Werte für Wetterdaten (in Anlehnung an /QUIN86/, S. 85)................................................................................................ 67 Tabelle 7 : Eine Menge von Trainingsdaten (in Anlehnung an /QUIN86/, S. 86) ...... 67 Tabelle 8 : Beispiel einer Transaktionsdatenbank (in Anlehnung an /WILH00/) ....... 73 Tabelle 9 : Ein- und zweielementige itemsets mit berechneten Werten für den support (in Anlehnung an /WILH00/) ................................................................. 74 Tabelle 10 : Darstellung der itemsets und large itemsets (in Anlehnung an /WILH00/) .......................................................................................................................... 74 Tabelle 11 : Ausgangsdaten für das KDD ................................................................ 84 Tabelle 12 : Daten nach dem Enrichment ................................................................ 87 Tabelle 13 : Daten nach dem Entfernen von Attributen ............................................ 88 Tabelle 14 : Daten nach dem Coding ....................................................................... 89 Tabelle 15 : Transformierte Daten für das Data Mining ............................................ 90 Glossar IX Glossar • Classification (data classification) Das data classification beschreibt das Einordnen von Daten in Klassen mit Hilfe der jeweiligen Datenattributwerte /CHEN96/, S. 868. • Clustering (data clustering) Als Methode des Data Mining wird eine Menge von Daten ohne eine vordefinierte Klassenstruktur in eine endliche Menge von Gruppen geordnet. Das grundlegende Clustering Prinzip lautet: Maximale Ähnlichkeit zwischen den Objekten in einem Cluster; minimale Ähnlichkeit zwischen den einzelnen Clustern /CHEN96/, S. 868. • Data Mining „Data Mining is a step in the KDD process that consists of applying data analysis and discovery algorithms that, under acceptable computational efficiency limitations, produce a particular enumeration of patterns over the data“ /FAYY96b/, S. 41. • Datenbank Eine gespeicherte Menge von Datenelementen, die miteinander in Beziehung stehen. Applikationsprogramme können auf diese Daten zugreifen /MART95/, S. 335. • Datenbanksystem Ein Informationssystem, das eine Datenbank als Speicher für die benötigten Daten benutzt /MART95/, S. 335. • Dictionary Im (ABAP-) Dictionary des SAP Systems werden Datendefinitionen erfaßt und verwaltet. Es ermöglicht eine zentrale, redundanzfreie Beschreibung aller im System vorhandenen Datenstrukturen. Neu erfaßte oder geänderte Informationen werden allen Systemkomponenten automatisch zur Verfügung gestellt. Aus den im (ABAP-) Dictionary erfaßten Datendefinitionen können entsprechende Objekte (z.B. Tabellen oder Views) in der unterliegenden relationalen Datenbank erzeugt werden. Das (ABAP-) Dictionary beschreibt also die Struktur der Objekte der Anwendungsentwicklung und deren Abbildung in Tabellen bzw. Views auf der unterliegenden relationalen Datenbank /SBIB99/.