Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten

Werbung
Informatik
Karsten Hoermann
Entwicklung eines Konzepts zur
Klassifizierung und zielgerichteten Nutzung
historischer Materialstammdaten mit
Methoden des Data Mining am Beispiel SAP
R/3
Diplomarbeit
Bibliografische Information der Deutschen Nationalbibliothek:
Bibliografische Information der Deutschen Nationalbibliothek: Die Deutsche
Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie;
detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de/ abrufbar.
Dieses Werk sowie alle darin enthaltenen einzelnen Beiträge und Abbildungen
sind urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom
Urheberrechtsschutz zugelassen ist, bedarf der vorherigen Zustimmung des Verlages. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen,
Mikroverfilmungen, Auswertungen durch Datenbanken und für die Einspeicherung
und Verarbeitung in elektronische Systeme. Alle Rechte, auch die des auszugsweisen
Nachdrucks, der fotomechanischen Wiedergabe (einschließlich Mikrokopie) sowie
der Auswertung durch Datenbanken oder ähnliche Einrichtungen, vorbehalten.
Copyright © 2001 Diplomica Verlag GmbH
ISBN: 9783832463922
http://www.diplom.de/e-book/221822/entwicklung-eines-konzepts-zur-klassifizierung-und-zielgerichteten-nutzung
Karsten Hoermann
Entwicklung eines Konzepts zur Klassifizierung und
zielgerichteten Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel SAP R/3
Diplom.de
Karsten Hoermann
Entwicklung eines Konzepts zur
Klassifizierung und zielgerichteten
Nutzung historischer
Materialstammdaten mit Methoden
des Data Mining am Beispiel SAP R/3
Diplomarbeit
an der Universität Dortmund
April 2001 Abgabe
ID 6392
ID 6392
Hoermann, Karsten: Entwicklung eines Konzepts zur Klassifizierung und zielgerichteten
Nutzung historischer Materialstammdaten mit Methoden des Data Mining am Beispiel
SAP R/3
Hamburg: Diplomica GmbH, 2003
Zugl.: Dortmund, Universität, Diplomarbeit, 2001
Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte,
insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von
Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der
Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen,
bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung
dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen
der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik
Deutschland in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich
vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des
Urheberrechtes.
Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in
diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme,
dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei
zu betrachten wären und daher von jedermann benutzt werden dürften.
Die Informationen in diesem Werk wurden mit Sorgfalt erarbeitet. Dennoch können
Fehler nicht vollständig ausgeschlossen werden, und die Diplomarbeiten Agentur, die
Autoren oder Übersetzer übernehmen keine juristische Verantwortung oder irgendeine
Haftung für evtl. verbliebene fehlerhafte Angaben und deren Folgen.
Diplomica GmbH
http://www.diplom.de, Hamburg 2003
Printed in Germany
Abstract
II
Abstract
In den letzten zehn Jahren ist die Menge der weltweit gesammelten und gespeicherten Daten immens angestiegen. Diese Daten können nur dann sinnvoll genutzt werden, wenn die Nutzenden wissen, wo und wie sie die Daten finden, was die Daten
beinhalten und wie die Daten verwendet werden können. Im Verlauf der industriellen
Auftragsabwicklung
ist
es
z.B.
notwendig,
existierende
Materialstammdaten
schnellstmöglich wiederzufinden. Die Einordnung der Materialstammdaten in das
Fachgebiet der Produktionsplanung und –steuerung verdeutlicht die Problematik.
Dieser Zustand macht eine Datenauswertung mit traditionellen Mitteln unmöglich.
Daher ist der Wunsch nach Verfahren entstanden, die automatisch interessante Muster aus großen Datenbeständen filtern. Aus dieser Zielsetzung ist das Forschungsgebiet des Knowledge Discovery in Databases (KDD) Anfang der 90er Jahre entstanden. Mit Hilfe eigener Methoden werden Abhängigkeiten und Regelmäßigkeiten
zwischen Datenbankeinträgen und Dokumenten gefunden. Anschließend wird das
gefundene Wissen in einer für den Menschen verständlichen Form präsentiert. In
diesem Zusammenhang stellt ein von der SAP AG neu entwickeltes Tool eine Lösungsmöglichkeit für das Materialstammdatenmanagement dar. Dazu wird in der vorliegenden Arbeit das Thema KDD unter ausgewählten Aspekten analysiert. Das neuartige Tool soll in den KDD Prozeß integriert werden. Anschließend werden die einzelnen Schritte des KDD Prozeß für die Materialstammdaten diskutiert. Insgesamt
wird ein Verfahren zur Wiederverwendung von Materialstammdaten mit Hilfe eines
neuartigen Tool unter Verwendung von Methoden des KDD entworfen.
Inhaltsverzeichnis
III
Inhaltsverzeichnis
1
EINLEITUNG....................................................................................................... 1
1.1 PROBLEMSTELLUNG ........................................................................................... 2
1.2 ZIELSETZUNG ..................................................................................................... 3
1.3 AUFBAU DER ARBEIT .......................................................................................... 3
2
ANWENDUNGEN BEI DER MGB ...................................................................... 7
2.1 SICHTWEISEN AUF DIE MATERIALSTAMMDATEN ..................................................... 8
2.1.1 Einkauf MPE ............................................................................................. 9
2.1.2 Turbokompressoren MPT2 ..................................................................... 10
2.1.3 Schraubenmaschinen MPT4 .................................................................. 11
2.1.4 Anlagentechnik MPP .............................................................................. 11
2.1.5 Fertigungstechnik MWL .......................................................................... 12
2.2 ERGEBNISSE DER PROZEßAUFNAHME BEI DER MGB ........................................... 13
2.3 ZUGRIFF AUF DIE MATERIALSTAMMDATEN ........................................................... 16
3
MATERIALSTAMMDATEN
INNERHALB
DER
PRODUKTIONSPLANUNG
UND -STEUERUNG ................................................................................................. 18
3.1 DIE BEDEUTUNG DER MATERIALSTAMMDATEN .................................................... 22
4
FALLSTUDIE: SAP R/3 .................................................................................... 25
4.1 DIE SAP R/3 ARCHITEKTUR ............................................................................. 25
4.2 DIE MATCHCODESUCHE IM SAP R/3-SYSTEM .................................................... 28
4.2.1 Das Prinzip der Matchcodes ................................................................... 29
4.3 DIE SUCHMASCHINE DRFUZZY ....................................................................... 33
4.3.1 Begriffsabgrenzung................................................................................. 33
4.3.1.1 Fuzzy Logic........................................................................................ 33
4.3.2 Funktionsumfang .................................................................................... 34
4.3.3 Interne Struktur ....................................................................................... 40
Inhaltsverzeichnis
IV
4.3.4 Aufbau der Infrastruktur .......................................................................... 42
4.4 TESTREIHEN UND ERGEBNISSE .......................................................................... 44
5
KNOWLEDGE DISCOVERY IN DATENBANKEN UND DATA MINING .......... 49
5.1 DATEN, WISSEN UND INFORMATION ................................................................... 50
5.2 DIE BEGRIFFE DATA MINING UND KNOWLEDGE DISCOVERY IN DATENBANKEN ....... 51
5.2.1 Definitionen............................................................................................. 51
5.2.2 Begriffsabgrenzung................................................................................. 53
5.2.2.1 OLAP ................................................................................................. 53
5.2.2.2 Data Warehouse ................................................................................ 54
5.3 ANWENDUNGSGEBIETE DES KDD ...................................................................... 54
5.4 ZIELE DES DATA MINING UND DES KDD ............................................................. 55
5.5 HERAUSFORDERUNGEN DES DATA MINING UND DES KDD ................................... 56
5.6 METHODEN DES DATA MINING ........................................................................... 57
5.6.1 Clustering ............................................................................................... 58
5.6.1.1 Ähnlichkeits- und Distanzfunktionen .................................................. 59
5.6.1.2 Verfahren des Clustering ................................................................... 61
5.6.2 Klassifizierung......................................................................................... 65
5.6.2.1 Klassifizierung mit Hilfe von Entscheidungsbäumen.......................... 66
5.6.3 Assoziationsregeln.................................................................................. 70
5.6.3.1 Apriori Algorithmus............................................................................. 72
5.6.4 Generalisierung ...................................................................................... 75
5.6.5 Musterbasierte Ähnlichkeitssuche .......................................................... 76
5.6.6 Data Mining Ansätze für Text Retrieval Systeme.................................... 78
5.7 DER KDD PROZEß ........................................................................................... 81
5.7.1 Data Selection ........................................................................................ 83
5.7.2 Cleaning ................................................................................................. 85
5.7.3 Enrichment ............................................................................................. 86
Inhaltsverzeichnis
V
5.7.4 Coding .................................................................................................... 87
5.7.5 Data Mining ............................................................................................ 90
5.7.6 Reporting ................................................................................................ 93
5.8 DIE KDD UMGEBUNG ....................................................................................... 94
6
ZUSAMMENFASSUNG .................................................................................... 96
6.1 FAZIT .............................................................................................................. 96
6.2 AUSBLICK ........................................................................................................ 97
7
LITERATURVERZEICHNIS .............................................................................. 99
Bildverzeichnis
VI
Bildverzeichnis
Bild 1 : Informationsflut im Unternehmensalltag (in Anlehnung an /BULL95/, S. 16) .. 1
Bild 2 : Der Aufbau der Arbeit ..................................................................................... 4
Bild 3 : Das Kreuzmodell der betr. und techn. Integrationspfade (in Anlehnung an
/MUCH95/, S. 201) ............................................................................................ 19
Bild 4 : Das Aufgabenmodell der PPS (in Anlehnung an /MUCH95/, S. 202) ........... 20
Bild 5 : Evolution der PPS-Planungskonzepte .......................................................... 20
Bild 6 : Das Y-Modell (in Anlehnung an /SCHE98/, S. 93)........................................ 23
Bild 7 : Die SAP R/3-Architektur (in Anlehnung an /SBIB99/) ................................... 27
Bild 8 : Prinzipdarstellung eines Matchcodes (in Anlehnung an /SAPH98/) ............. 29
Bild 9 : Aufbau eines logischen Matchcode (in Anlehnung an /SAPH98/) ................ 30
Bild 10 : Aufbau eines physischen Matchcode (in Anlehnung an /SAPH98/) ........... 31
Bild 11 : Ansicht des Dynpro zum Matchcodeobjekt MAT1 ...................................... 32
Bild 12 : Schematische Darstellung der DrFuzzy-Ablagestruktur (in Anlehnung an
/DRFI99/, S. 14) ................................................................................................ 41
Bild 13 : Dreistufige Struktur für die Datensuche ...................................................... 43
Bild 14 : Die Struktur für den Suchmethodenvergleich ............................................. 45
Bild 15 : Schematische Darstellung einer zweidimensionalen Datenmenge (in
Anlehnung an /FAYY96b/, S. 43) ...................................................................... 58
Bild 16 : Darstellung möglicher Cluster der zweidimensionalen Datenmenge (in
Anlehnung an /FAYY96b/, S. 45) ...................................................................... 64
Bild 17 : Darstellung einer möglichen Klassifizierung der zweidimensionalen
Datenmenge (in Anlehnung an /FAYY96b/, S. 44) ............................................ 66
Bild 18 : Darstellung eines Entscheidungsbaums für Wetterdaten (in Anlehnung an
/QUIN86/, S. 87)................................................................................................ 68
Bild 19 : Prinzipdarstellung eines data cube für Verkaufsinformationen (in Anlehnung
an /CHEN96/, S. 873)........................................................................................ 76
Bild 20 : Die Schritte des KDD Prozeß (in Anlehnung an /ADRI96/, S. 38) .............. 82
Bildverzeichnis
VII
Bild 21 : Ausschnitt eines möglichen Entscheidungsbaums für die Warengruppe
14000000 .......................................................................................................... 92
Tabellenverzeichnis
VIII
Tabellenverzeichnis
Tabelle 1 : Darstellung der problemrelevanten Materialmerkmale............................ 15
Tabelle 2 : Stamm- und Bewegungsdaten von Datenobjekten (in Anlehnung an
/MUCH95/, S. 257) ............................................................................................ 22
Tabelle 3 : Exemplarische Testreihen ...................................................................... 46
Tabelle 4 : Das Prinzip einer Objekt-Merkmal-Matrix (in Anlehnung an /STAH85/, S.
53) ..................................................................................................................... 59
Tabelle 5 : Tabelle der Übereinstimmungen zweier Objektvektoren (in Anlehnung an
/STAH85/, S. 68) ............................................................................................... 60
Tabelle 6 : Beispielhafte Attribute und Werte für Wetterdaten (in Anlehnung an
/QUIN86/, S. 85)................................................................................................ 67
Tabelle 7 : Eine Menge von Trainingsdaten (in Anlehnung an /QUIN86/, S. 86) ...... 67
Tabelle 8 : Beispiel einer Transaktionsdatenbank (in Anlehnung an /WILH00/) ....... 73
Tabelle 9 : Ein- und zweielementige itemsets mit berechneten Werten für den
support (in Anlehnung an /WILH00/) ................................................................. 74
Tabelle 10 : Darstellung der itemsets und large itemsets (in Anlehnung an /WILH00/)
.......................................................................................................................... 74
Tabelle 11 : Ausgangsdaten für das KDD ................................................................ 84
Tabelle 12 : Daten nach dem Enrichment ................................................................ 87
Tabelle 13 : Daten nach dem Entfernen von Attributen ............................................ 88
Tabelle 14 : Daten nach dem Coding ....................................................................... 89
Tabelle 15 : Transformierte Daten für das Data Mining ............................................ 90
Glossar
IX
Glossar
•
Classification (data classification)
Das data classification beschreibt das Einordnen von Daten in Klassen mit Hilfe der
jeweiligen Datenattributwerte /CHEN96/, S. 868.
•
Clustering (data clustering)
Als Methode des Data Mining wird eine Menge von Daten ohne eine vordefinierte
Klassenstruktur in eine endliche Menge von Gruppen geordnet. Das grundlegende
Clustering Prinzip lautet: Maximale Ähnlichkeit zwischen den Objekten in einem Cluster; minimale Ähnlichkeit zwischen den einzelnen Clustern /CHEN96/, S. 868.
•
Data Mining
„Data Mining is a step in the KDD process that consists of applying data analysis
and discovery algorithms that, under acceptable computational efficiency limitations,
produce a particular enumeration of patterns over the data“ /FAYY96b/, S. 41.
•
Datenbank
Eine gespeicherte Menge von Datenelementen, die miteinander in Beziehung stehen. Applikationsprogramme können auf diese Daten zugreifen /MART95/, S. 335.
•
Datenbanksystem
Ein Informationssystem, das eine Datenbank als Speicher für die benötigten Daten
benutzt /MART95/, S. 335.
•
Dictionary
Im (ABAP-) Dictionary des SAP Systems werden Datendefinitionen erfaßt und verwaltet. Es ermöglicht eine zentrale, redundanzfreie Beschreibung aller im System
vorhandenen Datenstrukturen. Neu erfaßte oder geänderte Informationen werden
allen Systemkomponenten automatisch zur Verfügung gestellt. Aus den im (ABAP-)
Dictionary erfaßten Datendefinitionen können entsprechende Objekte (z.B. Tabellen
oder Views) in der unterliegenden relationalen Datenbank erzeugt werden. Das (ABAP-) Dictionary beschreibt also die Struktur der Objekte der Anwendungsentwicklung und deren Abbildung in Tabellen bzw. Views auf der unterliegenden relationalen
Datenbank /SBIB99/.
Herunterladen