Vorlesung Grundlagen betrieblicher y Informationssysteme Prof. Dr. Hans Czap Lehrstuhl für Wirtschaftsinformatik I Email: Hans Hans.Czap@uni Czap@uni-trier trier.de de Lehrstuhl für Wirtschaftsinformatik I - II - 1 - Inhalt Kap. 1 Ziele der Datenbanktheorie Kap. 2 Datenmodellierung und Datenbankentwurf K Kap. 3D Datenbankarchitektur t b k hit kt Kap. 4 Die Datenbanksprache SQL Kap 5 Konzepte für Objektorientierte Datenbanken Kap. Kap. 6 Objektrelationale Datenbanken Kap. p 7 Datenbankentwurf: Funktionale Abhängigkeiten gg und Normalisierung Kap. 8 Datenintegrität • Sperrprotokolle • Recovery Kap 9 Data-Warehouse-Konzept Kap. Data Warehouse Konzept Kap. 10 Data Mining und Knowledge Discovery Lehrstuhl für Wirtschaftsinformatik I - II - 2 - Data-Mining und Knowledge Discovery • Aufgaben des Data Mining – Identifizierung von Beziehungsmustern (Regelmäßigkeiten oder auch Auffälligkeiten) der Daten einer Datensammlung (Abweichungsentdeckung) – Aufzeigen der logischen bzw. funktionalen Beziehungszusammenhänge: Ziel ist es, neue Zusammenhänge bzw. Zusammenhangsmuster (Pattern-Analyse) zu entdecken. Konkret ist dabei an Assoziationen bzw. der Analyse von S Sequenzen zu denken (Abhängigkeitsentdeckung, ( Regression)) – Klassifikation und Clusterbildung von Daten mit dem Ziel Risiko-Faktoren zu entdecken bzw. Erfolgsgruppen (z.B. für Marketing-Aktivitäten) zu identifizieren bzw. zu selektieren. Typisches Anwendungsbeispiel: Klassifikation von Konsumenten, die um einen Kredit nachsuchen, in Risikogruppen. • Klassifikation = Einteilung in vorgegebene Klassen • Clusterbildung = Einteilung aufgrund von Merkmalsausprägungen nach Ähnlichkeit bzw. Unähnlichkeit. Anzahl Klassen ist nicht vorgegeben. • Knowledge g Discovery y in Datenbanken ((KDD)) KDD wird zum Teil als Oberbegriff des Data-Mining gesehen, zum Teil als äquivalent. Es wird also in der Literatur nicht scharf zwischen KDD und DataMining gg getrennt. Soweit KDD als Oberbegriff g g gesehen wird,, wird das Data_Mining als Hilfsmittel bzw. Methode für KDD betrachtet. Lehrstuhl für Wirtschaftsinformatik I - II - 3 - Abhängigkeitsentdeckung • Warenkorbanalyse (Beispiel) WK# Kunden# Datum Artikel# Bezeichnung E-Preis Menge 134 201 02 12 97 02.12.97 432 Füller 35 2 134 201 02.12.97 120 Tinte 2 1 134 201 02.12.97 009 Heft 5 3 134 201 02.12.97 890 Seife 1 6 107 83 13.11.97 432 Füller 35 1 107 83 13 11 97 13.11.97 120 Ti t Tinte 2 1 107 83 13.11.97 009 Heft 5 1 110 135 13.11.97 432 Füller 35 1 110 135 13.11.97 009 Heft 5 1 103 201 26.08.97 432 Füller 35 2 103 201 26.08.97 120 Tinte 2 2 103 201 26.08.97 890 Seife 1 4 Lehrstuhl für Wirtschaftsinformatik I - II - 4 - Warenkorbanalyse • Vermutete Assoziation Wenn ein Füller gekauft wird, dann wird auch Tinte gekauft: Füller Î Tinte Hier: Betrachtungseinheit (BE) = Warenkorb, Items der Regel = Füller, Tinte • Definitionen # BE, die alle Items der Regel enthalten Support (einer Regel) = # aller in der Tabelle vorkommenden BE # BE, die alle Items der Regel enthalten Confidence(einer Regel) = # BE, die die Items des Voraussetzungsteils enthalten Folglich gilt für obige Regel: Lehrstuhl für Wirtschaftsinformatik I Support = ¾ , Confidence = ¾ . - II - 5 - Algorithmische Bestimmung von Regeln • • • Zur algorithmischen Bestimmung von Regeln sucht man zunächst nach Mengen von Items mit einem Support > s0, s0 vorgegebener Schwellenwert. Anschließend bildet man geeignete Teilmengen der Items LS und RS ( LS = left side, RS = right side) und bestimmt die Confidence der Regel LS Î RS. Es werden nur die Regeln akzeptiert, die eine Confidence > c0, c0 vorgegebener Minimalwert, haben. Lehrstuhl für Wirtschaftsinformatik I - II - 6 - Algorithmus • • • • • • • MI = Menge häufiger Item-Mengen Item-Mengen, Zu Beginn gilt MI = ∅. ∅ Teste für jedes Item I (genauer für jede ein-elementige Item-Menge I1), ob I häufig ist, d.h. in mehr als s0 BE (Warenkörben) vorkommt. Falls ja, ja MI := MI + {I}, {I} d.h. d h nimm I in MI auf. auf k sei Indikator für die größten in MI vorkommenden Item-Mengen. Zunächst gilt k:=1. Für jede Item-Menge Ik in MI mit k Elementen: Bilde sukzessive alle (k+1)-elementigen Obermengen Ik+1 ⊃ Ik und prüfe auf Häufigkeit Falls Ik+1 häufig g ist, nimm Ik+1 in MI auf: MI := MI + {{Ik+1}} Erhöhe k, k:=k+1. Wenn dieser Algorithmus mit den Werten s0 = 0,7 0 7 und c0 = 0,8 0 8 auf obiges Beispiel angewendet wird, erhält man folgende Mengen: k=1, MI = {{Füller},{Tinte},{Heft}} kk=2, 2, MI = {{Füller, Tinte },{Füller, Heft}} Die dreielementige Menge {Füller, Tinte, Heft} wird getestet und als nicht häufig verworfen. Die potentiellen Regeln lauten damit: Füller Î Tinte, Tinte Î Füller, Füller Î Heft und Heft Î , zu überprüfen. p Füller. Sie sind auf Confidence > 0,8 Damit verbleiben die Regeln Tinte Î Füller und Heft Î Füller. Lehrstuhl für Wirtschaftsinformatik I - II - 7 -