Data Mining - LMU Munich

Werbung
LUDWIGMAXIMILIANSUNIVERSITY
MUNICH
DEPARTMENT
INSTITUTE FOR
INFORMATICS
DATABASE
SYSTEMS
GROUP
Skript zur Vorlesung:
Einführung in die Informatik: Systeme und Anwendungen
Sommersemester 2013
Kapitel
i 4: Data Mining
i i
Vorlesung: PD Dr. Peer Kröger
Übungen: Johannes Niedermayer
Skript © 2004 Christian Böhm, Peer Kröger
http://www dbs ifi lmu de/cms/ Einführung_in_die_Informatik_Systeme_und_Anwendungen
http://www.dbs.ifi.lmu.de/cms/
Einführung in die Informatik Systeme und Anwendungen
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Überblick
4.1 Einleitung
4.2 Clustering
4.3 Klassifikation
4.4 Outlier Detection
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
2
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Motivation
Kreditkarten
Scanner-Kassen
Telefongesellschaft
Datenbanken
Astronomie
• Riesige Datenmengen werden in Datenbanken gesammelt
• Analysen
A l
kö
können nicht
i h mehr
h manuell
ll durchgeführt
d h füh werden
d
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
3
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Big Data
• Das Schlagwort
g
“Big
g Data” g
geht zurück auf einen Report
p
von McKinsey
y
vom May 2011
(http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation)
• “The
The amount of data in our world has been exploding
exploding, and analyzing
large data sets—so-called big data—will become a key basis of
competition,
p
underpinning
p
g new waves of productivity
p
y growth,
g
innovation, and consumer surplus […]”
• “Data have swept into every industry and business function and are now
an important
i
ffactor off production,
d i
alongside
l
id labor
l b and
d capital”
i l”
– Wertschöpfungspotential im US Healthcare Sektor: > $300 Millionen
– Wertschöpfungspotential im öffentlichen Sektor der EU: > €100 Millionen
•
“There will be a shortage of talent necessary for organizations to take
advantage of big data. By 2018, the United States alone could face a
shortage of 140,000 to 190,000 people with deep analytical skills as well
as 1.5 million managers and analysts with the know-how to use the
analysis of big data to make effective decisions.
decisions ”
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
4
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Big Data
• Data Mining
g ist offensichtlich eine der entscheidenden Technologien
g
um Big Data in den Griff zu bekommen
• Im Übrigen gibt es seit ca. 40 Jahren (!!!) die Konferenz on Very Large
Databases – schönen Gruss Herr McKinsey ;-)
(htt //
(http://www.vldb.org/)
ldb
/)
• Achtung: Big Data ist nicht notwendigerweise nur “einfach
einfach groß
groß”
=> Die drei V’s (the three V’s characterizing big data)
– Volume
– Velocity
– Variety
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
5
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
A Paradigm Shift in Science?
• Some 1
1,000
000 years ago
ago, science was empirical
(describing natural phenomena)
• Last few hundred years,
years science was theoretical
(Models, generalizations)
• Last few decades, science became computational
(d t iintensive)
(data
t
i )
– Computational methods for simulation
– Automatic
A t
ti data
d t generation,
ti
high-throughput
hi h th
h t methods,
th d
…
• Data Sciene
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
6
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
A Paradigm Shift in Science?
• Wissenschatler produzieren eine riesige Menge
an Daten über die Phänomene, die sie
untersuchen
• Bottom-up und top-down Modelle:
– Bottom-up:
Bottom up:
• Von Experten über Jahre hinweg erforscht
g Beobachtungen
g abgeleitet
g
• Meist aus wenigen
– Top-down:
• Mit Hilfe von Data Mining Methoden erzeugt
• Meist aus großen Datenmengen abgeleitet
• Fragestellungen für die Informatik:
– Wie können top-down-Modelle erzeugt werden
– Wie können sich mehrere Modell sinnvoll verknüpfen
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
7
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Knowledge Discovery in Databases
• Knowledge Discovery in Databases (KDD) ist der Prozess der
(semi-) automatischen Extraktion von Wissen aus Datenbanken,
das
•
•
•
gültig
bisher unbekannt
und potentiell nützlich ist.
• Bemerkungen:
•
•
•
•
(semi ) automatisch: im Unterschied zu manueller Analyse.
(semi-)
Häufig ist trotzdem Interaktion mit dem Benutzer nötig.
gültig: im statistischen Sinn.
bisher unbekannt: bisher nicht explizit, kein „Allgemeinwissen“.
potentiell nützlich: für eine gegebene Anwendung.
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
8
Muster
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
• Bewertun
B
ng der Intteressantthheit durch
h den Beenutzer
• V
Validierun
ng: Statistische
Prüfung d
P
der Modeelle
Data
Mining
Evvaluationn
Datenbank
• Generieru
G
ung der M
Muster
bbzw. Mod
delle
Transformation
Daata Mining
• Diskretisi
D
ierung nu
umerisscher Merkmale
• A
Ableitung
g neuer M
Merkmalle
• S
Selektion
n relevantter Merk
km.
Fokussieren Vorverarbeit ng
beitung
Traansform
mation
• Inntegratio
on von D
Daten aus
uunterschiedlichen
n Quellen
n
• V
Vervollstäändigung
g
• K
Konsisten
nzprüfun
ng
Vorverarbeeitung:
DATABASE
SYSTEMS
GROUP
• B
Beschaffu
ung der D
Daten
• V
Verwaltun
ng (File//DB)
• S
Selektion
n relevantter Daten
n
Fokussiereen:
Kapitel 4: Data Mining
Der KDD
KDD-Prozess
Prozess (Modell)
Prozessmodell nach Fayyad, Piatetsky-Shapiro & Smyth
Evaluation
Wissen
9
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Objekt-Merkmale
Objekt
Merkmale (Feature)
• Oft sind die betrachteten Objekte komplex
• Eine Aufgabe des KDD-Experten ist dann, geeignete Merkmale
(Features) zu definieren bzw. auszuwählen, die für die Unterscheidung
(Kl ifik i Ähnlichkeit)
(Klassifikation,
Äh li hk i ) der
d Objekte
Obj k relevant
l
sind.
i d
• Diese Merkmale können dann z.B. in einer Tabelle in einem (rel.)
DBMS verwaltet werden
• Beispiel: CAD-Zeichnungen:
Mö li h Merkmale:
Mögliche
M k l
• Höhe h
• Breite w
ax2+bx+c
• Kurvatur-Parameter
(a,b,c)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
10
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Feature-Vektoren
Feature
Vektoren
Objekt-Raum
Objekt
Raum
Merkmals-Raum
Merkmals
Raum
ObjektID h w a
h
w
Relation
b
c
(h, w, a, b, c)
c
h
b
a
w
ax2+bx+c
bx c
• Im Kontext von statistischen Betrachtungen
g werden die Merkmale
häufig auch als Variablen bezeichnet
• Die ausgewählten Merkmale werden zu Merkmals-Vektoren (Feature
V t ) zusammengefasst
Vector)
f t
• Der Merkmalsraum ist häufig hochdimensional (im Beispiel 5-dim.)
• Merkmale sind oft nummerisch ((=> Euklidischer Vektorraum),
), können
aber auch kategorisch, ordinal, etc. sein (siehe übernächste Folie)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
11
Kapitel 4: Data Mining
Feature-Vektoren
Feature
Vektoren (weitere Beispiele)
Bilddatenbanken:
Farbhistogramme
Häufigk
keit
DATABASE
SYSTEMS
GROUP
Farbe
Gen-Datenbanken:
Expressionslevel
Text-Datenbanken:
Begriffs-Häufigkeiten
Data
Mining
Feature
Object
...
25
15
12
7
Der Feature-Ansatz ermöglicht einheitliche Behandlung von Objekten
verschiedenster Anwendungsklassen
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
12
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Feature: verschiedene Kategorien
Nominal (kategorisch)
Ordinal
Metrisch
Charakteristik:
Charakteristik:
Charakteristik:
Nur feststellbar, ob der Wert
gleich oder verschieden ist. Keine
Richtung (besser
(besser, schlechter) und
kein Abstand.
Merkmale mit nur zwei Werten
nennt man dichotom.
Es existiert eine
Ordnungsrelation
(besser/schlechter) zwischen
den Kategorien, aber kein
einheitlicher Abstand.
Sowohl Differenzen als auch
Verhältnisse zwischen den
Werten sind aussagekräftig.
aussagekräftig
Die Werte können diskret
oder stetig sein.
Beispiele:
Beispiele:
Beispiele:
Geschlecht (dichotom)
Augenfarbe
Gesund/krank (dichotom)
Schulnote (metrisch?)
Güteklasse
Altersklasse
Gewicht (stetig)
Verkaufszahl (diskret)
Alter (stetig oder diskret)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
13
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Ähnlichkeit von Objekten
• Definiere ein Distanzmaß δ auf den Feature Vektoren
• Zu einem Anfrage-Objekt qDB kann man dann …
– … ähnliche Objekte suchen – Range-Query (Radius )
alternative Schreibweise
für Mengendifferenz:
A\B = A – B
RQ(q,DB | (q,o)   }
– … die k ähnlichsten Objekte suchen– Nearest Neighbor Query
NN(q,k)  DB mit k Objekten, sodass oNN(q,k), pDB\NN(q,k) : (q,o)  (q,p)
Distanz im Feature-Raum ≈ (Un-)Ähnlichkeit der ursprünglichen Objekte
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
14
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Distanzmaße für nummerische Features
E klidi h Norm
Euklidische
N
(L2):
)
M h
Manhattan-Norm
N
(L1):
)
M i
Maximums-Norm
N
(L):
)
1(x,y) = ((x1y1)2+(x2y2)2+...)1/2
2(x,y) = |x1y1|+|x2y2|+...
(x,y) = max{|x1y1|, |x2y2|,...}
x
x
y
y
Abstand in Euklidischen Raum
(natürliche Distanz)
Die Unähnlichkeiten
der einzelnen Merkmale
werden direkt addiert
x
y
Die Unähnlichkeit des
am wenigsten ähnlichen
Merkmals zählt
Verallgemeinerung
g
g Lp-Abstandsmaß:
p(x,y) = (|x1y1|p + |x2y2|p + ...)1/p
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
15
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
•
Gewichtete Distanzmaße
Viele Varianten ggewichten verschiedene Merkmale unterschiedlich stark.
y
x
x
y
Gewichtete Euklidische Distanz
 p , w ( x, y ) 
d
p
 wi  xi  yi
Mahalanobis Distanz
p
  ( x, y )  ( x  y )T   1  ( x  y )
i1
•
 = Kovarianz-Matrix
Statt Distanzmaßen verwendet man auch manchmal Ähnlichkeitsmaße
Ä
– Distanzmaß: je höher der Wert, desto unähnlicher
– Ähnlichkeitsmaß: je höher der Wert,
Wert desto ähnlicher
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
16
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
•
Kategorien von Data Mining
Klassen von Data-Mining-Verfahren
g
–
–
–
–
–
•
•
•
•
Clustering
Outlier Detection
Klassifikation
Regression
F
Frequent
t Pattern
P tt
Mining
Mi i
normalerweise unsupervised
normalerweise supervised
Supervised: Trainingsphase erforderlich, der Lernerfolg kann überwacht
werden.
Unsupervised: Die Methode lernt nicht, sondern findet Muster, die einem
bestimmten Modell entsprechen.
Viele Methoden arbeiten auf Merkmalsvektoren, meist explizit auf Euklidischen
Räumen (nur nummerische Merkmale)
=> wir konzentrieren uns hier auf Euklidische Merkmalsräume
Darüber hinaus gibt es zahlreiche Verfahren, die nicht auf Merkmalsvektoren,
sondern direkt auf Texten,
Texten Mengen,
Mengen Graphen usw.
usw arbeiten
arbeiten.
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
17
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Überblick
4.1 Einleitung
4.2 Clustering
4.3 Klassifikation
4.4 Outlier Detection
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
18
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Clustering
Cluster 1: Klammern
Cluster 2: Nägel
• Ein Grundmodell des Clustering ist:
Zerlegung (Partitionierung) einer Menge von Objekten (bzw. FeatureVektoren) in Teilmengen (Cluster), so dass
• Objekte im gleichen Cluster möglichst ähnlich sind
• Objekte aus verschiedenen Clustern möglichst unähnlich sind
Idee: Die verschiedenen Cluster repräsentieren meist unterschiedliche Klassen
von Objekten; bei evtl.
evtl unbek.
unbek Anzahl und Bedeutung der Klassen
 Im Euklidischen Raum:
Fi d Regionen,
Finde
R i
in
i denen
d
die
di Punkte
P kt näher
äh zusammen liegen
li
(dichter
(di ht sind?)
i d?)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
19
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Ziel des Clustering
Herausforderungen:
g
• Cluster unterschiedlicher Größe, Form und Dichte
• hierarchische Cluster
• Rauschen
Ra schen (Noise)
=> unterschiedliche Clustering-Algorithmen
Hier: Partitionierendes Verfahren
• Parameter: Anzahl k der Cluster
• sucht eine Partitionierung in k Cluster
• Cluster sind daher meist sphärisch, Rauschen wird nicht berücksichtigt
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
20
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren
Grundlagen
• Ziel
– Partitionierung in k Cluster so dass eine Kostenfunktion minimiert wird
(Gütekriterium)
• Lokal optimierendes Verfahren
– wähle k initiale Cluster-Repräsentanten
– optimiere diese Repräsentanten iterativ
– ordne jedes Objekt seinem ähnlichsten Repräsentanten zu
• Typen von Cluster
Cluster-Repräsentanten
Repräsentanten
– Mittelwert des Clusters (Centroid)
– Element des Clusters (Medoid)
– Wahrscheinlichkeitsverteilung des Clusters (Erwartungsmaximierung)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
21
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren
Beispiel
Cluster
schlechtes Clustering
5
Cluster-Repräsentanten
x
5
x
x
1
C t id
x Centroide
1
1
1
5
x
5
5
5
x
optimales Clustering
x
1
1
1
5
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
1
x Centroide
5
22
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
Grundbegriffe
• Objekte sind Punkte p=(p1, ..., pd) in einem d-dimensionalen
euklidischen
klidi h Vektorraum
V kt
Datenstrukturen:
Für Punkte:
RECORD Punkt =
(
ID : Nat
f1 : Real
…
fd : Real
)
Für eine Menge von Punkten:
PunktList
• δ = euklidische Distanz auf dem Record-Typ Punkte, d.h.
δ : Punkt × Punkt  Real
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
23
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
• Centroid C: Mittelwert aller Punkte im Cluster C (ist selbst wieder vom
Typ Punkt)
• Maß für die Kosten (Kompaktheit) eines Clusters C
TD 2 (C )    ( p, C ) 2
pC
• Maß für die Kosten (Kompaktheit) eines Clustering (aus k Clustern)
k
TD   TD 2 (Ci )
2
i 1
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
24
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
Idee des Algorithmus
• Algorithmus startet z.B. mit zufällig gewählten Punkten als ClusterRepräsentanten
p
• Der Algorithmus besteht aus zwei alternierenden Schritten:
– Zuordnung jedes Datenpunktes zum räumlich nächsten Repräsentanten
– Neuberechnung der Repräsentanten (Centroid der zugeordneten Punkte)
• Diese Schritte werden so lange wiederholt, bis sich keine Änderung
mehr
h ergibt
ibt
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
25
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
Algorithmus
algorithmus kMeansClustering
input
k: Nat, D: PunktList
// Anzahl der Cluster, Punktemenge, die geclustert wird
output
C: PunktList
// Liste der finalen Centroide
variables
C1, …, Ck: Punkt,
// die Centroide der k Cluster
C‘: PunktList
// Liste der neu bestimmten Centroide
g
begin
// Erzeuge eine „initiale“ Zerlegung von D in k Klassen;
Ziehe zufällig k Elemente aus der Liste D und speichere sie in C1, …, Ck;
Berechne die Menge C’={C1, ..., Ck} der Zentroide für die k Klassen;
C = {};
while C  C’
// es ändert sich noch etwas
do {
C=C
C‘
// die aktuellen Centroide
Ordne alle Punkte aus D neu zum nächstliegenden Centroid aus C zu;
// für jeden Punkt p in D und alle 1i k muss δ(p, Ci) berechnet werden
Bestimme die Menge C
C’={C’
={C 1, ..., C
C’k} der Centroide neu;
}
return C;
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
26
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
Beispiel
10
10
9
9
8
8
7
7
Berechnung der
neuen Zentroide
6
5
4
6
5
4
3
3
2
2
1
1
0
0
0
1
2
3
4
5
6
7
8
9
10
0
1
2
3
4
5
6
7
8
9
10
6
7
8
9
10
Zuordnung zum nächsten Zentroid
10
10
9
9
8
8
7
7
6
6
5
5
4
4
Berechnung der
neuen Zentroide
3
2
1
0
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10
0
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
1
2
3
4
5
27
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Partitionierende Verfahren: k-means
k means
Diskussion
+ Effizienz:
• Anzahl
A
hl d
der It
Iterationen
ti
iistt iim allgemeinen
ll
i
kl
klein
i ((~ 5 - 10).
10)
+ einfache Implementierung:
• k-means
k
i td
ist
das populärste
lä t partitionierende
titi i
d Cl
Clustering-Verfahren
t i V f h
 Anfälligkeit gegenüber Rauschen und Ausreißern
(alle Objekte gehen ein in die Berechnung des Centroids)
 Cluster müssen konvexe Form haben
 die Anzahl k der Cluster muss bekannt sein
 starke Abhängigkeit von der initialen Zerlegung
(sowohl Ergebnis als auch Laufzeit)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
28
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Erweiterung auf kategorische Merkmale
• k-means-Verfahren nicht direkt für kategorische
g
Attribute anwendbar
=> gesucht ist ein Analogon zum Centroid eines Clusters
• Idee
– Centroid einer Menge C von Objekten minimiert die Distanzen aller Elemente aus C zu
sich
– Diese Intuition kann auf kategorische Daten angewandt werden
– Der Centroid heißt nun Mode
– Der Mode m einer Menge C von Objekten minimiert ebenfalls die Distanzen aller
El
Elemente
t aus C zu sich
i h
– ( m ist nicht unbedingt ein Element der Menge C )
• Eine Distanzfunktion dist für kategorische Attribute kann z.B. wie folgt
definiert werden
0, falls xi  yi
dist ( x, y )    ( xi, yi ) mit  ( xi, yi )  
i 1
1, sonst
d
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
29
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Erweiterung auf kategorische Merkmale
• Bestimmung
g des Modes
– Die Funktion TD ( C , m)   dist ( p , m)
wird genau dann
p C
minimiert, wenn für m = (m1, ..., md) und für alle Attribute Ai, i = 1,..., d, gilt:
Es gibt in Ai keinen häufigeren Attributwert als mi
– Der Mode einer Menge von Objekten ist nicht eindeutig bestimmt.
– Beispiel
Objektmenge {(a, b), (a,c), (c, b), (a,d), (b,c)}
id A1 A2
( b) iistt ein
(a,
i M
Mode
d
a
b
1
(a, c) ist ein Mode
a
c
2
• Anpassungen des Algorithmus
– Initialisierung
3
4
5
c
a
b
b
d
c
• keine zufällige Partitionierung
• sondern k Objekte a
auss der Datenmenge als initiale Modes
– Cluster-Repräsentanten
• Mode anstelle des Centroids
– Distanzfunktion für kategorische Daten
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
30
Kapitel 4: Data Mining
DATABASE
SYSTEMS
GROUP
Clustering: Schlussbemerkungen
• Clustering
g wird angewendet
g
um Gruppen
pp von ähnlichen Objekten
j
zu
entdecken (ohne die Gruppen vorher zu kennen)
• Intuition aus der Statistik: es gibt für jeden Cluster einen (statistischen)
Prozess, der die Objekte des Clusters erzeugt hat.
(jeder Prozess beschreibt ein spezielles (natur-)wissenschaftliches Phänomen)
• Beispiele:
–
–
–
–
–
–
Im Marketing werden Kundengruppen identifiziert, die ähnliche Präferenzen haben
Analog: ähnliches Surf-Verhalten im Web
Analog: Benutzergruppen in sozialen Netzwerken
In der Geographie werden z.B. thematische Karten mittels Clusterverfahren erstellt
In der Biologie sucht man gruppen von Genen
Genen, deren Produkte sich ähnlich verhalten
Teilnehmer einer Umfrage werden in Gruppen mit ähnlichem Antwortverhalten
eingeteilt
– …
• Orthogonales Problem: welche Objekte sind nicht in Clustern (weil sie
sich „abnormal“
„abnormal verhalten)
Einführung in die Informatik: Systeme und Anwendungen – SoSe 2013
31
Herunterladen