Beauty is our Business Organisatorisches und Einführung

Werbung
Beauty is our Business
Organisatorisches und Einführung
16.4.2008
Felix Naumann
Das Motto
2
... Wenn wir uns klarmachen, dass der Kampf gegen Chaos,
Durcheinander, und unbeherrschte Kompliziertheit eine der größten
Herausforderungen der Informatik ist, müssen wir zugestehen:
„Beauty is our Business“.
Edsger W. Dijkstra, 1978
Auch:
Computer Science is no more about computers than astronomy is
“Computer
about telescopes.”
Felix Naumann | SE Beauty is our Business | SoSe 2008
Motivation
3
■ Vorbereitung auf das Master Studium
□ Wissenschaftlich Arbeiten
■ Vorbereitung
V b
it
auff den
d
Beruf
B
f
□ Ideen „verkaufen“
■ Interesse an den Themen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Üb bli k
Überblick
4
■ Vorstellung der Arbeitsgruppe
■ Organisatorisches
g
■ Ziele des Seminars
■ Kurzvorstellung der Themen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Forschungsgruppe
Informationsintegration
5
Felix Naumann
■ [email protected]
■ Raum A-1.13
A-1 13 (über Frau Pamperin)
■ HU, IBM Almaden, DFG/JP/HU, HPI
Universität Potsdam, Hasso-Plattner-Institut
■ Fachgebiet „Informationssysteme“
Forschungsthemen (gleich mehr):
■ Datenqualität
■ Informationsintegration
■ Peer Data Management
g
■ Search
■ http://www.hpi.uni-potsdam.de/~naumann/
Felix Naumann | SE Beauty is our Business | SoSe 2008
Arbeitsgruppe Informationssysteme
6
project fusem
project ViQTOR
Prof. Felix Naumann
Jens Bleiholder
Patricia Hobro
Data Fusion
DQ Assessment
Paul Führing
Information Integration
Peer Data
Management
Systems
Information Quality
Matching
Armin Roth
Service-Oriented
Se
ce O e ed Sys
Systems
e s
project System P
Karsten Draba
project HumMer
Data Cleaning
Duplicate Detection
Data Integration for
Life Science Data Sources
Melanie Weis & Sascha Szott
project XClean
project Aladin
Ontologies
Personal Information
Management
Alexander Albrecht
Mohammed AbuJarour
Felix Naumann | März 2008
Frank Kaufer
Jana Bauckmann
Data Profiling for
Schema Management
Was sind Informationssysteme?
7
DB
<buch>
<isbn>0-201-318051</isbn>
<titel>XML und Datenbanken</titel>
<autor>Klettke/Meyer</autor>
/
/
</buch>
Felix Naumann | SE Beauty is our Business | SoSe 2008
Integrierte Informationssysteme
8
Anfrage
Integriertes
g
Informationssystem
Oracle,
O
l
DB2…
Datei
Dateisystem
Web
Service
Anwendung
Felix Naumann | SE Beauty is our Business | SoSe 2008
HTML
Form
Integriertes
Info.-system
Schematische und DatenH
Heterogenität
iä
9
Variante 1
Männer
Frauen
Vorname
Nachname
Felix
Naumann
Jens
Bleiholder
Variante 2
Vorname
Nachname
Melanie
Weis
Jana
Bauckmann
Variante 3
P
Personen
P
Personen
Vorname
Nachname
Nein
Felix
Naumann
Männlich
J
Ja
N i
Nein
Jens
Bleiholde
Bleiholder
Männlich
Weis
Nein
Ja
Melanie
Weis
Weiblich
Bauckmann
Nein
Ja
Jana
Bauckmann
Weiblich
Vorname
Nachname
Männl.
Felix
Naumann
Ja
J
Jens
Bl ih ld
Bleiholder
Melanie
Jana
Weibl.
Felix Naumann | SE Beauty is our Business | SoSe 2008
Geschlecht
Schematische und DatenH
Heterogenität
iä
10
Variante 1
Männer
Frauen
Vorname
Nachname
Felix
Naumann
Jens
Bleiholder
Variante 2
Vorname
Nachname
Melanie
Weis
Jana
Bauckmann
Variante 3
P
Personen
P
Personen
VN
NN
SEX
Nein
F.
Naumann
Männlich
J
Ja
N i
Nein
J
J.
Bleiholde
Bleiholder
Männlich
Weiß
Nein
Ja
M.
Weis
Weiblich
baukman
Nein
Ja
J.
Bauckmann
Weiblich
FirstNa
Name
male
Felix
Naumann
Ja
J
Jnes
Bl ih
Bleiho.
Melanie
Jana
femal
Felix Naumann | SE Beauty is our Business | SoSe 2008
Schematische und DatenH
Heterogenität
iä
11
Variante 1
⌧
☺
☺
Variante 2
Variante 3
☺
☺
☺
☺
Felix Naumann | SE Beauty is our Business | SoSe 2008
W i
Weitere
F
Forschungsthemen
h
h
12
□ Informationsintegration
◊ Schema Matching
g
◊ Duplikaterkennung
◊ Datenfusion
□ Datenqualität
D
li ä
□ Peer Data Management
□ Life Sciences: Aladin
□ Search
Felix Naumann | SE Beauty is our Business | SoSe 2008
Lehrveranstaltungen in diesem
Semester
13
Vorlesungen
■ DBS II
■ Informationsintegration
I f
ti
i t
ti
Seminare
■ Bachelor: Beauty is our Business
■ Bachelor: www.ligageschichte.de
■ Master: Duplikaterkennung
■ Forschungsseminar
Felix Naumann | VL Datenbanksysteme II | SS 2008
Üb bli k
Überblick
14
■ Vorstellung der Arbeitsgruppe
■ Organisatorisches
g
■ Ziele des Seminars
■ Kurzvorstellung der Themen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Vorstellung Teilnehmer
15
■ Felix Elliger
■ Alexander Kuscher
■ Fabian
F bi
Li
Lindenberg
d b
■ Jan Oberst
■ Stefanie Reinicke
■ Stefan Richter
Felix Naumann | SE Beauty is our Business | SoSe 2008
Seminarleistungen
16
Lesen
■ Paper lesen und verstehen
■ Verwandte Literatur lesen und verstehen
■ Mindestens
Mi d t
eine
i
individuelle
i di id ll B
Besprechung
h
mit
it mir
i
■ Kurzvorstellung der Literatur (je 2 min)
Vortragen
■ Mindestens eine Folien-Besprechung mit mir
□ Spätestens 1 Woche vor Vortrag
■ 30 min. Vortrag am jeweiligen Termin
1/5
/ Note
2/5 Note
□ + 15 min Diskussion
■ Aktive Teilnahme an anderen Vorträgen
□ Jeweils ein designated diabolus
Ausarbeitung
■ Mindestens eine Gliederungs-Besprechung mit mir
□ Spätestens 2 Wochen vor Abgabetermin
2/5 Note
■ 8-10-seitige Ausarbeitung bis zum 15.8.
■ Unter Verwendung der LaTeX-Vorlage im WWW
Aktive Teilnahme an sämtlichen gemeinsamen Terminen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Feedback
17
Fragen bitte jederzeit!
■ Während des Seminars
■ Während individueller Besprechungen
□ Termin bei Pat Hobro ausmachen
◊ [email protected]
◊ 0331 / 5509 280
□ Muss nicht zur Sprechstunde sein!
■ Sprechstunde
□ Dienstags 15:00 – 16:00
□ Raum A-1.13
□ Am liebsten mit Anmeldung
■ Email: [email protected]
Felix Naumann | SE Beauty is our Business | SoSe 2008
Üb bli k
Überblick
18
■ Vorstellung der Arbeitsgruppe
■ Organisatorisches
g
■ Ziele des Seminars
■ Kurzvorstellung der Themen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Wissenschaftliche Texte lesen
19
■ Fachartikel
□ Journale, Konferenzen und Workshops
□ Entstehung:
E t t h
◊ Forschungsvorhaben
◊ Begutachtungsprozess
g
g p
■ Struktur eines Artikels
□ Kritisches Lesen
□ Experimente
■ Literatur
□ (Online-)
(O li
) Recherche
R h
h
■ Englisch
Felix Naumann | SE Beauty is our Business | SoSe 2008
Wissenschaftlichen Vortrag halten
20
■ Gliederung
□ Die Kunst des Weglassens
■ Foliengestaltung
F li
t lt
□ Powerpoint
□ Overhead
■ Zeit einhalten
■ Techniken zur Vorbereitung
■ Techniken während des Vortrags
Felix Naumann | SE Beauty is our Business | SoSe 2008
Ausarbeitung schreiben
21
■ Gliederung
■ Schreibstil
□ Objektives
Obj kti
□ Subjektives
■ Plagiate
■ LaTeX
Felix Naumann | SE Beauty is our Business | SoSe 2008
Zeitlicher Ablauf – Termine
22
■ Part 1: Lesen
■ Vortragsreihenfolge
□ Termin zur Literaturkritik
□ Mariposa, Trio, Fagin,
Stop SNM,
Stop,
SNM Apriori
□ Elevatorpitch
El
t
it h
■ Part 2: Vortragen (Zwei pro
Termin))
■ Siehe auch Web-Page
■ Dazwischen Vorträge
g von mir
□ Jeweils 30 Minuten
Vortrag + Diskussion
■ Part 3: Schreiben
□ Ausarbeitung /
Seminararbeit
Felix Naumann | SE Beauty is our Business | SoSe 2008
□ Lesen wissenschaftlicher
Texte
□ Vortragstechniken
□ LaTeX (bei Bedarf)
□ Tipps zur Gliederung und
Ausarbeitung
Üb bli k
Überblick
23
■ Vorstellung der Arbeitsgruppe
■ Organisatorisches
g
■ Ziele des Seminars
■ Kurzvorstellung der Themen
Felix Naumann | SE Beauty is our Business | SoSe 2008
Allgemeines
24
■ Themen aus dem Umfeld
□ Datenbanken (DB)
□ Informationsintegration
I f
ti
i t
ti
(II)
□ Business Intelligence (BI)
■ Sehr gute,
gute oft wegweisende paper
□ Jeweils mindestens eine wirklich gute Idee
□ Gut geschrieben
□ Dies sind nicht die „besten Paper der Informatik“.
Felix Naumann | SE Beauty is our Business | SoSe 2008
Mariposa
25
■ Neuartige Architektur für ein weit verteiltes Informationssystem
■ Mikroökonomisches Prinzip zur Anfrageoptimierung
□ Datenhaltung
D t h lt
□ Anfragebearbeitung
Felix Naumann | SE Beauty is our Business | SoSe 2008
Trio
26
■ DBMS Grundannahmen werden aufgehoben:
□ Jeder Datenwert ist entweder in der DB gespeichert oder nicht.
□ Der Datenwert ist absolut.
absolut
□ Seine Herkunft ist irrelevant
■ Beispiel: Christmas Bird Count
■ Trio relaxiert diese Annahmen:
□ Daten
g
auf Attributebene,, Tupelebene
p
und Relationenebene
□ Genauigkeit
□ Herkunft
■ Anfragen alle drei Aspekte
□ Schwierige
S h i i
S
Semantik
tik
{{a,b,c,d}}
Felix Naumann | SE Beauty is our Business | SoSe 2008
vs.
a
conff = 0
0.25
25
b
conf = 0.25
c
conf = 0.25
d
conf = 0.25
Fagins Algorithmus
27
N
MMDBMS 1
MMDBMS_1
MMDBMS 2
MMDBMS_2
Felix Naumann | SE Beauty is our Business | SoSe 2008
...
MMDBMS
MMDBMS_m
„Enough
Enough Already
Already“ in SQL
28
■ First-N und Top-N Techniken in SQL
□ Syntax & Semantik
Stop(10)
p( )
□ Neue
N
O
Operatoren
t
□ Optimierung
⋈m.abt_id
_ = a.id
□ Evaluation
Restart
Abteilung a
⋈m.rkonto = r.konto
Stop(20)
sortStop
Mitarbeiter m
Felix Naumann | SE Beauty is our Business | SoSe 2008
Reise r
Sorted Neighborhood
29
■ Datenreinigung und Duplikaterkennung
□ Effizienz
□ Effektivität
Eff kti ität
Felix Naumann | SE Beauty is our Business | SoSe 2008
Data Mining
30
■ Bahnbrechendes Papier
■ Setzte intensive Forschung zu Data Mining in Gang
■ Zwei
Z i Algorithmen
Al
ith
zur schnellen
h ll
E
Endeckung
d k
von Assoziationsregeln
A
i ti
l
□ Apriori
□ AprioriTid
Felix Naumann | SE Beauty is our Business | SoSe 2008
Nächste Schritte
31
■ Sie: E-Mail an mich
□ Mit Wunschliste (Platz 1 – 3)
◊ Daraus:
D
Themenvergabe
Th
b
◊ Daraus: Vergabe des Diskutantenplatzes
□ Bis Mitternacht
■ Ich: Themenvergabe bald
□ E-Mail Benachrichtigung
■ Ich: Vortrag zum „Lesen wissenschaftlicher Texte“
Felix Naumann | SE Beauty is our Business | SoSe 2008
Herunterladen