Beauty is our Business Organisatorisches und Einführung 16.4.2008 Felix Naumann Das Motto 2 ... Wenn wir uns klarmachen, dass der Kampf gegen Chaos, Durcheinander, und unbeherrschte Kompliziertheit eine der größten Herausforderungen der Informatik ist, müssen wir zugestehen: „Beauty is our Business“. Edsger W. Dijkstra, 1978 Auch: Computer Science is no more about computers than astronomy is “Computer about telescopes.” Felix Naumann | SE Beauty is our Business | SoSe 2008 Motivation 3 ■ Vorbereitung auf das Master Studium □ Wissenschaftlich Arbeiten ■ Vorbereitung V b it auff den d Beruf B f □ Ideen „verkaufen“ ■ Interesse an den Themen Felix Naumann | SE Beauty is our Business | SoSe 2008 Üb bli k Überblick 4 ■ Vorstellung der Arbeitsgruppe ■ Organisatorisches g ■ Ziele des Seminars ■ Kurzvorstellung der Themen Felix Naumann | SE Beauty is our Business | SoSe 2008 Forschungsgruppe Informationsintegration 5 Felix Naumann ■ [email protected] ■ Raum A-1.13 A-1 13 (über Frau Pamperin) ■ HU, IBM Almaden, DFG/JP/HU, HPI Universität Potsdam, Hasso-Plattner-Institut ■ Fachgebiet „Informationssysteme“ Forschungsthemen (gleich mehr): ■ Datenqualität ■ Informationsintegration ■ Peer Data Management g ■ Search ■ http://www.hpi.uni-potsdam.de/~naumann/ Felix Naumann | SE Beauty is our Business | SoSe 2008 Arbeitsgruppe Informationssysteme 6 project fusem project ViQTOR Prof. Felix Naumann Jens Bleiholder Patricia Hobro Data Fusion DQ Assessment Paul Führing Information Integration Peer Data Management Systems Information Quality Matching Armin Roth Service-Oriented Se ce O e ed Sys Systems e s project System P Karsten Draba project HumMer Data Cleaning Duplicate Detection Data Integration for Life Science Data Sources Melanie Weis & Sascha Szott project XClean project Aladin Ontologies Personal Information Management Alexander Albrecht Mohammed AbuJarour Felix Naumann | März 2008 Frank Kaufer Jana Bauckmann Data Profiling for Schema Management Was sind Informationssysteme? 7 DB <buch> <isbn>0-201-318051</isbn> <titel>XML und Datenbanken</titel> <autor>Klettke/Meyer</autor> / / </buch> Felix Naumann | SE Beauty is our Business | SoSe 2008 Integrierte Informationssysteme 8 Anfrage Integriertes g Informationssystem Oracle, O l DB2… Datei Dateisystem Web Service Anwendung Felix Naumann | SE Beauty is our Business | SoSe 2008 HTML Form Integriertes Info.-system Schematische und DatenH Heterogenität iä 9 Variante 1 Männer Frauen Vorname Nachname Felix Naumann Jens Bleiholder Variante 2 Vorname Nachname Melanie Weis Jana Bauckmann Variante 3 P Personen P Personen Vorname Nachname Nein Felix Naumann Männlich J Ja N i Nein Jens Bleiholde Bleiholder Männlich Weis Nein Ja Melanie Weis Weiblich Bauckmann Nein Ja Jana Bauckmann Weiblich Vorname Nachname Männl. Felix Naumann Ja J Jens Bl ih ld Bleiholder Melanie Jana Weibl. Felix Naumann | SE Beauty is our Business | SoSe 2008 Geschlecht Schematische und DatenH Heterogenität iä 10 Variante 1 Männer Frauen Vorname Nachname Felix Naumann Jens Bleiholder Variante 2 Vorname Nachname Melanie Weis Jana Bauckmann Variante 3 P Personen P Personen VN NN SEX Nein F. Naumann Männlich J Ja N i Nein J J. Bleiholde Bleiholder Männlich Weiß Nein Ja M. Weis Weiblich baukman Nein Ja J. Bauckmann Weiblich FirstNa Name male Felix Naumann Ja J Jnes Bl ih Bleiho. Melanie Jana femal Felix Naumann | SE Beauty is our Business | SoSe 2008 Schematische und DatenH Heterogenität iä 11 Variante 1 ⌧ ☺ ☺ Variante 2 Variante 3 ☺ ☺ ☺ ☺ Felix Naumann | SE Beauty is our Business | SoSe 2008 W i Weitere F Forschungsthemen h h 12 □ Informationsintegration ◊ Schema Matching g ◊ Duplikaterkennung ◊ Datenfusion □ Datenqualität D li ä □ Peer Data Management □ Life Sciences: Aladin □ Search Felix Naumann | SE Beauty is our Business | SoSe 2008 Lehrveranstaltungen in diesem Semester 13 Vorlesungen ■ DBS II ■ Informationsintegration I f ti i t ti Seminare ■ Bachelor: Beauty is our Business ■ Bachelor: www.ligageschichte.de ■ Master: Duplikaterkennung ■ Forschungsseminar Felix Naumann | VL Datenbanksysteme II | SS 2008 Üb bli k Überblick 14 ■ Vorstellung der Arbeitsgruppe ■ Organisatorisches g ■ Ziele des Seminars ■ Kurzvorstellung der Themen Felix Naumann | SE Beauty is our Business | SoSe 2008 Vorstellung Teilnehmer 15 ■ Felix Elliger ■ Alexander Kuscher ■ Fabian F bi Li Lindenberg d b ■ Jan Oberst ■ Stefanie Reinicke ■ Stefan Richter Felix Naumann | SE Beauty is our Business | SoSe 2008 Seminarleistungen 16 Lesen ■ Paper lesen und verstehen ■ Verwandte Literatur lesen und verstehen ■ Mindestens Mi d t eine i individuelle i di id ll B Besprechung h mit it mir i ■ Kurzvorstellung der Literatur (je 2 min) Vortragen ■ Mindestens eine Folien-Besprechung mit mir □ Spätestens 1 Woche vor Vortrag ■ 30 min. Vortrag am jeweiligen Termin 1/5 / Note 2/5 Note □ + 15 min Diskussion ■ Aktive Teilnahme an anderen Vorträgen □ Jeweils ein designated diabolus Ausarbeitung ■ Mindestens eine Gliederungs-Besprechung mit mir □ Spätestens 2 Wochen vor Abgabetermin 2/5 Note ■ 8-10-seitige Ausarbeitung bis zum 15.8. ■ Unter Verwendung der LaTeX-Vorlage im WWW Aktive Teilnahme an sämtlichen gemeinsamen Terminen Felix Naumann | SE Beauty is our Business | SoSe 2008 Feedback 17 Fragen bitte jederzeit! ■ Während des Seminars ■ Während individueller Besprechungen □ Termin bei Pat Hobro ausmachen ◊ [email protected] ◊ 0331 / 5509 280 □ Muss nicht zur Sprechstunde sein! ■ Sprechstunde □ Dienstags 15:00 – 16:00 □ Raum A-1.13 □ Am liebsten mit Anmeldung ■ Email: [email protected] Felix Naumann | SE Beauty is our Business | SoSe 2008 Üb bli k Überblick 18 ■ Vorstellung der Arbeitsgruppe ■ Organisatorisches g ■ Ziele des Seminars ■ Kurzvorstellung der Themen Felix Naumann | SE Beauty is our Business | SoSe 2008 Wissenschaftliche Texte lesen 19 ■ Fachartikel □ Journale, Konferenzen und Workshops □ Entstehung: E t t h ◊ Forschungsvorhaben ◊ Begutachtungsprozess g g p ■ Struktur eines Artikels □ Kritisches Lesen □ Experimente ■ Literatur □ (Online-) (O li ) Recherche R h h ■ Englisch Felix Naumann | SE Beauty is our Business | SoSe 2008 Wissenschaftlichen Vortrag halten 20 ■ Gliederung □ Die Kunst des Weglassens ■ Foliengestaltung F li t lt □ Powerpoint □ Overhead ■ Zeit einhalten ■ Techniken zur Vorbereitung ■ Techniken während des Vortrags Felix Naumann | SE Beauty is our Business | SoSe 2008 Ausarbeitung schreiben 21 ■ Gliederung ■ Schreibstil □ Objektives Obj kti □ Subjektives ■ Plagiate ■ LaTeX Felix Naumann | SE Beauty is our Business | SoSe 2008 Zeitlicher Ablauf – Termine 22 ■ Part 1: Lesen ■ Vortragsreihenfolge □ Termin zur Literaturkritik □ Mariposa, Trio, Fagin, Stop SNM, Stop, SNM Apriori □ Elevatorpitch El t it h ■ Part 2: Vortragen (Zwei pro Termin)) ■ Siehe auch Web-Page ■ Dazwischen Vorträge g von mir □ Jeweils 30 Minuten Vortrag + Diskussion ■ Part 3: Schreiben □ Ausarbeitung / Seminararbeit Felix Naumann | SE Beauty is our Business | SoSe 2008 □ Lesen wissenschaftlicher Texte □ Vortragstechniken □ LaTeX (bei Bedarf) □ Tipps zur Gliederung und Ausarbeitung Üb bli k Überblick 23 ■ Vorstellung der Arbeitsgruppe ■ Organisatorisches g ■ Ziele des Seminars ■ Kurzvorstellung der Themen Felix Naumann | SE Beauty is our Business | SoSe 2008 Allgemeines 24 ■ Themen aus dem Umfeld □ Datenbanken (DB) □ Informationsintegration I f ti i t ti (II) □ Business Intelligence (BI) ■ Sehr gute, gute oft wegweisende paper □ Jeweils mindestens eine wirklich gute Idee □ Gut geschrieben □ Dies sind nicht die „besten Paper der Informatik“. Felix Naumann | SE Beauty is our Business | SoSe 2008 Mariposa 25 ■ Neuartige Architektur für ein weit verteiltes Informationssystem ■ Mikroökonomisches Prinzip zur Anfrageoptimierung □ Datenhaltung D t h lt □ Anfragebearbeitung Felix Naumann | SE Beauty is our Business | SoSe 2008 Trio 26 ■ DBMS Grundannahmen werden aufgehoben: □ Jeder Datenwert ist entweder in der DB gespeichert oder nicht. □ Der Datenwert ist absolut. absolut □ Seine Herkunft ist irrelevant ■ Beispiel: Christmas Bird Count ■ Trio relaxiert diese Annahmen: □ Daten g auf Attributebene,, Tupelebene p und Relationenebene □ Genauigkeit □ Herkunft ■ Anfragen alle drei Aspekte □ Schwierige S h i i S Semantik tik {{a,b,c,d}} Felix Naumann | SE Beauty is our Business | SoSe 2008 vs. a conff = 0 0.25 25 b conf = 0.25 c conf = 0.25 d conf = 0.25 Fagins Algorithmus 27 N MMDBMS 1 MMDBMS_1 MMDBMS 2 MMDBMS_2 Felix Naumann | SE Beauty is our Business | SoSe 2008 ... MMDBMS MMDBMS_m „Enough Enough Already Already“ in SQL 28 ■ First-N und Top-N Techniken in SQL □ Syntax & Semantik Stop(10) p( ) □ Neue N O Operatoren t □ Optimierung ⋈m.abt_id _ = a.id □ Evaluation Restart Abteilung a ⋈m.rkonto = r.konto Stop(20) sortStop Mitarbeiter m Felix Naumann | SE Beauty is our Business | SoSe 2008 Reise r Sorted Neighborhood 29 ■ Datenreinigung und Duplikaterkennung □ Effizienz □ Effektivität Eff kti ität Felix Naumann | SE Beauty is our Business | SoSe 2008 Data Mining 30 ■ Bahnbrechendes Papier ■ Setzte intensive Forschung zu Data Mining in Gang ■ Zwei Z i Algorithmen Al ith zur schnellen h ll E Endeckung d k von Assoziationsregeln A i ti l □ Apriori □ AprioriTid Felix Naumann | SE Beauty is our Business | SoSe 2008 Nächste Schritte 31 ■ Sie: E-Mail an mich □ Mit Wunschliste (Platz 1 – 3) ◊ Daraus: D Themenvergabe Th b ◊ Daraus: Vergabe des Diskutantenplatzes □ Bis Mitternacht ■ Ich: Themenvergabe bald □ E-Mail Benachrichtigung ■ Ich: Vortrag zum „Lesen wissenschaftlicher Texte“ Felix Naumann | SE Beauty is our Business | SoSe 2008