Seminar „Technologie sozialer Netzwerke“ • Prof. Dr. Krömker • WS 13/14 Soziale Wissenschaft Wissenschaft als soziales Netzwerk Sven Köppel [email protected] Professur für Graphische Datenverarbeitung • Institut für Informatik • Uni Frankfurt OpenAccess: ArXiv Data Preservation Zitationsdatenbanken Inspire Kein Facebook Netzwerkanalyse Netzwerk: 1M Akteure Github NoSQL: Neo4j Seminararbeit NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Trends und Buzzwords Aus: http://de.slideshare.net/quipo/nosql-databases-why-what-and-when NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Relationale Datenbanken Ausgereift Schemagetrieben SQL Skalieren schlecht ACID: Konsistenz Verbreitung Nachzulesen in: Edlich2011, Mehler2013, Stolze2013, Robinson2013 NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele NoSQL-Datenbanken skalieren Vertikales Skalieren scale up Horizontales Skalieren scale out Hardware upgraden Hinzufügen von Rechnern: Parallelisierung Nachzulesen in: Edlich2011, Mehler2013, Stolze2013, Robinson2013 NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Konsistenzmodelle ACID BASE Atomicity, Consistency, Isolation, Durability Basically Available, Soft state, Eventual consistency Harte Konsistenz Weiche Konsistenz Fokus auf „Transmit“ „Lieber Warten und dann richtig“ Fokus auf Verfügbarkeit „Hauptsache Daten da“ Konservativ/Pessimistisch Näherung akzeptabel Komplexe Transaktionen Einfacher Schneller Graustufen möglich: „Think of Spectrum“ (Brewer 2002) Nachzulesen in: Edlich2011, Robinson2013 NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Das CAP-Theorem Im verteilten System nie gleichzeitig: Konsistenz – Verfügbarkeit – Partitionstoleranz Kann stets nur zwei zur Zeit erfüllen! Geschichte 2000: Vermutung von Brewer 2002: Axiomatisch bewiesen durch Gilbert, Lynch Bildquelle: http://noqqe.de/uploads/2012/04/cap-theorem.png Nachzulesen in: Edlich2011 Bildquelle: http://t3n.de/news/wp-content/uploads/2010/03/nathan-hursts-entscheidungspyramide-zu-nosql.png NoSQL-Datenbanken Speicherstrukturen Bildquelle: Robinson2013 Motivation • Vorteile • Eigenschaften • Beispiele NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Graphdatenbanken ● ● ● ● Index-freie Adjazenz (native Speicherung) Eingebaute Graphalgorithmen Effiziente Traversierung Spezifische API Speichermodelle ● ● ● Eigenschaftsgraphen (Property Graphs) Hypergraphen Triplets (v.a. Semantisches Web; Subjekt-Prädikat-Objekt) Bildquelle: http://www.neotechnology.com/facebook-graphsearch/ Nachzulesen in: Robinson2013 NoSQL-Datenbanken Motivation • Vorteile • Eigenschaften • Beispiele Neo4j ● ● ● ● ● Bildquelle: http://www.neotechnology.com/facebook-graphsearch/ Java (native Java-API) Propertygraph JSON-Daten an Knoten und Relationen RESTful-API ● Webinterface CYPHER Nachzulesen in: Robinson2013 Netzwerkanalyse Bildquelle: http://gephi.org Netzwerkanalyse Geschichte: Soziale Netzwerkanalyse: Mitte 20. Jahrhundert! Ziel: Quantifizierung/Systematisierung von Netzwerken Beispiel: Zentralitätsmaße für Akteure Degree Betweeness Closeness Literatur: Jansen2006 [nach Jansen 2006] Netzwerkanalyse Bildquelle: http://www.flickr.com/photos/unileon/8016703324/ RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf Wissenschaftskommunikation RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf Wissenschaftskommunikation RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf Wissenschaftskommunikation Zitationsnetzwerke CIT ED _B Y A Method for Obtaining Digital Signatures and Public-Key Cryptosystems REFERS_TO New directions in Cryptography Diffie, Hellmann IEEE IT-22 1976 Electronic Mail Potter, Science 195 1977 Exhaustive cryptoanalysis Of the NBS data encryption Standard Diffie, Hellmann Computer 10 1977 „Arbeitshypothese“: Zitationsnetzwerke Soziales Netzwerk (=Online-Communities?) Einfache Beobachtungen: ● ● ● ● ● Zitationen sind soziale Interaktion, damit sind Zitationsnetzwerke soziale Netzwerke [Jansen2006] Zitationen sind gerichtet, Freundschaften im Allgemeinen nicht Zitationen sind für die Ewigkeit → weniger Dynamik »zitiert« (refers) und »zitiert durch« (cites) sind konvers (inverse Relation), es reicht, eine Relation zu speichern Menschliche Akteure kommen als Autoren, die ein Paper schreiben, in den Graphen, damit wird die einfachste Beziehung (Duade) zu (m1:Mensch)-[:AUTHOR_OF]->(p1:Paper)-[:REFERS_TO]-> (p2:Paper)<-[:AUTHOR_OF]-(m2:Mensch) „Scientometrie“ [Price 1963] ≙ Quantifizierung der Wissenschaftsgüte „Bibliometrie“ [Pritchard 1969] ≙ „statistische Bibliografie“ Zahlreiche GesetzMäßigkeiten, z.B. Exponentielles Wissenswachstum [Price 1963] Grafiken: S.K. Little Science, Big Science ● ● ● LifeSciences Weltraumforschung Hochenergiephysik High Energy Physics (Teilchenphysik) Informationssysteme http://www.inspirehep.net http://www.arxiv.org Quellen: Zapkov2012 (DP-HEP), Neuroth2012, Kreitz1996, Gentil-Beccot2008, Brooks2010 Zitationsdatenbanken #Papers Zeitabdeckung bis Bereich Science Citation Index 37 M 1900/1956/1975 allg PubMed 23 M 1966 Medizin 1M 1940/1990 Unterbereich Physik CiteSeer ... SPIRES-HEP Quellen: Neuhaus2008 InSpire-Datenbank 1.000.000 Papers 13.000.000 Referenzen 8.000.000 Autoren 500.000 Menschen 4 GB Neo4j-DB { "recid": 1239195, "citations": [51535, 56454, 8486], "title": "Performance in simulating particle detector...", "references": [1220838, 717606, 810152, 890602, ...], "abstract": "Geant4 simulations play a crucial role in...", "authors": ["Soti, G."], "creation_date": "2013-06-19", "co-authors": ["Wauters, F.", "Breitenfeldt, M.", …] } SocialHEP http://socialhep.uni-frankfurt.de Softwarestack Browser jQuery D3.js Nginx Proxy Website Middleware Autor: P. Nicolini Neo4j REST-API Py2neo Autor: W. Greiner Neo4j Linux-Server Preferential Attachment Matthäus-Effekt: Wer hat, dem wird gegeben [Merton 1968] Quellen: Mehler2013, Merton1968, Jansen2006. Bild: S.K. Publikationsgraph ist ein skalenfreies Netzwerk Kanten pro Knoten exponentiell verteilt, damit Skaleninvarianz bzgl. Graphgröße. Skalenfreiheit ↔ Kleine-Welt-Phänomen Dist # ---- -----1 30 2 1.289 3 19.784 4 107.926 5 1.000.000 Quellen: Mehler2013, Merton1968, Jansen2006. Bild: S.K. Dauer ----46ms 93ms 50ms 36sec >min Soziale Wissenschaft Wissenschaft als soziales Netzwerk Sven Köppel [email protected] Vorläufige Ausarbeitung sowie Website unter: http://socialhep.uni-frankfurt.de Präsentation am Do 09.01.2013 Seminar „Technologie sozialer Netzwerke“ • Prof. Dr. Krömker WS 13/14