Soziale Wissenschaft

Werbung
Seminar „Technologie sozialer Netzwerke“ • Prof. Dr. Krömker • WS 13/14
Soziale Wissenschaft
Wissenschaft als soziales Netzwerk
Sven Köppel
[email protected]
Professur für Graphische Datenverarbeitung • Institut für Informatik • Uni Frankfurt
OpenAccess:
ArXiv
Data
Preservation
Zitationsdatenbanken
Inspire
Kein
Facebook
Netzwerkanalyse
Netzwerk:
1M Akteure
Github
NoSQL:
Neo4j
Seminararbeit
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Trends und Buzzwords
Aus: http://de.slideshare.net/quipo/nosql-databases-why-what-and-when
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Relationale Datenbanken
Ausgereift
Schemagetrieben
SQL
Skalieren schlecht
ACID: Konsistenz
Verbreitung
Nachzulesen in: Edlich2011, Mehler2013, Stolze2013, Robinson2013
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
NoSQL-Datenbanken skalieren
Vertikales Skalieren scale up
Horizontales Skalieren scale out
Hardware upgraden
Hinzufügen von Rechnern:
Parallelisierung
Nachzulesen in: Edlich2011, Mehler2013, Stolze2013, Robinson2013
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Konsistenzmodelle
ACID
BASE
Atomicity, Consistency, Isolation,
Durability
Basically Available, Soft state,
Eventual consistency
Harte Konsistenz
Weiche Konsistenz
Fokus auf „Transmit“
„Lieber Warten und dann richtig“
Fokus auf Verfügbarkeit
„Hauptsache Daten da“
Konservativ/Pessimistisch
Näherung akzeptabel
Komplexe Transaktionen
Einfacher
Schneller
Graustufen möglich: „Think of Spectrum“ (Brewer 2002)
Nachzulesen in: Edlich2011, Robinson2013
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Das CAP-Theorem
Im verteilten System nie gleichzeitig:
Konsistenz – Verfügbarkeit – Partitionstoleranz
Kann stets nur zwei zur Zeit erfüllen!
Geschichte
2000: Vermutung von Brewer
2002: Axiomatisch bewiesen durch
Gilbert, Lynch
Bildquelle: http://noqqe.de/uploads/2012/04/cap-theorem.png
Nachzulesen in: Edlich2011
Bildquelle: http://t3n.de/news/wp-content/uploads/2010/03/nathan-hursts-entscheidungspyramide-zu-nosql.png
NoSQL-Datenbanken
Speicherstrukturen
Bildquelle: Robinson2013
Motivation • Vorteile • Eigenschaften • Beispiele
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Graphdatenbanken
●
●
●
●
Index-freie Adjazenz
(native Speicherung)
Eingebaute Graphalgorithmen
Effiziente Traversierung
Spezifische API
Speichermodelle
●
●
●
Eigenschaftsgraphen (Property Graphs)
Hypergraphen
Triplets (v.a. Semantisches Web; Subjekt-Prädikat-Objekt)
Bildquelle: http://www.neotechnology.com/facebook-graphsearch/
Nachzulesen in: Robinson2013
NoSQL-Datenbanken
Motivation • Vorteile • Eigenschaften • Beispiele
Neo4j
●
●
●
●
●
Bildquelle: http://www.neotechnology.com/facebook-graphsearch/
Java (native Java-API)
Propertygraph
JSON-Daten an
Knoten und Relationen
RESTful-API
● Webinterface
CYPHER
Nachzulesen in: Robinson2013
Netzwerkanalyse
Bildquelle: http://gephi.org
Netzwerkanalyse
Geschichte:
Soziale Netzwerkanalyse: Mitte 20. Jahrhundert!
Ziel:
Quantifizierung/Systematisierung von Netzwerken
Beispiel:
Zentralitätsmaße für Akteure
Degree
Betweeness
Closeness
Literatur: Jansen2006
[nach Jansen 2006]
Netzwerkanalyse
Bildquelle: http://www.flickr.com/photos/unileon/8016703324/
RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf
Wissenschaftskommunikation
RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf
Wissenschaftskommunikation
RSA-Paper: http://people.csail.mit.edu/rivest/Rsapaper.pdf
Wissenschaftskommunikation
Zitationsnetzwerke
CIT
ED
_B
Y
A Method for
Obtaining Digital
Signatures and
Public-Key
Cryptosystems
REFERS_TO
New directions in
Cryptography
Diffie, Hellmann
IEEE IT-22
1976
Electronic Mail
Potter, Science 195
1977
Exhaustive
cryptoanalysis
Of the NBS data
encryption
Standard
Diffie, Hellmann
Computer 10
1977
„Arbeitshypothese“:
Zitationsnetzwerke
Soziales Netzwerk
(=Online-Communities?)
Einfache Beobachtungen:
●
●
●
●
●
Zitationen sind soziale Interaktion,
damit sind Zitationsnetzwerke soziale Netzwerke [Jansen2006]
Zitationen sind gerichtet, Freundschaften im Allgemeinen nicht
Zitationen sind für die Ewigkeit → weniger Dynamik
»zitiert« (refers) und »zitiert durch« (cites)
sind konvers (inverse Relation), es reicht, eine Relation zu speichern
Menschliche Akteure kommen als Autoren, die ein Paper schreiben, in
den Graphen, damit wird die einfachste Beziehung (Duade) zu
(m1:Mensch)-[:AUTHOR_OF]->(p1:Paper)-[:REFERS_TO]->
(p2:Paper)<-[:AUTHOR_OF]-(m2:Mensch)
„Scientometrie“
[Price 1963]
≙ Quantifizierung der Wissenschaftsgüte
„Bibliometrie“
[Pritchard 1969]
≙ „statistische Bibliografie“
Zahlreiche
GesetzMäßigkeiten,
z.B.
Exponentielles
Wissenswachstum
[Price 1963]
Grafiken: S.K.
Little Science,
Big Science
●
●
●
LifeSciences
Weltraumforschung
Hochenergiephysik
High Energy Physics
(Teilchenphysik)
Informationssysteme
http://www.inspirehep.net
http://www.arxiv.org
Quellen: Zapkov2012 (DP-HEP), Neuroth2012, Kreitz1996, Gentil-Beccot2008, Brooks2010
Zitationsdatenbanken
#Papers
Zeitabdeckung bis
Bereich
Science Citation
Index
37 M
1900/1956/1975
allg
PubMed
23 M
1966
Medizin
1M
1940/1990
Unterbereich
Physik
CiteSeer
...
SPIRES-HEP
Quellen: Neuhaus2008
InSpire-Datenbank
1.000.000 Papers
13.000.000 Referenzen
8.000.000 Autoren
500.000 Menschen
4 GB Neo4j-DB
{
"recid": 1239195,
"citations": [51535, 56454, 8486],
"title": "Performance in simulating particle detector...",
"references": [1220838, 717606, 810152, 890602, ...],
"abstract": "Geant4 simulations play a crucial role in...",
"authors": ["Soti, G."],
"creation_date": "2013-06-19",
"co-authors": ["Wauters, F.", "Breitenfeldt, M.", …]
}
SocialHEP
http://socialhep.uni-frankfurt.de
Softwarestack
Browser
jQuery
D3.js
Nginx Proxy
Website Middleware
Autor: P. Nicolini
Neo4j
REST-API
Py2neo
Autor: W. Greiner
Neo4j
Linux-Server
Preferential Attachment
Matthäus-Effekt: Wer hat, dem wird gegeben [Merton 1968]
Quellen: Mehler2013, Merton1968, Jansen2006. Bild: S.K.
Publikationsgraph ist ein skalenfreies Netzwerk
Kanten pro Knoten
exponentiell verteilt, damit
Skaleninvarianz bzgl.
Graphgröße.
Skalenfreiheit ↔
Kleine-Welt-Phänomen
Dist
#
---- -----1
30
2
1.289
3
19.784
4
107.926
5 1.000.000
Quellen: Mehler2013, Merton1968, Jansen2006. Bild: S.K.
Dauer
----46ms
93ms
50ms
36sec
>min
Soziale
Wissenschaft
Wissenschaft als
soziales Netzwerk
Sven Köppel
[email protected]
Vorläufige Ausarbeitung sowie
Website unter:
http://socialhep.uni-frankfurt.de
Präsentation am Do 09.01.2013
Seminar „Technologie sozialer
Netzwerke“ • Prof. Dr. Krömker
WS 13/14
Herunterladen