UMC_Panama_Papers_final

PRESSEINFORMATION
Wien, 12. April 2016
Panama Papers: Mit Data Science auf Gaunerjagd
The unbelievable Machine Company ortet enormes Potenzial in der Daten-Auswertung
Die „Panama Papers“ sind das größte Datenleak der Mediengeschichte. Ihre
Veröffentlichung bringt eine unglaubliche Zahl von Korruptions-, Steuer- und
anderen Delikten bis zum Bruch von UN-Sanktionen zutage. Die Arbeit des
Recherchenetzwerks wird deshalb als Glanzleistung des Enthüllungsjournalismus
gefeiert. Zu Recht. Doch wurden möglicherweise noch nicht alle Möglichkeiten
genutzt, um in kurzer Zeit noch mehr verborgene Zusammenhänge zu finden. „Die
Sternstunde von Datenjournalismus und Data Science steht noch aus“, meint DataScience-Experte Dr. Christian Nietner vom Big-Data-Spezialisten The unbelievable
Machine Company (*um). Er erläutert, wie effektiver recherchiert und analysiert
werden könnte, um neue Erkenntnisse aus den Daten zu gewinnen.
Bei den Panama Papers hat die Süddeutsche Zeitung gemeinsam mit einem Netzwerk von
400 Journalisten aus über 100 Medienorganisationen und 80 verschiedenen Nationen mehr
als ein Jahr recherchiert sowie die Daten analysiert und ausgewertet – teils mit technischer
Unterstützung, aber auch manuell. Aus Data-Science-Sicht besteht hier ein hohes
Optimierungspotenzial bei der Automatisierung und Qualität der Auswertung. „Die
Vorgehensweise mit herkömmlichen Datentools ist nicht schnell und letztlich nicht wirksam
genug. Sie verschenkt viele Möglichkeiten“, so Nietner. „Die Aufdeckung der Panama
Papers ist beispiellos und könnte ein exzellentes Beispiel für wirksam angewandte Data
Science sein, die auch die Zusammenführung und Verarbeitung unstrukturierter Daten, wie
Emails, PDFs und Grafiken ermöglicht und damit zu wesentlich besseren Endergebnisse
führen könnte“.
Beschleunigte Recherche mit Data Science
Der Big-Data-Spezialist The unbelievable Machine Company “ (*um) hat die
Berichterstattung zu den Panama Papers aus Data-Science-Perspektive betrachtet und
sich selbst die Frage gestellt, was mithilfe der aktuell verfügbaren Datentechnologien bei
der Analyse und Auswertung dieser riesigen Datenmenge schneller und effektiver gemacht
werden könnte. Anstatt jeden Ordner einzeln zu durchsuchen, empfiehlt sich beispielsweise
der Einsatz einer hochgradig skalierbaren und konfigurierbaren Volltextsuchmaschine, die
sowohl strukturierte als auch unstrukturierte Textdaten in einem gemeinsamen Datenpool
konsolidieren kann. „Die automatisierte Auswertung von Bilddaten kann mittels tiefer
neuronaler Netze erfolgen, wahlweise in Kombination mit Machine-Learning-Algorithmen
für die Verarbeitung natürlicher Sprache. Die so gewonnenen Daten können anschließend
dem Datenpool hinzugefügt werden. Statt vieler einzelner Dokumente, die über hunderte
Ordner verteilt sind, erhält man auf diese Weise einen einzigen, effizient durchsuchbaren
1
PRESSEINFORMATION
Datenpool aller Dokumente“, erklärt Nietner.
Zusammenhänge und Muster erkennen
Ein wesentlicher Teil der Auswertung besteht nicht alleine in der Konsolidierung der Daten,
sondern im Aufdecken und Validieren von unbekannten und nicht offensichtlichen Mustern
und Zusammenhängen in den Informationen. Gerade hier leistet die Data Science einen
enormen Mehrwert. „Ganz konkret könnten etwa Algorithmen zur Named Entity Recognition
(NER) verwendet werden, die drauf trainiert sind, einen Fließtext automatisiert auf
Eigennamen von Personen, Orten, Organisationen oder auch Zeitangaben zu
durchsuchen“, so Nietner.
Dr. Christian Nietner ist Data Scientist bei The unbelievable Machine Company (*um). Er
ist Experte für die Implementierung von Machine-Learning-Algorithmen und die Analyse
von Big Data. Zuvor hat er sich als Post-Doc an der Technischen Universität Berlin (nach
der Promotion in theoretischer Quantenphysik) mit der mathematischen und
algorithmischen Analyse physikalischer Phänomene, computergestützter
Datenverarbeitung und Numerik befasst.
Mehr Informationen zu diesem Thema finden sie auf den Blog-Beiträgen von *um:
https://www.unbelievable-machine.com/blog/panama-papers-und-data-science/
https://www.unbelievable-machine.com/blog/panama-papers-data-science-neuer-stand/
Dr. Christian Nietner, Big-Data-Spezialist bei The unbelievable Machine Company.
2
PRESSEINFORMATION
Das Bildmaterial steht in unserem Mediaportal Amid-PR zum Download bereit.
Weitere Informationen:
The unbelievable Machine Company
Museumsplatz 1/Stiege 10/Tür 13 - 1070 Wien
Lukas große Klönne – Marketing Manager
Tel.: + 49 173 2461738
[email protected] - www.unbelievable-machine.at
Presse- und Öffentlichkeitsarbeit:
Press’n’Relations Austria GmbH
Lange Gasse 65/16 – 1080 Wien
Natalie Eiffe-Kuhn
Tel.: +43 1 907 61 48-11
[email protected] www.press-n-relations.com
The unbelievable Machine Company
The unbelievable Machine Company GmbH (*um) mit Sitz in Berlin und Wien wurde 2008 von CEO Ravin
Mehta gegründet. *um ist Spezialist für Big Data (Data Science und Data Engineering), Cloud Services und
Internet Applikationen und entwickelt mit mehr als 120 Mitarbeitern maßgeschneiderte Lösungen. *um wurde
von Gartner als einziger europäischer Anbieter als Cool Vendor in der Kategorie „Information Infrastructure
and Big Data“ prämiert und aktuell zum zweiten Mal in Folge von der Experton Group zum „Big Data Leader“
gekürt. Zu den Kunden zählen Unternehmen wie Bawag P.S.K., easybank, Porsche Austria, Nokia, Gebr.
Heinemann, Parship und Deutsche Post.
3