Falls Sie Programmierkenntnisse und eine gewisse ­Sym­­­pa­­­­­­thie­­ für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich ­Programmierfähig­­­­­­keiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weitverbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit. Aus dem Inhalt: ■ Absolvieren Sie einen Crashkurs in Python ■ Lernen Sie die Grundlagen von linearer Algebra, Statistik und Wahrscheinlichkeitsrechnung kennen und erfahren Sie, wie diese in Data Science eingesetzt werden ■ Sammeln, untersuchen, bereinigen, bearbeiten und manipulieren Sie Daten ■ Tauchen Sie in die Welt des maschinellen Lernens ein ■ Implementieren Sie Modelle wie k-nearest Neighbors, Naive Bayes, lineare und logistische Regression, Entscheidungsbäume, neuronale Netzwerke und Clustering ■ Entdecken Sie Empfehlungssysteme, Sprach­ verarbeitung, Netzwerkanalyse, MapReduce und Datenbanken ISBN: 978-3-96009-021-2 9 783960 090212 www.oreilly.de Euro 34,90 (D) ISBN ISBN 978-3-96009-021-2 Joel Grus ist Softwareentwickler bei Google, zuvor arbeitete er als Data Scientist für eine Reihe von Startups. Er lebt in Seattle, wo er regelmäßig an Treffen zu Datenanalyse-Themen teilnimmt. Er schreibt gelegentlich Artikel für sein Blog joelgrus.com und twittert täglich unter @joelgrus. »Joel nimmt Sie mit auf eine Reise, die bei der Neugierde auf Daten beginnt und zum gründ­ lichen Verständnis der Algorithmen führt, die das tägliche Brot jedes Data Scientists sind. « —Rohit Sivaprasad Data Science, Soylent datatau.com Einführung in Data Science Dieses Buch führt Sie in Data Science ein, indem es grund­ legende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch ent­­­­wickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Daten­ ana­lyse im Kern funktionieren. Einführung in mit Python Data Science GRUNDPRINZIPIEN DER DATENANALYSE MIT PYTHON Grus Grimm Einführung in Data Science Joel Grus Übersetzung von Kristian Rother Einführung in Data Science Joel Grus Deutsche Übersetzung von Kristian Rother Joel Grus Lektorat: Alexandra Follenius Übersetzung: Kristian Rother Korrektorat: Sibylle Feldmann Herstellung: Susanne Bröckelmann Umschlaggestaltung: Karen Montgomery & Michael Oréal | studio des arts graphiques | studio of graphic arts | www.oreal.de Satz: Reemers Publishing Services GmbH, www.reemers.de Druck und Bindung: Media-Print Informationstechnologie, mediaprint-druckerei.de Bibliografische Information Der Deutschen Nationalbibliothek. Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. ISBN: Buch 978-3-96009-021-2 PDF 978-3-96010-024-9 epub 978-3-96010-025-6 mobi 978-3-96010-026-3 1. Auflage 2016 Dieses Buch erscheint in Kooperation mit O’Reilly Media, Inc. unter dem Imprint »O’REILLY«. O’REILLY ist ein Markenzeichen und eine eingetragene Marke von O’Reilly Media, Inc. und wird mit Einwilligung des Eigentümers verwendet. Copyright 2016 dpunkt.verlag GmbH Wieblinger Weg 17 69123 Heidelberg Authorized German translation of the English edition of Data Science from Scratch, ISBN 9781491901427 2015 Joel Grus. This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same. Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen. Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, markenoder patentrechtlichem Schutz unterliegen. Die Informationen in diesem Buch wurden mit größter Sorgfalt erarbeitet. Dennoch können Fehler nicht vollständig ausgeschlossen werden. Verlag, Autoren und Übersetzer übernehmen keine juristische Verantwortung oder irgendeine Haftung für eventuell verbliebene Fehler und deren Folgen. 543210 Inhalt Vorwort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . XI 1 Einführung ............................................. 1 Der Aufstieg der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Was ist Data Science? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Ein motivierendes Szenario: DataSciencester . . . . . . . . . . . . . . . . . . . . . 3 2 Ein Crashkurs in Python . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Über die Grundlagen hinaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Weiterführendes Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3 Daten visualisieren ...................................... 39 matplotlib . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Balkendiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 Liniendiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Scatterplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Weiterführendes Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4 Lineare Algebra ......................................... 51 Vektoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Weiterführendes Material . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5 Statistik ............................................... 59 Einen einzelnen Datensatz beschreiben . . . . . . . . . . . . . . . . . . . . . . . . . 59 | V