Einführung
Was mache ich hier?
Möglicherweise sind Sie in den Medien, in Büchern, die sich mit unternehmensbezogenen Themen beschäftigen, in Zeitschriften oder auf Konferenzen schon einmal über den Begriff Data Science gestolpert. Data Science (oder – grob übersetzt – die Wissenschaft von den Daten) ist in der Lage, Präsidentschaftswahlkämpfe in Hektik zu versetzen, mehr über Ihre Kaufgewohnheiten aufzudecken, als Sie von sich selbst wissen, und präzise Auskunft darüber zu geben, seit wie vielen Jahren diese ausgesprochen leckeren Käse-Cracker für Ihren Cholesterinspiegel verantwortlich sind. Data Scientists, die »Datenwissenschaftler«, die gleichzeitig die Elite derer bilden, die die Kunst der Data Science praktizieren, sind in einem Artikel im Harvard Business Review sogar schon als »sexy« bezeichnet worden. Dies sollten Sie nicht zu ernst nehmen, denn der Stellenwert dieser Behauptung lässt sich mit dem Stellenwert von Aussagen wie der vergleichen, dass ein Einhorn sexy sei. Dieser Teil des Artikels kann im Moment nicht bestätigt werden, aber wenn Sie mich dabei beobachten könnten, wie ich dieses Buch schreibe, mit zerwühlten Haaren und den müden Augen eines Vaters von drei Jungen, können Sie sich sicherlich vorstellen, dass sexy ein wenig übertrieben ist.
Aber ich schweife ab. In Wirklichkeit geht es darum, dass heutzutage ziemlich viel Wirbel um Data Science gemacht wird, was wiederum ziemlich viel Druck auf bestimmte Geschäftszweige ausübt. Wenn Sie sich nicht um Data Science kümmern, hängt Sie der Wettbewerb ab. Irgendjemand bringt ein neues Produkt mit dem Namen »BlahBlahBlahBigDataGraphDing« auf den Markt und macht damit Ihr Unternehmen kaputt.
Atmen Sie ganz tief durch.
Die Wahrheit sieht so aus, dass die meisten Menschen falsche Vorstellungen von Data Science haben. Das beginnt damit, dass sie sich die entsprechenden Werkzeuge kaufen und Berater anheuern. Sie geben ihr ganzes Geld aus, bevor sie überhaupt wissen, was sie wollen, weil heute in vielen Unternehmen schon ein Kaufauftrag mit Erfolg gleichgesetzt wird.
Wenn Sie dieses Buch lesen, bekommen Sie diesen Spaßvögeln gegenüber einen großen Vorteil, weil Sie hier genau erfahren, was es mit den Techniken der Data Science auf sich hat und wie Sie sie anwenden können. Wenn dann die Zeit der Planung, des Anheuerns von Beratern und des Einkaufens gekommen ist, wissen Sie bereits, wie Sie herausfinden können, was in Ihrer Organisation an Data Science möglich ist.
Dieses Buch hat den Sinn, Ihnen die Data-Science-Praxis auf angenehme Weise und unterhaltsam vorzustellen. Wenn Sie das Buch durchgelesen haben, hoffe ich, dass viele Ängste, die mit Data Science zu tun haben, durch Neugier und Ideen darüber ersetzt worden sind, was Sie mit Daten machen können, um Ihr Unternehmen weiter nach vorn zu bringen.
Eine brauchbare Definition von Data Science
Der Ausdruck Data Science dient in gewisser Weise auch als Synonym für Begriffe wie Business Analytics (betriebswirtschaftliche Auswertungen), Operations Research(Unternehmensforschung), Business Intelligence (mit diesem Begriff werden Verfahren und Prozesse zur systematischen Analyse von Daten bezeichnet; er wird auch als BI abgekürzt), Competitive Intelligence (was mit Wettbewerbsforschung oder -analyse übersetzt werden könnte), Data Analysis And Modeling (Datenanalyse und Datenmodellierung) und Knowledge Extraction (das Extrahieren von Erkenntnissen, was auch Knowledge Discovery In Databases oder KDD genannt wird). Letztendlich handelt es sich bei Data Science nur um eine neue Bezeichnung für etwas, das in Unternehmen schon seit Langem getan wird – und das auch im Deutschen gerne mit englischen Ausdrücken belegt wird. Diese Ausdrücke haben sich inzwischen oft zu Fachbegriffen gemausert, die wir, wie hier, zumindest einmal mit einer deutschsprachigen Entsprechung versehen und in den Index aufgenommen haben, damit Sie eine bessere Vorstellung davon bekommen, worum es geht. Nun ist aber auch im Umfeld der Datenanalyse nicht alles englisch, was glänzt. Wenn es im fachspezifischen Umfeld (womit nicht populärwissenschaftliche Artikel in Computer- und Managementzeitschriften, sondern primär Wissenschaft und Unternehmen gemeint sind, die sich hauptberuflich mit unserer Thematik beschäftigen) »normal« ist, deutschsprachig zu agieren, wird in der Übersetzung auf Denglisch insoweit verzichtet, als dass die deutschsprachigen Begriffe verwendet werden und ihre englische Entsprechung zumindest einmal als Information aufgeführt wird. Auch in diesem Fall hilft der Index dabei, sich zurechtzufinden.
Seit der Blütezeit dieser »synonymen« Begriffe hat es eine nicht unbeträchtliche technologische Weiterentwicklung gegeben. Diese Weiterentwicklungen bei der Hardware und der Software haben dafür gesorgt, dass das Sammeln, Speichern und Auswerten großer Datenmengen aus dem Vertrieb und dem Marketing, aus HTTP-Anfragen an Ihre Website, aus Daten des Kundendienstes und so weiter einfacher und kostengünstiger geworden ist. Endlich sind auch kleinere Unternehmen und nicht kommerzielle Organisationen in der Lage, sich mit Analysen zu beschäftigen, die bis dahin ausschließlich großen Unternehmen vorbehalten waren. Da der Begriff Data Science heutzutage für so gut wie alles verwendet wird, was mit einer Analyse unternehmensbezogener Daten zu tun hat, wird er häufig mit den Techniken des Data-Minings gleichgesetzt, zu denen beispielsweise die künstliche Intelligenz (KI), die Clusterbildung und das Erkennen von Ausreißern gehören. Dank der fulminanten, auf Transaktionen beruhenden Vermehrung von Unternehmensdaten haben diese rechenintensiven Techniken in den letzten Jahren einen Fuß in die Tür von Unternehmen bekommen, für die es sich bis dahin nicht gelohnt hat, so etwas produktiv zu verwenden.
Ich vertrete in diesem Buch eine sehr weit gefasste Definition des Begriffs Data Science. Sie sieht so aus:
Data Science ist die Umwandlung von Daten mithilfe der Mathematik und statistischer Methoden in wertvolle Erkenntnisse, Entscheidungen und Produkte.
Dies ist eine unternehmensbezogene Definition. Dort geht es um ein nützliches und wertvolles Endergebnis, das aus Daten abgeleitet wird. Warum? Mir geht es hier weder um Marktforschung noch glaube ich, dass Daten ästhetische Werte aufweisen. Ich kümmere mich um Data Science, damit mein Unternehmen besser funktioniert und Werte hervorbringt. Und ich kann mir vorstellen, dass es Ihnen ähnlich ergeht.
Dieses Buch nimmt obige Definition als Grundlage und behandelt zentrale Analysetechniken, zu denen nicht nur Optimierung, Prognosen und Simulationen, sondern auch »heißere« Themen wie künstliche Intelligenz, Netzwerkdiagramme, Clusterbildung und das Entdecken von Ausreißern gehören.
Einige dieser Techniken sind Jahrzehnte alt. Andere wurden erst in den letzten fünf Jahren entwickelt. Und Sie werden sehen, dass Alter nichts mit Problemen oder Nutzen zu tun hat. Alle vorgestellten Techniken sind unabhängig davon, wie aktuell sie gerade sind, im richtigen Unternehmensumfeld gleich nützlich.
Damit kennen Sie auch schon den Grund dafür, warum Sie verstehen müssen, wie diese Techniken funktionieren, wie Sie die für ein Problem geeignete Technik auswählen und damit erste Schritte unternehmen können. Dort draußen gibt es viele Typen, die sich zwar mit einer oder zwei dieser Techniken auskennen, die aber den Rest nicht auf ihrem Radar haben. Wenn es in meiner Werkzeugkiste nur einen Hammer gibt, neige ich – wie mein zweijähriger Sohn – dazu, alle Probleme dadurch zu lösen, dass ich hart zuschlage.
Da ist es doch wohl besser, ein paar zusätzliche Werkzeuge zur Auswahl zu haben.
Was hat es denn mit Big Data auf sich?
Höchstwahrscheinlich sind Sie öfter über Big Data als über Data Science gestolpert. Handelt dieses Buch von Big Data?
Das hängt davon ab, wie Sie Big Data definieren. Wenn Sie unter Big Data das Berechnen einfacher, zusammenfassender Statistiken anhand unstrukturierter Daten verstehen, die in riesigen, horizontal skalierbaren Datenbanken liegen, die nichts mit SQL zu tun haben, dann hat dieses Buch nichts mit Big Data zu tun.
Wenn Sie Big Data aber als Umwandlung geschäftlicher Daten in Entscheidungen und Erkenntnisse definieren, wobei für diese Umwandlung (ohne Rücksicht darauf, wo die Daten gespeichert sind) innovative Analysemethoden verwendet werden, dann handelt dieses Buch auch von Big Data.
Dieses Buch beschäftigt sich nicht mit Datenbanktechnologien wie MongoDB oder HBase. Dieses Buch behandelt auch keine Projekte zur Data-Science-Kodierung wie Mahout, NumPy, die verschiedenen R-Bibliotheken und so weiter. Um diese Themen kümmern sich andere Bücher.
Und das ist auch gut so. Dieses Buch ignoriert die Werkzeuge, die Speicherung und den Code. Stattdessen konzentriert es sich so weit wie möglich auf die Techniken. Dort draußen gibt es viele Menschen, die glauben, dass Big Data nichts als Datenspeicherung und Datenabfrage ist, wobei die Daten ein wenig bereinigt und...