»Data Science im Unternehmen« ist für verschiedene Lesergruppen geeignet:
Führungskräfte und Projektmanager, die mit Data Scientists zusammenarbeiten, Data-Science-orientierte Projekte managen oder in solche Projekte investieren
Entwickler, die Data-Science-Lösungen implementieren
angehende Data Scientists
Dies ist weder ein Buch über Algorithmen, noch ist es ein Ersatz für ein solches Buch. Wir vermeiden ganz bewusst einen Ansatz, der sich auf Algorithmen konzentriert, denn wir sind der Meinung, dass es nur einiger weniger grundlegender Konzepte oder Prinzipien bedarf, um aus Daten nützliche Erkenntnisse zu gewinnen. Diese Konzepte dienen als Grundlage vieler wohlbekannter Data-Mining-Algorithmen. Sie bilden das Fundament, auf dem die Analyse datenzentrierter, unternehmensrelevanter Probleme, das Erstellen und Bewerten von Data-Science-Lösungen und die Beurteilung allgemeiner Strategien und Lösungsansätze der Data Science beruhen. Dementsprechend orientiert sich die Darstellung an diesen allgemeinen Prinzipien, nicht an bestimmten Algorithmen. Wenn es erforderlich ist, Verfahrensvorschriften detailliert zu beschreiben, verwenden wir statt einer Liste ausführlicher algorithmischer Schritte eine Kombination aus Text und Diagrammen, die unserer Ansicht nach leichter zugänglich ist.
Das Buch setzt keine besonderen mathematischen Kenntnisse voraus. Der Inhalt ist jedoch naturgemäß etwas technisch – Ziel ist es, ein echtes Verständnis von Data Science zu vermitteln, nicht nur einen generellen Überblick zu geben. Wir haben versucht, die Mathematik auf ein Minimum zu beschränken und die Darstellung so »konzeptionell« wie möglich zu gestalten.
Den Aussagen von Branchenkollegen zufolge ist das Buch von unschätzbarem Wert, um eine gute Verständigung zwischen den Managern eines Unternehmens, den Mitarbeitern in Technik/Entwicklung und den Data-Science-Teams zu erzielen. Allerdings stammt diese Beobachtung nur von einer kleinen Gruppe, daher sind wir gespannt, als wie allgemeingültig sich diese Beurteilung tatsächlich erweisen wird (siehe Kapitel 5). Unsere Idealvorstellung sieht so aus, dass jeder Data Scientist seinen Teamkollegen im geschäftlichen Bereich und in der Entwicklung dieses Buch gibt und damit gewissermaßen sagt: Wenn wir wirklich erstklassige Data-Science-Lösungen für unternehmensrelevante Probleme entwickeln und implementieren wollen, dann müssen wir zu einem einheitlichen Verständnis dieses Themas gelangen.
Die Kollegen haben uns außerdem mitgeteilt, dass sich das Buch noch in einem ganz unvorhergesehenen Bereich als nützlich erwiesen hat: für die Vorbereitung auf Bewerbungsgespräche mit Data Scientists. Die Nachfrage nach Data-Science-Experten auf dem Arbeitsmarkt ist hoch und nimmt weiter zu. Aus diesem Grund geben sich immer mehr Stellensuchende als Data Scientists aus. Ein Bewerber für einen solchen Job sollte die Grundlagen der Data Science, die in diesem Buch präsentiert werden, unbedingt beherrschen. (Die Branchenkollegen waren erstaunt, bei wie vielen Kandidaten das nicht der Fall ist. Halb im Scherz, halb im Ernst haben wir sogar erwogen, eine Arbeit mit dem Titel »Anmerkungen zu Bewerbungsgesprächen mit Data Scientists« zu veröffentlichen.)
Unser konzeptioneller Zugang zu Data Science
Wir stellen in diesem Buch die wichtigsten grundlegenden Konzepte der Data Science vor. Einige davon dienen als Überschriften für entsprechende Abschnitte, andere ergeben sich bei der Erörterung ganz einfach aus dem Zusammenhang (und sind daher nicht unbedingt als grundlegende Konzepte zu betrachten). Diese Konzepte umfassen die Beschreibung der eigentlichen Aufgabe, den Einsatz von Data Science und die Anwendung der Ergebnisse zur Verbesserung von Entscheidungsfindungen. Sie untermauern außerdem eine Vielzahl anderer geschäftsanalytischer Methoden und Verfahren.
Die Konzepte lassen sich in drei allgemeine Kategorien unterteilen:
Konzepte, die zeigen, wie Data Science an die Organisation und die Wettbewerbslandschaft angepasst werden kann, inklusive verschiedener Methoden, Data-Science-Teams aufzubauen, zu strukturieren und zu fördern; wie Data Science zu Wettbewerbsvorteilen führen kann und taktische Konzepte zur praktischen Handhabung von Data-Science-Projekten.
Allgemeine Konzepte der Datenanalyse, die dabei helfen, geeignete Daten und angemessene Erfassungsmethoden zu erkennen. Diese Konzepte umfassen den Data-Mining-Prozess sowie eine Reihe verschiedener Aufgaben des High-Level-Data-Minings.
Allgemeine Konzepte zur Wissensextraktion aus Daten, die umfangreiche Data-Science-Verfahren und ihre Algorithmen unterstützen.
Eines der fundamentalen Konzepte ist beispielsweise die Erkennung der Ähnlichkeit zweier Objekte, die durch Daten beschrieben werden. Diese Fähigkeit bildet die Grundlage für verschiedene spezielle Aufgaben. Sie kann etwa direkt dazu genutzt werden, Kunden zu finden, die einem vorgegebenen Kunden ähnlich sind. Sie bildet den Kern verschiedener Vorhersage-Algorithmen, die einen Zielwert abschätzen, wie z.B. der zu erwartende Ressourcenverbrauch eines Kunden oder die Wahrscheinlichkeit, mit der ein Kunde ein Angebot akzeptiert. Sie bildet außerdem die Grundlage für Clustering-Verfahren, bei denen Objekte anhand gemeinsamer Merkmale gruppiert werden, ohne dabei ein festes Ziel zu verfolgen. Ähnlichkeit ist die Grundlage der Informationsgewinnung, bei der für eine Suchanfrage relevante Dokumente oder Webseiten abgerufen werden. Und schließlich liegt sie auch vielen gängigen Empfehlungs-Algorithmen zugrunde. Ein auf Algorithmen konzentriertes Buch würde all diese Aufgaben womöglich in jeweils eigenen Kapiteln abhandeln, mit unterschiedlichen Bezeichnungen hantieren und die übereinstimmenden Aspekte in den Details von Algorithmen oder mathematischen Sätzen vergraben. In diesem Buch fokussieren wir uns stattdessen auf die vereinheitlichenden Konzepte und stellen bestimmte Aufgaben und Algorithmen als deren natürliche Erscheinungsform vor.
Ein weiteres Beispiel, das bei der Beurteilung der Nützlichkeit eines Musters eine wichtige Rolle spielt, ist der sogenannte Lift, der in der Data Science immer wieder auftritt – ein Maß dafür, wie viel verbreiteter ein Muster ist, als man vielleicht erwarten würde. Er dient dazu, völlig verschiedene Muster in unterschiedlichen Kontexten zu beurteilen. Algorithmen für gezielte Werbung werden ausgewertet, indem man den Lift berechnet, den man für die anvisierte Zielgruppe erhält. Der Lift dient zur Beurteilung der Gewichtung von Hinweisen, die für oder gegen eine Schlussfolgerung sprechen. Er gestattet es, zu ermitteln, ob ein gleichzeitiges Auftreten (eine Assoziation) von Daten wirklich von Interesse oder einfach nur auf häufiges Vorkommen zurückzuführen ist.
Wir sind der Ansicht, dass die Erklärung von Data Science anhand dieser grundlegenden Konzepte nicht nur hilfreich für den Leser ist, sondern auch die Kommunikation zwischen geschäftlichen Interessengruppen und Data Scientists vereinfacht. Sie stellt eine gemeinsame Sprache bereit und erleichtert es beiden Seiten, einander besser zu verstehen. Die gemeinsamen Konzepte führen zu intensiveren Diskussionen, die wichtige Themen aufdecken, die anderenfalls vielleicht übersehen würden.
Dieses Buch wurde erfolgreich als Lehrbuch für ein breites Spektrum von Data Science-Lehrgängen eingesetzt. Es entstand ursprünglich durch die Entwicklung von Fosters fachübergreifenden Data-Science-Kursen an der Stern School der New York University (NYU) im Herbst 2005. [1] Der Kurs wurde eigentlich für Betriebswirtschaftler und Wirtschaftsinformatiker konzipiert, wurde aber auch von Studenten vieler anderer Fächer besucht. Es ist kaum erwähnenswert, dass dieser Kurs bei Betriebswirtschaftlern und Wirtschaftsinformatikern gut ankam, da er ja eigentlich für sie gedacht war. Wirklich interessant ist, dass auch Studenten, deren Fächer sich mit Machine Learning und anderen technischen Disziplinen befassten, ihn belegten und als sehr wertvoll ansahen. Der Grund dafür scheint zumindest teilweise darin zu liegen, dass in ihren Lehrplänen außer Algorithmen andere fundamentale Prinzipien und weitere diesbezügliche Themen nicht vorhandenen waren.
An der NYU nutzen wir dieses Buch inzwischen für eine Reihe von Kursen, die in irgendeinem Zusammenhang mit Data Science stehen: den ursprünglichen Kursen für Betriebswirtschaftler und Wirtschaftsinformatiker, Grundkursen für Geschäftsanalyse im Grundstudium, den neuen Vorlesungen über Geschäftsanalyse im Hauptstudium und als Einführung für den neuen Studiengang Data Science der NYU. Darüber hinaus wird das Buch von mehr als zwanzig weiteren Universitäten in neun Ländern an Wirtschaftshochschulen, in Informatikkursen und für allgemeine Einführungen in Data Science eingesetzt (das geschah auch schon vor der eigentlichen Veröffentlichung).
Weitere Kenntnisse und Konzepte
Es gibt eine Vielzahl weiterer Konzepte und Kenntnisse, die einem praktisch tätigen Data Scientist neben den grundlegenden Prinzipien der Data Science bekannt sein sollten. Diese werden in...