Big-Data-Marketing: Chancen und Herausforderungen
Heinrich Holland
„Big Data“ ist in Deutschland seit Mitte des Jahres 2012 eines der Hype-Themen und wird facettenreich diskutiert. Zum einen werden die verschiedenen Anwendungsbereiche erörtert – vom Einsatz im Gesundheitswesen, über den Einsatz im Sicherheitsbereich und in der öffentlichen Verwaltung bis hin zum Einsatz im Marketing. Zum anderen findet eine Auseinandersetzung mit der technischen und rechtlichen Seite von Big Data statt [1].
Auf Unternehmensseite ist das Interesse an dem Thema zwar groß, doch wissen die meisten Unternehmen nicht, wie und wofür sie Big Data konkret einsetzen könnten. Als eine der Hürden am Markt gilt der Mangel an Anwendungsbeispielen [2].
Vom Begriff abgeleitet, bedeutet „Big Data“ zunächst nur „große Datenmengen“. Diese Bedeutung kennzeichnet jedoch nur seinen Kern. Der Digital-Verband Bitkom stellt folgende Definition auf: „Big Data bezeichnet den Einsatz großer Datenmengen aus vielfältigen Quellen mit einer hohen Verarbeitungsgeschwindigkeit zur Erzeugung wirtschaftlichen Nutzens.“ Weiter heißt es: „Big Data liegt immer dann vor, wenn eine vorhandene Unternehmensinfrastruktur nicht mehr in der Lage ist, diese Datenmengen und Datenarten in der nötigen Zeit zu verarbeiten.“ [3]
Diese Definition zeigt die Vielschichtigkeit von Big Data. Mit den Merkmalen „große Datenmenge“, „Vielfältigkeit“ und „hohe Geschwindigkeit“ charakterisiert sie eine bestimmte Konstellation von Daten. Im weiteren Sinne kann man unter Big Data den Einsatz dieser Daten zur Stiftung wirtschaftlichen Nutzens verstehen. Big Data wird so zu einem Teil der strategischen und operativen Unternehmensführung und Unternehmenskultur. Dies klingt auch im zweiten Teil der Definition mit der Erwähnung der Herausforderungen an die Unternehmensinfrastruktur an. Diese lässt sich in eine institutionelle, personelle und materielle Infrastruktur unterteilen [4].
http://www.marketing-boerse.de/Experten/details/Heinrich-Holland
Die materielle Infrastruktur umfasst die in Big Data enthaltene informationstechnologische Komponente. Je nach Umfeld lassen sich auch einige Big-Data-Definitionen finden, die vor allem auf die IT abstellen [5, 6]. Dieser Aspekt wird aufgrund des Schwerpunkts auf das Marketing im Folgenden lediglich am Rande behandelt.
Mit Big Data ist erstmals eine umfassende Marktanalyse und Marktbeobachtung möglich. Der Beobachtungsradar kann dank Big Data extrem groß und nahezu lückenlos sein. Mit Big Data ist auch genau das Gegenteil des weiten Radars, nämlich eine Fokussierung auf das einzelne Individuum, möglich. Big Data lässt fundierte Vorhersagen direkt aus den Daten und Algorithmen zu, ohne dass deren Ergebnisse einer Interpretation durch Experten bedürfen [7].
Die „5 Vs“ von Big Data
Das Beratungsunternehmen Gartner hat Big Data im Jahr 2011 zum ersten Mal in seinen Hype Cycle „Emerging Technologies“ aufgenommen [8]. Nach dem aktuellen Hype Cycle befindet sich Big Data am Ende der ersten von fünf Phasen, der „Technology-Trigger“-Phase, und nähert sich der zweiten Phase an, dem „Peak of Inflated Expectations“. Nach Einschätzung von Gartner wird Big Data in zwei bis fünf Jahren das Plateau der Produktivität erreicht haben [9].
Volume: Wie groß ist „Big“?
Der große Datenumfang ist das, was Big Data zunächst den Namen gab. Doch was bedeutet groß? Unzweifelhaft steigt das Datenaufkommen zusehends. Allein von 2000 bis 2002 wurden mehr Daten generiert als in den 40.000 Jahren zuvor [10]. Nach einer Studie wird das Datenvolumen von 2005 bis 2020 um Faktor 300 von 130 Exabyte auf 40 Zettabyte wachsen und sich damit etwa alle zwei Jahre verdoppeln [11].
Wird heute zum Teil schon die Verwendung von Daten im Giga- und Terabyte-Bereich als Big Data bezeichnet, plant IBM zusammen mit Astron im Dome-Projekt das Sammeln von 14 Exabyte Daten pro Tag. Diese müssen verarbeitet und täglich in einer Größe von einem Petabyte gespeichert werden [13]. Nicht nur, wenn man sich vor Augen führt, dass ein Exabyte Daten digitalisierter Musik einer Abspieldauer von zwei Millionen Jahren entsprechen, sondern auch verglichen mit den heutigen zuvor genannten Dimensionen kann man dem Dome-Projekt zweifelsohne „Big Data“ bescheinigen. Es übertrifft selbst den vermeintlichen Datenriesen Facebook, der täglich 500 Terabyte Daten verarbeitet, um das 28.000-Fache und lässt somit daran zweifeln, ob die heutigen Datenmengen wirklich „Big“ sind [14].
Abb. 1: Das Wachstum des weltweiten Datenaufkommens 2005-2020 [12].
Betrachtet man zudem die Mooresche Gesetzmäßigkeit [15], nach der sich die Kapazität der Datenverarbeitung alle 12 bis 24 Monate verdoppelt, so kommt man zu dem Schluss, dass die Festlegung einer absoluten Grenze für die Größe von Big Data nicht möglich und nicht sinnvoll ist. Würde man eine derartige Festlegung treffen, würde sich Big Data qua Definition schnell überleben. Selbst das Dome-Projekt würde irgendwann den Charakter von Big Data verlieren.
In Betracht käme die Definition der Größe in Relativität zu den aktuellen Verarbeitungs- und Speichermöglichkeiten. Fraglich ist jedoch, ob dies sinnvoll ist. Allein aufgrund des zeitlichen Fortschritts könnten so Big-Data-Projekte zu Nicht-Big-Data-Projekten werden.
Schließlich ließe sich Größe auch im Sinne der Anzahl der verwendeten Datensätze interpretieren. In diesem Fall ist es nicht aufgrund der zeitlichen Veränderung, wohl aber aufgrund der unterschiedlichen Konstellationen der Einzelfälle nicht sinnvoll, eine absolute Anzahl an Datensätzen als Grenze zu fixieren. Vielmehr ist darauf abzustellen, ab wann ein Mehr an Daten zu einer signifikanten Veränderung des Ergebnisses und der daraus abgeleiteten Erkenntnisse und des Nutzens führt.
Big Data ist im Ergebnis nicht „Big“, wenn gewisse Datengrößen überschritten werden, sondern erst, wenn die Menge der eingesetzten Daten zu einem Ergebnis führt, das mit weniger Daten nicht hätte erreicht werden können.
Variety: Wie unterschiedlich sind Big-Data-Daten?
Die immer größer werdende Datenmenge entsteht nicht zuletzt aufgrund der ständigen Zunahme der Datenquellen. Smartphones, Social Media, Internet-Transaktionen, aber auch Kameras und Sensoren und das Internet der Maschinen produzieren immer mehr Daten. Mit der Vielfalt der Quellen geht die Bandbreite der Datenarten und -strukturen einher. Anhand der Struktur lassen sich Daten grob in drei Arten unterteilen: strukturierte, semistrukturierte und unstrukturierte Daten.
1. Unter strukturierten Daten versteht man Daten, die eine gleichartige Struktur aufweisen. Deren Anordnung und Verknüpfung erfolgt in einer bestimmten Art und Weise. Strukturierten Daten liegt ein zuvor festgelegtes Datenbankmodell zugrunde, das die einzelnen Datenelemente und die Relationen untereinander definiert. Die Struktur ermöglicht eine effiziente Verwaltung und einen einfachen Zugriff auf die Daten. Ein Beispiel für derartige Datenstrukturen sind SQL-Datenbanken.
2. Im Gegensatz zu strukturierten Daten weisen semistrukturierte Daten kein allgemeingültiges einheitliches Schema auf. Sie implizieren die Strukturinformation, auch wenn diese nicht immer offensichtlich ist. Im Gegensatz zu strukturierten Daten sind mit semistrukturierten Daten tiefe, unregelmäßige und volatile Strukturen ohne wiederkehrende Komponenten darstellbar, was einen flexibleren Einsatz ermöglicht. Gleichzeitig verursacht das Mehr an Flexibilität auch ein Mehr an Aufwand beim Auslesen und Verarbeiten der Daten [17]. Semistrukturierte Daten, die auch als strukturtragende oder sich selbsterklärende Daten bezeichnet werden, sind zum Beispiel die im Internet weit verbreiteten HTML-, XML- oder JSON-Dateien, aber auch E-Mails, die zumindest im Header eine gewisse Struktur aufweisen.
3. Unstrukturierte Daten kommen, wie der Name vermuten lässt, ohne jegliche formale Struktur daher. Die fehlende Struktur erschwert die automatische Verarbeitung. Die Modellierung dieser Daten, um automatisch zu verarbeitende Strukturen zu gewinnen, ist oft mit einem Informationsverlust verbunden.
Neben der manuellen Strukturierung der Daten werden unterschiedliche Verfahren zu deren Aufbereitung eingesetzt. Dies sind zum Beispiel Textanalysen und Textmining, maschinenlernende Systeme, basierend auf latent semantischer Analyse [18], statistischer Bayes-Klassifikation oder neuronalen Netzen [19] sowie linguistischen Verfahren [20, 21, 22]. Auf Basis dieser Verfahren werden dann beispielsweise mittels Sentimentanalysen die Stimmungslagen in sozialen Netzwerken analysiert.
Betrachtet man strukturierte und semistrukturierte Daten auf der Ebene eines einzelnen Datums, kann dieses selbst unstrukturiert sein. So ist zum Beispiel die Nachricht einer E-Mail als Text unstrukturiert, wohingegen die E-Mail als solche semistrukturiert ist. Gleiches gilt für einen Text in einer strukturierten Datenbank.
Neben Texten zählen auch...