2 Big Data
Bereits 1998 ist der Begriff Big Data in der Literatur zu finden (Weiss und Indurkhya (1998)). Big Data ist ein Ansatz, mit dessen Hilfe Daten mit
• hohem Volumen (Volume),
• hoher Geschwindigkeit (Velocity),
• hoher Mannigfaltigkeit (Variety) und
• hoher Unsicherheit (Veracity)
gesammelt, gespeichert, verarbeitet, kommuniziert, ausgewertet, bereitgestellt und zielgerichtet genutzt werden können (Beyer und Laney (2012)). Im Englischen spricht man von den 4 V‘s (Volume, Velocity, Variety, Veracity). Einige Autoren ergänzen diese durch weitere Merkmale (Fan und Bifet (2012) oder Manyika et al. (2011)):
• Visualisierung (Visualisation)
• Bedeutungswandel (Variability)
• Wert (Value)
Ursprünglich hat man nur von den 3 V’s (Volume, Velocity und Variety) gesprochen (Douglas (2001) oder Russom (2011)). Ein weiterer Ansatz Big Data zu definieren ist das sogenannte HACE Theorem (Wu et al. (2014)). Nach dem HACE-Theorem liegt Big Data vor, wenn es sich um
• Huge heterogeneous data (große Datenmengen in unterschiedlichen Strukturen, siehe Volume und Variety)
• Autonomous sources (verteilte Datenquellen, siehe Variety)
• Complex (Beschreibung komplexer Sachverhalte, siehe Veracity)
• Evolving (sich ändernde Aspekte, siehe Variability)
handelt.
Die zentralen Ziele von Big Data sind, die Realität auf Basis umfangreicher Daten besser zu verstehen, datengestützte Aussagen zu formulieren und damit fundierte Entscheidungen zu treffen. Wesentliche Themen von Big Data sind die Beschaffung, Bereitstellung, Bereinigung, Vervollständigung, Zusammenführung, Analyse, Interpretation, Visualisierung und Nutzung von umfangreichen Daten aus unterschiedlichen Quellen.
Die unterschiedlichen Versuche, den Begriff Big Data zu definieren, können in folgender Struktur zusammengefasst werden:
• Technische Dimensionen
– Volume
– Velocity
– Variety
• Qualitative Dimensionen
– Veracity
– Variability
• Zieldimension
– Visualisation
– Value
Die technischen Dimensionen beschreiben den Umfang, die Bereitstellungs- und Verarbeitungsgeschwindigkeit und die Mannigfaltigkeit der Daten. Technische Entwicklungen bei Hardwarekomponenten (Speicherplatz, Rechenleistung, Übertragungsgeschwindigkeit, u. a.) und verbesserte Methoden im Bereich Advanced Analytics ermöglichen es, den höheren Anforderungen in den technischen Dimensionen gerecht zu werden.
Die qualitativen Dimensionen adressieren die Richtigkeit, Vertrauenswürdigkeit sowie die Gültigkeit der Daten. Nur durch Beziehungswissen (Semantik) sowie Wissen über das Anwendungsfeld (auch kontextbezogenes Wissen oder Domainwissen genannt) können die Anforderungen im Bereich Veracity sowie Variability erfüllt werden. In Kapitel 2.3.1 zur Visualisation wird gezeigt, dass die Transformation von Daten zu Informationen nur gelingen kann, wenn die qualitative Dimension von Big Data beherrscht wird.
Die Zieldimension umfasst die Themen Darstellung der Ergebnisse und Schaffung von Werten durch zielgerichtete Datennutzung. Beide Zieldimensionen unterstützen die Transformation der Informationen zu sinnvollem Wissen, das zu konkreten Entscheidungen oder Handlungen führt.
Einige Autoren (Dinter et al. (2015)) sehen Analytics als zusätzliche Dimension von Big Data. In diesem Buch wird Analytics als zentraler Teil von Business Analytics gesehen und im Kapitel 3.1 eingehend behandelt.
Nach Wrobel et al. (2014) bezeichnet Big Data den Trend zur Verfügbarkeit immer detaillierterer, komplexerer und zeitnäherer Daten, den Wechsel von einer modellgetriebenen zu einer daten- und modellgetriebenen Herangehensweise und die wirtschaftlichen, gesellschaftlichen und persönlichen Potenziale, die sich aus der Nutzung großer Datenbestände ergeben.
Es gibt zahlreiche Werkzeuge wie Hadoop, Rapid Miner, R oder Python, die das Bearbeiten von Daten im Sinne von Big Data in den sieben Dimensionen und Advandced Analytics unterstützen. Der Trend geht hier ganz klar Richtung Open source und Open data.
Einige Autoren sehen Big Data und den Versuch, immer komplexere Sachverhalte datenmäßig zu beschreiben bzw. zu verarbeiten durchaus kritisch und warnen vor blinder Datengläubigkeit (so etwa Davenport et al. (2012), Davenport (2014) oder Helfrich (2009)). Die Gefahren blinder Datengläubigkeit können durch richtige Anwendung der Business Analytics und durch zielorientiertes Vorgehen (Ross et al. (2013)) beseitigt werden.
Die Integration von Big Data-Ansätzen und die Verwendung von Advanced Analytics in Unternehmen wird durch
• fehlendes Wissen bzw. fehlende Experten in den Bereichen Big Data und Advanced Analytics,
• fehlende Verankerung in der Strategie,
• hohe Kosten,
• unklare Nutzendarstellung,
• Safety-Security Bedenken, Angst vor Cyber Crime,
• rechtliche Unsicherheiten, Datenschutz, Verwertungsrechte,
• Angst vor Know-how-Abfluss
gehemmt. Obige Hemmnisse können vor allem durch Personalentwicklung, Schaffung einer digitalisierungsfreundlichen Umgebung sowie Ressourcen und geeignete Partnerschaften überwunden werden. Das vorliegende Buch versucht, zur Beseitigung dieser Hemmnisse, einen Beitrag zu leisten und dabei insbesondere den Nutzen der Anwendung von Big Data darzustellen.
2.1 Technische Dimensionen von Big Data
2.1.1 Volume
Volume beschreibt die Menge an Daten, die gesammelt, verarbeitet und genutzt wird. Die Datenmenge wird in Byte gemessen. Es existieren unzählige Beispiele zur täglichen Verarbeitung gewaltiger Datenmengen. Facebook berichtet, dass pro Tag über 600 Terabyte (1 Terabyte = 1012 Byte) an Daten hochgeladen werden. Google verzeichnet über eine Milliarde Suchanfragen pro Tag. Jeden Tag werden über 150.000 Stunden Videos auf Youtube geladen und über vier Milliarden Videos pro Tag angesehen. Unvorstellbare 300 Milliarden E-Mails, viele davon Spams, werden pro Tag verschickt. Walmart verarbeitet über eine Million Kundentransaktionen pro Stunde und die Datenbestände von Walmart werden auf über 10 Petabyte (1 Petabyte = 1015 Byte) geschätzt. Laut Brynjolfsson und McAfee (2012) verdoppeln sich die weltweiten Businessdatenbestände alle 1,2 Jahre und jede Sekunde werden heute im Internet mehr Daten neu generiert als vor 20 Jahren in der Summe verfügbar waren. Im Alltagsleben werden wir Menschen zu herumspazierenden Datengeneratoren. Viele Gebrauchsgegenstände wie Mobiltelefone, Kartenlesegeräte, Bankomaten, Tablets, Navigationsgeräte, Wearables u. a. sammeln, speichern und geben kontinuierlich Daten, teilweise auch sehr persönliche, weiter. Im Geschäftsleben werden Maschinen, Werkzeuge, Werkstückträger, Transportbehälter, Lieferwägen usw. mit Sensoren und Datenübertragungseinrichtungen ausgestattet und senden sowie empfangen ständig Daten. Auf Plattformen, in Social Media-Umgebungen und den unterschiedlichsten IT-Systemen (Enterprise Ressource Planning: ERP, Supply Chain Management: SCM, Customer Relations Management: CRM, Manufacturing Execution System: MES, Supplier Relation Management: SRM) werden Daten erstellt, übertragen, gespeichert, verarbeitet und ausgewertet. Dies zusammen führt zu einem immer rasanter anwachsenden Datenbestand.
Die Verdoppelung der Datenbestände geht einher mit dem Mooreschen Gesetz, das besagt, dass sich alle ein bis zwei Jahre die Leistungsfähigkeit der Computer verdoppelt. Gleichzeitig verfallen die Preise für Computer, Sensoren sowie Datenübertragungseinrichtungen (Jodlbauer (2016a)). Zudem werden die Größe von Prozessoren, Datenspeichergeräten, Sensoren oder Übertragungseinheiten ständig kleiner. Zusammengefasst werden IT-Komponenten billiger, kleiner und leistungsfähiger – was in Summe zu einer höheren Verbreitung der IT und damit zu mehr Datenbeständen führt.
Hilbert und Lopez (2011) zeigen auf, dass beginnend im Jahr 1990 die analoge Datenspeicherung im Vergleich zur digitalen an Bedeutung verloren hat. Heute dürften bereits über 99% aller gespeicherten Daten in digitaler Form vorliegen. Eine breite Akzeptanz und damit...