Kapitel 2
Mehr
Bei Big Data geht es um das Erkennen und Verstehen von Beziehungen innerhalb von und zwischen Informationseinheiten, die wir bis vor Kurzem nur mit Mühe erfassen konnten. Mit den Worten von Jeff Jonas, Big-Data-Experte bei IBM, muss man die »Daten zu einem sprechen lassen«.17 Das klingt vielleicht trivial; schließlich nutzt der Mensch Daten schon sehr lange, um etwas über die Welt zu erfahren, sei es im ganz einfachen Sinn der ungezählten alltäglichen Wahrnehmungen oder auch, vor allem in den letzten Jahrhunderten, im formalen Sinn quantifizierter Einheiten, die mit entsprechenden Algorithmen verarbeitet werden können.
Das Digitalzeitalter mag die Datenverarbeitung einfacher und schneller gemacht haben; wir können Millionen Zahlen in einem einzigen Augenblick berechnen. Aber wenn es darum geht, die Daten sprechen zu lassen, meinen wir etwas anderes, darüber Hinausgehendes – ein Mehr. Wie bereits im ersten Kapitel ausgeführt, bewirkt Big Data drei große Umwälzungen, die miteinander verbunden sind und daher einander gegenseitig verstärken. Die erste ist die Möglichkeit der Analyse sehr großer Datenmengen bezogen auf ein konkretes Problem oder eine bestimmte Fragestellung, anstatt sich auf kleine Daten-Samples beschränken zu müssen. Die zweite ist die Bereitschaft, eine gewisse Unschärfe der Daten zu akzeptieren, anstatt auf Exaktheit zu bestehen. Die dritte ist ein wachsender Respekt für Korrelationen anstelle der ständigen Suche nach oftmals nur scheinbar zutreffenden Kausalitäten. Das vorliegende Kapitel befasst sich mit der ersten dieser Umwälzungen, nämlich der Verwendung aller vorhandenen Daten statt einer Auswahl.
Der Herausforderung, die in der Verarbeitung großer Datenmengen liegt, stehen wir schon eine ganze Weile gegenüber. Den größten Teil unserer Geschichte über haben wir uns auf wenige Daten beschränkt, weil unsere Instrumente zur Sammlung, Ordnung, Speicherung und Verarbeitung noch so unvollkommen waren. Gerade deshalb versuchten wir mit so wenig Daten wie möglich auszukommen. Das war eine unbewusste Selbstzensur: Wir haben die Schwierigkeit der Datenverarbeitung als bedauerliche Gegebenheit akzeptiert anstatt sie als künstliche Beschränkung durch unzulängliche Technik zu erkennen. Heute haben sich die technologischen Vorbedingungen fast ins Gegenteil verkehrt. Die handhabbaren Datenmengen sind immer noch begrenzt – das wird auch so bleiben –, aber diese Grenze ist dramatisch viel weiter gefasst als früher und nimmt selbst zu. Unser Spielraum wird also größer.
In mancher Hinsicht ist uns die neue Freiheit durch die Möglichkeit zur Sammlung und Auswertung großer Datenmengen noch gar nicht bewusst. In unserer Erfahrung und wie wir unsere gesellschaftlichen Institutionen konstituiert haben, setzten wir noch immer eine Informationsarmut voraus. Wir waren überzeugt davon, nur wenig Information sammeln und verarbeiten zu können, und handelten entsprechend. Und bestätigten damit unsere eigenen Prämissen. Wir entwickelten sogar spezielle Methoden, um mit möglichst wenig Datenmaterial auskommen zu können, aber daraus möglichst viele Ergebnisse gewinnen zu können. Darin besteht nicht zuletzt ein Ziel der Statistik. Und so fand die Praxis, mit möglichst wenigen Daten zu arbeiten, Eingang in die Regeln, Verfahren und Incentive-Strukturen unserer Gesellschaft. Um ein Gefühl dafür zu vermitteln, was der Wechsel hin zu Big Data tatsächlich bedeutet, werfen wir einen Blick in die Geschichte.
Erst seit Kurzem können Privatunternehmen und neuerdings sogar Einzelpersonen Daten in wirklich großem Maßstab sammeln und auswerten. Bisher oblag diese Aufgabe mächtigen Institutionen wie Kirche und Staat – was in vielen Gesellschaften auf dasselbe hinauslief. Die älteste überlieferte Spur einer systematischen Datensammlung stammt aus etwa 5000 v. Chr.; sie besteht aus kleinen Tonkügelchen, die von sumerischen Händlern zum Zählen ihrer Handelsware genutzt wurden. Zählen in größerem Umfang war Sache des Staates. Regierungen sammeln seit Jahrtausenden Informationen über ihre Bürger.
Nehmen wir nur Volkszählungen. Es soll sie schon im pharaonischen Ägypten gegeben haben, ebenso im alten China. Sie werden im Alten Testament erwähnt, und im Neuen Testament lesen wir von einer römischen Volkszählung unter Kaiser Augustus, um »den ganzen Erdkreis einzuschreiben« (Lukas 2,1), die Joseph und Maria nach Bethlehem führte, wo dann Jesus zur Welt kam. Das Domesday Book von 1086, eines der wichtigsten britischen Kulturgüter, war ein seinerzeit völlig neuartiger, einmaliger Versuch, die gesamte Bevölkerung des Königreichs England mit ihrem Landbesitz aufzulisten. Königliche Beauftragte schwärmten über das ganze Land aus und sammelten Informationen für das Verzeichnis, das später den Namen Domesday Book erhielt, also Buch des Jüngsten Tages, denn in ihm waren die Verhältnisse aller Menschen genauso schonungslos offengelegt, wie man es sich beim Jüngsten Gericht vorstellte.
Derartige Volkszählungen sind kosten- und zeitintensiv; Wilhelm der Eroberer, als König Auftraggeber des Domesday Book, erlebte dessen Vollendung nicht mehr. Aber die einzige Alternative wäre damals der Verzicht auf Informationssammlung gewesen. Und selbst mit all dem Zeit- und Geldaufwand erzielte man nur bedingt verlässliche Ergebnisse, weil die Volkszähler auch Fehler machten. Das Wort »Zensus«, als census schon die lateinische Bezeichnung für Volkszählungen, ist nicht ohne Grund vom Verb censere, »schätzen«, abgeleitet.
Vor mehr als 300 Jahren hatte der Engländer John Graunt eine neuartige Idee. Er interessierte sich dafür, wie viele Menschen damals zur Zeit der Großen Pest in London lebten. Dazu zählte er jedoch nicht alle Einwohner, sondern entwickelte eine Methode, die wir heute »statistisch« nennen würden und die ihm ermöglichte, eine Hochrechnung bezüglich der Gesamteinwohnerzahl zu erstellen. Der Ansatz war noch sehr grob, aber es war das erste Mal, dass aus einer kleinen Stichprobe nützliches Wissen über die Bevölkerung insgesamt extrapoliert wurde. Es kommt allerdings darauf an, wie man das macht, und Graunt multiplizierte einfach die Werte seiner Stichprobe.
Von den Zeitgenossen wurde sein System bestaunt; erst später stellte sich heraus, dass seine Zahlen nur zufällig ungefähr stimmten. Für Generationen blieb das Hochrechnen nach Stichproben mit schweren Fehlern behaftet. Daher blieb für Volkszählungen und vergleichbare große Datensammlungen nichts anderes übrig, als zu versuchen, alles zu zählen und zu erfassen.
Weil Volkszählungen so komplex, teuer und langwierig waren, blieben sie selten. Die alten Römer, die sich lange einer Bevölkerung von Millionen rühmten, führten alle fünf Jahre eine Volkszählung durch. In der Verfassung der USA sah man eine solche alle zehn Jahre vor, weil die rasch wachsende Bevölkerung bereits in die Millionen ging. Im späten 19. Jahrhundert wurde aber selbst dieser lange Zeitraum allmählich zu kurz. Die Datenflut überforderte die damit befasste Behörde immer stärker.18
Es dauerte acht lange Jahre, die Volkszählung von 1880 abzuschließen, und ihre Ergebnisse waren schon vor ihrer Veröffentlichung veraltet. Für die Volkszählung 1890 wurde eine Bearbeitungsdauer von 13 Jahren vorausgesagt – das war nicht nur ein Verfassungsbruch, sondern schlicht lächerlich. Weil aber Besteuerung und Wahlbezirkseinteilung von den Bevölkerungszahlen abhingen, war es unverzichtbar, dass die Volkszählungsdaten nicht nur korrekt, sondern zeitgerecht ermittelt wurden.
Das Problem, dem sich die Volkszählungsbehörde damals gegenübersah, glich dem von Forschung und Wirtschaft zu Beginn unseres Jahrtausends, als sich beide von der zunehmenden Datenmenge förmlich begraben fühlten: Die gesammelte Information überforderte die Verarbeitungskapazität bei Weitem; es mussten dringend neue Werkzeuge entwickelt werden. In den 1880er Jahren war die Lage der Volkszählungsbehörde so verzweifelt, dass sie einen Vertrag mit dem amerikanischen Erfinder Herman Hollerith abschloss, für die Volkszählung 1890 von ihm entwickelte Lochkarten und Tabelliermaschinen zu verwenden.
Mit enormer Mühe gelang es Hollerith, die Bearbeitungszeit von acht Jahren auf weniger als ein Jahr zu drücken. Das war eine erstaunliche Leistung und der Anfang der automationsunterstützten Datenverarbeitung (sowie des Unternehmens, aus dem später IBM hervorgehen sollte). Das Verfahren selbst war freilich extrem kostenaufwendig; schließlich musste jeder einzelne Einwohner der USA einen Fragebogen ausfüllen, dessen Daten auf eine Lochkarte übertragen wurden, welche dann verarbeitet wurde. Angesichts dieses Aufwands war es kaum vorstellbar, die Zeit zwischen den Volkszählungen auf weniger als ein Jahrzehnt zu verkürzen, obwohl die rasch wachsenden USA durchaus einen Überblick ihrer Entwicklung in kürzeren Zeitabständen gebraucht hätten.
Das Dilemma hieß also: Alle Daten sammeln oder doch nur einen Teil? Sicherlich ist es am sinnvollsten, alle Daten mittels eines Zähl- oder Messvorgangs zu erheben, aber das ist unmöglich, wenn die Datenmenge zu groß wird. Wie aber soll man eine Stichprobe eingrenzen? Einige Experten vertraten die Ansicht, dass die Wahl einer repräsentativen Teilmenge der beste Weg sei, aber 1934 konnte der polnische Statistiker Jerzy Neyman überzeugend darlegen, dass ein solcher Ansatz zu großen Fehlern führt und man die Stichprobe (das sog. Sample) vielmehr nach dem Zufallsprinzip auswählen muss.19
Die Statistiker haben nachgewiesen, dass eine zufällige...